このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210225となっている論文です。

PDF登録状況(公開日: 20210225)

TitleAuthorsAbstract論文公表日・翻訳日
# キャリア閉じ込めが強い欠陥のない軸重畳GaAs/GaAsPナノワイヤ量子ドット

Defect-Free Axially-Stacked GaAs/GaAsP Nanowire Quantum Dots with Strong Carrier Confinement ( http://arxiv.org/abs/2002.07071v2 )

ライセンス: Link先を確認
Yunyan Zhang, Anton V. Velichko, H. Aruni Fonseka, Patrick Parkinson, George Davis, James A. Gott, Martin Aagesen, Ana M. Sanchez, David Mowbray and Huiyun Liu(参考訳) ナノワイヤ(NW)における軸スタック量子ドット(QD)は、ナノスケール量子デバイスやレーザーの製造において重要な応用である。 その性能は結晶の質や構造に非常に敏感であるが、auフリーモードによる欠陥のない成長と高性能化のための構造最適化に関する研究は相対的に少ない。 本報告では, 自己触媒による欠陥のない軸方向固定型深部NWQDの詳細な研究を報告する。 50GaAsQDを1つのGaAsPNWに配置すると、高い構造品質が維持される。 QDは、非常に鋭い界面(1.8~3.6nm)を持ち、非常に類似した構造特性で密に積み重ねることができる。 それらは非窒化物iii-v nwqdの中で最も深いキャリア閉じ込め(約90 mev)と最大のエキシトン-ビエクシトン分離(約11 mev)を示し、優れた安定性のために6ヶ月以上環境雰囲気に保存した後、良好な光学特性を維持することができる。 本研究は、CMOS技術と互換性のある高性能な軸配置NWQDデバイスを構築するための基盤となる。

Axially-stacked quantum dots (QDs) in nanowires (NWs) have important applications in fabricating nanoscale quantum devices and lasers. Although their performances are very sensitive to crystal quality and structures, there is relatively little study on defect-free growth with Au-free mode and structure optimisation for achiving high performances. Here, we report a detailed study of the first self-catalyzed defect-free axially-stacked deep NWQDs. High structural quality is maintained when 50 GaAs QDs are placed in a single GaAsP NW. The QDs have very sharp interfaces (1.8~3.6 nm) and can be closely stacked with very similar structural properties. They exhibit the deepest carrier confinement (~90 meV) and largest exciton-biexciton splitting (~11 meV) among non-nitride III-V NWQDs, and can maintain good optical properties after being stored in ambient atmosphere for over 6 months due to excellent stability. Our study sets a solid foundation to build high-performance axially-stacked NWQD devices that are compatible with CMOS technologies.
翻訳日:2023-06-04 18:25:07 公開日:2021-02-25
# 量子過程における熱力学的散逸の初期状態依存性

Initial-State Dependence of Thermodynamic Dissipation for any Quantum Process ( http://arxiv.org/abs/2002.11425v3 )

ライセンス: Link先を確認
Paul M. Riechers and Mile Gu(参考訳) 任意の時間スケールでの開量子系の非平衡熱力学に関する新しい正確な結果は、系の初期条件、その環境、およびそれらの相関の全ての可能な変動を考慮に入れて得られる。 まず、エントロピー生成のための新しい量子情報理論等式を求め、システムと環境の任意の初期結合状態に有効である。 固定初期環境を持つ任意の有限時間過程に対して、系の区別(最小散逸状態に対する)の収縮がその熱力学的散逸を正確に定量化することを示す。 この散逸の量子成分は、最小散逸状態に対するコヒーレンスの変化である。 量子状態の準備と局所制御について考察する。 特定の量子状態の準備のように、非単位過程では、実際の初期状態が予想される状態と直交するにつれて、不一致な期待が散逸する。

New exact results about the nonequilibrium thermodynamics of open quantum systems at arbitrary timescales are obtained by considering all possible variations of initial conditions of a system, its environment, and correlations between them. First we obtain a new quantum-information theoretic equality for entropy production, valid for an arbitrary initial joint state of system and environment. For any finite-time process with a fixed initial environment, we then show that the contraction of the system's distinction -- relative to the minimally dissipative state -- exactly quantifies its thermodynamic dissipation. The quantum component of this dissipation is the change in coherence relative to the minimally dissipative state. Implications for quantum state preparation and local control are explored. For nonunitary processes -- like the preparation of any particular quantum state -- we find that mismatched expectations lead to divergent dissipation as the actual initial state becomes orthogonal to the anticipated one.
翻訳日:2023-06-01 21:25:49 公開日:2021-02-25
# キャビティQEDにおけるゲージ曖昧性回避

Avoiding gauge ambiguities in cavity QED ( http://arxiv.org/abs/2003.04899v2 )

ライセンス: Link先を確認
Dominic M. Rouse, Brendon W. Lovett, Erik M. Gauger and Niclas Westerberg(参考訳) 相互作用電荷と磁場の系は物理学においてユビキタスである。 近年、異なるゲージを用いて導かれたハミルトン人は、自由度がいくつかの低いエネルギー固有状態に切り替わるときに異なる物理結果が得られることが示されている。 この効果は特に超強結合系において顕著である。 このような曖昧さは、変換が光と物質の間の自由度を再シャッフルするため、準位切り下げはゲージ依存近似である。 このゲージの曖昧さを避けるために、この理論のゲージ選択によって得られる正準モータとハミルトニアンが明示的に変化しないポテンシャルの観点から電磁場を再定義する。 代わりに、光/物質分配は、変位と偏光の寄与の間の電場を分離する直感的な選択によって割り当てられる。 このアプローチは典型的な空洞量子電磁力学の状況において魅力的な選択である。

Systems of interacting charges and fields are ubiquitous in physics. Recently, it has been shown that Hamiltonians derived using different gauges can yield different physical results when matter degrees of freedom are truncated to a few low-lying energy eigenstates. This effect is particularly prominent in the ultra-strong coupling regime. Such ambiguities arise because transformations reshuffle the partition between light and matter degrees of freedom and so level truncation is a gauge dependent approximation. To avoid this gauge ambiguity, we redefine the electromagnetic fields in terms of potentials for which the resulting canonical momenta and Hamiltonian are explicitly unchanged by the gauge choice of this theory. Instead the light/matter partition is assigned by the intuitive choice of separating an electric field between displacement and polarisation contributions. This approach is an attractive choice in typical cavity quantum electrodynamics situations.
翻訳日:2023-05-30 00:55:09 公開日:2021-02-25
# すべての状態は量子熱力学における普遍触媒である

All states are universal catalysts in quantum thermodynamics ( http://arxiv.org/abs/2006.16290v2 )

ライセンス: Link先を確認
Patryk Lipka-Bartosik and Paul Skrzypczyk(参考訳) 量子触媒(quantum catalysis)は、特定の変換が、影響を受けない特定のリソースへのアクセスを与えられた場合にのみ可能となることを示す興味深い概念である。 エンタングルメント理論の文脈で最初に発見され、その後量子熱力学を含む多くの資源理論の枠組みに応用された。 その場合、触媒の存在に関する必要条件(時には十分条件)は知られているが、変換によって必要とされる触媒状態の正確な形についてはほとんど何も知られていない。 特に、ある特別な性質を持つ必要があるのか、あるいは所望の変換に微調整する必要があるのかははっきりしない。 本研究では,マルチコピー状態の驚くべき性質について述べる。資源理論では,すべての資源状態がすべての許容変換に対して触媒であることを示す。 量子熱力学では、いわゆる「第2の熱力学の法則」は微調整された触媒を必要としないが、十分な数のコピーが与えられた状態は有用な触媒として機能する。 これらの解析結果は、多くの許容される変換を触媒的に活性化するために、マルチコピー形式も非常に大きな次元触媒も必要としないことを示すいくつかの数値的研究を伴う。

Quantum catalysis is a fascinating concept which demonstrates that certain transformations can only become possible when given access to a specific resource that has to be returned unaffected. It was first discovered in the context of entanglement theory and since then applied in a number of resource-theoretic frameworks, including quantum thermodynamics. Although in that case the necessary (and sometimes also sufficient) conditions on the existence of a catalyst are known, almost nothing is known about the precise form of the catalyst state required by the transformation. In particular, it is not clear whether it has to have some special properties or be finely tuned to the desired transformation. In this work we describe a surprising property of multi-copy states: we show that in resource theories governed by majorization all resourceful states are catalysts for all allowed transformations. In quantum thermodynamics this means that the so-called "second laws of thermodynamics" do not require a fine-tuned catalyst but rather any state, given sufficiently many copies, can serve as a useful catalyst. These analytic results are accompanied by several numerical investigations that indicate that neither a multi-copy form nor a very large dimension catalyst are required to activate most allowed transformations catalytically.
翻訳日:2023-05-12 03:18:29 公開日:2021-02-25
# 量子環境絡み合いの発生とスピンエコー

Qubit-environment entanglement generation and the spin echo ( http://arxiv.org/abs/2007.02656v2 )

ライセンス: Link先を確認
Katarzyna Roszak and {\L}ukasz Cywi\'nski(参考訳) 我々は、クビットの純粋強調中に生成できるクビット環境の絡み合いとスピンエコープロトコルの有効性の関係を解析する。 ここでは環境の混合状態に注目します。 エコープロトコルは明らかに古典的な環境騒音に対処できるが, 量子環境の絡み合いに関係したデフォーカスを解き放つことが可能であり, 両者の効率に明らかな違いはないことを示す。 さらに、キュービットのローカル操作("pi}パルス)が適用された時点では、エコープロトコルの最後にキュービット環境エンタングルメントが生成可能であることを示す。 エコープロトコルの時間長を微調整した結果,これは孤立点のみに発生することが証明された。 最後に、エコー信号の特定の特徴の観測が、結合量子環境進化の絡み合う性質の証となる条件について議論する。

We analyze the relationship between qubit-environment entanglement that can be created during the pure dephasing of the qubit and the effectiveness of the spin echo protocol. We focus here on mixed states of the environment. We show that while the echo protocol can obviously counteract classical environmental noise, it can also undo dephasing associated with qubit-environment entanglement, and there is no obvious difference in its efficiency in these two cases. Additionally, we show that qubit-environment entanglement can be generated at the end of the echo protocol even when it is absent at the time of application of the local operation on the qubit (the {\pi} pulse). We prove that this can occur only at isolated points in time, after fine-tuning of the echo protocol duration. Finally, we discuss the conditions under which the observation of specific features of the echo signal can serve as a witness of the entangling nature of the joint qubit-environment evolution.
翻訳日:2023-05-11 04:20:47 公開日:2021-02-25
# 競合する監視プロトコル下でのエントロピースケーリング遷移

Entanglement entropy scaling transition under competing monitoring protocols ( http://arxiv.org/abs/2008.08619v2 )

ライセンス: Link先を確認
Mathias Van Regemortel, Ze-Pei Cian, Alireza Seif, Hossein Dehghani, and Mohammad Hafezi(参考訳) 散逸は一般に量子状態の非一貫性をもたらす。 対照的に、多くの最近の提案では、多くの体が絡み合った量子状態の安定化のために散逸を調整できることを示している。 これらの研究の焦点は主に非平衡定常状態の工学であるが、量子軌道における絡み合いの蓄積について検討する。 具体的には、2つの非互換な連続監視プロトコルから生じる2つの異なる散逸チャネル間の競合を分析する。 第1プロトコルは、量子ジャンプを登録すると隣接するサイトの位相をロックし、システムを通して長距離の絡み合いを生成し、第2プロトコルはデファスメント機構を介してコヒーレンスを破壊する。 連続的な監視プロトコルに付随する確率的量子軌道の展開を研究することにより、臨界スケーリングから領域法的な振る舞いへの平均軌道エンタングルメントエントロピーのスケーリングの遷移を示す。 我々の研究は、測定誘起相転移の別の視点を提供する: 測定は量子ジャンプの監視と登録として見ることができ、量子光学の長年の領域を通してこれらの相転移の興味深い拡張を提供する。

Dissipation generally leads to the decoherence of a quantum state. In contrast, numerous recent proposals have illustrated that dissipation can also be tailored to stabilize many-body entangled quantum states. While the focus of these works has been primarily on engineering the non-equilibrium steady state, we investigate the build-up of entanglement in the quantum trajectories. Specifically, we analyze the competition between two different dissipation channels arising from two incompatible continuous monitoring protocols. The first protocol locks the phase of neighboring sites upon registering a quantum jump, thereby generating a long-range entanglement through the system, while the second destroys the coherence via a dephasing mechanism. By studying the unraveling of stochastic quantum trajectories associated with the continuous monitoring protocols, we present a transition for the scaling of the averaged trajectory entanglement entropies, from critical scaling to area-law behavior. Our work provides an alternative perspective on the measurement-induced phase transition: the measurement can be viewed as monitoring and registering quantum jumps, offering an intriguing extension of these phase transitions through the long-established realm of quantum optics.
翻訳日:2023-05-05 20:26:12 公開日:2021-02-25
# 3つの対角化の物語

A tale of three diagonalizations ( http://arxiv.org/abs/2009.03990v3 )

ライセンス: Link先を確認
Howard E. Haber(参考訳) ユニタリ類似性変換による正規行列の対角化に加えて、量子論の応用においてしばしば生じる2種類の対角化手順(特異値分解とオートン・タカギ分解)が存在する。 本論文は,これらの対角化手順を,対応する対角化が可能となる2ドル2セント行列に対して実施し,各3症例について明確な解析結果を提供するものである。

In addition to the diagonalization of a normal matrix by a unitary similarity transformation, there are two other types of diagonalization procedures that sometimes arise in quantum theory applications -- the singular value decomposition and the Autonne-Takagi factorization. In these pedagogical notes, we carry out each of these diagonalization procedures for the most general $2\times 2$ matrices for which the corresponding diagonalization is possible and provide explicit analytical results in each of the three cases.
翻訳日:2023-05-03 11:12:44 公開日:2021-02-25
# 温度可変ノイズ源を用いた低温増幅器の特性評価

Characterizing cryogenic amplifiers with a matched temperature-variable noise source ( http://arxiv.org/abs/2009.03010v2 )

ライセンス: Link先を確認
Slawomir Simbierowicz, Visa Vesterinen, Joshua Milem, Aleksi Lintunen, Mika Oksanen, Leif Roschier, Leif Gr\"onberg, Juha Hassel, David Gunnarsson, and Russell E. Lake(参考訳) クライオスタットの同軸線に設置可能な50$\omega$の特性インピーダンスを持つ極低温マイクロ波ノイズ源を提案する。 ノイズ源の浴温度は0.1Kから5Kの間で連続的に変動し、試料空間でのバックアクション加熱を著しく起こさない。 概念実証実験として、移動波パラメトリック増幅器と商用高電子移動型トランジスタ増幅器を含む増幅器カスケードのY因子測定を行った。 我々は、680^{+20}_{-200}$ mKを1.5^{+0.1}_{-0.7}$過剰光子に対応する5.7GHzで観測する。 本システムでは、固体量子ビット読み出しラインの検証に即効性を有する。

We present a cryogenic microwave noise source with a characteristic impedance of 50 $\Omega$, which can be installed in a coaxial line of a cryostat. The bath temperature of the noise source is continuously variable between 0.1 K and 5 K without causing significant back-action heating on the sample space. As a proof-of-concept experiment, we perform Y-factor measurements of an amplifier cascade that includes a traveling wave parametric amplifier and a commercial high electron mobility transistor amplifier. We observe system noise temperatures as low as $680^{+20}_{-200}$ mK at 5.7 GHz corresponding to $1.5^{+0.1}_{-0.7}$ excess photons. The system we present has immediate applications in the validation of solid-state qubit readout lines.
翻訳日:2023-05-03 07:32:41 公開日:2021-02-25
# 非平衡ダイソン方程式の数値解における低階圧縮

Low rank compression in the numerical solution of the nonequilibrium Dyson equation ( http://arxiv.org/abs/2010.06511v3 )

ライセンス: Link先を確認
Jason Kaye, Denis Gole\v{z}(参考訳) ケルディシュ形式論における非平衡ダイソン方程式に対する数値解法の計算効率とメモリ効率を改善する方法を提案する。 これは、非平衡グリーンの関数と自己エネルギーが多くの物理的関心の問題を生じさせ、行列として識別され、低いランクの対角ブロックを持ち、従って階層的な低階データ構造を用いて圧縮できるという経験的観察に基づいている。 本稿では,この圧縮表現を時間ステップ中に高速に構築し,計算履歴積分のコストを低減させるアルゴリズムについて述べる。 階層的低ランク特性を持つシステムでは、非平衡ダイソン方程式を立方体から近2次体に解く計算複雑性を低減し、メモリ複雑性を二次から近線形に減らす。 本稿では,ファリコフ・キムボールモデルに対するシステムパラメータの高速ランプとフロッケ駆動の完全解法を実証し,実現可能な伝搬時間を大幅に増加させることができることを示す。 提案手法では,262144の時間ステップで計算時間約5ヶ月と2.2TBのメモリを必要とするが,本手法ではメモリ4GB未満のラップトップ上で1日で完了する。 また,gw近似における弱結合系と動的平均場理論における強結合系において,駆動ハバードモデルに対する階層的低ランク性を確認した。

We propose a method to improve the computational and memory efficiency of numerical solvers for the nonequilibrium Dyson equation in the Keldysh formalism. It is based on the empirical observation that the nonequilibrium Green's functions and self energies arising in many problems of physical interest, discretized as matrices, have low rank off-diagonal blocks, and can therefore be compressed using a hierarchical low rank data structure. We describe an efficient algorithm to build this compressed representation on the fly during the course of time stepping, and use the representation to reduce the cost of computing history integrals, which is the main computational bottleneck. For systems with the hierarchical low rank property, our method reduces the computational complexity of solving the nonequilibrium Dyson equation from cubic to near quadratic, and the memory complexity from quadratic to near linear. We demonstrate the full solver for the Falicov-Kimball model exposed to a rapid ramp and Floquet driving of system parameters, and are able to increase feasible propagation times substantially. We present examples with 262144 time steps, which would require approximately five months of computing time and 2.2 TB of memory using the direct time stepping method, but can be completed in just over a day on a laptop with less than 4 GB of memory using our method. We also confirm the hierarchical low rank property for the driven Hubbard model in the weak coupling regime within the GW approximation, and in the strong coupling regime within dynamical mean-field theory.
翻訳日:2023-04-29 04:54:20 公開日:2021-02-25
# Tequila: 量子アルゴリズムの迅速な開発のためのプラットフォーム

Tequila: A platform for rapid development of quantum algorithms ( http://arxiv.org/abs/2011.03057v2 )

ライセンス: Link先を確認
Jakob S. Kottmann, Sumner Alperin-Lea, Teresa Tamayo-Mendoza, Alba Cervera-Lierta, Cyrille Lavigne, Tzu-Ching Yen, Vladyslav Verteletskyi, Philipp Schleich, Abhinav Anand, Matthias Degroote, Skylar Chaney, Maha Kesibi, Naomi Grace Curnow, Brandon Solo, Georgios Tsilimigkounakis, Claudia Zendejas-Morales, Artur F. Izmaylov, Al\'an Aspuru-Guzik(参考訳) 変分量子アルゴリズムは現在、短期量子コンピュータに展開するための最も有望なアルゴリズムである。 古典的アルゴリズムとは対照的に、量子アルゴリズム開発における標準的な手法はほとんどなく、この分野は急速に進化を続けている。 古典コンピューティングと同様に、ヒューリスティックスは新しい量子アルゴリズムの開発において重要な役割を担っており、新しいアイデアを実装し、テストし、共有するための柔軟で信頼性の高い方法への高い需要をもたらしている。 この要求にインスパイアされたテキラは、高速で柔軟な実装、プロトタイピング、電子構造やその他の分野における新しい量子アルゴリズムの展開のために設計されたピソンにおける量子アルゴリズムの開発パッケージである。 Tequilaは、組み合わせ、変換、分化、最適化が可能な抽象期待値で動作する。 評価では、抽象データ構造がコンパイルされ、最先端の量子シミュレータやインターフェース上で動作する。

Variational quantum algorithms are currently the most promising class of algorithms for deployment on near-term quantum computers. In contrast to classical algorithms, there are almost no standardized methods in quantum algorithmic development yet, and the field continues to evolve rapidly. As in classical computing, heuristics play a crucial role in the development of new quantum algorithms, resulting in high demand for flexible and reliable ways to implement, test, and share new ideas. Inspired by this demand, we introduce tequila, a development package for quantum algorithms in python, designed for fast and flexible implementation, prototyping, and deployment of novel quantum algorithms in electronic structure and other fields. Tequila operates with abstract expectation values which can be combined, transformed, differentiated, and optimized. On evaluation, the abstract data structures are compiled to run on state-of-the-art quantum simulators or interfaces.
翻訳日:2023-04-25 05:07:07 公開日:2021-02-25
# 波長可変グラフェンフォノニック結晶

Tunable graphene phononic crystal ( http://arxiv.org/abs/2011.14707v2 )

ライセンス: Link先を確認
Jan N. Kirchhof, Kristina Weinel, Sebastian Heeg, Victor Deinhart, Sviatoslav Kovalchuk, Katja Hoeflich and Kirill I. Bolotin(参考訳) 音韻学の分野では、周期的なパターニングが振動を制御し、熱と音の物質の流れを制御する。 このようなフォノニック結晶で発生するバンドギャップは、低拡散振動モードを実現し、機械的量子ビット、効率的な導波路、最先端のセンシングへの応用を可能にする。 ここでは, 音速と二次元材料を組み合わせて, 機械的圧力による音速結晶の操作の可能性を探る。 そこで我々は単層グラフェンから可能な最も薄いフォノニック結晶を作製し,その振動特性をシミュレートした。 MHz におけるバンドギャップは、小さな有効質量 0.72 ag = 0.002 $m_{physical}$ の欠陥モードを局所化する。 最後に,グラフェンの柔軟性を活かし,有限サイズのフォノニック結晶を機械的に調整する。 30kPaまでの静電圧下では, 全音速系の周波数のアップシフトを350%以上観測する。 同時に、欠陥モードはバンドギャップ内に留まり、ローカライズされ、高品質で動的に調整可能なメカニカルシステムを示唆する。

In the field of phononics, periodic patterning controls vibrations and thereby the flow of heat and sound in matter. Bandgaps arising in such phononic crystals realize low-dissipation vibrational modes and enable applications towards mechanical qubits, efficient waveguides, and state-of-the-art sensing. Here, we combine phononics and two-dimensional materials and explore the possibility of manipulating phononic crystals via applied mechanical pressure. To this end, we fabricate the thinnest possible phononic crystal from monolayer graphene and simulate its vibrational properties. We find a bandgap in the MHz regime, within which we localize a defect mode with a small effective mass of 0.72 ag = 0.002 $m_{physical}$. Finally, we take advantage of graphene's flexibility and mechanically tune a finite size phononic crystal. Under electrostatic pressure up to 30 kPa, we observe an upshift in frequency of the entire phononic system by more than 350%. At the same time, the defect mode stays within the bandgap and remains localized, suggesting a high-quality, dynamically tunable mechanical system.
翻訳日:2023-04-22 14:38:37 公開日:2021-02-25
# 3導波路の散逸系における超広帯域ビーム分割

Ultrabroadband beam splitting in a dissipative system of three waveguides ( http://arxiv.org/abs/2012.02485v2 )

ライセンス: Link先を確認
Rim Alrifai, Virginie Coda, Jonathan Peltier, Andon A. Rangelov, and Germano Montemezzani(参考訳) 中央の導波路が散逸する3つの並列導波路の系は、全体の50%の損失を伴う超広帯域の電力分割に繋がることを示す。 このアプローチは、量子力学における非エルミート系を想起させるものであり、外部導波路と中心導波路の完全な効率的な指数マッチングを必要としない。 この概念は導波路パラメータの遅い断熱的進化を必要としないため、特に中心導波路がプラズモン型である場合、非常に短い装置長で実現される可能性がある。

We show that a system of three parallel waveguides, among which the central one is dissipative, leads to an ultrabroadband power splitting associated with an overall 50% power loss. The present approach is reminiscent of non-Hermitian systems in quantum mechanics and does not require a perfect effective index matching between the external and the central waveguides. The present concept does not need any slow adiabatic evolution of the waveguide parameters and may therefore be realized over very short device lengths, especially in the case where the central waveguide is of the plasmonic type.
翻訳日:2023-04-22 03:03:49 公開日:2021-02-25
# 若年ダイアグラムからのマルチパートエンタングルメントのメトロロジカル検出

Metrological Detection of Multipartite Entanglement from Young Diagrams ( http://arxiv.org/abs/2012.03862v2 )

ライセンス: Link先を確認
Zhihong Ren, Weidong Li, Augusto Smerzi and Manuel Gessner(参考訳) 若図形で分割を表現することにより, メソジカルに有用な多部交絡を特徴付ける。 我々は、ヤング図形の形状に敏感な絡み合いの証人を導き、ダイソンのランクが量子力学の情報源となることを示す。 エンタングルメント深さや$k$-セパビリティのような一般的な量化器は、図の幅と高さとしてこのアプローチに含まれる。 提案手法は、量子フィッシャー情報およびスピンスクイーズ係数に関する公表されたデータを解析することにより、幅広い原子系で実験的に利用可能となる。

We characterize metrologically useful multipartite entanglement by representing partitions with Young diagrams. We derive entanglement witnesses that are sensitive to the shape of Young diagrams and show that Dyson's rank acts as a resource for quantum metrology. Common quantifiers, such as the entanglement depth and $k$-separability are contained in this approach as the diagram's width and height. Our methods are experimentally accessible in a wide range of atomic systems, as we illustrate by analyzing published data on the quantum Fisher information and spin-squeezing coefficients.
翻訳日:2023-04-21 20:55:21 公開日:2021-02-25
# 2状態量子系のコヒーレント制御技術:比較研究

Coherent control techniques for two-state quantum systems: A comparative study ( http://arxiv.org/abs/2012.15120v2 )

ライセンス: Link先を確認
Boyan T. Torosov, Bruce W. Shore, Nikolay V. Vitanov(参考訳) 共振励起,断熱追従,複合断熱通路,普遍複合パルス,断熱への近道,単発型パルスの6つの一般的なコヒーレント制御技術を用いて,2状態量子系の特定のコヒーレント変化を発生しようとすると生じる様々な誤り源を評価する。 誤差源として,空間強度分布,経時変化,不均質拡大,ドップラー拡大,不必要なチャープ,形状誤差を考える。 様々なエラータイプに対して、様々なテクニックが最高のパフォーマーとして現れるが、全体としては、普遍的な複合パルスが最も一貫して動作し、他のすべての手順と比較して最も耐障害性が高い。

We evaluate various sources of errors that occur when attempting to produce a specified coherent change of a two-state quantum system using six popular coherent control techniques: resonant excitation, adiabatic following, composite adiabatic passage, universal composite pulses, shortcut to adiabaticity, and single-shot shaped pulses. As error sources we consider spatial intensity distribution, transit time variation, inhomogeneous broadening, Doppler broadening, unwanted chirp and shape errors. For the various error types different techniques emerge as the best performers but overall, we find that universal composite pulses perform most consistently and are most resilient to errors compared to all other procedures.
翻訳日:2023-04-18 07:55:57 公開日:2021-02-25
# 一般ガウス雑音に対する連続可変誤差補正

Continuous-variable error correction for general Gaussian noises ( http://arxiv.org/abs/2101.02300v2 )

ライセンス: Link先を確認
Jing Wu and Quntao Zhuang(参考訳) ノイズの多いデバイスを用いた堅牢な量子情報処理には量子エラー補正が不可欠である。 ボゾン量子系は量子センシング、通信、計算において重要な役割を果たすため、様々な種類のノイズに対してこれらの系に適した誤り訂正符号を設計することが重要である。 ほとんどの試みは、ボソニックモードの無限次元ヒルベルト空間に符号化された量子ビットを保護することを目的としているが、[Phys. 125, 080503 (2020)] は、単一のボソニックモードを複数のボソニックモードに符号化することで、ボソニックシステムの無限次元ヒルベルト空間の性質を維持するための誤り訂正符号を提案した。 Gottesman-Kitaev-Preskill状態がアンシラとして利用可能であり、コードはガウス誤差補正のノーゴー定理を克服する。 本研究では,メモリ効果を含む一般相関および異種ガウス雑音のシナリオに誤り訂正符号を一般化する。 一般雑音モデルを白色ガウス雑音チャネルの独立だが不均質なコレクションに変換するためにガウス前処理と後処理を導入し,連結符号を最適化した手法で適用する。 本研究では,符号の非ガウス性に拘わらず,誤り訂正後の雑音標準偏差の効率的な計算を可能にする理論フレームワークを開発した。 我々のコードでは、モード数に応じて残差ノイズ標準偏差の最適スケーリングを提供し、分散センサネットワーク、ネットワーク通信、複合量子メモリシステムに広く適用することができる。

Quantum error correction is essential for robust quantum information processing with noisy devices. As bosonic quantum systems play a crucial role in quantum sensing, communication, and computation, it is important to design error correction codes suitable for these systems against various different types of noises. While most efforts aim at protecting qubits encoded into the infinite dimensional Hilbert space of a bosonic mode, [Phys. Rev. Lett. 125, 080503 (2020)] proposed an error correction code to maintain the infinite-dimensional-Hilbert-space nature of bosonic systems by encoding a single bosonic mode into multiple bosonic modes. Enabled by Gottesman-Kitaev-Preskill states as ancilla, the code overcomes the no-go theorem of Gaussian error correction. In this work, we generalize the error correction code to the scenario with general correlated and heterogeneous Gaussian noises, including memory effects. We introduce Gaussian pre-processing and post-processing to convert the general noise model to an independent but heterogeneous collection of additive white Gaussian noise channels and then apply concatenated codes in an optimized manner. To evaluate the performance, we develop a theory framework to enable the efficient calculation of the noise standard deviation after the error correction, despite the non-Gaussian nature of the codes. Our code provides the optimal scaling of the residue noise standard deviation with the number of modes and can be widely applied to distributed sensor-networks, network communication and composite quantum memory systems.
翻訳日:2023-04-17 17:42:10 公開日:2021-02-25
# t-SNEによるガンの進化の実証

Demonstrating the Evolution of GANs through t-SNE ( http://arxiv.org/abs/2102.00524v2 )

ライセンス: Link先を確認
Victor Costa, Nuno Louren\c{c}o, Jo\~ao Correia, Penousal Machado(参考訳) GAN(Generative Adversarial Networks)は、主に画像領域において強力な結果を得る強力な生成モデルである。 しかし、GANの訓練は簡単ではなく、異なる戦略に対処するいくつかの課題を提示している。 COEGANのような進化的アルゴリズムは、最近、GANトレーニングを改善するソリューションとして提案され、勾配の消失やモード崩壊といったモデルに影響を与える一般的な問題を克服した。 本稿では,gansの進歩を評価し,ジェネレータが学習した分布を可視化するために,t-distributed stochastic neighbor embedded (t-sne)に基づく評価手法を提案する。 学習した識別器から抽出した特徴空間を用いて,ジェネレータおよび入力データセットから生成されたサンプルを評価する。 モデル品質を表すためにt-sneマップとjaccardインデックスに基づくメトリクスが提案されている。 COEGANを用いてGANの進行を評価する実験を行った。 その結果, 視覚検査と指標によって, 進化アルゴリズムは世代を通じて識別器や生成器を徐々に改善し, モード崩壊などの問題を回避することができた。

Generative Adversarial Networks (GANs) are powerful generative models that achieved strong results, mainly in the image domain. However, the training of GANs is not trivial, presenting some challenges tackled by different strategies. Evolutionary algorithms, such as COEGAN, were recently proposed as a solution to improve the GAN training, overcoming common problems that affect the model, such as vanishing gradient and mode collapse. In this work, we propose an evaluation method based on t-distributed Stochastic Neighbour Embedding (t-SNE) to assess the progress of GANs and visualize the distribution learned by generators in training. We propose the use of the feature space extracted from trained discriminators to evaluate samples produced by generators and from the input dataset. A metric based on the resulting t-SNE maps and the Jaccard index is proposed to represent the model quality. Experiments were conducted to assess the progress of GANs when trained using COEGAN. The results show both by visual inspection and metrics that the Evolutionary Algorithm gradually improves discriminators and generators through generations, avoiding problems such as mode collapse.
翻訳日:2023-04-13 04:59:45 公開日:2021-02-25
# 長距離量子通信のためのエンコードコヒーレント状態量子ビットを用いた損失耐性連続ベル状態測定

Loss-tolerant concatenated Bell-state measurement with encoded coherent-state qubits for long-range quantum communication ( http://arxiv.org/abs/2102.04071v3 )

ライセンス: Link先を確認
Seok-Hyung Lee, Seung-Woo Lee, and Hyunseok Jeong(参考訳) コヒーレント状態量子ビットはベル状態測定(BSM)のほぼ決定論的性質のため、光量子情報処理の候補として期待できる。 しかし、非直交性はBSMの失敗などの困難を引き起こす。 コヒーレントな状態に対して大きな振幅($\alpha$)を用いて失敗の確率を最小化するが、量子ビットは光子損失による劣化に対してより脆弱になる。 ハードウェア効率のよいBSM (CBSM) スキームを提案し,BSM手順の失敗と誤認識を同時に抑制するコヒーレントな状態 (|\alpha| \lessapprox 2$) を用いたパリティ符号化方式を提案する。 我々は、CBSM方式が、$\alpha$と十分に低い光子損失率(例えば、$\lessapprox 5\%$)の適切な値に対して任意にユニタリに近い成功確率を達成することを数値的に示す。 さらに、CBSM方式を利用した量子リピータ方式により、1000kmを超える効率的な長距離量子通信が可能であることを検証した。 パフォーマンスは他の最新のメソッドに匹敵するか、場合によってはパフォーマンスよりも優れています。 最後に,修正パリティ符号化の下で論理キュービットを作成し,コヒーレント状態下でのschr\"odinger's cat stateやprimary gatesの生成など,いくつかの物理レベルの成分からなる基本論理演算を実装する手法を提案する。 本研究は,自由伝搬場における符号化コヒーレント状態量子ビットが,フォールトトレラント情報処理,特に長距離量子通信への代替手段となることを実証する。

The coherent-state qubit is a promising candidate for optical quantum information processing due to its nearly-deterministic nature of the Bell-state measurement (BSM). However, its non-orthogonality incurs difficulties such as failure of the BSM. One may use a large amplitude ($\alpha$) for the coherent state to minimize the failure probability, but the qubit then becomes more vulnerable to dephasing by photon loss. We propose a hardware-efficient concatenated BSM (CBSM) scheme with modified parity encoding using coherent states with reasonably small amplitudes ($|\alpha| \lessapprox 2$), which simultaneously suppresses both failures and dephasing in the BSM procedure. We numerically show that the CBSM scheme achieves a success probability arbitrarily close to unity for appropriate values of $\alpha$ and sufficiently low photon loss rates (e.g., $\lessapprox 5\%$). Furthermore, we verify that the quantum repeater scheme exploiting the CBSM scheme for quantum error correction enables one to carry out efficient long-range quantum communication over 1000 km. We show that the performance is comparable to those of other up-to-date methods or even outperforms them for some cases. Finally, we present methods to prepare logical qubits under modified parity encoding and implement elementary logical operations, which consist of several physical-level ingredients such as generation of Schr\"odinger's cat state and elementary gates under coherent-state basis. Our work demonstrates that the encoded coherent-state qubits in free-propagating fields provide an alternative route to fault-tolerant information processing, especially long-range quantum communication.
翻訳日:2023-04-12 05:35:49 公開日:2021-02-25
# 中性子ねじれの核による弾性散乱

Elastic scattering of twisted neutrons by nuclei ( http://arxiv.org/abs/2102.10380v2 )

ライセンス: Link先を確認
A.V. Afanasev, D.V. Karlovets, and V.G. Serbo(参考訳) クーロン相互作用と強い相互作用の干渉が不可欠であるキネマティックな状態において、核によるツイスト中性子の散乱に関する理論的定式化を提案する。 ツイスト中性子は伝播方向に沿って角運動量投射の定量化値を持ち、散乱断面積、スピン非対称性、散乱中性子の偏光に新たな観測可能な効果をもたらすことを示した。 ビームの軌道角運動量によって得られる追加の能力により、散乱振幅の実部と虚部の両方を測定する新しい技術が実現できることを実証する。 いくつかの観測可能な可能性として、ターゲットが空間ビームプロファイルに対して十分に局所化されているか、あるいはバルクターゲットの核上で散乱が不整合的に発生する可能性がある。 開発されたアプローチは、強い相互作用を持つツイスト粒子を持つ他の核反応にも適用できる。

We present a theoretical formalism for scattering of the twisted neutrons by nuclei in a kinematic regime where interference between Coulomb interaction and the strong interaction is essential. Twisted neutrons have definite quantized values of an angular momentum projection along the direction of propagation, and we show that it results in novel observable effects for the scattering cross section, spin asymmetries and polarization of the scattered neutrons. We demonstrate that additional capabilities provided by beam's orbital angular momentum enable new techniques for measuring both real and imaginary parts of the scattering amplitude. Several possible observables are considered, for which the targets may be either well-localized with respect to the spatial beam profile, or the scattering occurs incoherently on nuclei in a bulk target. The developed approach can be applied to other nuclear reactions with strongly interacting twisted particles.
翻訳日:2023-04-10 15:58:17 公開日:2021-02-25
# 量子論理を用いた弱結合振動子のアルゴリズム的地中冷却

Algorithmic Ground-state Cooling of Weakly-Coupled Oscillators using Quantum Logic ( http://arxiv.org/abs/2102.12427v2 )

ライセンス: Link先を確認
Steven A. King, Lukas J. Spie{\ss}, Peter Micke, Alexander Wilzewski, Tobias Leopold, Jos\'e R. Crespo L\'opez-Urrutia, Piet O. Schmidt(参考訳) ほとんどのイオンは直接レーザー冷却に必要な高速サイクル遷移を欠いている。 ほとんどの場合、同じポテンシャルに閉じ込められた第2の冷却可能なイオン種とのクーロン相互作用によって、同調的に冷却することができる。 2種類のイオンの電荷対質量比が不一致である場合、ある種の運動自由度の冷却は困難になる。 これにより、達成可能な量子ゲートの忠実度と分光精度の両方が制限される。 本稿では,低温度モードから効率良く冷却モードへフォノンを転送するための新しいアルゴリズム冷却プロトコルを提案する。 我々は, イオン間の弱い結合にもかかわらず, be$^{+}$-ar$^{13+}$混合クーロン結晶の2つの運動モードをゼロ点エネルギーに近接させて実験的に示す。 我々は高電荷イオンに対して報告された最低温度に達し、残留温度は2つのモードそれぞれでわずか$T\lesssim200~\mathrm{\mu K}$であり、残留平均運動フォノン数は$\langle n \rangle \lesssim 0.4$である。 高周波イオントラップにおける最も低い電界ノイズと組み合わせて、これらの値は10^{-18}$レベル以下の分数的な系統的不確かさを持つ高荷電イオンに基づく光時計を可能にする。 また, (アンチ) プロトン, 分子イオン, 高分子荷電粒子, その他の高荷電性イオン種にも適用でき, トラップ中の量子基底状態の再現性が期待できる。

Most ions lack the fast, cycling transitions that are necessary for direct laser cooling. In most cases, they can still be cooled sympathetically through their Coulomb interaction with a second, coolable ion species confined in the same potential. If the charge-to-mass ratios of the two ion types are too mismatched, the cooling of certain motional degrees of freedom becomes difficult. This limits both the achievable fidelity of quantum gates and the spectroscopic accuracy. Here we introduce a novel algorithmic cooling protocol for transferring phonons from poorly- to efficiently-cooled modes. We demonstrate it experimentally by simultaneously bringing two motional modes of a Be$^{+}$-Ar$^{13+}$ mixed Coulomb crystal close to their zero-point energies, despite the weak coupling between the ions. We reach the lowest temperature reported for a highly charged ion, with a residual temperature of only $T\lesssim200~\mathrm{\mu K}$ in each of the two modes, corresponding to a residual mean motional phonon number of $\langle n \rangle \lesssim 0.4$. Combined with the lowest observed electric field noise in a radiofrequency ion trap, these values enable an optical clock based on a highly charged ion with fractional systematic uncertainty below the $10^{-18}$ level. Our scheme is also applicable to (anti-)protons, molecular ions, macroscopic charged particles, and other highly charged ion species, enabling reliable preparation of their motional quantum ground states in traps.
翻訳日:2023-04-10 00:57:01 公開日:2021-02-25
# 新型鼻咽喉頭-スワブサンプリングを支援する高冗長剛性カップリングロボットの設計と制御

Design and Control of a Highly Redundant Rigid-Flexible Coupling Robot to Assist the COVID-19 Oropharyngeal-Swab Sampling ( http://arxiv.org/abs/2102.12726v1 )

ライセンス: Link先を確認
Yingbai Hu (3 and 2), Jian Li (1 and 2), Yongquan Chen (1 and 2), Qiwen Wang (2 and 1), Chuliang Chi (2 and 1), Heng Zhang (2 and 1), Qing Gao (2 and 1), Yuanmin Lan (6 and 2), Zheng Li (4 and 2), Zonggao Mu (5 and 2), Zhenglong Sun (1 and 2), Alois Knoll (3) ((1) Robotics and Intelligent Manufacturing & School of Science and Engineering, The Chinese University of Hong Kong, Shenzhen, China, (2) Shenzhen Institute of Artificial Intelligence and Robotics for Society, China, (3) Chair of Robotics, Artificial Intelligence and Real-time Systems, Technische Universit M\"unchen, M\"unchen, Germany, (4) Department of surgery, and Chow Yuk Ho Technology Centre for Innovative Medicine, The Chinese University of Hong Kong, Hong Kong, (5) School of Mechanical Engineering, Shandong University of Technology, Zibo, China, (6) Longgang District People's Hospital of Shenzhen, China.)(参考訳) 新型コロナウイルス(covid-19)の流行は、世界中で死亡と死亡の原因となっている。 口腔咽頭スワブ(OP-swab)サンプリングは、世界中の新型コロナウイルスの診断に広く用いられている。 臨床スタッフがウイルスの影響を受けないようにするため,我々は,新型コロナウイルスのop-swabサンプリングを支援するために9自由度(dof)剛性結合(rfc)ロボットを開発した。 このロボットは、視覚システム、UR5ロボットアーム、マイクロ空気アクチュエータ、力覚システムから構成される。 ロボットはリスクを減らし、長期の反復サンプリング作業から臨床スタッフを解放することが期待されている。 剛体サンプリングロボットと比較すると, 開発したフォースセンシングrfcロボットは, より安全かつソフトな方法でop-swabサンプリング手順を容易に行うことができる。 さらに, 9-DOF冗長マニピュレータの動作計画に対して, 可変パラメータゼロリングニューラルネットワークに基づく最適化手法を提案する。 開発したロボットシステムは口腔ファントムとボランティアの両方でop-swabサンプリングによって検証される。

The outbreak of novel coronavirus pneumonia (COVID-19) has caused mortality and morbidity worldwide. Oropharyngeal-swab (OP-swab) sampling is widely used for the diagnosis of COVID-19 in the world. To avoid the clinical staff from being affected by the virus, we developed a 9-degree-of-freedom (DOF) rigid-flexible coupling (RFC) robot to assist the COVID-19 OP-swab sampling. This robot is composed of a visual system, UR5 robot arm, micro-pneumatic actuator and force-sensing system. The robot is expected to reduce risk and free up the clinical staff from the long-term repetitive sampling work. Compared with a rigid sampling robot, the developed force-sensing RFC robot can facilitate OP-swab sampling procedures in a safer and softer way. In addition, a varying-parameter zeroing neural network-based optimization method is also proposed for motion planning of the 9-DOF redundant manipulator. The developed robot system is validated by OP-swab sampling on both oral cavity phantoms and volunteers.
翻訳日:2023-04-09 23:02:01 公開日:2021-02-25
# カピツァ振り子の量子状態

Quantum states of the Kapitza pendulum ( http://arxiv.org/abs/2102.12711v1 )

ライセンス: Link先を確認
P.A. Golovinski, V.A. Dubinkin(参考訳) カピツァ振り子の量子状態は、高速振動を平均化する手法によって得られる有効ポテンシャルの中で記述される。 安定化状態のエネルギースペクトルの解析的推定は近似モデルポテンシャルを用いて与えられる。 逆振り子の最低状態については、スペクトルは摂動理論の補正を伴う調和振動子のエネルギーによって再現される。 二重ウェル有効電位における共鳴状態のエネルギーに対するトンネル効果の寄与を推定する。 半古典的手法とヌメロフアルゴリズムによるカピツァ振り子の振動スペクトルと回転スペクトルの数値シミュレーションの結果を比較した。

The quantum states of the Kapitza pendulum are described within the effective potential obtained by the method of averaging over the fast oscillations. An analytical estimate of the energy spectrum of stabilized states is given using approximate model potential. For the lowest states of an inverted pendulum, the spectrum is repeduced by the energies of a harmonic oscillator with perturbation theory corrections. Tunneling effect contribution to the energies of resonance states in the double-well effective potential is estimated. The results of numerical simulations of vibrational and rotational spectra of the Kapitza pendulum by the semiclassical method and by the Numerov algorithm are compared.
翻訳日:2023-04-09 23:01:42 公開日:2021-02-25
# メタマテリアルとナノ粒子を用いた基本量子系放射線の制御

The Control of the Elementary Quantum Systems Radiation Using Metamaterials and Nanometaparticles ( http://arxiv.org/abs/2102.12690v1 )

ライセンス: Link先を確認
Vasily Klimov(参考訳) 基礎および応用物理学の発展において最も重要な方向は、光学および量子コンピュータ、バイオセンサー、量子情報学のための単一光子源、dnaシーケンシング装置、様々な分野のセンサーなどを作るためにナノスケールでの光学系の特性の研究である。 これらすべてのケースにおいて、ナノスケール光源(色素分子、量子ドット(エピタキシャルまたはコロイド)、結晶の色中心、金属のナノ接触)が重要である。 ナノ環境において、これらの基本量子系の特性 - 励起率、放射率および非放射減衰率、状態の局所密度、寿命、レベルシフト - は、望ましい特性を持つナノスケール光源を作成するために意図的に使用できる変化を経験する。 本稿では, プラズモンおよび誘電体ナノ構造, メタマテリアル, ナノ粒子を用いた基本量子系放射制御の分野での実際の理論的および実験的研究について述べる。

The most important direction in the development of fundamental and applied physics is the study of the properties of optical systems at the nanoscale in order to create optical and quantum computers, biosensors, single-photon sources for quantum informatics, devices for DNA sequencing, sensors of various fields, etc. In all these cases, nanoscale light sources - dye molecules, quantum dots (epitaxial or colloidal), color centers in crystals, and nanocontacts in metals - are of key importance. In the nanoenvironment, the characteristics of these elementary quantum systems - pumping rates, radiative and non-radiative decay rates, the local density of states, lifetimes, level shifts - experience changes that can be used intentionally to create nanoscale light sources with desired properties. This review presents an analysis of actual theoretical and experimental works in the field of elementary quantum systems radiation control using plasmonic and dielectric nanostructures, metamaterials, and nanoparticles made from metamaterials.
翻訳日:2023-04-09 23:01:36 公開日:2021-02-25
# 量子シミュレーションのための積公式のスペクトル解析

Spectral Analysis of Product Formulas for Quantum Simulation ( http://arxiv.org/abs/2102.12655v1 )

ライセンス: Link先を確認
Changhao Yi, Elizabeth Crosson(参考訳) 第一次リー・トロッター積公式を用いたハミルトンシミュレーションを、初期状態がエネルギー固有状態と高い重なり合いを持つ、あるいは狭いエネルギーバンド内の固有状態の集まりと仮定して考える。 この仮定は量子位相推定(QPE)とデジタル断熱シミュレーション(DAS)によって動機付けられる。 厳密な摂動法を用いてトロッター化時間発展を生成する効果的なハミルトニアンを扱い、qpeを用いてエネルギー固有値を正確に推定するために必要なトロッターステップのサイズを、大規模なシステム(各実数値行列要素を持つ局所項の和として分解可能なハミルトニアンを含む)に対して$\epsilon$から$\epsilon^{1/2}$にスケールすることで改善できることを示した。 dasの場合、トロッター誤差の漸近的スケーリングを、$\mathcal{o}(m^{-1})$から$\mathcal{o}(m^{-2})$までのゲートの総数で改善し、任意の固定回路深度に対して、トロッター化と断熱近似による誤差寄与のバランスをとる近似的最適ステップサイズを計算する。 これらの結果は、ギャップによってスペクトルの他の部分から分離された狭いエネルギー帯域に残る断熱過程に部分的に一般化され、量子近似最適化アルゴリズムと小さなシステムサイズでの断熱量子アニーリングとの観測された類似性の説明に繋がる。 我々の分析は固有ベクトルの摂動と固有値に依存し、状態の忠実度を用いて誤差を定量化する(全体大域位相に敏感なユニタリの差の行列ノルムの代わりに)。

We consider Hamiltonian simulation using the first order Lie-Trotter product formula under the assumption that the initial state has a high overlap with an energy eigenstate, or a collection of eigenstates in a narrow energy band. This assumption is motivated by quantum phase estimation (QPE) and digital adiabatic simulation (DAS). Treating the effective Hamiltonian that generates the Trotterized time evolution using rigorous perturbative methods, we show that the Trotter step size needed to estimate an energy eigenvalue within precision $\epsilon$ using QPE can be improved in scaling from $\epsilon$ to $\epsilon^{1/2}$ for a large class of systems (including any Hamiltonian which can be decomposed as a sum of local terms or commuting layers that each have real-valued matrix elements). For DAS we improve the asymptotic scaling of the Trotter error with the total number of gates $M$ from $\mathcal{O}(M^{-1})$ to $\mathcal{O}(M^{-2})$, and for any fixed circuit depth we calculate an approximately optimal step size that balances the error contributions from Trotterization and the adiabatic approximation. These results partially generalize to diabatic processes, which remain in a narrow energy band separated from the rest of the spectrum by a gap, thereby contributing to the explanation of the observed similarities between the quantum approximate optimization algorithm and diabatic quantum annealing at small system sizes. Our analysis depends on the perturbation of eigenvectors as well as eigenvalues, and on quantifying the error using state fidelity (instead of the matrix norm of the difference of unitaries which is sensitive to an overall global phase).
翻訳日:2023-04-09 23:01:01 公開日:2021-02-25
# 模擬ロボット環境における空間記憶と作業記憶のためのリカレントニューラルネットワークの神経進化

Neuroevolution of a Recurrent Neural Network for Spatial and Working Memory in a Simulated Robotic Environment ( http://arxiv.org/abs/2102.12638v1 )

ライセンス: Link先を確認
Xinyun Zou, Eric O. Scott, Alexander B. Johnson, Kexin Chen, Douglas A. Nitz, Kenneth A. De Jong, Jeffrey L. Krichmar(参考訳) ラットからヒトまで幅広い動物は認知地図能力を示すことができる。 我々は,3重T迷路における空間的・作業的記憶課題におけるラットの行動と神経活動を再現する進化的アルゴリズムを用いて,生物学的に妥当なリカレントニューラルネットワーク(RNN)の重量を進化させた。 ネズミはwebotsのロボットシミュレーターでシミュレートされ、視覚、距離、加速度センサーを使って仮想迷路をナビゲートした。 感覚入力からRNN、RNNからロボットのモーターまで、重量を進化させた後、Webotsエージェントは、タイムアウト前に最小限のリピートで4つの報酬アームに到達できるように、空間をナビゲートした。 我々の現在の知見は、RNNのダイナミクスがパフォーマンスの鍵であり、どの感覚タイプにも依存していないことを示唆しており、RNNのニューロンが混合選択性および結合的符号化を行っていることを示唆している。 さらに、rnn活性は海馬で観察される空間情報と軌道依存コーディングに類似している。 総合的に、進化したRNNはナビゲーションスキル、空間記憶、作業記憶を示す。 提案手法は, 進化したRNNの動的動作が, 興味深く複雑な認知行動を捉え, ロボットアプリケーションのためのRNNコントローラの作成に利用できることを示す。

Animals ranging from rats to humans can demonstrate cognitive map capabilities. We evolved weights in a biologically plausible recurrent neural network (RNN) using an evolutionary algorithm to replicate the behavior and neural activity observed in rats during a spatial and working memory task in a triple T-maze. The rat was simulated in the Webots robot simulator and used vision, distance and accelerometer sensors to navigate a virtual maze. After evolving weights from sensory inputs to the RNN, within the RNN, and from the RNN to the robot's motors, the Webots agent successfully navigated the space to reach all four reward arms with minimal repeats before time-out. Our current findings suggest that it is the RNN dynamics that are key to performance, and that performance is not dependent on any one sensory type, which suggests that neurons in the RNN are performing mixed selectivity and conjunctive coding. Moreover, the RNN activity resembles spatial information and trajectory-dependent coding observed in the hippocampus. Collectively, the evolved RNN exhibits navigation skills, spatial memory, and working memory. Our method demonstrates how the dynamic activity in evolved RNNs can capture interesting and complex cognitive behavior and may be used to create RNN controllers for robotic applications.
翻訳日:2023-04-09 23:00:22 公開日:2021-02-25
# 広帯域ファイバを用いた光子対光源

Broadband Fiber-based Entangled Photon Pair Source at Telecom O-band ( http://arxiv.org/abs/2102.12632v1 )

ライセンス: Link先を確認
Changjia Chen, Calvin Xu, Arash Riazi, Eric Y. Zhu, Alexey V. Gladyshev, Peter G. Kazansky, Li Qian(参考訳) 本稿では, 周期的偏極シリカファイバ(PPSF)における通信OバンドにおけるII型自発パラメトリックダウン変換に基づく光子対光子源について報告する。 光子ペア源は130 nm (~24 thz) 以上の放射帯域を1306.6 nmに集中している。 広帯域発光スペクトルは短い双光子相関時間となり,広帯域幅26.6 fsの香港・ウー・マンデル干渉ディップを実験により実証した。 PPSFの低複屈折のため、タイプII SPDCから生成されたバイフォトンは発光帯域全体に偏光絡みがあり、測定された忠実度は95.4%以上である。 biphoton ソースは o-band において最も広い帯域幅を持つ biphoton を提供する。

In this letter, we report a polarization-entangled photon-pair source based on type-II spontaneous parametric down conversion at telecom O-band in periodically poled silica fiber (PPSF). The photon-pair source exhibits more than 130 nm (~24 THz) emission bandwidth centered at 1306.6 nm. The broad emission spectrum results in a short biphoton correlation time and we experimentally demonstrate a Hong-Ou-Mandel interference dip with a full width of 26.6 fs at half maximum. Owing to the low birefringence of the PPSF, the biphotons generated from type-II SPDC are polarization-entangled over the entire emission bandwidth, with a measured fidelity to a maximally entangled state greater than 95.4%. The biphoton source provides the broadest bandwidth entangled biphotons at O-band to our knowledge.
翻訳日:2023-04-09 22:59:59 公開日:2021-02-25
# 非対称ソーターポテンシャル井戸におけるペア生成

Pair production in asymmetric Sauter potential well ( http://arxiv.org/abs/2102.12623v1 )

ライセンス: Link先を確認
Adiljan Sawut, Sayipjamal Dulat and B. S. Xie(参考訳) 非対称ソーターポテンシャル井戸における電子-陽電子対生成の研究は、ポテンシャル井戸は右端の幅として構築されているが、井戸の左側は異なる値で変化可能である。 非対称ポテンシャル井戸の場合、運動量スペクトル、位置分布、全対数を研究し、これらを対称の場合と比較する。 非対称ポテンシャル井戸における生成電子エネルギー、有界状態の準位エネルギーと対称ポテンシャル井戸における光子エネルギーの関係は、非対称ポテンシャル井戸における生成電子に対する研究問題に利用され、この近似によりその妥当性が確認される。 電子の位置分布から、運動量スペクトルが対称スペクトルと比較して非対称井戸で最適化されている理由も示している。

Electron-positron pair production in asymmetric Sauter potential well is studied, where the potential well has been built as the width of the right edge fixed but the left side of the well is changeable at different values. We study the momentum spectrum, the location distribution and the total pair numbers in this case of asymmetric potential well and compare them with the symmetric case. The relationship between created electron energy, the level energy in the bound states and the photon energy in the symmetric potential well is used to the studied problem for the created electrons in the asymmetric potential well and its validity is confirmed by this approximation. By the location distribution of the electrons we have also shown the reason why the momentum spectrum has an optimization in the asymmetric well compared with the symmetric one.
翻訳日:2023-04-09 22:59:36 公開日:2021-02-25
# 量子ウォークをシフトとコイン演算に分解するアルゴリズム

An algorithm to factorize quantum walks into shift and coin operations ( http://arxiv.org/abs/2102.12951v1 )

ライセンス: Link先を確認
C. Cedzich, T. Geib, R. F. Werner(参考訳) 1次元の量子ウォークを2つの基本操作のプロトコルに分解するアルゴリズム、すなわち、各セル間で粒子を輸送する固定条件シフトと、各セルで局所的に作用する適切なコイン演算子を提供する。 これにより、量子ウォークプロトコルを実験的な設定に合わせることができ、実験的な制限によって決定された細胞構造に書き換えることができる。 qubit チェーンを実行するためにコンパイルされたqutrit チェーン上で定義されたウォークの例を示す。

We provide an algorithm that factorizes one-dimensional quantum walks into a protocol of two basic operations: A fixed conditional shift that transports particles between cells and suitable coin operators that act locally in each cell. This allows to tailor quantum walk protocols to any experimental setup by rephrasing it on the cell structure determined by the experimental limitations. We give the example of a walk defined on a qutrit chain compiled to run an a qubit chain.
翻訳日:2023-04-09 22:51:49 公開日:2021-02-25
# 生体組織と散乱媒体による時間エネルギー絡み合いの生存を目撃する

Witnessing the survival of time-energy entanglement through biological tissue and scattering media ( http://arxiv.org/abs/2102.12907v1 )

ライセンス: Link先を確認
Daniel J. Lum, Michael D. Mazurek, Alexander Mikhaylov, Kristen M. Parzuchowski, Ryan N. Wilson, Ralph Jimenez, Thomas Gerrits, Martin J. Stevens, Marcus T. Cicerone, Charles H. Camp Jr(参考訳) 我々は、室温で厚い生体メディア(\leq $1.55 mm)と組織(\leq$ 235$\mu$m)を介して、近赤外光子の時間エネルギーの絡み合いの保存を実証する。 フランソン型干渉計を用いて, スキムミルク, 2%乳, ニワトリ組織において0.9以上のインターフェロメトリコントラストを示した。 本研究は, 生物イメージングにおける非古典光の機会として, サブショットノイズ計測から絡み合った蛍光イメージングまで, 厚く濁った生体試料を伝播しても光子の絡み合い特性を維持できることを示す。

We demonstrate the preservation of time-energy entanglement of near-IR photons through thick biological media ($\leq$1.55 mm) and tissue ($\leq$ 235 $\mu$m) at room temperature. Using a Franson-type interferometer, we demonstrate interferometric contrast of over 0.9 in skim milk, 2% milk, and chicken tissue. This work supports the many proposed opportunities for nonclassical light in biological imaging and analyses from sub-shot noise measurements to entanglement-enhanced fluorescence imaging, clearly indicating that the entanglement characteristics of photons can be maintained even after propagation through thick, turbid biological samples.
翻訳日:2023-04-09 22:51:00 公開日:2021-02-25
# ダイヤモンド中のNVアンサンブルの600Kまでの温度依存性コヒーレンス特性

Temperature dependent coherence properties of NV ensemble in diamond up to 600K ( http://arxiv.org/abs/2102.12790v1 )

ライセンス: Link先を確認
Shengran Lin, Changfeng Weng, Yuanjie Yang, Jiaxin Zhao, Yuhang Guo, Jian Zhang, Liren Lou, Wei Zhu, and Guanzhong Wang(参考訳) ダイヤモンド中の窒素空隙(nv)中心は、光学的およびコヒーレンス性に優れた量子センサーの理想的な候補である。 しかし、従来の研究は通常、低温または室温で行われる。 高温におけるNV中心のコヒーレンス特性の完全な知識の欠如は、NVのさらなる応用を制限している。 ここでは,NV中心アンサンブルの温度300Kから600Kでのコヒーレンス特性を系統的に検討する。コヒーレンス時間$T_2$は,300Kで184 \mu s$から600Kで30 \mu s$へと急速に低下するが,これは常磁性不純物との相互作用に起因する。 単一量子と二重量子の緩和速度もまた明らかに温度依存性の挙動を示し、どちらも2つのフォノンラマン過程によって支配されている。 不均一なデファスティング時間$T_2^*$と熱エコーデコヒーレンス時間$T_{TE}$は温度上昇とともにほとんど変化しない。 t_{te}$ は温度が上昇するにつれてわずかに変化するため、熱エコー式温度計は450kで411mk/\sqrt{hz}$ の感度を持つことが実証されている。

Nitrogen-vacancy (NV) center in diamond is an ideal candidate for quantum sensors because of its excellent optical and coherence property. However, previous studies are usually conducted at low or room temperature. The lack of full knowledge of coherence properties of the NV center at high temperature limits NV's further applications. Here, we systematically explore the coherence properties of the NV center ensemble at temperatures from 300 K to 600 K. Coherence time $T_2$ decreases rapidly from $184 \mu s$ at 300 K to $30 \mu s$ at 600 K, which is attributed to the interaction with paramagnetic impurities. Single-quantum and double-quantum relaxation rates show an obvious temperature-dependent behavior as well, and both of them are dominated by the two phonon Raman process. While the inhomogeneous dephasing time $T_2^*$ and thermal echo decoherence time $T_{TE}$ remain almost unchanged as temperature rises. Since $T_{TE}$ changed slightly as temperature rises, a thermal-echo-based thermometer is demonstrated to have a sensitivity of $41 mK/\sqrt{Hz}$ at 450 K. These findings will help to pave the way toward NV-based high-temperature sensing, as well as to have a more comprehensive understanding of the origin of decoherence in the solid-state qubit.
翻訳日:2023-04-09 22:49:32 公開日:2021-02-25
# 特異ポテンシャルの量子トンネル

Quantum tunneling of a singular potential ( http://arxiv.org/abs/2102.12789v1 )

ライセンス: Link先を確認
A. Zh. Muradyan(参考訳) ポテンシャル関数の特異性は量子トンネル問題を数学的に過小評価する。 物理学で導入された困難を回避するために、ポテンシャル特異性カットオフ(英語版)や逆極限遷移(英語版)、あるいは座標軸全体に沿ったハミルトニアンの適切な自己随伴拡大(英語版)がしばしば用いられる。 しかし、どちらも問題の特異性に何らかの影響を与えるため、シュロディンガー方程式の本来の特異性が未修正のままである場合、量子トンネルがどのように振る舞うかをここで議論する。 これを実現するために、特異点が相互に破壊される確率密度電流の特性を利用する。 わずかに特異なポテンシャルは有限であるが特異なトンネル透過性、特に入射粒子のゼロエネルギーにおけるゼロではない値を持つ。 1次元クーロンポテンシャルのトンネル化は、ゼロエネルギー境界において無限に高速かつ完全な振動を示し、高エネルギー限界においてゼロへの置換を示す。 より特異な領域では、トンネルは禁止され、正規化された領域のよく知られた結果を繰り返す。

Singularity of the potential function makes quantum tunneling problem mathematically underdetermined. To circumvent the difficulties it introduced in physics, a potential singularity cutoff is often used, followed by a reverse limit transition, or is a suitable self-adjoint extension of the Hamiltonian along the entire coordinate axis made. However, both of them somehow affect the singular nature of the problem, and so I discuss here how quantum tunneling will behave if the original singular nature of the Schrodinger equation left untuched. To do this, I use the property of the probability density current that the singularities are mutually destroyed in it. It is found that the mildly singular potential has a finite, but unusual tunneling transparency, in particular, a non-zero value at zero energy of incident particle. The tunneling of one dimensional Coulomb potential exhibits infinitely fast and complete oscillation at the zero energy boundary and a suppresion to zero in the high-energy limit. In the more singular region, the tunneling becomes forbidden, theby repeating the well-known result of the regularized counterparts.
翻訳日:2023-04-09 22:49:04 公開日:2021-02-25
# Pr$^{3+}$:Y$_2$SiO$_5$におけるギガヘルツバンド幅光メモリ

Gigahertz-Bandwidth Optical Memory in Pr$^{3+}$:Y$_2$SiO$_5$ ( http://arxiv.org/abs/2102.13113v1 )

ライセンス: Link先を確認
M. Nicolle, J. N. Becker, C. Weinzetl, I. A. Walmsley, P. M. Ledingham(参考訳) 極低温冷却pr$^{3+}$:y$_2$sio$_5$結晶を用いた原子周波数コム(afc)強調プロトコルの広帯域実装を実験的に検討した。 ブロードバンドパルスの保存を可能にするため、入力フォトニック帯域幅が材料$(\sim5\,\textrm{GHz})$の非均一な拡張と密接に一致し、超微細な基底と励起状態の分割が$(\sim10\,\textrm{MHz})$を大きく超えるような新しい仕組みを探索する。 異なるAFC製剤パラメータを調べた結果, プレファスティング時間12.5\, $nsの後に最大効率を10\%$と測定した。 準最適AFCでは、最大12回の時相モードが観察される。

We experimentally study a broadband implementation of the atomic frequency comb (AFC) rephasing protocol with a cryogenically cooled Pr$^{3+}$:Y$_2$SiO$_5$ crystal. To allow for storage of broadband pulses, we explore a novel regime where the input photonic bandwidth closely matches the inhomogeneous broadening of the material $(\sim5\,\textrm{GHz})$, thereby significantly exceeding the hyperfine ground and excited state splitting $(\sim10\,\textrm{MHz})$. Through an investigation of different AFC preparation parameters, we measure a maximum efficiency of $10\%$ after a rephasing time of $12.5\,$ns. With a suboptimal AFC, we witness up to 12 rephased temporal modes.
翻訳日:2023-04-09 22:42:54 公開日:2021-02-25
# ボルン近似におけるクーロン散乱と一般化関数の利用

Coulomb scattering in the Born approximation and the use of generalized functions ( http://arxiv.org/abs/2102.13105v1 )

ライセンス: Link先を確認
Peter Collas(参考訳) 我々は、クーロン散乱に対するボルン近似を得るための3つの方法について議論する:標準的な方法、収束係数(スクリーニング)の使用、円筒座標(球面座標の代わりに)を用いたオッペンハイマーの方法、そして最後にランダウとリフシッツの方法。 最後の1つは一般化函数の理論の背景を必要とするが、しかしながら、物理学者へのより多くの露出を保った非常に教育的かつ重要な技法である。

We discuss three ways of obtaining the Born approximations for Coulomb scattering: The standard way, making use of a convergence factor ("screening"), Oppenheimer's way using cylindrical (instead of spherical) coordinates, and finally Landau and Lifshitz' way. The last one although it does require some background from the theory of generalized functions is nevertheless a very instructive and important technique deserving more exposure to physicists.
翻訳日:2023-04-09 22:42:34 公開日:2021-02-25
# 誤り検出曲面符号における論理量子演算

Logical-qubit operations in an error-detecting surface code ( http://arxiv.org/abs/2102.13071v1 )

ライセンス: Link先を確認
J. F. Marques, B. M. Varbanov, M. S. Moreira, H. Ali, N. Muthusubramanian, C. Zachariadis, F. Battistel, M. Beekman, N. Haider, W. Vlothuizen, A. Bruno, B. M. Terhal, and L. DiCarlo(参考訳) 繰り返し誤り検出サイクルを用いて,2つの論理キュービットを安定化した論理演算の一組を実現する。 論理演算には任意の状態への初期化、ブロッホ球の基数での測度、単一量子ゲートの普遍集合が含まれる。 各動作種別について, 耐故障変種に対する非耐障害変種に対する高い性能を観測し, 詳細な特徴付けにより差分を定量化する。 特に,論理ポーリ伝達行列の概念を用いて,論理ゲートのプロセストモグラフィーを示す。 この高忠実度論理演算と、繰り返し安定化のためのスケーラブルなスキームの統合は、高温超伝導表面符号による量子誤差補正への道のりのマイルストーンである。

We realize a suite of logical operations on a distance-two logical qubit stabilized using repeated error detection cycles. Logical operations include initialization into arbitrary states, measurement in the cardinal bases of the Bloch sphere, and a universal set of single-qubit gates. For each type of operation, we observe higher performance for fault-tolerant variants over non-fault-tolerant variants, and quantify the difference through detailed characterization. In particular, we demonstrate process tomography of logical gates, using the notion of a logical Pauli transfer matrix. This integration of high-fidelity logical operations with a scalable scheme for repeated stabilization is a milestone on the road to quantum error correction with higher-distance superconducting surface codes.
翻訳日:2023-04-09 22:42:05 公開日:2021-02-25
# 捕捉イオンデバイス上での量子確信伝播を用いた光通信用共同検出受信機による量子優位の実証

Demonstration of quantum advantage by a joint detection receiver for optical communications using quantum belief propagation on a trapped-ion device ( http://arxiv.org/abs/2102.13052v1 )

ライセンス: Link先を確認
Conor Delaney, Kaushik P. Seshadreesan, Ian MacCormack, Alexey Galda, Saikat Guha, and Prineha Narang(参考訳) 量子アドバンテージの実証は主に計算のスピードアップと多体物理学の量子シミュレーションに焦点が当てられ、現在のデバイスの信頼性と能力によって制限されている。 普遍量子処理による誤差の最小許容確率でレーザーパルス変調古典通信符号語を識別することは、有望な平行方向を示し、量子状態の識別において基本的な重要性と深宇宙レーザー通信における技術的関連性の両方を持つ。 本稿では,最近提案されている量子アルゴリズムを用いた3ビット線形木符号の変調符号語を2進位相シフトキーとする量子ジョイント検出受信器を実験的に実現する。 最近リリースされたHoneywell LT-1.0システムでは、${}^{171}Yb+ $ ionを使用しており、このデモに不可欠な全接続性と中間回路計測機能を備えている。 提案手法は, 予め定式化されているが非定型量子検出方式であり, 低平均光子数限界におけるパルス・バイ・パルス検出に関連する最小平均復号誤差確率の量子限界を超過する実験フレームワークを提供する。 完全な合同検出スキームはフォトニックおよびトラップイオンベースの量子情報科学を橋渡し、変調アルファベットのフォトニックコヒーレント状態を単一イオン量子ビットの内部積保存状態にマッピングする。 今後、我々の研究は、天文学や宇宙ベースのプラットフォームに応用された量子強化レシーバーのハイブリッド実現の新たな道を開く。

Demonstrations of quantum advantage have largely focused on computational speedups and on quantum simulation of many-body physics, limited by fidelity and capability of current devices. Discriminating laser-pulse-modulated classical-communication codewords at the minimum allowable probability of error using universal-quantum processing presents a promising parallel direction, one that is of both fundamental importance in quantum state discrimination, as well as of technological relevance in deep-space laser communications. Here we present an experimental realization of a quantum joint detection receiver for binary phase shift keying modulated codewords of a 3-bit linear tree code using a recently-proposed quantum algorithm: belief propagation with quantum messages. The receiver, translated to a quantum circuit, was experimentally implemented on a trapped-ion device -- the recently released Honeywell LT-1.0 system using ${}^{171}Yb+ $ ions, which possesses all-to-all connectivity and mid-circuit measurement capabilities that are essential to this demonstration. We conclusively realize a previously postulated but hitherto not-demonstrated joint quantum detection scheme, and provide an experimental framework that surpasses the quantum limit on the minimum average decoding error probability associated with pulse-by-pulse detection in the low mean photon number limit. The full joint-detection scheme bridges across photonic and trapped-ion based quantum information science, mapping the photonic coherent states of the modulation alphabet onto inner product-preserving states of single-ion qubits. Looking ahead, our work opens new avenues in hybrid realizations of quantum-enhanced receivers with applications in astronomy and emerging space-based platforms.
翻訳日:2023-04-09 22:41:36 公開日:2021-02-25
# 安定化器検証とゲート合成によるランダム化ベンチマーク

Randomized Benchmarking with Stabilizer Verification and Gate Synthesis ( http://arxiv.org/abs/2102.13044v1 )

ライセンス: Link先を確認
Ellen Derbyshire, Rawad Mezher, Theodoros Kapourniotis, Elham Kashefi(参考訳) 近年、量子機械学習や変分量子アルゴリズムの分野では、特に排他的ではないが、ノイズの多い中間スケール量子(NISQ)デバイスに有用な応用が出現している。 このような用途では、様々な深さの回路と異なるゲートからなる回路がnisqデバイス上で実行される。 したがって、これらのデバイス上での回路の一般的な性能を捉えるための実用的な方法を見つけることが重要である。 この要求に応えて、標準の Clifford randomized benchmarking (RB) とインターリーブされた RB スキームをハードウェアの制約に合わせて修正した。 まず、量子検証からtehchniqueを組み込むことにより、clifford rb における逆作用素の要求、仮定を取り除いた。 これにより、NISQハードウェアの品質、すなわち量子検証の受理確率を評価する別のメリットの図が導入された。 古典的なアルゴリズムよりも有利な多くの量子アルゴリズムは、クリフォードゲートだけでなくクリフォードゲートの使用を要求する。 そこで,第2の貢献として,ゲート合成ツールとインターリーブRBを組み合わせた多種多様な非クリフォードゲートのキャラクタリゼーション手法を開発した。 どちらの手法も、クリフォード群のジェネレータ(またはネイティブゲート)をベンチマークするRBスキームと併用し、低エラー条件で使用する場合に最も有用である。

Recently, there has been an emergence of useful applications for noisy intermediate-scale quantum (NISQ) devices notably, though not exclusively, in the fields of quantum machine learning and variational quantum algorithms. In such applications, circuits of various depths and composed of different sets of gates are run on NISQ devices. Therefore, it is crucial to find practical ways to capture the general performance of circuits on these devices. Motivated by this pressing need, we modified the standard Clifford randomized benchmarking (RB) and interleaved RB schemes targeting them to hardware limitations. Firstly we remove the requirement for, and assumptions on, the inverse operator, in Clifford RB by incorporating a tehchnique from quantum verification. This introduces another figure of merit by which to assess the quality of the NISQ hardware, namely the acceptance probability of quantum verification. Many quantum algorithms, that provide an advantage over classical algorithms, demand the use of Clifford as well as non-Clifford gates. Therefore, as our second contribution we develop a technique for characterising a variety of non-Clifford gates, by combining tools from gate synthesis with interleaved RB. Both of our techniques are most relevant when used in conjunction with RB schemes that benchmark generators (or native gates) of the Clifford group, and in low error regimes.
翻訳日:2023-04-09 22:41:07 公開日:2021-02-25
# 新型コロナウイルス(covid-19)のデジタル接触追跡アプリケーションと技術:初期展開のレビュー

COVID-19 Digital Contact Tracing Applications and Techniques: A Review Post Initial Deployments ( http://arxiv.org/abs/2103.01766v1 )

ライセンス: Link先を確認
Muhammad Shahroz, Farooq Ahmad, Muhammad Shahzad Younis, Nadeem Ahmad, Maged N. Kamel Boulos, Ricardo Vinuesa and Junaid Qadir(参考訳) 新型コロナウイルス感染症(COVID-19)は世界的なパンデミックで、何百万人もの命を持ち、多くの国の公衆衛生システムを圧倒し続けている。 新型コロナウイルス(COVID-19)の感染拡大は、人々の日常的な交通行動など、人間の移動パターンに悪影響を及ぼしている。 必要な場所における是正措置を適宜実施するためには,病気の流行パターンとその周辺個体間の経路を理解する必要がある。 接触追跡の有効性を高めるために、世界中の国々は、モバイル技術とIoT(Internet of Things)の進歩を活用して、従来の手動接触追跡を支援し、新型コロナウイルス患者と密接な接触をした個人を追跡する。 2021年に最初のワクチンの投与が開始されたとしても、今後、ソーシャルディスタンシング(ソーシャルディスタンシング)やフェイスマスク(フェイスマスク)といった予防対策の活用とともに、デジタル接触追跡が対応の重要な要素となるため、当面は多角化が続く。 デジタルコンタクト追跡技術の数ヶ月の展開の後、さまざまなアプローチのメリットとユーザビリティ、プライバシ、倫理的トレードオフに関する深い洞察が生まれています。 本稿では,デジタル接触追跡技術の国際展開経験を生かした新たなデータをもとに,デジタル接触追跡ソリューションの方法論と技術の観点から包括的分析を行う。 また、スケーラビリティ、プライバシ、適応性、将来の仕事への有望な方向性など、オープンな課題に関する議論も行っています。

The coronavirus disease 2019 (COVID-19) is a severe global pandemic that has claimed millions of lives and continues to overwhelm public health systems in many countries. The spread of COVID-19 pandemic has negatively impacted the human mobility patterns such as daily transportation-related behavior of the public. There is a requirement to understand the disease spread patterns and its routes among neighboring individuals for the timely implementation of corrective measures at the required placement. To increase the effectiveness of contact tracing, countries across the globe are leveraging advancements in mobile technology and Internet of Things (IoT) to aid traditional manual contact tracing to track individuals who have come in close contact with identified COVID-19 patients. Even as the first administration of vaccines begins in 2021, the COVID-19 management strategy will continue to be multi-pronged for the foreseeable future with digital contact tracing being a vital component of the response along with the use of preventive measures such as social distancing and the use of face masks. After some months of deployment of digital contact tracing technology, deeper insights into the merits of various approaches and the usability, privacy, and ethical trade-offs involved are emerging. In this paper, we provide a comprehensive analysis of digital contact tracing solutions in terms of their methodologies and technologies in the light of the new data emerging about international experiences of deployments of digital contact tracing technology. We also provide a discussion on open challenges such as scalability, privacy, adaptability and highlight promising directions for future work.
翻訳日:2023-04-09 22:32:58 公開日:2021-02-25
# 都市建築エネルギーモデリング(UBEM)ツール:ボトムアップ物理に基づくアプローチの概観

Urban Building Energy Modeling (UBEM) Tools: A State-of-the-Art Review of bottom-up physics-based approaches ( http://arxiv.org/abs/2103.01761v1 )

ライセンス: Link先を確認
Martina Ferrando, Francesco Causone, Tianzhen Hong, Yixing Chen(参考訳) 規制は、既存の建物の備蓄を見直したり、新しいエネルギー効率の良い地区を建設することの重要性を裏付けるものである。 したがって、都市を管理し設計するためにエネルギーシナリオを評価するためのモデリングツールが必要となり、多くの方法論やツールが開発されている。 中でもUBEM(Urban Building Energy Modeling)は,大規模建物のエネルギーシミュレーションを可能にするツールである。 UBEMツールの選択、複雑さ、正確性、ユーザビリティ、コンピューティングニーズのバランスは、依然としてユーザにとって課題である。 このレビューは、物理に基づくUBEMツールのボトムアップに焦点を当て、ユーザ指向の観点から比較する。 5つのカテゴリーがある。 (i)必要な入力 (ii)報告された出力 (iii)悪用されたワークフロー (iv)各ツールの適用性、及び (v) 潜在的なユーザ。 また,研究・開発における関心や傾向に着目した批判的な議論が提案されている。 その結果、アプリケーションに適したツールを選択する必要があるUBEMツールの大きな違いが浮かび上がった。 ubemツールの採用の障壁には、標準化されたオントロジー、一般的な3次元都市モデル、データ収集のための標準手順、テストケースの標準セットなどが含まれる。 これにより、都市の持続可能性目標を支援するubemツールが将来開発される。

Regulations corroborate the importance of retrofitting existing building stocks or constructing new energy efficient district. There is, thus, a need for modeling tools to evaluate energy scenarios to better manage and design cities, and numerous methodologies and tools have been developed. Among them, Urban Building Energy Modeling (UBEM) tools allow the energy simulation of buildings at large scales. Choosing an appropriate UBEM tool, balancing the level of complexity, accuracy, usability, and computing needs, remains a challenge for users. The review focuses on the main bottom-up physics-based UBEM tools, comparing them from a user-oriented perspective. Five categories are used: (i) the required inputs, (ii) the reported outputs, (iii) the exploited workflow, (iv) the applicability of each tool, and (v) the potential users. Moreover, a critical discussion is proposed focusing on interests and trends in research and development. The results highlighted major differences between UBEM tools that must be considered to choose the proper one for an application. Barriers of adoption of UBEM tools include the needs of a standardized ontology, a common three dimensional city model, a standard procedure to collect data, and a standard set of test cases. This feeds into future development of UBEM tools to support cities' sustainability goals.
翻訳日:2023-04-09 22:32:32 公開日:2021-02-25
# エネルギーモデルを用いたディープニューラルネットワークの計算フレームワーク

A Framework For Pruning Deep Neural Networks Using Energy-Based Models ( http://arxiv.org/abs/2102.13188v1 )

ライセンス: Link先を確認
Hojjat Salehinejad, Shahrokh Valaee(参考訳) 典型的なディープニューラルネットワーク(DNN)は、多数のトレーニング可能なパラメータを持つ。 適切なキャパシティを持つネットワークを選択することは困難であり、通常、過剰なキャパシティを持つ大規模なネットワークをトレーニングする。 プルーニングは、DNNにおけるパラメータ数を減らすための確立されたアプローチである。 本稿では,人口分布に基づくグローバル最適化手法に基づくDNNの刈り取りフレームワークを提案する。 このフレームワークは任意のpruning objective関数を使うことができる。 本研究では,エネルギーベースモデルの概念に基づく,単純かつ効率的な客観的関数を提案する。 CIFAR-10およびCIFAR-100データセットに対するResNets、AlexNet、SqueezeNetに関する実験では、トレーニング可能なパラメータの約$<5\%$とTop-1の$<1\%$ドロップとTop-5の分類精度のそれぞれ50\%以上のプルーニング率を示した。

A typical deep neural network (DNN) has a large number of trainable parameters. Choosing a network with proper capacity is challenging and generally a larger network with excessive capacity is trained. Pruning is an established approach to reducing the number of parameters in a DNN. In this paper, we propose a framework for pruning DNNs based on a population-based global optimization method. This framework can use any pruning objective function. As a case study, we propose a simple but efficient objective function based on the concept of energy-based models. Our experiments on ResNets, AlexNet, and SqueezeNet for the CIFAR-10 and CIFAR-100 datasets show a pruning rate of more than $50\%$ of the trainable parameters with approximately $<5\%$ and $<1\%$ drop of Top-1 and Top-5 classification accuracy, respectively.
翻訳日:2023-04-09 22:31:54 公開日:2021-02-25
# 材料の強相関状態に対する量子埋め込み理論

Quantum Embedding Theory for Strongly-correlated States in Materials ( http://arxiv.org/abs/2102.13178v1 )

ライセンス: Link先を確認
He Ma, Nan Sheng, Marco Govoni, Giulia Galli(参考訳) 量子埋め込み理論は、大規模分子または凝縮系の活性領域の強相関電子状態を調べるための有望なアプローチである。 著名な例として、半導体や絶縁体におけるスピン欠陥がある。 最近導入された量子埋め込み理論の詳細な導出について述べるが、これは実効ハミルトニアンの定義に基づいている。 環境が選択された活性空間に与える影響は密度汎関数理論を用いて評価されたクーロン相互作用によって説明される。 重要なことに、ランダム位相近似は不要であり、仮想電子軌道の評価は、多体摂動理論に基づく計算の文脈で以前に開発されたアルゴリズムによって回避される。 さらに、量子埋め込み理論をコーン・シャム・ハミルトニアンの固有状態ではない軌道からなる活性空間に一般化する。 最後に,半導体のスピン欠陥について報告する。

Quantum embedding theories are promising approaches to investigate strongly-correlated electronic states of active regions of large-scale molecular or condensed systems. Notable examples are spin defects in semiconductors and insulators. We present a detailed derivation of a quantum embedding theory recently introduced, which is based on the definition of effective Hamiltonians. The effect of the environment on a chosen active space is accounted for through screened Coulomb interactions evaluated using density functional theory. Importantly, the random phase approximation is not required and the evaluation of virtual electronic orbitals is circumvented with algorithms previously developed in the context of calculations based on many-body perturbation theory. In addition, we generalize the quantum embedding theory to active spaces composed of orbitals that are not eigenstates of Kohn-Sham Hamiltonians. Finally, we report results for spin defects in semiconductors.
翻訳日:2023-04-09 22:31:40 公開日:2021-02-25
# 量子ハミルトン工学のための深部強化学習

Deep reinforcement learning for quantum Hamiltonian engineering ( http://arxiv.org/abs/2102.13161v1 )

ライセンス: Link先を確認
Pai Peng, Xiaoyang Huang, Chao Yin, Linta Joseph, Chandrasekhar Ramanathan, Paola Cappellaro(参考訳) 量子多体系における工学的所望のハミルトニアンは、量子シミュレーション、計算、センシングなどの応用に必須である。 従来の量子ハミルトニアン工学シーケンスは摂動理論に基づく人間の直観を用いて設計されており、最適解を記述せず、複雑な実験的な欠陥に対応できない。 ここでは、深部強化学習(DRL)技術を用いてハミルトンの工学的シーケンスを数値的に探索し、固体核磁気共鳴量子シミュレータ上での卓越したシーケンスよりも優れていることを示す。 例えば、強く相互作用するスピン-1/2系を分離することを目指す。 我々は,異なる実験欠陥が存在する場合にDRLエージェントを訓練し,シミュレーションと実験の両方において出力シーケンスの堅牢性を検証する。 驚くべきことに、多くの学習されたシーケンスは、我々の知識では発見されていない共通のパターンを示しているが、意味のある分析的な記述を持っている。 したがって、この制御パターンに基づいて探索空間を制限することができ、より長いシーケンスを探索することができ、最終的に実験における支配的不完全に対して頑健な配列へと導かれる。 本研究は,量子ハミルトン工学の一般的な手法を示すだけでなく,ブラックボックス型人工知能と物理システムの理解を組み合わせることによって,実験的に実現可能な応用を実現することの重要性を浮き彫りにする。

Engineering desired Hamiltonian in quantum many-body systems is essential for applications such as quantum simulation, computation and sensing. Conventional quantum Hamiltonian engineering sequences are designed using human intuition based on perturbation theory, which may not describe the optimal solution and is unable to accommodate complex experimental imperfections. Here we numerically search for Hamiltonian engineering sequences using deep reinforcement learning (DRL) techniques and experimentally demonstrate that they outperform celebrated sequences on a solid-state nuclear magnetic resonance quantum simulator. As an example, we aim at decoupling strongly-interacting spin-1/2 systems. We train DRL agents in the presence of different experimental imperfections and verify robustness of the output sequences both in simulations and experiments. Surprisingly, many of the learned sequences exhibit a common pattern that had not been discovered before, to our knowledge, but has an meaningful analytical description. We can thus restrict the searching space based on this control pattern, allowing to search for longer sequences, ultimately leading to sequences that are robust against dominant imperfections in our experiments. Our results not only demonstrate a general method for quantum Hamiltonian engineering, but also highlight the importance of combining black-box artificial intelligence with understanding of physical system in order to realize experimentally feasible applications.
翻訳日:2023-04-09 22:31:14 公開日:2021-02-25
# 量子多体傷による離散時間結晶秩序:周期駆動による絡み合いステアリング

Discrete time-crystalline order enabled by quantum many-body scars: entanglement steering via periodic driving ( http://arxiv.org/abs/2102.13160v1 )

ライセンス: Link先を確認
Nishad Maskara, Alexios A Michailidis, Wen Wei Ho, Dolev Bluvstein, Soonwon Choi, Mikhail D Lukin, Maksym Serbyn(参考訳) 複雑系における多体量子力学の制御は、大規模量子絡み合い状態を確実に生成し、操作するための重要な課題である。 近年、Rydberg atom arrays (Bluvstein et. al., arXiv:2012.12276) のクエンチ実験では、量子多体傷に付随するコヒーレントなリバイバルが周期的駆動によって安定化され、幅広いパラメーター系上で安定なサブハーモニック応答が生じることを示した。 我々は,これらの現象が実効的なフロケ単位における時空間秩序から生じる,熱前状態における離散時間結晶(DTC)の挙動に対応する単純な関連モデルを分析する。 従来のDTCとは異なり、サブハーモニック応答はネエル型初期状態のみに存在する。 我々は摂動に対するロバスト性を予測し、将来の実験で観測できる創発的な時間スケールを同定する。 本研究は, 周期駆動と多体傷の併用により, 相互作用量子系の絡み合いを制御する経路を提案する。

The control of many-body quantum dynamics in complex systems is a key challenge in the quest to reliably produce and manipulate large-scale quantum entangled states. Recently, quench experiments in Rydberg atom arrays (Bluvstein et. al., arXiv:2012.12276) demonstrated that coherent revivals associated with quantum many-body scars can be stabilized by periodic driving, generating stable subharmonic responses over a wide parameter regime. We analyze a simple, related model where these phenomena originate from spatiotemporal ordering in an effective Floquet unitary, corresponding to discrete time-crystalline (DTC) behavior in a prethermal regime. Unlike conventional DTC, the subharmonic response exists only for Neel-like initial states, associated with quantum scars. We predict robustness to perturbations and identify emergent timescales that could be observed in future experiments. Our results suggest a route to controlling entanglement in interacting quantum systems by combining periodic driving with many-body scars.
翻訳日:2023-04-09 22:30:53 公開日:2021-02-25
# カーネル回帰とワイドニューラルネットワークにおけるスペクトル依存学習曲線

Spectrum Dependent Learning Curves in Kernel Regression and Wide Neural Networks ( http://arxiv.org/abs/2002.02561v7 )

ライセンス: Link先を確認
Blake Bordelon, Abdulkadir Canatar, Cengiz Pehlevan(参考訳) ガウス過程と統計物理学の理論的手法を用いて,カーネル回帰の一般化性能に関する解析式をトレーニングサンプル数関数として導出した。 我々の表現は、トレーニングとニューラルタンジェントカーネル(NTK)によるカーネル回帰の等価性により、広いニューラルネットワークに適用される。 カーネルのスペクトル成分の違いによる全一般化誤差の分解を計算することにより、トレーニングセットのサイズが大きくなるにつれて、カーネルマシンとニューラルネットワークはターゲット関数のスペクトルモードを順次高めるという新しいスペクトル原理を同定する。 高次元超球面上の均一分布からデータをサンプリングすると、NTKを含むドット製品カーネルは、対象関数の異なる周波数モードが学習される学習段階を示す。 我々は合成データとMNISTデータセットのシミュレーションを用いて理論を検証する。

We derive analytical expressions for the generalization performance of kernel regression as a function of the number of training samples using theoretical methods from Gaussian processes and statistical physics. Our expressions apply to wide neural networks due to an equivalence between training them and kernel regression with the Neural Tangent Kernel (NTK). By computing the decomposition of the total generalization error due to different spectral components of the kernel, we identify a new spectral principle: as the size of the training set grows, kernel machines and neural networks fit successively higher spectral modes of the target function. When data are sampled from a uniform distribution on a high-dimensional hypersphere, dot product kernels, including NTK, exhibit learning stages where different frequency modes of the target function are learned. We verify our theory with simulations on synthetic data and MNIST dataset.
翻訳日:2023-01-03 03:42:03 公開日:2021-02-25
# 空き時間でNASをゼロにする方法

How to 0wn NAS in Your Spare Time ( http://arxiv.org/abs/2002.06776v2 )

ライセンス: Link先を確認
Sanghyun Hong, Michael Davinroy, Yi\u{g}itcan Kaya, Dana Dachman-Soled, Tudor Dumitra\c{s}(参考訳) 新しいデータ処理パイプラインと新しいネットワークアーキテクチャは、ディープラーニングの成功を促している。 その結果、業界はトップパフォーマンスアーキテクチャを知的財産とみなし、ニューラルアーキテクチャサーチ(NAS)を通じてそのようなアーキテクチャを発見するためにかなりの計算資源を割いている。 クラウドで使用する場合、マシンラーニング・アズ・ア・サービスの提供には、さまざまなハードウェアサイドチャネルを活用することで、アーキテクチャを再構築する機会も用意されている。 しかし、計算グラフ(例えば、層、分岐またはスキップ接続)、アーキテクチャパラメータ(例えば、畳み込み層におけるフィルタの数)、または特定の前処理ステップ(例えば、埋め込み)を知らずに、新しいアーキテクチャとパイプラインを再構築することは困難である。 本稿では,キャッシュ側チャネル攻撃であるfash+reloadから少量の情報漏洩を利用して,新しい深層学習システムのキーコンポーネントを再構築するアルゴリズムを考案する。 Flush+Reloadを使って計算のトレースと各計算のタイミングを推測する。 提案アルゴリズムはトレースから候補計算グラフを生成し,パラメータ推定プロセスを通じて非互換な候補を除去する。 我々はPyTorchとTensorflowにアルゴリズムを実装した。 我々は、マルウェア検出のための新しいデータ前処理パイプラインであるMalConvと、アーキテクチャファミリを知らずにCPU上で動作するように最適化されたImageNet分類のための新しいネットワークアーキテクチャであるProxylessNAS- CPUを再構築できることを実験的に実証した。 どちらの場合も0%の誤差を達成する。 これらの結果から、ハードウェアサイドチャネルはMLaaSに対する実用的な攻撃ベクターであり、ディープラーニングシステムのセキュリティへの影響を理解するために、より多くの努力が注がれていることが示唆された。

New data processing pipelines and novel network architectures increasingly drive the success of deep learning. In consequence, the industry considers top-performing architectures as intellectual property and devotes considerable computational resources to discovering such architectures through neural architecture search (NAS). This provides an incentive for adversaries to steal these novel architectures; when used in the cloud, to provide Machine Learning as a Service, the adversaries also have an opportunity to reconstruct the architectures by exploiting a range of hardware side channels. However, it is challenging to reconstruct novel architectures and pipelines without knowing the computational graph (e.g., the layers, branches or skip connections), the architectural parameters (e.g., the number of filters in a convolutional layer) or the specific pre-processing steps (e.g. embeddings). In this paper, we design an algorithm that reconstructs the key components of a novel deep learning system by exploiting a small amount of information leakage from a cache side-channel attack, Flush+Reload. We use Flush+Reload to infer the trace of computations and the timing for each computation. Our algorithm then generates candidate computational graphs from the trace and eliminates incompatible candidates through a parameter estimation process. We implement our algorithm in PyTorch and Tensorflow. We demonstrate experimentally that we can reconstruct MalConv, a novel data pre-processing pipeline for malware detection, and ProxylessNAS- CPU, a novel network architecture for the ImageNet classification optimized to run on CPUs, without knowing the architecture family. In both cases, we achieve 0% error. These results suggest hardware side channels are a practical attack vector against MLaaS, and more efforts should be devoted to understanding their impact on the security of deep learning systems.
翻訳日:2022-12-31 13:11:25 公開日:2021-02-25
# フェアスコーリング関数の学習:ROCに基づくフェアネス制約下での両部ランク付け

Learning Fair Scoring Functions: Bipartite Ranking under ROC-based Fairness Constraints ( http://arxiv.org/abs/2002.08159v4 )

ライセンス: Link先を確認
Robin Vogel, Aur\'elien Bellet, and Stephan Cl\'emen\c{c}on(参考訳) AIの多くの応用は、個々の属性の学習機能を使って個人を評価することである。 これらの予測リスクスコアは、そのスコアが特定のしきい値を超えたかどうかに基づいて決定される。 信用貸付や医療診断などの重要な応用において、そのようなシステムに付与される委譲のレベルは、公平性の疑問にどのように答えるかに大きく依存する。 本稿では,二部ランキングと呼ばれる古典的学習課題であるバイナリラベル付きデータからスコアリング関数を学習する問題に対する公平性について検討する。 この文脈におけるランク精度のゴールド標準尺度であるROC曲線の機能的性質は、公正性制約を定式化するいくつかの方法をもたらすと論じる。 本稿では, AUC と ROC 曲線に基づくフェアネス定義の一般族を導入し, 評価関数を閾値付けした分類器が所望の閾値範囲の分類フェアネスを満たすように, ROC に基づく制約をインスタンス化できることを示す。 このような制約下で学習したスコアリング関数の一般化境界を確立し、実用的な学習アルゴリズムを設計し、実データと合成データの数値実験によるアプローチの妥当性を示す。

Many applications of AI involve scoring individuals using a learned function of their attributes. These predictive risk scores are then used to take decisions based on whether the score exceeds a certain threshold, which may vary depending on the context. The level of delegation granted to such systems in critical applications like credit lending and medical diagnosis will heavily depend on how questions of fairness can be answered. In this paper, we study fairness for the problem of learning scoring functions from binary labeled data, a classic learning task known as bipartite ranking. We argue that the functional nature of the ROC curve, the gold standard measure of ranking accuracy in this context, leads to several ways of formulating fairness constraints. We introduce general families of fairness definitions based on the AUC and on ROC curves, and show that our ROC-based constraints can be instantiated such that classifiers obtained by thresholding the scoring function satisfy classification fairness for a desired range of thresholds. We establish generalization bounds for scoring functions learned under such constraints, design practical learning algorithms and show the relevance our approach with numerical experiments on real and synthetic data.
翻訳日:2022-12-30 13:09:41 公開日:2021-02-25
# 条件付き独立グラフを用いたGAN:確率分岐の付加性について

GANs with Conditional Independence Graphs: On Subadditivity of Probability Divergences ( http://arxiv.org/abs/2003.00652v3 )

ライセンス: Link先を確認
Mucong Ding, Constantinos Daskalakis, Soheil Feizi(参考訳) generative adversarial networks (gans) は、データセットの基盤となる分布を学ぶ現代的な手法である。 GANは、サンプル合成、脱ノイズ、ドメイン転送などに広く用いられている。 しかし、GANは、基礎となる分布に関する追加情報がないモデルフリーで設計されている。 しかし、多くの応用において、実践者はベイズネットワークまたはマルコフランダムフィールド(MRF)として、変数の基本的な独立グラフにアクセスすることができる。 モデルベースのGANの設計において、この追加情報をどのように利用できるのか? 本稿では,2つの高次元分布間の距離の上限をベイズネットやmrfのグラフィカルな構造の(局所的な)近傍における辺点間の距離の和として定式化する確率的発散の部分加法的性質を研究することにより,この問題に対する理論的基礎を提供する。 いくつかの一般的な確率の発散が軽度条件下での部分加法的概念を満足していることを証明する。 これらの結果は、ネットワーク全体の巨大な判別器ではなく、ベイズネット/mrfの近傍に一連の単純な判別器を使用するモデルベースのganを原則的に設計し、統計学的および計算的な利点を提供する。 合成および実世界のデータセットに関する我々の実験は、モデルベースGANの原則設計の利点を実証している。

Generative Adversarial Networks (GANs) are modern methods to learn the underlying distribution of a data set. GANs have been widely used in sample synthesis, de-noising, domain transfer, etc. GANs, however, are designed in a model-free fashion where no additional information about the underlying distribution is available. In many applications, however, practitioners have access to the underlying independence graph of the variables, either as a Bayesian network or a Markov Random Field (MRF). We ask: how can one use this additional information in designing model-based GANs? In this paper, we provide theoretical foundations to answer this question by studying subadditivity properties of probability divergences, which establish upper bounds on the distance between two high-dimensional distributions by the sum of distances between their marginals over (local) neighborhoods of the graphical structure of the Bayes-net or the MRF. We prove that several popular probability divergences satisfy some notion of subadditivity under mild conditions. These results lead to a principled design of a model-based GAN that uses a set of simple discriminators on the neighborhoods of the Bayes-net/MRF, rather than a giant discriminator on the entire network, providing significant statistical and computational benefits. Our experiments on synthetic and real-world datasets demonstrate the benefits of our principled design of model-based GANs.
翻訳日:2022-12-27 04:22:57 公開日:2021-02-25
# リスク外挿(rex)によるアウト・オブ・ディストリビューション・ジェネライゼーション

Out-of-Distribution Generalization via Risk Extrapolation (REx) ( http://arxiv.org/abs/2003.00688v5 )

ライセンス: Link先を確認
David Krueger, Ethan Caballero, Joern-Henrik Jacobsen, Amy Zhang, Jonathan Binas, Dinghuai Zhang, Remi Le Priol, Aaron Courville(参考訳) 分散シフトは、機械学習予測システムを研究室から現実世界に転送する際の大きな障害の1つである。 この問題に取り組むために、トレーニング領域間のばらつきはテスト時に遭遇する可能性のあるばらつきの代表であると同時に、テスト時のシフトがより極端に大きいかもしれないと仮定する。 特に,訓練領域間でのリスク差の低減は,入力が因果的要素と反因果的要素の両方を含むような困難な設定を含む,広範囲の極端な分布シフトに対するモデルの感度を低減できることを示す。 本稿では,このアプローチであるリスク外挿(REx)を,外挿領域の摂動集合(MM-REx)に対する堅牢な最適化の一形態として動機付け,より単純な変種としてのトレーニングリスク(V-REx)の分散に対するペナルティを提案する。 我々は、rexの変異がターゲットの因果メカニズムを回復できると同時に、入力分布の変化("covariate shift")に対するロバスト性も提供することを証明した。 因果的に誘導される分布シフトや共変量シフトに対するロバストなトレードオフによって、Rexはこれらのシフトが共起する状況において不変リスク最小化のような代替手法より優れている。

Distributional shift is one of the major obstacles when transferring machine learning prediction systems from the lab to the real world. To tackle this problem, we assume that variation across training domains is representative of the variation we might encounter at test time, but also that shifts at test time may be more extreme in magnitude. In particular, we show that reducing differences in risk across training domains can reduce a model's sensitivity to a wide range of extreme distributional shifts, including the challenging setting where the input contains both causal and anti-causal elements. We motivate this approach, Risk Extrapolation (REx), as a form of robust optimization over a perturbation set of extrapolated domains (MM-REx), and propose a penalty on the variance of training risks (V-REx) as a simpler variant. We prove that variants of REx can recover the causal mechanisms of the targets, while also providing some robustness to changes in the input distribution ("covariate shift"). By appropriately trading-off robustness to causally induced distributional shifts and covariate shift, REx is able to outperform alternative methods such as Invariant Risk Minimization in situations where these types of shift co-occur.
翻訳日:2022-12-27 03:56:49 公開日:2021-02-25
# deep neural network and beyond: a review of methods and applications (特集 深層ニューラルネットワークとその周辺)

Explaining Deep Neural Networks and Beyond: A Review of Methods and Applications ( http://arxiv.org/abs/2003.07631v2 )

ライセンス: Link先を確認
Wojciech Samek, Gr\'egoire Montavon, Sebastian Lapuschkin, Christopher J. Anders, Klaus-Robert M\"uller(参考訳) 業界や科学における機械学習の利用が広く、そして非常に成功したことで、説明可能なaiに対する需要が高まっている。 したがって、非線形機械学習、特にディープニューラルネットワークの問題解決能力と戦略をより深く理解するための解釈可能性と説明法が注目されている。 In this work we aim to (1) provide a timely overview of this active emerging field, with a focus on 'post-hoc' explanations, and explain its theoretical foundations, (2) put interpretability algorithms to a test both from a theory and comparative evaluation perspective using extensive simulations, (3) outline best practice aspects i.e. how to best include interpretation methods into the standard usage of machine learning and (4) demonstrate successful usage of explainable AI in a representative selection of application scenarios. 最後に,この機械学習のエキサイティングな基礎分野の課題と今後の方向性について論じる。

With the broader and highly successful usage of machine learning in industry and the sciences, there has been a growing demand for Explainable AI. Interpretability and explanation methods for gaining a better understanding about the problem solving abilities and strategies of nonlinear Machine Learning, in particular, deep neural networks, are therefore receiving increased attention. In this work we aim to (1) provide a timely overview of this active emerging field, with a focus on 'post-hoc' explanations, and explain its theoretical foundations, (2) put interpretability algorithms to a test both from a theory and comparative evaluation perspective using extensive simulations, (3) outline best practice aspects i.e. how to best include interpretation methods into the standard usage of machine learning and (4) demonstrate successful usage of explainable AI in a representative selection of application scenarios. Finally, we discuss challenges and possible future directions of this exciting foundational field of machine learning.
翻訳日:2022-12-22 20:20:34 公開日:2021-02-25
# 離散的潜在ボトルネックを持つテキスト生成のための変分オートエンコーダの改善

Improve Variational Autoencoder for Text Generationwith Discrete Latent Bottleneck ( http://arxiv.org/abs/2004.10603v2 )

ライセンス: Link先を確認
Yang Zhao, Ping Yu, Suchismit Mahapatra, Qinliang Su and Changyou Chen(参考訳) 変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。 しかしながら、VAEのシーケンシャルテキスト生成の共通の落とし穴は、強い自己回帰デコーダで潜在変数を無視する傾向にある。 本稿では,よりコンパクトな潜在空間における暗黙的特徴マッチングを強制するために,離散ボトルネックを適用することにより,この問題を軽減するための原則的アプローチを提案する。 我々は、各入力が正規化潜在性表現として潜在原子の組み合わせを選択することを学習する共有離散潜在性空間を課す。 我々のモデルは、離散列の基本的な意味論をモデル化する有望な能力を提供し、より解釈的な潜在構造を提供する。 経験的に、言語モデリング、不整合テキストスタイル転送、対話応答生成、ニューラルマシン翻訳など、幅広いタスクにおいて、モデルの効率性と有効性を示す。

Variational autoencoders (VAEs) are essential tools in end-to-end representation learning. However, the sequential text generation common pitfall with VAEs is that the model tends to ignore latent variables with a strong auto-regressive decoder. In this paper, we propose a principled approach to alleviate this issue by applying a discretized bottleneck to enforce an implicit latent feature matching in a more compact latent space. We impose a shared discrete latent space where each input is learned to choose a combination of latent atoms as a regularized latent representation. Our model endows a promising capability to model underlying semantics of discrete sequences and thus provide more interpretative latent structures. Empirically, we demonstrate our model's efficiency and effectiveness on a broad range of tasks, including language modeling, unaligned text style transfer, dialog response generation, and neural machine translation.
翻訳日:2022-12-10 17:04:00 公開日:2021-02-25
# 自己アテンションの帰属:トランスフォーマー内部の情報相互作用の解釈

Self-Attention Attribution: Interpreting Information Interactions Inside Transformer ( http://arxiv.org/abs/2004.11207v2 )

ライセンス: Link先を確認
Yaru Hao, Li Dong, Furu Wei, Ke Xu(参考訳) トランスフォーマーベースのモデルの大きな成功は、トークン依存性を学習し、入力からコンテキスト情報をエンコードする強力なマルチヘッドセルフアテンションメカニズムの恩恵を受けている。 事前の作業では、個々の入力機能に対するモデル決定を、さまざまなサリエンシ尺度で属性付けするが、これらの入力機能がどのように相互に相互作用し、予測に達するかの説明に失敗している。 本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。 BERTを応用して広範な研究を行う。 第一に,注意ヘッドの識別に自己帰属属性を適用し,他は限界性能低下を伴って刈り取ることができる。 さらに,各レイヤの最も有意義な依存関係を抽出して帰属ツリーを構築し,transformer内の階層的相互作用を明らかにする。 最後に, BERT に対する非目標攻撃の実装において, 敵パターンとして属性結果が利用できることを示す。

The great success of Transformer-based models benefits from the powerful multi-head self-attention mechanism, which learns token dependencies and encodes contextual information from the input. Prior work strives to attribute model decisions to individual input features with different saliency measures, but they fail to explain how these input features interact with each other to reach predictions. In this paper, we propose a self-attention attribution method to interpret the information interactions inside Transformer. We take BERT as an example to conduct extensive studies. Firstly, we apply self-attention attribution to identify the important attention heads, while others can be pruned with marginal performance degradation. Furthermore, we extract the most salient dependencies in each layer to construct an attribution tree, which reveals the hierarchical interactions inside Transformer. Finally, we show that the attribution results can be used as adversarial patterns to implement non-targeted attacks towards BERT.
翻訳日:2022-12-10 09:38:09 公開日:2021-02-25
# 音声強調における視覚刺激の役割について

On the Role of Visual Cues in Audiovisual Speech Enhancement ( http://arxiv.org/abs/2004.12031v4 )

ライセンス: Link先を確認
Zakaria Aldeneh, Anushree Prasanna Kumar, Barry-John Theobald, Erik Marchi, Sachin Kajarekar, Devang Naik, Ahmed Hussen Abdelaziz(参考訳) 音声視覚音声強調モデルのイントロスペクションについて述べる。 特に、ニューラルオーディオ視覚音声強調モデルが視覚的手がかりを用いてターゲット音声信号の質を向上させる方法の解釈に焦点をあてる。 視覚手がかりは、音声活動、すなわち音声/サイレンスに関するハイレベルな情報だけでなく、構音の場所に関する詳細な視覚情報を提供する。 この発見の副産物の1つは、学習された視覚埋め込みが他の視覚音声アプリケーションの特徴として使用できることである。 ビセム(音素の視覚的類似)の分類に学習した視覚的埋め込みの有効性を実証する。 本研究は,視覚音声強調の重要な側面と,そのモデルが視覚音声アプリケーションにおける自己スーパービジョンタスクにどのように役立つかを示すものである。

We present an introspection of an audiovisual speech enhancement model. In particular, we focus on interpreting how a neural audiovisual speech enhancement model uses visual cues to improve the quality of the target speech signal. We show that visual cues provide not only high-level information about speech activity, i.e., speech/silence, but also fine-grained visual information about the place of articulation. One byproduct of this finding is that the learned visual embeddings can be used as features for other visual speech applications. We demonstrate the effectiveness of the learned visual embeddings for classifying visemes (the visual analogy to phonemes). Our results provide insight into important aspects of audiovisual speech enhancement and demonstrate how such models can be used for self-supervision tasks for visual speech applications.
翻訳日:2022-12-09 21:16:55 公開日:2021-02-25
# MakeItTalk: 講演者対応のトーキングヘッドアニメーション

MakeItTalk: Speaker-Aware Talking-Head Animation ( http://arxiv.org/abs/2004.12992v3 )

ライセンス: Link先を確認
Yang Zhou, Xintong Han, Eli Shechtman, Jose Echevarria, Evangelos Kalogerakis, Dingzeyu Li(参考訳) 本稿では,音声を唯一の入力として,単一の顔画像から表現力のある発話頭部を生成する手法を提案する。 音声から生のピクセルへ直接マッピングを学習しようとする従来のアプローチとは対照的に,本手法ではまず,入力された音声信号に含まれる内容と話者情報をアンハングリングする。 音声コンテンツは唇や周囲の顔領域の動きをロバストに制御し、話者情報は表情の仕様と他の話し手の頭の動きを決定する。 この方法のもう一つの重要な要素は、話者認識のダイナミクスを反映した顔のランドマークの予測である。 この中間表現に基づき,全発話頭部のフォトリアリスティックな映像を全動で合成するとともに,芸術的絵画,スケッチ,2dアニメキャラクタ,日本のマンガ,スタイリゼーションを統一した一つの枠組みで合成することができる。 そこで本研究では,本手法の定量的・質的評価に加えて,先行研究に比べて高い品質の発話ヘッドを提示する。

We present a method that generates expressive talking heads from a single facial image with audio as the only input. In contrast to previous approaches that attempt to learn direct mappings from audio to raw pixels or points for creating talking faces, our method first disentangles the content and speaker information in the input audio signal. The audio content robustly controls the motion of lips and nearby facial regions, while the speaker information determines the specifics of facial expressions and the rest of the talking head dynamics. Another key component of our method is the prediction of facial landmarks reflecting speaker-aware dynamics. Based on this intermediate representation, our method is able to synthesize photorealistic videos of entire talking heads with full range of motion and also animate artistic paintings, sketches, 2D cartoon characters, Japanese mangas, stylized caricatures in a single unified framework. We present extensive quantitative and qualitative evaluation of our method, in addition to user studies, demonstrating generated talking heads of significantly higher quality compared to prior state-of-the-art.
翻訳日:2022-12-09 05:58:26 公開日:2021-02-25
# Open Graphベンチマーク:グラフ上の機械学習のためのデータセット

Open Graph Benchmark: Datasets for Machine Learning on Graphs ( http://arxiv.org/abs/2005.00687v7 )

ライセンス: Link先を確認
Weihua Hu, Matthias Fey, Marinka Zitnik, Yuxiao Dong, Hongyu Ren, Bowen Liu, Michele Catasta, Jure Leskovec(参考訳) Open Graph Benchmark(OGB)は、スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするための、挑戦的で現実的なベンチマークデータセットである。 ogbデータセットは大規模で、複数の重要なグラフmlタスクを包含しており、社会ネットワークや情報ネットワーク、生体ネットワーク、分子グラフ、ソースコードast、知識グラフなど、さまざまなドメインをカバーする。 各データセットに対して,アプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。 データセットの構築に加えて、各データセットに対する広範なベンチマーク実験も行っています。 実験の結果,ogbデータセットは,大規模グラフへのスケーラビリティと,現実的なデータ分割下での分散一般化という重大な課題を呈し,今後の研究に実りある機会を示唆する。 最後に、OGBは、グラフデータのロード、実験的なセットアップ、モデル評価のプロセスを簡素化し、標準化する、エンドツーエンドのグラフMLパイプラインを提供する。 OGBは定期的に更新され、コミュニティからのインプットを歓迎する。 OGBデータセットに加えて、データローダ、評価スクリプト、ベースラインコード、リーダボードもhttps://ogb.stanford.eduで公開されている。

We present the Open Graph Benchmark (OGB), a diverse set of challenging and realistic benchmark datasets to facilitate scalable, robust, and reproducible graph machine learning (ML) research. OGB datasets are large-scale, encompass multiple important graph ML tasks, and cover a diverse range of domains, ranging from social and information networks to biological networks, molecular graphs, source code ASTs, and knowledge graphs. For each dataset, we provide a unified evaluation protocol using meaningful application-specific data splits and evaluation metrics. In addition to building the datasets, we also perform extensive benchmark experiments for each dataset. Our experiments suggest that OGB datasets present significant challenges of scalability to large-scale graphs and out-of-distribution generalization under realistic data splits, indicating fruitful opportunities for future research. Finally, OGB provides an automated end-to-end graph ML pipeline that simplifies and standardizes the process of graph data loading, experimental setup, and model evaluation. OGB will be regularly updated and welcomes inputs from the community. OGB datasets as well as data loaders, evaluation scripts, baseline code, and leaderboards are publicly available at https://ogb.stanford.edu .
翻訳日:2022-12-07 12:06:38 公開日:2021-02-25
# 現代のトレーニング可能なアクティベーション関数に関する調査

A survey on modern trainable activation functions ( http://arxiv.org/abs/2005.00817v4 )

ライセンス: Link先を確認
Andrea Apicella, Francesco Donnarumma, Francesco Isgr\`o and Roberto Prevete(参考訳) ニューラルネットワーク文学では、ニューラルネットワークの性能を向上させる活性化関数の同定と定義に強い関心がある。 近年、科学コミュニティは、学習プロセス中に訓練できる活性化機能(通常「訓練可能」、「学習可能」、または「適応可能」活性化機能)の調査に、新たな関心を寄せている。 ネットワークパフォーマンスが向上しているようだ。 トレーニング可能なアクティベーション関数の多変数および異種モデルが文献で提案されている。 本稿では,これらのモデルについて調査する。 文献における「活性化関数」という用語の使用に関する議論から、訓練可能な活性化関数の分類法を提案し、最近のモデルと過去のモデルの共通および特徴的特性を強調し、この種のアプローチの主な利点と限界について論じる。 提案手法の多くは、固定(訓練不能)活性化関数を用いたニューロン層の追加と、対応する重み層を制約する単純な局所規則と等価である。

In neural networks literature, there is a strong interest in identifying and defining activation functions which can improve neural network performance. In recent years there has been a renovated interest of the scientific community in investigating activation functions which can be trained during the learning process, usually referred to as "trainable", "learnable" or "adaptable" activation functions. They appear to lead to better network performance. Diverse and heterogeneous models of trainable activation function have been proposed in the literature. In this paper, we present a survey of these models. Starting from a discussion on the use of the term "activation function" in literature, we propose a taxonomy of trainable activation functions, highlight common and distinctive proprieties of recent and past models, and discuss main advantages and limitations of this type of approach. We show that many of the proposed approaches are equivalent to adding neuron layers which use fixed (non-trainable) activation functions and some simple local rule that constraints the corresponding weight layers.
翻訳日:2022-12-07 11:31:37 公開日:2021-02-25
# 医療用BERTのローカライズとバイオメディカルBERTの強化のための事前トレーニング技術

Pre-training technique to localize medical BERT and enhance biomedical BERT ( http://arxiv.org/abs/2005.07202v3 )

ライセンス: Link先を確認
Shoya Wada, Toshihiro Takeda, Shiro Manabe, Shozo Konishi, Jun Kamohara, and Yasushi Matsumura(参考訳) 原文を用いた大規模ニューラルネットワークモデルの事前学習は,自然言語処理(NLP)における伝達学習の改善に大きく貢献している。 変換器(BERT)からの双方向エンコーダ表現などのトランスフォーマーベース言語モデルの導入により、NLPによる自由テキストからの情報抽出の性能は、一般ドメインと医療ドメインの両方で大幅に改善されているが、高品質で大規模のデータベースがほとんど存在しない領域でよく機能する特定のBERTモデルを訓練することは困難である。 我々は、ドメイン固有のコーパスをアップサンプリングし、より大きなコーパスをバランスよく事前トレーニングすることで、この問題に対処できると仮定した。 提案手法は,アップサンプリング後の事前学習と増幅語彙の同時学習という1つの選択肢からなる。 3つの実験を行い,製品の評価を行った。 医療用bertは,医療用文書分類タスクにおいて従来のベースラインや他のbertモデルよりも優れており,一般および医療用ドメインコーパスを用いて事前学習した英語bertは,生物医学的言語理解評価(blue)ベンチマークにおいて実用上十分な性能を示した。 また, プレトレーニング中に臨床ノートを使用しない拡張生体医学的bertモデルでは, ブルーベンチマークの臨床的, 生体医学的スコアは, 提案法を使わずにトレーニングしたアブレーションモデルよりも0.3点高い値を示した。 目標タスクに適したコーパスから抽出したアップサンプリングインスタンスによる事前訓練により,高性能なBERTモデルを構築することができる。

Pre-training large-scale neural language models on raw texts has made a significant contribution to improving transfer learning in natural language processing (NLP). With the introduction of transformer-based language models, such as bidirectional encoder representations from transformers (BERT), the performance of information extraction from a free text by NLP has significantly improved for both the general domain and medical domain; however, it is difficult to train specific BERT models that perform well for domains in which there are few publicly available databases of high quality and large size. We hypothesized that this problem can be addressed by up-sampling a domain-specific corpus and using it for pre-training with a larger corpus in a balanced manner. Our proposed method consists of a single intervention with one option: simultaneous pre-training after up-sampling and amplified vocabulary. We conducted three experiments and evaluated the resulting products. We confirmed that our Japanese medical BERT outperformed conventional baselines and the other BERT models in terms of the medical document classification task and that our English BERT pre-trained using both the general and medical-domain corpora performed sufficiently well for practical use in terms of the biomedical language understanding evaluation (BLUE) benchmark. Moreover, our enhanced biomedical BERT model, in which clinical notes were not used during pre-training, showed that both the clinical and biomedical scores of the BLUE benchmark were 0.3 points above that of the ablation model trained without our proposed method. Well-balanced pre-training by up-sampling instances derived from a corpus appropriate for the target task allows us to construct a high-performance BERT model.
翻訳日:2022-12-03 05:05:57 公開日:2021-02-25
# 因果モデルの適応速度の解析

An Analysis of the Adaptation Speed of Causal Models ( http://arxiv.org/abs/2005.09136v2 )

ライセンス: Link先を確認
R\'emi Le Priol, Reza Babanezhad Harikandeh, Yoshua Bengio and Simon Lacoste-Julien(参考訳) 未知の構造的因果モデル上で未知の介入によって生成されるデータセットの集合を考えてみよう。 最近、bengio et al. (2020) は、全ての候補モデルの中で、$g$が有望な実験とともに、データセットからデータセットへ適応する最速であると予想した。 実際、直感的には$G$は適応する機構が小さいが、この正当化は不完全である。 私たちの貢献は、この仮説のより詳細な分析です。 原因影響SCMの適応速度について検討する。 確率的最適化による収束率を用いて,適応速度の関連指標は介入後のパラメータ空間における距離であることを示す。 このプロキシを分類的および通常の原因影響モデルに適用すると、2つの結果が得られる。 介入が原因変数である場合には、適切な因果方向のSCMを大きな要因で活用する。 介入が効果変数にある場合、相対適応速度を特徴付ける。 驚くべきことに、私たちは反因果モデルが有利である状況を見つけ、初期仮説を偽造する。 実験を再現するコードはhttps://github.com/remilepriol/causal-adaptation-speedで入手できる。

Consider a collection of datasets generated by unknown interventions on an unknown structural causal model $G$. Recently, Bengio et al. (2020) conjectured that among all candidate models, $G$ is the fastest to adapt from one dataset to another, along with promising experiments. Indeed, intuitively $G$ has less mechanisms to adapt, but this justification is incomplete. Our contribution is a more thorough analysis of this hypothesis. We investigate the adaptation speed of cause-effect SCMs. Using convergence rates from stochastic optimization, we justify that a relevant proxy for adaptation speed is distance in parameter space after intervention. Applying this proxy to categorical and normal cause-effect models, we show two results. When the intervention is on the cause variable, the SCM with the correct causal direction is advantaged by a large factor. When the intervention is on the effect variable, we characterize the relative adaptation speed. Surprisingly, we find situations where the anticausal model is advantaged, falsifying the initial hypothesis. Code to reproduce experiments is available at https://github.com/remilepriol/causal-adaptation-speed
翻訳日:2022-12-01 23:03:12 公開日:2021-02-25
# マルチエージェント情報学習プロセス

Multi-Agent Informational Learning Processes ( http://arxiv.org/abs/2006.06870v4 )

ライセンス: Link先を確認
J.K. Terry, Nathaniel Grammel(参考訳) 本稿では,マルチエージェント強化学習の数学的モデルであるマルチエージェント情報学習プロセッサ"MAILP"モデルを提案する。 このモデルは、エージェントが一定の量の情報に対するポリシーを持っているという考えに基づいており、この情報が反復的にどのように進化し、多くのエージェントを通じて伝播するかをモデル化している。 このモデルは非常に一般的であり、唯一の意味のある仮定は、個々のエージェントの学習が徐々に遅くなるということである。

We introduce a new mathematical model of multi-agent reinforcement learning, the Multi-Agent Informational Learning Processor "MAILP" model. The model is based on the notion that agents have policies for a certain amount of information, models how this information iteratively evolves and propagates through many agents. This model is very general, and the only meaningful assumption made is that learning for individual agents progressively slows over time.
翻訳日:2022-11-22 13:06:18 公開日:2021-02-25
# 複数のエージェントによる等価かつ最適輸送

Equitable and Optimal Transport with Multiple Agents ( http://arxiv.org/abs/2006.07260v3 )

ライセンス: Link先を確認
Meyer Scetbon, Laurent Meunier, Jamal Atif and Marco Cuturi(参考訳) 本稿では,複数のコストがかかる場合の最適輸送問題の延長を提案する。 各コストをエージェントとして考慮し、あるディストリビューションを別のエージェントに転送する作業について、エージェント間で均等に共有することを目指している。 そのために、最も働くエージェントの輸送コストを最小限に抑えます。 別の視点では、目的がエージェント間で均等な商品を均質な選好に従って分配することである。 ここでは、最も有利でないエージェントの有用性を最大化する。 これは公平な分割問題です。 最適輸送と同様に、問題は線形最適化問題としてキャストできる。 エージェントが1つしかない場合、我々は最適な輸送問題を回復する。 2つのエージェントを考慮すると、よく知られたダドリー計量を含む$\alpha$-H\"older関数によって定義される積分確率メトリックを復元することができる。 我々の知る限りでは、ダドリー計量と最適輸送の間のリンクが与えられるのはこれが初めてである。 我々は、その問題のエントロピー正規化を提供し、標準線形プログラムよりも高速な代替アルゴリズムを実現する。

We introduce an extension of the Optimal Transport problem when multiple costs are involved. Considering each cost as an agent, we aim to share equally between agents the work of transporting one distribution to another. To do so, we minimize the transportation cost of the agent who works the most. Another point of view is when the goal is to partition equitably goods between agents according to their heterogeneous preferences. Here we aim to maximize the utility of the least advantaged agent. This is a fair division problem. Like Optimal Transport, the problem can be cast as a linear optimization problem. When there is only one agent, we recover the Optimal Transport problem. When two agents are considered, we are able to recover Integral Probability Metrics defined by $\alpha$-H\"older functions, which include the widely-known Dudley metric. To the best of our knowledge, this is the first time a link is given between the Dudley metric and Optimal Transport. We provide an entropic regularization of that problem which leads to an alternative algorithm faster than the standard linear program.
翻訳日:2022-11-22 03:43:03 公開日:2021-02-25
# 連合学習におけるフレキシブルデバイス参加に向けて

Towards Flexible Device Participation in Federated Learning ( http://arxiv.org/abs/2006.06954v2 )

ライセンス: Link先を確認
Yichen Ruan, Xiaoxi Zhang, Shu-Che Liang, Carlee Joe-Wong(参考訳) 従来のフェデレーション学習アルゴリズムは、デバイスの参加率に厳格な要件を課し、フェデレーション学習の可能性を制限する。 本稿では、現在の学習パラダイムを拡張し、非アクティブになり、不完全な更新を計算し、トレーニング中に出発または到着するデバイスを含む。 分析結果から、データの独立性や非IID(non-IID)がなければ、より柔軟なデバイス参加が学習収束に影響を与えることを示す。 次に,デバイスが不活性である場合や不完全更新を返却する場合においても収束する新しい連合集約方式を提案する。 また、学習プロセスが早期出発や後期到着にどのように適応するかを調査し、収束に与える影響を分析する。

Traditional federated learning algorithms impose strict requirements on the participation rates of devices, which limit the potential reach of federated learning. This paper extends the current learning paradigm to include devices that may become inactive, compute incomplete updates, and depart or arrive in the middle of training. We derive analytical results to illustrate how allowing more flexible device participation can affect the learning convergence when data is not independently and identically distributed (non-IID). We then propose a new federated aggregation scheme that converges even when devices may be inactive or return incomplete updates. We also study how the learning process can adapt to early departures or late arrivals, and analyze their impacts on the convergence.
翻訳日:2022-11-22 02:30:48 公開日:2021-02-25
# ランダム部分空間上の正規化EMM

Regularized ERM on random subspaces ( http://arxiv.org/abs/2006.10016v3 )

ライセンス: Link先を確認
Andrea Della Vecchia, Jaouad Mourtada, Ernesto De Vito, Lorenzo Rosasco(参考訳) 仮説空間は与えられた空間のランダム部分空間である古典的経験的リスク最小化の自然な拡張を研究する。 特に、データのランダムなサブセットにまたがるデータ依存部分空間を考慮し、カーネルメソッドに対するnystr\"omアプローチの特別な場合として復元する。 ランダムな部分空間を考えると自然に計算上の節約につながるが、問題は対応する学習精度が劣化するかどうかである。 これらの統計計算トレードオフは、ロジスティック損失のような最小二乗損失と自己調和損失関数のために最近研究されている。 ここでは、これらの結果を、サポートベクトルマシンで使用されるヒンジ損失など、滑らかでないかもしれない凸リプシッツ損失関数に拡張する。 この拡張は、異なる技術ツールを使用する新しい証明を開発する必要がある。 本研究の主目的は,学習の困難さによって異なる設定が存在することを示し,性能の低下を伴わずに計算効率を向上できることを示した。 理論結果は単純な数値実験で示される。

We study a natural extension of classical empirical risk minimization, where the hypothesis space is a random subspace of a given space. In particular, we consider possibly data dependent subspaces spanned by a random subset of the data, recovering as a special case Nystr\"om approaches for kernel methods. Considering random subspaces naturally leads to computational savings, but the question is whether the corresponding learning accuracy is degraded. These statistical-computational tradeoffs have been recently explored for the least squares loss and self-concordant loss functions, such as the logistic loss. Here, we work to extend these results to convex Lipschitz loss functions, that might not be smooth, such as the hinge loss used in support vector machines. This extension requires developing new proofs, that use different technical tools. Our main results show the existence of different settings, depending on how hard the learning problem is, for which computational efficiency can be improved with no loss in performance. Theoretical results are illustrated with simple numerical experiments.
翻訳日:2022-11-19 19:41:45 公開日:2021-02-25
# 時間的非負行列分解におけるガンママルコフ鎖の比較研究

A Comparative Study of Gamma Markov Chains for Temporal Non-Negative Matrix Factorization ( http://arxiv.org/abs/2006.12843v5 )

ライセンス: Link先を確認
Louis Filstroff, Olivier Gouvert, C\'edric F\'evotte, Olivier Capp\'e(参考訳) 非負行列分解(NMF)は、非負のデータを解析するための方法の確立されたクラスとなっている。 特に、確率的NMF、すなわち、ポアソンや指数的可能性に基づくデータを記述する確率論的モデルにおける推定や推論タスクに多くの努力が注がれている。 時系列データを扱う際、アクティベーション係数を非負のマルコフ連鎖としてモデル化するいくつかの研究が提案されており、そのほとんどはガンマ分布に関連しており、いわゆる時間的nmfモデルを生み出している。 本稿では,NMF文献の4つのガンママルコフ連鎖を概説し,それらがすべて同じ欠点を共有していることを示す。 次に、bgar(1)という時系列文学の見落としモデルである5番目のプロセスを導入し、この制限を克服する。 これらの時間的NMFモデルは、ポアソン確率の文脈において、予測タスク上のMAPフレームワークで比較される。

Non-negative matrix factorization (NMF) has become a well-established class of methods for the analysis of non-negative data. In particular, a lot of effort has been devoted to probabilistic NMF, namely estimation or inference tasks in probabilistic models describing the data, based for example on Poisson or exponential likelihoods. When dealing with time series data, several works have proposed to model the evolution of the activation coefficients as a non-negative Markov chain, most of the time in relation with the Gamma distribution, giving rise to so-called temporal NMF models. In this paper, we review four Gamma Markov chains of the NMF literature, and show that they all share the same drawback: the absence of a well-defined stationary distribution. We then introduce a fifth process, an overlooked model of the time series literature named BGAR(1), which overcomes this limitation. These temporal NMF models are then compared in a MAP framework on a prediction task, in the context of the Poisson likelihood.
翻訳日:2022-11-17 21:58:20 公開日:2021-02-25
# bayesian coresets: 非凸最適化の観点からの再考

Bayesian Coresets: Revisiting the Nonconvex Optimization Perspective ( http://arxiv.org/abs/2007.00715v2 )

ライセンス: Link先を確認
Jacky Y. Zhang, Rajiv Khanna, Anastasios Kyrillidis, Oluwasanmi Koyejo(参考訳) ベイズコアセットはスケーラブルベイズ推論を実装するための有望なアプローチとして登場した。 ベイズコアセット問題は、データサンプルの(重み付けされた)部分集合を選択することであり、選択された部分集合を用いた後部推論は完全なデータセットを使用して後部推論を近似する。 この写本は、スパーシティ制約付き最適化のレンズを通してベイズコアセットを再訪する。 近年の高速化手法の進歩を活かし,コアセット選択のための新しいアルゴリズムを提案し,解析する。 提案手法は,アルゴリズムのアルゴリズムの性能を,速度と精度に比較して明らかに収束率の保証を提供し,様々なベンチマークデータセットに対して実験的な評価を行う。

Bayesian coresets have emerged as a promising approach for implementing scalable Bayesian inference. The Bayesian coreset problem involves selecting a (weighted) subset of the data samples, such that the posterior inference using the selected subset closely approximates the posterior inference using the full dataset. This manuscript revisits Bayesian coresets through the lens of sparsity constrained optimization. Leveraging recent advances in accelerated optimization methods, we propose and analyze a novel algorithm for coreset selection. We provide explicit convergence rate guarantees and present an empirical evaluation on a variety of benchmark datasets to highlight our proposed algorithm's superior performance compared to state-of-the-art on speed and accuracy.
翻訳日:2022-11-14 22:43:22 公開日:2021-02-25
# ラベルシフト下のアクティブラーニング

Active Learning under Label Shift ( http://arxiv.org/abs/2007.08479v3 )

ライセンス: Link先を確認
Eric Zhao, Anqi Liu, Animashree Anandkumar, Yisong Yue(参考訳) ラベルシフトの下でのアクティブラーニングの問題に対処する:ソースとターゲットドメインのクラス比率が異なる場合。 重み付けとクラスバランスサンプリングのトレードオフを取り入れた「メディカル分布」を導入し、アクティブラーニングにおけるそれらの併用法を提案する。 本手法は, Label Shift (MALLS) 下でのメディアアクティブラーニングとして知られている。 クラスバランスのサンプリングからのバイアスと、重要度重み付けからのばらつきのバランスをとる。 アクティブラーニングを示すモールでは,任意のラベルシフト下でも漸近的なサンプル複雑性を低減できることを示す。 我々は,高次元データセットへのモールスケールを実証し,深層アクティブラーニングタスクにおいて,アクティブラーニングのサンプル複雑性を60%削減できることを示した。

We address the problem of active learning under label shift: when the class proportions of source and target domains differ. We introduce a "medial distribution" to incorporate a tradeoff between importance weighting and class-balanced sampling and propose their combined usage in active learning. Our method is known as Mediated Active Learning under Label Shift (MALLS). It balances the bias from class-balanced sampling and the variance from importance weighting. We prove sample complexity and generalization guarantees for MALLS which show active learning reduces asymptotic sample complexity even under arbitrary label shift. We empirically demonstrate MALLS scales to high-dimensional datasets and can reduce the sample complexity of active learning by 60% in deep active learning tasks.
翻訳日:2022-11-09 22:23:47 公開日:2021-02-25
# プロメテウス設計ツールを用いたマルチエージェントeラーニングシステムの設計と解析

Design and Analysis of a Multi-Agent E-Learning System Using Prometheus Design Tool ( http://arxiv.org/abs/2007.09645v3 )

ライセンス: Link先を確認
Kennedy E. Ehimwenma and Sujatha Krishnamoorthy(参考訳) エージェント統合モデリング言語(AUML)はエージェントベースのシステムの仕様、設計、視覚化、ドキュメントをサポートするエージェント指向のアプローチである。 本稿では,5つの対話エージェントの事前評価システムのモデル化にPrometheus AUMLアプローチを用いる。 前述したように、事前評価システム(pre-assesment system)は、学生の事前学習スキルの評価を支援し、スキルを分類し、学習の推奨を行うマルチエージェントベースのe-ラーニングシステムである。 本稿では,システムの詳細な設計手法と,システムにおけるドメイン知識の抽象化と組織化について述べる。 また、データ照合の分析や将来の事前評価結果の予測モデルについても述べる。

Agent unified modeling languages (AUML) are agent-oriented approaches that supports the specification, design, visualization and documentation of an agent-based system. This paper presents the use of Prometheus AUML approach for the modeling of a Pre-assessment System of five interactive agents. The Pre-assessment System, as previously reported, is a multi-agent based e-learning system that is developed to support the assessment of prior learning skills in students so as to classify their skills and make recommendation for their learning. This paper discusses the detailed design approach of the system in a step-by-step manner; and domain knowledge abstraction and organization in the system. In addition, the analysis of the data collated and models of prediction for future pre-assessment results are also presented.
翻訳日:2022-11-09 00:34:01 公開日:2021-02-25
# DeepCorn: 高速画像に基づくコーンカーネルカウントと収率推定のための半教師付きディープラーニング手法

DeepCorn: A Semi-Supervised Deep Learning Method for High-Throughput Image-Based Corn Kernel Counting and Yield Estimation ( http://arxiv.org/abs/2007.10521v2 )

ライセンス: Link先を確認
Saeed Khaki, Hieu Pham, Ye Han, Andy Kuhl, Wade Kent, and Lizhi Wang(参考訳) 現代の農業と植物の育種の成功は、データの正確かつ効率的な収集に依存している。 大量の作物を管理する商業組織にとって、正確で一貫したデータを集めることはボトルネックとなる。 時間や労力が限られているため、色や頭数、身長、体重などを正確に表現する作物は非常に限られている。 しかし、この情報は他の遺伝的・環境的な要因と組み合わされ、世界の人口増加を養う新しい優良な作物種の開発に不可欠である。 機械学習の最近の進歩、特にディープラーニングは、このボトルネックを緩和する約束を示している。 本稿では,実時間データの収集を支援し,最終的に収率を最大化するための意思決定を改善するために,実時間コーンカーネルを現場で数える新しい深層学習手法を提案する。 このアプローチをDeepCornと名付け、このフレームワークが様々な条件下で堅牢であることを示します。 DeepCornはトウモロコシの耳の画像中のトウモロコシの核の密度を推定し、推定密度マップに基づいて核の数を予測する。 DeepCornは、機能抽出とネットワークの複数スケールの機能マップのマージのためのバックボーンとして、切り詰められたVGG-16を使用している。 また,提案手法の性能向上のために,半教師付き学習手法を採用した。 提案手法はトウモロコシ核計数タスクにおいてそれぞれ41.36と60.27のmaeとrmseを達成する。 実験により,提案手法が他の最先端手法と比較して優れていること,有効性を示す。

The success of modern farming and plant breeding relies on accurate and efficient collection of data. For a commercial organization that manages large amounts of crops, collecting accurate and consistent data is a bottleneck. Due to limited time and labor, accurately phenotyping crops to record color, head count, height, weight, etc. is severely limited. However, this information, combined with other genetic and environmental factors, is vital for developing new superior crop species that help feed the world's growing population. Recent advances in machine learning, in particular deep learning, have shown promise in mitigating this bottleneck. In this paper, we propose a novel deep learning method for counting on-ear corn kernels in-field to aid in the gathering of real-time data and, ultimately, to improve decision making to maximize yield. We name this approach DeepCorn, and show that this framework is robust under various conditions. DeepCorn estimates the density of corn kernels in an image of corn ears and predicts the number of kernels based on the estimated density map. DeepCorn uses a truncated VGG-16 as a backbone for feature extraction and merges feature maps from multiple scales of the network to make it robust against image scale variations. We also adopt a semi-supervised learning approach to further improve the performance of our proposed method. Our proposed method achieves the MAE and RMSE of 41.36 and 60.27 in the corn kernel counting task, respectively. Our experimental results demonstrate the superiority and effectiveness of our proposed method compared to other state-of-the-art methods.
翻訳日:2022-11-08 13:31:39 公開日:2021-02-25
# 半教師付き学習のための信頼できるラベルブートストラップ

Reliable Label Bootstrapping for Semi-Supervised Learning ( http://arxiv.org/abs/2007.11866v2 )

ライセンス: Link先を確認
Paul Albert, Diego Ortego, Eric Arazo, Noel E. O'Connor, Kevin McGuinness(参考訳) 性能劣化のない畳み込みニューラルネットワークのトレーニングに必要なラベルの量を減らすことが、人間のアノテーションの労力を効果的に削減する鍵となる。 半教師付きアルゴリズムの性能を極めて低い監督設定で向上させる非教師付きプリプロセッシングアルゴリズムである reliable label bootstrapping (relab) を提案する。 ラベル付きサンプルがほとんどないデータセットから、まずデータに対して意味のある自己教師付き潜在機能を学ぶ。 第2に、ラベル伝播アルゴリズムは、教師なし特徴の既知のラベルを伝播し、全データセットを自動的にラベル付けする。 第3に、ラベルノイズ検出アルゴリズムを用いて、正しくラベルされた(信頼できる)サンプルのサブセットを選択する。 最後に,拡張サブセット上で半教師付きアルゴリズムを訓練する。 本稿では,ネットワークアーキテクチャの選択と自己教師付きアルゴリズムがラベル伝播を成功させる重要な要因であることを示すとともに,cifar-10,cifar-100,mini-imagenetにおいて,relabが半教師付き学習を実質的に改善することを示す。 CIFAR-10のクラス毎に1つのランダムなラベル付きサンプルを持つ$\boldsymbol{22.34}$の平均エラー率に達し、各クラスのラベル付きサンプルが非常に代表的である場合に、このエラーを$\boldsymbol{8.46}$に下げる。 私たちの仕事は、完全に再現可能です。

Reducing the amount of labels required to train convolutional neural networks without performance degradation is key to effectively reduce human annotation efforts. We propose Reliable Label Bootstrapping (ReLaB), an unsupervised preprossessing algorithm which improves the performance of semi-supervised algorithms in extremely low supervision settings. Given a dataset with few labeled samples, we first learn meaningful self-supervised, latent features for the data. Second, a label propagation algorithm propagates the known labels on the unsupervised features, effectively labeling the full dataset in an automatic fashion. Third, we select a subset of correctly labeled (reliable) samples using a label noise detection algorithm. Finally, we train a semi-supervised algorithm on the extended subset. We show that the selection of the network architecture and the self-supervised algorithm are important factors to achieve successful label propagation and demonstrate that ReLaB substantially improves semi-supervised learning in scenarios of very limited supervision on CIFAR-10, CIFAR-100 and mini-ImageNet. We reach average error rates of $\boldsymbol{22.34}$ with 1 random labeled sample per class on CIFAR-10 and lower this error to $\boldsymbol{8.46}$ when the labeled sample in each class is highly representative. Our work is fully reproducible: https://github.com/PaulAlbert31/ReLaB.
翻訳日:2022-11-07 12:39:39 公開日:2021-02-25
# ハードネガティブな例は難しいが役に立つ

Hard negative examples are hard, but useful ( http://arxiv.org/abs/2007.12749v2 )

ライセンス: Link先を確認
Hong Xuan, Abby Stylianou, Xiaotong Liu, Robert Pless(参考訳) トリプルト損失は距離計量学習に対する非常に一般的なアプローチである。 同じクラスの画像の表現は、異なるクラスの画像の表現よりも、埋め込み空間で密にマッピングするように最適化されている。 トリプルトロスに関する多くの作業は、考慮すべき最も有用なトリプルトを選択することに焦点を当てており、同じクラスから異なる例や異なるクラスから類似した例を選択する戦略がある。 従来の研究のコンセンサスは, 否定的な例であるtextit{hardest} を最適化することで, トレーニング行動が悪くなる点にある。 これは問題です -- これらの最も難しい負は文字通り、距離メトリックが意味的類似性を捉えることができない場合です。 本稿では,三重項の空間を特徴付けるとともに,三重項損失トレーニングの失敗の原因を導出する。 損失関数の簡単な修正を提供し、この修正により、ハードネガティブな例による最適化が実現可能であることを示す。 これにより、より一般化可能な機能と、クラス内ばらつきの高いデータセットの最先端を上回る画像検索結果が得られる。

Triplet loss is an extremely common approach to distance metric learning. Representations of images from the same class are optimized to be mapped closer together in an embedding space than representations of images from different classes. Much work on triplet losses focuses on selecting the most useful triplets of images to consider, with strategies that select dissimilar examples from the same class or similar examples from different classes. The consensus of previous research is that optimizing with the \textit{hardest} negative examples leads to bad training behavior. That's a problem -- these hardest negatives are literally the cases where the distance metric fails to capture semantic similarity. In this paper, we characterize the space of triplets and derive why hard negatives make triplet loss training fail. We offer a simple fix to the loss function and show that, with this fix, optimizing with hard negative examples becomes feasible. This leads to more generalizable features, and image retrieval results that outperform state of the art for datasets with high intra-class variance.
翻訳日:2022-11-07 05:54:50 公開日:2021-02-25
# 大規模項目推薦のための自己指導型学習

Self-supervised Learning for Large-scale Item Recommendations ( http://arxiv.org/abs/2007.12865v4 )

ライセンス: Link先を確認
Tiansheng Yao, Xinyang Yi, Derek Zhiyuan Cheng, Felix Yu, Ting Chen, Aditya Menon, Lichan Hong, Ed H. Chi, Steve Tjoa, Jieqi Kang, Evan Ettinger(参考訳) 大規模レコメンデータモデルは、巨大なカタログから最も関連性の高い項目を見つけ、現代の検索およびレコメンデーションシステムにおいて重要な役割を果たす。 入力空間を大きなボキャブカテゴリの特徴でモデル化するために、典型的なレコメンデータモデルは、ユーザフィードバックデータからクエリとアイテムの両方のニューラルネットワークを介して、共同埋め込み空間を学習する。 しかし、コーパスに数百万から数十億ものアイテムがあるため、ユーザはごくわずかなセットに対してフィードバックを提供する傾向があり、パワーロー分布を引き起こします。 これにより、ロングテールアイテムのフィードバックデータが極めて少ない。 近年,コンピュータビジョンと自然言語理解における自己教師型表現学習研究の成功に触発されて,大規模項目推薦のためのマルチタスク型自己教師型学習(SSL)フレームワークを提案する。 このフレームワークは、アイテムの特徴の潜伏関係をより良く学習することで、ラベルの疎結合問題に取り組むように設計されている。 具体的には、SSLはアイテム表現学習を改善し、一般化を改善するためにさらなる正規化を提供する。 さらに,提案フレームワークにおける特徴相関を利用した新しいデータ拡張手法を提案する。 我々は,500Mと1Bのトレーニング例を実世界の2つのデータセットで評価した。 その結果,SSL正則化の有効性を示し,最先端の正則化技術よりも優れた性能を示した。 我々はまた、Webスケールの商用アプリ・ツー・アプリレコメンデーションシステムに提案手法をすでに導入しており、ライブトラフィックのA/B実験で実証されたトップレベルのビジネス指標を大幅に改善しています。 オンラインの結果も,監視の欠如したスライスに対して,私たちのフレームワークがモデルパフォーマンスをさらに向上させるという仮説を検証しています。

Large scale recommender models find most relevant items from huge catalogs, and they play a critical role in modern search and recommendation systems. To model the input space with large-vocab categorical features, a typical recommender model learns a joint embedding space through neural networks for both queries and items from user feedback data. However, with millions to billions of items in the corpus, users tend to provide feedback for a very small set of them, causing a power-law distribution. This makes the feedback data for long-tail items extremely sparse. Inspired by the recent success in self-supervised representation learning research in both computer vision and natural language understanding, we propose a multi-task self-supervised learning (SSL) framework for large-scale item recommendations. The framework is designed to tackle the label sparsity problem by learning better latent relationship of item features. Specifically, SSL improves item representation learning as well as serving as additional regularization to improve generalization. Furthermore, we propose a novel data augmentation method that utilizes feature correlations within the proposed framework. We evaluate our framework using two real-world datasets with 500M and 1B training examples respectively. Our results demonstrate the effectiveness of SSL regularization and show its superior performance over the state-of-the-art regularization techniques. We also have already launched the proposed techniques to a web-scale commercial app-to-app recommendation system, with significant improvements top-tier business metrics demonstrated in A/B experiments on live traffic. Our online results also verify our hypothesis that our framework indeed improves model performance even more on slices that lack supervision.
翻訳日:2022-11-07 00:52:00 公開日:2021-02-25
# 統計的学習による力学系のパラメータ推定:新型コロナ拡散に対する近似ベイズ計算の再解釈

Parameter estimation in dynamical systems via Statistical Learning: a reinterpretation of Approximate Bayesian Computation applied to COVID-19 spread ( http://arxiv.org/abs/2007.14229v2 )

ライセンス: Link先を確認
Diego Marcondes(参考訳) 本研究では, 統計的学習手法に基づく動的システムのロバストパラメータ推定手法を提案し, その軌道の定性的挙動に関するロバストな証拠を得るために, 動的に適合するパラメータの集合を推定することを目的とする。 この方法は、力学系の特定の性質に依存しておらず、統計学習のレンズを通して近似ベイズ計算法を再解釈しているため、非常に一般的で柔軟である。 本手法は, 疫学的区画モデルのパラメータを推定し, 病因進化の質的特性を得るのに有用である。 本研究は、米国内における新型コロナウイルスの実態をシミュレーションし、その進化の質的評価に応用し、その拡散を遅らせるために実施された対策の有効性と、その現状と今後の進化の質的特徴を評価する方法を示す。

We propose a robust parameter estimation method for dynamical systems based on Statistical Learning techniques which aims to estimate a set of parameters that well fit the dynamics in order to obtain robust evidences about the qualitative behaviour of its trajectory. The method is quite general and flexible, since it does not rely on any specific property of the dynamical system, and represents a reinterpretation of Approximate Bayesian Computation methods through the lens of Statistical Learning. The method is specially useful for estimating parameters in epidemiological compartmental models in order to obtain qualitative properties of a disease evolution. We apply it to simulated and real data about COVID-19 spread in the US in order to evaluate qualitatively its evolution over time, showing how one may assess the effectiveness of measures implemented to slow the spread and some qualitative features of the disease current and future evolution.
翻訳日:2022-11-06 03:05:40 公開日:2021-02-25
# 耳に聞こえない音:コーナー周辺で音響車両を検知する

Hearing What You Cannot See: Acoustic Vehicle Detection Around Corners ( http://arxiv.org/abs/2007.15739v2 )

ライセンス: Link先を確認
Yannick Schulz, Avinash Kini Mattar, Thomas M. Hehn, Julian F. P. Kooij(参考訳) 本研究は,知的車両に対する受動的音響知覚をセンサモダリティとして用いることを提案する。 視覚障害者が視線に進入する前に、音で接近する車両を検知できることを実証した。 我々は,屋根付マイクロホンアレイを備えた研究車両を設置し,壁面反射が接近する車両の存在と方向に関する情報を提供するためのセンサ装置を用いて収集したデータを示す。 ストリーミングマイクロホンアレイデータから効率的に計算可能な入力方向特徴として、車両が視認される前に接近している方向を分類する新しい方法を提案する。 Ego-vehicleの周囲の局所幾何学は知覚パターンに影響を与えるため、いくつかの環境タイプを体系的に研究し、これらの環境をまたいだ一般化について検討する。 静止車では、隠された車両分類タスクにおいて精度0.92を達成する。 最先端のビジュアル検出器や高速なr-cnnと比較すると、パイプラインは1秒以上前に同じ精度を実現し、研究する状況に重要な反応時間を提供します。 Ego-vehicle は運転中, 音波検出の正の成績を示し, 1つの環境タイプで0.84の精度を実現している。 今後の研究の方向性を見極めるため、環境をまたがる障害事例をさらに調査する。

This work proposes to use passive acoustic perception as an additional sensing modality for intelligent vehicles. We demonstrate that approaching vehicles behind blind corners can be detected by sound before such vehicles enter in line-of-sight. We have equipped a research vehicle with a roof-mounted microphone array, and show on data collected with this sensor setup that wall reflections provide information on the presence and direction of occluded approaching vehicles. A novel method is presented to classify if and from what direction a vehicle is approaching before it is visible, using as input Direction-of-Arrival features that can be efficiently computed from the streaming microphone array data. Since the local geometry around the ego-vehicle affects the perceived patterns, we systematically study several environment types, and investigate generalization across these environments. With a static ego-vehicle, an accuracy of 0.92 is achieved on the hidden vehicle classification task. Compared to a state-of-the-art visual detector, Faster R-CNN, our pipeline achieves the same accuracy more than one second ahead, providing crucial reaction time for the situations we study. While the ego-vehicle is driving, we demonstrate positive results on acoustic detection, still achieving an accuracy of 0.84 within one environment type. We further study failure cases across environments to identify future research directions.
翻訳日:2022-11-05 15:07:20 公開日:2021-02-25
# 意識に限定した構成的意識モデル

A Compositional Model of Consciousness based on Consciousness-Only ( http://arxiv.org/abs/2007.16138v3 )

ライセンス: Link先を確認
Camilo Miguel Signorelli, Quanlong Wang, Ilyas Khan(参考訳) 意識の科学的研究は、存在がいかなる意識にも依存していないと仮定される物体に依存している。 逆に、意識は基本的なものであり、意識の主な特徴の1つは、他に依存しないものとして特徴づけられる。 我々は、射が意識過程を表すコンパクト閉圏を定義することによって、この特徴を自然に仮定するフレームワークを構築した。 これらの射はジェネレータの集合の合成であり、それぞれが他のジェネレータとの関係によって指定され、従って共依存である。 この枠組みは十分一般的であり、意識の構成モデルによく適合する。 興味深いことに,本提案は意識の難しい問題を回避し,意識経験の組合せ問題に対処するためのステップとなる可能性を示す。

Scientific studies of consciousness rely on objects whose existence is assumed to be independent of any consciousness. On the contrary, we assume consciousness to be fundamental, and that one of the main features of consciousness is characterized as being other-dependent. We set up a framework which naturally subsumes this feature by defining a compact closed category where morphisms represent conscious processes. These morphisms are a composition of a set of generators, each being specified by their relations with other generators, and therefore co-dependent. The framework is general enough and fits well into a compositional model of consciousness. Interestingly, we also show how our proposal may become a step towards avoiding the hard problem of consciousness, and thereby address the combination problem of conscious experiences.
翻訳日:2022-11-04 06:56:28 公開日:2021-02-25
# 咬合下の表情認識のための教師学習とトリプルト損失

Teacher-Student Training and Triplet Loss for Facial Expression Recognition under Occlusion ( http://arxiv.org/abs/2008.01003v2 )

ライセンス: Link先を確認
Mariana-Iuliana Georgescu, Radu Tudor Ionescu(参考訳) 本稿では,強い閉塞下での表情認識の課題について検討する。 特に、被験者が仮想現実(VR)ヘッドセットを着用している場合など、顔の50%が隠されている場合に関心があります。 事前学習畳み込みニューラルネットワーク (cnns) の完全可視性(非遮蔽性)面における精度向上が示されたが, さらなる改善を達成するために, 知識蒸留を用いることを提案する。 まず,教師が完全に見える顔で訓練されたcnnであり,生徒がオクルードされた顔で訓練されたcnnである古典的教員教育戦略を採用する。 第2に,三重項損失に基づく知識蒸留の新しい手法を提案する。 トレーニング中は、隠蔽された顔を入力として取る学生のCNNが生成するアンカー埋め込みと、完全に視覚的な顔で訓練された教師のCNNが生成する正の埋め込み(アンカーと同じクラスから)との距離を減らし、学生のCNNが生成するアンカーと負の埋め込み(アンカーとは異なるクラスから)の距離より小さくすることを目的としている。 第三に,従来の教師・学生戦略と,三重項損失に基づく新しい教師・学生戦略を融合して,一つの埋め込みベクターを構築することを提案する。 VGG-fとVGG-faceの2つのCNNアーキテクチャを用いて、FER+とAffectNetという2つのベンチマークで実験を行い、知識蒸留がVR環境における隠蔽顔のための最先端の手法よりも大幅に改善できることを示した。

In this paper, we study the task of facial expression recognition under strong occlusion. We are particularly interested in cases where 50% of the face is occluded, e.g. when the subject wears a Virtual Reality (VR) headset. While previous studies show that pre-training convolutional neural networks (CNNs) on fully-visible (non-occluded) faces improves the accuracy, we propose to employ knowledge distillation to achieve further improvements. First of all, we employ the classic teacher-student training strategy, in which the teacher is a CNN trained on fully-visible faces and the student is a CNN trained on occluded faces. Second of all, we propose a new approach for knowledge distillation based on triplet loss. During training, the goal is to reduce the distance between an anchor embedding, produced by a student CNN that takes occluded faces as input, and a positive embedding (from the same class as the anchor), produced by a teacher CNN trained on fully-visible faces, so that it becomes smaller than the distance between the anchor and a negative embedding (from a different class than the anchor), produced by the student CNN. Third of all, we propose to combine the distilled embeddings obtained through the classic teacher-student strategy and our novel teacher-student strategy based on triplet loss into a single embedding vector. We conduct experiments on two benchmarks, FER+ and AffectNet, with two CNN architectures, VGG-f and VGG-face, showing that knowledge distillation can bring significant improvements over the state-of-the-art methods designed for occluded faces in the VR setting.
翻訳日:2022-11-03 05:55:50 公開日:2021-02-25
# 潜入できますか。 物理的シミュレーションによる未発見物体のオープン封じ込めを想像するロボット

Can I Pour into It? Robot Imagining Open Containability Affordance of Previously Unseen Objects via Physical Simulations ( http://arxiv.org/abs/2008.02321v2 )

ライセンス: Link先を確認
Hongtao Wu, Gregory S. Chirikjian(参考訳) オープンコンテナ、すなわちカバーのないコンテナは、人間の生活において重要かつユビキタスなオブジェクトのクラスである。 本報告では,ロボットが物理的シミュレーションにより,これまで認識されていなかった物体のオープン封じ込め可能性について「想像」する新しい手法を提案する。 我々はUR5マニピュレータにイマジネーション手法を実装した。 ロボットはRGB-Dカメラでオブジェクトを自律的にスキャンする。 スキャンされた3Dモデルは、対象物に落下する粒子を物理的にシミュレートし、その中に保持される粒子数を数えることで、開封可能性の空白を定量化する。 この定量化は、オープンコンテナ対非オープンコンテナバイナリ分類(以下、オープンコンテナ分類と呼ぶ)に使用される。 物体が開容器に分類された場合、ロボットはさらに物体に注ぐことを想像し、物理的シミュレーションを用いて、実際のロボット自律注ぐための注ぐ位置と向きを得る。 57の被写体カテゴリを有する130個の被写体を含むデータセット上で, 開容器分類と粒状物質の自律注入に関する手法を評価した。 提案手法はシミュレーションキャリブレーション(訓練)に11個のオブジェクトのみを用いるが,そのオープンコンテナ分類は人間の判断とよく一致する。 さらに,本手法は,データセット内の55個のコンテナに自律的に注ぐ能力を持つロボットを,極めて高い成功率で支持する。 また,深層学習法との比較を行った。 その結果,本手法はオープンコンテナ分類における深層学習法と同じ性能を達成し,自律型注水法よりも優れていた。 さらに,本手法は完全に説明可能である。

Open containers, i.e., containers without covers, are an important and ubiquitous class of objects in human life. In this letter, we propose a novel method for robots to "imagine" the open containability affordance of a previously unseen object via physical simulations. We implement our imagination method on a UR5 manipulator. The robot autonomously scans the object with an RGB-D camera. The scanned 3D model is used for open containability imagination which quantifies the open containability affordance by physically simulating dropping particles onto the object and counting how many particles are retained in it. This quantification is used for open-container vs. non-open-container binary classification (hereafter referred to as open container classification). If the object is classified as an open container, the robot further imagines pouring into the object, again using physical simulations, to obtain the pouring position and orientation for real robot autonomous pouring. We evaluate our method on open container classification and autonomous pouring of granular material on a dataset containing 130 previously unseen objects with 57 object categories. Although our proposed method uses only 11 objects for simulation calibration (training), its open container classification aligns well with human judgements. In addition, our method endows the robot with the capability to autonomously pour into the 55 containers in the dataset with a very high success rate. We also compare to a deep learning method. Results show that our method achieves the same performance as the deep learning method on open container classification and outperforms it on autonomous pouring. Moreover, our method is fully explainable.
翻訳日:2022-11-02 17:46:10 公開日:2021-02-25
# RLブラシを用いた混合開始レベル設計

Mixed-Initiative Level Design with RL Brush ( http://arxiv.org/abs/2008.02778v3 )

ライセンス: Link先を確認
Omar Delarosa, Hang Dong, Mindy Ruan, Ahmed Khalifa, Julian Togelius(参考訳) 本稿では,混合創造のためのタイル型ゲームのためのレベル編集ツールであるrl brushを紹介する。 このツールは、強化学習に基づくモデルを使用して、AI生成の提案を追加することで、手動の人間レベルの設計を強化する。 本稿では,古典パズルゲームSokobanの設計レベルにRL Brushを適用する。 ツールをオンラインで公開し、39のセッションでテストしました。 結果から,aiサジェストを使用するユーザはより長く留まり,生成したレベルは平均して遊べるようになり,より複雑になることがわかった。

This paper introduces RL Brush, a level-editing tool for tile-based games designed for mixed-initiative co-creation. The tool uses reinforcement-learning-based models to augment manual human level-design through the addition of AI-generated suggestions. Here, we apply RL Brush to designing levels for the classic puzzle game Sokoban. We put the tool online and tested it in 39 different sessions. The results show that users using the AI suggestions stay around longer and their created levels on average are more playable and more complex than without.
翻訳日:2022-11-02 06:53:37 公開日:2021-02-25
# LPMNet: 3Dポイントクラウドの更新と生成

LPMNet: Latent Part Modification and Generation for 3D Point Clouds ( http://arxiv.org/abs/2008.03560v3 )

ライセンス: Link先を確認
Cihan \"Ong\"un, Alptekin Temizel(参考訳) 本稿では,その意味的部分に関して,潜伏的修正と3次元点クラウドオブジェクトモデルの生成に焦点をあてる。 パート生成とアセンブリに別々のネットワークを使用する既存の方法とは異なり、セマンティック部分とグローバル形状の両方の生成と修正を処理可能な、エンドツーエンドのオートエンコーダモデルを提案する。 提案手法は, 3次元点クラウドモデルと異なる部分による合成間の部分交換をサポートし, 潜在表現を直接編集することで新しいモデルを形成する。 この全体的アプローチでは、部分表現を学習する部分ベースのトレーニングは必要とせず、標準的な再構築損失以外に余分な損失は生じない。 実験では,提案手法のロバスト性について,異なる対象カテゴリと異なる点数で検証した。 この方法はgansやvaesのような生成モデルの統合によって新しいモデルを生成することができ、セグメンテーションモジュールの統合によって、注釈なしのポイントクラウドと連携することができる。

In this paper, we focus on latent modification and generation of 3D point cloud object models with respect to their semantic parts. Different to the existing methods which use separate networks for part generation and assembly, we propose a single end-to-end Autoencoder model that can handle generation and modification of both semantic parts, and global shapes. The proposed method supports part exchange between 3D point cloud models and composition by different parts to form new models by directly editing latent representations. This holistic approach does not need part-based training to learn part representations and does not introduce any extra loss besides the standard reconstruction loss. The experiments demonstrate the robustness of the proposed method with different object categories and varying number of points. The method can generate new models by integration of generative models such as GANs and VAEs and can work with unannotated point clouds by integration of a segmentation module.
翻訳日:2022-11-01 11:45:25 公開日:2021-02-25
# 局所線形化によるベイズニューラルネットの予測の改善

Improving predictions of Bayesian neural nets via local linearization ( http://arxiv.org/abs/2008.08400v3 )

ライセンス: Link先を確認
Alexander Immer, Maciej Korzepa, Matthias Bauer(参考訳) 一般化されたガウスニュートン(GGN)近似は、二階微分を一階微分の積に置き換えることで実用的なベイズ深層学習アプローチをスケーラブルにするためにしばしば用いられる。 本稿では、GGN近似を基礎となるベイズニューラルネットワーク(BNN)の局所線形化として理解すべきであり、BNNを一般化線形モデル(GLM)に変換する。 後方推定にこの線形化モデルを使うので、元のモデルの代わりにこの修正モデルを使うことも予測すべきである。 この修正された予測を"GLM predictive"と呼び、Laplace近似の共通不適合問題を効果的に解決することを示す。 この脈絡の以前の結果を一般の確率に拡張し、関数空間におけるbnnの代替推論スキームを可能にする等価なガウス過程の定式化を持つ。 本手法は,複数の標準分類データセットおよび分布外検出において有効であることを示す。 https://github.com/AlexImmer/BNN-predictionsで実装を提供しています。

The generalized Gauss-Newton (GGN) approximation is often used to make practical Bayesian deep learning approaches scalable by replacing a second order derivative with a product of first order derivatives. In this paper we argue that the GGN approximation should be understood as a local linearization of the underlying Bayesian neural network (BNN), which turns the BNN into a generalized linear model (GLM). Because we use this linearized model for posterior inference, we should also predict using this modified model instead of the original one. We refer to this modified predictive as "GLM predictive" and show that it effectively resolves common underfitting problems of the Laplace approximation. It extends previous results in this vein to general likelihoods and has an equivalent Gaussian process formulation, which enables alternative inference schemes for BNNs in function space. We demonstrate the effectiveness of our approach on several standard classification datasets as well as on out-of-distribution detection. We provide an implementation at https://github.com/AlexImmer/BNN-predictions.
翻訳日:2022-10-27 08:51:06 公開日:2021-02-25
# 微分型ニューラルネットワーク探索における配線進化の理解

Understanding the wiring evolution in differentiable neural architecture search ( http://arxiv.org/abs/2009.01272v4 )

ライセンス: Link先を確認
Sirui Xie, Shoukang Hu, Xinjiang Wang, Chunxiao Liu, Jianping Shi, Xunying Liu, Dahua Lin(参考訳) 識別可能なニューラルネットワーク探索手法が配線トポロジーを効果的に発見するかどうかについては議論がある。 配線トポロジの進化を理解するため,既存の差別化可能なNASフレームワークの基礎メカニズムについて検討した。 識別可能なNASの3つの探索パターンが本研究の動機となっている。 1) 刈り取らずに成長して検索する。 2)より深いネットワークよりも広いネットワークの方が好ましい。 3)二段階最適化ではエッジは選択されない。 これらの現象を解剖するため,我々は既存のフレームワークの探索アルゴリズムに関する統一的視点を提案し,グローバル最適化を局所コスト最小化に移行した。 この再編成に基づいて経験的および理論的分析を行い、観測される現象を引き起こすコストの割り当て機構と進化のダイナミクスにおける暗黙の帰納的バイアスを明らかにする。 これらのバイアスは、特定の位相に対する強い差別を示す。 この目的のために、我々は、ニューラルネットワーク発見のための将来の差別化可能な方法が直面する必要があるという疑問を提起し、議論を引き起こし、既存のNASメソッドでどれだけのバイアスが暗黙的に実施されたかを再考することを望んでいる。

Controversy exists on whether differentiable neural architecture search methods discover wiring topology effectively. To understand how wiring topology evolves, we study the underlying mechanism of several existing differentiable NAS frameworks. Our investigation is motivated by three observed searching patterns of differentiable NAS: 1) they search by growing instead of pruning; 2) wider networks are more preferred than deeper ones; 3) no edges are selected in bi-level optimization. To anatomize these phenomena, we propose a unified view on searching algorithms of existing frameworks, transferring the global optimization to local cost minimization. Based on this reformulation, we conduct empirical and theoretical analyses, revealing implicit inductive biases in the cost's assignment mechanism and evolution dynamics that cause the observed phenomena. These biases indicate strong discrimination towards certain topologies. To this end, we pose questions that future differentiable methods for neural wiring discovery need to confront, hoping to evoke a discussion and rethinking on how much bias has been enforced implicitly in existing NAS methods.
翻訳日:2022-10-22 18:44:39 公開日:2021-02-25
# 有益で有害な説明型機械学習

Beneficial and Harmful Explanatory Machine Learning ( http://arxiv.org/abs/2009.06410v2 )

ライセンス: Link先を確認
Lun Ai and Stephen H. Muggleton and C\'eline Hocquette and Mark Gromowski and Ute Schmid(参考訳) 近年のAIにおけるディープラーニングの成功を踏まえ、機械学習理論における役割と説明の必要性への関心が高まっている。 この文脈における別の概念は、ミケーのウルトラストロング機械学習(USML)の定義である。 USMLは、タスクパフォーマンスのための記号機械学習理論の人間への提供に続くタスクの人的パフォーマンスの計測可能な増加によって実証される。 近年の研究では、学習中の人間の理解に対する機械の関与の潜在的有害性について、既存の知識に対する研究は行われていないが、機械学習論理理論が分類タスクに有益であることを示す。 本稿では,単純な2人遊びの文脈における機械学習理論の解説効果について検討し,認知科学文献に基づく機械説明の有害性を特定する枠組みを提案する。 このアプローチは、2つの定量化可能な境界からなる認知窓を含み、ヒトの臨床試験から収集された実証的な証拠によって支持される。 定量的・定性的な結果から,認知窓を満たすシンボリックマシン学習理論によって支援された人間学習は,人間の自己学習よりも有意に高いパフォーマンスを達成した。 結果は、このウィンドウを満足できないシンボリックマシン学習理論によって支援される人間の学習が、人間の学習を知らない人よりもはるかに悪いパフォーマンスをもたらすことを示した。

Given the recent successes of Deep Learning in AI there has been increased interest in the role and need for explanations in machine learned theories. A distinct notion in this context is that of Michie's definition of Ultra-Strong Machine Learning (USML). USML is demonstrated by a measurable increase in human performance of a task following provision to the human of a symbolic machine learned theory for task performance. A recent paper demonstrates the beneficial effect of a machine learned logic theory for a classification task, yet no existing work to our knowledge has examined the potential harmfulness of machine's involvement for human comprehension during learning. This paper investigates the explanatory effects of a machine learned theory in the context of simple two person games and proposes a framework for identifying the harmfulness of machine explanations based on the Cognitive Science literature. The approach involves a cognitive window consisting of two quantifiable bounds and it is supported by empirical evidence collected from human trials. Our quantitative and qualitative results indicate that human learning aided by a symbolic machine learned theory which satisfies a cognitive window has achieved significantly higher performance than human self learning. Results also demonstrate that human learning aided by a symbolic machine learned theory that fails to satisfy this window leads to significantly worse performance than unaided human learning.
翻訳日:2022-10-20 08:47:15 公開日:2021-02-25
# モデルベース強化学習への縮小アプローチ

A Contraction Approach to Model-based Reinforcement Learning ( http://arxiv.org/abs/2009.08586v2 )

ライセンス: Link先を確認
Ting-Han Fan, Peter J. Ramadge(参考訳) 実験的な成功にもかかわらず、モデルに基づく強化学習には理論的な理解が欠けている。 そこで本研究では,累積報酬の誤差を収縮法を用いて解析する。 連続(非離散)状態および作用空間に対する確率的および決定論的状態遷移を考える。 このアプローチは強い仮定を必要としないため、典型的な二次誤差を地平線に戻すことができる。 分岐ロールアウトがこの誤差を減らし、ベルマン収縮を持つ決定論的遷移に不可欠であることを示す。 政策ミスマッチエラーの分析は、Imitation Learningにも適用できる。 本稿では,GAN型学習は,識別器が十分に訓練されている場合に,行動クローンよりも有利であることを示す。

Despite its experimental success, Model-based Reinforcement Learning still lacks a complete theoretical understanding. To this end, we analyze the error in the cumulative reward using a contraction approach. We consider both stochastic and deterministic state transitions for continuous (non-discrete) state and action spaces. This approach doesn't require strong assumptions and can recover the typical quadratic error to the horizon. We prove that branched rollouts can reduce this error and are essential for deterministic transitions to have a Bellman contraction. Our analysis of policy mismatch error also applies to Imitation Learning. In this case, we show that GAN-type learning has an advantage over Behavioral Cloning when its discriminator is well-trained.
翻訳日:2022-10-17 02:06:19 公開日:2021-02-25
# 密度に基づく幾何学的一クラス分類器と遺伝的アルゴリズムのアンサンブル

An ensemble of Density based Geometric One-Class Classifier and Genetic Algorithm ( http://arxiv.org/abs/2011.06388v2 )

ライセンス: Link先を確認
Do Gyun Kim, Jin Young Choi(参考訳) 最近の機械学習研究で最も大きな問題の1つは、1つのクラスと外れ値のみからなるデータセットを考えるワンクラス分類である。 問題のあるデータセットや特殊なケースを扱う場合、従来のマルチクラス分類よりも合理的である。 一般に, OCC法では, ユーザの分類精度と解釈性はトレードオフと見なされる。 Hyper-Rectangle (H-RTGL) に基づく分類器は、そのようなトレードオフに対する救済であり、インターバルと呼ばれる幾何学的規則の組合せによって定式化されたH-RTGLを使用する分類器の一種である。 この間隔は、ユーザが容易に理解できるため、解釈可能性の基盤になる。 しかし、既存のH-RTGLベースのOCC分類器には制限がある。 (i)ターゲットクラスの密度を反映できないものが多く、 (ii)密度を考えると原始区間生成法があること、 3) 分類器の分類性能に影響を与えるH-RTGLを用いたOCC分類器のハイパーパラメータの体系的手順は存在しない。 これらの考察に基づき、パラメトリックおよび非パラメトリックアプローチを含むより精巧な区間生成法を持つ密度(1-hrd_d)に基づく1クラスハイパーリクタングルディスクリプタを提案する。 さらに,ハイパーパラメータの最適化による1-HRD_dの系統的生成のための染色体構造と遺伝的演算子からなる遺伝的アルゴリズム(GA)を設計した。 本研究は,既存のOCCアルゴリズムと他のH-RTGLに基づく分類器との比較を行い,実データを用いた数値実験により検証した。

One of the most rising issues in recent machine learning research is One-Class Classification which considers data set composed of only one class and outliers. It is more reasonable than traditional Multi-Class Classification in dealing with some problematic data set or special cases. Generally, classification accuracy and interpretability for user are considered as trade-off in OCC methods. Classifier based on Hyper-Rectangle (H-RTGL) is a sort of classifier that can be a remedy for such trade-off and uses H-RTGL formulated by conjunction of geometric rules called interval. This interval can be basis of interpretability since it can be easily understood by user. However, existing H-RTGL based OCC classifiers have limitations that (i) most of them cannot reflect density of target class and (ii) that considering density has primitive interval generation method, and (iii) there exists no systematic procedure for hyperparameter of H-RTGL based OCC classifier, which influences classification performance of classifier. Based on these remarks, we suggest One-Class Hyper-Rectangle Descriptor based on density (1-HRD_d) with more elaborate interval generation method including parametric and nonparametric approaches. In addition, we designed Genetic Algorithm (GA) that consists of chromosome structure and genetic operators for systematic generation of 1-HRD_d by optimization of hyperparameter. Our work is validated through a numerical experiment using actual data set with comparison of existing OCC algorithms along with other H-RTGL based classifiers.
翻訳日:2022-10-12 00:32:25 公開日:2021-02-25
# パンダ? 適応型マルチエクイットニューラルネットワーク推論におけるスローダウン攻撃

A Panda? No, It's a Sloth: Slowdown Attacks on Adaptive Multi-Exit Neural Network Inference ( http://arxiv.org/abs/2010.02432v2 )

ライセンス: Link先を確認
Sanghyun Hong, Yi\u{g}itcan Kaya, Ionu\c{t}-Vlad Modoranu, Tudor Dumitra\c{s}(参考訳) 近年のディープニューラルネットワーク(DNN)の計算要求の増加は、ほとんどの入力サンプルが単純なモデルのみを必要とするという観測と相まって、MSDNetsやShallow-Deep Networksのような$input$-$adaptive$マルチエクイットアーキテクチャへの関心を喚起している。 これらのアーキテクチャはより高速な推論を可能にし、IoT(Internet of Things)などの低消費電力デバイスにDNNをもたらす可能性がある。 しかし、この手法による計算の節約が逆圧力に対して堅牢かどうかは不明である。 特に、敵は、インターネットからの$denial$-$of$-$service$攻撃に類似した平均的推論時間$-$aの脅威を増大させることで、適応的なDNNを減速させようとする。 本稿では,VGG16,MobileNet,ResNet56をベースとした3つの汎用マルチエクイットDNNと,2つの人気画像分類ベンチマーク(CIFAR-10,Tiny ImageNet)を用いたカスタムマルチエクイットアーキテクチャを用いて,この脅威のシステマティック評価を行う。 この目的のために, 逆例作成手法がスローダウンを引き起こすように修正可能であることを示し, 異なるアーキテクチャに対する影響を比較するための指標を提案する。 ローダウン攻撃は、マルチエクイットDNNの有効性を90~100%削減し、典型的なIoTデプロイメントにおいて1.5~5$\times$のレイテンシを増幅することを示した。 また,攻撃者が被害者に関する知識が限られている現実のブラックボックスシナリオにおいて,普遍的で再利用可能な摂動を構築できることを示す。 最後に、敵の訓練がスローダウンに対して限定的な保護を与えることを示す。 これらの結果は、この新興の脅威からマルチエクイティアーキテクチャを守るためにさらなる研究が必要であることを示唆している。 私たちのコードはhttps://github.com/sanghyun-hong/deepslothで入手できます。

Recent increases in the computational demands of deep neural networks (DNNs), combined with the observation that most input samples require only simple models, have sparked interest in $input$-$adaptive$ multi-exit architectures, such as MSDNets or Shallow-Deep Networks. These architectures enable faster inferences and could bring DNNs to low-power devices, e.g., in the Internet of Things (IoT). However, it is unknown if the computational savings provided by this approach are robust against adversarial pressure. In particular, an adversary may aim to slowdown adaptive DNNs by increasing their average inference time$-$a threat analogous to the $denial$-$of$-$service$ attacks from the Internet. In this paper, we conduct a systematic evaluation of this threat by experimenting with three generic multi-exit DNNs (based on VGG16, MobileNet, and ResNet56) and a custom multi-exit architecture, on two popular image classification benchmarks (CIFAR-10 and Tiny ImageNet). To this end, we show that adversarial example-crafting techniques can be modified to cause slowdown, and we propose a metric for comparing their impact on different architectures. We show that a slowdown attack reduces the efficacy of multi-exit DNNs by 90-100%, and it amplifies the latency by 1.5-5$\times$ in a typical IoT deployment. We also show that it is possible to craft universal, reusable perturbations and that the attack can be effective in realistic black-box scenarios, where the attacker has limited knowledge about the victim. Finally, we show that adversarial training provides limited protection against slowdowns. These results suggest that further research is needed for defending multi-exit architectures against this emerging threat. Our code is available at https://github.com/sanghyun-hong/deepsloth.
翻訳日:2022-10-10 07:59:04 公開日:2021-02-25
# NTKオーバーラップマトリックスによる破砕現象の理論的解析

A Theoretical Analysis of Catastrophic Forgetting through the NTK Overlap Matrix ( http://arxiv.org/abs/2010.04003v2 )

ライセンス: Link先を確認
Thang Doan, Mehdi Bennani, Bogdan Mazoure, Guillaume Rabusseau, Pierre Alquier(参考訳) 連続学習(continual learning、cl)は、エージェントが生涯を通じて入力されるデータストリームから学ぶ必要がある設定である。 この分野での大きな進歩はあったが、未解決のまま続いている問題の1つは、カタストロフィック・フォーッティング(CF)である。 この問題は経験的に研究されているが、理論的な角度からはほとんど注目されていない。 本稿では,2つのタスクが整合するにつれてCFの影響が増加することを示す。 我々は,cf の核となる ntk 重なり行列と呼ばれるタスク類似性の尺度を導入する。 一般的な予測型勾配アルゴリズムを分析して,忘れることの軽減方法を示す。 そこで本研究では,主成分分析 (PCA) によるデータ構造を利用した直交勾配Descent (OGD) の変種を提案する。 実験は理論的な結果をサポートし,従来のCLデータセットのCF削減にどのように役立つかを示す。

Continual learning (CL) is a setting in which an agent has to learn from an incoming stream of data during its entire lifetime. Although major advances have been made in the field, one recurring problem which remains unsolved is that of Catastrophic Forgetting (CF). While the issue has been extensively studied empirically, little attention has been paid from a theoretical angle. In this paper, we show that the impact of CF increases as two tasks increasingly align. We introduce a measure of task similarity called the NTK overlap matrix which is at the core of CF. We analyze common projected gradient algorithms and demonstrate how they mitigate forgetting. Then, we propose a variant of Orthogonal Gradient Descent (OGD) which leverages structure of the data through Principal Component Analysis (PCA). Experiments support our theoretical findings and show how our method can help reduce CF on classical CL datasets.
翻訳日:2022-10-09 21:51:52 公開日:2021-02-25
# 非測定コンバウンディングによる因果発見

Differentiable Causal Discovery Under Unmeasured Confounding ( http://arxiv.org/abs/2010.06978v2 )

ライセンス: Link先を確認
Rohit Bhattacharya, Tushar Nagarajan, Daniel Malinsky, Ilya Shpitser(参考訳) 生物学的、経済的、社会的なシステムから得られたデータは、測定されていない変数の存在によってしばしば統合される。 因果発見における先行研究は、非巡回有向混合グラフ(admgs)、特に観測された変数間の通常の条件独立性制約をエンコードする祖先admgsを選択するための離散探索手順に焦点を当てている。 しかし、結合されたシステムはまた、これらのグラフでは表現できないより一般的な平等制限を示し、祖先admgを用いて学習できる構造の種類に制限を課している。 本研究では、祖先ADMGの空間を完全に特徴づける微分可能代数的制約と、観測変数のすべての等式制約を捉えるADMG、アリドADMG、ボウフリーADMGのより一般的なクラスを導出する。 これらの制約を用いて因果発見を連続的な最適化問題とし、相関誤差のある整合線形方程式系からデータが得られたとき、最適な適合ADMGを見つけるための微分可能な手順を設計する。 本手法の有効性をシミュレーションにより実証し,タンパク質発現データセットに適用する。 私たちのメソッドを実装するコードはオープンソースで、https://gitlab.com/rbhatta8/dcdで公開されています。

The data drawn from biological, economic, and social systems are often confounded due to the presence of unmeasured variables. Prior work in causal discovery has focused on discrete search procedures for selecting acyclic directed mixed graphs (ADMGs), specifically ancestral ADMGs, that encode ordinary conditional independence constraints among the observed variables of the system. However, confounded systems also exhibit more general equality restrictions that cannot be represented via these graphs, placing a limit on the kinds of structures that can be learned using ancestral ADMGs. In this work, we derive differentiable algebraic constraints that fully characterize the space of ancestral ADMGs, as well as more general classes of ADMGs, arid ADMGs and bow-free ADMGs, that capture all equality restrictions on the observed variables. We use these constraints to cast causal discovery as a continuous optimization problem and design differentiable procedures to find the best fitting ADMG when the data comes from a confounded linear system of equations with correlated errors. We demonstrate the efficacy of our method through simulations and application to a protein expression dataset. Code implementing our methods is open-source and publicly available at https://gitlab.com/rbhatta8/dcd and will be incorporated into the Ananke package.
翻訳日:2022-10-07 12:44:41 公開日:2021-02-25
# 時系列間の微分可能な発散

Differentiable Divergences Between Time Series ( http://arxiv.org/abs/2010.08354v3 )

ライセンス: Link先を確認
Mathieu Blondel and Arthur Mensch and Jean-Philippe Vert(参考訳) 変数サイズの時系列間の不一致を計算することは、非常に難しい。 ダイナミック・タイム・ワーピング(dtw)はこの目的のために広く使われているが、至るところでは微分可能ではなく、「損失」として使われると悪い局所的オプティマを引き起こすことが知られている。 ソフトDTWはこれらの問題に対処するが、これは正の定性分岐ではない: エントロピー正則化によって導入されたバイアスのため、負となり、時系列が等しいときに最小化されない。 本稿では,これらの問題を修正するために,ソフトDTW発散と呼ばれる新しい発散を提案する。 我々はその性質について研究し、特に地価の条件下では、それが有効な分岐であることを示し、それは非負であり、二つの時系列が等しければ最小化される。 また,エントロピーバイアスを除去し,新たな「シャープ」変種を提案する。 時系列分類では, DTW と Soft-DTW のいずれよりも精度が向上し, 時系列分類の精度が向上した。

Computing the discrepancy between time series of variable sizes is notoriously challenging. While dynamic time warping (DTW) is popularly used for this purpose, it is not differentiable everywhere and is known to lead to bad local optima when used as a "loss". Soft-DTW addresses these issues, but it is not a positive definite divergence: due to the bias introduced by entropic regularization, it can be negative and it is not minimized when the time series are equal. We propose in this paper a new divergence, dubbed soft-DTW divergence, which aims to correct these issues. We study its properties; in particular, under conditions on the ground cost, we show that it is a valid divergence: it is non-negative and minimized if and only if the two time series are equal. We also propose a new "sharp" variant by further removing entropic bias. We showcase our divergences on time series averaging and demonstrate significant accuracy improvements compared to both DTW and soft-DTW on 84 time series classification datasets.
翻訳日:2022-10-06 20:21:30 公開日:2021-02-25
# ロジスティックq学習

Logistic Q-Learning ( http://arxiv.org/abs/2010.11151v2 )

ライセンス: Link先を確認
Joan Bas-Serrano, Sebastian Curi, Andreas Krause, Gergely Neu(参考訳) MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。 本手法はピーターズら(2010)の古典的相対エントロピーポリシー探索(REPS)アルゴリズムと密接に関連しており,本手法がQ-関数を導入し,正確なモデルフリー実装を実現している。 我々のアルゴリズム(QREPSと呼ばれる)の主な特徴は、広く使われているベルマン誤差に代えて理論的に音声として機能する政策評価のための凸損失関数である。 この損失関数を最小化する実用的なサドルポイント最適化方法と、個々の更新の品質と出力ポリシーの性能とを関連づけたエラー伝播解析を提供する。 最後に,ベンチマーク問題に対する本手法の有効性を示す。

We propose a new reinforcement learning algorithm derived from a regularized linear-programming formulation of optimal control in MDPs. The method is closely related to the classic Relative Entropy Policy Search (REPS) algorithm of Peters et al. (2010), with the key difference that our method introduces a Q-function that enables efficient exact model-free implementation. The main feature of our algorithm (called QREPS) is a convex loss function for policy evaluation that serves as a theoretically sound alternative to the widely used squared Bellman error. We provide a practical saddle-point optimization method for minimizing this loss function and provide an error-propagation analysis that relates the quality of the individual updates to the performance of the output policy. Finally, we demonstrate the effectiveness of our method on a range of benchmark problems.
翻訳日:2022-10-04 22:31:06 公開日:2021-02-25
# ディープニューラルネットワークを構成する線形関数の個数について:ニューラルネットワークの複素性の再定義に向けて

On the Number of Linear Functions Composing Deep Neural Network: Towards a Refined Definition of Neural Networks Complexity ( http://arxiv.org/abs/2010.12125v2 )

ライセンス: Link先を確認
Yuuki Takai, Akiyoshi Sannai, Matthieu Cordonnier(参考訳) 分割線形活性化を持つディープニューラルネットワークの表現力を測定する古典的なアプローチは、その最大線形領域数を数えることに基づいている。 この複雑性尺度は、幅を超える深さの利点のようなニューラルネットワークの表現性の一般的な特性を理解するのに非常に重要である。 それにもかかわらず、異なるネットワークアーキテクチャの表現性を比較することは限られているように見える。 この欠如は、線形領域間の対称冗長性のため、置換不変ネットワークを考えるときに特に顕著になる。 そこで本稿では, 直列領域の数を数える代わりに, 直列線型関数を構成する線形関数間の同値関係を導入し, その同値関係に対してそれらの線形関数を数える。 我々の新しい複雑性測度は、上記の2つのモデルを明確に区別することができ、古典測度と一致し、深さとともに指数関数的に増加する。

The classical approach to measure the expressive power of deep neural networks with piecewise linear activations is based on counting their maximum number of linear regions. This complexity measure is quite relevant to understand general properties of the expressivity of neural networks such as the benefit of depth over width. Nevertheless, it appears limited when it comes to comparing the expressivity of different network architectures. This lack becomes particularly prominent when considering permutation-invariant networks, due to the symmetrical redundancy among the linear regions. To tackle this, we propose a refined definition of piecewise linear function complexity: instead of counting the number of linear regions directly, we first introduce an equivalence relation among the linear functions composing a piecewise linear function and then count those linear functions relative to that equivalence relation. Our new complexity measure can clearly distinguish between the two aforementioned models, is consistent with the classical measure, and increases exponentially with depth.
翻訳日:2022-10-03 21:51:40 公開日:2021-02-25
# サイバー脅威を効果的に追跡するサイバー脅威知能

Enabling Efficient Cyber Threat Hunting With Cyber Threat Intelligence ( http://arxiv.org/abs/2010.13637v2 )

ライセンス: Link先を確認
Peng Gao, Fei Shao, Xiaoyuan Liu, Xusheng Xiao, Zheng Qin, Fengyuan Xu, Prateek Mittal, Sanjeev R. Kulkarni, Dawn Song(参考訳) ログベースのサイバー脅威狩りは、高度な攻撃に対抗する重要な解決策として浮上している。 しかし、既存のアプローチでは、手作業によるクエリ構築が必須であり、オープンソースのCyber Threat Intelligence(OSCTI)が提供する豊富な外部脅威知識を見落としている。 このギャップを埋めるために,OSCTIを用いたコンピュータシステムにおける脅威狩りを支援するThreatRaptorを提案する。 ThreatRaptorは(1)教師なし、軽量で正確なNLPパイプラインを提供し、(1)構造化されていないOSCTIテキストから構造化された脅威行動を抽出し、(2)悪意あるシステムアクティビティを探索するための簡潔で表現豊かなドメイン固有クエリ言語TBQL、(3)狩猟用のTBQLクエリを自動的に合成するクエリ合成機構、(4)大規模な監査ログデータを検索するための効率的なクエリ実行エンジンを提供する。 幅広い攻撃事例に対する評価は、実用的脅威狩りにおける脅威ラプターの正確性と効率を示す。

Log-based cyber threat hunting has emerged as an important solution to counter sophisticated attacks. However, existing approaches require non-trivial efforts of manual query construction and have overlooked the rich external threat knowledge provided by open-source Cyber Threat Intelligence (OSCTI). To bridge the gap, we propose ThreatRaptor, a system that facilitates threat hunting in computer systems using OSCTI. Built upon system auditing frameworks, ThreatRaptor provides (1) an unsupervised, light-weight, and accurate NLP pipeline that extracts structured threat behaviors from unstructured OSCTI text, (2) a concise and expressive domain-specific query language, TBQL, to hunt for malicious system activities, (3) a query synthesis mechanism that automatically synthesizes a TBQL query for hunting, and (4) an efficient query execution engine to search the big audit logging data. Evaluations on a broad set of attack cases demonstrate the accuracy and efficiency of ThreatRaptor in practical threat hunting.
翻訳日:2022-10-02 19:50:27 公開日:2021-02-25
# 階層的強化学習のための抽象値反復法

Abstract Value Iteration for Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2010.15638v2 )

ライセンス: Link先を確認
Kishor Jothimurugan, Osbert Bastani and Rajeev Alur(参考訳) 本研究では,連続状態と行動空間による制御のための階層型強化学習フレームワークを提案する。 私たちのフレームワークでは、状態のサブセットであるサブゴール領域をユーザが指定します。 i)これらの下位領域間の遷移として機能する選択肢を学習し、 (II)結果の抽象的決定プロセス(ADP)において、ハイレベルな計画を構築する。 重要な課題は、ADPがマルコフではなく、ADPで計画するための2つのアルゴリズムを提案することである。 私たちの最初のアルゴリズムは保守的で、その性能に関する理論的保証を証明できます。 第2のアルゴリズムは,計画を抽象レベルで織り込み,具体的レベルで学習する実践的な手法である。 実験では,提案手法がいくつかの挑戦的ベンチマークにおいて,最先端の階層的強化学習アルゴリズムより優れていることを示す。

We propose a novel hierarchical reinforcement learning framework for control with continuous state and action spaces. In our framework, the user specifies subgoal regions which are subsets of states; then, we (i) learn options that serve as transitions between these subgoal regions, and (ii) construct a high-level plan in the resulting abstract decision process (ADP). A key challenge is that the ADP may not be Markov, which we address by proposing two algorithms for planning in the ADP. Our first algorithm is conservative, allowing us to prove theoretical guarantees on its performance, which help inform the design of subgoal regions. Our second algorithm is a practical one that interweaves planning at the abstract level and learning at the concrete level. In our experiments, we demonstrate that our approach outperforms state-of-the-art hierarchical reinforcement learning algorithms on several challenging benchmarks.
翻訳日:2022-10-01 23:19:02 公開日:2021-02-25
# タスク空間における情報幾何学的距離

An Information-Geometric Distance on the Space of Tasks ( http://arxiv.org/abs/2011.00613v2 )

ライセンス: Link先を確認
Yansong Gao and Pratik Chaudhari(参考訳) 本稿では,データとラベルの共有分布としてモデル化された学習タスク間の距離を規定する。 情報幾何学におけるツールを用いて、分類器を補間タスクに装着するので、その距離はリーマン多様体上の最短重量軌道の長さと定義される。 補間されたタスクは最適なトランスポート形式を用いてソースからターゲットタスクへと進化する。 この距離は「結合移動距離」と呼ばれ、異なる分類器アーキテクチャで比較することができる。 我々は,この進化するデータ分布を追跡するために,分類器の重みを更新しながら,ソースタスクのデータからターゲットタスクのデータへの限界を反復的に輸送する距離を計算するアルゴリズムを開発した。 我々は,移動過程における一般化ギャップを小さく保ちながら,特に目標タスクの終端において,移動軌道がよいという直感的な考え方を捉えていることを示す理論を開発する。 多様な画像分類データセットにまたがる徹底的な検証と分析を行い,結合した転送距離と微調整の難しさが強く相関することを示す。

This paper prescribes a distance between learning tasks modeled as joint distributions on data and labels. Using tools in information geometry, the distance is defined to be the length of the shortest weight trajectory on a Riemannian manifold as a classifier is fitted on an interpolated task. The interpolated task evolves from the source to the target task using an optimal transport formulation. This distance, which we call the "coupled transfer distance" can be compared across different classifier architectures. We develop an algorithm to compute the distance which iteratively transports the marginal on the data of the source task to that of the target task while updating the weights of the classifier to track this evolving data distribution. We develop theory to show that our distance captures the intuitive idea that a good transfer trajectory is the one that keeps the generalization gap small during transfer, in particular at the end on the target task. We perform thorough empirical validation and analysis across diverse image classification datasets to show that the coupled transfer distance correlates strongly with the difficulty of fine-tuning.
翻訳日:2022-09-30 23:03:00 公開日:2021-02-25
# 正規化フローによるガウス過程の変換

Transforming Gaussian Processes With Normalizing Flows ( http://arxiv.org/abs/2011.01596v2 )

ライセンス: Link先を確認
Juan Maro\~nas, Oliver Hamelijnck, Jeremias Knoblauch, Theodoros Damoulas(参考訳) ガウス過程 (GP) はフレキシブルで非パラメトリックな関数として使うことができる。 フローの正規化に関する作業の増加に触発されて、入力依存にできるパラメトリックな可逆変換を通じて、このクラスを前もって拡大します。 そうすることで、解釈可能な事前知識(例えば有界性制約)をエンコードすることもできる。 これは確率的変分gp回帰と同じくらい高速である(hensman et al., 2013; dezfouli and bonilla, 2015)。 これにより、GP事前の他の階層的拡張(Lazaro-Gredilla, 2012; Damianou and Lawrence, 2013)の計算的に効率的な代替となる。 結果として得られるアルゴリズムの計算と推論のパフォーマンスは優れており、様々なデータセットでこれを実証する。 例えば、わずか5個の誘導点と入力依存フローであっても、本手法は100個の誘導点を用いた標準スパースGPと一貫して競合する。

Gaussian Processes (GPs) can be used as flexible, non-parametric function priors. Inspired by the growing body of work on Normalizing Flows, we enlarge this class of priors through a parametric invertible transformation that can be made input-dependent. Doing so also allows us to encode interpretable prior knowledge (e.g., boundedness constraints). We derive a variational approximation to the resulting Bayesian inference problem, which is as fast as stochastic variational GP regression (Hensman et al., 2013; Dezfouli and Bonilla,2015). This makes the model a computationally efficient alternative to other hierarchical extensions of GP priors (Lazaro-Gredilla,2012; Damianou and Lawrence, 2013). The resulting algorithm's computational and inferential performance is excellent, and we demonstrate this on a range of data sets. For example, even with only 5 inducing points and an input-dependent flow, our method is consistently competitive with a standard sparse GP fitted using 100 inducing points.
翻訳日:2022-09-30 05:38:46 公開日:2021-02-25
# 複合イベントにおけるグループ骨格に基づく人間行動認識

Group-Skeleton-Based Human Action Recognition in Complex Events ( http://arxiv.org/abs/2011.13273v2 )

ライセンス: Link先を確認
Tingtian Li, Zixun Sun, Xiao Chen(参考訳) 人間の行動認識はコンピュータビジョンの重要な応用として何十年も研究されてきた。 様々なアプローチの中で、スケルトンベースの手法は、頑丈で優れた性能のために近年注目を集めている。 しかし、既存の骨格に基づく手法では、人間の潜在的な行動関係は無視されるが、人の行動は、特に複雑な出来事において他人の影響を受けやすい。 本稿では,複合イベントにおけるグループ骨格に基づく人間行動認識手法を提案する。 本手法はまず,マルチスケール空間時間グラフ畳み込みネットワーク(MS-G3D)を用いて,複数の人物から骨格の特徴を抽出する。 従来のキーポイント座標に加えて、ネットワークにキーポイント速度値を入力し、パフォーマンスを向上させる。 次に、マルチ層パーセプトロン(MLP)を用いて、参照者と他者間の距離値を抽出した特徴量に埋め込む。 最後に、全ての機能は機能融合と分類のために別のMS-G3Dに供給される。 クラス不均衡問題を回避するため、ネットワークは焦点損失で訓練される。 提案アルゴリズムは,複合イベントチャレンジにおける大規模人中心ビデオ解析のソリューションでもある。 HiEveデータセットの結果から,本手法は他の最先端手法と比較して優れた性能が得られることが示された。

Human action recognition as an important application of computer vision has been studied for decades. Among various approaches, skeleton-based methods recently attract increasing attention due to their robust and superior performance. However, existing skeleton-based methods ignore the potential action relationships between different persons, while the action of a person is highly likely to be impacted by another person especially in complex events. In this paper, we propose a novel group-skeleton-based human action recognition method in complex events. This method first utilizes multi-scale spatial-temporal graph convolutional networks (MS-G3Ds) to extract skeleton features from multiple persons. In addition to the traditional key point coordinates, we also input the key point speed values to the networks for better performance. Then we use multilayer perceptrons (MLPs) to embed the distance values between the reference person and other persons into the extracted features. Lastly, all the features are fed into another MS-G3D for feature fusion and classification. For avoiding class imbalance problems, the networks are trained with a focal loss. The proposed algorithm is also our solution for the Large-scale Human-centric Video Analysis in Complex Events Challenge. Results on the HiEve dataset show that our method can give superior performance compared to other state-of-the-art methods.
翻訳日:2022-09-20 09:05:25 公開日:2021-02-25
# (参考訳) K-Deep Simplex: ローカル辞書による深層マニフォールド学習

K-Deep Simplex: Deep Manifold Learning via Local Dictionaries ( http://arxiv.org/abs/2012.02134v2 )

ライセンス: CC BY 4.0
Pranay Tankala, Abiy Tasissa, James M. Murphy, Demba Ba(参考訳) K-Deep Simplex (KDS) は、多様体学習とスパース辞書学習の強みを組み合わせた非線形次元減少のための統一的な最適化フレームワークである。 本手法は,データポイントを表すローカル辞書を,確率シンプレックスを用いた再構成係数で学習する。 辞書は、構造化深層学習の一般的なテクニックであるアンロールアルゴリズムを用いて学習される。 KDSは関連するアプローチよりも膨大な計算上の優位性を持ち、解釈可能かつ柔軟である。 特に、KDSは、データの内在的な幾何学的性質に依存するスケーリングを伴うデータポイントの数で準線形である。 KDSを教師なしクラスタリング問題に適用し、理論的性能保証を証明する。 実験により,アルゴリズムは効率が高く,合成データセットや実データに対して競争力があることが示された。

We propose K-Deep Simplex (KDS), a unified optimization framework for nonlinear dimensionality reduction that combines the strengths of manifold learning and sparse dictionary learning. Our approach learns local dictionaries that represent a data point with reconstruction coefficients supported on the probability simplex. The dictionaries are learned using algorithm unrolling, an increasingly popular technique for structured deep learning. KDS enjoys tremendous computational advantages over related approaches and is both interpretable and flexible. In particular, KDS is quasilinear in the number of data points with scaling that depends on intrinsic geometric properties of the data. We apply KDS to the unsupervised clustering problem and prove theoretical performance guarantees. Experiments show that the algorithm is highly efficient and performs competitively on synthetic and real data sets.
翻訳日:2021-05-23 19:51:24 公開日:2021-02-25
# (参考訳) CTにおける肺気道および動脈-静脈分画に対するTubule-Sensitive CNNの学習

Learning Tubule-Sensitive CNNs for Pulmonary Airway and Artery-Vein Segmentation in CT ( http://arxiv.org/abs/2012.05767v5 )

ライセンス: CC BY 4.0
Yulei Qin, Hao Zheng, Yun Gu, Xiaolin Huang, Jie Yang, Lihui Wang, Feng Yao, Yue-Min Zhu, Guang-Zhong Yang(参考訳) 肺気道,動脈,静脈のセグメンテーションのための畳み込みニューラルネットワーク(CNN)の訓練は,管状目標と背景との重度の階級的不均衡によって引き起こされる疎い監督信号により困難である。 コントラスト非造影CTにおいて,CNNによる正確な気道および動脈静脈分画法を提案する。 細気管支、動脈、静脈に対して優れた感受性を有する。 この手法はまず、ニューラルネットワークから学んだ機能を最大限活用するために、機能修正モジュールを使用する。 特徴の空間情報は、活性化領域の相対的優先度を維持するために適切に統合され、その後のチャネルワイド・リカレーションの恩恵を受ける。 次に、管状物体の表現学習を強化するために注意蒸留モジュールを導入する。 高分解能アテンションマップの細部の詳細は、コンテキストを豊かにするために、ある層からその前の層に繰り返し渡される。 肺コンテキストマップと距離変換マップの解剖学は、動脈-静脈の分化能力を改善するために設計され、組み込まれている。 広範な実験により、これらのコンポーネントによるかなりの性能向上が示された。 本手法は最先端手法と比較し, 競合的なセグメント化性能を維持しつつ, はるかに多くの枝を抽出した。 コードとモデルはhttp://www.pami.sjtu.edu.cn/news/56で利用可能である。

Training convolutional neural networks (CNNs) for segmentation of pulmonary airway, artery, and vein is challenging due to sparse supervisory signals caused by the severe class imbalance between tubular targets and background. We present a CNNs-based method for accurate airway and artery-vein segmentation in non-contrast computed tomography. It enjoys superior sensitivity to tenuous peripheral bronchioles, arterioles, and venules. The method first uses a feature recalibration module to make the best use of features learned from the neural networks. Spatial information of features is properly integrated to retain relative priority of activated regions, which benefits the subsequent channel-wise recalibration. Then, attention distillation module is introduced to reinforce representation learning of tubular objects. Fine-grained details in high-resolution attention maps are passing down from one layer to its previous layer recursively to enrich context. Anatomy prior of lung context map and distance transform map is designed and incorporated for better artery-vein differentiation capacity. Extensive experiments demonstrated considerable performance gains brought by these components. Compared with state-of-the-art methods, our method extracted much more branches while maintaining competitive overall segmentation performance. Codes and models are available at http://www.pami.sjtu.edu.cn/News/56
翻訳日:2021-05-15 14:06:54 公開日:2021-02-25
# (参考訳) Reddit Entity Linking Dataset

Reddit Entity Linking Dataset ( http://arxiv.org/abs/2101.01228v2 )

ライセンス: CC BY 4.0
Nicholas Botzer, Yifan Ding, Tim Weninger(参考訳) 我々は,3人のアノテータによってアノテートされ,金,銀,青銅にグループ化され,アノテータ間の合意を示す,17,316個のリンクされたエンティティを含むredditのデータセットを紹介,公開する。 注釈者による異なる誤りや不一致を分析し、生データに対する3種類の修正を提案する。 最後に、非社会的メディアデータセットからのテキストに基づいてトレーニングおよびチューニングされた既存のエンティティリンクモデルをテストする。 既存のエンティティリンクモデルは、オリジナルのデータセットで非常によく機能するが、このソーシャルメディアデータセットではパフォーマンスが悪いことが分かりました。 また,これらのエラーの大部分は,参照検出サブタスクの性能低下によるものであることを示す。 これらの結果は、膨大な量のソーシャルメディアテキストに適用可能な、より良いエンティティリンクモデルの必要性を示している。

We introduce and make publicly available an entity linking dataset from Reddit that contains 17,316 linked entities, each annotated by three human annotators and then grouped into Gold, Silver, and Bronze to indicate inter-annotator agreement. We analyze the different errors and disagreements made by annotators and suggest three types of corrections to the raw data. Finally, we tested existing entity linking models that are trained and tuned on text from non-social media datasets. We find that, although these existing entity linking models perform very well on their original datasets, they perform poorly on this social media dataset. We also show that the majority of these errors can be attributed to poor performance on the mention detection subtask. These results indicate the need for better entity linking models that can be applied to the enormous amount of social media text.
翻訳日:2021-04-12 00:29:23 公開日:2021-02-25
# (参考訳) インダクティブバイアス、事前学習、微調整は発話に対する脳の反応を左右する

Inductive biases, pretraining and fine-tuning jointly account for brain responses to speech ( http://arxiv.org/abs/2103.01032v1 )

ライセンス: CC BY 4.0
Juliette Millet, Jean-Remi King(参考訳) 音声を理解できる能力は、現在に至るまで、ディープラーニングモデルに左右されないままである。 この偉業は、音声特異的なプロセスのための一般的な音の表現を微調整する脳の能力から生じる可能性がある。 この仮説を検証するために, 機能的磁気共鳴画像(fMRI)を用いて, オランダ人102名の被験者を対象に, 5種類の深部ニューラルネットワークと音声文によるヒト脳反応を比較した。 各ネットワークは、音響シーンの分類、音声からテキストへのタスク(ベンガル語、英語、オランダ語に基づく)、あるいは訓練されていない。 各モデルと脳の類似性は、最適線形投影後のそれぞれの活性化を関連づけることで評価される。 ネットワーク間の脳相似性の違いは3つの主要な結果を示した。 まず、脳内の音声表現は、ランダムなディープネットワークによって説明できる。 第二に、音響シーンの分類を学ぶことで、深い網が脳の類似性を高める。 第3に、音声関連音声入力(オランダ語対英語)を処理する学習は、深層ネットを学習よりも高いレベルの脳相似性に導く。 オランダ対ベンガル)。 これらの結果から,人間の脳は音声処理を学ぶために,高度に訓練された聴覚階層を微調整していることが示唆された。

Our ability to comprehend speech remains, to date, unrivaled by deep learning models. This feat could result from the brain's ability to fine-tune generic sound representations for speech-specific processes. To test this hypothesis, we compare i) five types of deep neural networks to ii) human brain responses elicited by spoken sentences and recorded in 102 Dutch subjects using functional Magnetic Resonance Imaging (fMRI). Each network was either trained on an acoustics scene classification, a speech-to-text task (based on Bengali, English, or Dutch), or not trained. The similarity between each model and the brain is assessed by correlating their respective activations after an optimal linear projection. The differences in brain-similarity across networks revealed three main results. First, speech representations in the brain can be accounted for by random deep networks. Second, learning to classify acoustic scenes leads deep nets to increase their brain similarity. Third, learning to process phonetically-related speech inputs (i.e., Dutch vs English) leads deep nets to reach higher levels of brain-similarity than learning to process phonetically-distant speech inputs (i.e. Dutch vs Bengali). Together, these results suggest that the human brain fine-tunes its heavily-trained auditory hierarchy to learn to process speech.
翻訳日:2021-04-05 08:40:58 公開日:2021-02-25
# 近似推論のための容易に解釈できる診断法:シミュレーションによる対称発散

An Easy to Interpret Diagnostic for Approximate Inference: Symmetric Divergence Over Simulations ( http://arxiv.org/abs/2103.01030v1 )

ライセンス: Link先を確認
Justin Domke(参考訳) 確率的推論アルゴリズムの誤差を推定することが重要である。 マルコフ連鎖モンテカルロ法による既存の診断は、推論が漸近的に正確であると仮定し、変分推論やラプラス法のような近似手法には適さない。 本稿では,前者からのデータセットを繰り返しシミュレーションし,それぞれに推論を行う診断手法を提案する。 中心的な観測は、これらのシミュレーションで定義された対称KL偏差を推定できるということである。

It is important to estimate the errors of probabilistic inference algorithms. Existing diagnostics for Markov chain Monte Carlo methods assume inference is asymptotically exact, and are not appropriate for approximate methods like variational inference or Laplace's method. This paper introduces a diagnostic based on repeatedly simulating datasets from the prior and performing inference on each. The central observation is that it is possible to estimate a symmetric KL-divergence defined over these simulations.
翻訳日:2021-04-05 00:51:34 公開日:2021-02-25
# インフレーション型3次元深部畳み込みニューラルネットワークを用いた手話認識への伝達学習の適用

Application of Transfer Learning to Sign Language Recognition using an Inflated 3D Deep Convolutional Neural Network ( http://arxiv.org/abs/2103.05111v1 )

ライセンス: Link先を確認
Roman T\"ongi(参考訳) 手話は聴覚障害を持つ人々にとって主要な言語である。 手話認識(SLR)は手話の自動認識であり、コンピュータにとって難しい問題である。 ディープラーニングモデルのトレーニングには,一般的に大量のデータが必要です。 しかし、ほとんどの手話言語では、対応するデータセットが欠落している。 転送学習は、十分なデータを持たない対象タスクを解決するのに役立つ大量のデータを持つ関連タスクを活用する技術である。 トランスファーラーニングはコンピュータビジョンと自然言語処理に非常にうまく応用されている。 しかし、SLRの分野での研究はほとんど行われていない。 本稿では,3次元畳み込みニューラルネットワークを深層学習アーキテクチャとして用いて,孤立SLRへの伝達学習の有効性について検討する。 転送学習は、アメリカ手話データセットMS-ASL上のネットワークを事前訓練し、その後、ドイツの手話データセットSIGNUMの3つの異なるサイズで微調整することで実現される。 実験の結果、移動学習が孤立SLRに効果的に適用できるという明確な実証的証拠が得られた。 転送学習を適用したネットワークの精度は,MS-ASLデータセットで事前トレーニングされていないベースラインモデルと比較して21%まで向上した。

Sign language is the primary language for people with a hearing loss. Sign language recognition (SLR) is the automatic recognition of sign language, which represents a challenging problem for computers, though some progress has been made recently using deep learning. Huge amounts of data are generally required to train deep learning models. However, corresponding datasets are missing for the majority of sign languages. Transfer learning is a technique to utilize a related task with an abundance of data available to help solve a target task lacking sufficient data. Transfer learning has been applied highly successfully in computer vision and natural language processing. However, much less research has been conducted in the field of SLR. This paper investigates how effectively transfer learning can be applied to isolated SLR using an inflated 3D convolutional neural network as the deep learning architecture. Transfer learning is implemented by pre-training a network on the American Sign Language dataset MS-ASL and subsequently fine-tuning it separately on three different sizes of the German Sign Language dataset SIGNUM. The results of the experiments give clear empirical evidence that transfer learning can be effectively applied to isolated SLR. The accuracy performances of the networks applying transfer learning increased substantially by up to 21% as compared to the baseline models that were not pre-trained on the MS-ASL dataset.
翻訳日:2021-04-05 00:51:04 公開日:2021-02-25
# 視覚的特徴に基づくWebテーブル分類

Web Table Classification based on Visual Features ( http://arxiv.org/abs/2103.05110v1 )

ライセンス: Link先を確認
Babette B\"uhler and Heiko Paulheim(参考訳) web上のテーブルは、事実検索や知識ベース拡張など、多くのアプリケーションにとって貴重なデータソースとなります。 しかし、関係知識を含む真のテーブルは、web上のテーブルのごく一部を占めるため、信頼できる本物のwebテーブルの分類は、テーブル抽出の第一段階である。 以前の作業は通常、htmlコードからの明示的な機能構築に依存している。 対照的に、Webテーブルのレンダリング画像に畳み込みニューラルネットワークを適用することによって純粋に機能するテーブルの完全な視覚的外観を活用することにより、Webテーブル分類のためのアプローチを提案する。 これらの視覚的特徴を自動抽出できるので、明示的な特徴構築の必要性を回避することができる。 このタスクのために、HTMLソースコードと13,112のテーブルの画像を含む新しい手書きゴールド標準データセットが作成された。 転送学習技術はよく知られたVGG16とResNet50アーキテクチャに適用される。 resnet50(f1 93.29%)の微調整によるcnn画像分類の評価は、このアプローチが、htmlコードベースの明示的に定義された機能を使用して、以前のソリューションに匹敵する結果が得られることを示している。 視覚的特徴と明示的な特徴を組み合わせることで、93.70%のF尺度をランダムフォレスト分類によって達成することができる。

Tables on the web constitute a valuable data source for many applications, like factual search and knowledge base augmentation. However, as genuine tables containing relational knowledge only account for a small proportion of tables on the web, reliable genuine web table classification is a crucial first step of table extraction. Previous works usually rely on explicit feature construction from the HTML code. In contrast, we propose an approach for web table classification by exploiting the full visual appearance of a table, which works purely by applying a convolutional neural network on the rendered image of the web table. Since these visual features can be extracted automatically, our approach circumvents the need for explicit feature construction. A new hand labeled gold standard dataset containing HTML source code and images for 13,112 tables was generated for this task. Transfer learning techniques are applied to well known VGG16 and ResNet50 architectures. The evaluation of CNN image classification with fine tuned ResNet50 (F1 93.29%) shows that this approach achieves results comparable to previous solutions using explicitly defined HTML code based features. By combining visual and explicit features, an F-measure of 93.70% can be achieved by Random Forest classification, which beats current state of the art methods.
翻訳日:2021-04-05 00:48:18 公開日:2021-02-25
# ハイブリッド非教師付き異常検出法による脱税リスク管理

Tax Evasion Risk Management Using a Hybrid Unsupervised Outlier Detection Method ( http://arxiv.org/abs/2103.01033v1 )

ライセンス: Link先を確認
Milo\v{s} Savi\'c, Jasna Atanasijevi\'c, Du\v{s}an Jakoveti\'c, Nata\v{s}a Kreji\'c(参考訳) ビッグデータの手法は、世界中の税金不正検出の重要なツールになりつつある。 教師なし学習(unsupervised learning)アプローチは、対応するデータセットにおけるラベルや根拠の真理が欠如しているため、主要なフレームワークである。 本稿では,脱税リスク管理のためのハイブリッド型非教師なし異常検出手法hunodについて述べる。 文献で提案されている従来の手法とは対照的に、hunod法は2つの異なる機械学習設計(クラスタリングと表現学習)に基づく2つの外れ値検出アプローチを組み合わせて、所定の課税データセットにおける外れ値の検出と内部検証を行う。 hunodメソッドにより、ユーザは、特定の経済状況に関連する外れ値を検出するために、両方の外れ値検出アプローチに関連するドメイン知識を組み込むことができる。 また, 教師なし外乱検出法の結果に対して, 説明可能なサロゲートモデルを訓練することにより, 得られた外乱の解釈可能性を実現する。 HUNOD法の実験評価は,セルビア税務省が収集した個人所得税宣言データベースから得られた2つのデータセットを用いて行った。 その結果,本手法は,クラスタ構成に応じて90%から98%の内部検証された異常値を示し,表現学習に正規化機構を用いた。

Big data methods are becoming an important tool for tax fraud detection around the world. Unsupervised learning approach is the dominant framework due to the lack of label and ground truth in corresponding data sets although these methods suffer from low interpretability. HUNOD, a novel hybrid unsupervised outlier detection method for tax evasion risk management, is presented in this paper. In contrast to previous methods proposed in the literature, the HUNOD method combines two outlier detection approaches based on two different machine learning designs (i.e, clustering and representational learning) to detect and internally validate outliers in a given tax dataset. The HUNOD method allows its users to incorporate relevant domain knowledge into both constituent outlier detection approaches in order to detect outliers relevant for a given economic context. The interpretability of obtained outliers is achieved by training explainable-by-design surrogate models over results of unsupervised outlier detection methods. The experimental evaluation of the HUNOD method is conducted on two datasets derived from the database on individual personal income tax declarations collected by the Tax Administration of Serbia. The obtained results show that the method indicates between 90% and 98% internally validated outliers depending on the clustering configuration and employed regularization mechanisms for representational learning.
翻訳日:2021-04-05 00:47:58 公開日:2021-02-25
# deepfakes生成と検出:最新技術,オープンチャレンジ,対策,今後の展望

Deepfakes Generation and Detection: State-of-the-art, open challenges, countermeasures, and way forward ( http://arxiv.org/abs/2103.00484v1 )

ライセンス: Link先を確認
Momina Masood, Marriam Nawaz, Khalid Mahmood Malik, Ali Javed, Aun Irtaza(参考訳) ソーシャルメディア上での視聴覚コンテンツへのアクセスの容易化、tensorflowやkerasといった現代的なツール、オープンソースのトレーニングモデル、経済コンピューティングインフラストラクチャ、特にgan(generative adversarial network)といったディープラーニング(dl)メソッドの急速な進化などと相まって、偽情報、リベンジポルノ、金融詐欺、嘘、政府機能の破壊のためのディープフェイクの生成が可能になった。 既存の調査は主にディープフェイクビデオ検出のみに焦点を当てている。 オーディオとビデオの両方のディープフェイクの検出と生成のアプローチをレビューする試みは行われていない。 本稿では,既存のツールと機械学習(ml)に基づくディープフェイク生成手法の包括的レビューと詳細な分析と,音声とビデオの両方のディープフェイクの検出と生成のためのそのような操作を検出する手法について述べる。 deepfakeの各カテゴリについて,操作アプローチ,現在の公開データセット,およびdeepfake検出手法の性能評価のためのキー標準に関する情報とその結果について検討する。 さらに,今後の課題について議論し,今後の方向性を列挙し,ディープフェイク生成と検出の両方の領域を改善するために考慮すべき課題について,今後の研究者に指導する。 この研究は、deepfakeの作成と検出メカニズムと、現在の限界と今後の方向性を理解する上で、読者を支援することが期待されている。

Easy access to audio-visual content on social media, combined with the availability of modern tools such as Tensorflow or Keras, open-source trained models, and economical computing infrastructure, and the rapid evolution of deep-learning (DL) methods, especially Generative Adversarial Networks (GAN), have made it possible to generate deepfakes to disseminate disinformation, revenge porn, financial frauds, hoaxes, and to disrupt government functioning. The existing surveys have mainly focused on deepfake video detection only. No attempt has been made to review approaches for detection and generation of both audio and video deepfakes. This paper provides a comprehensive review and detailed analysis of existing tools and machine learning (ML) based approaches for deepfake generation and the methodologies used to detect such manipulations for the detection and generation of both audio and video deepfakes. For each category of deepfake, we discuss information related to manipulation approaches, current public datasets, and key standards for the performance evaluation of deepfake detection techniques along with their results. Additionally, we also discuss open challenges and enumerate future directions to guide future researchers on issues that need to be considered to improve the domains of both the deepfake generation and detection. This work is expected to assist the readers in understanding the creation and detection mechanisms of deepfake, along with their current limitations and future direction.
翻訳日:2021-04-05 00:46:05 公開日:2021-02-25
# 脅威知能を用いたコンピュータシステムにおけるサイバー脅威の効率的なハンティングシステム

A System for Efficiently Hunting for Cyber Threats in Computer Systems Using Threat Intelligence ( http://arxiv.org/abs/2101.06761v2 )

ライセンス: Link先を確認
Peng Gao, Fei Shao, Xiaoyuan Liu, Xusheng Xiao, Haoyuan Liu, Zheng Qin, Fengyuan Xu, Prateek Mittal, Sanjeev R. Kulkarni, Dawn Song(参考訳) ログベースのサイバー脅威狩りは、高度なサイバー攻撃に対抗する重要な解決策として浮上している。 しかし、既存のアプローチでは、手作業によるクエリ構築が必須ではなく、オープンソースのCyber Threat Intelligence(OSCTI)が提供する脅威行動に関する豊富な外部知識を見落としている。 このギャップを埋めるために、OSCTIを用いたコンピュータシステムにおけるサイバー脅威ハンティングを支援するThreatRaptorを開発した。 Built upon mature system auditing frameworks, ThreatRaptor provides (1) an unsupervised, light-weight, and accurate NLP pipeline that extracts structured threat behaviors from unstructured OSCTI text, (2) a concise and expressive domain-specific query language, TBQL, to hunt for malicious system activities, (3) a query synthesis mechanism that automatically synthesizes a TBQL query from the extracted threat behaviors, and (4) an efficient query execution engine to search the big system audit logging data.

Log-based cyber threat hunting has emerged as an important solution to counter sophisticated cyber attacks. However, existing approaches require non-trivial efforts of manual query construction and have overlooked the rich external knowledge about threat behaviors provided by open-source Cyber Threat Intelligence (OSCTI). To bridge the gap, we build ThreatRaptor, a system that facilitates cyber threat hunting in computer systems using OSCTI. Built upon mature system auditing frameworks, ThreatRaptor provides (1) an unsupervised, light-weight, and accurate NLP pipeline that extracts structured threat behaviors from unstructured OSCTI text, (2) a concise and expressive domain-specific query language, TBQL, to hunt for malicious system activities, (3) a query synthesis mechanism that automatically synthesizes a TBQL query from the extracted threat behaviors, and (4) an efficient query execution engine to search the big system audit logging data.
翻訳日:2021-03-27 20:13:47 公開日:2021-02-25
# 不均一処理効果の非パラメトリック推定:理論から学習アルゴリズムへ

Nonparametric Estimation of Heterogeneous Treatment Effects: From Theory to Learning Algorithms ( http://arxiv.org/abs/2101.10943v2 )

ライセンス: Link先を確認
Alicia Curth and Mihaela van der Schaar(参考訳) 治療の有効性を評価する必要性は経験科学のほとんどでユビキタスであり、柔軟に効果の不均一性を調べることへの関心は急速に成長しています。 そのため, モデルに依存しない非パラメトリックメタラーナーが近年提案されている。 このような学習者は、治療効果推定問題を独立したサブ問題に分解し、それぞれが標準の教師付き学習方法を用いて解決できる。 データ駆動方式で異なるメタリーナーを選択することは、偽情報へのアクセスを必要とするため困難である。 そこで,一部の学習者が先行学習よりも優れた成績を期待できる条件をよりよく理解することを目的として,プラグイン推定と擬似アウトカム回帰に依存する4つの幅広いメタ学習戦略を理論的に分析した。 議論されたメタラーニング戦略のベースラーナーとして,ニューラルネットワークアーキテクチャを考慮し,この理論的推論を用いてアルゴリズム設計の原則を導出し,我々の分析を実践に翻訳する方法を強調した。 シミュレーション研究では、異なるデータ生成プロセスにおける学習者の相対的な強さを示す。

The need to evaluate treatment effectiveness is ubiquitous in most of empirical science, and interest in flexibly investigating effect heterogeneity is growing rapidly. To do so, a multitude of model-agnostic, nonparametric meta-learners have been proposed in recent years. Such learners decompose the treatment effect estimation problem into separate sub-problems, each solvable using standard supervised learning methods. Choosing between different meta-learners in a data-driven manner is difficult, as it requires access to counterfactual information. Therefore, with the ultimate goal of building better understanding of the conditions under which some learners can be expected to perform better than others a priori, we theoretically analyze four broad meta-learning strategies which rely on plug-in estimation and pseudo-outcome regression. We highlight how this theoretical reasoning can be used to guide principled algorithm design and translate our analyses into practice by considering a variety of neural network architectures as base-learners for the discussed meta-learning strategies. In a simulation study, we showcase the relative strengths of the learners under different data-generating processes.
翻訳日:2021-03-13 20:03:12 公開日:2021-02-25
# 非IIDフェデレーション学習における部分作業者参加による線形高速化

Achieving Linear Speedup with Partial Worker Participation in Non-IID Federated Learning ( http://arxiv.org/abs/2101.11203v2 )

ライセンス: Link先を確認
Haibo Yang, Minghong Fang, Jia Liu(参考訳) Federated Learning (FL) は分散機械学習アーキテクチャであり、多数の作業者が分散データを使ってモデルを共同学習する。 近年、データプライバシ保護、通信効率の向上、トレーニングにおける収束の線形スピードアップ(つまり、労働者数に対して収束性能が直線的に増加する)などにより、FLは注目を集めている。 しかし、収束に対する線形スピードアップに関する既存の研究は i.i.d の仮定に限られる。 労働者および/または完全な労働者の参加にわたるデータセット。 これまでのところ、収束の線形スピードアップが非i.i.dで達成可能かどうかは、まだ疑問である。 FLに部分的なワーカー参加のデータセット。 本稿では,その答えが肯定的であることを示す。 具体的には、非i.i.d上でのフェデレーション平均(FedAvg)アルゴリズム(両面学習率)を示す。 非凸設定のデータセットは収束率$\mathcal{O}(\frac{1}{\sqrt{mKT}} + \frac{1}{T})$ for full worker part and a convergence rate$\mathcal{O}(\frac{1}{\sqrt{nKT}} + \frac{1}{T})$ for partial worker part workers part, where $K$ is the number of local steps, $T$ is the number of communication round, $m$ is the total workers number and $n$ is the one communication round if for partial workers join. 結果はまた,flの局所的なステップが収束の助けとなり,最大局所的なステップ数を$t/m$に改善できることを示した。 我々は、MNISTとCIFAR-10の広範な実験を行い、理論結果を検証する。

Federated learning (FL) is a distributed machine learning architecture that leverages a large number of workers to jointly learn a model with decentralized data. FL has received increasing attention in recent years thanks to its data privacy protection, communication efficiency and a linear speedup for convergence in training (i.e., convergence performance increases linearly with respect to the number of workers). However, existing studies on linear speedup for convergence are only limited to the assumptions of i.i.d. datasets across workers and/or full worker participation, both of which rarely hold in practice. So far, it remains an open question whether or not the linear speedup for convergence is achievable under non-i.i.d. datasets with partial worker participation in FL. In this paper, we show that the answer is affirmative. Specifically, we show that the federated averaging (FedAvg) algorithm (with two-sided learning rates) on non-i.i.d. datasets in non-convex settings achieves a convergence rate $\mathcal{O}(\frac{1}{\sqrt{mKT}} + \frac{1}{T})$ for full worker participation and a convergence rate $\mathcal{O}(\frac{1}{\sqrt{nKT}} + \frac{1}{T})$ for partial worker participation, where $K$ is the number of local steps, $T$ is the number of total communication rounds, $m$ is the total worker number and $n$ is the worker number in one communication round if for partial worker participation. Our results also reveal that the local steps in FL could help the convergence and show that the maximum number of local steps can be improved to $T/m$. We conduct extensive experiments on MNIST and CIFAR-10 to verify our theoretical results.
翻訳日:2021-03-13 19:41:36 公開日:2021-02-25
# プラットフォーム分類における学習スキル等価性

Learning Skill Equivalencies Across Platform Taxonomies ( http://arxiv.org/abs/2102.09377v2 )

ライセンス: Link先を確認
Zhi Li, Cheng Ren, Xianyou Li, and Zachary A. Pardos(参考訳) スキルの評価と報告は多くのデジタル学習プラットフォームの中心的な機能である。 学生が複数のプラットフォームを使うことが多いため、クロスプラットフォーム評価が新たな課題として浮上している。 Learning Tools Interoperability(LTI)のような技術はプラットフォーム間のコミュニケーションを可能にしていますが、使用するさまざまなスキル分類の調整は大規模には解決されていません。 本稿では,問題コンテンツとプラットフォームのクリックストリームデータを利用して,プラットフォーム間で同等のスキルを見つけ,リンクする手法を提案し,評価する。 我々は,スキルを連続実数値ベクトルとして表現する6つのモデルを提案し,スキル空間間のマッピングに機械翻訳を利用する。 この方法は、ASSISTments、Khan Academy、Cognitive Tutorの3つのデジタル学習プラットフォームでテストされています。 この結果は,細粒度分類から粗粒度へのスキル等価性予測において妥当な精度を示し,3つのプラットフォーム間の平均リコール@5を0.8で達成した。 我々の技術翻訳アプローチは、教師や標準化されたテストの世界において、分類学の退屈な手作業による分類学マッピング作業(クロスウォークとも呼ばれる)への支援に役立ちます。

Assessment and reporting of skills is a central feature of many digital learning platforms. With students often using multiple platforms, cross-platform assessment has emerged as a new challenge. While technologies such as Learning Tools Interoperability (LTI) have enabled communication between platforms, reconciling the different skill taxonomies they employ has not been solved at scale. In this paper, we introduce and evaluate a methodology for finding and linking equivalent skills between platforms by utilizing problem content as well as the platform's clickstream data. We propose six models to represent skills as continuous real-valued vectors and leverage machine translation to map between skill spaces. The methods are tested on three digital learning platforms: ASSISTments, Khan Academy, and Cognitive Tutor. Our results demonstrate reasonable accuracy in skill equivalency prediction from a fine-grained taxonomy to a coarse-grained one, achieving an average recall@5 of 0.8 between the three platforms. Our skill translation approach has implications for aiding in the tedious, manual process of taxonomy to taxonomy mapping work, also called crosswalks, within the tutoring as well as standardized testing worlds.
翻訳日:2021-03-13 14:50:26 公開日:2021-02-25
# 粗い測定値からのグラフコミュニティ検出: 粗い重み付き確率ブロックモデルの回復条件

Graph Community Detection from Coarse Measurements: Recovery Conditions for the Coarsened Weighted Stochastic Block Model ( http://arxiv.org/abs/2102.13135v1 )

ライセンス: Link先を確認
Nafiseh Ghoroghchian, Gautam Dasarathy, and Stark C. Draper(参考訳) グラフの粗い測定から地域社会の回復の問題を考察する。 完全に観測されたグラフのコミュニティリカバリ問題とは対照的に、グラフの測定を低解像度で行うと、複数のグラフノードをまたいだ各測定が統合される場合が多い。 このような低分解能な測定は、自身のコミュニティで粗いグラフを効果的に誘導する。 本研究の目的は, この粗いグラフにおいて, コミュニティ組織を回復することのできる, グラフ構造, 量, および測定特性に関する条件を開発することである。 本稿では,粗粒化過程を数学的に定式化し,その影響をコミュニティのメンバやコネクティビティに与えることにより,確率的ブロックモデルを構築する。 この新たなセットアップとモデリングを通じて、コミュニティリカバリのためのエラーを特徴付ける。 誤差境界は、粗グラフ群を完全に回復するために単純かつ閉形式の漸近条件を与える。

We study the problem of community recovery from coarse measurements of a graph. In contrast to the problem of community recovery of a fully observed graph, one often encounters situations when measurements of a graph are made at low-resolution, each measurement integrating across multiple graph nodes. Such low-resolution measurements effectively induce a coarse graph with its own communities. Our objective is to develop conditions on the graph structure, the quantity, and properties of measurements, under which we can recover the community organization in this coarse graph. In this paper, we build on the stochastic block model by mathematically formalizing the coarsening process, and characterizing its impact on the community members and connections. Through this novel setup and modeling, we characterize an error bound for community recovery. The error bound yields simple and closed-form asymptotic conditions to achieve the perfect recovery of the coarse graph communities.
翻訳日:2021-03-02 12:44:46 公開日:2021-02-25
# (参考訳) 効率的なトランスフォーマー言語モデルを用いた自動エッセイスコアリング

Automated essay scoring using efficient transformer-based language models ( http://arxiv.org/abs/2102.13136v1 )

ライセンス: CC BY 4.0
Christopher M Ormerod, Akanksha Malhotra, and Amir Jafari(参考訳) Automated Essay Scoring(AES)は、教育、言語学、自然言語処理(NLP)を含む学際的な取り組みです。 AESにおけるNLPモデルの有効性は、テキストが不十分な場合でも、長期的依存を評価し、意味を外挿する能力をテストする。 大規模なプリトレーニングトランスフォーマーベースの言語モデルは、多くのNLPタスクで現在の最先端のものを支配してきましたが、これらのモデルの計算要件は、実際にデプロイするのにコストがかかります。 この論文の目標は、AESに関しては、より大きなNLPのパラダイムに挑むことです。 そこで本研究では,AESデータセット上でのパラメータ数が少ない微調整済みNLPモデルの性能評価を行った。 モデルをセンシングすることで,事前学習したトランスフォーマーモデルよりも少ないパラメータで優れた結果が得られる。

Automated Essay Scoring (AES) is a cross-disciplinary effort involving Education, Linguistics, and Natural Language Processing (NLP). The efficacy of an NLP model in AES tests it ability to evaluate long-term dependencies and extrapolate meaning even when text is poorly written. Large pretrained transformer-based language models have dominated the current state-of-the-art in many NLP tasks, however, the computational requirements of these models make them expensive to deploy in practice. The goal of this paper is to challenge the paradigm in NLP that bigger is better when it comes to AES. To do this, we evaluate the performance of several fine-tuned pretrained NLP models with a modest number of parameters on an AES dataset. By ensembling our models, we achieve excellent results with fewer parameters than most pretrained transformer-based models.
翻訳日:2021-03-02 05:26:34 公開日:2021-02-25
# (参考訳) テンソル表記法

Named Tensor Notation ( http://arxiv.org/abs/2102.13196v1 )

ライセンス: CC BY 4.0
David Chiang, Alexander M. Rush, Boaz Barak(参考訳) 著者, 読者, 将来の実装者に対して, 軸の順序とそれぞれの目的の追跡の負担を和らげるために, 名前付き軸を持つテンソルの表記法を提案する。 また、低階テンソルの操作を高階テンソルに拡張することも容易である(例えば、画像上の操作を画像のミニバッチに拡張したり、注意メカニズムを複数の注意ヘッドに拡張したりする)。 表記法の簡単な概要を説明した後、注意や畳み込みといったビルディングブロックから、transformersやlenetといったフルモデルまで、現代的な機械学習からいくつかの例を紹介します。 最後に、形式的な定義を与え、いくつかの拡張を記述する。 我々の提案は、以前の多くの論文やソフトウェアライブラリのアイデアに基づいている。 このドキュメントは、より多くの著者に名前付きテンソルの使用を奨励し、より明確な論文とバグの少ない実装をもたらすことを願っています。 この文書のソースコードはhttps://github.com/namedtensor/notation/にある。 この提案について、問題やプルリクエストをレポジトリに提出することで、誰でもコメントを頂きたいと思います。

We propose a notation for tensors with named axes, which relieves the author, reader, and future implementers from the burden of keeping track of the order of axes and the purpose of each. It also makes it easy to extend operations on low-order tensors to higher order ones (e.g., to extend an operation on images to minibatches of images, or extend the attention mechanism to multiple attention heads). After a brief overview of our notation, we illustrate it through several examples from modern machine learning, from building blocks like attention and convolution to full models like Transformers and LeNet. Finally, we give formal definitions and describe some extensions. Our proposals build on ideas from many previous papers and software libraries. We hope that this document will encourage more authors to use named tensors, resulting in clearer papers and less bug-prone implementations. The source code for this document can be found at https://github.com/namedtensor/notation/. We invite anyone to make comments on this proposal by submitting issues or pull requests on this repository.
翻訳日:2021-03-02 05:16:11 公開日:2021-02-25
# (参考訳) 観察からの非政治模倣学習

Off-Policy Imitation Learning from Observations ( http://arxiv.org/abs/2102.13185v1 )

ライセンス: CC0 1.0
Zhuangdi Zhu, Kaixiang Lin, Bo Dai, Jiayu Zhou(参考訳) 観察からの学習(LfO)は、多くのアプリケーションが不完全なリソースの再利用を通じて恩恵を受けることができる実用的な強化学習シナリオです。 従来の模倣学習 (IL) と比較して, LfO は専門家の行動指導が不足しているため, より困難である。 従来のILとLfOの両方において、流通マッチングは彼らの基盤の中心です。 従来の分散マッチングアプローチは、ポリシー学習のオンポリシ移行に依存するサンプルコストがかかります。 サンプル効率のために、いくつかのオフポリシーソリューションが提案されているが、包括的な理論的正当化が欠けているか、専門家の行動のガイダンスに依存している。 本研究では,オフポリシ最適化を原理的に実現するサンプル効率の高いLfO手法を提案する。 さらに学習手順を高速化するため、モード被覆の観点から分布マッチングを支援する逆アクションモデルを用いてポリシー更新を規制する。 本手法は, サンプル効率と漸近性能の両面で, 最先端技術に匹敵するものであることが示唆された。

Learning from Observations (LfO) is a practical reinforcement learning scenario from which many applications can benefit through the reuse of incomplete resources. Compared to conventional imitation learning (IL), LfO is more challenging because of the lack of expert action guidance. In both conventional IL and LfO, distribution matching is at the heart of their foundation. Traditional distribution matching approaches are sample-costly which depend on on-policy transitions for policy learning. Towards sample-efficiency, some off-policy solutions have been proposed, which, however, either lack comprehensive theoretical justifications or depend on the guidance of expert actions. In this work, we propose a sample-efficient LfO approach that enables off-policy optimization in a principled manner. To further accelerate the learning procedure, we regulate the policy update with an inverse action model, which assists distribution matching from the perspective of mode-covering. Extensive empirical results on challenging locomotion tasks indicate that our approach is comparable with state-of-the-art in terms of both sample-efficiency and asymptotic performance.
翻訳日:2021-03-02 04:45:37 公開日:2021-02-25
# (参考訳) ロバスト・インタープリタブルジェネラティブモデリングのための物理統合可変オートエンコーダ

Physics-Integrated Variational Autoencoders for Robust and Interpretable Generative Modeling ( http://arxiv.org/abs/2102.13156v1 )

ライセンス: CC BY 4.0
Naoya Takeishi and Alexandros Kalousis(参考訳) 機械学習に物理モデルを統合することは、解釈能力と外挿能力を改善した堅牢なモデルを学ぶための大きな約束です。 本研究では,不完全物理モデルの深部生成モデル,特に変分オートエンコーダ(VAE)への統合に焦点を当てる。 重要な技術的課題は、不完全物理学モデルと完全モデルの学習された構成要素(ニューラルネット)のバランスを取ることで、物理部が有意義に使われていることを保証することである。 そこで本研究では,潜在空間の一部が物理によって基底化されるVAEアーキテクチャを提案する。 我々は、学習したコンポーネントの効果を制御し、物理学に基づく潜伏変数のセマンティクスを意図通りに保持する正規化器のセットと組み合わせる。 合成および実世界のデータセットに対して生成的なパフォーマンス向上を示すだけでなく、トレーニング分布を超えて有意義な方法で一貫した外挿が可能な堅牢なモデルを学ぶことも示しています。 さらに,我々は生成過程を解釈可能な方法で制御できることを示した。

Integrating physics models within machine learning holds considerable promise toward learning robust models with improved interpretability and abilities to extrapolate. In this work, we focus on the integration of incomplete physics models into deep generative models, variational autoencoders (VAEs) in particular. A key technical challenge is to strike a balance between the incomplete physics model and the learned components (i.e., neural nets) of the complete model, in order to ensure that the physics part is used in a meaningful manner. To this end, we propose a VAE architecture in which a part of the latent space is grounded by physics. We couple it with a set of regularizers that control the effect of the learned components and preserve the semantics of the physics-based latent variables as intended. We not only demonstrate generative performance improvements over a set of synthetic and real-world datasets, but we also show that we learn robust models that can consistently extrapolate beyond the training distribution in a meaningful manner. Moreover, we show that we can control the generative process in an interpretable manner.
翻訳日:2021-03-02 01:50:49 公開日:2021-02-25
# (参考訳) アルゴリズム安定性によるマシンアンラーニング

Machine Unlearning via Algorithmic Stability ( http://arxiv.org/abs/2102.13179v1 )

ライセンス: CC BY 4.0
Enayat Ullah, Tung Mai, Anup Rao, Ryan Rossi, Raman Arora(参考訳) 本研究では,機械学習の課題を調査し,アルゴリズム的安定性,総変動(tv)安定性の概念を同定する。 凸リスク最小化問題に対して,ノイズ確率勾配降下(sgd)に基づくtv安定アルゴリズムを設計する。 我々の重要な貢献は、ノイズの多いSGDプロシージャのためのマルコフ連鎖の(最大)結合を構築することに基づく、対応する効率的な非学習アルゴリズムの設計である。 精度と学習効率のトレードオフを理解するため,テレビ安定アルゴリズムの過剰な経験的・集団的リスクを,凸リスク最小化のために上層と下層に与える。 我々の手法は任意の非凸関数に一般化し、アルゴリズムも微分プライベートである。

We study the problem of machine unlearning and identify a notion of algorithmic stability, Total Variation (TV) stability, which we argue, is suitable for the goal of exact unlearning. For convex risk minimization problems, we design TV-stable algorithms based on noisy Stochastic Gradient Descent (SGD). Our key contribution is the design of corresponding efficient unlearning algorithms, which are based on constructing a (maximal) coupling of Markov chains for the noisy SGD procedure. To understand the trade-offs between accuracy and unlearning efficiency, we give upper and lower bounds on excess empirical and populations risk of TV stable algorithms for convex risk minimization. Our techniques generalize to arbitrary non-convex functions, and our algorithms are differentially private as well.
翻訳日:2021-03-02 00:48:43 公開日:2021-02-25
# (参考訳) Rip van Winkle氏のRazor: データテストのオーバーフィットの簡易評価

Rip van Winkle's Razor: A Simple Estimate of Overfit to Test Data ( http://arxiv.org/abs/2102.13189v1 )

ライセンス: CC BY 4.0
Sanjeev Arora, Yi Zhang(参考訳) 伝統的な統計では、テストデータ(a.k.a.)の使用を禁じている。 トレーニング中にデータを保持します。 Dwork et al。 2015年、研究者が互いにモデルを構築し、ハイパーパラメーターやコンピュータコードをコピーする機械学習の現在のプラクティスは、テストセット上で暗黙的にトレーニングすることに相当する、と指摘する。 したがって、テストデータのエラー率は真の人口誤差を反映しないかもしれない。 この観測は {\em adaptive data analysis} を開始し、この差の上限が保証された評価機構を提供する。 統計的クエリ(すなわち)で。 テストの精度) フィードバック 最高の上限値はかなり悲観的です: テストされたモデルの数がテストセットのサイズの2乗である場合、偏差は事実上空虚な値に到達します。 この研究では、単純な新しい推定値 {\em Rip van Winkle's Razor} を提示する。 これは、モデルの新しい概念である \textquotedblleft information content\textquotedblright\ に依存している: フィールドと関連する科学/数学に精通し、テストデータの作成時に眠りに落ちたばかりの専門家の審判に提供されなければならない情報の量(例えば、 \textquotedblleft Rip van Winkle\textquotedblright\ 有名なおとぎ話)。 この情報コンテンツの概念は、多くの現代の設定で非空席であることが示されている上記の偏差の推定を提供するために使用されます。

Traditional statistics forbids use of test data (a.k.a. holdout data) during training. Dwork et al. 2015 pointed out that current practices in machine learning, whereby researchers build upon each other's models, copying hyperparameters and even computer code -- amounts to implicitly training on the test set. Thus error rate on test data may not reflect the true population error. This observation initiated {\em adaptive data analysis}, which provides evaluation mechanisms with guaranteed upper bounds on this difference. With statistical query (i.e. test accuracy) feedbacks, the best upper bound is fairly pessimistic: the deviation can hit a practically vacuous value if the number of models tested is quadratic in the size of the test set. In this work, we present a simple new estimate, {\em Rip van Winkle's Razor}. It relies upon a new notion of \textquotedblleft information content\textquotedblright\ of a model: the amount of information that would have to be provided to an expert referee who is intimately familiar with the field and relevant science/math, and who has been just been woken up after falling asleep at the moment of the creation of the test data (like \textquotedblleft Rip van Winkle\textquotedblright\ of the famous fairy tale). This notion of information content is used to provide an estimate of the above deviation which is shown to be non-vacuous in many modern settings.
翻訳日:2021-03-02 00:47:40 公開日:2021-02-25
# (参考訳) インダクティブな相互情報推定:凸最大エントロピーコプラアプローチ

Inductive Mutual Information Estimation: A Convex Maximum-Entropy Copula Approach ( http://arxiv.org/abs/2102.13182v1 )

ライセンス: CC BY-SA 4.0
Yves-Laurent Kom Samo(参考訳) 我々は2つの順序ベクトルの相互情報をx$とy$で推定する新しい推定器を提案する。 我々のアプローチは、データ内の関係を明らかにするいくつかの非パラメトリックな特性を通してのみデータ生成分布に依存するという点で(デダクティブとは対照的に)帰納的であり、真のジョイント分布を完全な特徴付けるのに十分なデータを必要としない。 具体的には、i)$I\left(y; x\right) = I\left(u_y; u_x\right)$ ここで $u_y$ と $u_x$ は $y$ と $x$ の \emph{copula-uniform dual representations} である。 それらの画像は確率積分変換の下で)、および (ii) コプラエントロピー$h\left(u_y\right)$, $h\left(u_x\right)$と$h\left(u_y, u_x\right)$を推定し、型 $\alpha_m = E\left[\phi_m(u_y, u_x)\right]$の制約の下でコプラ密度の空間上の最大エントロピー問題を解く。 我々は、制約が実現可能である限り、この問題は一意な解を認め、指数関数族であり、凸最適化問題を解くことによって学習できることを証明する。 MIND を表わす結果の推定量は、常に非負で、任意のサンプルサイズ$n$に対して有界であり、一貫性があり、MSE レート $O(1/n)$ を持ち、競合するアプローチよりもデータ効率が高い。 相互情報推定以外にも,CER-GAN (Copula Entropy Regulationized GAN) と呼ばれる偽サンプルのコプラのエントロピーを最大化することで,GANのモード崩壊を緩和する手法が考えられることを実証した。

We propose a novel estimator of the mutual information between two ordinal vectors $x$ and $y$. Our approach is inductive (as opposed to deductive) in that it depends on the data generating distribution solely through some nonparametric properties revealing associations in the data, and does not require having enough data to fully characterize the true joint distributions $P_{x, y}$. Specifically, our approach consists of (i) noting that $I\left(y; x\right) = I\left(u_y; u_x\right)$ where $u_y$ and $u_x$ are the \emph{copula-uniform dual representations} of $y$ and $x$ (i.e. their images under the probability integral transform), and (ii) estimating the copula entropies $h\left(u_y\right)$, $h\left(u_x\right)$ and $h\left(u_y, u_x\right)$ by solving a maximum-entropy problem over the space of copula densities under a constraint of the type $\alpha_m = E\left[\phi_m(u_y, u_x)\right]$. We prove that, so long as the constraint is feasible, this problem admits a unique solution, it is in the exponential family, and it can be learned by solving a convex optimization problem. The resulting estimator, which we denote MIND, is marginal-invariant, always non-negative, unbounded for any sample size $n$, consistent, has MSE rate $O(1/n)$, and is more data-efficient than competing approaches. Beyond mutual information estimation, we illustrate that our approach may be used to mitigate mode collapse in GANs by maximizing the entropy of the copula of fake samples, a model we refer to as Copula Entropy Regularized GAN (CER-GAN).
翻訳日:2021-03-02 00:29:47 公開日:2021-02-25
# (参考訳) マルチアーマドおよびコンテクスチュアルバンドのための二重適応トンプソンサンプリング

Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits ( http://arxiv.org/abs/2102.13202v1 )

ライセンス: CC BY 4.0
Maria Dimakopoulou, Zhimei Ren, Zhengyuan Zhou(参考訳) 探索と搾取のバランスをとるために、マルチアームのバンディットアルゴリズムは、これまでに収集されたデータを使用して、各腕の真の平均報酬に関する推論を行う必要があります。 しかし、その段階で観測された腕と報酬の歴史は適応的に収集され、非iidデータによる推論を行う上での課題が知られている。 特に、従来の高信頼結合アルゴリズムや伝統的なトンプソンサンプリングアルゴリズムにおいて顕著な役割を果たすサンプル平均は、偏りなくも漸近的にも正常でもない。 本稿では,Thompsonサンプリングに基づくアルゴリズムの変種を提案し,因果推論文献の最近の進歩を利用して,各アームの真の平均報酬に対する2倍堅牢な推定値の条件を適応的に再重み付けする。 提案アルゴリズムの後悔は、Webサービスのランダム化制御試験のデータに基づく半合成実験において、最適(最小)後悔率とその経験的評価と一致し、提案した2倍適応型トンプソンサンプリングは、最適腕を特定する際の累積的後悔と統計的パワーの観点から、既存のベースラインよりも優れた経験的性能を有することを示す。 Further, we extend this approach to contextual bandits, where there are more sources of bias present apart from the adaptive data collection -- such as the mismatch between the true data generating process and the reward model assumptions or the unequal representations of certain regions of the context space in initial stages of learning -- and propose the linear contextual doubly-adaptive Thompson sampling and the non-parametric contextual doubly-adaptive Thompson sampling extensions of our approach.

To balance exploration and exploitation, multi-armed bandit algorithms need to conduct inference on the true mean reward of each arm in every time step using the data collected so far. However, the history of arms and rewards observed up to that time step is adaptively collected and there are known challenges in conducting inference with non-iid data. In particular, sample averages, which play a prominent role in traditional upper confidence bound algorithms and traditional Thompson sampling algorithms, are neither unbiased nor asymptotically normal. We propose a variant of a Thompson sampling based algorithm that leverages recent advances in the causal inference literature and adaptively re-weighs the terms of a doubly robust estimator on the true mean reward of each arm -- hence its name doubly-adaptive Thompson sampling. The regret of the proposed algorithm matches the optimal (minimax) regret rate and its empirical evaluation in a semi-synthetic experiment based on data from a randomized control trial of a web service is performed: we see that the proposed doubly-adaptive Thompson sampling has superior empirical performance to existing baselines in terms of cumulative regret and statistical power in identifying the best arm. Further, we extend this approach to contextual bandits, where there are more sources of bias present apart from the adaptive data collection -- such as the mismatch between the true data generating process and the reward model assumptions or the unequal representations of certain regions of the context space in initial stages of learning -- and propose the linear contextual doubly-adaptive Thompson sampling and the non-parametric contextual doubly-adaptive Thompson sampling extensions of our approach.
翻訳日:2021-03-02 00:00:08 公開日:2021-02-25
# (参考訳) DeepSZ:ディープラーニングを用いたSunyaev-Zel'dovich銀河クラスターの同定

DeepSZ: Identification of Sunyaev-Zel'dovich Galaxy Clusters using Deep Learning ( http://arxiv.org/abs/2102.13123v1 )

ライセンス: CC BY 4.0
Zhen Lin, Nicholas Huang, Camille Avestruz, W. L. Kimmy Wu, Shubhendu Trivedi, Jo\~ao Caldeira, Brian Nord(参考訳) Sunyaev Zel'dovich(SZ)効果から同定された銀河クラスターは、マルチ波長クラスターベースの宇宙論において重要な要素である。 本稿では,SZクラスタ探索における標準Matched Filter (MF)法とConvolutional Neural Networks (CNN)を用いた手法の2つを比較した。 我々はさらに 'combined' 識別子の結果を実装し、示す。 SPT-3Gライクな調査のために,複数の観測周波数のシミュレーションミリ波マップにこの手法を適用した。 方法にはいくつかの重要な違いがある。 MF法は点源とノイズのモデルを取り除くために画像前処理を必要とするが、CNN法は画像の前処理をほとんど必要としない。 さらに、CNNはモデル内のハイパーパラメータのチューニングを必要とし、入力、カットアウトされた空の画像を取る。 具体的には、cnnを使用して、8arcmin $\times$ 8arcminカットアウトがクラスタを含んでいるかどうかを分類します。 純度と完全性の違いを比較します。 MF信号対雑音比は質量と赤方偏移の両方に依存する。 我々のcnnは、与えられた質量しきい値のために訓練され、mfとは異なるクラスター群をキャプチャし、そのうちのいくつかはmf検出しきい値以下でsnrを持つ。 しかし、cnnは、クラスタがカットアウトの端付近にあるカットアウトを誤分類しがちであり、スタッガーカットアウトで緩和することができる。 この2つの手法の相補性を活用し,各手法のスコアを組み合わせることで識別を行う。 MFの純度と完全度はどちらも0.61であり、標準検出閾値を仮定している。 CNNの純度と完全性は0.59と0.61である。 組み合わせた分類法では0.60と0.77が得られ、純度はわずかに低下する。 多くの低信号対雑音クラスタの信頼性を高める組み合わせ手法を提案します。

Galaxy clusters identified from the Sunyaev Zel'dovich (SZ) effect are a key ingredient in multi-wavelength cluster-based cosmology. We present a comparison between two methods of cluster identification: the standard Matched Filter (MF) method in SZ cluster finding and a method using Convolutional Neural Networks (CNN). We further implement and show results for a `combined' identifier. We apply the methods to simulated millimeter maps for several observing frequencies for an SPT-3G-like survey. There are some key differences between the methods. The MF method requires image pre-processing to remove point sources and a model for the noise, while the CNN method requires very little pre-processing of images. Additionally, the CNN requires tuning of hyperparameters in the model and takes as input, cutout images of the sky. Specifically, we use the CNN to classify whether or not an 8 arcmin $\times$ 8 arcmin cutout of the sky contains a cluster. We compare differences in purity and completeness. The MF signal-to-noise ratio depends on both mass and redshift. Our CNN, trained for a given mass threshold, captures a different set of clusters than the MF, some of which have SNR below the MF detection threshold. However, the CNN tends to mis-classify cutouts whose clusters are located near the edge of the cutout, which can be mitigated with staggered cutouts. We leverage the complementarity of the two methods, combining the scores from each method for identification. The purity and completeness of the MF alone are both 0.61, assuming a standard detection threshold. The purity and completeness of the CNN alone are 0.59 and 0.61. The combined classification method yields 0.60 and 0.77, a significant increase for completeness with a modest decrease in purity. We advocate for combined methods that increase the confidence of many lower signal-to-noise clusters.
翻訳日:2021-03-01 22:31:32 公開日:2021-02-25
# (参考訳) ジェネラティブモデリングと混合トレーニングによるロバスト花粉画像分類

Robust Pollen Imagery Classification with Generative Modeling and Mixup Training ( http://arxiv.org/abs/2102.13143v1 )

ライセンス: CC BY 4.0
Jaideep Murkute(参考訳) 深層学習アプローチは画像分類タスクにおいて大きな成功を収めており、花粉の航空画像の高速かつ信頼性の高い分類に大きく貢献することができる。 しかし、自然画像の設定におけるディープラーニング手法はしばしば一般化問題に悩まされ、目に見えないテスト分布では性能が低下する。 本研究では,花粉のエアロビオロジカルな画像分類によく応用できる,堅牢なディープラーニングフレームワークを提案する。 我々は,畳み込みニューラルネットワークを用いた花粉の粒度分類手法を開発し,ディープラーニングのベストプラクティスを組み合わせることで,より一般化する。 データ拡張やウェイト正規化といった一般的なアプローチに加えて、マニホールドミックスアップのような暗黙的な正規化手法を使用して、よりスムーズな意思決定境界の学習を可能にします。 また、EfficientNet畳み込みニューラルネットワークのような実績のある最先端のアーキテクチャの選択も活用しています。 可変オートエンコーダによる生成モデリングの成功に触発され、モデルが画像の関連部分に集中できるように、より豊かな学習目標を持つモデルをトレーニングします。 最後に、テストセット予測の堅牢性のために、ニューラルネットワークのアンサンブルを作成します。 実験の結果,上記の手法と重み付けしたf1-scoreで測定した一般化性能が向上した。 提案手法は、ICPR-2020 Pollen Grain Classification Challengeの最終ランキングで4位を獲得し、0.972578ウェイトF1スコア、0.950828マクロ平均F1スコア、0.972877認識精度を獲得しました。

Deep learning approaches have shown great success in image classification tasks and can aid greatly towards the fast and reliable classification of pollen grain aerial imagery. However, often-times deep learning methods in the setting of natural images can suffer generalization problems and yield poor performance on unseen test distribution. In this work, we present and a robust deep learning framework that can generalize well for pollen grain aerobiological imagery classification. We develop a convolutional neural network-based pollen grain classification approach and combine some of the best practices in deep learning for better generalization. In addition to commonplace approaches like data-augmentation and weight regularization, we utilize implicit regularization methods like manifold mixup to allow learning of smoother decision boundaries. We also make use of proven state-of-the-art architectural choices like EfficientNet convolutional neural networks. Inspired by the success of generative modeling with variational autoencoders, we train models with a richer learning objective which can allow the model to focus on the relevant parts of the image. Finally, we create an ensemble of neural networks, for the robustness of the test set predictions. Based on our experiments, we show improved generalization performance as measured with a weighted F1-score with the aforementioned approaches. The proposed approach earned a fourth-place in the final rankings in the ICPR-2020 Pollen Grain Classification Challenge; with a 0.972578 weighted F1 score,0.950828 macro average F1 scores, and 0.972877 recognition accuracy.
翻訳日:2021-03-01 22:04:00 公開日:2021-02-25
# (参考訳) メタラーニングによるマルチドメイン学習:インナーループ学習によるマルチドメインロスランドスケープの最適ステップ

Multi-Domain Learning by Meta-Learning: Taking Optimal Steps in Multi-Domain Loss Landscapes by Inner-Loop Learning ( http://arxiv.org/abs/2102.13147v1 )

ライセンス: CC BY 4.0
Anthony Sicilia, Xingchen Zhao, Davneet Minhas, Erin O'Connor, Howard Aizenstein, William Klunk, Dana Tudorascu, Seong Jae Hwang(参考訳) マルチモーダルアプリケーションに対するMDL(Multi-Domain Learning)問題に対するモデルに依存しない解決策を検討する。 多くの既存のMDL技術は、ドメイン固有のモジュールを構築するために非自明なアーキテクチャ変更を明示的に必要とするモデル依存のソリューションである。 したがって、これらのMDL技術を十分に確立されたモデルで新しい問題に適切に適用する。 セマンティックセグメンテーションのためのu-netは、様々な低レベルの実装を要求できる。 本稿では, 新たなマルチモーダルデータ(例えば, 様々な構造的ニューロイメージング・モダリティ)を考えると, MDLを純粋にアルゴリズム的に実現し, 広く利用されているニューラルネットワークがモデルに依存しない方法で自明にMDLを実現することを目的としている。 そこで本研究では,近年の学習・学習分野(メタラーニング)のテクニックを用いて,重み付き損失関数を効果的に拡張する手法を提案する。 具体的には、損失関数のハイパーパラメータ上の後方分布を動的に推定するためにインナーループ勾配ステップを取る。 したがって,本手法はモデルに依存しないため,追加のモデルパラメータやネットワークアーキテクチャの変更は不要である。 特に、ホワイトマター高輝度(WMH)の自動セグメンテーションでは、医療画像のフィッティング問題に対するソリューションを実証しています。 我々は2つの神経イメージングモード(T1-MRとFLAIR)を検討し、私たちの問題に相補的な情報を提供します。

We consider a model-agnostic solution to the problem of Multi-Domain Learning (MDL) for multi-modal applications. Many existing MDL techniques are model-dependent solutions which explicitly require nontrivial architectural changes to construct domain-specific modules. Thus, properly applying these MDL techniques for new problems with well-established models, e.g. U-Net for semantic segmentation, may demand various low-level implementation efforts. In this paper, given emerging multi-modal data (e.g., various structural neuroimaging modalities), we aim to enable MDL purely algorithmically so that widely used neural networks can trivially achieve MDL in a model-independent manner. To this end, we consider a weighted loss function and extend it to an effective procedure by employing techniques from the recently active area of learning-to-learn (meta-learning). Specifically, we take inner-loop gradient steps to dynamically estimate posterior distributions over the hyperparameters of our loss function. Thus, our method is model-agnostic, requiring no additional model parameters and no network architecture changes; instead, only a few efficient algorithmic modifications are needed to improve performance in MDL. We demonstrate our solution to a fitting problem in medical imaging, specifically, in the automatic segmentation of white matter hyperintensity (WMH). We look at two neuroimaging modalities (T1-MR and FLAIR) with complementary information fitting for our problem.
翻訳日:2021-03-01 21:57:58 公開日:2021-02-25
# (参考訳) インストラクションにおけるインシシットと明示的制御フローの強化学習

Reinforcement Learning of Implicit and Explicit Control Flow in Instructions ( http://arxiv.org/abs/2102.13195v1 )

ライセンス: CC BY 4.0
Ethan A. Brooks, Janarthanan Rajendran, Richard L. Lewis, Satinder Singh(参考訳) 動的環境で柔軟にタスク指示に従う学習は、強化学習エージェントにとって興味深い課題です。 ここでは、命令の厳格なステップバイステップ実行から逸脱する制御フローの学習、すなわち、命令の一部をスキップしたり、以前完了またはスキップされたステップに戻る制御フローに焦点を当てます。 このような柔軟な制御の要求は次の2つの基本的な方法によって生じる: 制御が(条件分岐やループのような)命令自身で指定されたときと、確率的環境力学が摂動した命令の再補完を必要とするときと、既に存在する命令の日和見的スキップである。 我々は、タスク報酬のみから、命令の内部エンコーディングにおけるフレキシブルな参加と条件行動を学ぶことによって、これらの課題を満たす注意に基づくアーキテクチャを定式化する。 MinecraftとStarCraftにインスパイアされた2つの図示的ドメインにおいて、アーキテクチャの明示的および暗黙的な制御の両方を学ぶ能力をテストし、このアーキテクチャは2つのベースラインのリカレントアーキテクチャと1つのアブレーションアーキテクチャに比類のないパフォーマンスレベルで、トレーニングセットのそれより大きい長さの新規な命令に対してゼロショットの一般化を示すことを示した。

Learning to flexibly follow task instructions in dynamic environments poses interesting challenges for reinforcement learning agents. We focus here on the problem of learning control flow that deviates from a strict step-by-step execution of instructions -- that is, control flow that may skip forward over parts of the instructions or return backward to previously completed or skipped steps. Demand for such flexible control arises in two fundamental ways: explicitly when control is specified in the instructions themselves (such as conditional branching and looping) and implicitly when stochastic environment dynamics require re-completion of instructions whose effects have been perturbed, or opportunistic skipping of instructions whose effects are already present. We formulate an attention-based architecture that meets these challenges by learning, from task reward only, to flexibly attend to and condition behavior on an internal encoding of the instructions. We test the architecture's ability to learn both explicit and implicit control in two illustrative domains -- one inspired by Minecraft and the other by StarCraft -- and show that the architecture exhibits zero-shot generalization to novel instructions of length greater than those in a training set, at a performance level unmatched by two baseline recurrent architectures and one ablation architecture.
翻訳日:2021-03-01 19:38:14 公開日:2021-02-25
# (参考訳) 局所確率的グラデーション・ディサント・アセンション:収束分析とコミュニケーション効率

Local Stochastic Gradient Descent Ascent: Convergence Analysis and Communication Efficiency ( http://arxiv.org/abs/2102.13152v1 )

ライセンス: CC BY 4.0
Yuyang Deng, Mehrdad Mahdavi(参考訳) Local SGDは、ワーカーノード間の同期頻度を減らすことによって、分散学習における通信オーバーヘッドを克服する有望なアプローチである。 経験的リスク最小化における局所SGDの最近の理論的進歩にもかかわらず、ミニマックス最適化における同等の効率は未解明のままである。 対人的頑健な学習や生成的対人ネットワーク(GAN)の訓練など,大規模で最小限の学習課題に触発された本研究では,一次変数と二重変数を局所的に訓練し,通信回数を大幅に削減するために,局所確率勾配降下度(ローカルSGDA)を提案する。 局所的SGDAは,通信数を少なくした均質データと異種データの両方において分散ミニマックス問題を確実に最適化し,強凸強凹および非凸強凹設定下で収束率を確立することができる。 また,非凸非凹凸問題の解法として,局所SGDA+を新規に提案する。 異なる分散ミニマックス問題に関する実証的証拠を実証する。

Local SGD is a promising approach to overcome the communication overhead in distributed learning by reducing the synchronization frequency among worker nodes. Despite the recent theoretical advances of local SGD in empirical risk minimization, the efficiency of its counterpart in minimax optimization remains unexplored. Motivated by large scale minimax learning problems, such as adversarial robust learning and training generative adversarial networks (GANs), we propose local Stochastic Gradient Descent Ascent (local SGDA), where the primal and dual variables can be trained locally and averaged periodically to significantly reduce the number of communications. We show that local SGDA can provably optimize distributed minimax problems in both homogeneous and heterogeneous data with reduced number of communications and establish convergence rates under strongly-convex-strongly-concave and nonconvex-strongly-concave settings. In addition, we propose a novel variant local SGDA+, to solve nonconvex-nonconcave problems. We give corroborating empirical evidence on different distributed minimax problems.
翻訳日:2021-03-01 17:23:24 公開日:2021-02-25
# ドメイン一般化における補間と外挿のオンライン学習手法

An Online Learning Approach to Interpolation and Extrapolation in Domain Generalization ( http://arxiv.org/abs/2102.13128v1 )

ライセンス: Link先を確認
Elan Rosenfeld, Pradeep Ravikumar, Andrej Risteski(参考訳) 分布外一般化の一般的な仮定は、トレーニングデータがそれぞれ異なる分布から引き出されたサブデータセットで構成されていることである。目的は、これらの分布を「補間」し、それらを超えて「外挿」することである。 ermは補間できるが外挿はできない、後者の方がかなり難しいという共通の信念があるが、これらの主張は曖昧で形式的な正当性が欠如している。 本研究では,リスクを最小化するプレイヤーと新たなテスト分布を提示する敵とのオンラインゲームとして,サブグループに対する一般化を再演する。 部分群可能性の再重み付けに基づく補間と外挿という既存の概念の下では、その統計的複雑性はそれほど大きくないが、外挿は補間よりもはるかに計算が難しいことを厳密に証明している。 さらに、erm -- あるいはノイズの多い変種 -- が両方のタスクに最適であることを示す。 本フレームワークは,独立した関心を持つ可能性のある領域一般化アルゴリズムの形式解析のための新しい手法を提案する。

A popular assumption for out-of-distribution generalization is that the training data comprises sub-datasets, each drawn from a distinct distribution; the goal is then to "interpolate" these distributions and "extrapolate" beyond them -- this objective is broadly known as domain generalization. A common belief is that ERM can interpolate but not extrapolate and that the latter is considerably more difficult, but these claims are vague and lack formal justification. In this work, we recast generalization over sub-groups as an online game between a player minimizing risk and an adversary presenting new test distributions. Under an existing notion of inter- and extrapolation based on reweighting of sub-group likelihoods, we rigorously demonstrate that extrapolation is computationally much harder than interpolation, though their statistical complexity is not significantly different. Furthermore, we show that ERM -- or a noisy variant -- is provably minimax-optimal for both tasks. Our framework presents a new avenue for the formal analysis of domain generalization algorithms which may be of independent interest.
翻訳日:2021-03-01 14:08:27 公開日:2021-02-25
# 脳磁気共鳴画像の構造類似性学習に基づくグラフ正規化畳み込みニューラルネットワークによるアルツハイマー病の検出

Detection of Alzheimer's Disease Using Graph-Regularized Convolutional Neural Network Based on Structural Similarity Learning of Brain Magnetic Resonance Images ( http://arxiv.org/abs/2102.13517v1 )

ライセンス: Link先を確認
Kuo Yang, Emad A. Mohammed, Behrouz H. Far(参考訳) 目的: 磁気共鳴画像(MRI)間の構造的類似度を学習し, この類似度をグラフとして表現したアルツハイマー病(AD)検出法を提案する。 方法: 入力画像の埋め込み特徴(Non-Demented (ND), Very Mild Demented (VMD), Mild Demented (MD), Moderated Demented (MDTD))を用いて類似度グラフを構築する。 共振器距離を類似度尺度として用い,同一のクラス画像間の類似度を捉えるために,異なる次元縮小とクラスタリングのアルゴリズムを実験・比較した。 類似度グラフを用いて、畳み込みニューラルネットワーク(CNN)にトレーニングデータを提示(サンプル)します。 類似度グラフをcnnモデルの損失関数の正規化子として使用し、入力画像とk-ネアレストとの距離を類似度グラフで最小化し、訓練画像予測と実際の画像クラスラベルとのカテゴリ間クロスエントロピー損失を最小化する。 結果: 事前学習したcnnモデルを用いて広範囲な実験を行い,最近の手法と比較した。 結論: 本手法は, テストデータセットにおいて優れた性能を達成している(精度 = 0.986, 受信機動作特性曲線下領域 = 0.998, f1測度 = 0.987)。 意義: 分類結果は, 他の手法と比較して, 予測精度が向上したことを示す。 この領域で再現可能な研究を促進するために,実験で使用したすべてのコードをリリースする。

Objective: This paper presents an Alzheimer's disease (AD) detection method based on learning structural similarity between Magnetic Resonance Images (MRIs) and representing this similarity as a graph. Methods: We construct the similarity graph using embedded features of the input image (i.e., Non-Demented (ND), Very Mild Demented (VMD), Mild Demented (MD), and Moderated Demented (MDTD)). We experiment and compare different dimension-reduction and clustering algorithms to construct the best similarity graph to capture the similarity between the same class images using the cosine distance as a similarity measure. We utilize the similarity graph to present (sample) the training data to a convolutional neural network (CNN). We use the similarity graph as a regularizer in the loss function of a CNN model to minimize the distance between the input images and their k-nearest neighbours in the similarity graph while minimizing the categorical cross-entropy loss between the training image predictions and the actual image class labels. Results: We conduct extensive experiments with several pre-trained CNN models and compare the results to other recent methods. Conclusion: Our method achieves superior performance on the testing dataset (accuracy = 0.986, area under receiver operating characteristics curve = 0.998, F1 measure = 0.987). Significance: The classification results show an improvement in the prediction accuracy compared to the other methods. We release all the code used in our experiments to encourage reproducible research in this area
翻訳日:2021-03-01 14:07:08 公開日:2021-02-25
# 機械バイオメトリックス - スマートシティ環境におけるマシンの識別に向けて

Machine Biometrics -- Towards Identifying Machines in a Smart City Environment ( http://arxiv.org/abs/2102.13190v1 )

ライセンス: Link先を確認
G.K. Sidiropoulos, G.A. Papakostas(参考訳) 本稿では,スマート都市環境における機械の識別について述べる。 マシンバイオメトリックスの概念は、日常生活で人間と対話する機械のアイデンティティを認証する方法として、この研究で初めて提案されている。 この定義は、自動運転車やソーシャルロボットなどの現代において課せられる。 現代社会の一員として 活躍しています この文脈では,エンジンの挙動バイオメトリックスから自動車を識別する場合について検討する。 この目的のために22の音響特性を抽出し、その識別能力を9種類の機械学習分類器と組み合わせて5つの自動車メーカーを特定するためにテストした。 実験結果から,MLP(Multilayer Perceptron)ニューラルネットワークモデルの場合,提案されたバイオメトリックが最大98%の精度で車両を識別できることが明らかになった。

This paper deals with the identification of machines in a smart city environment. The concept of machine biometrics is proposed in this work for the first time, as a way to authenticate machine identities interacting with humans in everyday life. This definition is imposed in modern years where autonomous vehicles, social robots, etc. are considered active members of contemporary societies. In this context, the case of car identification from the engine behavioral biometrics is examined. For this purpose, 22 sound features were extracted and their discrimination capabilities were tested in combination with 9 different machine learning classifiers, towards identifying 5 car manufacturers. The experimental results revealed the ability of the proposed biometrics to identify cars with high accuracy up to 98% for the case of the Multilayer Perceptron (MLP) neural network model.
翻訳日:2021-03-01 14:06:39 公開日:2021-02-25
# PharmKE:トランスファーラーニングを用いた医薬品テキストの知識抽出プラットフォーム

PharmKE: Knowledge Extraction Platform for Pharmaceutical Texts using Transfer Learning ( http://arxiv.org/abs/2102.13139v1 )

ライセンス: Link先を確認
Nasi Jofche, Kostadin Mishev, Riste Stojanov, Milos Jovanovik, Dimitar Trajanov(参考訳) 与えられたテキストで名前付きエンティティを認識するという課題は、近年非常にダイナミックな分野である。 これは、ニューラルネットワークアーキテクチャの進歩、計算能力の向上、トレーニング済みで高精度なモデルを提供するさまざまなラベル付きデータセットの可用性によるものだ。 これらのタスクは一般的に共通のエンティティのタグ付けに焦点を当てていますが、ドメイン固有のユースケースでは、事前トレーニングされたモデルの一部ではないカスタムエンティティのタグ付けが必要です。 これは、事前トレーニングしたモデルを微調整するか、カスタムモデルをトレーニングすることで解決できる。 主な課題は、信頼できるラベル付きトレーニングとテストデータセットを得ることであり、手動ラベリングは非常に面倒な作業です。 本論文では,医薬品領域に焦点をあてたテキスト解析プラットフォームであるPharmKEについて紹介する。 最先端トランスファー学習モデルを用いてテキスト分類を行い、提案手法により得られた結果を徹底的に統合する。 この方法論は、正確なラベル付きトレーニングとテストデータセットの作成に使用され、薬学領域を中心に、カスタムエンティティラベリングタスクのモデルをトレーニングするために使用される。 得られた結果は、同じデータセットで訓練された微調整BERTおよびBioBERTモデルと比較されます。 さらに、PharmKEプラットフォームは、名前付きエンティティ認識タスクから得られた結果を統合して、エンティティの共参照を解決し、各文のセマンティック関係を分析し、質問応答や事実抽出といった追加のテキスト分析タスクのベースラインを設定する。 認識されたエンティティは、所定の薬学的テキストに対してdbpediaspotlightによって生成された知識グラフを拡張するためにも使用される。

The challenge of recognizing named entities in a given text has been a very dynamic field in recent years. This is due to the advances in neural network architectures, increase of computing power and the availability of diverse labeled datasets, which deliver pre-trained, highly accurate models. These tasks are generally focused on tagging common entities, but domain-specific use-cases require tagging custom entities which are not part of the pre-trained models. This can be solved by either fine-tuning the pre-trained models, or by training custom models. The main challenge lies in obtaining reliable labeled training and test datasets, and manual labeling would be a highly tedious task. In this paper we present PharmKE, a text analysis platform focused on the pharmaceutical domain, which applies deep learning through several stages for thorough semantic analysis of pharmaceutical articles. It performs text classification using state-of-the-art transfer learning models, and thoroughly integrates the results obtained through a proposed methodology. The methodology is used to create accurately labeled training and test datasets, which are then used to train models for custom entity labeling tasks, centered on the pharmaceutical domain. The obtained results are compared to the fine-tuned BERT and BioBERT models trained on the same dataset. Additionally, the PharmKE platform integrates the results obtained from named entity recognition tasks to resolve co-references of entities and analyze the semantic relations in every sentence, thus setting up a baseline for additional text analysis tasks, such as question answering and fact extraction. The recognized entities are also used to expand the knowledge graph generated by DBpedia Spotlight for a given pharmaceutical text.
翻訳日:2021-03-01 14:04:20 公開日:2021-02-25
# 教師-学生設定におけるロバストさの理解:新しい視点

Understanding Robustness in Teacher-Student Setting: A New Perspective ( http://arxiv.org/abs/2102.13170v1 )

ライセンス: Link先を確認
Zhuolin Yang, Zhaoxi Chen, Tiffany Cai, Xinyun Chen, Bo Li, Yuandong Tian(参考訳) 逆の例は機械学習モデルのユビキタスな性質として現れており、有界な逆の摂動はモデルを誤った誤った予測に導く可能性がある。 このような例は、機械学習モデルの堅牢性を評価する方法と、モデルトレーニングプロセスを理解するためのプロキシを提供します。 広範な研究は、逆例の存在を説明し、モデルの堅牢性を改善する方法を提供することを試みる(例)。 対人訓練)。 彼らは主に、事前に定義されたラベルを持つデータセットで訓練されたモデルに焦点を当てていますが、教師-学生フレームワークを活用し、特定のインスタンスにラベルを提供するために教師モデル、またはオラクルを仮定します。 我々は、低ランク入力データの場合、Tian(2019)を拡張し、入力サブスペース内で学生の専門化(訓練された学生ニューロンと同一層における特定の教師ニューロンとの相関性が高い)が引き続き起こることを示すが、教師と学生ノードはデータサブスペースから大きく異なっており、それが逆の例につながると推測する。 広範な実験により、学生の専門性は、標準トレーニング、敵対的トレーニング、信頼度調整された敵対的トレーニング、堅牢な機能データセットによるトレーニングなど、さまざまなシナリオにおけるモデル堅牢性と強く相関することを示しています。 我々の研究は、敵対的な事例に関する将来の探索を暗示し、原則化されたデータ拡張を通じてモデルロバスト性を高めることができる。

Adversarial examples have appeared as a ubiquitous property of machine learning models where bounded adversarial perturbation could mislead the models to make arbitrarily incorrect predictions. Such examples provide a way to assess the robustness of machine learning models as well as a proxy for understanding the model training process. Extensive studies try to explain the existence of adversarial examples and provide ways to improve model robustness (e.g. adversarial training). While they mostly focus on models trained on datasets with predefined labels, we leverage the teacher-student framework and assume a teacher model, or oracle, to provide the labels for given instances. We extend Tian (2019) in the case of low-rank input data and show that student specialization (trained student neuron is highly correlated with certain teacher neuron at the same layer) still happens within the input subspace, but the teacher and student nodes could differ wildly out of the data subspace, which we conjecture leads to adversarial examples. Extensive experiments show that student specialization correlates strongly with model robustness in different scenarios, including student trained via standard training, adversarial training, confidence-calibrated adversarial training, and training with robust feature dataset. Our studies could shed light on the future exploration about adversarial examples, and enhancing model robustness via principled data augmentation.
翻訳日:2021-03-01 14:03:39 公開日:2021-02-25
# 一貫性スパース深層学習:理論と計算

Consistent Sparse Deep Learning: Theory and Computation ( http://arxiv.org/abs/2102.13229v1 )

ライセンス: Link先を確認
Yan Sun, Qifan Song, Faming Liang(参考訳) ディープラーニングは、データサイエンスの多くの成功を支えるエンジンだ。 しかし、深層ニューラルネットワーク(DNN)は、深層学習の基本モデルとして、しばしば過剰にパラメータ化され、トレーニング、予測、解釈に多くの困難を引き起こします。 提案手法は,最大$O(n/\log(n))$接続を持つスパースDNNを学習し,後続の一貫性,変数選択の整合性,漸近的に最適な一般化境界などの理論的保証を与える。 特に,スパースDNNとガウス先行混合の後方整合性を確立し,ラプラス近似に基づく辺縁内包確率アプローチを用いてスパースDNNの構造を連続的に決定できることを示し,ベイズ証拠を用いて,確率勾配勾配のような最適化手法で学習したスパースDNNを,複数の初期化を伴う複数のランで抽出する。 提案手法は,大規模スパースDNNの標準ベイズ法よりも計算効率がよい。 提案手法は, 大規模ネットワーク圧縮と高次元非線形変数選択に非常に有効であり, 相互解釈可能な機械学習が進んでいることを示す。

Deep learning has been the engine powering many successes of data science. However, the deep neural network (DNN), as the basic model of deep learning, is often excessively over-parameterized, causing many difficulties in training, prediction and interpretation. We propose a frequentist-like method for learning sparse DNNs and justify its consistency under the Bayesian framework: the proposed method could learn a sparse DNN with at most $O(n/\log(n))$ connections and nice theoretical guarantees such as posterior consistency, variable selection consistency and asymptotically optimal generalization bounds. In particular, we establish posterior consistency for the sparse DNN with a mixture Gaussian prior, show that the structure of the sparse DNN can be consistently determined using a Laplace approximation-based marginal posterior inclusion probability approach, and use Bayesian evidence to elicit sparse DNNs learned by an optimization method such as stochastic gradient descent in multiple runs with different initializations. The proposed method is computationally more efficient than standard Bayesian methods for large-scale sparse DNNs. The numerical results indicate that the proposed method can perform very well for large-scale network compression and high-dimensional nonlinear variable selection, both advancing interpretable machine learning.
翻訳日:2021-03-01 14:02:52 公開日:2021-02-25
# 非線形射影に基づくクエリ効率の良いブラックボックス攻撃の勾配推定

Nonlinear Projection Based Gradient Estimation for Query Efficient Blackbox Attacks ( http://arxiv.org/abs/2102.13184v1 )

ライセンス: Link先を確認
Huichen Li and Linyi Li and Xiaojun Xu and Xiaolu Zhang and Shuang Yang and Bo Li(参考訳) 勾配推定とベクトル空間投影は2つの異なるトピックとして研究されている。 投影された低次元空間に基づいて効率よく勾配を推定する方法を検討することにより,両者のギャップを埋めることを目指している。 まず,線形と非線形の両方の投影下での勾配推定のための下界と上界を示し,一方が他方より優れている条件をアウトラインチェック可能とする。 さらに,プロジェクションに基づく勾配推定におけるクエリの複雑さを分析し,クエリ効率評価に十分な条件を示す。 理論解析に基づいて,非線形勾配投影に基づく境界ブラックボックス攻撃(NonLinear-BA)を提案する。 本研究では,imagenet,celeba,cifar-10,mnistの4つの画像データセットについて広範な実験を行い,提案手法が最先端のベースラインと比較して優れていることを示す。 特に,プロジェクションに基づく境界ブラックボックス攻撃は,効率的なクエリに基づいて100%攻撃成功率で,はるかに小さな摂動を実現できることを示す。 線型射影も非線形射影も異なる条件下でその利点を示す。 また、商用オンラインAPIMEGVII Face++に対してNonLinear-BAを評価し、ブラックボックス攻撃性能を定量的かつ定性的に示す。 コードはhttps://github.com/AI-secure/NonLinear-BAで公開されている。

Gradient estimation and vector space projection have been studied as two distinct topics. We aim to bridge the gap between the two by investigating how to efficiently estimate gradient based on a projected low-dimensional space. We first provide lower and upper bounds for gradient estimation under both linear and nonlinear projections, and outline checkable sufficient conditions under which one is better than the other. Moreover, we analyze the query complexity for the projection-based gradient estimation and present a sufficient condition for query-efficient estimators. Built upon our theoretic analysis, we propose a novel query-efficient Nonlinear Gradient Projection-based Boundary Blackbox Attack (NonLinear-BA). We conduct extensive experiments on four image datasets: ImageNet, CelebA, CIFAR-10, and MNIST, and show the superiority of the proposed methods compared with the state-of-the-art baselines. In particular, we show that the projection-based boundary blackbox attacks are able to achieve much smaller magnitude of perturbations with 100% attack success rate based on efficient queries. Both linear and nonlinear projections demonstrate their advantages under different conditions. We also evaluate NonLinear-BA against the commercial online API MEGVII Face++, and demonstrate the high blackbox attack performance both quantitatively and qualitatively. The code is publicly available at https://github.com/AI-secure/NonLinear-BA.
翻訳日:2021-03-01 14:00:23 公開日:2021-02-25
# ランダム特徴とカーネルモデルにおける不変性による学習

Learning with invariances in random features and kernel models ( http://arxiv.org/abs/2102.13219v1 )

ライセンス: Link先を確認
Song Mei, Theodor Misiakiewicz, Andrea Montanari(参考訳) 多くの機械学習タスクには、高い不変性が伴います。データ分散は、特定の変換グループでデータを操作しても変化しません。 例えば、画像のラベルは画像の翻訳の下で不変である。 あるニューラルネットワークアーキテクチャ(例えば畳み込みネットワーク)は、その成功は、そのような不変性を利用するという事実にあると信じられている。 不変なアーキテクチャによって達成される利益を定量化するために、不変のランダムな特徴と不変のカーネルメソッドの2つのモデルのクラスを紹介します。 後者は特別な場合として、グローバル平均プーリングを伴う畳み込みネットワークのための神経タンジェントカーネルを含む。 球面とハイパーキューブ上の一様共変量分布と一般不変ターゲット関数を考える。 我々は、'degeneracy $\alpha$' と呼ばれる群のクラスに対して、隠れた単位のサンプルサイズと値が次元の多項式としてスケールする高次元状態における不変メソッドのテスト誤差を、$\alpha \leq 1$ で特徴づける。 アーキテクチャにおける不変性の利用は、非構造化アーキテクチャと同じテストエラーを達成するために、サンプルサイズと隠れたユニットの数において$d^\alpha$ファクタ(d$は次元を表す)を節約する。 最後に,非構造化カーネル推定器の出力対称性は統計的に有意な改善をもたらさないことを示す。一方,非構造化カーネル推定器を用いたデータ拡張は不変カーネル推定器と同値であり,統計効率も同等である。

A number of machine learning tasks entail a high degree of invariance: the data distribution does not change if we act on the data with a certain group of transformations. For instance, labels of images are invariant under translations of the images. Certain neural network architectures -- for instance, convolutional networks -- are believed to owe their success to the fact that they exploit such invariance properties. With the objective of quantifying the gain achieved by invariant architectures, we introduce two classes of models: invariant random features and invariant kernel methods. The latter includes, as a special case, the neural tangent kernel for convolutional networks with global average pooling. We consider uniform covariates distributions on the sphere and hypercube and a general invariant target function. We characterize the test error of invariant methods in a high-dimensional regime in which the sample size and number of hidden units scale as polynomials in the dimension, for a class of groups that we call `degeneracy $\alpha$', with $\alpha \leq 1$. We show that exploiting invariance in the architecture saves a $d^\alpha$ factor ($d$ stands for the dimension) in sample size and number of hidden units to achieve the same test error as for unstructured architectures. Finally, we show that output symmetrization of an unstructured kernel estimator does not give a significant statistical improvement; on the other hand, data augmentation with an unstructured kernel estimator is equivalent to an invariant kernel estimator and enjoys the same improvement in statistical efficiency.
翻訳日:2021-03-01 13:59:03 公開日:2021-02-25
# ANEA:低リソース名前のエンティティ認識のための離散監督

ANEA: Distant Supervision for Low-Resource Named Entity Recognition ( http://arxiv.org/abs/2102.13129v1 )

ライセンス: Link先を確認
Michael A. Hedderich, Lukas Lange, Dietrich Klakow(参考訳) 遠隔監視により、限られた手書きデータのみが存在する低リソース設定のためのラベル付きトレーニングコーポラを取得できます。 しかし、効果的に利用するためには、遠方の監督が容易に手に入る必要がある。 本稿では、エンティティリストに基づいて、名前付きエンティティを自動的にテキストにアノテートするツールであるANEAを紹介する。 パイプライン全体にわたって、リストを取得し、遠隔監視のエラーを分析する。 チューニングステップによって、ユーザはすべてのトークンを手作業でラベル付けしたりチェックすることなく、言語的な洞察で自動アノテーションを改善することができる。 6つの低リソースシナリオにおいて、平均18ポイントでF1スコアを増大させることができることを示す。

Distant supervision allows obtaining labeled training corpora for low-resource settings where only limited hand-annotated data exists. However, to be used effectively, the distant supervision must be easy to obtain. In this work, we present ANEA, a tool to automatically annotate named entities in text based on entity lists. It spans the whole pipeline from obtaining the lists to analyzing the errors of the distant supervision. A tuning step allows the user to improve the automatic annotation with their linguistic insights without having to manually label or check all tokens. In six low-resource scenarios, we show that the F1-score can be increased by on average 18 points through distantly supervised data obtained by ANEA.
翻訳日:2021-03-01 13:55:15 公開日:2021-02-25
# 連結ハイブリッドmknf知識ベースのための既定集合

Unfounded Sets for Disjunctive Hybrid MKNF Knowledge Bases ( http://arxiv.org/abs/2102.13162v1 )

ライセンス: Link先を確認
Spencer Killen, Jia-Haui You(参考訳) 応答集合プログラミング(ASP)のクローズドワールド推論とオントロジーのオープンワールド推論を組み合わせることで、推論者の応用の空間を広げる。 分岐型ハイブリッドMKNF知識ベースはASPを簡潔に拡張し、場合によっては推論タスクの複雑さを増すことなく拡張する。 しかし多くの場合、解法の開発は遅れている。 その結果,motik と rosati が原著で定式化した推測と検証に基づく,結合型ハイブリッド mknf の知識ベースを解く唯一の方法が知られている。 主な障害は、解法でどのように制約伝達を行うかを理解することである。これは、aspの文脈では、部分的な解釈によって誤った原子である \textit{unground atoms} の計算を中心にしている。 本研究では,これらの知識ベースに対する既定集合の概念を形式化し,より低い複雑性境界を特定し,これらの発展を解法にどのように統合するかを実証する。 本稿では,非基底集合の従来の定義から逸脱することを保証する解法の開発に存在しないオントロジーによってもたらされる課題について論じる。 我々は、未確立集合の事前定義と比較する。

Combining the closed-world reasoning of answer set programming (ASP) with the open-world reasoning of ontologies broadens the space of applications of reasoners. Disjunctive hybrid MKNF knowledge bases succinctly extend ASP and in some cases without increasing the complexity of reasoning tasks. However, in many cases, solver development is lagging behind. As the result, the only known method of solving disjunctive hybrid MKNF knowledge bases is based on guess-and-verify, as formulated by Motik and Rosati in their original work. A main obstacle is understanding how constraint propagation may be performed by a solver, which, in the context of ASP, centers around the computation of \textit{unfounded atoms}, the atoms that are false given a partial interpretation. In this work, we build towards improving solvers for hybrid MKNF knowledge bases with disjunctive rules: We formalize a notion of unfounded sets for these knowledge bases, identify lower complexity bounds, and demonstrate how we might integrate these developments into a solver. We discuss challenges introduced by ontologies that are not present in the development of solvers for disjunctive logic programs, which warrant some deviations from traditional definitions of unfounded sets. We compare our work with prior definitions of unfounded sets.
翻訳日:2021-03-01 13:54:07 公開日:2021-02-25
# 自己ペース学習の確率的解釈と強化学習への応用

A Probabilistic Interpretation of Self-Paced Learning with Applications to Reinforcement Learning ( http://arxiv.org/abs/2102.13176v1 )

ライセンス: Link先を確認
Pascal Klink, Hany Abdulsamad, Boris Belousov, Carlo D'Eramo, Jan Peters, Joni Pajarinen(参考訳) 機械学習全体では、トレーニング対象の局所的なオプティマを避けることで、データからの学習を改善する強力な経験的ポテンシャルが示されている。 強化学習(RL)では、基礎となる最適化は探索-探索トレードオフのために局所的な最適化に固執する傾向が強いため、カリキュラムは特に興味深い。 近年,RL 用キュリキュラの自動生成へのいくつかのアプローチが,手作業で設計したキュリキュラに比べて知識の不足を伴って,性能の向上を図っている。 しかし、これらのアプローチは理論的な観点からほとんど研究されず、その力学の深い理解を妨げている。 本論文では, RLにおける自動カリキュラム生成のアプローチについて, 明確な理論的基盤を持つ。 より正確には、よく知られた自己ペース学習パラダイムを、タスクの複雑さと望ましいタスク分布にマッチする目的のトレードオフであるトレーニングタスクに対する分散を誘導するものとして定式化する。 実験では、この誘導された分布に関する訓練は、未知の報酬と挑戦的な探索要件で、異なるタスクでRLアルゴリズム全体の悪い局所最適化を回避するのに役立ちます。

Across machine learning, the use of curricula has shown strong empirical potential to improve learning from data by avoiding local optima of training objectives. For reinforcement learning (RL), curricula are especially interesting, as the underlying optimization has a strong tendency to get stuck in local optima due to the exploration-exploitation trade-off. Recently, a number of approaches for an automatic generation of curricula for RL have been shown to increase performance while requiring less expert knowledge compared to manually designed curricula. However, these approaches are seldomly investigated from a theoretical perspective, preventing a deeper understanding of their mechanics. In this paper, we present an approach for automated curriculum generation in RL with a clear theoretical underpinning. More precisely, we formalize the well-known self-paced learning paradigm as inducing a distribution over training tasks, which trades off between task complexity and the objective to match a desired task distribution. Experiments show that training on this induced distribution helps to avoid poor local optima across RL algorithms in different tasks with uninformative rewards and challenging exploration requirements.
翻訳日:2021-03-01 13:50:39 公開日:2021-02-25
# 公正かつ安定なグラフ表現学習のための統一フレームワークを目指して

Towards a Unified Framework for Fair and Stable Graph Representation Learning ( http://arxiv.org/abs/2102.13186v1 )

ライセンス: Link先を確認
Chirag Agarwal, Himabindu Lakkaraju, and Marinka Zitnik(参考訳) グラフニューラルネットワーク(GNN)が出力する表現が現実のアプリケーションにますます採用されているため、これらの表現が公平かつ安定であることを保証することが重要である。 本研究では,非現実的公正性と安定性の鍵となる関係を確立し,それを利用して,任意のGNNで公正かつ安定な表現を学習できる新しいフレームワークNIFTY(uNIfying Fairness and StabiliTY)を提案する。 公平性と安定性を同時に考慮し,GNNにおけるニューラルメッセージパッシングを強化するために,リプシッツ定数を用いた階層単位の重み正規化を開発する,新たな目的関数を導入する。 そこで我々は,目的関数とGNNアーキテクチャの両方において,公平性と安定性を強制する。 さらに, 重み正規化は, 結果表現の反実的公正性と安定性を促進することを理論的に示す。 刑事司法および金融貸付分野における高利害判断からなる3つの新しいグラフデータセットを紹介します。 上記のデータセットの広範な実験は、私たちのフレームワークの有効性を示しています。

As the representations output by Graph Neural Networks (GNNs) are increasingly employed in real-world applications, it becomes important to ensure that these representations are fair and stable. In this work, we establish a key connection between counterfactual fairness and stability and leverage it to propose a novel framework, NIFTY (uNIfying Fairness and stabiliTY), which can be used with any GNN to learn fair and stable representations. We introduce a novel objective function that simultaneously accounts for fairness and stability and develop a layer-wise weight normalization using the Lipschitz constant to enhance neural message passing in GNNs. In doing so, we enforce fairness and stability both in the objective function as well as in the GNN architecture. Further, we show theoretically that our layer-wise weight normalization promotes counterfactual fairness and stability in the resulting representations. We introduce three new graph datasets comprising of high-stakes decisions in criminal justice and financial lending domains. Extensive experimentation with the above datasets demonstrates the efficacy of our framework.
翻訳日:2021-03-01 13:50:18 公開日:2021-02-25
# Spurious Local Minima is common for Deep Neural Networks with Piecewise Linear Activation

Spurious Local Minima Are Common for Deep Neural Networks with Piecewise Linear Activations ( http://arxiv.org/abs/2102.13233v1 )

ライセンス: Link先を確認
Bo Liu(参考訳) 本稿では,線形モデルでは適用できない線形活性化関数とデータセットを持つ深層完全連結ネットワークと畳み込みニューラルネットワーク(cnns)において,スプリアス局所最小化が一般的であることを理論的に示す。 親密な局所ミニマの存在理由を説明するための動機付けの例として、分断線形アクティベーションを備えたディープフルコネクテッドネットワークとCNNの各出力ニューロンは連続的なピースワイズ線形(CPWL)出力を生成し、異なるCPWL出力は経験的リスクを最小限に抑えるときに不一致なデータサンプルのグループに適合することができる。 CPWL機能が異なるデータサンプルを適合させると、通常、経験的なリスクの異なるレベルになり、散発的な局所ミニマの流行につながります。 この結果は、任意の連続損失関数で一般的な設定で証明されます。 主な証明手法は、CPWL関数を線形部品の最小化に対する最大化として表現することである。 ディープReLUネットワークは、これらの線形部品を生成し、最大化および最小化操作を実装するために構築される。

In this paper, it is shown theoretically that spurious local minima are common for deep fully-connected networks and convolutional neural networks (CNNs) with piecewise linear activation functions and datasets that cannot be fitted by linear models. A motivating example is given to explain the reason for the existence of spurious local minima: each output neuron of deep fully-connected networks and CNNs with piecewise linear activations produces a continuous piecewise linear (CPWL) output, and different pieces of CPWL output can fit disjoint groups of data samples when minimizing the empirical risk. Fitting data samples with different CPWL functions usually results in different levels of empirical risk, leading to prevalence of spurious local minima. This result is proved in general settings with any continuous loss function. The main proof technique is to represent a CPWL function as a maximization over minimization of linear pieces. Deep ReLU networks are then constructed to produce these linear pieces and implement maximization and minimization operations.
翻訳日:2021-03-01 13:49:59 公開日:2021-02-25
# マルチラベル双対空間を用いた学習識別特徴

Learning Discriminative Features using Multi-label Dual Space ( http://arxiv.org/abs/2102.13234v1 )

ライセンス: Link先を確認
Ali Braytee and Wei Liu(参考訳) マルチラベル学習は、複数のクラスラベルに関連するインスタンスを処理する。 元のラベル空間は、ブール領域 $\in \left \{ 0,1 \right \}$ からのエントリを持つ論理行列である。 論理ラベルは、インスタンスに対する各意味ラベルの相対的重要性を示すことができない。 既存の手法の大部分は、論理ラベル行列を用いたラベル依存を考慮した線形射影を用いて、入力特徴をラベル空間にマッピングする。 しかし、識別的特徴は、インスタンスの特徴表現から論理ラベル空間への一方向射影を用いて学習される。 論理ラベルの学習空間に多様体が存在しないことを考えると、学習モデルのポテンシャルを制限する。 この本では、画像アノテーションの実際の例から着想を得て、ラベルの重要性と特徴重みから画像を再構築します。 特徴空間から意味的ラベル空間へのプロジェクション行列を学習するマルチラベル学習における新しい手法を提案し,エンコーダデコーダ深層学習アーキテクチャを用いて元の特徴空間に投影する。 本手法を導いた重要な直観は,2つの線形射影を用いて特徴を前後にマッピングするため,識別的特徴を同定することである。 我々の知る限りでは、これはマルチラベル学習においてラベル多様体から元の特徴を再構築する能力を研究する最初の試みの1つである。 学習したプロジェクション行列は、複数のセマンティックラベルにまたがる識別的特徴のサブセットを特定する。 実世界のデータセットに対する大規模な実験は,提案手法の優位性を示している。

Multi-label learning handles instances associated with multiple class labels. The original label space is a logical matrix with entries from the Boolean domain $\in \left \{ 0,1 \right \}$. Logical labels are not able to show the relative importance of each semantic label to the instances. The vast majority of existing methods map the input features to the label space using linear projections with taking into consideration the label dependencies using logical label matrix. However, the discriminative features are learned using one-way projection from the feature representation of an instance into a logical label space. Given that there is no manifold in the learning space of logical labels, which limits the potential of learned models. In this work, inspired from a real-world example in image annotation to reconstruct an image from the label importance and feature weights. We propose a novel method in multi-label learning to learn the projection matrix from the feature space to semantic label space and projects it back to the original feature space using encoder-decoder deep learning architecture. The key intuition which guides our method is that the discriminative features are identified due to map the features back and forth using two linear projections. To the best of our knowledge, this is one of the first attempts to study the ability to reconstruct the original features from the label manifold in multi-label learning. We show that the learned projection matrix identifies a subset of discriminative features across multiple semantic labels. Extensive experiments on real-world datasets show the superiority of the proposed method.
翻訳日:2021-03-01 13:49:37 公開日:2021-02-25
# テーテルロボットのペアの動作計画

Motion Planning for a Pair of Tethered Robots ( http://arxiv.org/abs/2102.13212v1 )

ライセンス: Link先を確認
Reza H. Teshnizi, Dylan A. Shell(参考訳) 多角形の障害物を含む環境を考えると、限られた長さのケーブルで互いに接続する一対の平面ロボットの動作計画の問題に対処できる。 ケーブルを介して固定されたベースに繋がる単一のロボットの以前の問題と同様に、直線視認性は重要な役割を担っている。 本稿では,2つのロボットの場合においても,可視性グラフが自然な離散化をもたらし,重要なトポロジ的考察を極めて効果的に捉えていることを示す。 しかし、単一ロボットの場合とは異なり、有界ケーブル長は、問題を複雑にする調整(あるいはそれと同等の、集中型プランナーの観点から見れば相対的なタイミング)に関する考慮を導入する。 実際、この論文は、軌道ではなく経路の発見の1つとして問題をキャストすることを許す定理であるコア理論的結果を確立するために、以前の単ロボットよりもかなり関係のある形式化を導入する必要がある。 一度確認すると、計画上の問題は、接続ケーブルのエレガントな表現で簡単なグラフ検索に減少し、ソリューションの実現性を保証するためにケーブルの十分性を保証する追加の補助チェックを数回だけ要求します。 本稿では,A${}^\star$ searchの実装について述べ,実験結果を報告する。 最後に、アルゴリズムが提供するソリューションの最適な実行を処方します。

Considering an environment containing polygonal obstacles, we address the problem of planning motions for a pair of planar robots connected to one another via a cable of limited length. Much like prior problems with a single robot connected via a cable to a fixed base, straight line-of-sight visibility plays an important role. The present paper shows how the reduced visibility graph provides a natural discretization and captures the essential topological considerations very effectively for the two robot case as well. Unlike the single robot case, however, the bounded cable length introduces considerations around coordination (or equivalently, when viewed from the point of view of a centralized planner, relative timing) that complicates the matter. Indeed, the paper has to introduce a rather more involved formalization than prior single-robot work in order to establish the core theoretical result -- a theorem permitting the problem to be cast as one of finding paths rather than trajectories. Once affirmed, the planning problem reduces to a straightforward graph search with an elegant representation of the connecting cable, demanding only a few extra ancillary checks that ensure sufficiency of cable to guarantee feasibility of the solution. We describe our implementation of A${}^\star$ search, and report experimental results. Lastly, we prescribe an optimal execution for the solutions provided by the algorithm.
翻訳日:2021-03-01 13:47:40 公開日:2021-02-25
# プロセスマイニングにおけるケースレベル逆推論

Case Level Counterfactual Reasoning in Process Mining ( http://arxiv.org/abs/2102.13490v1 )

ライセンス: Link先を確認
Mahnaz Sadat Qafari, Wil van der Aalst(参考訳) プロセスマイニングは、プロセスの診断や、パフォーマンスとコンプライアンスの問題を明らかにするために広く利用されている。 また、プロセスの開始時により逸脱するケースがプロセスの後半で遅延する傾向がある場合など、異なる振舞いの側面の間の関係を見ることもできる。 しかし、相関は必ずしも因果関係を明らかにしない。 さらに、標準的なプロセスマイニング診断は、プロセスを改善する方法を示していない。 これは、我々が \emph{structural equation models} と \emph{counterfactual reasoning} の使用を提唱する理由である。 因果推論の結果を使用し、これらをイベントログやプロセス介入を推論できるように適応します。 提案手法をProMプラグインとして実装し,複数のデータセットで評価した。 ProMプラグインは、パフォーマンスやコンプライアンスの問題を避けるために、特定のケースがどのように異なる方法で処理されたかを示す推奨事項を生成します。

Process mining is widely used to diagnose processes and uncover performance and compliance problems. It is also possible to see relations between different behavioral aspects, e.g., cases that deviate more at the beginning of the process tend to get delayed in the last part of the process. However, correlations do not necessarily reveal causalities. Moreover, standard process mining diagnostics do not indicate how to improve the process. This is the reason we advocate the use of \emph{structural equation models} and \emph{counterfactual reasoning}. We use results from causal inference and adapt these to be able to reason over event logs and process interventions. We have implemented the approach as a ProM plug-in and have evaluated it on several data sets. Our ProM plug-in produces recommendations that indicate how specific cases could have been handled differently to avoid a performance or compliance problem.
翻訳日:2021-03-01 13:47:01 公開日:2021-02-25
# グラフニューラルネットワークを用いた効率的かつ解釈可能なロボット操作

Efficient and Interpretable Robot Manipulation with Graph Neural Networks ( http://arxiv.org/abs/2102.13177v1 )

ライセンス: Link先を確認
Yixin Lin, Austin S. Wang, Akshara Rai(参考訳) 多くの操作タスクは、自然にオブジェクト間の空間的関係と制約の列としてキャストできる。 操作タスクをグラフ上の操作として表現することで、これらのタスク固有の空間関係の発見と拡大を目指します。 そこで我々は,グラフニューラルネットワーク(GNN)を用いて学習した行動,対象,目標に対する確率的分類問題として,多変数オブジェクトの操作を行う。 我々の定式化はまず環境をグラフ表現に変換し、次に訓練されたgnnポリシーを適用してどのオブジェクトを操作するかを予測する。 私たちのgnnポリシーは、単純なタスクの専門的なデモンストレーションを使用してトレーニングされ、環境内のオブジェクトの数や構成、さらには新しくて複雑なタスクへの一般化を示し、意思決定のための解釈可能な説明を提供します。 本稿では,学習したGNNポリシがシミュレーションと実ハードウェアの両方で様々なブロックタッキングタスクを解くことができることを示す実験を提案する。

Many manipulation tasks can be naturally cast as a sequence of spatial relationships and constraints between objects. We aim to discover and scale these task-specific spatial relationships by representing manipulation tasks as operations over graphs. To do this, we pose manipulating a large, variable number of objects as a probabilistic classification problem over actions, objects and goals, learned using graph neural networks (GNNs). Our formulation first transforms the environment into a graph representation, then applies a trained GNN policy to predict which object to manipulate towards which goal state. Our GNN policies are trained using very few expert demonstrations on simple tasks, and exhibits generalization over number and configurations of objects in the environment and even to new, more complex tasks, and provide interpretable explanations for their decision-making. We present experiments which show that a single learned GNN policy can solve a variety of blockstacking tasks in both simulation and real hardware.
翻訳日:2021-03-01 13:45:51 公開日:2021-02-25
# 適応型ハミルトンニューラルネットワーク

Adaptable Hamiltonian neural networks ( http://arxiv.org/abs/2102.13235v1 )

ライセンス: Link先を確認
Chen-Di Han, Bryan Glaz, Mulugeta Haile, and Ying-Cheng Lai(参考訳) カオスシステムを予測するために機械学習を利用する研究の急速な成長により、ハミルトンの運動方程式によって定義された物理的な制約を持つハミルトンニューラルネットワーク(HNN)に対する最近の関心が復活した。 我々は、非線形物理系の適応可能な予測が可能なHNNのクラスを紹介し、ターゲットハミルトン系の少数の分岐パラメータ値から時系列に基づいてニューラルネットワークをトレーニングすることにより、HNNは他のパラメータ値で動的状態を予測することができる。 HNNのアーキテクチャは、入力パラメータチャネルを組み込み、HNNパラメータ--認識をレンダリングすることで、以前のものとは異なります。 パラダイム的ハミルトニアン系を用いて,最大4つのパラメータ値からの時系列を用いてhnnを訓練することで,ニューラルネットワークにパラメータ区間全体における目標システムの状態を予測できることを示す。 アンサンブル最大Lyapunov指数とアライメント指数を指標として,我々のパラメータ認識型HNNがカオスへの遷移経路の予測に成功していることを示す。 物理強化機械学習は研究の最前線であり、我々の適応可能なHNNは、幅広いアプリケーションで機械学習を理解するためのアプローチを提供する。

The rapid growth of research in exploiting machine learning to predict chaotic systems has revived a recent interest in Hamiltonian Neural Networks (HNNs) with physical constraints defined by the Hamilton's equations of motion, which represent a major class of physics-enhanced neural networks. We introduce a class of HNNs capable of adaptable prediction of nonlinear physical systems: by training the neural network based on time series from a small number of bifurcation-parameter values of the target Hamiltonian system, the HNN can predict the dynamical states at other parameter values, where the network has not been exposed to any information about the system at these parameter values. The architecture of the HNN differs from the previous ones in that we incorporate an input parameter channel, rendering the HNN parameter--cognizant. We demonstrate, using paradigmatic Hamiltonian systems, that training the HNN using time series from as few as four parameter values bestows the neural machine with the ability to predict the state of the target system in an entire parameter interval. Utilizing the ensemble maximum Lyapunov exponent and the alignment index as indicators, we show that our parameter-cognizant HNN can successfully predict the route of transition to chaos. Physics-enhanced machine learning is a forefront area of research, and our adaptable HNNs provide an approach to understanding machine learning with broad applications.
翻訳日:2021-03-01 13:45:34 公開日:2021-02-25
# (参考訳) 戦略的操作による組合せバンディット

Combinatorial Bandits under Strategic Manipulations ( http://arxiv.org/abs/2102.12722v1 )

ライセンス: CC BY 4.0
Jing Dong, Ke Li, Shuai Li, Baoxiang Wang(参考訳) 報酬の戦略的操作によるCMAB(Combinary Multi-armed Bandits)の問題について検討し,各腕がそれぞれの利益のために出力された報酬信号を修正できることを示した。 私たちの設定は、敵対的な腐敗や敵対的な攻撃と比較してリラックスした仮定を課す適応アームのより現実的なモデルを洗練します。 戦略兵器の下で設計されたアルゴリズムは、過度に慎重でパフォーマンスを阻害しながら、実際のアプリケーションで堅牢性を獲得する。 我々は,mab問題下でのアーム間の最適結束戦略を検討することにより,戦略操作と敵対的攻撃のギャップを埋める。 次に、$T$が時空であり、$m$が腕の数であり、$B_{max}$が最大予算である戦略的操作の下で、少なくとも$O(m\log T + m B_{max})$の後悔を持っている組み合わせUCBアルゴリズムの戦略的な変種を提案します。 さらに、攻撃者がバンディットアルゴリズムの特定の後悔を引き起こすための戦略予算の低い境界を提供します。 広範な実験は、様々な操作予算の体制において、堅牢性と後悔の境界に関する理論的発見と相関する。

We study the problem of combinatorial multi-armed bandits (CMAB) under strategic manipulations of rewards, where each arm can modify the emitted reward signals for its own interest. Our setting elaborates a more realistic model of adaptive arms that imposes relaxed assumptions compared to adversarial corruptions and adversarial attacks. Algorithms designed under strategic arms gain robustness in real applications while avoiding being overcautious and hampering the performance. We bridge the gap between strategic manipulations and adversarial attacks by investigating the optimal colluding strategy among arms under the MAB problem. We then propose a strategic variant of the combinatorial UCB algorithm, which has a regret of at most $O(m\log T + m B_{max})$ under strategic manipulations, where $T$ is the time horizon, $m$ is the number of arms, and $B_{max}$ is the maximum budget. We further provide lower bounds on the strategic budgets for attackers to incur certain regret of the bandit algorithm. Extensive experiments corroborate our theoretical findings on robustness and regret bounds, in a variety of regimes of manipulation budgets.
翻訳日:2021-02-27 11:23:54 公開日:2021-02-25
# (参考訳) 最適ルックアヘッドバイアスと分散トレードオフに対するwasserstein補間による時系列インプテーション

Time-Series Imputation with Wasserstein Interpolation for Optimal Look-Ahead-Bias and Variance Tradeoff ( http://arxiv.org/abs/2102.12736v1 )

ライセンス: CC BY 4.0
Jose Blanchet, Fernando Hernandez, Viet Anh Nguyen, Markus Pelger, Xuhui Zhang(参考訳) 時系列データの欠落は、実用的な問題である。 時系列データにおける計算方法は、ダウンストリーム・アウト・オブ・サンプルタスクのモデルをトレーニングするために、全パネルデータに適用されることが多い。 例えば金融では、ポートフォリオ最適化モデルをトレーニングする前に、リターン不足の計算を適用することができる。 残念なことに、このプラクティスは下流タスクの今後のパフォーマンスに先見バイアスをもたらす可能性がある。 インキュベーションのために全データセットを使用するルックアヘッドバイアスと、トレーニングデータのみを使用することによるインキュベーションの大きなばらつきとの間には、本質的にトレードオフがある。 時間内に明らかにされた情報の層を接続することにより、インプテーションにおける分散とルックアヘッドバイアストレードオフを最適に制御するベイジアン後方コンセンサス分布を提案する。 私たちは、合成および実際の財務データの両方で私たちの方法論の利点を実証します。

Missing time-series data is a prevalent practical problem. Imputation methods in time-series data often are applied to the full panel data with the purpose of training a model for a downstream out-of-sample task. For example, in finance, imputation of missing returns may be applied prior to training a portfolio optimization model. Unfortunately, this practice may result in a look-ahead-bias in the future performance on the downstream task. There is an inherent trade-off between the look-ahead-bias of using the full data set for imputation and the larger variance in the imputation from using only the training data. By connecting layers of information revealed in time, we propose a Bayesian posterior consensus distribution which optimally controls the variance and look-ahead-bias trade-off in the imputation. We demonstrate the benefit of our methodology both in synthetic and real financial data.
翻訳日:2021-02-27 10:48:32 公開日:2021-02-25
# (参考訳) ランダムフーリエ特徴の量子化アルゴリズム

Quantization Algorithms for Random Fourier Features ( http://arxiv.org/abs/2102.13079v1 )

ライセンス: CC BY 4.0
Xiaoyun Li and Ping Li(参考訳) ランダム・プロジェクション(RP)の手法は、機械学習やその他の多くの分野において、次元の縮小、近接探索の近似、圧縮センシングなどの標準的な手法である。 RPは基本的に、大規模データにおけるペアワイズ内積とユークリッド距離を近似するためのシンプルで効果的なスキームを提供します。 RPと密接に関連し、ガウスカーネルを近似するためにランダムフーリエ特徴(RFF)の方法も普及している。 RFFは、ランダムな投影から投影されたデータに特定の非線形変換を適用する。 実際には、(非線形)ガウス系カーネルの使用は、ガウス系カーネルに導入されたチューニングパラメータ$(\gamma)$により、しばしば線形系カーネル(内積)よりも優れた性能をもたらす。 近年,RFFの特性研究への関心が高まっている。 ランダムな投影の後、量子化は効率的なデータ保存、計算、伝送の重要なステップである。 RPの量子化も文献で広く研究されている。 本稿では,RFFの量子化アルゴリズムの開発に焦点を当てる。 タスクは、ガウスカーネルのチューニングパラメータ$\gamma$のために、ある意味で難しいです。 例えば、量子化器と量子化データは、各特定のチューニングパラメータ $\gamma$ に結び付けられます。 私たちの貢献は興味深い発見から始まり、RFFの限界分布は実際にはガウスカーネルパラメータ$\gamma$を含まないということです。 この小さな発見は、RFFのためのロイドマックス(LM)量子化スキームの設計を大幅に簡素化し、RFF用のLM量子化器が1つしかない($\gamma$を除く)。 また,lm$^2$-rff量子化器 (lm$^2$-rff quantizer) という変種も開発した。 実験により提案した量子化スキームが良好に動作することを確認した。

The method of random projection (RP) is the standard technique in machine learning and many other areas, for dimensionality reduction, approximate near neighbor search, compressed sensing, etc. Basically, RP provides a simple and effective scheme for approximating pairwise inner products and Euclidean distances in massive data. Closely related to RP, the method of random Fourier features (RFF) has also become popular, for approximating the Gaussian kernel. RFF applies a specific nonlinear transformation on the projected data from random projections. In practice, using the (nonlinear) Gaussian kernel often leads to better performance than the linear kernel (inner product), partly due to the tuning parameter $(\gamma)$ introduced in the Gaussian kernel. Recently, there has been a surge of interest in studying properties of RFF. After random projections, quantization is an important step for efficient data storage, computation, and transmission. Quantization for RP has also been extensive studied in the literature. In this paper, we focus on developing quantization algorithms for RFF. The task is in a sense challenging due to the tuning parameter $\gamma$ in the Gaussian kernel. For example, the quantizer and the quantized data might be tied to each specific tuning parameter $\gamma$. Our contribution begins with an interesting discovery, that the marginal distribution of RFF is actually free of the Gaussian kernel parameter $\gamma$. This small finding significantly simplifies the design of the Lloyd-Max (LM) quantization scheme for RFF in that there would be only one LM quantizer for RFF (regardless of $\gamma$). We also develop a variant named LM$^2$-RFF quantizer, which in certain cases is more accurate. Experiments confirm that the proposed quantization schemes perform well.
翻訳日:2021-02-27 10:26:01 公開日:2021-02-25
# (参考訳) モジュールオブジェクト指向ゲーム:強化学習,心理学,神経科学のためのタスクフレームワーク

Modular Object-Oriented Games: A Task Framework for Reinforcement Learning, Psychology, and Neuroscience ( http://arxiv.org/abs/2102.12616v1 )

ライセンス: CC BY 4.0
Nicholas Watters and Joshua Tenenbaum and Mehrdad Jazayeri(参考訳) 近年、シミュレーションゲームの研究のトレンドは、人工知能、認知科学、心理学、神経科学の分野において勢いを増している。 これらの分野の交差点も近年増加しており、研究者は人工エージェントと人間や動物の両方を用いたゲームの研究を増やしている。 しかし、ゲームの実装は時間を要する作業であり、研究者は簡単にカスタマイズできない複雑なコードベースで作業を行う必要がある。 さらに、人工知能、人間の心理学、動物の神経生理学の組み合わせを研究する学際的な研究者は、既存のプラットフォームがこれらのドメインの1つだけのために設計されているため、さらなる課題に直面している。 ここでは,モジュール型オブジェクト指向ゲームを紹介する。軽量でフレキシブル,カスタマイズ可能で,機械学習,心理学,神経生理学の研究者が使用するように設計されたpythonタスクフレームワークである。

In recent years, trends towards studying simulated games have gained momentum in the fields of artificial intelligence, cognitive science, psychology, and neuroscience. The intersections of these fields have also grown recently, as researchers increasing study such games using both artificial agents and human or animal subjects. However, implementing games can be a time-consuming endeavor and may require a researcher to grapple with complex codebases that are not easily customized. Furthermore, interdisciplinary researchers studying some combination of artificial intelligence, human psychology, and animal neurophysiology face additional challenges, because existing platforms are designed for only one of these domains. Here we introduce Modular Object-Oriented Games, a Python task framework that is lightweight, flexible, customizable, and designed for use by machine learning, psychology, and neurophysiology researchers.
翻訳日:2021-02-27 10:19:17 公開日:2021-02-25
# (参考訳) 大規模地震データセットを用いたセグメンテーションタスクのためのディープニューラルネットワークの分散トレーニング入門

An introduction to distributed training of deep neural networks for segmentation tasks with large seismic datasets ( http://arxiv.org/abs/2102.13003v1 )

ライセンス: CC BY 4.0
Claire Birnie, Haithem Jarraya and Fredrik Hansteen(参考訳) 深層学習の応用は、地震処理や解釈タスクにおいて飛躍的に進歩している。 しかし、多くのアプローチはデータボリュームをサンプリングし、計算要件を最小化するためにモデルサイズを制限する。 モデルのサイズを制限しながらトレーニングを支援する可能性のある重要な時空間情報を失うデータリスクのサブサンプルは、モデルのパフォーマンスに影響を与える可能性があります。 本稿では,大規模ニューラルネットワークのトレーニングにおける2つの主な課題,メモリ制限と非現実的なトレーニング時間について述べる。 トレーニングデータは通常、トレーニング前にメモリにプリロードされる。これは、標準画像処理タスク(float32 vs. uint8)で使用されるデータより4倍大きい耐震アプリケーションにおいて、特に課題である。 マイクロ地震のユースケースを用いて、トレーニングバッチに必要なデータのみをメモリに格納するデータジェネレータアプローチを用いて、750GB以上のデータを使用してモデルをトレーニングする方法を説明する。 さらに、入力データ次元4096x4096の7層unetのトレーニングにより、大規模モデルに対する効率的なトレーニングを示す。 バッチ分割による分散トレーニングアプローチでは、トレーニング時間が4倍に短縮される。 データジェネレータと分散トレーニングの組み合わせは、ニューラルネットワークサイズのデータ1のサブサンプリングや制限の必要性をなくし、より大きなネットワーク、高解像度入力データ、あるいは2dから3d問題空間に移行する機会を提供する。

Deep learning applications are drastically progressing in seismic processing and interpretation tasks. However, the majority of approaches subsample data volumes and restrict model sizes to minimise computational requirements. Subsampling the data risks losing vital spatio-temporal information which could aid training whilst restricting model sizes can impact model performance, or in some extreme cases, renders more complicated tasks such as segmentation impossible. This paper illustrates how to tackle the two main issues of training of large neural networks: memory limitations and impracticably large training times. Typically, training data is preloaded into memory prior to training, a particular challenge for seismic applications where data is typically four times larger than that used for standard image processing tasks (float32 vs. uint8). Using a microseismic use case, we illustrate how over 750GB of data can be used to train a model by using a data generator approach which only stores in memory the data required for that training batch. Furthermore, efficient training over large models is illustrated through the training of a 7-layer UNet with input data dimensions of 4096X4096. Through a batch-splitting distributed training approach, training times are reduced by a factor of four. The combination of data generators and distributed training removes any necessity of data 1 subsampling or restriction of neural network sizes, offering the opportunity of utilisation of larger networks, higher-resolution input data or moving from 2D to 3D problem spaces.
翻訳日:2021-02-27 10:10:12 公開日:2021-02-25
# (参考訳) 分散ロバストフェデレーション平均化

Distributionally Robust Federated Averaging ( http://arxiv.org/abs/2102.12660v1 )

ライセンス: CC BY 4.0
Yuyang Deng, Mohammad Mahdi Kamani, Mehrdad Mahdavi(参考訳) 本稿では,適応サンプリングを用いた周期平均化による分散学習のためのコミュニケーション効率の高い分散アルゴリズムについて検討する。 標準の経験的リスク最小化とは対照的に、基礎となる最適化問題のミニマックス構造のために、局所損失の混合を制御するグローバルパラメータがグローバルステージでしか更新できないという事実から大きな困難が生じます。 そこで本論文では,混合パラメータの履歴勾配の蓄積を近似するために,新しいスナップショット方式を用いた分散ロバストフェデレーション平均化(DRFA)アルゴリズムを提案する。 凸線と非凸線の両方の設定におけるDRFAの収束速度を解析する。 また,提案したアイデアを混合パラメータ上で正規化して目的に一般化し,DRFA-Proxと呼ばれる近位変種を証明可能な収束率で提案する。 また, 強凸強凸および非凸(pl条件下で)強凸強凸設定における正則化ケースに対する代替最適化法を解析した。 本論文では,分散ミニマックス問題に対する局所降下手法の効率性を分析するために,分散的に堅牢なフェデレーション学習をコミュニケーションの低下と共に解決した。 我々は、フェデレーション学習環境における理論的結果に関する実験的証拠を裏付ける。

In this paper, we study communication efficient distributed algorithms for distributionally robust federated learning via periodic averaging with adaptive sampling. In contrast to standard empirical risk minimization, due to the minimax structure of the underlying optimization problem, a key difficulty arises from the fact that the global parameter that controls the mixture of local losses can only be updated infrequently on the global stage. To compensate for this, we propose a Distributionally Robust Federated Averaging (DRFA) algorithm that employs a novel snapshotting scheme to approximate the accumulation of history gradients of the mixing parameter. We analyze the convergence rate of DRFA in both convex-linear and nonconvex-linear settings. We also generalize the proposed idea to objectives with regularization on the mixture parameter and propose a proximal variant, dubbed as DRFA-Prox, with provable convergence rates. We also analyze an alternative optimization method for regularized cases in strongly-convex-strongly-concave and non-convex (under PL condition)-strongly-concave settings. To the best of our knowledge, this paper is the first to solve distributionally robust federated learning with reduced communication, and to analyze the efficiency of local descent methods on distributed minimax problems. We give corroborating experimental evidence for our theoretical results in federated learning settings.
翻訳日:2021-02-27 09:58:20 公開日:2021-02-25
# (参考訳) 画像強化による肺炎分離のための遅延データ要求の低減

Reducing Labelled Data Requirement for Pneumonia Segmentation using Image Augmentations ( http://arxiv.org/abs/2102.12764v1 )

ライセンス: CC BY 4.0
Jitesh Seth, Rohit Lokwani, Viraj Kulkarni, Aniruddha Pant, Amit Kharat(参考訳) 深層学習意味セグメンテーションアルゴリズムは、胸部x線写真から異常や不透明度を局在化することができる。 しかし、トレーニングデータの収集と注釈のタスクは高価であり、アルゴリズムのパフォーマンスのボトルネックとなる専門知識を必要とする。 胸部X線を用いた肺炎検出のセマンティックセグメンテーションにおけるラベル付きデータの要求低減に対する画像強調の効果を検討した。 我々は、トレーニングデータから異なるサイズのサブセットで完全な畳み込みネットワークモデルを訓練する。 各モデルをトレーニングしながら、異なる画像拡張を適用し、拡張なしでデータセット全体をトレーニングしたベースラインと比較する。 回転と混合は、回転、混合、翻訳、ガンマ、水平フリップの中で最良の増強であり、AUCと平均IoUの点でベースラインに比較して実行しながら、ラベル付きデータの要件を70%削減します。

Deep learning semantic segmentation algorithms can localise abnormalities or opacities from chest radiographs. However, the task of collecting and annotating training data is expensive and requires expertise which remains a bottleneck for algorithm performance. We investigate the effect of image augmentations on reducing the requirement of labelled data in the semantic segmentation of chest X-rays for pneumonia detection. We train fully convolutional network models on subsets of different sizes from the total training data. We apply a different image augmentation while training each model and compare it to the baseline trained on the entire dataset without augmentations. We find that rotate and mixup are the best augmentations amongst rotate, mixup, translate, gamma and horizontal flip, wherein they reduce the labelled data requirement by 70% while performing comparably to the baseline in terms of AUC and mean IoU in our experiments.
翻訳日:2021-02-27 09:57:12 公開日:2021-02-25
# (参考訳) ペルシア英語コード混合テキストの感情分析

Sentiment Analysis of Persian-English Code-mixed Texts ( http://arxiv.org/abs/2102.12700v1 )

ライセンス: CC BY 4.0
Nazanin Sabri, Ali Edalat, Behnam Bahrak(参考訳) インターネット上のデータの迅速な生産と、ビジネスや研究の視点からユーザーの感情を理解する必要性は、多数の自動モノリンガル感情検出システムの作成を促しました。 しかし、最近では、ソーシャルメディア上のデータの構造化されていない性質から、多言語テキストやコード混合テキストの例が増えている。 コンテンツタイプのこの開発は、コード混合感情分析システムに対する新たな需要を生み出した。 本研究では,ペルシャ語と英語の混成ツイートのデータセットを収集,ラベル付けし,作成する。 次に、BERTプリトレーニングされた埋め込みを使用するモデルと、これらのツイートの極性スコアを自動的に学習する翻訳モデルを紹介します。 本モデルは,na\"ive bayesとランダムフォレスト手法を用いたベースラインモデルよりも優れている。

The rapid production of data on the internet and the need to understand how users are feeling from a business and research perspective has prompted the creation of numerous automatic monolingual sentiment detection systems. More recently however, due to the unstructured nature of data on social media, we are observing more instances of multilingual and code-mixed texts. This development in content type has created a new demand for code-mixed sentiment analysis systems. In this study we collect, label and thus create a dataset of Persian-English code-mixed tweets. We then proceed to introduce a model which uses BERT pretrained embeddings as well as translation models to automatically learn the polarity scores of these Tweets. Our model outperforms the baseline models that use Na\"ive Bayes and Random Forest methods.
翻訳日:2021-02-27 09:42:26 公開日:2021-02-25
# (参考訳) IIE-NLP-Eyas at SemEval-2021 Task 4: PLM for ReCAM with Special Tokens, Re-Ranking, Siamese Encoders and Back Translation

IIE-NLP-Eyas at SemEval-2021 Task 4: Enhancing PLM for ReCAM with Special Tokens, Re-Ranking, Siamese Encoders and Back Translation ( http://arxiv.org/abs/2102.12777v1 )

ライセンス: CC BY 4.0
Yuqiang Xie, Luxi Xing, Wei Peng, Yue Hu(参考訳) 本稿では,SemEval-2021 Task 4: Reading Comprehension of Abstract Meaningの3つのサブタスクについて紹介する。 自然言語における抽象概念をよりよく表現し理解するために,バックボーンモデル(RoBERTa)に適応したシンプルで効果的なアプローチを多数設計する。 具体的には、サブタスクを複数選択の質問応答形式に形式化し、抽象概念に特別なトークンを追加し、質問応答の最終予測をサブタスクの結果として考慮します。 さらに、パフォーマンスを改善するために多くの微調整のトリックを使用します。 実験結果から,本手法はベースラインシステムと比較して高い性能を示した。 提案手法は,subtask-1では8位,subtask-2では10位を達成する。

This paper introduces our systems for all three subtasks of SemEval-2021 Task 4: Reading Comprehension of Abstract Meaning. To help our model better represent and understand abstract concepts in natural language, we well-design many simple and effective approaches adapted to the backbone model (RoBERTa). Specifically, we formalize the subtasks into the multiple-choice question answering format and add special tokens to abstract concepts, then, the final prediction of question answering is considered as the result of subtasks. Additionally, we employ many finetuning tricks to improve the performance. Experimental results show that our approaches achieve significant performance compared with the baseline systems. Our approaches achieve eighth rank on subtask-1 and tenth rank on subtask-2.
翻訳日:2021-02-27 09:35:09 公開日:2021-02-25
# (参考訳) 感情認識、感情診断、自動:認知イベント評価アノテーション取得のためのコーパス作成戦略

Emotion-Aware, Emotion-Agnostic, or Automatic: Corpus Creation Strategies to Obtain Cognitive Event Appraisal Annotations ( http://arxiv.org/abs/2102.12858v1 )

ライセンス: CC BY 4.0
Jan Hofmann and Enrica Troiano and Roman Klinger(参考訳) 評価理論は、イベントの認知評価が特定の感情をどのように導くかを説明します。 基本的な感情や影響の理論とは対照的に、この理論は自然言語処理においてあまり注目されていない。 Smith and Ellsworth (1985) は、評価次元は注意、確実性、期待された努力、快適性、責任/コントロール、状況制御が(少なくとも)15の感情クラス間で区別されることを示した。 イベント指向のenisearコーパス(troiano et al., 2019)に基づいて,これらの次元に対する異なるアノテーション戦略について検討した。 筆者らは,(1)経験豊富な感情ラベルを隠蔽しながらアノテートするテキストを表示する,(2)テキストに関連する感情を明らかにする,という2つの手動アノテーション設定を解析した。 設定2では、アノテータは、記述されたイベントのより現実的な直観を開発できる一方、設定1は、純粋にテキストに依存する、より標準的なアノテーション手順である。 これらの戦略を2つの方法で評価する: アノテーション間の合意を測定し、RoBERTaを微調整して評価変数を予測する。 その結果,感情の知識がアノテーションの信頼性を高めることがわかった。 さらに、純粋に自動的なルールベースのラベル付け戦略(注釈付き感情クラスによる評価)を評価した。 自動割り当てられたラベルのトレーニングは、手動アノテーションでテストした場合でも、分類器の競争的パフォーマンスにつながります。 これは感情コーパスが存在するすべてのドメインに対して、評価コーパスを自動生成することが可能であることを示す指標である。

Appraisal theories explain how the cognitive evaluation of an event leads to a particular emotion. In contrast to theories of basic emotions or affect (valence/arousal), this theory has not received a lot of attention in natural language processing. Yet, in psychology it has been proven powerful: Smith and Ellsworth (1985) showed that the appraisal dimensions attention, certainty, anticipated effort, pleasantness, responsibility/control and situational control discriminate between (at least) 15 emotion classes. We study different annotation strategies for these dimensions, based on the event-focused enISEAR corpus (Troiano et al., 2019). We analyze two manual annotation settings: (1) showing the text to annotate while masking the experienced emotion label; (2) revealing the emotion associated with the text. Setting 2 enables the annotators to develop a more realistic intuition of the described event, while Setting 1 is a more standard annotation procedure, purely relying on text. We evaluate these strategies in two ways: by measuring inter-annotator agreement and by fine-tuning RoBERTa to predict appraisal variables. Our results show that knowledge of the emotion increases annotators' reliability. Further, we evaluate a purely automatic rule-based labeling strategy (inferring appraisal from annotated emotion classes). Training on automatically assigned labels leads to a competitive performance of our classifier, even when tested on manual annotations. This is an indicator that it might be possible to automatically create appraisal corpora for every domain for which emotion corpora already exist.
翻訳日:2021-02-27 09:28:11 公開日:2021-02-25
# (参考訳) 事前学習されたテキスト表現は多言語・多次元言語習熟度モデリングに有用か?

Are pre-trained text representations useful for multilingual and multi-dimensional language proficiency modeling? ( http://arxiv.org/abs/2102.12971v1 )

ライセンス: CC BY-SA 4.0
Taraka Rama and Sowmya Vajjala(参考訳) 非ネイティブ学習者のための言語習熟度モデルの開発は,近年,NLP研究への関心が高まっている。 言語習熟度は自然界では多次元であるが、既存の研究ではモデル構築中に単一の「過剰な習熟度」を考えることが多い。 さらに、既存のアプローチは一度に1つの言語のみを考慮します。 本稿では,多次元多言語習熟度分類における事前学習および微調整多言語組込みの役割に関する実験と観察について述べる。 ドイツ語、イタリア語、チェコ語の3つの言語で実験を報告し、語彙制御から社会言語的適切性まで、7次元の熟練度をモデル化します。 提案手法は,多言語習熟度モデリングに有用であるが,どの特徴も言語習熟度の全次元において一貫した最高の性能を得られていないことを示唆する。 コード、データ、関連する追加資料はすべて、https://github.com/nishkalavallabhi/multidimcefrscoringにある。

Development of language proficiency models for non-native learners has been an active area of interest in NLP research for the past few years. Although language proficiency is multidimensional in nature, existing research typically considers a single "overall proficiency" while building models. Further, existing approaches also considers only one language at a time. This paper describes our experiments and observations about the role of pre-trained and fine-tuned multilingual embeddings in performing multi-dimensional, multilingual language proficiency classification. We report experiments with three languages -- German, Italian, and Czech -- and model seven dimensions of proficiency ranging from vocabulary control to sociolinguistic appropriateness. Our results indicate that while fine-tuned embeddings are useful for multilingual proficiency modeling, none of the features achieve consistently best performance for all dimensions of language proficiency. All code, data and related supplementary material can be found at: https://github.com/nishkalavallabhi/MultidimCEFRScoring.
翻訳日:2021-02-27 09:13:10 公開日:2021-02-25
# (参考訳) ニューラルネットワークにおける部分全体階層の表現方法

How to represent part-whole hierarchies in a neural network ( http://arxiv.org/abs/2102.12627v1 )

ライセンス: CC BY-SA 4.0
Geoffrey Hinton(参考訳) 本論文では作業システムについて述べる。 代わりに、複数の異なるグループによる進歩を、GLOMと呼ばれる想像システムに統合することのできる表現に関する単一のアイデアを提示している。 進歩には、変圧器、神経分野、コントラスト表現学習、蒸留、カプセルが含まれます。 固定されたアーキテクチャを持つニューラルネットワークは、どのようにしてイメージ毎に異なる構造を持つ部分全体階層に画像を解析できるのか? このアイデアは、パースツリー内のノードを表すために、単に同じベクトルの島を使用することです。 GLOMを動作させることができれば、視覚や言語に適用した場合、トランスフォーマーライクなシステムが生成する表現の解釈可能性を大幅に向上させる必要がある。

This paper does not describe a working system. Instead, it presents a single idea about representation which allows advances made by several different groups to be combined into an imaginary system called GLOM. The advances include transformers, neural fields, contrastive representation learning, distillation and capsules. GLOM answers the question: How can a neural network with a fixed architecture parse an image into a part-whole hierarchy which has a different structure for each image? The idea is simply to use islands of identical vectors to represent the nodes in the parse tree. If GLOM can be made to work, it should significantly improve the interpretability of the representations produced by transformer-like systems when applied to vision or language
翻訳日:2021-02-27 08:48:25 公開日:2021-02-25
# (参考訳) ペアドフェーショットデータからの学習生成のためのドメイン適応

Domain Adaptation for Learning Generator from Paired Few-Shot Data ( http://arxiv.org/abs/2102.12765v1 )

ライセンス: CC BY 4.0
Chun-Chih Teng and Pin-Yu Chen and Wei-Chen Chiu(参考訳) 十分なソースデータと少数のターゲットデータを持つジェネレータを学習するためのペアドフェーショットGAN(PFS-GAN)モデルを提案する。 生成モデル学習は通常、大規模なトレーニングデータを必要とするが、当社のPFS-GANは、少数ショット学習の概念だけでなく、ドメイン間で知識を伝達するためのドメインシフトも使用しています。 クロスドメインデータセットは、(1)各ターゲットドメインのサンプルはソースドメイン対応を持ち、(2)2つのドメインは、同様のコンテンツ情報を共有するが、外観が異なる。 我々のPFS-GANは、ドメイン不変のコンテンツ特徴とドメイン固有の外観特徴からなる画像から、切り離された表現を学習することを目的としている。 さらに、外観特徴をシフトさせて構造的多様性を高めつつ、内容特徴に関係損失を導入する。 広範な実験により,複数のベースラインと比較して,高い多様性を持つ生成対象領域データに対する定量的・定性的結果が得られた。

We propose a Paired Few-shot GAN (PFS-GAN) model for learning generators with sufficient source data and a few target data. While generative model learning typically needs large-scale training data, our PFS-GAN not only uses the concept of few-shot learning but also domain shift to transfer the knowledge across domains, which alleviates the issue of obtaining low-quality generator when only trained with target domain data. The cross-domain datasets are assumed to have two properties: (1) each target-domain sample has its source-domain correspondence and (2) two domains share similar content information but different appearance. Our PFS-GAN aims to learn the disentangled representation from images, which composed of domain-invariant content features and domain-specific appearance features. Furthermore, a relation loss is introduced on the content features while shifting the appearance features to increase the structural diversity. Extensive experiments show that our method has better quantitative and qualitative results on the generated target-domain data with higher diversity in comparison to several baselines.
翻訳日:2021-02-27 08:47:36 公開日:2021-02-25
# (参考訳) 世界再訪ブロック:畳み込みニューラルネットワークによる自己閉塞が分類に及ぼす影響

Blocks World Revisited: The Effect of Self-Occlusion on Classification by Convolutional Neural Networks ( http://arxiv.org/abs/2102.12911v1 )

ライセンス: CC BY 4.0
Markus D. Solbach, John K. Tsotsos(参考訳) コンピュータビジョンの最近の成功にもかかわらず、探索する新しい道は残っています。 本研究では,深層ニューラルネットワークに対する自己閉塞の影響を調べるための新たなデータセットを提案する。 TEOS(The Effect of Self-Occlusion)では、3Dオブジェクトの幾何学的形状と自己閉塞の全体的課題に焦点を当てた3Dブロック世界データセットを提案する。 我々は、オブジェクト分類の文脈における自己閉塞の役割を調べるためにTEOSを設計した。 オブジェクトの分類では顕著な進歩が見られるが、自己排他は課題である。 現実世界では、3Dオブジェクトの自己閉塞は、ディープラーニングアプローチにとって重要な課題である。 しかし、人間は、例えば視点を変えたり、シーンを操作して必要な情報を収集するなど、複雑な戦略を展開することでこれに対処する。 TEOSでは,36と12のオブジェクトを含む2つの難易度(L1とL2)のデータセットを提示する。 対象物,マスク,被写体,カメラの位置,向き,自己閉塞量,および各対象物のCADモデルについて一様にサンプリングした738のビューを提供する。 5つのよく知られた分類ディープニューラルネットワークによるベースライン評価を提示し、TEOSがそれらすべてにとって重要な課題であることを示す。 データセットと事前訓練されたモデルは、科学コミュニティ向けにhttps://nvision2.data.eecs.yorku.ca/TEOSで公開されている。

Despite the recent successes in computer vision, there remain new avenues to explore. In this work, we propose a new dataset to investigate the effect of self-occlusion on deep neural networks. With TEOS (The Effect of Self-Occlusion), we propose a 3D blocks world dataset that focuses on the geometric shape of 3D objects and their omnipresent challenge of self-occlusion. We designed TEOS to investigate the role of self-occlusion in the context of object classification. Even though remarkable progress has been seen in object classification, self-occlusion is a challenge. In the real-world, self-occlusion of 3D objects still presents significant challenges for deep learning approaches. However, humans deal with this by deploying complex strategies, for instance, by changing the viewpoint or manipulating the scene to gather necessary information. With TEOS, we present a dataset of two difficulty levels (L1 and L2 ), containing 36 and 12 objects, respectively. We provide 738 uniformly sampled views of each object, their mask, object and camera position, orientation, amount of self-occlusion, as well as the CAD model of each object. We present baseline evaluations with five well-known classification deep neural networks and show that TEOS poses a significant challenge for all of them. The dataset, as well as the pre-trained models, are made publicly available for the scientific community under https://nvision2.data.eecs.yorku.ca/TEOS.
翻訳日:2021-02-27 08:35:40 公開日:2021-02-25
# (参考訳) IBRNet: マルチビューイメージベースのレンダリングの学習

IBRNet: Learning Multi-View Image-Based Rendering ( http://arxiv.org/abs/2102.13090v1 )

ライセンス: CC BY 4.0
Qianqian Wang, Zhicheng Wang, Kyle Genova, Pratul Srinivasan, Howard Zhou, Jonathan T. Barron, Ricardo Martin-Brualla, Noah Snavely, Thomas Funkhouser(参考訳) 本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。 本手法の核心は、多層パーセプトロンと、連続5次元位置(3次元空間位置と2次元視野方向)での放射率と体積密度を推定し、複数のソースビューからオンザフライの外観情報を描画するレイトランスを含むネットワークアーキテクチャである。 レンダリング時にソースビューを描画することで、このメソッドはイメージベースレンダリング(ibr)の古典的な作業に戻り、高解像度画像のレンダリングを可能にします。 レンダリングのためにシーンごとの機能を最適化するニューラルシーン表現作業とは異なり、新規シーンに一般化する汎用ビュー補間関数を学習する。 我々は、従来のボリュームレンダリングを使って画像をレンダリングし、完全に差別化可能であり、マルチビューのイメージのみを監督としてトレーニングすることができる。 実験により,本手法は,新しいシーンへの一般化を目指す最近の新しいビュー合成手法よりも優れていることが示された。 さらに,各シーンに微調整を施すと,最先端の単一シーンのニューラルレンダリング手法と競合する。

We present a method that synthesizes novel views of complex scenes by interpolating a sparse set of nearby views. The core of our method is a network architecture that includes a multilayer perceptron and a ray transformer that estimates radiance and volume density at continuous 5D locations (3D spatial locations and 2D viewing directions), drawing appearance information on the fly from multiple source views. By drawing on source views at render time, our method hearkens back to classic work on image-based rendering (IBR), and allows us to render high-resolution imagery. Unlike neural scene representation work that optimizes per-scene functions for rendering, we learn a generic view interpolation function that generalizes to novel scenes. We render images using classic volume rendering, which is fully differentiable and allows us to train using only multi-view posed images as supervision. Experiments show that our method outperforms recent novel view synthesis methods that also seek to generalize to novel scenes. Further, if fine-tuned on each scene, our method is competitive with state-of-the-art single-scene neural rendering methods.
翻訳日:2021-02-27 08:20:00 公開日:2021-02-25
# (参考訳) 未知部分可観測MDPのオンライン学習

Online Learning for Unknown Partially Observable MDPs ( http://arxiv.org/abs/2102.12661v1 )

ライセンス: CC BY 4.0
Mehdi Jafarnia-Jahromi, Rahul Jain, Ashutosh Nayyar(参考訳) 部分観測可能なマルコフ決定過程(POMDP)の解決は困難である。 モデルが未知のPOMDPのための最適コントローラの学習は困難である。 未知のPOMDPのための最適コントローラのオンライン学習は、探索と悪用を効果的にトレードオフする後悔最小化アルゴリズムを用いて効率よく学習する必要がある。 本稿では,未知の遷移モデルを持つ無限水平平均コストPMDPについて考察する。 本稿では,自然後続サンプリングに基づく強化学習アルゴリズム (pomdp-psrl) を提案し,$t$ が時間軸である場合には$o(t^{2/3}) を後悔することを示す。 私たちの知る限りでは、これはPOMDPのための初めてのオンラインRLアルゴリズムであり、サブ線形後悔の種である。

Solving Partially Observable Markov Decision Processes (POMDPs) is hard. Learning optimal controllers for POMDPs when the model is unknown is harder. Online learning of optimal controllers for unknown POMDPs, which requires efficient learning using regret-minimizing algorithms that effectively tradeoff exploration and exploitation, is even harder, and no solution exists currently. In this paper, we consider infinite-horizon average-cost POMDPs with unknown transition model, though known observation model. We propose a natural posterior sampling-based reinforcement learning algorithm (POMDP-PSRL) and show that it achieves $O(T^{2/3})$ regret where $T$ is the time horizon. To the best of our knowledge, this is the first online RL algorithm for POMDPs and has sub-linear regret.
翻訳日:2021-02-27 05:39:31 公開日:2021-02-25
# (参考訳) 複数のカーネルによる分散オンライン学習

Distributed Online Learning with Multiple Kernels ( http://arxiv.org/abs/2102.12733v1 )

ライセンス: CC BY 4.0
Jeongmin Chae and Songnam Hong(参考訳) 我々は、学習者のネットワーク上の非線形関数を完全に分散的に学習する問題を検討する。 オンライン学習は、すべての学習者がローカルで連続的なストリーミングデータを受け取ると仮定されます。 この学習モデルは、完全に分散したオンライン学習(または完全に分散したオンライン連合学習)と呼ばれる。 本モデルでは,複数のカーネルを持つ新しい学習フレームワークを提案し,DOMKLと命名した。 提案するdomklは,乗算器のオンライン交互方向法と分散ヘッジアルゴリズムの原理を応用して考案された。 T 時間スロット上の DOMKL が最適のサブリニア後悔を達成できることを理論的に証明し、ネットワーク内のすべての学習者が、後視における最高の関数とギャップが減少する共通関数を学習できることを暗示する。 分析の結果、domklは最先端の集中型アプローチと同じ漸近的なパフォーマンスを生み出しながら、ローカルデータをエッジ学習者に保持していることが明らかとなった。 実データを用いた数値実験により,オンライン回帰および時系列予測タスクにおける提案のdomklの有効性を実証する。

We consider the problem of learning a nonlinear function over a network of learners in a fully decentralized fashion. Online learning is additionally assumed, where every learner receives continuous streaming data locally. This learning model is called a fully distributed online learning (or a fully decentralized online federated learning). For this model, we propose a novel learning framework with multiple kernels, which is named DOMKL. The proposed DOMKL is devised by harnessing the principles of an online alternating direction method of multipliers and a distributed Hedge algorithm. We theoretically prove that DOMKL over T time slots can achieve an optimal sublinear regret, implying that every learner in the network can learn a common function which has a diminishing gap from the best function in hindsight. Our analysis also reveals that DOMKL yields the same asymptotic performance of the state-of-the-art centralized approach while keeping local data at edge learners. Via numerical tests with real datasets, we demonstrate the effectiveness of the proposed DOMKL on various online regression and time-series prediction tasks.
翻訳日:2021-02-27 04:19:33 公開日:2021-02-25
# (参考訳) 分類誤りを効果的に発見するための一般化した逆距離

Generalized Adversarial Distances to Efficiently Discover Classifier Errors ( http://arxiv.org/abs/2102.12844v1 )

ライセンス: CC BY 4.0
Walter Bennette, Sally Dufek, Karsten Maurer, Sean Sisti, Bunyod Tusmatov(参考訳) あるアプリケーションドメインからブラックボックス分類モデルとラベルなしの評価データセットを与えられた場合、モデルを評価するために効率的な戦略を開発する必要があります。 ランダムサンプリングにより、精度、精度、リコールなどのメトリクスを推定できるが、信頼性の高いエラーに対する洞察は提供されない。 高信頼エラーは、モデルがその予測に非常に自信を持っているが間違っている稀な出来事である。 このようなエラーはコストのかかる誤りを表現でき、明示的に検索されるべきである。 本稿では,機械学習の概念を活用し,分類器が過度に自信を持つ可能性のある予測を同定する,敵距離探索の一般化を提案する。 これらの予測は、予想よりも高いエラー率になりやすいため、信頼性の高いエラーを探しているときにサンプルに役立ちます。 当社の一般化により、Adversarial Distanceはあらゆる分類器やデータドメインに適用できます。 実験結果から, サンプル予測の信頼性を考慮し, 予測値よりも高い誤差が得られ, 競合手法よりも優れていた。

Given a black-box classification model and an unlabeled evaluation dataset from some application domain, efficient strategies need to be developed to evaluate the model. Random sampling allows a user to estimate metrics like accuracy, precision, and recall, but may not provide insight to high-confidence errors. High-confidence errors are rare events for which the model is highly confident in its prediction, but is wrong. Such errors can represent costly mistakes and should be explicitly searched for. In this paper we propose a generalization to the Adversarial Distance search that leverages concepts from adversarial machine learning to identify predictions for which a classifier may be overly confident. These predictions are useful instances to sample when looking for high-confidence errors because they are prone to a higher rate of error than expected. Our generalization allows Adversarial Distance to be applied to any classifier or data domain. Experimental results show that the generalized method finds errors at rates greater than expected given the confidence of the sampled predictions, and outperforms competing methods.
翻訳日:2021-02-27 03:01:08 公開日:2021-02-25
# (参考訳) 補助タスクが表現ダイナミクスに及ぼす影響について

On The Effect of Auxiliary Tasks on Representation Dynamics ( http://arxiv.org/abs/2102.13089v1 )

ライセンス: CC BY 4.0
Clare Lyle, Mark Rowland, Georg Ostrovski, Will Dabney(参考訳) 補助タスクは強化学習エージェントによって学習された表現を形成する上で重要な役割を果たしますが、これが達成されるメカニズムについてはまだ不明です。 本研究は,時間差アルゴリズムのダイナミクスを解析することにより,補助的タスク,環境構造,表現の関係の理解を深める。 このアプローチにより、遷移作用素のスペクトル分解と、様々な補助タスクによって誘導される表現との接続を確立します。 次に,これらの理論結果から得られた知見を活用し,疎外環境における深層強化学習エージェントの補助タスクの選択を知らせる。

While auxiliary tasks play a key role in shaping the representations learnt by reinforcement learning agents, much is still unknown about the mechanisms through which this is achieved. This work develops our understanding of the relationship between auxiliary tasks, environment structure, and representations by analysing the dynamics of temporal difference algorithms. Through this approach, we establish a connection between the spectral decomposition of the transition operator and the representations induced by a variety of auxiliary tasks. We then leverage insights from these theoretical results to inform the selection of auxiliary tasks for deep reinforcement learning agents in sparse-reward environments.
翻訳日:2021-02-27 02:27:55 公開日:2021-02-25
# (参考訳) オンライン社会認知を理解するための認知ネットワーク科学:短いレビュー

Cognitive network science for understanding online social cognitions: A brief review ( http://arxiv.org/abs/2102.12799v1 )

ライセンス: CC BY 4.0
Massimo Stella(参考訳) ソーシャルメディアは、タイムラインや感情的コンテンツの観点から、大量のユーザーの認知をデジタル化している。 このようなビッグデータは、知覚、パーソナリティ、情報拡散といった認知現象を調査する前例のない機会を開くが、適切な解釈可能な枠組みを必要とする。 ソーシャルメディアのデータはユーザの心から来ているため、この課題にふさわしい候補は認知ネットワーク、認知のモデルが精神的な概念的関連に構造を与える。 This work outlines how cognitive network science can open new, quantitative ways for understanding cognition through online media, like: (i) reconstructing how users semantically and emotionally frame events with contextual knowledge unavailable to machine learning, (ii) investigating conceptual salience/prominence through knowledge structure in social discourse; (iii) studying users' personality traits like openness-to-experience, curiosity, and creativity through language in posts; (iv) bridging cognitive/emotional content and social dynamics via multilayer networks comparing the mindsets of influencers and followers. これらの進歩は、認知、ネットワーク、コンピュータ科学を組み合わせて、デジタルおよび現実世界の両方の設定における認知メカニズムを理解するが、代表性、個人可変性およびデータ統合に関する制限が伴う。 このような側面は、社会認知データを操作することの倫理的意義に沿って議論される。 将来的には、ネットワークやソーシャルメディアを通じての認識を読むことで、オンラインプラットフォームによって増幅された認知バイアスを露呈し、大規模で複雑な認知トレンドについてポリシー作りや教育、市場に対して適切な通知を行うことができる。

Social media are digitalising massive amounts of users' cognitions in terms of timelines and emotional content. Such Big Data opens unprecedented opportunities for investigating cognitive phenomena like perception, personality and information diffusion but requires suitable interpretable frameworks. Since social media data come from users' minds, worthy candidates for this challenge are cognitive networks, models of cognition giving structure to mental conceptual associations. This work outlines how cognitive network science can open new, quantitative ways for understanding cognition through online media, like: (i) reconstructing how users semantically and emotionally frame events with contextual knowledge unavailable to machine learning, (ii) investigating conceptual salience/prominence through knowledge structure in social discourse; (iii) studying users' personality traits like openness-to-experience, curiosity, and creativity through language in posts; (iv) bridging cognitive/emotional content and social dynamics via multilayer networks comparing the mindsets of influencers and followers. These advancements combine cognitive-, network- and computer science to understand cognitive mechanisms in both digital and real-world settings but come with limitations concerning representativeness, individual variability and data integration. Such aspects are discussed along the ethical implications of manipulating socio-cognitive data. In the future, reading cognitions through networks and social media can expose cognitive biases amplified by online platforms and relevantly inform policy making, education and markets about massive, complex cognitive trends.
翻訳日:2021-02-27 02:26:59 公開日:2021-02-25
# (参考訳) コンテキスト視覚マッピングのためのシーン検索

Scene Retrieval for Contextual Visual Mapping ( http://arxiv.org/abs/2102.12728v1 )

ライセンス: CC BY 4.0
William H. B. Smith, Michael Milford, Klaus D. McDonald-Maier, Shoaib Ehsan(参考訳) ビジュアルナビゲーションは「ビジュアルマップ」としても知られる場所画像の参照データベースに対してクエリプレース画像をローカライズする。 視覚的マップの特定の領域における局所化精度の要件である「シーンクラス」は、環境やタスクの文脈によって異なる。 最先端のビジュアルマッピングは、マップに含めるシーンクラスを明示的にターゲットすることで、これらの要求を反映できない。 歩行者と駅を含む4つの異なるシーンクラスが、北ランドとセントルシアの各データセットで識別されている。 これらの重なり合うシーンクラスに苦しむ別々のシーン分類器を再トレーニングする代わりに、最初の貢献をする: 'scene retrieval' の問題を定義する。 シーン検索は、シーンクラスの参照画像に単一のクエリイメージを関連付けることで、テスト時に定義されたシーンの分類に画像検索を拡張する。 第2の貢献は、シーン認識のために事前訓練された最先端ネットワークに対して、シーン分類の精度を最大7%向上させる3重学習畳み込みニューラルネットワーク(CNN)である。 第2の貢献は、視覚マッピングのためのシーン分類と距離と記憶可能性を組み合わせたアルゴリズム「DMC」である。 分析の結果,dmcは距離間隔マッピングを用いた場合よりも,選択したシーンクラスのイメージを64%多く含むことがわかった。 最新のビジュアル・プレイス・ディスクリプタであるAMOS-Net、Hybrid-Net、NetVLADは、DMCがシーンクラスのローカリゼーションの精度を3%向上し、残りのマップ画像のローカリゼーション精度を両方のデータセットで平均10%向上させることを示しています。

Visual navigation localizes a query place image against a reference database of place images, also known as a `visual map'. Localization accuracy requirements for specific areas of the visual map, `scene classes', vary according to the context of the environment and task. State-of-the-art visual mapping is unable to reflect these requirements by explicitly targetting scene classes for inclusion in the map. Four different scene classes, including pedestrian crossings and stations, are identified in each of the Nordland and St. Lucia datasets. Instead of re-training separate scene classifiers which struggle with these overlapping scene classes we make our first contribution: defining the problem of `scene retrieval'. Scene retrieval extends image retrieval to classification of scenes defined at test time by associating a single query image to reference images of scene classes. Our second contribution is a triplet-trained convolutional neural network (CNN) to address this problem which increases scene classification accuracy by up to 7% against state-of-the-art networks pre-trained for scene recognition. The second contribution is an algorithm `DMC' that combines our scene classification with distance and memorability for visual mapping. Our analysis shows that DMC includes 64% more images of our chosen scene classes in a visual map than just using distance interval mapping. State-of-the-art visual place descriptors AMOS-Net, Hybrid-Net and NetVLAD are finally used to show that DMC improves scene class localization accuracy by a mean of 3% and localization accuracy of the remaining map images by a mean of 10% across both datasets.
翻訳日:2021-02-27 02:02:47 公開日:2021-02-25
# (参考訳) フェデレーション学習における新興トレンド:モデル融合からフェデレーションX学習へ

Emerging Trends in Federated Learning: From Model Fusion to Federated X Learning ( http://arxiv.org/abs/2102.12920v1 )

ライセンス: CC BY 4.0
Shaoxiong Ji and Teemu Saravirta and Shirui Pan and Guodong Long and Anwar Walid(参考訳) フェデレーションラーニングは、データ収集とモデルトレーニングをマルチパーティ計算とモデルアグリゲーションで分離する新しい学習パラダイムである。 柔軟な学習環境として、連合学習は他の学習フレームワークと統合する可能性がある。 他の学習アルゴリズムと連動した連合学習の集中調査を実施します。 具体的には,バニラフェデレーション平均化アルゴリズムの改良と適応アグリゲーション,正規化,クラスタ化法,ベイズ法などのモデル融合手法の見直しについて検討する。 また,近年のトレンドに続き,マルチタスク学習,メタラーニング,トランスファーラーニング,教師なし学習,強化学習などを含む,他の学習パラダイムとの交点におけるフェデレーション学習についても論じている。 本調査は,芸術の現状,課題,今後の方向性を概観する。

Federated learning is a new learning paradigm that decouples data collection and model training via multi-party computation and model aggregation. As a flexible learning setting, federated learning has the potential to integrate with other learning frameworks. We conduct a focused survey of federated learning in conjunction with other learning algorithms. Specifically, we explore various learning algorithms to improve the vanilla federated averaging algorithm and review model fusion methods such as adaptive aggregation, regularization, clustered methods, and Bayesian methods. Following the emerging trends, we also discuss federated learning in the intersection with other learning paradigms, termed as federated x learning, where x includes multitask learning, meta-learning, transfer learning, unsupervised learning, and reinforcement learning. This survey reviews the state of the art, challenges, and future directions.
翻訳日:2021-02-27 01:04:12 公開日:2021-02-25
# (参考訳) 二元ブラックホール系の軌道力学は重力波測定から学ぶことができる

Orbital dynamics of binary black hole systems can be learned from gravitational wave measurements ( http://arxiv.org/abs/2102.12695v1 )

ライセンス: CC BY 4.0
Brendan Keith, Akshay Khadse, Scott E. Field(参考訳) 2次ブラックホール(BBH)系の力学モデルを発見する重力波形反転戦略を紹介します。 BBHシステムの動作方程式を構築するためには,1つの時系列(おそらくノイズの多い)波形データのみが必要であることを示す。 フィードフォワードニューラルネットワークによってパラメータ化される普遍微分方程式のクラスから始め、この戦略は、可算な力学モデルの空間の構築と、波形誤差を最小化するためにその空間内で物理学的に変形した制約付き最適化を含む。 偏心軌道および非偏心軌道における極端質量比系を含む様々なBBH系に本手法を適用した。 得られた微分方程式はトレーニング間隔よりも長い時間に適用されることを示すとともに, 近日点沈降, 放射反応, 軌道衝突などの相対論的効果を自動的に考慮する。 ここで概説する手法は、連星ブラックホール系のダイナミクスを研究する新しいデータ駆動アプローチを提供する。

We introduce a gravitational waveform inversion strategy that discovers mechanical models of binary black hole (BBH) systems. We show that only a single time series of (possibly noisy) waveform data is necessary to construct the equations of motion for a BBH system. Starting with a class of universal differential equations parameterized by feed-forward neural networks, our strategy involves the construction of a space of plausible mechanical models and a physics-informed constrained optimization within that space to minimize the waveform error. We apply our method to various BBH systems including extreme and comparable mass ratio systems in eccentric and non-eccentric orbits. We show the resulting differential equations apply to time durations longer than the training interval, and relativistic effects, such as perihelion precession, radiation reaction, and orbital plunge, are automatically accounted for. The methods outlined here provide a new, data-driven approach to studying the dynamics of binary black hole systems.
翻訳日:2021-02-26 22:15:25 公開日:2021-02-25
# (参考訳) 夜間オーディオ記録からのOSA関連スノーリング信号の自動分類

Automatic Classification of OSA related Snoring Signals from Nocturnal Audio Recordings ( http://arxiv.org/abs/2102.12829v1 )

ライセンス: CC BY 4.0
Arun Sebastian, Peter A. Cistulli, Gary Cohen, Philip de Chazal(参考訳) 本研究は, 閉塞性睡眠時無呼吸症(OSA)患者の夜間音声記録をOSA関連スノア, 単純スノア, その他の音に分類するための自動アルゴリズムの開発である。 最近の研究では、OSA関連スヌールに関する知識が気道崩壊部位の特定に役立つことが示されている。 天井マイクロホンによる睡眠中, フルナイトポリソムノグラフィと同時に音声信号が記録された。 夜間音声信号の時間および周波数特性を抽出し、音声信号をOSA関連スネア、簡易スネアおよび他の音に分類した。 OSA関連スヌーリングが上方気道崩壊の特定に役立つという仮説に基づいて, 線形識別分析(LDA)分類器を用いてOSA関連スヌーアを抽出するアルゴリズムを開発した。 完全な機能セットからハイパフォーマンスな機能セットを選択するために、未偏りのnested leave-one の患者なしのクロスバリデーションプロセスが使用された。 その結果,音声記録からスノーアイベントを同定する精度は87%,OSA関連スノーアイベントをスノーアイベントから同定する精度は72%であった。 マルチクラスLDA分類器を用いてOSA関連スノアイベントを抽出する直接手法は,特徴選択アルゴリズムを用いて64%の精度を実現した。 以上の結果から, 夜間音声記録からOSA関連スノアイベントを抽出できることが明らかとなり, 夜間音声記録から気道崩壊箇所を同定するための新しいツールとして利用できる可能性が示唆された。

In this study, the development of an automatic algorithm is presented to classify the nocturnal audio recording of an obstructive sleep apnoea (OSA) patient as OSA related snore, simple snore and other sounds. Recent studies has been shown that knowledge regarding the OSA related snore could assist in identifying the site of airway collapse. Audio signal was recorded simultaneously with full-night polysomnography during sleep with a ceiling microphone. Time and frequency features of the nocturnal audio signal were extracted to classify the audio signal into OSA related snore, simple snore and other sounds. Two algorithms were developed to extract OSA related snore using an linear discriminant analysis (LDA) classifier based on the hypothesis that OSA related snoring can assist in identifying the site-of-upper airway collapse. An unbiased nested leave-one patient-out cross-validation process was used to select a high performing feature set from the full set of features. Results indicated that the algorithm achieved an accuracy of 87% for identifying snore events from the audio recordings and an accuracy of 72% for identifying OSA related snore events from the snore events. The direct method to extract OSA-related snore events using a multi-class LDA classifier achieved an accuracy of 64% using the feature selection algorithm. Our results gives a clear indication that OSA-related snore events can be extracted from nocturnal sound recordings, and therefore could potentially be used as a new tool for identifying the site of airway collapse from the nocturnal audio recordings.
翻訳日:2021-02-26 21:53:55 公開日:2021-02-25
# (参考訳) 分布自由ロバスト線形回帰

Distribution-Free Robust Linear Regression ( http://arxiv.org/abs/2102.12919v1 )

ライセンス: CC BY 4.0
Jaouad Mourtada and Tomas Va\v{s}kevi\v{c}ius and Nikita Zhivotovskiy(参考訳) 我々は,共変体の分布を仮定せず,重尾応答変数を用いてランダムな設計線形回帰を研究する。 共変体の仮定なしに学習する場合、応答変数の条件付き第2モーメントの境界性は、収束の偏差最適過剰リスク率を達成するために必要かつ十分な条件として確立される。 特に,最小二乗法,平均中央値法,凝集理論の考え方を組み合わせることで,次数$d/n$ の過大なリスクを最適部分指数尾と達成する非線形推定器を構築する。 重み付き分布の下で線形クラスを学習する既存のアプローチは適切な推定子に焦点を当てているが、本研究で検討されている分布自由設定における非自明な保証を達成するためには、推定子の不適切性が必要であることを強調する。 最後に、解析の副産物として、Gy\"{o}rfi, Kohler, Krzyzak, Walk によるtruncated least squares estimator に対する古典有界の最適バージョンを証明する。

We study random design linear regression with no assumptions on the distribution of the covariates and with a heavy-tailed response variable. When learning without assumptions on the covariates, we establish boundedness of the conditional second moment of the response variable as a necessary and sufficient condition for achieving deviation-optimal excess risk rate of convergence. In particular, combining the ideas of truncated least squares, median-of-means procedures and aggregation theory, we construct a non-linear estimator achieving excess risk of order $d/n$ with the optimal sub-exponential tail. While the existing approaches to learning linear classes under heavy-tailed distributions focus on proper estimators, we highlight that the improperness of our estimator is necessary for attaining non-trivial guarantees in the distribution-free setting considered in this work. Finally, as a byproduct of our analysis, we prove an optimal version of the classical bound for the truncated least squares estimator due to Gy\"{o}rfi, Kohler, Krzyzak, and Walk.
翻訳日:2021-02-26 21:42:16 公開日:2021-02-25
# (参考訳) 入力勾配はハイライトの識別的特徴か?

Do Input Gradients Highlight Discriminative Features? ( http://arxiv.org/abs/2102.12781v1 )

ライセンス: CC BY 4.0
Harshay Shah, Prateek Jain, Praneeth Netrapalli(参考訳) インスタンス固有のモデル予測を説明する解釈可能性手法 [Simonyan et al]。 2014年、Smilkovら。 2017] 多くの場合、入力勾配(入力に対する損失の勾配)は、予測に関係のない非差別的特徴に対する予測に関連する識別的特徴を強調しているという前提に基づいています。 In this work, we introduce an evaluation framework to study this hypothesis for benchmark image classification tasks, and make two surprising observations on CIFAR-10 and Imagenet-10 datasets: (a) contrary to conventional wisdom, input gradients of standard models (i.e., trained on the original data) actually highlight irrelevant features over relevant features; (b) however, input gradients of adversarially robust models (i.e., trained on adversarially perturbed data) starkly highlight relevant features over irrelevant features. 入力勾配をよりよく理解するために、我々は合成テストベッドを導入し、理論的には反直感的な経験的発見を正当化する。 評価フレームワークと合成データセットは、インスタンス固有の解釈可能性メソッドを厳格に分析するためのテストベッドとして機能しています。

Interpretability methods that seek to explain instance-specific model predictions [Simonyan et al. 2014, Smilkov et al. 2017] are often based on the premise that the magnitude of input-gradient -- gradient of the loss with respect to input -- highlights discriminative features that are relevant for prediction over non-discriminative features that are irrelevant for prediction. In this work, we introduce an evaluation framework to study this hypothesis for benchmark image classification tasks, and make two surprising observations on CIFAR-10 and Imagenet-10 datasets: (a) contrary to conventional wisdom, input gradients of standard models (i.e., trained on the original data) actually highlight irrelevant features over relevant features; (b) however, input gradients of adversarially robust models (i.e., trained on adversarially perturbed data) starkly highlight relevant features over irrelevant features. To better understand input gradients, we introduce a synthetic testbed and theoretically justify our counter-intuitive empirical findings. Our observations motivate the need to formalize and verify common assumptions in interpretability, while our evaluation framework and synthetic dataset serve as a testbed to rigorously analyze instance-specific interpretability methods.
翻訳日:2021-02-26 21:00:43 公開日:2021-02-25
# (参考訳) 簡単な算術課題による変圧器の限界の検討

Investigating the Limitations of the Transformers with Simple Arithmetic Tasks ( http://arxiv.org/abs/2102.13019v1 )

ライセンス: CC BY 4.0
Rodrigo Nogueira, Zhiying Jiang, Jimmy Li(参考訳) 算術タスクを実行する能力は、人間の知性の驚くべき特徴であり、より複雑な推論タスクの重要な構成要素となる可能性がある。 本研究では,数の表面形式が,列列から列への言語モデルが,広い範囲の値に対する加算や減算といった単純な算術的タスクをどのように学習するかについて検討する。 その結果,表層形状における数値の表現方法がモデルの精度に強い影響を与えていることがわかった。 特に、サブワード(例えば「32」)を使用する場合、5桁の数字を追加するのに失敗し、文字レベルの表現(例えば「3 2」)を学ぶのに苦労している。 位置トークン("3 10e1 2"など)を導入することで、モデルは60桁までの正確な数字の追加と減算を学習する。 我々は,現代事前学習型言語モデルは,適切な曲面表現を使用する限り,ごく少数の例から容易に算術を学習できると結論付けた。 この結果は、サブワードのトークン化と位置符号化が現在のトランスフォーマー設計の要素であることを示す証拠となる。 さらに、パラメータの数やトレーニング例に関わらず、トレーニング中に見られる数の長さに依存しない追加ルールを学習できないことを示す。 実験を再現するコードはhttps://github.com/castorini/transformers-arithmeticで公開されている。

The ability to perform arithmetic tasks is a remarkable trait of human intelligence and might form a critical component of more complex reasoning tasks. In this work, we investigate if the surface form of a number has any influence on how sequence-to-sequence language models learn simple arithmetic tasks such as addition and subtraction across a wide range of values. We find that how a number is represented in its surface form has a strong influence on the model's accuracy. In particular, the model fails to learn addition of five-digit numbers when using subwords (e.g., "32"), and it struggles to learn with character-level representations (e.g., "3 2"). By introducing position tokens (e.g., "3 10e1 2"), the model learns to accurately add and subtract numbers up to 60 digits. We conclude that modern pretrained language models can easily learn arithmetic from very few examples, as long as we use the proper surface representation. This result bolsters evidence that subword tokenizers and positional encodings are components in current transformer designs that might need improvement. Moreover, we show that regardless of the number of parameters and training examples, models cannot learn addition rules that are independent of the length of the numbers seen during training. Code to reproduce our experiments is available at https://github.com/castorini/transformers-arithmetic
翻訳日:2021-02-26 18:22:38 公開日:2021-02-25
# (参考訳) 深部ニューラルネットワークのロバスト性と解釈性向上のための検索拡張

Retrieval Augmentation to Improve Robustness and Interpretability of Deep Neural Networks ( http://arxiv.org/abs/2102.13030v1 )

ライセンス: CC BY 4.0
Rita Parada Ramos, Patr\'icia Pereira, Helena Moniz, Joao Paulo Carvalho, Bruno Martins(参考訳) ディープニューラルネットワークモデルは、視覚や言語に関連する様々なタスクで最先端の結果を達成しています。 大規模なトレーニングデータを使用するにもかかわらず、ほとんどのモデルは単一の入出力ペアを反復することでトレーニングされ、現在の予測の残りの例は破棄される。 本研究では,学習データを用いて深層ニューラルネットワークのロバスト性や解釈性を向上させるとともに,最寄りのトレーニング例の情報を用いて,トレーニングとテストの両方における予測を支援する。 具体的には、LSTMモデルのメモリ状態を初期化したり、注意機構を誘導するために、最も近い入力例のターゲットを用いる。 本手法は画像キャプションと感情分析に応用し,画像検索とテキスト検索の両方で実験を行う。 その結果、Flickr8とIMDBデータセットの2つのタスクに対して提案されたモデルの有効性が示された。 コードはhttp://github.com/RitaRamo/retrieval-augmentation-nnで公開されています。

Deep neural network models have achieved state-of-the-art results in various tasks related to vision and/or language. Despite the use of large training data, most models are trained by iterating over single input-output pairs, discarding the remaining examples for the current prediction. In this work, we actively exploit the training data to improve the robustness and interpretability of deep neural networks, using the information from nearest training examples to aid the prediction both during training and testing. Specifically, the proposed approach uses the target of the nearest input example to initialize the memory state of an LSTM model or to guide attention mechanisms. We apply this approach to image captioning and sentiment analysis, conducting experiments with both image and text retrieval. Results show the effectiveness of the proposed models for the two tasks, on the widely used Flickr8 and IMDB datasets, respectively. Our code is publicly available http://github.com/RitaRamo/retrieval-augmentation-nn.
翻訳日:2021-02-26 18:02:38 公開日:2021-02-25
# (参考訳) ロバストグラフコントラスト学習に向けて

Towards Robust Graph Contrastive Learning ( http://arxiv.org/abs/2102.13085v1 )

ライセンス: CC BY 4.0
Nikola Jovanovi\'c, Zhao Meng, Lukas Faber, Roger Wattenhofer(参考訳) 対比的に堅牢な自己監督学習の問題をグラフ上で研究する。 対照的な学習フレームワークでは、学習した表現の対角的堅牢性を高める新しい手法を導入し、(i) 逆変換と(i) エッジを除去するだけでなく、挿入する変換を導入する。 予備実験で得られた表現を評価し,有望な結果を得た。 この作業は、グラフのコントラスト学習において実行可能な補助タスクとして堅牢性を取り入れる重要なステップであると考えています。

We study the problem of adversarially robust self-supervised learning on graphs. In the contrastive learning framework, we introduce a new method that increases the adversarial robustness of the learned representations through i) adversarial transformations and ii) transformations that not only remove but also insert edges. We evaluate the learned representations in a preliminary set of experiments, obtaining promising results. We believe this work takes an important step towards incorporating robustness as a viable auxiliary task in graph contrastive learning.
翻訳日:2021-02-26 17:50:19 公開日:2021-02-25
# (参考訳) 概念ベース機械学習における解釈可能性と類似性について

On Interpretability and Similarity in Concept-Based Machine Learning ( http://arxiv.org/abs/2102.12723v1 )

ライセンス: CC BY 4.0
L\'eonard Kwuida and Dmitry I. Ignatov(参考訳) 機械学習(ML)は分類と予測に重要な技術を提供します。 それらの多くはユーザのためのブラックボックスモデルであり、意思決定者に説明を与えていない。 透明性や意思決定の妥当性を高めるために、説明可能/解釈可能なMLメソッドを開発する必要性がますます重要になっています。 MLプロシージャは、特定のエンティティのクラスをどのように導出しますか? なぜ特定のクラスタリングが、特定の教師なしMLプロシージャから現れるのか? 属性の数が非常に多い場合、何ができますか? 具体的なケースやモデルの間違いの原因は何ですか? 二項属性に対して、形式概念解析(FCA)は形式概念の意図の観点から技術を提供し、モデル予測のもっともらしい理由を提供する。 しかし、解釈可能な機械学習の観点からは、特定の対象の分類における個々の属性の重要性を意思決定者に提供する必要がある。 本稿では,協調ゲーム理論の概念を用いて,概念ベース機械学習における分類・クラスタリングプロセスにおける個々の属性の寄与を評価する方法について論じる。 第3の質問に対処するために、大きなコンテキストにおける類似性を用いて属性数を減らす方法を提案する。

Machine Learning (ML) provides important techniques for classification and predictions. Most of these are black-box models for users and do not provide decision-makers with an explanation. For the sake of transparency or more validity of decisions, the need to develop explainable/interpretable ML-methods is gaining more and more importance. Certain questions need to be addressed: How does an ML procedure derive the class for a particular entity? Why does a particular clustering emerge from a particular unsupervised ML procedure? What can we do if the number of attributes is very large? What are the possible reasons for the mistakes for concrete cases and models? For binary attributes, Formal Concept Analysis (FCA) offers techniques in terms of intents of formal concepts, and thus provides plausible reasons for model prediction. However, from the interpretable machine learning viewpoint, we still need to provide decision-makers with the importance of individual attributes to the classification of a particular object, which may facilitate explanations by experts in various domains with high-cost errors like medicine or finance. We discuss how notions from cooperative game theory can be used to assess the contribution of individual attributes in classification and clustering processes in concept-based machine learning. To address the 3rd question, we present some ideas on how to reduce the number of attributes using similarities in large contexts.
翻訳日:2021-02-26 17:38:16 公開日:2021-02-25
# (参考訳) LazyFormer: Lazy Updateによる自己注意

LazyFormer: Self Attention with Lazy Update ( http://arxiv.org/abs/2102.12702v1 )

ライセンス: CC BY 4.0
Chengxuan Ying, Guolin Ke, Di He, Tie-Yan Liu(参考訳) トランスフォーマーベースの言語事前学習の効率性の向上は、特に計算コストのかかる自己保持モジュールにおいて、NLPにおいて重要な課題である。 本稿では, 自己注意分布を頻繁に計算する, 単純で効果的な解法である \emph{LazyFormer} を提案する。 LazyFormerは複数の遅延ブロックで構成され、それぞれが複数のTransformerレイヤを含む。 各遅延ブロックでは、自己アテンション分布は第1層で1回のみ計算され、その後すべての上層で再利用される。 このように、計算のコストは大幅に節約できます。 LazyFormerのトレーニングトリックもいくつか提供しています。 提案手法の有効性を広範な実験で実証した。

Improving the efficiency of Transformer-based language pre-training is an important task in NLP, especially for the self-attention module, which is computationally expensive. In this paper, we propose a simple but effective solution, called \emph{LazyFormer}, which computes the self-attention distribution infrequently. LazyFormer composes of multiple lazy blocks, each of which contains multiple Transformer layers. In each lazy block, the self-attention distribution is only computed once in the first layer and then is reused in all upper layers. In this way, the cost of computation could be largely saved. We also provide several training tricks for LazyFormer. Extensive experiments demonstrate the effectiveness of the proposed method.
翻訳日:2021-02-26 17:10:15 公開日:2021-02-25
# (参考訳) スペイン語の生体医学および臨床言語埋め込み

Spanish Biomedical and Clinical Language Embeddings ( http://arxiv.org/abs/2102.12843v1 )

ライセンス: CC BY 4.0
Asier Guti\'errez-Fandi\~no, Jordi Armengol-Estap\'e, Casimiro Pio Carrino, Ona De Gibert, Aitor Gonzalez-Agirre, Marta Villegas(参考訳) FastText を使用して Word と Sub-word Embedding の両方を計算しました。 サブワード埋め込みでは、サブワードを表すByte Pair Encoding (BPE)アルゴリズムを選びました。 バイオメディカル・ワード・エンベディングは,従来のバージョンよりも優れた結果が得られ,データ量が増えると表現性が向上することを示した。

We computed both Word and Sub-word Embeddings using FastText. For Sub-word embeddings we selected Byte Pair Encoding (BPE) algorithm to represent the sub-words. We evaluated the Biomedical Word Embeddings obtaining better results than previous versions showing the implication that with more data, we obtain better representations.
翻訳日:2021-02-26 16:56:52 公開日:2021-02-25
# (参考訳) ROAD:自動運転のためのROADイベント認識データセット

ROAD: The ROad event Awareness Dataset for Autonomous Driving ( http://arxiv.org/abs/2102.11585v2 )

ライセンス: CC BY 4.0
Gurkirt Singh, Stephen Akrigg, Manuele Di Maio, Valentina Fontana, Reza Javanmard Alitappeh, Suman Saha, Kossar Jeddisaravi, Farzad Yousefi, Jacob Culley, Tom Nicholson, Jordan Omokeowa, Salman Khan, Stanislao Grazioso, Andrew Bradley, Giuseppe Di Gironimo, Fabio Cuzzolin(参考訳) 人間は、特に道路イベントとその進化を理解することを伴う総合的な方法で運転にアプローチする。 これらの機能を自動運転車に投入することで、状況認識と意思決定を人間レベルのパフォーマンスに近づける可能性があります。 この目的のために、我々は、自動運転のためのROADイベントAwareness Dataset(ROAD)を私たちの知識に紹介する。 ROADは、移動エージェント、実行するアクション、および対応するシーンの位置で構成されたトリプレットとして定義された、道路イベントを検出する自律車両の能力をテストするように設計されています。 ROADは、もともとOxford RobotCar Datasetからの22のビデオで構成されており、各道路イベントのイメージプレーン内の位置を示すバウンディングボックスがアノテートされている。 また、オンライン道路イベント認識のための新たなインクリメンタルアルゴリズムとして、時間とともに膨張するRetinaNetをベースとして、フレームレベルおよびビデオレベルのイベント検出において平均16.8%と6.1%の平均精度を50%のオーバーラップで達成する。 これらの数字は有望だが、自動運転における状況認識が直面する課題を強調している。 最後に、道路学者は複雑な(道路)活動の検出、将来の道路イベント予測、精神状態の感覚的な道路エージェントのモデル化といったエキサイティングなタスクを研究できる。 データセットは https://github.com/gurkirt/road-dataset から取得でき、ベースラインコードは https://github.com/gurkirt/3D-RetinaNet から取得できます。

Humans approach driving in a holistic fashion which entails, in particular, understanding road events and their evolution. Injecting these capabilities in an autonomous vehicle has thus the potential to take situational awareness and decision making closer to human-level performance. To this purpose, we introduce the ROad event Awareness Dataset (ROAD) for Autonomous Driving, to our knowledge the first of its kind. ROAD is designed to test an autonomous vehicle's ability to detect road events, defined as triplets composed by a moving agent, the action(s) it performs and the corresponding scene locations. ROAD comprises 22 videos, originally from the Oxford RobotCar Dataset, annotated with bounding boxes showing the location in the image plane of each road event. We also provide as baseline a new incremental algorithm for online road event awareness, based on inflating RetinaNet along time, which achieves a mean average precision of 16.8% and 6.1% for frame-level and video-level event detection, respectively, at 50% overlap. Though promising, these figures highlight the challenges faced by situation awareness in autonomous driving. Finally, ROAD allows scholars to investigate exciting tasks such as complex (road) activity detection, future road event anticipation and the modelling of sentient road agents in terms of mental states. Dataset can be obtained from https://github.com/gurkirt/road-dataset and baseline code from https://github.com/gurkirt/3D-RetinaNet.
翻訳日:2021-02-26 15:37:02 公開日:2021-02-25
# (参考訳) Hopeful_Men@LT-EDI-EACL2021: Indic TransliterationとTransformersを用いた希望の音声検出

Hopeful_Men@LT-EDI-EACL2021: Hope Speech Detection Using Indic Transliteration and Transformers ( http://arxiv.org/abs/2102.12082v2 )

ライセンス: CC BY 4.0
Ishan Sanjeev Upadhyay, Nikhil E, Anshul Wadhawan, Radhika Mamidi(参考訳) 本論文では,HopeEDIデータセットにおける希望の発話検出に用いたアプローチについて述べる。 私たちは2つのアプローチを実験した。 第1のアプローチでは,ロジスティック回帰,ランダムフォレスト,SVM,LSTMモデルを用いた分類器の学習にコンテキスト埋め込みを用い,第2のアプローチでは,出力層を追加して事前学習したトランスフォーマーモデル (BERT, ALBERT, RoBERTa, IndicBERT) を微調整して得られた11モデルの多数投票アンサンブルを用いた。 第2のアプローチは、英語、タミル語、マラヤラム語よりも優れていることが分かりました。 我々の解は、それぞれ英語、マラヤラム、タミルの重み付きF1スコア0.93、0.75、0.49を得た。 私たちのソリューションは英語で第1位、マラヤラムで第8位、タミルで第11位でした。

This paper aims to describe the approach we used to detect hope speech in the HopeEDI dataset. We experimented with two approaches. In the first approach, we used contextual embeddings to train classifiers using logistic regression, random forest, SVM, and LSTM based models.The second approach involved using a majority voting ensemble of 11 models which were obtained by fine-tuning pre-trained transformer models (BERT, ALBERT, RoBERTa, IndicBERT) after adding an output layer. We found that the second approach was superior for English, Tamil and Malayalam. Our solution got a weighted F1 score of 0.93, 0.75 and 0.49 for English,Malayalam and Tamil respectively. Our solution ranked first in English, eighth in Malayalam and eleventh in Tamil.
翻訳日:2021-02-26 15:02:21 公開日:2021-02-25
# (参考訳) 物体検出のための局所蒸留法

Localization Distillation for Object Detection ( http://arxiv.org/abs/2102.12252v2 )

ライセンス: CC BY 4.0
Zhaohui Zheng and Rongguang Ye and Ping Wang and Jun Wang and Dongwei Ren and Wangmeng Zuo(参考訳) 知識蒸留(KD)は、深層学習分野におけるコンパクトモデル学習の強力な能力を示しているが、それでも物体検出のための局所化情報の蒸留に限られている。 既存のkd手法は主に教師モデルと学生モデルの深い特徴を模倣することに焦点を当てているが、これは特定のモデルアーキテクチャによって制限されるだけでなく、局所的曖昧さを蒸留することができない。 本稿ではまず,物体検出のためのローカライゼーション蒸留(LD)を提案する。 特に、バウンディングボックスの一般的なローカリゼーション表現を採用することで、LDを標準KDとして定式化することができます。 このldは非常に柔軟であり, 教師モデルと学生モデルの任意のアーキテクチャに対する, 蒸留局在曖昧性に適用できる。 さらに,教師モデルそのものを蒸留するセルフLDが,最先端のパフォーマンスをさらに向上させることが興味深い。 第二に、教師モデルと生徒モデルの間に可能なギャップを埋めるための教師アシスタント(TA)戦略を提案し、選択された教師モデルが最適でない場合でも蒸留の有効性を保証することができる。 ベンチマークデータセットPASCAL VOCおよびMS COCOでは、LDは学生検出器のパフォーマンスを一貫して改善し、最先端の検出器を特に高めることができます。 ソースコードとトレーニング済みモデルは、https://github.com/HikariTju/LDで公開されています。

Knowledge distillation (KD) has witnessed its powerful ability in learning compact models in deep learning field, but it is still limited in distilling localization information for object detection. Existing KD methods for object detection mainly focus on mimicking deep features between teacher model and student model, which not only is restricted by specific model architectures, but also cannot distill localization ambiguity. In this paper, we first propose localization distillation (LD) for object detection. In particular, our LD can be formulated as standard KD by adopting the general localization representation of bounding box. Our LD is very flexible, and is applicable to distill localization ambiguity for arbitrary architecture of teacher model and student model. Moreover, it is interesting to find that Self-LD, i.e., distilling teacher model itself, can further boost state-of-the-art performance. Second, we suggest a teacher assistant (TA) strategy to fill the possible gap between teacher model and student model, by which the distillation effectiveness can be guaranteed even the selected teacher model is not optimal. On benchmark datasets PASCAL VOC and MS COCO, our LD can consistently improve the performance for student detectors, and also boosts state-of-the-art detectors notably. Our source code and trained models are publicly available at https://github.com/HikariTJU/LD
翻訳日:2021-02-26 14:42:02 公開日:2021-02-25
# 言語処理におけるコントラスト前訓練のプライマー:方法、教訓、展望

A Primer on Contrastive Pretraining in Language Processing: Methods, Lessons Learned and Perspectives ( http://arxiv.org/abs/2102.12982v1 )

ライセンス: Link先を確認
Nils Rethmeier and Isabelle Augenstein(参考訳) 現代の自然言語処理(NLP)メソッドは、マスキング言語モデリングなどの自己監督の事前学習目標を使用して、さまざまなアプリケーションタスクのパフォーマンスを高めます。 これらの事前訓練方法は、再発、敵対的または言語的特性のマスキング、および最近では対照的な学習目的によって頻繁に拡張される。 対照的な自己教師付きトレーニング目標により、拡張画像の入力入力対を類似または類似点としてコントラストさせることで、画像表現事前学習における最近の成功を実現した。 しかし、NLPでは、単一のトークンが文の意味を逆転できるため、テキスト入力拡張の自動生成は依然として非常に難しい。 このため、いくつかの対照的なNLP事前学習法は、メトリックラーニングとエネルギーベースモデルによる手法を用いて、入力-入力ペアよりも入力-ラベルペアの方が対照的である。 本稿では,最近の自己指導型・教師型コントラスト型NLP事前学習手法を要約し,言語モデリング,ほとんどあるいはゼロショット学習,データ効率の事前訓練,特定のNLP終末タスクの実施方法について述べる。 アプリケーションとクロスフィールドリレーションによる先行研究と構造ワークから学んだことと、主要なコントラスト学習の概念を紹介します。 最後に、コントラストNLPの課題と今後の方向性を指摘し、コントラストNLPの事前訓練を画像表現事前訓練の成功に近づけることを推奨する。

Modern natural language processing (NLP) methods employ self-supervised pretraining objectives such as masked language modeling to boost the performance of various application tasks. These pretraining methods are frequently extended with recurrence, adversarial or linguistic property masking, and more recently with contrastive learning objectives. Contrastive self-supervised training objectives enabled recent successes in image representation pretraining by learning to contrast input-input pairs of augmented images as either similar or dissimilar. However, in NLP, automated creation of text input augmentations is still very challenging because a single token can invert the meaning of a sentence. For this reason, some contrastive NLP pretraining methods contrast over input-label pairs, rather than over input-input pairs, using methods from Metric Learning and Energy Based Models. In this survey, we summarize recent self-supervised and supervised contrastive NLP pretraining methods and describe where they are used to improve language modeling, few or zero-shot learning, pretraining data-efficiency and specific NLP end-tasks. We introduce key contrastive learning concepts with lessons learned from prior research and structure works by applications and cross-field relations. Finally, we point to open challenges and future directions for contrastive NLP to encourage bringing contrastive NLP pretraining closer to recent successes in image representation pretraining.
翻訳日:2021-02-26 14:06:26 公開日:2021-02-25
# QNLPの実践:量子コンピュータ上の意味の構成モデルを実行する

QNLP in Practice: Running Compositional Models of Meaning on a Quantum Computer ( http://arxiv.org/abs/2102.12846v1 )

ライセンス: Link先を確認
Robin Lorenz, Anna Pearson, Konstantinos Meichanetzidis, Dimitri Kartsaklis, Bob Coecke(参考訳) 量子自然言語処理(QNLP)は、量子ハードウェア上で動くことを意図したNLPモデルの設計と実装を扱う。 本稿では,大小100文のデータセットを対象としたNISQ(Noisy Intermediate-Scale Quantum)コンピュータ上で行った最初のNLP実験について報告する。 Coecke et al による構成的意味モデルの公式な類似性の展開。 (2010) 量子理論を用いて、量子回路への自然なマッピングを持つ文の表現を作成する。 量子ハードウェア上で単純な文分類タスクを解決する2つのnlpモデルの実装とトレーニングにこれらの表現を用いる。 これらの実験の主な原則、プロセスおよび課題を、NLP研究者がアクセス可能な方法で詳細に説明し、実用的な量子自然言語処理の道を開きます。

Quantum Natural Language Processing (QNLP) deals with the design and implementation of NLP models intended to be run on quantum hardware. In this paper, we present results on the first NLP experiments conducted on Noisy Intermediate-Scale Quantum (NISQ) computers for datasets of size >= 100 sentences. Exploiting the formal similarity of the compositional model of meaning by Coecke et al. (2010) with quantum theory, we create representations for sentences that have a natural mapping to quantum circuits. We use these representations to implement and successfully train two NLP models that solve simple sentence classification tasks on quantum hardware. We describe in detail the main principles, the process and challenges of these experiments, in a way accessible to NLP researchers, thus paving the way for practical Quantum Natural Language Processing.
翻訳日:2021-02-26 14:06:03 公開日:2021-02-25
# グラフニューラルネットワークにおける確率的集約

Stochastic Aggregation in Graph Neural Networks ( http://arxiv.org/abs/2102.12648v1 )

ライセンス: Link先を確認
Yuanqing Wang, Theofanis Karaletsos(参考訳) グラフニューラルネットワーク(gnns)は、サブオプティマイティブなアグリゲーション機構の結果、過剰なスムーシングや限定的な識別力を含む病状を示す。 本稿では、GNNsにおける確率集約(STAG)のための統一フレームワークについて述べる。そこでは、近隣からの集約プロセスにノイズが(適応的に)注入され、ノード埋め込みを形成する。 我々は,上述の2つの問題をほとんどオーバーヘッドなく,stagモデルで解決する理論的議論を行う。 また,固定ノイズモデルに加えて,stagモデルの確率的バージョンと雑音の後方学習のための変分推論フレームワークを提案する。 我々はオーバースムーシングとマルチセットアグリゲーション制限を明確にターゲットとした説明実験を行う。 さらに、STAGは、共通励起および分子グラフベンチマークデータセットにおける競合性能によって示されるGNNの一般性能を向上させる。

Graph neural networks (GNNs) manifest pathologies including over-smoothing and limited discriminating power as a result of suboptimally expressive aggregating mechanisms. We herein present a unifying framework for stochastic aggregation (STAG) in GNNs, where noise is (adaptively) injected into the aggregation process from the neighborhood to form node embeddings. We provide theoretical arguments that STAG models, with little overhead, remedy both of the aforementioned problems. In addition to fixed-noise models, we also propose probabilistic versions of STAG models and a variational inference framework to learn the noise posterior. We conduct illustrative experiments clearly targeting oversmoothing and multiset aggregation limitations. Furthermore, STAG enhances general performance of GNNs demonstrated by competitive performance in common citation and molecule graph benchmark datasets.
翻訳日:2021-02-26 14:05:51 公開日:2021-02-25
# MuZeroモデルの可視化

Visualizing MuZero Models ( http://arxiv.org/abs/2102.12924v1 )

ライセンス: Link先を確認
Joery A. de Vries, Ken S. Voskuil, Thomas M. Moerland and Aske Plaat(参考訳) MuZeroはモデルに基づく強化学習アルゴリズムで、値等価なダイナミックスモデルを使用し、チェス、ショギ、Goのゲームで最先端のパフォーマンスを達成した。 完全な次の状態を予測する標準フォワードダイナミクスモデルとは対照的に、値等価モデルは将来の値を予測するように訓練され、表現における価値関連情報を強調する。 価値等価モデルは、強い経験的成功を示しているが、これらのモデルが実際に学習する表現の種類を視覚化し、調査する研究はまだない。 そこで本論文では,MuZeroエージェントの潜在表現を可視化する。 動作軌跡は観測埋没と内部状態遷移ダイナミクスの間で分岐し, 計画中の不安定性を引き起こす可能性がある。 この知見に基づいて,MuZeroの性能を安定させる2つの正規化手法を提案する。 さらに、MuZeroのオープンソース実装と学習された表現のインタラクティブなビジュアライゼーションを提供し、価値同等のアルゴリズムのさらなる調査を支援することができます。

MuZero, a model-based reinforcement learning algorithm that uses a value equivalent dynamics model, achieved state-of-the-art performance in Chess, Shogi and the game of Go. In contrast to standard forward dynamics models that predict a full next state, value equivalent models are trained to predict a future value, thereby emphasizing value relevant information in the representations. While value equivalent models have shown strong empirical success, there is no research yet that visualizes and investigates what types of representations these models actually learn. Therefore, in this paper we visualize the latent representation of MuZero agents. We find that action trajectories may diverge between observation embeddings and internal state transition dynamics, which could lead to instability during planning. Based on this insight, we propose two regularization techniques to stabilize MuZero's performance. Additionally, we provide an open-source implementation of MuZero along with an interactive visualizer of learned representations, which may aid further investigation of value equivalent algorithms.
翻訳日:2021-02-26 14:05:38 公開日:2021-02-25
# CausalX:因果説明とブロック多線型因子分析

CausalX: Causal Explanations and Block Multilinear Factor Analysis ( http://arxiv.org/abs/2102.12853v1 )

ライセンス: Link先を確認
M. Alex O. Vasilescu, Eric Kim, and Xiao S. Zeng(参考訳) 操作のない因果関係(処置、介入)」という独裁に固執することにより、原因と効果データ分析は因果要因の変化の点で観察されたデータの変化を表します。 現在の技術的制限や倫理上の考慮から実世界でのアクティブな操作には因果的要因が適さない場合、反事実的アプローチはデータ形成モデルに介入する。 オブジェクト表現やアクティビティ(一時的なオブジェクト)表現の場合、さまざまなオブジェクト部分は、空間的または時間的であるかどうかは一般的に不可能です。 高階テンソルの代数である多線型代数は、データ形成の因果因子を遠ざけるのに適した、透明な枠組みである。 部分ベースの因果因子表現を多線形フレームワークで学習するには、部分ベースの多線形モデルに一連の介入を適用する必要がある。 全体と部分の統一多線形モデルを提案する。 我々は、オブジェクト階層全体にわたって同時に最適化することにより、因果因子の不整合表現を演算する階層的ブロック多重線形因子化 M-mode Block SVD を導出する。 計算効率を考慮すると、より低いレベルの抽象化、部分表現、より高いレベルの抽象化、親全体を表すために使用するインクリメンタルボトムアップ計算代替案であるIncremental M-mode Block SVDを紹介します。 このインクリメンタルな計算アプローチは、データがインクリメンタルに利用可能になったときに因果モデルパラメータを更新するためにも用いられる。 結果のオブジェクト表現は、オブジェクトの全体と部分の再帰的階層に関連する固有の因果係数表現の解釈可能な組合せ選択であり、オブジェクト認識を隠蔽に頑健にし、トレーニングデータ要求を減少させる。

By adhering to the dictum, "No causation without manipulation (treatment, intervention)", cause and effect data analysis represents changes in observed data in terms of changes in the causal factors. When causal factors are not amenable for active manipulation in the real world due to current technological limitations or ethical considerations, a counterfactual approach performs an intervention on the model of data formation. In the case of object representation or activity (temporal object) representation, varying object parts is generally unfeasible whether they be spatial and/or temporal. Multilinear algebra, the algebra of higher-order tensors, is a suitable and transparent framework for disentangling the causal factors of data formation. Learning a part-based intrinsic causal factor representations in a multilinear framework requires applying a set of interventions on a part-based multilinear model. We propose a unified multilinear model of wholes and parts. We derive a hierarchical block multilinear factorization, the M-mode Block SVD, that computes a disentangled representation of the causal factors by optimizing simultaneously across the entire object hierarchy. Given computational efficiency considerations, we introduce an incremental bottom-up computational alternative, the Incremental M-mode Block SVD, that employs the lower-level abstractions, the part representations, to represent the higher level of abstractions, the parent wholes. This incremental computational approach may also be employed to update the causal model parameters when data becomes available incrementally. The resulting object representation is an interpretable combinatorial choice of intrinsic causal factor representations related to an object's recursive hierarchy of wholes and parts that renders object recognition robust to occlusion and reduces training data requirements.
翻訳日:2021-02-26 14:05:22 公開日:2021-02-25
# モード接続ボリュームと高速組み立てのための表面単純化の損失

Loss Surface Simplexes for Mode Connecting Volumes and Fast Ensembling ( http://arxiv.org/abs/2102.13042v1 )

ライセンス: Link先を確認
Gregory W. Benton, Wesley J. Maddox, Sanae Lotfi, Andrew Gordon Wilson(参考訳) 多層ネットワークの損失面をよりよく理解することで、より堅牢で正確なトレーニング手順を構築することができる。 最近、独立して訓練されたSGDソリューションは、ほぼ一定のトレーニング損失の1次元パスに沿って接続できることが判明しました。 本稿では,低損失の多次元多様体を形成するモード結合型単純錯体が,多くの独立に訓練されたモデルと接続していることを示す。 この発見に触発され、高速アンサンブルのための単純な複合体を効率的に構築する方法を示し、精度、キャリブレーション、データセットシフトへの堅牢性において、独自に訓練されたディープアンサンブルを上回ります。 特に、トレーニング済みのソリューションから始めて、低損失の単純さを発見するには、いくつかのトレーニングエポックしか必要としない。 コードはhttps://github.com/g-benton/loss-surface-simplexesで入手できる。

With a better understanding of the loss surfaces for multilayer networks, we can build more robust and accurate training procedures. Recently it was discovered that independently trained SGD solutions can be connected along one-dimensional paths of near-constant training loss. In this paper, we show that there are mode-connecting simplicial complexes that form multi-dimensional manifolds of low loss, connecting many independently trained models. Inspired by this discovery, we show how to efficiently build simplicial complexes for fast ensembling, outperforming independently trained deep ensembles in accuracy, calibration, and robustness to dataset shift. Notably, our approach only requires a few training epochs to discover a low-loss simplex, starting from a pre-trained solution. Code is available at https://github.com/g-benton/loss-surface-simplexes.
翻訳日:2021-02-26 14:04:50 公開日:2021-02-25
# ConCrete MAP:低複雑性のソフト推定のための離散変数の確率的緩和学習

ConCrete MAP: Learning a Probabilistic Relaxation of Discrete Variables for Soft Estimation with Low Complexity ( http://arxiv.org/abs/2102.12756v1 )

ライセンス: Link先を確認
Edgar Beck, Carsten Bockelmann and Armin Dekorsy(参考訳) 2010年代の多くの研究領域において機械学習(ML)、特にディープニューラルネットワーク(DNN)の大きな成功に続いて、大規模なMIMOシステムのような大きな逆線形問題を検出するための学習ベースのアプローチが提案された。 主な動機は、最大A-Posteriori(MAP)検出の複雑さがシステム次元とともに指数関数的に増加することである。 DNNを最も基本的な形でブラックボックスとして使用する代わりに、少し異なるアプローチを採用し、MAP検出にdisCrete変数の確率論的連続緩和を導入する。 近接近似と連続最適化により、反復的検出アルゴリズムであるConCrete MAP Detection (CMD)を導出する。 さらに, CMDを深く展開するアイデアに拡張することで, 複雑さを抑えながら, 少数のパラメータを異なる作業点に(オンラインに)最適化することが可能となる。 近年のDNNに基づくアプローチとは対照的に,情報理論に基づくCMDの最適化基準と出力を選択し,個々の最適検出器の近似確率を学習することができる。 これは今日の通信システムにおけるソフトデコーディングに不可欠である。 MIMOシステムにおける数値シミュレーションの結果,SotAと比較して,CMDは有望な性能複雑性のトレードオフを特徴とすることがわかった。 特に,CMDのソフト出力がデコーダに信頼性を持つことを示す。

Following the great success of Machine Learning (ML), especially Deep Neural Networks (DNNs), in many research domains in 2010s, several learning-based approaches were proposed for detection in large inverse linear problems, e.g., massive MIMO systems. The main motivation behind is that the complexity of Maximum A-Posteriori (MAP) detection grows exponentially with system dimensions. Instead of using DNNs, essentially being a black-box in its most basic form, we take a slightly different approach and introduce a probabilistic Continuous relaxation of disCrete variables to MAP detection. Enabling close approximation and continuous optimization, we derive an iterative detection algorithm: ConCrete MAP Detection (CMD). Furthermore, by extending CMD to the idea of deep unfolding, we allow for (online) optimization of a small number of parameters to different working points while limiting complexity. In contrast to recent DNN-based approaches, we select the optimization criterion and output of CMD based on information theory and are thus able to learn approximate probabilities of the individual optimal detector. This is crucial for soft decoding in today's communication systems. Numerical simulation results in MIMO systems reveal CMD to feature a promising performance complexity trade-off compared to SotA. Notably, we demonstrate CMD's soft outputs to be reliable for decoders.
翻訳日:2021-02-26 14:04:33 公開日:2021-02-25
# LET:中国語短文マッチングのための言語知識強化グラフ変換器

LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short Text Matching ( http://arxiv.org/abs/2102.12671v1 )

ライセンス: Link先を確認
Boer Lyu, Lu Chen, Su Zhu, Kai Yu(参考訳) 中国語の短文マッチングは自然言語処理の基本的なタスクである。 既存のアプローチは通常、漢字や単語を入力トークンとして扱う。 1)中国語の単語は多義語であり、意味情報は十分に活用されていない。 2) 単語分割による潜在的な問題に悩むモデルもある。 本稿では,ハウネットを外部知識ベースとして紹介し,単語曖昧性を扱うための言語知識強化グラフトランスフォーマ(let)を提案する。 さらに,複数粒度情報を維持するために,単語格子グラフを入力として採用する。 私たちのモデルは、事前学習された言語モデルも補完します。 2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。 また,テキストマッチングモデルにおいて,意味情報と多粒度情報の両方が重要であることを示す。

Chinese short text matching is a fundamental task in natural language processing. Existing approaches usually take Chinese characters or words as input tokens. They have two limitations: 1) Some Chinese words are polysemous, and semantic information is not fully utilized. 2) Some models suffer potential issues caused by word segmentation. Here we introduce HowNet as an external knowledge base and propose a Linguistic knowledge Enhanced graph Transformer (LET) to deal with word ambiguity. Additionally, we adopt the word lattice graph as input to maintain multi-granularity information. Our model is also complementary to pre-trained language models. Experimental results on two Chinese datasets show that our models outperform various typical text matching approaches. Ablation study also indicates that both semantic information and multi-granularity information are important for text matching modeling.
翻訳日:2021-02-26 14:04:10 公開日:2021-02-25
# ZJUKLAB - SemEval-2021 Task 4: Negative Augmentation with Language Model for Reading Comprehension of Abstract Meaning

ZJUKLAB at SemEval-2021 Task 4: Negative Augmentation with Language Model for Reading Comprehension of Abstract Meaning ( http://arxiv.org/abs/2102.12828v1 )

ライセンス: Link先を確認
Xin Xie, Xiangnan Chen, Xiang Chen, Yong Wang, Ningyu Zhang, Shumin Deng, Huajun Chen(参考訳) 本稿では,SemEval Task4: Reading Comprehension of Abstract Meaning (ReCAM) の3つのサブタスクについて述べる。 モデル学習に使用されるアルゴリズムとアルゴリズムをチューニングし、最良のモデルを選択するプロセスについて説明する。 ReCAMタスクと言語事前学習の類似性から着想を得て,言語モデルによる否定的拡張という,シンプルで効果的な技術を提案する。 評価結果は,提案手法の有効性を示す。 我々のモデルは、それぞれ87.9%の精度と92.8%の精度で、Subtask 1とSubtask 2の2つの公式テストセットで4位に達した。 さらに包括的モデル解析を行い、興味深いエラー事例を観察し、将来の研究を促進する可能性がある。

This paper presents our systems for the three Subtasks of SemEval Task4: Reading Comprehension of Abstract Meaning (ReCAM). We explain the algorithms used to learn our models and the process of tuning the algorithms and selecting the best model. Inspired by the similarity of the ReCAM task and the language pre-training, we propose a simple yet effective technology, namely, negative augmentation with language model. Evaluation results demonstrate the effectiveness of our proposed approach. Our models achieve the 4th rank on both official test sets of Subtask 1 and Subtask 2 with an accuracy of 87.9% and an accuracy of 92.8%, respectively. We further conduct comprehensive model analysis and observe interesting error cases, which may promote future researches.
翻訳日:2021-02-26 14:03:59 公開日:2021-02-25
# 反復的境界 MDP:非解釈的手法による解釈可能なポリシーの学習

Iterative Bounding MDPs: Learning Interpretable Policies via Non-Interpretable Methods ( http://arxiv.org/abs/2102.13045v1 )

ライセンス: Link先を確認
Nicholay Topin, Stephanie Milani, Fei Fang, Manuela Veloso(参考訳) 説明可能な強化学習における現在の作業は、一般に、状態空間上の決定木という形でポリシーを生成する。 このようなポリシーは、正式な安全検証、エージェントの行動予測、および重要な機能の手動検査に使用できます。 しかし、既存のアプローチは、トレーニング後に決定木に適合するか、ニューラルネットワークを使用するような新しい学習技術と互換性のないカスタム学習手順を使用する。 この制限に対処するために、決定木ポリシーを学ぶための新しいマルコフ決定プロセス(MDP)タイプを提案します:反復境界MDP(IBMDP)。 IBMDPは、ベースMDPを中心に構築されており、各IBMDPポリシーは、メソッドに依存しないマスキング手順を使用する場合、ベースMDPの決定ツリーポリシーに対応することが保証される。 この決定木等価性のため、ニューラルネットワークを含むトレーニング中に任意の関数近似器を使用でき、ベースMDPの決定木ポリシーを生成することができる。 必要なマスキング手順と、既存のアルゴリズムを使用して IBMDP を解決できる修正された値更新ステップを紹介します。 この手順を,最近の強化学習法のibmdp変種作成に適用する。 我々は,ibmdps を解き,mdp ベースの決定木ポリシーを作成することで,このアプローチの利点を実証的に示す。

Current work in explainable reinforcement learning generally produces policies in the form of a decision tree over the state space. Such policies can be used for formal safety verification, agent behavior prediction, and manual inspection of important features. However, existing approaches fit a decision tree after training or use a custom learning procedure which is not compatible with new learning techniques, such as those which use neural networks. To address this limitation, we propose a novel Markov Decision Process (MDP) type for learning decision tree policies: Iterative Bounding MDPs (IBMDPs). An IBMDP is constructed around a base MDP so each IBMDP policy is guaranteed to correspond to a decision tree policy for the base MDP when using a method-agnostic masking procedure. Because of this decision tree equivalence, any function approximator can be used during training, including a neural network, while yielding a decision tree policy for the base MDP. We present the required masking procedure as well as a modified value update step which allows IBMDPs to be solved using existing algorithms. We apply this procedure to produce IBMDP variants of recent reinforcement learning methods. We empirically show the benefits of our approach by solving IBMDPs to produce decision tree policies for the base MDPs.
翻訳日:2021-02-26 14:02:56 公開日:2021-02-25
# 線形二次レギュレータのモデル自由学習のためのオンライン政策勾配 : $\sqrt{t}$ regret

Online Policy Gradient for Model Free Learning of Linear Quadratic Regulators with $\sqrt{T}$ Regret ( http://arxiv.org/abs/2102.12608v1 )

ライセンス: Link先を確認
Asaf Cassel (1), Tomer Koren ((1) School of Computer Science, Tel Aviv University)(参考訳) 我々は,LQR(Linnar Quadratic Regulator)問題と呼ばれる固定二次コストの下で線形力学系を制御することを学ぶタスクを検討する。 モデルフリーな手法は実際は好まれることが多いが、これまでのところ、コストのかかるシステム同定に依存するモデルベース手法のみが、時間的地平線Tに最適な依存度でスケールする後悔を達成することが示されている。 本手法は,効率的な政策勾配法と,この設定における政策空間における探索費用の新たな厳密な分析に依拠する。

We consider the task of learning to control a linear dynamical system under fixed quadratic costs, known as the Linear Quadratic Regulator (LQR) problem. While model-free approaches are often favorable in practice, thus far only model-based methods, which rely on costly system identification, have been shown to achieve regret that scales with the optimal dependence on the time horizon T. We present the first model-free algorithm that achieves similar regret guarantees. Our method relies on an efficient policy gradient scheme, and a novel and tighter analysis of the cost of exploration in policy space in this setting.
翻訳日:2021-02-26 14:02:37 公開日:2021-02-25
# 定期的なポリシーイテレーションにおけるリグレクトバウンダリとエクスペリエンスリプレイの改善

Improved Regret Bound and Experience Replay in Regularized Policy Iteration ( http://arxiv.org/abs/2102.12611v1 )

ライセンス: Link先を確認
Nevena Lazic, Dong Yin, Yasin Abbasi-Yadkori, Csaba Szepesvari(参考訳) 本研究では,関数近似を用いた無限水平マルコフ決定過程(MDP)の学習アルゴリズムについて検討する。 まず、ポリテックスアルゴリズム(正規化されたポリシー反復のバージョン)の後悔分析が、ほぼ同一の仮定の下で$O(T^{3/4})$から$O(\sqrt{T})$に鋭くなり、線形関数近似との境界をインスタンス化できることを示した。 その結果、この設定で計算効率の良いアルゴリズムに対して、最初の高い確率の$o(\sqrt{t})$ regretバウンドが得られる。 ニューラルネットワーク関数近似によるpolitexの正確な実装は、メモリと計算の面では非効率である。 我々は過去のポリシーのアクション値関数の平均値をよく近似する必要があることを示唆するので、過去のデータを用いてリプレイバッファ上で単一のQ-関数を訓練する簡単な実装を提案する。 これは、特に壁時計時間の観点から、他の実装よりも優れたパフォーマンスをもたらすことがしばしば示されている。 我々の研究は、ポリシー反復アルゴリズムで経験的リプレイを使用するための新しい理論的正当化も提供する。

In this work, we study algorithms for learning in infinite-horizon undiscounted Markov decision processes (MDPs) with function approximation. We first show that the regret analysis of the Politex algorithm (a version of regularized policy iteration) can be sharpened from $O(T^{3/4})$ to $O(\sqrt{T})$ under nearly identical assumptions, and instantiate the bound with linear function approximation. Our result provides the first high-probability $O(\sqrt{T})$ regret bound for a computationally efficient algorithm in this setting. The exact implementation of Politex with neural network function approximation is inefficient in terms of memory and computation. Since our analysis suggests that we need to approximate the average of the action-value functions of past policies well, we propose a simple efficient implementation where we train a single Q-function on a replay buffer with past data. We show that this often leads to superior performance over other implementation choices, especially in terms of wall-clock time. Our work also provides a novel theoretical justification for using experience replay within policy iteration algorithms.
翻訳日:2021-02-26 14:02:26 公開日:2021-02-25
# ランゲビンダイナミクスによる創発的優先度を持つ確率圧縮センシング

Provable Compressed Sensing with Generative Priors via Langevin Dynamics ( http://arxiv.org/abs/2102.12643v1 )

ライセンス: Link先を確認
Thanh V. Nguyen, Gauri Jagatap and Chinmay Hegde(参考訳) ディープジェネレーションモデルは、圧縮センシング、位相探索、超解像などのさまざまな逆問題における信号の強力な優先度クラスとして出現しています。 ここで、未知の信号が事前訓練された生成モデルの範囲内にあると仮定する。 信号回復の一般的なアプローチは、低次元潜在空間における勾配降下である。 勾配降下は良好な経験的性能を達成したが、その理論的挙動はよく分かっていない。 本稿では, 確率勾配ランゲバンダイナミクス(SGLD)を用いて, 生成前の圧縮センシングについて紹介する。 生成モデル上の軽度の仮定の下で、我々は真の信号へのSGLDの収束を証明する。 また,標準勾配降下に対する競争経験的性能を示す。

Deep generative models have emerged as a powerful class of priors for signals in various inverse problems such as compressed sensing, phase retrieval and super-resolution. Here, we assume an unknown signal to lie in the range of some pre-trained generative model. A popular approach for signal recovery is via gradient descent in the low-dimensional latent space. While gradient descent has achieved good empirical performance, its theoretical behavior is not well understood. In this paper, we introduce the use of stochastic gradient Langevin dynamics (SGLD) for compressed sensing with a generative prior. Under mild assumptions on the generative model, we prove the convergence of SGLD to the true signal. We also demonstrate competitive empirical performance to standard gradient descent.
翻訳日:2021-02-26 14:02:05 公開日:2021-02-25
# 変分選択オートエンコーダ:部分観測された異種データから学ぶ

Variational Selective Autoencoder: Learning from Partially-Observed Heterogeneous Data ( http://arxiv.org/abs/2102.12679v1 )

ライセンス: Link先を確認
Yu Gong and Hossein Hajimirsadeghi and Jiawei He and Thibaut Durand and Greg Mori(参考訳) 異種データから学ぶことは、さまざまなソースと異なるタイプのデータを組み合わせるなどの課題を引き起こします。 一方、異種データはしばしば、異種性や入力源のノイズによる実世界の応用における欠如と関連付けられている。 本研究では、部分観測された異種データから表現を学習する一般的なフレームワークである、変分選択型オートエンコーダ(VSAE)を提案する。 vsaeは、観測データの共有分布、観測されていないデータ、データの欠落を表現したインプテーションマスクをモデル化することで、異種データの潜在依存関係を学習する。 その結果、データ生成や計算を含むさまざまな下流タスクの統一モデルが実現される。 これら2つの課題に対する低次元および高次元不均一データセットの評価は、最先端モデルよりも改善されている。

Learning from heterogeneous data poses challenges such as combining data from various sources and of different types. Meanwhile, heterogeneous data are often associated with missingness in real-world applications due to heterogeneity and noise of input sources. In this work, we propose the variational selective autoencoder (VSAE), a general framework to learn representations from partially-observed heterogeneous data. VSAE learns the latent dependencies in heterogeneous data by modeling the joint distribution of observed data, unobserved data, and the imputation mask which represents how the data are missing. It results in a unified model for various downstream tasks including data generation and imputation. Evaluation on both low-dimensional and high-dimensional heterogeneous datasets for these two tasks shows improvement over state-of-the-art models.
翻訳日:2021-02-26 14:01:56 公開日:2021-02-25
# マルコフ等価性に基づく因果関係の局所的同定法

A Local Method for Identifying Causal Relations under Markov Equivalence ( http://arxiv.org/abs/2102.12685v1 )

ライセンス: Link先を確認
Zhuangyan Fang and Yue Liu and Zhi Geng and Yangbo He(参考訳) 因果関係は、人工知能研究における解釈可能で堅牢な手法を設計する上で重要である。 有向非周期グラフ(DAG)の因果的グラフィカルモデルに基づく変数が与えられたターゲットの原因であるかどうかを局所的に特定する手法を提案する。 一般に、異なる因果関係をコードする多くの因果関係DAGがマルコフ同値であるため、2変数間の因果関係は観測データから特定できない。 本稿では、変数からターゲットへの因果パスの存在を全てのマルコフ等価DAGで確認するための、十分かつ必要なグラフィカルな条件について紹介する。 次に、変数がターゲットの原因/原因であるかどうかを識別するための局所的な基準を提供する。 最後に、変数の局所構造とターゲットに関連する統計的独立性テストを学習することによって、この因果的クエリの局所学習アルゴリズムを提案する。 シミュレーション研究により,我々の局所アルゴリズムは,他の最先端手法と比較して効率的かつ効果的であることが判明した。

Causality is important for designing interpretable and robust methods in artificial intelligence research. We propose a local approach to identify whether a variable is a cause of a given target based on causal graphical models of directed acyclic graphs (DAGs). In general, the causal relation between two variables may not be identifiable from observational data as many causal DAGs encoding different causal relations are Markov equivalent. In this paper, we first introduce a sufficient and necessary graphical condition to check the existence of a causal path from a variable to a target in every Markov equivalent DAG. Next, we provide local criteria for identifying whether the variable is a cause/non-cause of the target. Finally, we propose a local learning algorithm for this causal query via learning local structure of the variable and some additional statistical independence tests related to the target. Simulation studies show that our local algorithm is efficient and effective, compared with other state-of-art methods.
翻訳日:2021-02-26 14:01:43 公開日:2021-02-25
# 量子化による近似最適輸送距離の改善

Improving Approximate Optimal Transport Distances using Quantization ( http://arxiv.org/abs/2102.12731v1 )

ライセンス: Link先を確認
Gaspard Beugnot, Aude Genevay, Kristjan Greenewald, Justin Solomon(参考訳) 最適輸送(OT)は、確率測度を幾何学的に比較する機械学習において一般的なツールであるが、かなりの計算負担が伴う。 OT距離を計算するための線形プログラミングアルゴリズムは入力のサイズで立方体にスケールし、大規模なサンプル体制ではOTは実用的ではない。 安価なサンプルアクセスで測定値間のOT距離を推定するために, 量子化ステップを用いた実用的アルゴリズムを提案する。 また,エントロピー規則化輸送に焦点をあて,近似解法の性能を向上させるアルゴリズムの変種も提供する。 この量子化ステップの利点を理論的に保証し、実際に正常に振る舞うことを示す実験を提示し、既存のot推定器のドロップイン代替として使用できる実用的な近似アルゴリズムを提供する。

Optimal transport (OT) is a popular tool in machine learning to compare probability measures geometrically, but it comes with substantial computational burden. Linear programming algorithms for computing OT distances scale cubically in the size of the input, making OT impractical in the large-sample regime. We introduce a practical algorithm, which relies on a quantization step, to estimate OT distances between measures given cheap sample access. We also provide a variant of our algorithm to improve the performance of approximate solvers, focusing on those for entropy-regularized transport. We give theoretical guarantees on the benefits of this quantization step and display experiments showing that it behaves well in practice, providing a practical approximation algorithm that can be used as a drop-in replacement for existing OT estimators.
翻訳日:2021-02-26 14:01:27 公開日:2021-02-25
# 重り付きリワードを用いた非Regret強化学習

No-Regret Reinforcement Learning with Heavy-Tailed Rewards ( http://arxiv.org/abs/2102.12769v1 )

ライセンス: Link先を確認
Vincent Zhuang, Yanan Sui(参考訳) 強化学習アルゴリズムは通常、ガウス分布や有界分布などの光尾分布から得られる報酬を仮定する。 しかし、現実世界のシステムは多岐にわたる分布に従った報酬を生み出します。 このようなシナリオは,未発表の強化学習の設定において考慮する。 下位境界を構築することにより,重み付き報酬の学習が漸近的に困難であることは,学習の遷移確率の難しさを左右することを示した。 本稿では,ロバスト平均推定による手法を活用し,ヘビー・UCRL2とヘビー・Q・ラーニングを提案する。 我々のアルゴリズムは自然に深層強化学習アプリケーションに一般化し、その例としてHeavy-DQNをインスタンス化する。 我々のアルゴリズムは、合成MDPと標準RLベンチマークの両方でベースラインを上回ります。

Reinforcement learning algorithms typically assume rewards to be sampled from light-tailed distributions, such as Gaussian or bounded. However, a wide variety of real-world systems generate rewards that follow heavy-tailed distributions. We consider such scenarios in the setting of undiscounted reinforcement learning. By constructing a lower bound, we show that the difficulty of learning heavy-tailed rewards asymptotically dominates the difficulty of learning transition probabilities. Leveraging techniques from robust mean estimation, we propose Heavy-UCRL2 and Heavy-Q-Learning, and show that they achieve near-optimal regret bounds in this setting. Our algorithms also naturally generalize to deep reinforcement learning applications; we instantiate Heavy-DQN as an example of this. We demonstrate that all of our algorithms outperform baselines on both synthetic MDPs and standard RL benchmarks.
翻訳日:2021-02-26 14:01:12 公開日:2021-02-25
# 周波数変調カーネルを用いた混合変数ベイズ最適化

Mixed Variable Bayesian Optimization with Frequency Modulated Kernels ( http://arxiv.org/abs/2102.12792v1 )

ライセンス: Link先を確認
Changyong Oh, Efstratios Gavves, Max Welling(参考訳) ベイズ最適化(BO)のサンプル効率は、しばしばガウス過程(GP)サロゲートモデルによって向上される。 しかし、混合変数空間では、GP以外のサーロゲートモデルは、主に異なる種類の変数間で複雑な依存性をモデル化できるカーネルが不足しているため、普及している。 本論文では、異なる種類の変数間の依存性を柔軟にモデリングする周波数変調(FM)カーネルを提案し、BOがさらなるサンプル効率の向上を享受できるようにする。 FMカーネルは連続変数の距離を使用して、離散変数から派生したグラフフーリエスペクトルを変調する。 しかし周波数変調は、より類似した点のペアに対して高い値を返す類似度測度挙動を持つカーネルを定義するとは限らない。 そこで本研究では,FMカーネルが正定値であることの条件を特定し,類似度測定の振る舞いを示す。 実験では, FMカーネル(BO-FM)を用いたGP BOの試料効率の改善を実演し, 合成問題やハイパーパラメータ最適化問題において, BO-FMは競争相手よりも一貫して優れていた。 また、同じ問題に対して周波数変調原理の重要性を実証的に示している。 ニューラルアーキテクチャとSGDハイパーパラメータの合同最適化において、BO-FMは正規化進化(RE)およびBOHBを含む競合他社を上回っている。 BO-FM は RE や BOHB よりも 3 倍の評価で優れた性能を発揮します。

The sample efficiency of Bayesian optimization(BO) is often boosted by Gaussian Process(GP) surrogate models. However, on mixed variable spaces, surrogate models other than GPs are prevalent, mainly due to the lack of kernels which can model complex dependencies across different types of variables. In this paper, we propose the frequency modulated (FM) kernel flexibly modeling dependencies among different types of variables, so that BO can enjoy the further improved sample efficiency. The FM kernel uses distances on continuous variables to modulate the graph Fourier spectrum derived from discrete variables. However, the frequency modulation does not always define a kernel with the similarity measure behavior which returns higher values for pairs of more similar points. Therefore, we specify and prove conditions for FM kernels to be positive definite and to exhibit the similarity measure behavior. In experiments, we demonstrate the improved sample efficiency of GP BO using FM kernels (BO-FM).On synthetic problems and hyperparameter optimization problems, BO-FM outperforms competitors consistently. Also, the importance of the frequency modulation principle is empirically demonstrated on the same problems. On joint optimization of neural architectures and SGD hyperparameters, BO-FM outperforms competitors including Regularized evolution(RE) and BOHB. Remarkably, BO-FM performs better even than RE and BOHB using three times as many evaluations.
翻訳日:2021-02-26 14:00:58 公開日:2021-02-25
# 適応的複雑性をもつハイパーパラメータ転送学習

Hyperparameter Transfer Learning with Adaptive Complexity ( http://arxiv.org/abs/2102.12810v1 )

ライセンス: Link先を確認
Samuel Horv\'ath, Aaron Klein, Peter Richt\'arik, C\'edric Archambeau(参考訳) Bayesian optimization (BO)は、機械学習モデルのハイパーパラメータを自動的にチューニングするサンプル効率の高いアプローチです。 実際に、同様のハイパーパラメータチューニング問題をシーケンシャルに解く必要がある。 例えば、一連の異なる分類問題で学習したニューラルネットワークのタイプをチューニングする必要があるかもしれない。 マルチタスクBOに関する最近の研究は、以前のチューニングタスクから得られた知識を利用して、新しいチューニングタスクをスピードアップします。 しかし、以前のアプローチはBOが連続的な意思決定手順であるという事実を考慮に入れていない。 したがって、一般に、現在のチューニングタスクで収集された評価の数と、以前に完了したすべてのタスクで蓄積された評価の数との間にミスマッチがあります。 本研究では,転送学習手順が異なるデータレジームを原則的に扱うことができるように,マルチタスクboによるミスマッチの補償を可能にする。 ネストされたドロップアウトと自動関連性判定によって複雑性を高める順序付き非線形基底関数の集合を学習する新しいマルチタスクBO法を提案する。 各種ハイパーパラメータチューニング問題に関する実験により,サンプルefの改善が得られた。

Bayesian optimization (BO) is a sample efficient approach to automatically tune the hyperparameters of machine learning models. In practice, one frequently has to solve similar hyperparameter tuning problems sequentially. For example, one might have to tune a type of neural network learned across a series of different classification problems. Recent work on multi-task BO exploits knowledge gained from previous tuning tasks to speed up a new tuning task. However, previous approaches do not account for the fact that BO is a sequential decision making procedure. Hence, there is in general a mismatch between the number of evaluations collected in the current tuning task compared to the number of evaluations accumulated in all previously completed tasks. In this work, we enable multi-task BO to compensate for this mismatch, such that the transfer learning procedure is able to handle different data regimes in a principled way. We propose a new multi-task BO method that learns a set of ordered, non-linear basis functions of increasing complexity via nested drop-out and automatic relevance determination. Experiments on a variety of hyperparameter tuning problems show that our method improves the sample ef
翻訳日:2021-02-26 14:00:35 公開日:2021-02-25
# 模倣学習における二次誤差複合障壁を最適に破る

Provably Breaking the Quadratic Error Compounding Barrier in Imitation Learning, Optimally ( http://arxiv.org/abs/2102.12948v1 )

ライセンス: Link先を確認
Nived Rajaraman, Yanjun Han, Lin F. Yang, Kannan Ramchandran, Jiantao Jiao(参考訳) 我々は、状態空間 $\mathcal{S}$ を持つ韻律マルコフ決定過程 (MDPs) における模擬学習 (IL) の統計的限界について研究する。 我々は,学習者が決定論的専門家政策からN$長-H$トラジェクトリのデータセットを提供し,MDP遷移を知るような既知の移行設定に焦点を当てる。 上界の $O(|\mathcal{S}|H^{3/2}/N)$ を、Rajaraman et al (2020) の Mimic-MD アルゴリズムを用いて最適化し、計算効率を証明した。 対照的に、minimax suboptimality は $\Omega(H^{3/2}/N)$ が $|\mathcal{S}|\geq 3$ であるのに対して、未知の遷移条件はより大きいシャープレート $\Theta(|\mathcal{S}|H^2/N)$ (Rajaraman et al (2020) ) である。 下界は、任意の報酬関数の下で、ILと未知の専門家ポリシーの値推定問題との双方向の低減を証明し、サブサンプル観測による線形関数推定との接続を構築することにより確立される。 さらに、エキスパートが真の報酬関数に最適であるという仮定が加わり、終端層にのみ報酬を持つ任意の3状態のMDPに対して、その準最適性(O(1/N)$)を確実に達成する効率的なアルゴリズムが存在することを示す。 対照的に、専門家が最適に制約されない場合、アルゴリズムは高い確率で準最適$O(\sqrt{H}/N)$を達成できない。 我々の研究は、既知の遷移設定において、専門家の最適仮定の利点を正式に確立する一方、Rajaraman et al (2020) は遷移が不明な場合に役に立たないことを示した。

We study the statistical limits of Imitation Learning (IL) in episodic Markov Decision Processes (MDPs) with a state space $\mathcal{S}$. We focus on the known-transition setting where the learner is provided a dataset of $N$ length-$H$ trajectories from a deterministic expert policy and knows the MDP transition. We establish an upper bound $O(|\mathcal{S}|H^{3/2}/N)$ for the suboptimality using the Mimic-MD algorithm in Rajaraman et al (2020) which we prove to be computationally efficient. In contrast, we show the minimax suboptimality grows as $\Omega( H^{3/2}/N)$ when $|\mathcal{S}|\geq 3$ while the unknown-transition setting suffers from a larger sharp rate $\Theta(|\mathcal{S}|H^2/N)$ (Rajaraman et al (2020)). The lower bound is established by proving a two-way reduction between IL and the value estimation problem of the unknown expert policy under any given reward function, as well as building connections with linear functional estimation with subsampled observations. We further show that under the additional assumption that the expert is optimal for the true reward function, there exists an efficient algorithm, which we term as Mimic-Mixture, that provably achieves suboptimality $O(1/N)$ for arbitrary 3-state MDPs with rewards only at the terminal layer. In contrast, no algorithm can achieve suboptimality $O(\sqrt{H}/N)$ with high probability if the expert is not constrained to be optimal. Our work formally establishes the benefit of the expert optimal assumption in the known transition setting, while Rajaraman et al (2020) showed it does not help when transitions are unknown.
翻訳日:2021-02-26 14:00:22 公開日:2021-02-25
# 連続的単一索引学習について

On continual single index learning ( http://arxiv.org/abs/2102.12961v1 )

ライセンス: Link先を確認
The Tien Mai(参考訳) 本稿では,単一索引モデルの問題を連続学習の文脈に一般化し,学習者が1つずつタスクのシーケンスに挑戦し,各タスクのデータセットをオンライン形式で明らかにする。 我々は,すべてのタスクに対して共通する単一インデックスと,タスク毎に特定のリンク関数を学習できる戦略を提案する。 一般的なシングルインデックスは、前のタスクから得たインフォメーションを新しいタスクに転送することができる。 提案した戦略の理論的解析は,いくつかの後悔の限界を証明して行う。 さらに,タスク内アルゴリズムの例を示すための副産物として,オンライン環境で単一のインデックスモデルを学習し,その後悔の束縛を与えるための新しいオンラインアルゴリズムを開発した。

In this paper, we generalize the problem of single index model to the context of continual learning in which a learner is challenged with a sequence of tasks one by one and the dataset of each task is revealed in an online fashion. We propose a strategy that is able to learn a common single index for all tasks and a specific link function for each task. The common single index allows to transfer the informaton gained from the previous tasks to a new one. We provide a theoretical analysis of our proposed strategy by proving some regret bounds. Moreover, as a by-product from our work to provide an example of a within-task algorithm, we develop a novel online algorithm for learning single index model in an online setting and provide its regret bound.
翻訳日:2021-02-26 13:59:31 公開日:2021-02-25
# 深層ニューラルネットワークにおける分布検出効率の統計的検証

Statistical Testing for Efficient Out of Distribution Detection in Deep Neural Networks ( http://arxiv.org/abs/2102.12967v1 )

ライセンス: Link先を確認
Matan Haroush, Tzivel Frostig, Ruth Heller and Daniel Soudry(参考訳) 一般的に、ディープニューラルネットワーク(DNN)は、トレーニングセットと同様の分布から引き出されたサンプルをうまく一般化する。 しかし、DNNの予測は、テストサンプルが異種分布から引き出されると不安定で信頼性に欠ける。 これは、自動運転車やヘルスケアアプリケーションの場合のように、そのような行動が大きなコストで発生する可能性がある現実世界のアプリケーションへの展開に大きな懸念を示します。 本稿では,DNNにおけるOut Of Distribution (OOD)検出問題について,統計的仮説テスト問題として検討する。 従来のOOD検出ヒューリスティックとは違って,我々のフレームワークは,テストデータに対する偽陽性率(OODを非分布として検出する)を維持することが保証されている。 このフレームワークに基づいて、低階統計に基づいた新しいOOD手順を提案します。 提案手法は,ネットワークパラメータを再トレーニングすることなく,かつ計算コストのごく一部で,oodベンチマークにおいて,最先端の結果と同等あるいは優れた結果が得られる。

Commonly, Deep Neural Networks (DNNs) generalize well on samples drawn from a distribution similar to that of the training set. However, DNNs' predictions are brittle and unreliable when the test samples are drawn from a dissimilar distribution. This presents a major concern for deployment in real-world applications, where such behavior may come at a great cost -- as in the case of autonomous vehicles or healthcare applications. This paper frames the Out Of Distribution (OOD) detection problem in DNN as a statistical hypothesis testing problem. Unlike previous OOD detection heuristics, our framework is guaranteed to maintain the false positive rate (detecting OOD as in-distribution) for test data. We build on this framework to suggest a novel OOD procedure based on low-order statistics. Our method achieves comparable or better than state-of-the-art results on well-accepted OOD benchmarks without retraining the network parameters -- and at a fraction of the computational cost.
翻訳日:2021-02-26 13:59:19 公開日:2021-02-25
# バッチニューラルバンド

Batched Neural Bandits ( http://arxiv.org/abs/2102.13028v1 )

ライセンス: Link先を確認
Quanquan Gu and Amin Karbasi and Khashayar Khosravi and Vahab Mirrokni and Dongruo Zhou(参考訳) 多くのシーケンシャルな意思決定問題では、個人は複数のバッチに分割され、意思決定者はバッチの最後にポリシーを変更することしか許されない。 これらのバッチ問題には、臨床試験からクラウドソーシングまで、多数のアプリケーションがあります。 そこで本研究では,バッチ環境下での一般報酬分布に対する確率的文脈的バンディット問題を考察する。 BatchNeuralUCBアルゴリズムは、ニューラルネットワークと楽観性を組み合わせて探索・探索トレードオフに対処し、バッチの総数を制限します。 我々は,BatchNeuralUCBをバッチサイズと適応サイズの両方で検討し,完全なシーケンシャルバージョンと同じ後悔を達成できるとともに,ポリシー更新の回数を大幅に削減できることを示す。 合成データセットと実世界データセットのシミュレーションにより,理論結果を確認する。

In many sequential decision-making problems, the individuals are split into several batches and the decision-maker is only allowed to change her policy at the end of batches. These batch problems have a large number of applications, ranging from clinical trials to crowdsourcing. Motivated by this, we study the stochastic contextual bandit problem for general reward distributions under the batched setting. We propose the BatchNeuralUCB algorithm which combines neural networks with optimism to address the exploration-exploitation tradeoff while keeping the total number of batches limited. We study BatchNeuralUCB under both fixed and adaptive batch size settings and prove that it achieves the same regret as the fully sequential version while reducing the number of policy updates considerably. We confirm our theoretical results via simulations on both synthetic and real-world datasets.
翻訳日:2021-02-26 13:58:59 公開日:2021-02-25
# 教師の指導も必要:自己蒸留によるダンプ正規化を目標に

Even your Teacher Needs Guidance: Ground-Truth Targets Dampen Regularization Imposed by Self-Distillation ( http://arxiv.org/abs/2102.13088v1 )

ライセンス: Link先を確認
Kenneth Borup, Lars N. Andersen(参考訳) 知識蒸留は古典的には、ニューラルネットワークがアーキテクチャ間で知識を伝達するために、他のネットワークの出力と元のターゲットと共に訓練される手順である。 ネットワークアーキテクチャが同一である自己蒸留の特別な例は、一般化精度を向上させるために観察されている。 本稿では,逐次ステップがモデル出力と接地目標の両方を組み込むカーネル回帰設定における自己蒸留の反復的変種について考察する。 これにより、自己蒸留における重み付けされた接地目標の利用の重要性に関する最初の理論的結果が得られる。 私たちの焦点は、モデルパラメータの$\ell_2$正規化に応じて、蒸留に適した重み付き平均二乗誤差客観的関数でデータに非線形関数を適合させることです。 自己蒸留により得られるそのような関数は、初期フィットの関数として直接計算でき、無限蒸留ステップは増幅正規化により元のものと同じ最適化問題をもたらす。 最後に,重み付けパラメータの選択が自己蒸留後の一般化性能にどのように影響するかを,回帰設定とresnetネットワークを用いて実験的に検討した。

Knowledge distillation is classically a procedure where a neural network is trained on the output of another network along with the original targets in order to transfer knowledge between the architectures. The special case of self-distillation, where the network architectures are identical, has been observed to improve generalization accuracy. In this paper, we consider an iterative variant of self-distillation in a kernel regression setting, in which successive steps incorporate both model outputs and the ground-truth targets. This allows us to provide the first theoretical results on the importance of using the weighted ground-truth targets in self-distillation. Our focus is on fitting nonlinear functions to training data with a weighted mean square error objective function suitable for distillation, subject to $\ell_2$ regularization of the model parameters. We show that any such function obtained with self-distillation can be calculated directly as a function of the initial fit, and that infinite distillation steps yields the same optimization problem as the original with amplified regularization. Finally, we examine empirically, both in a regression setting and with ResNet networks, how the choice of weighting parameter influences the generalization performance after self-distillation.
翻訳日:2021-02-26 13:58:46 公開日:2021-02-25
# 適応ノルム制約による高速最小ノルム対向攻撃

Fast Minimum-norm Adversarial Attacks through Adaptive Norm Constraints ( http://arxiv.org/abs/2102.12827v1 )

ライセンス: Link先を確認
Maura Pintor, Fabio Roli, Wieland Brendel, Battista Biggio(参考訳) 逆ロバスト性の評価は、入力サンプルを誤分類するために必要な最小摂動を見つけるのに等しい。 基礎となる最適化の固有の複雑さは、たとえ与えられた摂動モデルに特化していたとしても、現在の勾配に基づく攻撃を慎重に調整、初期化、実行する必要がある。 この研究では、異なる$\ell_p$-norm摂動モデル(p=0, 1, 2, \infty$)で動作する高速最小ノルム(fmn)攻撃を提案し、ハイパーパラメータの選択に頑健であり、敵の出発点を必要としないこと、軽量なステップ数で収束させることで、これらの制限を克服する。 これは、$\epsilon$のサイズの$\ell_p$-norm制約内で最大の信頼性で分類されたサンプルを反復的に見つけ、$\epsilon$を適用して、現在のサンプルと決定境界の距離を最小限に抑える。 広範な実験により、FMNは収束速度と計算時間の点で既存の攻撃を大幅に上回り、同等またはより小さな摂動サイズを報告する。

Evaluating adversarial robustness amounts to finding the minimum perturbation needed to have an input sample misclassified. The inherent complexity of the underlying optimization requires current gradient-based attacks to be carefully tuned, initialized, and possibly executed for many computationally-demanding iterations, even if specialized to a given perturbation model. In this work, we overcome these limitations by proposing a fast minimum-norm (FMN) attack that works with different $\ell_p$-norm perturbation models ($p=0, 1, 2, \infty$), is robust to hyperparameter choices, does not require adversarial starting points, and converges within few lightweight steps. It works by iteratively finding the sample misclassified with maximum confidence within an $\ell_p$-norm constraint of size $\epsilon$, while adapting $\epsilon$ to minimize the distance of the current sample to the decision boundary. Extensive experiments show that FMN significantly outperforms existing attacks in terms of convergence speed and computation time, while reporting comparable or even smaller perturbation sizes.
翻訳日:2021-02-26 13:57:54 公開日:2021-02-25
# Bias-Reduced Multi-step Hindsight Experience Replay

Bias-reduced multi-step hindsight experience replay ( http://arxiv.org/abs/2102.12962v1 )

ライセンス: Link先を確認
Rui Yang, Jiafei Lyu, Yu Yang, Jiangpeng Ya, Feng Luo, Dijun Luo, Lanqing Li, Xiu Li(参考訳) マルチゴール強化学習は、計画やロボット操作に広く用いられている。 マルチゴール強化学習における2つの主な課題は、スパース報酬とサンプル非効率である。 Hindsight Experience Replay (HER)は、隠れた知識で2つの課題に取り組むことを目的としている。 しかし、彼女とその以前の変種は何百万ものサンプルと膨大な計算を必要とする。 本稿では,$n$-step relabelingに基づいて,複数ステップのrelabeled returnを組み込んだMHER(emph{Multi-step Hindsight Experience Replay})を提案する。 n$-step relabelingの利点にもかかわらず、理論的および実験的に$ n$-step relabelingによって導入されたオフポリシー$ n$-stepバイアスが多くの環境でパフォーマンスが低下する可能性があることを証明しています。 上記の問題に対処するため、2つのバイアス低減MHERアルゴリズム、MHER($\lambda$)とモデルベースMHER(MMHER)を示す。 MHER($\lambda$)は$\lambda$戻り値を使い、MMHERはモデルベースの値拡張の恩恵を受ける。 多数のマルチゴールロボットタスクの実験結果から,HER以外の計算量が少ないHERやCurriculum-guided HERよりも高いサンプリング効率を実現することができることがわかった。

Multi-goal reinforcement learning is widely used in planning and robot manipulation. Two main challenges in multi-goal reinforcement learning are sparse rewards and sample inefficiency. Hindsight Experience Replay (HER) aims to tackle the two challenges with hindsight knowledge. However, HER and its previous variants still need millions of samples and a huge computation. In this paper, we propose \emph{Multi-step Hindsight Experience Replay} (MHER) based on $n$-step relabeling, incorporating multi-step relabeled returns to improve sample efficiency. Despite the advantages of $n$-step relabeling, we theoretically and experimentally prove the off-policy $n$-step bias introduced by $n$-step relabeling may lead to poor performance in many environments. To address the above issue, two bias-reduced MHER algorithms, MHER($\lambda$) and Model-based MHER (MMHER) are presented. MHER($\lambda$) exploits the $\lambda$ return while MMHER benefits from model-based value expansions. Experimental results on numerous multi-goal robotic tasks show that our solutions can successfully alleviate off-policy $n$-step bias and achieve significantly higher sample efficiency than HER and Curriculum-guided HER with little additional computation beyond HER.
翻訳日:2021-02-26 13:56:27 公開日:2021-02-25
# ブラックボックスモデルのための説明方法のベンチマークと調査

Benchmarking and Survey of Explanation Methods for Black Box Models ( http://arxiv.org/abs/2102.13076v1 )

ライセンス: Link先を確認
Francesco Bodria, Fosca Giannotti, Riccardo Guidotti, Francesca Naretto, Dino Pedreschi, Salvatore Rinzivillo(参考訳) 人工知能におけるブラックボックスモデルの普及は、これらの曖昧なモデルがどのように特定の決定に達するかを明らかにする説明方法の必要性を高めました。 説明を得ることは、可能なバイアスを明らかにし、実践的または倫理的な問題を解決するために不可欠です。 今日では、文学は異なる説明の方法でいっぱいです。 返された説明の種類に基づいて、説明方法の分類を提供します。 本稿では,最も最近広く使われている説明器を紹介し,説明の視覚的比較と定量的ベンチマークを示す。

The widespread adoption of black-box models in Artificial Intelligence has enhanced the need for explanation methods to reveal how these obscure models reach specific decisions. Retrieving explanations is fundamental to unveil possible biases and to resolve practical or ethical issues. Nowadays, the literature is full of methods with different explanations. We provide a categorization of explanation methods based on the type of explanation returned. We present the most recent and widely used explainers, and we show a visual comparison among explanations and a quantitative benchmarking.
翻訳日:2021-02-26 13:56:02 公開日:2021-02-25
# タスク・アグノスティック・モルフォロジーの進化

Task-Agnostic Morphology Evolution ( http://arxiv.org/abs/2102.13100v1 )

ライセンス: Link先を確認
Donald J. Hejna III, Pieter Abbeel, Lerrel Pinto(参考訳) 深い強化学習は主に学習行動に焦点を当て、通常、エージェントの機能が主に形態によって決定されるという事実を見渡す。 では、ある環境でタスクを解決するのに適した形態を見つけるには、どうすればよいでしょうか? モルフォロジーと振る舞いを共同適用する現在のアプローチでは、特定のタスクの報酬をモルフォロジー最適化のシグナルとして使用します。 しかし、これはしばしば高価なポリシー最適化を必要とし、一般化するために構築されていないタスクに依存した形態をもたらす。 そこで本研究では,これらの問題を緩和するための新しい手法であるタスク非依存形態進化(tame)を提案する。 タスクや報酬の仕様がなければ、TAMEはエージェントの集団にランダムにサンプル化されたアクションプリミティブのみを適用することで形態学を進化させる。 これは、環境の多様な状態に到達する能力と行動の原因によってエージェントを効率的にランク付けする情報理論の目標を使用して達成されます。 最後に,2次元,3次元,操作環境において,タスク教師付きアルゴリズムで学習したタスクのマルチタスク性能に適合する形態素を進化させることができることを実証的に示す。 コードとビデオは https://sites.google.com/view/task-agnostic-evolution.com をご覧ください。

Deep reinforcement learning primarily focuses on learning behavior, usually overlooking the fact that an agent's function is largely determined by form. So, how should one go about finding a morphology fit for solving tasks in a given environment? Current approaches that co-adapt morphology and behavior use a specific task's reward as a signal for morphology optimization. However, this often requires expensive policy optimization and results in task-dependent morphologies that are not built to generalize. In this work, we propose a new approach, Task-Agnostic Morphology Evolution (TAME), to alleviate both of these issues. Without any task or reward specification, TAME evolves morphologies by only applying randomly sampled action primitives on a population of agents. This is accomplished using an information-theoretic objective that efficiently ranks agents by their ability to reach diverse states in the environment and the causality of their actions. Finally, we empirically demonstrate that across 2D, 3D, and manipulation environments TAME can evolve morphologies that match the multi-task performance of those learned with task supervised algorithms. Our code and videos can be found at https://sites.google.com/view/task-agnostic-evolution.
翻訳日:2021-02-26 13:55:55 公開日:2021-02-25
# MaskCycleGAN-VC:フレーム内充填による非並列音声変換学習

MaskCycleGAN-VC: Learning Non-parallel Voice Conversion with Filling in Frames ( http://arxiv.org/abs/2102.12841v1 )

ライセンス: Link先を確認
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Nobukatsu Hojo(参考訳) 非並列音声変換(VC)は、並列コーパスなしで音声コンバータを訓練するための技術です。 CycleGAN-VCとCycleGAN-VC2)はベンチマーク手法として広く受け入れられている。 しかし、時間周波数構造を把握できないため、その応用はメル-ケプストラム変換に限られており、近年のメル-スペクトログラムボコーダの進歩にもかかわらず、メル-ケプストラム変換に限られている。 これを解決するために、時間周波数適応正規化(TFAN)と呼ばれる追加モジュールを組み込んだCycleGAN-VC2の改良版であるCycleGAN-VC3が提案されている。 しかし、学習パラメータの数の増加が課されます。 代替として、CycleGAN-VC2の別の拡張であり、フレームの充填(FIF)と呼ばれる新しい補助タスクを使用して訓練されているMaskCycleGAN-VCを提案します。 FIFでは、入力メル-スペクトログラムに時間マスクを適用し、コンバータが周囲のフレームに基づいて欠落フレームを埋めるように促す。 このタスクにより、コンバータは自己教師付きで時間周波数構造を学習でき、TFANのような追加モジュールは不要になる。 MaskCycleGAN-VCはCycleGAN-VC2とCycleGAN-VC3の両方で、モデルサイズはCycleGAN-VC2と同等であった。 オーディオサンプルはhttp://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/maskcyclegan-vc/index.htmlで入手できる。

Non-parallel voice conversion (VC) is a technique for training voice converters without a parallel corpus. Cycle-consistent adversarial network-based VCs (CycleGAN-VC and CycleGAN-VC2) are widely accepted as benchmark methods. However, owing to their insufficient ability to grasp time-frequency structures, their application is limited to mel-cepstrum conversion and not mel-spectrogram conversion despite recent advances in mel-spectrogram vocoders. To overcome this, CycleGAN-VC3, an improved variant of CycleGAN-VC2 that incorporates an additional module called time-frequency adaptive normalization (TFAN), has been proposed. However, an increase in the number of learned parameters is imposed. As an alternative, we propose MaskCycleGAN-VC, which is another extension of CycleGAN-VC2 and is trained using a novel auxiliary task called filling in frames (FIF). With FIF, we apply a temporal mask to the input mel-spectrogram and encourage the converter to fill in missing frames based on surrounding frames. This task allows the converter to learn time-frequency structures in a self-supervised manner and eliminates the need for an additional module such as TFAN. A subjective evaluation of the naturalness and speaker similarity showed that MaskCycleGAN-VC outperformed both CycleGAN-VC2 and CycleGAN-VC3 with a model size similar to that of CycleGAN-VC2. Audio samples are available at http://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/maskcyclegan-vc/index.html.
翻訳日:2021-02-26 13:55:35 公開日:2021-02-25
# 複数の専門家に対する不偏と正確な決定に向けて

Towards Unbiased and Accurate Deferral to Multiple Experts ( http://arxiv.org/abs/2102.13004v1 )

ライセンス: Link先を確認
Vijay Keswani, Matthew Lease, Krishnaram Kenthapadi(参考訳) マシンラーニングモデルは、パイプライン内の人間とコホートで実装されることが多い。モデルには、推論の信頼性が低い場合には、ドメインの専門家に延期するオプションがある。 我々の目標は、機械学習モデル推論とドメインエキスパート予測を組み合わせた予測システムにおいて、精度と公平性を確保するメカニズムを設計することである。 分類設定における「デフォルトシステム」に関する以前の作業は、単一の専門家によるパイプラインの設定に焦点を当てており、この専門家の不正確さとバイアスに対応して、推論モデルとデフレシステムを同時に学習することを目的としています。 私たちの仕事は、このフレームワークを複数の専門家が利用可能な設定に拡張し、各専門家は独自の専門知識と偏見を持っています。 本稿では,分類器と推論システムを同時に学習する枠組みを提案し,分類器が信頼度が低い入力の場合,推論システムが1人以上の人間専門家に推論することを選択する。 本フレームワークは,偏りのある合成専門家による合成データセットとコンテンツモデレーションデータセットを用いてテストし,ベースラインと比較して最終予測の精度と公平性を大幅に向上させることを示した。 また、コンテンツモデレーションタスクのクラウドソースラベルを収集し、ハイブリッドマシンヒューマンフレームワークの評価のための実世界のデータセットを構築し、提案された学習フレームワークがこの実世界のデータセットのベースラインを上回っていることを示します。

Machine learning models are often implemented in cohort with humans in the pipeline, with the model having an option to defer to a domain expert in cases where it has low confidence in its inference. Our goal is to design mechanisms for ensuring accuracy and fairness in such prediction systems that combine machine learning model inferences and domain expert predictions. Prior work on "deferral systems" in classification settings has focused on the setting of a pipeline with a single expert and aimed to accommodate the inaccuracies and biases of this expert to simultaneously learn an inference model and a deferral system. Our work extends this framework to settings where multiple experts are available, with each expert having their own domain of expertise and biases. We propose a framework that simultaneously learns a classifier and a deferral system, with the deferral system choosing to defer to one or more human experts in cases of input where the classifier has low confidence. We test our framework on a synthetic dataset and a content moderation dataset with biased synthetic experts, and show that it significantly improves the accuracy and fairness of the final predictions, compared to the baselines. We also collect crowdsourced labels for the content moderation task to construct a real-world dataset for the evaluation of hybrid machine-human frameworks and show that our proposed learning framework outperforms baselines on this real-world dataset as well.
翻訳日:2021-02-26 13:55:04 公開日:2021-02-25
# パーソナライズを考慮したフェデレートマルチアームバンディット

Federated Multi-armed Bandits with Personalization ( http://arxiv.org/abs/2102.13101v1 )

ライセンス: Link先を確認
Chengshuai Shi, Cong Shen, Jing Yang(参考訳) パーソナライズされた多武装バンディット(PF-MAB)の一般的な枠組みを提案する。これは、教師付き学習におけるFLフレームワークに類似した新しいバンディットパラダイムであり、パーソナライズによるFLの特徴を享受するものである。 PF-MABフレームワークの下で、一般化とパーソナライゼーションを柔軟にバランスさせる混合バンディット学習問題を研究する。 混合モデルに対する下界解析について述べる。 次にPF-UCB(Personalized Federated Up Confidence Bound)アルゴリズムを提案する。このアルゴリズムでは、探索期間を慎重に選択し、局所モデルの学習と混合学習目的のためのグローバル情報の提供の望ましいバランスを実現する。 理論解析は、PF-UCBが個人化の程度にかかわらず$O(\log(T))$の後悔を達成し、下位境界と同様のインスタンス依存性を有することを証明している。 合成データと実世界のデータの両方を用いた実験は、理論解析と提案アルゴリズムの有効性を実証する。

A general framework of personalized federated multi-armed bandits (PF-MAB) is proposed, which is a new bandit paradigm analogous to the federated learning (FL) framework in supervised learning and enjoys the features of FL with personalization. Under the PF-MAB framework, a mixed bandit learning problem that flexibly balances generalization and personalization is studied. A lower bound analysis for the mixed model is presented. We then propose the Personalized Federated Upper Confidence Bound (PF-UCB) algorithm, where the exploration length is chosen carefully to achieve the desired balance of learning the local model and supplying global information for the mixed learning objective. Theoretical analysis proves that PF-UCB achieves an $O(\log(T))$ regret regardless of the degree of personalization, and has a similar instance dependency as the lower bound. Experiments using both synthetic and real-world datasets corroborate the theoretical analysis and demonstrate the effectiveness of the proposed algorithm.
翻訳日:2021-02-26 13:54:40 公開日:2021-02-25
# 多情報融合ネットワークとCNNに基づく地域成長を用いた粗気道分割

Coarse-to-fine Airway Segmentation Using Multi information Fusion Network and CNN-based Region Growing ( http://arxiv.org/abs/2102.12755v1 )

ライセンス: Link先を確認
Jinquan Guo, Rongda Fu, Lin Pan, Shaohua Zheng, Liqin Huang, Bin Zheng, Bingwei He(参考訳) 胸部CT検査による気道自動分画は肺疾患の診断とコンピュータ支援療法において重要な役割を担っている。 しかし、周囲の枝や複雑な木のような構造における低コントラストは、主に気道セグメンテーションの2つの課題として残っている。 近年の研究では、深層学習手法がセグメンテーションタスクにおいてうまく機能していることが示されている。 これらの作品に動機づけられて、完全な気道ツリーを得るために粗いセグメント化フレームワークが提案される。 本フレームワークでは,多情報融合畳み込みニューラルネットワーク(Mif-CNN)とCNNをベースとした領域をそれぞれ,気道全体と小枝に分割する。 mif-cnnでは、atrous spatial pyramid pooling (aspp) をu字型ネットワークに統合し、受容野を駆逐し、マルチスケール情報を取り込むことができる。 一方、境界情報と位置情報は意味情報に組み込まれる。 これらの情報は、Mif-CNNが追加のコンテキスト知識と有用な機能を活用するのに役立ちます。 セグメンテーション結果の性能を向上させるため,CNNベースの領域成長法では,小枝の獲得に重点を置いている。 各Voxel周辺の豊富な情報を完全にキャプチャできるVoxel分類ネットワーク(VCN)が、Voxelを気道および非気道に分類するために適用されます。 また、気道木を改良するために形状復元法が用いられている。

Automatic airway segmentation from chest computed tomography (CT) scans plays an important role in pulmonary disease diagnosis and computer-assisted therapy. However, low contrast at peripheral branches and complex tree-like structures remain as two mainly challenges for airway segmentation. Recent research has illustrated that deep learning methods perform well in segmentation tasks. Motivated by these works, a coarse-to-fine segmentation framework is proposed to obtain a complete airway tree. Our framework segments the overall airway and small branches via the multi-information fusion convolution neural network (Mif-CNN) and the CNN-based region growing, respectively. In Mif-CNN, atrous spatial pyramid pooling (ASPP) is integrated into a u-shaped network, and it can expend the receptive field and capture multi-scale information. Meanwhile, boundary and location information are incorporated into semantic information. These information are fused to help Mif-CNN utilize additional context knowledge and useful features. To improve the performance of the segmentation result, the CNN-based region growing method is designed to focus on obtaining small branches. A voxel classification network (VCN), which can entirely capture the rich information around each voxel, is applied to classify the voxels into airway and non-airway. In addition, a shape reconstruction method is used to refine the airway tree.
翻訳日:2021-02-26 13:54:19 公開日:2021-02-25
# 暗黙的スプライン表現と深層学習を用いた医療画像のバイナリセグメンテーション

Binary segmentation of medical images using implicit spline representations and deep learning ( http://arxiv.org/abs/2102.12759v1 )

ライセンス: Link先を確認
Oliver J.D. Barrowclough, Georg Muntingh, Varatharajan Nainamalai, Ivar Stangeby(参考訳) 本稿では,暗黙のスプライン表現と深層畳み込みニューラルネットワークを組み合わせた画像分割手法を提案する。 これは、ゼロ集合がセグメンテーション境界を表す双変量スプライン関数の制御点を予測することによって行われる。 既存のニューラルネットワークアーキテクチャを適応させ、暗黙のスプライン曲線近似を提供するために調整された新しい損失関数を設計する。 この方法は先天性心疾患ct医用画像データセット上で評価される。 各種ネットワークおよび損失関数に対する各種標準指標の性能測定により実験を行った。 我々は、512\times 512$解像CT画像のために最適に実行された128\times128$係数分解能と2次$(1,1)$のスプラインを決定します。 当社のベストネットワークでは、Diceの平均ボリュームテストスコアが92%近くに達し、この先天性心疾患データセットの最先端に達しています。

We propose a novel approach to image segmentation based on combining implicit spline representations with deep convolutional neural networks. This is done by predicting the control points of a bivariate spline function whose zero-set represents the segmentation boundary. We adapt several existing neural network architectures and design novel loss functions that are tailored towards providing implicit spline curve approximations. The method is evaluated on a congenital heart disease computed tomography medical imaging dataset. Experiments are carried out by measuring performance in various standard metrics for different networks and loss functions. We determine that splines of bidegree $(1,1)$ with $128\times128$ coefficient resolution performed optimally for $512\times 512$ resolution CT images. For our best network, we achieve an average volumetric test Dice score of almost 92%, which reaches the state of the art for this congenital heart disease dataset.
翻訳日:2021-02-26 13:53:55 公開日:2021-02-25
# 3次元点雲の深い知覚指標

A deep perceptual metric for 3D point clouds ( http://arxiv.org/abs/2102.12839v1 )

ライセンス: Link先を確認
Maurice Quach, Aladine Chetouani, Giuseppe Valenzise and Frederic Dufaux(参考訳) ポイントクラウドは3Dコンテンツの保存と送信に不可欠である。 大量のデータを格納できるため、ポイントクラウド圧縮は実用的な使用に不可欠です。 近年,深層ニューラルネットワークに基づく点雲幾何圧縮手法が研究されている。 本稿では,これらのネットワークを訓練するために用いられるvoxel型損失関数の知覚品質を予測する能力を評価する。 一般に用いられる焦点損失と重み付き二元交叉エントロピーは、人間の知覚とあまり相関しないことがわかった。 そこで本研究では,ICIP2020の主観データセットにおける既存の損失関数を上回った3次元点群の知覚損失関数を提案する。 さらに,新しい切り離された距離場ボクセル格子表現を提案し,二項表現と比較して視覚的品質とより相関するスペーサー潜在空間や損失関数を導出することを示した。 ソースコードはhttps://github.com/mauriceqch/2021_pc_perceptual_lossで入手できる。

Point clouds are essential for storage and transmission of 3D content. As they can entail significant volumes of data, point cloud compression is crucial for practical usage. Recently, point cloud geometry compression approaches based on deep neural networks have been explored. In this paper, we evaluate the ability to predict perceptual quality of typical voxel-based loss functions employed to train these networks. We find that the commonly used focal loss and weighted binary cross entropy are poorly correlated with human perception. We thus propose a perceptual loss function for 3D point clouds which outperforms existing loss functions on the ICIP2020 subjective dataset. In addition, we propose a novel truncated distance field voxel grid representation and find that it leads to sparser latent spaces and loss functions that are more correlated with perceived visual quality compared to a binary representation. The source code is available at https://github.com/mauriceqch/2021_pc_perceptual_loss.
翻訳日:2021-02-26 13:53:35 公開日:2021-02-25
# 永続的ホモロジーとグラフ表現学習

Persistent Homology and Graphs Representation Learning ( http://arxiv.org/abs/2102.12926v1 )

ライセンス: Link先を確認
Mustafa Hajij, Ghaza Zamzmi, Xuanting Cai(参考訳) 本稿では,ノードグラフ表現埋め込みにエンコードされる位相不変性について,永続ホモロジーで利用可能なツールを用いて研究することを目的とした。 具体的には,ノード埋め込み表現アルゴリズムを考えると,これらの埋め込みが実数値化されている場合を考える。 これらの埋め込みを関心領域上のスカラー関数として見ることにより、永続ホモロジーで利用可能なツールを用いて、これらの表現に符号化された位相情報を研究することができる。 我々の構成では,ノード表現アルゴリズム毎に,グラフレベルとノードレベルの両方で,ユニークな永続性ベースのグラフ記述子を効果的に定義している。 提案手法の有効性を実証するため,DeepWalk,Node2Vec,Diff2Vecのトポロジカル記述子について検討した。

This article aims to study the topological invariant properties encoded in node graph representational embeddings by utilizing tools available in persistent homology. Specifically, given a node embedding representation algorithm, we consider the case when these embeddings are real-valued. By viewing these embeddings as scalar functions on a domain of interest, we can utilize the tools available in persistent homology to study the topological information encoded in these representations. Our construction effectively defines a unique persistence-based graph descriptor, on both the graph and node levels, for every node representation algorithm. To demonstrate the effectiveness of the proposed method, we study the topological descriptors induced by DeepWalk, Node2Vec and Diff2Vec.
翻訳日:2021-02-26 13:53:23 公開日:2021-02-25
# ロバストかつ安全なリアルタイムモーション計画のための模擬学習:収縮理論のアプローチ

Imitation Learning for Robust and Safe Real-time Motion Planning: A Contraction Theory Approach ( http://arxiv.org/abs/2102.12668v1 )

ライセンス: Link先を確認
Hiroyasu Tsukamoto and Soon-Jo Chung(参考訳) 本論文では,境界的障害に悩まされる安全クリティカルな非線形システムのリアルタイムロバストな動作計画アルゴリズムであるLAG-ROS(Learning-based Autonomous Guidance with Robustness, Optimality, and Safety guarantees)について述べる。 LAG-ROS法は,1)契約理論による制御リャプノフ関数(CLF)構築,2)CLFに基づく頑健なフィードバック運動プランナの模倣学習,3)学習に基づくモデル予測安全フィルタによるリアルタイム・分散実装の3段階からなる。 clfでは,ニューラルネットワークを用いた神経収縮計測法(ncms)を応用し,摂動と非摂動系軌跡間の定常ユークリッド距離の上限を最小化する微分リアプノフ関数を提案する。 NCMは、摂動状態が所望の軌道上の有界誤差管に留まることを保証し、NCM-CLFをベースとした頑健な集中型運動プランナの模倣学習のためのトレーニングデータをサンプリングする。 トレーニングにローカルオブザーバを使用することで、分散実装も可能になります。 摂動非線形システムのシミュレーション結果から,既存の実時間ロバストなMPCや学習ベースフィードフォワード動作プランナと比較して,LAG-ROSはより高速な実行速度で制御性能とタスク成功率を達成することが示された。

This paper presents Learning-based Autonomous Guidance with Robustness, Optimality, and Safety guarantees (LAG-ROS), a real-time robust motion planning algorithm for safety-critical nonlinear systems perturbed by bounded disturbances. The LAG-ROS method consists of three phases: 1) Control Lyapunov Function (CLF) construction via contraction theory; 2) imitation learning of the CLF-based robust feedback motion planner; and 3) its real-time and decentralized implementation with a learning-based model predictive safety filter. For the CLF, we exploit a neural-network-based method of Neural Contraction Metrics (NCMs), which provides a differential Lyapunov function to minimize an upper bound of the steady-state Euclidean distance between perturbed and unperturbed system trajectories. The NCM ensures the perturbed state to stay in bounded error tubes around given desired trajectories, where we sample training data for imitation learning of the NCM-CLF-based robust centralized motion planner. Using local observations in training also enables its decentralized implementation. Simulation results for perturbed nonlinear systems show that the LAG-ROS achieves higher control performance and task success rate with faster execution speed for real-time computation, when compared with the existing real-time robust MPC and learning-based feedforward motion planners.
翻訳日:2021-02-26 13:53:11 公開日:2021-02-25
# ガウスワイヤタップチャネルにおけるデュアルMINEベースのニューラルセキュア通信

Dual MINE-based Neural Secure Communications under Gaussian Wiretap Channel ( http://arxiv.org/abs/2102.12918v1 )

ライセンス: Link先を確認
Jingjing Li and Zhuo Sun and Lei Zhang and Hongyu Zhu(参考訳) 近年,ガウスワイヤタップチャネル下でのオートエンコーダに基づく物理層セキュア通信システムのエンド・ツー・エンド学習に関する研究が行われている。 しかし、それらの作品では、正当な受信機だけでなく、盗聴器の必要な復号出力を通じて、エンコーダモデルの信頼性とセキュリティを学びました。 実際、既知のeavesdropperのデコーダやその出力の仮定は実用的ではない。 この問題に対処するため,本稿では2つの相互情報ニューラル推定(MINE)に基づくニューラルセキュア通信モデルを提案する。 この方法のセキュリティ制約は、法的および盗聴器チャネルの入出力信号サンプルでのみ構築され、エンコーダのトレーニングがデコーダから完全に独立しているという利点があります。 また、安全な符号化の設計は、盗聴者の復号結果に依存しないため、盗聴者の復号手段によるセキュリティ性能の影響を受けない。 数値計算の結果,eavesdropperが自身で復号器を学習するか,法定復号器を使用するかが保証された。

Recently, some researches are devoted to the topic of end-to-end learning a physical layer secure communication system based on autoencoder under Gaussian wiretap channel. However, in those works, the reliability and security of the encoder model were learned through necessary decoding outputs of not only legitimate receiver but also the eavesdropper. In fact, the assumption of known eavesdropper's decoder or its output is not practical. To address this issue, in this paper we propose a dual mutual information neural estimation (MINE) based neural secure communications model. The security constraints of this method is constructed only with the input and output signal samples of the legal and eavesdropper channels and benefit that training the encoder is completely independent of the decoder. Moreover, since the design of secure coding does not rely on the eavesdropper's decoding results, the security performance would not be affected by the eavesdropper's decoding means. Numerical results show that the performance of our model is guaranteed whether the eavesdropper learns the decoder himself or uses the legal decoder.
翻訳日:2021-02-26 13:52:42 公開日:2021-02-25
# 従来型多コイルMRIの微小逆動に対する不安定性について

On Instabilities of Conventional Multi-Coil MRI Reconstruction to Small Adverserial Perturbations ( http://arxiv.org/abs/2102.13066v1 )

ライセンス: Link先を確認
Chi Zhang, Jinghan Jia, Burhaneddin Yaman, Steen Moeller, Sijia Liu, Mingyi Hong, Mehmet Ak\c{c}akaya(参考訳) 深層学習(DL)はMRIの高速化に多くの注目を集めているが,近年の研究では,小さな摂動がDLベースの再建の不安定を招き,臨床応用への懸念が高まっている。 しかし、これらの仕事は、実用的ではないシングルコイルの取得に焦点を当てています。 マルチコイル獲得に対する小規模の敵意攻撃による不安定性について検討する。 その結果,並列イメージングとマルチコイルCSは,小さな逆乱に対してかなりの不安定性を示すことが示唆された。

Although deep learning (DL) has received much attention in accelerated MRI, recent studies suggest small perturbations may lead to instabilities in DL-based reconstructions, leading to concern for their clinical application. However, these works focus on single-coil acquisitions, which is not practical. We investigate instabilities caused by small adversarial attacks for multi-coil acquisitions. Our results suggest that, parallel imaging and multi-coil CS exhibit considerable instabilities against small adversarial perturbations.
翻訳日:2021-02-26 13:52:25 公開日:2021-02-25
# 自動ストーリー生成:挑戦と挑戦

Automatic Story Generation: Challenges and Attempts ( http://arxiv.org/abs/2102.12634v1 )

ライセンス: Link先を確認
Amal Alabdulkarim, Siyan Li, Xiangyu Peng(参考訳) 本研究のスコープは,自動ストーリー生成における課題を検討することである。 私たちは以下の方法で貢献したいと考えています。 ストーリージェネレーションにおける過去の研究がこれらの課題にどのように対処したかを探る。 2. 今後の研究の方向性と、さらなる進歩に役立つ新しい技術について論じる。 3. 創造性や談話など、しばしば見過ごされがちな課題に光を当てた。

The scope of this survey paper is to explore the challenges in automatic story generation. We hope to contribute in the following ways: 1. Explore how previous research in story generation addressed those challenges. 2. Discuss future research directions and new technologies that may aid more advancements. 3. Shed light on emerging and often overlooked challenges such as creativity and discourse.
翻訳日:2021-02-26 13:52:02 公開日:2021-02-25
# stein変分勾配降下:多粒子および長時間漸近系

Stein Variational Gradient Descent: many-particle and long-time asymptotics ( http://arxiv.org/abs/2102.12956v1 )

ライセンス: Link先を確認
Nikolas N\"usken, D.R. Michiel Renger(参考訳) スタイン変動勾配降下 (SVGD) は相互作用する粒子系に基づくベイズ推論の方法のクラスを指す。 本稿では,ベイジアン計算統計学における2つの主要なパラダイムの1つである変分推論とマルコフ連鎖モンテカルロを表現する確率的変種と同様に,元々提案されていた決定論的ダイナミクスを考察する。 結論として、これらは勾配流構造と統計物理学に根ざした大縮退原理の対応によって強く結びついている。 この関係を明らかにするために、スタイン幾何学の余接空間構築を開発し、その基本的な性質を証明し、経験的測度に対する多粒子極限を規定する大偏差関数を決定する。 さらに,svgd の有限粒子特性に光をあてて,svgd の stein-fisher 情報(または kernelized stein discrepancy) を $\gamma$-convergence という意味での長期および多粒子レジームにおける主要な秩序寄与と同定した。 最後に、スタイン-フィッシュの情報と独立した関心を持つrkhs-ノルムの比較原理を確立する。

Stein variational gradient descent (SVGD) refers to a class of methods for Bayesian inference based on interacting particle systems. In this paper, we consider the originally proposed deterministic dynamics as well as a stochastic variant, each of which represent one of the two main paradigms in Bayesian computational statistics: variational inference and Markov chain Monte Carlo. As it turns out, these are tightly linked through a correspondence between gradient flow structures and large-deviation principles rooted in statistical physics. To expose this relationship, we develop the cotangent space construction for the Stein geometry, prove its basic properties, and determine the large-deviation functional governing the many-particle limit for the empirical measure. Moreover, we identify the Stein-Fisher information (or kernelised Stein discrepancy) as its leading order contribution in the long-time and many-particle regime in the sense of $\Gamma$-convergence, shedding some light on the finite-particle properties of SVGD. Finally, we establish a comparison principle between the Stein-Fisher information and RKHS-norms that might be of independent interest.
翻訳日:2021-02-26 13:51:45 公開日:2021-02-25
# CelebA-Spoof Challenge 2020: Face Anti-Spoofing: Methods and Results

CelebA-Spoof Challenge 2020 on Face Anti-Spoofing: Methods and Results ( http://arxiv.org/abs/2102.12642v1 )

ライセンス: Link先を確認
Yuanhan Zhang, Zhenfei Yin, Jing Shao, Ziwei Liu, Shuo Yang, Yuanjun Xiong, Wei Xia, Yan Xu, Man Luo, Jian Liu, Jianshu Li, Zhijun Chen, Mingyu Guo, Hui Li, Junfu Liu, Pengfei Gao, Tianqi Hong, Hao Han, Shijie Liu, Xinhua Chen, Di Qiu, Cheng Zhen, Dashuang Liang, Yufeng Jin, Zhanlong Hao(参考訳) 顔とのインタラクションシステムが普及するにつれ、これらのシステムのセキュリティと信頼性は重要な問題となり、かなりの研究が費やされる。 その中で、顔のアンチスプーフィングは重要な領域として現れ、その目的は提示された顔が生きているかどうかを特定することです。 近年,10,177名の被験者の625,537枚の写真からなる大規模な顔反スプーフデータセットCelebA-Spoofが公開された。 これは、データと被写体の数において、最大の対スプーフィングデータセットである。 本稿では,celeba-spoof データセットを用いた celeba-spoof challenge 2020 on face antispoofing の手法と結果について報告する。 モデル評価は隠れたテストセット上でオンラインで実施する。 大会には合計134人が参加し、19チームが有効な応募を行った。 上位のソリューションを分析し、今後の作業指示についていくつかの議論を行います。

As facial interaction systems are prevalently deployed, security and reliability of these systems become a critical issue, with substantial research efforts devoted. Among them, face anti-spoofing emerges as an important area, whose objective is to identify whether a presented face is live or spoof. Recently, a large-scale face anti-spoofing dataset, CelebA-Spoof which comprised of 625,537 pictures of 10,177 subjects has been released. It is the largest face anti-spoofing dataset in terms of the numbers of the data and the subjects. This paper reports methods and results in the CelebA-Spoof Challenge 2020 on Face AntiSpoofing which employs the CelebA-Spoof dataset. The model evaluation is conducted online on the hidden test set. A total of 134 participants registered for the competition, and 19 teams made valid submissions. We will analyze the top ranked solutions and present some discussion on future work directions.
翻訳日:2021-02-26 13:50:55 公開日:2021-02-25
# SCD: 検出とセグメンテーションのための積み重ねカートンデータセット

SCD: A Stacked Carton Dataset for Detection and Segmentation ( http://arxiv.org/abs/2102.12808v1 )

ライセンス: Link先を確認
Jinrong Yang, Shengkai Wu, Lijun Gou, Hangcheng Yu, Chenxi Lin, Jiazhuo Wang, Minxuan Li, Xiaoping Li(参考訳) カートンの検出は自動ロジスティクス システムの重要な技術であり、カートンの積み重ねそしてunstacking、容器のカートンの荷を下すことのような多くの適用に適用することができます。 しかし、研究コミュニティがカートン検出モデルのトレーニングと評価を行うための公開大規模カートンデータセットは存在しないため、カートン検出の開発を妨げている。 本稿では,カートン検出の最先端化を目標として,stacked carton dataset(scd)という大規模カートンデータセットを提案する。 画像はインターネットといくつかのウェアタイムから収集され、オブジェクトはインスタンスごとのセグメンテーションを使用して正確な位置決めを行う。 16,136枚の画像から250,000個のインスタンスマスクがあります。 さらに,分類・局所化モジュール(OPCL)と境界誘導スーパービジョンモジュール(BGS)のオフセット予測を組み込んで,RetinaNetに基づくカートン検出器を設計する。 OPCLは、APを3.1%から4.7%のSCDで増加させる分類と局所化品質の不均衡の問題を軽減する一方、BGSはカルトンの境界情報に注意を払って繰り返しカートンテクスチャを分離するように検出器を誘導する。 OPCLの他のデータセットへの一般化を実証するため,MS COCOとPASCAL VOCについて広範な実験を行った。 MS COCOとPASCAL VOCのAPの改善はそれぞれ1.8% - 2.2%と3.4% - 4.3%である。

Carton detection is an important technique in the automatic logistics system and can be applied to many applications such as the stacking and unstacking of cartons, the unloading of cartons in the containers. However, there is no public large-scale carton dataset for the research community to train and evaluate the carton detection models up to now, which hinders the development of carton detection. In this paper, we present a large-scale carton dataset named Stacked Carton Dataset(SCD) with the goal of advancing the state-of-the-art in carton detection. Images are collected from the internet and several warehourses, and objects are labeled using per-instance segmentation for precise localization. There are totally 250,000 instance masks from 16,136 images. In addition, we design a carton detector based on RetinaNet by embedding Offset Prediction between Classification and Localization module(OPCL) and Boundary Guided Supervision module(BGS). OPCL alleviates the imbalance problem between classification and localization quality which boosts AP by 3.1% - 4.7% on SCD while BGS guides the detector to pay more attention to boundary information of cartons and decouple repeated carton textures. To demonstrate the generalization of OPCL to other datasets, we conduct extensive experiments on MS COCO and PASCAL VOC. The improvement of AP on MS COCO and PASCAL VOC is 1.8% - 2.2% and 3.4% - 4.3% respectively.
翻訳日:2021-02-26 13:50:38 公開日:2021-02-25
# FASA: 長期インスタンスセグメンテーションのための機能拡張とサンプリング適応

FASA: Feature Augmentation and Sampling Adaptation for Long-Tailed Instance Segmentation ( http://arxiv.org/abs/2102.12867v1 )

ライセンス: Link先を確認
Yuhang Zang, Chen Huang, Chen Change Loy(参考訳) ロングテールインスタンスセグメンテーションの最近の手法は、トレーニングデータが少ないレアオブジェクトクラスで未だに苦労している。 本稿では,特にレアクラスにおける特徴空間の強化によるデータ不足問題に対処する,単純かつ効果的な手法である特徴強調・サンプリング適応(fasa)を提案する。 FA(Feature Augmentation)とフィーチャーサンプリングコンポーネント(Feature Augmentation)はどちらも、実際のトレーニング状況に適応している -- FAは、過去のイテレーションから観測された実際のサンプルの特徴平均と分散によって通知され、生成した仮想フィーチャを損失適応的にサンプリングし、過度な適合を避ける。 FASAは精巧な損失設計を必要とせず、しばしば大規模なコストと手動で定義されたヘッド/テールクラスグループを含むクラス間転送学習の必要性を排除します。 FASAは、標準または長期のセグメンテーションフレームワークに簡単に接続できる高速で汎用的な方法であり、一貫したパフォーマンス向上と少ない追加コストを示します。 FASAは、最先端のパフォーマンスを備えた長尾分類などの他のタスクにも適用できます。 コードはリリースされる。

Recent methods for long-tailed instance segmentation still struggle on rare object classes with few training data. We propose a simple yet effective method, Feature Augmentation and Sampling Adaptation (FASA), that addresses the data scarcity issue by augmenting the feature space especially for rare classes. Both the Feature Augmentation (FA) and feature sampling components are adaptive to the actual training status -- FA is informed by the feature mean and variance of observed real samples from past iterations, and we sample the generated virtual features in a loss-adapted manner to avoid over-fitting. FASA does not require any elaborate loss design, and removes the need for inter-class transfer learning that often involves large cost and manually-defined head/tail class groups. We show FASA is a fast, generic method that can be easily plugged into standard or long-tailed segmentation frameworks, with consistent performance gains and little added cost. FASA is also applicable to other tasks like long-tailed classification with state-of-the-art performance. Code will be released.
翻訳日:2021-02-26 13:50:10 公開日:2021-02-25
# 意味セグメンテーションにおける教師なし領域適応のための空間的特徴間のコサイン類似性最大化

Maximizing Cosine Similarity Between Spatial Features for Unsupervised Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2102.13002v1 )

ライセンス: Link先を確認
Inseop Chung, Daesik Kim, Nojun Kwak(参考訳) 本論文では,ソースとターゲットドメインのコサイン類似性を特徴レベルで最大化することにより,セマンティックセグメンテーションにおける非監視領域適応の問題に取り組む新しい手法を提案する。 セグメンテーションネットワークは、主に特徴抽出器と分類ヘッドの2つの部分から構成される。 2つのドメインが機能レベルで小さなドメイン間隙を持つようにできれば、分類ヘッドで小さなドメイン間差異も生まれると期待しています。 提案手法では,ソース特徴マップとターゲット特徴マップのコサイン類似度行列を計算し,しきい値を超える要素を最大化し,最も類似したソース特徴と高い類似度を持つように目標特徴を導出する。 さらに,ソースドメインの最新の特徴を格納するクラス毎のソース特徴辞書を用いて,コサイン類似度行列の計算時に一致しない問題を防止し,対象特徴と各種画像からの各種ソース特徴を比較した。 広範な実験を通じて,2つの監視されていないドメイン適応タスク(GTA5$\to$ Cityscaspes と SYNTHIA$\to$ Cityscapes)において,この手法がパフォーマンスを向上することを確認した。

We propose a novel method that tackles the problem of unsupervised domain adaptation for semantic segmentation by maximizing the cosine similarity between the source and the target domain at the feature level. A segmentation network mainly consists of two parts, a feature extractor and a classification head. We expect that if we can make the two domains have small domain gap at the feature level, they would also have small domain discrepancy at the classification head. Our method computes a cosine similarity matrix between the source feature map and the target feature map, then we maximize the elements exceeding a threshold to guide the target features to have high similarity with the most similar source feature. Moreover, we use a class-wise source feature dictionary which stores the latest features of the source domain to prevent the unmatching problem when computing the cosine similarity matrix and be able to compare a target feature with various source features from various images. Through extensive experiments, we verify that our method gains performance on two unsupervised domain adaptation tasks (GTA5$\to$ Cityscaspes and SYNTHIA$\to$ Cityscapes).
翻訳日:2021-02-26 13:49:48 公開日:2021-02-25
# 非拘束時空間ビデオの超解像学習

Learning for Unconstrained Space-Time Video Super-Resolution ( http://arxiv.org/abs/2102.13011v1 )

ライセンス: Link先を確認
Zhihao Shi, Chengqi Li, Linhui Dai, Xiaohong Liu, Jun Chen, Timothy N. Davidson(参考訳) 近年,時間的フレームレートと空間分解能を同時に向上させる映像エンハンスメントに関する研究が盛んに行われている。 しかし、既存の方法は時間的情報と空間的情報の間の本質的な関係を探らないか、最終的な時間的/空間的解決の選択において柔軟性がないかのいずれかである。 本研究では, 時空間相関を効果的に活用し, 性能を向上できる, 制約のない時空間ビデオ超解像ネットワークを提案する。 さらに、光学フロー技術と一般化ピクセルシャッフル演算を用いることで、時間フレームレートと空間分解能の調整が完全に自由である。 実験の結果,提案手法は最先端技術よりもはるかに少ないパラメータと実行時間を必要とすることがわかった。

Recent years have seen considerable research activities devoted to video enhancement that simultaneously increases temporal frame rate and spatial resolution. However, the existing methods either fail to explore the intrinsic relationship between temporal and spatial information or lack flexibility in the choice of final temporal/spatial resolution. In this work, we propose an unconstrained space-time video super-resolution network, which can effectively exploit space-time correlation to boost performance. Moreover, it has complete freedom in adjusting the temporal frame rate and spatial resolution through the use of the optical flow technique and a generalized pixelshuffle operation. Our extensive experiments demonstrate that the proposed method not only outperforms the state-of-the-art, but also requires far fewer parameters and less running time.
翻訳日:2021-02-26 13:49:26 公開日:2021-02-25
# 簡易マルチデータセット検出

Simple multi-dataset detection ( http://arxiv.org/abs/2102.13086v1 )

ライセンス: Link先を確認
Xingyi Zhou, Vladlen Koltun, Philipp Kr\"ahenb\"uhl(参考訳) 汎用かつ広範な物体検出システムをどうやって構築するか? 注釈付きの全ての概念のラベルを使います。 これらのラベルは、潜在的に一貫性のない分類法を持つ多様なデータセットにまたがる。 本稿では,複数の大規模データセット上で一元化検出器を訓練する簡単な方法を提案する。 データセット固有のトレーニングプロトコルと損失を使用しますが、データセット固有の出力と共通の検出アーキテクチャを共有します。 これらのデータセット固有のアウトプットを共通の意味論的分類に自動統合する方法を示す。 先行研究とは対照的に,このアプローチでは手作業による分類の調整は不要である。 当社のマルチデータセット検出器は,各トレーニングドメインでデータセット固有のモデルと同様に動作するが,新たな未認識領域に対してはるかに優れている。 ECCV 2020 Robust Vision Challengeのオブジェクト検出およびインスタンスセグメンテーショントラックで1位にランクインした方法論に基づくエントリ。

How do we build a general and broad object detection system? We use all labels of all concepts ever annotated. These labels span diverse datasets with potentially inconsistent taxonomies. In this paper, we present a simple method for training a unified detector on multiple large-scale datasets. We use dataset-specific training protocols and losses, but share a common detection architecture with dataset-specific outputs. We show how to automatically integrate these dataset-specific outputs into a common semantic taxonomy. In contrast to prior work, our approach does not require manual taxonomy reconciliation. Our multi-dataset detector performs as well as dataset-specific models on each training domain, but generalizes much better to new unseen domains. Entries based on the presented methodology ranked first in the object detection and instance segmentation tracks of the ECCV 2020 Robust Vision Challenge.
翻訳日:2021-02-26 13:49:12 公開日:2021-02-25
# 階層的関連時系列の同時調整分位数予測

Simultaneously Reconciled Quantile Forecasting of Hierarchically Related Time Series ( http://arxiv.org/abs/2102.12612v1 )

ライセンス: Link先を確認
Xing Han, Sambarta Dasgupta, Joydeep Ghosh(参考訳) 現実のアプリケーションの多くは、集約や分解操作を通じて階層的に関係する複数の時系列を同時に予測する。 例えば、商業組織はしばしば、資源計画の目的で、店舗、都市、および州レベルで同時に在庫を予測したい。 このようなアプリケーションでは、予測が合理的に正確であることに加えて、相互に一貫したw.r.tであることが重要である。 このような階層的時系列の予測は経済学者やデータサイエンティストによって追求されているが、現在の最新モデルは強い仮定、例えば、すべての予測は偏見のない推定であり、ノイズ分布はガウス的である。 さらに、最先端のモデルは、特にディープラーニングに基づく現代の非線形モデルのパワーを生かしていない。 本稿では,階層間の予測の整合性を維持するために,量子レグレッション損失と適切な正規化項を結合したフレキシブル非線形モデルを提案する。 ここで導入された理論的枠組みは、下層の微分可微分損失関数を持つ任意の予測モデルに適用できる。 提案手法の最適性の証明も提供する。 さまざまなデータセットに関するシミュレーション研究は、私たちのアプローチの有効性を強調します。

Many real-life applications involve simultaneously forecasting multiple time series that are hierarchically related via aggregation or disaggregation operations. For instance, commercial organizations often want to forecast inventories simultaneously at store, city, and state levels for resource planning purposes. In such applications, it is important that the forecasts, in addition to being reasonably accurate, are also consistent w.r.t one another. Although forecasting such hierarchical time series has been pursued by economists and data scientists, the current state-of-the-art models use strong assumptions, e.g., all forecasts being unbiased estimates, noise distribution being Gaussian. Besides, state-of-the-art models have not harnessed the power of modern nonlinear models, especially ones based on deep learning. In this paper, we propose using a flexible nonlinear model that optimizes quantile regression loss coupled with suitable regularization terms to maintain the consistency of forecasts across hierarchies. The theoretical framework introduced herein can be applied to any forecasting model with an underlying differentiable loss function. A proof of optimality of our proposed method is also provided. Simulation studies over a range of datasets highlight the efficacy of our approach.
翻訳日:2021-02-26 13:49:02 公開日:2021-02-25
# プライバシーを過大評価するな - 個人学習のための勾配埋め込み摂動

Do Not Let Privacy Overbill Utility: Gradient Embedding Perturbation for Private Learning ( http://arxiv.org/abs/2102.12677v1 )

ライセンス: Link先を確認
Da Yu, Huishuai Zhang, Wei Chen, Tie-Yan Liu(参考訳) トレーニングデータに関するモデルのプライバシー漏洩は、差分プライバシーメカニズムにバインドすることができる。 しかし、有意義なプライバシパラメータに対しては、モデルが多数のトレーニング可能なパラメータを含む場合、微分プライベートモデルによってユーティリティが大幅に劣化する。 本稿では,偏微分プライベート深層モデルの精度向上のためのアルゴリズムであるemph{Gradient Embedding Perturbation (GEP)を提案する。 具体的には、各勾配降下ステップにおいて、GEP は個々のプライベート勾配を非感度アンカー部分空間に投影し、低次元勾配埋め込みと小さなノルム勾配を生成する。 そして、GEPはプライバシー予算に応じて、低次元の埋め込みと残留勾配を別々に摂動する。 このような分解は、小さな摂動分散を許容し、プライベートラーニングの次元障壁を壊すのに大いに役立つ。 GEPでは、合理的な計算コストと深いモデルのための控えめなプライバシー保証で、適切な精度を実現します。 特に、プライバシー境界 $\epsilon=8$ で、CIFAR10 で $74.9\%$ テスト精度を達成し、SVHN で $95.1\%$ テスト精度を達成し、既存の結果を大幅に改善します。

The privacy leakage of the model about the training data can be bounded in the differential privacy mechanism. However, for meaningful privacy parameters, a differentially private model degrades the utility drastically when the model comprises a large number of trainable parameters. In this paper, we propose an algorithm \emph{Gradient Embedding Perturbation (GEP)} towards training differentially private deep models with decent accuracy. Specifically, in each gradient descent step, GEP first projects individual private gradient into a non-sensitive anchor subspace, producing a low-dimensional gradient embedding and a small-norm residual gradient. Then, GEP perturbs the low-dimensional embedding and the residual gradient separately according to the privacy budget. Such a decomposition permits a small perturbation variance, which greatly helps to break the dimensional barrier of private learning. With GEP, we achieve decent accuracy with reasonable computational cost and modest privacy guarantee for deep models. Especially, with privacy bound $\epsilon=8$, we achieve $74.9\%$ test accuracy on CIFAR10 and $95.1\%$ test accuracy on SVHN, significantly improving over existing results.
翻訳日:2021-02-26 13:48:43 公開日:2021-02-25
# 変換を用いた境界誤差による信頼キャリブレーション

Confidence Calibration with Bounded Error Using Transformations ( http://arxiv.org/abs/2102.12680v1 )

ライセンス: Link先を確認
Sooyong Jang, Radoslav Ivanov, Insup lee, and James Weimer(参考訳) 機械学習の技術が新しい領域、特に自動運転車などの安全クリティカルなシステムで広く採用されるにつれて、正確な出力不確実性推定を提供することが重要です。 その結果,誤分類の可能性を正確に推定するために,ニューラルネットワークの校正手法が提案されている。 しかし、これらの手法は低いキャリブレーション誤差(ECE)を達成する一方で、キャリブレーション誤差(CE)に関する理論的性能保証を提供する技術はほとんどない。 本論文では,CEに理論的境界を持つ新しいキャリブレーションアルゴリズムであるHokiについて紹介する。 Hokiは、ニューラルネットワークのロジットや入力を変換し、出力の対応する変更からの情報を活用するキャリブレーションを再帰的に実行する。 校正に用いるサンプルの数が減少し、ECEと比例して増加し、ECEの計算に用いる離散ビンの数が増加することが示されるCE上のPAC様境界を提供する。 ImageNetを含む複数のデータセットで実験を行い、提案手法が一般的に、複数のデータセットやモデルにわたる最先端のキャリブレーションアルゴリズムよりも優れていることを示す。 加えて、Hokiは学習時間の点で温度スケーリングに匹敵する高速アルゴリズムである。

As machine learning techniques become widely adopted in new domains, especially in safety-critical systems such as autonomous vehicles, it is crucial to provide accurate output uncertainty estimation. As a result, many approaches have been proposed to calibrate neural networks to accurately estimate the likelihood of misclassification. However, while these methods achieve low expected calibration error (ECE), few techniques provide theoretical performance guarantees on the calibration error (CE). In this paper, we introduce Hoki, a novel calibration algorithm with a theoretical bound on the CE. Hoki works by transforming the neural network logits and/or inputs and recursively performing calibration leveraging the information from the corresponding change in the output. We provide a PAC-like bounds on CE that is shown to decrease with the number of samples used for calibration, and increase proportionally with ECE and the number of discrete bins used to calculate ECE. We perform experiments on multiple datasets, including ImageNet, and show that the proposed approach generally outperforms state-of-the-art calibration algorithms across multiple datasets and models - providing nearly an order or magnitude improvement in ECE on ImageNet. In addition, Hoki is fast algorithm which is comparable to temperature scaling in terms of learning time.
翻訳日:2021-02-26 13:48:19 公開日:2021-02-25
# 拡散地球モーバーの距離と分布埋め込み

Diffusion Earth Mover's Distance and Distribution Embeddings ( http://arxiv.org/abs/2102.12833v1 )

ライセンス: Link先を確認
Alexander Tong, Guillaume Huguet, Amine Natik, Kincaid MacDonald, Manik Kuchroo, Ronald Coifman, Guy Wolf, Smita Krishnaswamy(参考訳) 本研究では,DEMD(Diffusion Earth Mover's Distance)と呼ばれる,多数の高次元データセット間の距離を高速に測定する手法を提案する。 複合データ上に計算された親和性行列から派生した共通データグラフ上の分布としてデータセットをモデル化する。 グラフがリーマン閉多様体の離散化であるような場合、拡散 EMD は測地線接地距離を持つ標準 EMD と位相的に同値であることを示す。 Diffusion EMDは$\tilde{O}(n)$ timeで計算でき、木ベースのEMDのような同様の高速アルゴリズムよりも正確である。 また,拡散emdは完全に微分可能であり,深層ニューラルネットワークなどの勾配ディッショニングフレームワークの将来の利用に適していることを示した。 最後に、Yale New Haven Hospitalの210 COVID-19患者サンプルから収集された単一細胞データに対する拡散EMDの適用を実証する。 ここで、拡散emdは、細胞多様体上の患者間の距離を、等しく正確な方法よりも少なくとも2桁早く導出することができる。 この患者間の距離行列は、患者の構造や多様性を明らかにする高レベルな患者多様体に埋め込まれる。 より一般的には、Diffusion EMDは、多くの医療や生物学的システムで並列に収集される全てのデータセットに適用できる。

We propose a new fast method of measuring distances between large numbers of related high dimensional datasets called the Diffusion Earth Mover's Distance (EMD). We model the datasets as distributions supported on common data graph that is derived from the affinity matrix computed on the combined data. In such cases where the graph is a discretization of an underlying Riemannian closed manifold, we prove that Diffusion EMD is topologically equivalent to the standard EMD with a geodesic ground distance. Diffusion EMD can be computed in $\tilde{O}(n)$ time and is more accurate than similarly fast algorithms such as tree-based EMDs. We also show Diffusion EMD is fully differentiable, making it amenable to future uses in gradient-descent frameworks such as deep neural networks. Finally, we demonstrate an application of Diffusion EMD to single cell data collected from 210 COVID-19 patient samples at Yale New Haven Hospital. Here, Diffusion EMD can derive distances between patients on the manifold of cells at least two orders of magnitude faster than equally accurate methods. This distance matrix between patients can be embedded into a higher level patient manifold which uncovers structure and heterogeneity in patients. More generally, Diffusion EMD is applicable to all datasets that are massively collected in parallel in many medical and biological systems.
翻訳日:2021-02-26 13:47:57 公開日:2021-02-25
# SparseBERT: 自己意識における重要度分析の再考

SparseBERT: Rethinking the Importance Analysis in Self-attention ( http://arxiv.org/abs/2102.12871v1 )

ライセンス: Link先を確認
Han Shi, Jiahui Gao, Xiaozhe Ren, Hang Xu, Xiaodan Liang, Zhenguo Li, James T. Kwok(参考訳) トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。 コアコンポーネントであるセルフアテンションモジュールは、広く関心を集めている。 事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つであり,可視化に共通するパターンがいくつか見られる。 これらのパターンに基づき、対応するスパースアテンションマスクを用いた一連の効率的なトランスフォーマーが提案されている。 上記の実証結果に加えて、トランスフォーマーに基づくモデルの普遍的近似性も理論的観点から発見されている。 しかし、上記の自己意識の理解と分析は、事前学習されたモデルに基づいている。 自己注意における重要度分析を再考するために,事前学習中の注意行列の重要性のダイナミクスを考察する。 驚くべき結果の1つは,注意マップの対角要素が他の注意位置と比較して最も重要でないことであり,モデル性能を損なうことなくこれらの要素を除去できることを示す証拠を提供する。 さらに,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。 広範な実験は、我々の興味深い発見を検証し、提案されたアルゴリズムの効果を示す。

Transformer-based models are popular for natural language processing (NLP) tasks due to its powerful capacity. As the core component, self-attention module has aroused widespread interests. Attention map visualization of a pre-trained model is one direct method for understanding self-attention mechanism and some common patterns are observed in visualization. Based on these patterns, a series of efficient transformers are proposed with corresponding sparse attention masks. Besides above empirical results, universal approximability of Transformer-based models is also discovered from a theoretical perspective. However, above understanding and analysis of self-attention is based on a pre-trained model. To rethink the importance analysis in self-attention, we delve into dynamics of attention matrix importance during pre-training. One of surprising results is that the diagonal elements in the attention map are the most unimportant compared with other attention positions and we also provide a proof to show these elements can be removed without damaging the model performance. Furthermore, we propose a Differentiable Attention Mask (DAM) algorithm, which can be also applied in guidance of SparseBERT design further. The extensive experiments verify our interesting findings and illustrate the effect of our proposed algorithm.
翻訳日:2021-02-26 13:47:37 公開日:2021-02-25
# データ効率のよいディープラーニングのためのセルフチューニング

Self-Tuning for Data-Efficient Deep Learning ( http://arxiv.org/abs/2102.12903v1 )

ライセンス: Link先を確認
Ximei Wang, Jinghan Gao, Jianmin Wang, Mingsheng Long(参考訳) ディープラーニングは、大規模ラベル付きデータセットの存在下で、多様なアプリケーションに革命的な進歩をもたらした。 しかし、最も現実的なシナリオで十分なラベル付きデータを集めることは、時間的にコストがかかり、労力がかかる。 ラベル付きデータの要件を軽減するために、半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を同時に探索することに焦点を当て、転送学習(TL)は、事前に訓練されたモデルをターゲットデータに微調整する好適なプラクティスを一般化します。 このようにジレンマが発生する: 暗黙の正規化を提供する適切な事前学習モデルがないと、スクラッチからの自己訓練によるsslは、特に大きなラベル空間において、不正確な擬似ラベルによって容易に誤解される。 このジレンマから逃れるために,ラベル付きおよびラベル付きデータの探索と事前学習モデルの転送を統一し,データ効率のよいディープラーニングを実現するための新しい手法であるセルフチューニングを提案する。 さらに, Pseudo Group Contrast (PGC) 機構は, 自己学習における確認バイアスの課題に対処するため, 擬似ラベルへの依存を緩和し, 偽ラベルへの耐性を高めるために考案された。 Self-TuningはSSLとTLを5つのタスク、例えばシャープマージンで上回っている。 15%のラベルを持つ車の微調整の精度を2倍にする。

Deep learning has made revolutionary advances to diverse applications in the presence of large-scale labeled datasets. However, it is prohibitively time-costly and labor-expensive to collect sufficient labeled data in most realistic scenarios. To mitigate the requirement for labeled data, semi-supervised learning (SSL) focuses on simultaneously exploring both labeled and unlabeled data, while transfer learning (TL) popularizes a favorable practice of fine-tuning a pre-trained model to the target data. A dilemma is thus encountered: Without a decent pre-trained model to provide an implicit regularization, SSL through self-training from scratch will be easily misled by inaccurate pseudo-labels, especially in large-sized label space; Without exploring the intrinsic structure of unlabeled data, TL through fine-tuning from limited labeled data is at risk of under-transfer caused by model shift. To escape from this dilemma, we present Self-Tuning, a novel approach to enable data-efficient deep learning by unifying the exploration of labeled and unlabeled data and the transfer of a pre-trained model. Further, to address the challenge of confirmation bias in self-training, a Pseudo Group Contrast (PGC) mechanism is devised to mitigate the reliance on pseudo-labels and boost the tolerance to false-labels. Self-Tuning outperforms its SSL and TL counterparts on five tasks by sharp margins, e.g. it doubles the accuracy of fine-tuning on Cars with 15% labels.
翻訳日:2021-02-26 13:47:21 公開日:2021-02-25
# t-SNE, 強制色および平均場限界

t-SNE, Forceful Colorings and Mean Field Limits ( http://arxiv.org/abs/2102.13009v1 )

ライセンス: Link先を確認
Yulan Zhang, Stefan Steinerberger(参考訳) t-sneは最も一般的に用いられる力に基づく非線形次元減少法の一つである。 この論文には2つの貢献がある: 1つは強制色付けであり、これは他の力に基づく方法(UMAP, ForceAtlas2, ...)にも適用できる。 しかし、粒子に作用する魅力的な(または反発的な)力の大きさと方向の両方は、その性質に関連している:力ベクトルは付加的な特徴として機能することができる。 次に, t-sne が単一等質クラスター上で作用する場合(ランダムk-正則グラフの隣接行列から生じる親和性によってモデル化される)を解析し, 古典的変分解析において興味深い問題をもたらす平均場モデルを求める。 このモデルは、1つの完全均質なクラスターのt-SNE埋め込みが点ではなく、直径 $\sim k^{-1/4} n^{-1/4}$ の薄い公理であると予測する。 これは数値の結果によって支えられます。 平均場 ansatz は他の力に基づく次元還元法にも拡張される。

t-SNE is one of the most commonly used force-based nonlinear dimensionality reduction methods. This paper has two contributions: the first is forceful colorings, an idea that is also applicable to other force-based methods (UMAP, ForceAtlas2,...). In every equilibrium, the attractive and repulsive forces acting on a particle cancel out: however, both the size and the direction of the attractive (or repulsive) forces acting on a particle are related to its properties: the force vector can serve as an additional feature. Secondly, we analyze the case of t-SNE acting on a single homogeneous cluster (modeled by affinities coming from the adjacency matrix of a random k-regular graph); we derive a mean-field model that leads to interesting questions in classical calculus of variations. The model predicts that, in the limit, the t-SNE embedding of a single perfectly homogeneous cluster is not a point but a thin annulus of diameter $\sim k^{-1/4} n^{-1/4}$. This is supported by numerical results. The mean field ansatz extends to other force-based dimensionality reduction methods.
翻訳日:2021-02-26 13:46:00 公開日:2021-02-25
# 脅威防御のためのブロックチェーンフェデレーション学習

Blockchained Federated Learning for Threat Defense ( http://arxiv.org/abs/2102.12746v1 )

ライセンス: Link先を確認
Konstantinos Demertzis(参考訳) スマートシティにおける脅威の複雑さ、環境の変化、およびゼロデイ攻撃などの深刻な脅威を検出できない従来のセキュリティシステムの弱さを考えると、代替のよりアクティブで効果的なセキュリティ方法の必要性はますます高まっています。 このようなアプローチは、問題となるインフラストラクチャの条件や運用パラメータの下での脅威や異常を防止、検出、対処するためのインテリジェントなソリューションの採用である。 本研究では、スマートシティネットワークにおける高度な適応協調学習(AACL)メカニズムの実装を目指し、受動型インテリジェントシステムの運用方法を完全に改善することを目的としたブロックチェーンフェデレーテッドラーニングを用いたインテリジェント脅威防御システムの開発について紹介する。 AACLは、参加者や利害関係者のプライバシーと匿名性を確保しながら、最も先進的な計算知能の手法に基づいている。 提案するフレームワークは,分散型かつ継続的なトレースアルゴリズムの学習にフェデレート学習を併用する。 学習は、プロセスの明確な検証と制御のために、ブロックチェーンテクノロジ内のスマートコントラクトを暗号化することで実現される。 提案されたフレームワークの目的は、Advanced Persistent Threat(APT)攻撃による異常を特定するために、産業用IoT(IIoT)から派生したスマートシティネットワークトラフィックをディープコンテンツインスペクション(DCI)メソッドでインテリジェントに分類することである。

Given the increasing complexity of threats in smart cities, the changing environment, and the weakness of traditional security systems, which in most cases fail to detect serious threats such as zero-day attacks, the need for alternative more active and more effective security methods keeps increasing. Such approaches are the adoption of intelligent solutions to prevent, detect and deal with threats or anomalies under the conditions and the operating parameters of the infrastructure in question. This research paper introduces the development of an intelligent Threat Defense system, employing Blockchain Federated Learning, which seeks to fully upgrade the way passive intelligent systems operate, aiming at implementing an Advanced Adaptive Cooperative Learning (AACL) mechanism for smart cities networks. The AACL is based on the most advanced methods of computational intelligence while ensuring privacy and anonymity for participants and stakeholders. The proposed framework combines Federated Learning for the distributed and continuously validated learning of the tracing algorithms. Learning is achieved through encrypted smart contracts within the blockchain technology, for unambiguous validation and control of the process. The aim of the proposed Framework is to intelligently classify smart cities networks traffic derived from Industrial IoT (IIoT) by Deep Content Inspection (DCI) methods, in order to identify anomalies that are usually due to Advanced Persistent Threat (APT) attacks.
翻訳日:2021-02-26 13:45:39 公開日:2021-02-25
# 到達・把持ロボットのための非侵襲的認知レベルヒューマンインタフェース

Non-invasive Cognitive-level Human Interfacing for the Robotic Restoration of Reaching & Grasping ( http://arxiv.org/abs/2102.12980v1 )

ライセンス: Link先を確認
Ali Shafti and A. Aldo Faisal(参考訳) Assistive and Wearable Roboticsは、さまざまなタイプの運動障害を持つ人間を支援して、自立し、日々の生活を成功させる可能性がある。 しかし、これらのロボットシステムの成功は、人間の行動意図を有意義に解読し、適切に実行する能力に依存している。 神経インターフェイスは、いくつかの成功例があるシステムでの使用のために研究されてきたが、侵襲的で、数ヶ月単位でトレーニング期間を必要とする傾向がある。 本研究では, 人の手と指を操作し, 物体に到達し, つかみ, 操作し, ユーザーの眼球運動のみで制御することのできる, 人間の増強のためのロボットシステムを提案する。 我々は,ウェアラブルアイトラッキング,環境の視覚的コンテキスト,人間の行動の構造的文法を組み合わせることで,対話性を維持しつつ,日常生活の活動を達成できる認知レベル支援ロボット装置と,ユーザエージェントとを組み合わせる。 インターフェースは摩耗し、校正され、5分以内に使用できます。 ユーザーは、追加の5分間のインタラクションでシステムを制御し、うまく利用することを学びます。 システムは5人の健康な参加者でテストされ、最初の6つのタスクでの平均成功率は96.6\%である。

Assistive and Wearable Robotics have the potential to support humans with different types of motor impairments to become independent and fulfil their activities of daily living successfully. The success of these robot systems, however, relies on the ability to meaningfully decode human action intentions and carry them out appropriately. Neural interfaces have been explored for use in such system with several successes, however, they tend to be invasive and require training periods in the order of months. We present a robotic system for human augmentation, capable of actuating the user's arm and fingers for them, effectively restoring the capability of reaching, grasping and manipulating objects; controlled solely through the user's eye movements. We combine wearable eye tracking, the visual context of the environment and the structural grammar of human actions to create a cognitive-level assistive robotic setup that enables the users in fulfilling activities of daily living, while conserving interpretability, and the agency of the user. The interface is worn, calibrated and ready to use within 5 minutes. Users learn to control and make successful use of the system with an additional 5 minutes of interaction. The system is tested with 5 healthy participants, showing an average success rate of $96.6\%$ on first attempt across 6 tasks.
翻訳日:2021-02-26 13:45:16 公開日:2021-02-25
# MixSpeech: 低リソース自動音声認識のためのデータ拡張

MixSpeech: Data Augmentation for Low-resource Automatic Speech Recognition ( http://arxiv.org/abs/2102.12664v1 )

ライセンス: Link先を確認
Linghui Meng, Jin Xu, Xu Tan, Jindong Wang, Tao Qin, Bo Xu(参考訳) 本稿では,自動音声認識(asr)のためのミックスアップに基づく簡易かつ効果的なデータ拡張手法であるmixspeechを提案する。 MixSpeechは、2つの異なる音声特徴(例えば、メル・スペクトログラムまたはMFCC)を入力として重み付き組み合わせ、および2つの認識損失が同じ重みを使用する両方のテキストシーケンスを認識することによってASRモデルを訓練する。 MixSpeechをLAS(Listen、Attend、Spell)とTransformerを含む2つの一般的なエンドツーエンド音声認識モデルに適用し、TIMIT、WSJ、HKUSTを含むいくつかの低リソースデータセットの実験を行います。 実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高く,これらの認識タスクにおいて強力なデータ拡張手法であるSpecAugmentよりも優れていた。 具体的には、MixSpeechは、TIMITデータセットの相対的なPER改善10.6$\%$でSpecAugmentを上回り、WSJデータセットの4.7$\%$の強力なWERを達成する。

In this paper, we propose MixSpeech, a simple yet effective data augmentation method based on mixup for automatic speech recognition (ASR). MixSpeech trains an ASR model by taking a weighted combination of two different speech features (e.g., mel-spectrograms or MFCC) as the input, and recognizing both text sequences, where the two recognition losses use the same combination weight. We apply MixSpeech on two popular end-to-end speech recognition models including LAS (Listen, Attend and Spell) and Transformer, and conduct experiments on several low-resource datasets including TIMIT, WSJ, and HKUST. Experimental results show that MixSpeech achieves better accuracy than the baseline models without data augmentation, and outperforms a strong data augmentation method SpecAugment on these recognition tasks. Specifically, MixSpeech outperforms SpecAugment with a relative PER improvement of 10.6$\%$ on TIMIT dataset, and achieves a strong WER of 4.7$\%$ on WSJ dataset.
翻訳日:2021-02-26 13:44:50 公開日:2021-02-25
# FAITH:イベントベース光流を用いた拡張推定の高速反復半平面焦点

FAITH: Fast iterative half-plane focus of expansion estimation using event-based optic flow ( http://arxiv.org/abs/2102.12823v1 )

ライセンス: Link先を確認
Raoul Dinaux, Nikhil Wessendorp, Julien Dupeyroux, Guido de Croon(参考訳) コース推定はロボットの自律ナビゲーションシステムの開発において重要な要素である。 state-of-the-artメソッドはビジュアルベースのアルゴリズムを広く使っているが、計算上欲深く、時には遅すぎることで現実世界の複雑さに対処できない点に注意が必要だ。 それらは、特に光学フロー(OF)がほぼゼロである拡張(FOE)の焦点内にあるとき、全体的な性能を改善するために、高いテクスチャ化を必要とすることが多い。 本研究では, 小型航空機 (MAV) の走行経路を決定するためのFAst ITerative Half-plane (FAITH) 法を提案する。 これは、イベントベースのカメラと、イベントベースの OF を使用して FOE を決定する RANSAC ベースの高速アルゴリズムによって達成されます。 シミュレーション環境でのベンチマークによって性能を検証し、室内障害物回避のために収集されたデータセット上でテストする。 提案手法の計算効率は,高い精度を維持しつつ,最先端の手法よりも優れていた。 これは、イベントベースのカメラを備えたMAV上でさらに実証され、私たちのイベントベースのFOE推定が、オンラインの小型ドローン上で達成できることを示し、MAV上での自律的障害物回避とナビゲーションのための完全なニューロモルフィックソリューションへの道を開いた。

Course estimation is a key component for the development of autonomous navigation systems for robots. While state-of-the-art methods widely use visual-based algorithms, it is worth noting that they all fail to deal with the complexity of the real world by being computationally greedy and sometimes too slow. They often require obstacles to be highly textured to improve the overall performance, particularly when the obstacle is located within the focus of expansion (FOE) where the optic flow (OF) is almost null. This study proposes the FAst ITerative Half-plane (FAITH) method to determine the course of a micro air vehicle (MAV). This is achieved by means of an event-based camera, along with a fast RANSAC-based algorithm that uses event-based OF to determine the FOE. The performance is validated by means of a benchmark on a simulated environment and then tested on a dataset collected for indoor obstacle avoidance. Our results show that the computational efficiency of our solution outperforms state-of-the-art methods while keeping a high level of accuracy. This has been further demonstrated onboard an MAV equipped with an event-based camera, showing that our event-based FOE estimation can be achieved online onboard tiny drones, thus opening the path towards fully neuromorphic solutions for autonomous obstacle avoidance and navigation onboard MAVs.
翻訳日:2021-02-26 13:44:02 公開日:2021-02-25
# ShuffleUNet:深層学習を用いた拡散強調MRIの超解像

ShuffleUNet: Super resolution of diffusion-weighted MRIs using deep learning ( http://arxiv.org/abs/2102.12898v1 )

ライセンス: Link先を確認
Soumick Chatterjee, Alessandro Sciarra, Max D\"unnwald, Raghava Vinaykanth Mushunuri, Ranadheer Podishetti, Rajatha Nagaraja Rao, Geetha Doddapaneni Gopinath, Steffen Oeltze-Jafra, Oliver Speck and Andreas N\"urnberger(参考訳) 拡散強調磁気共鳴イメージング(DW-MRI)は、例えば神経組織の微細構造を特徴付けるのに用いることができる。 繊維追跡により非侵襲的に脳白質結合を脱線させる。 高空間分解能の磁気共鳴イメージング(MRI)は、そのような繊維を優れた方法で可視化する上で重要な役割を担っている。 しかし、そのような解像度の画像を得るには、スキャン時間が長くなる。 より長いスキャン時間は、患者の心理的および身体的状態のために、運動アーチファクトの増加と関連付けられる。 深層学習で実現した1つの低解像度(LR)入力画像から高分解能(HR)の詳細を得る技術であるSingle Image Super-Resolution (SISR)が本研究の焦点である。 補間技術やスパース符号化アルゴリズムと比較して、ディープラーニングは大きなデータセットから事前知識を抽出し、低解像度のデータセットから優れたMRI画像を生成する。 本研究では,深層学習に基づく超解像法を提案し,DW-MRIに応用した。 IXIデータセットの画像は地上構造として使われ、低解像度の画像のシミュレートのために人工的にダウンサンプリングされた。 提案手法は, ベースラインに対して統計的に有意な改善を示し, 0.913\pm0.045$のSSIMを達成した。

Diffusion-weighted magnetic resonance imaging (DW-MRI) can be used to characterise the microstructure of the nervous tissue, e.g. to delineate brain white matter connections in a non-invasive manner via fibre tracking. Magnetic Resonance Imaging (MRI) in high spatial resolution would play an important role in visualising such fibre tracts in a superior manner. However, obtaining an image of such resolution comes at the expense of longer scan time. Longer scan time can be associated with the increase of motion artefacts, due to the patient's psychological and physical conditions. Single Image Super-Resolution (SISR), a technique aimed to obtain high-resolution (HR) details from one single low-resolution (LR) input image, achieved with Deep Learning, is the focus of this study. Compared to interpolation techniques or sparse-coding algorithms, deep learning extracts prior knowledge from big datasets and produces superior MRI images from the low-resolution counterparts. In this research, a deep learning based super-resolution technique is proposed and has been applied for DW-MRI. Images from the IXI dataset have been used as the ground-truth and were artificially downsampled to simulate the low-resolution images. The proposed method has shown statistically significant improvement over the baselines and achieved an SSIM of $0.913\pm0.045$.
翻訳日:2021-02-26 13:43:39 公開日:2021-02-25
# てんかん発作予測のための新しいニューロモルフィック計算手法

A New Neuromorphic Computing Approach for Epileptic Seizure Prediction ( http://arxiv.org/abs/2102.12773v1 )

ライセンス: Link先を確認
Fengshi Tian, Jie Yang, Shiqi Zhao, Mohamad Sawan(参考訳) 畳み込みニューラルネットワーク(CNN)を用いた高い特異性と感度の発作予測手法が報告されている。 しかし、CNNは計算的に高価で電力が空腹です。 これらの不便さは、ウェアラブルデバイスにCNNベースのメソッドを実装するのを難しくする。 エネルギー効率のよいスパイクニューラルネットワーク(SNN)によって動機づけられた、発作予測のためのニューロモルフィックコンピューティングアプローチが本研究で提案されている。 このアプローチでは、脳波サンプルからスパイクシーケンスを生成し、cnnとsnsの利点を組み合わせたスパイク畳み込みニューラルネットワーク(spiking-cnn)で予測するために、ガウス型ランダム離散エンコーダが使用される。 実験結果から,spiking-cnnはハードウェアフレンドリーで精度の高いspiking-cnnに対し,感度,特異性,aucはそれぞれ95.1%,99.2%,0.912であり,計算複雑性は98.58%削減できることがわかった。

Several high specificity and sensitivity seizure prediction methods with convolutional neural networks (CNNs) are reported. However, CNNs are computationally expensive and power hungry. These inconveniences make CNN-based methods hard to be implemented on wearable devices. Motivated by the energy-efficient spiking neural networks (SNNs), a neuromorphic computing approach for seizure prediction is proposed in this work. This approach uses a designed gaussian random discrete encoder to generate spike sequences from the EEG samples and make predictions in a spiking convolutional neural network (Spiking-CNN) which combines the advantages of CNNs and SNNs. The experimental results show that the sensitivity, specificity and AUC can remain 95.1%, 99.2% and 0.912 respectively while the computation complexity is reduced by 98.58% compared to CNN, indicating that the proposed Spiking-CNN is hardware friendly and of high precision.
翻訳日:2021-02-26 13:43:15 公開日:2021-02-25
# AutoPreview: オートパイロット行動理解のためのフレームワーク

AutoPreview: A Framework for Autopilot Behavior Understanding ( http://arxiv.org/abs/2102.13034v1 )

ライセンス: Link先を確認
Yuan Shen, Niviru Wijayaratne, Peter Du, Shanduojiao Jiang, Katherine Driggs Campbell(参考訳) 自動運転車の挙動は、人々の期待と異なる場合がある(例)。 オートパイロットは予期しないほど制御を放棄する)。 この期待ミスマッチは、潜在的なユーザーや既存ユーザーが自動運転技術を信頼せず、事故の可能性を高める可能性がある。 デプロイ前に実世界の運転コンテキストでターゲットのオートパイロットの潜在的なアクションをプレビューできるように、シンプルで効果的なフレームワークであるAutoPreviewを提案します。 対象のオートパイロットに対して、我々は目的のオートパイロット動作を説明可能なアクション表現で再現するデリゲートポリシーを設計し、比較のためにオンラインでクエリし、正確なメンタルモデルを構築する。 その実用性を示すために,CARLAシミュレータと統合されたAutoPreviewのプロトタイプと,フレームワークの潜在的な2つのユースケースを提案する。 AutoPreviewが新しいオートパイロットポリシーを初めて体験する際にオートパイロットの行動をより深く理解するかどうかをパイロットスタディで調査します。 その結果,AutoPreview法は,運転スタイルの理解,デプロイメントの好み,正確な動作タイミング予測などの観点から,自動操縦動作の理解を支援することが示唆された。

The behavior of self driving cars may differ from people expectations, (e.g. an autopilot may unexpectedly relinquish control). This expectation mismatch can cause potential and existing users to distrust self driving technology and can increase the likelihood of accidents. We propose a simple but effective framework, AutoPreview, to enable consumers to preview a target autopilot potential actions in the real world driving context before deployment. For a given target autopilot, we design a delegate policy that replicates the target autopilot behavior with explainable action representations, which can then be queried online for comparison and to build an accurate mental model. To demonstrate its practicality, we present a prototype of AutoPreview integrated with the CARLA simulator along with two potential use cases of the framework. We conduct a pilot study to investigate whether or not AutoPreview provides deeper understanding about autopilot behavior when experiencing a new autopilot policy for the first time. Our results suggest that the AutoPreview method helps users understand autopilot behavior in terms of driving style comprehension, deployment preference, and exact action timing prediction.
翻訳日:2021-02-26 13:42:58 公開日:2021-02-25
# Spanning Tree Constrained Determinantal Point Processs is hard to a approximately (Avaluate)

Spanning Tree Constrained Determinantal Point Processes are Hard to (Approximately) Evaluate ( http://arxiv.org/abs/2102.12646v1 )

ライセンス: Link先を確認
Tatsuya Matsuoka and Naoto Ohsaka(参考訳) 決定点過程 (DPPs) は, 木を分散させることによって制約される。 グラフ $G=(V,E)$ と正半定値行列 $\mathbf{A}$ が$E$ でインデックスされたとき、スパンニングツリー DPP は、$S\subseteq E$ が $\det(\mathbf{A}_S)$ に比例する確率を持つような分布を定義する。 我々はspanning-tree dppsの正規化定数を計算するための$\sharp\textsf{p}$-hardnessを証明し、fprasが知られていない混合判別式からの近似保存還元を提供する。 森林に制約されたDPPについても同様の結果を示した。

We consider determinantal point processes (DPPs) constrained by spanning trees. Given a graph $G=(V,E)$ and a positive semi-definite matrix $\mathbf{A}$ indexed by $E$, a spanning-tree DPP defines a distribution such that we draw $S\subseteq E$ with probability proportional to $\det(\mathbf{A}_S)$ only if $S$ induces a spanning tree. We prove $\sharp\textsf{P}$-hardness of computing the normalizing constant for spanning-tree DPPs and provide an approximation-preserving reduction from the mixed discriminant, for which FPRAS is not known. We show similar results for DPPs constrained by forests.
翻訳日:2021-02-26 13:41:40 公開日:2021-02-25
# 深部確率的ボラティリティモデル

Deep Stochastic Volatility Model ( http://arxiv.org/abs/2102.12658v1 )

ライセンス: Link先を確認
Xiuqin Xu, Ying Chen(参考訳) 資産リターンのボラティリティは、金融市場のリスクを測定するのに使用できる。 本論文では, 深い潜在変数モデルの枠組みに基づくDSVM(Deep stochastic volatility Model)を提案する。 フレキシブルなディープラーニングモデルを使用して、過去のリターン、過去のボラティリティ、確率的ノイズに対する将来のボラティリティの依存性を自動的に検出し、手動で機能を選択することなく柔軟なボラティリティモデルを提供する。 変動推論に基づくスケーラブルな推論と学習アルゴリズムを開発しています。 実データ分析では、DSVMはいくつかの一般的な代替ボラティリティモデルよりも優れています。 加えて、dsvmの予測されるボラティリティは、金融市場のリスクをよりよく反映し、市場がよりリスクが高くなり、市場がより安定している場合にはより高いレベルに到達し、米国株式市場に巨大なデータが設定された一般的なgarch型モデルと比較して、より信頼性の高いリスク尺度を提供する。

Volatility for financial assets returns can be used to gauge the risk for financial market. We propose a deep stochastic volatility model (DSVM) based on the framework of deep latent variable models. It uses flexible deep learning models to automatically detect the dependence of the future volatility on past returns, past volatilities and the stochastic noise, and thus provides a flexible volatility model without the need to manually select features. We develop a scalable inference and learning algorithm based on variational inference. In real data analysis, the DSVM outperforms several popular alternative volatility models. In addition, the predicted volatility of the DSVM provides a more reliable risk measure that can better reflex the risk in the financial market, reaching more quickly to a higher level when the market becomes more risky and to a lower level when the market is more stable, compared with the commonly used GARCH type model with a huge data set on the U.S. stock market.
翻訳日:2021-02-26 13:41:19 公開日:2021-02-25
# TELESTO:クラウドサービスにおける異常分類のためのグラフニューラルネットワークモデル

TELESTO: A Graph Neural Network Model for Anomaly Classification in Cloud Services ( http://arxiv.org/abs/2102.12877v1 )

ライセンス: Link先を確認
Dominik Scheinert, Alexander Acker(参考訳) 大規模なITシステムの展開、運用、メンテナンスはますます複雑になり、問題が発生した場合、専門家は極端なストレスにさらされる。 したがって、機械学習(ML)と人工知能(AI)の活用は、ITシステムの運用とAIOpsという用語で要約されたメンテナンスに適用されます。 特定の方向は、修復自動化を可能にするために、繰り返し発生する異常タイプの認識を目指しています。 しかし、ITシステム固有の特性、特に頻繁な変化のために(例えば)。 ソフトウェアのアップデート、再構成、ハードウェアの近代化、繰り返し発生する異常型認識は困難である。 現在の方法は、主に与えられたデータの静的次元を仮定する。 与えられたデータの次元変化に不変な手法を提案する。 CPU利用、メモリ割り当てなどのリソースメトリックデータは、多変量時系列としてモデル化されます。 新たなグラフ畳み込みニューラルネットワーク(GCNN)アーキテクチャであるTELESTOを用いて,時間的・空間的特徴抽出とその後の異常分類を実現する。 実験的な評価は、2つのアプリケーションをホストしている実世界のクラウドテストベッドデプロイメントで行われる。 カサンドラデータベースノードに注入された異常の分類結果は、TELESTOが代替GCNNを上回り、85.1%の全体的な分類精度を達成することを示している。 他のノードの分類結果は、85%から60%の精度を示す。

Deployment, operation and maintenance of large IT systems becomes increasingly complex and puts human experts under extreme stress when problems occur. Therefore, utilization of machine learning (ML) and artificial intelligence (AI) is applied on IT system operation and maintenance - summarized in the term AIOps. One specific direction aims at the recognition of re-occurring anomaly types to enable remediation automation. However, due to IT system specific properties, especially their frequent changes (e.g. software updates, reconfiguration or hardware modernization), recognition of reoccurring anomaly types is challenging. Current methods mainly assume a static dimensionality of provided data. We propose a method that is invariant to dimensionality changes of given data. Resource metric data such as CPU utilization, allocated memory and others are modelled as multivariate time series. The extraction of temporal and spatial features together with the subsequent anomaly classification is realized by utilizing TELESTO, our novel graph convolutional neural network (GCNN) architecture. The experimental evaluation is conducted in a real-world cloud testbed deployment that is hosting two applications. Classification results of injected anomalies on a cassandra database node show that TELESTO outperforms the alternative GCNNs and achieves an overall classification accuracy of 85.1%. Classification results for the other nodes show accuracy values between 85% and 60%.
翻訳日:2021-02-26 13:41:02 公開日:2021-02-25
# 不特定ロボットモデルを用いたCRiSP逆キネマティクス学習の構造予測

Structured Prediction for CRiSP Inverse Kinematics Learning with Misspecified Robot Models ( http://arxiv.org/abs/2102.12942v1 )

ライセンス: Link先を確認
Gian Maria Marconi, Rafaello Camoriano, Lorenzo Rosasco and Carlo Ciliberto(参考訳) 機械学習の最近の進歩により、従来は正確なモデリングを分析的に解決する必要のある問題は、データ駆動戦略でうまくアプローチできる。 これらのうち、冗長なロボットアームの逆キネマティクスを計算することは、ロボットの非線形構造、硬い関節制約、非可逆キネマティクスマップのために大きな課題となる。 さらに、ほとんどの学習アルゴリズムは完全にデータ駆動のアプローチを検討する一方で、ロボットの構造に関する有用な情報が利用可能であり、積極的に利用されるべきである。 本研究では,逆運動学を学習する上で,単純かつ効果的な手法を提案する。 本研究では、データ駆動戦略とフォワードキネマティクス関数によって提供されるモデルを組み合わせた構造化予測アルゴリズムを導入し、この問題を的確に解決する。 提案手法により、予測された関節構成がロボットの制約内に適切に収まることが保証される。 また,推定器の一般化特性に関する統計的保証や,軌道再構成作業における性能の実証的評価も提供する。

With the recent advances in machine learning, problems that traditionally would require accurate modeling to be solved analytically can now be successfully approached with data-driven strategies. Among these, computing the inverse kinematics of a redundant robot arm poses a significant challenge due to the non-linear structure of the robot, the hard joint constraints and the non-invertible kinematics map. Moreover, most learning algorithms consider a completely data-driven approach, while often useful information on the structure of the robot is available and should be positively exploited. In this work, we present a simple, yet effective, approach for learning the inverse kinematics. We introduce a structured prediction algorithm that combines a data-driven strategy with the model provided by a forward kinematics function -- even when this function is misspeficied -- to accurately solve the problem. The proposed approach ensures that predicted joint configurations are well within the robot's constraints. We also provide statistical guarantees on the generalization properties of our estimator as well as an empirical evaluation of its performance on trajectory reconstruction tasks.
翻訳日:2021-02-26 13:40:43 公開日:2021-02-25
# 物理情報オートエンコーダによって定義されるサーロゲートモデルを用いたマルチファイデリティエンサンブルカルマンフィルタ

Multifidelity Ensemble Kalman Filtering using surrogate models defined by Physics-Informed Autoencoders ( http://arxiv.org/abs/2102.13025v1 )

ライセンス: Link先を確認
Andrey A Popov, Adrian Sandu(参考訳) マルチファイデリティアンサンブルKalmanフィルタは、連続データ同化におけるベイズ推論のための最適統計フレームワークにおいて、完全順序モデルと縮小順序サーロゲートモデルの階層を組み合わせることを目的とする。 本研究では,多値アンサンブルカルマンフィルタをモデル間の非線形結合を扱うように拡張する。 オートエンコーダを用いることで、最適射影および補間演算子を訓練し、従来の線形法よりも誤差の少ない順序代理モデルを得ることができる。 このようなサロゲートがマルチ忠実フィルタリングの文脈で実際に優れていることを示す標準Lorenz '96モデルについて述べる。

The multifidelity ensemble Kalman filter aims to combine a full-order model and a hierarchy of reduced order surrogate model in an optimal statistical framework for Bayesian inference in sequential data assimilation. In this work we extend the multifidelity ensemble Kalman filter to work with non-linear couplings between the models. Using autoencoders it is possible to train optimal projection and interpolation operators, and to obtain reduced order surrogate models with less error than conventional linear methods. We show on the canonical Lorenz '96 model that such a surrogate does indeed perform better in the context of multifidelity filtering.
翻訳日:2021-02-26 13:40:07 公開日:2021-02-25
# SPINN: Sparse, Physics-based, and Interpretable Neural Networks for PDEs

SPINN: Sparse, Physics-based, and Interpretable Neural Networks for PDEs ( http://arxiv.org/abs/2102.13037v1 )

ライセンス: Link先を確認
Amuthan A. Ramabathiran and Prabhu Ramachandran(参考訳) Sparse, Physics-based, and Interpretable Neural Networks (SPINN) のクラスを導入し,一般微分方程式と部分微分方程式を解く。 従来のPDEのソリューションのメッシュレス表現を特別なスパースディープニューラルネットワークとして再解釈することにより、解釈可能なスパースニューラルネットワークアーキテクチャのクラスを開発する。 ここで提案するSPINNモデルは、PDEのための2つの極端なモデリングツール、高密度ニューラルネットワークベースの方法、従来のメッシュベースおよびメッシュフリーの数値手法のシームレスな橋渡しとなり、これらの両方の視点を最大限に活用した新しいタイプのハイブリッドアルゴリズムを開発する新しい手段を提供します。 先述した他のニューラルネットワークの近似と区別するspinnモデルのユニークな特徴は、同じ大きさの高密度ニューラルネットワークよりも接続がはるかに少ないという意味で、本手法は完全に解釈可能かつスパースである点である。 さらに,フーリエ級数表現をスピンの特殊クラスとして表現できることを実証し,フーリエ級数表現の一般化したニューラルネットワークアナログを提案する。 提案手法の有用性について, 常微分方程式, 楕円型, 放物型, 双曲型および非線形偏微分方程式, および流体力学の例を用いて述べる。

We introduce a class of Sparse, Physics-based, and Interpretable Neural Networks (SPINN) for solving ordinary and partial differential equations. By reinterpreting a traditional meshless representation of solutions of PDEs as a special sparse deep neural network, we develop a class of sparse neural network architectures that are interpretable. The SPINN model we propose here serves as a seamless bridge between two extreme modeling tools for PDEs, dense neural network based methods and traditional mesh-based and mesh-free numerical methods, thereby providing a novel means to develop a new class of hybrid algorithms that build on the best of both these viewpoints. A unique feature of the SPINN model we propose that distinguishes it from other neural network based approximations proposed earlier is that our method is both fully interpretable and sparse in the sense that it has much fewer connections than a dense neural network of the same size. Further, we demonstrate that Fourier series representations can be expressed as a special class of SPINN and propose generalized neural network analogues of Fourier representations. We illustrate the utility of the proposed method with a variety of examples involving ordinary differential equations, elliptic, parabolic, hyperbolic and nonlinear partial differential equations, and an example in fluid dynamics.
翻訳日:2021-02-26 13:39:53 公開日:2021-02-25
# 反射型ハミルトン・モンテカルロを用いたトレンチド・ログ・コンカブ・サンプリング

Truncated Log-concave Sampling with Reflective Hamiltonian Monte Carlo ( http://arxiv.org/abs/2102.13068v1 )

ライセンス: Link先を確認
Apostolos Chalkis, Vissarion Fisikopoulos, Marios Papachristou, Elias Tsigaridas(参考訳) HMCベースのアルゴリズムであるReflective Hamiltonian Monte Carlo(ReHMC)を,凸ポリトープに制限されたログ凹分布からサンプリングする。 ウォームスタートから、$\widetilde O(\kappa d^2 \ell^2 \log (1 / \varepsilon))$ steps for a well-rounded polytope,ignoring logarithmic factor where $\kappa$ is the condition number of the negative log-density, $d$ is the dimension, $\ell$ is a upper bound on the reflections and $\varepsilon$ is the accuracy parameter。 また,rehmcのオープンソース実装を開発し,様々な高次元データセットについて実験を行った。 実験の結果、ReHMCは独立したサンプルを作成する必要がある時間に関して、Hit-and-RunとCoordinate-and-Runより優れていることが示唆されている。

We introduce Reflective Hamiltonian Monte Carlo (ReHMC), an HMC-based algorithm, to sample from a log-concave distribution restricted to a convex polytope. We prove that, starting from a warm start, it mixes in $\widetilde O(\kappa d^2 \ell^2 \log (1 / \varepsilon))$ steps for a well-rounded polytope, ignoring logarithmic factors where $\kappa$ is the condition number of the negative log-density, $d$ is the dimension, $\ell$ is an upper bound on the number of reflections, and $\varepsilon$ is the accuracy parameter. We also developed an open source implementation of ReHMC and we performed an experimental study on various high-dimensional data-sets. Experiments suggest that ReHMC outperfroms Hit-and-Run and Coordinate-Hit-and-Run regarding the time it needs to produce an independent sample.
翻訳日:2021-02-26 13:39:29 公開日:2021-02-25
# 次に行くべき場所:歩行者間のナビゲーションのためのサブゴールレコメンデーションポリシーを学ぶ

Where to go next: Learning a Subgoal Recommendation Policy for Navigation Among Pedestrians ( http://arxiv.org/abs/2102.13073v1 )

ライセンス: Link先を確認
Bruno Brito and Michael Everett and Jonathan P. How and Javier Alonso-Mora(参考訳) 他のロボットや人間と共有された環境でのロボットナビゲーションは、周囲のエージェントの意図を直接観察できず、環境条件が絶えず変化しているため、挑戦的です。 モデル予測制御(mpc)のような局所軌道最適化手法は、これらの変更に対処することができるが、混み合ったシナリオでは簡単には得られないグローバルガイダンスを必要とする。 本稿では,地域プランナーに長期指導を提供するインタラクション対応政策であるDeep Reinforcement Learning (RL) を通じて学習することを提案する。 特に,協調エージェントと非協力エージェントとのシミュレーションでは,深層ネットワークを訓練し,mpcプランナーのサブゴールを推薦する。 推奨のサブゴールは、ロボットが目標に向かって前進するのに役立ち、他のエージェントとの相互作用が期待されている。 推奨サブゴールに基づいて、MPCプランナーは、そのキノダイナミックおよび衝突回避制約を満たすロボットの入力を最適化します。 本手法は,従来のMPCフレームワークと比較して衝突回数,および協調的,競争的,混合的マルチエージェントシナリオにおける深部RL法と比較して,走行時間および衝突回数の両面において,ナビゲーション性能を大幅に向上させることが示された。

Robotic navigation in environments shared with other robots or humans remains challenging because the intentions of the surrounding agents are not directly observable and the environment conditions are continuously changing. Local trajectory optimization methods, such as model predictive control (MPC), can deal with those changes but require global guidance, which is not trivial to obtain in crowded scenarios. This paper proposes to learn, via deep Reinforcement Learning (RL), an interaction-aware policy that provides long-term guidance to the local planner. In particular, in simulations with cooperative and non-cooperative agents, we train a deep network to recommend a subgoal for the MPC planner. The recommended subgoal is expected to help the robot in making progress towards its goal and accounts for the expected interaction with other agents. Based on the recommended subgoal, the MPC planner then optimizes the inputs for the robot satisfying its kinodynamic and collision avoidance constraints. Our approach is shown to substantially improve the navigation performance in terms of number of collisions as compared to prior MPC frameworks, and in terms of both travel time and number of collisions compared to deep RL methods in cooperative, competitive and mixed multiagent scenarios.
翻訳日:2021-02-26 13:39:01 公開日:2021-02-25
# 複雑値ニューラルネットワークの定量的近似結果

Quantitative approximation results for complex-valued neural networks ( http://arxiv.org/abs/2102.13092v1 )

ライセンス: Link先を確認
A. Caragea, D.G. Lee, J. Maly, G. Pfander, F. Voigtlaender(参考訳) modReLUアクティベーション関数 $\sigma(z) = \mathrm{ReLU}(|z| - 1) \cdot z / |z|$ を持つ複素値ニューラルネットワークは、$\mathbb{C}^d$ のコンパクト部分集合上の正規性 $C^n$ の複素値関数を均一に近似することができ、近似速度に明確な境界を与える。

We show that complex-valued neural networks with the modReLU activation function $\sigma(z) = \mathrm{ReLU}(|z| - 1) \cdot z / |z|$ can uniformly approximate complex-valued functions of regularity $C^n$ on compact subsets of $\mathbb{C}^d$, giving explicit bounds on the approximation rate.
翻訳日:2021-02-26 13:38:40 公開日:2021-02-25
# ISALT:ローカルリプシッツエルゴードシステムのための大規模タイムステッピングに適応した推論に基づくスキーム

ISALT: Inference-based schemes adaptive to large time-stepping for locally Lipschitz ergodic systems ( http://arxiv.org/abs/2102.12669v1 )

ライセンス: Link先を確認
Xingjie Li, Fei Lu, Felix X.-F. Ye(参考訳) SDEの効率的なシミュレーションは多くのアプリケーション、特に短時間の力学と大規模統計の両方の効率的なシミュレーションを必要とするエルゴードシステムに欠かせない。 しかし、局所リプシッツ SDE はエルゴード測度を正確にシミュレートするために小さな時間ステップを持つ暗黙のスキームのような特別な処理を必要とすることが多い。 本論文では,データから大きな時間ステップ(ISALT)に適応した推論に基づくスキームを構築するためのフレームワークを提案する。 鍵となるのは、無限次元離散時間フローマップへの近似の統計的学習である。 本稿では,情報基礎関数の導出に数値スキーム(オイラー・マルヤマ,ハイブリッドRK4,暗黙のスキームなど)を用い,パラメータ推論問題について考察する。 パラメータを最小2乗に見積もるスケーラブルなアルゴリズムを導入し,データサイズが大きくなるにつれて推定器の収束を実証する。 3つの非グローバルLipschitz SDEでISALTをテストします:1Dダブルウェルポテンシャル、2Dマルチスケールグラデーションシステム、3D確率ロレンツ方程式。 数値結果は、ISALTが平易な数値スキームよりも大きな時間ステップマグニチュードを許容できることを示しています。 時間ステップが中程度であるときに不変測度を再現するのに最適な精度に達する。

Efficient simulation of SDEs is essential in many applications, particularly for ergodic systems that demand efficient simulation of both short-time dynamics and large-time statistics. However, locally Lipschitz SDEs often require special treatments such as implicit schemes with small time-steps to accurately simulate the ergodic measure. We introduce a framework to construct inference-based schemes adaptive to large time-steps (ISALT) from data, achieving a reduction in time by several orders of magnitudes. The key is the statistical learning of an approximation to the infinite-dimensional discrete-time flow map. We explore the use of numerical schemes (such as the Euler-Maruyama, a hybrid RK4, and an implicit scheme) to derive informed basis functions, leading to a parameter inference problem. We introduce a scalable algorithm to estimate the parameters by least squares, and we prove the convergence of the estimators as data size increases. We test the ISALT on three non-globally Lipschitz SDEs: the 1D double-well potential, a 2D multi-scale gradient system, and the 3D stochastic Lorenz equation with degenerate noise. Numerical results show that ISALT can tolerate time-step magnitudes larger than plain numerical schemes. It reaches optimal accuracy in reproducing the invariant measure when the time-step is medium-large.
翻訳日:2021-02-26 13:38:11 公開日:2021-02-25
# 対称パーセプトロンに対する連続性予想と対数正規極限の証明

Proof of the Contiguity Conjecture and Lognormal Limit for the Symmetric Perceptron ( http://arxiv.org/abs/2102.13069v1 )

ライセンス: Link先を確認
Emmanuel Abbe, Shuangping Li, Allan Sly(参考訳) 本研究では,統計物理学,情報理論,確率論コミュニティにおいて重要な注目を集めた,ニューラルネットワークの単純なモデルである対称二項知覚モデルについて考察する。 '15. このモデルの分割関数は、期待値によって正規化され、対数正規分布に収束する。 結果として、このモデルに対するいくつかの予想を定式化することができる: (i) aubin と al の連続性予想を証明する。 '19 植木モデルと植木モデルの間 (ii) 鋭いしきい値予想を定め、 (iii) 対称の場合では1-rsb予想を解き、非対称の場合ではkrauth-m\'ezard '89 によって最初に予想された。 Perkins-Xu [PX21] の最近の同時作業では、最後の2つの予想もまた、分割関数が指数スケールに集中することを証明することによって確立された。 このことは、ここで確立された連続予想と対数正規極限特徴づけを開放する。 特に,robinson とwormald の有名な業績においてスパースモデルのために開発された small graph conditioning method の濃密なカウンターパートに依存している。

We consider the symmetric binary perceptron model, a simple model of neural networks that has gathered significant attention in the statistical physics, information theory and probability theory communities, with recent connections made to the performance of learning algorithms in Baldassi et al. '15. We establish that the partition function of this model, normalized by its expected value, converges to a lognormal distribution. As a consequence, this allows us to establish several conjectures for this model: (i) it proves the contiguity conjecture of Aubin et al. '19 between the planted and unplanted models in the satisfiable regime; (ii) it establishes the sharp threshold conjecture; (iii) it proves the frozen 1-RSB conjecture in the symmetric case, conjectured first by Krauth-M\'ezard '89 in the asymmetric case. In a recent concurrent work of Perkins-Xu [PX21], the last two conjectures were also established by proving that the partition function concentrates on an exponential scale. This left open the contiguity conjecture and the lognormal limit characterization, which are established here. In particular, our proof technique relies on a dense counter-part of the small graph conditioning method, which was developed for sparse models in the celebrated work of Robinson and Wormald.
翻訳日:2021-02-26 13:37:50 公開日:2021-02-25
# ロボットアプリケーションのためのリアルタイム楕円検出

Real-Time Ellipse Detection for Robotics Applications ( http://arxiv.org/abs/2102.12670v1 )

ライセンス: Link先を確認
Azarakhsh Keipour and Guilherme A. S. Pereira and Sebastian Scherer(参考訳) 実世界のロボット工学応用に適した楕円パターンのリアルタイム検出と追跡のための新しいアルゴリズムを提案する。 この方法は、画像フレームの各輪郭に楕円を適合させ、適合しない楕円を拒絶する。 極端な天候や照明条件で完全で部分的で不完全な楕円体を検出することができ、ロボットのリソース制限付きオンボードコンピュータで使用できるほど軽量である。 この手法は、高速で動く車両に無人のUAVを着陸させ、室内、屋外、そして現実世界のロボット工学タスクのシミュレーションでその性能を示す例として用いられる。 他のよく知られた楕円検出法と比較すると,提案アルゴリズムは1500フレーム以上のデータセット上でF1スコア0.981の他の手法よりも優れていた。 実験のビデオ、ソースコード、収集されたデータセットが論文で提供されている。

We propose a new algorithm for real-time detection and tracking of elliptic patterns suitable for real-world robotics applications. The method fits ellipses to each contour in the image frame and rejects ellipses that do not yield a good fit. It can detect complete, partial, and imperfect ellipses in extreme weather and lighting conditions and is lightweight enough to be used on robots' resource-limited onboard computers. The method is used on an example application of autonomous UAV landing on a fast-moving vehicle to show its performance indoors, outdoors, and in simulation on a real-world robotics task. The comparison with other well-known ellipse detection methods shows that our proposed algorithm outperforms other methods with the F1 score of 0.981 on a dataset with over 1500 frames. The videos of experiments, the source codes, and the collected dataset are provided with the paper.
翻訳日:2021-02-26 13:37:25 公開日:2021-02-25
# 計算流体力学における機械学習に基づく最適メッシュ生成

Machine Learning-Based Optimal Mesh Generation in Computational Fluid Dynamics ( http://arxiv.org/abs/2102.12923v1 )

ライセンス: Link先を確認
Keefe Huang, Moritz Kr\"ugener, Alistair Brown, Friedrich Menhorn, Hans-Joachim Bungartz and Dirk Hartmann(参考訳) 数値流体力学(CFD)は、エンジニアリングの主要なサブフィールドです。 対応する流れのシミュレーションは典型的には重い計算資源の要求によって特徴づけられる。 しばしば、物理的効果を適切に解決するために非常に微細で複雑なメッシュが必要である。 すべてのCFDアルゴリズムは、基礎となるメッシュの離散化のサイズと少なくとも線形にスケールするため、最適メッシュを見つけることが計算効率の鍵となる。 最適なメッシュを見つけるのに用いられる方法の1つは、目標指向の適応メッシュ改良である。 しかし、これは通常計算上必要であり、限られた数のツールでしか利用できない。 この貢献の中で、最適なメッシュ密度を特定するために機械学習アプローチを採用しています。 古典的手法を用いて最適化メッシュを生成し,任意のジオメトリに対して最適なメッシュ密度を予測する畳み込みネットワークを訓練する。 提案手法は2次元風洞シミュレーションと6万以上のシミュレーションにより検証された。 2万のシミュレーションのトレーニングセットを使用して、98.7%以上の精度を達成する。 最適なメッシュの予測は、任意のメッシュ生成およびcfdツールの入力として使用できる。 したがって、複雑な計算なしに、CFDエンジニアは高品質のメッシュから予測を開始できます。

Computational Fluid Dynamics (CFD) is a major sub-field of engineering. Corresponding flow simulations are typically characterized by heavy computational resource requirements. Often, very fine and complex meshes are required to resolve physical effects in an appropriate manner. Since all CFD algorithms scale at least linearly with the size of the underlying mesh discretization, finding an optimal mesh is key for computational efficiency. One methodology used to find optimal meshes is goal-oriented adaptive mesh refinement. However, this is typically computationally demanding and only available in a limited number of tools. Within this contribution, we adopt a machine learning approach to identify optimal mesh densities. We generate optimized meshes using classical methodologies and propose to train a convolutional network predicting optimal mesh densities given arbitrary geometries. The proposed concept is validated along 2d wind tunnel simulations with more than 60,000 simulations. Using a training set of 20,000 simulations we achieve accuracies of more than 98.7%. Corresponding predictions of optimal meshes can be used as input for any mesh generation and CFD tool. Thus without complex computations, any CFD engineer can start his predictions from a high quality mesh.
翻訳日:2021-02-26 13:36:44 公開日:2021-02-25
# 混合ガス検出用金属酸化物センサアレイ

Metal-Oxide Sensor Array for Selective Gas Detection in Mixtures ( http://arxiv.org/abs/2102.12990v1 )

ライセンス: Link先を確認
Noureddine Tayebi, Varvara Kollia and Pradyumna S. Singh(参考訳) モノリシックでマイクロファブリケートな金属酸化物半導体(MOS)センサアレイを機械学習アルゴリズムと組み合わせて, 均一混合ガス中の個々のガスの特異な指紋を決定する。 アレイは4つの異なる金属酸化物で構成され、各画素から独立した温度制御と読み出しのために多重化されている。 センサピクセルは、非常に薄い膜上に設計されており、放熱を最小限に抑え、全体としての消費電力を著しく下げる(平均出力は30ドル)。 異なる温度でピクセルを実行することで得られた高次元データは、均質混合物中の個々の成分の濃度を高い解像度で検出し推定するために平均精度で$\sim$ 88$\%$で機械学習アルゴリズムを訓練するために使用される。 各種ガスに対するMOSセンサの応答が実証されているが、これらのセンサが複数のガスからなる均質なガス混合物に対する応答を研究する研究はほとんどない。 この原理をオゾンと一酸化炭素の二成分混合系に適用し, それぞれが汚染物質ガスの基準であることを示した。 その結果, 混合ガス中の個々のガス濃度の予測には, MOS成分の多変量と様々な温度で測定する能力が不可欠であり, MOSセンサポーア選択性の重要な限界を克服できることが示唆された。 私たちのセンサーアレイの小さなフォームファクタとマイクロファブリケーションアプローチは、ウェアラブルおよびポータブルアプリケーションのためのプラットフォームへの道を開くcmos統合にも役立ちます。

We present a monolithic, microfabricated, metal-oxide semiconductor (MOS) sensor array in conjunction with a machine learning algorithm to determine unique fingerprints of individual gases within homogenous mixtures. The array comprises four different metal oxides, and is engineered for independent temperature control and readout from each individual pixel in a multiplexed fashion. The sensor pixels are designed on a very thin membrane to minimize heat dissipation, thereby significantly lowering the overall power consumption ($<$30 $\mu$W average power). The high dimensional data obtained by running the pixels at different temperatures, is used to train our machine learning algorithm with an average accuracy $\sim$ 88$\%$ for high resolution detection and estimation of concentration of individual constituents in a homogenous mixture. While the response of MOS sensors to various gases has been demonstrated, very few studies have investigated the response of these sensors to homogeneous mixtures of gases comprising several gases. We demonstrate this principle for a binary homogeneous mixture of ozone and carbon monoxide, both of which are criteria pollutant gases. Our findings indicate that a multiplicity of MOS elements together with the ability to vary and measure at various temperatures are essential in predicting concentration of individual gases within mixtures, thereby overcoming a key limitation of MOS sensors - poor selectivity. The small form-factor and microfabrication approach of our sensor array also lends itself to CMOS integration paving the way for a platform for wearable and portable applications.
翻訳日:2021-02-26 13:36:19 公開日:2021-02-25
# 視線による多目的模倣学習

Gaze-Informed Multi-Objective Imitation Learning from Human Demonstrations ( http://arxiv.org/abs/2102.13008v1 )

ライセンス: Link先を確認
Ritwik Bera, Vinicius G. Goecks, Gregory M. Gremillion, Vernon J. Lawhern, John Valasek, Nicholas R. Waytowich(参考訳) 人間とロボットの相互作用の分野では、教師付き学習による人間のデモンストレーションから学習エージェントを教えることが広く研究され、自動運転車やロボット操作などの複数の領域に適用されました。 しかし、人間のデモンストレーションから学ぶ作業の大部分は、デモ参加者からの行動情報のみを利用する。 どんな行動がとられたか 他の有用な情報を無視します 特に、目視情報は、デモンストレーション者が視覚的注意を割り当てている場所に対する貴重な洞察を与えることができ、そのような情報を活用すると、エージェントのパフォーマンスを向上させる可能性があります。 従来のアプローチでは、単純な同期環境での注目の活用のみを研究しており、現実世界のドメインへの適用性が制限されている。 本研究では、人間の行動実証とアイトラッキングデータから同時に学習し、人間の視線情報が重要なコンテキストを提供するタスクを解決するための新しい模倣学習アーキテクチャを提案する。 提案手法は,無人の四回転子が現実世界,光リアルなシミュレート環境で対象車両を探索し,移動するように訓練される視覚ナビゲーションタスクに適用される。 基本模倣学習アーキテクチャと比較すると,提案する視線拡張模倣学習モデルは,人間の視覚注意を予測するために同時に学習しながら,より効率的な経路で,はるかに高いタスク完了率を達成するポリシーを学習できることが示される。 本研究の目的は、人間の入力モダリティを付加した視覚的注意情報のマルチモーダル学習の重要性を強調し、人間のデモンストレーションからエージェントを訓練して視覚運動を行う際に、コミュニティがそれらを採用することを奨励することである。

In the field of human-robot interaction, teaching learning agents from human demonstrations via supervised learning has been widely studied and successfully applied to multiple domains such as self-driving cars and robot manipulation. However, the majority of the work on learning from human demonstrations utilizes only behavioral information from the demonstrator, i.e. what actions were taken, and ignores other useful information. In particular, eye gaze information can give valuable insight towards where the demonstrator is allocating their visual attention, and leveraging such information has the potential to improve agent performance. Previous approaches have only studied the utilization of attention in simple, synchronous environments, limiting their applicability to real-world domains. This work proposes a novel imitation learning architecture to learn concurrently from human action demonstration and eye tracking data to solve tasks where human gaze information provides important context. The proposed method is applied to a visual navigation task, in which an unmanned quadrotor is trained to search for and navigate to a target vehicle in a real-world, photorealistic simulated environment. When compared to a baseline imitation learning architecture, results show that the proposed gaze augmented imitation learning model is able to learn policies that achieve significantly higher task completion rates, with more efficient paths, while simultaneously learning to predict human visual attention. This research aims to highlight the importance of multimodal learning of visual attention information from additional human input modalities and encourages the community to adopt them when training agents from human demonstrations to perform visuomotor tasks.
翻訳日:2021-02-26 13:35:53 公開日:2021-02-25
# インコヒーレント測定によるインシスタンス・オプティマステート認証に向けて

Toward Instance-Optimal State Certification With Incoherent Measurements ( http://arxiv.org/abs/2102.13098v1 )

ライセンス: Link先を確認
Sitan Chen, Jerry Li, Ryan O'Donnell(参考訳) 未知の混合状態 $\rho\in\mathbb{C}^{d\times d}$ と混合状態 $\sigma$ の説明を与えられたとき、$\sigma = \rho$ か $\|\sigma\rho\|_{\mathsf{tr}} \ge \epsilon$ かを決定する。 これは、$\Omega(d^{\Theta(1)}/\epsilon^2)$ コピーが必要であることが知られており、正確な指数は学習者が[OW15, BCL20]を作ることができる測定の種類に依存し、これらの設定の多くは一致する上限[OW15, BOW19, BCL20]がある。 この$d^{\Theta(1)}$依存を特定の種類の混合状態 $\sigma$ に対して避けることができる。 ほぼ低いランクのもの? より野心的なことに、単純な関数 $f:\mathbb{C}^{d\times d}\to\mathbb{R}_{\ge 0}$ が存在し、$\Theta(f(\sigma)/\epsilon^2)$ のコピーは、任意の $\sigma$ に関して状態認証のために必要かつ十分であることを示すことができる。 このようなインスタンス最適境界は古典的な分散テストの文脈で知られている。 [VV17]。 ここでは、量子設定におけるこの性質の第一の限界を示し、(ログ因子を除いて)非適応不整合測定を用いた状態認証のコピー複雑性は、基本的に混合性テストのコピー複雑性によって与えられることを示します。 驚くべきことに、我々の境界は古典的問題に対する例最適境界とは大きく異なり、2つの設定の質的な違いが示される。

We revisit the basic problem of quantum state certification: given copies of unknown mixed state $\rho\in\mathbb{C}^{d\times d}$ and the description of a mixed state $\sigma$, decide whether $\sigma = \rho$ or $\|\sigma - \rho\|_{\mathsf{tr}} \ge \epsilon$. When $\sigma$ is maximally mixed, this is mixedness testing, and it is known that $\Omega(d^{\Theta(1)}/\epsilon^2)$ copies are necessary, where the exact exponent depends on the type of measurements the learner can make [OW15, BCL20], and in many of these settings there is a matching upper bound [OW15, BOW19, BCL20]. Can one avoid this $d^{\Theta(1)}$ dependence for certain kinds of mixed states $\sigma$, e.g. ones which are approximately low rank? More ambitiously, does there exist a simple functional $f:\mathbb{C}^{d\times d}\to\mathbb{R}_{\ge 0}$ for which one can show that $\Theta(f(\sigma)/\epsilon^2)$ copies are necessary and sufficient for state certification with respect to any $\sigma$? Such instance-optimal bounds are known in the context of classical distribution testing, e.g. [VV17]. Here we give the first bounds of this nature for the quantum setting, showing (up to log factors) that the copy complexity for state certification using nonadaptive incoherent measurements is essentially given by the copy complexity for mixedness testing times the fidelity between $\sigma$ and the maximally mixed state. Surprisingly, our bound differs substantially from instance optimal bounds for the classical problem, demonstrating a qualitative difference between the two settings.
翻訳日:2021-02-26 13:35:27 公開日:2021-02-25
# AGENT: コア心理学的推論のベンチマーク

AGENT: A Benchmark for Core Psychological Reasoning ( http://arxiv.org/abs/2102.12321v2 )

ライセンス: Link先を確認
Tianmin Shu, Abhishek Bhandwaldar, Chuang Gan, Kevin A. Smith, Shari Liu, Dan Gutfreund, Elizabeth Spelke, Joshua B. Tenenbaum, Tomer D. Ullman(参考訳) マシンエージェントが現実世界の環境で人間とうまく対話するためには、人間の精神生活を理解する必要がある。 直感的な心理学は、観察可能な行動を駆動する隠された精神的な変数を推論する能力は、人間に自然に来る:前動詞の幼児でさえ、エージェントを物体から区別することができ、エージェントが与えられた制約の目標を達成するために効率的に行動することを期待する。 他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。 直感心理学の認知発達研究から着想を得て, 主観的直感心理学の重要な概念を探索する4つのシナリオ(ゴール選好, 行動効率, 未観測制約, コスト-リワードトレードオフ)を中心に構成された, 手続き的に生成された3Dアニメーションの大規模なデータセットであるエージェント(Action, Goal, efficiency, coNstraint, uTility)を提示する。 エージェントを人間格付けで検証し,一般化を強調する評価プロトコルを提案し,ベイズ逆計画に基づく2つの強力なベースラインとマインドニューラルネットワークの理論を比較した。 以上より,人間レベルでのコア直感的心理学の設計テストに合格するためには,エージェントの計画方法,ユーティリティ計算とオブジェクトと物理学のコア知識を組み合わせること,モデルが組み込んだ表現をしなければならないことが示唆された。

For machine agents to successfully interact with humans in real-world settings, they will need to develop an understanding of human mental life. Intuitive psychology, the ability to reason about hidden mental variables that drive observable actions, comes naturally to people: even pre-verbal infants can tell agents from objects, expecting agents to act efficiently to achieve goals given constraints. Despite recent interest in machine agents that reason about other agents, it is not clear if such agents learn or hold the core psychology principles that drive human reasoning. Inspired by cognitive development studies on intuitive psychology, we present a benchmark consisting of a large dataset of procedurally generated 3D animations, AGENT (Action, Goal, Efficiency, coNstraint, uTility), structured around four scenarios (goal preferences, action efficiency, unobserved constraints, and cost-reward trade-offs) that probe key concepts of core intuitive psychology. We validate AGENT with human-ratings, propose an evaluation protocol emphasizing generalization, and compare two strong baselines built on Bayesian inverse planning and a Theory of Mind neural network. Our results suggest that to pass the designed tests of core intuitive psychology at human levels, a model must acquire or have built-in representations of how agents plan, combining utility computations and core knowledge of objects and physics.
翻訳日:2021-02-26 11:37:20 公開日:2021-02-25
# two-way kernel matrix puncturing: 資源効率の高いpcaとスペクトルクラスタリングに向けて

Two-way kernel matrix puncturing: towards resource-efficient PCA and spectral clustering ( http://arxiv.org/abs/2102.12293v2 )

ライセンス: Link先を確認
Romain Couillet and Florent Chatelain and Nicolas Le Bihan(参考訳) 本稿では,スペクトルクラスタリングと主成分分析のための基本コスト削減手法を提案する。 この方法は、データ行列$X\in\mathbb{C}^{p\times n}$(または$\mathbb{R}^{p\times n}$)とその対応するカーネル(Gram)行列$K$ through Bernoulli masks:$S\in\{0,1\}^{p\times n}$ for $X$ and $B\in\{0,1\}^{n\times n}$ for $K$からなる。 結果として得られる「二方向切断」カーネルは、$K=\frac{1}{p}[(X \odot S)^{\sf H} (X \odot S)] \odot B$ によって与えられる。 ガウス混合モデルから引き出された独立列からなる$X$に対して、$n,p\to\infty$ with $p/n\to c_0\in(0,\infty)$,$K$のスペクトル挙動(固有値分布の制限)とその孤立固有値と固有ベクトルは、完全に抽出可能であり、反直観現象の連続を示す。 我々は、GAN生成画像データベースにおいて、データを劇的に切り離すことが可能であることを実証し、実証し、実証し、事実上一定の(PCAのクラスタリング)パフォーマンスのために、おそらく巨大な計算およびストレージの利益を提供する。 この予備的な研究は、基本機械学習モデルにおける計算コストとストレージコストの大規模な観点から、再考への道を開く。

The article introduces an elementary cost and storage reduction method for spectral clustering and principal component analysis. The method consists in randomly "puncturing" both the data matrix $X\in\mathbb{C}^{p\times n}$ (or $\mathbb{R}^{p\times n}$) and its corresponding kernel (Gram) matrix $K$ through Bernoulli masks: $S\in\{0,1\}^{p\times n}$ for $X$ and $B\in\{0,1\}^{n\times n}$ for $K$. The resulting "two-way punctured" kernel is thus given by $K=\frac{1}{p}[(X \odot S)^{\sf H} (X \odot S)] \odot B$. We demonstrate that, for $X$ composed of independent columns drawn from a Gaussian mixture model, as $n,p\to\infty$ with $p/n\to c_0\in(0,\infty)$, the spectral behavior of $K$ -- its limiting eigenvalue distribution, as well as its isolated eigenvalues and eigenvectors -- is fully tractable and exhibits a series of counter-intuitive phenomena. We notably prove, and empirically confirm on GAN-generated image databases, that it is possible to drastically puncture the data, thereby providing possibly huge computational and storage gains, for a virtually constant (clustering of PCA) performance. This preliminary study opens as such the path towards rethinking, from a large dimensional standpoint, computational and storage costs in elementary machine learning models.
翻訳日:2021-02-26 11:36:50 公開日:2021-02-25
# 記憶に基づくPOMDPの深部強化学習

Memory-based Deep Reinforcement Learning for POMDP ( http://arxiv.org/abs/2102.12344v2 )

ライセンス: Link先を確認
Lingheng Meng, Rob Gorbet, Dana Kuli\'c(参考訳) 深層強化学習(DRL)の有望な特徴は、機能工学に頼ることなく、エンドツーエンドで最適な政策を学ぶ能力である。 しかし、ほとんどのアプローチは完全可観測状態空間、すなわち状態空間を仮定する。 完全に可観測マルコフ決定プロセス(MDP)。 実世界のロボット工学では、センサの容量制限やセンサノイズといったセンサの問題や、観測設計が完了したかどうかに関する知識の欠如などにより、この仮定は実践的ではない。 これらのシナリオは部分的オブザーバブルMDP(POMDP)につながり、特別な治療が必要です。 本稿では,TD3にメモリコンポーネントを導入して,長期記憶に基づくツイン遅延ディープ決定性ポリシグラデーショングラデーション(LSTM-TD3)を提案し,MDPとPOMDPの両方における他のDRLアルゴリズムとの比較を行った。 以上の結果から,POMDPに対処する上でのメモリコンポーネントの利点が示唆された。

A promising characteristic of Deep Reinforcement Learning (DRL) is its capability to learn optimal policy in an end-to-end manner without relying on feature engineering. However, most approaches assume a fully observable state space, i.e. fully observable Markov Decision Process (MDP). In real-world robotics, this assumption is unpractical, because of the sensor issues such as sensors' capacity limitation and sensor noise, and the lack of knowledge about if the observation design is complete or not. These scenarios lead to Partially Observable MDP (POMDP) and need special treatment. In this paper, we propose Long-Short-Term-Memory-based Twin Delayed Deep Deterministic Policy Gradient (LSTM-TD3) by introducing a memory component to TD3, and compare its performance with other DRL algorithms in both MDPs and POMDPs. Our results demonstrate the significant advantages of the memory component in addressing POMDPs, including the ability to handle missing and noisy observation data.
翻訳日:2021-02-26 11:36:11 公開日:2021-02-25
# VHRリモートセンシング画像における建物抽出のための対比形状学習

Adversarial Shape Learning for Building Extraction in VHR Remote Sensing Images ( http://arxiv.org/abs/2102.11262v2 )

ライセンス: Link先を確認
Lei Ding, Hao Tang, Yahui Liu, Yilei Shi and Lorenzo Bruzzone(参考訳) VHR RSIにおけるビルディング抽出は, 閉塞性や境界曖昧性の問題により, 依然として困難な課題である。 従来の畳み込みニューラルネットワーク(CNN)ベースの手法は、局所的なテクスチャやコンテキスト情報を利用することができるが、人間の認識に必要な制約である建物の形状パターンを捉えることができない。 そこで本研究では,建物の形状パターンをモデル化するための対比形状学習ネットワーク(ASLNet)を提案し,建物のセグメンテーションの精度を向上させる。 提案するASLNetでは,形状制約を明示的にモデル化するための対角学習戦略と,形状特徴の埋め込みを強化するためのCNN形状正規化器を導入する。 さらに,建物分割結果の幾何的精度を評価するために,複数のオブジェクトベース評価指標を導入した。 2つのオープンベンチマークデータセットの実験は、提案されたASLNetがピクセルベースの精度とオブジェクトベースの測定の両方を大きなマージンで改善することを示しています。 https://github.com/ggsding/aslnet

Building extraction in VHR RSIs remains to be a challenging task due to occlusion and boundary ambiguity problems. Although conventional convolutional neural networks (CNNs) based methods are capable of exploiting local texture and context information, they fail to capture the shape patterns of buildings, which is a necessary constraint in the human recognition. In this context, we propose an adversarial shape learning network (ASLNet) to model the building shape patterns, thus improving the accuracy of building segmentation. In the proposed ASLNet, we introduce the adversarial learning strategy to explicitly model the shape constraints, as well as a CNN shape regularizer to strengthen the embedding of shape features. To assess the geometric accuracy of building segmentation results, we further introduced several object-based assessment metrics. Experiments on two open benchmark datasets show that the proposed ASLNet improves both the pixel-based accuracy and the object-based measurements by a large margin. The code is available at: https://github.com/ggsDing/ASLNet
翻訳日:2021-02-26 11:35:53 公開日:2021-02-25