このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200616となっている論文です。

PDF登録状況(公開日: 20200616)

TitleAuthorsAbstract論文公表日・翻訳日
# 非線形量子電気回路用可変冷凍機

Tunable refrigerator for non-linear quantum electric circuits ( http://arxiv.org/abs/2002.06867v2 )

ライセンス: Link先を確認
Hao Hsu, Matti Silveri, Andr\'as Gunyh\'o, Jan Goetz, Gianluigi Catelani, Mikko M\"ott\"onen(参考訳) 新興の量子技術応用は、対応するデバイスを低エントロピー量子状態に高速かつ正確な初期化を要求する。 この目的のために、超伝導量子ビットのような非線形量子電気回路の場合、最近の量子回路冷凍機を理論的に検討した。 トランスモンおよびフラックス量子ビットの最大冷凍速度は、通常のリニア共振器よりも約1桁高く、設計の柔軟性が向上する。 典型的な実験パラメータでは、この冷蔵庫はシナリオに応じて数ナノ秒から数ナノ秒で99.99%以上の異なるキュービットタイプをフィディティにリセットするのに適している。 したがって、冷蔵庫は量子技術とオープン量子システムの詳細な研究のための有望なツールであるように見える。

The emerging quantum technological applications call for fast and accurate initialization of the corresponding devices to low-entropy quantum states. To this end, we theoretically study a recently demonstrated quantum-circuit refrigerator in the case of non-linear quantum electric circuits such as superconducting qubits. The maximum refrigeration rate of transmon and flux qubits is observed to be roughly an order of magnitude higher than that of usual linear resonators, increasing flexibility in the design. We find that for typical experimental parameters, the refrigerator is suitable for resetting different qubit types to fidelities above 99.99% in a few or a few tens of nanoseconds depending on the scenario. Thus the refrigerator appears to be a promising tool for quantum technology and for detailed studies of open quantum systems.
翻訳日:2023-06-03 11:15:45 公開日:2020-06-16
# Floquet Engineer's Handbook

The Floquet Engineer's Handbook ( http://arxiv.org/abs/2003.08252v2 )

ライセンス: Link先を確認
Mark S. Rudner and Netanel H. Lindner(参考訳) フロッケ工学の分野で働く多くの重要な理論ツールやアイデアに対する教育的技術ガイドを提供する。 この文書は、この分野への参入を目指す新たな研究者や、慣れ親しんだり、あるいは馴染みのない方法に関する新たな洞察を得たい経験豊富な研究者にとって有用な情報源になることを期待している。 このガイドは、最近のレビュー「フロケットトポロジカル絶縁体におけるバンド構造工学と非平衡力学」の伴奏として補足材料を用いて開発された。 主な焦点は、フロッケブローチバンド工学と関連する多体力学に関連する分析技術である。 今後もこのドキュメントをアップデートして、追加のコンテンツを含め、検討すべきトピックを歓迎します。

We provide a pedagogical technical guide to many of the key theoretical tools and ideas that underlie work in the field of Floquet engineering. We hope that this document will serve as a useful resource for new researchers aiming to enter the field, as well as experienced researchers who wish to gain new insight into familiar or possibly unfamiliar methods. This guide was developed out of supplementary material as a companion to our recent review, "Band structure engineering and non-equilibrium dynamics in Floquet topological insulators," Nature Reviews Physics 2, 229 (2020). The primary focus is on analytical techniques relevant for Floquet-Bloch band engineering and related many-body dynamics. We will continue to update this document over time to include additional content, and welcome suggestions for further topics to consider.
翻訳日:2023-05-28 20:16:26 公開日:2020-06-16
# 量子記憶における三成分不確かさ関係の改善

Improved tripartite uncertainty relation with quantum memory ( http://arxiv.org/abs/2004.04356v2 )

ライセンス: Link先を確認
Fei Ming, Dong Wang, Xiao-Gang Fan, Wei-Nan Shi, Liu Ye and Jing-Ling Chen(参考訳) 不確実性原理は古典力学と区別される量子力学において顕著で基本的な特徴である。 粒子上で測定された2つの任意の不整合観測値の結果を予測するために重要な下界を提供する。 量子情報理論において、この不確実性原理はエントロピーの観点で一般化される。 本稿では,三成分量子メモリ支援エントロピー不確かさ関係の改善について述べる。 不確かさの下限は、相互情報とホールボ量を考慮して導出される。 この方法によって導出される境界は[Phys. Rev. Lett. 103, 020402 (2009)]において下界よりも厳密であることを示す。 さらに、相反する2つの非バイアス基底について、我々の境界は3量子ビットの$\emph{X}$-stateシステムにとって極めて厳密になり、エントロピーに基づく不確実性と完全に一致し、Renes ${\emph{et al を復元することができる。 }}$ は任意の三成分純粋状態に対して束縛される。 さらに、我々の下限を適用することで、量子鍵分布プロトコルのセキュリティを高めるための基本的重要性である量子秘密鍵レートのより厳密な境界を達成することができる。

Uncertainty principle is a striking and fundamental feature in quantum mechanics distinguishing from classical mechanics. It offers an important lower bound to predict outcomes of two arbitrary incompatible observables measured on a particle. In quantum information theory, this uncertainty principle is popularly formulized in terms of entropy. Here, we present an improvement of tripartite quantum-memory-assisted entropic uncertainty relation. The uncertainty's lower bound is derived by considering mutual information and Holevo quantity. It shows that the bound derived by this method will be tighter than the lower bound in [Phys. Rev. Lett. 103, 020402 (2009)]. Furthermore, regarding a pair of mutual unbiased bases as the incompatibility, our bound will become extremely tight for the three-qubit $\emph{X}$-state system, completely coinciding with the entropy-based uncertainty, and can restore Renes ${\emph{et al.}}$'s bound with respect to arbitrary tripartite pure states. In addition, by applying our lower bound, one can attain the tighter bound of quantum secret key rate, which is of basic importance to enhance the security of quantum key distribution protocols.
翻訳日:2023-05-25 08:51:34 公開日:2020-06-16
# 多値変数によるシステムに対するマクロリアリズムの条件

Conditions for Macrorealism for Systems Described by Many-Valued Variables ( http://arxiv.org/abs/2004.05858v4 )

ライセンス: Link先を確認
J.J.Halliwell and C.Mawby(参考訳) マクロリアリズム(英: macrorealism、mr)とは、時間的に進化する系が過去の測定値や将来の測定値とは無関係に一定の性質を持ち、伝統的に1つの双調変数$q$で記述された系でテストされるという考え方である。 レゲット=ガルグ不等式(LG)のセット、あるいはNSIT条件の強い非シグナリング(NSIT)条件またはそれらの組み合わせを用いて、マクロリアリズムに必要な多くの条件と十分な条件が導出された。 本稿では,3つ以上の値を持つ変数によって記述されたシステムに対して,2回および3回の計測を行うためのマクロリアリズムに必要な十分条件を確立することにより,この枠組みを拡張する。 以上の結果から,3対の観測値に対する多値変数に対するファインの定理の一般化が得られ,対応するlg不等式の完全集合を導出する。 多値変数に対する lg の不等式と nsit 条件は双調の場合で示される単純な階層関係を享受しない。 このことは、NSIT条件が満たされているにもかかわらず、LGの不平等違反を示す3レベルシステムに関する最近の実験に光を当てている。 ルダース射影法則を用いた二コトミック変数の測定では、ルダース境界を超える3回のLG不等式は違反できない(これはベル実験においてコレレーターによって従属されるツィレルソン境界と数値的に一致する)が、この境界は縮退(ノイマン)測定を用いてLG試験において破ることができる。 これらの状況下でどのmr条件に違反しているかを正確に特定する。

Macrorealism (MR) is the view that a system evolving in time possesses definite properties independent of past or future measurements and is traditionally tested for systems described at each time by a single dichotomic variable $Q$. A number of necessary and sufficient conditions for macrorealism have been derived for a dichtomic variable using sets of Leggett-Garg (LG) inequalities, or the stronger no-signaling in time (NSIT) conditions, or a combination thereof. Here, we extend this framework by establishing necessary and sufficient conditions for macrorealism for measurements made at two and three times for systems described by variables taking three or more values at each time. Our results include a generalization of Fine's theorem to many-valued variables for measurements at three pairs of times and we derive the corresponding complete set of LG inequalities. We find that LG inequalities and NSIT conditions for many-valued variables do not enjoy the simple hierarchical relationship exhibited by the dichotomic case. This sheds light on some recent experiments on three-level systems which exhibit a LG inequality violation even though certain NSIT conditions are satisfied. Under measurements of dichotomic variables using the Luders projection rule the three-time LG inequalities cannot be violated beyond the Luders bound (which coincides numerically with the Tsirelson bound obeyed by correlators in Bell experiments), but this bound can be violated in LG tests using degeneracy-breaking (von Neumann) measurements. We identify precisely which MR conditions are violated under these circumstances.
翻訳日:2023-05-24 11:29:55 公開日:2020-06-16
# 窒素空洞を用いたナノ磁気センサの生体適合技術

Biocompatible technique for nanoscale magnetic field sensing with Nitrogen-Vacancy centers ( http://arxiv.org/abs/2005.13230v2 )

ライセンス: Link先を確認
Ettore Bernardi, Ekaterina Moreva, Paolo Traina, Giulia Petrini, Sviatoslav Ditalia Tchernij, Jacopo Forneris, Zelijko Pastuovic, Ivo Pietro Degiovanni, Paolo Olivero, M. Genovese(参考訳) ダイヤモンド中の窒素空孔中心を用いて前例のない感度でナノスケールの磁場を測定することは、量子センシングの最も重要な成果の1つである。 ここでは,センシング量を考慮すると,最先端のODMRプロトコルに匹敵する感度が得られる,革新的な実験装置を提案する。 個々の細胞などの生体試料において、小さなセンシング体積と完全な生体適合性を特徴とする磁気センシングを可能にする。 異なる光学パワーに対する感度は、この技術を細胞間スケールに拡張するために研究される。

The possibility of using Nitrogen-vacancy centers in diamonds to measure nanoscale magnetic fields with unprecedented sensitivity is one of the most significant achievements of quantum sensing. Here we present an innovative experimental set-up, showing an achieved sensitivity comparable to the state of the art ODMR protocols if the sensing volume is taken into account. The apparatus allows magnetic sensing in biological samples such as individual cells, as it is characterized by a small sensing volume and full bio-compatibility. The sensitivity at different optical powers is studied to extend this technique to the intercellular scale.
翻訳日:2023-05-18 05:23:56 公開日:2020-06-16
# 分子キャビティ量子力学におけるゲージ曖昧性の解消

Resolution of Gauge Ambiguities in Molecular Cavity Quantum Electrodynamics ( http://arxiv.org/abs/2006.03191v3 )

ライセンス: Link先を確認
Michael A.D. Taylor, Arkajit Mandal, Wanghuai Zhou and Pengfei Huo(参考訳) この研究は、電子状態切り離しの下でクーロンゲージと双極子ゲージハミルトニアンの間のゲージのあいまいさを解消することで、分子空洞量子力学の基本的な理論的枠組みを提供する。 このようなゲージの曖昧さから生じる我々の予想は、すべての作用素が切断された電子部分空間内で適切に制約されているわけではない。 この予想に基づいて、部分空間内のすべての作用素を適切に制約するユニタリ変換を構築し、 truncated subspace の下でクーロンゲージハミルトニアンに対して同値で便利な式を導出する。 最終的に,キャビティに結合したモデル分子系の解析的および数値的結果を提供し,理論の妥当性を実証する。

This work provides the fundamental theoretical framework for the molecular cavity Quantum Electrodynamics by resolving the gauge ambiguities between the Coulomb gauge and the dipole gauge Hamiltonian under the electronic state truncation. Our conjecture for the arising of such gauge ambiguity is that not all operators are properly constrained in the truncated electronic subspace. Based upon this conjecture, we construct a unitary transformation that properly constrains all operators in the subspace, and derive an equivalent and yet convenient expression for the Coulomb gauge Hamiltonian under the truncated subspace. We finally provide the analytical and numerical results of a model molecular system coupled to the cavity to demonstrate the validity of our theory.
翻訳日:2023-05-17 02:17:27 公開日:2020-06-16
# 連続監視原子アンサンブルによる変動磁場の推定

Estimating a fluctuating magnetic field with a continuously monitored atomic ensemble ( http://arxiv.org/abs/2006.05516v2 )

ライセンス: Link先を確認
Cheng Zhang and Klaus Molmer(参考訳) 本研究では,原子アンサンブルの連続光探査による時間依存性磁場の推定問題について検討する。 磁場は確率的オルンシュタイン-ウレンベック過程を辿ると仮定され、レーザー磁場プローブのファラデー偏光回転によって読み出される原子基底状態スピンのラーモア偏光を誘導する。 相互作用と測定スキームは、未知の磁場と原子と磁場の変数のハイブリッド量子古典ガウス的記述と互換性がある。 これにより、古典的および量子的自由度の第一と第二のモーメントに対する更新公式の形で、ジョイント条件量子力学と古典的パラメータ推定問題を導出する。 我々のハイブリッド量子古典理論はカルマンフィルタリングの古典理論とガウス状態の量子理論と等価である。 平滑化の古典理論と過去の量子状態の量子論を参考にして、t$ 時間後の光学探査が、t$ 時間における磁場の値の推定をいかに改善するかを示し、従来のフィルタリング手法よりも改善を解析、説明するための数値シミュレーションを行う。

We study the problem of estimating a time dependent magnetic field by continuous optical probing of an atomic ensemble. The magnetic field is assumed to follow a stochastic Ornstein-Uhlenbeck process and it induces Larmor precession of the atomic ground state spin, which is read out by the Faraday polarization rotation of a laser field probe. The interactions and the measurement scheme are compatible with a hybrid quantum-classical Gaussian description of the unknown magnetic field, and the atomic and field variables. This casts the joint conditional quantum dynamics and classical parameter estimation problem in the form of update formulas for the first and second moments of the classical and quantum degrees of freedom. Our hybrid quantum-classical theory is equivalent with the classical theory of Kalman filtering and with the quantum theory of Gaussian states. By reference to the classical theory of smoothing and with the quantum theory of past quantum states, we show how optical probing after time $t$ improves our estimate of the value of the magnetic field at time $t$, and we present numerical simulations that analyze and explain the improvement over the conventional filtering approach.
翻訳日:2023-05-16 04:48:47 公開日:2020-06-16
# エンタングルメント強化光原子時計

Entanglement-Enhanced Optical Atomic Clock ( http://arxiv.org/abs/2006.07501v2 )

ライセンス: Link先を確認
Edwin Pedrozo-Pe\~nafiel and Simone Colombo and Chi Shu and Albert F. Adiyatullin and Zeyang Li and Enrique Mendez and Boris Braverman and Akio Kawasaki and Daisuke Akamatsu and Yanhong Xiao and Vladan Vuleti\'c(参考訳) 最先端原子時計は、所定の時間間隔で蓄積された量子位相として測定された2つの原子レベルのエネルギー差を正確に検出することに基づいている。 光格子時計(OLC)は、離散的な測定結果に関連する量子ノイズから生じる標準量子限界(SQL)の近辺で動作している。 SQLを超える性能は、原子間の量子相関(絡み合い)によってマイクロ波時計やその他の原子センサーで達成されているが、光時計遷移における絡み合いの発生と、SQLを超えるそのような時計の動作は、これまで実証されたことのない量子力学の主要な目標である。 ここでは、光学遷移における多原子絡み合った状態の生成を報告し、SQLの下のアラン偏差を持つOLCを実演する。 我々は、数百個の171yb原子からなるアンサンブルを用いて、sql上で4.4^{+0.6}_{-0.4}$ dbのメトロロジー的なゲインを報告し、sqlで操作される同じクロックよりも2.8{\pm}0.3$の安定性が与えられた。 以上の結果は他のシステムにも容易に適用でき、精度と精度のさらなる向上が期待できる。 エンタングルメント強化OLCは、物理学、測地学、重力波検出の基本法則の精度テストを含む多くの科学的および技術的応用を持つ。

State-of-the-art atomic clocks are based on the precise detection of the energy difference between two atomic levels, measured as a quantum phase accumulated in a given time interval. Optical-lattice clocks (OLCs) now operate at or near the standard quantum limit (SQL) that arises from the quantum noise associated with discrete measurement outcomes. While performance beyond the SQL has been achieved in microwave clocks and other atomic sensors by engineering quantum correlations (entanglement) between the atoms, the generation of entanglement on an optical-clock transition and operation of such a clock beyond the SQL represent major goals in quantum metrology that have never been demonstrated. Here we report creation of a many-atom entangled state on an optical transition, and demonstrate an OLC with an Allan deviation below the SQL. We report a metrological gain of $4.4^{+0.6}_{-0.4}$ dB over the SQL using an ensemble consisting of a few hundred 171Yb atoms, allowing us to reach a given stability $2.8{\pm}0.3$ times faster than the same clock operated at the SQL. Our results should be readily applicable to other systems, thus enabling further advances in timekeeping precision and accuracy. Entanglement-enhanced OLCs will have many scientific and technological applications, including precision tests of the fundamental laws of physics, geodesy, or gravitational wave detection.
翻訳日:2023-05-15 22:15:31 公開日:2020-06-16
# 銅酸化物中のリドバーグ励起子の古典的および半古典的記述

Classical and semiclassical description of Rydberg excitons in cuprous oxide ( http://arxiv.org/abs/2006.08955v1 )

ライセンス: Link先を確認
Jan Ertl, Patric Rommel, Michel Mom, J\"org Main, Manfred Bayer(参考訳) 銅酸化物中の励起子に関する実験的および理論的研究により、原子価バンド構造の強い衝撃によって引き起こされる励起子ライドベルク状態の顕著な微細構造分割が明らかになった。 我々は、水素様モデルを超えて励起電子-ホール対の古典力学を調べることにより、この分裂の半古典的解釈を提供する。 クエーシピンとホールスピンの高速ダイナミクスと比較して座標空間におけるリドベルク励起子のスローモーションを考えると、運動量空間における断熱的アプローチとエネルギー表面を用いてエクシトンダイナミクスの計算を行う。 近積分トーラス上の準周期運動を観測する。 半古典的なトーラス量子化は、量子力学計算と一致して$n$-manifoldsの微細構造分割のエネルギー領域を生成する。

Experimental and theoretical investigations of excitons in cuprous oxide have revealed a significant fine-structure splitting of the excitonic Rydberg states caused by a strong impact of the valence band structure. We provide a semiclassical interpretation of that splitting by investigating the classical dynamics of the excitonic electron-hole pair beyond the hydrogen-like model. Considering the slow motion of Rydberg excitons in coordinate space compared to the fast dynamics of quasispin and hole spin we use an adiabatic approach and energy surfaces in momentum space for the computation of the exciton dynamics. We observe quasi-periodic motion on near-integrable tori. Semiclassical torus quantization yields the energy regions of the fine-structure splitting of $n$-manifolds in agreement with quantum mechanical computations.
翻訳日:2023-05-13 18:19:51 公開日:2020-06-16
# 2020年コロナウイルスパンデミックにおけるウィキペディアの高度協力の定量的評価

A Quantitative Portrait of Wikipedia's High-Tempo Collaborations during the 2020 Coronavirus Pandemic ( http://arxiv.org/abs/2006.08899v1 )

ライセンス: Link先を確認
Brian C. Keegan, Chenhao Tan(参考訳) 2020年の新型コロナウイルスのパンデミックは歴史的な社会破壊であり、世界中で大きな影響が感じられた。 ウィキペディアは無料でピア制作の百科事典であり、現在の出来事に続きコンテンツを作成・改訂する素晴らしい能力を持っている。 この研究は、134,337人の編集者から4,238人の記事への973,940の改訂版を用いて、2020年前半の5ヶ月間の英語ウィキペディアの新型コロナウイルスに対する反応のダイナミクスを、3つの分析レベル(記事改訂、編集者貢献、ネットワークダイナミクス)における創発的な協調行動を記述する「定量的肖像画」として検証した。 複数のデータソース、定量的方法、分析のレベルにまたがって、wikipediaのユニークな大規模、高テンポ、一時的なオンラインコラボレーションを特徴付ける4つの一貫したテーマを見出した。 オンラインソーシャルプラットフォームの利用者の行動やコンテンツを管理する能力に対する懸念が高まる中、危機時の社会技術的システムのレジリエンスを改善するためのwikipediaのコロナウイルスコラボレーションの意義を明らかにする。

The 2020 coronavirus pandemic was a historic social disruption with significant consequences felt around the globe. Wikipedia is a freely-available, peer-produced encyclopedia with a remarkable ability to create and revise content following current events. Using 973,940 revisions from 134,337 editors to 4,238 articles, this study examines the dynamics of the English Wikipedia's response to the coronavirus pandemic through the first five months of 2020 as a "quantitative portrait" describing the emergent collaborative behavior at three levels of analysis: article revision, editor contributions, and network dynamics. Across multiple data sources, quantitative methods, and levels of analysis, we find four consistent themes characterizing Wikipedia's unique large-scale, high-tempo, and temporary online collaborations: external events as drivers of activity, spillovers of activity, complex patterns of editor engagement, and the shadows of the future. In light of increasing concerns about online social platforms' abilities to govern the conduct and content of their users, we identify implications from Wikipedia's coronavirus collaborations for improving the resilience of socio-technical systems during a crisis.
翻訳日:2023-05-13 18:19:10 公開日:2020-06-16
# 2次トポロジカルコーナー状態を持つキャビティ量子電磁力学

Cavity Quantum Electrodynamics with Second-Order Topological Corner State ( http://arxiv.org/abs/2006.08882v1 )

ライセンス: Link先を確認
Xin Xie, Weixuan Zhang, Xiaowu He, Shiyao Wu, Jianchen Dang, Kai Peng, Feilong Song, Longlong Yang, Haiqiao Ni, Zhichuan Niu, Can Wang, Kuijuan Jin, Xiangdong Zhang and Xiulai Xu(参考訳) トポロジカルフォトニクスは、障害に対する堅牢性を持つ空洞量子電磁力学の研究の新しいパラダイムを提供する。 本研究では,単一量子ドットと2次位相的コーナー状態との結合を実証する。 2階の位相角状態に基づいて、トポロジカルフォトニック結晶空洞を量子ドットを埋め込んだGaAsスラブに設計、製造する。 コーナー状態とエッジ状態の共存率を2000に近い品質因子で測定した。 光ルミネッセンス強度と発光速度の増大は、量子ドットがコーナー状態と共鳴しているときに観察される。 この結果、トポロジーをキャビティ量子電磁力学に応用することができ、量子情報処理のためのトポロジカルデバイスへのアプローチを提供する。

Topological photonics provides a new paradigm in studying cavity quantum electrodynamics with robustness to disorder. In this work, we demonstrate the coupling between single quantum dots and the second-order topological corner state. Based on the second-order topological corner state, a topological photonic crystal cavity is designed and fabricated into GaAs slabs with quantum dots embedded. The coexistence of corner state and edge state with high quality factor close to 2000 is observed. The enhancement of photoluminescence intensity and emission rate are both observed when the quantum dot is on resonance with the corner state. This result enables the application of topology into cavity quantum electrodynamics, offering an approach to topological devices for quantum information processing.
翻訳日:2023-05-13 18:17:58 公開日:2020-06-16
# R\'{e}nyi-$\alpha$ entropy によるマルチキュービット絡み合いの厳密な制約

Tighter constraints of multiqubit entanglement in terms of R\'{e}nyi-$\alpha$ entropy ( http://arxiv.org/abs/2006.08853v1 )

ライセンス: Link先を確認
Meng-Li Guo, Bo-Li, Zhi-Xi Wang and Shao-Ming Fei(参考訳) 量子エンタングルメントは量子情報処理において重要な役割を果たす。 モノガミーとポリガミーの関係は多粒子系の絡み合い分布を特徴づける。 我々は,r\'{e}nyi-$\alpha$エントロピーに基づく絡み合い測度の$\mu$thパワーと,r\'{e}nyi-$\alpha$エントロピーを用いた$\mu$thパワーと関連する一夫一夫一妻不等式と,r\'{e}nyi-$\alpha$エントロピーの関係について述べる。 これらの一夫一婦制と多夫制の関係は、既存のものよりも厳密であることが示されている。

Quantum entanglement plays essential roles in quantum information processing. The monogamy and polygamy relations characterize the entanglement distributions in the multipartite systems. We present a class of monogamy inequalities related to the $\mu$th power of the entanglement measure based on R\'{e}nyi-$\alpha$ entropy, as well as polygamy relations in terms of the $\mu$th powered of R\'{e}nyi-$\alpha$ entanglement of assistance. These monogamy and polygamy relations are shown to be tighter than the existing ones.
翻訳日:2023-05-13 18:17:46 公開日:2020-06-16
# 多次元ポアソン方程式の量子シミュレーションと回路設計

Quantum simulation and circuit design for solving multidimensional Poisson equations ( http://arxiv.org/abs/2006.09127v1 )

ライセンス: Link先を確認
Michael Holzmann and Harald Koestler(参考訳) 多くの方法がポアソン方程式を、各次元の問題を離散化する格子法を用いて解く。 これらのアルゴリズムのほとんどは次元の呪いの対象となるため、指数関数的ランタイムが必要である。 論文 "Quantum algorithm and circuit design solve the Poisson equation" では、ポアソン方程式の解を表す量子状態を生成するために、ポリログ時間で量子アルゴリズムが動作していることを示す。 本稿では,このアルゴリズムに基づく拡張回路設計の量子シミュレーションを,古典的コンピュータ上で行う。 我々の目的は、量子コンピュータ上での次元の呪いを破る効率的な回路設計をテストすることである。 ヒルベルト空間の指数関数的な上昇により、この設計は少数の量子ビットに最適化される。 我々は、Microsoftの量子開発キットと理想的な量子コンピュータのシミュレータを使って、このアルゴリズムの正しさを検証する。

Many methods solve Poisson equations by using grid techniques which discretize the problem in each dimension. Most of these algorithms are subject to the curse of dimensionality, so that they need exponential runtime. In the paper "Quantum algorithm and circuit design solving the Poisson equation" a quantum algorithm is shown running in polylog time to produce a quantum state representing the solution of the Poisson equation. In this paper a quantum simulation of an extended circuit design based on this algorithm is made on a classical computer. Our purpose is to test an efficient circuit design which can break the curse of dimensionality on a quantum computer. Due to the exponential rise of the Hilbert space this design is optimized on a small number of qubits. We use Microsoft's Quantum Development Kit and its simulator of an ideal quantum computer to validate the correctness of this algorithm.
翻訳日:2023-05-13 18:10:16 公開日:2020-06-16
# 漁業情報を用いた双方向テレポーテーション

Bidirectional Teleportation using Fisher Information ( http://arxiv.org/abs/2006.09110v1 )

ライセンス: Link先を確認
Chaibata Seida, Abderrahim El allati, Nasser Metwally, Yassine Hassouni(参考訳) そこで, [7] で提案されている双方向テレポーテーションプロトコルをブロッホベクトルを用いて再構成し, 局所演算をポーリ演算子を用いて表現した。 テレポーティングされた状態とフィッシャー情報の解析的および数値計算を導入する。 いずれの量も、テレポートされた量子ビットの初期状態設定とトリガに依存している。 双方向テレポート状態のフィダリティとフィッシャー情報は、キュービットとそのトリガーが同じ方向に偏光されると最大化される。 最小値は、両方の初期量子ビットが異なる分極または非ゼロ位相を持つ場合に予測される。 フィデリティと量子フィッシャー情報の最大値は同一であるが、異なる偏光角度で予測される。 マルチパラメータ形式は、古典的、絡み合ったシステムの境界と不確実性原理を満たす単一のパラメータ形式よりもはるかに優れていることを示す。

In this contribution, we reformulated the bidirectional teleportation protocol suggested in [7], by means of Bloch vectors as well as the local operations are represented by using Pauli operators. Analytical and numerical calculations for the teleported state and Fisher information are introduced. It is shown that both quantities depend on the initial state settings of the teleported qubits and their triggers. The Fidelities and the Fisher information of the bidirectionally teleported states are maximized when the qubit and its trigger are polarized in the same direction. The minimum values are predicted if both initial qubits have different polarization or non-zero phase. The maximum values of the Fidelity and the quantum Fisher information are the same, but they are predicted at different polarization angles. We display that the multi-parameter form is much better than the single parameter form, where it satisfies the bounds of classical, entangled systems and the uncertainty principle.
翻訳日:2023-05-13 18:10:01 公開日:2020-06-16
# 2バンドハバードモデルにおける動的応答と競合順序

Dynamical response and competing orders in two-band Hubbard model ( http://arxiv.org/abs/2006.09058v1 )

ライセンス: Link先を確認
A. Niyazi, D. Geffroy and J. Kune\v{s}(参考訳) 複数の相転移における2バンドハバードモデルにおける2粒子動的応答関数の動的平均場解析について述べる。 セキシトン凝縮物とスピン状態秩序状態の遷移は、この2つを分離する超固相の狭い帯で連続している。 ブリルアンゾーンのMpointにおける励起モードの軟化により、励起凝縮物からの接近遷移を知らせる。 スピン状態秩序相の内部には2x2周期性を持つ磁気秩序状態があり、通常相では前駆体を持たない。

We present a dynamical mean-field study of two-particle dynamical response functions in two-band Hubbard model across several phase transitions. We observe that the transition between theexcitonic condensate and spin-state ordered state is continuous with a narrow strip of supersolidphase separating the two. Approaching transition from the excitonic condensate is announced bysoftening of the excitonic mode at theMpoint of the Brillouin zone. Inside the spin-state orderedphase there is a magnetically ordered state with 2x2 periodicity, which has no precursor in thenormal phase.
翻訳日:2023-05-13 18:09:07 公開日:2020-06-16
# 強化学習による量子基底状態

Quantum Ground States from Reinforcement Learning ( http://arxiv.org/abs/2006.09044v1 )

ライセンス: Link先を確認
Ariel Barr, Willem Gispen, Austen Lamacraft(参考訳) 量子力学系の基底状態を見つけることは最適制御問題として定式化できる。 この定式化において、最適に制御された過程のドリフトは、想像時間 Schr\"odinger 方程式の解のFeynman--Kac (FK) 表現の経路の分布に一致するように選択される。 これは、ドリフトの神経表現の強化学習に使用できる変動原理を提供する。 我々のアプローチは経路積分モンテカルロのドロップイン置換であり、FK軌道に対する最適な重要サンプリングを学習する。 我々は, 1-, 2-, 多粒子物理学のいくつかの問題に対するアプローチの適用性を実証する。

Finding the ground state of a quantum mechanical system can be formulated as an optimal control problem. In this formulation, the drift of the optimally controlled process is chosen to match the distribution of paths in the Feynman--Kac (FK) representation of the solution of the imaginary time Schr\"odinger equation. This provides a variational principle that can be used for reinforcement learning of a neural representation of the drift. Our approach is a drop-in replacement for path integral Monte Carlo, learning an optimal importance sampler for the FK trajectories. We demonstrate the applicability of our approach to several problems of one-, two-, and many-particle physics.
翻訳日:2023-05-13 18:08:58 公開日:2020-06-16
# 剛体におけるCSL低減率

CSL reduction rate for rigid bodies ( http://arxiv.org/abs/2006.09013v1 )

ライセンス: Link先を確認
Luca Ferialdi, Angelo Bassi(参考訳) 自発的波動関数崩壊モデルの文脈において,剛体に対する連続的自発的局所化(csl)崩壊速度の特性について検討する。 オイラー・マクラウリンの公式を利用することで、標準物質に対して連続質量分布の速度が正確な速度(すなわち点のような分布の速度)を正確に再現することを示す。 我々は,文献における過去の推定値と比較し,その妥当性を評価する。 その結果, 還元速度は特異な質量差効果を示し, 詳細に検討し, 解説した。 最近提案された層状化効果は質量差効果の結果であることを示す。

In the context of spontaneous wave function collapse models, we investigate the properties of the Continuous Spontaneous Localization (CSL) collapse rate for rigid bodies. By exploiting the Euler-Maclaurin formula, we show that for standard matter the rate for a continuous mass distribution accurately reproduces the exact rate (i.e. the one for a point-like distribution). We compare the exact rate with previous estimates in the literature and we asses their validity. We find that the reduction rate displays a peculiar mass difference effect, which we investigate and describe in detail. We show that the recently proposed layering effect is a consequence of the mass difference effect.
翻訳日:2023-05-13 18:08:48 公開日:2020-06-16
# 二面体群のケイリーグラフ上の3状態量子ウォーク

Three-state quantum walk on the Cayley Graph of the Dihedral Group ( http://arxiv.org/abs/2006.08992v1 )

ライセンス: Link先を確認
Ying Liu, Jiabin Yuan, Wenjing Dai and Dan Li(参考訳) 1つの回転と1つの反射によって生成される有限二面体群は、非可換群の最も単純な場合である。 ケイリーグラフは群の図式的な対応である。 本稿では、二面体群のケイリーグラフに多くの注意が払われている。 二面体群の要素の特性を考慮し、Groverコインを用いた二面体群のケイレイグラフ上での3状態離散時間量子ウォーク(DTQW)モデルを提案する。 位置確率分布とリターン確率の時間制限を原点から導出した解析式を導出する。 局所化効果は, 基礎となる二面体群, コイン演算子, 初期状態の大きさによって支配されている。 また,提案モデルの特徴を,指定された位置における確率分布と時間平均確率を用いて数値的に検討する。 二面体群のケイレイグラフ上の3状態Grover DTQWの豊富な現象は、コミュニティが新しい量子アルゴリズムをよりよく理解し、発展させるのに役立つ。

The finite dihedral group generated by one rotation and one reflection is the simplest case of the non-abelian group. Cayley graphs are diagrammatic counterparts of groups. In this paper, much attention is given to the Cayley graph of the dihedral group. Considering the characteristics of the elements in the dihedral group, we propose a model of three-state discrete-time quantum walk (DTQW) on the Caylay graph of the dihedral group with Grover coin. We derive analytic expressions for the the position probability distribution and the long-time limit of the return probability starting from the origin. It is shown that the localization effect is governed by the size of the underlying dihedral group, coin operator and initial state. We also numerically investigate the properties of the proposed model via the probability distribution and the time-averaged probability at the designated position. The abundant phenomena of three-state Grover DTQW on the Caylay graph of the dihedral group can help the community to better understand and to develop new quantum algorithms.
翻訳日:2023-05-13 18:08:39 公開日:2020-06-16
# 量子コンピュータを用いた非断熱分子量子ダイナミクス

Non-adiabatic molecular quantum dynamics with quantum computers ( http://arxiv.org/abs/2006.09405v1 )

ライセンス: Link先を確認
Pauline J. Ollitrault, Guglielmo Mazzola, and Ivano Tavernelli(参考訳) 非断熱過程の理論的研究は、ボルン-オッペンハイマー近似を超える結合電子核ダイナミクスの複雑さによって妨げられている。 古典的には、そのような反応のシミュレーションは、システムサイズの関数としての計算資源の好ましくないスケーリングによって制限される。 量子コンピューティングは、実時間ダイナミクスのシミュレーションに量子的な優位性が証明されているが、非断熱現象を記述する量子アルゴリズムの研究はまだ未解明である。 本研究では, 高速非断熱化学過程のシミュレーションのための量子アルゴリズムと, 量子ハードウェア計算のための初期化スキームを提案する。 特に、2つの結合調和ポテンシャルエネルギー面(marcusモデル)上の波束の時間発展に対する第一量子化法を提案する。 提案手法では,計算資源はシステム次元に多項式的にスケールし,古典的に難解な光物理過程の研究に新たな道を開く。

The theoretical investigation of non-adiabatic processes is hampered by the complexity of the coupled electron-nuclear dynamics beyond the Born-Oppenheimer approximation. Classically, the simulation of such reactions is limited by the unfavourable scaling of the computational resources as a function of the system size. While quantum computing exhibits proven quantum advantage for the simulation of real-time dynamics, the study of quantum algorithms for the description of non-adiabatic phenomena is still unexplored. In this work, we propose a quantum algorithm for the simulation of fast non-adiabatic chemical processes together with an initialization scheme for quantum hardware calculations. In particular, we introduce a first-quantization method for the time evolution of a wavepacket on two coupled harmonic potential energy surfaces (Marcus model). In our approach, the computational resources scale polynomially in the system dimensions, opening up new avenues for the study of photophysical processes that are classically intractable.
翻訳日:2023-05-13 18:00:57 公開日:2020-06-16
# 2光子干渉:Hong-Ou-Mandel効果

Two-photon interference: the Hong-Ou-Mandel effect ( http://arxiv.org/abs/2006.09335v1 )

ライセンス: Link先を確認
Fr\'ed\'Eric Bouchard, Alicia Sit, Yingwen Zhang, Robert Fickler, Filippo M. Miatto, Yuan Yao, Fabio Sciarrino, Ebrahim Karimi(参考訳) 30年近く前に2光子干渉が観測され、新しい量子時代の始まりとなった。 実際、2光子干渉には古典的類似性がなく、様々な応用に特有な利点がある。 量子物理学の特異性は、古典計算を超越し、情報を安全に伝達し、高度に複雑な物理システムをシミュレートし、精密な測定の感度を高めることに利用することができる。 この古典物理学から量子物理学への分離は、フェルミオンとボソニックの量子オブジェクトの2粒子干渉を研究する動機となった。 これまでのところ、2粒子干渉は、プラズモンに加えて、電子や原子などの質量粒子で観測されており、より大きく複雑な量子系に対してこの効果の程度を示している。 この量子効果に対する幅広い新しい応用が将来期待されている。 このレビューは、過去30年間の2光子(2粒子)干渉の進展と応用をカバーする。

Nearly 30 years ago, two-photon interference was observed, marking the beginning of a new quantum era. Indeed, two-photon interference has no classical analogue, giving it a distinct advantage for a range of applications. The peculiarities of quantum physics may now be used to our advantage to outperform classical computations, securely communicate information, simulate highly complex physical systems and increase the sensitivity of precise measurements. This separation from classical to quantum physics has motivated physicists to study two-particle interference for both fermionic and bosonic quantum objects. So far, two-particle interference has been observed with massive particles, among others, such as electrons and atoms, in addition to plasmons, demonstrating the extent of this effect to larger and more complex quantum systems. A wide array of novel applications to this quantum effect is to be expected in the future. This review will thus cover the progress and applications of two-photon (two-particle) interference over the last three decades.
翻訳日:2023-05-13 17:59:45 公開日:2020-06-16
# 重力プローブスピン:強磁性ジャイロスコープを用いた固有スピンの一般相対論的偏差測定への展望

Gravity Probe Spin: Prospects for measuring general-relativistic precession of intrinsic spin using a ferromagnetic gyroscope ( http://arxiv.org/abs/2006.09334v1 )

ライセンス: Link先を確認
Pavel Fadeev, Tao Wang, Y. B. Band, Dmitry Budker, Peter W. Graham, Alexander O. Sushkov, and Derek F. Jackson Kimball(参考訳) 量子物理学と一般相対性理論の交点における実験は、電子の固有スピンを用いた相対論的フレームのドラッグングと測地的偏差の測定である。 質量回転体によって引きずられた時空における内在スピンの挙動は実験的に開かれた問題であり、そのような測定の結果は理論的に重要な結果をもたらす可能性がある。 このような測定は、地球の周りを周回するmmスケールの強磁性ジャイロスコープを用いて可能である。 強磁性体の回転角運動量が十分に小さい条件下では、強磁性体の角運動量は原子電子スピンに支配され、マクロなジャイロスコープの挙動を示すと予測される。 このような強磁性ジャイロスコープが環境から十分に分離されている場合、スピン格子相互作用による量子不確かさの迅速な平均化により、強磁性ジャイロスコープのダイナミクスを十分な感度で読み出し、地球によるレンズタイリング(フレームドラッグング)とデ・シッター効果の両方を測定することができる。

An experimental test at the intersection of quantum physics and general relativity is proposed: measurement of relativistic frame dragging and geodetic precession using intrinsic spin of electrons. The behavior of intrinsic spin in spacetime dragged and warped by a massive rotating body is an experimentally open question, hence the results of such a measurement could have important theoretical consequences. Such a measurement is possible by using mm-scale ferromagnetic gyroscopes in orbit around the Earth. Under conditions where the rotational angular momentum of a ferromagnet is sufficiently small, a ferromagnet's angular momentum is dominated by atomic electron spins and is predicted to exhibit macroscopic gyroscopic behavior. If such a ferromagnetic gyroscope is sufficiently isolated from the environment, rapid averaging of quantum uncertainty via the spin-lattice interaction enables readout of the ferromagnetic gyroscope dynamics with sufficient sensitivity to measure both the Lense-Thirring (frame dragging) and de Sitter (geodetic precession) effects due to the Earth.
翻訳日:2023-05-13 17:59:28 公開日:2020-06-16
# 質量ジャンプ型ディラックシステムのエントロピー不確かさ原理

Entropy uncertainty principle for Dirac system with mass jump ( http://arxiv.org/abs/2007.12270v1 )

ライセンス: Link先を確認
Pinaki Patra and Kalpana Biswas(参考訳) ハイゼンベルクの不確実性原理のための状態の準備への依存はエントロピー不確実性原理の助けを借りて取り除くことができる。 不確実性原理(UP)の短さはシャノンの情報エントロピー(SE)の概念の助けを借りて克服することができる。 本稿では,SE の観点で UP が位置依存型実効質量系に対して成り立つことを示す。 我々は,起源に質量跳躍を持つディラック系を考察した。 我々は,この位置依存的有効質量のupに対する下界の存在を証明した。

Dependency on the preparation of state for the Heisenberg uncertainty principle can be removed with the help of entropy uncertainty principle. The shortness of the uncertainty principle (UP) can be overcome with the help of the concept of Shannon's information entropy (SE). In this article, we have shown that UP in terms of SE holds for a position-dependent effective mass system. We have considered the Dirac system with a mass-jump at the origin. We have proved the existence of a lower bound for a UP for this position-dependent effective mass.
翻訳日:2023-05-13 17:51:34 公開日:2020-06-16
# 回路:抽象的な視点

Circuits: An abstract viewpoint ( http://arxiv.org/abs/2006.09488v1 )

ライセンス: Link先を確認
Andreas Blass and Yuri Gurevich(参考訳) 我々の主な目的は、古典的なブール回路と量子回路の両方の回路の抽象的数学的性質を分離することであり、その計算解釈には不可欠である。 第二の目的は古典的状況と量子的状況の類似性と相違を明らかにすることである。 このノートの一般的な哲学は、回路の数学的に本質的な側面を包含するが、通常利便性のために含まれる追加構造を省くことである。 しかしながら、回路は有限であるという仮定は保たなければならない。この仮定は我々のアプローチの適用性に影響を与えず、我々の仕事の一部に必要である。

Our primary purpose is to isolate the abstract, mathematical properties of circuits -- both classical Boolean circuits and quantum circuits -- that are essential for their computational interpretation. A secondary purpose is to clarify the similarities and differences between the classical and quantum situations. The general philosophy in this note is to include the mathematically essential aspects of circuits but to omit any of the additional structures that are usually included for convenience. We shall, however, retain the assumption that circuits are finite; this assumption does no harm to the applicability of our approach and is necessary for some of our work.
翻訳日:2023-05-13 17:50:54 公開日:2020-06-16
# E^3$:時空間エネルギー需要のビジュアル探索

$E^3$: Visual Exploration of Spatiotemporal Energy Demand ( http://arxiv.org/abs/2006.09487v1 )

ライセンス: Link先を確認
Junqi Wu, Zhibin Niu, Jing Wu, Xiufeng Liu, Jiawan Zhang(参考訳) 需要側のエネルギー行動を理解することは、エネルギー需要管理の効率化に不可欠である。 我々は,エネルギー専門家と密接に連携し,時空間需要や時空間需要の変化を含むエネルギー需要問題の重要な要素を特定した。 我々の知る限り、時空間需要の変化に関する以前の研究は行われていない。 この研究ギャップを埋めるために、探索的需要分析を支援する統一的な視覚分析手法を提案し、人間-クライアント-サーバ間相互作用による仮説の作成と検証を支援する高度にインタラクティブなツールであるE3を開発した。 新たな電位フローに基づくアプローチが、エネルギー需要の変化をモデル化し、サーバサイドエンジンに統合された。 専門家は、実際の電気データのケーススタディを通じて、このアプローチの有用性を評価し、確認した。 将来的には、モデリングアルゴリズムを改善し、可視化を強化し、より多くの形態のエネルギーデータをサポートするようプロセスを拡張する。

Understanding demand-side energy behaviour is critical for making efficiency responses for energy demand management. We worked closely with energy experts and identified the key elements of the energy demand problem including temporal and spatial demand and shifts in spatiotemporal demand. To our knowledge, no previous research has investigated the shifts in spatiotemporal demand. To fill this research gap, we propose a unified visual analytics approach to support exploratory demand analysis; we developed E3, a highly interactive tool that support users in making and verifying hypotheses through human-client-server interactions. A novel potential flow based approach was formalized to model shifts in energy demand and integrated into a server-side engine. Experts then evaluated and affirmed the usefulness of this approach through case studies of real-world electricity data. In the future, we will improve the modelling algorithm, enhance visualisation, and expand the process to support more forms of energy data.
翻訳日:2023-05-13 17:50:43 公開日:2020-06-16
# 非線形二光子ラビ・ハバード模型:超放射と光子/光子対ボース・アインシュタイン凝縮

Nonlinear two-photon Rabi-Hubbard model: superradiance and photon/photon-pair Bose-Einstein condensate ( http://arxiv.org/abs/2006.09412v1 )

ライセンス: Link先を確認
Shifeng Cui, B. Gr\'emaud, Wenan Guo and G. G. Batrouni(参考訳) 量子モンテカルロ (QMC) シミュレーションと密度行列再正規化群 (DMRG) 計算を用いて, 非線形2光子Rabi-Hubbard (RH) モデルの基底状態位相図を1次元で検討した。 本モデルは非線形光子-光子相互作用項を含む。 この項を欠いたRHモデルは、通常の乱れ相である1つの位相しか持たず、光子-量子相互作用のより大きな値でのスペクトル崩壊またはキャビティ間光子ホッピングに苦しむ。 光子-光子相互作用は、たとえどんなに小さくても、現在 {\it two} 量子相転移を示す系を安定化させる: 通常の位相から {\it photon pair} 超流動(PSF)遷移、PSFから単一粒子超流動(SPSF)遷移。 ハミルトニアンの離散的な$Z_4$対称性は、最初にシステムがPSFに入ると部分的に崩壊し、システムがSPSFフェーズに入ると完全に崩壊する。 これを支持する詳細な数値結果を示し、基底状態の位相図をマップアウトする。

We study the ground state phase diagram of a nonlinear two-photon Rabi-Hubbard (RH) model in one dimension using quantum Monte Carlo (QMC) simulations and density matrix renormalization group (DMRG) calculations. Our model includes a nonlinear photon-photon interaction term. Absent this term, the RH model has only one phase, the normal disordered phase, and suffers from spectral collapse at larger values of the photon-qubit interaction or inter-cavity photon hopping. The photon-photon interaction, no matter how small, stabilizes the system which now exhibits {\it two} quantum phase transitions: Normal phase to {\it photon pair} superfluid (PSF) transition and PSF to single particle superfluid (SPSF). The discrete $Z_4$ symmetry of the Hamiltonian spontaneously breaks in two stages: First it breaks partially as the system enters the PSF and then completely breaks when the system finally enters the SPSF phase. We show detailed numerical results supporting this, and map out the ground state phase diagram.
翻訳日:2023-05-13 17:49:27 公開日:2020-06-16
# 深層学習による高速相関光子イメージング

Fast Correlated-Photon Imaging Enhanced by Deep Learning ( http://arxiv.org/abs/2006.09410v1 )

ライセンス: Link先を確認
Zhan-Ming Li, Shi-Bao Wu, Jun Gao, Heng Zhou, Zeng-Quan Yan, Ruo-Jing Ren, Si-Yuan Yin, Xian-Min Jin(参考訳) 強い量子相関を持つ相関光子対は、生物イメージングから範囲発見まで様々な分野に量子的利点をもたらすために利用されてきた。 このような固有の非古典的性質は、光源が単一光子レベルに減少するにつれてショットノイズが支配的な低フラックスレベルであっても、光子制限画像を構築するためのより有効な信号の抽出をサポートする。 数値再構成アルゴリズムによる最適化は可能であるが、数千の光子スパースフレームを必要とするため、リアルタイムでは利用できない。 本稿では,深層学習によって高められた高速相関光子イメージングを実験し,ビッグデータの深層構造を発見するためのインテリジェントな計算戦略を示す。 畳み込みニューラルネットワークは、強いショットノイズと背景雑音(電子ノイズ、散乱光)に関連する画像逆問題を効率的に解くことができる。 本研究は,低光度イメージング技術を実時間および単光子レベルにプッシュすることで,画像速度と画質の非互換性の鍵となるギャップを埋めることを目的としている。

Correlated photon pairs, carrying strong quantum correlations, have been harnessed to bring quantum advantages to various fields from biological imaging to range finding. Such inherent non-classical properties support extracting more valid signals to build photon-limited images even in low flux-level, where the shot noise becomes dominant as light source decreases to single-photon level. Optimization by numerical reconstruction algorithms is possible but require thousands of photon-sparse frames, thus unavailable in real time. Here, we present an experimental fast correlated-photon imaging enhanced by deep learning, showing an intelligent computational strategy to discover deeper structure in big data. Convolutional neural network is found being able to efficiently solve image inverse problems associated with strong shot noise and background noise (electronic noise, scattered light). Our results fill the key gap in incompatibility between imaging speed and image quality by pushing low-light imaging technique to the regime of real-time and single-photon level, opening up an avenue to deep leaning-enhanced quantum imaging for real-life applications.
翻訳日:2023-05-13 17:49:03 公開日:2020-06-16
# LayoutLM: 文書画像理解のためのテキストとレイアウトの事前トレーニング

LayoutLM: Pre-training of Text and Layout for Document Image Understanding ( http://arxiv.org/abs/1912.13318v5 )

ライセンス: Link先を確認
Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou(参考訳) 近年,様々なNLPタスクにおいて,事前学習技術の有効性が検証されている。 nlpアプリケーションで事前学習モデルが広く使われているにもかかわらず、それらはほとんどテキストレベルの操作に集中し、文書画像理解に不可欠なレイアウトやスタイル情報を無視している。 本稿では,テキストとレイアウト情報間の相互作用を,スキャンした文書画像間で協調的にモデル化する「textbf{LayoutLM}」を提案する。 また,LayoutLMに単語の視覚情報を組み込むために,画像特徴を活用している。 私たちの知る限りでは、テキストとレイアウトがドキュメントレベルの事前トレーニングのための単一のフレームワークで共同で学習されるのは、これが初めてです。 形式理解(70.72から79.27)、レシート理解(94.02から95.24)、文書画像分類(93.07から94.42)など、いくつかの下流タスクにおいて、新たな最先端の成果を達成している。 コードと事前訓練されたLayoutLMモデルは、 \url{https://aka.ms/layoutlm} で公開されている。

Pre-training techniques have been verified successfully in a variety of NLP tasks in recent years. Despite the widespread use of pre-training models for NLP applications, they almost exclusively focus on text-level manipulation, while neglecting layout and style information that is vital for document image understanding. In this paper, we propose the \textbf{LayoutLM} to jointly model interactions between text and layout information across scanned document images, which is beneficial for a great number of real-world document image understanding tasks such as information extraction from scanned documents. Furthermore, we also leverage image features to incorporate words' visual information into LayoutLM. To the best of our knowledge, this is the first time that text and layout are jointly learned in a single framework for document-level pre-training. It achieves new state-of-the-art results in several downstream tasks, including form understanding (from 70.72 to 79.27), receipt understanding (from 94.02 to 95.24) and document image classification (from 93.07 to 94.42). The code and pre-trained LayoutLM models are publicly available at \url{https://aka.ms/layoutlm}.
翻訳日:2023-01-16 20:41:33 公開日:2020-06-16
# ディジタル量子シミュレーションによるリアルタイムカイラルダイナミクス

Real-time chiral dynamics from a digital quantum simulation ( http://arxiv.org/abs/2001.00698v4 )

ライセンス: Link先を確認
Dmitri E. Kharzeev and Yuta Kikuchi(参考訳) 強磁場におけるカイラル磁気効果は、時間依存の$\theta$-termを持つ(1+1)$-dimensional massive schwingerモデルにおけるカイラル異常を用いて記述することができる。 我々は、IBM-Qデジタル量子シミュレータを用いて、有限$\theta$-angleでモデルのデジタル量子シミュレーションを行い、大域的キラルクエンチによる相対論的フェルミオン系で誘導される対応するベクトル電流を観測し、キラル化学ポテンシャルの急激な変化、または$\theta$-angleを観測する。 有限フェルミオン質量では、キラリティーの非アノマラス緩和に由来するこの電流に付加的な寄与が見られる。 この結果は重イオン衝突やキラル材料におけるキラル磁気効果のリアルタイムダイナミクスやハドロン衝突による高エネルギー過程のモデル化に関係している。

The chiral magnetic effect in a strong magnetic field can be described using the chiral anomaly in the $(1+1)$-dimensional massive Schwinger model with a time-dependent $\theta$-term. We perform a digital quantum simulation of the model at finite $\theta$-angle and vanishing gauge coupling using an IBM-Q digital quantum simulator, and observe the corresponding vector current induced in a system of relativistic fermions by a global {\it chiral quench} -- a sudden change in the chiral chemical potential or $\theta$-angle. At finite fermion mass, there appears an additional contribution to this current that stems from the non-anomalous relaxation of chirality. Our results are relevant for the real-time dynamics of chiral magnetic effect in heavy ion collisions and in chiral materials, as well as for modeling high-energy processes at hadron colliders.
翻訳日:2023-01-14 18:13:43 公開日:2020-06-16
# ニューラルネットベース極性デコーダと協調最適化ブラインドイコライザのためのシンドローム対応教師なし学習

Syndrome-Enabled Unsupervised Learning for Neural Network-Based Polar Decoder and Jointly Optimized Blind Equalizer ( http://arxiv.org/abs/2001.01426v2 )

ライセンス: Link先を確認
Chieh-Fang Teng and Yen-Liang Chen(参考訳) 近年,ニューラルネットワークを用いたbch/ldpcデコーダの「教師なし学習」を実現するためにシンドローム損失が提案されている。 しかし、設計アプローチは直接極符号に適用することはできず、様々なチャネルで評価されていない。 そこで本研究では,受信機における教師なし学習を容易にするために,修正した2つの症候群損失を提案する。 次に,まず,ニューラルネットワークを用いた信念伝達(bp)極性デコーダに適用する。 bpデコーダは、crc対応のシンドローム損失の支援により、従来の教師付き学習方法よりも、ブロックエラー率の面で優れる。 第2に,訓練シーケンスの伝達を回避し,非ブリンド最小平均二乗誤差(mmse)イコライザよりも1.3dbゲインでグローバルに最適化できるシンドローム対応ブラインドイコライザを提案する。

Recently, the syndrome loss has been proposed to achieve "unsupervised learning" for neural network-based BCH/LDPC decoders. However, the design approach cannot be applied to polar codes directly and has not been evaluated under varying channels. In this work, we propose two modified syndrome losses to facilitate unsupervised learning in the receiver. Then, we first apply it to a neural network-based belief propagation (BP) polar decoder. With the aid of CRC-enabled syndrome loss, the BP decoder can even outperform conventional supervised learning methods in terms of block error rate. Secondly, we propose a jointly optimized syndrome-enabled blind equalizer, which can avoid the transmission of training sequences and achieve global optimum with 1.3 dB gain over non-blind minimum mean square error (MMSE) equalizer.
翻訳日:2023-01-14 02:53:11 公開日:2020-06-16
# ドメイン適応ブートストラップ集約

Domain Adaptive Bootstrap Aggregating ( http://arxiv.org/abs/2001.03988v2 )

ライセンス: Link先を確認
Meimei Liu and David B. Dunson(参考訳) 予測アルゴリズムのトレーニングに使用されるデータと現在のデータの間に分散シフトがある場合、パフォーマンスが損なわれる可能性がある。 これはドメイン適応問題として知られている。 ブートストラップ集約(Bootstrap aggregating)は、予測アルゴリズムの安定性を改善しつつ、分散を低減し、過度な適合を防ぐ一般的な方法である。 本稿では,新しい反復型近接サンプリング器と組み合わせたドメイン適応型バッグング手法を提案する。 重要なアイデアは、トレーニングデータからブートストラップサンプルを抽出して、その分布が新しいテストデータと等しいようにすることだ。 提案手法は任意の分類器に適用可能な一般的なアンサンブルフレームワークを提供する。 さらに,トレーニングデータの異常値に対応するテストデータの異常サンプルを許容するように修正する。 理論的サポートが提供され、そのアプローチはシミュレーションや実データアプリケーションにおける代替案と比較される。

When there is a distributional shift between data used to train a predictive algorithm and current data, performance can suffer. This is known as the domain adaptation problem. Bootstrap aggregating, or bagging, is a popular method for improving stability of predictive algorithms, while reducing variance and protecting against over-fitting. This article proposes a domain adaptive bagging method coupled with a new iterative nearest neighbor sampler. The key idea is to draw bootstrap samples from the training data in such a manner that their distribution equals that of new testing data. The proposed approach provides a general ensemble framework that can be applied to arbitrary classifiers. We further modify the method to allow anomalous samples in the test data corresponding to outliers in the training data. Theoretical support is provided, and the approach is compared to alternatives in simulations and real data applications.
翻訳日:2023-01-12 04:41:57 公開日:2020-06-16
# ヘラルド単一光子を用いた実験的量子偏光度測定

Experimental quantum polarimetry using heralded single photons ( http://arxiv.org/abs/2001.06177v2 )

ライセンス: Link先を確認
Seung-Jin Yoon, Joong-Sung Lee, Carsten Rockstuhl, Changhyoup Lee, and Kwang-Geol Lee(参考訳) ヘラルド単一光子を用いた実験的量子偏光度測定を行い、キラル媒質を横切る直線偏光光の光学活性を解析した。 出力光子の線形偏光の回転角からスクロース溶液の濃度を推定する3種類の推定器が検討されている。 個別のスキームと異なる濃度スクロース溶液の独立および同一の測定を繰り返して, 3つのスキーム間の推定の不確かさを比較した。 結果はまた、コヒーレントな光の状態を考慮した古典的なベンチマークと比較される。 推定の不確かさの量子的向上を評価し,実験および技術的欠陥の影響について考察した。 本研究では,量子偏光度に基づく将来の応用への道筋を定式化する。

We perform experimental quantum polarimetry using a heralded single photon to analyze the optical activity of linearly polarized light traversing a chiral medium. Three kinds of estimators are considered to estimate the concentrations of sucrose solutions from measuring the rotation angle of the linear polarization of the output photons. Through repetition of independent and identical measurements performed for each individual scheme and different concentration sucrose solutions, we compare the estimation uncertainty among the three schemes. The results are also compared to classical benchmarks for which a coherent state of light is taken into account. The quantum enhancement in the estimation uncertainty is evaluated and the impact of experimental and technical imperfections is discussed. In this work, we lay out a route for future applications relying on quantum polarimetry.
翻訳日:2023-01-10 12:45:16 公開日:2020-06-16
# VQAモデルのSQuINTing:サブクエストによるVQAモデルのイントロスペクション

SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions ( http://arxiv.org/abs/2001.06927v2 )

ライセンス: Link先を確認
Ramprasaath R. Selvaraju, Purva Tendulkar, Devi Parikh, Eric Horvitz, Marco Ribeiro, Besmira Nushi, Ece Kamar(参考訳) 既存のVQAデータセットには、さまざまなレベルの複雑さに関する質問が含まれている。 これらのデータセットの質問の多くは、エンティティの存在、特性、空間的関係を認識するための知覚を必要とするが、問題の大部分は推論タスク(世界、論理、あるいは推論に関する認識と知識の合成によってのみ答えられるタスク)に対応する課題を提起する。 この区別によって、既存のVQAモデルに一貫性のある問題があることに気付くことができ、推論の疑問に正しく答えるが、関連する低レベルな認識の疑問に失敗する。 例えば、図1では、モデルは複雑な推論の質問に答える:「バナナは食べられるのに十分か?」 しかし、関連する認識の質問に失敗する:「バナナは主に緑か黄色か? 本稿では,VQAデータセットの新しい推論分割を作成し,VQA-イントロスペクション(VQA-introspect)を収集することにより,この現象が生じる範囲を定量化する。 我々の評価によると、最先端のVQAモデルは、知覚と推論の質問に答える上で同等の性能を持つが、一貫性の問題に悩まされている。 そこで本研究では,この欠点に対処するために,推論質問と知覚下位質問に答える際に,モデルが画像の同じ部分に参加するように促す,下位質問重要度認識ネットワークチューニング(sub-question importance-aware network tuning,squint)と呼ばれるアプローチを提案する。 我々は,SQuINTがモデル一貫性を約5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。

Existing VQA datasets contain questions with varying levels of complexity. While the majority of questions in these datasets require perception for recognizing existence, properties, and spatial relationships of entities, a significant portion of questions pose challenges that correspond to reasoning tasks - tasks that can only be answered through a synthesis of perception and knowledge about the world, logic and / or reasoning. Analyzing performance across this distinction allows us to notice when existing VQA models have consistency issues; they answer the reasoning questions correctly but fail on associated low-level perception questions. For example, in Figure 1, models answer the complex reasoning question "Is the banana ripe enough to eat?" correctly, but fail on the associated perception question "Are the bananas mostly green or yellow?" indicating that the model likely answered the reasoning question correctly but for the wrong reason. We quantify the extent to which this phenomenon occurs by creating a new Reasoning split of the VQA dataset and collecting VQA-introspect, a new dataset1 which consists of 238K new perception questions which serve as sub questions corresponding to the set of perceptual tasks needed to effectively answer the complex reasoning questions in the Reasoning split. Our evaluation shows that state-of-the-art VQA models have comparable performance in answering perception and reasoning questions, but suffer from consistency problems. To address this shortcoming, we propose an approach called Sub-Question Importance-aware Network Tuning (SQuINT), which encourages the model to attend to the same parts of the image when answering the reasoning question and the perception sub question. We show that SQuINT improves model consistency by ~5%, also marginally improving performance on the Reasoning questions in VQA, while also displaying better attention maps.
翻訳日:2023-01-08 04:58:06 公開日:2020-06-16
# Harnessing Code Switching to Transcend the Linguistic Barrier (英語)

Harnessing Code Switching to Transcend the Linguistic Barrier ( http://arxiv.org/abs/2001.11258v2 )

ライセンス: Link先を確認
Ashiqur R. KhudaBukhsh, Shriphani Palakodety, Jaime G. Carbonell(参考訳) コードミキシング(コードミキシング、またはコードスイッチング)は、言語的に多様なユーザーベースによって生成されるソーシャルメディアコンテンツで見られる一般的な現象である。 インド亜大陸では、かなりの数のソーシャルメディア投稿がコードの切り換えを示すことが研究で示されている。 コード混合文書による下流解析の難しさは十分に理解されているが、特定のシナリオでコード混合文書を見える化することは、これまで見過ごされていた有用性を持つ可能性がある。 例えば、複数の言語が混在して書かれた文書は、より広い聴衆に部分的にアクセスすることができる。 本稿では,最小限の監督を必要とするポリグロット埋め込み方式を利用したサンプルコード混在文書に対する体系的アプローチを提案する。 プルワマのテロ攻撃によって引き起こされた2019年のインドとパキスタンの紛争の文脈では、人間の幸福のためにコードミキシングを利用する、未解決の可能性を実証する: 英語の文書でのみ訓練された既存の敵対関係から始まり、コード混合文書は、低リソースだが広く使われている言語で書かれた『emph{hope speech}』コンテンツを取得するための橋として利用される。 提案するパイプラインは、最小限の監視が必要であり、Webモデレーションの取り組みを大幅に減らすことを約束します。

Code mixing (or code switching) is a common phenomenon observed in social-media content generated by a linguistically diverse user-base. Studies show that in the Indian sub-continent, a substantial fraction of social media posts exhibit code switching. While the difficulties posed by code mixed documents to further downstream analyses are well-understood, lending visibility to code mixed documents under certain scenarios may have utility that has been previously overlooked. For instance, a document written in a mixture of multiple languages can be partially accessible to a wider audience; this could be particularly useful if a considerable fraction of the audience lacks fluency in one of the component languages. In this paper, we provide a systematic approach to sample code mixed documents leveraging a polyglot embedding based method that requires minimal supervision. In the context of the 2019 India-Pakistan conflict triggered by the Pulwama terror attack, we demonstrate an untapped potential of harnessing code mixing for human well-being: starting from an existing hostility diffusing \emph{hope speech} classifier solely trained on English documents, code mixed documents are utilized as a bridge to retrieve \emph{hope speech} content written in a low-resource but widely used language - Romanized Hindi. Our proposed pipeline requires minimal supervision and holds promise in substantially reducing web moderation efforts.
翻訳日:2023-01-05 11:55:23 公開日:2020-06-16
# 画像検索のための深層多視点強調ハッシュ

Deep Multi-View Enhancement Hashing for Image Retrieval ( http://arxiv.org/abs/2002.00169v2 )

ライセンス: Link先を確認
Chenggang Yan, Biao Gong, Yuxuan Wei, Yue Gao(参考訳) ハッシュは、高次元特徴記述子を低次元のハミング空間を保存する類似性に埋め込むことにより、大規模データ空間における近接探索の効率的な方法である。 しかし,バイナリコードによる大規模高速検索では,従来の検索手法に比べて検索精度がある程度低下している。 マルチビュー手法はデータの多様な特性をよく保存できることに気づきました。 そこで我々は,多視点深層ニューラルネットワークをハッシュ学習分野に導入し,検索性能を大幅に向上した効率的かつ革新的な検索モデルの設計を試みる。 本稿では,ニューラルネットワークによるマルチビュー情報の強化が可能な教師付きマルチビューハッシュモデルを提案する。 これは、マルチビューとディープラーニングを組み合わせた全く新しいハッシュ学習手法である。 提案手法は,効率的なビュー安定性評価手法を用いて,ネットワーク全体の最適化方向に影響を与えるビュー間の関係を積極的に探索する。 また,畳み込みとマルチビューの両方の利点を保ちつつ,ハミング空間における様々なマルチデータ融合手法を考案した。 検索中の強化手順における過剰な計算リソースを回避するため,学習に参加するメモリネットワークという別の構造を構築した。 提案手法はcifar-10,nus-wideおよびms-cocoデータセット上で体系的に評価され,本手法が最先端のシングルビューおよびマルチビューハッシュ法を著しく上回っていることを示す。

Hashing is an efficient method for nearest neighbor search in large-scale data space by embedding high-dimensional feature descriptors into a similarity preserving Hamming space with a low dimension. However, large-scale high-speed retrieval through binary code has a certain degree of reduction in retrieval accuracy compared to traditional retrieval methods. We have noticed that multi-view methods can well preserve the diverse characteristics of data. Therefore, we try to introduce the multi-view deep neural network into the hash learning field, and design an efficient and innovative retrieval model, which has achieved a significant improvement in retrieval performance. In this paper, we propose a supervised multi-view hash model which can enhance the multi-view information through neural networks. This is a completely new hash learning method that combines multi-view and deep learning methods. The proposed method utilizes an effective view stability evaluation method to actively explore the relationship among views, which will affect the optimization direction of the entire network. We have also designed a variety of multi-data fusion methods in the Hamming space to preserve the advantages of both convolution and multi-view. In order to avoid excessive computing resources on the enhancement procedure during retrieval, we set up a separate structure called memory network which participates in training together. The proposed method is systematically evaluated on the CIFAR-10, NUS-WIDE and MS-COCO datasets, and the results show that our method significantly outperforms the state-of-the-art single-view and multi-view hashing methods.
翻訳日:2023-01-05 00:56:45 公開日:2020-06-16
# 3次元動的シーングラフ:場所、物体、人間による行動可能な空間知覚

3D Dynamic Scene Graphs: Actionable Spatial Perception with Places, Objects, and Humans ( http://arxiv.org/abs/2002.06289v2 )

ライセンス: Link先を確認
Antoni Rosinol, Arjun Gupta, Marcus Abate, Jingnan Shi, Luca Carlone(参考訳) 動作可能な空間知覚のための統一表現として,3次元ダイナミックシーングラフを提案する。 シーングラフは、ノードがシーン内のエンティティ(例えば、オブジェクト、壁、部屋)を表す方向グラフであり、エッジはノード間の関係(例えば、包摂、隣接)を表す。 ダイナミックシーングラフ(DSG)はこの概念を拡張して、移動エージェント(人間、ロボットなど)による動的なシーンを表現するとともに、計画と意思決定をサポートする実行可能な情報(時空間関係、抽象度の異なるトポロジーなど)を含む。 第2の貢献は、視覚慣性データからdsgを構築する最初の完全自動空間知覚エンジン(spin)を提供することです。 我々は,物体と人間の検出とポーズ推定に最先端の技術を統合するとともに,混み合った場面における物体,ロボット,および人間のノードのロバストな推定方法について述べる。 私たちの知る限りでは、この論文は視覚-慣性SLAMと密集した人間のメッシュ追跡を精査する最初の論文です。 さらに,室内環境(場所,構造,部屋など)の階層的表現とその関係を求めるアルゴリズムを提供する。 第3の貢献は、提案した空間認識エンジンをフォトリアリスティックなユニティベースシミュレータで実証し、その堅牢性と表現性を評価することである。 最後に,現代ロボット工学の応用における提案の意義について論じる。 3D Dynamic Scene Graphsは、計画と意思決定、人間とロボットのインタラクション、長期的な自律性、シーン予測に大きな影響を与える可能性がある。 ビデオ要約はhttps://youtu.be/SWbofjhyPzIで公開されている。

We present a unified representation for actionable spatial perception: 3D Dynamic Scene Graphs. Scene graphs are directed graphs where nodes represent entities in the scene (e.g. objects, walls, rooms), and edges represent relations (e.g. inclusion, adjacency) among nodes. Dynamic scene graphs (DSGs) extend this notion to represent dynamic scenes with moving agents (e.g. humans, robots), and to include actionable information that supports planning and decision-making (e.g. spatio-temporal relations, topology at different levels of abstraction). Our second contribution is to provide the first fully automatic Spatial PerceptIon eNgine(SPIN) to build a DSG from visual-inertial data. We integrate state-of-the-art techniques for object and human detection and pose estimation, and we describe how to robustly infer object, robot, and human nodes in crowded scenes. To the best of our knowledge, this is the first paper that reconciles visual-inertial SLAM and dense human mesh tracking. Moreover, we provide algorithms to obtain hierarchical representations of indoor environments (e.g. places, structures, rooms) and their relations. Our third contribution is to demonstrate the proposed spatial perception engine in a photo-realistic Unity-based simulator, where we assess its robustness and expressiveness. Finally, we discuss the implications of our proposal on modern robotics applications. 3D Dynamic Scene Graphs can have a profound impact on planning and decision-making, human-robot interaction, long-term autonomy, and scene prediction. A video abstract is available at https://youtu.be/SWbofjhyPzI
翻訳日:2022-12-31 23:02:24 公開日:2020-06-16
# 知識接地対話における逐次潜在知識選択

Sequential Latent Knowledge Selection for Knowledge-Grounded Dialogue ( http://arxiv.org/abs/2002.07510v2 )

ライセンス: Link先を確認
Byeongchang Kim, Jaewoo Ahn, Gunhee Kim(参考訳) 知識基底対話は、会話コンテキストと外部知識の両方に基づいて情報応答を生成するタスクである。 我々は,複数ターンの知識接地対話における知識選択のモデル化に焦点をあてることにより,この問題に対する最初のアプローチとして逐次潜在変数モデルを提案する。 シーケンシャル・ナレッジ・トランスフォーマー (SKT) という名前のモデルは、知識よりも先行と後続の分布を追跡できるため、会話の知識選択の多様性から生じるあいまいさを低減できるだけでなく、適切な知識選択のために応答情報を活用することができる。 実験結果から,提案モデルにより知識選択精度が向上し,発話生成性能が向上することが示された。 私たちはウィザード・オブ・ウィキペディア(Dinan et al., 2019)の最新の最先端のパフォーマンスを、最も大規模で挑戦的なベンチマークの1つとして達成しました。 また,他の知識に基づく対話型Holl-Eデータセット(Moghe et al., 2018)において,既存の会話手法よりもモデルの有効性を検証した。

Knowledge-grounded dialogue is a task of generating an informative response based on both discourse context and external knowledge. As we focus on better modeling the knowledge selection in the multi-turn knowledge-grounded dialogue, we propose a sequential latent variable model as the first approach to this matter. The model named sequential knowledge transformer (SKT) can keep track of the prior and posterior distribution over knowledge; as a result, it can not only reduce the ambiguity caused from the diversity in knowledge selection of conversation but also better leverage the response information for proper choice of knowledge. Our experimental results show that the proposed model improves the knowledge selection accuracy and subsequently the performance of utterance generation. We achieve the new state-of-the-art performance on Wizard of Wikipedia (Dinan et al., 2019) as one of the most large-scale and challenging benchmarks. We further validate the effectiveness of our model over existing conversation methods in another knowledge-based dialogue Holl-E dataset (Moghe et al., 2018).
翻訳日:2022-12-30 19:58:53 公開日:2020-06-16
# グラフニューラルネットワーク回帰における残留相関

Residual Correlation in Graph Neural Network Regression ( http://arxiv.org/abs/2002.08274v2 )

ライセンス: Link先を確認
Junteng Jia and Austin R. Benson(参考訳) グラフニューラルネットワークは、各頂点近傍の特徴を頂点のベクトル表現に変換する。 その後、各頂点の表現はラベルの予測に独立して使用される。 この標準パイプラインは、頂点ラベルがその近傍の特徴から条件独立であると暗黙的に仮定する。 しかし、これは強い仮定であり、多くの実世界のグラフデータセットでは真とは程遠いことを示している。 回帰課題に着目して,この条件付き独立性仮定が予測力を著しく制限していることを見いだした。 ラベル伝搬のような従来のグラフに基づく半教師付き学習手法が、予測された結果の相関を明示的にモデル化することによって、逆の方法で機能することを考えると、これは驚くことではない。 本稿では、回帰残差の相関構造を利用するだけで、任意のグラフニューラルネットワークアーキテクチャを改善することができる解釈可能で効率的なフレームワークを用いてこの問題に対処する。 特に,パラメータ化多変量ガウスによる頂点上の残差の連成分布をモデル化し,観測されたラベルの限界確率を最大化してパラメータを推定する。 本フレームワークは, 競合するベースラインよりもかなり高い精度を実現し, 学習パラメータを連結頂点間の相関の強さとして解釈できる。 さらに,低分散モデルパラメータ推定のための線形時間アルゴリズムを開発し,大規模ネットワークにスケールできるようにする。 また,相関構造を強く仮定する手法の基本的なバージョンも提供するが,実装に手間がかからず,オーバーヘッドが最小限に抑えられることも多い。

A graph neural network transforms features in each vertex's neighborhood into a vector representation of the vertex. Afterward, each vertex's representation is used independently for predicting its label. This standard pipeline implicitly assumes that vertex labels are conditionally independent given their neighborhood features. However, this is a strong assumption, and we show that it is far from true on many real-world graph datasets. Focusing on regression tasks, we find that this conditional independence assumption severely limits predictive power. This should not be that surprising, given that traditional graph-based semi-supervised learning methods such as label propagation work in the opposite fashion by explicitly modeling the correlation in predicted outcomes. Here, we address this problem with an interpretable and efficient framework that can improve any graph neural network architecture simply by exploiting correlation structure in the regression residuals. In particular, we model the joint distribution of residuals on vertices with a parameterized multivariate Gaussian, and estimate the parameters by maximizing the marginal likelihood of the observed labels. Our framework achieves substantially higher accuracy than competing baselines, and the learned parameters can be interpreted as the strength of correlation among connected vertices. Furthermore, we develop linear time algorithms for low-variance, unbiased model parameter estimates, allowing us to scale to large networks. We also provide a basic version of our method that makes stronger assumptions on correlation structure but is painless to implement, often leading to great practical performance with minimal overhead.
翻訳日:2022-12-30 13:07:53 公開日:2020-06-16
# 深部特徴空間における画像歪みの解消

Disentangling Image Distortions in Deep Feature Space ( http://arxiv.org/abs/2002.11409v2 )

ライセンス: Link先を確認
Simone Bianco, Luigi Celona, Paolo Napoletano(参考訳) 以前の文献では知覚的類似性は深い視覚表現に共通する創発的性質であることを示唆している。 人間の判断による画像歪みのデータセットで行った実験では、深い特徴が古典的な知覚的指標より優れていることが証明されている。 本研究では,様々な画像歪みを内在的に特徴付ける深層視覚表現の能力を解析することにより,そのような特性のより広い理解に向けてさらに一歩踏み出した。 この目的のために、まず複数の合成歪み画像を生成し、次に異なるディープニューラルネットワークの異なる層から抽出された特徴を解析する。 与えられた層から抽出した特徴の次元再現表現は,特徴空間内の歪みのタイプを効率的に分離することができる。 さらに、各ネットワーク層は、異なる種類の歪みを分離する異なる能力を示し、この能力は、ネットワークアーキテクチャによって異なる。 最後に、画像歪みをよりよく分離する層から取られた特徴の活用を評価します。 一 基準画像品質評価の低減及び 二 単一の歪みデータベース及び複数の歪みデータベースの歪みタイプ及び重症度の評価 両タスクで得られた結果は、様々な画像歪みを効率的に特徴付けるために、深い視覚表現を教師なしに使用できることを示唆している。

Previous literature suggests that perceptual similarity is an emergent property shared across deep visual representations. Experiments conducted on a dataset of human-judged image distortions have proven that deep features outperform classic perceptual metrics. In this work we take a further step in the direction of a broader understanding of such property by analyzing the capability of deep visual representations to intrinsically characterize different types of image distortions. To this end, we firstly generate a number of synthetically distorted images and then we analyze the features extracted by different layers of different Deep Neural Networks. We observe that a dimension-reduced representation of the features extracted from a given layer permits to efficiently separate types of distortions in the feature space. Moreover, each network layer exhibits a different ability to separate between different types of distortions, and this ability varies according to the network architecture. Finally, we evaluate the exploitation of features taken from the layer that better separates image distortions for: i) reduced-reference image quality assessment, and ii) distortion types and severity levels characterization on both single and multiple distortion databases. Results achieved on both tasks suggest that deep visual representations can be unsupervisedly employed to efficiently characterize various image distortions.
翻訳日:2022-12-28 15:19:19 公開日:2020-06-16
# グループ対向学習を用いたゼロショット学習におけるターゲットシフトの対応

Addressing target shift in zero-shot learning using grouped adversarial learning ( http://arxiv.org/abs/2003.00845v2 )

ライセンス: Link先を確認
Saneem Ahmed Chemmengath (1), Soumava Paul (2), Samarth Bharadwaj (1), Suranjana Samanta, Karthik Sankaranarayanan ((1) IBM Research, (2) IIT Kharagpur)(参考訳) ゼロショット学習(ZSL)アルゴリズムは通常、属性相関を利用して、目に見えないクラスで予測できる。 しかし、これらの相関は、ほとんどの実践的な環境ではテスト時に持続せず、その結果の相関がゼロショット学習性能に悪影響を及ぼす。 本稿では,ZSLの新しいパラダイムについて述べる。 (i)対象分布の変化(目標シフト)を推定するために、未発見のクラスのクラス属性マッピングを利用する。 (II) このシフトの負の効果を低減するため, GAL(Grouped Adversarial Learning)と呼ばれる新しい手法を提案する。 提案手法は暗黙的属性予測を含むいくつかの既存のZSLアルゴリズムに適用可能である。 提案手法を3つのZSLアルゴリズム(ALE, SJE, DEVISE)に適用し、4つのZSLデータセット(AwA2, aPY, CUB, SUN)の性能改善を示す。 我々は、SUNおよびaPYデータセット上でSOTA結果を取得し、AwA2で同等の結果を得る。

Zero-shot learning (ZSL) algorithms typically work by exploiting attribute correlations to be able to make predictions in unseen classes. However, these correlations do not remain intact at test time in most practical settings and the resulting change in these correlations lead to adverse effects on zero-shot learning performance. In this paper, we present a new paradigm for ZSL that: (i) utilizes the class-attribute mapping of unseen classes to estimate the change in target distribution (target shift), and (ii) propose a novel technique called grouped Adversarial Learning (gAL) to reduce negative effects of this shift. Our approach is widely applicable for several existing ZSL algorithms, including those with implicit attribute predictions. We apply the proposed technique ($g$AL) on three popular ZSL algorithms: ALE, SJE, and DEVISE, and show performance improvements on 4 popular ZSL datasets: AwA2, aPY, CUB and SUN. We obtain SOTA results on SUN and aPY datasets and achieve comparable results on AwA2.
翻訳日:2022-12-27 04:05:19 公開日:2020-06-16
# ビデオ認識モデルにおけるクリーンラベルバックドア攻撃

Clean-Label Backdoor Attacks on Video Recognition Models ( http://arxiv.org/abs/2003.03030v2 )

ライセンス: Link先を確認
Shihao Zhao, Xingjun Ma, Xiang Zheng, James Bailey, Jingjing Chen, Yu-Gang Jiang(参考訳) ディープニューラルネットワーク(DNN)は、トレーニングデータを汚染することで、DNNのバックドアトリガーを隠すバックドア攻撃に対して脆弱である。 バックドアモデルは、通常クリーンなテストイメージで振る舞うが、トリガーパターンを含むテスト例に対して、常に特定のターゲットクラスを予測する。 そのため、バックドア攻撃は検出が困難であり、現実世界のアプリケーションで深刻なセキュリティ上の懸念を引き起こしている。 これまで、バックドア研究は主に画像分類モデルを用いて画像領域で行われてきた。 本稿では,既存の映像バックドア攻撃がビデオに対してはるかに効果が低いことを示し,既存の攻撃が失敗する可能性のある4つの厳格な条件を概説する。 1)より多くの入力次元(ビデオなど)を持つシナリオ 2)高解像度のシナリオ。 3) 多数のクラスがあり、クラスごとに例が少ないシナリオ("スパースデータセット")、そして 4)正しいラベル(クリーンラベル攻撃など)へのアクセスによる攻撃。 以上の4つの厳密な条件により、バックドア攻撃が問題となる可能性のある、ビデオ認識モデルを攻撃するバックドアトリガーとして、ユニバーサル・ディバイサル・トリガーが用いられることを提案する。 提案したバックドア攻撃は,少数のトレーニングデータ(ラベルを変更することなく)のみを汚染することにより,高い成功率で最先端のビデオモデルを操作できることを,ベンチマークビデオデータセットで示す。 また,提案したバックドア攻撃は,最先端のバックドア防御・検出手法に耐性があり,画像バックドア攻撃の改善にも有効であることを示す。 提案するビデオバックドアアタックは,ビデオモデルのロバスト性向上のための強力なベースラインとなるだけでなく,より強力なバックドアアタックをより理解するための新たな視点を提供する。

Deep neural networks (DNNs) are vulnerable to backdoor attacks which can hide backdoor triggers in DNNs by poisoning training data. A backdoored model behaves normally on clean test images, yet consistently predicts a particular target class for any test examples that contain the trigger pattern. As such, backdoor attacks are hard to detect, and have raised severe security concerns in real-world applications. Thus far, backdoor research has mostly been conducted in the image domain with image classification models. In this paper, we show that existing image backdoor attacks are far less effective on videos, and outline 4 strict conditions where existing attacks are likely to fail: 1) scenarios with more input dimensions (eg. videos), 2) scenarios with high resolution, 3) scenarios with a large number of classes and few examples per class (a "sparse dataset"), and 4) attacks with access to correct labels (eg. clean-label attacks). We propose the use of a universal adversarial trigger as the backdoor trigger to attack video recognition models, a situation where backdoor attacks are likely to be challenged by the above 4 strict conditions. We show on benchmark video datasets that our proposed backdoor attack can manipulate state-of-the-art video models with high success rates by poisoning only a small proportion of training data (without changing the labels). We also show that our proposed backdoor attack is resistant to state-of-the-art backdoor defense/detection methods, and can even be applied to improve image backdoor attacks. Our proposed video backdoor attack not only serves as a strong baseline for improving the robustness of video models, but also provides a new perspective for more understanding more powerful backdoor attacks.
翻訳日:2022-12-26 01:30:50 公開日:2020-06-16
# 階層型ニューラルネットワークによる単一画像超解像探索

Hierarchical Neural Architecture Search for Single Image Super-Resolution ( http://arxiv.org/abs/2003.04619v3 )

ライセンス: Link先を確認
Yong Guo, Yongsheng Luo, Zhenhao He, Jin Huang, Jian Chen(参考訳) ディープニューラルネットワークは画像超解像(SR)において有望な性能を示した。 ほとんどのSRモデルは、計算ブロックのセルレベル設計とアップサンプリングブロックの位置のネットワークレベル設計の両方を含む階層アーキテクチャに従う。 しかし、SRモデルの設計は人間の専門知識に大きく依存しており、非常に労働集約的である。 さらに重要なことに、これらのSRモデルは、しばしば膨大な数のパラメータを含み、現実世界のアプリケーションにおける計算リソースの要求を満たすことができない。 本稿では,計算コストの異なる有望なアーキテクチャを自動的に設計する階層型ニューラルネットワーク探索(hnas)手法を提案する。 そこで我々は階層型sr探索空間を設計し,アーキテクチャ探索のための階層型コントローラを提案する。 このような階層型コントローラは、有望なセルレベルブロックとアップサンプリング層のネットワークレベル位置を同時に見つけることができる。 さらに,性能を期待できるコンパクトアーキテクチャを設計するために,検索プロセスを導くための性能と計算コストを考慮し,共同報酬を構築する。 5つのベンチマークデータセットに関する広範な実験は、既存の方法よりも優れた方法を示している。

Deep neural networks have exhibited promising performance in image super-resolution (SR). Most SR models follow a hierarchical architecture that contains both the cell-level design of computational blocks and the network-level design of the positions of upsampling blocks. However, designing SR models heavily relies on human expertise and is very labor-intensive. More critically, these SR models often contain a huge number of parameters and may not meet the requirements of computation resources in real-world applications. To address the above issues, we propose a Hierarchical Neural Architecture Search (HNAS) method to automatically design promising architectures with different requirements of computation cost. To this end, we design a hierarchical SR search space and propose a hierarchical controller for architecture search. Such a hierarchical controller is able to simultaneously find promising cell-level blocks and network-level positions of upsampling layers. Moreover, to design compact architectures with promising performance, we build a joint reward by considering both the performance and computation cost to guide the search process. Extensive experiments on five benchmark datasets demonstrate the superiority of our method over existing methods.
翻訳日:2022-12-24 21:11:39 公開日:2020-06-16
# エネルギーハーベスティングにおける学習と公正性:最大多要素バンドアプローチ

Learning and Fairness in Energy Harvesting: A Maximin Multi-Armed Bandits Approach ( http://arxiv.org/abs/2003.06213v3 )

ライセンス: Link先を確認
Debamita Ghosh, Arun Verma and Manjesh K. Hanawal(参考訳) 近年の無線無線周波数(RF)エネルギー回収技術により、センサノードは電池を遠隔充電することで寿命を伸ばすことができる。 ノードが収穫するエネルギー量は、周囲の環境や源との距離によって異なる。 センサネットワークの寿命は、ノードがネットワークで取得できる最小のエネルギー量に依存する。 したがって、この量を最大化する周波数帯域で送信できるように、ノードが取得したエネルギーの最小量を学習することが重要である。 我々は、この学習問題を新しい確率的Maximin Multi-Armed Bandits (Maximin MAB)問題としてモデル化し、Maximin UCBという名前のアッパー信頼境界(UCB)に基づくアルゴリズムを提案する。 Maximin MABは標準MABの一般化であり、UTB1アルゴリズムと同じ性能を保証する。 実験結果は,アルゴリズムの性能保証の有効性を検証する。

Recent advances in wireless radio frequency (RF) energy harvesting allows sensor nodes to increase their lifespan by remotely charging their batteries. The amount of energy harvested by the nodes varies depending on their ambient environment, and proximity to the source. The lifespan of the sensor network depends on the minimum amount of energy a node can harvest in the network. It is thus important to learn the least amount of energy harvested by nodes so that the source can transmit on a frequency band that maximizes this amount. We model this learning problem as a novel stochastic Maximin Multi-Armed Bandits (Maximin MAB) problem and propose an Upper Confidence Bound (UCB) based algorithm named Maximin UCB. Maximin MAB is a generalization of standard MAB and enjoys the same performance guarantee as that of the UCB1 algorithm. Experimental results validate the performance guarantees of our algorithm.
翻訳日:2022-12-24 01:03:32 公開日:2020-06-16
# 半教師型ロバストトレーニングによる対人ロバストネスに向けて

Toward Adversarial Robustness via Semi-supervised Robust Training ( http://arxiv.org/abs/2003.06974v3 )

ライセンス: Link先を確認
Yiming Li, Baoyuan Wu, Yan Feng, Yanbo Fan, Yong Jiang, Zhifeng Li, Shutao Xia(参考訳) 敵対的な例はディープニューラルネットワーク(DNN)に対する深刻な脅威であることが示されている。 最も効果的な敵の防御方法の1つは、敵のリスクを最小化することで敵の訓練(at)である。これは、良質な例である$x$と、$\ell_{p}$-ball内の敵の摂動する近傍の両方を、地上のラベルとして予測することを奨励する。 本研究では,本研究で提案するロバスト・トレーニング (rt) という新しい防御手法を提案し,これら2つの分離リスク (r_{stand}$ と $r_{rob}$) を共同で最小化することを提案する。 その動機は、正確性と敵意の強固さを明確かつ共同で向上させることである。 我々は、$R_{adv}$が$R_{stand} + R_{rob}$によって上界であることを証明する。 直観的には、標準リスクの最小化は良性例を正しく予測することを強制し、ロバストリスクの最小化は隣の例の予測を良性例の予測と一致させる。 さらに、$R_{rob}$は接地構造ラベルとは独立であるため、RTは自然に半教師付きモード(すなわちSRT)に拡張され、対向的ロバスト性をさらに強化する。 さらに、$\ell_{p}$-bounded 近傍を一般的なケースに拡張し、ピクセル単位(すなわち$x + \delta$)や空間的摂動($x + b$)といった様々なタイプの摂動をカバーする。 ベンチマークデータセットにおける広範囲な実験により,提案手法は,画素方向あるいは空間的摂動を別々に防ぐための最先端手法であるだけでなく,両摂動に対する頑健性も同時に実証する。 主な結果を再現するコードは \url{https://github.com/thuyimingli/semi-supervised_robust_training} で入手できる。

Adversarial examples have been shown to be the severe threat to deep neural networks (DNNs). One of the most effective adversarial defense methods is adversarial training (AT) through minimizing the adversarial risk $R_{adv}$, which encourages both the benign example $x$ and its adversarially perturbed neighborhoods within the $\ell_{p}$-ball to be predicted as the ground-truth label. In this work, we propose a novel defense method, the robust training (RT), by jointly minimizing two separated risks ($R_{stand}$ and $R_{rob}$), which is with respect to the benign example and its neighborhoods respectively. The motivation is to explicitly and jointly enhance the accuracy and the adversarial robustness. We prove that $R_{adv}$ is upper-bounded by $R_{stand} + R_{rob}$, which implies that RT has similar effect as AT. Intuitively, minimizing the standard risk enforces the benign example to be correctly predicted, and the robust risk minimization encourages the predictions of the neighbor examples to be consistent with the prediction of the benign example. Besides, since $R_{rob}$ is independent of the ground-truth label, RT is naturally extended to the semi-supervised mode ($i.e.$, SRT), to further enhance the adversarial robustness. Moreover, we extend the $\ell_{p}$-bounded neighborhood to a general case, which covers different types of perturbations, such as the pixel-wise ($i.e.$, $x + \delta$) or the spatial perturbation ($i.e.$, $ AX + b$). Extensive experiments on benchmark datasets not only verify the superiority of the proposed SRT method to state-of-the-art methods for defensing pixel-wise or spatial perturbations separately, but also demonstrate its robustness to both perturbations simultaneously. The code for reproducing main results is available at \url{https://github.com/THUYimingLi/Semi-supervised_Robust_Training}.
翻訳日:2022-12-23 03:05:05 公開日:2020-06-16
# フェデレートラーニングのための局所SGDから局所固定点法へ

From Local SGD to Local Fixed-Point Methods for Federated Learning ( http://arxiv.org/abs/2004.01442v2 )

ライセンス: Link先を確認
Grigory Malinovsky, Dmitry Kovalev, Elnur Gasanov, Laurent Condat, Peter Richt\'arik(参考訳) 最適化問題を解くアルゴリズムや凸凹関数のサドル点を見つけるアルゴリズムは固定点アルゴリズムである。 本研究では,分散環境において,作用素の平均の不動点,あるいはその近似点を求めるという一般的な問題を考える。 私たちの仕事は連合学習の必要性に動機づけられている。 この文脈では、各ローカルオペレータは、モバイルデバイス上でローカルに実行される計算をモデル化する。 このようなコンセンサスを実現するための2つの戦略について検討する。1つは一定数の局所ステップに基づいており、もう1つはランダムな計算に基づいている。 どちらの場合でも、目標はローカルに計算された変数の通信を制限することにある。 両手法の収束解析を行い,提案手法の利点を浮き彫りにした実験を多数実施する。

Most algorithms for solving optimization problems or finding saddle points of convex-concave functions are fixed-point algorithms. In this work we consider the generic problem of finding a fixed point of an average of operators, or an approximation thereof, in a distributed setting. Our work is motivated by the needs of federated learning. In this context, each local operator models the computations done locally on a mobile device. We investigate two strategies to achieve such a consensus: one based on a fixed number of local steps, and the other based on randomized computations. In both cases, the goal is to limit communication of the locally-computed variables, which is often the bottleneck in distributed frameworks. We perform convergence analysis of both methods and conduct a number of experiments highlighting the benefits of our approach.
翻訳日:2022-12-17 04:11:28 公開日:2020-06-16
# ヒトのtacit仮定のための言語モデル探索

Probing Neural Language Models for Human Tacit Assumptions ( http://arxiv.org/abs/2004.04877v2 )

ライセンス: Link先を確認
Nathaniel Weir, Adam Poliak, Benjamin Van Durme(参考訳) 人間は、ステレオタイプなtacit仮定(stas)(プリンス、1978年)、またはジェネリック概念に関する命題的信念を持つ。 このような関連は自然言語を理解する上で重要である。 大規模テキストコーパスキャプチャSTAで訓練された最近のニューラルネットワーク言語モデルを評価するために,単語予測プロンプトの診断セットを構築した。 我々のプロンプトは、概念関係の心理学的研究における人間の反応に基づいている。 モデルは、関連する特性が与えられた概念を検索するのに非常に効果的である。 本研究は, 半教師付き言語暴露から得られる神経モデルにおいて, ステレオタイプ概念表現が捉えられるという実証的証拠を示す。

Humans carry stereotypic tacit assumptions (STAs) (Prince, 1978), or propositional beliefs about generic concepts. Such associations are crucial for understanding natural language. We construct a diagnostic set of word prediction prompts to evaluate whether recent neural contextualized language models trained on large text corpora capture STAs. Our prompts are based on human responses in a psychological study of conceptual associations. We find models to be profoundly effective at retrieving concepts given associated properties. Our results demonstrate empirical evidence that stereotypic conceptual representations are captured in neural models derived from semi-supervised linguistic exposure.
翻訳日:2022-12-14 20:54:24 公開日:2020-06-16
# 非退化の場合における低次多項式のパワーの学習和

Learning sums of powers of low-degree polynomials in the non-degenerate case ( http://arxiv.org/abs/2004.06898v2 )

ライセンス: Link先を確認
Ankit Garg, Neeraj Kayal, and Chandan Saha(参考訳) 低次多項式のパワーの和として多項式を記述するアルゴリズムを開発した。 f = c_1Q_1^{m} + \ldots + c_s Q_s^{m},$$ ここで各$c_i\in \mathbb{F}^{\times}$, $Q_i$は次数$t$の斉次多項式で、$tm = d$と書くことができる。 本稿では、$q_i$が特定の非退化条件を満たし、$n$が$d^2$より大きい場合、$f$を求めるための$\text{poly}((ns)^t)$-time learningアルゴリズムを与える。 退化した$q_i$'s(すなわちアルゴリズムが動作しない入力)の集合は非自明な多様体を形成し、従って$q_i$'s が任意の妥当な(フル次元)分布に従って選択された場合、高い確率で非退化する($s$ が大きすぎる場合)。 本アルゴリズムは,特定の非退化条件が保たれれば,同一モデルの下限から算術回路モデルの学習アルゴリズムを得るためのスキームに基づいている。 このスキームは、2つのベクトル空間を線型作用素の集合の作用の下で分解する問題に学習問題を還元し、空間と作用素は入力回路から導出され、典型的な下限証明で使われる複雑性測度である。 非退化条件は空間の分解に関する一定の制限である。

We develop algorithms for writing a polynomial as sums of powers of low degree polynomials. Consider an $n$-variate degree-$d$ polynomial $f$ which can be written as $$f = c_1Q_1^{m} + \ldots + c_s Q_s^{m},$$ where each $c_i\in \mathbb{F}^{\times}$, $Q_i$ is a homogeneous polynomial of degree $t$, and $t m = d$. In this paper, we give a $\text{poly}((ns)^t)$-time learning algorithm for finding the $Q_i$'s given (black-box access to) $f$, if the $Q_i's$ satisfy certain non-degeneracy conditions and $n$ is larger than $d^2$. The set of degenerate $Q_i$'s (i.e., inputs for which the algorithm does not work) form a non-trivial variety and hence if the $Q_i$'s are chosen according to any reasonable (full-dimensional) distribution, then they are non-degenerate with high probability (if $s$ is not too large). Our algorithm is based on a scheme for obtaining a learning algorithm for an arithmetic circuit model from a lower bound for the same model, provided certain non-degeneracy conditions hold. The scheme reduces the learning problem to the problem of decomposing two vector spaces under the action of a set of linear operators, where the spaces and the operators are derived from the input circuit and the complexity measure used in a typical lower bound proof. The non-degeneracy conditions are certain restrictions on how the spaces decompose.
翻訳日:2022-12-13 04:25:03 公開日:2020-06-16
# aspに基づく分類の相反的説明のアプローチ

An ASP-Based Approach to Counterfactual Explanations for Classification ( http://arxiv.org/abs/2004.13237v2 )

ライセンス: Link先を確認
Leopoldo Bertossi(参考訳) 本稿では,因果関係に基づく分類モデルに基づく意思決定の基盤として,反実的介入を規定し,計算する解集合プログラムを提案する。 ルールベースの分類器のような論理プログラムとして指定できるブラックボックスモデルやモデルに適用することができる。 主な焦点は、最大責任因果説明の仕様と計算である。 追加のセマンティック知識の使用について検討する。

We propose answer-set programs that specify and compute counterfactual interventions as a basis for causality-based explanations to decisions produced by classification models. They can be applied with black-box models and models that can be specified as logic programs, such as rule-based classifiers. The main focus in on the specification and computation of maximum responsibility causal explanations. The use of additional semantic knowledge is investigated.
翻訳日:2022-12-08 22:33:12 公開日:2020-06-16
# インターオペラビリティのためのカテゴリー理論アプローチ

A Category Theory Approach to Interoperability ( http://arxiv.org/abs/2005.06872v2 )

ライセンス: Link先を確認
Riccardo Del Gratta(参考訳) 本稿では,言語ツール間の(シンタクティックな)相互運用のためのカテゴリー理論アプローチを提案する。 得られたカテゴリは、あらゆる言語アノテーション、テキストを分析し、追加の言語情報を追加するNLPツール、フォーマットコンバータを含むテキストドキュメントで構成されている。 フォーマット変換器は、ツールが異なる出力フォーマットを読み書きできるようにするために必要であり、これが相互運用性の鍵である。 この文書の背景にある考え方は、合成の概念とNLPパイプラインとのカテゴリー理論における連想性の並列性である。 本稿では,言語ツールのパイプラインをカテゴリ理論の概念的枠組みにモデル化する方法を示し,この手法を実例2つに適用した。

In this article, we propose a Category Theory approach to (syntactic) interoperability between linguistic tools. The resulting category consists of textual documents, including any linguistic annotations, NLP tools that analyze texts and add additional linguistic information, and format converters. Format converters are necessary to make the tools both able to read and to produce different output formats, which is the key to interoperability. The idea behind this document is the parallelism between the concepts of composition and associativity in Category Theory with the NLP pipelines. We show how pipelines of linguistic tools can be modeled into the conceptual framework of Category Theory and we successfully apply this method to two real-life examples.
翻訳日:2022-12-03 04:55:39 公開日:2020-06-16
# 隠れた共同設立者の存在下での単一変数干渉による共同非線形効果の学習

Learning Joint Nonlinear Effects from Single-variable Interventions in the Presence of Hidden Confounders ( http://arxiv.org/abs/2005.11528v2 )

ライセンス: Link先を確認
Sorawit Saengkyongam and Ricardo Silva(参考訳) 隠れた共同設立者の存在下での複数同時介入の効果を推定する手法を提案する。 隠れた結合の問題を克服するために,観測データだけでなく,各処理変数が別々に介入される単一変数の介入の集合にもアクセス可能な設定を考える。 付加ガウス雑音を伴う非線形連続的構造因果モデルからデータを生成することを仮定して同定可能性を示す。 さらに,異なるレジームから全てのデータをプールし,組み合わせ確率を最大化することにより,簡易なパラメータ推定手法を提案する。 また,本研究の総合的な実験により,同定可能性の検証や,合成データと実世界データの両方のベースラインに対するアプローチの性能の比較を行う。

We propose an approach to estimate the effect of multiple simultaneous interventions in the presence of hidden confounders. To overcome the problem of hidden confounding, we consider the setting where we have access to not only the observational data but also sets of single-variable interventions in which each of the treatment variables is intervened on separately. We prove identifiability under the assumption that the data is generated from a nonlinear continuous structural causal model with additive Gaussian noise. In addition, we propose a simple parameter estimation method by pooling all the data from different regimes and jointly maximizing the combined likelihood. We also conduct comprehensive experiments to verify the identifiability result as well as to compare the performance of our approach against a baseline on both synthetic and real-world data.
翻訳日:2022-11-30 03:44:44 公開日:2020-06-16
# マルチタイムスケールスパイクリカレントニューラルネットワークによる効率的かつ効率的な計算

Effective and Efficient Computation with Multiple-timescale Spiking Recurrent Neural Networks ( http://arxiv.org/abs/2005.11633v2 )

ライセンス: Link先を確認
Bojian Yin, Federico Corradi, Sander M. Boht\'e(参考訳) エッジAIのパラダイムとしての脳に触発されたニューロモルフィックコンピューティングの出現は、このハードウェア上で動く高性能で効率的なスパイクニューラルネットワークの探索を動機付けている。 しかし、ディープラーニングにおける古典的なニューラルネットワークと比較して、現在のスパイクニューラルネットワークは、説得力のある分野では競争力に欠ける。 ここでは、逐次的かつストリーミング的なタスクにおいて、新しいタイプの適応スパイクリカレントニューラルネットワーク(SRNN)が、他のスパイクニューラルネットワークと比較して最先端の性能を実現し、スパース活性を示しながら、古典的リカレントニューラルネットワーク(RNN)の性能にほぼ到達または超えることを実証する。 この結果から,従来のRNNに比べて,SRNNのエネルギー効率は100倍に向上した。 これを実現するために、我々は、標準および適応的多時間スパイクニューロンを自己再生神経ユニットとしてモデル化し、pytorchディープラーニングフレームワークにおけるサロゲート勾配と自己分化を利用して、スパイクニューロンをタスクに適応させるために重要なスパイクニューロンパラメータの学習を含む、バックプロパゲーションを効率的に実装する。

The emergence of brain-inspired neuromorphic computing as a paradigm for edge AI is motivating the search for high-performance and efficient spiking neural networks to run on this hardware. However, compared to classical neural networks in deep learning, current spiking neural networks lack competitive performance in compelling areas. Here, for sequential and streaming tasks, we demonstrate how a novel type of adaptive spiking recurrent neural network (SRNN) is able to achieve state-of-the-art performance compared to other spiking neural networks and almost reach or exceed the performance of classical recurrent neural networks (RNNs) while exhibiting sparse activity. From this, we calculate a $>$100x energy improvement for our SRNNs over classical RNNs on the harder tasks. To achieve this, we model standard and adaptive multiple-timescale spiking neurons as self-recurrent neural units, and leverage surrogate gradients and auto-differentiation in the PyTorch Deep Learning framework to efficiently implement backpropagation-through-time, including learning of the important spiking neuron parameters to adapt our spiking neurons to the tasks.
翻訳日:2022-11-29 13:15:24 公開日:2020-06-16
# 生成モデルを用いたパラメトリック変換からの画像復元

Image Restoration from Parametric Transformations using Generative Models ( http://arxiv.org/abs/2005.14036v2 )

ライセンス: Link先を確認
Kalliopi Basioti, George V. Moustakides(参考訳) 画像が生成モデルによって統計的に記述される場合、この情報を用いて、塗り込み、超解像、画像彩色、生成モデル反転などの様々な画像復元問題の最適な技術を開発することができる。 生成モデルの助けを借りて、自然にこれらの復元問題を統計的推定問題として定式化することができる。 提案手法は,最大a-posteriori確率と最大推定値を組み合わせることで,未知のパラメータを含む場合でも,変換によって歪んだ画像を復元することができる。 結果として得られる最適化は、チューニングを必要とするパラメータなしで完全に定義される。 これは、変換の正確な知識を必要とし、適切に定義されなければならない重みを持つ正規化項を含む現在の技術の状況と比較されなければならない。 最後に、各画像がそれぞれの生成モデルによって記述された複数の画像の混合に対応するように拡張し、各画像が単一の混合から分離できることに留意する必要がある。

When images are statistically described by a generative model we can use this information to develop optimum techniques for various image restoration problems as inpainting, super-resolution, image coloring, generative model inversion, etc. With the help of the generative model it is possible to formulate, in a natural way, these restoration problems as Statistical estimation problems. Our approach, by combining maximum a-posteriori probability with maximum likelihood estimation, is capable of restoring images that are distorted by transformations even when the latter contain unknown parameters. The resulting optimization is completely defined with no parameters requiring tuning. This must be compared with the current state of the art which requires exact knowledge of the transformations and contains regularizer terms with weights that must be properly defined. Finally, we must mention that we extend our method to accommodate mixtures of multiple images where each image is described by its own generative model and we are able of successfully separating each participating image from a single mixture.
翻訳日:2022-11-28 08:03:03 公開日:2020-06-16
# DeepCoDA: 構成健康データに対するパーソナライズされた解釈可能性

DeepCoDA: personalized interpretability for compositional health data ( http://arxiv.org/abs/2006.01392v2 )

ライセンス: Link先を確認
Thomas P. Quinn, Dang Nguyen, Santu Rana, Sunil Gupta, Svetha Venkatesh(参考訳) 解釈可能性により、ドメインエキスパートはモデルの妥当性と信頼性を直接評価することができます。 医療の分野では、解釈可能なモデルは、データ前処理のような技術的要因に依存しない関連する生物学的メカニズムを含意すべきである。 我々は,パーソナライズド・コンタラクタビリティを,サンプル特有の特徴の帰属尺度として定義し,その結論を正当化する精密な健康モデルのための最小要件として捉えた。 一部の健康データ、特に高スループットシークエンシング実験によって生成されたデータは、精密な健康モデルとその解釈を損なうニュアンスを持っている。 これらのデータは構成的であり、各機能は条件付きで他の全ての特徴に依存する。 深層構成データ分析(deepcoda)フレームワークを提案する。このフレームワークは、高精度な健康モデリングを高次元の構成データに拡張し、患者固有の重みによるパーソナライズされた解釈性を提供する。 我々のアーキテクチャは、25の現実世界のデータセットにまたがる最先端のパフォーマンスを維持しつつ、パーソナライズされ、コンポジションデータに完全に整合した解釈を生成する。

Interpretability allows the domain-expert to directly evaluate the model's relevance and reliability, a practice that offers assurance and builds trust. In the healthcare setting, interpretable models should implicate relevant biological mechanisms independent of technical factors like data pre-processing. We define personalized interpretability as a measure of sample-specific feature attribution, and view it as a minimum requirement for a precision health model to justify its conclusions. Some health data, especially those generated by high-throughput sequencing experiments, have nuances that compromise precision health models and their interpretation. These data are compositional, meaning that each feature is conditionally dependent on all other features. We propose the Deep Compositional Data Analysis (DeepCoDA) framework to extend precision health modelling to high-dimensional compositional data, and to provide personalized interpretability through patient-specific weights. Our architecture maintains state-of-the-art performance across 25 real-world data sets, all while producing interpretations that are both personalized and fully coherent for compositional data.
翻訳日:2022-11-25 23:08:39 公開日:2020-06-16
# テンソルネットワークによる異常検出

Anomaly Detection with Tensor Networks ( http://arxiv.org/abs/2006.02516v2 )

ライセンス: Link先を確認
Jinhui Wang, Chase Roberts, Guifre Vidal, Stefan Leichenauer(参考訳) 凝縮物質物理学に由来するテンソルネットワークは、高次元テンソルのコンパクト表現である。 本稿では,一級異常検出の特定のタスクにおいて,テンソルネットワークの長所を実証する。 テンソルネットワークのメモリと計算効率を利用して、元の特徴数に指数関数的な次元を持つ空間上の線形変換を学習する。 モデルの線形性は,モデルのグローバル傾向をフロベニウス規範を通じて予測正規性にペナルティすることで,トレーニングインスタンスの厳密な適合性を確保することを可能にする。 本手法は,表型データセットにおける深層アルゴリズムや古典的アルゴリズムよりも優れており,画像の局所性を生かしてはいないが,画像データセットの競合結果を生成する。

Originating from condensed matter physics, tensor networks are compact representations of high-dimensional tensors. In this paper, the prowess of tensor networks is demonstrated on the particular task of one-class anomaly detection. We exploit the memory and computational efficiency of tensor networks to learn a linear transformation over a space with dimension exponential in the number of original features. The linearity of our model enables us to ensure a tight fit around training instances by penalizing the model's global tendency to a predict normality via its Frobenius norm---a task that is infeasible for most deep learning models. Our method outperforms deep and classical algorithms on tabular datasets and produces competitive results on image datasets, despite not exploiting the locality of images.
翻訳日:2022-11-25 17:44:40 公開日:2020-06-16
# UCLID-Net:オブジェクト空間における単一ビュー再構成

UCLID-Net: Single View Reconstruction in Object Space ( http://arxiv.org/abs/2006.03817v2 )

ライセンス: Link先を確認
Benoit Guillard, Edoardo Remelli, Pascal Fua(参考訳) 最先端のディープラーニングシングルビュー再構成アプローチの多くは、形状パラメトリゼーションまたは暗黙の表現を出力するエンコーダデコーダアーキテクチャに依存している。 しかし、これらの表現は3次元空間オブジェクトのユークリッド構造をほとんど保存しない。 本稿では,3次元潜在空間を保存した幾何学的空間を構築することで,オブジェクト座標空間におけるグローバルな形状規則性と局所的推論を同時に学習し,その結果,性能が向上することを示す。 ベンチマーク目的でよく使用されるShapeNet合成画像と、我々のアプローチが最先端の画像より優れている実世界の画像の両方を実証する。 さらに、シングルビューパイプラインは自然にマルチビュー再構築にも拡張されます。

Most state-of-the-art deep geometric learning single-view reconstruction approaches rely on encoder-decoder architectures that output either shape parametrizations or implicit representations. However, these representations rarely preserve the Euclidean structure of the 3D space objects exist in. In this paper, we show that building a geometry preserving 3-dimensional latent space helps the network concurrently learn global shape regularities and local reasoning in the object coordinate space and, as a result, boosts performance. We demonstrate both on ShapeNet synthetic images, which are often used for benchmarking purposes, and on real-world images that our approach outperforms state-of-the-art ones. Furthermore, the single-view pipeline naturally extends to multi-view reconstruction, which we also show.
翻訳日:2022-11-24 21:52:09 公開日:2020-06-16
# 深い目標指向クラスタリング

Deep Goal-Oriented Clustering ( http://arxiv.org/abs/2006.04259v3 )

ライセンス: Link先を確認
Yifeng Shi, Christopher M. Bender, Junier B. Oliva, Marc Niethammer(参考訳) クラスタリングと予測は、教師なし学習と教師なし学習の2つの主要なタスクである。 機械学習の最近の進歩の多くはこれらの2つのタスクを中心にしているが、相互依存的、相互に有益な関係は滅多に研究されていない。 データを適切にクラスタリングすることは、下流の予測タスクに役立ち、逆に下流のタスクに対するより良い予測性能は、より適切なクラスタリング戦略を通知する可能性がある。 本研究では,この相互に有益な関係の後半に焦点をあてる。 そこで本研究では,サイドインフォメーションと非教師なしモデリングを併用し,エンドツーエンドでデータ集合を行う確率的フレームワークであるdeep goal-oriented clustering(dgc)を提案する。 我々は、最先端技術に匹敵する予測精度を達成し、また、我々の設定において、同種のクラスタリング戦略を同時に学習することで、データセットにおけるモデルの有効性を示す。

Clustering and prediction are two primary tasks in the fields of unsupervised and supervised learning, respectively. Although much of the recent advances in machine learning have been centered around those two tasks, the interdependent, mutually beneficial relationship between them is rarely explored. One could reasonably expect appropriately clustering the data would aid the downstream prediction task and, conversely, a better prediction performance for the downstream task could potentially inform a more appropriate clustering strategy. In this work, we focus on the latter part of this mutually beneficial relationship. To this end, we introduce Deep Goal-Oriented Clustering (DGC), a probabilistic framework that clusters the data by jointly using supervision via side-information and unsupervised modeling of the inherent data structure in an end-to-end fashion. We show the effectiveness of our model on a range of datasets by achieving prediction accuracies comparable to the state-of-the-art, while, more importantly in our setting, simultaneously learning congruent clustering strategies.
翻訳日:2022-11-24 07:47:46 公開日:2020-06-16
# ワンショット部分対部分登録のための3d-3d対応学習

Learning 3D-3D Correspondences for One-shot Partial-to-partial Registration ( http://arxiv.org/abs/2006.04523v2 )

ライセンス: Link先を確認
Zheng Dang, Fei Wang and Mathieu Salzmann(参考訳) 3D-3Dの登録は伝統的に最適化に基づく手法で行われているが、最近の研究は学習に基づく手法がより高速で堅牢な結果が得られることを示した。 しかし、この文脈ではPRNetだけが部分的から部分的な登録シナリオを処理できる。 残念なことに、これは複雑なネットワークアーキテクチャを持つ反復的な手順に依存するコストで達成される。 本稿では,学習に基づく部分的/部分的登録をワンショットで実現し,ネットワークの複雑さを減らし,登録精度を向上することを示す。 そこで本研究では,外れ値のビンを用いることにより,オクルードポイントを考慮できる最適なトランスポート層を提案する。 結果として得られるOPRNetフレームワークは、標準ベンチマークにおける技術状況よりも優れており、既存の技術よりも堅牢性と一般化能力が向上している。

While 3D-3D registration is traditionally tacked by optimization-based methods, recent work has shown that learning-based techniques could achieve faster and more robust results. In this context, however, only PRNet can handle the partial-to-partial registration scenario. Unfortunately, this is achieved at the cost of relying on an iterative procedure, with a complex network architecture. Here, we show that learning-based partial-to-partial registration can be achieved in a one-shot manner, jointly reducing network complexity and increasing registration accuracy. To this end, we propose an Optimal Transport layer able to account for occluded points thanks to the use of outlier bins. The resulting OPRNet framework outperforms the state of the art on standard benchmarks, demonstrating better robustness and generalization ability than existing techniques.
翻訳日:2022-11-24 02:00:46 公開日:2020-06-16
# MNISTライクなデータセットを用いたタミル母音認識

Tamil Vowel Recognition With Augmented MNIST-like Data Set ( http://arxiv.org/abs/2006.08367v2 )

ライセンス: Link先を確認
Muthiah Annamalai(参考訳) タミル母音のためのMNIST[4]互換データセット[1]を生成して,タミルOCR/Handwritingアプリケーションのための分類DNNや他のML/AIディープラーニング[2]モデルの構築を可能にする。 TensorFlowでは6万のグレースケール、28x28ピクセルのデータセットを使用して、92%の精度(トレーニング)と82%のクロスバリデーション4層CNNを10,000以上のパラメータで構築しています。 また,同一ネットワーク上で示される手書き母音におけるtop-1分類精度は70%,top-2分類精度は92%であった。

We report generation of a MNIST [4] compatible data set [1] for Tamil vowels to enable building a classification DNN or other such ML/AI deep learning [2] models for Tamil OCR/Handwriting applications. We report the capability of the 60,000 grayscale, 28x28 pixel dataset to build a 92% accuracy (training) and 82% cross-validation 4-layer CNN, with 100,000+ parameters, in TensorFlow. We also report a top-1 classification accuracy of 70% and top-2 classification accuracy of 92% on handwritten vowels showing, for the same network.
翻訳日:2022-11-23 13:34:37 公開日:2020-06-16
# MC-BERT:メタコントローラによる効率的な言語事前学習

MC-BERT: Efficient Language Pre-Training via a Meta Controller ( http://arxiv.org/abs/2006.05744v2 )

ライセンス: Link先を確認
Zhenhui Xu, Linyuan Gong, Guolin Ke, Di He, Shuxin Zheng, Liwei Wang, Jiang Bian, Tie-Yan Liu(参考訳) 事前訓練された文脈表現(例えばBERT)は多くのNLPタスクで最先端の結果を達成する基盤となっている。 しかし、大規模な事前学習は計算コストが高い。 事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。 本研究により,ELECTRAの成功は主に事前学習タスクの複雑さの低減によるものであることが判明した。二項分類(置換トークン検出)は生成タスク(マスク言語モデリング)よりも学習が効率的である。 しかし、このような単純化されたタスクは意味的にはあまり意味を成さない。 そこで本研究では,新しいメタ学習フレームワークMC-BERTを提案する。 事前トレーニングタスクは、メタコントローラネットワークがトレーニング入力と候補を提供するrejectオプションを備えたマルチチョースクローズテストである。 GLUE自然言語理解ベンチマークによる結果から,提案手法は効率的かつ効果的であることが示された。

Pre-trained contextual representations (e.g., BERT) have become the foundation to achieve state-of-the-art results on many NLP tasks. However, large-scale pre-training is computationally expensive. ELECTRA, an early attempt to accelerate pre-training, trains a discriminative model that predicts whether each input token was replaced by a generator. Our studies reveal that ELECTRA's success is mainly due to its reduced complexity of the pre-training task: the binary classification (replaced token detection) is more efficient to learn than the generation task (masked language modeling). However, such a simplified task is less semantically informative. To achieve better efficiency and effectiveness, we propose a novel meta-learning framework, MC-BERT. The pre-training task is a multi-choice cloze test with a reject option, where a meta controller network provides training input and candidates. Results over GLUE natural language understanding benchmark demonstrate that our proposed method is both efficient and effective: it outperforms baselines on GLUE semantic tasks given the same computational budget.
翻訳日:2022-11-23 04:11:36 公開日:2020-06-16
# 帰属駆動によるVQAモデルの弱さの探索

Exploring Weaknesses of VQA Models through Attribution Driven Insights ( http://arxiv.org/abs/2006.06637v2 )

ライセンス: Link先を確認
Shaunak Halbe(参考訳) 深層ニューラルネットワークは、関連する大規模データセットが利用可能であるため、過去数年間、視覚的な質問応答のタスクにうまく使われてきた。 しかし、これらのデータセットは人工的な設定で作成され、現実世界のシナリオをほとんど反映しない。 近年の研究では、視覚障害者の視覚的質問にこれらのVQAモデルを効果的に適用している。 高い精度を実現しているにもかかわらず、これらのモデルは入力質問のばらつきに影響を受けやすいように見え、人気のあるvqaモデルをアトリビューション(予測に対するインプットの影響)のレンズを通して分析し、貴重な洞察を得る。 さらに,これらの知見を応用して,入力質問の意味を無視できない変化でシステムに大きなダメージを与える敵の攻撃を仕掛ける。 これにより、視覚障害者を支援するためにデプロイされた場合の入力の変化に対して、より堅牢なシステムの開発が促進されると考えています。

Deep Neural Networks have been successfully used for the task of Visual Question Answering for the past few years owing to the availability of relevant large scale datasets. However these datasets are created in artificial settings and rarely reflect the real world scenario. Recent research effectively applies these VQA models for answering visual questions for the blind. Despite achieving high accuracy these models appear to be susceptible to variation in input questions.We analyze popular VQA models through the lens of attribution (input's influence on predictions) to gain valuable insights. Further, We use these insights to craft adversarial attacks which inflict significant damage to these systems with negligible change in meaning of the input questions. We believe this will enhance development of systems more robust to the possible variations in inputs when deployed to assist the visually impaired.
翻訳日:2022-11-22 09:35:24 公開日:2020-06-16
# テキストによる予測スキルの測定

Measuring Forecasting Skill from Text ( http://arxiv.org/abs/2006.07425v2 )

ライセンス: Link先を確認
Shi Zong, Alan Ritter, Eduard Hovy(参考訳) 人々は未来について正確な予測をする能力が異なる。 以前の研究では、一部の個人は、常により良い精度で将来の出来事の結果を予測することができることを示した。 これは自然な疑問につながります – 予測者が他よりも優れている理由は何でしょう? 本稿では,利用者が使用する言語と予測スキルとの関係について検討する。 1) オンライン予測フォーラム「グッド・ジャッジメント・オープン」の地政学的予測と, (2) 財務アナリストによる企業業績予測のコーパスである。 我々は、不確実性、可読性、感情など、人々の将来の予測に関連するテキスト上で計算される多くの言語指標を提示する。 予測に関連する言語的要因を研究することにより、熟練した予測者によるアプローチに光を当てることができる。 さらに,言語のみに基づくモデルを用いて,予測スキルを正確に予測できることを実証した。 これは、正確な予測や、早期に熟練した予測者を特定するのに役立つ可能性がある。

People vary in their ability to make accurate predictions about the future. Prior studies have shown that some individuals can predict the outcome of future events with consistently better accuracy. This leads to a natural question: what makes some forecasters better than others? In this paper we explore connections between the language people use to describe their predictions and their forecasting skill. Datasets from two different forecasting domains are explored: (1) geopolitical forecasts from Good Judgment Open, an online prediction forum and (2) a corpus of company earnings forecasts made by financial analysts. We present a number of linguistic metrics which are computed over text associated with people's predictions about the future including: uncertainty, readability, and emotion. By studying linguistic factors associated with predictions, we are able to shed some light on the approach taken by skilled forecasters. Furthermore, we demonstrate that it is possible to accurately predict forecasting skill using a model that is based solely on language. This could potentially be useful for identifying accurate predictions or potentially skilled forecasters earlier.
翻訳日:2022-11-22 04:18:44 公開日:2020-06-16
# マルチモーダルフィンガープリント提示検出:新しいデータセットによる評価

Multi-Modal Fingerprint Presentation Attack Detection: Evaluation On A New Dataset ( http://arxiv.org/abs/2006.07498v2 )

ライセンス: Link先を確認
Leonidas Spinoulas, Hengameh Mirzaalian, Mohamed Hussein, and Wael AbdAlmageed(参考訳) 指紋提示攻撃検出は、現実的な偽指紋提示を生成する攻撃準備技術の継続的な進歩により、ますます困難になっている。 本研究は,コミュニティで広く利用されている古い指紋画像に頼るのではなく,最近導入された複数のセンシングモダリティの有用性について検討する。 本研究では,近赤外,近赤外,レーザー照明を用いたフロントイルミネーションイメージングと近赤外光を用いたバックイルミネーションイメージングについて述べる。 これらの非従来型センシングモードとそれらの融合による生体検出の有効性について検討するため,完全畳み込み型ディープニューラルネットワークフレームワークを用いた包括的解析を行った。 評価では,新たなセンサ・モダリティと,コレクションの1つと公開LivDet2015データセットからのレガシデータとの異なる組み合わせを比較し,ほとんどの場合において新しいセンサ・モダリティの優位性を示す。 また、既知の、未知の攻撃の事例と、データセット内およびデータセット間評価の事例についても触れる。 以上の結果から,本手法のパワーは,ハードウェアベースの(あるいはハイブリッドな)ソリューションに要する余分なコストを正当化する,採用する分類フレームワークではなく,取得したデータの性質に起因していることが示唆された。 データセットコレクションの1つを公開する予定です。

Fingerprint presentation attack detection is becoming an increasingly challenging problem due to the continuous advancement of attack preparation techniques, which generate realistic-looking fake fingerprint presentations. In this work, rather than relying on legacy fingerprint images, which are widely used in the community, we study the usefulness of multiple recently introduced sensing modalities. Our study covers front-illumination imaging using short-wave-infrared, near-infrared, and laser illumination; and back-illumination imaging using near-infrared light. Toward studying the effectiveness of each of these unconventional sensing modalities and their fusion for liveness detection, we conducted a comprehensive analysis using a fully convolutional deep neural network framework. Our evaluation compares different combination of the new sensing modalities to legacy data from one of our collections as well as the public LivDet2015 dataset, showing the superiority of the new sensing modalities in most cases. It also covers the cases of known and unknown attacks and the cases of intra-dataset and inter-dataset evaluations. Our results indicate that the power of our approach stems from the nature of the captured data rather than the employed classification framework, which justifies the extra cost for hardware-based (or hybrid) solutions. We plan to publicly release one of our dataset collections.
翻訳日:2022-11-22 04:10:33 公開日:2020-06-16
# O(1) 2レベル勾配平均化による分散SGDの通信

O(1) Communication for Distributed SGD through Two-Level Gradient Averaging ( http://arxiv.org/abs/2006.07405v2 )

ライセンス: Link先を確認
Subhadeep Bhattacharya, Weikuan Yu and Fahim Tahmid Chowdhury(参考訳) 大規模ニューラルネットワークモデルでは、分散確率勾配Descent (SGD) に対して、nパラメータのモデルに対して、作業者毎のO(n) の通信複雑性を持つ、重い通信課題が提示される。 勾配を圧縮するために多くのスパーシフィケーションと量子化技術が提案されており、一部では通信の複雑さをo(k)に還元している。 本稿では,2レベル勾配平均化(A2SGD)と呼ばれる手法を導入し,すべての勾配を,更新モデルに対する2つのグローバル平均の計算に先立って,作業者ごとの局所平均に集約する。 A2SGDはまた、高速収束のための分散を維持するために局所誤差を保持する。 我々の理論的解析は、A2SGDがデフォルト分散SGDアルゴリズムと同様に収束していることを示している。 評価の結果,A2SGDは作業者ごとの通信トラフィックを著しく削減し,LSTM-PTBのトレーニング時間をトップKとQSGDと比較して3.2倍,23.2倍改善した。 我々の知る限り、A2SGDは分散SGDのためのワーカーごとのO(1)通信複雑性を初めて達成した。

Large neural network models present a hefty communication challenge to distributed Stochastic Gradient Descent (SGD), with a communication complexity of O(n) per worker for a model of n parameters. Many sparsification and quantization techniques have been proposed to compress the gradients, some reducing the communication complexity to O(k), where k << n. In this paper, we introduce a strategy called two-level gradient averaging (A2SGD) to consolidate all gradients down to merely two local averages per worker before the computation of two global averages for an updated model. A2SGD also retains local errors to maintain the variance for fast convergence. Our theoretical analysis shows that A2SGD converges similarly like the default distributed SGD algorithm. Our evaluation validates the theoretical conclusion and demonstrates that A2SGD significantly reduces the communication traffic per worker, and improves the overall training time of LSTM-PTB by 3.2x and 23.2x, respectively, compared to Top-K and QSGD. To the best of our knowledge, A2SGD is the first to achieve O(1) communication complexity per worker for distributed SGD.
翻訳日:2022-11-22 03:51:26 公開日:2020-06-16
# AlgebraNets

AlgebraNets ( http://arxiv.org/abs/2006.07360v2 )

ライセンス: Link先を確認
Jordan Hoffmann, Simon Schmitt, Simon Osindero, Karen Simonyan, Erich Elsen(参考訳) ニューラルネットワークは歴史的に${f: \mathbb{R}^n \to \mathbb{R}^m }$、すなわち実数で表される活性化と重み/パラメータ、$\mathbb{R}$の関数集合から階層的に構築されてきた。 本研究では,アクティベーションと重み付けのためのリッチなオブジェクトセットを検討するとともに,画像Netデータセットを用いた大規模画像分類と,enwiki8データセットとWikiText-103データセットを用いた言語モデリングという2つの課題において,代用代数学を数値表現として包括的に研究する。 我々はこのより広いモデルのクラスを代数ネットと表現する。 その結果,より小さなデータセット上の$\mathbb{C}$(複素数)と$\mathbb{H}$(四元数)から構築されたニューラルネットワークを探索した先行研究の結論は,必ずしもこれらの困難な設定に移行するとは限らないことがわかった。 しかし,この結果から,$\mathbb{R}$よりも優れたパラメータと計算効率を実現する代用代数学が存在することが示された。 我々は$\mathbb{C}$, $\mathbb{H}$, $M_{2}(\mathbb{R})$ ( 2 つの実数値行列の集合)、$M_{2}(\mathbb{C})$, $M_{3}(\mathbb{R})$, $M_{4}(\mathbb{R})$を考える。 さらに,これらの代数学における乗算は実乗算よりも計算密度が高く,自己回帰推論やスパースニューラルネットワークなどのパラメータ再利用が本質的に制限されている状況において有用である。 そこで,代数学におけるスパーシリティの誘導方法について検討する。 大規模で実用的なベンチマークに対する我々の強力な結果が、ニューラルネットワークの重み付けとアクティベーションに実数を使用するデフォルトの選択に挑戦する、非従来型アーキテクチャのさらなる探求を促すことを期待しています。

Neural networks have historically been built layerwise from the set of functions in ${f: \mathbb{R}^n \to \mathbb{R}^m }$, i.e. with activations and weights/parameters represented by real numbers, $\mathbb{R}$. Our work considers a richer set of objects for activations and weights, and undertakes a comprehensive study of alternative algebras as number representations by studying their performance on two challenging problems: large-scale image classification using the ImageNet dataset and language modeling using the enwiki8 and WikiText-103 datasets. We denote this broader class of models as AlgebraNets. Our findings indicate that the conclusions of prior work, which explored neural networks constructed from $\mathbb{C}$ (complex numbers) and $\mathbb{H}$ (quaternions) on smaller datasets, do not always transfer to these challenging settings. However, our results demonstrate that there are alternative algebras which deliver better parameter and computational efficiency compared with $\mathbb{R}$. We consider $\mathbb{C}$, $\mathbb{H}$, $M_{2}(\mathbb{R})$ (the set of $2\times2$ real-valued matrices), $M_{2}(\mathbb{C})$, $M_{3}(\mathbb{R})$ and $M_{4}(\mathbb{R})$. Additionally, we note that multiplication in these algebras has higher compute density than real multiplication, a useful property in situations with inherently limited parameter reuse such as auto-regressive inference and sparse neural networks. We therefore investigate how to induce sparsity within AlgebraNets. We hope that our strong results on large-scale, practical benchmarks will spur further exploration of these unconventional architectures which challenge the default choice of using real numbers for neural network weights and activations.
翻訳日:2022-11-22 02:57:42 公開日:2020-06-16
# Web 質問応答におけるユーザ行動からの重要度フィードバックのマイニング

Mining Implicit Relevance Feedback from User Behavior for Web Question Answering ( http://arxiv.org/abs/2006.07581v2 )

ライセンス: Link先を確認
Linjun Shou, Shining Bo, Feixiang Cheng, Ming Gong, Jian Pei, Daxin Jiang(参考訳) 多言語商用検索エンジンのためのwebスケール質問応答システム(qa)のトレーニングとリフレッシュには、多くのトレーニング例が必要になる。 原則の1つは、検索エンジンログに記録されたユーザーの行動から暗黙の妥当性のフィードバックを掘り出すことである。 以前のすべての作業は、パスではなく、webドキュメントの関連性をターゲットとする暗黙の関連性フィードバックをマイニングしている。 QAタスクの特徴はいくつかあるため,既存のWebドキュメントのユーザ行動モデルは,経路関係の推測には適用できない。 本稿では,ユーザ行動と通過関連性の相関性を検討するための最初の研究を行い,Web QAのための新たなトレーニングデータマイニング手法を提案する。 我々は4つのテストデータセットについて広範な実験を行い,提案手法は人間のラベル付きデータなしで,パスランキングの精度を大幅に向上させることを示した。 実のところ、この研究はグローバルな商用検索エンジン、特に低リソース言語におけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。 私たちの技術は多言語サービスにデプロイされています。

Training and refreshing a web-scale Question Answering (QA) system for a multi-lingual commercial search engine often requires a huge amount of training examples. One principled idea is to mine implicit relevance feedback from user behavior recorded in search engine logs. All previous works on mining implicit relevance feedback target at relevance of web documents rather than passages. Due to several unique characteristics of QA tasks, the existing user behavior models for web documents cannot be applied to infer passage relevance. In this paper, we make the first study to explore the correlation between user behavior and passage relevance, and propose a novel approach for mining training data for Web QA. We conduct extensive experiments on four test datasets and the results show our approach significantly improves the accuracy of passage ranking without extra human labeled data. In practice, this work has proved effective to substantially reduce the human labeling cost for the QA service in a global commercial search engine, especially for languages with low resources. Our techniques have been deployed in multi-language services.
翻訳日:2022-11-21 21:16:51 公開日:2020-06-16
# リモートセンシング画像における少数ショット物体検出

Few-shot Object Detection on Remote Sensing Images ( http://arxiv.org/abs/2006.07826v2 )

ライセンス: Link先を確認
Jingyu Deng, Xiang Li, Yi Fang(参考訳) 本稿では,リモートセンシング画像における物体検出の問題に対処する。 従来,リモートセンシング画像における物体検出のためのディープCNN法が多数開発されており,検出性能と効率性に優れた成果が報告されている。 しかし、現在のcnnベースの手法では、ディープニューラルネットワークを訓練するために多くの注釈付きサンプルが必要であり、見えないオブジェクトカテゴリの一般化能力は限られている。 本稿では,リモートセンシング画像に対して,未確認のオブジェクトカテゴリに対して,アノテーション付きサンプルを少数用意したオブジェクト検出手法を提案する。 具体的には、入力画像から特徴表現を抽出するメタ特徴抽出器と、サポート画像から各特徴表現に対して異なる重みを適応的に割り当てることを学ぶリウェイトモジュールと、再重み付き特徴マップ上でオブジェクト検出を行うバウンディングボックス予測モジュールの3つの主要コンポーネントを含む。 我々は、YOLOv3アーキテクチャに基づいて、少数ショットオブジェクト検出モデルを構築し、マルチスケールオブジェクト検出フレームワークを開発する。 2つのベンチマークデータセットの実験では、いくつかの注釈付きサンプルだけで、我々のモデルはリモートセンシング画像上で満足な検出性能を達成でき、我々のモデルの性能は、確立されたベースラインモデルよりも大幅に向上している。

In this paper, we deal with the problem of object detection on remote sensing images. Previous methods have developed numerous deep CNN-based methods for object detection on remote sensing images and the report remarkable achievements in detection performance and efficiency. However, current CNN-based methods mostly require a large number of annotated samples to train deep neural networks and tend to have limited generalization abilities for unseen object categories. In this paper, we introduce a few-shot learning-based method for object detection on remote sensing images where only a few annotated samples are provided for the unseen object categories. More specifically, our model contains three main components: a meta feature extractor that learns to extract feature representations from input images, a reweighting module that learn to adaptively assign different weights for each feature representation from the support images, and a bounding box prediction module that carries out object detection on the reweighted feature maps. We build our few-shot object detection model upon YOLOv3 architecture and develop a multi-scale object detection framework. Experiments on two benchmark datasets demonstrate that with only a few annotated samples our model can still achieve a satisfying detection performance on remote sensing images and the performance of our model is significantly better than the well-established baseline models.
翻訳日:2022-11-21 13:15:15 公開日:2020-06-16
# 自動面接性能評価とフィードバックのためのマルチモーダル行動分析の活用

Leveraging Multimodal Behavioral Analytics for Automated Job Interview Performance Assessment and Feedback ( http://arxiv.org/abs/2006.07909v2 )

ライセンス: Link先を確認
Anumeha Agrawal, Rosa Anil George, Selvan Sunitha Ravi, Sowmya Kamath S, Anand Kumar M(参考訳) 行動的手がかりは人間のコミュニケーションや認知に重要な役割を果たす。 ほとんどの専門分野において、人材採用政策は、職業スキルと性格特性の両方が適切に評価されるように枠付けされている。 採用面接は、専門的な資格、対人的スキル、批判的かつストレスの多い状況、時間と資源の制約の有無など、従業員のポジションに適合する可能性のある可能性を評価するために構成される。 したがって、候補者は肯定的かつ否定的な属性を認識し、その成功に悪影響を及ぼす可能性のある行動的手がかりに留意する必要がある。 本稿では,面接シナリオの候補を分析し,エンゲージメントや発話率,アイコンタクトなど,予め定義されたラベルに対するフィードバックを提供するマルチモーダル分析フレームワークを提案する。 録音されたインタビューから得られた映像,音声,テキストの書き起こしを用いて,面接者の表情,音声,韻律情報を含む包括的分析を行う。 我々はこれらのマルチモーダルデータソースを用いて複合表現を構築し、機械学習分類器を訓練してクラスラベルを予測する。 このような分析は、インタビュアーの行動的手がかりと身体言語に対する建設的なフィードバックを提供するために使用される。 実験の結果,提案手法は有望な結果を得た。

Behavioral cues play a significant part in human communication and cognitive perception. In most professional domains, employee recruitment policies are framed such that both professional skills and personality traits are adequately assessed. Hiring interviews are structured to evaluate expansively a potential employee's suitability for the position - their professional qualifications, interpersonal skills, ability to perform in critical and stressful situations, in the presence of time and resource constraints, etc. Therefore, candidates need to be aware of their positive and negative attributes and be mindful of behavioral cues that might have adverse effects on their success. We propose a multimodal analytical framework that analyzes the candidate in an interview scenario and provides feedback for predefined labels such as engagement, speaking rate, eye contact, etc. We perform a comprehensive analysis that includes the interviewee's facial expressions, speech, and prosodic information, using the video, audio, and text transcripts obtained from the recorded interview. We use these multimodal data sources to construct a composite representation, which is used for training machine learning classifiers to predict the class labels. Such analysis is then used to provide constructive feedback to the interviewee for their behavioral cues and body language. Experimental validation showed that the proposed methodology achieved promising results.
翻訳日:2022-11-21 09:43:23 公開日:2020-06-16
# ピクセル可視性:カラー画像に見えない物体を検出する

Pixel Invisibility: Detecting Objects Invisible in Color Images ( http://arxiv.org/abs/2006.08383v2 )

ライセンス: Link先を確認
Yongxin Wang and Duminda Wijesekera(参考訳) 深層ニューラルネットワークを用いた物体検出器の最近の成功にもかかわらず、自動運転車のような安全クリティカルな応用への展開は疑問視されている。 これは、夜間、霧、夕暮れ、夜明け、輝きといった運用条件下での検出器の故障の信頼性が低いためである。 このような不当な失敗は、安全性の侵害につながる可能性がある。 この問題を解決するために、我々は、日、夜、霧といった様々な照明条件下で、色領域で見えない物体を含む画素/領域の確率を計算し、手動ラベリングを必要としないカラー画像の画素レベルの可視マップを予測するアルゴリズムを開発した。 そこで本研究では,日中の弱アライメント画像ペアを用いた色から赤外線領域へのクロスモーダル知識の蒸留と,その中間レベル特徴距離に基づく画素レベルの可視性指標の構築を提案する。 定量的実験により, 画素レベルの可視性マスクの性能と, 蒸留中濃度特性が赤外線画像中の被写体検出に及ぼす影響が示された。

Despite recent success of object detectors using deep neural networks, their deployment on safety-critical applications such as self-driving cars remains questionable. This is partly due to the absence of reliable estimation for detectors' failure under operational conditions such as night, fog, dusk, dawn and glare. Such unquantifiable failures could lead to safety violations. In order to solve this problem, we created an algorithm that predicts a pixel-level invisibility map for color images that does not require manual labeling - that computes the probability that a pixel/region contains objects that are invisible in color domain, during various lighting conditions such as day, night and fog. We propose a novel use of cross modal knowledge distillation from color to infra-red domain using weakly-aligned image pairs from the day and construct indicators for the pixel-level invisibility based on the distances of their intermediate-level features. Quantitative experiments show the great performance of our pixel-level invisibility mask and also the effectiveness of distilled mid-level features on object detection in infra-red imagery.
翻訳日:2022-11-21 05:20:57 公開日:2020-06-16
# 強化学習に基づく自動車両制御のオンライン展開フレームワーク

An online evolving framework for advancing reinforcement-learning based automated vehicle control ( http://arxiv.org/abs/2006.08092v2 )

ライセンス: Link先を確認
Teawon Han, Subramanya Nageshrao, Dimitar P. Filev, Umit Ozguner(参考訳) 本稿では,コントローラの不完全な意思決定を事前に検出し,修正するためのオンライン進化フレームワークを提案する。 フレームワークは進化する有限状態マシン(e-FSM)、アクションリバイザ、コントローラモジュールの3つのモジュールで構成されている。 e-FSMモジュールは、新しい状態を決定し、繰り返し遷移確率を特定することによって、確率モデル(例えば離散時間マルコフ連鎖)をゼロから進化させる。 最新の確率モデルと与えられた基準により、アクションリバイザモジュールは将来の状態を予測してコントローラの選択したアクションの有効性をチェックする。 そして、選択されたアクションが適切でない場合は、別のアクションを検査して選択する。 提案手法の利点を示すため, 車両追従シナリオにおいて, 速度と安全性によって制御基準が設定された場合のエゴ車両の制御に, DDPG (Deep Deterministic Policy Gradient) w/とw/oを適用した。 実験の結果,DDPGコントローラが選択した不適切な動作は,提案したフレームワークを通じて適切に検出・修正され,数回の反復で制御障害は発生しないことがわかった。

In this paper, an online evolving framework is proposed to detect and revise a controller's imperfect decision-making in advance. The framework consists of three modules: the evolving Finite State Machine (e-FSM), action-reviser, and controller modules. The e-FSM module evolves a stochastic model (e.g., Discrete-Time Markov Chain) from scratch by determining new states and identifying transition probabilities repeatedly. With the latest stochastic model and given criteria, the action-reviser module checks validity of the controller's chosen action by predicting future states. Then, if the chosen action is not appropriate, another action is inspected and selected. In order to show the advantage of the proposed framework, the Deep Deterministic Policy Gradient (DDPG) w/ and w/o the online evolving framework are applied to control an ego-vehicle in the car-following scenario where control criteria are set by speed and safety. Experimental results show that inappropriate actions chosen by the DDPG controller are detected and revised appropriately through our proposed framework, resulting in no control failures after a few iterations.
翻訳日:2022-11-21 05:02:56 公開日:2020-06-16
# ICAM:ディスタングル表現と特徴属性マッピングによる解釈可能な分類

ICAM: Interpretable Classification via Disentangled Representations and Feature Attribution Mapping ( http://arxiv.org/abs/2006.08287v2 )

ライセンス: Link先を確認
Cher Bass, Mariana da Silva, Carole Sudre, Petru-Daniel Tudosiu, Stephen M. Smith, Emma C. Robinson(参考訳) 特徴帰属(英: feature attribution, fa)または画像内の異なる位置へのクラス関係の割り当ては、多くの分類問題において重要であるが、神経科学領域において特に重要であり、行動や疾患の正確な機械的なモデルには、特徴を識別する全ての特徴の知識が必要である。 同時に、表現型は通常異種であり、重要な自然変動の背景に対して変化が起こるため、脳画像からのクラス関連性の予測は困難である。 本稿では,画像から画像への変換によってクラス固有のFAマップを作成するための新しいフレームワークを提案する。 本稿では,VAE-GANを用いて,背景特徴からクラス関連性を明示的に切り離し,解釈性を向上させることを提案する。 本手法は認知症(adniデータセット)、老化(ukバイオバンク)、(シミュレーション)病変検出の2次元および3次元脳画像データセットで検証した。 本研究では,本手法により生成されたFAマップが,地上事実に対する検証において,ベースラインFA法より優れていることを示す。 さらに,本手法は,表現型変異の探索を支援するために潜時空間サンプリングを用いた最初の手法である。 私たちのコードはhttps://github.com/CherBass/ICAM.comで公開されます。

Feature attribution (FA), or the assignment of class-relevance to different locations in an image, is important for many classification problems but is particularly crucial within the neuroscience domain, where accurate mechanistic models of behaviours, or disease, require knowledge of all features discriminative of a trait. At the same time, predicting class relevance from brain images is challenging as phenotypes are typically heterogeneous, and changes occur against a background of significant natural variation. Here, we present a novel framework for creating class specific FA maps through image-to-image translation. We propose the use of a VAE-GAN to explicitly disentangle class relevance from background features for improved interpretability properties, which results in meaningful FA maps. We validate our method on 2D and 3D brain image datasets of dementia (ADNI dataset), ageing (UK Biobank), and (simulated) lesion detection. We show that FA maps generated by our method outperform baseline FA methods when validated against ground truth. More significantly, our approach is the first to use latent space sampling to support exploration of phenotype variation. Our code will be available online at https://github.com/CherBass/ICAM.
翻訳日:2022-11-21 03:51:44 公開日:2020-06-16
# ベータ発散を伴う表データ用ロバスト変分オートエンコーダ

Robust Variational Autoencoder for Tabular Data with Beta Divergence ( http://arxiv.org/abs/2006.08204v2 )

ライセンス: Link先を確認
Haleh Akrami, Sergul Aydore, Richard M. Leahy, Anand A. Joshi(参考訳) 本稿では,表型データ(RTVAE)に対して$\beta$のばらつきを持つロバストな変分オートエンコーダを提案する。 変分オートエンコーダ(VAE)とその変分は異常検出問題に対する一般的なフレームワークである。 第一の前提は、VAEを通して正規パターンの表現を学習し、そこから逸脱して異常を示すことができるということである。 しかし、トレーニングデータ自体が外れ値を含むことができる。 トレーニングデータの異常発生源には、データ収集プロセス自体(ランダムノイズ)や、機械学習モデルのパフォーマンスを低下させる可能性のある悪意のある攻撃者(データ中毒)が含まれる。 いずれの場合も、これらの異常値はVAEのトレーニングプロセスに不均等に影響を与え、通常の行動が何かという誤った結論につながる可能性がある。 本研究は,学習データにおける外れ値に頑健な分類的かつ連続的な特徴を持つ表型データセットのための変分オートエンコーダの新たな形式を導出する。 ネットワークトラフィックデータセットの異常検出アプリケーションについて,本手法の有効性を実証した。

We propose a robust variational autoencoder with $\beta$ divergence for tabular data (RTVAE) with mixed categorical and continuous features. Variational autoencoders (VAE) and their variations are popular frameworks for anomaly detection problems. The primary assumption is that we can learn representations for normal patterns via VAEs and any deviation from that can indicate anomalies. However, the training data itself can contain outliers. The source of outliers in training data include the data collection process itself (random noise) or a malicious attacker (data poisoning) who may target to degrade the performance of the machine learning model. In either case, these outliers can disproportionately affect the training process of VAEs and may lead to wrong conclusions about what the normal behavior is. In this work, we derive a novel form of a variational autoencoder for tabular data sets with categorical and continuous features that is robust to outliers in training data. Our results on the anomaly detection application for network traffic datasets demonstrate the effectiveness of our approach.
翻訳日:2022-11-21 03:40:52 公開日:2020-06-16
# 音楽生成のためのLSTMネットワーク

LSTM Networks for Music Generation ( http://arxiv.org/abs/2006.09838v1 )

ライセンス: Link先を確認
Xin Xu(参考訳) 本稿では,LSTM(Long Short-Term Memory)に基づく楽曲生成手法を提案する。

The paper presents a method of the music generation based on LSTM (Long Short-Term Memory), contrasts the effects of different network structures on the music generation and introduces other methods used by some researchers.
翻訳日:2022-11-20 21:55:19 公開日:2020-06-16
# ShieldNN: 安全でないNNコントローラのためのおそらく安全なNNフィルタ

ShieldNN: A Provably Safe NN Filter for Unsafe NN Controllers ( http://arxiv.org/abs/2006.09564v1 )

ライセンス: Link先を確認
James Ferlez and Mahmoud Elnaggar and Yasser Shoukry and Cody Fleming(参考訳) 本稿では,任意の制御NNを組み込んだセキュア・バイ・デザイナ・リニア・ユニット(ReLU)ニューラルネットワーク(NN)を構築する際の問題点について考察する。 特に,連続時間運動自転車モデル(kbm)で生成された制御入力を安全に補正するnnフィルタを合成するアルゴリズムを提案する。 ShieldNNには2つの新しいコントリビューションがある: 1つは、KBMモデルのための新しいバリア関数(BF)に基づいており、もう1つは、安全を保証した安全フィルタNNの設計にこのBFを利用する証明可能な健全なアルゴリズムである。 さらに、KBMは四輪車の力学をよく近似することが知られているので、四輪車のCARLAシミュレーションにおけるシールドNNフィルタの有効性を示す。 特に,個々の歩行者障害物の存在下での深層強化学習におけるシールドNNフィルタの効果について検討した。 ShieldNNフィルタは障害物衝突数を99.4%-100%削減した。 さらに,トレーニング中にShieldNNを取り入れることの効果についても検討した。訓練中にShieldNNを使わなかった場合,一定の回数のエピソードに対して28%の報酬が得られた。 これは、ShieldNNがRLトレーニング中にサンプル効率を改善するというさらなる特性を持っていることを示唆している。

In this paper, we consider the problem of creating a safe-by-design Rectified Linear Unit (ReLU) Neural Network (NN), which, when composed with an arbitrary control NN, makes the composition provably safe. In particular, we propose an algorithm to synthesize such NN filters that safely correct control inputs generated for the continuous-time Kinematic Bicycle Model (KBM). ShieldNN contains two main novel contributions: first, it is based on a novel Barrier Function (BF) for the KBM model; and second, it is itself a provably sound algorithm that leverages this BF to a design a safety filter NN with safety guarantees. Moreover, since the KBM is known to well approximate the dynamics of four-wheeled vehicles, we show the efficacy of ShieldNN filters in CARLA simulations of four-wheeled vehicles. In particular, we examined the effect of ShieldNN filters on Deep Reinforcement Learning trained controllers in the presence of individual pedestrian obstacles. The safety properties of ShieldNN were borne out in our experiments: the ShieldNN filter reduced the number of obstacle collisions by 99.4%-100%. Furthermore, we also studied the effect of incorporating ShieldNN during training: for a constant number of episodes, 28% less reward was observed when ShieldNN wasn't used during training. This suggests that ShieldNN has the further property of improving sample efficiency during RL training.
翻訳日:2022-11-20 21:55:15 公開日:2020-06-16
# 流れの音響予測:自由表面への様々な液体噴流

Acoustic prediction of flowrate: varying liquid jet stream onto a free surface ( http://arxiv.org/abs/2006.09016v1 )

ライセンス: Link先を確認
Balamurali B T, Edwin Jonathan Aslim, Yun Shu Lynn Ng, Tricia Li, Chuen Kuo, Jacob Shihang Chen, Dorien Herremans, Lay Guat Ng, Jer-Ming Chen(参考訳) 液体噴流の流れに関する情報は多くの実世界の応用において重要である。 多くの場合、これらの流れは直接自由表面(例えばプール)に落下し、水しぶきを伴う水しぶきを発生させる。 発生する音は、液体噴流と受動自由表面とのエネルギー相互作用によって供給される。 本研究では,水プールに落下する流量の異なる水噴流の音を収集し,この音を用いて流量と流量の軌跡を予測した。 ひとつは、収集した音から抽出した音声特徴を用いてトレーニングされた機械学習モデルを使用して、フローレート(とフローレートの軌跡)を予測する。 対照的に、第2の方法は、液体-液体相互作用のスペクトルエネルギーに関する音響パラメータを直接使用し、流路を推定する。 しかし、実際の流量は重力法で直接決定される: プール液体の質量の変化を時間とともに追跡する。 ここでは,2つの手法が実際の流れとよく一致し,流れの軌跡を正確に予測する上で同等の性能を示し,音を用いた潜在的現実的応用に対する洞察を提供する。

Information on liquid jet stream flow is crucial in many real world applications. In a large number of cases, these flows fall directly onto free surfaces (e.g. pools), creating a splash with accompanying splashing sounds. The sound produced is supplied by energy interactions between the liquid jet stream and the passive free surface. In this investigation, we collect the sound of a water jet of varying flowrate falling into a pool of water, and use this sound to predict the flowrate and flowrate trajectory involved. Two approaches are employed: one uses machine-learning models trained using audio features extracted from the collected sound to predict the flowrate (and subsequently the flowrate trajectory). In contrast, the second method directly uses acoustic parameters related to the spectral energy of the liquid-liquid interaction to estimate the flowrate trajectory. The actual flowrate, however, is determined directly using a gravimetric method: tracking the change in mass of the pooling liquid over time. We show here that the two methods agree well with the actual flowrate and offer comparable performance in accurately predicting the flowrate trajectory, and accordingly offer insights for potential real-life applications using sound.
翻訳日:2022-11-20 21:51:09 公開日:2020-06-16
# NodeNet: ノード分類のためのグラフ正規化ニューラルネットワーク

NodeNet: A Graph Regularised Neural Network for Node Classification ( http://arxiv.org/abs/2006.09022v1 )

ライセンス: Link先を確認
Shrey Dabhi and Manojkumar Parmar(参考訳) 実世界の事象は高い相互依存と接続を示し、したがって生成されたデータポイントもリンクを継承する。 しかし、AI/ML技術の大部分は、データポイント間のリンクを排除している。 最近、グラフベースのAI/ML技術への関心が高まっている。 グラフベースの学習アルゴリズムは、データと関連する情報を効果的に利用し、優れたモデルを構築する。 ニューラルグラフ学習(Neural Graph Learning, NGL)は、従来の機械学習アルゴリズムと修正された損失関数を使ってグラフ構造のエッジを利用する手法である。 本稿では,引用グラフのノード分類タスクを解決するため,NGL-NodeNetを用いたモデルを提案する。 変更点とその課題との関連について論じる。 さらに、この結果と現在の技術状況を比較し、NodeNetの優れたパフォーマンスの理由を調査します。

Real-world events exhibit a high degree of interdependence and connections, and hence data points generated also inherit the linkages. However, the majority of AI/ML techniques leave out the linkages among data points. The recent surge of interest in graph-based AI/ML techniques is aimed to leverage the linkages. Graph-based learning algorithms utilize the data and related information effectively to build superior models. Neural Graph Learning (NGL) is one such technique that utilizes a traditional machine learning algorithm with a modified loss function to leverage the edges in the graph structure. In this paper, we propose a model using NGL - NodeNet, to solve node classification task for citation graphs. We discuss our modifications and their relevance to the task. We further compare our results with the current state of the art and investigate reasons for the superior performance of NodeNet.
翻訳日:2022-11-20 21:50:50 公開日:2020-06-16
# ネットワークスライシングシナリオにおける無線アクセスネゴシエーションのためのビデオストリーミングKQIの推定

Estimation of Video Streaming KQIs for Radio Access Negotiation in Network Slicing Scenarios ( http://arxiv.org/abs/2006.09162v1 )

ライセンス: Link先を確認
Carlos Baena, Sergio Fortes, Eduardo Baena, Raquel Barco(参考訳) マルチメディアコンテンツの利用は近年大きく増加しており、モバイルネットワークのユーザにとって最も重要なサービスの一つとなっている。 そのため、ネットワークオペレータは、最高のビデオサービスプロビジョンをサポートするためのインフラストラクチャの最適化に苦労する。 さらに5Gでは,ネットワークスライシングの概念を,ネットワーク構成と最適化のまったく異なる視点を示す新しいパラダイムとして導入している。 このスキームの主な課題は、どの特定のリソースがスライスを使用するユーザに必要なサービス品質を提供するかを確立することである。 そこで本研究では,ネットワーク低層構成パラメータとメトリクスから算出したビデオストリーミングキー品質指標(KQI)を推定することにより,スライス交渉プロセスを支援するための完全なフレームワークを提案する。 提案した推定器は実際の細胞シナリオで評価される。

The use of multimedia content has hugely increased in recent times, becoming one of the most important services for the users of mobile networks. Consequently, network operators struggle to optimize their infrastructure to support the best video service-provision. As an additional challenge, 5G introduces the concept of network slicing as a new paradigm that presents a completely different view of the network configuration and optimization. A main challenge of this scheme is to establish which specific resources would provide the necessary quality of service for the users using the slice. To address this, the present work presents a complete framework for this support of the slice negotiation process through the estimation of the provided Video Streaming Key Quality Indicators (KQIs), which are calculated from network low-layer configuration parameters and metrics. The proposed estimator is then evaluated in a real cellular scenario.
翻訳日:2022-11-20 21:50:08 公開日:2020-06-16
# 物理アウェア深層学習によるリアルタイム3次元ナノスケールコヒーレントイメージング

Real-time 3D Nanoscale Coherent Imaging via Physics-aware Deep Learning ( http://arxiv.org/abs/2006.09441v1 )

ライセンス: Link先を確認
Henry Chan, Youssef S.G. Nashed, Saugat Kandel, Stephan Hruszkewycz, Subramanian Sankaranarayanan, Ross J. Harder, Mathew J. Cherukara(参考訳) 位相検索は、測定強度だけで失われた位相情報を復元する問題であり、天文学からナノスケールイメージングまで様々な画像モダリティで広く直面している逆問題である。 現在の段階回復のプロセスは、本質的に反復的です。 その結果、画像形成には時間がかかり、計算コストがかかるようになり、リアルタイムイメージングが先立つ。 本稿では3次元ナノスケールX線イメージングを代表例として,この位相探索問題に対処する深層学習モデルを開発する。 本稿では,入力3次元X線コヒーレント散乱データからのみ3次元構造とひずみを予測するために訓練された,深層畳み込みニューラルネットワークと微分プログラミングフレームワークである3D-CDI-NNを紹介する。 x線散乱過程の物理はネットワークのトレーニングにおいて明示的に強制され、トレーニングデータは物質の物理を代表する原子論的シミュレーションから引き出される。 物理に基づく最適化手法により、ニューラルネットワークの予測をさらに洗練し、最小計算コストで最大精度を実現する。 3D-CDI-NNは、3Dコヒーレント回折パターンを実空間構造に逆転させ、従来の反復位相探索法よりも数百倍高速で精度を損なうことができる。 位相探索問題に対する我々の統合機械学習および微分プログラミングソリューションは、他の応用領域における逆問題に広く適用できる。

Phase retrieval, the problem of recovering lost phase information from measured intensity alone, is an inverse problem that is widely faced in various imaging modalities ranging from astronomy to nanoscale imaging. The current process of phase recovery is iterative in nature. As a result, the image formation is time-consuming and computationally expensive, precluding real-time imaging. Here, we use 3D nanoscale X-ray imaging as a representative example to develop a deep learning model to address this phase retrieval problem. We introduce 3D-CDI-NN, a deep convolutional neural network and differential programming framework trained to predict 3D structure and strain solely from input 3D X-ray coherent scattering data. Our networks are designed to be "physics-aware" in multiple aspects; in that the physics of x-ray scattering process is explicitly enforced in the training of the network, and the training data are drawn from atomistic simulations that are representative of the physics of the material. We further refine the neural network prediction through a physics-based optimization procedure to enable maximum accuracy at lowest computational cost. 3D-CDI-NN can invert a 3D coherent diffraction pattern to real-space structure and strain hundreds of times faster than traditional iterative phase retrieval methods, with negligible loss in accuracy. Our integrated machine learning and differential programming solution to the phase retrieval problem is broadly applicable across inverse problems in other application areas.
翻訳日:2022-11-20 21:49:47 公開日:2020-06-16
# グラフ畳み込みニューラルネットワークを用いた病理画像の可視化

Visualization for Histopathology Images using Graph Convolutional Neural Networks ( http://arxiv.org/abs/2006.09464v1 )

ライセンス: Link先を確認
Mookund Sureka, Abhijeet Patil, Deepak Anand, Amit Sethi(参考訳) 医用画像におけるコンピュータ支援診断におけるディープラーニングの利用の増加に伴い、深層学習モデルのブラックボックス性に対する批判も高まっている。 医療コミュニティは、デュー・ディリジェンスと、疾患や治療機構の理解を深めるための解釈可能なモデルが必要である。 特に組織学では、細胞レベルでの詳細な情報や細胞間の空間的関係性は豊富であるが、畳み込みニューラルネットワークを改変して関連する視覚特徴を指摘することは困難である。 病理組織を核のグラフとしてモデル化するアプローチを採用し,注意機構とリンパ節閉塞を基盤としたグラフ畳み込みネットワークフレームワークを開発した。 提案手法では,全スライド画像における各細胞核の相対的寄与を強調する。 我々は,浸潤性乳癌とin-situ性乳癌の鑑別を訓練し,Gleason 3, 4前立腺癌は診断において重要な構造を理解するのとよく一致する解釈可能な視覚マップを生成する。

With the increase in the use of deep learning for computer-aided diagnosis in medical images, the criticism of the black-box nature of the deep learning models is also on the rise. The medical community needs interpretable models for both due diligence and advancing the understanding of disease and treatment mechanisms. In histology, in particular, while there is rich detail available at the cellular level and that of spatial relationships between cells, it is difficult to modify convolutional neural networks to point out the relevant visual features. We adopt an approach to model histology tissue as a graph of nuclei and develop a graph convolutional network framework based on attention mechanism and node occlusion for disease diagnosis. The proposed method highlights the relative contribution of each cell nucleus in the whole-slide image. Our visualization of such networks trained to distinguish between invasive and in-situ breast cancers, and Gleason 3 and 4 prostate cancers generate interpretable visual maps that correspond well with our understanding of the structures that are important to experts for their diagnosis.
翻訳日:2022-11-20 21:49:23 公開日:2020-06-16
# 前処置MRIにおける腫瘍位置は、Glioblastomaの偽増殖と腫瘍再発の可能性を予測できるか? 実現可能性研究

Can tumor location on pre-treatment MRI predict likelihood of pseudo-progression versus tumor recurrence in Glioblastoma? A feasibility study ( http://arxiv.org/abs/2006.09483v1 )

ライセンス: Link先を確認
Marwa Ismail, Virginia Hill, Volodymyr Statsevych, Evan Mason, Ramon Correa, Prateek Prasanna, Gagandeep Singh, Kaustav Bera, Rajat Thawani, Anant Madabhushi, Manmeet Ahluwalia, Pallavi Tiwari(参考訳) Glioblastoma (GBM) 管理における重要な課題は, 腫瘍再発による良性放射線誘発効果である擬似予後(PsP)を, 従来の治療後の定期的な画像診断において同定することである。 従来の研究では腫瘍葉の有無と側方性はGBMの結果と相関しており、GBMの病因と進行は腫瘍の位置によって影響されることが示唆されている。 そこで本研究は, 腫瘍再発に対する偽予後を呈する患者に対して, 治療-na\"ive MRI上の腫瘍位置が早期の手がかりとなるか検討する。 今回, PsP (33) と腫瘍再発 (41) をともなう術前Glioblastoma MRI 74例について検討した。 まず、Gd-T1w MRIの病変とT2w/FLAIRの腹腔周囲肥大を鑑別し、脳のアトラスに登録した。 2つの表現型から得られた患者を用いて, 病変増悪頻度を定量化し, ボクセル強度を平均化することにより, 2つのアトラスを構築した。 次に,各アトラス間のvoxel-wise 有意差 (p-value<0.05) を計算するために,差分関係の解析を行った。 統計的に重要なクラスターは最終的に構造的アトラスにマッピングされ、その位置の解剖学的局在を提供する。 以上より, psp患者は前頭葉, 側頭葉, 腸間膜, 被膜に多発性腫瘍を認め, psp患者は前頭葉, 側頭葉に多発性腫瘍を認めた。 これらの予備的な結果は, 腫瘍再発の発生頻度をMRIで評価するために, 脳の特定の解剖学的領域に対する前処置病変の側方化が早期に可能であることを示唆している。

A significant challenge in Glioblastoma (GBM) management is identifying pseudo-progression (PsP), a benign radiation-induced effect, from tumor recurrence, on routine imaging following conventional treatment. Previous studies have linked tumor lobar presence and laterality to GBM outcomes, suggesting that disease etiology and progression in GBM may be impacted by tumor location. Hence, in this feasibility study, we seek to investigate the following question: Can tumor location on treatment-na\"ive MRI provide early cues regarding likelihood of a patient developing pseudo-progression versus tumor recurrence? In this study, 74 pre-treatment Glioblastoma MRI scans with PsP (33) and tumor recurrence (41) were analyzed. First, enhancing lesion on Gd-T1w MRI and peri-lesional hyperintensities on T2w/FLAIR were segmented by experts and then registered to a brain atlas. Using patients from the two phenotypes, we construct two atlases by quantifying frequency of occurrence of enhancing lesion and peri-lesion hyperintensities, by averaging voxel intensities across the population. Analysis of differential involvement was then performed to compute voxel-wise significant differences (p-value<0.05) across the atlases. Statistically significant clusters were finally mapped to a structural atlas to provide anatomic localization of their location. Our results demonstrate that patients with tumor recurrence showed prominence of their initial tumor in the parietal lobe, while patients with PsP showed a multi-focal distribution of the initial tumor in the frontal and temporal lobes, insula, and putamen. These preliminary results suggest that lateralization of pre-treatment lesions towards certain anatomical areas of the brain may allow to provide early cues regarding assessing likelihood of occurrence of pseudo-progression from tumor recurrence on MRI scans.
翻訳日:2022-11-20 21:49:07 公開日:2020-06-16
# セルラーネットワーク管理のためのソーシャルイベントデータの適用

Applying Social Event Data for the Management of Cellular Networks ( http://arxiv.org/abs/2006.09258v1 )

ライセンス: Link先を確認
Sergio Fortes, David Palacios, Inmaculada Serrano, Raquel Barco(参考訳) インターネットは、カレンダー、イベントアグリゲータ、ソーシャルネットワーク、ブラウザなど、さまざまなソーシャルデータソースを提供している。 また、WebサービスやセマンティックWeb、ビッグデータ技術といった、これらのソースから情報を収集するメカニズムは、よりアクセスしやすく、効率的になっています。 これにより、主なイベントとその関連する群衆の詳細な予測が可能になる。 サービス提供の要件が増大しているため、特に都市部では、これらのイベントに関する情報を持つことは、運用、管理、保守(OAM)タスクにとって極めて有用である。 そこで本稿では,ソーシャルデータの自動取得と処理,ネットワーク要素(nes)との関連性とその性能について述べる。 実際のネットワークで直接動作するように設計されたシステムの主な機能を定義し,開発する。 提案手法の異なるOAMアプリケーションを分析し,実際のデプロイでシステム評価を行う。

Internet provides a growing variety of social data sources: calendars, event aggregators, social networks, browsers, etc. Also, the mechanisms to gather information from these sources, such as web services, semantic web and big data techniques have become more accessible and efficient. This allows a detailed prediction of the main expected events and their associated crowds. Due to the increasing requirements for service provision, particularly in urban areas, having information on those events would be extremely useful for Operations, Administration and Maintenance (OAM) tasks, since the social events largely affect the cellular network performance. Therefore, this paper presents a framework for the automatic acquisition and processing of social data, as well as their association with network elements (NEs) and their performance. The main functionalities of this system, which have been devised to directly work in real networks, are defined and developed. Different OAM applications of the proposed approach are analyzed and the system is evaluated in a real deployment.
翻訳日:2022-11-20 21:43:08 公開日:2020-06-16
# IMU信号のデータ拡張と運転行動の半教師付き分類による評価

Data Augmentation of IMU Signals and Evaluation via a Semi-Supervised Classification of Driving Behavior ( http://arxiv.org/abs/2006.09267v1 )

ライセンス: Link先を確認
Amani Jaafer and Gustav Nilsson and Giacomo Como(参考訳) 過去数年間、データからドライバーの行動を分類する関心が高まっている。 このような関心は、プライバシの制約により、慣性測定ユニット(IMU)などのデータへのアクセスしかできない自動車保険会社に特に関係している。 本稿では,運転者が積極的に運転しているか,あるいは通常のIMUデータに基づいて運転しているかに応じて,旅行の一部を分類する半教師付き学習ソリューションを提案する。 ラベル付きIMUデータの量は限られてコストがかかるため,Recurrent Conditional Generative Adversarial Networks (RCGAN) を用いてラベル付きデータを生成する。 以上の結果から,rcganが生成したラベル付きデータを利用することで,ドライバの分類が79%で改善されることがわかった。

Over the past years, interest in classifying drivers' behavior from data has surged. Such interest is particularly relevant for car insurance companies who, due to privacy constraints, often only have access to data from Inertial Measurement Units (IMU) or similar. In this paper, we present a semi-supervised learning solution to classify portions of trips according to whether drivers are driving aggressively or normally based on such IMU data. Since the amount of labeled IMU data is limited and costly to generate, we utilize Recurrent Conditional Generative Adversarial Networks (RCGAN) to generate more labeled data. Our results show that, by utilizing RCGAN-generated labeled data, the classification of the drivers is improved in 79% of the cases, compared to when the drivers are classified with no generated data.
翻訳日:2022-11-20 21:42:53 公開日:2020-06-16
# 振動計測による自己診断断層の時間的クラスタリングネットワーク

Temporal clustering network for self-diagnosing faults from vibration measurements ( http://arxiv.org/abs/2006.09505v1 )

ライセンス: Link先を確認
G. Zhang (Michigan Engineering Services), A. R. Singer (Michigan Engineering Services), N. Vlahopoulos (University of Michigan)(参考訳) オペレーティングシステムの健全性を定量化し、障害の発生を自己診断するために、運用機械にインテリジェンスを構築し、監視された信号にデータ分析を使用する必要がある。 内蔵された制御手順は、障害の診断時に破滅的な失敗を避けるために、自動的に修正措置を取ることができる。 本稿では,オペレーティングシステム上で発生した加速度測定(機械基礎,機械ケーシングなど)を処理し,異常発生時の監視信号に基づいて時間的クラスタリングネットワーク(TCN)機能を提案する。 The new capability uses: one-dimensional convolutional neural networks (1D-CNN) for processing the measurements; unsupervised learning (i.e. no labeled signals from the different operating conditions and no signals at pristine vs. damaged conditions are necessary for training the 1D-CNN); clustering (i.e. grouping signals in different clusters reflective of the operating conditions); and statistical analysis for identifying fault signals that are not members of any of the clusters associated with the pristine operating conditions. その動作を示すケーススタディが論文に含まれている。 最後に、さらなる研究のトピックが特定される。

There is a need to build intelligence in operating machinery and use data analysis on monitored signals in order to quantify the health of the operating system and self-diagnose any initiations of fault. Built-in control procedures can automatically take corrective actions in order to avoid catastrophic failure when a fault is diagnosed. This paper presents a Temporal Clustering Network (TCN) capability for processing acceleration measurement(s) made on the operating system (i.e. machinery foundation, machinery casing, etc.), or any other type of temporal signals, and determine based on the monitored signal when a fault is at its onset. The new capability uses: one-dimensional convolutional neural networks (1D-CNN) for processing the measurements; unsupervised learning (i.e. no labeled signals from the different operating conditions and no signals at pristine vs. damaged conditions are necessary for training the 1D-CNN); clustering (i.e. grouping signals in different clusters reflective of the operating conditions); and statistical analysis for identifying fault signals that are not members of any of the clusters associated with the pristine operating conditions. A case study demonstrating its operation is included in the paper. Finally topics for further research are identified.
翻訳日:2022-11-20 21:41:34 公開日:2020-06-16
# 血管インターベンションにおけるオプティカルフローガイドドワープによるエンド・ツー・エンドリアルタイムカテーテル・セグメンテーション

End-to-End Real-time Catheter Segmentation with Optical Flow-Guided Warping during Endovascular Intervention ( http://arxiv.org/abs/2006.09117v1 )

ライセンス: Link先を確認
Anh Nguyen, Dennis Kundrat, Giulio Dagnino, Wenqiang Chi, Mohamed E. M. K. Abdelaziz, Yao Guo, YingLiang Ma, Trevor M. Y. Kwok, Celia Riga, and Guang-Zhong Yang(参考訳) 正確なリアルタイムカテーテルセグメンテーションは、ロボットによる血管内インターベンションにおいて重要な前提条件である。 既存の学習に基づくカテーテルのセグメンテーションと追跡の手法のほとんどは、地上構造アノテーションの難しさのために、小規模なデータセットや合成データでのみ訓練されている。 また,術中画像の時間的連続性は完全には利用されない。 本稿では,血管内介入のためのエンドツーエンドおよびリアルタイムディープラーニングフレームワークであるFW-Netを提案する。 提案するfw-netには,エンコーダデコーダアーキテクチャを用いたセグメンテーションネットワーク,光フロー情報を抽出するフローネットワーク,フレーム間時間連続性を学習するための新しいフロー誘導型ワーピング関数の3つのモジュールがある。 ネットワークは, 時間的連続性を効果的に学習することにより, 生の接地のみを用いて, カテーテルをリアルタイムにセグメンテーションし追跡することに成功した。 詳細な検証結果から,fw-netはリアルタイム性能を実現しつつ,最先端技術よりも優れています。

Accurate real-time catheter segmentation is an important pre-requisite for robot-assisted endovascular intervention. Most of the existing learning-based methods for catheter segmentation and tracking are only trained on small-scale datasets or synthetic data due to the difficulties of ground-truth annotation. Furthermore, the temporal continuity in intraoperative imaging sequences is not fully utilised. In this paper, we present FW-Net, an end-to-end and real-time deep learning framework for endovascular intervention. The proposed FW-Net has three modules: a segmentation network with encoder-decoder architecture, a flow network to extract optical flow information, and a novel flow-guided warping function to learn the frame-to-frame temporal continuity. We show that by effectively learning temporal continuity, the network can successfully segment and track the catheters in real-time sequences using only raw ground-truth for training. Detailed validation results confirm that our FW-Net outperforms state-of-the-art techniques while achieving real-time performance.
翻訳日:2022-11-20 21:41:06 公開日:2020-06-16
# マルチデバイス環境におけるタイピングパターンからのソフトバイオメトリックス推定について

On the Inference of Soft Biometrics from Typing Patterns Collected in a Multi-device Environment ( http://arxiv.org/abs/2006.09501v1 )

ライセンス: Link先を確認
Vishaal Udandarao and Mohit Agrawal and Rajesh Kumar and Rajiv Ratn Shah(参考訳) 本稿では,マルチデバイス環境における117人の個人から収集した入力パターンから,性別,メジャー/マイナー(コンピュータ科学,非コンピュータ科学),タイピングスタイル,年齢,身長を推定する。 最初の3つの識別子の推論は分類タスクとして、残りは回帰タスクとして考慮された。 分類タスクでは、6つの古典的機械学習(ML)と4つのディープラーニング(DL)分類器のパフォーマンスをベンチマークする。 一方,回帰作業では3つのMLと4つのDLベースの回帰器を評価した。 全体的な実験は、2つのテキスト入力(無料と固定)と4つのデバイス(デスクトップ、タブレット、電話、複合)で構成された。 ベストアレンジメントはそれぞれ96.15%, 93.02%, 87.80%のタイプスタイル, 性別, メジャー/マイナーで, 絶対誤差は1.77歳, 身長2.65インチであった。 この研究で挙げられた様々なアプリケーションシナリオを考慮して、結果は有望です。

In this paper, we study the inference of gender, major/minor (computer science, non-computer science), typing style, age, and height from the typing patterns collected from 117 individuals in a multi-device environment. The inference of the first three identifiers was considered as classification tasks, while the rest as regression tasks. For classification tasks, we benchmark the performance of six classical machine learning (ML) and four deep learning (DL) classifiers. On the other hand, for regression tasks, we evaluated three ML and four DL-based regressors. The overall experiment consisted of two text-entry (free and fixed) and four device (Desktop, Tablet, Phone, and Combined) configurations. The best arrangements achieved accuracies of 96.15%, 93.02%, and 87.80% for typing style, gender, and major/minor, respectively, and mean absolute errors of 1.77 years and 2.65 inches for age and height, respectively. The results are promising considering the variety of application scenarios that we have listed in this work.
翻訳日:2022-11-20 21:40:49 公開日:2020-06-16
# 直接ヒューリスティック動的プログラミングによるオンライン強化学習制御:時間駆動からイベント駆動へ

Online Reinforcement Learning Control by Direct Heuristic Dynamic Programming: from Time-Driven to Event-Driven ( http://arxiv.org/abs/2006.08938v1 )

ライセンス: Link先を確認
Qingtao Zhao, Jennie Si, Jian Sun(参考訳) 本稿では、新しいデータが到着すると予測モデル内のパラメータを継続的に更新する機械学習手法について述べる。 既存の近似動的プログラミング (ADP) と強化学習 (RL) アルゴリズムのうち, 直接ヒューリスティック動的プログラミング (dHDP) は, 複雑な学習制御問題の解法として有効であることが示された。 制御ポリシーと批判を継続的に更新し、システム状態は継続的に進化する。 したがって、ノイズ等の無意味なシステムイベントによる時間駆動dhdpの更新を防止することが望ましい。 そこで我々は,新しいイベント駆動型dHDPを提案する。 Lyapunov関数候補を構築することにより、システム状態の統一的な境界性(UUB)と、批判者および制御ポリシーネットワークの重みを証明できる。 その結果,有限境界内のベルマン最適度に接近する近似制御とコスト・ツー・ゴー関数を示す。 また、イベント駆動型dHDPアルゴリズムが、もともとの時間駆動型dHDPと比較してどのように機能するかを示す。

In this paper time-driven learning refers to the machine learning method that updates parameters in a prediction model continuously as new data arrives. Among existing approximate dynamic programming (ADP) and reinforcement learning (RL) algorithms, the direct heuristic dynamic programming (dHDP) has been shown an effective tool as demonstrated in solving several complex learning control problems. It continuously updates the control policy and the critic as system states continuously evolve. It is therefore desirable to prevent the time-driven dHDP from updating due to insignificant system event such as noise. Toward this goal, we propose a new event-driven dHDP. By constructing a Lyapunov function candidate, we prove the uniformly ultimately boundedness (UUB) of the system states and the weights in the critic and the control policy networks. Consequently we show the approximate control and cost-to-go function approaching Bellman optimality within a finite bound. We also illustrate how the event-driven dHDP algorithm works in comparison to the original time-driven dHDP.
翻訳日:2022-11-20 21:40:30 公開日:2020-06-16
# AcED: 高精度かつエッジ一貫性のある単眼深度推定

AcED: Accurate and Edge-consistent Monocular Depth Estimation ( http://arxiv.org/abs/2006.09243v1 )

ライセンス: Link先を確認
Kunal Swami, Prasanna Vishnu Bondada, Pankaj Kumar Bajpai(参考訳) 単一画像深度推定は難しい問題である。 現在の最先端の手法は、問題を順序回帰の方法として定式化する。 しかし、定式化は完全微分可能ではなく、深さ写像はエンドツーエンドで生成されない。 この手法は,1ピクセルあたりの深度ラベルを決定するために,na\"5"しきい値戦略を用いる。 完全に微分可能な順序回帰を初めて定式化し、エンドツーエンドでネットワークをトレーニングします。 これにより、最適化関数に境界制約と滑らか性制約を組み込むことができ、滑らかでエッジに一貫性のある深度写像が得られる。 深度補正のための画素ごとの信頼度マップ計算も提案した。 提案手法の大規模評価は,最近の最先端手法よりも,定量的かつ定性的に優れていることを示す。 さらに,実生活における課題の画像の社内データセットを用いて,シングルカメラボケソリューションの実用性を実証した。

Single image depth estimation is a challenging problem. The current state-of-the-art method formulates the problem as that of ordinal regression. However, the formulation is not fully differentiable and depth maps are not generated in an end-to-end fashion. The method uses a na\"ive threshold strategy to determine per-pixel depth labels, which results in significant discretization errors. For the first time, we formulate a fully differentiable ordinal regression and train the network in end-to-end fashion. This enables us to include boundary and smoothness constraints in the optimization function, leading to smooth and edge-consistent depth maps. A novel per-pixel confidence map computation for depth refinement is also proposed. Extensive evaluation of the proposed model on challenging benchmarks reveals its superiority over recent state-of-the-art methods, both quantitatively and qualitatively. Additionally, we demonstrate practical utility of the proposed method for single camera bokeh solution using in-house dataset of challenging real-life images.
翻訳日:2022-11-20 21:33:34 公開日:2020-06-16
# iot edgeデバイス上で分散畳み込みニューラルネットワークはどの程度セキュアか?

How Secure is Distributed Convolutional Neural Network on IoT Edge Devices? ( http://arxiv.org/abs/2006.09276v1 )

ライセンス: Link先を確認
Hawzhin Mohammed, Tolulope A. Odetola, Syed Rafay Hasan(参考訳) 畳み込みニューラルネットワーク(CNN)は多くのアプリケーションで成功している。 CNNのリソース制約のあるエッジデバイスへの展開は困難であることが証明された。 異なるエッジデバイスにまたがる分散デプロイメントが採用されている。 本稿では,異なるノード間の分散エッジネットワークに展開するCNNに対するトロイの木馬攻撃を提案する。 分散CNN推論のための5つのステルス攻撃シナリオを提案する。 これらの攻撃はトリガーとペイロード回路に分けられる。 これらの攻撃はディープラーニングモデル(LeNet、AlexNet)でテストされる。 結果は、個々の層の脆弱性の程度と、最終分類にどれほど重要かを示している。

Convolutional Neural Networks (CNN) has found successful adoption in many applications. The deployment of CNN on resource-constrained edge devices have proved challenging. CNN distributed deployment across different edge devices has been adopted. In this paper, we propose Trojan attacks on CNN deployed across a distributed edge network across different nodes. We propose five stealthy attack scenarios for distributed CNN inference. These attacks are divided into trigger and payload circuitry. These attacks are tested on deep learning models (LeNet, AlexNet). The results show how the degree of vulnerability of individual layers and how critical they are to the final classification.
翻訳日:2022-11-20 21:33:20 公開日:2020-06-16
# 多エージェントロボット組立計画のための最適順序タスク割り当てと経路探索

Optimal Sequential Task Assignment and Path Finding for Multi-Agent Robotic Assembly Planning ( http://arxiv.org/abs/2006.08845v1 )

ライセンス: Link先を確認
Kyle Brown, Oriana Peltzer, Martin A. Sehr, Mac Schwager, Mykel J. Kochenderfer(参考訳) タスク間優先制約(例えば、タスク$A$とタスク$B$は、タスク$C$が始まる前に完了しなければならない)を持つアプリケーションにおいて、タスクの逐次割り当てと衝突不要なルーティングの問題を調査する。 このような問題は、ロボット製造アプリケーションのための組み立て計画においてよく起こり、最終製品を形成するにはサブアセンブリを組み立てる必要がある。 問題に対する最適解を求めるための階層的アルゴリズムを提案する。 このアルゴリズムは、ランダムに生成された一連の問題インスタンスで評価され、ロボットは、"工場的"グリッドの世界環境において、ステーション間でオブジェクトを移動しなければならない。 さらに, 本アルゴリズムの出力が非ホロノミック微分駆動ロボットの衝突のない軌道生成に有効であることを示す。

We study the problem of sequential task assignment and collision-free routing for large teams of robots in applications with inter-task precedence constraints (e.g., task $A$ and task $B$ must both be completed before task $C$ may begin). Such problems commonly occur in assembly planning for robotic manufacturing applications, in which sub-assemblies must be completed before they can be combined to form the final product. We propose a hierarchical algorithm for computing makespan-optimal solutions to the problem. The algorithm is evaluated on a set of randomly generated problem instances where robots must transport objects between stations in a "factory "grid world environment. In addition, we demonstrate in high-fidelity simulation that the output of our algorithm can be used to generate collision-free trajectories for non-holonomic differential-drive robots.
翻訳日:2022-11-20 21:32:24 公開日:2020-06-16
# Lio - 人間とロボットのインタラクションとケアのためのパーソナルロボットアシスタント

Lio -- A Personal Robot Assistant for Human-Robot Interaction and Care Applications ( http://arxiv.org/abs/2006.09019v1 )

ライセンス: Link先を確認
Justinas Miseikis, Pietro Caroni, Patricia Duchamp, Alina Gasser, Rastislav Marko, Nelija Miseikiene, Frederik Zwilling, Charles de Castelbajac, Lucas Eicher, Michael Fruh, Hansruedi Fruh(参考訳) Lioはモバイルロボットプラットフォームで、人間とロボットのインタラクションとパーソナルケアアシスタントタスクのために設計された多機能アームを備えている。 このロボットは、すでにいくつかの医療施設に配備されており、自律的に機能し、スタッフや患者を日常的に支援している。 lioは、ソフトな人工材料に完全なカバレッジを持ち、衝突検出、速度制限、力を持つことで、本質的に安全である。 さらに、ロボットは、対応するモーションコントローラを有する。 安全なナビゲーションと環境理解のために、視覚、オーディオ、レーザー、超音波、機械式センサーの組み合わせが使用される。 ros対応のセットアップにより、研究者は生のセンサーデータにアクセスでき、ロボットを直接コントロールできる。 lioの親しみやすい外観のおかげで、ロボットは医療スタッフや患者に受け入れられるようになった。 完全に自律的な操作は、柔軟な決定エンジン、自律ナビゲーション、自動リチャージによって可能となる。 時間スケジュールのタスクトリガと組み合わせることで、Lioは一日中稼働でき、バッテリー寿命は最大8時間、アイドル時には充電できる。 強力なオンボードコンピューティングユニットの組み合わせは、人工知能とディープラーニングベースのソリューションを、クラウドサービスに機密データを送らずにロボット上に展開するために必要な処理能力を提供する。 新型コロナウイルス(COVID-19)パンデミックの間、Lioは急速に調整され、消毒や遠隔での体温測定などの追加機能を実現した。 ISO13482 - パーソナルケアロボットの安全要件に準拠しており、直接テストし、医療施設に配備することができる。

Lio is a mobile robot platform with a multi-functional arm explicitly designed for human-robot interaction and personal care assistant tasks. The robot has already been deployed in several health care facilities, where it is functioning autonomously, assisting staff and patients on an everyday basis. Lio is intrinsically safe by having full coverage in soft artificial-leather material as well as having collision detection, limited speed and forces. Furthermore, the robot has a compliant motion controller. A combination of visual, audio, laser, ultrasound and mechanical sensors are used for safe navigation and environment understanding. The ROS-enabled setup allows researchers to access raw sensor data as well as have direct control of the robot. The friendly appearance of Lio has resulted in the robot being well accepted by health care staff and patients. Fully autonomous operation is made possible by a flexible decision engine, autonomous navigation and automatic recharging. Combined with time-scheduled task triggers, this allows Lio to operate throughout the day, with a battery life of up to 8 hours and recharging during idle times. A combination of powerful on-board computing units provides enough processing power to deploy artificial intelligence and deep learning-based solutions on-board the robot without the need to send any sensitive data to cloud services, guaranteeing compliance with privacy requirements. During the COVID-19 pandemic, Lio was rapidly adjusted to perform additional functionality like disinfection and remote elevated body temperature detection. It complies with ISO13482 - Safety requirements for personal care robots, meaning it can be directly tested and deployed in care facilities.
翻訳日:2022-11-20 21:32:09 公開日:2020-06-16
# 長期空間時間予測のための動的注意の保存

Preserving Dynamic Attention for Long-Term Spatial-Temporal Prediction ( http://arxiv.org/abs/2006.08849v1 )

ライセンス: Link先を確認
Haoxing Lin, Rufan Bai, Weijia Jia, Xinyu Yang, Yongjian You(参考訳) 都市別データマイニングシステムでは,長期的有効予測がますます求められている。 事故防止や資源の事前配置といった多くの実用化には、準備期間の延長が必要である。 しかし、長期予測は非常にエラーに敏感であり、複雑な空間的時間的相関を伴う都市的な現象を予測する場合には、より重要となる。 特に、貴重な相関の量が限られているため、非常に無関係な特徴は、予測エラーの増加を引き起こすノイズをもたらす。 さらに、各時間ステップの後に、エラーは相関を通り抜け、将来の予測ごとに空間的-時間的位置に到達することができ、重大なエラー伝播を引き起こす。 これらの問題に対処するため、入力と出力の相関を明示的に測定する新しいマルチスペース注意機構を備えた動的スイッチ注意ネットワーク(DSAN)を提案する。 無関係なノイズをフィルタリングし、誤り伝播を緩和するため、dsanはノイズ入力に自己アテンションを適用して価値情報を動的に抽出し、各出力をスイッチアテンション機構を実装して清浄された入力に直接ブリッジする。 2つの時空間予測タスクに関する広範な実験を通じて、DSANの短期的および長期的予測における優位性を示す。

Effective long-term predictions have been increasingly demanded in urban-wise data mining systems. Many practical applications, such as accident prevention and resource pre-allocation, require an extended period for preparation. However, challenges come as long-term prediction is highly error-sensitive, which becomes more critical when predicting urban-wise phenomena with complicated and dynamic spatial-temporal correlation. Specifically, since the amount of valuable correlation is limited, enormous irrelevant features introduce noises that trigger increased prediction errors. Besides, after each time step, the errors can traverse through the correlations and reach the spatial-temporal positions in every future prediction, leading to significant error propagation. To address these issues, we propose a Dynamic Switch-Attention Network (DSAN) with a novel Multi-Space Attention (MSA) mechanism that measures the correlations between inputs and outputs explicitly. To filter out irrelevant noises and alleviate the error propagation, DSAN dynamically extracts valuable information by applying self-attention over the noisy input and bridges each output directly to the purified inputs via implementing a switch-attention mechanism. Through extensive experiments on two spatial-temporal prediction tasks, we demonstrate the superior advantage of DSAN in both short-term and long-term predictions.
翻訳日:2022-11-20 21:31:43 公開日:2020-06-16
# 自己教師付き学習による複雑なナビゲーション行動を可能にするロボット知覚

Robot Perception enables Complex Navigation Behavior via Self-Supervised Learning ( http://arxiv.org/abs/2006.08967v1 )

ライセンス: Link先を確認
Marvin Chanc\'an and Michael Milford(参考訳) ロボットシステムにおけるビジュモータ制御の学習は,長期的自律性を目指す上での基本的な問題である。 しかし、近年の教師あり学習に基づく視覚・運動認識システムは、限られた能力で別々に構築されることが多いが、受動視覚計測(VO)や移動ロボットの視覚的ローカライゼーションのような少数の行動スキルに制限されている。 本稿では,これらのロボット認識システムを,強化学習(RL)によるアクティブな目標駆動ナビゲーションタスクに統一するアプローチを提案する。 本手法は,1つの画像列から直接自己スーパービジョンを用いて得られるコンパクトな動きと視覚知覚データを時間的に組み込んで,複雑な目標指向ナビゲーションスキルを実現する。 我々は,新しいインタラクティブなCityLearnフレームワークを用いて,実世界の運転データセットであるKITTIとOxford RobotCarのアプローチを実証した。 その結果、視覚のみのナビゲーションシステムでは30%に対して、昼から夜のサイクルのような極端な環境変化を80%の成功率で正確に一般化できることがわかった。

Learning visuomotor control policies in robotic systems is a fundamental problem when aiming for long-term behavioral autonomy. Recent supervised-learning-based vision and motion perception systems, however, are often separately built with limited capabilities, while being restricted to few behavioral skills such as passive visual odometry (VO) or mobile robot visual localization. Here we propose an approach to unify those successful robot perception systems for active target-driven navigation tasks via reinforcement learning (RL). Our method temporally incorporates compact motion and visual perception data - directly obtained using self-supervision from a single image sequence - to enable complex goal-oriented navigation skills. We demonstrate our approach on two real-world driving dataset, KITTI and Oxford RobotCar, using the new interactive CityLearn framework. The results show that our method can accurately generalize to extreme environmental changes such as day to night cycles with up to an 80% success rate, compared to 30% for a vision-only navigation systems.
翻訳日:2022-11-20 21:31:13 公開日:2020-06-16
# seoの視点から見たクエリインテント検出

Query Intent Detection from the SEO Perspective ( http://arxiv.org/abs/2006.09119v1 )

ライセンス: Link先を確認
Samin Mohammadi, Mathieu Chapon, Arthur Fremond(参考訳) Googleユーザは、情報取得、製品購入、サービスの比較やシミュレーション、製品検索など、クエリから異なる意図を持っている。 ユーザの正しい意図を理解することは、提供に役立つ 一 検索エンジン最適化(SEO)の観点からウェブページ上のより良いコンテンツ 二 検索エンジンの観点からよりユーザー満足度の高い結果 本研究では,Google検索結果と機械学習手法を利用してユーザクエリの意図を特定することを目的とする。 提案手法は,クエリの意図を検出するためにいくつかの機能を利用するクラスタリングモデルである。 クラスタ化されたクエリから抽出されたキーワードのリストは、与えられた新しいクエリの意図を特定するために使用される。 クラスタリング結果とフィルタキーワードで予測された意図を比較すると,抽出したキーワードの効率性を示す。

Google users have different intents from their queries such as acquiring information, buying products, comparing or simulating services, looking for products, and so on. Understanding the right intention of users helps to provide i) better content on web pages from the Search Engine Optimization (SEO) perspective and ii) more user-satisfying results from the search engine perspective. In this study, we aim to identify the user query's intent by taking advantage of Google results and machine learning methods. Our proposed approach is a clustering model that exploits some features to detect query's intent. A list of keywords extracted from the clustered queries is used to identify the intent of a new given query. Comparing the clustering results with the intents predicted by filtered keywords show the efficiency of the extracted keywords for detecting intents.
翻訳日:2022-11-20 21:30:55 公開日:2020-06-16
# 機械学習システムの品質管理

Quality Management of Machine Learning Systems ( http://arxiv.org/abs/2006.09529v1 )

ライセンス: Link先を確認
P. Santhanam(参考訳) 過去10年間で、機械学習(ML)技術の大きな進歩により、人工知能(AI)は私たちの日常生活の一部になっています。 生のai技術やインターネット上の消費者向けアプリケーションにおける爆発的な成長にもかかわらず、ビジネスアプリケーションへの採用は著しく遅れている。 ビジネス/ミッションクリティカルなシステムでは、AIアプリケーションの信頼性と保守性に関する深刻な懸念が残っている。 出力の統計的性質のため、ソフトウェア「欠陥」は明確に定義されていない。 そのため、プログラムデバッグ、静的コード分析、機能テストなど、多くの従来の品質管理手法を再評価する必要がある。 AIモデルの正確性以外にも、公正性、堅牢性、説明可能性、透明性など、多くの新しい品質特性が、AIシステムを提供する上で重要である。 本研究の目的は,MLアプリケーションのための総合的な品質管理フレームワークの展望と,より信頼性の高いAIを実現するためのソフトウェア工学研究の新たな分野を特定することである。

In the past decade, Artificial Intelligence (AI) has become a part of our daily lives due to major advances in Machine Learning (ML) techniques. In spite of an explosive growth in the raw AI technology and in consumer facing applications on the internet, its adoption in business applications has conspicuously lagged behind. For business/mission-critical systems, serious concerns about reliability and maintainability of AI applications remain. Due to the statistical nature of the output, software 'defects' are not well defined. Consequently, many traditional quality management techniques such as program debugging, static code analysis, functional testing, etc. have to be reevaluated. Beyond the correctness of an AI model, many other new quality attributes, such as fairness, robustness, explainability, transparency, etc. become important in delivering an AI system. The purpose of this paper is to present a view of a holistic quality management framework for ML applications based on the current advances and identify new areas of software engineering research to achieve a more trustworthy AI.
翻訳日:2022-11-20 21:24:40 公開日:2020-06-16
# シェープリー値を用いた人口特徴量の効率的な非パラメトリック統計的推定

Efficient nonparametric statistical inference on population feature importance using Shapley values ( http://arxiv.org/abs/2006.09481v1 )

ライセンス: Link先を確認
Brian D. Williamson and Jean Feng(参考訳) 予測タスクにおける変数の真の集団レベルの重要性は、基礎となるデータ生成メカニズムに関する有用な知識を提供し、その後の実験で収集する測定値を決定するのに役立つ。 この重要性に関する統計的推測は、関心の人口を理解する上で重要な要素である。 本稿では,SPVIM(Shapley Population Variable Importance Measure)を用いて,有効統計量の推定と推定を行う。 真の SPVIM の計算複雑性は変数の数に比例して指数関数的にスケールするが, ランダムサンプリングのみを$\Theta(n)$ とする特徴部分集合を$n$ とする推定器を提案する。 推定器が漸近的に最適な速度で収束することを示す。 さらに、推定器の漸近分布を導出することにより、有効な信頼区間と仮説テストを構築する。 本手法はシミュレーションにおける有限サンプル性能が良好であり,院内死亡予測タスクでは,異なる機械学習アルゴリズムを適用した場合と同様の変数重要度推定を行う。

The true population-level importance of a variable in a prediction task provides useful knowledge about the underlying data-generating mechanism and can help in deciding which measurements to collect in subsequent experiments. Valid statistical inference on this importance is a key component in understanding the population of interest. We present a computationally efficient procedure for estimating and obtaining valid statistical inference on the Shapley Population Variable Importance Measure (SPVIM). Although the computational complexity of the true SPVIM scales exponentially with the number of variables, we propose an estimator based on randomly sampling only $\Theta(n)$ feature subsets given $n$ observations. We prove that our estimator converges at an asymptotically optimal rate. Moreover, by deriving the asymptotic distribution of our estimator, we construct valid confidence intervals and hypothesis tests. Our procedure has good finite-sample performance in simulations, and for an in-hospital mortality prediction task produces similar variable importance estimates when different machine learning algorithms are applied.
翻訳日:2022-11-20 21:24:05 公開日:2020-06-16
# 自動音声認識のためのエンドツーエンドコード切り替え言語モデル

End-to-End Code Switching Language Models for Automatic Speech Recognition ( http://arxiv.org/abs/2006.08870v1 )

ライセンス: Link先を確認
Ahan M. R., Shreyas Sunil Kulkarni(参考訳) 本稿では,特に,世界各国のバイリンガルコミュニティでよく見られる,コード交換テキストについて述べる。 自動音声認識(asr)モジュールからの符号切り換えテキストの抽出における不一致から、符号切り換えテキストから単言語テキストを抽出することにより、bertや他の機械翻訳モデルのような深い双方向言語モデル(lm)を用いて単言語テキストを抽出する手法を提案し、また、asrモデルから符号切り換えテキストを抽出する異なる方法を検討する。 また,このモデルのロバスト性について,パープレキシティやwerなどの他の指標と,外部情報のない標準バイリンガルテキスト出力を比較して説明する。

In this paper, we particularly work on the code-switched text, one of the most common occurrences in the bilingual communities across the world. Due to the discrepancies in the extraction of code-switched text from an Automated Speech Recognition(ASR) module, and thereby extracting the monolingual text from the code-switched text, we propose an approach for extracting monolingual text using Deep Bi-directional Language Models(LM) such as BERT and other Machine Translation models, and also explore different ways of extracting code-switched text from the ASR model. We also explain the robustness of the model by comparing the results of Perplexity and other different metrics like WER, to the standard bi-lingual text output without any external information.
翻訳日:2022-11-20 21:23:45 公開日:2020-06-16
# 社会科学における学術論文からの因果知識抽出

Causal Knowledge Extraction from Scholarly Papers in Social Sciences ( http://arxiv.org/abs/2006.08904v1 )

ライセンス: Link先を確認
Victor Zitian Chen, Felipe Montano-Campos and Wlodek Zadrozny(参考訳) 今日の学術論文の規模と範囲は、知識をタイムリーに消化し、合成しようとする圧倒的な人間研究者である。 本稿では,自然言語処理(nlp)モデルを開発し,社会科学における学術論文からの関係抽出の速度を加速し,これらの論文から仮説を特定し,原因・影響要素を抽出する。 具体的には モデルを開発し 1)ビジネスにおける学術文書の文章の分類と管理を仮説(仮説分類)として分類する。 2) これらの仮説を因果関係に分類し(因果分類)、因果関係を因果関係とする場合 3)これらの仮説(エンティティ抽出)から原因と効果の実体を抽出する。 異なるモデリング技術を用いて、3つのタスクすべてで高いパフォーマンスを達成しました。 我々のアプローチは、幅広い社会科学の学術文献だけでなく、他の種類のテキスト資料にも一般化できるかもしれない。

The scale and scope of scholarly articles today are overwhelming human researchers who seek to timely digest and synthesize knowledge. In this paper, we seek to develop natural language processing (NLP) models to accelerate the speed of extraction of relationships from scholarly papers in social sciences, identify hypotheses from these papers, and extract the cause-and-effect entities. Specifically, we develop models to 1) classify sentences in scholarly documents in business and management as hypotheses (hypothesis classification), 2) classify these hypotheses as causal relationships or not (causality classification), and, if they are causal, 3) extract the cause and effect entities from these hypotheses (entity extraction). We have achieved high performance for all the three tasks using different modeling techniques. Our approach may be generalizable to scholarly documents in a wide range of social sciences, as well as other types of textual materials.
翻訳日:2022-11-20 21:23:30 公開日:2020-06-16
# MBES画像のノイズフォワードにおける深層学習に基づく魚のセグメンテーション

Deep Learning based Segmentation of Fish in Noisy Forward Looking MBES Images ( http://arxiv.org/abs/2006.09034v1 )

ライセンス: Link先を確認
Jesper Haahr Christensen, Lars Valdemar Mogensen, Ole Ravn(参考訳) 本研究では,前向きマルチビームエコー法(MBES)によって生成された雑音の多い低解像度画像の小さなデータセットにおいて,魚のセグメンテーションに対するディープラーニング(DL)アプローチを検討する。 本稿では,意味セグメンテーションのためのdlおよび畳み込みニューラルネットワーク(cnns)の最近の進歩と,イメージングソナーによって投影される全ての範囲方位位置に対する魚・非魚の確率予測へのエンドツーエンドアプローチを実証する。 デンマークの音響とフェロー諸島からの自己収集データセットを用いて,モデルの訓練とテストを行い,低容量データセットでも満足できる性能と一般化を得る手法を提案する。 我々は,本モデルが望まれる性能を証明し,意味的文脈の重要性を活かし,現実の目標からノイズや非ターゲットを分離することを学習したことを示す。 さらに,低コストな組込みプラットフォームにモデルをデプロイして,コンピューティングとパワーがサイズ/コストで制限されるエッジ環境 - テストとプロトタイピング - に適合させる手法を提案する。

In this work, we investigate a Deep Learning (DL) approach to fish segmentation in a small dataset of noisy low-resolution images generated by a forward-looking multibeam echosounder (MBES). We build on recent advances in DL and Convolutional Neural Networks (CNNs) for semantic segmentation and demonstrate an end-to-end approach for a fish/non-fish probability prediction for all range-azimuth positions projected by an imaging sonar. We use self-collected datasets from the Danish Sound and the Faroe Islands to train and test our model and present techniques to obtain satisfying performance and generalization even with a low-volume dataset. We show that our model proves the desired performance and has learned to harness the importance of semantic context and take this into account to separate noise and non-targets from real targets. Furthermore, we present techniques to deploy models on low-cost embedded platforms to obtain higher performance fit for edge environments - where compute and power are restricted by size/cost - for testing and prototyping.
翻訳日:2022-11-20 21:22:59 公開日:2020-06-16
# 単一エッジオクルダーによる2次元非視線シーン推定

Two-Dimensional Non-Line-of-Sight Scene Estimation from a Single Edge Occluder ( http://arxiv.org/abs/2006.09241v1 )

ライセンス: Link先を確認
Sheila W. Seidel, John Murray-Bruce, Yanting Ma, Christopher Yu, William T. Freeman, and Vivek K Goyal(参考訳) パッシブ非視線撮像法は、アクティブな装置よりも高速でステルス性が高く、複雑で高価な装置を必要とすることが多い。 しかし、これらの手法の多くはオクルーダーや隠れたシーンの動作を利用するか、複雑なオクルーダーの知識やキャリブレーションを必要とする。 壁の端は、既知のユビキタスなオクルディング構造であり、その背後に隠された領域を撮像するための開口部として使用できる。 角の周りからの光が床に投げられ、鋭い影ではなく扇状のペナンブラを形成する。 ペナブラの変種は、隠れたシーンに関する顕著な量の情報を含んでいる。 従来の作業では、エッジの垂直な性質を活用して、ペナブラの1枚の写真から、動きと静止した風景を1D(角の周囲の角度)で再現した。 本稿では,第2の再構成次元(エッジから測る範囲)を導入する。 我々は,放射状落下を考慮した新しい前方モデルを求め,ペナンブラの1枚の写真から2次元再構成を行う2つの逆アルゴリズムを提案する。 両方のアルゴリズムの性能は、複数の異なるシーン構成に対応する実験データで示される。 Cramer-Rao境界解析は、2Dコーナーカメラの実現可能性(および実用性)をさらに示す。

Passive non-line-of-sight imaging methods are often faster and stealthier than their active counterparts, requiring less complex and costly equipment. However, many of these methods exploit motion of an occluder or the hidden scene, or require knowledge or calibration of complicated occluders. The edge of a wall is a known and ubiquitous occluding structure that may be used as an aperture to image the region hidden behind it. Light from around the corner is cast onto the floor forming a fan-like penumbra rather than a sharp shadow. Subtle variations in the penumbra contain a remarkable amount of information about the hidden scene. Previous work has leveraged the vertical nature of the edge to demonstrate 1D (in angle measured around the corner) reconstructions of moving and stationary hidden scenery from as little as a single photograph of the penumbra. In this work, we introduce a second reconstruction dimension: range measured from the edge. We derive a new forward model, accounting for radial falloff, and propose two inversion algorithms to form 2D reconstructions from a single photograph of the penumbra. Performances of both algorithms are demonstrated on experimental data corresponding to several different hidden scene configurations. A Cramer-Rao bound analysis further demonstrates the feasibility (and utility) of the 2D corner camera.
翻訳日:2022-11-20 21:22:16 公開日:2020-06-16
# 効率良く穴を解析・処理するための新しいrun-based connected component labeling

A New Run-based Connected Component Labeling for Efficiently Analyzing and Processing Holes ( http://arxiv.org/abs/2006.09299v1 )

ライセンス: Link先を確認
Florian Lemaitre and Lionel Lacassagne(参考訳) 本稿では,隣接木を演算するフォアグラウンドおよびバックグラウンドラベリングのための新しい連結コンポーネントラベリングと解析アルゴリズムを紹介する。 特徴(有界箱、最初の統計モーメント、オイラー数)の計算はオンザフライで行われる。 トランジッションクロージャは、画像を再スキャンすることなく、それらの特徴を周囲の連結コンポーネントとマージしながら、効率的なホール処理を可能にする。 既存のアルゴリズムと比較すると、この新しいアルゴリズムは、白黒コンポーネントを処理するアルゴリズムよりも高速にこれらの計算を行うことができる。

This article introduces a new connected component labeling and analysis algorithm for foreground and background labeling that computes the adjacency tree. The computation of features (bounding boxes, first statistical moments, Euler number) is done on-the-fly. The transitive closure enables an efficient hole processing that can be filled while their features are merged with the surrounding connected component without the need to rescan the image. A comparison with existing algorithms shows that this new algorithm can do all these computations faster than algorithms processing black and white components.
翻訳日:2022-11-20 21:15:47 公開日:2020-06-16
# LiDARsim:実世界の活用によるリアルなLiDARシミュレーション

LiDARsim: Realistic LiDAR Simulation by Leveraging the Real World ( http://arxiv.org/abs/2006.09348v1 )

ライセンス: Link先を確認
Sivabalan Manivasagam, Shenlong Wang, Kelvin Wong, Wenyuan Zeng, Mikita Sazanovich, Shuhan Tan, Bin Yang, Wei-Chiu Ma, Raquel Urtasun(参考訳) 我々は、ほとんどの自動運転車に好まれるセンサーであるLiDAR点雲を現実的にシミュレーションする問題に取り組む。 我々は,実データを活用することで,CAD/プロデューラルモデルから構築した仮想世界よりも複雑な世界をより現実的にシミュレートできると主張している。 この目標に向けて、私たちはまず3d静的マップと3d動的オブジェクトの大規模なカタログを構築しました。 そして、私たちのカタログからシーンを選択してシナリオを生成し、自動運転車(SDV)と、そのカタログから動的なオブジェクトのセットをシーン内のもっともらしい場所に配置する。 現実的なシミュレーションを作成するために,物理シミュレーションと学習シミュレーションの両方のパワーをキャプチャする新しいシミュレータを開発した。 まず3Dシーン上でレイキャストを行い、次にディープニューラルネットワークを用いて物理シミュレーションから偏差を生成し、現実的なLiDAR点雲を生成する。 本稿では,LiDARsimが長距離イベントにおける認識アルゴリズムのテストに有用であること,および安全クリティカルシナリオにおけるエンドツーエンド閉ループ評価について紹介する。

We tackle the problem of producing realistic simulations of LiDAR point clouds, the sensor of preference for most self-driving vehicles. We argue that, by leveraging real data, we can simulate the complex world more realistically compared to employing virtual worlds built from CAD/procedural models. Towards this goal, we first build a large catalog of 3D static maps and 3D dynamic objects by driving around several cities with our self-driving fleet. We can then generate scenarios by selecting a scene from our catalog and "virtually" placing the self-driving vehicle (SDV) and a set of dynamic objects from the catalog in plausible locations in the scene. To produce realistic simulations, we develop a novel simulator that captures both the power of physics-based and learning-based simulation. We first utilize ray casting over the 3D scene and then use a deep neural network to produce deviations from the physics-based simulation, producing realistic LiDAR point clouds. We showcase LiDARsim's usefulness for perception algorithms-testing on long-tail events and end-to-end closed-loop evaluation on safety-critical scenarios.
翻訳日:2022-11-20 21:15:39 公開日:2020-06-16
# 視覚的キラリティー

Visual Chirality ( http://arxiv.org/abs/2006.09512v1 )

ライセンス: Link先を確認
Zhiqiu Lin, Jin Sun, Abe Davis, Noah Snavely(参考訳) 画像がミラー化されているかどうか、どうすればわかるのか? ミラー反射の形状はよく理解されているが、コンピュータビジョンでデータ拡張が広く使われているにもかかわらず、大規模な画像の分布にどのように影響するかについてはあまり語られていない。 本稿では,視覚データの統計が反射によってどのように変化するかを検討する。 これらの変化を「視覚的キラリティ」と呼び、幾何学的キラリティの概念(鏡像とは異なる物体の概念)の後である。 視覚キラリティーの分析から、カメラの画像処理から生じる低レベルのキラル信号や、人と顔の画像における視覚キラリティーの発見など、驚くべき結果が得られた。 我々の研究は、データ強化、自己教師付き学習、画像鑑定に影響を及ぼす。

How can we tell whether an image has been mirrored? While we understand the geometry of mirror reflections very well, less has been said about how it affects distributions of imagery at scale, despite widespread use for data augmentation in computer vision. In this paper, we investigate how the statistics of visual data are changed by reflection. We refer to these changes as "visual chirality", after the concept of geometric chirality - the notion of objects that are distinct from their mirror image. Our analysis of visual chirality reveals surprising results, including low-level chiral signals pervading imagery stemming from image processing in cameras, to the ability to discover visual chirality in images of people and faces. Our work has implications for data augmentation, self-supervised learning, and image forensics.
翻訳日:2022-11-20 21:15:21 公開日:2020-06-16
# 教師なし領域適応におけるマイニングラベル分布ドリフト

Mining Label Distribution Drift in Unsupervised Domain Adaptation ( http://arxiv.org/abs/2006.09565v1 )

ライセンス: Link先を確認
Peizhao Li, Zhengming Ding, Hongfu Liu(参考訳) 教師なしドメイン適応ターゲットは、ラベル付きソースドメインから関連するラベルなしターゲットドメインにタスク知識を転送することであり、学術分野や産業分野から幅広い関心を集めている。 ドメインの相違を最小限に抑えるために、この方向で多大な努力がなされているが、残念なことに、既存のメソッドのほとんどは、異なるドメインからの特徴表現を調整することによって、図の一部を管理するだけである。 特徴空間における相違以外にも、ラベル分布のドリフトとして認識されている未知のソースラベルと未知のターゲットラベルの分布のギャップは、ドメインのばらつきを高める重要な要因であり、十分に注意が払われていない。 そこで本稿では,ラベル分布のドリフトが現在のドメイン適応法に悪影響を及ぼすことを実験的に明らかにする。 次に,データ分布シフトとラベル分布ドリフトを同時処理するラベル分布マッチングドメイン逆ネットワーク(lmdan)を提案する。 lmdanでは、ラベル分布ドリフト問題は、ラベル分布の不一致によってもたらされる悪影響を避けるために正の適応に寄与するサンプルを選択するソースサンプル重み付け戦略によって解決される。 最後に、一般領域適応実験とは異なる領域適応データセットを改良し、ソースとターゲット領域間のかなりのラベル分布ドリフトを生成する。 解析結果と実験モデル解析により,LMDANは,そのようなシナリオ下での他の最先端のドメイン適応手法に比べて優れた性能を示すことが示された。

Unsupervised domain adaptation targets to transfer task knowledge from labeled source domain to related yet unlabeled target domain, and is catching extensive interests from academic and industrial areas. Although tremendous efforts along this direction have been made to minimize the domain divergence, unfortunately, most of existing methods only manage part of the picture by aligning feature representations from different domains. Beyond the discrepancy in feature space, the gap between known source label and unknown target label distribution, recognized as label distribution drift, is another crucial factor raising domain divergence, and has not been paid enough attention and well explored. From this point, in this paper, we first experimentally reveal how label distribution drift brings negative effects on current domain adaptation methods. Next, we propose Label distribution Matching Domain Adversarial Network (LMDAN) to handle data distribution shift and label distribution drift jointly. In LMDAN, label distribution drift problem is addressed by the proposed source samples weighting strategy, which select samples to contribute to positive adaptation and avoid negative effects brought by the mismatched in label distribution. Finally, different from general domain adaptation experiments, we modify domain adaptation datasets to create the considerable label distribution drift between source and target domain. Numerical results and empirical model analysis show that LMDAN delivers superior performance compared to other state-of-the-art domain adaptation methods under such scenarios.
翻訳日:2022-11-20 21:14:44 公開日:2020-06-16
# 地上真理感情分析のための感情操作

Manipulating emotions for ground truth emotion analysis ( http://arxiv.org/abs/2006.08952v1 )

ライセンス: Link先を確認
Bennett Kleinberg(参考訳) テキストデータは、人間の認識を大規模に研究できるレンズとして利用されている。 感情分析のような手法は現在、計算社会科学者の標準的なツールキットにあるが、典型的には妥当性の不明な第三者アノテーションに依存している。 そこで本研究では,テキストを用いた感情分析手法として,実験行動研究からオンライン感情誘導技術を導入する。 テキストデータは、幸福、中立、または悲しい条件にランダムに割り当てられた参加者から集められた。 結果は気分誘導の手順を支持する。 次に,レキシコンアプローチが誘発された感情をいかによく取り出すかを検討した。 いずれのアプローチも、真の感情状態の統計的な違いをもたらした。 概して、感情のばらつきの3分の1しかテキストベースの測定で捉えられなかった。 事前訓練された分類器は、真の感情を検出するのにうまくいかなかった。 論文は、今後の研究への限界と提案で締めくくる。

Text data are being used as a lens through which human cognition can be studied at a large scale. Methods like emotion analysis are now in the standard toolkit of computational social scientists but typically rely on third-person annotation with unknown validity. As an alternative, this paper introduces online emotion induction techniques from experimental behavioural research as a method for text-based emotion analysis. Text data were collected from participants who were randomly allocated to a happy, neutral or sad condition. The findings support the mood induction procedure. We then examined how well lexicon approaches can retrieve the induced emotion. All approaches resulted in statistical differences between the true emotion conditions. Overall, only up to one-third of the variance in emotion was captured by text-based measurements. Pretrained classifiers performed poorly on detecting true emotions. The paper concludes with limitations and suggestions for future research.
翻訳日:2022-11-20 21:14:19 公開日:2020-06-16
# 深層強化学習によるNoSQLデータベースのインデックス選択

Index Selection for NoSQL Database with Deep Reinforcement Learning ( http://arxiv.org/abs/2006.08842v1 )

ライセンス: Link先を確認
Shun Yao, Hongzhi Wang and Yu Yan(参考訳) 本稿ではNoSQLデータベースインデックス選択の新しいアプローチを提案する。 異なるワークロードのために、データベースのパフォーマンスを最適化するために、異なるインデックスとそのパラメータを選択します。 このアプローチは、所定の固定ワークロードに対して最適なインデックスを選択し、変化するワークロードに対応するために、深い強化学習モデルを構築する。 実験の結果,深層強化学習インデックス選択手法 (drlisa) は, 従来の単一のインデックス構造により, 異なる程度まで性能が向上した。

We propose a new approach of NoSQL database index selection. For different workloads, we select different indexes and their different parameters to optimize the database performance. The approach builds a deep reinforcement learning model to select an optimal index for a given fixed workload and adapts to a changing workload. Experimental results show that, Deep Reinforcement Learning Index Selection Approach (DRLISA) has improved performance to varying degrees according to traditional single index structures.
翻訳日:2022-11-20 21:14:08 公開日:2020-06-16
# ファジィ議論におけるSCC再帰性原理

The SCC-recursiveness Principle in Fuzzy Argumentation Frameworks ( http://arxiv.org/abs/2006.08880v1 )

ライセンス: Link先を確認
Zongshun Wang and Jiachao Wu(参考訳) ダングの抽象的議論理論は形式的議論の分野において指導的役割を果たす。 議論の意味論の性質は以前の文献で深く研究されている。 SCC再帰性原理(SCC-recursiveness principle)は、強連結成分のグラフ理論の概念に依存する拡張の性質である。 議論セマンティクスを計算するための効率的かつインクリメンタルなアルゴリズムである、議論セマンティクスのための一般的な再帰的スキーマを提供する。 しかし、不確実な議論と不確実な攻撃関係を持つ議論フレームワークでは、SCC再帰理論が欠如している。 本稿では、ファジィ議論フレームワーク(FAF)におけるSCC再帰理論を探求し、議論と攻撃にファジィ次数を加える。 本稿では, SCC再帰性原理をFAFに拡張するために, まず, FAFに適合するように再帰原理と方向性原理を変更する。 次に、FAFのSCC再帰性原理は修正された原則によって定式化される。 さらに、いくつかの例では、SCC再帰性原理は、FAFにおける議論意味論の計算を単純化するための効率的で漸進的なアルゴリズムを提供することを示している。

Dung's abstract argumentation theory plays a guiding role in the field of formal argumentation. The properties of argumentation semantics have been deeply explored in the previous literature. The SCC-recursiveness principle is a property of the extensions which relies on the graph-theoretical notion of strongly connected components. It provides a general recursive schema for argumentation semantics, which is an efficient and incremental algorithm for computing the argumentation semantics. However, in argumentation frameworks with uncertain arguments and uncertain attack relation, the SCC-recursive theory is absence. This paper is an exploration of the SCC-recursive theory in fuzzy argumentation frameworks (FAFs), which add numbers as fuzzy degrees to the arguments and attacks. In this paper, in order to extend the SCC-recursiveness principle to FAFs, we first modify the reinstatement principle and directionality principle to fit the FAFs. Then the SCC-recursiveness principle in FAFs is formalized by the modified principles. Additionally, some illustrating examples show that the SCC-recursiveness principle also provides an efficient and incremental algorithm for simplify the computation of argumentation semantics in FAFs.
翻訳日:2022-11-20 21:14:00 公開日:2020-06-16
# 人工ホルモンシステムにおけるネゲーター関係に関わる問題の難しさについて

On the Hardness of Problems Involving Negator Relationships in an Artificial Hormone System ( http://arxiv.org/abs/2006.08958v1 )

ライセンス: Link先を確認
Eric Hutter and Mathias Pacher and Uwe Brinkschulte(参考訳) 人工ホルモンシステム(artificial hormone system:ahs)は、分散システムでタスクを割り当てる自己組織型ミドルウェアである。 条件付きタスク構造を可能にするため,いわゆるネガターホルモンによって拡張した。 しかし、この拡張により、システム内の一見単純な決定問題の計算複雑性が増大する: [1] と [2] では、問題 negator-path と negator-sat を定義し、np完全性が証明された。 本稿では,ネゲータパスとネゲータsatの例を示し,新しい問題ネゲータ安定性を紹介し,ネゲータが関与するすべての問題はアルゴリズム的に解くのが難しい理由を説明する。

The Artificial Hormone System (AHS) is a self-organizing middleware to allocate tasks in a distributed system. We extended it by so-called negator hormones to enable conditional task structures. However, this extension increases the computational complexity of seemingly simple decision problems in the system: In [1] and [2], we defined the problems Negator-Path and Negator-Sat and proved their NP-completeness. In this supplementary report to these papers, we show examples of Negator-Path and Negator-Sat, introduce the novel problem Negator-Stability and explain why all of these problems involving negators are hard to solve algorithmically.
翻訳日:2022-11-20 21:13:42 公開日:2020-06-16
# 腎臓交換における異種選好との整合

Aligning with Heterogeneous Preferences for Kidney Exchange ( http://arxiv.org/abs/2006.09519v1 )

ライセンス: Link先を確認
Rachel Freedman(参考訳) AIアルゴリズムはますます人間のグループ全体に影響を及ぼす決定を下す。 人間は様々な好みを保ち、矛盾する傾向にあるため、そのようなグループのために決定を下すAIアルゴリズムは、不整合性や矛盾する個人の好みを代表集合に組み込むという、嗜好集約の問題に遭遇する。 本稿では,この問題を実世界の公衆衛生,腎臓交換という文脈で解決する。 生体提供者から腎臓交換市場において移植が必要な患者に腎臓を割り当てるアルゴリズムは、提供するコミュニティの価値に合致する方法で患者を優先するが、割り当ての好みは個人によって大きく異なる。 本稿では,このような不均一なモラル嗜好に基づいて,患者を優先順位付けするための方法論を提案し,実装し,評価する。 患者重みの静的なセットを1つ選択する代わりに、ジレンマの割り当てに対するヒトの反応に基づいて選好関数の分布を学習し、この分布からサンプルを採取し、マッチング中の患者重みを動的に決定する。 本手法は, サンプル選好順序における一致患者の平均ランクを上昇させ, グループ選好の満足度の向上を示唆する。 この作業は、異種グループを代表して、将来の自動化された道徳的意思決定のロードマップを提案することを願っています。

AI algorithms increasingly make decisions that impact entire groups of humans. Since humans tend to hold varying and even conflicting preferences, AI algorithms responsible for making decisions on behalf of such groups encounter the problem of preference aggregation: combining inconsistent and sometimes contradictory individual preferences into a representative aggregate. In this paper, we address this problem in a real-world public health context: kidney exchange. The algorithms that allocate kidneys from living donors to patients needing transplants in kidney exchange matching markets should prioritize patients in a way that aligns with the values of the community they serve, but allocation preferences vary widely across individuals. In this paper, we propose, implement and evaluate a methodology for prioritizing patients based on such heterogeneous moral preferences. Instead of selecting a single static set of patient weights, we learn a distribution over preference functions based on human subject responses to allocation dilemmas, then sample from this distribution to dynamically determine patient weights during matching. We find that this methodology increases the average rank of matched patients in the sampled preference ordering, indicating better satisfaction of group preferences. We hope that this work will suggest a roadmap for future automated moral decision making on behalf of heterogeneous groups.
翻訳日:2022-11-20 21:13:27 公開日:2020-06-16
# ハンガリー語動詞順における動詞意味論の役割

The Role of Verb Semantics in Hungarian Verb-Object Order ( http://arxiv.org/abs/2006.09432v1 )

ライセンス: Link先を確認
Dorottya Demszky and L\'aszl\'o K\'alm\'an and Dan Jurafsky and Beth Levin(参考訳) ハンガリー語はしばしば談話構成言語(discourse-configurational language)と呼ばれ、成分の構造的位置は文法的機能(主題や対象など)よりも論理的機能(話題やコメント)によって決定される。 koml\'osy (1989) による研究に基づき、談話の文脈に加えて、動詞の語彙意味論もハンガリー語の語順を決定する上で重要な役割を果たしていると主張する。 ハンガリー語の単語順の決定における語彙意味論の役割を調べるために,ハンガリー語のギガワードコーパスから抽出された数十万の例に見られるように,380の推移動詞とその対象の順序に関する大規模データ駆動分析を行う。 語彙意味論が動詞とその対象の順序に与える影響を,動詞を11の意味クラスに分類することによって検証する。 動詞のセマンティッククラスに加えて, 情報構造, オブジェクトの定性, オブジェクトのNP重みに関する2つの制御特徴も含み, それらの効果サイズを動詞のセマンティックスと比較できるように選択した。 以上の結果から,これら3つの特徴がハンガリー語における動詞-目的語秩序に有意な影響を与えていることが示唆された。 特に、ed "cover" や jelent "mean" や \"ovez "surround" のような定動詞は OV-preferring の傾向(VO-preferring が強いサイコ動詞を除いて)、b\'ir\'al "judge" や cs\okkent "reduce" や cs\'okol "kiss" のような非定動詞は VO-preferring の傾向にある。 これらの結果は,語彙的意味因子がハンガリー語の語順に影響を与えるという仮説を支持している。

Hungarian is often referred to as a discourse-configurational language, since the structural position of constituents is determined by their logical function (topic or comment) rather than their grammatical function (e.g., subject or object). We build on work by Koml\'osy (1989) and argue that in addition to discourse context, the lexical semantics of the verb also plays a significant role in determining Hungarian word order. In order to investigate the role of lexical semantics in determining Hungarian word order, we conduct a large-scale, data-driven analysis on the ordering of 380 transitive verbs and their objects, as observed in hundreds of thousands of examples extracted from the Hungarian Gigaword Corpus. We test the effect of lexical semantics on the ordering of verbs and their objects by grouping verbs into 11 semantic classes. In addition to the semantic class of the verb, we also include two control features related to information structure, object definiteness and object NP weight, chosen to allow a comparison of their effect size to that of verb semantics. Our results suggest that all three features have a significant effect on verb-object ordering in Hungarian and among these features, the semantic class of the verb has the largest effect. Specifically, we find that stative verbs, such as fed "cover", jelent "mean" and \"ovez "surround", tend to be OV-preferring (with the exception of psych verbs which are strongly VO-preferring) and non-stative verbs, such as b\'ir\'al "judge", cs\"okkent "reduce" and cs\'okol "kiss", verbs tend to be VO-preferring. These findings support our hypothesis that lexical semantic factors influence word order in Hungarian.
翻訳日:2022-11-20 21:07:04 公開日:2020-06-16
# GPUによる階層型パノラマ画像の特徴検索

GPU-accelerated Hierarchical Panoramic Image Feature Retrieval for Indoor Localization ( http://arxiv.org/abs/2006.08861v1 )

ライセンス: Link先を確認
Feng Hu(参考訳) 屋内のローカライゼーションには、商業的位置ベースサービス(LBS)、ロボットナビゲーション、視覚障害者のための補助ナビゲーションなど、多くの応用がある。 本稿では, パノラマ画像特徴を用いた視覚的ランドマークのモデル化と,GPUによる並列検索アルゴリズムによるユーザ位置の計算により,屋内位置決定問題をマルチメディア検索問題に定式化する。 シーン類似性問題を解決するために,複数画像に基づく検索戦略と2次元アグリゲーション手法を適用し,最終検索位置を推定する。 実データを構築するキャンパスにおける実験は、リアルタイム応答(14fps)とロバストな局在を示す。

Indoor localization has many applications, such as commercial Location Based Services (LBS), robotic navigation, and assistive navigation for the blind. This paper formulates the indoor localization problem into a multimedia retrieving problem by modeling visual landmarks with a panoramic image feature, and calculating a user's location via GPU- accelerated parallel retrieving algorithm. To solve the scene similarity problem, we apply a multi-images based retrieval strategy and a 2D aggregation method to estimate the final retrieval location. Experiments on a campus building real data demonstrate real-time responses (14fps) and robust localization.
翻訳日:2022-11-20 21:06:03 公開日:2020-06-16
# ビデオテキスト検索のための視覚的セマンティック推論

Exploiting Visual Semantic Reasoning for Video-Text Retrieval ( http://arxiv.org/abs/2006.08889v1 )

ライセンス: Link先を確認
Zerun Feng, Zhimin Zeng, Caili Guo, Zheng Li(参考訳) 映像検索は、視覚と言語領域を橋渡しする挑戦的な研究課題であり、近年広く注目を集めている。 それまでの作品は、フレームレベルの特徴から直接エンコードすることで、ビデオの表現に費やされてきた。 実際、ビデオは、既存の方法があまり注意を払わない様々な、豊富な意味関係で構成されている。 この問題に対処するために、フレーム領域間の推論を利用するビジュアルセマンティック拡張推論ネットワーク(ViSERN)を提案する。 具体的には、フレーム領域を頂点として、完全連結意味相関グラフを構築する。 次に,新しいランダムウォークルールに基づくグラフ畳み込みネットワークによる推論を行い,意味関係に関わる領域特徴を生成する。 推論の利点により、領域間の意味的相互作用が考慮され、冗長性の影響が抑制される。 最後に、領域の特徴を集約してフレームレベルの特徴を形成し、さらにエンコーディングしてビデオテキストの類似度を測定する。 2つの公開ベンチマークデータセットの大規模な実験は、強力なセマンティック推論により最先端の性能を達成し、本手法の有効性を検証した。

Video retrieval is a challenging research topic bridging the vision and language areas and has attracted broad attention in recent years. Previous works have been devoted to representing videos by directly encoding from frame-level features. In fact, videos consist of various and abundant semantic relations to which existing methods pay less attention. To address this issue, we propose a Visual Semantic Enhanced Reasoning Network (ViSERN) to exploit reasoning between frame regions. Specifically, we consider frame regions as vertices and construct a fully-connected semantic correlation graph. Then, we perform reasoning by novel random walk rule-based graph convolutional networks to generate region features involved with semantic relations. With the benefit of reasoning, semantic interactions between regions are considered, while the impact of redundancy is suppressed. Finally, the region features are aggregated to form frame-level features for further encoding to measure video-text similarity. Extensive experiments on two public benchmark datasets validate the effectiveness of our method by achieving state-of-the-art performance due to the powerful semantic reasoning.
翻訳日:2022-11-20 21:05:51 公開日:2020-06-16
# acitivitynet challenge 2020におけるava-kineticsクロスオーバーの1位解

1st place solution for AVA-Kinetics Crossover in AcitivityNet Challenge 2020 ( http://arxiv.org/abs/2006.09116v1 )

ライセンス: Link先を確認
Siyu Chen, Junting Pan, Guanglu Song, Manyuan Zhang, Hao Shao, Ziyi Lin, Jing Shao, Hongsheng Li, Yu Liu(参考訳) 本報告では, activitynet challenge 2020 における時空間的行動定位トラック ava-kinetics crossover の勝利ソリューションを紹介する。 本稿では主にアクター・コンテキスト・アクター関係ネットワークに基づく。 新しいava-kineticsデータセットの技術的な詳細と実験結果について述べる。 AVA-キネティクスの試験セットで39.62 mAPを達成したが、これは他の項目よりも大きなマージンで優れていた。 コードはhttps://github.com/siyu-c/acar-net。

This technical report introduces our winning solution to the spatio-temporal action localization track, AVA-Kinetics Crossover, in ActivityNet Challenge 2020. Our entry is mainly based on Actor-Context-Actor Relation Network. We describe technical details for the new AVA-Kinetics dataset, together with some experimental results. Without any bells and whistles, we achieved 39.62 mAP on the test set of AVA-Kinetics, which outperforms other entries by a large margin. Code will be available at: https://github.com/Siyu-C/ACAR-Net.
翻訳日:2022-11-20 21:05:38 公開日:2020-06-16
# 双線型最適化のための共勾配降下

Cogradient Descent for Bilinear Optimization ( http://arxiv.org/abs/2006.09142v1 )

ライセンス: Link先を確認
Li'an Zhuo, Baochang Zhang, Linlin Yang, Hanlin Chen, Qixiang Ye, David Doermann, Guodong Guo, Rongrong Ji(参考訳) 従来の学習方法は,2つの固有結合因子を独立に扱うことで,双線形モデルを単純化する。 一つの理由は、非同期勾配降下によるトレーニング不足であり、結果として結合変数の勾配が消失する。 本稿では,射影関数を介して隠れた変数の勾配を調整するための理論的枠組みに基づいて,双線形問題に対処するコグニエント降下アルゴリズム(cogd)を提案する。 一方の変数は、他方との結合関係を考慮し、同期勾配降下を導き、最適化手順を容易にすることで解決する。 本アルゴリズムは,学習パラダイムにおいて広く用いられている空間的制約の下で,一変数の問題を解くために応用される。 我々は,画像再構成,塗装,ネットワークプルーニングなど幅広い応用を考慮し,CoGDを検証する。 実験の結果、最先端の技術を著しく改善していることがわかった。

Conventional learning methods simplify the bilinear model by regarding two intrinsically coupled factors independently, which degrades the optimization procedure. One reason lies in the insufficient training due to the asynchronous gradient descent, which results in vanishing gradients for the coupled variables. In this paper, we introduce a Cogradient Descent algorithm (CoGD) to address the bilinear problem, based on a theoretical framework to coordinate the gradient of hidden variables via a projection function. We solve one variable by considering its coupling relationship with the other, leading to a synchronous gradient descent to facilitate the optimization procedure. Our algorithm is applied to solve problems with one variable under the sparsity constraint, which is widely used in the learning paradigm. We validate our CoGD considering an extensive set of applications including image reconstruction, inpainting, and network pruning. Experiments show that it improves the state-of-the-art by a significant margin.
翻訳日:2022-11-20 21:05:28 公開日:2020-06-16
# dsdanet: クロスドメイン変化検出のためのディープシャム領域適応畳み込みニューラルネットワーク

DSDANet: Deep Siamese Domain Adaptation Convolutional Neural Network for Cross-domain Change Detection ( http://arxiv.org/abs/2006.09225v1 )

ライセンス: Link先を確認
Hongruixuan Chen and Chen Wu and Bo Du and Liangpei Zhang(参考訳) 変更検出(CD)はリモートセンシングにおいて最も重要な応用の1つである。 近年、深層学習はCDタスクにおいて有望なパフォーマンスを実現している。 しかし、ディープモデルはタスク固有のものであり、CDデータセットのバイアスがしばしば存在するため、ディープCDモデルがオリジナルのCDデータセットから新しいデータセットに転送した後に劣化したパフォーマンスに悩まされることは避けられないため、新しいデータセットの多数のサンプルを手動でラベル付けすることは避けられない。 十分なラベル付きデータ(オリジナルドメイン)を持つデータセットで転送可能なcdモデルを学べるが、ラベル付きデータ(ターゲットドメイン)なしで他のデータセットの変更を十分に検出できるだろうか? これはクロスドメイン変更検出問題として定義される。 本稿では,クロスドメインcdのための新しいディープシャムドメイン適応畳み込みニューラルネットワーク(dsdanet)アーキテクチャを提案する。 DSDANetでは、シアム畳み込みニューラルネットワークがまず、多時間画像から空間スペクトルの特徴を抽出する。 次に、マルチカーネル最大平均誤差(MK-MMD)により、学習した特徴表現を再生カーネルヒルベルト空間(RKHS)に埋め込み、2つの領域の分布を明示的に一致させることができる。 ソースラベル付きデータでネットワークパラメータとカーネル係数を最適化し、ラベルなしデータをターゲットにすることで、DSDANetは2つのドメイン間の相違をブリッジするトランスファー可能な特徴表現を学習できる。 我々の知る限りでは、このようなドメイン適応に基づくディープネットワークがCDに提案されたのは初めてである。 理論的解析と実験により,提案手法の有効性と可能性を示す。

Change detection (CD) is one of the most vital applications in remote sensing. Recently, deep learning has achieved promising performance in the CD task. However, the deep models are task-specific and CD data set bias often exists, hence it is inevitable that deep CD models would suffer degraded performance after transferring it from original CD data set to new ones, making manually label numerous samples in the new data set unavoidable, which costs a large amount of time and human labor. How to learn a transferable CD model in the data set with enough labeled data (original domain) but can well detect changes in another data set without labeled data (target domain)? This is defined as the cross-domain change detection problem. In this paper, we propose a novel deep siamese domain adaptation convolutional neural network (DSDANet) architecture for cross-domain CD. In DSDANet, a siamese convolutional neural network first extracts spatial-spectral features from multi-temporal images. Then, through multi-kernel maximum mean discrepancy (MK-MMD), the learned feature representation is embedded into a reproducing kernel Hilbert space (RKHS), in which the distribution of two domains can be explicitly matched. By optimizing the network parameters and kernel coefficients with the source labeled data and target unlabeled data, DSDANet can learn transferrable feature representation that can bridge the discrepancy between two domains. To the best of our knowledge, it is the first time that such a domain adaptation-based deep network is proposed for CD. The theoretical analysis and experimental results demonstrate the effectiveness and potential of the proposed method.
翻訳日:2022-11-20 21:04:31 公開日:2020-06-16
# 深部物体検出器の地表面不均衡問題

Foreground-Background Imbalance Problem in Deep Object Detectors: A Review ( http://arxiv.org/abs/2006.09238v1 )

ライセンス: Link先を確認
Joya Chen, Qi Wu, Dong Liu, Tong Xu(参考訳) 近年では、コンピュータビジョンの根本的な課題である物体検出のためのディープラーニング技術が目覚ましい発展を遂げている。 それでも正確な深部物体検出器の訓練には依然として困難があり、そのうちの1つは前景と後方の不均衡の問題によるものである。 本稿では,不均衡問題の解に関する最近の進歩について調査する。 まず,1段と2段を含む多種多様な深度検出器における不均衡問題の特徴を分析する。 第二に、既存のソリューションを、ヒューリスティックスと非サンプリングスキームの2つのカテゴリに分け、詳細をレビューする。 第3に、COCOベンチマークにおける最先端ソリューションの性能を実験的に比較する。 今後の作業の方向性についても論じる。

Recent years have witnessed the remarkable developments made by deep learning techniques for object detection, a fundamentally challenging problem of computer vision. Nevertheless, there are still difficulties in training accurate deep object detectors, one of which is owing to the foreground-background imbalance problem. In this paper, we survey the recent advances about the solutions to the imbalance problem. First, we analyze the characteristics of the imbalance problem in different kinds of deep detectors, including one-stage and two-stage ones. Second, we divide the existing solutions into two categories: sampling heuristics and non-sampling schemes, and review them in detail. Third, we experimentally compare the performance of some state-of-the-art solutions on the COCO benchmark. Promising directions for future work are also discussed.
翻訳日:2022-11-20 21:04:05 公開日:2020-06-16
# 翻訳用モデル代名詞ジェンダーへのスケーラブルなクロスリンガル・ピボット

Scalable Cross Lingual Pivots to Model Pronoun Gender for Translation ( http://arxiv.org/abs/2006.08881v1 )

ライセンス: Link先を確認
Kellie Webster and Emily Pitler(参考訳) 文書理解が不十分な機械翻訳システムは、ドロップまたは中性代名詞を性別付き代名詞を持つ言語(英語など)に翻訳する際に誤りを犯すことがある。 これらの代名詞の根底にある性別を予測することは、テキスト的にマークされず、文脈の中核的な言及から推論する必要があるため困難である。 本研究では,高品質な性別ラベルを自動生成する新たな言語間ピボット手法を提案し,このデータを用いて,スペイン語のドロップした女性代名詞を92%F1で微調整し,ニューラルマシン翻訳モデルでは30~51%,非微調整BERTモデルでは54~71%とした。 分類器のラベル付きニューラルマシン翻訳モデルを拡張し,代名詞翻訳を改善しつつ,同時に文を翻訳する並列化可能な翻訳モデルも備えている。

Machine translation systems with inadequate document understanding can make errors when translating dropped or neutral pronouns into languages with gendered pronouns (e.g., English). Predicting the underlying gender of these pronouns is difficult since it is not marked textually and must instead be inferred from coreferent mentions in the context. We propose a novel cross-lingual pivoting technique for automatically producing high-quality gender labels, and show that this data can be used to fine-tune a BERT classifier with 92% F1 for Spanish dropped feminine pronouns, compared with 30-51% for neural machine translation models and 54-71% for a non-fine-tuned BERT model. We augment a neural machine translation model with labels from our classifier to improve pronoun translation, while still having parallelizable translation models that translate a sentence at a time.
翻訳日:2022-11-20 20:57:00 公開日:2020-06-16
# スキーマガイドによる対話状態追跡のためのSPPDシステム

The SPPD System for Schema Guided Dialogue State Tracking Challenge ( http://arxiv.org/abs/2006.09035v1 )

ライセンス: Link先を確認
Miao Li, Haoqi Xiong, Yunbo Cao (Smart Platform Product Department, Tencent Inc, China)(参考訳) 本稿では,Schema Guidedによる対話状態追跡のためのSPPDシステムであるDialog System Technology Challenges 8 (DSTC8)について紹介する。 この挑戦はDSTC8のトラック4と名付けられ、現実世界の対話システムのためのスケーラブルなマルチドメイン対話状態追跡アルゴリズムを開発するための、全く新しい、挑戦的なデータセットを提供する。 本稿では,ゼロショット対話状態追跡システムを提案する。 システムの主要なコンポーネントはBERTベースのゼロショットNLUモデルで、サービスのスキーマの自然言語記述と対話からの発話とのセマンティックな関係を効果的に捉えることができる。 また,より長い対話履歴からの情報を活用し,複数ドメイン対話におけるスロット転送問題を克服するための戦略を提案する。 実験結果から,提案方式はベースラインシステムと比較して大幅な改善が得られた。

This paper introduces one of our group's work on the Dialog System Technology Challenges 8 (DSTC8), the SPPD system for Schema Guided dialogue state tracking challenge. This challenge, named as Track 4 in DSTC8, provides a brand new and challenging dataset for developing scalable multi-domain dialogue state tracking algorithms for real world dialogue systems. We propose a zero-shot dialogue state tracking system for this task. The key components of the system is a number of BERT based zero-shot NLU models that can effectively capture semantic relations between natural language descriptions of services' schemas and utterances from dialogue turns. We also propose some strategies to make the system better to exploit information from longer dialogue history and to overcome the slot carryover problem for multi-domain dialogues. The experimental results show that the proposed system achieves a significant improvement compared with the baseline system.
翻訳日:2022-11-20 20:56:43 公開日:2020-06-16
# 多レベル相互作用伝達によるアスペクト抽出のための弱教師付きドメイン適応

Weakly-supervised Domain Adaption for Aspect Extraction via Multi-level Interaction Transfer ( http://arxiv.org/abs/2006.09235v1 )

ライセンス: Link先を確認
Tao Liang, Wenya Wang, Fengmao Lv(参考訳) きめ細かいアスペクト抽出はアスペクトベースの意見分析において不可欠なサブタスクである。 それは、各文における製品またはサービスの側面用語(すなわち意見対象)を特定することを目的としている。 しかし、高価なアノテーションプロセスは通常、各ドメインの十分なトークンレベルラベルを取得するために必要となる。 この制限に対処するために、いくつかの先行研究は十分なラベル付けされたソースドメインからラベル付けされていないターゲットドメインに知識を転送するためのドメイン適応戦略を提案している。 しかし、きめ細かい予測問題とドメイン間の大きなドメインギャップの両立が困難であるため、性能は相変わらず不満足である。 本研究は,レビューサイトなどの商用サービスで一般的に使用可能な文レベルのアスペクトカテゴリラベルを,抽出目的のトークンレベルの転送を促進するための先駆的な研究を行っている。 具体的には、アスペクトカテゴリ情報は、文レベルアスペクトカテゴリとトークンレベルアスペクトの相互作用がドメイン間で不変であるという仮定で、転送のためのピボット知識を構築するために使用される。 そこで本研究では,細粒度情報と粗粒度情報の両方を複数の抽象レベルで整合させる,新しいマルチレベル再構築機構を提案する。 包括的実験により,本手法は文レベルのアスペクトカテゴリラベルを十分に活用し,クロスドメインアスペクト抽出を改善することができることを示した。

Fine-grained aspect extraction is an essential sub-task in aspect based opinion analysis. It aims to identify the aspect terms (a.k.a. opinion targets) of a product or service in each sentence. However, expensive annotation process is usually involved to acquire sufficient token-level labels for each domain. To address this limitation, some previous works propose domain adaptation strategies to transfer knowledge from a sufficiently labeled source domain to unlabeled target domains. But due to both the difficulty of fine-grained prediction problems and the large domain gap between domains, the performance remains unsatisfactory. This work conducts a pioneer study on leveraging sentence-level aspect category labels that can be usually available in commercial services like review sites to promote token-level transfer for the extraction purpose. Specifically, the aspect category information is used to construct pivot knowledge for transfer with assumption that the interactions between sentence-level aspect category and token-level aspect terms are invariant across domains. To this end, we propose a novel multi-level reconstruction mechanism that aligns both the fine-grained and coarse-grained information in multiple levels of abstractions. Comprehensive experiments demonstrate that our approach can fully utilize sentence-level aspect category labels to improve cross-domain aspect extraction with a large performance gain.
翻訳日:2022-11-20 20:56:11 公開日:2020-06-16
# コミュニケーションの必要性は言語変化における競争を調節する

Communicative need modulates competition in language change ( http://arxiv.org/abs/2006.09277v1 )

ライセンス: Link先を確認
Andres Karjus, Richard A. Blythe, Simon Kirby, Kenny Smith(参考訳) すべての言語は時間とともに変化する。 この原因の多くは、新しい言語要素の出現と借用によるものである。 新しい要素と類似のセマンティックあるいは文法的な機能を持つ古い要素との競合は、話者が一方を好み、もう一方が使われなくなることにつながる可能性がある。 十分に大きなコーパス以外の言語固有の資源を必要としないダイアクロニックコーパスにおける言語要素間の競合を定量化する一般的な手法を提案する。 このアプローチは、幅広い言語や言語サブシステムに適用することができる。 ここでは、言語、タイプ、ジャンル、タイムスパンが異なる5つのコーパスの語彙データに適用する。 コミュニケーションの必要性の変化は、語彙的競合のダイナミクスを常に予測している。 ほぼ匿名の単語は、言語使用者にとって重要性が一定である会話のトピックに属している場合、直接競合する傾向があり、おそらく競合する単語の1つが消滅する。 対照的に、言語ユーザにとって重要性が増しているトピックでは、ほぼ同義語に近い単語は直接競合せず共存しがちである。 これは、単語間の直接的な競合に加えて、言語の変化がトピックやセマンティックサブスペースの競合によって引き起こされることを示唆している。

All living languages change over time. The causes for this are many, one being the emergence and borrowing of new linguistic elements. Competition between the new elements and older ones with a similar semantic or grammatical function may lead to speakers preferring one of them, and leaving the other to go out of use. We introduce a general method for quantifying competition between linguistic elements in diachronic corpora which does not require language-specific resources other than a sufficiently large corpus. This approach is readily applicable to a wide range of languages and linguistic subsystems. Here, we apply it to lexical data in five corpora differing in language, type, genre, and time span. We find that changes in communicative need are consistently predictive of lexical competition dynamics. Near-synonymous words are more likely to directly compete if they belong to a topic of conversation whose importance to language users is constant over time, possibly leading to the extinction of one of the competing words. By contrast, in topics which are increasing in importance for language users, near-synonymous words tend not to compete directly and can coexist. This suggests that, in addition to direct competition between words, language change can be driven by competition between topics or semantic subspaces.
翻訳日:2022-11-20 20:55:41 公開日:2020-06-16
# チューリング試験損失を用いた畳み込みニューラルネットワークを用いたctにおける肺分節と結節の検出

Lung Segmentation and Nodule Detection in Computed Tomography Scan using a Convolutional Neural Network Trained Adversarially using Turing Test Loss ( http://arxiv.org/abs/2006.09308v1 )

ライセンス: Link先を確認
Rakshith Sathish, Rachana Sathish, Ramanathan Sethuraman and Debdoot Sheet(参考訳) 肺がんは世界中で最も多く見られるがんであり、死亡率が高い。 低線量ct(low-dose ct)による肺結節の早期検出は,その効果的な臨床管理に不可欠である。 悪性腫瘍の症状である結節は、患者のctスキャンで約0.01250.025\%の容積を占める。 すべてのスライスの手動スクリーニングは面倒な作業であり、ヒューマンエラーのリスクが高い。 この問題に取り組むため,我々は計算効率の高い二段階フレームワークを提案する。 第1段階では、肺領域のチューリング試験損失セグメントを用いて、畳み込みニューラルネットワーク(CNN)が逆行訓練を行った。 第2段階では、セグメント領域からサンプリングされたパッチを分類し、結節の存在を検出する。 提案手法は10倍のクロスバリデーションに対して, dice係数0.984\pm0.0007$のluna16チャレンジデータセット上で実験的に検証される。

Lung cancer is the most common form of cancer found worldwide with a high mortality rate. Early detection of pulmonary nodules by screening with a low-dose computed tomography (CT) scan is crucial for its effective clinical management. Nodules which are symptomatic of malignancy occupy about 0.0125 - 0.025\% of volume in a CT scan of a patient. Manual screening of all slices is a tedious task and presents a high risk of human errors. To tackle this problem we propose a computationally efficient two stage framework. In the first stage, a convolutional neural network (CNN) trained adversarially using Turing test loss segments the lung region. In the second stage, patches sampled from the segmented region are then classified to detect the presence of nodules. The proposed method is experimentally validated on the LUNA16 challenge dataset with a dice coefficient of $0.984\pm0.0007$ for 10-fold cross-validation.
翻訳日:2022-11-20 20:48:58 公開日:2020-06-16
# 形態的セグメンテーションによるドメイン適応

Domain Adaptation with Morphologic Segmentation ( http://arxiv.org/abs/2006.09322v1 )

ライセンス: Link先を確認
Jonathan Klein, S\"oren Pirk, Dominik L. Michels(参考訳) 本稿では,任意の入力領域(実および合成領域)から一様出力領域への画像変換に形態素セグメンテーションを用いる新しいドメイン適応フレームワークを提案する。 我々のフレームワークは確立された画像から画像への変換パイプラインに基づいており、まず入力画像から形態や意味を符号化した一般化表現、すなわちエッジ・プラス・セグメンテーション・マップ(EPS)を変換して出力領域に変換する。 出力領域に変換された画像は、フォトリアリスティックで、異なる現実(例えば、レンズフレア、モーションボケなど)と合成(非現実的なテクスチャ、単純化された幾何学など)のデータセットに一般的に存在するアーティファクトを含まない。 私たちのゴールは、複数のソースからのデータを共通の表現に統一し、コンピュータビジョンにおける下流タスクのトレーニングを容易にする前処理ステップを確立することです。 このように、既存のタスクのためのニューラルネットワークは、さまざまなトレーニングデータに基づいてトレーニングできるが、特定のデータセットへの過度な適合の影響も少ない。 都市景観のシミュレートと実データの4つのデータ集合上で, 定性的に定量的に評価し, 提案手法の有効性を示す。 さらなる結果はプロジェクトのwebサイトhttp://jonathank.de/research/eps/で見ることができる。

We present a novel domain adaptation framework that uses morphologic segmentation to translate images from arbitrary input domains (real and synthetic) into a uniform output domain. Our framework is based on an established image-to-image translation pipeline that allows us to first transform the input image into a generalized representation that encodes morphology and semantics - the edge-plus-segmentation map (EPS) - which is then transformed into an output domain. Images transformed into the output domain are photo-realistic and free of artifacts that are commonly present across different real (e.g. lens flare, motion blur, etc.) and synthetic (e.g. unrealistic textures, simplified geometry, etc.) data sets. Our goal is to establish a preprocessing step that unifies data from multiple sources into a common representation that facilitates training downstream tasks in computer vision. This way, neural networks for existing tasks can be trained on a larger variety of training data, while they are also less affected by overfitting to specific data sets. We showcase the effectiveness of our approach by qualitatively and quantitatively evaluating our method on four data sets of simulated and real data of urban scenes. Additional results can be found on the project website available at http://jonathank.de/research/eps/ .
翻訳日:2022-11-20 20:48:47 公開日:2020-06-16
# 解釈可能なマルチモーダル融合ネットワークは脳認知のメカニズムを明らかにする

Interpretable multimodal fusion networks reveal mechanisms of brain cognition ( http://arxiv.org/abs/2006.09454v1 )

ライセンス: Link先を確認
Wenxing Hu, Xianghe Meng, Yuntong Bai, Aiying Zhang, Biao Cai, Gemeng Zhang, Tony W. Wilson, Julia M. Stephen, Vince D. Calhoun, Yu-Ping Wang(参考訳) マルチモーダル融合は、より包括的な視点を提供することで疾患の診断に役立つ。 アルゴリズムの開発は、データの不均一性と、モダリティ内およびモダリティ間の複雑な関係のために困難である。 深層ネットワークに基づくデータ融合モデルが開発され, 複雑な関連を捉え, 診断性能が向上した。 診断予測を超えて、疾患メカニズムの評価は生体医学研究において極めて重要である。 しかし、深層ネットワークに基づくデータフュージョンモデルは解釈が難しく、生物学的メカニズムの研究が困難である。 本研究では,自動診断と結果解釈を同時に行うことができる多モード融合モデル,すなわちgCAM-CCLを開発する。 gCAM-CCLモデルは、入力特徴のピクセルレベルのコントリビューションを定量化する解釈可能なアクティベーションマップを生成することができる。 これは勾配に基づく重みを使って中間特徴マップを組み合わせることによって達成される。 さらに、推定アクティベーションマップはクラス固有であり、キャプチャされたクロスデータアソシエーションは関心/ラベル関連であり、クラス固有解析と生物学的メカニズム解析をさらに促進する。 脳画像遺伝学的研究におけるgCAM-CCLモデルの有効性を検証し,gCAM-CCLの分類と機構解析の両面において良好な性能を示した。 メカニズム分析は、タスクfMRIスキャンにおいて、いくつかのオブジェクト認識関連関心領域(ROI)が最初に活性化され、その後、複数の下流符号化ROIが関与することを示している。 また,高認知能群はより強い神経伝達シグナルを伝達し,低認知能群は遺伝的変異から生じる脳・神経発達に問題があることが示唆された。

Multimodal fusion benefits disease diagnosis by providing a more comprehensive perspective. Developing algorithms is challenging due to data heterogeneity and the complex within- and between-modality associations. Deep-network-based data-fusion models have been developed to capture the complex associations and the performance in diagnosis has been improved accordingly. Moving beyond diagnosis prediction, evaluation of disease mechanisms is critically important for biomedical research. Deep-network-based data-fusion models, however, are difficult to interpret, bringing about difficulties for studying biological mechanisms. In this work, we develop an interpretable multimodal fusion model, namely gCAM-CCL, which can perform automated diagnosis and result interpretation simultaneously. The gCAM-CCL model can generate interpretable activation maps, which quantify pixel-level contributions of the input features. This is achieved by combining intermediate feature maps using gradient-based weights. Moreover, the estimated activation maps are class-specific, and the captured cross-data associations are interest/label related, which further facilitates class-specific analysis and biological mechanism analysis. We validate the gCAM-CCL model on a brain imaging-genetic study, and show gCAM-CCL's performed well for both classification and mechanism analysis. Mechanism analysis suggests that during task-fMRI scans, several object recognition related regions of interests (ROIs) are first activated and then several downstream encoding ROIs get involved. Results also suggest that the higher cognition performing group may have stronger neurotransmission signaling while the lower cognition performing group may have problem in brain/neuron development, resulting from genetic variations.
翻訳日:2022-11-20 20:48:23 公開日:2020-06-16
# 胸部CT画像からのFew-Shot COVID-19診断のためのMomentum Contrastive Learning

Momentum Contrastive Learning for Few-Shot COVID-19 Diagnosis from Chest CT Images ( http://arxiv.org/abs/2006.13276v1 )

ライセンス: Link先を確認
Xiaocong Chen and Lina Yao and Tao Zhou and Jinming Dong and Yu Zhang(参考訳) 2019年12月に新型コロナウイルス(COVID-19)が流行した現在のパンデミックは、世界的な緊急事態を招き、世界各国の経済、医療システム、個人福祉に大きな影響を与えた。 急速に進行する疾患を制御するには、高度に敏感で特定の診断が必要である。 リアルタイムrt-pcrが最も一般的に使用されるが、最大8時間かかり、医療従事者からかなりの労力がかかる。 そのため、迅速かつ自動的な診断システムが必要である。 胸部CT画像からの診断は有望な方向である。 しかし,アノテートct画像の取得には時間を要するため,訓練サンプルが不足しているため,現在の研究は限られている。 そこで本研究では,新型コロナウイルス(covid-19)の自動診断のための新しい深層学習アルゴリズムを提案する。 具体的には、コントラスト学習を用いて、大規模かつ一般に利用可能な肺データセット上で表現的な特徴表現をキャプチャするエンコーダを訓練し、分類のための原型的ネットワークを採用する。 提案モデルの有効性を,公に利用可能かつ注釈付き2つのctデータセットで比較検討した。 以上の結果から,胸部ct画像によるcovid-19の診断に優れた効果が得られた。

The current pandemic, caused by the outbreak of a novel coronavirus (COVID-19) in December 2019, has led to a global emergency that has significantly impacted economies, healthcare systems and personal wellbeing all around the world. Controlling the rapidly evolving disease requires highly sensitive and specific diagnostics. While real-time RT-PCR is the most commonly used, these can take up to 8 hours, and require significant effort from healthcare professionals. As such, there is a critical need for a quick and automatic diagnostic system. Diagnosis from chest CT images is a promising direction. However, current studies are limited by the lack of sufficient training samples, as acquiring annotated CT images is time-consuming. To this end, we propose a new deep learning algorithm for the automated diagnosis of COVID-19, which only requires a few samples for training. Specifically, we use contrastive learning to train an encoder which can capture expressive feature representations on large and publicly available lung datasets and adopt the prototypical network for classification. We validate the efficacy of the proposed model in comparison with other competing methods on two publicly available and annotated COVID-19 CT datasets. Our results demonstrate the superior performance of our model for the accurate diagnosis of COVID-19 based on chest CT images.
翻訳日:2022-11-20 20:47:56 公開日:2020-06-16
# 平均場レジームにおける多層ニューラルネットワークのグローバル収束に関する一考察

A Note on the Global Convergence of Multilayer Neural Networks in the Mean Field Regime ( http://arxiv.org/abs/2006.09355v1 )

ライセンス: Link先を確認
Huy Tuan Pham, Phan-Minh Nguyen(参考訳) 最近の研究で我々は、神経埋め込みの概念に基づいて、多層ニューラルネットワークの勾配に基づく学習力学の平均場限界を記述するための厳密な枠組みを導入した。 また,このフレームワークを用いた3層ネットワーク(および2層ネットワーク)のグローバルコンバージェンス保証も行った。 本稿では,先行研究の知見を拡張して,任意の深さの多層ネットワークに対するグローバル収束保証を証明できることを指摘する。 初期化を仮定する以前の3層グローバル収束保証とは異なり、本結果は相関初期化の一種に適用できる。 この初期化は、任意の有限の訓練時間において、ニューラルネットワークの深さを通してある普遍近似特性を伝搬することができる。 この効果を達成するために,双方向の多様性条件を導入する。

In a recent work, we introduced a rigorous framework to describe the mean field limit of the gradient-based learning dynamics of multilayer neural networks, based on the idea of a neuronal embedding. There we also proved a global convergence guarantee for three-layer (as well as two-layer) networks using this framework. In this companion note, we point out that the insights in our previous work can be readily extended to prove a global convergence guarantee for multilayer networks of any depths. Unlike our previous three-layer global convergence guarantee that assumes i.i.d. initializations, our present result applies to a type of correlated initialization. This initialization allows to, at any finite training time, propagate a certain universal approximation property through the depth of the neural network. To achieve this effect, we introduce a bidirectional diversity condition.
翻訳日:2022-11-20 20:46:07 公開日:2020-06-16
# リニア・ハイデン層ニューラルネットワークを用いたトランスファー学習のためのミニマックス下限

Minimax Lower Bounds for Transfer Learning with Linear and One-hidden Layer Neural Networks ( http://arxiv.org/abs/2006.10581v1 )

ライセンス: Link先を確認
Seyed Mohammadreza Mousavi Kalan, Zalan Fabian, A. Salman Avestimehr, and Mahdi Soltanolkotabi(参考訳) ラベル付きトレーニングデータが不足する可能性のある、新たなドメインにおける機械学習モデルのパフォーマンス向上のための強力なテクニックとして、転送学習が登場している。 このアプローチでは、多くのラベル付きトレーニングデータが利用可能なソースタスク用にトレーニングされたモデルが、ラベル付きトレーニングデータが少ない関連するターゲットタスクでモデルをトレーニングするための出発点として使用される。 近年のトランスファーラーニングアプローチの実証的成功にもかかわらず、トランスファーラーニングの利点と基本的限界は理解されていない。 本稿では,線形および一重層ニューラルネットワークモデルによる回帰の文脈における伝達学習の基本的限界を特徴付ける統計的ミニマックスフレームワークを開発する。 具体的には、ラベル付きソースとターゲットデータの関数として、任意のアルゴリズムによって達成可能なターゲット一般化誤差の低い値と、ソースとターゲットタスク間の類似性の適切な概念を導出する。 私たちの下限は、転校学習のメリットと限界に対する新たな洞察を提供します。 さらに様々な実験で理論的な発見を裏付ける。

Transfer learning has emerged as a powerful technique for improving the performance of machine learning models on new domains where labeled training data may be scarce. In this approach a model trained for a source task, where plenty of labeled training data is available, is used as a starting point for training a model on a related target task with only few labeled training data. Despite recent empirical success of transfer learning approaches, the benefits and fundamental limits of transfer learning are poorly understood. In this paper we develop a statistical minimax framework to characterize the fundamental limits of transfer learning in the context of regression with linear and one-hidden layer neural network models. Specifically, we derive a lower-bound for the target generalization error achievable by any algorithm as a function of the number of labeled source and target data as well as appropriate notions of similarity between the source and target tasks. Our lower bound provides new insights into the benefits and limitations of transfer learning. We further corroborate our theoretical finding with various experiments.
翻訳日:2022-11-20 20:40:31 公開日:2020-06-16
# 複数有向グラフ推定のためのベイズ型線形非ガウス非循環モデルによる青年期脳感情回路発達の研究

A Bayesian incorporated linear non-Gaussian acyclic model for multiple directed graph estimation to study brain emotion circuit development in adolescence ( http://arxiv.org/abs/2006.12618v1 )

ライセンス: Link先を確認
Aiying Zhang, Gemeng Zhang, Biao Cai, Tony W. Wilson, Julia M. Stephen, Vince D. Calhoun and Yu-Ping Wang(参考訳) 感情知覚は、分散型脳回路を含む感情的および認知的発達に不可欠である。 感情の識別能力は幼少期から始まり、幼少期から青年期にかけて成長を続ける。 脳の感情回路の発達を理解することは、青年期に観察された感情の変化を説明するのに役立つかもしれない。 これまでの研究では、感情識別タスク中の小児後期から成人初期までの脳機能接続(fc)の軌跡を明らかにした。 本研究では,因果関係から因果関係への理解を深めようと努力する。 ベイズ系を組み込んだ線形非ガウス非巡回モデル(bilingam)を提案した。 特に、異なる発達段階における複数の年齢群に対する多重有向非巡回グラフ(DAG)を共同で推定することができる。 シミュレーションの結果、特にサンプルサイズが小さい場合(高次元の場合)、様々な設定でより安定で正確な性能を示した。 その後,フィラデルフィア神経発達コホート(pnc)からの実データの解析に適用した。 8~22歳の855人が5つの異なる青年期に分けられた。 ネットワーク分析の結果,感情関連とモジュール間接続が発達し,感情関連ハブが特定された。 さらにハブをインハブとアウトハブの2つのタイプに分類し,情報の受信と配信の中心とした。 いくつかの独特の発達ハブ構造とグループ固有のパターンも発見された。 我々の発見は、人間の脳における感情発達の因果的理解に役立つ。

Emotion perception is essential to affective and cognitive development which involves distributed brain circuits. The ability of emotion identification begins in infancy and continues to develop throughout childhood and adolescence. Understanding the development of brain's emotion circuitry may help us explain the emotional changes observed during adolescence. Our previous study delineated the trajectory of brain functional connectivity (FC) from late childhood to early adulthood during emotion identification tasks. In this work, we endeavour to deepen our understanding from association to causation. We proposed a Bayesian incorporated linear non-Gaussian acyclic model (BiLiNGAM), which incorporated our previous association model into the prior estimation pipeline. In particular, it can jointly estimate multiple directed acyclic graphs (DAGs) for multiple age groups at different developmental stages. Simulation results indicated more stable and accurate performance over various settings, especially when the sample size was small (high-dimensional cases). We then applied to the analysis of real data from the Philadelphia Neurodevelopmental Cohort (PNC). This included 855 individuals aged 8-22 years who were divided into five different adolescent stages. Our network analysis revealed the development of emotion-related intra- and inter- modular connectivity and pinpointed several emotion-related hubs. We further categorized the hubs into two types: in-hubs and out-hubs, as the center of receiving and distributing information. Several unique developmental hub structures and group-specific patterns were also discovered. Our findings help provide a causal understanding of emotion development in the human brain.
翻訳日:2022-11-20 20:39:53 公開日:2020-06-16
# 深層畳み込み生成逆ネットワークを用いた接続型ドレナージネットワーク生成

Connectivity-informed Drainage Network Generation using Deep Convolution Generative Adversarial Networks ( http://arxiv.org/abs/2006.13304v1 )

ライセンス: Link先を確認
Sung Eun Kim, Yongwon Seo, Junshik Hwang, Hongkyu Yoon, and Jonghyun Lee(参考訳) 確率的ネットワークモデリングは、有意義な統計的評価に十分な数のネットワークを生成するために高い計算コストによってしばしば制限される。 本研究では,Dep Convolutional Generative Adversarial Networks (DCGANs) を用いて,確率的ネットワークモデル,ギブのモデルを繰り返しモデル化することなく,既に生成されたネットワークサンプルからの排水網を高速に再現する。 特に,排水ネットワークの各ノード上の流れの方向情報にドレインネットワークイメージを変換し,ドレインネットワーク内のノード間の接続制約を格納した複数のバイナリ層に変換する,新たな接続変形手法を開発した。 3種類のトレーニングサンプルを用いたDCGANの比較を行った。 1) 当初の排水網の画像 2)対応する方向情報のみ、及び 3)接続不能な方向情報。 生成された画像の比較により,dcganのネットワークの複雑さと接続性のコンパクトな表現により,より効率的に正確なドレナージネットワークを再現する手法が,他の2つの手法よりも優れていることが示された。 本研究は、dcganが、ネットワーク、骨折、その他の高コントラスト特徴が重要である地球や材料科学で一般的な高コントラスト画像に適用可能であることを強調する。

Stochastic network modeling is often limited by high computational costs to generate a large number of networks enough for meaningful statistical evaluation. In this study, Deep Convolutional Generative Adversarial Networks (DCGANs) were applied to quickly reproduce drainage networks from the already generated network samples without repetitive long modeling of the stochastic network model, Gibb's model. In particular, we developed a novel connectivity-informed method that converts the drainage network images to the directional information of flow on each node of the drainage network, and then transform it into multiple binary layers where the connectivity constraints between nodes in the drainage network are stored. DCGANs trained with three different types of training samples were compared; 1) original drainage network images, 2) their corresponding directional information only, and 3) the connectivity-informed directional information. Comparison of generated images demonstrated that the novel connectivity-informed method outperformed the other two methods by training DCGANs more effectively and better reproducing accurate drainage networks due to its compact representation of the network complexity and connectivity. This work highlights that DCGANs can be applicable for high contrast images common in earth and material sciences where the network, fractures, and other high contrast features are important.
翻訳日:2022-11-20 20:39:33 公開日:2020-06-16
# ストータリングとストータリング療法の自動化に向けて

Towards Automated Assessment of Stuttering and Stuttering Therapy ( http://arxiv.org/abs/2006.09222v1 )

ライセンス: Link先を確認
Sebastian P. Bayerl, Florian H\"onig, Joelle Reister and Korbinian Riedhammer(参考訳) 発声は複雑な言語障害であり、繰り返し、音、音節または単語の延長、発話中のブロックによって識別できる。 重度評価は通常、スピーチセラピストによって行われる。 自動評価の試みは行われたが、治療にはほとんど使われていない。 発声重症度を評価する一般的な方法は、%発声音節(%ss)、発話課題中の3つの発声症状の平均、最近導入された発声効率スコア(ses)である。 本稿では,スタブリングの重症度を評価する新しい手法である音声制御指標(SCI)を提案する。 SESとは異なり、流速形成の治療成功を評価するためにも使用できる。 本研究はsesとsciの両方を評価し,その前・中・後におけるドイツ語話者の発話を包含する包括的ラベル付きデータセットについて検討した。 音声認識システムの音声アライメントは,ラベル付き発声イベントに対する相対的な位置に対して統計的に評価される。 その結果、音声長の分布はラベル付き発話における位置と周辺で異なることが示唆された。

Stuttering is a complex speech disorder that can be identified by repetitions, prolongations of sounds, syllables or words, and blocks while speaking. Severity assessment is usually done by a speech therapist. While attempts at automated assessment were made, it is rarely used in therapy. Common methods for the assessment of stuttering severity include percent stuttered syllables (% SS), the average of the three longest stuttering symptoms during a speech task, or the recently introduced Speech Efficiency Score (SES). This paper introduces the Speech Control Index (SCI), a new method to evaluate the severity of stuttering. Unlike SES, it can also be used to assess therapy success for fluency shaping. We evaluate both SES and SCI on a new comprehensively labeled dataset containing stuttered German speech of clients prior to, during, and after undergoing stuttering therapy. Phone alignments of an automatic speech recognition system are statistically evaluated in relation to their relative position to labeled stuttering events. The results indicate that phone length distributions differ with respect to their position in and around labeled stuttering events
翻訳日:2022-11-20 20:39:11 公開日:2020-06-16
# ポーキングによる深さ:自己監督型グラフプから深さを推定する学習

Depth by Poking: Learning to Estimate Depth from Self-Supervised Grasping ( http://arxiv.org/abs/2006.08903v1 )

ライセンス: Link先を確認
Ben Goodrich, Alex Kuefler, William D. Richards(参考訳) 正確な深度推定はロボット操作には未解決の問題であり、構造化光やLiDARセンサーを含む最先端技術でさえ反射や透明な表面では失敗する。 本稿では,ロボットと環境との物理的相互作用のラベルを用いて,RGB-D画像から深度を推定するニューラルネットワークモデルを訓練することにより,この問題に対処する。 我々のネットワークは、入力画像の各ピクセルについて、ロボットのエンドエフェクターが対応する位置をつかんだり突いたりしようとすると、Z位置が到達すると予測する。 自律的な把握ポリシを前提として,エンドエフェクタの位置ラベルを人間のアノテーションなしでフォワードキネマティクスで復元できるため,本手法は自己管理される。 このような物理的相互作用データの収集は高価であるが,技術操作システムの訓練や定期運用には必要である。 したがって、この深さ推定器は、他のタスク(例えば、つかみ、押す、配置)のデータを収集しながら ``for free'' となる。 本手法は,従来の構造化光センサや非教師なし深層学習法に比べて,非常に低い根元平均二乗誤差を実現できることを示す。

Accurate depth estimation remains an open problem for robotic manipulation; even state of the art techniques including structured light and LiDAR sensors fail on reflective or transparent surfaces. We address this problem by training a neural network model to estimate depth from RGB-D images, using labels from physical interactions between a robot and its environment. Our network predicts, for each pixel in an input image, the z position that a robot's end effector would reach if it attempted to grasp or poke at the corresponding position. Given an autonomous grasping policy, our approach is self-supervised as end effector position labels can be recovered through forward kinematics, without human annotation. Although gathering such physical interaction data is expensive, it is necessary for training and routine operation of state of the art manipulation systems. Therefore, this depth estimator comes ``for free'' while collecting data for other tasks (e.g., grasping, pushing, placing). We show our approach achieves significantly lower root mean squared error than traditional structured light sensors and unsupervised deep learning methods on difficult, industry-scale jumbled bin datasets.
翻訳日:2022-11-20 20:38:53 公開日:2020-06-16
# rl-cyclegan:強化学習を考慮したシミュレーション

RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real ( http://arxiv.org/abs/2006.09001v1 )

ライセンス: Link先を確認
Kanishka Rao, Chris Harris, Alex Irpan, Sergey Levine, Julian Ibarz, Mohi Khansari(参考訳) ディープニューラルネットワークに基づく強化学習(RL)は、手動のエンジニアリングや知覚システムの事前学習を必要とせずに、視覚ベースのロボットグリップのような複雑なタスクのための適切な視覚表現を学習することができる。 しかし、RLのデータは、望ましい環境でエージェントを走らせることで収集され、ロボット工学のようなアプリケーションでは、現実世界でロボットを走らせるのは非常にコストがかかり、時間がかかります。 シミュレーショントレーニングは魅力的な代替手段を提供するが、シミュレーションで訓練されたポリシーが現実世界に効果的に移行できるようにするには、追加の機械が必要である。 シミュレーションは現実と一致せず、一般的にシミュレーションと現実のギャップを埋めるにはドメイン知識とタスク固有のエンジニアリングが必要です。 生成モデルを使ってシミュレーション画像をリアルな画像に変換することで、このプロセスを自動化できます。 しかし、この種の翻訳は通常タスクに依存しず、翻訳された画像はタスクに関連する全ての特徴を保存しない。 本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。 これにより、タスク対応翻訳を学べます。 この損失を教師なしドメイン翻訳に組み込んだRL-CycleGANは、強化学習のためのシミュレーションから実世界へのトランスファーのための新しいアプローチである。 RL-CycleGANを2つの視覚系ロボットグルーピングタスクで評価したところ、RL-CycleGANは従来のシミュレート・トゥ・リアル・トランスファー法よりも大幅に改善され、少ない数の実世界観測で優れた実世界性能が得られることがわかった。

Deep neural network based reinforcement learning (RL) can learn appropriate visual representations for complex tasks like vision-based robotic grasping without the need for manually engineering or prior learning a perception system. However, data for RL is collected via running an agent in the desired environment, and for applications like robotics, running a robot in the real world may be extremely costly and time consuming. Simulated training offers an appealing alternative, but ensuring that policies trained in simulation can transfer effectively into the real world requires additional machinery. Simulations may not match reality, and typically bridging the simulation-to-reality gap requires domain knowledge and task-specific engineering. We can automate this process by employing generative models to translate simulated images into realistic ones. However, this sort of translation is typically task-agnostic, in that the translated images may not preserve all features that are relevant to the task. In this paper, we introduce the RL-scene consistency loss for image translation, which ensures that the translation operation is invariant with respect to the Q-values associated with the image. This allows us to learn a task-aware translation. Incorporating this loss into unsupervised domain translation, we obtain RL-CycleGAN, a new approach for simulation-to-real-world transfer for reinforcement learning. In evaluations of RL-CycleGAN on two vision-based robotics grasping tasks, we show that RL-CycleGAN offers a substantial improvement over a number of prior methods for sim-to-real transfer, attaining excellent real-world performance with only a modest number of real-world observations.
翻訳日:2022-11-20 20:38:34 公開日:2020-06-16
# 並列システムによる文書画像分類の精度向上と高速化

Improving accuracy and speeding up Document Image Classification through parallel systems ( http://arxiv.org/abs/2006.09141v1 )

ライセンス: Link先を確認
Javier Ferrando and Juan Luis Dominguez and Jordi Torres and Raul Garcia and David Garcia and Daniel Garrido and Jordi Cortada and Mateo Valero(参考訳) 本稿では,文書分類タスクにおける重畳畳み込みニューラルネットワーク(CNN)と比較して,効率的なネットモデルの利点を示す。 RVL-CDIPデータセットでは、より軽量なモデルで以前の結果を改善することができ、Tobacco3482のような小さなドメイン内データセット上で転送学習能力を示す。 さらに,OCR による抽出テキスト上で BERT モデルが生成した画像モデル予測と組み合わせることで,画像入力のみの高速化が可能なアンサンブルパイプラインを提案する。 また,バッチサイズが精度を損なうことなく効果的に増大できることを示し,複数のGPUを並列化することでトレーニングプロセスを高速化し,計算時間を短縮できることを示した。 最後に、PyTorchとTensorflow Deep Learningフレームワーク間のトレーニングパフォーマンスの違いを明らかにします。

This paper presents a study showing the benefits of the EfficientNet models compared with heavier Convolutional Neural Networks (CNNs) in the Document Classification task, essential problem in the digitalization process of institutions. We show in the RVL-CDIP dataset that we can improve previous results with a much lighter model and present its transfer learning capabilities on a smaller in-domain dataset such as Tobacco3482. Moreover, we present an ensemble pipeline which is able to boost solely image input by combining image model predictions with the ones generated by BERT model on extracted text by OCR. We also show that the batch size can be effectively increased without hindering its accuracy so that the training process can be sped up by parallelizing throughout multiple GPUs, decreasing the computational time needed. Lastly, we expose the training performance differences between PyTorch and Tensorflow Deep Learning frameworks.
翻訳日:2022-11-20 20:37:17 公開日:2020-06-16
# 協調ゲーム抽象化を用いたチームワークの評価とリワード

Evaluating and Rewarding Teamwork Using Cooperative Game Abstractions ( http://arxiv.org/abs/2006.09538v1 )

ライセンス: Link先を確認
Tom Yan, Christian Kroer, Alexander Peysakhovich(参考訳) 個人のチームがどれだけうまく働くかを予測できますか? チームパフォーマンスへの貢献に対して、個人はどのように報われるべきか? 協調ゲーム理論は、特徴関数(CF)とShapley Value(SV)のようなソリューション概念という、これらの質問に答えるための強力なツールセットを提供する。 まず、CFは私たちにはほとんど与えられず、データから学ぶ必要がある。 第二に、svは自然界における組合せである。 データからCFを推定するための協調ゲーム抽象化(CGA)と呼ばれるパラメトリックモデルを導入する。 CGAは容易に学習でき、容易に解釈でき、SVの線形時間計算を可能にする。 CGAモデルに対する識別結果とサンプル複雑性境界、およびCGAを用いたSVの推定における誤差境界を提供する。 我々は,人工RLエージェントのチームと,プロスポーツの現実世界チームの研究に本手法を適用した。

Can we predict how well a team of individuals will perform together? How should individuals be rewarded for their contributions to the team performance? Cooperative game theory gives us a powerful set of tools for answering these questions: the Characteristic Function (CF) and solution concepts like the Shapley Value (SV). There are two major difficulties in applying these techniques to real world problems: first, the CF is rarely given to us and needs to be learned from data. Second, the SV is combinatorial in nature. We introduce a parametric model called cooperative game abstractions (CGAs) for estimating CFs from data. CGAs are easy to learn, readily interpretable, and crucially allow linear-time computation of the SV. We provide identification results and sample complexity bounds for CGA models as well as error bounds in the estimation of the SV using CGAs. We apply our methods to study teams of artificial RL agents as well as real world teams from professional sports.
翻訳日:2022-11-20 20:30:16 公開日:2020-06-16
# AdvMind:ブラックボックス攻撃の相手を推測する

AdvMind: Inferring Adversary Intent of Black-Box Attacks ( http://arxiv.org/abs/2006.09539v1 )

ライセンス: Link先を確認
Ren Pang, Xinyang Zhang, Shouling Ji, Xiapu Luo, Ting Wang(参考訳) ディープニューラルネットワーク(dnn)は本質的に、ブラックボックス設定下でも、ターゲットモデルへのクエリアクセスしか持たない敵の攻撃に影響を受けやすい。 実際には、そのような攻撃を効果的に検出することは可能であるが(例えば、大規模な類似するが非同一の問い合わせを観察するなど)、敵意を正確に推測することはしばしば困難であり(例えば、敵意の標的クラスである敵意の製作の試み)、特に攻撃の初期段階において、多くのシナリオにおいて効果的な抑止と修復を行う上で不可欠である。 本稿では,ブラックボックス攻撃の敵意を頑健かつ迅速な方法で推定する新たな評価モデルであるAdvMindを提案する。 具体的には、強固な検出を達成するためにadvmindは、ターゲットを隠す試みが攻撃コストを大幅に増加させる(例えば、クエリ数)、即席検出を達成するために、advmindが積極的に実行可能なクエリ結果を合成して、彼女の意図を最大限に露呈する敵からその後のクエリを引き出す。 ベンチマークデータセットの広範な評価と最先端のブラックボックス攻撃により、平均的なAdvMindは3回未満のクエリバッチを観察した後、75%以上の精度で敵の意図を検知し、同時に適応攻撃のコストを60%以上向上することを示した。 さらに,advmindと他の防御手法との相乗効果についても検討し,有望な研究方向を指摘した。

Deep neural networks (DNNs) are inherently susceptible to adversarial attacks even under black-box settings, in which the adversary only has query access to the target models. In practice, while it may be possible to effectively detect such attacks (e.g., observing massive similar but non-identical queries), it is often challenging to exactly infer the adversary intent (e.g., the target class of the adversarial example the adversary attempts to craft) especially during early stages of the attacks, which is crucial for performing effective deterrence and remediation of the threats in many scenarios. In this paper, we present AdvMind, a new class of estimation models that infer the adversary intent of black-box adversarial attacks in a robust and prompt manner. Specifically, to achieve robust detection, AdvMind accounts for the adversary adaptiveness such that her attempt to conceal the target will significantly increase the attack cost (e.g., in terms of the number of queries); to achieve prompt detection, AdvMind proactively synthesizes plausible query results to solicit subsequent queries from the adversary that maximally expose her intent. Through extensive empirical evaluation on benchmark datasets and state-of-the-art black-box attacks, we demonstrate that on average AdvMind detects the adversary intent with over 75% accuracy after observing less than 3 query batches and meanwhile increases the cost of adaptive attacks by over 60%. We further discuss the possible synergy between AdvMind and other defense methods against black-box adversarial attacks, pointing to several promising research directions.
翻訳日:2022-11-20 20:29:52 公開日:2020-06-16
# 学習ダイナミクスを用いたデータ駆動制御:モデルベース対モデルフリーアプローチ

Data Driven Control with Learned Dynamics: Model-Based versus Model-Free Approach ( http://arxiv.org/abs/2006.09543v1 )

ライセンス: Link先を確認
Wenjian Hao, Yiqiang Han(参考訳) 本稿では,モデルベースとモデルフリーの2種類のデータ駆動制御手法を比較する。 最近提案されたDeep Koopman Representation for Control (DKRC)は、未知の非線形力学系を高次元線形系にマッピングするためにディープニューラルネットワークを利用する。 もう1つは、アクター批判アーキテクチャに基づく古典的なモデルフリー制御手法である、Deep Deterministic Policy Gradient (DDPG)は、様々な力学系で有効であることが証明されている。 ベンチマーク目的で複数のコントロール環境を提供するOpenAI Gymで比較が行われる。 比較には、古典的逆振り子と月着陸連続制御という2つの例がある。 実験の結果から,これら2つの手法を制御戦略と様々な初期化条件における有効性の観点から比較した。 また,データ駆動型サンプル効率アプローチによる未知ダイナミクスの学習モデルの精度を示すeuler-lagrange線形化法による解析モデルを用いて,dkrcから得られた学習動的モデルについて検討した。

This paper compares two different types of data-driven control methods, representing model-based and model-free approaches. One is a recently proposed method - Deep Koopman Representation for Control (DKRC), which utilizes a deep neural network to map an unknown nonlinear dynamical system to a high-dimensional linear system, which allows for employing state-of-the-art control strategy. The other one is a classic model-free control method based on an actor-critic architecture - Deep Deterministic Policy Gradient (DDPG), which has been proved to be effective in various dynamical systems. The comparison is carried out in OpenAI Gym, which provides multiple control environments for benchmark purposes. Two examples are provided for comparison, i.e., classic Inverted Pendulum and Lunar Lander Continuous Control. From the results of the experiments, we compare these two methods in terms of control strategies and the effectiveness under various initialization conditions. We also examine the learned dynamic model from DKRC with the analytical model derived from the Euler-Lagrange Linearization method, which demonstrates the accuracy in the learned model for unknown dynamics from a data-driven sample-efficient approach.
翻訳日:2022-11-20 20:29:18 公開日:2020-06-16
# 等尺グラフニューラルネットワーク

Isometric Graph Neural Networks ( http://arxiv.org/abs/2006.09554v1 )

ライセンス: Link先を確認
Matthew Walker, Bo Yan, Yiou Xiao, Yafei Wang, Ayan Acharya(参考訳) グラフ内のノードの表現に依存する多くのタスクは、グラフ内のノード間の距離に忠実であれば恩恵を受ける。 このような表現を抽出する幾何学的手法はグラフサイズを超越したスケーリングが低く、グラフニューラルネットワーク(GNN)アルゴリズムの最近の進歩は、グラフ距離情報を第1次近傍に反映する能力に制限がある。 そこで本研究では,GNNアルゴリズムがノード間の距離を反映した表現を生成するために,入力表現空間と損失関数を変更することを必要とするIsometric Graph Neural Networks (IGNN) の学習手法を提案する。 複数のデータセット上で複数の予測タスクをモデル化するために,複数のGNNアーキテクチャ上でアイソメトリック手法を実験した。 これらの実験で auc-roc が 43\%$ まで向上したことに加え、ケンドールの tau (kt) において400% 以上の一貫性と実質的な改善が観察された。

Many tasks that rely on representations of nodes in graphs would benefit if those representations were faithful to distances between nodes in the graph. Geometric techniques to extract such representations have poor scaling over large graph size, and recent advances in Graph Neural Network (GNN) algorithms have limited ability to reflect graph distance information beyond the first degree neighborhood. To enable this highly desired capability, we propose a technique to learn Isometric Graph Neural Networks (IGNN), which requires changing the input representation space and loss function to enable any GNN algorithm to generate representations that reflect distances between nodes. We experiment with the isometric technique on several GNN architectures for modeling multiple prediction tasks on multiple datasets. In addition to an improvement in AUC-ROC as high as $43\%$ in these experiments, we observe a consistent and substantial improvement as high as 400% in Kendall's Tau (KT), a measure that directly reflects distance information, demonstrating that the learned embeddings do account for graph distances.
翻訳日:2022-11-20 20:28:38 公開日:2020-06-16
# ほとんどの機械学習タスクのためのワンパスプライベートスケッチ

A One-Pass Private Sketch for Most Machine Learning Tasks ( http://arxiv.org/abs/2006.09352v1 )

ライセンス: Link先を確認
Benjamin Coleman and Anshumali Shrivastava(参考訳) 差分プライバシー(DP)は、正式な証明可能な保証を通じてプライバシーとユーティリティのトレードオフを説明する魅力的なプライバシー定義である。 汎用データリリースアルゴリズムの最近の進歩に触発されて,回帰,分類,密度推定,近距離探索など,多数の機械学習タスクをサポートするデータセットのプライベートスケッチ,あるいは小さなサマリーを提案する。 このスケッチは,局所性に敏感なハッシュをインデックス化して,効率的なワンパスアルゴリズムで構築したランダムな一致テーブルで構成されている。 dpカーネル密度推定の競合誤差境界を証明した。 DPカーネル密度推定のための既存の手法は、次元の増大とともに、しばしば指数関数的に遅くスケールする。 対照的に、私たちのスケッチは、大きな高次元のデータセットを1パスで素早く実行できます。 既存のDP手法と比較して計算コストのごく一部で、我々の一般的なスケッチは、同様のプライバシーとユーティリティのトレードオフをもたらすことを示す。 当社のスケッチは、大規模に分散した機械学習環境での差分プライバシを実現することを期待しています。

Differential privacy (DP) is a compelling privacy definition that explains the privacy-utility tradeoff via formal, provable guarantees. Inspired by recent progress toward general-purpose data release algorithms, we propose a private sketch, or small summary of the dataset, that supports a multitude of machine learning tasks including regression, classification, density estimation, near-neighbor search, and more. Our sketch consists of randomized contingency tables that are indexed with locality-sensitive hashing and constructed with an efficient one-pass algorithm. We prove competitive error bounds for DP kernel density estimation. Existing methods for DP kernel density estimation scale poorly, often exponentially slower with an increase in dimensions. In contrast, our sketch can quickly run on large, high-dimensional datasets in a single pass. Exhaustive experiments show that our generic sketch delivers a similar privacy-utility tradeoff when compared to existing DP methods at a fraction of the computation cost. We expect that our sketch will enable differential privacy in distributed, large-scale machine learning settings.
翻訳日:2022-11-20 20:22:36 公開日:2020-06-16
# 支持が不十分なオフポリシーバンディット

Off-policy Bandits with Deficient Support ( http://arxiv.org/abs/2006.09438v1 )

ライセンス: Link先を確認
Noveen Sachdeva, Yi Su, Thorsten Joachims(参考訳) デプロイされたシステムの過去の動作から効果的なコンテキスト帯域ポリシーを学習することは、大量のログデータの再利用を可能にするため、多くの設定(音声アシスタント、レコメンデーション、検索など)で非常に望ましい。 しかし、そのようなオフ・ポリティ・ラーニングのための最先端の手法は、ips(inverse propensity score)重み付けに基づいている。 IPS重み付けの重要な理論的な要件は、データをログしたポリシーが「完全なサポート」を持っていることである。 残念ながら、多くの現実世界のシステムは、特にアクション空間が大きい場合、サポート不足のデータを生成し、既存の手法が破滅的に失敗する可能性があることを示す。 このような理論と応用のギャップを克服するために,サポート不足データに固有の制約があるにもかかわらず,IPSベースの学習に様々な保証を提供する3つのアプローチを同定する。 これら3つの手法の統計的および計算的性質を体系的に解析し,その効果を実証的に評価する。 文脈帯域学習におけるサポート欠陥の体系的分析に加えて,実践的指導を行うための推奨事項も提示する。

Learning effective contextual-bandit policies from past actions of a deployed system is highly desirable in many settings (e.g. voice assistants, recommendation, search), since it enables the reuse of large amounts of log data. State-of-the-art methods for such off-policy learning, however, are based on inverse propensity score (IPS) weighting. A key theoretical requirement of IPS weighting is that the policy that logged the data has "full support", which typically translates into requiring non-zero probability for any action in any context. Unfortunately, many real-world systems produce support deficient data, especially when the action space is large, and we show how existing methods can fail catastrophically. To overcome this gap between theory and applications, we identify three approaches that provide various guarantees for IPS-based learning despite the inherent limitations of support-deficient data: restricting the action space, reward extrapolation, and restricting the policy space. We systematically analyze the statistical and computational properties of these three approaches, and we empirically evaluate their effectiveness. In addition to providing the first systematic analysis of support-deficiency in contextual-bandit learning, we conclude with recommendations that provide practical guidance.
翻訳日:2022-11-20 20:21:22 公開日:2020-06-16
# L1-ロバストマルコフ決定過程の部分的政策反復

Partial Policy Iteration for L1-Robust Markov Decision Processes ( http://arxiv.org/abs/2006.09484v1 )

ライセンス: Link先を確認
Chin Pang Ho and Marek Petrik and Wolfram Wiesemann(参考訳) ロバスト・マルコフ決定過程(MDP)は、報酬と部分的に知られた遷移確率によってモデル化された動的決定問題に対する信頼性の高い解を計算することができる。 残念なことに、遷移確率の不確実性を考慮すると、堅牢なMDPを解く際の計算複雑性が著しく増加し、スケーラビリティが著しく制限される。 本稿では, 重み付き $l_1$ ノルムで定義される s- および sa-rectangular ambiguity 集合を用いたロバストな mdps の共通クラスを解くための新しい効率的なアルゴリズムについて述べる。 我々は,ロバストなmdpのための新しい,効率的,フレキシブル,汎用的なポリシイテレーションスキームである部分ポリシーイテレーションを提案する。 また,非ロバストベルマン作用素の線形複雑性にほぼ一致するような,ロバストベルマン作用素を準線形時間で計算するための高速手法を提案する。 実験結果から,提案手法は線形計画解法とロバストな値反復法を併用した最先端手法よりも桁違いに高速であることが示唆された。

Robust Markov decision processes (MDPs) allow to compute reliable solutions for dynamic decision problems whose evolution is modeled by rewards and partially-known transition probabilities. Unfortunately, accounting for uncertainty in the transition probabilities significantly increases the computational complexity of solving robust MDPs, which severely limits their scalability. This paper describes new efficient algorithms for solving the common class of robust MDPs with s- and sa-rectangular ambiguity sets defined by weighted $L_1$ norms. We propose partial policy iteration, a new, efficient, flexible, and general policy iteration scheme for robust MDPs. We also propose fast methods for computing the robust Bellman operator in quasi-linear time, nearly matching the linear complexity the non-robust Bellman operator. Our experimental results indicate that the proposed methods are many orders of magnitude faster than the state-of-the-art approach which uses linear programming solvers combined with a robust value iteration.
翻訳日:2022-11-20 20:19:38 公開日:2020-06-16
# 注意の焦点は視覚機能における情報伝達を改善する

Focus of Attention Improves Information Transfer in Visual Features ( http://arxiv.org/abs/2006.09229v1 )

ライセンス: Link先を確認
Matteo Tiezzi, Stefano Melacci, Alessandro Betti, Marco Maggini, Marco Gori(参考訳) 連続的なビジュアルストリームからの教師なし学習は、従来のバッチモードの計算では自然に効率的に管理できない難しい問題である。 情報の流れは、視覚データの適切な時空間分布に応じて慎重に処理されなければならず、学習のほとんどのアプローチは一般に均一な確率密度を想定している。 本稿では,物理における最小作用原理に触発された計算モデルを用いて,真のオンライン環境における視覚情報伝達のための教師なし学習に着目する。 相互情報の最大化は、エントロピー項のオンライン推定を行う時間的プロセスによって行われる。 2階微分方程式に基づくこのモデルは、入力から入力の視覚的特徴に関連する記号の離散空間への情報伝達を最大化し、その計算は隠れたニューロンによって支援される。 入力確率分布をよりよく構成するために、情報最大化モデルと一致して2階微分方程式にもとづく、人間のような注目モデルを用いる。 注意の焦点によって引き起こされる時空間的フィルタリングにより、集中領域にまたがって入力ストリームからより多くの情報をグローバルに転送し、ある文脈では、均一な確率分布をもたらすフィルタされていないケースに対して、フレーム全体にわたってより多くの情報を転送することができることを示す実験結果を提供する。

Unsupervised learning from continuous visual streams is a challenging problem that cannot be naturally and efficiently managed in the classic batch-mode setting of computation. The information stream must be carefully processed accordingly to an appropriate spatio-temporal distribution of the visual data, while most approaches of learning commonly assume uniform probability density. In this paper we focus on unsupervised learning for transferring visual information in a truly online setting by using a computational model that is inspired to the principle of least action in physics. The maximization of the mutual information is carried out by a temporal process which yields online estimation of the entropy terms. The model, which is based on second-order differential equations, maximizes the information transfer from the input to a discrete space of symbols related to the visual features of the input, whose computation is supported by hidden neurons. In order to better structure the input probability distribution, we use a human-like focus of attention model that, coherently with the information maximization model, is also based on second-order differential equations. We provide experimental results to support the theory by showing that the spatio-temporal filtering induced by the focus of attention allows the system to globally transfer more information from the input stream over the focused areas and, in some contexts, over the whole frames with respect to the unfiltered case that yields uniform probability distributions.
翻訳日:2022-11-20 20:12:51 公開日:2020-06-16
# ロバストなフェデレーション学習:アフィン分布シフトの事例

Robust Federated Learning: The Case of Affine Distribution Shifts ( http://arxiv.org/abs/2006.08907v1 )

ライセンス: Link先を確認
Amirhossein Reisizadeh, Farzan Farnia, Ramtin Pedarsani, Ali Jadbabaie(参考訳) フェデレートラーニング(Federated Learning)は、ネットワーク内の複数のユーザ間で分散されたサンプルを使用してモデルをトレーニングすることを目的とした分散パラダイムである。 このような環境では、トレーニングデータは統計的に異種であり、ユーザ間で様々な分散シフトを示し、学習モデルのパフォーマンスを低下させる。 本研究の主な目的は,ユーザのサンプルの分布変化に対して良好な性能を実現する,堅牢なフェデレーション学習アルゴリズムを開発することである。 この目的を達成するために、まず、フェデレーション設定におけるデバイス依存データの不均一性をキャプチャするユーザのデータの構造化アフィン分布シフトを検討する。 この摂動モデルは、画像がデバイス依存の不完全性(例えば、強度、コントラスト、明るさ)を受ける画像分類などの様々な連邦学習問題に適用できる。 本稿では,ユーザ間でのアフィン分布シフトに対処するため,アフィン分布シフトに対して確実に頑健であるFederated Learning framework Robust to Affine Distribution shifts (FLRA)を提案する。 FLRAの分散ミニマックス問題を解くために,高速かつ効率的な最適化法を提案し,勾配Descent Ascent (GDA) 法による収束保証を提供する。 さらに,サンプル実験分布から真の基底分布への適切な一般化を示すために,学習者分類器の一般化誤差境界を証明した。 FLRAを実証的に支援するための数値実験を行った。 実験では,アフィン分布の変化が学習者分類器の性能を著しく低下させるには十分であり,本アルゴリズムは標準連関学習法や逆学習法と比較して有意な利得が得られることを示す。

Federated learning is a distributed paradigm that aims at training models using samples distributed across multiple users in a network while keeping the samples on users' devices with the aim of efficiency and protecting users privacy. In such settings, the training data is often statistically heterogeneous and manifests various distribution shifts across users, which degrades the performance of the learnt model. The primary goal of this paper is to develop a robust federated learning algorithm that achieves satisfactory performance against distribution shifts in users' samples. To achieve this goal, we first consider a structured affine distribution shift in users' data that captures the device-dependent data heterogeneity in federated settings. This perturbation model is applicable to various federated learning problems such as image classification where the images undergo device-dependent imperfections, e.g. different intensity, contrast, and brightness. To address affine distribution shifts across users, we propose a Federated Learning framework Robust to Affine distribution shifts (FLRA) that is provably robust against affine Wasserstein shifts to the distribution of observed samples. To solve the FLRA's distributed minimax problem, we propose a fast and efficient optimization method and provide convergence guarantees via a gradient Descent Ascent (GDA) method. We further prove generalization error bounds for the learnt classifier to show proper generalization from empirical distribution of samples to the true underlying distribution. We perform several numerical experiments to empirically support FLRA. We show that an affine distribution shift indeed suffices to significantly decrease the performance of the learnt classifier in a new test user, and our proposed algorithm achieves a significant gain in comparison to standard federated learning and adversarial training methods.
翻訳日:2022-11-20 20:04:53 公開日:2020-06-16
# 最適決定から線形プログラムを学ぶ

Learning Linear Programs from Optimal Decisions ( http://arxiv.org/abs/2006.08923v1 )

ライセンス: Link先を確認
Yingcong Tan, Daria Terekhov, Andrew Delong(参考訳) 最適決定から線形プログラムを学習するための柔軟な勾配ベースフレームワークを提案する。 線形プログラムはしばしば手動で指定され、関連するコストと制約の事前知識を使用する。 一部の応用では、線形プログラムは最適な決定の観測から学ぶ必要がある。 最適決定から学ぶことは特に難しい二段階問題であり、関連する逆最適化文献の多くは特別なケースに特化されている。 我々は、コスト、制約、損失関数の柔軟なパラメトリゼーションを可能にしながら、全てのパラメータを共同で学習する。 また,空の実現可能領域や非統一的最適決定など,線形プログラムの学習に特有の課題にも対処した。 実験の結果,従来の手法では適用できない合成線形プログラムと最小コストのマルチ商品フローインスタンスの学習に成功した。 また,均質な内部点アルゴリズムの高速バッチモードpytorch実装も提供し,暗黙的な微分やバックプロパゲーションによる勾配をサポートする。

We propose a flexible gradient-based framework for learning linear programs from optimal decisions. Linear programs are often specified by hand, using prior knowledge of relevant costs and constraints. In some applications, linear programs must instead be learned from observations of optimal decisions. Learning from optimal decisions is a particularly challenging bi-level problem, and much of the related inverse optimization literature is dedicated to special cases. We tackle the general problem, learning all parameters jointly while allowing flexible parametrizations of costs, constraints, and loss functions. We also address challenges specific to learning linear programs, such as empty feasible regions and non-unique optimal decisions. Experiments show that our method successfully learns synthetic linear programs and minimum-cost multi-commodity flow instances for which previous methods are not directly applicable. We also provide a fast batch-mode PyTorch implementation of the homogeneous interior point algorithm, which supports gradients by implicit differentiation or backpropagation.
翻訳日:2022-11-20 20:04:21 公開日:2020-06-16
# クラスタ化ラッソとOSCARの効率的な経路アルゴリズム

Efficient Path Algorithms for Clustered Lasso and OSCAR ( http://arxiv.org/abs/2006.08965v1 )

ライセンス: Link先を確認
Atsumori Takahashi and Shunichi Nomura(参考訳) 高次元回帰では、結果に対する特徴クラスタリングは、しばしば特徴の選択と同じくらい重要である。 その目的のために、回帰のためのクラスタ化ラッソと八角形収縮とクラスタリングアルゴリズム(OSCAR)を用いて、それぞれペアワイズ$L_1$ノルムとペアワイズ$L_\infty$ノルムで特徴群を自動的に作成する。 本稿では,クラスタ化されたlassoとoscarに対する効率的な経路アルゴリズムを提案し,それらの正規化パラメータに対して解経路を構築する。 完全対正則化における多くの項にもかかわらず、それらの項の対称性を用いることで計算コストは削減される。 各特徴群における劣次方程式をチェックするための単純な等価条件は、いくつかのグラフ理論によって導かれる。 提案アルゴリズムは数値実験において既存のアルゴリズムよりも効率的であることが示されている。

In high dimensional regression, feature clustering by their effects on outcomes is often as important as feature selection. For that purpose, clustered Lasso and octagonal shrinkage and clustering algorithm for regression (OSCAR) are used to make feature groups automatically by pairwise $L_1$ norm and pairwise $L_\infty$ norm, respectively. This paper proposes efficient path algorithms for clustered Lasso and OSCAR to construct solution paths with respect to their regularization parameters. Despite too many terms in exhaustive pairwise regularization, their computational costs are reduced by using symmetry of those terms. Simple equivalent conditions to check subgradient equations in each feature group are derived by some graph theories. The proposed algorithms are shown to be more efficient than existing algorithms in numerical experiments.
翻訳日:2022-11-20 20:03:29 公開日:2020-06-16
# マルチペナルティ分布回帰の学習率の推定

Estimates on Learning Rates for Multi-Penalty Distribution Regression ( http://arxiv.org/abs/2006.09017v1 )

ライセンス: Link先を確認
Zhan Yu, Daniel W. C. Ho(参考訳) 本稿では,2段階のサンプル分布回帰を利用して機能学習を行う。 本研究では,分布回帰のための複数ペナルティ正則化アルゴリズムを学習理論の枠組みで検討する。 このアルゴリズムは確率測度から実値出力に回帰することを目的としている。 分布回帰の理論的な解析は、実用環境では第2段階のサンプルのみが観測可能であるため、成熟度や非常に困難である。 このアルゴリズムでは、サンプルから情報を変換するために、分布を平均埋め込み技法でマーサーカーネル $k$ に関連付けられた再生カーネルヒルベルト空間 $\mathcal{h}_k$ に埋め込む。 この論文の主な貢献は、分散回帰の特徴を捉え、アルゴリズムの最適学習率を導出するための、新しいマルチペナルティ正規化アルゴリズムを提案することである。 この研究は、既存の文献では研究されていない非標準設定 $f_{\rho}\notin\mathcal{H}_K$ における分布回帰の学習率も導出している。 さらに,大規模データや情報問題に直面する分散回帰に基づく分散学習アルゴリズムを提案する。 最適学習率を分散学習アルゴリズムに導出する。 新しいアルゴリズムを提供し、学習率を示すことによって、文学における既存の作業を異なる側面で改善する。

This paper is concerned with functional learning by utilizing two-stage sampled distribution regression. We study a multi-penalty regularization algorithm for distribution regression under the framework of learning theory. The algorithm aims at regressing to real valued outputs from probability measures. The theoretical analysis on distribution regression is far from maturity and quite challenging, since only second stage samples are observable in practical setting. In the algorithm, to transform information from samples, we embed the distributions to a reproducing kernel Hilbert space $\mathcal{H}_K$ associated with Mercer kernel $K$ via mean embedding technique. The main contribution of the paper is to present a novel multi-penalty regularization algorithm to capture more features of distribution regression and derive optimal learning rates for the algorithm. The work also derives learning rates for distribution regression in the nonstandard setting $f_{\rho}\notin\mathcal{H}_K$, which is not explored in existing literature. Moreover, we propose a distribution regression-based distributed learning algorithm to face large-scale data or information challenge. The optimal learning rates are derived for the distributed learning algorithm. By providing new algorithms and showing their learning rates, we improve the existing work in different aspects in the literature.
翻訳日:2022-11-20 20:02:55 公開日:2020-06-16
# MCRapper:Monte-Carlo Rademacher平均値と近似パターンマイニング

MCRapper: Monte-Carlo Rademacher Averages for Poset Families and Approximate Pattern Mining ( http://arxiv.org/abs/2006.09085v1 )

ライセンス: Link先を確認
Leonardo Pellegrina, Cyrus Cousins, Fabio Vandin, Matteo Riondato(参考訳) MCRapperは,多くのパターンマイニングタスクで発生するような,ポーズ(格子)構造を示す関数群に対して,MCERA(Monte-Carlo Empirical Rademacher Averages)の効率的な計算アルゴリズムである。 MCERAは、期待値からサンプル平均の最大偏差に対する上限を計算することができるので、利用可能なデータが未知の分布からサンプルと見なされるとき、統計学的に重要な関数(パターン)と、利用可能なデータが大きなデータセットからの小さなサンプルであるとき、高観測関数(頻繁なパターン)の集合の近似の両方を見つけることができる。 この機能は、以前提案された2つのソリューションのうちの1つしか達成できないような、強力な改善である。 MCRapperは、パターンマイニング自体から借用された手法である探索空間を効率的に探索し、熟成するために、関数の相違に上限を用いる。 MCRapperの実用性を示すため,真周波数パターン(TFP)マイニングのためのアルゴリズムTFP-Rを開発した。 TFP-Rは偽陽性(精度)を含む確率を保証し、同じ保証を提供する既存の方法よりも高い統計的パワー(リコール)を示す。 mcrapper と tfp-r を評価し,各タスクの最先端を上回っていることを示す。

We present MCRapper, an algorithm for efficient computation of Monte-Carlo Empirical Rademacher Averages (MCERA) for families of functions exhibiting poset (e.g., lattice) structure, such as those that arise in many pattern mining tasks. The MCERA allows us to compute upper bounds to the maximum deviation of sample means from their expectations, thus it can be used to find both statistically-significant functions (i.e., patterns) when the available data is seen as a sample from an unknown distribution, and approximations of collections of high-expectation functions (e.g., frequent patterns) when the available data is a small sample from a large dataset. This feature is a strong improvement over previously proposed solutions that could only achieve one of the two. MCRapper uses upper bounds to the discrepancy of the functions to efficiently explore and prune the search space, a technique borrowed from pattern mining itself. To show the practical use of MCRapper, we employ it to develop an algorithm TFP-R for the task of True Frequent Pattern (TFP) mining. TFP-R gives guarantees on the probability of including any false positives (precision) and exhibits higher statistical power (recall) than existing methods offering the same guarantees. We evaluate MCRapper and TFP-R and show that they outperform the state-of-the-art for their respective tasks.
翻訳日:2022-11-20 20:02:00 公開日:2020-06-16
# 第7回BioASQ Challengeの結果

Results of the seventh edition of the BioASQ Challenge ( http://arxiv.org/abs/2006.09174v1 )

ライセンス: Link先を確認
Anastasios Nentidis, Konstantinos Bougiatiotis, Anastasia Krithara, Georgios Paliouras(参考訳) 本稿では,第7回BioASQチャレンジの結果を紹介する。 BioASQチャレンジの目的は、大規模バイオメディカルセマンティックインデックスと質問応答のタスクにおける課題の組織化によるシステムと方法論の促進である。 今年のチャレンジには、100以上のシステムを持つ30チームが参加した。 前年と同様に、最高のシステムは強力なベースラインを上回ることができた。 これは最先端のシステムが継続的に改善され、研究のフロンティアが押し上げられていることを示唆している。

The results of the seventh edition of the BioASQ challenge are presented in this paper. The aim of the BioASQ challenge is the promotion of systems and methodologies through the organization of a challenge on the tasks of large-scale biomedical semantic indexing and question answering. In total, 30 teams with more than 100 systems participated in the challenge this year. As in previous years, the best systems were able to outperform the strong baselines. This suggests that state-of-the-art systems are continuously improving, pushing the frontier of research.
翻訳日:2022-11-20 19:55:25 公開日:2020-06-16
# 自己調整型非対称突然変異を用いた進化アルゴリズム

Evolutionary Algorithms with Self-adjusting Asymmetric Mutation ( http://arxiv.org/abs/2006.09126v1 )

ライセンス: Link先を確認
Amirhossein Rajabi and Carsten Witt(参考訳) 進化的アルゴリズム(EA)や他のランダム化された探索ヒューリスティックは、下層の探索空間の異なる変換に関して不変な非バイアスアルゴリズムとみなされることが多い。 しかし、一定の量のドメイン知識が利用可能であれば、EAにおけるバイアス付き検索演算子の使用は可能となる。 二進探索空間に対する単純な (1+1) EA を考え、ゼロビットと1ビットを異なる方法で扱うことができる非対称な突然変異演算子を解析する。 この作用素は、Jansen and Sudholt (ECJ 18(1), 2010) による以前の研究を拡張し、演算子非対称性をアルゴリズムの成功率に応じて変化させる。 適切な非対称性の度合いを学習する自己調整スキームを用いて、固定されたターゲット$a\in\{0,1\}^n$のマッチングビット数を記述する関数のクラス上で、改善された実行結果を示す。

Evolutionary Algorithms (EAs) and other randomized search heuristics are often considered as unbiased algorithms that are invariant with respect to different transformations of the underlying search space. However, if a certain amount of domain knowledge is available the use of biased search operators in EAs becomes viable. We consider a simple (1+1) EA for binary search spaces and analyze an asymmetric mutation operator that can treat zero- and one-bits differently. This operator extends previous work by Jansen and Sudholt (ECJ 18(1), 2010) by allowing the operator asymmetry to vary according to the success rate of the algorithm. Using a self-adjusting scheme that learns an appropriate degree of asymmetry, we show improved runtime results on the class of functions OneMax$_a$ describing the number of matching bits with a fixed target $a\in\{0,1\}^n$.
翻訳日:2022-11-20 19:55:20 公開日:2020-06-16
# 動的mmwaveネットワークにおける適応型ユーザアソシエーションのためのマルチエージェント強化学習

Multi-Agent Reinforcement Learning for Adaptive User Association in Dynamic mmWave Networks ( http://arxiv.org/abs/2006.09066v1 )

ライセンス: Link先を確認
Mohamed Sana, Antonio De Domenico, Wei Yu, Yves Lostanlen, and Emilio Calvanese Strinati(参考訳) ネットワークの高密度化とミリ波技術は、第5世代(5g)のモバイルネットワークの容量とデータレート要件を満たす鍵となる。 この文脈では、ローカルな観測で低複雑さのポリシーを設計するが、グローバルなネットワーク状態とネットワークダイナミクスに関してユーザアソシエーションを適応することは困難である。 実際、文献で提案されるフレームワークは、グローバルネットワーク情報への継続的なアクセスと、無線環境の変化に伴う関連性の再計算を必要とする。 このようなアプローチが複雑であるため、これらのソリューションは密集した5gネットワークには適していない。 本稿では,マルチエージェント強化学習に基づくユーザアソシエーションのためのスケーラブルでフレキシブルなアルゴリズムを設計し,この問題に対処する。 このアプローチでは、ユーザーは、ローカルな観測のみに基づいて、ネットワークの総和率を最適化するために、自律的に行動を調整することを学習する独立したエージェントとして行動する。 エージェント間の直接的な情報交換はないので、シグナルのオーバーヘッドも制限します。 シミュレーションの結果,提案手法は無線環境の(高速)変化に適応可能であり,最先端の解と比較した場合の合計利得が大きいことがわかった。

Network densification and millimeter-wave technologies are key enablers to fulfill the capacity and data rate requirements of the fifth generation (5G) of mobile networks. In this context, designing low-complexity policies with local observations, yet able to adapt the user association with respect to the global network state and to the network dynamics is a challenge. In fact, the frameworks proposed in literature require continuous access to global network information and to recompute the association when the radio environment changes. With the complexity associated to such an approach, these solutions are not well suited to dense 5G networks. In this paper, we address this issue by designing a scalable and flexible algorithm for user association based on multi-agent reinforcement learning. In this approach, users act as independent agents that, based on their local observations only, learn to autonomously coordinate their actions in order to optimize the network sum-rate. Since there is no direct information exchange among the agents, we also limit the signaling overhead. Simulation results show that the proposed algorithm is able to adapt to (fast) changes of radio environment, thus providing large sum-rate gain in comparison to state-of-the-art solutions.
翻訳日:2022-11-20 19:54:42 公開日:2020-06-16
# モントリオールAI倫理研究所による欧州委員会のAIに関するホワイトペーパーへの反応

Response by the Montreal AI Ethics Institute to the European Commission's Whitepaper on AI ( http://arxiv.org/abs/2006.09428v1 )

ライセンス: Link先を確認
Abhishek Gupta (1 and 2), Camylle Lanteigne (1 and 3) ((1) Montreal AI Ethics Institute, (2) Microsoft, (3) McGill University)(参考訳) 2020年2月、欧州委員会(EC)は「On Artificial Intelligence - A European approach to excellence and trust」と題する白書を発表した。 本稿では、欧州連合における人工知能(AI)の推進と採用のためのECの政策オプションの概要について述べる。 モントリオールAI倫理研究所(MAIEI)は、この論文をレビューし、ECの計画である「卓越したエコシステム」と「信頼のエコシステム」の構築と、AI、モノのインターネット(IoT)、ロボット工学の安全性と責任に関する回答を公開した。 MAIEIは、上記のセクションに関して、以下を含む15の勧告を提供している。 1) 研究開発コミュニティ、加盟国及び民間部門への取り組みに焦点をあてる。 2) トレーディングパートナーの政策とEUの政策を整合させる。 3) 信頼できるAIを構築するための理論的枠組みとアプローチの間のエコシステムのギャップを分析する。 4) 調整及び政策調整に焦点を当てる。 5) データのプライベートかつセキュアな共有を促進するメカニズムに注目すること。 6)研究・イノベーションコミュニティを強化するため、AI研究卓越センターのネットワークを構築する。 7) デジタルイノベーションハブを通じて知識移転を促進し、AIの専門知識を育成すること。 8)AIシステムの不透明性に関する議論にニュアンスを加えること。 9) 個人がAIシステムの決定又は出力を訴えるプロセスを作成すること。 10) 新規則の施行及び既存規則の強化 11) 顔認識技術の使用を禁止すること。 12) 同様の基準及び強制要件に全AIシステムを保持すること。 13) 生体認証システムが実施する目的を達成すること。 14) リスクが高いとみなされないシステムに対する自発的なラベリングシステムを実装すること。 15)AIシステムを理解し、潜在的なリスクを伝えることができる監視プロセスに個人を任命する。

In February 2020, the European Commission (EC) published a white paper entitled, On Artificial Intelligence - A European approach to excellence and trust. This paper outlines the EC's policy options for the promotion and adoption of artificial intelligence (AI) in the European Union. The Montreal AI Ethics Institute (MAIEI) reviewed this paper and published a response addressing the EC's plans to build an "ecosystem of excellence" and an "ecosystem of trust," as well as the safety and liability implications of AI, the internet of things (IoT), and robotics. MAIEI provides 15 recommendations in relation to the sections outlined above, including: 1) focus efforts on the research and innovation community, member states, and the private sector; 2) create alignment between trading partners' policies and EU policies; 3) analyze the gaps in the ecosystem between theoretical frameworks and approaches to building trustworthy AI; 4) focus on coordination and policy alignment; 5) focus on mechanisms that promote private and secure sharing of data; 6) create a network of AI research excellence centres to strengthen the research and innovation community; 7) promote knowledge transfer and develop AI expertise through Digital Innovation Hubs; 8) add nuance to the discussion regarding the opacity of AI systems; 9) create a process for individuals to appeal an AI system's decision or output; 10) implement new rules and strengthen existing regulations; 11) ban the use of facial recognition technology; 12) hold all AI systems to similar standards and compulsory requirements; 13) ensure biometric identification systems fulfill the purpose for which they are implemented; 14) implement a voluntary labelling system for systems that are not considered high-risk; 15) appoint individuals to the oversight process who understand AI systems well and are able to communicate potential risks.
翻訳日:2022-11-20 19:54:21 公開日:2020-06-16
# 深部強化学習を用いた無人表面車両のCOLREG対応衝突回避

COLREG-Compliant Collision Avoidance for Unmanned Surface Vehicle using Deep Reinforcement Learning ( http://arxiv.org/abs/2006.09540v1 )

ライセンス: Link先を確認
Eivind Meyer and Amalie Heiberg and Adil Rasheed and Omer San(参考訳) 追従と衝突回避は、無人表面船や他の自動運転車にとって、ロボット工学における2つの基本的なガイダンス問題である。 何十年もの間、彼らは学術研究の対象となり、多くのアプローチが提案された。 しかし、それらは主に別の問題として扱われており、通常は実験的にのみ決定できるパラメータを持つ非線形第一原理モデルに依存している。 近年のDeep Reinforcement Learning(DRL)の台頭は、試行錯誤に基づくアプローチによって、最適なガイダンスポリシーをゼロからエンドツーエンドに学習する、という別のアプローチを示唆している。 本稿では,未作動の自律表面車両をコレーグに準拠して制御する二重目的問題に適用し,他の船舶との衝突を回避しつつ,事前の既知の所望経路を追従する,連続制御タスクにおける最先端性能を示すdrlアルゴリズムであるproximal policy optimization (ppo)の可能性を検討する。 ノルウェー海の入り江であるトロンドハイム・フィヨルド(Trondheim Fjord)からの高忠実度標高とAIS追跡データに基づいて、エージェントの最終的な成功は、挑戦的だが現実的な船の遭遇に対処しながら、非均一な海洋を航行する能力にかかっている、挑戦的で動的な現実のシナリオにおいて、訓練されたエージェントのパフォーマンスを評価する。

Path Following and Collision Avoidance, be it for unmanned surface vessels or other autonomous vehicles, are two fundamental guidance problems in robotics. For many decades, they have been subject to academic study, leading to a vast number of proposed approaches. However, they have mostly been treated as separate problems, and have typically relied on non-linear first-principles models with parameters that can only be determined experimentally. The rise of Deep Reinforcement Learning (DRL) in recent years suggests an alternative approach: end-to-end learning of the optimal guidance policy from scratch by means of a trial-and-error based approach. In this article, we explore the potential of Proximal Policy Optimization (PPO), a DRL algorithm with demonstrated state-of-the-art performance on Continuous Control tasks, when applied to the dual-objective problem of controlling an underactuated Autonomous Surface Vehicle in a COLREGs compliant manner such that it follows an a priori known desired path while avoiding collisions with other vessels along the way. Based on high-fidelity elevation and AIS tracking data from the Trondheim Fjord, an inlet of the Norwegian sea, we evaluate the trained agent's performance in challenging, dynamic real-world scenarios where the ultimate success of the agent rests upon its ability to navigate non-uniform marine terrain while handling challenging, but realistic vessel encounters.
翻訳日:2022-11-20 19:54:01 公開日:2020-06-16
# ウォークメッセージパッシングニューラルネットワークと2次グラフニューラルネットワーク

Walk Message Passing Neural Networks and Second-Order Graph Neural Networks ( http://arxiv.org/abs/2006.09499v1 )

ライセンス: Link先を確認
Floris Geerts(参考訳) メッセージパッシングニューラルネットワーク(MPNN)の表現力は、1次元Weisfeiler-Lemanグラフ(1-WL)の表現力と一致することが知られている。 MPNNの表現力を高めるために、高次元のWeisfeiler-Lemanテストに基づいて、最近多くのグラフニューラルネットワークアーキテクチャが提案されている。 本稿では,2次元 (2-WL) テストについて考察し,その特徴を頂点間距離$\ell$-walk MPNNと呼ばれる新しいタイプのMPNNを導入する。 2ドルのMPNNが2-WLと表現力で一致していることを示す。 より一般的に、$\ell$-walk MPNNは、任意の$\ell\geq 2$に対して、最近導入された$\ell$-walkリファインメントプロシージャ(W[$\ell$])の表現力と一致する。 2-WL と W[$\ell$] の対応に基づき、$\ell$-walk MPNN と $2$-walk MPNN が同じ表現力を持つ、すなわち、同じグラフのペアを区別できるが、$$$-walk MPNN は 2$-walk MPNN よりも早くグラフのペアを区別することができる。 表現力で2-WLまたはW[$\ell$]と一致する具体的な学習可能なグラフニューラルネットワーク(GNN)形式について、非線形層を許容する2階グラフニューラルネットワークを検討する。 特に、W[$\ell$] を表現力で一致させるために、各層で$\ell-1$行列乗法を許す。 我々は、特徴のタイプ(例えば可算集合から来るか、非可算集合から来るか)によって、特徴を表現するのに必要な次元の数に影響するため、2次gnnの異なるバージョンを提案する。 以上の結果から,複数行列乗算による層内の非線形性の増加は表現力を増加させるものではないことが示唆された。 最善の点では、入力グラフの区別がより速くなります。

The expressive power of message passing neural networks (MPNNs) is known to match the expressive power of the 1-dimensional Weisfeiler-Leman graph (1-WL) isomorphism test. To boost the expressive power of MPNNs, a number of graph neural network architectures have recently been proposed based on higher-dimensional Weisfeiler-Leman tests. In this paper we consider the two-dimensional (2-WL) test and introduce a new type of MPNNs, referred to as $\ell$-walk MPNNs, which aggregate features along walks of length $\ell$ between vertices. We show that $2$-walk MPNNs match 2-WL in expressive power. More generally, $\ell$-walk MPNNs, for any $\ell\geq 2$, are shown to match the expressive power of the recently introduced $\ell$-walk refinement procedure (W[$\ell$]). Based on a correspondence between 2-WL and W[$\ell$], we observe that $\ell$-walk MPNNs and $2$-walk MPNNs have the same expressive power, i.e., they can distinguish the same pairs of graphs, but $\ell$-walk MPNNs can possibly distinguish pairs of graphs faster than $2$-walk MPNNs. When it comes to concrete learnable graph neural network (GNN) formalisms that match 2-WL or W[$\ell$] in expressive power, we consider second-order graph neural networks that allow for non-linear layers. In particular, to match W[$\ell$] in expressive power, we allow $\ell-1$ matrix multiplications in each layer. We propose different versions of second-order GNNs depending on the type of features (i.e., coming from a countable set, or coming from an uncountable set) as this affects the number of dimensions needed to represent the features. Our results indicate that increasing non-linearity in layers by means of allowing multiple matrix multiplications does not increase expressive power. At the very best, it results in a faster distinction of input graphs.
翻訳日:2022-11-20 19:47:30 公開日:2020-06-16
# アイテムセットの分解可能なファミリー

Decomposable Families of Itemsets ( http://arxiv.org/abs/2006.09533v1 )

ライセンス: Link先を確認
Nikolaj Tatti, Hannes Heikinheimo(参考訳) アイテムセットの大きなコレクションから、小さなが高品質なパターンのサブセットを選択するという問題は、最近多くの研究を引き寄せている。 ここでは、アイテムセットの分解可能なファミリーの概念を用いて、この問題に対するアプローチについて議論する。 このようなアイテムセットファミリーは、元のアイテムセットのコレクションが派生したデータに対する確率モデルを定義する。 さらにそれらは、マルコフ確率場の理論に精通したジャンクション木と呼ばれる特別な木構造を誘導する。 この方法にはいくつかの利点がある。 ジャンクションツリーは、採掘結果の直感的な表現を提供する。 計算の観点からは、このモデルはアイテムセットのコレクション全体を使用して難解な問題に対するレバレッジを提供する。 我々は,分解可能なアイテムセットファミリを構築するための効率的なアルゴリズムを提供し,そのモデルを用いた頻度境界クエリを用いたアプリケーション例を示す。 実験結果から,本アルゴリズムは高品質な結果が得られることが示された。

The problem of selecting a small, yet high quality subset of patterns from a larger collection of itemsets has recently attracted lot of research. Here we discuss an approach to this problem using the notion of decomposable families of itemsets. Such itemset families define a probabilistic model for the data from which the original collection of itemsets has been derived from. Furthermore, they induce a special tree structure, called a junction tree, familiar from the theory of Markov Random Fields. The method has several advantages. The junction trees provide an intuitive representation of the mining results. From the computational point of view, the model provides leverage for problems that could be intractable using the entire collection of itemsets. We provide an efficient algorithm to build decomposable itemset families, and give an application example with frequency bound querying using the model. Empirical results show that our algorithm yields high quality results.
翻訳日:2022-11-20 19:46:39 公開日:2020-06-16
# $\psi$-Learning Incorporated Linear non-Gaussian Acyclic Model (\psi$-LiNGAM) を用いたfMRIからの脳結合の因果推論

Causal inference of brain connectivity from fMRI with $\psi$-Learning Incorporated Linear non-Gaussian Acyclic Model ($\psi$-LiNGAM) ( http://arxiv.org/abs/2006.09536v1 )

ライセンス: Link先を確認
Aiying Zhang, Gemeng Zhang, Biao Cai, Wenxing Hu, Li Xiao, Tony W. Wilson, Julia M. Stephen, Vince D. Calhoun and Yu-Ping Wang(参考訳) 機能的結合(fc)は、脳ネットワークの相互作用を識別し、最終的にこれらの相互作用がどのように認知を生み出すかを理解するための主要な手段となっている。 FCの一般的な定義は、測定された脳領域間の統計的関連である。 しかし、関連づけは空間的接続のみを提供するが、興味のある領域間の因果的相互作用は提供できないため、これは問題となる可能性がある。 したがって、それらの因果関係を研究する必要がある。 直進非巡回グラフ(DAG)モデルは近年のFC研究で応用されているが、限られたサンプルサイズや多数の変数(高次元問題)といった問題にしばしば遭遇し、計算困難と収束問題の両方を引き起こす。 その結果、DAGモデルの使用は問題であり、一般にDAGモデルの識別は非決定論的多項式時間(NP-hard)である。 この目的のために, 線形非ガウス的非巡回モデル($\psi$-LiNGAM)を提案する。 因果推論を促進するために連想モデル($\psi$-learning)を使用し、特に高次元の場合ではうまく機能します。 シミュレーションの結果,提案手法は既存のグラフ構造や方向を検出する手法よりも頑健で精度が高いことがわかった。 次に,Philphi Neurodevelopmental Cohort (PNC) から得られた静止状態fMRI(rsfMRI)データを用いて,8歳から22歳までの855名の認知的分散について検討した。 そこで我々は,情報受信,送信,中継のセンタに対応する3種類のハブ構造,in-hub,out-hub,sum-hubを特定した。 また、16組の最も重要な因果フローも検出した。 いくつかの結果は生物学的に有意であることが確認されている。

Functional connectivity (FC) has become a primary means of understanding brain functions by identifying brain network interactions and, ultimately, how those interactions produce cognitions. A popular definition of FC is by statistical associations between measured brain regions. However, this could be problematic since the associations can only provide spatial connections but not causal interactions among regions of interests. Hence, it is necessary to study their causal relationship. Directed acyclic graph (DAG) models have been applied in recent FC studies but often encountered problems such as limited sample sizes and large number of variables (namely high-dimensional problems), which lead to both computational difficulty and convergence issues. As a result, the use of DAG models is problematic, where the identification of DAG models in general is nondeterministic polynomial time hard (NP-hard). To this end, we propose a $\psi$-learning incorporated linear non-Gaussian acyclic model ($\psi$-LiNGAM). We use the association model ($\psi$-learning) to facilitate causal inferences and the model works well especially for high-dimensional cases. Our simulation results demonstrate that the proposed method is more robust and accurate than several existing ones in detecting graph structure and direction. We then applied it to the resting state fMRI (rsfMRI) data obtained from the publicly available Philadelphia Neurodevelopmental Cohort (PNC) to study the cognitive variance, which includes 855 individuals aged 8-22 years. Therein, we have identified three types of hub structure: the in-hub, out-hub and sum-hub, which correspond to the centers of receiving, sending and relaying information, respectively. We also detected 16 most important pairs of causal flows. Several of the results have been verified to be biologically significant.
翻訳日:2022-11-20 19:46:25 公開日:2020-06-16
# 期待最大化フィルタを用いたプラグアンドプレイ異常検出

Plug-and-Play Anomaly Detection with Expectation Maximization Filtering ( http://arxiv.org/abs/2006.08933v1 )

ライセンス: Link先を確認
Muhammad Umar Karim Khan, Mishal Fatima, Chong-Min Kyung(参考訳) 群衆の異常検出は早期の救助反応を可能にする。 群衆監視のためのプラグアンドプレイ型スマートカメラは、典型的な異常検出とは異なる多くの制約があり、トレーニングデータを反復的に使用できない、トレーニングラベルがない、トレーニングと分類を同時に行う必要がある。 本稿では、これらの制約をすべてアプローチで解決する。 本稿では,教師なし手法を用いてシーン内の物体の動作挙動を学習するコア異常検出(cad)ニューラルネットワークを提案する。 標準データセットの平均的な1エポックトレーニングのCADは、畳み込みオートエンコーダと畳み込みLSTMベースの手法による最良の結果と比較して、AUC(Area Under the Curve)の4.66%と4.9%の増加を示している。 本手法は1回の訓練で,畳み込みLSTM法と比較してAUCを8.03%改善する。 また,コア異常検出ネットワークをトレーニングするためのサンプルを選択する期待最大化フィルタを提案する。 全体的なフレームワークは、ビデオストリーム上で群衆異常検出が行われると、将来のフレーム予測ベースのアプローチに比べて24.87%改善する。 私たちの研究は、自律的なプラグアンドプレイ型スマートカメラを使って、群衆の異常検出にディープラーニングを使うための第一歩だと信じています。

Anomaly detection in crowds enables early rescue response. A plug-and-play smart camera for crowd surveillance has numerous constraints different from typical anomaly detection: the training data cannot be used iteratively; there are no training labels; and training and classification needs to be performed simultaneously. We tackle all these constraints with our approach in this paper. We propose a Core Anomaly-Detection (CAD) neural network which learns the motion behavior of objects in the scene with an unsupervised method. On average over standard datasets, CAD with a single epoch of training shows a percentage increase in Area Under the Curve (AUC) of 4.66% and 4.9% compared to the best results with convolutional autoencoders and convolutional LSTM-based methods, respectively. With a single epoch of training, our method improves the AUC by 8.03% compared to the convolutional LSTM-based approach. We also propose an Expectation Maximization filter which chooses samples for training the core anomaly-detection network. The overall framework improves the AUC compared to future frame prediction-based approach by 24.87% when crowd anomaly detection is performed on a video stream. We believe our work is the first step towards using deep learning methods with autonomous plug-and-play smart cameras for crowd anomaly detection.
翻訳日:2022-11-20 19:45:44 公開日:2020-06-16
# MuPPET(Multi-Precision Policy Enforceed Training) : CNNの定量定点トレーニングのための精度切替戦略

Multi-Precision Policy Enforced Training (MuPPET): A precision-switching strategy for quantised fixed-point training of CNNs ( http://arxiv.org/abs/2006.09049v1 )

ライセンス: Link先を確認
Aditya Rajagopal, Diederik Adriaan Vink, Stylianos I. Venieris, Christos-Savvas Bouganis(参考訳) 大規模な畳み込みニューラルネットワーク(CNN)は、数時間から数週間にわたる非常に長いトレーニング時間に悩まされており、ディープラーニング実践者の生産性と実験を制限している。 ネットワークのサイズと複雑さが大きくなるにつれて、低精度のデータ表現と計算によってトレーニング時間を短縮できる。 しかし、そのような場合、最終的な精度は勾配の消失の問題に悩まされる。 既存の最先端手法では、FP32(32ビット浮動小数点)とFP16/FP8(16ビット浮動小数点)の2つの異なる精度レベルを利用した混合精度アプローチでこの問題に対処し、最近のGPUアーキテクチャのハードウェアサポートを活用して性能向上を実現している。 この研究は、低精度の不動点表現を含む複数の精度を利用するマルチレベル最適化アプローチを用いることで、量子化トレーニングの境界を押し上げる。 新たなトレーニング戦略である MuPPET は、複数の表現規則の使用と、実行時に精度規則間の遷移点を決定する精度スイッチング機構を組み合わせる。 提案した戦略は、目標とするハードウェアアーキテクチャのハードウェアレベルの能力にトレーニングプロセスを調整し、最先端のアプローチと比較してトレーニング時間とエネルギー効率の改善をもたらす。 イメージネット(ILSVRC12)上のAlexNet、ResNet18、GoogLeNetのトレーニングにMuPPETを適用し、NVIDIA Turing GPUをターゲットにしたMuPPETは、トレーニングタイムの最大1.84$\times$、ネットワーク全体の平均スピードアップ1.58$\times$と同じ精度を達成している。

Large-scale convolutional neural networks (CNNs) suffer from very long training times, spanning from hours to weeks, limiting the productivity and experimentation of deep learning practitioners. As networks grow in size and complexity, training time can be reduced through low-precision data representations and computations. However, in doing so the final accuracy suffers due to the problem of vanishing gradients. Existing state-of-the-art methods combat this issue by means of a mixed-precision approach utilising two different precision levels, FP32 (32-bit floating-point) and FP16/FP8 (16-/8-bit floating-point), leveraging the hardware support of recent GPU architectures for FP16 operations to obtain performance gains. This work pushes the boundary of quantised training by employing a multilevel optimisation approach that utilises multiple precisions including low-precision fixed-point representations. The novel training strategy, MuPPET, combines the use of multiple number representation regimes together with a precision-switching mechanism that decides at run time the transition point between precision regimes. Overall, the proposed strategy tailors the training process to the hardware-level capabilities of the target hardware architecture and yields improvements in training time and energy efficiency compared to state-of-the-art approaches. Applying MuPPET on the training of AlexNet, ResNet18 and GoogLeNet on ImageNet (ILSVRC12) and targeting an NVIDIA Turing GPU, MuPPET achieves the same accuracy as standard full-precision training with training-time speedup of up to 1.84$\times$ and an average speedup of 1.58$\times$ across the networks.
翻訳日:2022-11-20 19:45:24 公開日:2020-06-16
# data-poorドメインにおけるディープマルチモーダル転送学習レグレッション

Deep Multimodal Transfer-Learned Regression in Data-Poor Domains ( http://arxiv.org/abs/2006.09310v1 )

ライセンス: Link先を確認
Levi McClenny, Mulugeta Haile, Vahid Attari, Brian Sadler, Ulisses Braga-Neto, Raymundo Arroyave(参考訳) 多くの現実世界のディープラーニングアプリケーションでは、ターゲットの推定はオーディオビデオや画像テキストなど、さまざまな入力データモードに依存する可能性がある。 このタスクは十分なデータがないためにさらに複雑になる可能性がある。 本稿では,データポーア領域における対象パラメータの予測に有効である深層回帰アーキテクチャにおいて,画像と特徴データのマルチモーダル学習を行うための深層マルチモーダル転送型レグレッサ(dmtl-r)を提案する。 本モデルは、ネットワークトレーニング中の補足データモードからの特徴情報を同時に調整しながら、少量のトレーニング画像データに対して所定のcnn重みを微調整することができ、画像や特徴だけで達成できるよりも高精度な単一目標または多目標回帰を実現する。 そこで本研究では,様々なcnnアーキテクチャから事前学習した重みを用いて,物理特性を付加した位相場シミュレーション画像を用いて,マルチモーダル手法の有効性を示す。

In many real-world applications of deep learning, estimation of a target may rely on various types of input data modes, such as audio-video, image-text, etc. This task can be further complicated by a lack of sufficient data. Here we propose a Deep Multimodal Transfer-Learned Regressor (DMTL-R) for multimodal learning of image and feature data in a deep regression architecture effective at predicting target parameters in data-poor domains. Our model is capable of fine-tuning a given set of pre-trained CNN weights on a small amount of training image data, while simultaneously conditioning on feature information from a complimentary data mode during network training, yielding more accurate single-target or multi-target regression than can be achieved using the images or the features alone. We present results using phase-field simulation microstructure images with an accompanying set of physical features, using pre-trained weights from various well-known CNN architectures, which demonstrate the efficacy of the proposed multimodal approach.
翻訳日:2022-11-20 19:44:07 公開日:2020-06-16
# 知らないことを伝える:反復的なデータマイニングのためのランダム化戦略

Tell Me Something I Don't Know: Randomization Strategies for Iterative Data Mining ( http://arxiv.org/abs/2006.09467v1 )

ライセンス: Link先を確認
Sami Hanhij\"arvi, Markus Ojala, Niko Vuokko, Kai Puolam\"aki, Nikolaj Tatti, Heikki Mannila(参考訳) さまざまなデータマイニング手法が利用可能であり、探索的なデータ分析において、同じデータセットに多くの異なる方法を使用するのが一般的である。 しかし、ある方法によって得られた結果が別の方法の結果によって示される現象の反映であるかどうか、あるいはある意味無関係な性質で表されるのかという問題を引き起こす。 例えば、クラスタリングを使用することで、明確なクラスタ構造を示すことができ、変数間の計算相関は、データに多くの重要な相関関係があることを示せる。 しかし、相関が実際にクラスター構造によって決定される場合も考えられる。 本稿では,以前に発見されたパターンやモデルを考慮に入れるために,データをランダム化する問題を考える。 ランダム化法は反復的なデータマイニングに利用できる。 データマイニングプロセスの各ステップにおいて、ランダム化は、既に発見されたパターンやモデルを満たす一連のデータ行列からランダムなサンプルを生成する。 すなわち、データセットといくつかの統計値(例えばクラスタセンターや共起数)が与えられた場合、ランダム化手法は、与えられた統計値と元のデータセットとの類似値を持つデータセットをサンプリングする。 ローカルスワップに基づくメトロポリスサンプリングを用いてこれを実現する。 本手法の有用性を示す実データ実験について述べる。 その結果、多くの場合、例えば、クラスタリングの結果は、例えば、頻繁なパターン発見の結果を意味することが示されています。

There is a wide variety of data mining methods available, and it is generally useful in exploratory data analysis to use many different methods for the same dataset. This, however, leads to the problem of whether the results found by one method are a reflection of the phenomenon shown by the results of another method, or whether the results depict in some sense unrelated properties of the data. For example, using clustering can give indication of a clear cluster structure, and computing correlations between variables can show that there are many significant correlations in the data. However, it can be the case that the correlations are actually determined by the cluster structure. In this paper, we consider the problem of randomizing data so that previously discovered patterns or models are taken into account. The randomization methods can be used in iterative data mining. At each step in the data mining process, the randomization produces random samples from the set of data matrices satisfying the already discovered patterns or models. That is, given a data set and some statistics (e.g., cluster centers or co-occurrence counts) of the data, the randomization methods sample data sets having similar values of the given statistics as the original data set. We use Metropolis sampling based on local swaps to achieve this. We describe experiments on real data that demonstrate the usefulness of our approach. Our results indicate that in many cases, the results of, e.g., clustering actually imply the results of, say, frequent pattern discovery.
翻訳日:2022-11-20 19:35:14 公開日:2020-06-16
# タイムウインドウを用いた共同注意による車両経路問題の解法

Learning to Solve Vehicle Routing Problems with Time Windows through Joint Attention ( http://arxiv.org/abs/2006.09100v1 )

ライセンス: Link先を確認
Jonas K. Falkner and Lars Schmidt-Thieme(参考訳) 多くの現実世界の車両ルーティング問題には、車両の容量、顧客のための時間窓などに関する豊富な制約がある。 近年、最適化ヒューリスティックよりも高速に車両の経路問題を解くための機械学習モデルが開発されているが、複雑な制約を考慮することはまれである。 解を逐次経路で構成する一般的な手順のため、これらの手法はそのような問題に対して不利に一般化する。 本稿では,複数のツアーの協調行動空間に注意を払って,複数のルートを同時に開始・拡張できるポリシーモデルを開発する。 このようにして、モデルはルートと顧客を選択できるため、ルート間のトレードオフが難しいことを学べる。 時間窓付き車両経路問題の3つの変種に関する総合的な実験において、我々のモデルであるJAMPRは、異なる問題サイズでうまく機能し、既存の最先端建設モデルより優れていることを示す。 3つの変種のうちの2つは、同等のメタヒューリスティック解法よりもはるかに優れた解を生成する。

Many real-world vehicle routing problems involve rich sets of constraints with respect to the capacities of the vehicles, time windows for customers etc. While in recent years first machine learning models have been developed to solve basic vehicle routing problems faster than optimization heuristics, complex constraints rarely are taken into consideration. Due to their general procedure to construct solutions sequentially route by route, these methods generalize unfavorably to such problems. In this paper, we develop a policy model that is able to start and extend multiple routes concurrently by using attention on the joint action space of several tours. In that way the model is able to select routes and customers and thus learns to make difficult trade-offs between routes. In comprehensive experiments on three variants of the vehicle routing problem with time windows we show that our model called JAMPR works well for different problem sizes and outperforms the existing state-of-the-art constructive model. For two of the three variants it also creates significantly better solutions than a comparable meta-heuristic solver.
翻訳日:2022-11-20 19:28:52 公開日:2020-06-16
# 深層学習における正規化法の新たな解釈

New Interpretations of Normalization Methods in Deep Learning ( http://arxiv.org/abs/2006.09104v1 )

ライセンス: Link先を確認
Jiacheng Sun, Xiangyong Cao, Hanwen Liang, Weiran Huang, Zewei Chen, Zhenguo Li(参考訳) 近年、バッチ正規化(BN)、レイヤ正規化(LN)、重量正規化(WN)、グループ正規化(GN)など、ニューラルネットワークのトレーニングを支援する様々な正規化手法が提案されている。 しかし、これらすべての正規化法を分析する数学的ツールが不足している。 本稿ではまず,必要なツールを定義するための補題を提案する。 そして、これらのツールを用いて、一般的な正規化手法を深く分析し、以下の結論を得る。 1) ほとんどの正規化方法は,球面上の事前活性化又は重みの正規化という,統一的な枠組みで解釈することができる。 2) 既存の正規化手法の多くはスケール不変であるため,スケーリング対称性を排除した球面上で最適化を行うことができ,ネットワークのトレーニングの安定化に寄与する。 3) これらの正規化手法による訓練は重みの規範を増加させ,攻撃の増幅に伴って敵の脆弱性を引き起こす可能性があることを証明した。 最後に、これらの主張を検証するために一連の実験が行われた。

In recent years, a variety of normalization methods have been proposed to help train neural networks, such as batch normalization (BN), layer normalization (LN), weight normalization (WN), group normalization (GN), etc. However, mathematical tools to analyze all these normalization methods are lacking. In this paper, we first propose a lemma to define some necessary tools. Then, we use these tools to make a deep analysis on popular normalization methods and obtain the following conclusions: 1) Most of the normalization methods can be interpreted in a unified framework, namely normalizing pre-activations or weights onto a sphere; 2) Since most of the existing normalization methods are scaling invariant, we can conduct optimization on a sphere with scaling symmetry removed, which can help stabilize the training of network; 3) We prove that training with these normalization methods can make the norm of weights increase, which could cause adversarial vulnerability as it amplifies the attack. Finally, a series of experiments are conducted to verify these claims.
翻訳日:2022-11-20 19:28:33 公開日:2020-06-16
# ディファレンシャルプライバシを用いたモデル説明

Model Explanations with Differential Privacy ( http://arxiv.org/abs/2006.09129v1 )

ライセンス: Link先を確認
Neel Patel, Reza Shokri, Yair Zick(参考訳) ブラックボックス機械学習モデルは重要な意思決定領域で使われており、よりアルゴリズム的な透明性を求める声が上がっている。 欠点は、モデル説明がトレーニングデータとそれらを生成するために使用される説明データに関する情報を漏洩させることで、データのプライバシーを損なうことだ。 この問題に対処するために,特徴に基づくモデル記述を構築するための差分プライベートアルゴリズムを提案する。 適応型差分勾配降下アルゴリズムを設計し, 正確な説明を行うために必要な最小限のプライバシー予算を求める。 過去の微分的プライベートな説明を適応的に再利用することで、説明データの全体的なプライバシー損失を低減する。 また、トレーニングデータに関してプライバシの保証を増幅する。 我々は、微分プライベートモデルとプライバシーメカニズムがモデル説明の質に与える影響を評価する。

Black-box machine learning models are used in critical decision-making domains, giving rise to several calls for more algorithmic transparency. The drawback is that model explanations can leak information about the training data and the explanation data used to generate them, thus undermining data privacy. To address this issue, we propose differentially private algorithms to construct feature-based model explanations. We design an adaptive differentially private gradient descent algorithm, that finds the minimal privacy budget required to produce accurate explanations. It reduces the overall privacy loss on explanation data, by adaptively reusing past differentially private explanations. It also amplifies the privacy guarantees with respect to the training data. We evaluate the implications of differentially private models and our privacy mechanisms on the quality of model explanations.
翻訳日:2022-11-20 19:27:34 公開日:2020-06-16
# MDLを用いた数値的対象の優れたサブグループリストの発見

Discovering outstanding subgroup lists for numeric targets using MDL ( http://arxiv.org/abs/2006.09186v1 )

ライセンス: Link先を確認
Hugo M. Proen\c{c}a, Peter Gr\"unwald, Thomas B\"ack, Matthijs van Leeuwen(参考訳) サブグループ発見(SD)の課題は、ターゲット属性に関して際立ったデータセットのサブセットの解釈可能な記述を見つけることである。 多数の冗長部分群をマイニングする問題に対処するため,サブグループ集合探索(SSD)が提案されている。 しかし、最先端のSSDメソッドには制限がある。 本稿では,最小記述長(MDL)の原理とサブグループリストに基づくサブグループ集合発見のための分散型問題定式化を提案する。 最適なサブグループリストは、対象の全体分布からデータを最もよく要約したものであると論じる。 我々は、焦点を1つの数値的目標変数に限定し、我々の形式化が1つの部分群を見つける際に既存の品質尺度と一致することを示すが、その追加により、部分群の品質と部分群の複雑さとのトレードオフが可能になる。 次に、SSD++を提案する。これは、優れたサブグループリストを返すことを経験的に実証するヒューリスティックアルゴリズムである。

The task of subgroup discovery (SD) is to find interpretable descriptions of subsets of a dataset that stand out with respect to a target attribute. To address the problem of mining large numbers of redundant subgroups, subgroup set discovery (SSD) has been proposed. State-of-the-art SSD methods have their limitations though, as they typically heavily rely on heuristics and/or user-chosen hyperparameters. We propose a dispersion-aware problem formulation for subgroup set discovery that is based on the minimum description length (MDL) principle and subgroup lists. We argue that the best subgroup list is the one that best summarizes the data given the overall distribution of the target. We restrict our focus to a single numeric target variable and show that our formalization coincides with an existing quality measure when finding a single subgroup, but that-in addition-it allows to trade off subgroup quality with the complexity of the subgroup. We next propose SSD++, a heuristic algorithm for which we empirically demonstrate that it returns outstanding subgroup lists: non-redundant sets of compact subgroups that stand out by having strongly deviating means and small spread.
翻訳日:2022-11-20 19:27:07 公開日:2020-06-16
# 曲線活性化関数を持つニューラルネットワークのモデル複雑性の測定

Measuring Model Complexity of Neural Networks with Curve Activation Functions ( http://arxiv.org/abs/2006.08962v1 )

ライセンス: Link先を確認
Xia Hu, Weiqing Liu, Jiang Bian, Jian Pei(参考訳) ディープニューラルネットワークのモデル複雑さを測定するのが基本である。 モデル複雑性に関する既存の文献は、主に線形活性化関数を持つニューラルネットワークに焦点を当てている。 一般曲線活性化関数を持つニューラルネットワークのモデル複雑性は、まだ未解決の問題である。 そこで,本稿ではまず,曲線活性化関数を持つ深部モデルに近似する線形近似ニューラルネットワーク(LANN,Lyly Approximation Neural Network)を提案する。 LANNは各ニューロンの活性化機能に対して個別に線形近似を構築し、必要な近似度を満たすために線形領域の数を最小化する。 次に, LANNsによって形成される線形領域数の上界を解析し, 上界に基づく複雑性尺度を導出する。 複雑度測定の有用性を検討するため,ニューラルネットワークのトレーニング過程を実験的に検討し,オーバーフィッティングを検出する。 以上の結果から,オーバーフィッティングの発生はトレーニング中のモデルの複雑さの増加と正の相関を示した。 L^1$ と $L^2$ の正規化はモデル複雑性の増加を抑制する。 最後に,モデル複雑性を直接制約することにより,過剰フィッティングを防止するための2つのアプローチを提案する。

It is fundamental to measure model complexity of deep neural networks. The existing literature on model complexity mainly focuses on neural networks with piecewise linear activation functions. Model complexity of neural networks with general curve activation functions remains an open problem. To tackle the challenge, in this paper, we first propose the linear approximation neural network (LANN for short), a piecewise linear framework to approximate a given deep model with curve activation function. LANN constructs individual piecewise linear approximation for the activation function of each neuron, and minimizes the number of linear regions to satisfy a required approximation degree. Then, we analyze the upper bound of the number of linear regions formed by LANNs, and derive the complexity measure based on the upper bound. To examine the usefulness of the complexity measure, we experimentally explore the training process of neural networks and detect overfitting. Our results demonstrate that the occurrence of overfitting is positively correlated with the increase of model complexity during training. We find that the $L^1$ and $L^2$ regularizations suppress the increase of model complexity. Finally, we propose two approaches to prevent overfitting by directly constraining model complexity, namely neuron pruning and customized $L^1$ regularization.
翻訳日:2022-11-20 19:19:55 公開日:2020-06-16
# 付加ポアソン過程:確率過程における高次相互作用の学習強度

Additive Poisson Process: Learning Intensity of Higher-Order Interaction in Stochastic Processes ( http://arxiv.org/abs/2006.08982v1 )

ライセンス: Link先を確認
Simon Luo, Feng Zhou, Lamiae Azizi and Mahito Sugiyama(参考訳) 低次元射影を用いた確率過程における強度関数の高次相互作用効果をモデル化できる新しいフレームワークであるAdditive Poisson Process(APP)を提案する。 本モデルは,統計多様体上の高次相互作用をモデル化するために情報幾何学の手法と,次元の呪いによる効果を克服するために低次元射影を用いる一般化加法モデルを組み合わせたものである。 低次元射影におけるサンプル分布から確率過程における強度関数によってモデル化された分布へのklの発散を最小化し,凸最適化問題を解く。 実験結果から,我々は低次元空間で観測された試料を用いて,非常に少ない観測で高次強度関数を推定できることを示した。

We present the Additive Poisson Process (APP), a novel framework that can model the higher-order interaction effects of the intensity functions in stochastic processes using lower dimensional projections. Our model combines the techniques in information geometry to model higher-order interactions on a statistical manifold and in generalized additive models to use lower-dimensional projections to overcome the effects from the curse of dimensionality. Our approach solves a convex optimization problem by minimizing the KL divergence from a sample distribution in lower dimensional projections to the distribution modeled by an intensity function in the stochastic process. Our empirical results show that our model is able to use samples observed in the lower dimensional space to estimate the higher-order intensity function with extremely sparse observations.
翻訳日:2022-11-20 19:19:07 公開日:2020-06-16
# 離散時間コックスモデルによるフェデレーション生存分析

Federated Survival Analysis with Discrete-Time Cox Models ( http://arxiv.org/abs/2006.08997v1 )

ライセンス: Link先を確認
Mathieu Andreux, Andre Manoel, Romuald Menuet, Charlie Saillard, Chlo\'e Simpson(参考訳) フェデレートラーニング(FL)によって、異なるセンターに位置する分散データセットから機械学習モデルを構築することは、プライバシーを維持しながら、ローカルデータの不足を回避するための有望なアプローチである。 しかし、生存分析に使用される顕著なcox比例ハザード(ph)モデルは、その損失関数がサンプルに関して分離不能であるため、flフレームワークに適合しない。 この非分離性をバイパスするna\"iveメソッドは、中心当たりの損失を計算し、その和を真の損失の近似として最小化する。 結果として生じるモデルは、いくつかの悪条件において重要な性能損失を被る可能性がある。 代わりに、cox phモデルの離散時間拡張を利用して、分離損失関数を持つ分類問題として生存解析を定式化する。 この手法を用いて, 合成データを用いた標準FL手法と, The Cancer Genome Atlas (TCGA) による実世界のデータセットを用いて生存モデルを訓練し, 集約データに基づいて訓練されたCox PHモデルと類似した性能を示す。 従来の研究に比べて,提案手法はコミュニケーション効率が高く,汎用性が高く,プライバシ保存技術に適している。

Building machine learning models from decentralized datasets located in different centers with federated learning (FL) is a promising approach to circumvent local data scarcity while preserving privacy. However, the prominent Cox proportional hazards (PH) model, used for survival analysis, does not fit the FL framework, as its loss function is non-separable with respect to the samples. The na\"ive method to bypass this non-separability consists in calculating the losses per center, and minimizing their sum as an approximation of the true loss. We show that the resulting model may suffer from important performance loss in some adverse settings. Instead, we leverage the discrete-time extension of the Cox PH model to formulate survival analysis as a classification problem with a separable loss function. Using this approach, we train survival models using standard FL techniques on synthetic data, as well as real-world datasets from The Cancer Genome Atlas (TCGA), showing similar performance to a Cox PH model trained on aggregated data. Compared to previous works, the proposed method is more communication-efficient, more generic, and more amenable to using privacy-preserving techniques.
翻訳日:2022-11-20 19:18:55 公開日:2020-06-16
# 組立学習のためのモデル非依存結合

Model Agnostic Combination for Ensemble Learning ( http://arxiv.org/abs/2006.09025v1 )

ライセンス: Link先を確認
Ohad Silbert, Yitzhak Peleg and Evi Kopelowitz(参考訳) モデルの組み立てはシングルモデルのパフォーマンスを改善することでよく知られている。 本稿では,この組み合わせに関係するサブモデルの数に不変性を保ちながら,モデルを組み合わせるための最適関数を求めるために,MACという新しいアンサンブル手法を提案する。 サブモデルの数に依存せず、デプロイ後もサブモデルの追加と置き換えが可能で、スタッキング、ブースティング、エキスパートとスーパーラーナーの混合といった、トレーニング中に組み合わせに使用するモデルをロックし、アンサンブルに新しいモデルが導入されるたびに再トレーニングする必要がある。 我々は,Kaggle RSNAの頭蓋内出血検出チャレンジにおいて,MACは従来の平均的手法より優れており,固定数のサブモデルに対してXGBoostを介してXGBoostを推し進める競争結果が示され,サブモデルを追加してもリトレーニングなしで性能が向上することを示した。

Ensemble of models is well known to improve single model performance. We present a novel ensembling technique coined MAC that is designed to find the optimal function for combining models while remaining invariant to the number of sub-models involved in the combination. Being agnostic to the number of sub-models enables addition and replacement of sub-models to the combination even after deployment, unlike many of the current methods for ensembling such as stacking, boosting, mixture of experts and super learners that lock the models used for combination during training and therefore need retraining whenever a new model is introduced into the ensemble. We show that on the Kaggle RSNA Intracranial Hemorrhage Detection challenge, MAC outperforms classical average methods, demonstrates competitive results to boosting via XGBoost for a fixed number of sub-models, and outperforms it when adding sub-models to the combination without retraining.
翻訳日:2022-11-20 19:18:35 公開日:2020-06-16
# ラベルの分類における確率的デカップリング

Probabilistic Decoupling of Labels in Classification ( http://arxiv.org/abs/2006.09046v1 )

ライセンス: Link先を確認
Jeppe N{\o}rregaard and Lars Kai Hansen(参考訳) 本稿では,半教師付き,正アンラベル化,多陽性アンラベル化,雑音ラベル学習などの非標準分類タスクに対する原則的,確率的,統一的なアプローチを開発する。 ラベル分布を予測するために,ラベルの分類器を訓練する。 次にラベルクラス遷移のモデルを変分最適化することで、基礎となるクラス分配を推測する。

In this paper we develop a principled, probabilistic, unified approach to non-standard classification tasks, such as semi-supervised, positive-unlabelled, multi-positive-unlabelled and noisy-label learning. We train a classifier on the given labels to predict the label-distribution. We then infer the underlying class-distributions by variationally optimizing a model of label-class transitions.
翻訳日:2022-11-20 19:17:48 公開日:2020-06-16
# フラットネスは偽りの友人です

Flatness is a False Friend ( http://arxiv.org/abs/2006.09091v1 )

ライセンス: Link先を確認
Diego Granziol(参考訳) トレース、フロベニウス、スペクトルノルムといったヘッセンに基づく平坦性の測度が議論され、一般化に関係して示されてきた。 本稿では,クロスエントロピー損失下でのフィードフォワードニューラルネットワークについて,重みを持つ低損失解には,ヘシアンベースの平坦性尺度が小さいことを実証する。 これは、l2$の正規化で得られる解は、一般化したにもかかわらず、原則として非正規化より鋭くなければならないことを意味する。 これは、ロジスティック回帰、多層パーセプトロン、単純な畳み込み、mnistおよびcifar-100$データセット上の事前活性化および広範囲の残留ネットワークに当てはまる。 さらに,イテレート平均化を用いた適応最適化アルゴリズムでは,vgg-$16$ network と cifar-$100$ dataset において,sgd の優れた一般化を実現するが,30 \times$ sharp であることを示す。 この理論的発見は、実験結果とともに、一般化の議論において、ヘッセンに基づく鋭度尺度の有効性に関する深刻な疑問を提起する。 さらに,ヘシアンのランクはクラス数に乗じた一定回数のニューロン数で区切ることができ,実際にはネットワークパラメータのごく一部であることが多い。 これは、多くのヘッセン固有値が、文献で報告されているゼロまたは非常に0に近いものであるという興味深い観察を説明する。

Hessian based measures of flatness, such as the trace, Frobenius and spectral norms, have been argued, used and shown to relate to generalisation. In this paper we demonstrate that for feed forward neural networks under the cross entropy loss, we would expect low loss solutions with large weights to have small Hessian based measures of flatness. This implies that solutions obtained using $L2$ regularisation should in principle be sharper than those without, despite generalising better. We show this to be true for logistic regression, multi-layer perceptrons, simple convolutional, pre-activated and wide residual networks on the MNIST and CIFAR-$100$ datasets. Furthermore, we show that for adaptive optimisation algorithms using iterate averaging, on the VGG-$16$ network and CIFAR-$100$ dataset, achieve superior generalisation to SGD but are $30 \times$ sharper. This theoretical finding, along with experimental results, raises serious questions about the validity of Hessian based sharpness measures in the discussion of generalisation. We further show that the Hessian rank can be bounded by the a constant times number of neurons multiplied by the number of classes, which in practice is often a small fraction of the network parameters. This explains the curious observation that many Hessian eigenvalues are either zero or very near zero which has been reported in the literature.
翻訳日:2022-11-20 19:17:39 公開日:2020-06-16
# 単調ニューラルネットワークの逆例学習

Counterexample-Guided Learning of Monotonic Neural Networks ( http://arxiv.org/abs/2006.08852v1 )

ライセンス: Link先を確認
Aishwarya Sivaraman, Golnoosh Farnadi, Todd Millstein, Guy Van den Broeck(参考訳) ディープラーニングの普及は、帰納バイアスを最小限に抑えた自動的特徴構築によることが多い。 しかし、多くの現実世界のタスクでは、学習関数はドメイン固有の制約を満たすことを意図している。 我々は、特定の入力特徴の値の増加に伴い、関数の出力が増加することを要求し、共通する単調性制約に焦点を当てる。 予測時間に一調性制約を強制する反例誘導手法を開発した。 さらに,単調性をディープラーニングの帰納的バイアスとして用いる手法を提案する。 学習プロセスに単調な反例を反復的に組み込むことで機能する。 単調学習における先行研究とは対照的に,一般のreluニューラルネットワークを対象とし,仮説空間をこれ以上制限しない。 我々はこれらの手法をCOMETと呼ばれるツールで実装した。 実世界のデータセットを用いた実験では,既存のモノトニック学習者と比較して,我々の手法が最先端の結果を達成し,モノトニック性制約を考慮に入れずにトレーニングした者に比べてモデル品質を向上させることが示されている。

The widespread adoption of deep learning is often attributed to its automatic feature construction with minimal inductive bias. However, in many real-world tasks, the learned function is intended to satisfy domain-specific constraints. We focus on monotonicity constraints, which are common and require that the function's output increases with increasing values of specific input features. We develop a counterexample-guided technique to provably enforce monotonicity constraints at prediction time. Additionally, we propose a technique to use monotonicity as an inductive bias for deep learning. It works by iteratively incorporating monotonicity counterexamples in the learning process. Contrary to prior work in monotonic learning, we target general ReLU neural networks and do not further restrict the hypothesis space. We have implemented these techniques in a tool called COMET. Experiments on real-world datasets demonstrate that our approach achieves state-of-the-art results compared to existing monotonic learners, and can improve the model quality compared to those that were trained without taking monotonicity constraints into account.
翻訳日:2022-11-20 19:11:42 公開日:2020-06-16
# ユニバーサル近似のための最小幅

Minimum Width for Universal Approximation ( http://arxiv.org/abs/2006.08859v1 )

ライセンス: Link先を確認
Sejun Park, Chulhee Yun, Jaeho Lee, Jinwoo Shin(参考訳) 幅境界ネットワークの普遍近似特性は、深さ境界ネットワーク上の古典的普遍近似結果の双対として研究されている。 しかし、普遍近似を可能にする臨界幅は、入力次元$d_x$と出力次元$d_y$で明確に特徴づけられていない。 本稿では、ReLUアクティベーション関数を用いたネットワークに対するこの方向の最初の決定的な結果を与える:$L^p$関数の普遍近似に必要な最小幅は、正確に$\max\{d_x+1,d_y\}$である。 また、同じ結論が ReLU との等式近似に当てはまるのではなく、追加のしきい値アクティベーション関数で成り立つことを証明している。 また, 一般活性化関数を持つネットワークを用いて, 普遍近似に必要な最小幅に, より厳密な上限を導出することができる。

The universal approximation property of width-bounded networks has been studied as a dual of classical universal approximation results on depth-bounded networks. However, the critical width enabling the universal approximation has not been exactly characterized in terms of the input dimension $d_x$ and the output dimension $d_y$. In this work, we provide the first definitive result in this direction for networks using the ReLU activation functions: The minimum width required for the universal approximation of the $L^p$ functions is exactly $\max\{d_x+1,d_y\}$. We also prove that the same conclusion does not hold for the uniform approximation with ReLU, but does hold with an additional threshold activation function. Our proof technique can be also used to derive a tighter upper bound on the minimum width required for the universal approximation using networks with general activation functions.
翻訳日:2022-11-20 19:11:27 公開日:2020-06-16
# 集合グラフィカルモデルに基づく確率的最適輸送

Probabilistic Optimal Transport based on Collective Graphical Models ( http://arxiv.org/abs/2006.08866v1 )

ライセンス: Link先を確認
Yasunori Akagi, Yusuke Tanaka, Tomoharu Iwata, Takeshi Kurashima, Hiroyuki Toda(参考訳) 最適輸送(OT)は、確率分布とヒストグラムの類似性を測定する強力なツールであるため、機械学習やコンピュータビジョンなどの様々な分野で広く利用されている。 これまでの研究では、OTは確率質量をある確率分布から別の確率分布へ輸送する最小コストとして定義されてきた。 本研究では,OTを確率的生成モデルの最大後部解(MAP)とみなす新しい枠組みを提案する。 提案したフレームワークでは, エントロピー正則化を伴うOTは, グラフィカルモデルから生成された複数のサンプルの集計統計を記述した, CGM (Collective Graphical Model) と呼ばれる確率モデルの後部確率の最大化に等価であることを示す。 CGMのMAPソリューションとしてのOTの解釈には、以下の2つの利点がある。 (i)騒音分布のモデル化により,騒音ヒストグラム間の不一致を計算できる。 様々な分布をノイズモデリングに利用することができるため、騒音分布を柔軟に選択して状況に適合させることができる。 (ii)otの重要な応用であるヒストグラム間の補間法を新たに構築することができる。 提案手法により,確率的解釈に基づく直感的モデリングが可能となり,簡便で効率的な推定アルゴリズムが利用可能となる。 合成および実世界の時空間人口データセットを用いた実験により,提案手法の有効性が示された。

Optimal Transport (OT) is being widely used in various fields such as machine learning and computer vision, as it is a powerful tool for measuring the similarity between probability distributions and histograms. In previous studies, OT has been defined as the minimum cost to transport probability mass from one probability distribution to another. In this study, we propose a new framework in which OT is considered as a maximum a posteriori (MAP) solution of a probabilistic generative model. With the proposed framework, we show that OT with entropic regularization is equivalent to maximizing a posterior probability of a probabilistic model called Collective Graphical Model (CGM), which describes aggregated statistics of multiple samples generated from a graphical model. Interpreting OT as a MAP solution of a CGM has the following two advantages: (i) We can calculate the discrepancy between noisy histograms by modeling noise distributions. Since various distributions can be used for noise modeling, it is possible to select the noise distribution flexibly to suit the situation. (ii) We can construct a new method for interpolation between histograms, which is an important application of OT. The proposed method allows for intuitive modeling based on the probabilistic interpretations, and a simple and efficient estimation algorithm is available. Experiments using synthetic and real-world spatio-temporal population datasets show the effectiveness of the proposed interpolation method.
翻訳日:2022-11-20 19:11:12 公開日:2020-06-16
# 期待に基づく目標のためのgo hessian

GO Hessian for Expectation-Based Objectives ( http://arxiv.org/abs/2006.08873v1 )

ライセンス: Link先を確認
Yulai Cong, Miaoyun Zhao, Jianqiao Li, Junya Chen, Lawrence Carin(参考訳) 期待に基づく目標である$\mathbb{e}_{q_{\boldsymbol{\gamma}}(\boldsymbol{y})} [f(\boldsymbol{y})]$, ここで確率変数 (rv) $\boldsymbol{y}$ は連続(非可換)の内部ノードと連続/離散葉を持つ確率的計算グラフから引き出すことができる。 GO勾配をアップグレードすると、$\mathbb{E}_{q_{\boldsymboldsymbol {\gamma}}}(\boldsymbol{y})} [f(\boldsymbol{y})]$ an unbiased low-variance Hessian estimator, named GO Hessian が現れる。 実用的な実装を考えると,GO Hessian は自動微分や Hessian-vector 製品で使いやすく,確率計算グラフ上での曲率情報の効率よく利用することができる。 代表的な例として,ノンリパラメタブルガンマと負二項rsv/ノードのgo hessianを提案する。 go hessian に基づいて、$\mathbb{e}_{q_{\boldsymbol{\boldsymbol{\gamma}}}(\boldsymbol{y})} [f(\boldsymbol{y})]$ の新たな二階法を設計し、その有効性と効率性を検証するための厳密な実験を行った。

An unbiased low-variance gradient estimator, termed GO gradient, was proposed recently for expectation-based objectives $\mathbb{E}_{q_{\boldsymbol{\gamma}}(\boldsymbol{y})} [f(\boldsymbol{y})]$, where the random variable (RV) $\boldsymbol{y}$ may be drawn from a stochastic computation graph with continuous (non-reparameterizable) internal nodes and continuous/discrete leaves. Upgrading the GO gradient, we present for $\mathbb{E}_{q_{\boldsymbol{\boldsymbol{\gamma}}}(\boldsymbol{y})} [f(\boldsymbol{y})]$ an unbiased low-variance Hessian estimator, named GO Hessian. Considering practical implementation, we reveal that GO Hessian is easy-to-use with auto-differentiation and Hessian-vector products, enabling efficient cheap exploitation of curvature information over stochastic computation graphs. As representative examples, we present the GO Hessian for non-reparameterizable gamma and negative binomial RVs/nodes. Based on the GO Hessian, we design a new second-order method for $\mathbb{E}_{q_{\boldsymbol{\boldsymbol{\gamma}}}(\boldsymbol{y})} [f(\boldsymbol{y})]$, with rigorous experiments conducted to verify its effectiveness and efficiency.
翻訳日:2022-11-20 19:10:49 公開日:2020-06-16
# DefenseVGAE: 変分グラフオートエンコーダによるグラフデータに対する敵攻撃に対する防御

DefenseVGAE: Defending against Adversarial Attacks on Graph Data via a Variational Graph Autoencoder ( http://arxiv.org/abs/2006.08900v1 )

ライセンス: Link先を確認
Ao Zhang and Jinwen Ma(参考訳) グラフニューラルネットワーク(GNN)は、グラフデータ上のタスクに対して顕著なパフォーマンスを達成する。 しかし、近年の研究では、敵対的な構造的摂動に対して極めて脆弱であり、結果が信頼できないことが示されている。 本稿では,変分グラフオートエンコーダ(VGAE)を利用した新しいフレームワークであるDefenseVGAEを提案する。 DefenseVGAEはグラフ構造を再構築するよう訓練されている。 再構成された隣接行列は、対向的摂動の影響を低減し、対向的攻撃に直面した際のGCNの性能を高めることができる。 本研究では,様々な脅威モデルにおいて提案手法の有効性を示す実験を行った。 いくつかの設定では、既存の防衛戦略を上回っている。 私たちのコードはhttps://github.com/zhangao520/defense-vgaeで公開されています。

Graph neural networks (GNNs) achieve remarkable performance for tasks on graph data. However, recent works show they are extremely vulnerable to adversarial structural perturbations, making their outcomes unreliable. In this paper, we propose DefenseVGAE, a novel framework leveraging variational graph autoencoders(VGAEs) to defend GNNs against such attacks. DefenseVGAE is trained to reconstruct graph structure. The reconstructed adjacency matrix can reduce the effects of adversarial perturbations and boost the performance of GCNs when facing adversarial attacks. Our experiments on a number of datasets show the effectiveness of the proposed method under various threat models. Under some settings it outperforms existing defense strategies. Our code has been made publicly available at https://github.com/zhangao520/defense-vgae.
翻訳日:2022-11-20 19:09:51 公開日:2020-06-16
# 分散データセット上のディープニューラルネットワーク分類器のキャリブレーション

Calibrating Deep Neural Network Classifiers on Out-of-Distribution Datasets ( http://arxiv.org/abs/2006.08914v1 )

ライセンス: Link先を確認
Zhihui Shao, and Jianyi Yang, and Shaolei Ren(参考訳) ディープニューラルネットワーク(DNN)分類器の信頼性を高めるために、真の正当性を示す正確な予測信頼度が不可欠である。 この目的のために、ターゲットDNNの出力層をキャリブレーションされた信頼度にマッピングする軽量モデルを活用するために、多くのポストホックキャリブレーション手法が提案されている。 それにもかかわらず、実際にはOOD(out-of-distriion)データセットでは、ターゲットのDNNは、しばしば高い信頼性でサンプルを誤分類することができ、正確な信頼を生み出すために既存のキャリブレーションメソッドに重大な課題を生じさせる。 本稿では,OCDデータセット上のDNN分類器に対して,CCAC(Confidence Calibration with an Auxiliary Class)と呼ばれるポストホックな信頼度校正手法を提案する。 CCACの重要な特徴は、誤分類されたサンプルと正しく分類されたサンプルを分離するキャリブレーションモデルにおける補助クラスであり、それによってターゲットのDNNが確実に間違っていることを効果的に軽減する。 また,自由パラメータを削減し,新しい未知のデータセットへの転送を容易にするため,CCACの簡易バージョンを提案する。 異なるDNNモデル,データセット,アプリケーションに対する実験により,CCACは従来よりずっと優れていることがわかった。

To increase the trustworthiness of deep neural network (DNN) classifiers, an accurate prediction confidence that represents the true likelihood of correctness is crucial. Towards this end, many post-hoc calibration methods have been proposed to leverage a lightweight model to map the target DNN's output layer into a calibrated confidence. Nonetheless, on an out-of-distribution (OOD) dataset in practice, the target DNN can often mis-classify samples with a high confidence, creating significant challenges for the existing calibration methods to produce an accurate confidence. In this paper, we propose a new post-hoc confidence calibration method, called CCAC (Confidence Calibration with an Auxiliary Class), for DNN classifiers on OOD datasets. The key novelty of CCAC is an auxiliary class in the calibration model which separates mis-classified samples from correctly classified ones, thus effectively mitigating the target DNN's being confidently wrong. We also propose a simplified version of CCAC to reduce free parameters and facilitate transfer to a new unseen dataset. Our experiments on different DNN models, datasets and applications show that CCAC can consistently outperform the prior post-hoc calibration methods.
翻訳日:2022-11-20 19:09:38 公開日:2020-06-16
# マルコフデータによる最小二乗回帰:基本限界とアルゴリズム

Least Squares Regression with Markovian Data: Fundamental Limits and Algorithms ( http://arxiv.org/abs/2006.08916v1 )

ライセンス: Link先を確認
Guy Bresler, Prateek Jain, Dheeraj Nagaraj, Praneeth Netrapalli and Xian Wu(参考訳) データポイントが依存し、マルコフ連鎖からサンプルされる最小二乗線形回帰の問題について検討する。 この問題に対して,基礎となるマルコフ連鎖の混合時間である$\tau_{\mathsf{mix}}$を用いて,異なる雑音条件下で,鋭い情報理論のミニマックス下界を確立する。 我々の結果は、マルコフデータによる最適化は、独立データによる最適化よりも厳密なものであり、ほぼ独立のサンプルである$\tilde{\Theta}(\tau_{\mathsf{mix}})$の1つでのみ動作する自明なアルゴリズム(SGD-DD)が極小であることを示す。 実際、SGD(Stochastic Gradient Descent)法はステップサイズが一定であり、それ以外は独立なデータ設定による回帰において最小限の最適値である。 最悪のケース分析の他に、ガウス自動回帰力学のような実際に見られる構造化データセットがより効率的な最適化スキームを許容できるかどうかを調査する。 驚くべきことに、この特異で自然な設定であっても、ステップサイズが一定であるSGD(Stochastic Gradient Descent)は依然としてSGD-DDに劣らない。 代わりに,経験的リプレイに基づくアルゴリズムを提案する。これは一般的な強化学習手法であり,エラー率を大幅に向上させる。 我々の改善率は、アルゴリズムが興味深いマルコフ連鎖上でsgd-ddを上回る最初の結果の1つとなり、実際経験リプレイの使用をサポートする最初の理論的分析の1つを提供する。

We study the problem of least squares linear regression where the data-points are dependent and are sampled from a Markov chain. We establish sharp information theoretic minimax lower bounds for this problem in terms of $\tau_{\mathsf{mix}}$, the mixing time of the underlying Markov chain, under different noise settings. Our results establish that in general, optimization with Markovian data is strictly harder than optimization with independent data and a trivial algorithm (SGD-DD) that works with only one in every $\tilde{\Theta}(\tau_{\mathsf{mix}})$ samples, which are approximately independent, is minimax optimal. In fact, it is strictly better than the popular Stochastic Gradient Descent (SGD) method with constant step-size which is otherwise minimax optimal in the regression with independent data setting. Beyond a worst case analysis, we investigate whether structured datasets seen in practice such as Gaussian auto-regressive dynamics can admit more efficient optimization schemes. Surprisingly, even in this specific and natural setting, Stochastic Gradient Descent (SGD) with constant step-size is still no better than SGD-DD. Instead, we propose an algorithm based on experience replay--a popular reinforcement learning technique--that achieves a significantly better error rate. Our improved rate serves as one of the first results where an algorithm outperforms SGD-DD on an interesting Markov chain and also provides one of the first theoretical analyses to support the use of experience replay in practice.
翻訳日:2022-11-20 19:09:16 公開日:2020-06-16
# サプライチェーン管理における製品階層予測のための多相アプローチ:froyalfx社への適用

A Multi-Phase Approach for Product Hierarchy Forecasting in Supply Chain Management: Application to MonarchFx Inc ( http://arxiv.org/abs/2006.08931v1 )

ライセンス: Link先を確認
Sajjad Taghiyeh, David C Lengacher and Robert B Handfield(参考訳) 階層的な時系列要求は多くの産業に存在し、しばしば製品、時間枠、地理的集約と関連付けられる。 従来、これらの階層はトップダウン、ボトムアップ、ミドルアウトのアプローチで予測されてきた。 我々が答えようとしている質問は、階層的なサプライチェーンにおける親レベルの予測を改善するために、子レベルの予測をどのように利用するかである。 予測の改善はロジスティクスコスト、特にeコマースの大幅な削減に利用できる。 本稿では,新しい多相階層(MPH)手法を提案する。 本手法では,機械学習モデルを用いて階層内の各系列を独立に予測し,各系列を組み合わせて親レベルでの第2フェーズモデル推定を行う。 MonarchFx Inc.(ロジスティクスソリューションプロバイダ)のセールスデータは、私たちのアプローチを評価し、ボトムアップおよびトップダウンメソッドと比較するために使用されます。 提案手法を用いた予測精度は82-90%向上した。 提案手法により、サプライチェーンプランナはより正確な予測モデルを導出し、多変量データの利点を利用することができる。

Hierarchical time series demands exist in many industries and are often associated with the product, time frame, or geographic aggregations. Traditionally, these hierarchies have been forecasted using top-down, bottom-up, or middle-out approaches. The question we aim to answer is how to utilize child-level forecasts to improve parent-level forecasts in a hierarchical supply chain. Improved forecasts can be used to considerably reduce logistics costs, especially in e-commerce. We propose a novel multi-phase hierarchical (MPH) approach. Our method involves forecasting each series in the hierarchy independently using machine learning models, then combining all forecasts to allow a second phase model estimation at the parent level. Sales data from MonarchFx Inc. (a logistics solutions provider) is used to evaluate our approach and compare it to bottom-up and top-down methods. Our results demonstrate an 82-90% improvement in forecast accuracy using the proposed approach. Using the proposed method, supply chain planners can derive more accurate forecasting models to exploit the benefit of multivariate data.
翻訳日:2022-11-20 19:08:44 公開日:2020-06-16
# フィードバックと局所可塑性で学ぶこと

Learning to Learn with Feedback and Local Plasticity ( http://arxiv.org/abs/2006.09549v1 )

ライセンス: Link先を確認
Jack Lindsey, Ashok Litwin-Kumar(参考訳) 生物学的にインスパイアされたバックプロパゲーションの選択肢への関心は、深層学習と神経科学のつながりを前進させ、オンライン、継続的な学習のようなタスクにおけるバックプロパゲーションの欠点に対処するという欲求によって引き起こされる。 しかし、脳が採用しているような局所的なシナプス学習規則は、ディープネットワークにおけるバックプロパゲーションのパフォーマンスと一致しなかった。 本研究では,メタラーニングを用いて,フィードバック接続と局所的,生物学的にインスパイアされた学習ルールを用いて学習するネットワークを探索する。 重要なことに、フィードバック接続はフィードフォワードウェイトに縛られず、生物学的に目立たない重量輸送を避けている。 実験の結果, メタトレーニングネットワークは, 多層アーキテクチャにおけるオンラインクレジット割り当てにフィードバック接続を効果的に利用していることがわかった。 驚くべきことに、このアプローチは回帰と分類タスクに関する最先端の勾配に基づくオンラインメタ学習アルゴリズムと一致し、特に連続的な学習において優れている。 これらのモデルが用いた重み更新の解析により、更新間の干渉を減らす方法で勾配降下と定性的に異なることが判明した。 本研究は,勾配降下型学習に適合するだけでなく,その限界を克服する生物学的に妥当な学習機構の存在を示唆する。

Interest in biologically inspired alternatives to backpropagation is driven by the desire to both advance connections between deep learning and neuroscience and address backpropagation's shortcomings on tasks such as online, continual learning. However, local synaptic learning rules like those employed by the brain have so far failed to match the performance of backpropagation in deep networks. In this study, we employ meta-learning to discover networks that learn using feedback connections and local, biologically inspired learning rules. Importantly, the feedback connections are not tied to the feedforward weights, avoiding biologically implausible weight transport. Our experiments show that meta-trained networks effectively use feedback connections to perform online credit assignment in multi-layer architectures. Surprisingly, this approach matches or exceeds a state-of-the-art gradient-based online meta-learning algorithm on regression and classification tasks, excelling in particular at continual learning. Analysis of the weight updates employed by these models reveals that they differ qualitatively from gradient descent in a way that reduces interference between updates. Our results suggest the existence of a class of biologically plausible learning mechanisms that not only match gradient descent-based learning, but also overcome its limitations.
翻訳日:2022-11-20 19:02:24 公開日:2020-06-16
# PERL: 事前学習した深部埋め込みモデルに対するPivot-based Domain Adaptation

PERL: Pivot-based Domain Adaptation for Pre-trained Deep Contextualized Embedding Models ( http://arxiv.org/abs/2006.09075v1 )

ライセンス: Link先を確認
Eyal Ben-David, Carmel Rabinovitz, Roi Reichart(参考訳) Pivotベースのニューラル表現モデルは、NLPのドメイン適応に大きな進歩をもたらした。 しかし、このアプローチに従っている以前の作品は、ソースドメインからのラベル付きデータとソースおよびターゲットドメインからのラベルなしデータのみを使用するが、これらのドメインから必ずしも引き出されたものではない巨大なラベルなしコーパスを組み込むことを怠っている。 そこで本研究では,BERT などの文脈型単語埋め込みモデルを拡張した表現学習モデル PERL を提案する。 PERLは、22の感情分類ドメイン適応設定で強いベースラインを上回り、ドメイン内のモデル性能を改善し、効果的な縮小サイズモデルを生成し、モデルの安定性を向上させる。

Pivot-based neural representation models have lead to significant progress in domain adaptation for NLP. However, previous works that follow this approach utilize only labeled data from the source domain and unlabeled data from the source and target domains, but neglect to incorporate massive unlabeled corpora that are not necessarily drawn from these domains. To alleviate this, we propose PERL: A representation learning model that extends contextualized word embedding models such as BERT with pivot-based fine-tuning. PERL outperforms strong baselines across 22 sentiment classification domain adaptation setups, improves in-domain model performance, yields effective reduced-size models and increases model stability.
翻訳日:2022-11-20 19:01:58 公開日:2020-06-16
# ドメインシフトによる選択的質問応答

Selective Question Answering under Domain Shift ( http://arxiv.org/abs/2006.09462v1 )

ライセンス: Link先を確認
Amita Kamath, Robin Jia, Percy Liang(参考訳) 間違った答えを出すのを避けるために、質問応答(QA)モデルはいつ回答を控えるかを知る必要がある。 さらに、ユーザーはしばしばモデルのトレーニングデータから分岐する質問をし、エラーがより起こりやすく、したがって無視がより重要になる。 本稿では,ドメイン内データとドメイン外データの混合に対してQAモデルをテストし,高い精度を維持しつつ,可能な限り多くの質問に答えなければならないドメインシフト下での選択的質問応答の設定を提案する。 モデルがドメイン外の入力に過信されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不十分である。 代わりに、キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。 重要なことに、キャリブレータは、テストデータとは異なるドメインからであっても、ドメイン外のデータでモデルの振る舞いを観察する利点がある。 この手法をSQuAD学習QAモデルと組み合わせ、SQuADと他の5つのQAデータセットの混合について評価する。 提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。

To avoid giving wrong answers, question answering (QA) models need to know when to abstain from answering. Moreover, users often ask questions that diverge from the model's training data, making errors more likely and thus abstention more critical. In this work, we propose the setting of selective question answering under domain shift, in which a QA model is tested on a mixture of in-domain and out-of-domain data, and must answer (i.e., not abstain on) as many questions as possible while maintaining high accuracy. Abstention policies based solely on the model's softmax probabilities fare poorly, since models are overconfident on out-of-domain inputs. Instead, we train a calibrator to identify inputs on which the QA model errs, and abstain when it predicts an error is likely. Crucially, the calibrator benefits from observing the model's behavior on out-of-domain data, even if from a different domain than the test data. We combine this method with a SQuAD-trained QA model and evaluate on mixtures of SQuAD and five other QA datasets. Our method answers 56% of questions while maintaining 80% accuracy; in contrast, directly using the model's probabilities only answers 48% at 80% accuracy.
翻訳日:2022-11-20 19:01:45 公開日:2020-06-16
# EPIE Dataset: 可能な慣用表現のためのコーパス

EPIE Dataset: A Corpus For Possible Idiomatic Expressions ( http://arxiv.org/abs/2006.09479v1 )

ライセンス: Link先を確認
Prateek Saxena and Soma Paul(参考訳) 慣用表現は、言語理解と自然言語理解、特に機械翻訳(mt)のようなタスクにとって、常にボトルネックとなっている。 MTシステムは主に、非構成的意味の理解に活用できる汎用的および言語学的決定論的パターンを提示しないため、慣用的表現のリテラル翻訳を生成する。 これらの表現は、訓練に用いられる並列コーパスに現れるが、リテラル文脈における慣用的な表現の構成語が比較的高いため、慣用的な意味は、その表現の合成的意味に圧倒される。 メタファー検出システム(Metaphor Detection Systems)は、単語レベルでの非合成的使用を検出できるが、慣用的な表現を欠いている。 これにより、より広範なカバレッジと、一般的に発生する慣用的な表現の発生率の高いデータセットが、Metaphor Detectionに使用できるようになる。 このことを念頭に置いて、717の慣用表現の語彙例をラベル付けした25206文を含む、英語のPossible Idiomatic Expressions(EPIE)コーパスを提示する。 これらのスパンは、与えられた慣用表現のセットのリテラル使用法もカバーする。 また,シーケンスラベリングモジュールをトレーニングし,精度,精度,リコールスコアの3つの独立したデータセット上でテストすることにより,データセットの有用性を示す。

Idiomatic expressions have always been a bottleneck for language comprehension and natural language understanding, specifically for tasks like Machine Translation(MT). MT systems predominantly produce literal translations of idiomatic expressions as they do not exhibit generic and linguistically deterministic patterns which can be exploited for comprehension of the non-compositional meaning of the expressions. These expressions occur in parallel corpora used for training, but due to the comparatively high occurrences of the constituent words of idiomatic expressions in literal context, the idiomatic meaning gets overpowered by the compositional meaning of the expression. State of the art Metaphor Detection Systems are able to detect non-compositional usage at word level but miss out on idiosyncratic phrasal idiomatic expressions. This creates a dire need for a dataset with a wider coverage and higher occurrence of commonly occurring idiomatic expressions, the spans of which can be used for Metaphor Detection. With this in mind, we present our English Possible Idiomatic Expressions(EPIE) corpus containing 25206 sentences labelled with lexical instances of 717 idiomatic expressions. These spans also cover literal usages for the given set of idiomatic expressions. We also present the utility of our dataset by using it to train a sequence labelling module and testing on three independent datasets with high accuracy, precision and recall scores.
翻訳日:2022-11-20 19:01:23 公開日:2020-06-16
# 量子化係数を用いた低ランク近似によるCNN加速

CNN Acceleration by Low-rank Approximation with Quantized Factors ( http://arxiv.org/abs/2006.08878v1 )

ライセンス: Link先を確認
Nikolay Kozyrskiy, Anh-Huy Phan(参考訳) 現代の畳み込みニューラルネットワークは複雑なコンピュータビジョンタスクの解決において大きな成果を上げているが、計算の複雑さ、メモリ、消費電力の厳しい要件のため、モバイルや組み込みデバイスでは効果的に使用できない。 CNNは、デプロイ前に圧縮され、加速されなければならない。 この問題を解決するために、タッカー形式の低ランクテンソル近似と重みと特徴写像の量子化(実行)という2つの既知の手法を組み合わせた新しい手法を提案する。 マルチ線形階数選択の課題に対して, グレディワンステップとマルチステップのアルゴリズムを提案する。 タッカー分解および量子化を適用した品質回復手法を開発した。 CIFAR-10, CIFAR-100, Imagenet分類タスクにおけるResNet18とResNet34の効率を実証した。 圧縮・加速のための他の手法との比較分析の結果,提案手法は有望な特徴を示した。

The modern convolutional neural networks although achieve great results in solving complex computer vision tasks still cannot be effectively used in mobile and embedded devices due to the strict requirements for computational complexity, memory and power consumption. The CNNs have to be compressed and accelerated before deployment. In order to solve this problem the novel approach combining two known methods, low-rank tensor approximation in Tucker format and quantization of weights and feature maps (activations), is proposed. The greedy one-step and multi-step algorithms for the task of multilinear rank selection are proposed. The approach for quality restoration after applying Tucker decomposition and quantization is developed. The efficiency of our method is demonstrated for ResNet18 and ResNet34 on CIFAR-10, CIFAR-100 and Imagenet classification tasks. As a result of comparative analysis performed for other methods for compression and acceleration our approach showed its promising features.
翻訳日:2022-11-20 19:00:43 公開日:2020-06-16
# モデル埋め込みモデルに基づく強化学習

Model Embedding Model-Based Reinforcement Learning ( http://arxiv.org/abs/2006.09234v1 )

ライセンス: Link先を確認
Xiaoyu Tan, Chao Qu, Junwu Xiong, James Zhang(参考訳) モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れている。 しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。 本稿では,確率的強化学習の枠組みにおけるモデル埋め込みモデルベース強化学習(MEMB)の簡易かつエレガントなアルゴリズムを提案する。 サンプル効率とモデルバイアスのバランスをとるために,実データと虚データの両方をトレーニングで活用する。 特に、ポリシー更新にモデルを埋め込み、実際のデータセットから$q$と$v$関数を学習します。 我々は,モデルと方針にリプシッツ連続性を仮定したmembの理論解析を行う。 最後に、いくつかのベンチマークでmembを評価し、アルゴリズムが最先端のパフォーマンスを達成できることを実証する。

Model-based reinforcement learning (MBRL) has shown its advantages in sample-efficiency over model-free reinforcement learning (MFRL). Despite the impressive results it achieves, it still faces a trade-off between the ease of data generation and model bias. In this paper, we propose a simple and elegant model-embedding model-based reinforcement learning (MEMB) algorithm in the framework of the probabilistic reinforcement learning. To balance the sample-efficiency and model bias, we exploit both real and imaginary data in the training. In particular, we embed the model in the policy update and learn $Q$ and $V$ functions from the real data set. We provide the theoretical analysis of MEMB with the Lipschitz continuity assumption on the model and policy. At last, we evaluate MEMB on several benchmarks and demonstrate our algorithm can achieve state-of-the-art performance.
翻訳日:2022-11-20 19:00:29 公開日:2020-06-16
# 深層強化学習を用いた順序バッチとシーケンス問題の解法

Solving the Order Batching and Sequencing Problem using Deep Reinforcement Learning ( http://arxiv.org/abs/2006.09507v1 )

ライセンス: Link先を確認
Bram Cals, Yingqian Zhang, Remco Dijkman, Claudy van Dorst(参考訳) 電子商取引市場では、タイムデリバリーは顧客満足度にとって非常に重要である。 本稿では,大規模注文数を最小限に抑えるため,倉庫内における注文のバッチ処理のタイミングとタイミングを決定するためのDep Reinforcement Learning (DRL) 手法を提案する。 特に、この技術は、注文を個別に(ピック・バイ・オーダー)するか、あるいは他の注文(ピック・バイ・バッチ)とバッチで選択するか、他の注文をどちらで行うかの決定を容易にする。 本稿では,これを半マルコフ決定プロセスとして定式化し,倉庫システムの特徴を含むベクトルベースの状態表現を開発する。 これにより、環境と対話して戦略を学習する深層強化学習ソリューションを作成し、近似ポリシー最適化アルゴリズムを用いて問題を解決することができる。 提案するDRL手法の性能を,複数のバッチ処理と異なる問題設定におけるシーケンシングヒューリスティックスと比較することにより評価する。 以上の結果から,drlアプローチは,提案するヒューリスティックスよりも一貫性と優れたソリューションを生み出す戦略を開発できることが示されている。

In e-commerce markets, on time delivery is of great importance to customer satisfaction. In this paper, we present a Deep Reinforcement Learning (DRL) approach for deciding how and when orders should be batched and picked in a warehouse to minimize the number of tardy orders. In particular, the technique facilitates making decisions on whether an order should be picked individually (pick-by-order) or picked in a batch with other orders (pick-by-batch), and if so with which other orders. We approach the problem by formulating it as a semi-Markov decision process and develop a vector-based state representation that includes the characteristics of the warehouse system. This allows us to create a deep reinforcement learning solution that learns a strategy by interacting with the environment and solve the problem with a proximal policy optimization algorithm. We evaluate the performance of the proposed DRL approach by comparing it with several batching and sequencing heuristics in different problem settings. The results show that the DRL approach is able to develop a strategy that produces consistent, good solutions and performs better than the proposed heuristics.
翻訳日:2022-11-20 19:00:17 公開日:2020-06-16
# 補助運転のためのパーソナライズされた気候設定

Mining Personalized Climate Preferences for Assistant Driving ( http://arxiv.org/abs/2006.08846v1 )

ライセンス: Link先を確認
Feng Hu(参考訳) アシスタント運転と自動運転の両方が、ここ数年で大きな注目を集めている。 しかし、ほとんどの研究は安全な運転に焦点を当てており、車内気候制御や、旅行者の個人的習慣や好みに基づく補助運転に関する研究はほとんど行われていない。 本稿では,運転者の日常運転において,運転者の嗜好に合った環境制御,運転行動認識,運転推奨のための新しいアプローチを提案する。 このアルゴリズムは、(1)車内センシングとコンテキストの特徴と、関連する環境、車両走行、およびドライバーの行動に影響を及ぼす交通パラメータを収集するためのiot(internet of things)プラットフォームとの相性を高める。 2) さらに特徴抽出と機械学習アルゴリズムを適用した結果に基づいて、車両のステータス(窓を開けたり、エアコンをオンにするなど)を自動的にラベル付けできる非侵入的インテリジェントドライバ動作と車両状態検出コンポーネント。 3)パーソナライズされたドライバは、より健康で快適な体験のための学習と選好の推奨コンポーネントを提供する。 異種データを収集し,アルゴリズムをテストするために,iOSアプリと空気質監視センサを備えたクライアントサーバアーキテクチャを用いたプロトタイプを開発した。 世界中の複数の都市で、11,370 km (320時間) の運転データに関する実世界実験が行われ、このアプローチの有効性と精度が示された。

Both assistant driving and self-driving have attracted a great amount of attention in the last few years. However, the majority of research efforts focus on safe driving; few research has been conducted on in-vehicle climate control, or assistant driving based on travellers' personal habits or preferences. In this paper, we propose a novel approach for climate control, driver behavior recognition and driving recommendation for better fitting drivers' preferences in their daily driving. The algorithm consists three components: (1) A in-vehicle sensing and context feature enriching compnent with a Internet of Things (IoT) platform for collecting related environment, vehicle-running, and traffic parameters that affect drivers' behaviors. (2) A non-intrusive intelligent driver behaviour and vehicle status detection component, which can automatically label vehicle's status (open windows, turn on air condition, etc.), based on results of applying further feature extraction and machine learning algorithms. (3) A personalized driver habits learning and preference recommendation component for more healthy and comfortable experiences. A prototype using a client-server architecture with an iOS app and an air-quality monitoring sensor has been developed for collecting heterogeneous data and testing our algorithms. Real-world experiments on driving data of 11,370 km (320 hours) by different drivers in multiple cities worldwide have been conducted, which demonstrate the effective and accuracy of our approach.
翻訳日:2022-11-20 18:59:56 公開日:2020-06-16
# 二重オーバーパラメータ化のための離散学習率の急激なバイアスによるロバスト回復

Robust Recovery via Implicit Bias of Discrepant Learning Rates for Double Over-parameterization ( http://arxiv.org/abs/2006.08857v1 )

ライセンス: Link先を確認
Chong You, Zhihui Zhu, Qing Qu, Yi Ma(参考訳) 近年の進歩は、過パラメータ化モデルにおける勾配降下の暗黙の偏りは、固有ランクに関する事前知識がなくても線形測定から低ランク行列の回復を可能にすることを示している。 対照的に、粗悪な測定値からロバストな低ランク行列を回復するためには、過剰パラメータ化は、腐敗の本質的なランクとスパース性の両方について事前の知識なしに過剰に適合する。 本稿では,低ランク行列とスパース破壊の両方に対する二重過パラメータ化により,離散学習率を持つ勾配降下は,行列のランクや汚職のスパース性について事前の知識がなくても,基盤となる行列を確実に回復することを示す。 さらに,深層畳み込みネットワークを用いた過剰パラメータ化による自然画像のロバスト回復のためのアプローチをさらに拡張する。 実験では,ネットワーク幅と終了条件をケースバイケースで調整する必要のない単一の学習パイプラインを用いて,異なるテスト画像と異なる腐敗レベルを処理することを示す。 成功の根底にあるのは、異なる過剰パラメータの異なる学習率を持つ暗黙のバイアスであり、幅広い応用が要求される可能性がある。

Recent advances have shown that implicit bias of gradient descent on over-parameterized models enables the recovery of low-rank matrices from linear measurements, even with no prior knowledge on the intrinsic rank. In contrast, for robust low-rank matrix recovery from grossly corrupted measurements, over-parameterization leads to overfitting without prior knowledge on both the intrinsic rank and sparsity of corruption. This paper shows that with a double over-parameterization for both the low-rank matrix and sparse corruption, gradient descent with discrepant learning rates provably recovers the underlying matrix even without prior knowledge on neither rank of the matrix nor sparsity of the corruption. We further extend our approach for the robust recovery of natural images by over-parameterizing images with deep convolutional networks. Experiments show that our method handles different test images and varying corruption levels with a single learning pipeline where the network width and termination conditions do not need to be adjusted on a case-by-case basis. Underlying the success is again the implicit bias with discrepant learning rates on different over-parameterized parameters, which may bear on broader applications.
翻訳日:2022-11-20 18:54:20 公開日:2020-06-16
# deepcapture:ディープラーニングとデータ拡張を用いた画像スパム検出

DeepCapture: Image Spam Detection Using Deep Learning and Data Augmentation ( http://arxiv.org/abs/2006.08885v1 )

ライセンス: Link先を確認
Bedeuro Kim, Sharif Abuadbba, Hyoungshick Kim(参考訳) 画像スパムメールは、しばしば使用されるキーワードでスパムメールを検出するテキストベースのスパムフィルタを避けるために使用される。 本稿では,畳み込みニューラルネットワーク(CNN)モデルを用いて,DeepCaptureと呼ばれる新しい画像スパムメール検出ツールを提案する。 画像スパムメールの検出には多くの取り組みがあったが、トレーニング期間中の過度な適合により、全く新しい、目に見えない画像スパムメールに対して大きなパフォーマンス低下がある。 この課題に対処するため、私たちは主に、オーバーフィット問題に対処するより堅牢なモデルの開発に重点を置いています。 我々のキーとなるアイデアは、画像スパム検出タスクに適したデータ拡張技術を用いて、多数のトレーニングサンプルのみを含む8層からなるCNN-XGBoostフレームワークを構築することです。 DeepCaptureの実現可能性を示すために、6,000のスパムと2,313のノンスパム画像サンプルからなる公開データセットを用いて、その性能を評価する。 実験の結果,DeepCaptureはF1スコア88%を達成でき,既存のスパム検出モデルであるCNN-SVMよりも6%改善され,F1スコア82%となっている。 さらに、DeepCaptureは、新しい、見えない画像データセットに対して、既存のイメージスパム検出ソリューションより優れています。

Image spam emails are often used to evade text-based spam filters that detect spam emails with their frequently used keywords. In this paper, we propose a new image spam email detection tool called DeepCapture using a convolutional neural network (CNN) model. There have been many efforts to detect image spam emails, but there is a significant performance degrade against entirely new and unseen image spam emails due to overfitting during the training phase. To address this challenging issue, we mainly focus on developing a more robust model to address the overfitting problem. Our key idea is to build a CNN-XGBoost framework consisting of eight layers only with a large number of training samples using data augmentation techniques tailored towards the image spam detection task. To show the feasibility of DeepCapture, we evaluate its performance with publicly available datasets consisting of 6,000 spam and 2,313 non-spam image samples. The experimental results show that DeepCapture is capable of achieving an F1-score of 88%, which has a 6% improvement over the best existing spam detection model CNN-SVM with an F1-score of 82%. Moreover, DeepCapture outperformed existing image spam detection solutions against new and unseen image datasets.
翻訳日:2022-11-20 18:53:45 公開日:2020-06-16
# Few-shot分類のためのフォーゲット更新モジュールによるチャネル関係予測

Channel Relationship Prediction with Forget-Update Module for Few-shot Classification ( http://arxiv.org/abs/2006.08937v1 )

ライセンス: Link先を確認
Minglei Yuan and Cunhao Cai and Tong Lu(参考訳) 本稿では,サポートセット内の各クラスと,leet-updateモジュールを用いたクエリサンプルの関係を推測するパイプラインを提案する。 まず,すべてのサポートサンプルと問合せサンプルの総合情報を収集することにより,シーケンス予測モデルに基づく少数ショット分類手法の性能を向上させる"channel vector sequence construction module"という新しいアーキテクチャモジュールを提案する。 このモジュールによって生成されたチャネルベクトル列は、シーケンスの各時間ステップが、すべてのサポートサンプルの対応するチャネルと推測されるクエリサンプルからの情報を含むように構成される。 畳み込みニューラルネットワークと完全接続されたネットワークによりチャネルベクトルシーケンスを求め、スプライシングされたチャネルベクトルシーケンスを、サポートサンプルの対応するチャネルベクトルと、クエリサンプルとを、元のチャネル順にスプライシングする。 また,スタック化されたrelook-updateブロックからなるrelook-updateモジュールを提案する。 forgetブロックは学習した重みで元の情報を変更し、更新ブロックはモデルの密接な接続を確立する。 提案するパイプラインは,チャネルベクトル列構築モジュールとリフレッシュ更新モジュールから構成されており,クエリサンプルとサポートサンプルとの関係を,数ショットの分類シナリオで推測することができる。 実験結果から,このパイプラインはminiImagenet, CUBデータセット, クロスドメインシナリオで最先端の結果を得ることができることがわかった。

In this paper, we proposed a pipeline for inferring the relationship of each class in support set and a query sample using forget-update module. We first propose a novel architectural module called "channel vector sequence construction module", which boosts the performance of sequence-prediction-model-based few-shot classification methods by collecting the overall information of all support samples and a query sample. The channel vector sequence generated by this module is organized in a way that each time step of the sequence contains the information from the corresponding channel of all support samples and the query sample to be inferred. Channel vector sequence is obtained by a convolutional neural network and a fully connected network, and the spliced channel vector sequence is spliced of the corresponding channel vectors of support samples and a query sample in the original channel order. Also, we propose a forget-update module consisting of stacked forget-update blocks. The forget block modify the original information with the learned weights and the update block establishes a dense connection for the model. The proposed pipeline, which consists of channel vector sequence construction module and forget-update module, can infer the relationship between the query sample and support samples in few-shot classification scenario. Experimental results show that the pipeline can achieve state-of-the-art results on miniImagenet, CUB dataset, and cross-domain scenario.
翻訳日:2022-11-20 18:53:25 公開日:2020-06-16
# 構造化・局所化画像復元

Structured and Localized Image Restoration ( http://arxiv.org/abs/2006.09261v1 )

ライセンス: Link先を確認
Thomas Eboli, Alex Nowak-Vila, Jian Sun, Francis Bach, Jean Ponce, Alessandro Rudi(参考訳) 本稿では,局所構造予測と非線形マルチタスク学習のアイデアを活用した画像復元手法を提案する。 我々は,事前に収集した外部データベースから復元すべきパッチとクリーンパッチの間の距離を計測する用語の和で正規化したペナリゼーションエネルギー関数を最適化する。 得られた推定器は、重複するパッチの局所的な依存性特性を活用する強力な統計的保証を備える。 平均二乗およびユークリッド標準誤差に基づいて対応するエネルギーのアルゴリズムを導出する。 最後に, 標準ベンチマークを用いて, 異なる画像復元問題に対するモデルの実効性を示す。

We present a novel approach to image restoration that leverages ideas from localized structured prediction and non-linear multi-task learning. We optimize a penalized energy function regularized by a sum of terms measuring the distance between patches to be restored and clean patches from an external database gathered beforehand. The resulting estimator comes with strong statistical guarantees leveraging local dependency properties of overlapping patches. We derive the corresponding algorithms for energies based on the mean-squared and Euclidean norm errors. Finally, we demonstrate the practical effectiveness of our model on different image restoration problems using standard benchmarks.
翻訳日:2022-11-20 18:52:01 公開日:2020-06-16
# Gradient Amplification:ディープニューラルネットワークの効率的なトレーニング方法

Gradient Amplification: An efficient way to train deep neural networks ( http://arxiv.org/abs/2006.10560v1 )

ライセンス: Link先を確認
Sunitha Basodi, Chunyan Ji, Haiping Zhang, and Yi Pan(参考訳) ディープラーニングモデルの性能向上とトレーニング時間の短縮は、ディープニューラルネットワークにおける継続的な課題である。 これらの課題に対処するいくつかのアプローチが提案されており、そのうちの1つはニューラルネットワークの深さを増加させることである。 このような深いネットワークは、トレーニング時間を増やすだけでなく、トレーニング中の勾配の問題も抱える。 本研究では,学習速度の異なる複数の時代にわたる勾配増幅法を有効又は無効にするための学習戦略を考案し,ディープラーニングモデルの学習のための勾配増幅手法を提案する。 VGG-19およびresnet(Resnet-18およびResnet-34)モデルの実験を行い、これらのモデルに対する増幅パラメータの影響を詳細に検討した。 提案手法は,これらのディープラーニングモデルの性能を高い学習率でも向上させ,トレーニング時間を短縮して高い学習性能を実現する。

Improving performance of deep learning models and reducing their training times are ongoing challenges in deep neural networks. There are several approaches proposed to address these challenges one of which is to increase the depth of the neural networks. Such deeper networks not only increase training times, but also suffer from vanishing gradients problem while training. In this work, we propose gradient amplification approach for training deep learning models to prevent vanishing gradients and also develop a training strategy to enable or disable gradient amplification method across several epochs with different learning rates. We perform experiments on VGG-19 and resnet (Resnet-18 and Resnet-34) models, and study the impact of amplification parameters on these models in detail. Our proposed approach improves performance of these deep learning models even at higher learning rates, thereby allowing these models to achieve higher performance with reduced training time.
翻訳日:2022-11-20 18:51:52 公開日:2020-06-16
# 顔分類のための畳み込みニューラルネットワークにおける画素関連性の検証と一般化

Validation and generalization of pixel-wise relevance in convolutional neural networks trained for face classification ( http://arxiv.org/abs/2006.16795v1 )

ライセンス: Link先を確認
J\~nani Crawford, Eshed Margalit, Kalanit Grill-Spector, and Sonia Poltoratski(参考訳) 科学、ガバナンス、そしてより広い社会における顔認識における畳み込みニューラルネットワークの利用の増加は、これらの「ブラックボックス」決定がどのようになされるかを示す方法の急激な必要性を生み出した。 人間が理解し有用であるためには、入力データのランダムな初期化や素早い相関に頑健な方法でモデルの学習した分類戦略を伝える必要がある。 そこで本研究では,層間相関伝播法(lrp)の分解的画素分割法を適用し,顔認識のためのvgg-16モデルの複数のクラスの決定を解いた。 次に,事前学習データセット(imagenetまたはvggface)や微調整タスク(生成者または識別分類),モデル重みのランダム初期化など,キーモデルパラメータ間の関係尺度の差異と一般化を定量化した。 相関に基づく画像マスキングを用いることで、顔分類の関連マップはランダム初期化において一般的に安定であり、微調整タスクをまたいで一般化できることがわかった。 しかし、事前学習データセットの一般化は著しく少なく、ImageNetとVGGFaceで訓練されたモデルは、比較可能な高い分類性能を達成できたとしても、異なる顔情報をサンプリングすることを示している。 モデル間の関連マップのきめ細かい分析により、選択パラメータの特定の利点を示す一般化の非対称性が明らかとなり、畳み込みニューラルネットワークやタスク間の決定を駆動する重要な顔画像ピクセルの下位セットを見つけることが可能である可能性が示唆された。 最後に,類似性の尺度に対するモデル決定重み付けの評価を行い,人間と機械間での顔認識決定を解釈するための新しい枠組みを提案する。

The increased use of convolutional neural networks for face recognition in science, governance, and broader society has created an acute need for methods that can show how these 'black box' decisions are made. To be interpretable and useful to humans, such a method should convey a model's learned classification strategy in a way that is robust to random initializations or spurious correlations in input data. To this end, we applied the decompositional pixel-wise attribution method of layer-wise relevance propagation (LRP) to resolve the decisions of several classes of VGG-16 models trained for face recognition. We then quantified how these relevance measures vary with and generalize across key model parameters, such as the pretraining dataset (ImageNet or VGGFace), the finetuning task (gender or identity classification), and random initializations of model weights. Using relevance-based image masking, we find that relevance maps for face classification prove generally stable across random initializations, and can generalize across finetuning tasks. However, there is markedly less generalization across pretraining datasets, indicating that ImageNet- and VGGFace-trained models sample face information differently even as they achieve comparably high classification performance. Fine-grained analyses of relevance maps across models revealed asymmetries in generalization that point to specific benefits of choice parameters, and suggest that it may be possible to find an underlying set of important face image pixels that drive decisions across convolutional neural networks and tasks. Finally, we evaluated model decision weighting against human measures of similarity, providing a novel framework for interpreting face recognition decisions across human and machine.
翻訳日:2022-11-20 18:51:38 公開日:2020-06-16
# 強化学習におけるタスク非依存探索

Task-agnostic Exploration in Reinforcement Learning ( http://arxiv.org/abs/2006.09497v1 )

ライセンス: Link先を確認
Xuezhou Zhang, Yuzhe ma, Adish Singla(参考訳) 効率的な探索は強化学習(RL)における主要な課題の1つである。 既存のサンプル効率のよいアルゴリズムの多くは、探索中に単一の報酬関数の存在を仮定している。 しかし、多くの実用的なシナリオでは、エージェントが同時に多くのスキルを習得する必要がある場合や、複数の矛盾する目標をバランスさせる必要がある場合など、探索を導くための単一の報酬関数は存在しない。 これらの課題に対処するために、我々は \textit{task-agnostic rl} フレームワークを提案している。 探索フェーズでは、エージェントは、報酬関数のガイダンスなしでmdpを探索することによって、最初に軌道を収集します。 調査の後、各タスクに対して \textit{sampled rewards} で強化された収集されたトラジェクトリを考えると、$N$タスクのほぼ最適ポリシーを見つけることを目指している。 このアルゴリズムは,最大$\tilde O(\log(N)H^5SA/\epsilon^2)の探索後に,$N$の任意のタスクに対して$\epsilon$-optimal Policyを求める。 また、$\Omega(\log (N)H^2SA/\epsilon^2)$ lower boundを提供し、$N$の$\log$依存性は避けられないことを示す。 さらに、基底真理報酬関数が知られている場合の統計的に簡単な設定で、$n$非依存なサンプル複雑性が \textsc{ucbzero} に束縛される。

Efficient exploration is one of the main challenges in reinforcement learning (RL). Most existing sample-efficient algorithms assume the existence of a single reward function during exploration. In many practical scenarios, however, there is not a single underlying reward function to guide the exploration, for instance, when an agent needs to learn many skills simultaneously, or multiple conflicting objectives need to be balanced. To address these challenges, we propose the \textit{task-agnostic RL} framework: In the exploration phase, the agent first collects trajectories by exploring the MDP without the guidance of a reward function. After exploration, it aims at finding near-optimal policies for $N$ tasks, given the collected trajectories augmented with \textit{sampled rewards} for each task. We present an efficient task-agnostic RL algorithm, \textsc{UCBZero}, that finds $\epsilon$-optimal policies for $N$ arbitrary tasks after at most $\tilde O(\log(N)H^5SA/\epsilon^2)$ exploration episodes. We also provide an $\Omega(\log (N)H^2SA/\epsilon^2)$ lower bound, showing that the $\log$ dependency on $N$ is unavoidable. Furthermore, we provide an $N$-independent sample complexity bound of \textsc{UCBZero} in the statistically easier setting when the ground truth reward functions are known.
翻訳日:2022-11-20 18:43:13 公開日:2020-06-16
# 画像分類のための微調整DART

Fine-Tuning DARTS for Image Classification ( http://arxiv.org/abs/2006.09042v1 )

ライセンス: Link先を確認
Muhammad Suhaib Tanveer, Muhammad Umar Karim Khan, Chong-Min Kyung(参考訳) neural architecture search (nas) は分類性能が優れているため、注目を集めている。 Differential Architecture Search (DARTS) は計算学的に軽量な手法である。 計算資源を制限するため、DARTSは多数の近似を行う。 これらの近似は性能が劣る。 本稿では,これらの近似から独立して固定演算を用いたDARTSの微調整を提案する。 本手法は,パラメータ数と分類精度の良好なトレードオフを提供する。 提案手法では,Fashion-MNIST,CompCars,MIO-TCDデータセットのTop-1精度を,最先端のアプローチと比較して0.56%,0.50%,0.39%向上させる。 CIFAR-10, CIFAR-100, Fashion-MNIST, CompCars, MIO-TCDデータセットでは, DARTSに比べて精度が0.28%, 1.64%, 0.34%, 4.5%, 3.27%向上した。

Neural Architecture Search (NAS) has gained attraction due to superior classification performance. Differential Architecture Search (DARTS) is a computationally light method. To limit computational resources DARTS makes numerous approximations. These approximations result in inferior performance. We propose to fine-tune DARTS using fixed operations as they are independent of these approximations. Our method offers a good trade-off between the number of parameters and classification accuracy. Our approach improves the top-1 accuracy on Fashion-MNIST, CompCars, and MIO-TCD datasets by 0.56%, 0.50%, and 0.39%, respectively compared to the state-of-the-art approaches. Our approach performs better than DARTS, improving the accuracy by 0.28%, 1.64%, 0.34%, 4.5%, and 3.27% compared to DARTS, on CIFAR-10, CIFAR-100, Fashion-MNIST, CompCars, and MIO-TCD datasets, respectively.
翻訳日:2022-11-20 18:42:47 公開日:2020-06-16
# 事故予測のためのグローバル特徴集約

Global Feature Aggregation for Accident Anticipation ( http://arxiv.org/abs/2006.08942v1 )

ライセンス: Link先を確認
Mishal Fatima, Muhammad Umar Karim Khan, and Chong Min Kyung(参考訳) 自律・非自律車両における事故予知は事故回避に役立つ。 ビデオシーケンスにおける交通事故などの異常事象を認識するためには,所定のフレーム内の物体の相互作用を考慮したネットワークが重要である。 本稿では,フレーム内のすべてのオブジェクトの特徴の重み付け和を計算し,各オブジェクトの特徴を洗練する新しい特徴集約(fa)ブロックを提案する。 FAブロックとLong Short Term Memory (LSTM) ネットワークを併用して,ビデオシーケンスにおける事故の予測を行う。 street accident (sa) データセットにおける平均精度 (map) と平均時間対アクシデント (atta) について報告する。 提案手法は, 適応損失法と動的パラメータ予測法と比較して, 事故の0.32秒, 事故の0.75秒を予測し, リスク予測の最高スコアを得る。

Anticipation of accidents ahead of time in autonomous and non-autonomous vehicles aids in accident avoidance. In order to recognize abnormal events such as traffic accidents in a video sequence, it is important that the network takes into account interactions of objects in a given frame. We propose a novel Feature Aggregation (FA) block that refines each object's features by computing a weighted sum of the features of all objects in a frame. We use FA block along with Long Short Term Memory (LSTM) network to anticipate accidents in the video sequences. We report mean Average Precision (mAP) and Average Time-to-Accident (ATTA) on Street Accident (SA) dataset. Our proposed method achieves the highest score for risk anticipation by predicting accidents 0.32 sec and 0.75 sec earlier compared to the best results with Adaptive Loss and dynamic parameter prediction based methods respectively.
翻訳日:2022-11-20 18:42:08 公開日:2020-06-16
# アクティブビジュアル学習のための意味的好奇心

Semantic Curiosity for Active Visual Learning ( http://arxiv.org/abs/2006.09367v1 )

ライセンス: Link先を確認
Devendra Singh Chaplot, Helen Jiang, Saurabh Gupta, Abhinav Gupta(参考訳) 本稿では,物体検出のための具体化対話型学習の課題について検討する。 環境(およびラベルの予算)が与えられた場合、エージェントがラベルを取得するデータを選択することで、オブジェクト検出器を学習することが目的です。 調査政策はどの軌道にラベルを付けるべきか決めるべきか? 1つの可能性として、トレーニング対象検出器の障害ケースを外部報酬として使用する。 しかし、これはRLポリシーのトレーニングに必要な数百万のフレームをラベル付けする必要がある。 代わりに、意味的好奇心の概念を導入することによって、探索政策を訓練するための自己指導的なアプローチを探求する。 私たちのセマンティック好奇心ポリシーは、単純な観察に基づいています -- 検出出力は一貫性があるべきです。 したがって,我々の意味的好奇心は,無矛盾なラベル付け行動を伴う軌道に報いるとともに,探索政策を奨励する。 セマンティクス・キュリオシティによって訓練された探索ポリシーは、新しいシーンに一般化し、ランダムな探索、予測エラー・キュリオシティ、カバレッジを最大化する探索といった他の選択肢で訓練されたベースラインを上回るオブジェクト検出器の訓練を支援する。

In this paper, we study the task of embodied interactive learning for object detection. Given a set of environments (and some labeling budget), our goal is to learn an object detector by having an agent select what data to obtain labels for. How should an exploration policy decide which trajectory should be labeled? One possibility is to use a trained object detector's failure cases as an external reward. However, this will require labeling millions of frames required for training RL policies, which is infeasible. Instead, we explore a self-supervised approach for training our exploration policy by introducing a notion of semantic curiosity. Our semantic curiosity policy is based on a simple observation -- the detection outputs should be consistent. Therefore, our semantic curiosity rewards trajectories with inconsistent labeling behavior and encourages the exploration policy to explore such areas. The exploration policy trained via semantic curiosity generalizes to novel scenes and helps train an object detector that outperforms baselines trained with other possible alternatives such as random exploration, prediction-error curiosity, and coverage-maximizing exploration.
翻訳日:2022-11-20 18:41:56 公開日:2020-06-16
# 疎結合性, 対向ロバスト性, および人工ニューロンの新しいモデルについて

On sparse connectivity, adversarial robustness, and a novel model of the artificial neuron ( http://arxiv.org/abs/2006.09510v1 )

ライセンス: Link先を確認
Sergey Bochkanov(参考訳) ディープニューラルネットワークは、ほぼすべての知覚的ベンチマークで人間のレベル精度を達成した。 これらの進歩は、何十年にもわたって古い2つのアイデアを用いてなされたことが興味深い。 a) 線形和算器に基づく人工ニューロンと (b)SGDトレーニング。 しかし、計算効率と対向摂動に対する安定性という、精度を超える重要な指標がある。 本稿では,輪郭認識タスクにおけるこれらの指標を改善するための2つの密結合手法を提案する。 (a) ハードウェア要件の低さと対向性摂動に対する固有の堅牢性を有する「強ニューロン」という,人工ニューロンの新しいモデル (b)ニューロン毎に$o(1)$接続を持つスパースネットワークを生成する新規な構成的トレーニングアルゴリズム。 SVHN および GTSRB ベンチマークを用いて,本手法の有効性を実証する。 演算回数の10x-100x削減(他のスペーシフィケーション手法の10倍、高密度ネットワークの100倍)とハードウェア要件の大幅な削減(8ビット固定点数を用いた)を実現し、モデルの精度を低下させることなく達成した。 逆行性摂動に対する上向きの安定性(逆行性トレーニングによるものを除く)は、強いニューロンのみの堅牢性に頼らずに、逆行性対策なしで達成された。 また,我々の強力なニューロンを構成するブロックが,敵の攻撃に対して完全な安定性を持つ唯一の活性化機能であることも証明した。

Deep neural networks have achieved human-level accuracy on almost all perceptual benchmarks. It is interesting that these advances were made using two ideas that are decades old: (a) an artificial neuron based on a linear summator and (b) SGD training. However, there are important metrics beyond accuracy: computational efficiency and stability against adversarial perturbations. In this paper, we propose two closely connected methods to improve these metrics on contour recognition tasks: (a) a novel model of an artificial neuron, a "strong neuron," with low hardware requirements and inherent robustness against adversarial perturbations and (b) a novel constructive training algorithm that generates sparse networks with $O(1)$ connections per neuron. We demonstrate the feasibility of our approach through experiments on SVHN and GTSRB benchmarks. We achieved an impressive 10x-100x reduction in operations count (10x when compared with other sparsification approaches, 100x when compared with dense networks) and a substantial reduction in hardware requirements (8-bit fixed-point math was used) with no reduction in model accuracy. Superior stability against adversarial perturbations (exceeding that of adversarial training) was achieved without any counteradversarial measures, relying on the robustness of strong neurons alone. We also proved that constituent blocks of our strong neuron are the only activation functions with perfect stability against adversarial attacks.
翻訳日:2022-11-20 18:36:24 公開日:2020-06-16
# どれぐらい信用できますか。 --説明ニューラルネットワークの不確かさの定量化

How Much Can I Trust You? -- Quantifying Uncertainties in Explaining Neural Networks ( http://arxiv.org/abs/2006.09000v1 )

ライセンス: Link先を確認
Kirill Bykov, Marina M.-C. H\"ohne, Klaus-Robert M\"uller, Shinichi Nakajima, Marius Kloft(参考訳) 説明可能なAI(XAI)は、深層ニューラルネットワークなどの学習機械による予測の解釈を提供することを目標とし、マシンをより透明にし、さらに安全クリティカルな分野のアプリケーションにも信頼性を持たせる。 しかし、これまでのところ説明の不確かさを定量化する方法は考えられておらず、説明への信頼度が高い領域では問題となっている。 そこで本研究では,ニューラルネットの任意の説明方法をベイズ型ニューラルネットの説明法に変換するための新しいフレームワークを提案する。 ベイズフレームワーク内では、ネットワークの重みは標準的な単一説明スコアとヒートマップをその分布に拡張する分布に従い、本質的なネットワークモデルの不確かさを説明の不確かさの定量化に変換する。 これにより、モデル説明に関連する不確実性を初めて彫り出し、その後、(パーセンタイルを使用して)ユーザに対する適切な説明信頼度を評価できます。 本手法の有効性と有用性は,質的および定量的に様々な実験で実証した。

Explainable AI (XAI) aims to provide interpretations for predictions made by learning machines, such as deep neural networks, in order to make the machines more transparent for the user and furthermore trustworthy also for applications in e.g. safety-critical areas. So far, however, no methods for quantifying uncertainties of explanations have been conceived, which is problematic in domains where a high confidence in explanations is a prerequisite. We therefore contribute by proposing a new framework that allows to convert any arbitrary explanation method for neural networks into an explanation method for Bayesian neural networks, with an in-built modeling of uncertainties. Within the Bayesian framework a network's weights follow a distribution that extends standard single explanation scores and heatmaps to distributions thereof, in this manner translating the intrinsic network model uncertainties into a quantification of explanation uncertainties. This allows us for the first time to carve out uncertainties associated with a model explanation and subsequently gauge the appropriate level of explanation confidence for a user (using percentiles). We demonstrate the effectiveness and usefulness of our approach extensively in various experiments, both qualitatively and quantitatively.
翻訳日:2022-11-20 18:35:20 公開日:2020-06-16
# SPLASH: 精度と対向ロバスト性を改善するための学習可能なアクティベーション機能

SPLASH: Learnable Activation Functions for Improving Accuracy and Adversarial Robustness ( http://arxiv.org/abs/2006.08947v1 )

ライセンス: Link先を確認
Mohammadamin Tavakoli, Forest Agostinelli, Pierre Baldi(参考訳) SPLASHユニットは、深層ニューラルネットワークの精度を同時に向上すると同時に、敵攻撃に対する堅牢性を向上する学習可能なアクティベーション機能である。 SPLASHユニットは単純なパラメータ化を持ち、幅広い非線形関数を近似する能力を維持する。 SPLASHユニット: 1)連続 2) 接地 (f(0) = 0) である。 3) 対称ヒンジを使用し, そして 4)ヒンジの位置は、データから直接導出される(すなわち、学習を必要としない)。 ReLUとその変種を含む9つの学習および固定活性化関数と比較して、SPLASHユニットは3つのデータセット(MNIST、CIFAR-10、CIFAR-100)と4つのアーキテクチャ(LeNet5、All-CNN、ResNet-20、Network-in-Network)で優れたパフォーマンスを示している。 さらに、SPLASHユニットは、敵攻撃に対するディープニューラルネットワークの堅牢性を大幅に向上させることを示した。 ブラックボックス攻撃とオープンボックス攻撃の両方に対する実験により、一般に使われているアーキテクチャ、すなわちLeNet5、All-CNN、ResNet-20、Network-in-Networkは、ReLUの代わりにSPLASHユニットを使用することで、敵攻撃に対して最大で31%堅牢であることが示された。

We introduce SPLASH units, a class of learnable activation functions shown to simultaneously improve the accuracy of deep neural networks while also improving their robustness to adversarial attacks. SPLASH units have both a simple parameterization and maintain the ability to approximate a wide range of non-linear functions. SPLASH units are: 1) continuous; 2) grounded (f(0) = 0); 3) use symmetric hinges; and 4) the locations of the hinges are derived directly from the data (i.e. no learning required). Compared to nine other learned and fixed activation functions, including ReLU and its variants, SPLASH units show superior performance across three datasets (MNIST, CIFAR-10, and CIFAR-100) and four architectures (LeNet5, All-CNN, ResNet-20, and Network-in-Network). Furthermore, we show that SPLASH units significantly increase the robustness of deep neural networks to adversarial attacks. Our experiments on both black-box and open-box adversarial attacks show that commonly-used architectures, namely LeNet5, All-CNN, ResNet-20, and Network-in-Network, can be up to 31% more robust to adversarial attacks by simply using SPLASH units instead of ReLUs.
翻訳日:2022-11-20 18:35:00 公開日:2020-06-16
# ボルツマンマシンによるジェネリックセマンティックハッシュ

Generative Semantic Hashing Enhanced via Boltzmann Machines ( http://arxiv.org/abs/2006.08858v1 )

ライセンス: Link先を確認
Lin Zheng, Qinliang Su, Dinghan Shen and Changyou Chen(参考訳) 生成的意味ハッシュは、高速検索速度と少ないメモリフットプリントのおかげで、大規模情報検索に有望な技術である。 訓練の扱いやすさのために、既存の生成ハッシング法は、ハッシュ符号のビット間の独立性を強制する後方分布の因子化された形式を主に想定している。 モデル表現とコード空間のサイズの両方の観点から考えると、独立性は必ずしも最良の仮定ではない。 本稿では,ハッシュ符号のビット間の相関を導入するため,ボルツマンマシンの分布を変分後段として用いることを提案する。 トレーニングの難易度問題に対処するため,まずガウス分布とベルヌーイ分布の階層的連結として加えたボルツマンマシンの分布を再パラメータ化する近似手法を開発した。 それに基づいて、エビデンス下限(elbo)に対して漸近的に示される下限がさらに導出される。 これらの新しい技術により、モデル全体を効率的に最適化することができる。 広範な実験結果から,ハッシュコード内の異なるビット間の相関を効果的にモデル化することで,性能が大幅に向上することを示す。

Generative semantic hashing is a promising technique for large-scale information retrieval thanks to its fast retrieval speed and small memory footprint. For the tractability of training, existing generative-hashing methods mostly assume a factorized form for the posterior distribution, enforcing independence among the bits of hash codes. From the perspectives of both model representation and code space size, independence is always not the best assumption. In this paper, to introduce correlations among the bits of hash codes, we propose to employ the distribution of Boltzmann machine as the variational posterior. To address the intractability issue of training, we first develop an approximate method to reparameterize the distribution of a Boltzmann machine by augmenting it as a hierarchical concatenation of a Gaussian-like distribution and a Bernoulli distribution. Based on that, an asymptotically-exact lower bound is further derived for the evidence lower bound (ELBO). With these novel techniques, the entire model can be optimized efficiently. Extensive experimental results demonstrate that by effectively modeling correlations among different bits within a hash code, our model can achieve significant performance gains.
翻訳日:2022-11-20 18:34:10 公開日:2020-06-16
# よりサンプル効率のよい時間差学習のためのメタラーニング適性トレース

META-Learning Eligibility Traces for More Sample Efficient Temporal Difference Learning ( http://arxiv.org/abs/2006.08906v1 )

ライセンス: Link先を確認
Mingde Zhao(参考訳) 時間差学習(td learning)は、与えられたポリシーの価値を学ぶアルゴリズムと、ポリシーを改善する方法を学ぶアルゴリズムの両方のコアとなる、標準的で非常に成功した強化学習アプローチである。 適格トレースを持つTD学習は、時間的クレジット割り当てを行う手段を提供する。すなわち、パラメータ$\lambda$によって制御された前回の状態に報酬のどの部分が割り当てられるべきかを決定する。 しかし、このパラメータのチューニングは時間がかかり、チューニングしないと非効率な学習につながる可能性がある。 そこで本研究では,td-learningのサンプル効率を向上させるために,適性トレースパラメータを状態に依存して調整するメタラーニング手法を提案する。 この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。 私たちのアプローチは、オン政治とオフ政治の学習の両方で使用できます。 提案手法は,いくつかの仮定の下で,目標誤差の最小化により,更新対象の全体的な品質を改善する。 この方法は、メタラーニング機能(オブザーブレーション)ベースの$\lambda$オンラインによる関数近似による予測を支援するプラグインや、ポリシー改善を支援するコントロールケースでも使用することができる。 我々の経験的評価は,学習速度変化に対するアルゴリズムの頑健性の向上とともに,大幅な性能向上を示す。

Temporal-Difference (TD) learning is a standard and very successful reinforcement learning approach, at the core of both algorithms that learn the value of a given policy, as well as algorithms which learn how to improve policies. TD-learning with eligibility traces provides a way to do temporal credit assignment, i.e. decide which portion of a reward should be assigned to predecessor states that occurred at different previous times, controlled by a parameter $\lambda$. However, tuning this parameter can be time-consuming, and not tuning it can lead to inefficient learning. To improve the sample efficiency of TD-learning, we propose a meta-learning method for adjusting the eligibility trace parameter, in a state-dependent manner. The adaptation is achieved with the help of auxiliary learners that learn distributional information about the update targets online, incurring roughly the same computational complexity per step as the usual value learner. Our approach can be used both in on-policy and off-policy learning. We prove that, under some assumptions, the proposed method improves the overall quality of the update targets, by minimizing the overall target error. This method can be viewed as a plugin which can also be used to assist prediction with function approximation by meta-learning feature (observation)-based $\lambda$ online, or even in the control case to assist policy improvement. Our empirical evaluation demonstrates significant performance improvements, as well as improved robustness of the proposed algorithm to learning rate variation.
翻訳日:2022-11-20 18:33:10 公開日:2020-06-16