このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201106となっている論文です。

PDF登録状況(公開日: 20201106)

TitleAuthorsAbstract論文公表日・翻訳日
# レーザー、ledまたはハロゲンランプから発生する絡み合った単一光子状態によるベル不等式違反

Bell inequality violation by entangled single photon states generated from a laser, a LED or a Halogen lamp ( http://arxiv.org/abs/2003.09961v3 )

ライセンス: Link先を確認
M. Pasini, N. Leone, S. Mazzucchi, V. Moretti, D. Pastorello, L. Pavesi(参考訳) 単一粒子または粒子内部の絡み合いでは、単一粒子の2つの自由度(例えば、単一の光子の運動量と偏光)が絡み合う。 単粒子絡み合い(spe)は、量子通信プロトコルとコチェン・スペックルの定理に基づく非文脈性の実験テストの両方で活用できる非古典的相関の源を提供する。 さらに、SPEはデコヒーレンス現象下では堅牢である。 ここでは、単一光子の単粒子の絡み合い状態が、古典的光子でさえ減衰した光源から生成できることを示す。 エンタングルメントを実験的に証明するために,Claruser, Horne, Shimony, Holt(CHSH)の不平等を観察するベル試験を行った。 一方、この絡み合いは古典的な光線でも達成可能であることを示し、絡み合いに関わる自由度の間に一階のコヒーレンスが維持されていることを仮定する。 一方、フィルタや減衰光源は独立したspe光子の束を与え、統計学的には1つの光子源によって生成される光とは区別がつかないことを証明している。 これは、安価でコンパクトで低出力の絡み合った光子源が様々な量子技術応用に使用できることを示すため、重要な結果をもたらす。

In single-particle or intraparticle entanglement, two degrees of freedom of a single particle, e.g., momentum and polarization of a single photon, are entangled. Single-particle entanglement (SPE) provides a source of non classical correlations which can be exploited both in quantum communication protocols and in experimental tests of noncontextuality based on the Kochen-Specker theorem. Furthermore, SPE is robust under decoherence phenomena. Here, we show that single-particle entangled states of single photons can be produced from attenuated sources of light, even classical ones. To experimentally certify the entanglement, we perform a Bell test, observing a violation of the Clauser, Horne, Shimony and Holt (CHSH) inequality. On the one hand, we show that this entanglement can be achieved even in a classical light beam, provided that first-order coherence is maintained between the degrees of freedom involved in the entanglement. On the other hand, we prove that filtered and attenuated light sources provide a flux of independent SPE photons that, from a statistical point of view, are indistinguishable from those generated by a single photon source. This has important consequences, since it demonstrates that cheap, compact, and low power entangled photon sources can be used for a range of quantum technology applications.
翻訳日:2023-05-28 11:34:20 公開日:2020-11-06
# 一般に共変量 $n$-粒子ダイナミクス

Generally covariant $N$-particle dynamics ( http://arxiv.org/abs/2004.07015v2 )

ライセンス: Link先を確認
Tomasz Miller, Micha{\l} Eckstein, Pawe{\l} Horodecki, Ryszard Horodecki(参考訳) 複数の粒子のダイナミクスの同時記述には、外部時間パラメータを用いた構成空間アプローチが必要である。 これは、時間ではなく観測者が選択した座標である相対論的パラダイムとは対照的である。 しかし、ここでは、$N$-粒子動力学をモデル化する2つの姿勢が、一般に共変フレームワーク内で調和できることが示される。 この目的のために、我々は '$N$- Particle configuration spacetime' $\mathcal{M}_{\scriptstyle (N)}$ を構築し、大域双曲時空 $\mathcal{M}$ から始まり、選択された滑らかな時間と空間成分に分割する。 多粒子系の力学は、グローバル時間パラメータの助けを借りて、$\mathcal{M}_{\scriptstyle (N)}$上のボレル確率尺度のレベルでモデル化される。 我々は、$$N$粒子因果構造($\mathcal{M}_{\scriptstyle (N)}$)を尊重する測度の時間進化によって、ポーランド空間 '$N$粒子ワードライン' 上の単一の測度を関連付けることができることを証明した。 後者は分割独立な対象であり、$\mathcal{M}$ で他の大域観測者に対する測度の進化を抽出することができる。 採択された測度論的枠組みのもう1つの資産は、量子粒子のような区別不能な実体のダイナミクスをモデル化する可能性である。 応用として、外部時間パラメータの選択に明示的に依存する多光子および多光子Schr\"odinger方程式は、実際にミンコフスキー時空の因果構造と完全に一致していることを示す。

A simultaneous description of the dynamics of multiple particles requires a configuration space approach with an external time parameter. This is in stark contrast with the relativistic paradigm, where time is but a coordinate chosen by an observer. Here we show, however, that the two attitudes toward modelling $N$-particle dynamics can be conciliated within a generally covariant framework. To this end we construct an '$N$-particle configuration spacetime' $\mathcal{M}_{\scriptscriptstyle (N)}$, starting from a globally hyperbolic spacetime $\mathcal{M}$ with a chosen smooth splitting into time and space components. The dynamics of multi-particle systems is modelled at the level of Borel probability measures over $\mathcal{M}_{\scriptscriptstyle (N)}$ with the help of the global time parameter. We prove that with any time-evolution of measures, which respects the $N$-particle causal structure of $\mathcal{M}_{\scriptscriptstyle (N)}$, one can associate a single measure on the Polish space of '$N$-particle wordlines'. The latter is a splitting-independent object, from which one can extract the evolution of measures for any other global observer on $\mathcal{M}$. An additional asset of the adopted measure-theoretic framework is the possibility to model the dynamics of indistinguishable entities, such as quantum particles. As an application we show that the multi-photon and multi-fermion Schr\"odinger equations, although explicitly dependent on the choice of an external time-parameter, are in fact fully compatible with the causal structure of the Minkowski spacetime.
翻訳日:2023-05-23 11:41:19 公開日:2020-11-06
# 制限ボルツマン機械波動関数を用いたBose-Hubbardモデルの位相図再構成

Phase diagram reconstruction of the Bose-Hubbard model with a Restricted Boltzmann Machine wavefunction ( http://arxiv.org/abs/2004.12556v2 )

ライセンス: Link先を確認
Vladimir Vargas-Calder\'on and Herbert Vinck-Posada and Fabio A. Gonz\'alez(参考訳) 近年、多体問題や少数体問題の基底状態を記述するための神経量子状態の利用が、高い表現性と、非常に大きなヒルベルト空間を扱う能力によって人気を集めている。 特に、変分モンテカルロに基づく手法は、ボース=ハバード(bh)モデルのようなボソニック系の物理学を記述することに成功している。 しかし、この手法はbhモデルのパラメータ空間、特にモット絶縁体と超流動相の境界に関して体系的にテストされていない。 本研究では,BHモデルの量子基底状態をパラメータ空間のいくつかの点で再現するために,制限ボルツマンマシンによって与えられる実験波動関数を用いたモンテカルロ変分法の性能を評価する。 この技術をベンチマークするために、その結果を小さな1次元鎖の正確な対角化によって得られた基底状態と比較する。 一般に、学習された基底状態は多くの観測可能なものを正しく推定し、第1のモットローブと第2のモットローブの一部の位相図を高い精度で再現する。 しかし,これらの境界で基底状態が正しく学習されないため,励起多様体間のシステム遷移に際し,この手法が課題となる。 本研究では,地上で学習した雑音の確率を除去する手法を提案することにより,実験結果の品質向上を図る。

Recently, the use of neural quantum states for describing the ground state of many- and few-body problems has been gaining popularity because of their high expressivity and ability to handle intractably large Hilbert spaces. In particular, methods based on variational Monte Carlo have proven to be successful in describing the physics of bosonic systems such as the Bose-Hubbard (BH) model. However, this technique has not been systematically tested on the parameter space of the BH model, particularly at the boundary between the Mott insulator and superfluid phases. In this work, we evaluate the capabilities of variational Monte Carlo with a trial wavefunction given by a Restricted Boltzmann Machine to reproduce the quantum ground state of the BH model on several points of its parameter space. To benchmark the technique, we compare its results to the ground state found through exact diagonalization for small one-dimensional chains. In general, we find that the learned ground state correctly estimates many observables, reproducing to a high degree the phase diagram for the first Mott lobe and part of the second one. However, we find that the technique is challenged whenever the system transitions between excitation manifolds, as the ground state is not learned correctly at these boundaries. We improve the quality of the results produced by the technique by proposing a method to discard noisy probabilities learned in the ground state.
翻訳日:2023-05-22 00:28:05 公開日:2020-11-06
# 量子相関のための隠れ信号モデルにおけるメモリの不可能性

Impossibility of memory in hidden-signaling models for quantum correlations ( http://arxiv.org/abs/2005.11340v2 )

ライセンス: Link先を確認
Ignacio Perito, Guido Bellomo, Daniel Galicer, Santiago Figueira, Augusto J. Roncaglia, and Ariel Bendersky(参考訳) 自然が何らかの形で隠れたシグナル(例えば、箱の間をシグナルするが、ユーザーには利用できない)を用いて相関を生成する非局所的量子相関に対するトイモデルを考える。 このようなモデルにもメモリがある場合、当事者は隠されたシグナリングを利用してメッセージを送信し、より高速な通信を実現することができる。 記憶がどんな物理システムでも容易に利用できる資源であることを踏まえると,本研究は自然の非局所的行動のメカニズムとして隠れたシグナル伝達に対する証拠を付加する。

We consider a toy model for non-local quantum correlations in which nature resorts to some form of hidden signaling (i.e., signaling between boxes but not available to the users) to generate correlations. We show that if such a model also had memory, the parties would be able to exploit the hidden-signaling and use it to send a message, achieving faster-than-light communication. Given that memory is a resource easily available for any physical system, our results add evidence against hidden signaling as the mechanism behind nature's non-local behavior
翻訳日:2023-05-19 01:23:51 公開日:2020-11-06
# メモリレスだが同一でない量子チャネルの古典的容量

Classical capacities of memoryless but not identical quantum channels ( http://arxiv.org/abs/2005.12010v2 )

ライセンス: Link先を確認
Samad Khabbazi Oskouei and Stefano Mancini(参考訳) 我々は、時間によって決定論的に変化する量子チャネル、すなわち、独立した方法で変化するが、ある用途から別の用途へ変化しない。 古典的絡み合い支援と無支援キャパシティの符号化定理を導出する。 次に、この理論を損失のあるボゾン量子チャネルに専門化し、損失パラメータの制限挙動からキャパシティを引き出すことができる、あるいは引き出すことができない対照的な例の存在を示す。

We study quantum channels that vary on time in a deterministic way, that is, they change in an independent but not identical way from one to another use. We derive coding theorems for the classical entanglement assisted and unassisted capacities. We then specialize the theory to lossy bosonic quantum channels and show the existence of contrasting examples where capacities can or cannot be drawn from the limiting behavior of the lossy parameter.
翻訳日:2023-05-18 12:30:14 公開日:2020-11-06
# Mind the GAP: 連絡先追跡アプリのセキュリティとプライバシリスク

Mind the GAP: Security & Privacy Risks of Contact Tracing Apps ( http://arxiv.org/abs/2006.05914v2 )

ライセンス: Link先を確認
Lars Baumg\"artner (1), Alexandra Dmitrienko (3), Bernd Freisleben (2), Alexander Gruler (2), Jonas H\"ochst (1 and 2), Joshua K\"uhlberg (1), Mira Mezini (1), Richard Mitev (1), Markus Miettinen (1), Anel Muhamedagic (1), Thien Duc Nguyen (1), Alvar Penning (2), Dermot Frederik Pustelnik (1), Filipp Roos (3), Ahmad-Reza Sadeghi (1), Michael Schwarz (2), Christian Uhl (2) ((1) TU Darmstadt, (2) Philipps-Universit\"at Marburg, (3) JMU W\"urzburg)(参考訳) GoogleとAppleは共同で,“GAP”の略である“Google/Apple Proposal”と呼ばれるBluetooth Low Energyを使用した分散型コントラクトトレースアプリを実装するために,公開通知用のAPIを提供している。 実世界のシナリオでは、現在のGAP設計が脆弱であることを示します。 (i)感染した者のプロファイリング及び非匿名化の可能性 i)リレーベースのワームホール攻撃は、基本的に、アプリベースの接触追跡システムの精度に影響を与える可能性がある偽のコンタクトを生成することができる。 どちらのタイプの攻撃に対しても、携帯電話やRaspberry Pi(Bluetoothスニファーなど)で簡単に使用できるツールを構築しました。 われわれの目標は、この2つのプライバシーとセキュリティのリスクに対する実証的な現実世界の証拠を提供することだ。 安全かつプライバシ保護のディジタルコンタクトトレースシステムの開発に有用なインプットを提供したいと思っています。

Google and Apple have jointly provided an API for exposure notification in order to implement decentralized contract tracing apps using Bluetooth Low Energy, the so-called "Google/Apple Proposal", which we abbreviate by "GAP". We demonstrate that in real-world scenarios the current GAP design is vulnerable to (i) profiling and possibly de-anonymizing infected persons, and (ii) relay-based wormhole attacks that basically can generate fake contacts with the potential of affecting the accuracy of an app-based contact tracing system. For both types of attack, we have built tools that can easily be used on mobile phones or Raspberry Pis (e.g., Bluetooth sniffers). The goal of our work is to perform a reality check towards possibly providing empirical real-world evidence for these two privacy and security risks. We hope that our findings provide valuable input for developing secure and privacy-preserving digital contact tracing systems.
翻訳日:2023-05-16 02:50:07 公開日:2020-11-06
# 非マルコフ量子プロセスにおけるマルチタイム相関のための離散メモリカーネル

A discrete memory-kernel for multi-time correlations in non-Markovian quantum processes ( http://arxiv.org/abs/2007.03234v2 )

ライセンス: Link先を確認
Mathias R. J{\o}rgensen and Felix A. Pollock(参考訳) オープンシステムのダイナミクスの効率的なシミュレーションは、量子科学とテクノロジーにおいて非常に重要である。 本稿では,マルチタイム計測シナリオにおける転送テンソル(離散時間メモリカーネル)の一般化について述べる。 transfer-tensor法では、短い時間系の軌道しか利用できないため、オープンな数体量子システムの状態を長時間計算するために設定する。 ここで、トランスファーテンソル法は、オープンシステムのダイナミクスが進化するにつれて複数の質問(例えば、測定)を含むプロセスに拡張可能であることを示し、下位のシステム環境進化を余分に繰り返すことなく、高次短時間相関関数を後世に伝播できることを示した。 本手法は,オープン量子過程のプロセステンソル記述を利用して,多重時間相関を抽出可能な対象のダイナミクスを表現・伝播する。 本手法の有用性を示す例として, 定常状態に存在する系環境相関を十分に考慮し, スピンボーソンモデルにおける系環境相関の構築と定常状態放出スペクトルの計算を行った。

Efficient simulations of the dynamics of open systems is of wide importance for quantum science and tech-nology. Here, we introduce a generalization of the transfer-tensor, or discrete-time memory kernel, formalism to multi-time measurement scenarios. The transfer-tensor method sets out to compute the state of an open few-body quantum system at long times, given that only short-time system trajectories are available. Here, we showthat the transfer-tensor method can be extended to processes which include multiple interrogations (e.g. measurements) of the open system dynamics as it evolves, allowing us to propagate high order short-time correlation functions to later times, without further recourse to the underlying system-environment evolution. Our approach exploits the process-tensor description of open quantum processes to represent and propagate the dynamics in terms of an object from which any multi-time correlation can be extracted. As an illustration of the utility of the method, we study the build-up of system-environment correlations in the paradigmatic spin-boson model, and compute steady-state emission spectra, taking fully into account system-environment correlations present in the steady state.
翻訳日:2023-05-11 02:05:12 公開日:2020-11-06
# 動的カシミール効果によるキャビティモードの絡み合い劣化

Entanglement degradation of cavity modes due to the dynamical Casimir effect ( http://arxiv.org/abs/2007.06627v2 )

ライセンス: Link先を確認
Nicol\'as F. Del Grosso, Fernando C. Lombardo, Paula I. Villar(参考訳) 量子情報理論の文脈において、2つのキャビティ間の絡み合いのダイナミクスを調和的に揺らぎながら研究する。 動きの周波数と動くキャビティのスペクトルによって、4つの異なるレジームが見つかる。 移動キャビティが3次元の場合、内部の2つのモードのみが結合され、絡み合いは時間とともに漸近的に低下するか、駆動に応じて振動する。 一方、空洞が等距離スペクトルを持つ場合、エンタングルメントは、基本周波数で駆動された場合と、不均一な高調波で駆動された場合とで非漸近的に消滅するか、突然死する可能性がある。

We study the entanglement dynamics between two cavities when one of them is harmonically shaken in the context of quantum information theory. We find four different regimes depending on the frequency of the motion and the spectrum of the moving cavity. If the moving cavity is three dimensional only two modes inside get coupled and the entanglement can either degrade asymptotically with time or oscillate depending on the driving. On the other hand, if the cavity has an equidistant spectrum the entanglement can either vanish asymptotically if it is driven with its fundamental frequency or have a sudden death if it is driven with an uneven harmonic frequency.
翻訳日:2023-05-10 04:18:22 公開日:2020-11-06
# 相対エントロピーで定式化した相対論的流体の熱力学第二法則

Second law of thermodynamics for relativistic fluids formulated with relative entropy ( http://arxiv.org/abs/2008.02706v2 )

ライセンス: Link先を確認
Neil Dowling and Stefan Floerchinger and Tobias Haas(参考訳) 熱力学の第2法則は、相対エントロピーを用いたオープン量子系の量子情報理論の観点から論じ、再定式化される。 具体的には、平衡状態に関する量子状態の相対エントロピーを考慮し、開量子系の進化に関する単調性を用いて第二法則のような不等式を得る。 まず、熱浴と接触する一般量子系について論じ、続いて相対論的量子場理論における局所力学の記述に適した定式化に目を向ける。 相対論的流体力学で使われるものと類似した第二法則の局所バージョンは、2つの光円錐で囲まれた時空領域における相対エントロピーまたは相対エンタングルメントエントロピーで定式化することができる。 また、孤立量子場理論への展望を与え、相対論的流体力学における絡み合いの役割について議論する。

The second law of thermodynamics is discussed and reformulated from a quantum information theoretic perspective for open quantum systems using relative entropy. Specifically, the relative entropy of a quantum state with respect to equilibrium states is considered and its monotonicity property with respect to an open quantum system evolution is used to obtain second law-like inequalities. We discuss this first for generic quantum systems in contact with a thermal bath and subsequently turn to a formulation suitable for the description of local dynamics in a relativistic quantum field theory. A local version of the second law similar to the one used in relativistic fluid dynamics can be formulated with relative entropy or even relative entanglement entropy in a space-time region bounded by two light cones. We also give an outlook towards isolated quantum field theories and discuss the role of entanglement for relativistic fluid dynamics.
翻訳日:2023-05-07 00:10:51 公開日:2020-11-06
# 連続的自発的局所化モデルによる宇宙インフレーション治療の可能性の展望に関する議論

Discussions about the landscape of possibilities for treatments of cosmic inflation involving continuous spontaneous localization models ( http://arxiv.org/abs/2008.05285v2 )

ライセンス: Link先を確認
Gabriel R. Bengochea, Gabriel Le\'on, Philip Pearle, Daniel Sudarsky(参考訳) 本研究では, 連続自発局在化(CSL)動的崩壊理論をインフレーション時代に適用する際の, 様々な選択肢について考察する。 ここで議論された多くの問題に対する決定的な解決は、一般相対論的CSL理論だけでなく、量子重力の完全に実行可能な理論のためにも待たなければならない。 ここでの懸念は、これらの問題を探求し、早めの結論に警告することです。 この探索には、場の量子論と重力を扱うための2つの異なるアプローチ、崩壊生成作用素の同定、CSL理論のパラメータの一般的な性質と値が含まれる。 これらの問題に関連するすべての選択は、引き出すことができる結論を劇的に変える可能性を秘めている。 また、最近の論文では、CSLパラメータ値とCMB観測データとの間の不整合性は、CSL理論の宇宙的文脈に対する外挿のための特定の選択(非相対論的実験室の状況で作用することが知られている)と関連していると論じている。

In this work we consider a wide variety of alternatives opened when applying the continuous spontaneous localization (CSL) dynamical collapse theory to the inflationary era. The definitive resolution of many of the issues discussed here will have to await, not only for a general relativistic CSL theory, but for a fully workable theory of quantum gravity. Our concern here is to explore these issues, and to warn against premature conclusions. This exploration includes: two different approaches to deal with quantum field theory and gravitation, the identification of the collapse-generating operator and the general nature and values of the parameters of the CSL theory. All the choices connected with these issues have the potential to dramatically alter the conclusions one can draw. We also argue that the incompatibilities found in a recent paper, between the CSL parameter values and the CMB observational data, are associated with specific choices made for the extrapolation to the cosmological context of the CSL theory (as it is known to work in non-relativistic laboratory situations) which do not represent the most natural ones.
翻訳日:2023-05-06 13:42:06 公開日:2020-11-06
# 透過電子顕微鏡と多色多光子イオン化における軌道角運動量重畳状態

Orbital angular momentum superposition states in transmission electron microscopy and bichromatic multiphoton ionization ( http://arxiv.org/abs/2008.07874v2 )

ライセンス: Link先を確認
K. Eickhoff, C. Rathje, D. K\"ohnke, S. Kerbstadt, L. Englert, T. Bayer, S. Sch\"afer, M. Wollenhaupt(参考訳) 電子ビームと超高速電子波パケットのコヒーレント制御は、電子顕微鏡や原子物理学において大きな注目を集めている。 両フィールドで開発された概念像を統一するために、透過電子顕微鏡でカスタマイズされたホログラフィック回折マスクを用いるか、パルスシャッパー生成キャリア-エンベロープ相安定二色超短パルスを用いた原子多光子イオン化により、配向電子軌道角運動量(OAM)重畳状態の生成と操作を実証した。 どちらの手法も量子力学的重ね合わせ状態のフーリエ合成に基づく同様の物理機構に従い、非特異対称性を持つ広い電子状態の合成を可能にする。 両アプローチを空間的およびスペクトル的二重スリットに基づく統合図で記述し,重要な類似点を指摘する。 さらに,位相電荷を解析し,自由電子oam重畳状態の制御機構について考察した。 透過電子顕微鏡および原子多光子イオン化における位相調整によるそれらの生成と操作は、回転対称電子密度分布に示される。

The coherent control of electron beams and ultrafast electron wave packets dynamics have attracted significant attention in electron microscopy as well as in atomic physics. In order to unify the conceptual pictures developed in both fields, we demonstrate the generation and manipulation of tailored electron orbital angular momentum (OAM) superposition states either by employing customized holographic diffraction masks in a transmission electron microscope or by atomic multiphoton ionization utilizing pulse-shaper generated carrier-envelope phase stable bichromatic ultrashort laser pulses. Both techniques follow similar physical mechanisms based on Fourier synthesis of quantum mechanical superposition states allowing the preparation of a broad set of electron states with uncommon symmetries. We describe both approaches in a unified picture based on an advanced spatial and spectral double slit and point out important analogies. In addition, we analyze the topological charge and discuss the control mechanisms of the free-electron OAM superposition states. Their generation and manipulation by phase tailoring in transmission electron microscopy and atomic multiphoton ionization is illustrated on a 7-fold rotationally symmetric electron density distribution.
翻訳日:2023-05-05 22:56:46 公開日:2020-11-06
# テレコムoバンドにおける歪可変量子ドット単一光子源の決定論的構築

Deterministically fabricated strain-tunable quantum dot single-photon sources emitting in the telecom O-band ( http://arxiv.org/abs/2009.12543v2 )

ライセンス: Link先を確認
Nicole Srocka, Pawel Mrowi\'nski, Jan Gro{\ss}e, Marco Schmidt, Sven Rodt, Stephan Reitzenstein(参考訳) ほとんどの量子通信は、量子情報の長距離伝送を目標としている。 量子リピータの概念では、伝送線路はベル状態測定による絡み合い分布によって接続された短いリンクに分割され、固有のチャネル損失を克服する。 この概念は、各リピータノード内で高いマルチ光子抑制と高い識別性を持つオンデマンドの単一光子源を必要とする。 リピータの動作を成功させるためには、リモート量子光源のスペクトルマッチングが不可欠である。 本稿では,光ファイバーをベースとした量子通信ネットワークのビルディングブロックとして機能する可能性のある,スペクトル調整可能な単一光子源について述べる。 InGaAs量子ドット(QD)を埋め込んだGaAs薄膜は、金熱圧縮結合を介して圧電アクチュエータに取り付けられる。 ここで、薄い金層は、QDマイクロメカのための電気接触、ひずみ伝達媒体、ブロードバンドバックサイドミラーとして同時に機能する。 QD-マイクロメカのナノファブリケーションは、その場で電子ビームリソグラフィーに基づいており、選択された単一QDを決定論的にモノリシックマイクロメカ構造の中心に統合することができる。 QD事前選択は、異なる単一QD特性、信号強度、放出エネルギーに基づいている。 ひずみ誘起微細チューニングと組み合わせることで、リモートQDの放射においてスペクトル共鳴を達成する堅牢な方法が提供される。 スペクトルチューニングは、g^{(2)}(0)$が2-4%以下のマルチ光子抑制に検出可能な影響を与えず、クローズドループ光フィードバックを用いて4$\mu$eVの精度で発光を安定化できることを示す。

Most quantum communication schemes aim at the long-distance transmission of quantum information. In the quantum repeater concept, the transmission line is subdivided into shorter links interconnected by entanglement distribution via Bell-state measurements to overcome inherent channel losses. This concept requires on-demand single-photon sources with a high degree of multi-photon suppression and high indistinguishability within each repeater node. For a successful operation of the repeater, a spectral matching of remote quantum light sources is essential. We present a spectrally tunable single-photon source emitting in the telecom O-band with the potential to function as a building block of a quantum communication network based on optical fibers. A thin membrane of GaAs embedding InGaAs quantum dots (QDs) is attached onto a piezoelectric actuator via gold thermocompression bonding. Here the thin gold layer acts simultaneously as an electrical contact, strain transmission medium and broadband backside mirror for the QD-micromesa. The nanofabrication of the QD-micromesa is based on in-situ electron-beam lithography, which makes it possible to integrate pre-selected single QDs deterministically into the center of monolithic micromesa structures. The QD pre-selection is based on distinct single-QD properties, signal intensity and emission energy. In combination with strain-induced fine tuning this offers a robust method to achieve spectral resonance in the emission of remote QDs. We show that the spectral tuning has no detectable influence on the multi-photon suppression with $g^{(2)}(0)$ as low as 2-4% and that the emission can be stabilized to an accuracy of 4 $\mu$eV using a closed-loop optical feedback.
翻訳日:2023-04-30 22:40:15 公開日:2020-11-06
# 波動関数の連続的自発的局所化モデルに対する賞賛と批判

In Praise and in Criticism of the Model of Continuous Spontaneous Localization of the Wave-Function ( http://arxiv.org/abs/2010.03392v2 )

ライセンス: Link先を確認
Sofia D. Wechsler(参考訳) 量子力学(QM)の測定問題を、崩壊原理を否定し、量子形式論の変化に置き換えようとする試みは、形式論の変化がQM予測と矛盾する結果となったため失敗した。 違いとして、Ghirardi, Rimini and Weber は崩壊を実際の現象として捉え、波動関数が突然の局所化を行う計算を提案した。 その後、Ghirardi、Pearre、Riminiは、この計算を崩壊のCSL(Continuous spontaneous Localization)モデルに変更した。 これらの2つの提案は、顕微鏡装置がマクロな物体に遭遇し、大量の粒子を含む場合に波動関数の減少が起こるという実験的な事実に依存している。 どちらも、Schrodinger方程式にノイズを伴う追加用語を導入することで、量子フォーマリズムを変化させる。 しかし、これらの用語は、1つまたは数個の成分しか含まない限り、実質的には影響がない。 成分の量が非常に大きい場合に限り、これらの用語は重要になり、波動関数をその成分の1つに還元する。 この作品には2つの目的がある。 1) 崩壊が避けられないことを証明すること。 2) cslモデルを検出器のプロセスに適用し、ステップバイステップで波動関数の修正を行い、還元する。 理論的には、このノイズは一部の物理学者の思考やホップとは対照的に、ある古典的場に起源を持つことはできない、なぜなら古典的場は絡み合いの波動関数によって調整されていないからである。

Different attempts to solve the measurement problem of the quantum mechanics (QM) by denying the collapse principle, and replacing it with changes in the quantum formalism, failed because the changes in the formalism lead to contradictions with QM predictions. To the difference, Ghirardi, Rimini and Weber took the collapse as a real phenomenon, and proposed a calculus by which the wave-function should undergo a sudden localization. Later on, Ghirardi, Pearle and Rimini came with a change of this calculus into the CSL (continuous spontaneous localization) model of collapse. Both these proposals rely on the experimental fact that the reduction of the wave-function occurs when the microscopic system encounters a macroscopic object and involves a big amount of its particles. Both of them also change the quantum formalism by introducing in the Schrodinger equation additional terms with noisy behavior. However, these terms have practically no influence as long as the studied system contains only one or a few components. Only when the amount of components is very big, these terms become significant and lead to the reduction of the wave-function to one of its components. The present work has two purposes: 1) proving that the collapse postulate is unavoidable; 2) applying the CSL model to the process in a detector and showing step by step the modification of the wave-function, until reduction. As a side detail, it is argued here that the noise cannot originate in some classical field, contrary to the thought/hope of some physicists, because no classical field is tailored by the wave-functions of entanglements.
翻訳日:2023-04-29 19:53:48 公開日:2020-11-06
# 断熱除去を伴わない吸収性光ビスタビリティの集団原子相関--ゆらぎの線形処理による非古典性の例

Collective atomic correlations in absorptive optical bistability without adiabatic elimination: exemplifying nonclassicality from a linearized treatment of fluctuations ( http://arxiv.org/abs/2010.05808v2 )

ライセンス: Link先を確認
Th. K. Mavrogordatos(参考訳) 吸収性光ビスタビリティにおいて,集合原子自由度の非コヒーレントスペクトル,スクイーズ特性,二階相関関数を決定する。 これは、[H. J. Carmichael, Phys. A 33, 3262 (1986)]の分析によって導かれる正のP表現における線形化されたフォッカー・プランク方程式によって達成される。 我々は, 弱いキャビティと強いキャビティの励起機構に注目し, 優れたキャビティと悪いキャビティの限界, 集合的な強いカップリングの限界に対処した。 アンサンブルに結合した補助共振器によって持続されるキャビティフィールドの断熱的除去を用いて、集団放出チャネルの形成を介して原子相関を調べる。 本研究では, 定常半古典的ビスタビリティ曲線の下枝と上枝の差を考察し, フォワード散乱光に対する対応する表現と実験結果との比較を行った。 解析は旋回点から遠く離れた安定な状態の周囲で行われ、分析式は古典的行動から明確に逸脱して自己整合的に得ることができる。

We determine the incoherent spectrum, squeezing properties and second-order correlation function of the collective atomic degrees of freedom in absorptive optical bistability. This is accomplished via a linearized Fokker-Planck equation in the positive P representation, guided by the analysis of [H. J. Carmichael, Phys. Rev. A 33, 3262 (1986)] which does not resort to adiabatic elimination. We focus on the regimes of weak and strong intracavity excitation, addressing the good-cavity and bad-cavity limits as well as the limit of collective strong coupling. Adiabatic elimination of the intracavity field sustained by an auxiliary resonator coupled to the ensemble is used to probe the atomic correlations via the formation of a collective emission channel. We compare to the corresponding expressions for the forwards-scattered light with reference to experimental results, discussing key differences between the lower and upper branch of the steady-state semiclassical bistability curve. Our analysis is carried out around the stable states situated far away from the turning points, where analytical expressions can be obtained self-consistently, demonstrating a clear departure from classical behavior.
翻訳日:2023-04-29 07:20:15 公開日:2020-11-06
# シリコンリング共振器で発生する光子対の電気的自己励起による評価

Characterization of photon pairs generated by a silicon ring resonator under electrical self-pumping ( http://arxiv.org/abs/2011.03273v1 )

ライセンス: Link先を確認
Francesco Garrisi, Federico Andrea Sabattoli, Nicola Bergamasco, Micol Previde Massara, Federico Pirzio, Francesco Morichetti, Andrea Melloni, Marco Liscidini, Matteo Galli and Daniele Bajoni(参考訳) 自己励起方式におけるシリコンリング共振器における非古典状態の発生について報告する。 リングはフィルターとして機能するラシングキャビティに挿入されるため、ラシングは常に選択されたリング共鳴内で発生し、共鳴周波数をアクティブに安定化させることはない。 我々は、同調光子対の放出を示し、その相関特性を刺激的放出による測定の再構成を通して研究する。

We report on the generation of nonclassical states of light in a silicon ring resonator in a selfpumping scheme. The ring is inserted in a lasing cavity, for which it acts as a filter, so that the lasing always occurs within a selected ring resonance, without active stabilization of the resonance frequency. We show the emission of coincident photon pairs and study their correlation properties through the reconstruction of the measurements via stimulated emission.
翻訳日:2023-04-25 03:24:35 公開日:2020-11-06
# 複合ナノレーザーにおける散逸ジョセフソン効果

Dissipative Josephson effect in coupled nanolasers ( http://arxiv.org/abs/2011.03265v1 )

ライセンス: Link先を確認
Samuel Fern\'andez-Lorenzo and Diego Porras(参考訳) ジョセフソン効果は、散逸やノイズを無視したり、重要な役割を果たさない量子系で一般的に研究されている。 対照的に, 散逸相互作用がフォトニックジョセフソン電流を増幅し, 量子光学干渉計素子の散逸高感度への扉を開く機構について論じる。 特に,位相コヒーレント駆動とコヒーレント光子トンネル法で結合した2つの結合ナノレーザーについて検討した。 この系をフォッカー・プランク方程式を用いて記述し、ナノレーザー間のコヒーレントカップリングの関数として興味深い非平衡相図を示すことを示す。 この結合を増大させるにつれ、光子トンネル法により位相コヒーレンスが破壊される相ロック状態と非相ロック状態の間の非平衡相転移が見つかる。 コヒーレントで位相ロックされた状態では、競合する局所散逸ダイナミクスとジョセフソン光電流との競合の結果、定常状態に現れるナノレーザーの間に相違があるときに不均衡な光子数が現れる。 後者は、大きな非コヒーレントなパンピングレートで増幅され、発散相転移の近くにも変換される。 ジョゼフソン光電流は光位相差の測定に使用できることを示した。 量子限界では、2つのナノレーザー干渉計の精度は光子数の2乗に比例して増大するため、光子のナノレーザーへの非コヒーレント励起率を高めることで向上することができる。

Josephson effects are commonly studied in quantum systems in which dissipation or noise can be neglected or do not play a crucial role. In contrast, here we discuss a setup where dissipative interactions do amplify a photonic Josephson current, opening a doorway to dissipation-enhanced sensitivity of quantum-optical interferometry devices. In particular, we study two coupled nanolasers subjected to phase coherent drivings and coupled by a coherent photon tunneling process. We describe this system by means of a Fokker-Planck equation and show that it exhibits an interesting non-equilibrium phase diagram as a function of the coherent coupling between nanolasers. As we increase that coupling, we find a non-equilibrium phase transition between a phase-locked and a non-phase-locked steady-state, in which phase coherence is destroyed by the photon tunneling process. In the coherent, phase-locked regime, an imbalanced photon number population appears if there is a phase difference between the nanolasers, which appears in the steady-state as a result of the competition between competing local dissipative dynamics and the Josephson photo-current. The latter is amplified for large incoherent pumping rates and it is also enchanced close to the lasing phase transition. We show that the Josephson photocurrent can be used to measure optical phase differences. In the quantum limit, the accuracy of the two nanolaser interferometer grows with the square of the photon number and, thus, it can be enhanced by increasing the rate of incoherent pumping of photons into the nanolasers.
翻訳日:2023-04-25 03:24:28 公開日:2020-11-06
# 化学教育と学習のための没入型インタラクティブ量子力学

Immersive Interactive Quantum Mechanics for Teaching and Learning Chemistry ( http://arxiv.org/abs/2011.03256v1 )

ライセンス: Link先を確認
Thomas Weymuth and Markus Reiher(参考訳) このプロセスには、非常に抽象的な概念(原子、化学結合、分子構造、反応性など)が必要とされるため、私たちの感覚で分子の世界を経験することは不可能である。 バーチャルリアリティー、特に明示的な物理的モデリング(潜在的にリアルタイム)に基づく場合、このジレンマに対する解決策を提供する。 化学教育は、仮想現実のフレームワークや触覚デバイスのような高度な技術を利用することができる。 従来の学習環境よりもずっと直感的なアプローチを提供することで、学生が典型的な化学反応の核となる概念を理解するのに没入的学習環境がどう適用できるかを示す。 我々の設定は化学系のインタラクティブな探索と操作に依存しており、このシステムは量子化学法でリアルタイムでシミュレートされ、物理的に意味のある振る舞いをする。

The impossibility of experiencing the molecular world with our senses hampers teaching and understanding chemistry because very abstract concepts (such as atoms, chemical bonds, molecular structure, reactivity) are required for this process. Virtual reality, especially when based on explicit physical modeling (potentially in real time), offers a solution to this dilemma. Chemistry teaching can make use of advanced technologies such as virtual-reality frameworks and haptic devices. We show how an immersive learning setting could be applied to help students understand the core concepts of typical chemical reactions by offering a much more intuitive approach than traditional learning settings. Our setting relies on an interactive exploration and manipulation of a chemical system; this system is simulated in real-time with quantum chemical methods, and therefore, behaves in a physically meaningful way.
翻訳日:2023-04-25 03:24:00 公開日:2020-11-06
# 超伝導高周波空洞内におけるミリサイズのネオジム磁石のマイスナー浮上

Meissner levitation of a millimeter size neodymium magnet within a superconducting radio frequency cavity ( http://arxiv.org/abs/2011.03144v1 )

ライセンス: Link先を確認
N. K. Raut, J. Miller, J. Pate, R. Chiao, and J. E. Sharping(参考訳) 超伝導無線周波数(SRF)キャビティ内におけるミリサイズのネオジム永久磁石の磁気浮上について報告する。 我々の知る限りでは、これはSRF空洞内で磁石を浮遊させる最初の実験である。 共振器は6061アルミニウム製の同軸四分波マイクロ波共振器で、共振周波数は10GHz、負荷Qは1400である。 筒状磁石(N50)は高さ1mm、直径0.75mm、質量4mg、残留率1.44Tであり、アルミニウムの臨界磁場の140倍のピーク磁場を発生させる。 私たちの測定は、いくつかの加熱サイクルと冷却サイクルで一致しています。 私たちの仕事は、新しいオプトメカニクスシステムへの道筋を提供する。

We report on the magnetic levitation of a millimeter sized neodymium permanent magnet within the interior of a superconducting radio frequency (SRF) cavity. To the best of our knowledge, this is the first experimental work on levitating a magnet within an SRF cavity. The cavity is a coaxial quarter wave microwave resonator made from 6061 aluminum, having a resonance frequency of 10GHz and a loaded Q of 1400. The cylindrical magnet (N50) has a height of 1 mm, a diameter of 0.75 mm, a mass of 4 mg, and a remanence of 1.44 T. This produces a peak magnetic field 140 times greater than the critical field of aluminum. Our measurements are consistent over several heating and cooling cycles. Our work provides a path towards a novel optomechanical system.
翻訳日:2023-04-25 03:22:26 公開日:2020-11-06
# 物理法則の情報保存の原理(量子系における隠れ情報?)

A principle of information conservation for physical laws (Hidden information in quantum systems?) ( http://arxiv.org/abs/2011.03493v1 )

ライセンス: Link先を確認
Nicolas Underwood(参考訳) 情報保存の原理は抽象的な用語で示され、確率的物理法則を除外し、状態軌道の存在を必要とする。 さらに、運用レベルでの確率分布の出現のための幾何学的・熱力学的メカニズムを提供し、従ってボルンの量子確率の規則を動的に説明することができる。 この幾何学と操作確率の関係は、量子システムにおける「隠れた情報」の可能性を研究するための有望な角度であり、量子基礎の研究をより一般に導くものである。

A principle of information conservation is shown in abstract terms to rule out probabilistic physical laws, necessitating the existence of state trajectories. It furthermore provides a geometric-thermodynamic mechanism for the appearance of probability distributions at the operational level, and thus may provide a dynamical explanation for Born's rule of quantum probabilities. This link between geometry and operational probabilities is argued to be a promising angle from which to study the potential for "hidden information" in quantum systems, and guide efforts in quantum foundations more generally.
翻訳日:2023-04-25 03:15:43 公開日:2020-11-06
# 開量子系に対する確率的最適制御形式

Stochastic optimal control formalism for an open quantum system ( http://arxiv.org/abs/2011.03438v1 )

ライセンス: Link先を確認
Chungwei Lin and Dries Sels and Yanting Ma and Yebin Wang(参考訳) 確率的波動関数のみを用いて、散逸的量子系に対するポントリャーギンの最大原理を表現できる確率的手順が開発された。 時間最適制御は密度行列を計算せずに効率的に計算できる。 具体的には、ポントリャーギンの最大原理によって導入された確率的コスト変数に対して適切な動的更新規則を提示し、終端コスト関数の形式上の制約について論じる。 提案手法はリンドブラディアン力学の最適制御結果と比較することによって確認される。 数値的には、提案された形式論は大規模システムにおいて時間とメモリ効率が良くなり、非マルコフ力学を記述するために一般化することができる。

A stochastic procedure is developed which allows one to express Pontryagin's maximum principle for dissipative quantum system solely in terms of stochastic wave functions. Time-optimal controls can be efficiently computed without computing the density matrix. Specifically, the proper dynamical update rules are presented for the stochastic costate variables introduced by Pontryagin's maximum principle and restrictions on the form of the terminal cost function are discussed. The proposed procedure is confirmed by comparing the results to those obtained from optimal control on Lindbladian dynamics. Numerically, the proposed formalism becomes time and memory efficient for large systems, and it can be generalized to describe non-Markovian dynamics.
翻訳日:2023-04-25 03:14:58 公開日:2020-11-06
# 非線形量子ニューロン:量子ニューラルネットワークの基本構築ブロック

Nonlinear Quantum Neuron: A Fundamental Building Block for Quantum Neural Networks ( http://arxiv.org/abs/2011.03429v1 )

ライセンス: Link先を確認
Shilu Yan, Hongsheng Qi, and Wei Cui(参考訳) 量子コンピューティングにより、量子ニューラルネットワーク(QNN)は、人工ニューラルネットワーク(ANN)を超える大きな可能性を持つ。 ニューラルネットワークの強力な一般化は非線形活性化関数に起因する。 qnnに関連する様々なモデルが開発されているが、ニューラルネットワークの非線形、散逸的ダイナミクスを線形ユニタリ量子システムに統合するという課題に直面している。 本稿では,非線形関数を近似する異なる量子回路を構築し,非線形量子ニューロンを実現するための一般化可能なフレームワークを提案する。 提案手法に基づく量子ニューロンの2つの例を示す。 単一量子ニューロンを構成するために必要な量子資源は、入力サイズの関数の多項式である。 最後に、IBM Quantum Experienceの結果と数値シミュレーションの両方が提案フレームワークの有効性を示している。

Quantum computing enables quantum neural networks (QNNs) to have great potentials to surpass artificial neural networks (ANNs). The powerful generalization of neural networks is attributed to nonlinear activation functions. Although various models related to QNNs have been developed, they are facing the challenge of merging the nonlinear, dissipative dynamics of neural computing into the linear, unitary quantum system. In this paper, we establish different quantum circuits to approximate nonlinear functions and then propose a generalizable framework to realize any nonlinear quantum neuron. We present two quantum neuron examples based on the proposed framework. The quantum resources required to construct a single quantum neuron are the polynomial, in function of the input size. Finally, both IBM Quantum Experience results and numerical simulations illustrate the effectiveness of the proposed framework.
翻訳日:2023-04-25 03:14:46 公開日:2020-11-06
# 量子近似最適化アルゴリズムを用いた2値ペイントショップ問題に対する古典ヒューリスティックの打破

Beating classical heuristics for the binary paint shop problem with the quantum approximate optimization algorithm ( http://arxiv.org/abs/2011.03403v1 )

ライセンス: Link先を確認
Michael Streif, Sheir Yarkoni, Andrea Skolik, Florian Neukart, Martin Leib(参考訳) binary paint shop problem (bpsp) は自動車業界におけるapxハードな最適化問題である。 本研究では, BPSP の解を求めるために量子近似最適化アルゴリズム (QAOA) を用いる方法を示し, 無限大極限$n\rightarrow\infty$ において, 一定深さの QAOA が古典的ヒューリスティックを平均で破ることができることを示した。 BPSPの場合、多項式ランタイムの問題を近似する古典的アルゴリズムは存在しないことが知られている。 本稿では,QAOAで解くのが難しいBPSPインスタンスを紹介し,その性能を数値的に検討し,QAOAが近似解を生成する能力について議論する。 私たちはAWS Braketを通じて、トラップされたイオン量子コンピュータ上で小さなインスタンスの最初の実験を行うことで、研究を完了しました。

The binary paint shop problem (BPSP) is an APX-hard optimization problem of the automotive industry. In this work, we show how to use the Quantum Approximate Optimization Algorithm (QAOA) to find solutions of the BPSP and demonstrate that QAOA with constant depth is able to beat classical heuristics on average in the infinite size limit $n\rightarrow\infty$. For the BPSP, it is known that no classical algorithm can exist which approximates the problem in polynomial runtime. We introduce a BPSP instance which is hard to solve with QAOA, and numerically investigate its performance and discuss QAOA's ability to generate approximate solutions. We complete our studies by running first experiments of small-sized instances on a trapped-ion quantum computer through AWS Braket.
翻訳日:2023-04-25 03:14:16 公開日:2020-11-06
# レーザースポット格子を用いた数十個の窒素空孔中心の並列光磁気共鳴分光計

Parallel optically detected magnetic resonance spectrometer for dozens of single nitrogen-vacancy centers using laser-spot lattice ( http://arxiv.org/abs/2011.03365v1 )

ライセンス: Link先を確認
Mingcheng Cai, Zhongzhi Guo, Fazhan Shi, Chunxing Li, Mengqi Wang, Wei Ji, Pengfei Wang, Jiangfeng Du(参考訳) パラレル光検出磁気共鳴(PODMR)分光計を開発し, ダイヤモンド中の窒素空孔(NV)中心の配列を並列に処理し, 操作し, 読み出す。 この分光計では、マイクロレンズの配列を用いて、目標焦点面上に20×20のレーザースポット格子(LSL)を生成し、LSLを単一のNV中心の配列に整列させる。 NV中心の量子状態は {\displaystyle {\Omega} 形状のコプラナーコイルから均一なマイクロ波場によって操作される。 実験実験として,80個のnv中心を視野で観察した。 このうち、磁気共鳴(MR)スペクトルと18NV中心のラビ振動は、外部磁場に沿って並列に測定される。 これらの結果は、共焦点法と比較して並列量子センシングと複数回高速化を実現するために直接利用できる。 ナノスケールMR技術に関して、PODMRは高スループットの単一分子MRスペクトルとイメージングに不可欠である。

We develop a parallel optically detected magnetic resonance (PODMR) spectrometer to address, manipulate and read out an array of single nitrogen-vacancy (NV) centers in diamond in parallel. In this spectrometer, we use an array of micro-lens to generate 20 * 20 laser-spot lattice (LSL) on the objective focal plane, and then align the LSL with an array of single NV centers. The quantum states of NV centers are manipulated by a uniform microwave field from a {\Omega}-shape coplanar coil. As an experimental demonstration, we observe 80 NV centers in the field of view. Among them, magnetic resonance (MR) spectrums and Rabi oscillations of 18 NV centers along the external magnetic field are measured in parallel. These results can be directly used to realize parallel quantum sensing and multiple times speedup compared with the confocal technique. Regarding the nanoscale MR technique, PODMR will be crucial for high throughput single molecular MR spectrum and imaging.
翻訳日:2023-04-25 03:13:53 公開日:2020-11-06
# ポラリトニック化学: 強結合が化学特性の強い局所的修飾を引き起こす

Polaritonic Chemistry: Collective Strong Coupling Implies Strong Local Modification of Chemical Properties ( http://arxiv.org/abs/2011.03284v1 )

ライセンス: Link先を確認
Dominik Sidler, Christian Sch\"afer, Michael Ruggenthaler, Angel Rubio(参考訳) ポラリトニック化学はここ数年で急速に発展してきた分野である。 複数の実験結果から、化学特性は根本的に変化し、物質が共鳴キャビティモードに強く結合されたときに新しい物理状態が現れることが示唆されている。 これまでのところ、これらの観測を説明・予測するための理論的アプローチは現象学的量子光学モデルに限られており、集団分極効果を記述するのに適している。 後者の方法は、計算的にアクセス可能な粒子数が本質的に低いため、集団効果を明示的に含まないため、特に議論を呼んでいた。 ここでは, 結合した化学アンサンブル(例えば, 温度変動や反応過程)に存在する不純物が極性系の局所的な変化を引き起こす, 可変サイズの窒素二量体鎖を示す。 このことから, 局所的な化学的性質は, 集合的に結合した環境によって不純物によって著しく変化した, 新たな暗黒状態が形成されると推察される。 我々のシミュレーションは、量子光学モデル(例えば、集合的暗黒状態と異なる偏光分枝の形成)からの理論的予測を、局所電荷の(量子化された)再分配に依存する単一分子の量子化学的な観点で統一する。 さらに,最近開発されたQEDFT法は,これらの局所的な極性効果のスケーリングに適しており,最近の実験結果をよりよく理解し,新しい実験手法を設計するのにも有用であると考えられた。 これら全てが、多くの新しい発見と極性化学への応用の道を開く。

Polaritonic chemistry has become a rapidly developing field within the last few years. A multitude of experimental observations suggest that chemical properties can be fundamentally altered and novel physical states appear when matter is strongly coupled to resonant cavity modes, i.e. when hybrid light-matter states emerge. Up until now, theoretical approaches to explain and predict these observations were either limited to phenomenological quantum optical models, suited to describe collective polaritonic effects, or alternatively to ab initio approaches for small system sizes. The later methods were particularly controversial since collective effects could not be explicitly included due to the intrinsically low particle numbers, which are computationally accessible. Here, we demonstrate for a nitrogen dimer chain of variable size that any impurity present in a collectively coupled chemical ensemble (e.g. temperature fluctuations or reaction process) induces local modifications in the polaritonic system. From this we deduce that a novel dark state is formed, whose local chemical properties are modified considerably at the impurity due to the collectively coupled environment. Our simulations unify theoretical predictions from quantum optical models (e.g. formation of collective dark states and different polaritonic branches) with the single molecule quantum chemical perspective, which relies on the (quantized) redistribution of local charges. Moreover, our findings suggest that the recently developed QEDFT method is suitable to access these locally scaling polaritonic effects and it is a useful tool to better understand recent experimental results and to even design novel experimental approaches. All of which paves the way for many novel discoveries and applications in polaritonic chemistry.
翻訳日:2023-04-25 03:13:38 公開日:2020-11-06
# 超伝導量子ビットを用いたハイパーキューブの完全状態伝達とその実装

Perfect state transfer on hypercubes and its implementation using superconducting qubits ( http://arxiv.org/abs/2011.03586v1 )

ライセンス: Link先を確認
Siddhant Singh, Bibhas Adhikari, Supriyo Dutta, David Zueco(参考訳) 超キューブ中の任意の対の頂点間の完全状態移動のためのプロトコルを提案する。 超立方体に一対の異なる頂点が与えられると、その対の頂点を対脚頂点として含む部分超立方体を決定する。 次に、所望の頂点間の完全な状態伝達を容易にするメモリ拡張ハイパーキューブのサブハイパーキューブを決定するスイッチングプロセスを導入する。 さらに,チューナブル結合を持つ超伝導トランスモン量子ビットを用いて,一意に近い忠実性を有するスイッチングプロトコルのかなり良好な状態遷移実装のための物理アーキテクチャを提案する。 スイッチングは、グラフエッジに対するアンシラ量子ビットカップラの効果から生じる量子ビット間の効果的なカップリングの制御により実現される。 また,プロトコルの欠陥実装による状態転送の完全性に縛られたエラーを報告する。

We propose a protocol for perfect state transfer between any pair of vertices in a hypercube. Given a pair of distinct vertices in the hypercube we determine a sub-hypercube that contains the pair of vertices as antipodal vertices. Then a switching process is introduced for determining the sub-hypercube of a memory enhanced hypercube that facilitates perfect state transfer between the desired pair of vertices. Furthermore, we propose a physical architecture for the pretty good state transfer implementation of our switching protocol with fidelity arbitrary close to unity, using superconducting transmon qubits with tunable couplings. The switching is realised by the control over the effective coupling between the qubits resulting from the effect of ancilla qubit couplers for the graph edges. We also report an error bound on the fidelity of state transfer due to faulty implementation of our protocol.
翻訳日:2023-04-25 03:06:53 公開日:2020-11-06
# ランダム行列固有状態のヒルベルト空間幾何学

Hilbert-space geometry of random-matrix eigenstates ( http://arxiv.org/abs/2011.03557v1 )

ライセンス: Link先を確認
Alexander-Georg Penner, Felix von Oppen, Gergely Zarand, and Martin R. Zirnbauer(参考訳) 量子状態のマルチパラメータ族の幾何学は、断熱的あるいは非断熱的な量子力学、量子クエンチ、量子臨界点のキャラクタリゼーションなど、多くの文脈において重要である。 ここでは、パラメータ依存ランダム行列アンサンブルの固有状態のヒルベルト空間幾何学を議論し、ガウスユニタリアンサンブルの量子幾何テンソルの完全な確率分布を導出した。 解析結果から,フビニ・スタディ計量とベリー曲率の正確な関節分布関数が得られた。 我々は、レヴィ安定分布との関係を議論し、ランダム・マトリクス・アンサンブルとランダム磁場中の電子の数値シミュレーションと比較する。

The geometry of multi-parameter families of quantum states is important in numerous contexts, including adiabatic or nonadiabatic quantum dynamics, quantum quenches, and the characterization of quantum critical points. Here, we discuss the Hilbert-space geometry of eigenstates of parameter-dependent random-matrix ensembles, deriving the full probability distribution of the quantum geometric tensor for the Gaussian Unitary Ensemble. Our analytical results give the exact joint distribution function of the Fubini-Study metric and the Berry curvature. We discuss relations to Levy stable distributions and compare our results to numerical simulations of random-matrix ensembles as well as electrons in a random magnetic field.
翻訳日:2023-04-25 03:06:41 公開日:2020-11-06
# 新型コロナウイルスストレス下の医療システムの最適資源・需要再分配

Optimal Resource and Demand Redistribution for Healthcare Systems Under Stress from COVID-19 ( http://arxiv.org/abs/2011.03528v1 )

ライセンス: Link先を確認
Felix Parker, Hamilton Sawczuk, Fardin Ganjkhanloo, Farzin Ahmadi, Kimia Ghobadi(参考訳) 新型コロナウイルス(covid-19)パンデミックのような極端なストレスに直面すると、医療システムは通常、基本能力に近づいている施設でサージキャパシティを生成して反応する。 しかし、各施設で個別の容量を創出することは必ずしも最適なアプローチではなく、施設間の需要と臨界資源の再分配は、必要な総容量を減らすことができる。 データによると、この追加負荷は新型コロナウイルス(COVID-19)のパンデミックの間、病院間で不均一に分配された。 これは非効率であるだけでなく、超能力病院におけるケアの質の低下につながる可能性がある。 本研究では,需要の増大期間中に要求されるサージ容量と資源不足を最小限に抑えるため,最適需要と資源移動を求める問題について検討する。 我々は需要と資源の再分配問題の変種を解決する線形および混合整数型プログラミングモデルを開発し,解析する。 さらに,需要の不確実性を考慮し,解決可能性を確保するためにロバストな最適化を行う。 また、このようなスキームを実装する際に意思決定者が考慮すべき運用上の制約やコストも取り入れています。 我々のモデルは、ニュージャージー、テキサス、マイアミのCOVID-19入院データを用いて振り返りに検証され、各症例の観察結果と比較すると、最低でも85%のサージ能力が低下する。 その結果、このようなソリューションは運用可能であり、需要不確実性に対して十分に堅牢であることがわかった。 まとめると、この研究は医療システムの意思決定者に実用的で柔軟なツールを提供し、ある施設の容量が過大な場合の患者の適切なケアに必要なサージ能力を低減する。

When facing an extreme stressor, such as the COVID-19 pandemic, healthcare systems typically respond reactively by creating surge capacity at facilities that are at or approaching their baseline capacity. However, creating individual capacity at each facility is not necessarily the optimal approach, and redistributing demand and critical resources between facilities can reduce the total required capacity. Data shows that this additional load was unevenly distributed between hospitals during the COVID-19 pandemic, requiring some to create surge capacity while nearby hospitals had unused capacity. Not only is this inefficient, but it also could lead to a decreased quality of care at over-capacity hospitals. In this work, we study the problem of finding optimal demand and resource transfers to minimize the required surge capacity and resource shortage during a period of heightened demand. We develop and analyze a series of linear and mixed-integer programming models that solve variants of the demand and resource redistribution problem. We additionally consider demand uncertainty and use robust optimization to ensure solution feasibility. We also incorporate a range of operational constraints and costs that decision-makers may need to consider when implementing such a scheme. Our models are validated retrospectively using COVID-19 hospitalization data from New Jersey, Texas, and Miami, yielding at least an 85% reduction in required surge capacity relative to the observed outcome of each case. Results show that such solutions are operationally feasible and sufficiently robust against demand uncertainty. In summary, this work provides decision-makers in healthcare systems with a practical and flexible tool to reduce the surge capacity necessary to properly care for patients in cases when some facilities are over capacity.
翻訳日:2023-04-25 03:05:50 公開日:2020-11-06
# 量子ネットワークにおけるn局所不等式最大量子ビット違反

Maximal qubit violation of n-local inequalities in quantum network ( http://arxiv.org/abs/2011.03513v1 )

ライセンス: Link先を確認
Amit Kundu, Mostak Kamal Molla, Indrani Chattopadhyay and Debasis Sarkar(参考訳) ソース独立量子ネットワークはベルシナリオの自然な一般化と見なされ、ネットワーク内で分散および測定される量子状態の非局所的性質を調べる。 絡み合いの最も単純なネットワークを考えると、最近のGisinら。 とAndreoliらは言う。 アルは独立に、いわゆる「双局所性」不等式に反する量子状態の集合を体系的に特徴づけた。 本研究では,鎖状および星型ネットワークに任意の数のパーティが分散する量子ネットワークの複雑さについて考察する。 このような連鎖と星型ネットワークの任意の2量子ビット状態によって達成できる「n-局所」不等式を最大に破る。 これにより、複素構造における量子相関のより深い理解が可能になる。

Source independent quantum networks are considered as a natural generalization to the Bell scenario where we investigate the nonlocal properties of quantum states distributed and measured in a network. Considering the simplest network of entanglement swapping, recently Gisin et. al. and Andreoli et. al. independently provided a systematic characterization of the set of quantum states leading to violation of the so-called 'bilocality' inequality. In this work, we consider the complexities in the quantum networks with an arbitrary number of parties distributed in chain-shaped and star-shaped networks. We derive the maximal violation of the 'n-local' inequality that can be achieved by arbitrary two-qubit states for such chain and star-shaped networks. This would further provide us deeper understanding of quantum correlations in complex structures.
翻訳日:2023-04-25 03:05:20 公開日:2020-11-06
# Inherent Qubit Decoherence を用いた量子コンピュータ上のスピン化学系の熱緩和シミュレーション

Simulation of Thermal Relaxation in Spin Chemistry Systems on a Quantum Computer Using Inherent Qubit Decoherence ( http://arxiv.org/abs/2001.00794v2 )

ライセンス: Link先を確認
Brian Rost, Barbara Jones, Mariya Vyushkova, Aaila Ali, Charlotte Cullip, Alexander Vyushkov, Jarek Nabrzyski(参考訳) 現在の量子コンピュータ(すなわち NISQ デバイス)は、量子ビットのデコヒーレンスによって計算能力が制限されている。 ここでは,実世界の量子システムの振る舞いをシミュレートする資源としてqubitデコヒーレンスを活用し,計算オーバーヘッドを増加させずにデコヒーレンスを行う。 この目標に向けた第一歩として、量子コンピュータ上のラジカルイオン対(RP)における量子ビートの熱緩和を、この方法の概念の証明としてシミュレートする。 本稿では,熱緩和を実現するための3つの方法を提案する。1つは緩和クラウス作用素を明示的に適用し,もう1つは古典的後処理ステップにおいて2つの異なる回路からの結果を組み合わせたものである。 我々は,2つの実世界のシステムをシミュレートし,結果,実験データ,理論的予測との間に優れた一致を見出した。

Current and near term quantum computers (i.e. NISQ devices) are limited in their computational power in part due to qubit decoherence. Here we seek to take advantage of qubit decoherence as a resource in simulating the behavior of real world quantum systems, which are always subject to decoherence, with no additional computational overhead. As a first step toward this goal we simulate the thermal relaxation of quantum beats in radical ion pairs (RPs) on a quantum computer as a proof of concept of the method. We present three methods for implementing the thermal relaxation, one which explicitly applies the relaxation Kraus operators, one which combines results from two separate circuits in a classical post-processing step, and one which relies on leveraging the inherent decoherence of the qubits themselves. We use our methods to simulate two real world systems and find excellent agreement between our results, experimental data, and the theoretical prediction.
翻訳日:2023-01-14 18:15:02 公開日:2020-11-06
# 有限周波数比におけるラビスタークモデルの量子臨界性

Quantum criticality of the Rabi-Stark model at finite frequency ratios ( http://arxiv.org/abs/2001.04356v2 )

ライセンス: Link先を確認
Xiang-You Chen, You-Fei Xie, and Qing-Hu Chen(参考訳) 本稿では,Ravi-Starkモデルの量子臨界度を,エネルギーギャップ,秩序パラメータ,および忠実度の観点から,空隙周波数と空洞周波数の有限比で解析する。 臨界指数は解析的に導出される。 エネルギーギャップと長さ臨界指数は、量子ラビモデルやディックモデルとは異なる。 また、注文パラメータと忠実度感受性の有限サイズスケーリング解析も行う。 普遍的なスケーリング挙動を示し、いくつかの有限サイズ指数を抽出することができる。 さらに、ボソニックヒルベルト空間のトランケーション数の観点から普遍的臨界挙動を確立し、対応する臨界スケーリング指数を求めることができる。 興味深いことに、フォトニック切断数の観点からの臨界相関長指数と等価に有効な長さスケールは、ラビ-スタークモデルと量子ラビモデルで異なり、異なる普遍性クラスに属することが示唆されている。 第二次量子相転移は有限周波数比でラビ-スタークモデルにおいて説得力強く裏付けられ、対照的に、スタークカップリングを伴わずに元の量子ラビモデルの無限周波数比でのみ現れる。

In this paper, we analyze the quantum criticality of the Rabi-Stark model at finite ratios of the qubit and cavity frequencies in terms of the energy gap, the order parameter, as well as the fidelity, if the Stark coupling strength is the same as the cavity frequency. The critical exponents are derived analytically. The energy gap and the length critical exponents are different from those in the quantum Rabi model and the Dicke model. The finite size scaling analysis for the order parameter and the fidelity susceptibility is also performed. The universal scaling behaviors are demonstrated and several finite size exponents can be then extracted. Furthermore, universal critical behavior can be also established in terms of the bosonic Hilbert space truncation number, and the corresponding critical scaling exponents are found. Interestingly, the critical correlation length exponents in terms of the photonic truncation number as well as the equivalently effective length scales are different in the Rabi-Stark model and the quantum Rabi model, suggesting they belong to different universality classes. The second-order quantum phase transition is convincingly corroborated in the Rabi-Stark model at finite frequency ratios, by contrast, it only emerges at the infinite frequency ratio in the original quantum Rabi model without the Stark coupling.
翻訳日:2023-01-11 23:59:32 公開日:2020-11-06
# U$-statistic permutation testによる独立テストの最適レート

Optimal rates for independence testing via $U$-statistic permutation tests ( http://arxiv.org/abs/2001.05513v2 )

ライセンス: Link先を確認
Thomas B. Berrett, Ioannis Kontoyiannis, Richard J. Samworth(参考訳) 独立および同一に分散したペアが$\sigma$-finiteで分離可能な測度空間で値を取る独立性テストの問題を考察する。 依存の自然な測度として$D(f)$を、結合密度$f$とその辺の積の間の正方形の$L^2$-距離として定義すると、まず独立性の有効なテストはなく、$\{f: D(f) \geq \rho^2 \}$の形式に一様に一致することを示す。 したがって、追加のソボレフ型滑らかさ制約を課す代替品への注意を制限し、基底展開に基づく置換テストと、多くの例において分離率の観点からミニマックス最適であることが証明された$d(f)$のu$統計推定器を定義する。 最後に、$[0,1]^2$ のフーリエ基底の場合、いくつかの洞察を与えるパワー関数に近似を与える。 我々の手法はRパッケージUSPで実装されている。

We study the problem of independence testing given independent and identically distributed pairs taking values in a $\sigma$-finite, separable measure space. Defining a natural measure of dependence $D(f)$ as the squared $L^2$-distance between a joint density $f$ and the product of its marginals, we first show that there is no valid test of independence that is uniformly consistent against alternatives of the form $\{f: D(f) \geq \rho^2 \}$. We therefore restrict attention to alternatives that impose additional Sobolev-type smoothness constraints, and define a permutation test based on a basis expansion and a $U$-statistic estimator of $D(f)$ that we prove is minimax optimal in terms of its separation rates in many instances. Finally, for the case of a Fourier basis on $[0,1]^2$, we provide an approximation to the power function that offers several additional insights. Our methodology is implemented in the R package USP.
翻訳日:2023-01-11 06:58:44 公開日:2020-11-06
# GraphBGS: グラフ信号の回復によるバックグラウンドサブトラクション

GraphBGS: Background Subtraction via Recovery of Graph Signals ( http://arxiv.org/abs/2001.06404v2 )

ライセンス: Link先を確認
Jhony H. Giraldo, Thierry Bouwmans(参考訳) 背景減算はコンピュータビジョンにおける基本的な前処理タスクである。 このタスクは、静的カメラシーケンスと移動カメラシーケンスの両方の背景の変化のため、実際のシナリオでは困難になる。 背景減算のためのいくつかの深層学習法が、競争性のある文献で提案されている。 しかし、これらのモデルは、目に見えないビデオでテストした場合のパフォーマンス低下を示し、過度なフィットを避けるために大量のデータを必要とする。 近年,教師なし・半教師付き学習問題へのグラフベースアルゴリズムのアプローチが成功している。 さらに、グラフ信号処理と半教師付き学習の理論が組み合わされ、機械学習の分野における新たな洞察が生まれた。 本稿では,背景サブトラクション問題において,グラフ信号の回復の概念を導入する。 本稿では,グラフ信号の分離,背景初期化,グラフ構成,グラフサンプリング,半教師付きアルゴリズムからなるグラフ背景減算(graph background subtraction,graphbgs)というアルゴリズムを提案する。 我々のアルゴリズムは、静的ビデオと動画動画の両方で競合する結果を得る一方で、ディープラーニングメソッドよりもラベル付きデータが少ないという利点があります。 GraphBGSは、公開されている変更検出(CDNet2014)とUCSDバックグラウンドサブトラクションデータベースにおいて、教師なしおよび教師なしの手法よりも優れている。

Background subtraction is a fundamental pre-processing task in computer vision. This task becomes challenging in real scenarios due to variations in the background for both static and moving camera sequences. Several deep learning methods for background subtraction have been proposed in the literature with competitive performances. However, these models show performance degradation when tested on unseen videos; and they require huge amount of data to avoid overfitting. Recently, graph-based algorithms have been successful approaching unsupervised and semi-supervised learning problems. Furthermore, the theory of graph signal processing and semi-supervised learning have been combined leading to new insights in the field of machine learning. In this paper, concepts of recovery of graph signals are introduced in the problem of background subtraction. We propose a new algorithm called Graph BackGround Subtraction (GraphBGS), which is composed of: instance segmentation, background initialization, graph construction, graph sampling, and a semi-supervised algorithm inspired from the theory of recovery of graph signals. Our algorithm has the advantage of requiring less labeled data than deep learning methods while having competitive results on both: static and moving camera videos. GraphBGS outperforms unsupervised and supervised methods in several challenging conditions on the publicly available Change Detection (CDNet2014), and UCSD background subtraction databases.
翻訳日:2023-01-10 12:35:50 公開日:2020-11-06
# 機械学習アンサンブルによるトウモロコシ収量予測

Forecasting Corn Yield with Machine Learning Ensembles ( http://arxiv.org/abs/2001.09055v2 )

ライセンス: Link先を確認
Mohsen Shahhosseini, Guiping Hu, Sotirios V. Archontoulis(参考訳) ビッグデータを高性能コンピューティングで合成・分析する新技術の出現により、作物収量をより正確に予測する能力が向上した。 近年の研究では、機械学習(ml)は、シミュレーション作物モデリングよりも合理的な予測、高速、高い柔軟性をもたらすことが示されている。 成長期の早期の予測は良好だが、前回の研究では収量予測に利用可能な全てのデータを検討したため、これは完全には調査されていない。 本稿では,完全かつ部分的な季節内気象知識を考慮した3つの米国トウモロコシベルト州(イリノイ州,インディアナ州,アイオワ州)におけるトウモロコシ収量予測のための機械学習フレームワークを提供する。 いくつかのアンサンブルモデルは、ブロックされたシーケンシャルプロシージャを使用して、バッグ外予測を生成する。 予測は郡レベルの規模で行われ、農業地区と州レベルの規模で集計される。 その結果,基本学習者の重み付き平均に基づくアンサンブルモデルは,個々のモデルよりも優れていた。 具体的には、提案されたアンサンブルモデルは、他の先進モデルと比較して最も正確な予測精度(RRMSEの7.8%)と最小平均バイアス誤差(6.06 bu/acre)を達成することができる。 提案したモデル予測と文献との比較により,提案したアンサンブルモデルによる予測の優位性を示す。 季節内気象知識を部分的に持つシナリオの結果、6月1日早々に適切な収量予測が可能であることが判明した。 提案したアンサンブルモデルによる予測に対する各入力特徴の限界効果を見出すために,アンサンブルモデルの特徴的重要性を見出すための基礎となる手法を提案する。 その結果,18~24週(5月1~6月1日)の気象特性が最も重要な入力特徴であることが示唆された。

The emerge of new technologies to synthesize and analyze big data with high-performance computing, has increased our capacity to more accurately predict crop yields. Recent research has shown that Machine learning (ML) can provide reasonable predictions, faster, and with higher flexibility compared to simulation crop modeling. The earlier the prediction during the growing season the better, but this has not been thoroughly investigated as previous studies considered all data available to predict yields. This paper provides a machine learning based framework to forecast corn yields in three US Corn Belt states (Illinois, Indiana, and Iowa) considering complete and partial in-season weather knowledge. Several ensemble models are designed using blocked sequential procedure to generate out-of-bag predictions. The forecasts are made in county-level scale and aggregated for agricultural district, and state level scales. Results show that ensemble models based on weighted average of the base learners outperform individual models. Specifically, the proposed ensemble model could achieve best prediction accuracy (RRMSE of 7.8%) and least mean bias error (-6.06 bu/acre) compared to other developed models. Comparing our proposed model forecasts with the literature demonstrates the superiority of forecasts made by our proposed ensemble model. Results from the scenario of having partial in-season weather knowledge reveal that decent yield forecasts can be made as early as June 1st. To find the marginal effect of each input feature on the forecasts made by the proposed ensemble model, a methodology is suggested that is the basis for finding feature importance for the ensemble model. The findings suggest that weather features corresponding to weather in weeks 18-24 (May 1st to June 1st) are the most important input features.
翻訳日:2023-01-10 05:13:04 公開日:2020-11-06
# 共最適輸送

CO-Optimal Transport ( http://arxiv.org/abs/2002.03731v3 )

ライセンス: Link先を確認
Ievgen Redko, Titouan Vayer, R\'emi Flamary, Nicolas Courty(参考訳) 最適輸送(OT)は、2つの分布間の対応を見つけ、類似性を測定するための強力な幾何学的・確率的ツールである。 しかし、元々の定式化は、2つの分布のサンプル間のコスト関数の存在に依存しており、異なる空間でサポートされた場合、それは現実的ではない。 この制限を回避するために,我々はcoot for co-optimal transportという新しいot問題を提案する。cootは,サンプルと特徴の間の2つのトランスポートマップを同時に最適化するが,他のアプローチでは,サンプル間のペア間の距離に着目して個々の特徴を破棄するか,あるいはそれらの関係を明示的にモデル化する必要がある。 本稿では,この問題に関する詳細な理論解析を行い,他のotベース距離との豊富な接続を確立するとともに,異種ドメイン適応と共クラスタ/データ要約における2つの機械学習アプリケーションとの汎用性を示す。

Optimal transport (OT) is a powerful geometric and probabilistic tool for finding correspondences and measuring similarity between two distributions. Yet, its original formulation relies on the existence of a cost function between the samples of the two distributions, which makes it impractical when they are supported on different spaces. To circumvent this limitation, we propose a novel OT problem, named COOT for CO-Optimal Transport, that simultaneously optimizes two transport maps between both samples and features, contrary to other approaches that either discard the individual features by focusing on pairwise distances between samples or need to model explicitly the relations between them. We provide a thorough theoretical analysis of our problem, establish its rich connections with other OT-based distances and demonstrate its versatility with two machine learning applications in heterogeneous domain adaptation and co-clustering/data summarization, where COOT leads to performance improvements over the state-of-the-art methods.
翻訳日:2023-01-02 07:50:58 公開日:2020-11-06
# ロボット運動からの自己監督型オブジェクトイングリッパーセグメンテーション

Self-Supervised Object-in-Gripper Segmentation from Robotic Motions ( http://arxiv.org/abs/2002.04487v3 )

ライセンス: Link先を確認
Wout Boerdijk, Martin Sundermeyer, Maximilian Durner and Rudolph Triebel(参考訳) 正確な物体分割はロボット操作における重要な課題である。 しかし、ニューラルネットワークのための十分なアノテートされたトレーニングデータを作成するのには特に時間がかかる。 この目的のために,ロボットが把握する未知の物体を分割する学習を行うための,シンプルかつロバストな解を提案する。 具体的には、RGBビデオシーケンスにおける動きと時間的手がかりを利用する。 光フロー推定を用いて,まず与えられたマニピュレータのセグメンテーションマスクを予測する。 次に、これらのアノテーションをモーションキューと組み合わせて、背景、マニピュレータ、未知の把握対象を自動的に区別する。 既存のシステムとは対照的に、我々のアプローチは完全に自己管理されており、正確なカメラキャリブレーションや3Dモデル、あるいは潜在的に不完全な深度データとは独立している。 我々は、代替のベースラインと文献からのアプローチとを徹底的に比較する。 オブジェクトマスクとビューは,新しい環境に一般化したセグメンテーションネットワークに適したトレーニングデータであり,水密な3D再構築を可能にする。

Accurate object segmentation is a crucial task in the context of robotic manipulation. However, creating sufficient annotated training data for neural networks is particularly time consuming and often requires manual labeling. To this end, we propose a simple, yet robust solution for learning to segment unknown objects grasped by a robot. Specifically, we exploit motion and temporal cues in RGB video sequences. Using optical flow estimation we first learn to predict segmentation masks of our given manipulator. Then, these annotations are used in combination with motion cues to automatically distinguish between background, manipulator and unknown, grasped object. In contrast to existing systems our approach is fully self-supervised and independent of precise camera calibration, 3D models or potentially imperfect depth data. We perform a thorough comparison with alternative baselines and approaches from literature. The object masks and views are shown to be suitable training data for segmentation networks that generalize to novel environments and also allow for watertight 3D reconstruction.
翻訳日:2023-01-02 02:40:56 公開日:2020-11-06
# アフィニティガイドによる幾何学的半教師付き計量学習

Affinity guided Geometric Semi-Supervised Metric Learning ( http://arxiv.org/abs/2002.12394v2 )

ライセンス: Link先を確認
Ujjal Kr Dutta, Mehrtash Harandi and Chellu Chandra Sekhar(参考訳) 本稿では,従来の半スーパービジョン距離学習(SSDML)問題をリーマン幾何学レンズから修正し,エンドツーエンドの深層フレームワークにおける確率的最適化を活用する。 この動機は、線形マハラノビス計量を学ぶ古典的なSSDMLアプローチとは別に、ディープSSDMLは研究されていないという事実に由来する。 まず,既存のSSDMLメソッドを深層に拡張し,その限界を克服する新しい手法を提案する。 距離パラメータの制約の性質から、我々はリーマン最適化を利用する。 新たな親和性伝播型トリプルトマイニング戦略を用いた深部ssdml手法は,競合他社を上回っている。

In this paper, we revamp the forgotten classical Semi-Supervised Distance Metric Learning (SSDML) problem from a Riemannian geometric lens, to leverage stochastic optimization within a end-to-end deep framework. The motivation comes from the fact that apart from a few classical SSDML approaches learning a linear Mahalanobis metric, deep SSDML has not been studied. We first extend existing SSDML methods to their deep counterparts and then propose a new method to overcome their limitations. Due to the nature of constraints on our metric parameters, we leverage Riemannian optimization. Our deep SSDML method with a novel affinity propagation based triplet mining strategy outperforms its competitors.
翻訳日:2022-12-28 07:54:50 公開日:2020-11-06
# 動的グラフのためのkコアに基づく時間グラフ畳み込みネットワーク

K-Core based Temporal Graph Convolutional Network for Dynamic Graphs ( http://arxiv.org/abs/2003.09902v4 )

ライセンス: Link先を確認
Jingxin Liu, Chang Xu, Chang Yin, Weiqiang Wu and You Song(参考訳) グラフ表現学習は、グラフトポロジー情報を保存できるノードの低次元埋め込みを学習しようとする様々なアプリケーションにおける基本的なタスクである。 しかし、既存の多くのメソッドは、進化するグラフパターンを無視しながら静的グラフに焦点を当てている。 静的グラフ埋め込みにおけるグラフ畳み込みネットワーク(gcns)の成功に触発されて,動的グラフのノード表現を学ぶための新しいkコアベースの時相グラフ畳み込みネットワークであるctgcnを提案する。 従来の動的グラフ埋め込み法とは対照的に、CTGCNはグラフ力学を同時に捉えながら局所的な結合近接と大域的な構造的類似性を保存できる。 提案フレームワークでは、従来のグラフ畳み込みを特徴変換と特徴集約という2つのフェーズに一般化し、CTGCNをより柔軟にし、CTGCNが同じフレームワークで接続性および構造情報を学習できるようにする。 7つの実世界のグラフに対する実験結果から、CTGCNは、リンク予測や構造的役割分類を含むいくつかのタスクにおいて、既存の最先端グラフ埋め込み手法よりも優れていることが示された。 この作業のソースコードは \url{https://github.com/jhljx/ctgcn} から取得できる。

Graph representation learning is a fundamental task in various applications that strives to learn low-dimensional embeddings for nodes that can preserve graph topology information. However, many existing methods focus on static graphs while ignoring evolving graph patterns. Inspired by the success of graph convolutional networks(GCNs) in static graph embedding, we propose a novel k-core based temporal graph convolutional network, the CTGCN, to learn node representations for dynamic graphs. In contrast to previous dynamic graph embedding methods, CTGCN can preserve both local connective proximity and global structural similarity while simultaneously capturing graph dynamics. In the proposed framework, the traditional graph convolution is generalized into two phases, feature transformation and feature aggregation, which gives the CTGCN more flexibility and enables the CTGCN to learn connective and structural information under the same framework. Experimental results on 7 real-world graphs demonstrate that the CTGCN outperforms existing state-of-the-art graph embedding methods in several tasks, including link prediction and structural role classification. The source code of this work can be obtained from \url{https://github.com/jhljx/CTGCN}.
翻訳日:2022-12-21 05:25:58 公開日:2020-11-06
# 適応型個人化フェデレーション学習

Adaptive Personalized Federated Learning ( http://arxiv.org/abs/2003.13461v3 )

ライセンス: Link先を確認
Yuyang Deng, Mohammad Mahdi Kamani, Mehrdad Mahdavi(参考訳) フェデレーション学習アルゴリズムにおけるパーソナライズ度の調査により、グローバルモデルの性能を最大化すれば、ローカルモデルのパーソナライズ能力が限定されることが示された。 本稿では、各クライアントがグローバルモデルに寄与しながらローカルモデルをトレーニングする、適応型パーソナライズされた連合学習(apfl)アルゴリズムを提唱する。 局所モデルと大域モデルの混合の一般化境界を導出し,最適混合パラメータを求める。 また,パーソナライズされたモデルを協調的に学習し,その収束を円滑な凸と非凸の両方で解析する通信効率の最適化手法を提案する。 広範な実験により,パーソナライズスキーマの有効性,確立された一般化理論の正確性が実証された。

Investigation of the degree of personalization in federated learning algorithms has shown that only maximizing the performance of the global model will confine the capacity of the local models to personalize. In this paper, we advocate an adaptive personalized federated learning (APFL) algorithm, where each client will train their local models while contributing to the global model. We derive the generalization bound of mixture of local and global models, and find the optimal mixing parameter. We also propose a communication-efficient optimization method to collaboratively learn the personalized models and analyze its convergence in both smooth strongly convex and nonconvex settings. The extensive experiments demonstrate the effectiveness of our personalization schema, as well as the correctness of established generalization theories.
翻訳日:2022-12-18 07:19:19 公開日:2020-11-06
# ビデオにおける時空間チューブレットの特徴集約とオブジェクトリンク

Spatio-temporal Tubelet Feature Aggregation and Object Linking in Videos ( http://arxiv.org/abs/2004.00451v2 )

ライセンス: Link先を確認
Daniel Cores, V\'ictor M. Brea and Manuel Mucientes(参考訳) 本稿では,映像中の時空間情報を利用して物体検出精度を向上させる方法について述べる。 本稿では, 短時間の時空間的特徴集合に基づく2段階物体検出器FANetと, これらの検出を洗練するための長期物体リンクを提案する。 まず、オブジェクトを$N$連続フレームに収めた短いチューブレットの提案セットを生成する。 次に、入力フレーム数に依存しない固定サイズ出力で情報を要約する時間プーリング演算子を用いて、管路を通して深い特徴をプールしたRoIを集約する。 その上に,時空間的対象分類のための時空間的集約情報と,対象の局在と空間的分類のための現在のフレームから抽出された空間情報とをフィードするダブルヘッド実装を定義する。 さらに、各ヘッドブランチアーキテクチャを特化し、入力データを考慮した各タスクの実行性を向上させる。 最後に, 従来計算した短絡を用いて長い管を構築し, 検出誤差を克服する。 我々は、このモデルを広く使われているImageNet VIDデータセットで評価し、80.9%のmAPを達成した。 また,超小型オブジェクト検出データセットUSC-GRAD-STDdbでは,単一フレームのベースラインを5.4%向上させる。

This paper addresses the problem of how to exploit spatio-temporal information available in videos to improve the object detection precision. We propose a two stage object detector called FANet based on short-term spatio-temporal feature aggregation to give a first detection set, and long-term object linking to refine these detections. Firstly, we generate a set of short tubelet proposals containing the object in $N$ consecutive frames. Then, we aggregate RoI pooled deep features through the tubelet using a temporal pooling operator that summarizes the information with a fixed size output independent of the number of input frames. On top of that, we define a double head implementation that we feed with spatio-temporal aggregated information for spatio-temporal object classification, and with spatial information extracted from the current frame for object localization and spatial classification. Furthermore, we also specialize each head branch architecture to better perform in each task taking into account the input data. Finally, a long-term linking method builds long tubes using the previously calculated short tubelets to overcome detection errors. We have evaluated our model in the widely used ImageNet VID dataset achieving a 80.9% mAP, which is the new state-of-the-art result for single models. Also, in the challenging small object detection dataset USC-GRAD-STDdb, our proposal outperforms the single frame baseline by 5.4% mAP.
翻訳日:2022-12-17 19:03:36 公開日:2020-11-06
# 話者ダイアリゼーションのための確率的埋め込み

Probabilistic embeddings for speaker diarization ( http://arxiv.org/abs/2004.04096v3 )

ライセンス: Link先を確認
Anna Silnova, Niko Br\"ummer, Johan Rohdin, Themos Stafylakis, Luk\'a\v{s} Burget(参考訳) 非常に短い音声区間から抽出された話者埋め込み(xベクトル)は、近年、話者ダイアリゼーションにおける競合性能を示すことが示されている。 我々は,各音声区間から,xベクトルと平行して対角的精度行列を抽出し,音声区間の質に関する情報をPLDAスコアリングバックエンドに伝達する経路を提供することにより,このレシピを一般化する。 これらの精度は、高品質の音声セグメントから抽出された場合の埋め込みの値について不確かさを定量化する。 提案した確率的埋め込み (x-vectors with precisions) は,x-vectorsを隠れ変数として扱うことによりPLDAモデルと相互作用する。 提案する確率的埋め込みをagglomerative hierarchical clustering (ahc) アルゴリズムに入力として適用し,dihard'19評価セットでダイアリゼーションを行う。 我々は、AHCが考えるクラスタリング仮説ごとに「本によって」PLDAの確率を計算します。 我々はpldaパラメータと確率的x-vector抽出器の合同識別訓練を行う。 我々は,従来のxvectorに対して(不確実性なく)適用されたベースラインAHCアルゴリズムと比較して精度の高いゲインを示す。

Speaker embeddings (x-vectors) extracted from very short segments of speech have recently been shown to give competitive performance in speaker diarization. We generalize this recipe by extracting from each speech segment, in parallel with the x-vector, also a diagonal precision matrix, thus providing a path for the propagation of information about the quality of the speech segment into a PLDA scoring backend. These precisions quantify the uncertainty about what the values of the embeddings might have been if they had been extracted from high quality speech segments. The proposed probabilistic embeddings (x-vectors with precisions) are interfaced with the PLDA model by treating the x-vectors as hidden variables and marginalizing them out. We apply the proposed probabilistic embeddings as input to an agglomerative hierarchical clustering (AHC) algorithm to do diarization in the DIHARD'19 evaluation set. We compute the full PLDA likelihood 'by the book' for each clustering hypothesis that is considered by AHC. We do joint discriminative training of the PLDA parameters and of the probabilistic x-vector extractor. We demonstrate accuracy gains relative to a baseline AHC algorithm, applied to traditional xvectors (without uncertainty), and which uses averaging of binary log-likelihood-ratios, rather than by-the-book scoring.
翻訳日:2022-12-16 06:20:12 公開日:2020-11-06
# 多対多音声変圧器ネットワーク

Many-to-Many Voice Transformer Network ( http://arxiv.org/abs/2005.08445v4 )

ライセンス: Link先を確認
Hirokazu Kameoka, Wen-Chin Huang, Kou Tanaka, Takuhiro Kaneko, Nobukatsu Hojo, and Tomoki Toda(参考訳) 本稿では,入力音声の音声特性,ピッチ輪郭,持続時間を同時に変換できるs2s学習フレームワークに基づく音声変換(vc)手法を提案する。 我々は以前,VTN(Voice Transformer Network)と呼ばれるトランスフォーマーネットワークアーキテクチャを用いたS2SベースのVC手法を提案した。 オリジナルのVTNは、ある話者から別の話者への音声特徴系列のマッピングのみを学ぶように設計されていた。 提案する主なアイデアは、複数の話者間のマッピングを同時に学習できるオリジナルのVTNの拡張である。 many-to-many VTNと呼ばれるこの拡張により、複数の話者から収集されたトレーニングデータを、複数の話者間で共有可能な一般的な潜伏機能によって完全に利用することができる。 また、ソースとターゲット話者の指標が同じである場合に入力特徴系列が変化し続けることを保証するために、IDマッピング損失と呼ばれるトレーニング損失を導入することもできる。 この特定の損失をモデルトレーニングに使用すると、テスト時のモデルの性能を改善するのに極めて効果的であることが判明した。 話者同一性変換実験を行い,本モデルがベースライン法よりも高い音質と話者類似性を得た。 また、我々のモデルはアーキテクチャを少し変更することで、任意の対多変換タスクを合理的に処理できることがわかった。

This paper proposes a voice conversion (VC) method based on a sequence-to-sequence (S2S) learning framework, which enables simultaneous conversion of the voice characteristics, pitch contour, and duration of input speech. We previously proposed an S2S-based VC method using a transformer network architecture called the voice transformer network (VTN). The original VTN was designed to learn only a mapping of speech feature sequences from one speaker to another. The main idea we propose is an extension of the original VTN that can simultaneously learn mappings among multiple speakers. This extension called the many-to-many VTN makes it able to fully use available training data collected from multiple speakers by capturing common latent features that can be shared across different speakers. It also allows us to introduce a training loss called the identity mapping loss to ensure that the input feature sequence will remain unchanged when the source and target speaker indices are the same. Using this particular loss for model training has been found to be extremely effective in improving the performance of the model at test time. We conducted speaker identity conversion experiments and found that our model obtained higher sound quality and speaker similarity than baseline methods. We also found that our model, with a slight modification to its architecture, could handle any-to-many conversion tasks reasonably well.
翻訳日:2022-12-02 00:35:44 公開日:2020-11-06
# ベイズ型ニューラルネットワーク

Bayesian Neural Networks ( http://arxiv.org/abs/2006.01490v2 )

ライセンス: Link先を確認
Tom Charnock, Laurence Perreault-Levasseur, Fran\c{c}ois Lanusse(参考訳) 近年、ニューラルネットワークは複雑で抽象的なデータモデルを分析するための強力なツールとなっている。 しかし、それらの導入は、どの分析の特徴がモデル関連で、どれがニューラルネットワークに起因するかという我々の不確実性を本質的に増す。 これはつまり、ニューラルネットワークによる予測は、データの生成と観測の真の性質によって、自明に区別できないバイアスを持つということだ。 このような問題に対処するために、ベイズニューラルネットワーク、すなわちネットワークによる不確実性を特徴付けるニューラルネットワークについて論じる。 特に,特定のデータ観測における不確実性や,データの生成・観測方法に関する知識の欠如による不確実性という観点から,不確実性を分類できるベイズ統計枠組みを提案する。 このような手法を提案する際に、ニューラルネットワークによる予測における誤差を原則的に得る方法を示し、これらの誤りを特徴付ける2つの方法を提案する。 さらに、これら2つの手法が実際に実施される際に重大な落とし穴を持つ方法についても述べ、ニューラルネットワークを使用する際に推論を真に行うための他の統計手法の必要性を強調します。

In recent times, neural networks have become a powerful tool for the analysis of complex and abstract data models. However, their introduction intrinsically increases our uncertainty about which features of the analysis are model-related and which are due to the neural network. This means that predictions by neural networks have biases which cannot be trivially distinguished from being due to the true nature of the creation and observation of data or not. In order to attempt to address such issues we discuss Bayesian neural networks: neural networks where the uncertainty due to the network can be characterised. In particular, we present the Bayesian statistical framework which allows us to categorise uncertainty in terms of the ingrained randomness of observing certain data and the uncertainty from our lack of knowledge about how data can be created and observed. In presenting such techniques we show how errors in prediction by neural networks can be obtained in principle, and provide the two favoured methods for characterising these errors. We will also describe how both of these methods have substantial pitfalls when put into practice, highlighting the need for other statistical techniques to truly be able to do inference when using neural networks.
翻訳日:2022-11-25 23:53:21 公開日:2020-11-06
# リニアトンプソンサンプリングの最悪の再帰について

On Worst-case Regret of Linear Thompson Sampling ( http://arxiv.org/abs/2006.06790v2 )

ライセンス: Link先を確認
Nima Hamidi, Mohsen Bayati(参考訳) 本稿では,線形帯域問題に対する線形トンプソンサンプリング(LinTS)の最悪の後悔について考察する。 \citet{russo2014learning} は、LinTS のベイズ的後悔は、$\widetilde{\mathcal{O}}(d\sqrt{T})$ で、$T$ は時間的地平線であり、$d$ はパラメータの数であることを示している。 この境界は、対数的要因までこの問題のミニマックス下限と一致するが、同様の最悪の後悔境界の存在はいまだ不明である。 責任を負う唯一の最悪の後悔は、\cite{agrawal2013thompson,abeille2017linear} が$\widetilde{\mathcal{o}}(d\sqrt{dt})$ であり、後方の分散を$\widetilde{\mathcal{o}}(\sqrt{d})$ で膨らませる必要がある。 このバウンドは、$\sqrt{d}$という係数でminimaxの最適レートに遠く及ばないが、本論文では、それが取得可能な最良であることを示し、 \cite{russo2018tutorial} で述べられているオープン問題を解く。 具体的には、インフレーションがなければ、LinTS は時間$\exp(\Omega(d))$まで線形後悔を引き起こすことができることを示す。 次に、穏やかな条件下では、LinTSのわずかに修正されたバージョンは、最適なアームの多様性に依存するような$\widetilde{\mathcal{O}}(1)$インフレーションしか必要としないことを示した。

In this paper, we consider the worst-case regret of Linear Thompson Sampling (LinTS) for the linear bandit problem. \citet{russo2014learning} show that the Bayesian regret of LinTS is bounded above by $\widetilde{\mathcal{O}}(d\sqrt{T})$ where $T$ is the time horizon and $d$ is the number of parameters. While this bound matches the minimax lower-bounds for this problem up to logarithmic factors, the existence of a similar worst-case regret bound is still unknown. The only known worst-case regret bound for LinTS, due to \cite{agrawal2013thompson,abeille2017linear}, is $\widetilde{\mathcal{O}}(d\sqrt{dT})$ which requires the posterior variance to be inflated by a factor of $\widetilde{\mathcal{O}}(\sqrt{d})$. While this bound is far from the minimax optimal rate by a factor of $\sqrt{d}$, in this paper we show that it is the best possible one can get, settling an open problem stated in \cite{russo2018tutorial}. Specifically, we construct examples to show that, without the inflation, LinTS can incur linear regret up to time $\exp(\Omega(d))$. We then demonstrate that, under mild conditions, a slightly modified version of LinTS requires only an $\widetilde{\mathcal{O}}(1)$ inflation where the constant depends on the diversity of the optimal arm.
翻訳日:2022-11-22 12:38:58 公開日:2020-11-06
# 暗黙的オンライン学習における時間変動

Temporal Variability in Implicit Online Learning ( http://arxiv.org/abs/2006.07503v2 )

ライセンス: Link先を確認
Nicol\`o Campolongo, Francesco Orabona(参考訳) オンライン学習の設定において、Implicitアルゴリズムは実践的な観点から非常に成功した。 しかし、最も厳しい後悔の分析は、オンラインミラー・ダイスンよりも限界的な改善しか示さなかった。 本研究では, 注意深い後悔分析を行ない, この行動に光を当てる。 我々は、損失関数列の時間的変動に依存する新しい静的な後悔境界、すなわち、動的競合を考える際にしばしば遭遇する量を証明する。 例えば、時間的変動が一定であり、学習速度がスムーズな損失を伴わずに適切に調整された場合、後悔は一定であることを示す。 さらに, 時間変動の事前知識を必要とせず, この後悔境界を達成する適応アルゴリズムを提案し, 一致する下限を証明した。 最後に,分類および回帰データセットに関する理論的知見を検証する。

In the setting of online learning, Implicit algorithms turn out to be highly successful from a practical standpoint. However, the tightest regret analyses only show marginal improvements over Online Mirror Descent. In this work, we shed light on this behavior carrying out a careful regret analysis. We prove a novel static regret bound that depends on the temporal variability of the sequence of loss functions, a quantity which is often encountered when considering dynamic competitors. We show, for example, that the regret can be constant if the temporal variability is constant and the learning rate is tuned appropriately, without the need of smooth losses. Moreover, we present an adaptive algorithm that achieves this regret bound without prior knowledge of the temporal variability and prove a matching lower bound. Finally, we validate our theoretical findings on classification and regression datasets.
翻訳日:2022-11-22 03:06:40 公開日:2020-11-06
# サブグラフニューラルネットワーク

Subgraph Neural Networks ( http://arxiv.org/abs/2006.10538v3 )

ライセンス: Link先を確認
Emily Alsentzer, Samuel G. Finlayson, Michelle M. Li, Marinka Zitnik(参考訳) グラフの深層学習法は多くのノードレベルおよびグラフレベルの予測タスクにおいて顕著な性能を達成する。 しかし、この手法の普及と成功にもかかわらず、グラフニューラルネットワーク(GNN)はサブグラフを無視し、多くの影響のあるアプリケーションに対処しようとするサブグラフ予測タスクを描画する。 さらに、部分グラフ予測タスクは、非自明な内部トポロジーを持つだけでなく、それらが存在する基礎となるグラフに対する位置および外部接続情報の概念も持つ。 本稿では,不整合部分グラフ表現を学習するためのサブグラフニューラルネットワークSubGNNを紹介する。 本稿では,サブグラフの成分とアンカーパッチをランダムにサンプリングし,高精度なサブグラフ表現を生成する,新しいサブグラフルーティング機構を提案する。 SubGNNは3つのチャネルを指定しており、それぞれがサブグラフトポロジの異なる側面を捉えるように設計されている。 我々は、新しい合成および実世界のサブグラフデータセットを設計する。 8つのデータセットのサブグラフ分類に関する実証的な結果から、SubGNNはノードレベルやグラフレベルのGNNを含む強力なベースライン手法よりも19.8%高いパフォーマンスを達成している。 SubGNNは、サブグラフが複雑なトポロジを持ち、複数の切断されたコンポーネントを構成する、挑戦的なバイオメディカルデータセットで非常によく機能する。

Deep learning methods for graphs achieve remarkable performance on many node-level and graph-level prediction tasks. However, despite the proliferation of the methods and their success, prevailing Graph Neural Networks (GNNs) neglect subgraphs, rendering subgraph prediction tasks challenging to tackle in many impactful applications. Further, subgraph prediction tasks present several unique challenges: subgraphs can have non-trivial internal topology, but also carry a notion of position and external connectivity information relative to the underlying graph in which they exist. Here, we introduce SubGNN, a subgraph neural network to learn disentangled subgraph representations. We propose a novel subgraph routing mechanism that propagates neural messages between the subgraph's components and randomly sampled anchor patches from the underlying graph, yielding highly accurate subgraph representations. SubGNN specifies three channels, each designed to capture a distinct aspect of subgraph topology, and we provide empirical evidence that the channels encode their intended properties. We design a series of new synthetic and real-world subgraph datasets. Empirical results for subgraph classification on eight datasets show that SubGNN achieves considerable performance gains, outperforming strong baseline methods, including node-level and graph-level GNNs, by 19.8% over the strongest baseline. SubGNN performs exceptionally well on challenging biomedical datasets where subgraphs have complex topology and even comprise multiple disconnected components.
翻訳日:2022-11-19 13:33:35 公開日:2020-11-06
# 自然言語生成における精度評価の共通課題

Shared Task on Evaluating Accuracy in Natural Language Generation ( http://arxiv.org/abs/2006.12234v2 )

ライセンス: Link先を確認
Ehud Reiter and Craig Thomson(参考訳) 本稿では,生成テキストの精度評価のための手法とアルゴリズムの共有タスクを提案する。 参加者は、バスケットボールボックススコアデータからNLGシステムによって作成されるバスケットボールゲームサマリーの精度を測定する。

We propose a shared task on methodologies and algorithms for evaluating the accuracy of generated texts. Participants will measure the accuracy of basketball game summaries produced by NLG systems from basketball box score data.
翻訳日:2022-11-18 06:15:17 公開日:2020-11-06
# カオス力学シミュレーションのためのニューラルネットワークの精度:トレーニングデータの精度とアルゴリズムの精度

Accuracy of neural networks for the simulation of chaotic dynamics: precision of training data vs precision of the algorithm ( http://arxiv.org/abs/2008.04222v2 )

ライセンス: Link先を確認
S. Bompas, B. Georgeot and D. Gu\'ery-Odelin(参考訳) 本研究では,ニューラルネットワークによるカオス力学シミュレーションにおけるデータの精度とアルゴリズムの影響について検討する。 本研究では,時系列に適応する3つの異なるニューラルネットワーク技術,すなわち貯水池計算(ESN,LSTM,TCN)を用いて,短時間・長時間の予測と精度評価を行い,異なる精度でロレンツシステムをシミュレートする。 その結果,ESNネットワークはシステムのダイナミクスを正確に予測する上で優れており,アルゴリズムの精度は予測精度のトレーニングデータの精度よりも重要であることがわかった。 この結果は、ニューラルネットワークが、データが必ずしも精度が限られている多くの実用的なアプリケーションにおいて、最近の結果に従って時系列予測を実行できるという考えを支持する。 また、与えられたデータセットに対して、データよりも精度の高いネットワークを使用することで、予測の信頼性を大幅に向上できることが示唆された。

We explore the influence of precision of the data and the algorithm for the simulation of chaotic dynamics by neural networks techniques. For this purpose, we simulate the Lorenz system with different precisions using three different neural network techniques adapted to time series, namely reservoir computing (using ESN), LSTM and TCN, for both short and long time predictions, and assess their efficiency and accuracy. Our results show that the ESN network is better at predicting accurately the dynamics of the system, and that in all cases the precision of the algorithm is more important than the precision of the training data for the accuracy of the predictions. This result gives support to the idea that neural networks can perform time-series predictions in many practical applications for which data are necessarily of limited precision, in line with recent results. It also suggests that for a given set of data the reliability of the predictions can be significantly improved by using a network with higher precision than the one of the data.
翻訳日:2022-11-12 09:51:48 公開日:2020-11-06
# 有限状態オートマトン層を用いたグラフ構造学習

Learning Graph Structure With A Finite-State Automaton Layer ( http://arxiv.org/abs/2007.04929v2 )

ライセンス: Link先を確認
Daniel D. Johnson, Hugo Larochelle, Daniel Tarlow(参考訳) グラフベースのニューラルネットワークモデルは、グラフ内のノード間の関係構造(エッジ)という形式でドメイン知識をエンコードする柔軟性を提供するため、多くのドメインで強い結果をもたらしています。 実際には、エッジは本質的な構造(例えば、プログラムの抽象構文木)と、下流タスクの推論を支援するより抽象的な関係(例えば、関連するプログラム分析の結果)の両方に使用される。 本研究では,本質的グラフ構造から抽象関係を導出する学習の問題について検討する。 プログラム解析におけるそれらの力により、有限状態オートマトンによって受け入れられる基底グラフ上の経路によって定義される関係を考える。 グラフベースのPOMDP上で有限状態オートマトンポリシーを学習し、暗黙の微分を用いてこれらのポリシーを訓練することにより、これらの関係をエンドツーエンドで学習する方法を示す。 その結果、微分可能なグラフ有限状態オートマトン(GFSA)層が、新しいエッジタイプ(重み付き隣接行列として表現される)をベースグラフに追加する。 我々は、この層がグリッドワールドグラフのショートカットを見つけ、pythonプログラムで単純な静的解析を再現できることを実証する。 さらに,可変誤用プログラム理解タスクにおいて,gfsa 層を大規模グラフベースモデルと組み合わせることで,学習エッジ型を追加するためのハンドエンジニアリングセマンティクスエッジや他のベースラインメソッドを使用するよりも,gfsa 層の利用が優れたパフォーマンスをもたらすことを見出した。

Graph-based neural network models are producing strong results in a number of domains, in part because graphs provide flexibility to encode domain knowledge in the form of relational structure (edges) between nodes in the graph. In practice, edges are used both to represent intrinsic structure (e.g., abstract syntax trees of programs) and more abstract relations that aid reasoning for a downstream task (e.g., results of relevant program analyses). In this work, we study the problem of learning to derive abstract relations from the intrinsic graph structure. Motivated by their power in program analyses, we consider relations defined by paths on the base graph accepted by a finite-state automaton. We show how to learn these relations end-to-end by relaxing the problem into learning finite-state automata policies on a graph-based POMDP and then training these policies using implicit differentiation. The result is a differentiable Graph Finite-State Automaton (GFSA) layer that adds a new edge type (expressed as a weighted adjacency matrix) to a base graph. We demonstrate that this layer can find shortcuts in grid-world graphs and reproduce simple static analyses on Python programs. Additionally, we combine the GFSA layer with a larger graph-based model trained end-to-end on the variable misuse program understanding task, and find that using the GFSA layer leads to better performance than using hand-engineered semantic edges or other baseline methods for adding learned edge types.
翻訳日:2022-11-12 03:41:58 公開日:2020-11-06
# 非ガウシアン推論のためのフローベース確率

Flow-Based Likelihoods for Non-Gaussian Inference ( http://arxiv.org/abs/2007.05535v2 )

ライセンス: Link先を確認
Ana Diaz Rivero and Cora Dvorkin(参考訳) 本研究では,多くの科学的解析における重要な仮定をバイパスするために,データ駆動確率の利用について検討する。 特に、非線形の層を通して単純な基底分布を変換して複雑な分布を捉えることができるモデルであるフローベース生成モデルの最適化ターゲットの利用を提案する。 フローベース可能性 (FBL) と呼ぶ。 モックガウスデータを用いて再構成された可能性の精度と精度を解析し、訓練されたモデルから抽出されたサンプルの品質を単純に計測することは、真の可能性が学習された十分な指標ではないことを示す。 しかし,サンプルサイズが有限であることから,サンプリング誤差と同程度の精度で再現可能であることを示す。 次に、弱レンズ収束パワースペクトル(宇宙観測可能な非ガウス(NG))をモックにFBLを適用する。 FBLはデータ中のNGシグネチャを極めてよく捉えているのに対し、ガウス混合モデルや独立成分分析など、データ駆動の可能性が一般的である。 このことは、NGデータにデータ駆動可能性のある小さな後方シフトを発見した研究は、パラメータ制約における非ガウス性の影響を過小評価する可能性があることを示唆している。 データ内のさまざまなレベルのNGをキャプチャ可能な一連のテストを導入することで、従来のデータ駆動可能性の成功と失敗は、データ内のNGの構造に結びつくことができることを示す。 他の方法とは異なり、FBLの柔軟性は異なる種類のNGを同時に扱うことに成功している。 このため、データセットとドメインにまたがる適用可能性が高く、十分なモックデータがトレーニングに利用できる場合、推論に使用することを推奨します。

We investigate the use of data-driven likelihoods to bypass a key assumption made in many scientific analyses, which is that the true likelihood of the data is Gaussian. In particular, we suggest using the optimization targets of flow-based generative models, a class of models that can capture complex distributions by transforming a simple base distribution through layers of nonlinearities. We call these flow-based likelihoods (FBL). We analyze the accuracy and precision of the reconstructed likelihoods on mock Gaussian data, and show that simply gauging the quality of samples drawn from the trained model is not a sufficient indicator that the true likelihood has been learned. We nevertheless demonstrate that the likelihood can be reconstructed to a precision equal to that of sampling error due to a finite sample size. We then apply FBLs to mock weak lensing convergence power spectra, a cosmological observable that is significantly non-Gaussian (NG). We find that the FBL captures the NG signatures in the data extremely well, while other commonly used data-driven likelihoods, such as Gaussian mixture models and independent component analysis, fail to do so. This suggests that works that have found small posterior shifts in NG data with data-driven likelihoods such as these could be underestimating the impact of non-Gaussianity in parameter constraints. By introducing a suite of tests that can capture different levels of NG in the data, we show that the success or failure of traditional data-driven likelihoods can be tied back to the structure of the NG in the data. Unlike other methods, the flexibility of the FBL makes it successful at tackling different types of NG simultaneously. Because of this, and consequently their likely applicability across datasets and domains, we encourage their use for inference when sufficient mock data are available for training.
翻訳日:2022-11-11 22:45:54 公開日:2020-11-06
# スケール平等がシームズトラッキングを改善する

Scale Equivariance Improves Siamese Tracking ( http://arxiv.org/abs/2007.09115v2 )

ライセンス: Link先を確認
Ivan Sosnovik, Artem Moskalev, Arnold Smeulders(参考訳) siamese trackersは、トラッキングをテンプレートとフレーム内の候補領域の類似度推定に変換する。 数学的には、類似関数の成功の鍵となる要素の1つは翻訳同値である。 非翻訳同変アーキテクチャはトレーニング中に位置バイアスを生じさせるため、ターゲットの位置を特徴空間から回復することは困難である。 現実のシナリオでは、オブジェクトは回転やスケーリングなど、トランスフォーメーション以外のさまざまな変換を受けます。 モデルがそれらを扱う内部メカニズムを持っていなければ、類似性は低下する可能性がある。 本稿では,スケーリングに焦点をあて,対象の自然変動を捉えるために,追加の組込みスケール等式をシメセネットワークに装備することを目的としている。 我々は,スケール同変シアームトラッカーの理論を開発し,既存のトラッカーをスケール同変にするための簡単なレシピを提供する。 提案するSE-SiamFCは,レシピに従って構築されたSiamFCのスケール・等価な変種である。 OTBおよびVOTベンチマークおよび合成合成T-MNISTおよびS-MNISTデータセット上で実験を行う。 付加的なスケールの等式が視覚的物体追跡に有用であることを示す。

Siamese trackers turn tracking into similarity estimation between a template and the candidate regions in the frame. Mathematically, one of the key ingredients of success of the similarity function is translation equivariance. Non-translation-equivariant architectures induce a positional bias during training, so the location of the target will be hard to recover from the feature space. In real life scenarios, objects undergoe various transformations other than translation, such as rotation or scaling. Unless the model has an internal mechanism to handle them, the similarity may degrade. In this paper, we focus on scaling and we aim to equip the Siamese network with additional built-in scale equivariance to capture the natural variations of the target a priori. We develop the theory for scale-equivariant Siamese trackers, and provide a simple recipe for how to make a wide range of existing trackers scale-equivariant. We present SE-SiamFC, a scale-equivariant variant of SiamFC built according to the recipe. We conduct experiments on OTB and VOT benchmarks and on the synthetically generated T-MNIST and S-MNIST datasets. We demonstrate that a built-in additional scale equivariance is useful for visual object tracking.
翻訳日:2022-11-09 14:25:23 公開日:2020-11-06
# グラフニューラルネットワークを用いた粗粒分子動力学

Coarse Graining Molecular Dynamics with Graph Neural Networks ( http://arxiv.org/abs/2007.11412v3 )

ライセンス: Link先を確認
Brooke E. Husic, Nicholas E. Charron, Dominik Lemm, Jiang Wang, Adri\`a P\'erez, Maciej Majewski, Andreas Kr\"amer, Yaoyi Chen, Simon Olsson, Gianni de Fabritiis, Frank No\'e, Cecilia Clementi(参考訳) 粗粒粒化は、原子分解能よりも大きな系と長い時間スケールでの分子動力学の研究を可能にする。 しかしながら、粗粒度モデルは、我々がそこから引き出す結論が、より詳細なレベルでモデルから引き出す結論と一致するように定式化されなければならない。 力マッチングスキームは、変動限界における原子系の熱力学的に一貫した粗粒度モデルを定義することが証明されている。 王等。 [ACS Cent. Sci. 5, 755 (2019)] は、そのような変動制限の存在により、教師付き機械学習フレームワークを使用して粗粒度力場を生成し、粗粒度空間でのシミュレーションに使用できることを示した。 しかし、それらの枠組みは、力場を機械で学習する分子の特徴の手動入力を必要とする。 本稿では,wangらの進歩に基づいて,グラフニューラルネットワークアーキテクチャ上で連続フィルタ畳み込みを利用するサブネットワークを通じて独自の特徴を学習する粗粒力場の機械学習のためのハイブリッドアーキテクチャを提案する。 この枠組みは, 小分子系の熱力学を再現することに成功した。 学習された分子表現は本質的に伝達可能であるため、ここで提示されるアーキテクチャは、分子系間で伝達可能な機械学習された粗粒の力場の開発の段階を設定する。

Coarse graining enables the investigation of molecular dynamics for larger systems and at longer timescales than is possible at atomic resolution. However, a coarse graining model must be formulated such that the conclusions we draw from it are consistent with the conclusions we would draw from a model at a finer level of detail. It has been proven that a force matching scheme defines a thermodynamically consistent coarse-grained model for an atomistic system in the variational limit. Wang et al. [ACS Cent. Sci. 5, 755 (2019)] demonstrated that the existence of such a variational limit enables the use of a supervised machine learning framework to generate a coarse-grained force field, which can then be used for simulation in the coarse-grained space. Their framework, however, requires the manual input of molecular features upon which to machine learn the force field. In the present contribution, we build upon the advance of Wang et al.and introduce a hybrid architecture for the machine learning of coarse-grained force fields that learns their own features via a subnetwork that leverages continuous filter convolutions on a graph neural network architecture. We demonstrate that this framework succeeds at reproducing the thermodynamics for small biomolecular systems. Since the learned molecular representations are inherently transferable, the architecture presented here sets the stage for the development of machine-learned, coarse-grained force fields that are transferable across molecular systems.
翻訳日:2022-11-07 23:22:58 公開日:2020-11-06
# バイオメディシンにおけるプライバシー保護人工知能技術

Privacy-preserving Artificial Intelligence Techniques in Biomedicine ( http://arxiv.org/abs/2007.11621v2 )

ライセンス: Link先を確認
Reihaneh Torkzadehmahani, Reza Nasirigerdeh, David B. Blumenthal, Tim Kacprowski, Markus List, Julian Matschinske, Julian Sp\"ath, Nina Kerstin Wenke, B\'ela Bihari, Tobias Frisch, Anne Hartebrodt, Anne-Christin Hausschild, Dominik Heider, Andreas Holzinger, Walter H\"otzendorfer, Markus Kastelitz, Rudolf Mayer, Cristian Nogales, Anastasia Pustozerova, Richard R\"ottger, Harald H.H.W. Schmidt, Ameli Schwalber, Christof Tschohl, Andrea Wohner, Jan Baumbach(参考訳) 人工知能(AI)は多くの科学分野に応用されている。 バイオメディシンでは、AIは、例えば次世代のシーケンシングデータの解釈や臨床決定支援システムの設計において、すでに大きな可能性を示している。 しかし、機密データに対するAIモデルのトレーニングは、個々の参加者のプライバシに関する懸念を引き起こす。 例えば、ゲノムワイドアソシエーション研究の要約統計は、与えられたデータセット内の個人の有無を判断するために使用できる。 このかなりのプライバシーリスクにより、ゲノムや他の生物医学データへのアクセスが制限され、共同研究に支障をきたし、科学的進歩を妨げている。 そのため、個人のプライバシーを保護しながら、機密性の高いデータから学習できるAIメソッドの開発には、かなりの努力が払われている。 本稿では,生物医学におけるプライバシ保存型AI技術の最近の進歩について概説する。 最も重要な最先端のアプローチを統一された分類分野に配置し、その強み、限界、オープンな問題について議論する。 最も有望な方向として、フェデレーション機械学習をよりスケーラブルなアプローチとして、他のプライバシー保護技術と組み合わせることを提案します。 これにより、バイオメディカルアプリケーションのための分散方法でプライバシ保証を提供するというメリットをマージすることができる。 それでも、ネットワークの追加や計算オーバーヘッドなど、ハイブリッドアプローチが新たな課題をもたらすため、さらなる研究が必要である。

Artificial intelligence (AI) has been successfully applied in numerous scientific domains. In biomedicine, AI has already shown tremendous potential, e.g. in the interpretation of next-generation sequencing data and in the design of clinical decision support systems. However, training an AI model on sensitive data raises concerns about the privacy of individual participants. For example, summary statistics of a genome-wide association study can be used to determine the presence or absence of an individual in a given dataset. This considerable privacy risk has led to restrictions in accessing genomic and other biomedical data, which is detrimental for collaborative research and impedes scientific progress. Hence, there has been a substantial effort to develop AI methods that can learn from sensitive data while protecting individuals' privacy. This paper provides a structured overview of recent advances in privacy-preserving AI techniques in biomedicine. It places the most important state-of-the-art approaches within a unified taxonomy and discusses their strengths, limitations, and open problems. As the most promising direction, we suggest combining federated machine learning as a more scalable approach with other additional privacy preserving techniques. This would allow to merge the advantages to provide privacy guarantees in a distributed way for biomedical applications. Nonetheless, more research is necessary as hybrid approaches pose new challenges such as additional network or computation overhead.
翻訳日:2022-11-07 23:14:48 公開日:2020-11-06
# 強化学習と生成モデルを用いたデータ効率向上型ビズモータポリシートレーニング

Data-efficient visuomotor policy training using reinforcement learning and generative models ( http://arxiv.org/abs/2007.13134v2 )

ライセンス: Link先を確認
Ali Ghadirzadeh, Petra Poklukar, Ville Kyrki, Danica Kragic and M{\aa}rten Bj\"orkman(参考訳) 本稿では、強化学習(RL)と潜在変数生成モデルの組み合わせを利用して、ビジュモータの逐次決定問題を解決するためのデータ効率の枠組みを提案する。 本フレームワークは,フィードフォワードポリシ探索を3つの部分に分割するように,アクション潜在変数を導入することで,深いバイスモータポリシを訓練する。 i) システムの状態が与えられたアクション潜在変数上の分布を出力するサブポリシーを訓練すること。 (ii)潜在動作変数を条件とした一連の運動動作を出力する生成モデルの教師なし訓練、及び (iii)エンド・ツー・エンドの形で深部視標政策の訓練を監督した。 本手法は,運動行動の有効なシーケンスに関する事前知識を活用することにより,安全な探索とデータ効率の問題を軽減する。 さらに,ロボットの実際のトレーニングに先立って,RLポリシートレーニングの性能を予測できるように,生成モデルの評価のための一連の指標を提供する。 本研究では,潜在表現の質を評価するために,アンタングルメントと局所線形性の2つの新しい尺度を定義し,学習分布の評価のための既存の尺度と補完する。 我々は,ロボットピッキング作業における最終方針訓練の性能に最も影響を与える,異なる生成モデルの特徴を実験的に決定する。

We present a data-efficient framework for solving visuomotor sequential decision-making problems which exploits the combination of reinforcement learning (RL) and latent variable generative models. Our framework trains deep visuomotor policies by introducing an action latent variable such that the feed-forward policy search can be divided into three parts: (i) training a sub-policy that outputs a distribution over the action latent variable given a state of the system, (ii) unsupervised training of a generative model that outputs a sequence of motor actions conditioned on the latent action variable, and (iii) supervised training of the deep visuomotor policy in an end-to-end fashion. Our approach enables safe exploration and alleviates the data-inefficiency problem as it exploits prior knowledge about valid sequences of motor actions. Moreover, we provide a set of measures for evaluation of generative models such that we are able to predict the performance of the RL policy training prior to the actual training on a physical robot. We define two novel measures of disentanglement and local linearity for assessing the quality of latent representations, and complement them with existing measures for assessment of the learned distribution. We experimentally determine the characteristics of different generative models that have the most influence on performance of the final policy training on a robotic picking task.
翻訳日:2022-11-06 20:18:44 公開日:2020-11-06
# 音響音声埋め込みの信頼性評価

Evaluating the reliability of acoustic speech embeddings ( http://arxiv.org/abs/2007.13542v2 )

ライセンス: Link先を確認
Robin Algayres, Mohamed Salah Zaiem, Benoit Sagot, Emmanuel Dupoux(参考訳) 音声埋め込みは可変長音声列の定サイズ音響表現である。 これらは情報検索から教師なしの用語発見や音声セグメンテーションまで、様々なタスクでますます使われている。 しかし、現時点ではこれらの埋め込みの品質をタスク中立な方法で比較または最適化するための明確な方法がない。 ここでは,ABX識別と平均精度(MAP)の2つの一般的な指標を,教師付きから完全に教師なしまでの5言語で比較し,異なる損失関数(オートエンコーダ,対応オートエンコーダ,シアム)を用いた。 次に、abxとmapを用いて、新しい下流タスクにおけるパフォーマンスを予測する:指定されたコーパスにおける音声セグメントの周波数の教師なし推定。 その結果,abxとmapは相互に相関し,周波数推定を行うことがわかった。 しかし、言語と/または埋め込み方法の微妙な区別にはかなりの相違が見られる。 これにより、現在非現実的であり、音声埋め込みの本質的な品質を計算するためのタスク非依存の銀弾丸法を提案する。 このような埋め込みを評価するために現在使われているメトリクスについて、より詳細な分析が必要である。

Speech embeddings are fixed-size acoustic representations of variable-length speech sequences. They are increasingly used for a variety of tasks ranging from information retrieval to unsupervised term discovery and speech segmentation. However, there is currently no clear methodology to compare or optimise the quality of these embeddings in a task-neutral way. Here, we systematically compare two popular metrics, ABX discrimination and Mean Average Precision (MAP), on 5 languages across 17 embedding methods, ranging from supervised to fully unsupervised, and using different loss functions (autoencoders, correspondence autoencoders, siamese). Then we use the ABX and MAP to predict performances on a new downstream task: the unsupervised estimation of the frequencies of speech segments in a given corpus. We find that overall, ABX and MAP correlate with one another and with frequency estimation. However, substantial discrepancies appear in the fine-grained distinctions across languages and/or embedding methods. This makes it unrealistic at present to propose a task-independent silver bullet method for computing the intrinsic quality of speech embeddings. There is a need for more detailed analysis of the metrics currently used to evaluate such embeddings.
翻訳日:2022-11-06 08:02:02 公開日:2020-11-06
# 不確実性認識分布蒸留によるコンピュータビジョンのリアルタイム不確実性推定

Real-Time Uncertainty Estimation in Computer Vision via Uncertainty-Aware Distribution Distillation ( http://arxiv.org/abs/2007.15857v2 )

ライセンス: Link先を確認
Yichen Shen, Zhilu Zhang, Mert R. Sabuncu, Lin Sun(参考訳) 不確実性を校正した推定は、ディープラーニングの現実世界の多くのコンピュータビジョンアプリケーションにとって重要である。 広く使われている不確実性推定手法はいくつか存在するが、ドロップアウト推論はその単純さと有効性が際立っている。 しかしながら、このテクニックは推論中にネットワークを複数のフォワードパスする必要があるため、リアルタイムアプリケーションでデプロイするにはリソース集約的すぎる可能性がある。 コンピュータビジョンタスクにおける高速でサンプル不要な不確実性推定のための,事前学習したドロップアウトモデルの条件付き予測分布を学習するための,簡便かつ簡便な蒸留法を提案する。 本研究では,提案手法が意味的セグメンテーションと深度推定の両方に与える影響を実証的に検証し,提案手法が推論時間を大幅に短縮し,実時間不確実性定量化を可能にするとともに,不確実性推定と予測性能を通常のドロップアウトモデルよりも向上させることを実証した。

Calibrated estimates of uncertainty are critical for many real-world computer vision applications of deep learning. While there are several widely-used uncertainty estimation methods, dropout inference stands out for its simplicity and efficacy. This technique, however, requires multiple forward passes through the network during inference and therefore can be too resource-intensive to be deployed in real-time applications. We propose a simple, easy-to-optimize distillation method for learning the conditional predictive distribution of a pre-trained dropout model for fast, sample-free uncertainty estimation in computer vision tasks. We empirically test the effectiveness of the proposed method on both semantic segmentation and depth estimation tasks and demonstrate our method can significantly reduce the inference time, enabling real-time uncertainty quantification, while achieving improved quality of both the uncertainty estimates and predictive performance over the regular dropout model.
翻訳日:2022-11-04 05:46:05 公開日:2020-11-06
# stochastic-yolo:データセットシフト下での効率的な確率的物体検出

Stochastic-YOLO: Efficient Probabilistic Object Detection under Dataset Shifts ( http://arxiv.org/abs/2009.02967v2 )

ライセンス: Link先を確認
Tiago Azevedo, Ren\'e de Jong, Matthew Mattina, Partha Maji(参考訳) 画像分類タスクでは、確率的フレームワークによるデータセットシフトの増加に対するモデルの堅牢性の評価がよく研究されている。 しかし、オブジェクト検出(OD)タスクは不確実性の評価と評価に他の課題をもたらす。 例えば、与えられた境界ボックスに対するラベルの不確実性(すなわち、what?)と空間的不確実性(where?)の両方を評価する必要があるが、従来の平均的精度指標(mapなど)では評価はできない。 本稿では,モンテカルロドロップアウト(mc-drop)という形で確率性を導入することで不確実性推定を行うため,定評のあるyolov3アーキテクチャを適用し,データセットシフトの異なるレベルにまたがって評価する。 我々は,この新しいアーキテクチャをstochastic-yoloと呼び,推論時のmc-dropサンプリング機構の負担を効果的に軽減する効率的な実装を提供する。 最後に,確率yoloは不確かさ推定,特に空間的不確かさの異なる構成要素を改善する健全なアプローチであると主張するとともに,感度分析を提供する。

In image classification tasks, the evaluation of models' robustness to increased dataset shifts with a probabilistic framework is very well studied. However, object detection (OD) tasks pose other challenges for uncertainty estimation and evaluation. For example, one needs to evaluate both the quality of the label uncertainty (i.e., what?) and spatial uncertainty (i.e., where?) for a given bounding box, but that evaluation cannot be performed with more traditional average precision metrics (e.g., mAP). In this paper, we adapt the well-established YOLOv3 architecture to generate uncertainty estimations by introducing stochasticity in the form of Monte Carlo Dropout (MC-Drop), and evaluate it across different levels of dataset shift. We call this novel architecture Stochastic-YOLO, and provide an efficient implementation to effectively reduce the burden of the MC-Drop sampling mechanism at inference time. Finally, we provide some sensitivity analyses, while arguing that Stochastic-YOLO is a sound approach that improves different components of uncertainty estimations, in particular spatial uncertainties.
翻訳日:2022-10-21 02:47:58 公開日:2020-11-06
# マルチタスク畳み込みニューラルネットワークによる残留音響エコー抑圧

Residual acoustic echo suppression based on efficient multi-task convolutional neural network ( http://arxiv.org/abs/2009.13931v2 )

ライセンス: Link先を確認
Xinquan Zhou, Yanhong Leng(参考訳) 音響エコーは音声通信システムのユーザエクスペリエンスを劣化させるため、完全に抑制する必要がある。 本稿では,効率的な畳み込みニューラルネットワークを用いた実時間残響エコー抑圧法を提案する。 ダブルトーク検出器は、マルチタスク学習の文脈でRAESの性能を向上させる補助タスクとして使用される。 トレーニング基準は、残留エコーの抑制とニアエンド信号の歪みのバランスをとるために、抑制損失と呼ばれる新しい損失関数に基づいている。 実験の結果,提案手法は異なる状況下で残エコーを効率的に抑制できることがわかった。

Acoustic echo degrades the user experience in voice communication systems thus needs to be suppressed completely. We propose a real-time residual acoustic echo suppression (RAES) method using an efficient convolutional neural network. The double talk detector is used as an auxiliary task to improve the performance of RAES in the context of multi-task learning. The training criterion is based on a novel loss function, which we call as the suppression loss, to balance the suppression of residual echo and the distortion of near-end signals. The experimental results show that the proposed method can efficiently suppress the residual echo under different circumstances.
翻訳日:2022-10-13 07:04:16 公開日:2020-11-06
# 低リソース機械翻訳への参加研究:アフリカ語を事例として

Participatory Research for Low-resourced Machine Translation: A Case Study in African Languages ( http://arxiv.org/abs/2010.02353v2 )

ライセンス: Link先を確認
Wilhelmina Nekoto, Vukosi Marivate, Tshinondiwa Matsila, Timi Fasubaa, Tajudeen Kolawole, Taiwo Fagbohungbe, Solomon Oluwole Akinola, Shamsuddeen Hassan Muhammad, Salomon Kabongo, Salomey Osei, Sackey Freshia, Rubungo Andre Niyongabo, Ricky Macharm, Perez Ogayo, Orevaoghene Ahia, Musie Meressa, Mofe Adeyemi, Masabata Mokgesi-Selinga, Lawrence Okegbemi, Laura Jane Martinus, Kolawole Tajudeen, Kevin Degila, Kelechi Ogueji, Kathleen Siminyu, Julia Kreutzer, Jason Webster, Jamiil Toure Ali, Jade Abbott, Iroro Orife, Ignatius Ezeani, Idris Abdulkabir Dangana, Herman Kamper, Hady Elsahar, Goodness Duru, Ghollah Kioko, Espoir Murhabazi, Elan van Biljon, Daniel Whitenack, Christopher Onyefuluchi, Chris Emezue, Bonaventure Dossou, Blessing Sibanda, Blessing Itoro Bassey, Ayodele Olabiyi, Arshath Ramkilowan, Alp \"Oktem, Adewale Akinfaderin, Abdallah Bashir(参考訳) NLPの研究は地理的多様性に欠けており、NLPを低リソース言語にスケールする方法に関する問題は、まだ適切に解決されていない。 ローソース」性はデータの可用性を超えた複雑な問題であり、社会の体系的な問題を反映している。 本稿では,情報アクセシビリティとコミュニケーションにおいて重要な役割を担う機械翻訳(MT)の課題に焦点をあてる。 過去10年間でMTの大幅な改善にもかかわらず、MTはいくつかの高リソース言語を中心にしている。 MT研究者は低資源化の問題を単独では解決できないため、MT開発プロセスに必要な全てのエージェントを巻き込む手段として、参加研究を提案する。 アフリカ語用mtを事例として,参加型研究の実現可能性と拡張性を示す。 その実装は、新しい翻訳データセットの収集、30以上の言語のためのMTベンチマーク、その3分の1の人間の評価、そして正式な訓練を受けずに参加者が独自の科学的貢献をすることができる。 ベンチマーク、モデル、データ、コード、評価結果はhttps://github.com/masakhane-io/masakhane-mtでリリースされている。

Research in NLP lacks geographic diversity, and the question of how NLP can be scaled to low-resourced languages has not yet been adequately solved. "Low-resourced"-ness is a complex problem going beyond data availability and reflects systemic problems in society. In this paper, we focus on the task of Machine Translation (MT), that plays a crucial role for information accessibility and communication worldwide. Despite immense improvements in MT over the past decade, MT is centered around a few high-resourced languages. As MT researchers cannot solve the problem of low-resourcedness alone, we propose participatory research as a means to involve all necessary agents required in the MT development process. We demonstrate the feasibility and scalability of participatory research with a case study on MT for African languages. Its implementation leads to a collection of novel translation datasets, MT benchmarks for over 30 languages, with human evaluations for a third of them, and enables participants without formal training to make a unique scientific contribution. Benchmarks, models, data, code, and evaluation results are released under https://github.com/masakhane-io/masakhane-mt.
翻訳日:2022-10-10 19:45:40 公開日:2020-11-06
# オーバーフィッティングとアンダーフィッティングに関する情報理論的視点

An Information-Theoretic Perspective on Overfitting and Underfitting ( http://arxiv.org/abs/2010.06076v2 )

ライセンス: Link先を確認
Daniel Bashir, George D. Montanez, Sonia Sehra, Pedro Sandoval Segura, Julius Lauw(参考訳) 本稿では,機械学習における過剰フィッティングと不適合を理解するための情報理論的枠組みを提案し,任意の分類アルゴリズムがデータセットに過剰フィットするかどうかを判断する形式的不確定性を証明する。 データセットからモデルに転送される情報を介してアルゴリズム容量を測定することで、アルゴリズム容量とデータセットのミスマッチを検討し、モデルがデータセットに過度に適合するか不適合であるかのシグネチャを提供する。 本稿では,アルゴリズム能力の上限化,機械学習のアルゴリズム検索フレームワークにおける量との関係の確立,および最近の情報理論的手法による一般化について述べる。

We present an information-theoretic framework for understanding overfitting and underfitting in machine learning and prove the formal undecidability of determining whether an arbitrary classification algorithm will overfit a dataset. Measuring algorithm capacity via the information transferred from datasets to models, we consider mismatches between algorithm capacities and datasets to provide a signature for when a model can overfit or underfit a dataset. We present results upper-bounding algorithm capacity, establish its relationship to quantities in the algorithmic search framework for machine learning, and relate our work to recent information-theoretic approaches to generalization.
翻訳日:2022-10-08 05:39:51 公開日:2020-11-06
# BERTの最適部分構造抽出

Optimal Subarchitecture Extraction For BERT ( http://arxiv.org/abs/2010.10499v2 )

ライセンス: Link先を確認
Adrian de Wynter and Daniel J. Perry(参考訳) ニューラルアーキテクチャ探索のためのアルゴリズムの最近のブレークスルーを適用し,Devlin et al. (2018) から BERT アーキテクチャのためのアーキテクチャパラメータの最適サブセットを抽出した。 この最適部分集合は、"Bort" と呼ばれ、明らかに小さく、(埋め込み層を数えない)有効サイズが 5.5 %$ の BERT-large アーキテクチャであり、ネットサイズが 16 %$ である。 Bortは288ドルのGPU時間で事前トレーニングが可能であり、これは最高パフォーマンスのBERTパラメトリックアーキテクチャ変種であるRoBERTa-large (Liu et al., 2019)の事前トレーニングに要する時間12\%と、同じハードウェア上でBERT-largeをトレーニングするために必要なGPU時間において、世界記録の約33\%である。 また、cpu上では7.9$x高速で、他の圧縮されたアーキテクチャや非圧縮型よりもパフォーマンスが優れており、マルチパブリック自然言語理解(nlu)ベンチマークで、bert-largeに対して、$0.3\%$ から $31\%$ のパフォーマンス改善を絶対的に得る。

We extract an optimal subset of architectural parameters for the BERT architecture from Devlin et al. (2018) by applying recent breakthroughs in algorithms for neural architecture search. This optimal subset, which we refer to as "Bort", is demonstrably smaller, having an effective (that is, not counting the embedding layer) size of $5.5\%$ the original BERT-large architecture, and $16\%$ of the net size. Bort is also able to be pretrained in $288$ GPU hours, which is $1.2\%$ of the time required to pretrain the highest-performing BERT parametric architectural variant, RoBERTa-large (Liu et al., 2019), and about $33\%$ of that of the world-record, in GPU hours, required to train BERT-large on the same hardware. It is also $7.9$x faster on a CPU, as well as being better performing than other compressed variants of the architecture, and some of the non-compressed variants: it obtains performance improvements of between $0.3\%$ and $31\%$, absolute, with respect to BERT-large, on multiple public natural language understanding (NLU) benchmarks.
翻訳日:2022-10-05 06:01:17 公開日:2020-11-06
# 自己回帰生成モデリングのためのスケーリング法則

Scaling Laws for Autoregressive Generative Modeling ( http://arxiv.org/abs/2010.14701v2 )

ライセンス: Link先を確認
Tom Henighan, Jared Kaplan, Mor Katz, Mark Chen, Christopher Hesse, Jacob Jackson, Heewoo Jun, Tom B. Brown, Prafulla Dhariwal, Scott Gray, Chris Hallacy, Benjamin Mann, Alec Radford, Aditya Ramesh, Nick Ryder, Daniel M. Ziegler, John Schulman, Dario Amodei, Sam McCandlish(参考訳) 生成画像モデリング,ビデオモデリング,マルチモーダル画像$\leftrightarrow$textモデル,数学的問題解決の4つの領域におけるクロスエントロピー損失に対する経験的スケーリング法則を同定する。 いずれの場合も、モデルのサイズと計算予算がパワーロープラス一定のスケーリング則に従って増加すると、オートレグレッシブトランスフォーマーはパフォーマンスをスムーズに改善する。 最適なモデルサイズは、すべてのデータドメインでほぼ普遍的な指数を持つパワーローによる計算予算にも依存する。 クロスエントロピー損失は、情報理論的な解釈として$s($true$) + d_{\mathrm{kl}}($true$||$model$)$であり、経験的スケーリング則は真のデータ分布のエントロピーと真の分布とモデル分布の間のklの分岐の両方の予測を示唆する。 この解釈により、数十億パラメータ変換器は、YFCC100Mイメージの分布を8倍の8倍の解像度にダウンサンプルしたほぼ完璧なモデルであり、他の解像度のために、任意の再現可能な損失(D_{\mathrm{KL}}$)を達成するために必要なモデルサイズを予測できる。 特定のドメインでさらに多くのスケーリング法則が見つかる。 (a)マルチモーダルモデルにおけるキャプションと画像の相互情報に対するスケーリング関係を特定し,「絵は千語の価値あるか?」という問いにどう答えるかを示す。 b) 数学的問題解決の場合には,トレーニング分布を超えて外挿する場合に,モデル性能のスケーリング法則を特定する。 c)imagenet分類のための生成画像モデルを微調整し,生成損失レベルがオフであっても,分類損失とエラー率の円滑なスケーリングを見出す。 まとめると、これらの結果は、スケール法則がダウンストリームタスクを含むニューラルネットワークのパフォーマンスに重要な影響を及ぼすというケースを強化する。

We identify empirical scaling laws for the cross-entropy loss in four domains: generative image modeling, video modeling, multimodal image$\leftrightarrow$text models, and mathematical problem solving. In all cases autoregressive Transformers smoothly improve in performance as model size and compute budgets increase, following a power-law plus constant scaling law. The optimal model size also depends on the compute budget through a power-law, with exponents that are nearly universal across all data domains. The cross-entropy loss has an information theoretic interpretation as $S($True$) + D_{\mathrm{KL}}($True$||$Model$)$, and the empirical scaling laws suggest a prediction for both the true data distribution's entropy and the KL divergence between the true and model distributions. With this interpretation, billion-parameter Transformers are nearly perfect models of the YFCC100M image distribution downsampled to an $8\times 8$ resolution, and we can forecast the model size needed to achieve any given reducible loss (ie $D_{\mathrm{KL}}$) in nats/image for other resolutions. We find a number of additional scaling laws in specific domains: (a) we identify a scaling relation for the mutual information between captions and images in multimodal models, and show how to answer the question "Is a picture worth a thousand words?"; (b) in the case of mathematical problem solving, we identify scaling laws for model performance when extrapolating beyond the training distribution; (c) we finetune generative image models for ImageNet classification and find smooth scaling of the classification loss and error rate, even as the generative loss levels off. Taken together, these results strengthen the case that scaling laws have important implications for neural network performance, including on downstream tasks.
翻訳日:2022-10-02 04:27:15 公開日:2020-11-06
# 検索エンジンの類似度分析:コンテンツとランキングを組み合わせたアプローチ

Search Engine Similarity Analysis: A Combined Content and Rankings Approach ( http://arxiv.org/abs/2011.00650v2 )

ライセンス: Link先を確認
Konstantina Dritsa, Thodoris Sotiropoulos, Haris Skarpetis, Panos Louridas(参考訳) 検索エンジンの違いは? 検索エンジン戦争はオンラインアナリストにとって好まれる話題であり、世界最大の企業であるGoogleとMicrosoftの2社がウェブ検索分野の普及を争っている。 検索エンジンの人気の相違は、最も人気のある第1エンジンとの親和性、ピア模倣、習慣の強制など、その効果または他の要因によって説明できる。 本研究では、GoogleとBingとDuckDuckGoの2つの主要な検索エンジンの親和性に関する詳細な分析を行い、プライバシーに配慮した認証性を強調している。 そこで我々は,2016年と2019年の2回の検索において,300のユニークなクエリを包括的に収集し,検索応答のコンテンツとランキングの両方を活用する新しい類似度指標を開発した。 本研究は,本論文で提案されている他の指標やアプローチに対する指標の特徴を評価し,(1)検索エンジンの結果の類似性,(2)時間経過に伴う親和性の進化,(3)結果の側面が類似性にどのような影響を与えるか,(4)異なる種類の検索サービスに対してメトリクスがどのように異なるかを検討するために用いた。 googleは別物だが、bingとduckduckgoはほとんど区別がつかない。

How different are search engines? The search engine wars are a favorite topic of on-line analysts, as two of the biggest companies in the world, Google and Microsoft, battle for prevalence of the web search space. Differences in search engine popularity can be explained by their effectiveness or other factors, such as familiarity with the most popular first engine, peer imitation, or force of habit. In this work we present a thorough analysis of the affinity of the two major search engines, Google and Bing, along with DuckDuckGo, which goes to great lengths to emphasize its privacy-friendly credentials. To do so, we collected search results using a comprehensive set of 300 unique queries for two time periods in 2016 and 2019, and developed a new similarity metric that leverages both the content and the ranking of search responses. We evaluated the characteristics of the metric against other metrics and approaches that have been proposed in the literature, and used it to (1) investigate the similarities of search engine results, (2) the evolution of their affinity over time, (3) what aspects of the results influence similarity, and (4) how the metric differs over different kinds of search services. We found that Google stands apart, but Bing and DuckDuckGo are largely indistinguishable from each other.
翻訳日:2022-10-01 00:03:47 公開日:2020-11-06
# 活動認識のための短期的空間/周波数特徴抽出と長期的IndRNNを組み合わせたフレームワーク

A Framework of Combining Short-Term Spatial/Frequency Feature Extraction and Long-Term IndRNN for Activity Recognition ( http://arxiv.org/abs/2011.00395v2 )

ライセンス: Link先を確認
Beidi Zhao, Shuai Li, Yanbo Gao, Chuankun Li, Wanqing Li(参考訳) 近年,スマートフォンの普及に伴い,スマートフォンセンサを用いた人間行動認識が注目されている。 スマートフォンセンサのサンプリング率が高いため、特に、バッグやボディなどの異なる場所で携帯されるスマートフォンのようなクラス内距離や、電車や地下鉄などのクラス間距離など、クラス内距離が大きい場合には、非常に長距離の時間認識問題となる。 そこで本研究では,短時間の空間/周波数特徴抽出と,活動認識のための長期独立リカレントニューラルネットワーク(IndRNN)を組み合わせた新しい枠組みを提案する。 センサデータの周期的特性を考慮し、空間領域と周波数領域で短時間の時間的特徴を抽出する。 次に、長期パターンをキャプチャ可能なIndRNNを使用して、分類のための長期的特徴をさらに取得する。 スマートフォンが異なる場所で運ばれる際の大きな違いを考慮し、まず、スマートフォンの位置を特定するためにグループベースの位置認識を開発した。 SHL ChallengeのSussex-Huawei Locomotion (SHL)データセットを用いて評価を行う。 提案手法の初期のバージョンは、SHL Challenge 2020で2位を獲得した(複数のモデル融合アプローチを考慮しない場合の第一位)。 提案手法はさらに改良され, 単一モデルを用いた既存手法よりも80.72$\%$精度が向上した。

Smartphone sensors based human activity recognition is attracting increasing interests nowadays with the popularization of smartphones. With the high sampling rates of smartphone sensors, it is a highly long-range temporal recognition problem, especially with the large intra-class distances such as the smartphones carried at different locations such as in the bag or on the body, and the small inter-class distances such as taking train or subway. To address this problem, we propose a new framework of combining short-term spatial/frequency feature extraction and a long-term Independently Recurrent Neural Network (IndRNN) for activity recognition. Considering the periodic characteristics of the sensor data, short-term temporal features are first extracted in the spatial and frequency domains. Then the IndRNN, which is able to capture long-term patterns, is used to further obtain the long-term features for classification. In view of the large differences when the smartphone is carried at different locations, a group based location recognition is first developed to pinpoint the location of the smartphone. The Sussex-Huawei Locomotion (SHL) dataset from the SHL Challenge is used for evaluation. An earlier version of the proposed method has won the second place award in the SHL Challenge 2020 (the first place if not considering multiple models fusion approach). The proposed method is further improved in this paper and achieves 80.72$\%$ accuracy, better than the existing methods using a single model.
翻訳日:2022-09-30 23:29:36 公開日:2020-11-06
# エコノミストのための合成データ生成

Synthetic Data Generation for Economists ( http://arxiv.org/abs/2011.01374v2 )

ライセンス: Link先を確認
Allison Koenecke and Hal Varian(参考訳) 多くのテクノロジー企業が厳格な経済分析に従事しているため、私たちはデータ問題に直面している。 読者は、曖昧な真のデータ(例えば、内部google情報)が与えられた結果を生み出しているか、同様の結果をもたらす、比較可能な公開データ(例えば、google trends)を探さなければならないと仮定する。 この再現性の問題を改善する方法の1つは、研究者が真のデータに基づいて合成データセットをリリースさせることである。 本稿では,経済分析のための高水準の合成データ生成について概説する。

As more tech companies engage in rigorous economic analyses, we are confronted with a data problem: in-house papers cannot be replicated due to use of sensitive, proprietary, or private data. Readers are left to assume that the obscured true data (e.g., internal Google information) indeed produced the results given, or they must seek out comparable public-facing data (e.g., Google Trends) that yield similar results. One way to ameliorate this reproducibility issue is to have researchers release synthetic datasets based on their true data; this allows external parties to replicate an internal researcher's methodology. In this brief overview, we explore synthetic data generation at a high level for economic analyses.
翻訳日:2022-09-30 13:27:26 公開日:2020-11-06
# 現場におけるslam:動的農業環境における単細胞マッピングの評価と局在化

SLAM in the Field: An Evaluation of Monocular Mapping and Localization on Challenging Dynamic Agricultural Environment ( http://arxiv.org/abs/2011.01122v2 )

ライセンス: Link先を確認
Fangwen Shu, Paul Lesur, Yaxu Xie, Alain Pagani, Didier Stricker(参考訳) 本稿では,オフラインとリアルタイムのMulti-View Stereo(MVS)再構成アルゴリズムと,スパース,間接的,単眼的視覚SLAMを組み合わせたシステムを提案する。 この組み合わせは、過度に反復的なパターン、非常に詳細な再構築の必要性、不均一な道路による突然の移動など、農業環境で使用される自動運転車やロボットが直面する多くの障害を克服する。 さらに、単眼式スラムを使用することで、lidar(高価で電力消費の少ない)やステレオカメラ(カメラの設置など外部の摂動に敏感なキャリブレーション)を必要とせず、既存のデバイスとの統合がはるかに容易になります。 本研究は,本研究の手法により,単眼式スラムについて最初の評価結果を示し,rgb-dスラムをシミュレートして,この特定の応用シナリオにおける教師なしの深さ推定を行い,多種多様な農業タスクに有用な再構築手法を示す。 さらに,農業環境下での単分子SLAMシステムを改善する上で,本実験は有意義な洞察を与える。

This paper demonstrates a system capable of combining a sparse, indirect, monocular visual SLAM, with both offline and real-time Multi-View Stereo (MVS) reconstruction algorithms. This combination overcomes many obstacles encountered by autonomous vehicles or robots employed in agricultural environments, such as overly repetitive patterns, need for very detailed reconstructions, and abrupt movements caused by uneven roads. Furthermore, the use of a monocular SLAM makes our system much easier to integrate with an existing device, as we do not rely on a LiDAR (which is expensive and power consuming), or stereo camera (whose calibration is sensitive to external perturbation e.g. camera being displaced). To the best of our knowledge, this paper presents the first evaluation results for monocular SLAM, and our work further explores unsupervised depth estimation on this specific application scenario by simulating RGB-D SLAM to tackle the scale ambiguity, and shows our approach produces reconstructions that are helpful to various agricultural tasks. Moreover, we highlight that our experiments provide meaningful insight to improve monocular SLAM systems under agricultural settings.
翻訳日:2022-09-30 13:01:23 公開日:2020-11-06
# QMUL-SDS @ SardiStance: ネットワークインタラクションを活用して知識グラフを用いたスタンス検出のパフォーマンス向上

QMUL-SDS @ SardiStance: Leveraging Network Interactions to Boost Performance on Stance Detection using Knowledge Graphs ( http://arxiv.org/abs/2011.01181v3 )

ライセンス: Link先を確認
Rabab Alkhalifa, Arkaitz Zubiaga(参考訳) 本稿では,タスクAとタスクBに使用されるアーキテクチャを記述したSardiStance 2020共有タスクを提示する。タスクAの提出はベースラインを超えず,トレーニングツイートをすべて使用してモデルをトレーニングし,有望な結果(f-avg 0.601)を示した上で,タスクAの双方向LSTMとBERT多言語埋め込みを用いた。タスクBの提出については,第6位(f-avg 0.709)にランク付けした。 さらなる調査により、最高の実験により、(f-avg 0.573)から(f-avg 0.733)まで、同じアーキテクチャとパラメータ設定で、社会的相互作用機能のみを組み込んだ結果、モデルの性能に対する社会的相互作用の影響が強調された。

This paper presents our submission to the SardiStance 2020 shared task, describing the architecture used for Task A and Task B. While our submission for Task A did not exceed the baseline, retraining our model using all the training tweets, showed promising results leading to (f-avg 0.601) using bidirectional LSTM with BERT multilingual embedding for Task A. For our submission for Task B, we ranked 6th (f-avg 0.709). With further investigation, our best experimented settings increased performance from (f-avg 0.573) to (f-avg 0.733) with same architecture and parameter settings and after only incorporating social interaction features -- highlighting the impact of social interaction on the model's performance.
翻訳日:2022-09-30 12:06:56 公開日:2020-11-06
# 連続時間プーリングによる受容的場サイズ最適化

Receptive Field Size Optimization with Continuous Time Pooling ( http://arxiv.org/abs/2011.00869v2 )

ライセンス: Link先を確認
D\'ora Babicz, Soma Kont\'ar, M\'ark Pet\H{o}, Andr\'as F\"ul\"op, Gergely Szab\'o, Andr\'as Horv\'ath(参考訳) プール操作は畳み込みニューラルネットワークの基盤となる要素である。 これらの要素はニューロンの受容野を生成し、局所摂動は出力活性化に最小限の影響しか与えず、ネットワークの堅牢性と不変性が増大する。 本稿では,生物受容場に類似した位置感応性プール操作を生成する連続時間差分方程式により,理論上のプールを代用する,最も一般的な手法である最大プール方式の修正版を提案する。 本稿では,この連続法をGPUに理想的に適合する離散演算を用いて数値的に近似する方法を提案する。 我々のアプローチでは、カーネルサイズは連続的な値パラメータである拡散強度によって代用され、この方法で勾配降下アルゴリズムによって最適化できる。 一般に適用されるネットワークアーキテクチャとデータセットを用いて,連続プーリングが精度および計算ニーズに与える影響を評価する。

The pooling operation is a cornerstone element of convolutional neural networks. These elements generate receptive fields for neurons, in which local perturbations should have minimal effect on the output activations, increasing robustness and invariance of the network. In this paper we will present an altered version of the most commonly applied method, maximum pooling, where pooling in theory is substituted by a continuous time differential equation, which generates a location sensitive pooling operation, more similar to biological receptive fields. We will present how this continuous method can be approximated numerically using discrete operations which fit ideally on a GPU. In our approach the kernel size is substituted by diffusion strength which is a continuous valued parameter, this way it can be optimized by gradient descent algorithms. We will evaluate the effect of continuous pooling on accuracy and computational need using commonly applied network architectures and datasets.
翻訳日:2022-09-30 11:04:44 公開日:2020-11-06
# あなたが聞いたこと: 常識推論のためのamrを用いたグラフパス学習

I Know What You Asked: Graph Path Learning using AMR for Commonsense Reasoning ( http://arxiv.org/abs/2011.00766v2 )

ライセンス: Link先を確認
Jungwoo Lim, Dongsuk Oh, Yoonna Jang, Kisu Yang, Heuiseok Lim(参考訳) CommonsenseQAは、事前に定義された知識のコモンセンス推論を通じて正しい回答を予測するタスクである。 これまでのほとんどの研究は、質問の意味表現から回答を予測する過程を考慮せずに、分散表現による性能向上を目指してきた。 質問の意味的解釈を明らかにするため,我々はamr-conceptnet-pruned (acp)グラフを提案する。 ACPグラフは、入力質問から生成された抽象的意味表現(AMR)グラフと、外部コモンセンス知識グラフであるConceptNet(CN)を含む完全な統合グラフから抽出される。 次に、ACPグラフを利用して推論パスを解釈し、CommonsenseQAタスクの正しい回答を予測する。 本稿では,コモンセンス推論プロセスがACPグラフによって提供される関係や概念と解釈できる方法について述べる。 さらに、ACPベースのモデルはベースラインを上回っている。

CommonsenseQA is a task in which a correct answer is predicted through commonsense reasoning with pre-defined knowledge. Most previous works have aimed to improve the performance with distributed representation without considering the process of predicting the answer from the semantic representation of the question. To shed light upon the semantic interpretation of the question, we propose an AMR-ConceptNet-Pruned (ACP) graph. The ACP graph is pruned from a full integrated graph encompassing Abstract Meaning Representation (AMR) graph generated from input questions and an external commonsense knowledge graph, ConceptNet (CN). Then the ACP graph is exploited to interpret the reasoning path as well as to predict the correct answer on the CommonsenseQA task. This paper presents the manner in which the commonsense reasoning process can be interpreted with the relations and concepts provided by the ACP graph. Moreover, ACP-based models are shown to outperform the baselines.
翻訳日:2022-09-30 10:45:09 公開日:2020-11-06
# 3次元LiDAR点雲のリアルタイムセマンティックセグメンテーションのための多重射影融合

Multi Projection Fusion for Real-time Semantic Segmentation of 3D LiDAR Point Clouds ( http://arxiv.org/abs/2011.01974v2 )

ライセンス: Link先を確認
Yara Ali Alnaggar, Mohamed Afifi, Karim Amer, Mohamed Elhelw(参考訳) 3dポイントクラウドデータのセマンティクスセグメンテーションは、自律プラットフォームにおけるハイレベルな認識強化に不可欠である。 さらに、車やドローンに搭載されるLiDARセンサーの増加を踏まえ、モバイルGPUで動作する非計算集約アルゴリズムにも特に重点が置かれている。 従来の効率的な最先端手法は、2次元完全畳み込みニューラルネットワークの入力として点雲の2次元球面投影に依存しており、精度と速度のトレードオフのバランスを取っている。 本稿では,単一投影法に内在する情報の損失を軽減するために,ポイントクラウドの複数の投影を利用する3dポイントクラウドセマンティクスセグメンテーションの新しいアプローチを提案する。 マルチプロジェクション融合 (mpf) フレームワークは, 2つの高効率な2次元完全畳み込みモデルを用いて球面および鳥眼の投影を解析し, 両視点のセグメンテーション結果を統合する。 提案されたフレームワークはsemantickittiデータセット上で検証され、最新のプロジェクションベースメソッドであるrangenet++とpolarnetよりも高い55.5miouを達成し、前よりも1.6倍高速で、後者より3.1倍高速である。

Semantic segmentation of 3D point cloud data is essential for enhanced high-level perception in autonomous platforms. Furthermore, given the increasing deployment of LiDAR sensors onboard of cars and drones, a special emphasis is also placed on non-computationally intensive algorithms that operate on mobile GPUs. Previous efficient state-of-the-art methods relied on 2D spherical projection of point clouds as input for 2D fully convolutional neural networks to balance the accuracy-speed trade-off. This paper introduces a novel approach for 3D point cloud semantic segmentation that exploits multiple projections of the point cloud to mitigate the loss of information inherent in single projection methods. Our Multi-Projection Fusion (MPF) framework analyzes spherical and bird's-eye view projections using two separate highly-efficient 2D fully convolutional models then combines the segmentation results of both views. The proposed framework is validated on the SemanticKITTI dataset where it achieved a mIoU of 55.5 which is higher than state-of-the-art projection-based methods RangeNet++ and PolarNet while being 1.6x faster than the former and 3.1x faster than the latter.
翻訳日:2022-09-30 05:30:14 公開日:2020-11-06
# XED:感覚分析と感情検出のための多言語データセット

XED: A Multilingual Dataset for Sentiment Analysis and Emotion Detection ( http://arxiv.org/abs/2011.01612v2 )

ライセンス: Link先を確認
Emily \"Ohman, Marc P\`amies, Kaisla Kajava, J\"org Tiedemann(参考訳) マルチリンガルな感情データセットであるXEDを紹介する。 このデータセットは、人間の注釈付きフィンランド語(25k)と英語(30k)の文と、30の追加言語用のアノテーションで構成され、多くの低リソース言語に新たなリソースを提供する。 plutchikのコア感情を使ってデータセットにアノテートし、中性を追加してマルチラベルのマルチクラスデータセットを作成します。 データセットは言語固有のBERTモデルとSVMを使用して慎重に評価され、XEDが他の類似したデータセットと同等に動作することを示す。

We introduce XED, a multilingual fine-grained emotion dataset. The dataset consists of human-annotated Finnish (25k) and English sentences (30k), as well as projected annotations for 30 additional languages, providing new resources for many low-resource languages. We use Plutchik's core emotions to annotate the dataset with the addition of neutral to create a multilabel multiclass dataset. The dataset is carefully evaluated using language-specific BERT models and SVMs to show that XED performs on par with other similar datasets and is therefore a useful tool for sentiment analysis and emotion detection.
翻訳日:2022-09-30 04:42:44 公開日:2020-11-06
# トランスファーメタラーニング:情報理論境界と情報メタリスク最小化

Transfer Meta-Learning: Information-Theoretic Bounds and Information Meta-Risk Minimization ( http://arxiv.org/abs/2011.02872v2 )

ライセンス: Link先を確認
Sharu Theresa Jose, Osvaldo Simeone, Giuseppe Durisi(参考訳) メタ学習は、複数の関連するタスクからのデータを観察し、誘導バイアスを自動的に推論する。 帰納バイアスは、初期化や学習率といったモデルクラスやトレーニングアルゴリズムの側面を決定するハイパーパラメータによって符号化される。 メタ学習は、学習タスクがタスク環境に属し、タスクがメタトレーニングとメタテストの両方の間に同じタスク環境から引き出されると仮定する。 しかし、実際にはこれは当てはまらないかもしれない。 本稿では,移動メタ学習の課題について紹介する。メタテスト中に対象タスク環境からタスクを引き出すと,メタトレーニング中に観測される元タスク環境とは異なる可能性がある。 トランスファーメタ一般化ギャップにおいて、メタリーナーで利用可能なメタトレーニング損失と、対象タスク環境においてランダムに選択された新規タスクからのメタテストデータの平均損失との差を測定する、新たな情報理論上界を求める。 第1のバウンドは、平均転送メタ一般化ギャップ上で、ソースとターゲットデータ分散間のkl分岐を介して、ソースとターゲットのタスク環境間のメタ環境シフトをキャプチャする。 第2のPAC-ベイジアン境界と第3の単線境界は、ソースとターゲットのタスク分布の対数類似比によってこのシフトを説明できる。 さらに、トランスファーメタラーニングソリューションも2つ導入されている。 経験的メタリスク最小化(EMRM: Empirical Meta-Risk Minimization)と呼ばれる最初の実験では、平均最適性ギャップの境界を導出する。 情報メタリスク最小化(IMRM、Information Meta-Risk Minimization)は、PAC-Bayesian境界を最小化する。 IMRMは実験によってEMRMより優れる可能性がある。

Meta-learning automatically infers an inductive bias by observing data from a number of related tasks. The inductive bias is encoded by hyperparameters that determine aspects of the model class or training algorithm, such as initialization or learning rate. Meta-learning assumes that the learning tasks belong to a task environment, and that tasks are drawn from the same task environment both during meta-training and meta-testing. This, however, may not hold true in practice. In this paper, we introduce the problem of transfer meta-learning, in which tasks are drawn from a target task environment during meta-testing that may differ from the source task environment observed during meta-training. Novel information-theoretic upper bounds are obtained on the transfer meta-generalization gap, which measures the difference between the meta-training loss, available at the meta-learner, and the average loss on meta-test data from a new, randomly selected, task in the target task environment. The first bound, on the average transfer meta-generalization gap, captures the meta-environment shift between source and target task environments via the KL divergence between source and target data distributions. The second, PAC-Bayesian bound, and the third, single-draw bound, account for this shift via the log-likelihood ratio between source and target task distributions. Furthermore, two transfer meta-learning solutions are introduced. For the first, termed Empirical Meta-Risk Minimization (EMRM), we derive bounds on the average optimality gap. The second, referred to as Information Meta-Risk Minimization (IMRM), is obtained by minimizing the PAC-Bayesian bound. IMRM is shown via experiments to potentially outperform EMRM.
翻訳日:2022-09-29 23:25:40 公開日:2020-11-06
# 連続観測による隠れマルコフモデルに対するフィルタリング

Filtering for Aggregate Hidden Markov Models with Continuous Observations ( http://arxiv.org/abs/2011.02521v2 )

ライセンス: Link先を確認
Qinsheng Zhang, Rahul Singh, Yongxin Chen(参考訳) 我々は,各個体が同じ隠れマルコフモデル (HMM) によってモデル化される大集団に対するフィルタリング問題を考察する。 本稿では,離散状態空間と連続観測空間を持つHMMにおける集合推論問題に焦点をあてる。 連続的な観察は、個人が測定と区別できない方法で集約される。 本稿では,連続観測集合フォワードバックワードアルゴリズムと呼ばれる集合推論アルゴリズムを提案する。 離散観測を伴うhmmにおける集合的推論のための最近提案された集合的前方回帰アルゴリズムを連続観測の場合に拡張する。 このアルゴリズムの有効性はいくつかの数値実験によって示される。

We consider a class of filtering problems for large populations where each individual is modeled by the same hidden Markov model (HMM). In this paper, we focus on aggregate inference problems in HMMs with discrete state space and continuous observation space. The continuous observations are aggregated in a way such that the individuals are indistinguishable from measurements. We propose an aggregate inference algorithm called continuous observation collective forward-backward algorithm. It extends the recently proposed collective forward-backward algorithm for aggregate inference in HMMs with discrete observations to the case of continuous observations. The efficacy of this algorithm is illustrated through several numerical experiments.
翻訳日:2022-09-29 22:05:24 公開日:2020-11-06
# Restless-UCB - オンラインレスレスバンドの効率的かつ低複雑さアルゴリズム

Restless-UCB, an Efficient and Low-complexity Algorithm for Online Restless Bandits ( http://arxiv.org/abs/2011.02664v2 )

ライセンス: Link先を確認
Siwei Wang, Longbo Huang, John C.S. Lui(参考訳) そこで本研究では,各アームの状態がマルコフ連鎖に従って進化するオンラインレストレスバンディット問題について検討し,アームを引っ張る報酬は,引っ張られたアームと対応するマルコフ連鎖の現在の状態の両方に依存することを示した。 本稿では,探索課題の枠組みに従う学習方針であるRestless-UCBを提案する。 Restless-UCBにおいて、オフラインインスタンスを構築する新しい方法を提案する。これは、O(N)$time-complexity(N$は腕の数)だけで、既存の学習ポリシーの複雑さよりも指数関数的に優れている。 また、Restless-UCB が $\tilde{O}((N+M^3)T^{2\over 3})$ の後悔の上界を達成することを証明している。 既存のアルゴリズムと比較すると,本手法は一般のrestless bandit問題における遷移のスパーシティの新たな利用により,後悔の上限値の指数係数($m,n$)を除去した。 その結果,既存のアルゴリズムの残差を厳格化するために解析手法が適用可能となった。 最後に、実世界のデータセットに基づいて実験を行い、Restless-UCBポリシーと最先端ベンチマークを比較した。 その結果,restless-ucbは既存のアルゴリズムを上回っており,実行時間を大幅に削減できることがわかった。

We study the online restless bandit problem, where the state of each arm evolves according to a Markov chain, and the reward of pulling an arm depends on both the pulled arm and the current state of the corresponding Markov chain. In this paper, we propose Restless-UCB, a learning policy that follows the explore-then-commit framework. In Restless-UCB, we present a novel method to construct offline instances, which only requires $O(N)$ time-complexity ($N$ is the number of arms) and is exponentially better than the complexity of existing learning policy. We also prove that Restless-UCB achieves a regret upper bound of $\tilde{O}((N+M^3)T^{2\over 3})$, where $M$ is the Markov chain state space size and $T$ is the time horizon. Compared to existing algorithms, our result eliminates the exponential factor (in $M,N$) in the regret upper bound, due to a novel exploitation of the sparsity in transitions in general restless bandit problems. As a result, our analysis technique can also be adopted to tighten the regret bounds of existing algorithms. Finally, we conduct experiments based on real-world dataset, to compare the Restless-UCB policy with state-of-the-art benchmarks. Our results show that Restless-UCB outperforms existing algorithms in regret, and significantly reduces the running time.
翻訳日:2022-09-29 12:25:48 公開日:2020-11-06
# ゴール駆動型長期軌道予測

Goal-driven Long-Term Trajectory Prediction ( http://arxiv.org/abs/2011.02751v2 )

ライセンス: Link先を確認
Hung Tran, Vuong Le, Truyen Tran(参考訳) ヒトの短期軌道の予測は、強力なシーケンシャルモデリングと豊かな環境特徴抽出を用いて大幅に進歩している。 しかし、エラーが蓄積される可能性があるため、現在の方法にとって長期的な予測は依然として大きな課題である。 実際、軌道の終わりまでの一貫した安定した予測には、本質的にその軌道の全体構造を深く分析する必要がある。 本研究では,歩行者の目標を決定する仮説的プロセスと,そのプロセスが長期的将来の軌道に与える影響をモデル化することを提案する。 このような直感を実現するデュアルチャネルニューラルネットワークであるゴール駆動軌道予測モデルを設計する。 ネットワークの2つのチャンネルは専用の役割を担い、将来の軌道を生成するために協力する。 従来の目標条件の計画的手法とは異なり、モデルアーキテクチャはパターンを一般化し、任意の幾何学的構造と意味的構造を持つ様々な場面で機能するように設計されている。 このモデルは、特に大きな予測の地平線において、様々な設定において最先端を上回っていることが示されている。 この結果は、人間の行動分析における視覚的特徴と幾何学的特徴の適応的構造化表現の有効性を示す別の証拠である。

The prediction of humans' short-term trajectories has advanced significantly with the use of powerful sequential modeling and rich environment feature extraction. However, long-term prediction is still a major challenge for the current methods as the errors could accumulate along the way. Indeed, consistent and stable prediction far to the end of a trajectory inherently requires deeper analysis into the overall structure of that trajectory, which is related to the pedestrian's intention on the destination of the journey. In this work, we propose to model a hypothetical process that determines pedestrians' goals and the impact of such process on long-term future trajectories. We design Goal-driven Trajectory Prediction model - a dual-channel neural network that realizes such intuition. The two channels of the network take their dedicated roles and collaborate to generate future trajectories. Different than conventional goal-conditioned, planning-based methods, the model architecture is designed to generalize the patterns and work across different scenes with arbitrary geometrical and semantic structures. The model is shown to outperform the state-of-the-art in various settings, especially in large prediction horizons. This result is another evidence for the effectiveness of adaptive structured representation of visual and geometrical features in human behavior analysis.
翻訳日:2022-09-29 12:05:19 公開日:2020-11-06
# QMUL-SDS @ DIACR-Ita:Evaluating Unsupervised Diachronic Lexical Semantics Classification in Italian

QMUL-SDS @ DIACR-Ita: Evaluating Unsupervised Diachronic Lexical Semantics Classification in Italian ( http://arxiv.org/abs/2011.02935v2 )

ライセンス: Link先を確認
Rabab Alkhalifa, Adam Tsakalidis, Arkaitz Zubiaga, Maria Liakata(参考訳) 本稿では,DIACR-ITA 2020タスクにおけるシステムの結果と主な成果について述べる。 本システムでは,トレーニングセットのバリエーションと意味検出手法の相違に着目した。 タスクは、単語のベクトル変化を2つのダイアクロニックなイタリア語コーパスから訓練し、調整し、予測することである。 コンパスC-BOWモデルを用いたテンポラルワード埋め込みは,ロジスティック回帰やフィードフォワードニューラルネットワークなど,精度の高いアプローチに比べ,より効果的であることを示す。 我々のモデルは83.3%の精度で3位となった。

In this paper, we present the results and main findings of our system for the DIACR-ITA 2020 Task. Our system focuses on using variations of training sets and different semantic detection methods. The task involves training, aligning and predicting a word's vector change from two diachronic Italian corpora. We demonstrate that using Temporal Word Embeddings with a Compass C-BOW model is more effective compared to different approaches including Logistic Regression and a Feed Forward Neural Network using accuracy. Our model ranked 3rd with an accuracy of 83.3%.
翻訳日:2022-09-29 11:57:40 公開日:2020-11-06
# (quasi-)人工ニューラルネットワークによる空中時間領域電磁データのリアルタイムインバージョン

(Quasi-)Real-Time Inversion of Airborne Time-Domain Electromagnetic Data via Artificial Neural Network ( http://arxiv.org/abs/2011.03522v1 )

ライセンス: Link先を確認
Peng Bai, Giulio Vignoli, Andrea Viezzoli, Jouni Nevalainen, and Giuseppina Vacca(参考訳) 電磁データの収集は、品質チェックの目的だけでなく、航空機の時間領域取得時に提案されたフライトラインの位置を調整するためにも重要である。 この種の準備は、取得すべき測定値の情報の価値の最適化において大きな影響を与える可能性がある。 また,空気中の時間領域データから比抵抗モデルを取り出すための高速ツールを持つことの重要性を,導電性深部イメージング手法がいまだに鉱物探査の標準であるという事実から証明した。 実際、それらは非常に計算効率が良く、同時に非常に高い横方向分解能を保っている。 これらの理由から、後者のアプローチがターゲットの深さの適切な再構成や地下の真の比抵抗値の信頼できる検索において一般的に正確である場合でも、逆戦略の方が好ましい。 本研究では、ニューラルネットワーク技術に基づく新しいアプローチについて論じ、インバージョン戦略に匹敵する品質の比抵抗モデルを得ることができるが、そのわずかな時間で得られる比抵抗モデルについて考察する。 本稿では,合成およびフィールドデータセットに対する新しいアプローチの利点を示す。

The possibility to have results very quickly after, or even during, the collection of electromagnetic data would be important, not only for quality check purposes, but also for adjusting the location of the proposed flight lines during an airborne time-domain acquisition. This kind of readiness could have a large impact in terms of optimization of the Value of Information of the measurements to be acquired. In addition, the importance of having fast tools for retrieving resistivity models from airborne time-domain data is demonstrated by the fact that Conductivity-Depth Imaging methodologies are still the standard in mineral exploration. In fact, they are extremely computationally efficient, and, at the same time, they preserve a very high lateral resolution. For these reasons, they are often preferred to inversion strategies even if the latter approaches are generally more accurate in terms of proper reconstruction of the depth of the targets and of reliable retrieval of true resistivity values of the subsurface. In this research, we discuss a novel approach, based on neural network techniques, capable of retrieving resistivity models with a quality comparable with the inversion strategy, but in a fraction of the time. We demonstrate the advantages of the proposed novel approach on synthetic and field datasets.
翻訳日:2022-09-29 05:54:52 公開日:2020-11-06
# 不均一ラベルとモデルを用いた資源制約付きフェデレーション学習

Resource-Constrained Federated Learning with Heterogeneous Labels and Models ( http://arxiv.org/abs/2011.03206v1 )

ライセンス: Link先を確認
Gautham Krishna Gudur, Bala Shyamala Balaji, Satheesh K. Perepu(参考訳) さまざまなIoTアプリケーションは、広範なヘルスケア、アクティビティ監視、音声認識、リアルタイムコンピュータビジョンなど、さまざまなアプリケーションに対して、リソースに制約のある機械学習メカニズムを必要とする。 これにより、通信オーバーヘッドの少ない複数のデバイスからの情報を活用する必要があります。 連合学習は、分散および協調機械学習にとって、極めて実行可能な選択肢であることが証明される。 特に、オンデバイス連合学習は活発な研究分野であるが、統計(非iidデータ)とモデルの不均一性に対処するための様々な課題がある。 さらに,本論文では,連合学習におけるラベルの不均一性を扱うための新たな関心課題について検討する。 そこで本稿では,ラベル間の重なり合う情報ゲインを活用しながら,プロセスの帯域幅コストを削減しつつ,単純な$\alpha$-weighted Federated aggregates of scoresを提案する。 Animals-10データセット(結果の効果的解明のためのラベルが4つある)に関する実証的な評価は、決定論的精度が少なくとも16.7%向上したことを示している。 また,シングルボードコンピューティングプラットフォームであるraspberry pi 2上で,さまざまなイテレーションでフェデレーション学習と推論を実験することにより,提案フレームワークのオンデバイス機能を示す。

Various IoT applications demand resource-constrained machine learning mechanisms for different applications such as pervasive healthcare, activity monitoring, speech recognition, real-time computer vision, etc. This necessitates us to leverage information from multiple devices with few communication overheads. Federated Learning proves to be an extremely viable option for distributed and collaborative machine learning. Particularly, on-device federated learning is an active area of research, however, there are a variety of challenges in addressing statistical (non-IID data) and model heterogeneities. In addition, in this paper we explore a new challenge of interest -- to handle label heterogeneities in federated learning. To this end, we propose a framework with simple $\alpha$-weighted federated aggregation of scores which leverages overlapping information gain across labels, while saving bandwidth costs in the process. Empirical evaluation on Animals-10 dataset (with 4 labels for effective elucidation of results) indicates an average deterministic accuracy increase of at least ~16.7%. We also demonstrate the on-device capabilities of our proposed framework by experimenting with federated learning and inference across different iterations on a Raspberry Pi 2, a single-board computing platform.
翻訳日:2022-09-29 05:53:21 公開日:2020-11-06
# Federated Crowd Sensing: フレームワークと課題

Federated Crowdsensing: Framework and Challenges ( http://arxiv.org/abs/2011.03208v1 )

ライセンス: Link先を確認
Leye Wang, Han Yu, Xiao Han(参考訳) crowdsensingはスマートシティアプリケーション(トラフィックや環境モニタリングなど)のための有望なセンシングパラダイムであり、スマートモバイルデバイスや高度なネットワークインフラストラクチャが普及している。 一方、タスクは個人によって行われるため、プライバシー保護はクラウドセンシングシステムにおける重要な問題のひとつです。 伝統的に、ユーザのプライバシの懸念を軽減するため、ノイズはディファレンシャルプライバシなどの技術を通じて参加者の機密データ(例えば、参加者の位置)に追加される。 しかし、これは必然的にクラウドセンシング作業に品質損失をもたらす。 近年,機械学習におけるプライバシ保護を実現しつつ,学習品質がほとんど,あるいはまったく損なわないことを保証する,連合学習パラダイムが提案されている。 フェデレーション学習パラダイムに着想を得て,フェデレーション学習がクラウドセンシングアプリケーションに与える影響について検討する。 具体的には,まず,各クラウドセンシングステージ(タスク作成,タスク割り当て,タスク実行,データ集約など)のプライバシー問題を分析し,フェデレーション学習技術がどのような効果を発揮するかについて議論する,フェデレートクラウドセンシングフレームワークを提案する。 最後に,連合クラウドセンシングにおける重要な課題と機会をまとめた。

Crowdsensing is a promising sensing paradigm for smart city applications (e.g., traffic and environment monitoring) with the prevalence of smart mobile devices and advanced network infrastructure. Meanwhile, as tasks are performed by individuals, privacy protection is one of the key issues in crowdsensing systems. Traditionally, to alleviate users' privacy concerns, noises are added to participants' sensitive data (e.g., participants' locations) through techniques such as differential privacy. However, this inevitably results in quality loss to the crowdsensing task. Recently, federated learning paradigm has been proposed, which aims to achieve privacy preservation in machine learning while ensuring that the learning quality suffers little or no loss. Inspired by the federated learning paradigm, this article studies how federated learning may benefit crowdsensing applications. In particular, we first propose a federated crowdsensing framework, which analyzes the privacy concerns of each crowdsensing stage (i.e., task creation, task assignment, task execution, and data aggregation) and discuss how federated learning techniques may take effect. Finally, we summarize key challenges and opportunities in federated crowdsensing.
翻訳日:2022-09-29 05:53:03 公開日:2020-11-06
# 低消費電力IoTデバイスの難読マルウェア検出に向けて

Towards Obfuscated Malware Detection for Low Powered IoT Devices ( http://arxiv.org/abs/2011.03476v1 )

ライセンス: Link先を確認
Daniel Park, Hannah Powers, Benji Prashker, Leland Liu and B\"ulent Yener(参考訳) IoTとエッジデバイスが商用およびユーザネットワークにデプロイされることで、これらのデバイスはマルウェア作者にとって新たな脅威となる。 商用およびパーソナルネットワークで普及するにつれて、これらのデバイスを保護することが不可欠である。 しかし、計算能力とストレージ容量が限られており、特にバッテリー駆動デバイスの場合、これらのシステムに最先端のマルウェア検出装置を配置することは不可能である。 本研究では,オプコードトレースから構築したマルコフ行列の特徴を,不正かつ難解なマルウェア検出のための低コストな特徴として利用し,抽出することを提案する。 我々は,本手法が類似作業よりも低消費電力で高い検出率を維持することを実証的に示す。

With the increased deployment of IoT and edge devices into commercial and user networks, these devices have become a new threat vector for malware authors. It is imperative to protect these devices as they become more prevalent in commercial and personal networks. However, due to their limited computational power and storage space, especially in the case of battery-powered devices, it is infeasible to deploy state-of-the-art malware detectors onto these systems. In this work, we propose using and extracting features from Markov matrices constructed from opcode traces as a low cost feature for unobfuscated and obfuscated malware detection. We empirically show that our approach maintains a high detection rate while consuming less power than similar work.
翻訳日:2022-09-29 05:52:22 公開日:2020-11-06
# エンド・ツー・エンド音声合成のためのクロスプラットフォームBERT埋め込みによる韻律モデルの改良

Improving Prosody Modelling with Cross-Utterance BERT Embeddings for End-to-end Speech Synthesis ( http://arxiv.org/abs/2011.05161v1 )

ライセンス: Link先を確認
Guanghui Xu, Wei Song, Zhengchen Zhang, Chao Zhang, Xiaodong He, Bowen Zhou(参考訳) 韻律は言論構造まで言語情報に関係しているにもかかわらず、ほとんどのTTSシステムは各文内でのみそれを考慮しているため、文節を自然で表現力のある音声に変換することは困難である。 本稿では,隣接文のテキスト埋め込みを用いて,句の各発話に対する韻律生成を,明示的な韻律特徴を使わずにエンドツーエンドで改善する手法を提案する。 より具体的には、事前訓練されたBERTモデルによって抽出された文埋め込みに基づいて追加のCUエンコーダによって生成されるクロス発話(CU)コンテキストベクトルを用いて、Tacotron2デコーダの入力を増強する。 2種類のbert埋め込みが研究され、異なるcuエンコーダ構造が使用される。 マンダリン音声ブックデータセットとLJ-Speech英語オーディオブックデータセットの実験結果から、CU情報の使用により合成音声の自然性と表現性が向上することを示した。 主観的聴取テストは、ほとんどの参加者がCUエンコーダを用いて生成した音声を標準のTacotron2で生成した音声よりも好んでいることを示している。 また、隣接文を変更することで間接的に韻律を制御できることが判明した。

Despite prosody is related to the linguistic information up to the discourse structure, most text-to-speech (TTS) systems only take into account that within each sentence, which makes it challenging when converting a paragraph of texts into natural and expressive speech. In this paper, we propose to use the text embeddings of the neighboring sentences to improve the prosody generation for each utterance of a paragraph in an end-to-end fashion without using any explicit prosody features. More specifically, cross-utterance (CU) context vectors, which are produced by an additional CU encoder based on the sentence embeddings extracted by a pre-trained BERT model, are used to augment the input of the Tacotron2 decoder. Two types of BERT embeddings are investigated, which leads to the use of different CU encoder structures. Experimental results on a Mandarin audiobook dataset and the LJ-Speech English audiobook dataset demonstrate the use of CU information can improve the naturalness and expressiveness of the synthesized speech. Subjective listening testing shows most of the participants prefer the voice generated using the CU encoder over that generated using standard Tacotron2. It is also found that the prosody can be controlled indirectly by changing the neighbouring sentences.
翻訳日:2022-09-29 05:51:50 公開日:2020-11-06
# ネットワーク型ロボット知覚のためのタスク関連表現学習

Task-relevant Representation Learning for Networked Robotic Perception ( http://arxiv.org/abs/2011.03216v1 )

ライセンス: Link先を確認
Manabu Nakanoya, Sandeep Chinchali, Alexandros Anemogiannis, Akul Datta, Sachin Katti, Marco Pavone(参考訳) 今日では、最も計算能力に制約のあるロボットでさえ、複雑なデータレートビデオとlidarセンサーストリームを計測できる。 多くの場合、低電力ドローンから宇宙や地下ローバーまで、そのようなロボットは、不確かでない場合や、複雑な知覚やマッピングタスクをローカルで実行できない場合、高ビットの感覚データをリモート計算サーバーに送信する必要がある。 しかし、今日の感覚データの表現は主に人間用に設計されており、ロボットや知覚ではなく、高レベルのロボット作業で不要なシーンの重要でない部分を伝送するために、貴重な計算や無線ネットワークリソースを浪費することが多い。 本稿では,事前学習されたロボット知覚モデルの究極の目的と共設計した知覚データのタスク関連表現を学習するアルゴリズムを提案する。 本アルゴリズムは,ロボットの知覚データを競合する手法の最大11倍まで積極的に圧縮する。 さらに,低消費電力の深層学習アクセラレータを用いた火星地形分類,ニューラルモーション計画,環境時系列分類など,多様なタスクに対する高精度かつ堅牢な一般化を実現している。

Today, even the most compute-and-power constrained robots can measure complex, high data-rate video and LIDAR sensory streams. Often, such robots, ranging from low-power drones to space and subterranean rovers, need to transmit high-bitrate sensory data to a remote compute server if they are uncertain or cannot scalably run complex perception or mapping tasks locally. However, today's representations for sensory data are mostly designed for human, not robotic, perception and thus often waste precious compute or wireless network resources to transmit unimportant parts of a scene that are unnecessary for a high-level robotic task. This paper presents an algorithm to learn task-relevant representations of sensory data that are co-designed with a pre-trained robotic perception model's ultimate objective. Our algorithm aggressively compresses robotic sensory data by up to 11x more than competing methods. Further, it achieves high accuracy and robust generalization on diverse tasks including Mars terrain classification with low-power deep learning accelerators, neural motion planning, and environmental timeseries classification.
翻訳日:2022-09-29 05:51:30 公開日:2020-11-06
# Correlator Convolutional Neural Networks: Image-like Quantum Matter Dataのための解釈可能なアーキテクチャ

Correlator Convolutional Neural Networks: An Interpretable Architecture for Image-like Quantum Matter Data ( http://arxiv.org/abs/2011.03474v1 )

ライセンス: Link先を確認
Cole Miles, Annabelle Bohrdt, Ruihan Wu, Christie Chiu, Muqing Xu, Geoffrey Ji, Markus Greiner, Kilian Q. Weinberger, Eugene Demler, Eun-Ah Kim(参考訳) 機械学習モデルは、実験結果が多体状態のスナップショットの集合である量子シミュレータからデータを分析する強力な理論ツールである。 近年,従来の1点相関関数と2点相関関数では識別できないスナップショットの識別に成功している。 これまでのところ、これらのモデルの複雑さはこのアプローチからの新たな物理的洞察を阻害している。 ここでは、新しい非線形性の集合を用いて、物理観測可能量を直接解釈可能なデータの特徴を発見するネットワークアーキテクチャを開発する。 特に,我々のネットワークは,研究データとは大きく異なる高次相関器を発見できる。 量子ガス顕微鏡の最先端実験で実現されるフェルミ・ハバード模型を近似する2つの候補理論によるシミュレーションスナップショットのセット上に,この新しいアーキテクチャを実証する。 トレーニングされたネットワークから、重要な特徴が4階スピンチャージ相関器であることを発見し、実験データと理論的予測を比較する手段を提供する。 我々のアプローチは、単純なエンドツーエンドの解釈可能なアーキテクチャの構築に適しており、任意の格子データに適用できるため、実験データだけでなく、実験データの機械学習研究からの新たな物理洞察の道を開くことができる。

Machine learning models are a powerful theoretical tool for analyzing data from quantum simulators, in which results of experiments are sets of snapshots of many-body states. Recently, they have been successfully applied to distinguish between snapshots that can not be identified using traditional one and two point correlation functions. Thus far, the complexity of these models has inhibited new physical insights from this approach. Here, using a novel set of nonlinearities we develop a network architecture that discovers features in the data which are directly interpretable in terms of physical observables. In particular, our network can be understood as uncovering high-order correlators which significantly differ between the data studied. We demonstrate this new architecture on sets of simulated snapshots produced by two candidate theories approximating the doped Fermi-Hubbard model, which is realized in state-of-the art quantum gas microscopy experiments. From the trained networks, we uncover that the key distinguishing features are fourth-order spin-charge correlators, providing a means to compare experimental data to theoretical predictions. Our approach lends itself well to the construction of simple, end-to-end interpretable architectures and is applicable to arbitrary lattice data, thus paving the way for new physical insights from machine learning studies of experimental as well as numerical data.
翻訳日:2022-09-29 05:51:04 公開日:2020-11-06
# 大規模並列グラフ描画と表現学習

Massively Parallel Graph Drawing and Representation Learning ( http://arxiv.org/abs/2011.03479v1 )

ライセンス: Link先を確認
Christian B\"ohm, Claudia Plant(参考訳) 現代のマルチコアプロセッサの性能をフル活用するには、ビッグデータのための機械学習とデータマイニングアルゴリズムを複数の方法で並列化する必要がある。 今日のCPUは複数のコアで構成されており、それぞれが独立した制御スレッドに従っており、複数のデータオブジェクトのベクトル上で同じ操作を実行できる複数の演算ユニットを備えている。 グラフ埋め込み、すなわちグラフの頂点を数値ベクトルに変換することは、重要度の高いデータマイニングタスクであり、グラフ描画(低次元ベクトル)やグラフ表現学習(高次元ベクトル)に有用である。 本稿では,低次元および高次元ベクトルを生成する情報理論であるMulticoreGEMPE (Graph Embedding by Minimizing the Predictive Entropy)を提案する。 マルチコアGEMPEは、MIMD (Multiple Instructions Multiple Data, using OpenMP) とSIMD (Single Instructions Multiple Data, using AVX-512) の並列性を適用している。 本稿では,他のグラフベースのアルゴリズム,例えば \emph{vectorized hashing} や \emph{vectorized reduction} に適用可能な一般アイデアを提案する。 実験による評価は,我々のアプローチの優位性を示している。

To fully exploit the performance potential of modern multi-core processors, machine learning and data mining algorithms for big data must be parallelized in multiple ways. Today's CPUs consist of multiple cores, each following an independent thread of control, and each equipped with multiple arithmetic units which can perform the same operation on a vector of multiple data objects. Graph embedding, i.e. converting the vertices of a graph into numerical vectors is a data mining task of high importance and is useful for graph drawing (low-dimensional vectors) and graph representation learning (high-dimensional vectors). In this paper, we propose MulticoreGEMPE (Graph Embedding by Minimizing the Predictive Entropy), an information-theoretic method which can generate low and high-dimensional vectors. MulticoreGEMPE applies MIMD (Multiple Instructions Multiple Data, using OpenMP) and SIMD (Single Instructions Multiple Data, using AVX-512) parallelism. We propose general ideas applicable in other graph-based algorithms like \emph{vectorized hashing} and \emph{vectorized reduction}. Our experimental evaluation demonstrates the superiority of our approach.
翻訳日:2022-09-29 05:44:55 公開日:2020-11-06
# メッシュネットワーク上での高可用性データ並列MLトレーニング

Highly Available Data Parallel ML training on Mesh Networks ( http://arxiv.org/abs/2011.03605v1 )

ライセンス: Link先を確認
Sameer Kumar and Norm Jouppi(参考訳) データ並列MLモデルは、複数のアクセラレーターでトレーニングするのに数日または数週間かかる。 長時間のトレーニングは、ジョブが実行し続けるために利用可能なリソースのクラスタに依存します。 メッシュネットワークでは、障害がメッシュに穴をあけるため、これは困難です。 パケットは、完全な接続のために失敗したチップの周りでルーティングされなければならない。 本稿では,2次元メッシュ上での故障チップまわりのトラフィックを再現する手法を提案する。 MLPerf-v0.7 ResNet-50およびBERTベンチマークを用いて,耐故障性アレーダ手法の性能を評価する。 512チップと1024TPU-v3チップのトレーニングスループットへの影響は最小限である。

Data parallel ML models can take several days or weeks to train on several accelerators. The long duration of training relies on the cluster of resources to be available for the job to keep running for the entire duration. On a mesh network this is challenging because failures will create holes in the mesh. Packets must be routed around the failed chips for full connectivity. In this paper, we present techniques to route gradient summation allreduce traffic around failed chips on 2-D meshes. We evaluate performance of our fault tolerant allreduce techniques via the MLPerf-v0.7 ResNet-50 and BERT benchmarks. Performance results show minimal impact to training throughput on 512 and 1024 TPU-v3 chips.
翻訳日:2022-09-29 05:44:34 公開日:2020-11-06
# ai対応無線ネットワークのためのシングルおよびマルチエージェント深層強化学習:チュートリアル

Single and Multi-Agent Deep Reinforcement Learning for AI-Enabled Wireless Networks: A Tutorial ( http://arxiv.org/abs/2011.03615v1 )

ライセンス: Link先を確認
Amal Feriani and Ekram Hossain(参考訳) 深層強化学習(drl)は最近、様々な分野、特に無線通信において、逐次的な意思決定問題を解決する多くの成功に導いた重要な進歩を目撃している。 将来の第6世代(6G)ネットワークは、スケーラブルで低レイテンシで信頼性の高いサービスを提供し、データ駆動人工知能(AI)の適用によって強化される予定である。 インテリジェントなメタサーフェス、航空ネットワーク、AIといった将来の6Gネットワークを実現する重要な技術には、マルチエージェント学習技術の重要性を動機付ける複数のエージェントが含まれる。 さらに、自己組織化、自己維持、分散ネットワークの確立には協力が中心である。 このチュートリアルでは,ai対応6gネットワークのためのマルチエージェント強化学習(marl)を重視したdrlの役割に焦点を当てている。 本論文の第一部では,シングルエージェントrlとmarlの数学的枠組みについて概説する。 この研究の主な目的は、近年広く採用されているモデルフリーの視点を超えて、RLの適用を動機付けることである。 そこで我々は,モデルベースRL (MBRL) や協調型MARLなどのRLアルゴリズムを選択的に記述し,その可能性を6G無線ネットワークで強調する。 最後に,モバイルエッジコンピューティング (MEC) や無人航空機 (UAV) ネットワーク,セルフリーの大規模MIMOなどの分野におけるMARLの現状を概説し,将来的な研究方向性を明らかにする。 このチュートリアルは、MARLに基づいたスケーラブルで分散化されたシステムを構築するために、より多くの研究努力を刺激することを期待している。

Deep Reinforcement Learning (DRL) has recently witnessed significant advances that have led to multiple successes in solving sequential decision-making problems in various domains, particularly in wireless communications. The future sixth-generation (6G) networks are expected to provide scalable, low-latency, ultra-reliable services empowered by the application of data-driven Artificial Intelligence (AI). The key enabling technologies of future 6G networks, such as intelligent meta-surfaces, aerial networks, and AI at the edge, involve more than one agent which motivates the importance of multi-agent learning techniques. Furthermore, cooperation is central to establishing self-organizing, self-sustaining, and decentralized networks. In this context, this tutorial focuses on the role of DRL with an emphasis on deep Multi-Agent Reinforcement Learning (MARL) for AI-enabled 6G networks. The first part of this paper will present a clear overview of the mathematical frameworks for single-agent RL and MARL. The main idea of this work is to motivate the application of RL beyond the model-free perspective which was extensively adopted in recent years. Thus, we provide a selective description of RL algorithms such as Model-Based RL (MBRL) and cooperative MARL and we highlight their potential applications in 6G wireless networks. Finally, we overview the state-of-the-art of MARL in fields such as Mobile Edge Computing (MEC), Unmanned Aerial Vehicles (UAV) networks, and cell-free massive MIMO, and identify promising future research directions. We expect this tutorial to stimulate more research endeavors to build scalable and decentralized systems based on MARL.
翻訳日:2022-09-29 05:44:23 公開日:2020-11-06
# マルウェア分類器の実用化事例に関する調査研究

A survey on practical adversarial examples for malware classifiers ( http://arxiv.org/abs/2011.05973v1 )

ライセンス: Link先を確認
Daniel Park and B\"ulent Yener(参考訳) 機械学習ベースのソリューションは、マルウェアの検出や分類など、大量のデータを扱う問題の解決に非常に役立っている。 しかし、ディープニューラルネットワークは、悪意のある例や故意に摂動された入力に対して脆弱であることが判明し、誤ったラベルが生成される。 研究者たちは、この脆弱性を悪用して、回避可能なマルウェアサンプルを作成できることを示した。 しかし、多くの攻撃は実行可能ファイルを生成しず、代わりに特徴ベクトルを生成する。 マルウェア検出における敵例の影響を解明するために,実行可能マルウェア例を生成するマルウェア分類器に対する実践的な攻撃について検討する。 また、この領域における現在の課題と、改善と今後の研究方向性の提案についても論じる。

Machine learning based solutions have been very helpful in solving problems that deal with immense amounts of data, such as malware detection and classification. However, deep neural networks have been found to be vulnerable to adversarial examples, or inputs that have been purposefully perturbed to result in an incorrect label. Researchers have shown that this vulnerability can be exploited to create evasive malware samples. However, many proposed attacks do not generate an executable and instead generate a feature vector. To fully understand the impact of adversarial examples on malware detection, we review practical attacks against malware classifiers that generate executable adversarial malware examples. We also discuss current challenges in this area of research, as well as suggestions for improvement and future research directions.
翻訳日:2022-09-29 05:43:36 公開日:2020-11-06
# 大規模多言語音声ダビング

Large-scale multilingual audio visual dubbing ( http://arxiv.org/abs/2011.03530v1 )

ライセンス: Link先を確認
Yi Yang, Brendan Shillingford, Yannis Assael, Miaosen Wang, Wendi Liu, Yutian Chen, Yu Zhang, Eren Sezener, Luis C. Cobo, Misha Denil, Yusuf Aytar, Nando de Freitas(参考訳) 本稿では,映像を言語から別の言語へ翻訳する大規模音声視覚翻訳システムについて述べる。 ソース言語の音声内容はテキストに書き起こされ、翻訳され、元の話者の声を用いてターゲット言語音声に自動的に合成される。 視覚コンテンツは、翻訳された音声にマッチする話者の唇の動きを合成し、ターゲット言語でシームレスなオーディオビジュアル体験を作成することで翻訳される。 音声および視覚翻訳サブシステムは、対応する領域における数千時間のデータに基づいて訓練された大規模な汎用合成モデルを含む。 これらのジェネリックモデルは、翻訳前に特定の話者に微調整され、対象話者からのデータの補助的なコーパスを使用するか、動画を微調整プロセスへの入力として使用する。 本報告では,システム全体のアーキテクチャ概要とビデオダビングコンポーネントの詳細な議論について述べる。 システム全体に関する音声とテキストのコンポーネントの役割を概説するが、その設計は詳細には議論されていない。 私たちのシステムで生成されたデモビデオはhttps://www.youtube.com/playlistで閲覧できますか? list=PLSi232j2ZA6_1Exhof5vndzyfbxAhEs5

We describe a system for large-scale audiovisual translation and dubbing, which translates videos from one language to another. The source language's speech content is transcribed to text, translated, and automatically synthesized into target language speech using the original speaker's voice. The visual content is translated by synthesizing lip movements for the speaker to match the translated audio, creating a seamless audiovisual experience in the target language. The audio and visual translation subsystems each contain a large-scale generic synthesis model trained on thousands of hours of data in the corresponding domain. These generic models are fine-tuned to a specific speaker before translation, either using an auxiliary corpus of data from the target speaker, or using the video to be translated itself as the input to the fine-tuning process. This report gives an architectural overview of the full system, as well as an in-depth discussion of the video dubbing component. The role of the audio and text components in relation to the full system is outlined, but their design is not discussed in detail. Translated and dubbed demo videos generated using our system can be viewed at https://www.youtube.com/playlist?list=PLSi232j2ZA6_1Exhof5vndzyfbxAhhEs5
翻訳日:2022-09-29 05:42:59 公開日:2020-11-06
# 四元数特異値分解と係数対選択に基づく効率的なロバスト透かし

Efficient Robust Watermarking Based on Quaternion Singular Value Decomposition and Coefficient Pair Selection ( http://arxiv.org/abs/2011.03631v1 )

ライセンス: Link先を確認
Yong Chen, Zhi-Gang Jia, Ya-Xin Peng, Yan Peng(参考訳) 第四次特異値分解(QSVD)は、歪みの少ない透かし画像から高品質な透かしを抽出できるデジタル透かしの堅牢な技術である。 本稿では,QSVD法をさらに研究し,効率的なロバストな透かし手法を提案する。 従来のqsvd設計で発生した「複雑性の爆発」問題に対処するため,改良した代数構造保存法を提案する。 qsvdに2つの新しい戦略、すなわち係数対選択と適応埋め込みを組み込んで秘密情報を盲目的に送信する。 一つの想像単位に透かしを埋め込む従来のQSVDとは異なり、正規化クロスコリレーション(NC)法を用いて、透かしを最適な隠れ位置に適応的に埋め込む方法を提案する。 これにより相関の少ない係数対の選択が避けられ、係数値の最大修正を減らして埋め込みの影響を低減することができる。 このように、従来のqsvdと比較して、提案する透かし戦略は、単一のカラー画像層に対するより多くの修正を回避し、透かし画像の視覚的品質をより良く観察する。 一方、適応型qsvdは幾何攻撃に抵抗し、従来のqsvdのロバスト性を向上させる。 これらの改善により、従来のQSVDよりも優れる。 他の最先端手法よりも優れていることも実験的に実証されている。

Quaternion singular value decomposition (QSVD) is a robust technique of digital watermarking which can extract high quality watermarks from watermarked images with low distortion. In this paper, QSVD technique is further investigated and an efficient robust watermarking scheme is proposed. The improved algebraic structure-preserving method is proposed to handle the problem of "explosion of complexity" occurred in the conventional QSVD design. Secret information is transmitted blindly by incorporating in QSVD two new strategies, namely, coefficient pair selection and adaptive embedding. Unlike conventional QSVD which embeds watermarks in a single imaginary unit, we propose to adaptively embed the watermark into the optimal hiding position using the Normalized Cross-Correlation (NC) method. This avoids the selection of coefficient pair with less correlation, and thus, it reduces embedding impact by decreasing the maximum modification of coefficient values. In this way, compared with conventional QSVD, the proposed watermarking strategy avoids more modifications to a single color image layer and a better visual quality of the watermarked image is observed. Meanwhile, adaptive QSVD resists some common geometric attacks, and it improves the robustness of conventional QSVD. With these improvements, our method outperforms conventional QSVD. Its superiority over other state-of-the-art methods is also demonstrated experimentally.
翻訳日:2022-09-29 05:42:41 公開日:2020-11-06
# 不均一グラフニューラルネットワークを用いたセルラーシステムの学習電力制御

Learning Power Control for Cellular Systems with Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2011.03164v1 )

ライセンス: Link先を確認
Jia Guo and Chenyang Yang(参考訳) 深層学習を用いたマルチセルセルネットワークにおける電力制御の最適化により、このような非凸問題をリアルタイムに実装することができる。 チャネルが時間を要する場合、ディープニューラルネットワーク(dnn)を頻繁に再トレーニングする必要があるため、トレーニングの複雑さが低下する。 優れたパフォーマンスを達成するのに必要なトレーニングサンプルの数とDNNのサイズを減らすために、期待できるアプローチは、DNNを事前知識で埋め込むことである。 セルネットワークはグラフとしてモデル化できるため、学習にグラフニューラルネットワーク(GNN)を用いるのは自然であり、置換不変性(PI)と等価性(PE)特性を示す。 出力が頂点の任意の置換に不変あるいは同値である無線問題に使用される均質なgnnとは異なり、セルネットワークのモデル化により適する異種gnn(hetgnn)は、一部の置換にのみ不変または同値である。 HetGNNのPIまたはPE特性が学習するタスクの特性と一致しない場合、性能は劇的に低下する。 本稿では,電力制御ポリシに異なるPI特性とPE特性が組み合わさっており,既存のHetGNNはこれらの特性を満足していないことを示す。 次に,学習関係が所望の特性を満たすように,hetgnnのパラメータ共有スキームを設計する。 シミュレーションの結果,マルチユーザマルチセルネットワークにおける最適電力制御ポリシーを学習するための設計したGNNの複雑さとサイズは,数値的に得られた解から同じ総和率の損失を達成する際に,既存のDNNよりもはるかに低いことがわかった。

Optimizing power control in multi-cell cellular networks with deep learning enables such a non-convex problem to be implemented in real-time. When channels are time-varying, the deep neural networks (DNNs) need to be re-trained frequently, which calls for low training complexity. To reduce the number of training samples and the size of DNN required to achieve good performance, a promising approach is to embed the DNNs with priori knowledge. Since cellular networks can be modelled as a graph, it is natural to employ graph neural networks (GNNs) for learning, which exhibit permutation invariance (PI) and equivalence (PE) properties. Unlike the homogeneous GNNs that have been used for wireless problems, whose outputs are invariant or equivalent to arbitrary permutations of vertexes, heterogeneous GNNs (HetGNNs), which are more appropriate to model cellular networks, are only invariant or equivalent to some permutations. If the PI or PE properties of the HetGNN do not match the property of the task to be learned, the performance degrades dramatically. In this paper, we show that the power control policy has a combination of different PI and PE properties, and existing HetGNN does not satisfy these properties. We then design a parameter sharing scheme for HetGNN such that the learned relationship satisfies the desired properties. Simulation results show that the sample complexity and the size of designed GNN for learning the optimal power control policy in multi-user multi-cell networks are much lower than the existing DNNs, when achieving the same sum rate loss from the numerically obtained solutions.
翻訳日:2022-09-29 05:42:16 公開日:2020-11-06
# 効率的なセマンティックな位置埋め込みを活用して自転車共有サービスの新たなポートを探る

Leveraging an Efficient and Semantic Location Embedding to Seek New Ports of Bike Share Services ( http://arxiv.org/abs/2011.03158v1 )

ライセンス: Link先を確認
Yuan Wang, Chenwei Wang, Yinan Ling, Keita Yokoyama, Hsin-Tai Wu, Yi Fang(参考訳) 混雑した都市部を短距離移動するために、柔軟性と利便性から自転車シェアリングサービスが普及している。 サービスカバレッジを拡張するために、重要なタスクのひとつは、既存のサービスポートの基盤となる機能を十分に理解する必要がある新しいサービスポートを探すことです。 本稿では,位置情報の地理空間的情報と意味的情報の両方を包含する,効率的な意味的位置埋め込み(esle)という新しいモデルを提案する。 ESLEを生成するために,我々はまず,静的な地図タイル画像から位置埋め込みベクトルを抽出することにより,深層畳み込みニューラルネットワーク(CNN)を用いたマルチラベルモデルを訓練する。 最近の文献と比較すると、ESLEは計算コストがそれほど安くないだけでなく、体系的な意味解析によって解釈しやすくなっている。 最後に,日本におけるNTT DOCOMOの自転車シェアリングサービスのための新しいサービスポートを探すためにESLEを適用した。 最初の結果はESLEの有効性を示し、従来の手法を用いることで発見が難しいいくつかの洞察を提供する。

For short distance traveling in crowded urban areas, bike share services are becoming popular owing to the flexibility and convenience. To expand the service coverage, one of the key tasks is to seek new service ports, which requires to well understand the underlying features of the existing service ports. In this paper, we propose a new model, named for Efficient and Semantic Location Embedding (ESLE), which carries both geospatial and semantic information of the geo-locations. To generate ESLE, we first train a multi-label model with a deep Convolutional Neural Network (CNN) by feeding the static map-tile images and then extract location embedding vectors from the model. Compared to most recent relevant literature, ESLE is not only much cheaper in computation, but also easier to interpret via a systematic semantic analysis. Finally, we apply ESLE to seek new service ports for NTT DOCOMO's bike share services operated in Japan. The initial results demonstrate the effectiveness of ESLE, and provide a few insights that might be difficult to discover by using the conventional approaches.
翻訳日:2022-09-29 05:37:04 公開日:2020-11-06
# 混合伝送線路における機械学習手法による故障位置推定

Fault Location Estimation by Using Machine Learning Methods in Mixed Transmission Lines ( http://arxiv.org/abs/2011.03238v1 )

ライセンス: Link先を確認
Serkan Budak, Bahadir Akbal(参考訳) オーバーヘッド線は一般的に電気エネルギー伝送に使われる。 また、XLPE地下ケーブル線は市中心部や混雑した地域では電気安全のため一般的に利用されており、高電圧地下ケーブル線と送電線の架空線が併用されており、これらを混合線と呼ぶ。 距離保護リレーを用いて、送電線内の電流及び電圧の大きさに応じてインピーダンスベースの故障位置を決定する。 しかし、高電圧ケーブル線の特性インピーダンスがオーバーヘッド線と大きく異なるため、ユニット長毎に特性インピーダンスが異なるため、混合伝送線では故障位置を正しく検出できない。 したがって、混合伝送路では、故障区間と距離保護リレーによる位置の決定が困難である。 本研究では, 距離保護リレー用混合送電線として, 154kVの送電線と地下ケーブル線を検討した。 混合送電線において位相-地中断層が生成され、PSCADを用いて架線部と地下ケーブル部がシミュレーションされる。 頭上送電線と地下ケーブル送電線との距離保護中継において、短絡断層画像を生成する。 画像は断層のRXインピーダンス図を含み、RXインピーダンス図は画像処理ステップを適用して検出されている。 回帰法は断層位置の予測に使われ、画像処理の結果は回帰法のトレーニングプロセスの入力パラメータとして使用される。 本研究の最後に, 送電線における故障箇所の予測に最も適した方法を選択するために, 回帰法を比較検討した。

Overhead lines are generally used for electrical energy transmission. Also, XLPE underground cable lines are generally used in the city center and the crowded areas to provide electrical safety, so high voltage underground cable lines are used together with overhead line in the transmission lines, and these lines are called as the mixed lines. The distance protection relays are used to determine the impedance based fault location according to the current and voltage magnitudes in the transmission lines. However, the fault location cannot be correctly detected in mixed transmission lines due to different characteristic impedance per unit length because the characteristic impedance of high voltage cable line is significantly different from overhead line. Thus, determinations of the fault section and location with the distance protection relays are difficult in the mixed transmission lines. In this study, 154 kV overhead transmission line and underground cable line are examined as the mixed transmission line for the distance protection relays. Phase to ground faults are created in the mixed transmission line, and overhead line section and underground cable section are simulated by using PSCAD. The short circuit fault images are generated in the distance protection relay for the overhead transmission line and underground cable transmission line faults. The images include the RX impedance diagram of the fault, and the RX impedance diagram have been detected by applying image processing steps. The regression methods are used for prediction of the fault location, and the results of image processing are used as the input parameters for the training process of the regression methods. The results of regression methods are compared to select the most suitable method at the end of this study for forecasting of the fault location in transmission lines.
翻訳日:2022-09-29 05:35:35 公開日:2020-11-06
# ASFGNN: 自動分離型グラフニューラルネットワーク

ASFGNN: Automated Separated-Federated Graph Neural Network ( http://arxiv.org/abs/2011.03248v1 )

ライセンス: Link先を確認
Longfei Zheng, Jun Zhou, Chaochao Chen, Bingzhe Wu, Li Wang, Benyu Zhang(参考訳) グラフニューラルネットワーク(GNN)は,グラフデータを活用することで,優れたパフォーマンスを実現している。 GNNモデルの成功は、常にリッチな特徴と隣接した関係に依存する。 しかしながら、実際には、そのようなデータは、通常、異なるデータ所有者(クライアント)によって分離されるため、非独立かつ独立に分散(Non-IID)される可能性が高い。 一方、データ所有者のネットワーク状態の制限を考えると、協調学習アプローチのハイパーパラメータ最適化は、データ分離シナリオにおいて時間がかかります。 そこで本稿では,ASFGNN(Automated Separated-Federated Graph Neural Network)学習パラダイムを提案する。 ASFGNNは2つの主要コンポーネント、すなわちGNNのトレーニングとハイパーパラメータのチューニングで構成される。 具体的には、まず、GNNのトレーニングをクライアントが別々に行うメッセージパッシング部と、クライアントが連邦的に学習する損失計算部とに分離したGNN学習モデルを提案する。 時間を要するパラメータチューニング問題に対処するため,ベイズ最適化手法を用いて全クライアントのハイパーパラメータを自動的に調整する。 我々は,ベンチマークデータセットの実験を行い,ASFGNNは,精度とパラメータ調整効率の両方の観点から,有意なフェデレーションGNNよりも優れていることを示した。

Graph Neural Networks (GNNs) have achieved remarkable performance by taking advantage of graph data. The success of GNN models always depends on rich features and adjacent relationships. However, in practice, such data are usually isolated by different data owners (clients) and thus are likely to be Non-Independent and Identically Distributed (Non-IID). Meanwhile, considering the limited network status of data owners, hyper-parameters optimization for collaborative learning approaches is time-consuming in data isolation scenarios. To address these problems, we propose an Automated Separated-Federated Graph Neural Network (ASFGNN) learning paradigm. ASFGNN consists of two main components, i.e., the training of GNN and the tuning of hyper-parameters. Specifically, to solve the data Non-IID problem, we first propose a separated-federated GNN learning model, which decouples the training of GNN into two parts: the message passing part that is done by clients separately, and the loss computing part that is learnt by clients federally. To handle the time-consuming parameter tuning problem, we leverage Bayesian optimization technique to automatically tune the hyper-parameters of all the clients. We conduct experiments on benchmark datasets and the results demonstrate that ASFGNN significantly outperforms the naive federated GNN, in terms of both accuracy and parameter-tuning efficiency.
翻訳日:2022-09-29 05:35:12 公開日:2020-11-06
# 非指向ネットワーク上の通信効率の良い分散ローカルSGD

Communication-efficient Decentralized Local SGD over Undirected Networks ( http://arxiv.org/abs/2011.03255v1 )

ライセンス: Link先を確認
Tiancheng Qin, S. Rasoul Etesami, C\'esar A. Uribe(参考訳) 我々は、$n$エージェントのネットワークがグローバル関数$F$を最小化しようとする分散学習問題を考察する。 エージェントはノイズの勾配を通じて$f$にアクセスでき、近隣のネットワークとローカルに通信することができる。 本稿では、エージェントが複数の局所勾配ステップを実行し、時には隣人と情報交換を行う分散ローカルSDG法について検討する。 従来のアルゴリズム分析の取り組みは、リーダーノードが全てのエージェントの情報を集める特定のネットワークトポロジー(スタートポロジー)に焦点を当ててきた。 通信ラウンド数と各エージェントの計算労力のトレードオフを分析することにより、任意のネットワークに設定を一般化する。 我々は、反復数$T$、労働者数$n$、基礎となるネットワークのスペクトルギャップという観点から、期待される最適性ギャップを定めている。 我々の主な結果は、$R=\Omega(n)$通信ラウンドのみを使用することで、$O({1}/{nT})$にスケールするエラーを実現できることを示している。 最後に,実データおよび合成データを用いた実験により,理論結果の数値的証明を行う。

We consider the distributed learning problem where a network of $n$ agents seeks to minimize a global function $F$. Agents have access to $F$ through noisy gradients, and they can locally communicate with their neighbors a network. We study the Decentralized Local SDG method, where agents perform a number of local gradient steps and occasionally exchange information with their neighbors. Previous algorithmic analysis efforts have focused on the specific network topology (star topology) where a leader node aggregates all agents' information. We generalize that setting to an arbitrary network by analyzing the trade-off between the number of communication rounds and the computational effort of each agent. We bound the expected optimality gap in terms of the number of iterates $T$, the number of workers $n$, and the spectral gap of the underlying network. Our main results show that by using only $R=\Omega(n)$ communication rounds, one can achieve an error that scales as $O({1}/{nT})$, where the number of communication rounds is independent of $T$ and only depends on the number of agents. Finally, we provide numerical evidence of our theoretical results through experiments on real and synthetic data.
翻訳日:2022-09-29 05:34:50 公開日:2020-11-06
# 最適多変量決定木学習のためのスケーラブルMIP法

A Scalable MIP-based Method for Learning Optimal Multivariate Decision Trees ( http://arxiv.org/abs/2011.03375v1 )

ライセンス: Link先を確認
Haoran Zhu, Pavankumar Murali, Dzung T. Phan, Lam M. Nguyen, Jayant R. Kalagnanam(参考訳) 最近のいくつかの出版物は、整数プログラミングにおけるアルゴリズムの進歩と、CARTのようなヒューリスティックなアプローチの本質的な準最適性への関心の高まりにより、混合整数プログラム(MIP)を用いた最適決定木(ODT)の訓練の進歩を報告している。 本稿では, 1-norm サポートベクトルマシンモデルに基づく新しい MIP 定式化を提案し, 分類問題に対する多変量 ODT の訓練を行う。 我々は, MIP定式化の線形緩和を緩和する切削面技術を提供し, 実行時間の改善と最適性を実現する。 カリフォルニア大学のIrvine Machine Learning Repositoryから得られた36のデータセットを用いて、私たちの定式化が、データセット全体の平均アウトオブサンプルテスト精度において、文学におけるその成果を約10%上回っていることを実証した。 我々は,新たな線形プログラミング(LP)に基づくデータ選択手法を導入して,大規模データセット上で多変量 ODT を訓練するためのスケーラブルなフレームワークを提供する。 提案手法は,7000点以上のサンプル点を持つ大規模データ集合を日常的に処理し,ヒューリスティックス法や他のMIPベースの手法より優れる。 我々は,最大245,000のサンプルを含むデータセットについて結果を示す。 既存のMIPベースの手法は、5500以上のサンプルのトレーニングデータセットではうまくスケールしない。

Several recent publications report advances in training optimal decision trees (ODT) using mixed-integer programs (MIP), due to algorithmic advances in integer programming and a growing interest in addressing the inherent suboptimality of heuristic approaches such as CART. In this paper, we propose a novel MIP formulation, based on a 1-norm support vector machine model, to train a multivariate ODT for classification problems. We provide cutting plane techniques that tighten the linear relaxation of the MIP formulation, in order to improve run times to reach optimality. Using 36 data-sets from the University of California Irvine Machine Learning Repository, we demonstrate that our formulation outperforms its counterparts in the literature by an average of about 10% in terms of mean out-of-sample testing accuracy across the data-sets. We provide a scalable framework to train multivariate ODT on large data-sets by introducing a novel linear programming (LP) based data selection method to choose a subset of the data for training. Our method is able to routinely handle large data-sets with more than 7,000 sample points and outperform heuristics methods and other MIP based techniques. We present results on data-sets containing up to 245,000 samples. Existing MIP-based methods do not scale well on training data-sets beyond 5,500 samples.
翻訳日:2022-09-29 05:33:43 公開日:2020-11-06
# 共同時間周波数データ表現を用いた深層学習に基づく牛の行動分類

Deep Learning-based Cattle Activity Classification Using Joint Time-frequency Data Representation ( http://arxiv.org/abs/2011.03381v1 )

ライセンス: Link先を確認
Seyedeh Faezeh Hosseini Noorbin, Siamak Layeghy, Brano Kusy, Raja Jurdak, Greg Bishop-hurley, Marius Portmann(参考訳) 家畜の自動行動分類は、家畜の健康と幸福を継続的に監視し、その結果、牛肉と乳製品の品質と量を増加させる。 本稿では,シーケンシャルなディープニューラルネットワークを用いて行動モデルを開発し,牛の行動と行動の分類を行う。 本稿では,ニューラルネットワーク分類器の入力として提供されるセンサデータの同時時間周波数領域表現の探索に焦点をあてる。 私たちの調査は、3軸加速度計、磁力計、ジャイロスコープを備えたセンサーから収集された300万以上のサンプルからなる現実世界のデータセットに基づいています。 本稿では, 比較的基本的なニューラルネットワーク分類器と併用しても, 同時時間-周波数データ表現は, 文献で報告されている最高のウシ行動分類器を上回ることができることを示す。 より体系的なニューラルネットワーク分類器アーキテクチャとハイパーパラメータの探索により、さらなる改善の可能性がある。 最後に, 時間周波数領域データ表現により, モデルサイズと計算複雑性の大幅な削減と, 分類精度のごく小さな削減が効果的に実現できることを実証する。 これは、リソース制約のある組み込みデバイスとIoTデバイスで実行する、私たちの分類アプローチの可能性を示しています。

Automated cattle activity classification allows herders to continuously monitor the health and well-being of livestock, resulting in increased quality and quantity of beef and dairy products. In this paper, a sequential deep neural network is used to develop a behavioural model and to classify cattle behaviour and activities. The key focus of this paper is the exploration of a joint time-frequency domain representation of the sensor data, which is provided as the input to the neural network classifier. Our exploration is based on a real-world data set with over 3 million samples, collected from sensors with a tri-axial accelerometer, magnetometer and gyroscope, attached to collar tags of 10 dairy cows and collected over a one month period. The key results of this paper is that the joint time-frequency data representation, even when used in conjunction with a relatively basic neural network classifier, can outperform the best cattle activity classifiers reported in the literature. With a more systematic exploration of neural network classifier architectures and hyper-parameters, there is potential for even further improvements. Finally, we demonstrate that the time-frequency domain data representation allows us to efficiently trade-off a large reduction of model size and computational complexity for a very minor reduction in classification accuracy. This shows the potential for our classification approach to run on resource-constrained embedded and IoT devices.
翻訳日:2022-09-29 05:33:17 公開日:2020-11-06
# 多次元画像復調手法の総合的比較

A Comprehensive Comparison of Multi-Dimensional Image Denoising Methods ( http://arxiv.org/abs/2011.03462v1 )

ライセンス: Link先を確認
Zhaoming Kong, Xiaowei Yang and Lifang He(参考訳) カラー画像,カラービデオ,マルチスペクトル画像,磁気共鳴画像などの多次元画像のフィルタリングは,有効性と効率の両面で困難である。 画像の非局所的自己相似性(nlss)特性と変換領域におけるスパース表現の活用により,ブロックマッチングと3次元フィルタリング(bm3d)に基づく手法は,高い分別性能を示す。 近年,様々な正規化項,変換,高度なディープニューラルネットワーク(DNN)アーキテクチャを持つ多くの新しいアプローチが提案されている。 本稿では,合成データセットと実世界のデータセットを60以上の手法で比較する。 また,ベンチマークのための新しいカラー画像と映像データセットを導入し,定量的指標,視覚効果,人格評価,計算コストの4つの視点から評価を行った。 包括的な実験は (i)様々なタスクにおけるbm3dファミリーの有効性と効率について (ii)単純な行列ベースのアルゴリズムは、テンソルと同じような結果が得られる。 3)合成ガウス雑音で訓練したDNNモデルは,実世界のカラー画像とビデオデータセット上で最先端の性能を示す。 近年の進歩にもかかわらず、既存の技術の欠点と拡張の可能性について論じる。 データセットと評価のためのコードはhttps://github.com/ZhaomingKong/Denoising-Comparison.comで公開されている。

Filtering multi-dimensional images such as color images, color videos, multispectral images and magnetic resonance images is challenging in terms of both effectiveness and efficiency. Leveraging the nonlocal self-similarity (NLSS) characteristic of images and sparse representation in the transform domain, the block-matching and 3D filtering (BM3D) based methods show powerful denoising performance. Recently, numerous new approaches with different regularization terms, transforms and advanced deep neural network (DNN) architectures are proposed to improve denoising quality. In this paper, we extensively compare over 60 methods on both synthetic and real-world datasets. We also introduce a new color image and video dataset for benchmarking, and our evaluations are performed from four different perspectives including quantitative metrics, visual effects, human ratings and computational cost. Comprehensive experiments demonstrate: (i) the effectiveness and efficiency of the BM3D family for various denoising tasks, (ii) a simple matrix-based algorithm could produce similar results compared with its tensor counterparts, and (iii) several DNN models trained with synthetic Gaussian noise show state-of-the-art performance on real-world color image and video datasets. Despite the progress in recent years, we discuss shortcomings and possible extensions of existing techniques. Datasets and codes for evaluation are made publicly available at https://github.com/ZhaomingKong/Denoising-Comparison.
翻訳日:2022-09-29 05:27:15 公開日:2020-11-06
# Unmasking Communication Partners:VRベースのテレプレゼンスでヘッドマウントディスプレイをデジタル除去する低コストAIソリューション

Unmasking Communication Partners: A Low-Cost AI Solution for Digitally Removing Head-Mounted Displays in VR-Based Telepresence ( http://arxiv.org/abs/2011.03630v1 )

ライセンス: Link先を確認
Philipp Ladwig, Alexander Pech, Ralf D\"orner and Christian Geiger(参考訳) バーチャルリアリティ(VR)における対面会話は、参加者がヘッドマウントディスプレイ(HMD)を装着する際の課題である。 参加者の顔のかなりの部分が隠れており、表情を知覚することが困難である。 過去の研究では、高コストハードウェアを用いた実験条件下では、VRのパーソナルアバターによる高忠実な顔再構成が可能であることが示されている。 本稿では,オープンソースのフリーソフトウェアと安価なハードウェアのみを用いた,このタスクのための最初の低コストシステムを提案する。 提案手法は,HMDの下のユーザの顔をCNN(Convolutional Neural Network)を用いて追跡し,GAN(Generative Adversarial Networks)と対応する表現を生成し,人の顔のRGBD画像を生成する。 3dプリントのマウントやミニチュアカメラなど、安価な拡張機能を備えたコモディティハードウェアを使用する。 本手法は,手作業による介入なしにエンドツーエンドで学習し,リアルタイムに実行し,通常のゲームコンピュータ上でトレーニングおよび実行することができる。 本研究の低コストシステムは,ハイエンドハードウェアとクローズドソースソフトウェアを用いた研究プロトタイプと同様の忠実さを達成できないが,動作や表情に特有の特徴を持つ個別の顔アバターを作成できることを示す評価結果が報告された。

Face-to-face conversation in Virtual Reality (VR) is a challenge when participants wear head-mounted displays (HMD). A significant portion of a participant's face is hidden and facial expressions are difficult to perceive. Past research has shown that high-fidelity face reconstruction with personal avatars in VR is possible under laboratory conditions with high-cost hardware. In this paper, we propose one of the first low-cost systems for this task which uses only open source, free software and affordable hardware. Our approach is to track the user's face underneath the HMD utilizing a Convolutional Neural Network (CNN) and generate corresponding expressions with Generative Adversarial Networks (GAN) for producing RGBD images of the person's face. We use commodity hardware with low-cost extensions such as 3D-printed mounts and miniature cameras. Our approach learns end-to-end without manual intervention, runs in real time, and can be trained and executed on an ordinary gaming computer. We report evaluation results showing that our low-cost system does not achieve the same fidelity of research prototypes using high-end hardware and closed source software, but it is capable of creating individual facial avatars with person-specific characteristics in movements and expressions.
翻訳日:2022-09-29 05:26:09 公開日:2020-11-06
# 自動運転車の動作予測 : レビュー

Motion Prediction on Self-driving Cars: A Review ( http://arxiv.org/abs/2011.03635v1 )

ライセンス: Link先を確認
Shahrokh Paravarzar and Belqes Mohammad(参考訳) 自動運転車の動き予測文献をレビューする。 自律走行車や自動運転車では、動きの予測がもっとも難しい課題である。 これらの課題が議論されている。 その後、最新の文献と現在の課題に基づいて、最先端の心が再検討される。 最先端技術は古典的および物理的手法、深層学習ネットワーク、強化学習で構成されている。 このレビューで示された研究の方法とギャップの プロンとコンスです 最後に,物体追跡と運動に関する文献を紹介する。 その結果、深層強化学習は自動運転車に取り組むのに最適な候補である。

The autonomous vehicle motion prediction literature is reviewed. Motion prediction is the most challenging task in autonomous vehicles and self-drive cars. These challenges have been discussed. Later on, the state-of-theart has reviewed based on the most recent literature and the current challenges are discussed. The state-of-the-art consists of classical and physical methods, deep learning networks, and reinforcement learning. prons and cons of the methods and gap of the research presented in this review. Finally, the literature surrounding object tracking and motion will be presented. As a result, deep reinforcement learning is the best candidate to tackle self-driving cars.
翻訳日:2022-09-29 05:25:47 公開日:2020-11-06
# アルツハイマー病における神経変性の定量的評価に向けて

Towards a quantitative assessment of neurodegeneration in Alzheimer's disease ( http://arxiv.org/abs/2011.04465v1 )

ライセンス: Link先を確認
Oleg Michailovich and Rinat Mukhometzianov(参考訳) アルツハイマー病(英: alzheimer's disease、ad)は、脳の記憶やその他の認知領域を徐々に破壊する不可逆性神経変性疾患である。 adの効果的な治療管理はまだ開発中であるが、その将来的な成果が基礎疾患の重症度に依存すると期待するのは妥当であると思われる。 このため、早期にADの非侵襲的診断の有効な方法の開発にかなりの研究努力が注がれている。 同じ目的を追求するために,拡散磁気共鳴画像(dMRI)を用いてADの定量的診断の問題に対処する。 特に,神経変性の空間的範囲を視覚的に表現する手段として有用な診断スコアの提供に加えて,病理画像コントラスト(PSIC)の概念を紹介した。 PSICの値は専用ディープニューラルネットワーク(DNN)によって計算され、特にdMRI信号の処理に適応している。 利用可能になると、そのような値は、研究対象の階層化を含むいくつかの重要な目的に使用できる。 特に、dnnに基づく分類実験は、認知正常(cn)とad被験者の階層化に関する基本的な問題への応用において、幅広い代替アプローチを上回ることができる。 予備的性質にもかかわらず,本論文は探索的方法論のさらなる拡張と改善のための強い理論的根拠を示唆する。

Alzheimer's disease (AD) is an irreversible neurodegenerative disorder that progressively destroys memory and other cognitive domains of the brain. While effective therapeutic management of AD is still in development, it seems reasonable to expect their prospective outcomes to depend on the severity of baseline pathology. For this reason, substantial research efforts have been invested in the development of effective means of non-invasive diagnosis of AD at its earliest possible stages. In pursuit of the same objective, the present paper addresses the problem of the quantitative diagnosis of AD by means of Diffusion Magnetic Resonance Imaging (dMRI). In particular, the paper introduces the notion of a pathology specific imaging contrast (PSIC), which, in addition to supplying a valuable diagnostic score, can serve as a means of visual representation of the spatial extent of neurodegeneration. The values of PSIC are computed by a dedicated deep neural network (DNN), which has been specially adapted to the processing of dMRI signals. Once available, such values can be used for several important purposes, including stratification of study subjects. In particular, experiments confirm the DNN-based classification can outperform a wide range of alternative approaches in application to the basic problem of stratification of cognitively normal (CN) and AD subjects. Notwithstanding its preliminary nature, this result suggests a strong rationale for further extension and improvement of the explorative methodology described in this paper.
翻訳日:2022-09-29 05:25:41 公開日:2020-11-06
# 新型コロナウイルスのパンデミックで特別なケアを予測する: 機械学習のアプローチ

Predicting special care during the COVID-19 pandemic: A machine learning approach ( http://arxiv.org/abs/2011.03143v1 )

ライセンス: Link先を確認
Vitor Bezzan and Cleber D. Rocco(参考訳) 特にブラジルでは、新型コロナウイルス(COVID-19)が世界中の医療システムに圧力をかけている。 本研究では,患者からの検査データを用いて,患者が特別なケアを必要としているかどうかを予測し,統計と機械学習に基づく分析的アプローチを提案する。 また、患者がそのようなケアを受ける日数も予測する。 提案手法はベイズ最適化(Bayesian Optimisation)を用いて,複数の候補の中から最適なモデルを選択することで,第1ターゲットのROC曲線性能の0.94領域,第2ターゲットの1.87ルート平均二乗誤差(平均ベースラインの77%の改善)を達成し,本モデルが関心のあるすべての人が利用できる決定システムとしてデプロイ可能なようにした。 分析的アプローチは、他の疾患で使用することができ、病院の容量を計画するのに役立つ。

More than ever COVID-19 is putting pressure on health systems all around the world, especially in Brazil. In this study we propose an analytical approach based on statistics and machine learning that uses lab exam data coming from patients to predict whether patients are going to require special care (hospitalisation in regular or special-care units). We also predict the number of days the patients will stay under such care. The two-step procedure developed uses Bayesian Optimisation to select the best model among several candidates leads us to final models that achieve 0.94 area under ROC curve performance for the first target and 1.87 root mean squared error for the second target (which is a 77% improvement over the mean baseline), making our model ready to be deployed as a decision system that could be available for everyone interested. The analytical approach can be used in other diseases and can help the planning hospital capacity.
翻訳日:2022-09-29 05:24:42 公開日:2020-11-06
# 制約による組合せフィルタの高速化

Accelerating combinatorial filter reduction through constraints ( http://arxiv.org/abs/2011.03471v1 )

ライセンス: Link先を確認
Yulin Zhang, Hazhar Rahmani, Dylan A. Shell, Jason M. O'Kane(参考訳) 組合せフィルタの削減には、ロボットが使用する状態表現の圧縮が含まれる。 このような最適化はミニマリストロボットの構築を自動化する際に生じる。 しかし、正確な組合せフィルタの削減はNP完全問題であり、現在のすべての手法は指数関数的に多くの制約で不完全または形式化されている。 本稿では,制約の多項式数のみを必要とする新しい形式化を提案し,これらの制約を非線形,線形,共役正規形式という3つの異なる形式で特徴づける。 実験結果から, 共役正規形式の制約が問題を最も効果的に捉え, 他よりも優れる手法が得られた。 さらなる検討により、繰り返しフィルタの低減の間にかなりの制約が不活発に残っていることが示されている。 このような制約をジャスト・イン・タイムで生成することで効率を向上し,大きなフィルタを最小化することができる。

Reduction of combinatorial filters involves compressing state representations that robots use. Such optimization arises in automating the construction of minimalist robots. But exact combinatorial filter reduction is an NP-complete problem and all current techniques are either inexact or formalized with exponentially many constraints. This paper proposes a new formalization needing only a polynomial number of constraints, and characterizes these constraints in three different forms: nonlinear, linear, and conjunctive normal form. Empirical results show that constraints in conjunctive normal form capture the problem most effectively, leading to a method that outperforms the others. Further examination indicates that a substantial proportion of constraints remain inactive during iterative filter reduction. To leverage this observation, we introduce just-in-time generation of such constraints, which yields improvements in efficiency and has the potential to minimize large filters.
翻訳日:2022-09-29 05:18:15 公開日:2020-11-06
# 包含型汎用知能における合成現象学の検出

Detecting Synthetic Phenomenology in a Contained Artificial General Intelligence ( http://arxiv.org/abs/2011.05807v1 )

ライセンス: Link先を確認
Jason M. Pittman, Ashlyn Hanks(参考訳) 機械の中の人間のような知性は議論の対象である。 人類が人工知能の創造を追求すべきか否かは熱い議論である。 また、人類が創造できるかどうかによって、研究者は対立する派閥に並んだ。 我々の目的のために、人類はそうできると仮定する。 したがって、安全に信頼された方法でどのように行うかを考える必要がある。ボクシングや封じ込めの考え方に入る。 このような考え方の一環として、潜在的な封じ込めシステムによって課される運用上の制約から、現象学がどう検出されるのか疑問である。 それゆえ、本研究はクエーリアを通じて既存の現象学の尺度の分析を行い、これらの概念を包含する人工知能の文脈に拡張する。

Human-like intelligence in a machine is a contentious subject. Whether mankind should or should not pursue the creation of artificial general intelligence is hotly debated. As well, researchers have aligned in opposing factions according to whether mankind can create it. For our purposes, we assume mankind can and will do so. Thus, it becomes necessary to contemplate how to do so in a safe and trusted manner -- enter the idea of boxing or containment. As part of such thinking, we wonder how a phenomenology might be detected given the operational constraints imposed by any potential containment system. Accordingly, this work provides an analysis of existing measures of phenomenology through qualia and extends those ideas into the context of a contained artificial general intelligence.
翻訳日:2022-09-29 05:17:45 公開日:2020-11-06
# 悪質な小児体験のセマンティクスを活用した説明可能な人工知能推薦システム:概念実証プロトタイプ開発

Explainable Artificial Intelligence Recommendation System by Leveraging the Semantics of Adverse Childhood Experiences: Proof-of-Concept Prototype Development ( http://arxiv.org/abs/2011.08090v1 )

ライセンス: Link先を確認
Nariman Ammar, Arash Shaban-Nejad(参考訳) 過去20年間で, 子どもの有害な体験とその影響についての研究が始まっている。 本研究では,説明可能な人工知能を活用することを目的とした,知識駆動型エビデンスに基づくレコメンデーションシステムのための概念実証プロトタイプを提案する。 我々は,Google DialogFlowエンジンを用いて質問応答エージェントを構築し,訓練するために開発したオントロジーの概念を用いた。 質問回答エージェントに加えて、最初のプロトタイプには、サードパーティのグラフ技術を活用した知識グラフ生成とレコメンデーションコンポーネントが含まれている。 フレームワークの機能を紹介するために,我々は,テネシー州メンフィスにある小児病院で現在実施されているイニシアチブによって動機付けられた4つのユースケースシナリオを通じて,プロトタイプの設計と主な機能を紹介する。 プロトタイプの開発には、レコメンデーションの最適化アルゴリズムの実装、パーソナルヘルスライブラリによるプライバシ層の導入、実装の有用性と有用性を評価するための臨床試験の実施が必要となる。 このセマンティック駆動の人工知能のプロトタイプは、医療従事者に彼らの意思決定の説明を提供する能力を高めることができる。

The study of adverse childhood experiences and their consequences has emerged over the past 20 years. In this study, we aimed to leverage explainable artificial intelligence, and propose a proof-of-concept prototype for a knowledge-driven evidence-based recommendation system to improve surveillance of adverse childhood experiences. We used concepts from an ontology that we have developed to build and train a question-answering agent using the Google DialogFlow engine. In addition to the question-answering agent, the initial prototype includes knowledge graph generation and recommendation components that leverage third-party graph technology. To showcase the framework functionalities, we here present a prototype design and demonstrate the main features through four use case scenarios motivated by an initiative currently implemented at a children hospital in Memphis, Tennessee. Ongoing development of the prototype requires implementing an optimization algorithm of the recommendations, incorporating a privacy layer through a personal health library, and conducting a clinical trial to assess both usability and usefulness of the implementation. This semantic-driven explainable artificial intelligence prototype can enhance health care practitioners ability to provide explanations for the decisions they make.
翻訳日:2022-09-29 05:17:32 公開日:2020-11-06
# 高次元混合線形回帰における推定・信頼区間・大規模仮説検定

Estimation, Confidence Intervals, and Large-Scale Hypotheses Testing for High-Dimensional Mixed Linear Regression ( http://arxiv.org/abs/2011.03598v1 )

ライセンス: Link先を確認
Linjun Zhang, Rong Ma, T. Tony Cai and Hongzhe Li(参考訳) 本稿では,未知の混合比と未知の共分散構造を持つ2つの線形回帰モデルのうちの1つから出力変数が生じる高次元混合線形回帰(MLR)について検討する。 高次元emアルゴリズムを基礎として,2つの回帰ベクトルを推定し,収束率を定式化する反復手法を提案する。 反復推定法に基づき,さらにデバイアス推定法を構築し,漸近正規性を確立する。 個々の座標では、偏差推定器を中心とした信頼区間が構築される。 さらに,回帰係数をテストするための大規模多重試験手法を提案し,漸近的に偽発見率(fdr)を制御することを示した。 提案手法の数値的性能と既存手法の優越性を検討するため,シミュレーション実験を行った。 提案手法は、20エピトープの発現レベルやマーカーの組み合わせを含む細胞性表現型間の相互作用ネットワークを解析する多重画像サイトメトリーのデータセットの分析を通じて、さらに説明される。

This paper studies the high-dimensional mixed linear regression (MLR) where the output variable comes from one of the two linear regression models with an unknown mixing proportion and an unknown covariance structure of the random covariates. Building upon a high-dimensional EM algorithm, we propose an iterative procedure for estimating the two regression vectors and establish their rates of convergence. Based on the iterative estimators, we further construct debiased estimators and establish their asymptotic normality. For individual coordinates, confidence intervals centered at the debiased estimators are constructed. Furthermore, a large-scale multiple testing procedure is proposed for testing the regression coefficients and is shown to control the false discovery rate (FDR) asymptotically. Simulation studies are carried out to examine the numerical performance of the proposed methods and their superiority over existing methods. The proposed methods are further illustrated through an analysis of a dataset of multiplex image cytometry, which investigates the interaction networks among the cellular phenotypes that include the expression levels of 20 epitopes or combinations of markers.
翻訳日:2022-09-29 05:17:13 公開日:2020-11-06
# Event-VPR: イベントベースの視覚的位置認識のためのネットワークアーキテクチャ

Event-VPR: End-to-End Weakly Supervised Network Architecture for Event-based Visual Place Recognition ( http://arxiv.org/abs/2011.03290v1 )

ライセンス: Link先を確認
Delei Kong, Zheng Fang, Haojia Li, Kuanxu Hou, Sonya Coleman and Dermot Kerr(参考訳) 従来の視覚的位置認識(VPR)法は一般的にフレームベースのカメラを使用するが、劇的な照明の変化や速い動きのために簡単に失敗する。 本稿では,イベントカメラのためのエンドツーエンドの視覚的位置認識ネットワークを提案する。 提案アルゴリズムの重要なアイデアは,まずイベントストリームをestvoxelグリッドで特徴付け,次に畳み込みネットワークを用いて特徴抽出,最後にvladネットワークによる機能集約を行い,イベントストリームを用いたエンドツーエンドのビジュアルプレース認識を実現することだ。 提案手法の有効性を検証するため,提案手法をイベントベース運転データセット(MVSEC, DDD17)と合成データセット(Oxford RobotCar)の古典的VPR手法と比較した。 実験の結果,提案手法は課題シナリオにおいてはるかに優れた性能が得られることがわかった。 私たちの知る限り、これは最初のエンドツーエンドのイベントベースのvprメソッドです。 関連するソースコードはhttps://github.com/kongdelei/event-vprで入手できる。

Traditional visual place recognition (VPR) methods generally use frame-based cameras, which is easy to fail due to dramatic illumination changes or fast motions. In this paper, we propose an end-to-end visual place recognition network for event cameras, which can achieve good place recognition performance in challenging environments. The key idea of the proposed algorithm is firstly to characterize the event streams with the EST voxel grid, then extract features using a convolution network, and finally aggregate features using an improved VLAD network to realize end-to-end visual place recognition using event streams. To verify the effectiveness of the proposed algorithm, we compare the proposed method with classical VPR methods on the event-based driving datasets (MVSEC, DDD17) and the synthetic datasets (Oxford RobotCar). Experimental results show that the proposed method can achieve much better performance in challenging scenarios. To our knowledge, this is the first end-to-end event-based VPR method. The accompanying source code is available at https://github.com/kongdelei/Event-VPR.
翻訳日:2022-09-29 05:15:36 公開日:2020-11-06
# 結合最適化によるドメイン適応型人物再同定

Domain Adaptive Person Re-Identification via Coupling Optimization ( http://arxiv.org/abs/2011.03363v1 )

ライセンス: Link先を確認
Xiaobin Liu and Shiliang Zhang(参考訳) ドメイン適応型人物再識別(ReID)は、ドメインのギャップとターゲットシナリオに対するアノテーションの不足のために困難である。 これら2つの課題に対処するために,ドメイン不変写像(DIM)法とグローバル局所距離最適化(GLO)法を含む結合最適化手法を提案する。 2段階の知識を伝達する従来の方法とは異なり、DIMはラベル付きおよびラベルなしデータセットの画像を共有特徴空間にマッピングすることで、より効率的な1段階の知識伝達を実現する。 GLOはターゲットドメインの教師なし設定でReIDモデルをトレーニングするために設計されている。 教師付きトレーニング用に設計された既存の最適化戦略に頼る代わりに、GLOは距離最適化においてより多くの画像を必要とする。 GLOはまた、グローバルデータセットとローカルトレーニングバッチの両方に距離最適化を統合しており、トレーニング効率が向上している。 大規模なデータセットであるmarket-1501、dukemtmc-reid、msmt17の大規模な実験では、結合最適化が最先端のメソッドよりも大きなマージンで優れていることが示されている。 また,本手法は教師なしトレーニングでも有効であり,近年のドメイン適応手法よりも優れています。

Domain adaptive person Re-Identification (ReID) is challenging owing to the domain gap and shortage of annotations on target scenarios. To handle those two challenges, this paper proposes a coupling optimization method including the Domain-Invariant Mapping (DIM) method and the Global-Local distance Optimization (GLO), respectively. Different from previous methods that transfer knowledge in two stages, the DIM achieves a more efficient one-stage knowledge transfer by mapping images in labeled and unlabeled datasets to a shared feature space. GLO is designed to train the ReID model with unsupervised setting on the target domain. Instead of relying on existing optimization strategies designed for supervised training, GLO involves more images in distance optimization, and achieves better robustness to noisy label prediction. GLO also integrates distance optimizations in both the global dataset and local training batch, thus exhibits better training efficiency. Extensive experiments on three large-scale datasets, i.e., Market-1501, DukeMTMC-reID, and MSMT17, show that our coupling optimization outperforms state-of-the-art methods by a large margin. Our method also works well in unsupervised training, and even outperforms several recent domain adaptive methods.
翻訳日:2022-09-29 05:09:12 公開日:2020-11-06
# CNNにおける翻訳不変性の学習

Learning Translation Invariance in CNNs ( http://arxiv.org/abs/2011.11757v1 )

ライセンス: Link先を確認
Valerio Biscione, Jeffrey Bowers(参考訳) 新しい物体を見るとき、人間はそれを異なる網膜の位置ですぐに認識することができる: 内部オブジェクトの表現は翻訳に不変であると言う。 畳み込みニューラルネットワーク(CNN)は、それらが持つ畳み込みやプール操作のおかげで、アーキテクチャ上、翻訳に不変であると一般的に信じられている。 実際、いくつかの研究により、これらのネットワークは訓練されていない場所で新しい物体を認識できないことが判明した。 この研究では、CNNが翻訳に「アーキテクチャ的に不変」ではないにもかかわらず、実際に翻訳に不変であることを示す。 これはimagenet上で事前トレーニングすることで実現可能であることを検証し、入力キャンバスを通じてアイテムが完全に変換される、ずっとシンプルなデータセットでも可能であることを見出しました。 この事前学習が内部ネットワーク表現にどのように影響するかを調べたところ,破滅的な忘れ/干渉による更なるトレーニングによって混乱が生じた場合もあったが,ほとんど常に不均一が得られた。 これらの実験は、適切な「ラテント」特性(より自然主義的な環境)を持つ環境におけるネットワークの事前学習が、その後の一般化を劇的に改善する深い知覚規則を学習する結果をもたらすことを示す。

When seeing a new object, humans can immediately recognize it across different retinal locations: we say that the internal object representation is invariant to translation. It is commonly believed that Convolutional Neural Networks (CNNs) are architecturally invariant to translation thanks to the convolution and/or pooling operations they are endowed with. In fact, several works have found that these networks systematically fail to recognise new objects on untrained locations. In this work we show how, even though CNNs are not 'architecturally invariant' to translation, they can indeed 'learn' to be invariant to translation. We verified that this can be achieved by pretraining on ImageNet, and we found that it is also possible with much simpler datasets in which the items are fully translated across the input canvas. We investigated how this pretraining affected the internal network representations, finding that the invariance was almost always acquired, even though it was some times disrupted by further training due to catastrophic forgetting/interference. These experiments show how pretraining a network on an environment with the right 'latent' characteristics (a more naturalistic environment) can result in the network learning deep perceptual rules which would dramatically improve subsequent generalization.
翻訳日:2022-09-29 05:07:40 公開日:2020-11-06
# データセットのリサイクルから多機能抽出へ

From Dataset Recycling to Multi-Property Extraction and Beyond ( http://arxiv.org/abs/2011.03228v1 )

ライセンス: Link先を確認
Tomasz Dwojak, Micha{\l} Pietruszka, {\L}ukasz Borchmann, Jakub Ch{\l}\k{e}dowski, Filip Grali\'nski(参考訳) 本稿では,wikireading information extraction と machine reading comprehension dataset の様々なトランスフォーマーアーキテクチャについて検討する。 提案したデュアルソースモデルは,最先端技術よりも大きなマージンで優れている。 次に,新しく開発された公開データセットwikireading recycledと複数プロパティ抽出のタスクを紹介する。 WikiReadingと同じデータを使っているが、前任者の特定した欠点を継承していない。 さらに,モデル性能の詳細な解析のために,診断サブセットを備えた人間アノテーションによるテストセットを提供する。

This paper investigates various Transformer architectures on the WikiReading Information Extraction and Machine Reading Comprehension dataset. The proposed dual-source model outperforms the current state-of-the-art by a large margin. Next, we introduce WikiReading Recycled-a newly developed public dataset and the task of multiple property extraction. It uses the same data as WikiReading but does not inherit its predecessor's identified disadvantages. In addition, we provide a human-annotated test set with diagnostic subsets for a detailed analysis of model performance.
翻訳日:2022-09-29 05:07:19 公開日:2020-11-06
# 予測不能環境における遺伝的プログラミングによる行動木学習

Learning Behavior Trees with Genetic Programming in Unpredictable Environments ( http://arxiv.org/abs/2011.03252v1 )

ライセンス: Link先を確認
Matteo Iovino, Jonathan Styrud, Pietro Falco and Christian Smith(参考訳) 現代の産業用途では、ロボットは予測不可能な環境で動作し、タスクに頻繁に変更があるため、最小限の努力でプログラムを作成する必要がある。 本稿では,遺伝的プログラミングを用いて行動木(BT)の構造を学習し,予測不能な環境下でのロボット作業の解決が可能であることを示す。 さらに,学習に簡単なシミュレータを用い,学習したBTが現実的なシミュレータで同じタスクを解くことを実証し,タスク固有のヒューリスティックを必要とせずに収束に達することを提案する。 学習した解決策は欠点に寛容であり、実際のロボット応用にアピールする。

Modern industrial applications require robots to be able to operate in unpredictable environments, and programs to be created with a minimal effort, as there may be frequent changes to the task. In this paper, we show that genetic programming can be effectively used to learn the structure of a behavior tree (BT) to solve a robotic task in an unpredictable environment. Moreover, we propose to use a simple simulator for the learning and demonstrate that the learned BTs can solve the same task in a realistic simulator, reaching convergence without the need for task specific heuristics. The learned solution is tolerant to faults, making our method appealing for real robotic applications.
翻訳日:2022-09-29 05:06:48 公開日:2020-11-06
# 純粋文字に基づくニューラルマシン翻訳の理解:フィンランド語を英語に翻訳する場合

Understanding Pure Character-Based Neural Machine Translation: The Case of Translating Finnish into English ( http://arxiv.org/abs/2011.03469v1 )

ライセンス: Link先を確認
Gongbo Tang, Rico Sennrich, Joakim Nivre(参考訳) 近年の研究では、より深い文字ベースのニューラルネットワーク翻訳(NMT)モデルがサブワードベースのモデルを上回ることが示されている。 しかし、なぜより深い文字ベースのモデルが成功するのかはまだ不明である。 本稿では,フィンランド語を英語に翻訳する場合の純粋文字ベースモデルの検討を行い,単語の感覚や形態的変形,注意機構を学習する能力について検討する。 単語レベルの情報は1文字ではなく文字列全体に分散しており、異なる位置の文字が言語知識の学習において異なる役割を担っていることを示す。 さらに、文字ベースのモデルでは、単語感覚をエンコードするためにより多くのレイヤが必要である。 注意分散パターンは,セパレータが多くの注目を集めていることを示すとともに,文字隠された状態に対して,単語レベルの情報を完全に捉えるために,少なからぬ単語レベルの注意力を求める。 実験の結果,単頭で単語レベルの注目度が1.2 bleuポイント低下することがわかった。

Recent work has shown that deeper character-based neural machine translation (NMT) models can outperform subword-based models. However, it is still unclear what makes deeper character-based models successful. In this paper, we conduct an investigation into pure character-based models in the case of translating Finnish into English, including exploring the ability to learn word senses and morphological inflections and the attention mechanism. We demonstrate that word-level information is distributed over the entire character sequence rather than over a single character, and characters at different positions play different roles in learning linguistic knowledge. In addition, character-based models need more layers to encode word senses which explains why only deeper models outperform subword-based models. The attention distribution pattern shows that separators attract a lot of attention and we explore a sparse word-level attention to enforce character hidden states to capture the full word-level information. Experimental results show that the word-level attention with a single head results in 1.2 BLEU points drop.
翻訳日:2022-09-29 04:59:48 公開日:2020-11-06
# ヒンディー語における敵意検出データセット

Hostility Detection Dataset in Hindi ( http://arxiv.org/abs/2011.03588v1 )

ライセンス: Link先を確認
Mohit Bhardwaj, Md Shad Akhtar, Asif Ekbal, Amitava Das, Tanmoy Chakraborty(参考訳) 本稿では,ヒンディー語における新たな敵意検出データセットを提案する。 8200のオンライン投稿を手作業で収集して注釈付けします。 注釈付きデータセットには、フェイクニュース、ヘイトスピーチ、攻撃的、および破壊的投稿の4つの敵意の次元と非敵対的なラベルが含まれている。 敵対的な投稿は、敵対的なクラス間で大きな重複があるため、マルチラベルタグにも考慮されている。 本データセットは,conSTRAINT-2021共有タスクの一部として,敵対的なポスト検出を行う。

In this paper, we present a novel hostility detection dataset in Hindi language. We collect and manually annotate ~8200 online posts. The annotated dataset covers four hostility dimensions: fake news, hate speech, offensive, and defamation posts, along with a non-hostile label. The hostile posts are also considered for multi-label tags due to a significant overlap among the hostile classes. We release this dataset as part of the CONSTRAINT-2021 shared task on hostile post detection.
翻訳日:2022-09-29 04:59:25 公開日:2020-11-06
# Affinity LCFCN:Wak Supervisionによる魚の分節学習

Affinity LCFCN: Learning to Segment Fish with Weak Supervision ( http://arxiv.org/abs/2011.03149v1 )

ライセンス: Link先を確認
Issam Laradji, Alzayat Saleh, Pau Rodriguez, Derek Nowrouzezahrai, Mostafa Rahimi Azghadi, David Vazquez(参考訳) 養殖業では、長さ、幅、質量など、正確な魚の体を測定することができる。 支配者のような物理的なツールに依存する手動のメソッドは時間と労働集約的です。 自動的なアプローチは、これらの測定を得るために完全に教師されたセグメンテーションモデルに依存するが、これらはピクセルごとのラベルの収集を必要とする。 魚を1クリックでアノテートするポイントレベルの監督のみでラベル付けされた画像に対して効率的に学習する自動セグメンテーションモデルを提案する。 このラベル付けプロセスでは、手作業による介入が大幅に少なく、魚1頭につき平均1秒程度必要となる。 提案手法では,完全畳み込みニューラルネットワークを用いて,ピクセル単位のスコアと親和性行列を出力させる。 これら2つの出力をランダムウォークで集約し、最終的な精巧なピクセル単位のセグメンテーション出力を得る。 我々は、LCFCN損失でモデル全体をエンドツーエンドにトレーニングし、その結果A-LCFCN法が得られた。 オーストラリア北東部の多くの魚類生息地を含むDeepFishデータセットを用いて本モデルを検証した。 実験の結果,a-lcfcn は固定アノテーション予算で完全教師ありセグメンテーションモデルを上回ることがわかった。 さらに,A-LCFCNはLCFCNや標準ベースラインよりも高いセグメンテーション結果が得られることを示す。 コード は \url{https://github.com/IssamLaradji/affinity_lcfcn} でリリースしました。

Aquaculture industries rely on the availability of accurate fish body measurements, e.g., length, width and mass. Manual methods that rely on physical tools like rulers are time and labour intensive. Leading automatic approaches rely on fully-supervised segmentation models to acquire these measurements but these require collecting per-pixel labels -- also time consuming and laborious: i.e., it can take up to two minutes per fish to generate accurate segmentation labels, almost always requiring at least some manual intervention. We propose an automatic segmentation model efficiently trained on images labeled with only point-level supervision, where each fish is annotated with a single click. This labeling process requires significantly less manual intervention, averaging roughly one second per fish. Our approach uses a fully convolutional neural network with one branch that outputs per-pixel scores and another that outputs an affinity matrix. We aggregate these two outputs using a random walk to obtain the final, refined per-pixel segmentation output. We train the entire model end-to-end with an LCFCN loss, resulting in our A-LCFCN method. We validate our model on the DeepFish dataset, which contains many fish habitats from the north-eastern Australian region. Our experimental results confirm that A-LCFCN outperforms a fully-supervised segmentation model at fixed annotation budget. Moreover, we show that A-LCFCN achieves better segmentation results than LCFCN and a standard baseline. We have released the code at \url{https://github.com/IssamLaradji/affinity_lcfcn}.
翻訳日:2022-09-29 04:58:56 公開日:2020-11-06
# 大規模Few-Shot分類における難易度学習

Confusable Learning for Large-class Few-Shot Classification ( http://arxiv.org/abs/2011.03154v1 )

ライセンス: Link先を確認
Bingcong Li, Bo Han, Zhuowei Wang, Jing Jiang, Guodong Long(参考訳) 各クラスに十分なサンプルがないため、わずかなショット画像の分類は困難である。 このような課題は、クラス数が非常に大きい場合、すなわち、大きなクラスの少数ショットシナリオの場合、さらに難しくなります。 この斬新なシナリオでは、既存のアプローチは、相互に区別が難しい類似クラスである共用クラスを無視しているため、うまく機能しない。 これらのクラスにはより多くの情報がある。 本稿では,より難解なクラスに焦点を当てた「難解学習」というバイアス学習パラダイムを提案する。 本手法は主流のメタ学習アルゴリズムに適用できる。 具体的には,データセット内の不整合クラスを動的に解析する混乱行列を動的に更新する。 このような混乱行列はメタ学習者が難解なクラスを強調するのに役立つ。 Omniglot, Fungi, ImageNetの総合実験により, 最先端のベースラインに対する本手法の有効性が示された。

Few-shot image classification is challenging due to the lack of ample samples in each class. Such a challenge becomes even tougher when the number of classes is very large, i.e., the large-class few-shot scenario. In this novel scenario, existing approaches do not perform well because they ignore confusable classes, namely similar classes that are difficult to distinguish from each other. These classes carry more information. In this paper, we propose a biased learning paradigm called Confusable Learning, which focuses more on confusable classes. Our method can be applied to mainstream meta-learning algorithms. Specifically, our method maintains a dynamically updating confusion matrix, which analyzes confusable classes in the dataset. Such a confusion matrix helps meta learners to emphasize on confusable classes. Comprehensive experiments on Omniglot, Fungi, and ImageNet demonstrate the efficacy of our method over state-of-the-art baselines.
翻訳日:2022-09-29 04:58:28 公開日:2020-11-06
# ulsd:ピンホール、魚眼、球面カメラを横断するラインセグメントの統一検出

ULSD: Unified Line Segment Detection across Pinhole, Fisheye, and Spherical Cameras ( http://arxiv.org/abs/2011.03174v1 )

ライセンス: Link先を確認
Hao Li, Huai Yu, Wen Yang, Lei Yu and Sebastian Scherer(参考訳) ラインセグメント検出は、コンピュータビジョンとロボット工学におけるハイレベルなタスクに不可欠である。 現在、ほとんどの最新技術(SOTA)法は、歪みのないピンホール画像の直線部分の検出に特化しているため、魚眼画像や球面画像の歪みは、その性能を著しく劣化させる可能性がある。 歪み画像と歪画像の両方に対する統一線分検出(ULSD)を目標とし,ベジエ曲線モデルを用いて線分を表現することを提案する。 次に、ラインセグメント検出は、モデルフリーで非歪プリプロセッシングのないエンドツーエンドネットワークによるベジエ曲線回帰によって取り組まれる。 ピンホール, 魚眼, 球面画像データセットにおける実験結果は, sota法におけるulsdの精度と効率(ピンホール画像では40.6fps)を検証した。 ソースコードはhttps://github.com/lh9171338/Unified-LineSegment-Detectionで公開されている。

Line segment detection is essential for high-level tasks in computer vision and robotics. Currently, most stateof-the-art (SOTA) methods are dedicated to detecting straight line segments in undistorted pinhole images, thus distortions on fisheye or spherical images may largely degenerate their performance. Targeting at the unified line segment detection (ULSD) for both distorted and undistorted images, we propose to represent line segments with the Bezier curve model. Then the line segment detection is tackled by the Bezier curve regression with an end-to-end network, which is model-free and without any undistortion preprocessing. Experimental results on the pinhole, fisheye, and spherical image datasets validate the superiority of the proposed ULSD to the SOTA methods both in accuracy and efficiency (40.6fps for pinhole images). The source code is available at https://github.com/lh9171338/Unified-LineSegment-Detection.
翻訳日:2022-09-29 04:58:16 公開日:2020-11-06
# 神経談話パーサのパワーを解き放つ -大規模事前学習を用いた文脈と構造認識アプローチ-

Unleashing the Power of Neural Discourse Parsers -- A Context and Structure Aware Approach Using Large Scale Pretraining ( http://arxiv.org/abs/2011.03203v1 )

ライセンス: Link先を確認
Grigorii Guz, Patrick Huber and Giuseppe Carenini(参考訳) RSTに基づく談話解析は、要約、機械翻訳、意見マイニングなど、多くの下流アプリケーションにおいて重要なNLPタスクである。 本稿では,最近の文脈言語モデルを取り入れた,シンプルかつ高精度な談話パーサについて述べる。 我々のパーザは、RTTデータセットであるRTT-DTとInstr-DTの2つの構造と核性を予測するための新しい最先端(SOTA)性能を確立する。 さらに我々は,最近利用可能になった大規模「銀標準」談話バンクMEGA-DTのパーサーの事前学習により,さらに大きなパフォーマンス上のメリットが得られ,言論解析の分野における新規かつ有望な研究方向性が示唆された。

RST-based discourse parsing is an important NLP task with numerous downstream applications, such as summarization, machine translation and opinion mining. In this paper, we demonstrate a simple, yet highly accurate discourse parser, incorporating recent contextual language models. Our parser establishes the new state-of-the-art (SOTA) performance for predicting structure and nuclearity on two key RST datasets, RST-DT and Instr-DT. We further demonstrate that pretraining our parser on the recently available large-scale "silver-standard" discourse treebank MEGA-DT provides even larger performance benefits, suggesting a novel and promising research direction in the field of discourse analysis.
翻訳日:2022-09-29 04:49:58 公開日:2020-11-06
# OP-IMS @ DIACR-Ita: Back to the Roots: SGNS+OP+CD still rock Semantic Change Detection

OP-IMS @ DIACR-Ita: Back to the Roots: SGNS+OP+CD still rocks Semantic Change Detection ( http://arxiv.org/abs/2011.03258v1 )

ライセンス: Link先を確認
Jens Kaiser, Dominik Schlechtweg, Sabine Schulte im Walde(参考訳) イタリア語の語彙意味変化検出におけるDIACR-Ita共有タスクへの参加について報告する。 我々は,Skip-Gram with Negative Smpling, Orthogonal ProcrustesアライメントとCosine Distanceに基づく最初期の,最も影響力のある意味変化検出モデルを活用し,ほぼ完全な精度.94で共有タスクの入賞者を得る。 また, 語彙的意味変化検出におけるタスク設定において, 従来の型ベースアプローチが優れた性能をもたらすことを示す。

We present the results of our participation in the DIACR-Ita shared task on lexical semantic change detection for Italian. We exploit one of the earliest and most influential semantic change detection models based on Skip-Gram with Negative Sampling, Orthogonal Procrustes alignment and Cosine Distance and obtain the winning submission of the shared task with near to perfect accuracy .94. Our results once more indicate that, within the present task setup in lexical semantic change detection, the traditional type-based approaches yield excellent performance.
翻訳日:2022-09-29 04:49:42 公開日:2020-11-06
# Alquist 2.0: サブダイアログモデルに基づくAlexa Prize Socialbot

Alquist 2.0: Alexa Prize Socialbot Based on Sub-Dialogue Models ( http://arxiv.org/abs/2011.03259v1 )

ライセンス: Link先を確認
Jan Pichl, Petr Marek, Jakub Konr\'ad, Martin Matul\'ik, and Jan \v{S}ediv\'y(参考訳) 本稿では,Amazon Alexa Prize 2018に出場するAlquistという対話システムの第2版を紹介する。 トピックノードと呼ばれるオントロジーに基づくトピック構造を利用したシステムを提案する。 各ノードは複数のサブダイアログから構成され、各サブダイアログは独自のLSTMベースの対話管理モデルを持つ。 サブダイアログはトピック階層やユーザインテントに従って起動され、各セッション中にボットがユニークなエクスペリエンスを作成することができる。

This paper presents the second version of the dialogue system named Alquist competing in Amazon Alexa Prize 2018. We introduce a system leveraging ontology-based topic structure called topic nodes. Each of the nodes consists of several sub-dialogues, and each sub-dialogue has its own LSTM-based model for dialogue management. The sub-dialogues can be triggered according to the topic hierarchy or a user intent which allows the bot to create a unique experience during each session.
翻訳日:2022-09-29 04:49:28 公開日:2020-11-06
# Alquist 3.0:会話知識グラフを使用したAlexa Prizeボット

Alquist 3.0: Alexa Prize Bot Using Conversational Knowledge Graph ( http://arxiv.org/abs/2011.03261v1 )

ライセンス: Link先を確認
Jan Pichl, Petr Marek, Jakub Konr\'ad, Petr Lorenc, Van Duy Ta, and Jan \v{S}ediv\'y(参考訳) Alexa Prize 2020コンペティションで開発されたオープンドメイン対話システムのAlquistの第3バージョンは、人気のあるトピックに関する一貫性のある会話を実行するように設計されている。 主な新規な貢献は、会話的知識グラフと隣接ペアに基づく革新的なアプローチを活用するシステムの導入である。 会話知識グラフは,対話中に表現された知識を,会話の交互に活用する。 対話隣接ペアは、会話を小さな会話構造に分割し、組み合わせることで、システムは幅広いユーザの入力に柔軟に対応することができる。 本稿では,Alquistのパイプライン,データ取得と処理,対話マネージャ,NLG,知識集約,隣接ペアの階層について論じる。 本稿では,システムの個々の部分について実験結果を示す。

The third version of the open-domain dialogue system Alquist developed within the Alexa Prize 2020 competition is designed to conduct coherent and engaging conversations on popular topics. The main novel contribution is the introduction of a system leveraging an innovative approach based on a conversational knowledge graph and adjacency pairs. The conversational knowledge graph allows the system to utilize knowledge expressed during the dialogue in consequent turns and across conversations. Dialogue adjacency pairs divide the conversation into small conversational structures, which can be combined and allow the system to react to a wide range of user inputs flexibly. We discuss and describe Alquist's pipeline, data acquisition and processing, dialogue manager, NLG, knowledge aggregation, and a hierarchy of adjacency pairs. We present the experimental results of the individual parts of the system.
翻訳日:2022-09-29 04:49:21 公開日:2020-11-06
# apposcorpus: 偽陽性生成のための新しい多言語多ドメインデータセット

The ApposCorpus: A new multilingual, multi-domain dataset for factual appositive generation ( http://arxiv.org/abs/2011.03287v1 )

ライセンス: Link先を確認
Yova Kementchedjhieva, Di Lu, Joel Tetreault(参考訳) ニュース記事、画像キャプション、製品レビュー、その他多くのテキストは、異なるオーディエンスに対して名前認識が異なる人々や組織について言及している。 このような場合、名前付きエンティティの背景情報は、人によって書かれたり自動生成されたりする、肯定的な名詞句の形で提供することができる。 4つの言語(英語、スペイン語、ドイツ語、ポーランド語)、2つのエンティティタイプ(個人と組織)、2つのドメイン(WikipediaとNews)にまたがるデータセットによってインスタンス化されます。 我々は、データとタスクを広範囲に分析し、それらがもたらす様々なモデリング課題を指摘した。 標準言語生成手法で得られた結果は、タスクは確かに簡単ではなく、改善の余地がたくさんあることを示している。

News articles, image captions, product reviews and many other texts mention people and organizations whose name recognition could vary for different audiences. In such cases, background information about the named entities could be provided in the form of an appositive noun phrase, either written by a human or generated automatically. We expand on the previous work in appositive generation with a new, more realistic, end-to-end definition of the task, instantiated by a dataset that spans four languages (English, Spanish, German and Polish), two entity types (person and organization) and two domains (Wikipedia and News). We carry out an extensive analysis of the data and the task, pointing to the various modeling challenges it poses. The results we obtain with standard language generation methods show that the task is indeed non-trivial, and leaves plenty of room for improvement.
翻訳日:2022-09-29 04:48:42 公開日:2020-11-06
# GHFP: 段階的にハードなフィルタプルーニング

GHFP: Gradually Hard Filter Pruning ( http://arxiv.org/abs/2011.03170v1 )

ライセンス: Link先を確認
Linhang Cai, Zhulin An, Yongjun Xu(参考訳) フィルタプルーニングはディープラーニングの計算を減らすために広く使われており、リソース制限されたデバイスにディープニューラルネットワーク(DNN)をデプロイすることができる。 従来のハードフィルタ・プルーニング (HFP) 法では, プルーニングフィルタをゼロにし, 更新を停止し, モデルの探索空間を小さくする。 それに対して、soft filter pruning (sfp) は、単にprunedフィルタをゼロにし、以下のトレーニング時代の更新を続け、ネットワークのキャパシティを維持する。 しかし、SFPはその変種とともに、より大きな探索空間のため、HFPよりもはるかに遅く収束する。 SFP法とHFP法を組み合わせることで,より優れた性能を実現し,収束を高速化できるかどうかが課題である。 まず, SFP法とHFP法を一般化し, その特性を解析する。 そこで,本研究では,sfp法からhfp法にスムースに切り替える段階的ハードフィルタプルーニング(ghfp)法を提案する。 CIFAR-10/100の実験結果から,本手法が最先端性能を実現することを示す。

Filter pruning is widely used to reduce the computation of deep learning, enabling the deployment of Deep Neural Networks (DNNs) in resource-limited devices. Conventional Hard Filter Pruning (HFP) method zeroizes pruned filters and stops updating them, thus reducing the search space of the model. On the contrary, Soft Filter Pruning (SFP) simply zeroizes pruned filters, keeping updating them in the following training epochs, thus maintaining the capacity of the network. However, SFP, together with its variants, converges much slower than HFP due to its larger search space. Our question is whether SFP-based methods and HFP can be combined to achieve better performance and speed up convergence. Firstly, we generalize SFP-based methods and HFP to analyze their characteristics. Then we propose a Gradually Hard Filter Pruning (GHFP) method to smoothly switch from SFP-based methods to HFP during training and pruning, thus maintaining a large search space at first, gradually reducing the capacity of the model to ensure a moderate convergence speed. Experimental results on CIFAR-10/100 show that our method achieves the state-of-the-art performance.
翻訳日:2022-09-29 04:42:22 公開日:2020-11-06
# 高性能微分レンダリングのためのモジュールプリミティブ

Modular Primitives for High-Performance Differentiable Rendering ( http://arxiv.org/abs/2011.03277v1 )

ライセンス: Link先を確認
Samuli Laine, Janne Hellsten, Tero Karras, Yeongho Seol, Jaakko Lehtinen, Timo Aila(参考訳) 本稿では,既存の高度に最適化されたハードウェアグラフィックスパイプラインを活用し,従来の手法よりも優れた性能を実現するモジュール型微分可能レンダラ設計を提案する。 私たちのデザインは、多くの三角形、属性補間、フィルタされたテクスチャルックアップ、およびユーザプログラマブルシェーディングと幾何学処理を高解像度でラスタライズする、現代のグラフィックパイプラインにおけるすべての重要な操作をサポートします。 私たちのモジュールプリミティブは、PyTorchやTensorFlowといった自動微分フレームワーク内で、カスタムで高性能なグラフィックパイプラインを直接構築できるようにしています。 モチベーションアプリケーションとして,顔のパフォーマンスキャプチャを逆レンダリング問題として定式化し,ツールを用いて効率よく解けることを示す。 提案手法は, 描画結果と参照画像との優れた幾何学的対応を達成できることを示す。

We present a modular differentiable renderer design that yields performance superior to previous methods by leveraging existing, highly optimized hardware graphics pipelines. Our design supports all crucial operations in a modern graphics pipeline: rasterizing large numbers of triangles, attribute interpolation, filtered texture lookups, as well as user-programmable shading and geometry processing, all in high resolutions. Our modular primitives allow custom, high-performance graphics pipelines to be built directly within automatic differentiation frameworks such as PyTorch or TensorFlow. As a motivating application, we formulate facial performance capture as an inverse rendering problem and show that it can be solved efficiently using our tools. Our results indicate that this simple and straightforward approach achieves excellent geometric correspondence between rendered results and reference imagery.
翻訳日:2022-09-29 04:40:55 公開日:2020-11-06
# 動的精度デリバティブフリー最適化による高効率ハイパーパラメータチューニング

Efficient Hyperparameter Tuning with Dynamic Accuracy Derivative-Free Optimization ( http://arxiv.org/abs/2011.03151v1 )

ライセンス: Link先を確認
Matthias J. Ehrhardt, Lindon Roberts(参考訳) 多くの機械学習ソリューションは、優れたハイパーパラメータに依存する最適化問題として構成されている。 これらのハイパーパラメータをチューニングするためのアルゴリズムは通常、基礎となる学習問題に対する正確な解へのアクセスを前提とします。 本稿では,直近の動的精度微分自由最適化法をハイパーパラメータチューニングに適用し,収束保証を維持しながら学習問題の不正確な評価を可能にする。 本手法は,ロジスティック分類器の弾性ネットウェイトを学習し,そのロバスト性および効率性を,固定精度アプローチと比較して実証する。 これは、収束保証と実用性能の両面から、ハイパーパラメータチューニングのための有望なアプローチを示す。

Many machine learning solutions are framed as optimization problems which rely on good hyperparameters. Algorithms for tuning these hyperparameters usually assume access to exact solutions to the underlying learning problem, which is typically not practical. Here, we apply a recent dynamic accuracy derivative-free optimization method to hyperparameter tuning, which allows inexact evaluations of the learning problem while retaining convergence guarantees. We test the method on the problem of learning elastic net weights for a logistic classifier, and demonstrate its robustness and efficiency compared to a fixed accuracy approach. This demonstrates a promising approach for hyperparameter tuning, with both convergence guarantees and practical performance.
翻訳日:2022-09-29 04:39:37 公開日:2020-11-06
# 3次元断層画像における物体局所化のための自己教師あり学習

Self Supervised Learning for Object Localisation in 3D Tomographic Images ( http://arxiv.org/abs/2011.03353v1 )

ライセンス: Link先を確認
Yaroslav Zharov, Alexey Ershov, Tilo Baumbach(参考訳) 多くの作業は自己監督学習に費やされているが、そのほとんどは自然のシーンや物体の2d画像を扱う。 本稿では,X線CT(Computerd Tomography)を用いて得られた「textit{volumetric}」画像に焦点をあてる。 本稿では,ボリュームデータの特性を考慮した2つのプレテキストトレーニングタスクについて述べる。 トレーニングされたネットワークをオブジェクトローカライゼーションの下流タスクに、手動のマークアップをゼロで転送する方法を2つ提案する。 その単純さにもかかわらず,提案手法はオブジェクトのローカライゼーションとデータ削減の実用的なタスクに適用可能であることを示す。

While a lot of work is dedicated to self-supervised learning, most of it is dealing with 2D images of natural scenes and objects. In this paper, we focus on \textit{volumetric} images obtained by means of the X-Ray Computed Tomography (CT). We describe two pretext training tasks which are designed taking into account the specific properties of volumetric data. We propose two ways to transfer a trained network to the downstream task of object localization with a zero amount of manual markup. Despite its simplicity, the proposed method shows its applicability to practical tasks of object localization and data reduction.
翻訳日:2022-09-29 04:33:28 公開日:2020-11-06
# 変更セグメンテーションと分類のための弱教師付き畳み込みネットワーク

A Weakly Supervised Convolutional Network for Change Segmentation and Classification ( http://arxiv.org/abs/2011.03577v1 )

ライセンス: Link先を確認
Philipp Andermatt, Radu Timofte(参考訳) 完全な教師付き変更検出方法はピクセルレベルラベルの取得が困難であり、弱い教師付きアプローチは画像レベルラベルでトレーニングできる。 しかし、これらのアプローチのほとんどは、トレーニングのために変更と変更のないイメージペアの組み合わせを必要とする。 したがって、変更されたイメージペアのみが利用可能なデータセットでは、これらのメソッドを直接使用することはできない。 W-CDNetは、画像レベルのセマンティックラベルでトレーニングできる、弱い教師付き変更検出ネットワークである。 さらに、w-cdnetは、変更された画像ペアのみを含むか、変更された画像ペアと変更された画像ペアの混合を含む、2つの異なる種類のデータセットでトレーニングすることができる。 画像レベルの意味ラベルをトレーニングに使用するため、変更マスクを作成して、変更されたオブジェクトを単一ラベルイメージにラベル付けする。 W-CDNetは、W字型のシアムU-ネットを使用して、画像ペアから特徴マップを抽出し、生の変化マスクを作成するために比較する。 モデルの中核部分である変更分割分類(CSC)モジュールは、カスタムリマッピングブロックを使用して隠蔽層で正確な変更マスクを学習し、現在の入力画像を変更マスクでセグメント化する。 セグメント画像は、画像レベルのセマンティックラベルを予測するために使用される。 正しいラベルは、変更マスクが実際に関連する変更を示す場合にのみ予測できる。 これにより、モデルに正確な変更マスクを学習させる。 提案手法のセグメンテーションと分類性能を実証し,AICDとHRSCD,2つのパブリックな空中画像変化検出データセット,および食品廃棄物変化検出データセットの上位結果を得た。 私たちのコードはhttps://github.com/PhiAbs/W-CDNetで利用可能です。

Fully supervised change detection methods require difficult to procure pixel-level labels, while weakly supervised approaches can be trained with image-level labels. However, most of these approaches require a combination of changed and unchanged image pairs for training. Thus, these methods can not directly be used for datasets where only changed image pairs are available. We present W-CDNet, a novel weakly supervised change detection network that can be trained with image-level semantic labels. Additionally, W-CDNet can be trained with two different types of datasets, either containing changed image pairs only or a mixture of changed and unchanged image pairs. Since we use image-level semantic labels for training, we simultaneously create a change mask and label the changed object for single-label images. W-CDNet employs a W-shaped siamese U-net to extract feature maps from an image pair which then get compared in order to create a raw change mask. The core part of our model, the Change Segmentation and Classification (CSC) module, learns an accurate change mask at a hidden layer by using a custom Remapping Block and then segmenting the current input image with the change mask. The segmented image is used to predict the image-level semantic label. The correct label can only be predicted if the change mask actually marks relevant change. This forces the model to learn an accurate change mask. We demonstrate the segmentation and classification performance of our approach and achieve top results on AICD and HRSCD, two public aerial imaging change detection datasets as well as on a Food Waste change detection dataset. Our code is available at https://github.com/PhiAbs/W-CDNet .
翻訳日:2022-09-29 04:33:18 公開日:2020-11-06
# FDNAS: AutoMLのデータプライバシとモデルの多様性を改善する

FDNAS: Improving Data Privacy and Model Diversity in AutoML ( http://arxiv.org/abs/2011.03372v1 )

ライセンス: Link先を確認
Chunhui Zhang, Yongyuan Liang, Xiaoming Yuan, and Lei Cheng(参考訳) 自動マシンインテリジェンスを有効にしながら、プライベート情報の漏洩を防止するため、フェデレーションラーニングとニューラルアーキテクチャサーチ(NAS)を統合する傾向が高まっている。 期待できるように思えるが、両者の難しさの結合はアルゴリズム開発を非常に困難にしている。 特に、フェデレートされた方法でクライアントの大量の非IDデータから直接、最適なニューラルネットワークを直接検索する方法は、いまだに難しい。 本稿では、プロキシレスNASの進歩を活用して、ハードウェアを意識したNASをクライアントの分散非IDデータから利用できるFDNAS(Federated Direct Neural Architecture Search)フレームワークを提案する。 メタラーニングにインスパイアされたクライアントのデータ分散にさらに適応するために、各クライアントが特定のデータ分散のために適切なディープラーニングモデルを学ぶことができるという意味で、クライアントを意識したNASを実現するために、CFDNAS(Federated Direct Neural Architecture Search)フレームワークが提案されている。 実世界の非IDデータセットに関する大規模な実験は、クライアントのさまざまなハードウェアおよびデータ分散に対する最先端の精度効率トレードオフを示している。 私たちのコードは受理後公開されます。

To prevent the leakage of private information while enabling automated machine intelligence, there is an emerging trend to integrate federated learning and Neural Architecture Search (NAS). Although promising as it may seem, the coupling of difficulties from both two tenets makes the algorithm development quite challenging. In particular, how to efficiently search the optimal neural architecture directly from massive non-iid data of clients in a federated manner remains to be a hard nut to crack. To tackle this challenge, in this paper, by leveraging the advances in proxy-less NAS, we propose a Federated Direct Neural Architecture Search (FDNAS) framework that allows hardware-aware NAS from decentralized non-iid data of clients. To further adapt for various data distributions of clients, inspired by meta-learning, a cluster Federated Direct Neural Architecture Search (CFDNAS) framework is proposed to achieve client-aware NAS, in the sense that each client can learn a tailored deep learning model for its particular data distribution. Extensive experiments on real-world non-iid datasets show state-of-the-art accuracy-efficiency trade-offs for various hardware and data distributions of clients. Our codes will be released publicly upon paper acceptance.
翻訳日:2022-09-29 04:32:36 公開日:2020-11-06
# GANterpretations

GANterpretations ( http://arxiv.org/abs/2011.05158v1 )

ライセンス: Link先を確認
Pablo Samuel Castro(参考訳) Generative Adversarial Networks (GANs) [Goodfellow et al., 2014] の導入以来、これらの生成モデル(例えば、Karras et al., 2019, Zhu et al., 2017, Jin et al., 2017)の創造的利用と技術進歩(例えば、Arjovsky et al. [2017])の両方が定期的に流れてきた。 本研究では,gansのパワーを生かして,録音のスペクトル特性に合わせることにより,音声記録に付随する映像を自動的に生成する手法を提案する。 これによりミュージシャンは、その演奏によって誘導されるAI生成の音楽ビデオを、ストーリーラインに従うためのビジュアルな物語を作るための媒体(FrosstとKeleliuk(2019年)が提案したものと似ている)を、新しい形態のマルチモーダルなクリエイティブな表現を探求することができる。

Since the introduction of Generative Adversarial Networks (GANs) [Goodfellow et al., 2014] there has been a regular stream of both technical advances (e.g., Arjovsky et al. [2017]) and creative uses of these generative models (e.g., [Karras et al., 2019, Zhu et al., 2017, Jin et al., 2017]). In this work we propose an approach for using the power of GANs to automatically generate videos to accompany audio recordings by aligning to spectral properties of the recording. This allows musicians to explore new forms of multi-modal creative expression, where musical performance can induce an AI-generated musical video that is guided by said performance, as well as a medium for creating a visual narrative to follow a storyline (similar to what was proposed by Frosst and Kereliuk [2019]).
翻訳日:2022-09-29 04:32:01 公開日:2020-11-06
# 販売予測精度の向上:需要認知を伴うテンソル因子化アプローチ

Improving Sales Forecasting Accuracy: A Tensor Factorization Approach with Demand Awareness ( http://arxiv.org/abs/2011.03452v1 )

ライセンス: Link先を確認
Xuan Bi, Gediminas Adomavicius, William Li, Annie Qu(参考訳) 消費者、製品、店舗から得られるビッグデータ収集により、高度な販売予測能力は、意思決定の重要性から、特に小売業において多くの企業から大きな注目を集めている。 予測精度の改善は、たとえ少額であっても、企業の生産と金融計画、マーケティング戦略、在庫管理、サプライチェーン管理、そして最終的には株価に重大な影響を与える可能性がある。 具体的には、近い将来、各店舗における各商品の販売予測を行うことを目標としている。 パーソナライズされたコンテキスト認識レコメンデーションシステムのためのテンソル因子化手法に動機づけられ,複数の店舗や製品にまたがる単一のテンソル因子化モデルを構築することによって,販売の正確かつ個別化された予測を実現する,advanced temporal latent-factoring to sales forecasting (atlas) と呼ばれる新しいアプローチを提案する。 当社のコントリビューションは、テンソルフレームワーク(ストアや製品間での情報を活用する)、新しい正規化関数(需要動態を組み込む)、および最先端統計モデル(季節的自己回帰型移動平均モデル)と機械学習(リカレントニューラルネットワーク)モデルを使用してテンソルを将来の時間に外挿する。 ATLASの利点は、情報資源社(Information Resource, Inc.)が収集した8つの製品カテゴリデータセットで示されており、1500以上の食料品店から15,560以上の商品を毎週1億6500万件販売している。

Due to accessible big data collections from consumers, products, and stores, advanced sales forecasting capabilities have drawn great attention from many companies especially in the retail business because of its importance in decision making. Improvement of the forecasting accuracy, even by a small percentage, may have a substantial impact on companies' production and financial planning, marketing strategies, inventory controls, supply chain management, and eventually stock prices. Specifically, our research goal is to forecast the sales of each product in each store in the near future. Motivated by tensor factorization methodologies for personalized context-aware recommender systems, we propose a novel approach called the Advanced Temporal Latent-factor Approach to Sales forecasting (ATLAS), which achieves accurate and individualized prediction for sales by building a single tensor-factorization model across multiple stores and products. Our contribution is a combination of: tensor framework (to leverage information across stores and products), a new regularization function (to incorporate demand dynamics), and extrapolation of tensor into future time periods using state-of-the-art statistical (seasonal auto-regressive integrated moving-average models) and machine-learning (recurrent neural networks) models. The advantages of ATLAS are demonstrated on eight product category datasets collected by the Information Resource, Inc., where a total of 165 million weekly sales transactions from more than 1,500 grocery stores over 15,560 products are analyzed.
翻訳日:2022-09-29 04:31:39 公開日:2020-11-06
# 頻度方向のリッジ回帰:統計的および最適化的視点

Ridge Regression with Frequent Directions: Statistical and Optimization Perspectives ( http://arxiv.org/abs/2011.03607v1 )

ライセンス: Link先を確認
Charlie Dickens(参考訳) その印象的な理論と実用性にもかかわらず、頻繁な方向 (\acrshort{fd}) は大規模な回帰タスクでは広く採用されていない。 以前の作品では ランダムなスケッチが i) データの共分散行列を \acrshort{fd} よりもよく推定する。 (ii)スケッチリッジ回帰のバイアスおよび/または分散を推定する場合、高い誤差が生じる。 スケッチされた尾根回帰に対するバイアス \&分散の第一の定数係数相対誤差境界を \acrshort{fd} を用いて与える。 これらの統計的結果は,高精度な解が得られる反復的スキームによって最適化設定に利用できることを示すことで補うことができる。 これにより、コンバージェンス速度でイテレーション毎に新しいスケッチが必要となるような、ランダムなアプローチが改善される。 どちらの設定でも、\emph{robust often directions}の使用はパフォーマンスをさらに向上させる。

Despite its impressive theory \& practical performance, Frequent Directions (\acrshort{fd}) has not been widely adopted for large-scale regression tasks. Prior work has shown randomized sketches (i) perform worse in estimating the covariance matrix of the data than \acrshort{fd}; (ii) incur high error when estimating the bias and/or variance on sketched ridge regression. We give the first constant factor relative error bounds on the bias \& variance for sketched ridge regression using \acrshort{fd}. We complement these statistical results by showing that \acrshort{fd} can be used in the optimization setting through an iterative scheme which yields high-accuracy solutions. This improves on randomized approaches which need to compromise the need for a new sketch every iteration with speed of convergence. In both settings, we also show using \emph{Robust Frequent Directions} further enhances performance.
翻訳日:2022-09-29 04:31:11 公開日:2020-11-06
# 因果DAGの効率的な置換探索

Efficient Permutation Discovery in Causal DAGs ( http://arxiv.org/abs/2011.03610v1 )

ライセンス: Link先を確認
Chandler Squires, Joshua Amaniampong, Caroline Uhler(参考訳) 有向非巡回グラフ(DAG)をマルコフ同値まで学習する問題は、最も広いグラフを誘導する変数の置換を求める問題と同値である。 追加の仮定がなければ、このタスクはNPハードであることが知られている。 スパース・チョレスキー分解の最小次アルゴリズムを基礎として,DAG固有の問題構造を用いて,そのようなスパース置換を求めるアルゴリズムを提案する。 共同ガウス分布では、深さ$w$ の手法は $o(p^{w+3})$ time で実行される。 本手法と$w = 1$との比較により,非方向グラフのスパース除去順序を求めるアルゴリズムを比較し,DAG固有の問題構造を活かすことで,置換の大幅な改善が期待できることを示す。 また,本手法をpcアルゴリズム,ges,gspなどの一貫性のある因果構造学習アルゴリズムと比較し,より短い実行時間で同等の性能が得られることを示す。 したがって,本手法は独自の因果構造発見に利用することができる。 最後に,提案手法がほぼ完全な性能を達成するようなグラフが存在することを示し,既存の因果構造学習アルゴリズムとは異なり,提案アルゴリズムが優れた性能と良好な実行時間を達成する状況はスパースグラフに限らないことを示した。

The problem of learning a directed acyclic graph (DAG) up to Markov equivalence is equivalent to the problem of finding a permutation of the variables that induces the sparsest graph. Without additional assumptions, this task is known to be NP-hard. Building on the minimum degree algorithm for sparse Cholesky decomposition, but utilizing DAG-specific problem structure, we introduce an efficient algorithm for finding such sparse permutations. We show that on jointly Gaussian distributions, our method with depth $w$ runs in $O(p^{w+3})$ time. We compare our method with $w = 1$ to algorithms for finding sparse elimination orderings of undirected graphs, and show that taking advantage of DAG-specific problem structure leads to a significant improvement in the discovered permutation. We also compare our algorithm to provably consistent causal structure learning algorithms, such as the PC algorithm, GES, and GSP, and show that our method achieves comparable performance with a shorter runtime. Thus, our method can be used on its own for causal structure discovery. Finally, we show that there exist dense graphs on which our method achieves almost perfect performance, so that unlike most existing causal structure learning algorithms, the situations in which our algorithm achieves both good performance and good runtime are not limited to sparse graphs.
翻訳日:2022-09-29 04:30:59 公開日:2020-11-06
# モデルに基づく強化学習における価値等価原理

The Value Equivalence Principle for Model-Based Reinforcement Learning ( http://arxiv.org/abs/2011.03506v1 )

ライセンス: Link先を確認
Christopher Grimm, Andr\'e Barreto, Satinder Singh, David Silver(参考訳) データから環境の学習モデルは、インテリジェント強化学習(rl)エージェントを構築する上で不可欠な要素と見なされることが多い。 一般的なプラクティスは、観測された状態遷移を正確に予測する環境のダイナミクスのモデルを構築することで、モデルの使用から学習を分離することである。 本稿では, モデルベースRLエージェントの限られた表現資源が, 直接的に価値ベースプランニングに有用なモデル構築に利用されていることを論じる。 2つのモデルは、ベルマンの更新が同じならば、関数とポリシーの集合に対して等価な値である。 本稿では,価値同値原理に基づくモデル学習問題の定式化と,実現可能な解の集合が政策や関数の選択にどのように影響するかを分析する。 具体的には、考慮されたポリシーと関数の集合を拡大するにつれて、値等価モデルのクラスが縮小し、最終的に環境を完全に記述したモデルに対応する単一点に崩壊することを示す。 多くの問題において、状態間遷移を直接モデル化することは困難かつ不要である。 値等価原理を利用することで、パフォーマンスを損なわずにシンプルなモデルを見つけ、計算とメモリを節約できる。 我々は、価値等価モデル学習の利点を、最大推定のような従来のモデル学習と比較した実験で説明する。 より一般的には、値等価性の原理は、価値反復ネットワーク、予測ネットワーク、価値予測ネットワーク、ツリーQN、MuZeroなど、RLにおける最近の経験的成功の基盤となり、それらの結果に最初の理論的基盤を提供する。

Learning models of the environment from data is often viewed as an essential component to building intelligent reinforcement learning (RL) agents. The common practice is to separate the learning of the model from its use, by constructing a model of the environment's dynamics that correctly predicts the observed state transitions. In this paper we argue that the limited representational resources of model-based RL agents are better used to build models that are directly useful for value-based planning. As our main contribution, we introduce the principle of value equivalence: two models are value equivalent with respect to a set of functions and policies if they yield the same Bellman updates. We propose a formulation of the model learning problem based on the value equivalence principle and analyze how the set of feasible solutions is impacted by the choice of policies and functions. Specifically, we show that, as we augment the set of policies and functions considered, the class of value equivalent models shrinks, until eventually collapsing to a single point corresponding to a model that perfectly describes the environment. In many problems, directly modelling state-to-state transitions may be both difficult and unnecessary. By leveraging the value-equivalence principle one may find simpler models without compromising performance, saving computation and memory. We illustrate the benefits of value-equivalent model learning with experiments comparing it against more traditional counterparts like maximum likelihood estimation. More generally, we argue that the principle of value equivalence underlies a number of recent empirical successes in RL, such as Value Iteration Networks, the Predictron, Value Prediction Networks, TreeQN, and MuZero, and provides a first theoretical underpinning of those results.
翻訳日:2022-09-29 04:24:19 公開日:2020-11-06
# グラフニューラルネットワークの単一ノード攻撃

Single-Node Attack for Fooling Graph Neural Networks ( http://arxiv.org/abs/2011.03574v1 )

ライセンス: Link先を確認
Ben Finkelshtein, Chaim Baskin, Evgenii Zheltonozhskii, Uri Alon(参考訳) グラフニューラルネットワーク(GNN)は、さまざまな領域で幅広い適用性を示している。 ソーシャルネットワークやプロダクトレコメンデーションなど、これらのドメインのいくつかは、悪意のあるユーザや行動に肥大している。 本稿では,GNNが攻撃者がノードを選択することができない単一ノード対逆例の極めて限られたシナリオに対して脆弱であることを示す。 つまり、攻撃者は特定の攻撃対象ノードを選択できない場合でも、グラフ内の別の任意のノードをわずかに摂動させることで、gnnに任意のターゲットノードを選択ラベルに分類させることができる。 敵が特定の攻撃ノードを選択することが許された場合、攻撃はさらに効果的である。 この攻撃は、GraphSAGE、GCN、GAT、GINなどの様々なGNNタイプ、さまざまな現実世界のデータセット、ターゲットと非ターゲットの攻撃に対して効果的であることを示す。 私たちのコードはhttps://github.com/benfinkelshtein/SINGLEで利用可能です。

Graph neural networks (GNNs) have shown broad applicability in a variety of domains. Some of these domains, such as social networks and product recommendations, are fertile ground for malicious users and behavior. In this paper, we show that GNNs are vulnerable to the extremely limited scenario of a single-node adversarial example, where the node cannot be picked by the attacker. That is, an attacker can force the GNN to classify any target node to a chosen label by only slightly perturbing another single arbitrary node in the graph, even when not being able to pick that specific attacker node. When the adversary is allowed to pick a specific attacker node, the attack is even more effective. We show that this attack is effective across various GNN types, such as GraphSAGE, GCN, GAT, and GIN, across a variety of real-world datasets, and as a targeted and a non-targeted attack. Our code is available at https://github.com/benfinkelshtein/SINGLE .
翻訳日:2022-09-29 04:23:55 公開日:2020-11-06
# イベント予測のための多出力ガウス過程変調ポアソン過程

Multi-output Gaussian Process Modulated Poisson Processes for Event Prediction ( http://arxiv.org/abs/2011.03172v1 )

ライセンス: Link先を確認
Salman Jahani, Shiyu Zhou, Dharmaraj Veeramani and Jeff Schmidt(参考訳) 部品交換や障害イベントなどのイベントの予測は、信頼性エンジニアリングにおいて重要な役割を果たす。 イベントストリームデータは、製造システムやテレサービスシステムで一般的に観測される。 このようなイベントストリームに基づいて個々のユニットの予測モデルを設計するのは困難であり、未検討の問題である。 本研究では,インテンシティ関数に先立って多変量ガウス畳み込みプロセス(mgcp)を用いて,不均一なポアソン過程に基づく個別化事象予測のための非パラメトリック予測フレームワークを提案する。 不均質なポアソン過程の強度関数に先立つmgcpは、同様の歴史的単位から現在の研究単位にデータをマッピングし、情報の共有を促進し、柔軟なイベントパターンの分析を可能にする。 推定を容易にするために、mgcp変調ポアソン過程モデルにおけるパラメータの学習と推定のための変分推論スキームを導出する。 合成データと実世界のデータの両方を用いて,艦隊によるイベント予測実験を行った。

Prediction of events such as part replacement and failure events plays a critical role in reliability engineering. Event stream data are commonly observed in manufacturing and teleservice systems. Designing predictive models for individual units based on such event streams is challenging and an under-explored problem. In this work, we propose a non-parametric prognostic framework for individualized event prediction based on the inhomogeneous Poisson processes with a multivariate Gaussian convolution process (MGCP) prior on the intensity functions. The MGCP prior on the intensity functions of the inhomogeneous Poisson processes maps data from similar historical units to the current unit under study which facilitates sharing of information and allows for analysis of flexible event patterns. To facilitate inference, we derive a variational inference scheme for learning and estimation of parameters in the resulting MGCP modulated Poisson process model. Experimental results are shown on both synthetic data as well as real-world data for fleet based event prediction.
翻訳日:2022-09-29 04:23:28 公開日:2020-11-06
# 連続時間イベントデータに対するユーザ依存ニューラルシーケンスモデル

User-Dependent Neural Sequence Models for Continuous-Time Event Data ( http://arxiv.org/abs/2011.03231v1 )

ライセンス: Link先を確認
Alex Boyd, Robert Bamler, Stephan Mandt, and Padhraic Smyth(参考訳) 連続時間イベントデータは、個々の行動データ、金融取引、医療医療記録などのアプリケーションで一般的である。 このようなデータのモデリングは、イベントのタイプと発生時刻を予測するモデルを必要とするため、特にさまざまな種類のイベントを持つアプリケーションでは、非常に難しい場合があります。 時間変化強度関数をパラメータ化するリカレントニューラルネットワークは、そのようなデータを用いた予測モデリングの最先端技術である。 これらのモデルは通常、すべてのイベントシーケンスが同じデータ分布から来ていると仮定する。 しかし、多くのアプリケーションでは、イベントシーケンスは異なるソースやユーザによって生成され、その特性は大きく異なる可能性がある。 本稿では,ニューラルマーク点過程モデルの幅広いクラスを遅延埋め込みの混合に拡張し,各混合成分が与えられたユーザの特性特性をモデル化する。 提案手法では, ユーザ特性を符号化した潜時変数を, 償却された変分推論を用いて学習したユーザ行動に対する混合モデルで拡張することに依存する。 提案手法を4つの大規模実世界のデータセット上で評価し,ログライクリフ,次のイベントランキング,時系列識別など,さまざまな予測指標に対する既存作業に対するアプローチの体系的改善を実証する。

Continuous-time event data are common in applications such as individual behavior data, financial transactions, and medical health records. Modeling such data can be very challenging, in particular for applications with many different types of events, since it requires a model to predict the event types as well as the time of occurrence. Recurrent neural networks that parameterize time-varying intensity functions are the current state-of-the-art for predictive modeling with such data. These models typically assume that all event sequences come from the same data distribution. However, in many applications event sequences are generated by different sources, or users, and their characteristics can be very different. In this paper, we extend the broad class of neural marked point process models to mixtures of latent embeddings, where each mixture component models the characteristic traits of a given user. Our approach relies on augmenting these models with a latent variable that encodes user characteristics, represented by a mixture model over user behavior that is trained via amortized variational inference. We evaluate our methods on four large real-world datasets and demonstrate systematic improvements from our approach over existing work for a variety of predictive metrics such as log-likelihood, next event ranking, and source-of-sequence identification.
翻訳日:2022-09-29 04:22:40 公開日:2020-11-06
# グラフニューラルネットワークを超えた分子による学習

Learning with Molecules beyond Graph Neural Networks ( http://arxiv.org/abs/2011.03488v1 )

ライセンス: Link先を確認
Gustav Sourek, Filip Zelezny, Ondrej Kuzelka(参考訳) 本稿では,高度に表現力のあるリレーショナル論理言語を基盤として,任意の複雑なグラフ構造を捕捉する深層学習フレームワークを実証する。 グラフニューラルネットワークと類似したモデルが,関係論理の基底となる伝搬規則を規定することにより,フレームワーク内で容易にカバーできることを示す。 使用する言語の宣言的性質は、この論文で短時間のデモンストレーションのために選択した分子環のような複雑な構造に、伝播スキームを容易に修正し拡張することを可能にする。

We demonstrate a deep learning framework which is inherently based in the highly expressive language of relational logic, enabling to, among other things, capture arbitrarily complex graph structures. We show how Graph Neural Networks and similar models can be easily covered in the framework by specifying the underlying propagation rules in the relational logic. The declarative nature of the used language then allows to easily modify and extend the propagation schemes into complex structures, such as the molecular rings which we choose for a short demonstration in this paper.
翻訳日:2022-09-29 04:15:12 公開日:2020-11-06
# 機械読解における回答スパン補正

Answer Span Correction in Machine Reading Comprehension ( http://arxiv.org/abs/2011.03435v1 )

ライセンス: Link先を確認
Revanth Gangi Reddy, Md Arafat Sultan, Efsun Sarioglu Kayi, Rong Zhang, Vittorio Castelli, Avirup Sil(参考訳) 機械読解(MRC)における解答検証は、抽出された回答を入力コンテキストと問合せペアに対して検証する。 以前の研究は、抽出された回答から質問の「答え可能性」を再評価することを検討した。 既存のmrcシステムは、回答可能な質問で提示された時に、部分的に正しい回答を生成する傾向にあります。 このような誤りの性質を考察し,一言語的および多言語的評価において,最先端のMRCシステムに対して統計的に有意な性能改善をもたらすポストプロセッシング補正法を提案する。

Answer validation in machine reading comprehension (MRC) consists of verifying an extracted answer against an input context and question pair. Previous work has looked at re-assessing the "answerability" of the question given the extracted answer. Here we address a different problem: the tendency of existing MRC systems to produce partially correct answers when presented with answerable questions. We explore the nature of such errors and propose a post-processing correction method that yields statistically significant performance improvements over state-of-the-art MRC systems in both monolingual and multilingual evaluation.
翻訳日:2022-09-29 04:14:43 公開日:2020-11-06
# 信頼問題:不確実性推定は、医療用タブラリデータに対する信頼性の高いOOD検出を可能にする

Trust Issues: Uncertainty Estimation Does Not Enable Reliable OOD Detection On Medical Tabular Data ( http://arxiv.org/abs/2011.03274v1 )

ライセンス: Link先を確認
Dennis Ulmer, Lotta Meijerink and Giovanni Cin\`a(参考訳) 医療などの実環境に機械学習モデルを展開する場合,異常入力に対するモデルの予測の不確実性を正確に評価することが重要である。 しかし、この問題を医学データ、特に電子健康記録のような混合型表データで分析する文献は少ない。 このギャップを埋めるために, 様々な同時代の不確実性推定手法を含む一連の検査を行い, アウト・オブ・ディストリビューション(OOD)患者を特定できるかどうかを判定する。 これまでの研究とは対照的に、現実的で臨床的に関係のあるOODグループの試験を設計し、実世界の医療データで実験を行う。 ほとんどすべてのテクニックが説得力のある結果を達成できていないことが分かりました。

When deploying machine learning models in high-stakes real-world environments such as health care, it is crucial to accurately assess the uncertainty concerning a model's prediction on abnormal inputs. However, there is a scarcity of literature analyzing this problem on medical data, especially on mixed-type tabular data such as Electronic Health Records. We close this gap by presenting a series of tests including a large variety of contemporary uncertainty estimation techniques, in order to determine whether they are able to identify out-of-distribution (OOD) patients. In contrast to previous work, we design tests on realistic and clinically relevant OOD groups, and run experiments on real-world medical data. We find that almost all techniques fail to achieve convincing results, partly disagreeing with earlier findings.
翻訳日:2022-09-29 04:14:33 公開日:2020-11-06
# Corporaの比較:スウェーデンのGigaword & Wikipedia Corporaを例に

Corpora Compared: The Case of the Swedish Gigaword & Wikipedia Corpora ( http://arxiv.org/abs/2011.03281v1 )

ライセンス: Link先を確認
Tosin P. Adewumi, Foteini Liwicki and Marcus Liwicki(参考訳) 本研究では,特定の言語に対する異なるソースデータからの埋め込みの性能の違いは,データサイズ以外の要因による可能性があることを示す。 自然言語処理(NLP)タスクは、通常、より大きなコーパスからの埋め込みでよりよく機能する。 しかし、カバードメインとノイズの広さは重要な役割を果たす可能性がある。 スウェーデンではgigaword と wikipedia の2つのコーパスに基づいて埋め込みを評価し,wikipedia コーパスからの埋め込みがより大きなコーパスである gigaword コーパスの埋め込みよりも一般的に優れていることを発見した。 下流テストには明確な評価が必要である。

In this work, we show that the difference in performance of embeddings from differently sourced data for a given language can be due to other factors besides data size. Natural language processing (NLP) tasks usually perform better with embeddings from bigger corpora. However, broadness of covered domain and noise can play important roles. We evaluate embeddings based on two Swedish corpora: The Gigaword and Wikipedia, in analogy (intrinsic) tests and discover that the embeddings from the Wikipedia corpus generally outperform those from the Gigaword corpus, which is a bigger corpus. Downstream tests will be required to have a definite evaluation.
翻訳日:2022-09-29 04:13:31 公開日:2020-11-06
# フィンランドのOCRポストコレクションとスペル化正規化の教師なし手法

An Unsupervised method for OCR Post-Correction and Spelling Normalisation for Finnish ( http://arxiv.org/abs/2011.03502v1 )

ライセンス: Link先を確認
Quan Duong, Mika H\"am\"al\"ainen, Simon Hengchen(参考訳) 歴史的コーパスは、デジタル化プロセスで使用されるOCR(Optical character recognition)メソッドによって導入されたエラーを含むことが知られている。 これらのエラーを手動で修正するのは時間を要するプロセスであり、自動的なアプローチの大部分がルールや教師付き機械学習に依存している。 そこで本研究では,並列データの完全自動無教師抽出により,文字ベースシーケンスからシーケンスへのnmt(neural machine translation)モデルを学習し,英語用に設計されたocr誤り訂正を実行し,言語構造を考慮に入れた解をフィンランド語に適用する。 提案手法は完全に教師なしのままで性能が向上し,スペリング正規化の利点が増す。 ソースコードとモデルはgithubとzenodoから入手できる。

Historical corpora are known to contain errors introduced by OCR (optical character recognition) methods used in the digitization process, often said to be degrading the performance of NLP systems. Correcting these errors manually is a time-consuming process and a great part of the automatic approaches have been relying on rules or supervised machine learning. We build on previous work on fully automatic unsupervised extraction of parallel data to train a character-based sequence-to-sequence NMT (neural machine translation) model to conduct OCR error correction designed for English, and adapt it to Finnish by proposing solutions that take the rich morphology of the language into account. Our new method shows increased performance while remaining fully unsupervised, with the added benefit of spelling normalisation. The source code and models are available on GitHub and Zenodo.
翻訳日:2022-09-29 04:13:22 公開日:2020-11-06
# KompaRe:知識グラフ比較推論システム

KompaRe: A Knowledge Graph Comparative Reasoning System ( http://arxiv.org/abs/2011.03189v1 )

ライセンス: Link先を確認
Lihui Liu, Boxin Du, Heng Ji, Hanghang Tong(参考訳) 推論は知識グラフから貴重な洞察、知識、パターンを活用するための基本的な能力である。 既存の研究は主に、検索、リンク述語、エンティティ予測、サブグラフマッチングなど、ポイントワイドな推論に焦点を当てている。 本稿では,複数の手がかりに対する共通点と矛盾点の推測を目的とした知識グラフの比較推論を提案する。 我々は、比較推論が知識グラフよりも既存の視点推論を補完し拡張することを想定する。 具体的には,大規模ナレッジグラフに対して比較推論能力を提供する,最初のプロトタイプシステムであるkompareを開発した。 本稿では,知識セグメント抽出,ペア推論,集合推論など,システムアーキテクチャとそのコアアルゴリズムについて述べる。 実験評価の結果,提案手法の有効性が示された。

Reasoning is a fundamental capability for harnessing valuable insight, knowledge and patterns from knowledge graphs. Existing work has primarily been focusing on point-wise reasoning, including search, link predication, entity prediction, subgraph matching and so on. This paper introduces comparative reasoning over knowledge graphs, which aims to infer the commonality and inconsistency with respect to multiple pieces of clues. We envision that the comparative reasoning will complement and expand the existing point-wise reasoning over knowledge graphs. In detail, we develop KompaRe, the first of its kind prototype system that provides comparative reasoning capability over large knowledge graphs. We present both the system architecture and its core algorithms, including knowledge segment extraction, pairwise reasoning and collective reasoning. Empirical evaluations demonstrate the efficacy of the proposed KompaRe.
翻訳日:2022-09-29 04:13:07 公開日:2020-11-06
# 説明可能なAIがヘルスケアと出会う:心臓病データセットの研究

Explainable AI meets Healthcare: A Study on Heart Disease Dataset ( http://arxiv.org/abs/2011.03195v1 )

ライセンス: Link先を確認
Devam Dave, Het Naik, Smiti Singhal, Pankesh Patel(参考訳) 構造化データと非構造化データの可用性の向上と分析技術の急速な進歩により、人工知能(AI)は医療産業に革命をもたらしている。 医療におけるAIの役割がますます不可欠になっている中で、モデルの予測によって生じる潜在的なバイアスに加えて、透明性と説明可能性の欠如に関する懸念が高まっている。 そこで、説明可能な人工知能(XAI)が登場する。 XAIは、医療従事者やAI研究者によるAIシステムの信頼性を高め、最終的には医療へのAIの展開が拡大する。 本稿では,異なる解釈可能性手法を提案する。 目的は、医療分野において非常に有利な様々な技術を用いて、説明可能なAIシステムの理解性と解釈可能性について実践者に啓蒙することである。 医療診断モデルは人間の生活に責任を持ち,ブラックボックスモデルによって指導された患者を治療するには十分な自信が必要である。 本論文は、心臓病データセットに基づく例を含み、医療にAIシステムを使用する場合の信頼性を高めるために、説明可能性技術がどのように望ましいかを解明する。

With the increasing availability of structured and unstructured data and the swift progress of analytical techniques, Artificial Intelligence (AI) is bringing a revolution to the healthcare industry. With the increasingly indispensable role of AI in healthcare, there are growing concerns over the lack of transparency and explainability in addition to potential bias encountered by predictions of the model. This is where Explainable Artificial Intelligence (XAI) comes into the picture. XAI increases the trust placed in an AI system by medical practitioners as well as AI researchers, and thus, eventually, leads to an increasingly widespread deployment of AI in healthcare. In this paper, we present different interpretability techniques. The aim is to enlighten practitioners on the understandability and interpretability of explainable AI systems using a variety of techniques available which can be very advantageous in the health-care domain. Medical diagnosis model is responsible for human life and we need to be confident enough to treat a patient as instructed by a black-box model. Our paper contains examples based on the heart disease dataset and elucidates on how the explainability techniques should be preferred to create trustworthiness while using AI systems in healthcare.
翻訳日:2022-09-29 04:12:57 公開日:2020-11-06