このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200831となっている論文です。

PDF登録状況(公開日: 20200831)

TitleAuthorsAbstract論文公表日・翻訳日
# PBS-Calculus:量子計算のコヒーレント制御のためのグラフィカル言語

PBS-Calculus: A Graphical Language for Coherent Control of Quantum Computations ( http://arxiv.org/abs/2002.09387v2 )

ライセンス: Link先を確認
Alexandre Cl\'ement and Simon Perdrix(参考訳) 本稿では,量子演算のコヒーレント制御を含む量子計算を表現・推論するためにPBS計算を導入する。 コヒーレント制御、特に不確定因果順序は、量子回路のような古典的に順序付けられたモデルよりも複数の計算と通信の優位性を実現することが知られている。 PBS計算は量子光学、特に偏光ビームスプリッター(PBS、略してPBS)に着想を得ている。 PBS-ダイアグラムの構文と意味論を定式化し、この言語に方程式理論を定式化し、2つの図が同じ量子進化を表すことを証明した。 さらに、方程式論は最小であることを示す。 最後に,制御された置換の実装やループの展開といったアプリケーションについて考察する。

We introduce the PBS-calculus to represent and reason on quantum computations involving coherent control of quantum operations. Coherent control, and in particular indefinite causal order, is known to enable multiple computational and communication advantages over classically ordered models like quantum circuits. The PBS-calculus is inspired by quantum optics, in particular the polarising beam splitter (PBS for short). We formalise the syntax and the semantics of the PBS-diagrams, and we equip the language with an equational theory, which is proved to be sound and complete: two diagrams are representing the same quantum evolution if and only if one can be transformed into the other using the rules of the PBS-calculus. Moreover, we show that the equational theory is minimal. Finally, we consider applications like the implementation of controlled permutations and the unrolling of loops.
翻訳日:2023-06-02 11:40:19 公開日:2020-08-31
# IBMの20量子コンピュータにおけるアルゴリズム設計におけるNISQ時代課題の実証

Demonstrating NISQ Era Challenges in Algorithm Design on IBM's 20 Qubit Quantum Computer ( http://arxiv.org/abs/2003.01009v3 )

ライセンス: Link先を確認
Daniel Koch, Brett Martin, Saahil Patel, Laura Wessing, Paul M. Alsing(参考訳) 超伝導量子ビットが技術的に進歩を続けるにつれて、理論的抽象化から物理的実装への量子アルゴリズムの実現には、量子回路構築とハードウェアの限界の両方の知識が必要である。 本研究では,IBMの20キュービットのPoughkeepsieアーキテクチャを用いて,量子アルゴリズムの設計において生じる様々な量子ビットの品質と課題を実証する実験結果を示す。 これには、実験的に$t_1$と$t_2$コヒーレンス時間、ゲートフィダリティ、シーケンシャルcnotゲート、ancilla qubitsを扱う技術、そしていくつかの異なる量子ビットに実装されたccnotとqft$^{\dagger}$回路が含まれる。 提案手法は,スワップゲートや追加のアンシラキュービットを用いて,限られた接続を補償しなければならない量子回路を改善するための様々な手法を示す。

As superconducting qubits continue to advance technologically, the realization of quantum algorithms from theoretical abstraction to physical implementation requires knowledge of both quantum circuit construction as well as hardware limitations. In this study we present results from experiments run on IBM's 20-qubit `Poughkeepsie' architecture, with the goal of demonstrating various qubit qualities and challenges that arise in designing quantum algorithms. These include experimentally measuring $T_1$ and $T_2$ coherence times, gate fidelities, sequential CNOT gates, techniques for handling ancilla qubits, and finally CCNOT and QFT$^{\dagger}$ circuits implemented on several different qubit geometries. Our results demonstrate various techniques for improving quantum circuits which must compensate for limited connectivity, either through the use of SWAP gates or additional ancilla qubits.
翻訳日:2023-05-31 12:21:59 公開日:2020-08-31
# クロストーク測定による超解像限界

Superresolution Limits from Measurement Crosstalk ( http://arxiv.org/abs/2004.07228v2 )

ライセンス: Link先を確認
Manuel Gessner, Claude Fabre, and Nicolas Treps(参考訳) 空間モード分解後の強度測定に基づく超解像技術は回折制限直接イメージングの精度を克服することができる。 しかし、現実的な測定装置は常にそのようなモード分解に有限クロストークを導入する。 ここでは、検出された光子の数$N$が大きければ、任意のゼロでないクロストークが超解像の分解につながることを示す。 統計ツールと解析ツールを組み合わせて,クロストーク確率の関数としてデバイスに依存しないモデルから,弱い,汎用的なクロストークの精度限界のスケーリングを求める。 雑音と区別できる最小距離のスケーリングは、理想的な測定値として$N^{-1/4}$から$N^{-1/4}$へと変化する。

Superresolution techniques based on intensity measurements after a spatial mode decomposition can overcome the precision of diffraction-limited direct imaging. However, realistic measurement devices always introduce finite crosstalk in any such mode decomposition. Here, we show that any nonzero crosstalk leads to a breakdown of superresolution when the number $N$ of detected photons is large. Combining statistical and analytical tools, we obtain the scaling of the precision limits for weak, generic crosstalk from a device-independent model as a function of the crosstalk probability and $N$. The scaling of the smallest distance that can be distinguished from noise changes from $N^{-1/2}$ for an ideal measurement to $N^{-1/4}$ in the presence of crosstalk.
翻訳日:2023-05-23 09:09:48 公開日:2020-08-31
# 量子デバイスと局所相互作用の位相コヒーレントダイナミクス

Phase-Coherent Dynamics of Quantum Devices With Local Interactions ( http://arxiv.org/abs/2004.07260v2 )

ライセンス: Link先を確認
Michele Filippone, Arthur Marguerite, Karyn Le Hur, Gwendal F\`eve and Christophe Mora(参考訳) このレビューは、局所フェルミ液体(LFL)理論が量子ドットデバイスの強い相関とコヒーレントな低エネルギーダイナミクスをいかに記述しているかを説明する。 このアプローチは、強相関を正確に考慮した効果的な弾性散乱理論から成り立っている。 本稿では、メソスコピックコンデンサと、クーロン誘起量子状態転移の最近の実験に焦点を当てる。 単一電子放出の引き金となる非弾性効果が重要であることを示すため, 過去の実験データに新たな光を照射し, メソスコピックコンデンサの力学における明確な相互作用効果を示す。

This review illustrates how Local Fermi Liquid (LFL) theories describe the strongly correlated and coherent low-energy dynamics of quantum dot devices. This approach consists in an effective elastic scattering theory, accounting exactly for strong correlations. Here, we focus on the mesoscopic capacitor and recent experiments achieving Coulomb-induced quantum state transfer. Extending to out-of-equilibrium regimes, aiming at triggered single electron emission, we illustrate how inelastic effects become crucial, requiring approaches beyond LFLs, shedding new light on past experimental data, by showing clear interaction effects in the dynamics of mesoscopic capacitors.
翻訳日:2023-05-23 08:59:21 公開日:2020-08-31
# 量子計算のための量子制限ボルツマンマシン

Quantum restricted Boltzmann machine universal for quantum computation ( http://arxiv.org/abs/2005.11970v3 )

ライセンス: Link先を確認
Yusen Wu, Chunyan Wei, Sujuan Qin, Qiaoyan Wen, and Fei Gao(参考訳) 量子物理学における多体問題によって生じる課題は、複雑性の高い多体波動関数で符号化される非自明な相関を記述することが難しいことに由来する。 量子ニューラルネットワーク(quantum neural network)は、大規模波動関数を表現する強力なツールを提供する。 重要なオープン問題は、単一層量子ニューラルネットワークの表現力境界が正確に何であるかである。 本稿では,2局所ハミルトニアンを設計し,それに基づいて量子制限ボルツマンマシン(QRBM,すなわち単一層量子ニューラルネットワーク)を提供する。 提案するqrbmには以下の2つの特徴がある。 1)量子計算タスクの実装には普遍的であることが証明された。 (2)ノイズの多い中間スケール量子(nisq)デバイス上で効率的に実装できる。 提案したQRBMを用いて、超伝導量子チップ上の分子のギブス状態(熱状態)だけでなく基底状態を含む物理的関心の顕著な場合の波動関数の計算に成功した。 実験の結果,提案したQRBMは許容誤差で上記の波動関数を計算できることがわかった。

The challenge posed by the many-body problem in quantum physics originates from the difficulty of describing the nontrivial correlations encoded in the many-body wave functions with high complexity. Quantum neural network provides a powerful tool to represent the large-scale wave function, which has aroused widespread concern in the quantum superiority era. A significant open problem is what exactly the representational power boundary of the single-layer quantum neural network is. In this paper, we design a 2-local Hamiltonian and then give a kind of Quantum Restricted Boltzmann Machine (QRBM, i.e. single-layer quantum neural network) based on it. The proposed QRBM has the following two salient features. (1) It is proved universal for implementing quantum computation tasks. (2) It can be efficiently implemented on the Noisy Intermediate-Scale Quantum (NISQ) devices. We successfully utilize the proposed QRBM to compute the wave functions for the notable cases of physical interest including the ground state as well as the Gibbs state (thermal state) of molecules on the superconducting quantum chip. The experimental results illustrate the proposed QRBM can compute the above wave functions with an acceptable error.
翻訳日:2023-05-18 12:28:44 公開日:2020-08-31
# ブラックホール複雑性パズルの解説

Remarks on Black Hole Complexity Puzzle ( http://arxiv.org/abs/2005.12491v3 )

ライセンス: Link先を確認
Beni Yoshida(参考訳) 量子回路の複雑性とワームホール体積の増大に関するads/cft対応における一定の概念的パズルは、bouland-fefferman-vazirani と susskind によって同定されている。 本稿では,このパズルの解法を提案し,バルクオブザーバからの重力反発による体積測定の計算的近道がないことを論じて,量子拡張チャーチチューリング理論を保存した。 計算複雑性の観点からのファイアウォールパズルのある種の強化、およびその潜在的な解決についても述べる。

Recently a certain conceptual puzzle in the AdS/CFT correspondence, concerning the growth of quantum circuit complexity and the wormhole volume, has been identified by Bouland-Fefferman-Vazirani and Susskind. In this note, we propose a resolution of the puzzle and save the quantum Extended Church-Turing thesis by arguing that there is no computational shortcut in measuring the volume due to gravitational backreaction from bulk observers. A certain strengthening of the firewall puzzle from the computational complexity perspective, as well as its potential resolution, is also presented.
翻訳日:2023-05-18 07:56:12 公開日:2020-08-31
# 境界デフォーカス付き量子イジング鎖

Quantum Ising chain with boundary dephasing ( http://arxiv.org/abs/2006.00746v2 )

ライセンス: Link先を確認
Naoyuki Shibata, Hosho Katsura(参考訳) 境界を強調する量子イジングチェーンについて検討する。 ヒルベルト空間を2倍にすることで、モデルは仮想的な化学ポテンシャルを持つSu-Schrieffer-Heegerモデルにマッピングされる。 解析的および数値的に、リウヴィリアのギャップ、すなわちモデルの逆緩和時間(英語版)は、システムサイズ$ N $ as $ N^{-3} $でスケールすることを示した。

We study the quantum Ising chain with boundary dephasing. By doubling the Hilbert space, the model is mapped to the Su-Schrieffer-Heeger model with imaginary chemical potential at the edges. We show analytically and numerically that the Liouvillian gap, i.e., the inverse relaxation time of the model, scales with the system size $ N $ as $ N^{-3} $.
翻訳日:2023-05-17 11:38:25 公開日:2020-08-31
# 有限エミッション帯域における量子制限音源の定位とペア超解像

Quantum Limited Source Localization and Pair Superresolution under Finite Emission Bandwidth ( http://arxiv.org/abs/2006.00982v2 )

ライセンス: Link先を確認
Sudhakar Prasad(参考訳) 光子計数限界において、光系の点スプレッド関数(PSF)の2乗比である$w$と、求める局所化精度である$d$、すなわち$\alpha(w/d)^2$の2乗比としてスケールする最小光子コストが、光子計数限界において必要となる。 放射周波数スペクトルが有限である場合、逆二次スケーリングは変化しないと予想されるが、画像帯域幅が増加し、PSFが周波数依存の展開を行うにつれて、局所化の劣化により係数$\alpha$は増加しなければならない。 具体的には、量子フィッシャー情報(QFI)を計算することにより、2次元で局所化される点源の放出の平坦なスペクトルプロファイルの幅が増大するにつれて、$\alpha$が急速に増加するのに対処する。 QFI計算に必要とされる単光子密度演算子の固有値問題の解を得るための基礎として, プロラト球面関数の新規な利用により, 空間帯域幅パラメータによる連続状態問題の有効次元性の概念が発展する。 その後、QFIの考察を拡張して、有限帯域対超分解能問題を2次元で扱い、同様の結果を得る。 また、任意のプロファイルの発光パワースペクトルの一般化も検討する。

Optically localizing a single quasi-monochromatic source to sub-diffractive precisions entails, in the photon-counting limit, a minimum photon cost that scales as the squared ratio of the width, $w$, of the optical system's point-spread function (PSF) and the sought localization precision, $d$, i.e., as $\alpha(w/d)^2$. For sources with a finite emission-frequency spectrum, while the inverse quadratic scaling is expected to remain unchanged, the coefficient $\alpha$ must increase due to a degrading fidelity of localization as the imaging bandwidth increases and PSF undergoes a frequency-dependent widening. We specifically address how rapidly $\alpha$ must increase with increasing width of a flat-top spectral profile of emission of a point source being localized in two dimensions by an imager with a clear circular aperture by calculating quantum Fisher information (QFI), whose inverse yields the lowest possible unbiased-estimation variance of source-localization error. The novel use of prolate spheroidal wave functions as a basis for obtaining a solution of the eigenvalue problem of the single-photon density operator needed for the QFI calculation helps us develop the notion of an effective dimensionality of the continuous-state problem in terms of the associated space-bandwidth parameter. We subsequently extend our considerations of QFI to treat the finite-bandwidth pair superresolution problem in two dimensions, obtaining similar results. We also consider generalizations to emission power spectra of arbitrary profiles.
翻訳日:2023-05-17 11:29:17 公開日:2020-08-31
# SU(N)1 チャーン・サイモンズ理論、クリフォード群、エントロピーコーン

SU(N)1 Chern-Simons theory, the Clifford group, and Entropy Cone ( http://arxiv.org/abs/2008.02406v2 )

ライセンス: Link先を確認
Howard J. Schnitzer(参考訳) SU(N)1 に対するエントロピー円錐について論じる。 安定化状態は、N奇素数に対して SU(N)1 の位相作用素から構成できるが、SU(N)K; K >= 2 の場合ではない。 これは、位相エントロピー円錐が SU(N)K; K >= 2 の安定化エントロピー円錐に適切に含まれていることを意味する。

Entropy cones for SU(N)1 Chern-Simons theory are discussed. It is shown that stabilizer states can be constructed from topological operators in SU(N)1 for N odd prime, but not for SU(N)K; K >= 2. This implies that the topological entropy cone is properly contained in the stabilizer entropy cone for SU(N)K; K >= 2.
翻訳日:2023-05-07 00:17:37 公開日:2020-08-31
# 多体ガウス状態のテンソルネットワーク表現の効率的な構成

Efficient construction of tensor-network representations of many-body Gaussian states ( http://arxiv.org/abs/2008.05243v2 )

ライセンス: Link先を確認
Alexander N\"u{\ss}eler, Ish Dhand, Susana F. Huelga, Martin B. Plenio(参考訳) 本稿では,多体ガウス状態のテンソルネットワーク表現を効率よく,制御可能な誤差で構築する手法を提案する。 これらの状態は、ボソニックおよびフェルミイオン二次ハミルトニアンの基底状態と熱状態を含み、量子多体系の研究に必須である。 この手法は、妥当なパラメータ値に対して最大5桁のマグニチュードで多体ガウス状態を構築するための計算時間要件を改善し、hihertoが実現可能な範囲を超えてシミュレーションを可能にする。 本手法は,ガウス量子情報理論とテンソルネットワークに基づく数値計算法を組み合わせることで,テンソルネットワークシミュレーションにおいてガウス法の豊富なツールキットを活用できる可能性を開く。

We present a procedure to construct tensor-network representations of many-body Gaussian states efficiently and with a controllable error. These states include the ground and thermal states of bosonic and fermionic quadratic Hamiltonians, which are essential in the study of quantum many-body systems. The procedure improves computational time requirements for constructing many-body Gaussian states by up to five orders of magnitude for reasonable parameter values, thus allowing simulations beyond the range of what was hitherto feasible. Our procedure combines ideas from the theory of Gaussian quantum information with tensor-network based numerical methods thereby opening the possibility of exploiting the rich tool-kit of Gaussian methods in tensor-network simulations.
翻訳日:2023-05-06 11:48:49 公開日:2020-08-31
# オンライン学習におけるリビングインタラクションとフィードバックを用いたエンゲージメント向上効果の評価

Assessing the Effectiveness of Using Live Interactions and Feedback to Increase Engagement in Online Learning ( http://arxiv.org/abs/2008.08241v2 )

ライセンス: Link先を確認
Beth Porter, Burcin Bozkaya(参考訳) プロフェッショナル開発や他のタイプの職場トレーニングのための個人指導は、一般的にすべての参加者が成功するように社会的環境と即時フィードバックメカニズムを提供する。 オンラインの自己ペースの命令はこれらのメカニズムを欠き、個々の学習者のモチベーションと永続性に依存しており、多くの場合、完成率が低い。 本研究では,オンライン学習体験に有効なツールやライブフィードバックを導入することが,学習者のパフォーマンス,コースの持続性,補足的な読み書きや課題を完遂するための選挙に与える影響について検討した。 実験の結果,ライブインタラクションとすべてのパフォーマンス指標の間には,統計学的に有意な有意な相関が認められた。 ナショナル・サイエンス・ファウンデーション(National Science Foundation)が出資し、第1843391号を受賞。

In-person instruction for professional development or other types of workplace training provides a social environment and immediate feedback mechanisms that typically ensure all participants are successful. Online, self-paced instruction lacks these mechanisms and relies on the motivation and persistence of each individual learner, often resulting in low completion rates. In this study, we studied the effect of introducing enabling tools and live feedback into an online learning experience on learner performance in the course, persistence in the course, and election to complete supplemental readings and assignments. The findings from our experiments show positive correlations with strong statistical significance between live interactions and all performance measures studied. Research funded by the National Science Foundation, award number #1843391.
翻訳日:2023-05-05 20:44:06 公開日:2020-08-31
# 量子統計推論への幾何学的アプローチ

Geometric approach to quantum statistical inference ( http://arxiv.org/abs/2008.09129v2 )

ライセンス: Link先を確認
Marcin Jarzyna and Jan Kolodynski(参考訳) 仮説検定の量子統計推論タスクとその正準変動について検討し、それらの対応する数値(統計距離の測定値)の関係をレビューし、古典的設定とは対照的に量子理論において生じる重要な違いを実証する。 本分析では,データ推論問題に対する幾何学的アプローチに着目し,上記の測度を,確率分布の空間における距離の定量化や,密度行列の量子系を扱う場合の分散の特定の形式として正確に解釈することができる。 さらに、リーマン幾何学の標準言語(英語版)の助けを借りて、発散が引き起こさなければならないメトリクスと、そのようなメトリクスが自然に受け継がなければならない関係の両方を識別する。 最後に, 量子パラメータ推定, 速度限界, 熱力学問題に対する幾何学的アプローチの例示的応用について論じる。

We study quantum statistical inference tasks of hypothesis testing and their canonical variations, in order to review relations between their corresponding figures of merit---measures of statistical distance---and demonstrate the crucial differences which arise in the quantum regime in contrast to the classical setting. In our analysis, we primarily focus on the geometric approach to data inference problems, within which the aforementioned measures can be neatly interpreted as particular forms of divergences that quantify distances in the space of probability distributions or, when dealing with quantum systems, of density matrices. Moreover, with help of the standard language of Riemannian geometry we identify both the metrics such divergences must induce and the relations such metrics must then naturally inherit. Finally, we discuss exemplary applications of such a geometric approach to problems of quantum parameter estimation, "speed limits" and thermodynamics.
翻訳日:2023-05-05 12:17:03 公開日:2020-08-31
# 励起状態に対する自己整合M{\o}ller-Plesset摂動理論

Self-consistent M{\o}ller-Plesset Perturbation Theory For Excited States ( http://arxiv.org/abs/2008.10777v2 )

ライセンス: Link先を確認
Hong-Zhou Ye and Troy Van Voorhis(参考訳) 量子化学において、系の平均場解を取得し、ポストハートリー・フォック(HF)方式で電子相関を組み込むことは、基底状態計算の標準プロトコルの1つである。 原則として、このスキームは励起状態も記述できるが、主に平均場励起状態の特定が困難であるため、現在では広く使われていない。 近年の励起状態の軌道緩和により、自己整合励起状態解は様々な理論のレベルで日常的に配置できる。 本研究では,M{\o}ller-Plesset摂動理論を用いてHF励起状態の2次補正の可能性を検討する。 PT2 の様々な変種の中で、制限されたオープンシェル MP2 (ROMP2) は、最高の密度汎関数理論に匹敵する励起エネルギーを与え、$\sim 0.2$ eV 平均符号なし誤差を幅広い単一構成状態関数の励起に対して与える。

In quantum chemistry, obtaining a system's mean-field solution and incorporating electron correlation in a post Hartree-Fock (HF) manner comprise one of the standard protocols for ground-state calculations. In principle, this scheme can also describe excited states but is not widely used at present, primarily due to the difficulty of locating the mean-field excited states. With recent developments in excited-state orbital relaxation, self-consistent excited-state solutions can now be located routinely at various levels of theory. In this work, we explore the possibility of correcting HF excited states using M{\o}ller-Plesset perturbation theory to the second order. Among various PT2 variants, we find that the restricted open-shell MP2 (ROMP2) gives excitation energies comparable to the best density functional theory results, delivering $\sim 0.2$ eV mean unsigned error over a wide range of single-configuration state function excitations, at only non-iterative $O(N^5)$ computational scaling.
翻訳日:2023-05-05 00:10:34 公開日:2020-08-31
# アフリカガーナで3月から7月にかけてのcovid-19感染状況分析のためのtwitterインタラクション

Twitter Interaction to Analyze Covid-19 Impact in Ghana, Africa from March to July ( http://arxiv.org/abs/2008.12277v2 )

ライセンス: Link先を確認
Josimar Chire Saire, Kobby Panford-Quainoo(参考訳) 新型コロナウイルス(COVID-19)は、観光、ビジネス、教育など世界のさまざまな側面に影響を与えている。 すべての国と同様、世界的なパンデミックはガーナにも同様の影響を及ぼした。 この間、この国の市民は、感染病に関する情報を見つけて広めるプラットフォームとしてソーシャルネットワークを使用し、独自の意見や感情を共有してきた。 本研究では、テキストマイニングを用いて、ソーシャルネットワークであるtwitterから収集したデータから洞察を得る。 データを調査した結果、2020年3月から7月にかけてガーナのアクラ地方で発生した最も頻繁な話題を理解することができた。 このソーシャルネットワークの利用者のエンゲージメントは、当初3月に高かったが、4月から7月にかけて低下した。 その理由は、この病気が全国で発表されたとき、最初のショックを受け、人々が状況に適応し始めていたからだろう。 また、これらのツイートには、その時の個人の感情や精神状態を理解するための言葉もありました。

The novel coronavirus, COVID-19, has impacted various aspects of the world from tourism, business, education, and many more. Like for every country, the global pandemic has imposed similar effects on Ghana. During this period, citizens of this country have used social networks as a platform to find and disseminate information about the infectious disease and also share their own opinions and sentiments. In this study, we use text mining to draw insights from data collected from the social network, Twitter. Our exploration of the data led us to understand the most frequent topics raised in the Greater Accra region of Ghana from March to July 2020. We observe that the engagement of users of this social network was initially high in March but declined from April to July. The reason was probably that the people were becoming more adapted to the situation after an initial shock when the disease was announced in the country. We also found certain words in these tweets of users that enabled us to understand the sentiments and mental state of individuals at the time.
翻訳日:2023-05-04 19:40:39 公開日:2020-08-31
# 量子マグノニクスのニッチとしてのマグノンスキーズ

Magnon-squeezing as a niche of quantum magnonics ( http://arxiv.org/abs/2008.13536v1 )

ライセンス: Link先を確認
Akashdeep Kamra, Wolfgang Belzig, Arne Brataas(参考訳) 秩序磁石(マグノン)のスピン励起は磁気絶縁体内の輸送を媒介する。 ボソニック性は電子と定性的に区別する。 これらの特徴は、伝統的に光子によって実現される量子特性を含む。 この観点から、このような現象の直感的な議論を行う。 Equilibrium magnon-squeezingは、絡み合いなどの性質を含む光子と比較して、マグノンに特有の優位性を示す。 スピントロニクスと量子光学の分野の最近の進歩に基づいて、この量子マグノニクスの新たな分野における課題と機会を概説する。

The spin excitations of ordered magnets - magnons - mediate transport in magnetic insulators. Their bosonic nature makes them qualitatively distinct from electrons. These features include quantum properties traditionally realized with photons. In this perspective, we present an intuitive discussion of one such phenomenon. Equilibrium magnon-squeezing manifests unique advantageous with magnons as compared to photons, including properties such as entanglement. Building upon the recent progress in the fields of spintronics and quantum optics, we outline challenges and opportunities in this emerging field of quantum magnonics.
翻訳日:2023-05-04 05:44:11 公開日:2020-08-31
# トランスモン量子コンピュータのスーパーコンピュータシミュレーション

Supercomputer simulations of transmon quantum computers ( http://arxiv.org/abs/2008.13490v1 )

ライセンス: Link先を確認
Dennis Willsch(参考訳) 超伝導トランスモン量子ビットからなる量子コンピュータのシミュレータを開発した。 シミュレーションモデルは任意の数のトランスモンと共振器をサポートする。 量子ゲートは時間依存パルスによって実装される。 クロストーク、非計算状態へのリーク、トランモンと共振器の絡み合い、パルスによる制御エラーなどの非自明な効果が本質的に含まれている。 量子コンピュータの時間発展は、時間依存schr\"odinger方程式を解いて得られる。 シミュレーションアルゴリズムは高性能スーパーコンピュータのスケーラビリティに優れる。 最大16個のトランスモンと共振器のシミュレーション結果を示す。 さらに、このモデルは環境をシミュレートするために使用することができ、孤立系からリンドブラッドマスター方程式によって支配されるオープン量子系への遷移を示す。 また,電磁シミュレーションや実験からモデルパラメータを抽出する手法について述べる。 シミュレーション結果を,IBM Q Experience の NISQ プロセッサの実験と比較した。 我々は、トランスモン系におけるクロストークを探索する量子回路のシミュレーションと実験のほぼ完全な一致を見出した。 忠実度やダイヤモンド距離などの共通のゲート距離を調べることで、繰り返しゲートアプリケーションや実用的な量子アルゴリズムの性能を確実に予測できないことが分かる。 代替として、2つのトランスモンゲートセットトモグラフィの結果は例外的な予測力を持つことがわかった。 最後に,量子誤差補正とフォールトトレランスの理論に基づくプロトコルをテストする。 このプロトコルは,特性制御や測定誤差の存在下で,トランスモン量子コンピュータの性能を体系的に向上させる。

We develop a simulator for quantum computers composed of superconducting transmon qubits. The simulation model supports an arbitrary number of transmons and resonators. Quantum gates are implemented by time-dependent pulses. Nontrivial effects such as crosstalk, leakage to non-computational states, entanglement between transmons and resonators, and control errors due to the pulses are inherently included. The time evolution of the quantum computer is obtained by solving the time-dependent Schr\"odinger equation. The simulation algorithm shows excellent scalability on high-performance supercomputers. We present results for the simulation of up to 16 transmons and resonators. Additionally, the model can be used to simulate environments, and we demonstrate the transition from an isolated system to an open quantum system governed by a Lindblad master equation. We also describe a procedure to extract model parameters from electromagnetic simulations or experiments. We compare simulation results to experiments on several NISQ processors of the IBM Q Experience. We find nearly perfect agreement between simulation and experiment for quantum circuits designed to probe crosstalk in transmon systems. By studying common gate metrics such as the fidelity or the diamond distance, we find that they cannot reliably predict the performance of repeated gate applications or practical quantum algorithms. As an alternative, we find that the results from two-transmon gate set tomography have an exceptional predictive power. Finally, we test a protocol from the theory of quantum error correction and fault tolerance. We find that the protocol systematically improves the performance of transmon quantum computers in the presence of characteristic control and measurement errors.
翻訳日:2023-05-04 05:44:04 公開日:2020-08-31
# 任意の量子系における実数値確率振幅の任意測定

Arbitrary Measurement on Any Real-valued Probability Amplitude in Any Quantum System ( http://arxiv.org/abs/2008.13458v1 )

ライセンス: Link先を確認
Xu Guanlei(参考訳) 他の量子状態の確率振幅を測ることなく、一般単元量子系や多元量子系において任意の実数値確率振幅を達成する方法 決定論的多項式時間による任意の実数値確率振幅を、小さな誤差の下でどうやって達成するか? 本稿では,二元探索の考え方に基づいて,これらの問題を解くための新しい量子計測手法を提案する。 まず、単一の量子ビットを持つ量子状態の指数的速度アップを持つ測定アルゴリズムをよく設計する。 次に、測定アルゴリズムを一般多元量子系および特殊多元量子系における量子状態まで拡張する。 理論的解析により、提案手法は量子情報処理において、分離可能な測定と指数速度アップという2つの利点を持つ性能を持つことが示された。

How to achieve an arbitrary real-valued probability amplitude in the general single-partite or multipartite quantum system without measuring any other quantum state's probability amplitude? How to achieve an arbitrary real-valued probability amplitude with the deterministic polynomial time's complexity under a small given error? In this paper, one novel quantum measurement scheme is proposed to solve these questions based on the idea of binary searching. First, the measurement algorithm with the exponential speed-up on the quantum state with one single qubit is well-designed. Then, the measurement algorithm is extended to the quantum states in the general multipartite quantum system and the special multipartite quantum system. The theoretical analysis proves that the proposed quantum measurement scheme has the performance in quantum information processing with twofold advantages: separable measurement and exponential speed up.
翻訳日:2023-05-04 05:43:30 公開日:2020-08-31
# GDPRと人道的パーソナライゼーション

Beyond Our Behavior: The GDPR and Humanistic Personalization ( http://arxiv.org/abs/2008.13404v1 )

ライセンス: Link先を確認
Travis Greene, Galit Shmueli(参考訳) パーソナライゼーションは人間を真剣に受け止めるべきである。 これは、リコメンデータシステムが私たちの自己理解とアイデンティティの両方を形作る方法について、より深く理解する必要があります。 我々は、一般データ保護規則(GDPR)に基づく欧州の主要な人文主義的・哲学的思想を解き放ち、人文主義的パーソナライゼーションの新しいパラダイムを提案する。 人道的パーソナライゼーション(Humanistic Personalization)は、IEEEのEthically Aligned Design (EAD)の要求に反応し、基本的な人間の能力と価値に基づいている。 ヒューマニズム的パーソナライゼーション(Humanistic Personalization)は、個人の自己物語とインプット(個人データ)とレコメンダシステムの出力との間の主観的適合性である。 その際,非意識的(組織的)行動と意識的(反射的)行動の1つとして,暗黙的データ収集と明示的データ収集の区別を再構築する。 この区別は、機関、自己理解、政治参加に関する重要な倫理的および解釈的問題を引き起こす。 最後に,物語の正確さに重きを置くことで,データ被験者に対する認識的不公平の機会を減らせるかについて議論する。

Personalization should take the human person seriously. This requires a deeper understanding of how recommender systems can shape both our self-understanding and identity. We unpack key European humanistic and philosophical ideas underlying the General Data Protection Regulation (GDPR) and propose a new paradigm of humanistic personalization. Humanistic personalization responds to the IEEE's call for Ethically Aligned Design (EAD) and is based on fundamental human capacities and values. Humanistic personalization focuses on narrative accuracy: the subjective fit between a person's self-narrative and both the input (personal data) and output of a recommender system. In doing so, we re-frame the distinction between implicit and explicit data collection as one of nonconscious ("organismic") behavior and conscious ("reflective") action. This distinction raises important ethical and interpretive issues related to agency, self-understanding, and political participation. Finally, we discuss how an emphasis on narrative accuracy can reduce opportunities for epistemic injustice done to data subjects.
翻訳日:2023-05-04 05:43:20 公開日:2020-08-31
# 都市モザイク:大規模画像データを用いた街並みのビジュアル探索

Urban Mosaic: Visual Exploration of Streetscapes Using Large-Scale Image Data ( http://arxiv.org/abs/2008.13321v1 )

ライセンス: Link先を確認
Fabio Miranda, Maryam Hosseini, Marcos Lage, Harish Doraiswamy, Graham Dove, Claudio T. Silva(参考訳) 都市計画はますますデータ駆動型になっているが、都市規模のデータで設計し、人間規模でのインパクトに敏感で続けるという課題は、今日のジェーン・ジェイコブスと同じくらい重要である。 この課題に対処するUrban Mosaicは、空間的にも時間的にも密集した、ニューヨーク市の770万のストリートレベルの画像集合を1年間にわたって捉えた都市ファブリックを探索するツールだ。 専門家と協働して,都市モザイクを用いてアクセシビリティとモビリティ,保存とレトロフィッティングの課題を調査した。 そこで,このようなツールが都市と街路の橋渡しとなる可能性を示し,地理的に離れた地域を視覚的に比較したり,展開する都市開発を時間的に分析したりする活動を支援する。

Urban planning is increasingly data driven, yet the challenge of designing with data at a city scale and remaining sensitive to the impact at a human scale is as important today as it was for Jane Jacobs. We address this challenge with Urban Mosaic,a tool for exploring the urban fabric through a spatially and temporally dense data set of 7.7 million street-level images from New York City, captured over the period of a year. Working in collaboration with professional practitioners, we use Urban Mosaic to investigate questions of accessibility and mobility, and preservation and retrofitting. In doing so, we demonstrate how tools such as this might provide a bridge between the city and the street, by supporting activities such as visual comparison of geographically distant neighborhoods,and temporal analysis of unfolding urban development.
翻訳日:2023-05-04 05:42:00 公開日:2020-08-31
# 代数的観点からの量子大災害

Quantum catastrophes from an algebraic perspective ( http://arxiv.org/abs/2008.13717v1 )

ライセンス: Link先を確認
A. Leviatan and N. Gavrielov(参考訳) 量子キュープとバタフライ・カタストロフィーの性質を代数的観点から検討する。 解析では、相互作用するボソン模型ハミルトニアンを用いて、2つの非互換な動的対称性の限界を補間することにより、特定の四重極形間の量子相転移を記述する。 古典的性質は、コヒーレント状態を用いて、そのようなカタストロフィを示すランダウポテンシャルに関連する完全な位相図を構築することで決定され、量子的性質は、臨界ハミルトンの固有状態のスペクトル、遷移速度、対称性特性を分析することによって決定される。

We study the properties of quantum cusp and butterfly catastrophes from an algebraic viewpoint. The analysis employs an interacting boson model Hamiltonian describing quantum phase transitions between specific quadrupole shapes by interpolating between two incompatible dynamical symmetry limits. The classical properties are determined by using coherent states to construct the complete phase diagrams associated with Landau potentials exhibiting such catastrophes.The quantum properties are determined by analyzing the spectra, transition rates and symmetry character of the eigenstates of critical Hamiltonians.
翻訳日:2023-05-04 05:34:36 公開日:2020-08-31
# 損失の有無と不完全な検出における光のスクイーズ状態に対するCram\'er-Rao境界での伝送推定

Transmission Estimation at the Cram\'er-Rao Bound for Squeezed States of Light in the Presence of Loss and Imperfect Detection ( http://arxiv.org/abs/2008.13698v1 )

ライセンス: Link先を確認
Timothy S. Woodworth, Kam Wai Clifford Chan, Carla Hermann-Avigliano, and Alberto M. Marino(参考訳) 測定の精度を向上させるには、システムの探索から得られる関心量に関する情報を最大化する必要がある。 光ベースの測定では、このような拡張は2つのアプローチで達成でき、システムの尋問に使用される光子の数を増やし、光子当たりの量子フィッシャー情報量を増やすために光量子状態を使用する。 ここでは、多くの光子を持つ光の量子状態、すなわち明るい単モードと2モードの圧縮状態の利用を考える。 これらの状態は、大きなスクイージングの限界において、フォック状態と真空2モードスクイーズ状態によって達成される伝送推定のために光子当たりの最大量子フィッシャー情報に近づく。 我々が考える明るい状態は、光子当たりの最大量子フィッシャー情報を達成する量子状態よりもはるかに高いパワーで生成できるので、量子クラム・ラオ境界によって量子化されたより高い絶対精度が得られる。 送信推定精度に対するシステム外部の損失の影響について検討し、外部の損失がある場合でも、明るい圧縮状態に対して量子Cram\'er-Rao境界を飽和させる単純な測定手法を同定する。

Enhancing the precision of a measurement requires maximizing the information that can be gained about the quantity of interest from probing a system. For optical based measurements, such an enhancement can be achieved through two approaches, increasing the number of photons used to interrogate the system and using quantum states of light to increase the amount of quantum Fisher information gained per photon. Here we consider the use of quantum states of light with a large number of photons, namely the bright single-mode and two-mode squeezed states, that take advantage of both of these approaches for the problem of transmission estimation. We show that, in the limit of large squeezing, these states approach the maximum possible quantum Fisher information per photon for transmission estimation that is achieved with the Fock state and the vacuum two-mode squeezed state. Since the bright states we consider can be generated at much higher powers than the quantum states that achieve the maximum quantum Fisher information per photon, they can achieve an much higher absolute precision as quantified by the quantum Cram\'er-Rao bound. We discuss the effects of losses external to the system on the precision of transmission estimation and identify simple measurements techniques that can saturate the quantum Cram\'er-Rao bound for the bright squeezed states even in the presence of such external losses.
翻訳日:2023-05-04 05:34:27 公開日:2020-08-31
# ホノンによるトラップされたリドバーグ原子間のスピンスピン相互作用

Phonon-mediated spin-spin interactions between trapped Rydberg atoms ( http://arxiv.org/abs/2008.13622v1 )

ライセンス: Link先を確認
Rasmus Vestergaard Skannrup, R. Gerritsma, S. J. J. M. F. Kokkelmans(参考訳) 理論的には、光ツイーザーに閉じ込められた中性原子間におけるフォノンを介するスピンスピン相互作用の可能性を考察する。 レーザーが原子をライドバーグ状態と結合することで、集団運動モードが現れる。 これらの手法は、捕獲されたイオンで用いられるスキームと類似した原子間の効果的なスピンスピン相互作用や量子論理ゲートの仲介に使用できることを示す。 特に, rydberg ドレッシングを, 必要な相互作用を誘導する新しいスキームに採用し, m{\o}lmer-s{\o}rensen の絡み合いスキームの動作を再現できることを示した。 M{\o}lmer-S{\o}rensenゲートは、トラップされたイオン量子ビットを用いた新興量子コンピュータで広く使われ、現在検討中の量子ゲートの最も高い忠実度を特徴としている。 非零温度においても、2原子状態のコヒーレントな時間発展に対する任意に高い忠実性を見いだす。

We theoretically investigate the possibility of creating phonon-mediated spin-spin interactions between neutral atoms trapped in optical tweezers. By laser coupling the atoms to Rydberg states, collective modes of motion appear. We show that these can be used to mediate effective spin-spin interactions or quantum logic gates between the atoms in analogy to schemes employed in trapped ions. In particular, we employ Rydberg dressing in a novel scheme to induce the needed interaction, and we show that it is possible to replicate the working of the M{\o}lmer-S{\o}rensen entanglement scheme. The M{\o}lmer-S{\o}rensen gate is widely used in emerging quantum computers using trapped ion qubits and currently features some of the highest fidelities of any quantum gate under consideration. We find arbitrarily high fidelity for the coherent time evolution of the two-atom state even at non-zero temperature.
翻訳日:2023-05-04 05:32:58 公開日:2020-08-31
# 非相対論的粒子の磁気四極子モーメントと回転フレーム内の電場との相互作用 アン Phys 412 (2020) 168040''

Comment on: "Interaction of the magnetic quadrupole moment of a non-relativistic particle with an electric field in a rotating frame. Ann. Phys. 412 (2020) 168040'' ( http://arxiv.org/abs/2008.13604v1 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) 回転フレーム内の非相対論的粒子に対する磁気四極子モーメントと放射電場との相互作用の最近の処理を解析し、紙中の方程式の導出は厳密なものではないことを示す。 著者らは、2つの量子数の集合に対する固有値と固有関数を、2つの異なるモデルの解であるときに同じ物理問題に属するかのように提示した。 それに加えて、著者らは量子数の各集合に対する多重解の可能性についてコメントしなかった。

We analyze a recent treatment of the interaction of a magnetic quadrupole moment with a radial electric field for a non-relativistic particle in a rotating frame and show that the derivation of the equations in the paper is anything but rigorous. The authors presented eigenvalues and eigenfunctions for two sets of quantum numbers as if they belonged to the same physical problem when they are solutions for two different models. In addition to it, the authors failed to comment on the possibility of multiple solutions for every set of quantum numbers.
翻訳日:2023-05-04 05:32:41 公開日:2020-08-31
# 平面波ハミルトニアンの量子解法--対相関の最適化による仮想空間の橋渡し

Quantum Solvers for Plane-Wave Hamiltonians: Abridging Virtual Spaces Through the Optimization of Pairwise Correlations ( http://arxiv.org/abs/2009.00080v1 )

ライセンス: Link先を確認
Eric J. Bylaska, Duo Song, Nicholas P. Bauman, Karol Kowalski, Daniel Claudino, and Travis S. Humble(参考訳) MCSCFやCASSCFのような多体法では、1電子軌道の数が最適化され、使用する基底集合から独立しているため、平面波基底集合を用いることには問題はない。 しかし、選択構成相互作用(CI)や結合クラスタ(CC)といった量子コンピューティングで現在使われている手法では、システム内でかなりの量の電子-電子相関を捉えることができる仮想空間を持つことが必要である。 擬ポテンシャル平面波Hartree-Fock計算における仮想軌道は、クーロン反発のためしばしば散乱状態であり、充填された軌道と非常に弱い相互作用をする。 その結果、それらの間の相関エネルギーはごくわずかである。 1電子作用素から導かれる仮想空間の使用も試みられ、いくつかの相関が捉えられているが、その量は極めて低い。 これらの制限を克服するため,我々は小ペアワイズciハミルトニアンからの軌道を短縮コボと相関最適化した仮想軌道として最適化することにより,仮想空間を定義するための新しいアルゴリズムを開発した。 これらの手順により、わずかな軌道しか持たない仮想空間を導出することができ、かなりの量の相関関係を捉えることができる。 さらに、これらの導出された基底集合をフルCI(FCI)品質回帰を対象とする量子コンピューティングの計算に利用し、CCやM{\o}ller-Plesset摂動理論などの他の多体アプローチにも利用でき、擬ポテンシャル平面波基底法のための多体計算への扉を開くことができる。 H$_2$分子の場合、FCIと量子シミュレーションの両方において、FCI/cc-pVTZの結果と4つの仮想軌道で良好な一致を得ることができた。

For many-body methods such as MCSCF and CASSCF, in which the number of one-electron orbitals are optimized and independent of basis set used, there are no problems with using plane-wave basis sets. However, for methods currently used in quantum computing such as select configuration interaction (CI) and coupled cluster (CC) methods, it is necessary to have a virtual space that is able to capture a significant amount of electron-electron correlation in the system. The virtual orbitals in a pseudopotential plane-wave Hartree--Fock calculation, because of Coulomb repulsion, are often scattering states that interact very weakly with the filled orbitals. As a result, very little correlation energy is captured from them. The use of virtual spaces derived from the one-electron operators have also been tried, and while some correlation is captured, the amount is quite low. To overcome these limitations, we have been developing new classes of algorithms to define virtual spaces by optimizing orbitals from small pairwise CI Hamiltonians, which we term as correlation optimized virtual orbitals with the abbreviation COVOs. With these procedures we have been able to derive virtual spaces, containing only a few orbitals, that are able to capture a significant amount of correlation. Besides, using these derived basis sets for quantum computing calculations targeting full CI (FCI) quality-results, they can also be used in other many-body approaches, including CC and M{\o}ller--Plesset perturbation theories, and open up the door to many-body calculations for pseudopotential plane-wave basis set methods. For the H$_2$ molecule, we were able to obtain good agreement with FCI/cc-pVTZ results with just 4 virtual orbitals, for both FCI and quantum simulations.
翻訳日:2023-05-04 05:25:55 公開日:2020-08-31
# 複雑度とフロケダイナミクス:非平衡イジング相転移

Complexity and Floquet dynamics: non-equilibrium Ising phase transitions ( http://arxiv.org/abs/2009.00069v1 )

ライセンス: Link先を確認
Giancarlo Camilo and Daniel Teixeira(参考訳) ニールセンの幾何学的アプローチを用いて周期駆動横磁場イジングモデルの時間依存回路複雑性について検討した。 高周波駆動限界では、システムは駆動場の振幅に支配される非平衡相転移を示すことが知られている。 我々は、この状態の複雑さを解析的に計算し、異なる相を明確に区別し、初期の普遍線型挙動を示すことを示す。 また,時間平均複雑性を評価し,臨界点における非解析的行動の証拠を提供し,その起源を考察した。 最後に、特定の構成での量子力学の凍結と、フロッケ系における量子相転移を理解する新しいツールとしての複雑性の利用について述べる。

We study the time-dependent circuit complexity of the periodically driven transverse field Ising model using Nielsen's geometric approach. In the high-frequency driving limit the system is known to exhibit non-equilibrium phase transitions governed by the amplitude of the driving field. We analytically compute the complexity in this regime and show that it clearly distinguishes between the different phases, exhibiting a universal linear behavior at early times. We also evaluate the time averaged complexity, provide evidence of non-analytic behavior at the critical points, and discuss its origin. Finally, we comment on the freezing of quantum dynamics at specific configurations and on the use of complexity as a new tool to understand quantum phase transitions in Floquet systems.
翻訳日:2023-05-04 05:25:22 公開日:2020-08-31
# ワイル・ジョセフソン回路

Weyl Josephson Circuits ( http://arxiv.org/abs/2008.13758v1 )

ライセンス: Link先を確認
Valla Fatemi, Anton R. Akhmerov, Landry Bretheau(参考訳) ワイル・ジョセフソン回路:ワイルバンド構造をシミュレートする小さなジョセフソン接合回路を紹介する。 まず、所望の次元と対称性のクラスのブロッホ・ハミルトニアンに類似した設計回路に対する一般的なアプローチを定式化する。 次に、反転対称性を破った3次元ワイルハミルトニアンを生成し、位相相転移を起点とする6つの接合器を構築し解析する。 現在利用可能な超伝導回路技術は、凝縮物質系では到達不能なトポロジカル特性を探索する実験を可能にする。

We introduce Weyl Josephson circuits: small Josephson junction circuits that simulate Weyl band structures. We first formulate a general approach to design circuits that are analogous to Bloch Hamiltonians of a desired dimensionality and symmetry class. We then construct and analyze a six-junction device that produces a 3D Weyl Hamiltonian with broken inversion symmetry and in which topological phase transitions can be triggered \emph{in situ}. We argue that currently available superconducting circuit technology allows experiments that probe topological properties inaccessible in condensed matter systems.
翻訳日:2023-05-04 05:23:26 公開日:2020-08-31
# 量子ハイパーグラフ状態の位相スクイーズ

Phase Squeezing of Quantum Hypergraph States ( http://arxiv.org/abs/2009.01082v1 )

ライセンス: Link先を確認
Ramita Sarkar, Supriyo Dutta, Subhashish Banerjee, Prasanta K. Panigrahi(参考訳) $d$Vertices のハイパーグラフ $G$ に対応して、量子ハイパーグラフ状態は $|G\rangle = \frac{1}{\sqrt{2^d}}\sum_{n = 0}^{2^d - 1} (-1)^{f(n)} |n \rangle$ で定義される。 これらの状態の古典的でない性質を研究する。 我々は、次元 2^d$ のヒルベルト空間上の消滅と生成作用素を、数状態 $\{|n \rangle: n = 0, 1, \dots (2^d - 1)\}$ に作用すると考える。 エルミート数と位相作用素は有限次元において構成される。 これらの状態の位相の不確かさは、位相のスクイーズというアイデアに繋がる。 これらの状態は位相2次でのみ圧縮され、超グラフの頂点数にのみ依存する非古典性に対するアガルワル・タラ基準を満たすことが証明される。 また, 位相次数でコヒーレンスが観測されていることも指摘した。

Corresponding to a hypergraph $G$ with $d$ vertices, a quantum hypergraph state is defined by $|G\rangle = \frac{1}{\sqrt{2^d}}\sum_{n = 0}^{2^d - 1} (-1)^{f(n)} |n \rangle$, where $f$ is a $d$-variable Boolean function depending on the hypergraph $G$, and $|n \rangle$ denotes a binary vector of length $2^d$ with $1$ at $n$-th position for $n = 0, 1, \dots (2^d - 1)$. The non-classical properties of these states are studied. We consider annihilation and creation operator on the Hilbert space of dimension $2^d$ acting on the number states $\{|n \rangle: n = 0, 1, \dots (2^d - 1)\}$. The Hermitian number and phase operators, in finite dimensions, are constructed. The number-phase uncertainty for these states leads to the idea of phase squeezing. We establish that these states are squeezed in the phase quadrature only and satisfy the Agarwal-Tara criterion for non-classicality, which only depends on the number of vertices of the hypergraphs. We also point out that coherence is observed in the phase quadrature.
翻訳日:2023-05-04 05:16:43 公開日:2020-08-31
# 古量子化・角運動量・非解析問題

Old Quantization, Angular Momentum, and Nonanalytic Problems ( http://arxiv.org/abs/2009.01014v1 )

ライセンス: Link先を確認
Nelia Mann and Jessica Matli and Tuan Pham(参考訳) 非零角運動量を持つ状態に適用できる古い量子化の方法を検討し、球対称ポテンシャルを持つ系について定性的かつ定量的に有用な情報をもたらすことを示した。 まず、このモデルの水素への応用をレビューし、アインシュタイン・ブリョーアン・ケラー量子化が古い量子化状態と真の量子力学状態のミスマッチを解く方法について論じる。 次に,対数ポテンシャルと湯川ポテンシャルを持つ系を解析し,古量子化の結果をシュロディンガー方程式の解法と比較する。 従来の量子化手法は、与えられた主量子数に付随するエネルギー準位の普及に関する洞察を与え、エネルギーの定量的に正確な近似を与える。 この方法でシステムを分析するには、教育的に価値のある複数の数値法を合成し、古典力学と量子力学の関連性について深い洞察を与える。

We explore the method of old quantization as applied to states with nonzero angular momentum, and show that it leads to qualitatively and quantitatively useful information about systems with spherically symmetric potentials. We begin by reviewing the traditional application of this model to hydrogen, and discuss the way Einstein-Brillouin-Keller quantization resolves a mismatch between old quantization states and true quantum mechanical states. We then analyze systems with logarithmic and Yukawa potentials, and compare the results of old quantization to those from solving Schrodinger's equation. We show that the old quantization techniques provide insight into the spread of energy levels associated with a given principal quantum number, as well as giving quantitatively accurate approximations for the energies. Analyzing systems in this manner involves an educationally valuable synthesis of multiple numerical methods, as well as providing deeper insight into the connections between classical and quantum mechanical physics.
翻訳日:2023-05-04 05:15:59 公開日:2020-08-31
# 量子アニーリングを用いた深層ネットワークトレーニングと古典的手法の系統的比較

Systematic comparison of deep belief network training using quantum annealing vs. classical techniques ( http://arxiv.org/abs/2009.00134v1 )

ライセンス: Link先を確認
Joshua Job, Steve Adachi(参考訳) この研究では、深層ニューラルネットワークのトレーニングを支援するためにサンプリングエンジンとしてd-wave量子アニーラを用いた2015年の研究を再検討し、拡張する。 2015年の最初の結果は、より最近のD-Waveハードウェアで再現された。 この量子支援トレーニング手法を,オプティマイザの異なる選択による対比的発散,ステップ数の増加(cd-k),シミュレート・アニーリング(sa)など,より幅広い古典的手法と比較した。 量子支援トレーニングは依然としてgibbsサンプリングに基づく手法でcdを上回っているが、saはクエンチライクなスケジュールと、高温での1回のスイープと、目標温度での1つのスイープを用いて、量子支援トレーニングのパフォーマンスを自明に一致させることができる。

In this work we revisit and expand on a 2015 study that used a D-Wave quantum annealer as a sampling engine to assist in the training of a Deep Neural Network. The original 2015 results were reproduced using more recent D-Wave hardware. We systematically compare this quantum-assisted training method to a wider range of classical techniques, including: Contrastive Divergence with a different choice of optimizer; Contrastive Divergence with an increased number of steps (CD-k); and Simulated Annealing (SA). We find that quantum-assisted training still outperforms the CD with Gibbs sampling-based techniques; however, SA is able to match the performance of quantum-assisted training trivially using a quench-like schedule with a single sweep at high temperature followed by one at the target temperature.
翻訳日:2023-05-04 05:15:06 公開日:2020-08-31
# スピン反転変換による量子アニールの均一暗号化

Homomorphic Encryption for Quantum Annealing with Spin Reversal Transformations ( http://arxiv.org/abs/2009.00111v1 )

ライセンス: Link先を確認
Daniel O'Malley and John K. Golden(参考訳) ホモモルフィック暗号は、古典コンピューティングにおいて数十年にわたって研究されてきた分野である。 準同型暗号の基本的な目標は、オスカーが計算の入力や計算結果を知ることなく、アリスに対して(信頼できない)オスカーが計算を行うことである。 アリスはオスカーに送る前に入力を暗号化し、オスカーは暗号化されたデータに直接計算を行い、暗号化結果を生成する。 その後、OscarはAliceに計算結果を送信し、それを復号することができる。 本稿では,スピン反転変換に基づく量子アニーリングにおける準同型暗号の手法について述べる。 これは古典計算における同型暗号へのアプローチとは対照的であり、計算コストは大幅に増加する。 これは、量子アニールと古典計算の間の性能ギャップが、両方のパラダイムが同相暗号を使用すると減少することを意味する。 さらに、量子アニールはクラウドにネイティブであるため、量子アニールには同型暗号化が重要であり、サードパーティ(信頼できないオスカーなど)が計算を実行する。 健康保険可搬性と説明責任法(Health Insurance Portability and Accountability Act)に基づく健康関連データなどの機密情報が量子アニールで処理される場合、そのような技術が有用である。

Homomorphic encryption has been an area of study in classical computing for decades. The fundamental goal of homomorphic encryption is to enable (untrusted) Oscar to perform a computation for Alice without Oscar knowing the input to the computation or the output from the computation. Alice encrypts the input before sending it to Oscar, and Oscar performs the computation directly on the encrypted data, producing an encrypted result. Oscar then sends the encrypted result of the computation back to Alice, who can decrypt it. We describe an approach to homomorphic encryption for quantum annealing based on spin reversal transformations and show that it comes with little or no performance penalty. This is in contrast to approaches to homomorphic encryption for classical computing, which incur a significant additional computational cost. This implies that the performance gap between quantum annealing and classical computing is reduced when both paradigms use homomorphic encryption. Further, homomorphic encryption is critical for quantum annealing because quantum annealers are native to the cloud -- a third party (such as untrusted Oscar) performs the computation. If sensitive information, such as health-related data subject to the Health Insurance Portability and Accountability Act, is to be processed with quantum annealers, such a technique could be useful.
翻訳日:2023-05-04 05:14:26 公開日:2020-08-31
# ガウス状態判別のためのガウス演算と測定の限界とその状態比較への応用

Limit of Gaussian operations and measurements for Gaussian state discrimination, and its application to state comparison ( http://arxiv.org/abs/2009.00108v1 )

ライセンス: Link先を確認
David E. Roberson, Shuro Izumi, Wojciech Roga, Jonas S. Neergaard-Nielsen, Masahiro Takeoka, Ulrik L. Andersen(参考訳) 任意の大域ガウス演算と一般ガウス測定が許されたとき、ある種類の多モードガウス状態とその混合状態から量子状態を識別・比較する最適な方法を決定する。 我々は、共有軸に沿って任意に変位する多モードコヒーレント状態の混合を含むいわゆる定数-$\hat{p}$変位状態を考える。 まず,大域的あるいは局所的なガウス変換や一般化ガウス測度が,各モードに別々に適用された単純なホモダイン測度や,結果の古典的後処理よりも優れた判別方法をもたらすことを示す。 この結果はバイナリ状態比較問題に適用される。 各モードで個別に測定されるホモダイン測定は、二項状態比較において最良のガウス測定であることを示す。 さらに,二元コヒーレント状態に対する最適ガウス戦略の性能を,光子検出を用いた非ガウス戦略と比較した。

We determine the optimal method of discriminating and comparing quantum states from a certain class of multimode Gaussian states and their mixtures when arbitrary global Gaussian operations and general Gaussian measurements are allowed. We consider the so-called constant-$\hat{p}$ displaced states which include mixtures of multimode coherent states arbitrarily displaced along a common axis. We first show that no global or local Gaussian transformations or generalized Gaussian measurements can lead to a better discrimination method than simple homodyne measurements applied to each mode separately and classical postprocessing of the results. This result is applied to binary state comparison problems. We show that homodyne measurements, separately performed on each mode, are the best Gaussian measurement for binary state comparison. We further compare the performance of the optimal Gaussian strategy for binary coherent states comparison with these of non-Gaussian strategies using photon detections.
翻訳日:2023-05-04 05:14:05 公開日:2020-08-31
# スマートフォンデータから多発性硬化症を診断するディープラーニングアプローチ

A Deep Learning Approach to Diagnosing Multiple Sclerosis from Smartphone Data ( http://arxiv.org/abs/2001.09748v3 )

ライセンス: Link先を確認
Patrick Schwab, Walter Karlen(参考訳) 多発性硬化症(ms)は、幅広い症状を伴う中枢神経系に影響を及ぼす。 msは、例えば、痛み、気分の変化、疲労を引き起こし、人の運動、スピーチ、視覚機能を妨げる可能性がある。 msの診断は通常、類似の症状を持つ他の疾患を除外するための複雑な臨床評価と検査の組み合わせを含む。 スマートフォンなどの新しい技術は、長期にわたって症状の存在と強度を定量化することによって、MSの症状を客観的に評価するのに役立つ可能性がある。 本稿では,多層パーセプトロンと神経ソフトアテンションを組み合わせることで,スマートフォンの長期監視データにおけるパターンの学習を改善する,スマートフォン由来のデジタルバイオマーカーからmsを検出するためのディープラーニング手法を提案する。 774人の参加者のコホートデータを用いて,本研究のディープラーニングモデルでは,msの有無と受信者特性曲線下の領域が0.88 (95% ci: 0.70, 0.88) であることの判別が可能であることを実証した。 スマートフォンのデータから得られたデジタルバイオマーカーは,将来的にはmsの診断基準となる可能性が示唆された。

Multiple sclerosis (MS) affects the central nervous system with a wide range of symptoms. MS can, for example, cause pain, changes in mood and fatigue, and may impair a person's movement, speech and visual functions. Diagnosis of MS typically involves a combination of complex clinical assessments and tests to rule out other diseases with similar symptoms. New technologies, such as smartphone monitoring in free-living conditions, could potentially aid in objectively assessing the symptoms of MS by quantifying symptom presence and intensity over long periods of time. Here, we present a deep-learning approach to diagnosing MS from smartphone-derived digital biomarkers that uses a novel combination of a multilayer perceptron with neural soft attention to improve learning of patterns in long-term smartphone monitoring data. Using data from a cohort of 774 participants, we demonstrate that our deep-learning models are able to distinguish between people with and without MS with an area under the receiver operating characteristic curve of 0.88 (95% CI: 0.70, 0.88). Our experimental results indicate that digital biomarkers derived from smartphone data could in the future be used as additional diagnostic criteria for MS.
翻訳日:2023-01-16 04:14:31 公開日:2020-08-31
# 可変範囲相互作用を持つ閉じ込めイオン量子シミュレータにおける量子情報スクランブル

Quantum information scrambling in a trapped-ion quantum simulator with tunable range interactions ( http://arxiv.org/abs/2001.02176v2 )

ライセンス: Link先を確認
Manoj K. Joshi, Andreas Elben, Beno\^it Vermersch, Tiff Brydges, Christine Maier, Peter Zoller, Rainer Blatt, Christian F. Roos(参考訳) エルゴード多体量子系では、局所的に符号化された量子情報は時間進化の過程で局所的な測定にはアクセスできない。 この「スクランブル」の概念は、カオスや熱化の過程のような多体力学の深い理解を伴い、現在強い研究の関心を集めている。 本稿では,可変長距離相互作用スピン系を表す10量子ビットトラップイオン量子シミュレータ上でスクランブルする量子情報の最初の実験実験を行い,ランダム化測定による時間外順序相関子(otocs)の推定を行った。 また,本システムにおけるデコヒーレンスの役割を数値シミュレーションと比較し,R'enyiエンタングルメントエントロピーの測定により解析した。

In ergodic many-body quantum systems, locally encoded quantum information becomes, in the course of time evolution, inaccessible to local measurements. This concept of "scrambling" is currently of intense research interest, entailing a deep understanding of many-body dynamics such as the processes of chaos and thermalization. Here, we present first experimental demonstrations of quantum information scrambling on a 10-qubit trapped-ion quantum simulator representing a tunable long-range interacting spin system, by estimating out-of-time ordered correlators (OTOCs) through randomized measurements. We also analyze the role of decoherence in our system by comparing our measurements to numerical simulations and by measuring R\'enyi entanglement entropies.
翻訳日:2023-01-13 21:35:37 公開日:2020-08-31
# 形態的移動に対する階層的に分離した模倣

Hierarchically Decoupled Imitation for Morphological Transfer ( http://arxiv.org/abs/2003.01709v2 )

ライセンス: Link先を確認
Donald J. Hejna III, Pieter Abbeel, Lerrel Pinto(参考訳) 複雑な高次元エージェント上での長距離行動の学習は、ロボット学習の基本的な問題である。 このような課題に対して,形態学的に単純なエージェントから学習情報を転送することで,より複雑なエージェントのサンプル効率を大幅に向上させることができる。 この目的のために,我々は,独立して学習した低レベル政策と移行可能な高レベル政策の2つの部分に分けた階層的分離を提案する。 形態学におけるミスマッチによる転送性能の低下を補うために、我々は2つの重要なアイデアを貢献する。 まず、より単純なエージェントの低レベルを模倣するために複雑なエージェントの低レベルをインセンティブ化すると、ゼロショット高レベル転送が大幅に改善することを示す。 第2に,高レベルのKL正規化学習が学習を安定させ,モード崩壊を防ぐことを示す。 最後に、公にリリースされたナビゲーションおよび操作環境のスイート上で、形態学を横断する長距離タスクにおける階層的転送の適用性を示す。 私たちのコードとビデオはhttps://sites.google.com/berkeley.edu/morphology-transfer.orgにある。

Learning long-range behaviors on complex high-dimensional agents is a fundamental problem in robot learning. For such tasks, we argue that transferring learned information from a morphologically simpler agent can massively improve the sample efficiency of a more complex one. To this end, we propose a hierarchical decoupling of policies into two parts: an independently learned low-level policy and a transferable high-level policy. To remedy poor transfer performance due to mismatch in morphologies, we contribute two key ideas. First, we show that incentivizing a complex agent's low-level to imitate a simpler agent's low-level significantly improves zero-shot high-level transfer. Second, we show that KL-regularized training of the high level stabilizes learning and prevents mode-collapse. Finally, on a suite of publicly released navigation and manipulation environments, we demonstrate the applicability of hierarchical transfer on long-range tasks across morphologies. Our code and videos can be found at https://sites.google.com/berkeley.edu/morphology-transfer.
翻訳日:2022-12-26 21:40:09 公開日:2020-08-31
# マルチモーダルコンテキスト理解による多変量および許容軌道予測

Diverse and Admissible Trajectory Forecasting through Multimodal Context Understanding ( http://arxiv.org/abs/2003.03212v4 )

ライセンス: Link先を確認
Seong Hyeon Park, Gyubok Lee, Manoj Bhat, Jimin Seo, Minseok Kang, Jonathan Francis, Ashwin R. Jadhav, Paul Pu Liang and Louis-Philippe Morency(参考訳) 自律運転におけるマルチエージェント軌道予測は、安全で信頼性の高い意思決定のために、周囲の車両や歩行者の行動を正確に予測する必要がある。 これらの動的シーンにおける部分的可観測性のため、将来のエージェント軌道上の後方分布を直接得ることは難しい問題である。 現実的な実施環境では、各エージェントの将来の軌道は、意図した目標を達成するために複数のもっともらしい行動列を使用できるため、多様であり、物理的制約に従わなければならないため、許容可能である。 本稿では,マルチモーダルワールド|環境のシーンコンテキストから複数の入力信号を合成するモデルを提案する。 当社のモデルと2つの公開データセットの強力なベースラインとアブレーションを比較し,従来の最先端手法に比べて大幅なパフォーマンス向上を示した。 最後に、予測の多様性をさらに調査し評価するために、許容度基準を組み込んだ新しい指標を提供する。 コードは:https://github.com/kami93/CMU-DATF。

Multi-agent trajectory forecasting in autonomous driving requires an agent to accurately anticipate the behaviors of the surrounding vehicles and pedestrians, for safe and reliable decision-making. Due to partial observability in these dynamical scenes, directly obtaining the posterior distribution over future agent trajectories remains a challenging problem. In realistic embodied environments, each agent's future trajectories should be both diverse since multiple plausible sequences of actions can be used to reach its intended goals, and admissible since they must obey physical constraints and stay in drivable areas. In this paper, we propose a model that synthesizes multiple input signals from the multimodal world|the environment's scene context and interactions between multiple surrounding agents|to best model all diverse and admissible trajectories. We compare our model with strong baselines and ablations across two public datasets and show a significant performance improvement over previous state-of-the-art methods. Lastly, we offer new metrics incorporating admissibility criteria to further study and evaluate the diversity of predictions. Codes are at: https://github.com/kami93/CMU-DATF.
翻訳日:2022-12-26 01:28:23 公開日:2020-08-31
# コンテキスト動的価格設定における需要予測の不確かさの定量化

Uncertainty Quantification for Demand Prediction in Contextual Dynamic Pricing ( http://arxiv.org/abs/2003.07017v2 )

ライセンス: Link先を確認
Yining Wang and Xi Chen and Xiangyu Chang and Dongdong Ge(参考訳) データ駆動シーケンシャルな決定は、動的価格設定、在庫管理、品揃え最適化など、現代の運用管理における幅広い応用を見出した。 データ駆動シーケンシャルな意思決定に関する既存の研究は、収益を最大化するオンラインポリシーの設計に焦点を当てている。 しかし、基礎となる真のモデル関数(例えば、需要関数)に対する不確実性定量化の研究は、実践者にとって重要な問題である。 本稿では,動的価格設定における需要関数予測の問題を動機として,需要関数の信頼区間を精度良く構築する問題について検討する。 主な課題は、シーケンシャルに収集されたデータが最大確率推定値や経験的リスク最小化推定値にかなりの分布バイアスをもたらし、ウォルド検定のような古典的な統計学的アプローチがもはや有効ではないことである。 この課題に対処するために、偏りのあるアプローチを開発し、偏りのある推定器の漸近正規性を保証する。 これに基づいて,要求関数の点的信頼区間と一様信頼区間の両方を提供する。

Data-driven sequential decision has found a wide range of applications in modern operations management, such as dynamic pricing, inventory control, and assortment optimization. Most existing research on data-driven sequential decision focuses on designing an online policy to maximize the revenue. However, the research on uncertainty quantification on the underlying true model function (e.g., demand function), a critical problem for practitioners, has not been well explored. In this paper, using the problem of demand function prediction in dynamic pricing as the motivating example, we study the problem of constructing accurate confidence intervals for the demand function. The main challenge is that sequentially collected data leads to significant distributional bias in the maximum likelihood estimator or the empirical risk minimization estimate, making classical statistics approaches such as the Wald's test no longer valid. We address this challenge by developing a debiased approach and provide the asymptotic normality guarantee of the debiased estimator. Based this the debiased estimator, we provide both point-wise and uniform confidence intervals of the demand function.
翻訳日:2022-12-23 02:36:48 公開日:2020-08-31
# 欠落データのグラフモデルにおける完全法則同定:完全性結果

Full Law Identification In Graphical Models Of Missing Data: Completeness Results ( http://arxiv.org/abs/2004.04872v3 )

ライセンス: Link先を確認
Razieh Nabi, Rohit Bhattacharya, Ilya Shpitser(参考訳) データの欠如は、医療、経済学、社会科学など、科学研究のあらゆる分野における分析に影響を与える可能性がある。 非無視的欠如の存在下での偏りのない推論に対するいくつかのアプローチは、対象分布の仕様とその欠如過程を有向非巡回グラフに対して因果する確率分布として依存する。 本稿では,この欠落したデータ分布のクラスで識別可能なモデルのキャラクタリゼーションに関する長年にわたる疑問に対処する。 この分野における最初の完全性 -- 観測されたデータ分布から完全なデータ分布を回復するために必要な、十分なグラフィカルな条件 -- を提供する。 そして、これらのグラフィカルな条件と完全性の証明を、単に欠落しているだけでなく、完全に観察されていない設定に拡張することで、欠落したデータと未測定のコンファウンディングの両方の存在によって生じる可能性のある問題に同時に対処する。

Missing data has the potential to affect analyses conducted in all fields of scientific study, including healthcare, economics, and the social sciences. Several approaches to unbiased inference in the presence of non-ignorable missingness rely on the specification of the target distribution and its missingness process as a probability distribution that factorizes with respect to a directed acyclic graph. In this paper, we address the longstanding question of the characterization of models that are identifiable within this class of missing data distributions. We provide the first completeness result in this field of study -- necessary and sufficient graphical conditions under which, the full data distribution can be recovered from the observed data distribution. We then simultaneously address issues that may arise due to the presence of both missing data and unmeasured confounding, by extending these graphical conditions and proofs of completeness, to settings where some variables are not just missing, but completely unobserved.
翻訳日:2022-12-14 21:30:29 公開日:2020-08-31
# Cheaper Pre-training Lunch: 物体検出のための効率的なパラダイム

Cheaper Pre-training Lunch: An Efficient Paradigm for Object Detection ( http://arxiv.org/abs/2004.12178v2 )

ライセンス: Link先を確認
Dongzhan Zhou, Xinchi Zhou, Hongwen Zhang, Shuai Yi, Wanli Ouyang(参考訳) 本稿では,オブジェクト検出のための汎用的かつ効率的な事前学習パラダイムであるmontage pre-trainingを提案する。 モンテネージ事前トレーニングは,広く採用されているイメージネットプリトレーニングに比べて,1/4の計算資源しか消費せず,目標検出データセットのみを必要とする。このような効率的なパラダイムを構築するために,原画像から有用なサンプルを慎重に抽出し,モンタージュ方式でサンプルを組み立て,モデルの事前トレーニングにerf適応密分類戦略を用いて,潜在的な冗長性を低減する。 これらの設計には、空間利用を改善するための新しい入力パターンだけでなく、事前学習モデルの効果的な受容野を拡張するための新しい学習目的が含まれる。 モンタージュ事前トレーニングの効率と有効性は、MS-COCOデータセット上で広範な実験により検証され、結果から、モンタージュ事前トレーニングを用いたモデルが、ImageNet事前トレーニングと比較して、オンパーまたはより優れた検出性能を達成できることが示されている。

In this paper, we propose a general and efficient pre-training paradigm, Montage pre-training, for object detection. Montage pre-training needs only the target detection dataset while taking only 1/4 computational resources compared to the widely adopted ImageNet pre-training.To build such an efficient paradigm, we reduce the potential redundancy by carefully extracting useful samples from the original images, assembling samples in a Montage manner as input, and using an ERF-adaptive dense classification strategy for model pre-training. These designs include not only a new input pattern to improve the spatial utilization but also a novel learning objective to expand the effective receptive field of the pretrained model. The efficiency and effectiveness of Montage pre-training are validated by extensive experiments on the MS-COCO dataset, where the results indicate that the models using Montage pre-training are able to achieve on-par or even better detection performances compared with the ImageNet pre-training.
翻訳日:2022-12-09 22:02:29 公開日:2020-08-31
# 深部生成モデルによる絶対自由エネルギーの計算

Computing Absolute Free Energy with Deep Generative Models ( http://arxiv.org/abs/2005.00638v2 )

ライセンス: Link先を確認
Xinqiang Ding and Bin Zhang(参考訳) 自由エネルギーの迅速かつ正確な評価は、医薬品設計から材料工学まで幅広い応用がある。 絶対自由エネルギーの計算は、中間体を使わずに状態間の相対安定性を評価することができるため、特に興味深い。 本稿では,状態の絶対自由エネルギーを計算するための一般的な枠組みを提案する。 計算の鍵となるステップは、局所的なサンプル構成を用いた抽出可能な深層生成モデルによる参照状態の定義である。 この参照状態の絶対自由エネルギーは設計によりゼロである。 興味のある状態に対する自由エネルギーは、参照との違いとして決定することができる。 このアプローチを離散システムと連続システムの両方に適用し,その効果を実証した。 ベネット受入比法は作業に基づく近似式よりも正確で効率的な自由エネルギー推定を提供することがわかった。 本手法は,自由エネルギー差を計算する上で有用な戦略であると考えられる。

Fast and accurate evaluation of free energy has broad applications from drug design to material engineering. Computing the absolute free energy is of particular interest since it allows the assessment of the relative stability between states without the use of intermediates. In this letter, we introduce a general framework for calculating the absolute free energy of a state. A key step of the calculation is the definition of a reference state with tractable deep generative models using locally sampled configurations. The absolute free energy of this reference state is zero by design. The free energy for the state of interest can then be determined as the difference from the reference. We applied this approach to both discrete and continuous systems and demonstrated its effectiveness. It was found that the Bennett acceptance ratio method provides more accurate and efficient free energy estimations than approximate expressions based on work. We anticipate the method presented here to be a valuable strategy for computing free energy differences.
翻訳日:2022-12-08 00:30:15 公開日:2020-08-31
# AutoSpeech: 話者認識のためのニューラルネットワーク検索

AutoSpeech: Neural Architecture Search for Speaker Recognition ( http://arxiv.org/abs/2005.03215v2 )

ライセンス: Link先を確認
Shaojin Ding, Tianlong Chen, Xinyu Gong, Weiwei Zha, Zhangyang Wang(参考訳) 畳み込みニューラルネットワーク(cnns)に基づく話者認識システムは、しばしば、vgg-netやresnetのような市販のバックボーンで構築される。 しかし、これらのバックボーンはもともと画像分類のために提案されていたため、話者認識には適さない可能性がある。 設計空間を手動で探索することの禁止的な複雑さから,AutoSpeechという名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。 本アルゴリズムは,まずニューラルネットワークの最適動作の組み合わせを同定し,その後,ニューラルネットワークを複数回積み重ねることでcnnモデルを導出する。 最終話者認識モデルは、標準スキームを用いて導出したCNNモデルを訓練することにより得ることができる。 提案手法を評価するために,VoxCeleb1データセットを用いて話者識別と話者検証を行う。 その結果,提案手法から派生したcnnアーキテクチャは,vgg-m,resnet-18,resnet-34のバックボーンに基づく話者認識システムを大幅に上回り,モデルの複雑さを低減した。

Speaker recognition systems based on Convolutional Neural Networks (CNNs) are often built with off-the-shelf backbones such as VGG-Net or ResNet. However, these backbones were originally proposed for image classification, and therefore may not be naturally fit for speaker recognition. Due to the prohibitive complexity of manually exploring the design space, we propose the first neural architecture search approach approach for the speaker recognition tasks, named as AutoSpeech. Our algorithm first identifies the optimal operation combination in a neural cell and then derives a CNN model by stacking the neural cell for multiple times. The final speaker recognition model can be obtained by training the derived CNN model through the standard scheme. To evaluate the proposed approach, we conduct experiments on both speaker identification and speaker verification tasks using the VoxCeleb1 dataset. Results demonstrate that the derived CNN architectures from the proposed approach significantly outperform current speaker recognition systems based on VGG-M, ResNet-18, and ResNet-34 back-bones, while enjoying lower model complexity.
翻訳日:2022-12-06 00:10:32 公開日:2020-08-31
# 機械学習のためのデータストリームのスケールアップ分散処理

Scaling-up Distributed Processing of Data Streams for Machine Learning ( http://arxiv.org/abs/2005.08854v2 )

ライセンス: Link先を確認
Matthew Nokleby, Haroon Raja, and Waheed U. Bajwa(参考訳) 機械学習の多くの分野における新しい応用は、データストリームからの継続的な収集と学習を伴う。 これらのアプリケーションの推論を改善するには、ストリーミングデータを学習モデルにリアルタイムに組み込むことが不可欠である。 さらに、これらのアプリケーションは、地理的に分散したエンティティに本質的に収集されるか、メモリ、計算、プライバシの理由から故意に複数のマシンに分散されるデータを含むことが多い。 この分散ストリーミング環境でのモデルのトレーニングでは、物理的エンティティ間の通信リンクよりも協調的に確率的最適化問題を解く必要がある。 ストリーミングデータレートが計算ノードの処理能力や/または通信リンクのレートと比較して高い場合、これは難しい問題となる。 この問題と関連する問題に取り組むために、ここ数十年で大規模な研究が生まれている。 本稿では,計算・通信・ストリーミング速度のミスマッチを明示的に考慮した収束解析に重点を置いた,計算・帯域制限領域における大規模分散確率最適化手法について述べる。 特に、解決する方法に焦点を当てている。 (i)分散確率凸問題、及び (II)大域収束を可能にする幾何学構造を持つ非凸問題である分散主成分分析。 本稿では,高速ストリーミングデータに対して,分散アルゴリズム設計の観点からの最近の進歩について述べる。 さらに、これらの手法の根底にある保証をレビューし、システムは順序-最適速度で分散ストリーミングデータから学習できることを示す。

Emerging applications of machine learning in numerous areas involve continuous gathering of and learning from streams of data. Real-time incorporation of streaming data into the learned models is essential for improved inference in these applications. Further, these applications often involve data that are either inherently gathered at geographically distributed entities or that are intentionally distributed across multiple machines for memory, computational, and/or privacy reasons. Training of models in this distributed, streaming setting requires solving stochastic optimization problems in a collaborative manner over communication links between the physical entities. When the streaming data rate is high compared to the processing capabilities of compute nodes and/or the rate of the communications links, this poses a challenging question: how can one best leverage the incoming data for distributed training under constraints on computing capabilities and/or communications rate? A large body of research has emerged in recent decades to tackle this and related problems. This paper reviews recently developed methods that focus on large-scale distributed stochastic optimization in the compute- and bandwidth-limited regime, with an emphasis on convergence analysis that explicitly accounts for the mismatch between computation, communication and streaming rates. In particular, it focuses on methods that solve: (i) distributed stochastic convex problems, and (ii) distributed principal component analysis, which is a nonconvex problem with geometric structure that permits global convergence. For such methods, the paper discusses recent advances in terms of distributed algorithmic designs when faced with high-rate streaming data. Further, it reviews guarantees underlying these methods, which show there exist regimes in which systems can learn from distributed, streaming data at order-optimal rates.
翻訳日:2022-12-01 23:30:58 公開日:2020-08-31
# ロボットダイアログとナビゲーションタスクの学習と推論

Learning and Reasoning for Robot Dialog and Navigation Tasks ( http://arxiv.org/abs/2005.09833v2 )

ライセンス: Link先を確認
Keting Lu, Shiqi Zhang, Peter Stone, Xiaoping Chen(参考訳) 強化学習と確率的推論アルゴリズムは、それぞれ確率的文脈知識を持つ相互作用経験と推論から学習することを目的としている。 本研究では,強化学習と確率的推論手法の補完的強みを考察しながら,ロボットタスク完了のためのアルゴリズムを開発した。 ロボットは試行錯誤の経験から学び、彼らの宣言的な知識基盤を強化し、拡張された知識は潜在的に異なるタスクで学習プロセスをスピードアップするために使用できる。 対話やナビゲーションタスクを行う移動ロボットを用いて,開発したアルゴリズムを実装し,評価した。 その結果,人間知識による推論とタスク補完経験からの学習の両方により,ロボットの性能が向上することがわかった。 さらに興味深いことに、ロボットはナビゲーションタスクから学び、ダイアログ戦略を改善することができた。

Reinforcement learning and probabilistic reasoning algorithms aim at learning from interaction experiences and reasoning with probabilistic contextual knowledge respectively. In this research, we develop algorithms for robot task completions, while looking into the complementary strengths of reinforcement learning and probabilistic reasoning techniques. The robots learn from trial-and-error experiences to augment their declarative knowledge base, and the augmented knowledge can be used for speeding up the learning process in potentially different tasks. We have implemented and evaluated the developed algorithms using mobile robots conducting dialog and navigation tasks. From the results, we see that our robot's performance can be improved by both reasoning with human knowledge and learning from task-completion experience. More interestingly, the robot was able to learn from navigation tasks to improve its dialog strategies.
翻訳日:2022-12-01 05:30:23 公開日:2020-08-31
# BiQGEMM: バイナリ符号化に基づく量子DNNのためのルックアップテーブルによる行列乗算

BiQGEMM: Matrix Multiplication with Lookup Table For Binary-Coding-based Quantized DNNs ( http://arxiv.org/abs/2005.09904v2 )

ライセンス: Link先を確認
Yongkweon Jeon, Baeseong Park, Se Jung Kwon, Byeongwook Kim, Jeongin Yun, and Dongsoo Lee(参考訳) ディープニューラルネットワーク(DNN)のパラメータ数は、複雑なタスクをサポートし、モデルの精度を向上させるために急速に増加している。 それに対応して、計算量と必要なメモリフットプリントも増加する。 量子化は、DNNを圧縮することで、必要なストレージフットプリントが大幅に削減される間に計算を単純化する効率的な方法である。 残念なことに、商用CPUとGPUは、固定データ転送(32ビットなど)のみを許可するため、量子化を完全にサポートしていない。 その結果、重みが数ビットに量子化されても、CPUとGPUはメモリ帯域を浪費することなく複数の量子化重みにアクセスできる。 したがって、量子化の成功は効率的な計算エンジンの設計、特にほとんどのdnnの基本的な計算エンジンである行列の乗算に依存している。 本稿では,量子化DNNに特化した行列乗法であるBiQGEMMを提案する。 BiQGEMMは1つの命令で同時に複数の量子化重みにアクセスできる。 さらに、BiQGEMMは、量子化が限られた計算空間につながる場合に非常に冗長な中間結果を事前計算する。 事前計算された値はルックアップテーブルに格納され再利用されるので、BiQGEMMは全体の計算量を減らすことができる。 DNNが量子化される場合の従来の手法よりも,BiQGEMMの方が高い性能を示すことを示す。

The number of parameters in deep neural networks (DNNs) is rapidly increasing to support complicated tasks and to improve model accuracy. Correspondingly, the amount of computations and required memory footprint increase as well. Quantization is an efficient method to address such concerns by compressing DNNs such that computations can be simplified while required storage footprint is significantly reduced. Unfortunately, commercial CPUs and GPUs do not fully support quantization because only fixed data transfers (such as 32 bits) are allowed. As a result, even if weights are quantized into a few bits, CPUs and GPUs cannot access multiple quantized weights without memory bandwidth waste. Success of quantization in practice, hence, relies on an efficient computation engine design, especially for matrix multiplication that is a basic computation engine in most DNNs. In this paper, we propose a novel matrix multiplication method, called BiQGEMM, dedicated to quantized DNNs. BiQGEMM can access multiple quantized weights simultaneously in one instruction. In addition, BiQGEMM pre-computes intermediate results that are highly redundant when quantization leads to limited available computation space. Since pre-computed values are stored in lookup tables and reused, BiQGEMM achieves lower amount of overall computations. Our extensive experimental results show that BiQGEMM presents higher performance than conventional schemes when DNNs are quantized.
翻訳日:2022-12-01 04:46:08 公開日:2020-08-31
# 勾配の老化を伴う単一ニューロンの認識学習

Agnostic Learning of a Single Neuron with Gradient Descent ( http://arxiv.org/abs/2005.14426v3 )

ライセンス: Link先を確認
Spencer Frei and Yuan Cao and Quanquan Gu(参考訳) 期待される二乗損失 $\mathbb{E}_{(x,y)\sim \mathcal{D}}[(\sigma(w^\top x)-y)^2]$ で測定された最も適した単一ニューロンを学習する問題を考える。 アクティベーション関数 $\sigma$ は任意のリプシッツおよび非減少関数であり、最適化問題を非凸および非滑らかにし、一般化線形モデル設定における典型的なニューラルネットワーク活性化関数と逆リンク関数をカバーする。 ラベル $y$ と入力 $x$ の関係を仮定しないpac学習設定では、最適な人口リスクが $\mathsf{opt}$ である場合、勾配降下が多項式時間および$\sigma$ が厳密に増加するときのサンプル複雑性において、人口リスク $o(\mathsf{opt})+\epsilon$ を達成することが示されている。 ReLU 活性化の場合、我々の集団リスク保証は$O(\mathsf{OPT}^{1/2})+\epsilon$である。 ラベルが y = \sigma(v^\top x) + \xi$ for zero-mean sub-gaussian noise $\xi$ という形を取ると、勾配降下に対する人口リスクの保証は $\mathsf{opt} + \epsilon$ となる。 サンプルの複雑さとランタイムの保証は(ほぼ)次元独立であり、$\sigma$ が厳密に増加すると、境界を超えた分布的仮定は必要なくなる。 reluの場合、入力の限界分布に対する非退化仮定の下で同じ結果を示す。

We consider the problem of learning the best-fitting single neuron as measured by the expected square loss $\mathbb{E}_{(x,y)\sim \mathcal{D}}[(\sigma(w^\top x)-y)^2]$ over some unknown joint distribution $\mathcal{D}$ by using gradient descent to minimize the empirical risk induced by a set of i.i.d. samples $S\sim \mathcal{D}^n$. The activation function $\sigma$ is an arbitrary Lipschitz and non-decreasing function, making the optimization problem nonconvex and nonsmooth in general, and covers typical neural network activation functions and inverse link functions in the generalized linear model setting. In the agnostic PAC learning setting, where no assumption on the relationship between the labels $y$ and the input $x$ is made, if the optimal population risk is $\mathsf{OPT}$, we show that gradient descent achieves population risk $O(\mathsf{OPT})+\epsilon$ in polynomial time and sample complexity when $\sigma$ is strictly increasing. For the ReLU activation, our population risk guarantee is $O(\mathsf{OPT}^{1/2})+\epsilon$. When labels take the form $y = \sigma(v^\top x) + \xi$ for zero-mean sub-Gaussian noise $\xi$, we show that the population risk guarantees for gradient descent improve to $\mathsf{OPT} + \epsilon$. Our sample complexity and runtime guarantees are (almost) dimension independent, and when $\sigma$ is strictly increasing, require no distributional assumptions beyond boundedness. For ReLU, we show the same results under a nondegeneracy assumption for the marginal distribution of the input.
翻訳日:2022-11-26 23:04:49 公開日:2020-08-31
# チャネル状態情報と機械学習を用いた物理層認証

Physical-Layer Authentication Using Channel State Information and Machine Learning ( http://arxiv.org/abs/2006.03695v2 )

ライセンス: Link先を確認
Ken St. Germain, Frank Kragh(参考訳) 相互接続されたワイヤレス環境における強力な認証は、依然として重要なものであるが、時として難解な目標である。 チャネル機能を用いた物理層認証の研究は、様々なデバイスのネットワークセキュリティを改善する技術として有望である。 本稿では,機械学習と多入力多重出力通信チャネル情報を用いて,特定のデバイスを認証するか否かを判断する手法を提案する。 本研究は、無線環境からの受信チャネル状態情報の使用を分析し、受信チャネルデータで訓練された生成敵ニューラルネットワーク(gan)の雇用を実証し、送信装置の認証を行う。 我々は,様々な機械学習手法を比較し,局所外乱係数(LOF)アルゴリズムが,他のアルゴリズムよりも低信号対雑音比(SNR)で100%精度に達したことを確認した。 しかし, LOF が100%に達する前に, GAN はより低い SNR レベルにおいてより正確であることを示す。

Strong authentication in an interconnected wireless environment continues to be an important, but sometimes elusive goal. Research in physical-layer authentication using channel features holds promise as a technique to improve network security for a variety of devices. We propose the use of machine learning and measured multiple-input multiple-output communications channel information to make a decision on whether or not to authenticate a particular device. This work analyzes the use of received channel state information from the wireless environment and demonstrates the employment of a generative adversarial neural network (GAN) trained with received channel data to authenticate a transmitting device. We compared a variety of machine learning techniques and found that the local outlier factor (LOF) algorithm reached 100% accuracy at lower signal to noise ratios (SNR) than other algorithms. However, before LOF reached 100%, we also show that the GAN was more accurate at lower SNR levels.
翻訳日:2022-11-25 04:36:35 公開日:2020-08-31
# ディープラーニングのためのスパースGPUカーネル

Sparse GPU Kernels for Deep Learning ( http://arxiv.org/abs/2006.10901v2 )

ライセンス: Link先を確認
Trevor Gale, Matei Zaharia, Cliff Young, Erich Elsen(参考訳) 科学ワークロードは伝統的に、計算を高速化し、メモリ要求を減らすために、高いレベルの空間を利用してきた。 ディープニューラルネットワークはスパース化できるが、GPU上で実用的なスピードアップを実現することは困難である。 本研究では,深層学習アプリケーションからのスパース行列を解析し,計算の高速化に活用できる良好な特性を同定する。 これらの知見に基づいて,2つのスパース行列演算をニューラルネットワークに広く適用するための高性能GPUカーネル,スパース行列-密度行列乗算とサンプリング密度行列乗算を開発した。 当社のカーネルはnvidia v100 gpuのシングル精度ピークの27%に達しています。 カーネルを用いて、1.2-2.1倍の高速化と最大12.8倍のメモリ節約を実現するスパーストランスフォーマーとMobileNetモデルを精度を犠牲にすることなく示す。

Scientific workloads have traditionally exploited high levels of sparsity to accelerate computation and reduce memory requirements. While deep neural networks can be made sparse, achieving practical speedups on GPUs is difficult because these applications have relatively moderate levels of sparsity that are not sufficient for existing sparse kernels to outperform their dense counterparts. In this work, we study sparse matrices from deep learning applications and identify favorable properties that can be exploited to accelerate computation. Based on these insights, we develop high-performance GPU kernels for two sparse matrix operations widely applicable in neural networks: sparse matrix-dense matrix multiplication and sampled dense-dense matrix multiplication. Our kernels reach 27% of single-precision peak on Nvidia V100 GPUs. Using our kernels, we demonstrate sparse Transformer and MobileNet models that achieve 1.2-2.1x speedups and up to 12.8x memory savings without sacrificing accuracy.
翻訳日:2022-11-19 13:43:31 公開日:2020-08-31
# 定型資源不均質Kubernetesクラスタを用いた緊急着地フィールド同定のためのエンサンブルトランスファー学習

Ensemble Transfer Learning for Emergency Landing Field Identification on Moderate Resource Heterogeneous Kubernetes Cluster ( http://arxiv.org/abs/2006.14887v2 )

ライセンス: Link先を確認
Andreas Klos, Marius Rosenbaum, Wolfram Schiffmann(参考訳) 航空機の推力の完全な喪失は、パイロットの迅速かつ信頼性の高い決定を必要とする。 着陸場が公開されていない場合は、緊急着陸場を選択する必要がある。 適切な緊急着陸場の選択は、不要な航空機の損傷を避けるための重要な任務であり、民間人だけでなく乗員と乗客全員のリスクである。 特に観測機器の気象条件の場合、適切な緊急着陸地点のデータベースを使用することは不可欠である。 したがって,公開可能なデジタル正書法写真とディジタル表面モデルに基づいて,ニューラルネットワークのトレーニングとテストを容易にするために,異なるサンプルサイズのデータセットを作成した。 各データセットは、一連のデータ層から構成される。 これらのデータレイヤの最高の構成と、最も優れた転送学習モデルが選択される。 その後、サンプルサイズごとに選択されたモデルのある種のハイパーパラメータがベイジアンとバンドイットの最適化によって最適化される。 ハイパーパラメータチューニングは、自作のKubernetesクラスタで実行される。 モデル出力は,レイヤワイド関連伝搬を用いて入力データに対して検討した。 最適化されたモデルでは、セグメンテーションのパフォーマンスを改善するためにアンサンブルモデルを作成しました。 最後に、ライン=ヴェストファーレン北部アルンスベルク空港周辺の地域が分断され、緊急着陸地点が特定され、最終アプローチの障害物クリアランスの検証は考慮されていない。 これらの緊急着陸フィールドはPostgreSQLデータベースに格納される。

The full loss of thrust of an aircraft requires fast and reliable decisions of the pilot. If no published landing field is within reach, an emergency landing field must be selected. The choice of a suitable emergency landing field denotes a crucial task to avoid unnecessary damage of the aircraft, risk for the civil population as well as the crew and all passengers on board. Especially in case of instrument meteorological conditions it is indispensable to use a database of suitable emergency landing fields. Thus, based on public available digital orthographic photos and digital surface models, we created various datasets with different sample sizes to facilitate training and testing of neural networks. Each dataset consists of a set of data layers. The best compositions of these data layers as well as the best performing transfer learning models are selected. Subsequently, certain hyperparameters of the chosen models for each sample size are optimized with Bayesian and Bandit optimization. The hyperparameter tuning is performed with a self-made Kubernetes cluster. The models outputs were investigated with respect to the input data by the utilization of layer-wise relevance propagation. With optimized models we created an ensemble model to improve the segmentation performance. Finally, an area around the airport of Arnsberg in North Rhine-Westphalia was segmented and emergency landing fields are identified, while the verification of the final approach's obstacle clearance is left unconsidered. These emergency landing fields are stored in a PostgreSQL database.
翻訳日:2022-11-16 20:38:15 公開日:2020-08-31
# トランスフォーマーはrnn:リニアに注意を向けた高速自己回帰トランスフォーマー

Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention ( http://arxiv.org/abs/2006.16236v3 )

ライセンス: Link先を確認
Angelos Katharopoulos, Apoorv Vyas, Nikolaos Pappas and Fran\c{c}ois Fleuret(参考訳) トランスフォーマーはいくつかのタスクで顕著なパフォーマンスを達成するが、入力の長さに関して2次的な複雑さのため、非常に長いシーケンスでは明らかに遅い。 この制限に対処するために、自己アテンションをカーネル特徴写像の線形ドット積として表現し、行列積の結合性を利用して、$\mathcal{o}\left(n^2\right)$から$\mathcal{o}\left(n\right)$まで複雑さを減少させる。 この定式化は、自己回帰トランスフォーマーを劇的に加速する反復的実装を可能にし、リカレントニューラルネットワークとの関係を明らかにする。 線形変圧器はバニラ変圧器と同等の性能を示し、非常に長いシーケンスの自己回帰予測では最大4000倍高速である。

Transformers achieve remarkable performance in several tasks but due to their quadratic complexity, with respect to the input's length, they are prohibitively slow for very long sequences. To address this limitation, we express the self-attention as a linear dot-product of kernel feature maps and make use of the associativity property of matrix products to reduce the complexity from $\mathcal{O}\left(N^2\right)$ to $\mathcal{O}\left(N\right)$, where $N$ is the sequence length. We show that this formulation permits an iterative implementation that dramatically accelerates autoregressive transformers and reveals their relationship to recurrent neural networks. Our linear transformers achieve similar performance to vanilla transformers and they are up to 4000x faster on autoregressive prediction of very long sequences.
翻訳日:2022-11-15 13:54:42 公開日:2020-08-31
# 電子動力学予測のための分子ハミルトニアンの機械学習

Machine Learning a Molecular Hamiltonian for Predicting Electron Dynamics ( http://arxiv.org/abs/2007.09814v2 )

ライセンス: Link先を確認
Harish S. Bhat and Karnamohit Ranka and Christine M. Isborn(参考訳) 電子密度の行列値時系列から分子ハミルトニアン行列を学習するための計算法を開発した。 3つの小さな分子が示すように、結果として得られるハミルトニアンは電子密度の進化に利用でき、トレーニングデータを超える1000の時間ステップを伝播しても非常に正確な結果が得られる。 より厳密なテストとして、学習されたハミルトニアンを用いて、応用電界の存在下での電子動力学をシミュレートし、フィールドフリーのトレーニングデータを超えた問題に外挿する。 学習したハミルトニアンによって予測された電子力学は、基底の真理と密に定量的に一致している。 本手法は,ハミルトニアンの還元次元線形統計モデルと,時間依存ハートリーフォック理論における量子リウヴィル方程式の時間離散化を組み合わせたものである。 最小二乗解法を用いてモデルをトレーニングし、CPU集約的な最適化手順を避ける。 フィールドフリー問題とフィールドオン問題の両方において、トレーニングと伝播エラーを定量化し、今後の開発分野を強調する。

We develop a computational method to learn a molecular Hamiltonian matrix from matrix-valued time series of the electron density. As we demonstrate for three small molecules, the resulting Hamiltonians can be used for electron density evolution, producing highly accurate results even when propagating 1000 time steps beyond the training data. As a more rigorous test, we use the learned Hamiltonians to simulate electron dynamics in the presence of an applied electric field, extrapolating to a problem that is beyond the field-free training data. We find that the resulting electron dynamics predicted by our learned Hamiltonian are in close quantitative agreement with the ground truth. Our method relies on combining a reduced-dimensional, linear statistical model of the Hamiltonian with a time-discretization of the quantum Liouville equation within time-dependent Hartree Fock theory. We train the model using a least-squares solver, avoiding numerous, CPU-intensive optimization steps. For both field-free and field-on problems, we quantify training and propagation errors, highlighting areas for future development.
翻訳日:2022-11-09 00:06:28 公開日:2020-08-31
# 集合学習を用いたモバイルアプリのユーザインタフェースモジュールのインテリジェント探索

Intelligent Exploration for User Interface Modules of Mobile App with Collective Learning ( http://arxiv.org/abs/2007.14767v2 )

ライセンス: Link先を確認
Jingbo Zhou, Zhenwei Tang, Min Zhao, Xiang Ge, Fuzhen Zhuang, Meng Zhou, Liming Zou, Chenglei Yang, Hui Xiong(参考訳) モバイルアプリインターフェースは通常、ユーザインターフェースモジュールのセットで構成される。 これらのユーザインターフェースモジュールを適切に設計する方法は、モバイルアプリのユーザ満足度を達成する上で不可欠です。 しかし,設計者の判断に頼る以外,ユーザインタフェースモジュールの設計変数を決定する方法はほとんどない。 通常、各設計変数のキー変更を検証するには、厳格な後処理ステップが必要である。 したがって、テスト可能な設計ソリューションはごくわずかしかありません。 多くのモジュールが存在するため、最適な設計ソリューションを見つけるのに時間がかかり、ほとんど不可能です。 この目的のために,ユーザインタフェースモジュールの設計ソリューションを,集合機械学習アプローチで迅速かつインテリジェントに探索するフレームワークであるFEELERを紹介する。 FEELERはデザイナーが様々なデザインソリューションの好みのスコアを定量的に測定するのに役立つ。 中国で最もポピュラーなモバイルアプリのひとつであるbaiduアプリにおけるユーザインタフェースモジュール設計の適用性を示すため,2つの実生活データセットについて広範な実験を行った。

A mobile app interface usually consists of a set of user interface modules. How to properly design these user interface modules is vital to achieving user satisfaction for a mobile app. However, there are few methods to determine design variables for user interface modules except for relying on the judgment of designers. Usually, a laborious post-processing step is necessary to verify the key change of each design variable. Therefore, there is a only very limited amount of design solutions that can be tested. It is timeconsuming and almost impossible to figure out the best design solutions as there are many modules. To this end, we introduce FEELER, a framework to fast and intelligently explore design solutions of user interface modules with a collective machine learning approach. FEELER can help designers quantitatively measure the preference score of different design solutions, aiming to facilitate the designers to conveniently and quickly adjust user interface module. We conducted extensive experimental evaluations on two real-life datasets to demonstrate its applicability in real-life cases of user interface module design in the Baidu App, which is one of the most popular mobile apps in China.
翻訳日:2022-11-08 05:55:11 公開日:2020-08-31
# スマートフォンのコロケーションは友達を検知できるか? モデル化の仕方次第です

Can Smartphone Co-locations Detect Friendship? It Depends How You Model It ( http://arxiv.org/abs/2008.02919v3 )

ライセンス: Link先を確認
Momin M. Malik, Afsaneh Doryab, Michael Merrill, J\"urgen Pfeffer, Anind K. Dey(参考訳) 本稿では、友情、その強さ、および友愛会の会員が収集したスマートフォンの位置データからの変化を検知する研究について述べる。 ランダムなベースラインの30%以上で、友人関係や親密な友情を検知する、豊富なコロケーション特徴とビルド分類器を抽出する。 我々は、クロスバリデーションスキーマを設計して、特定のアプリケーション設定でモデルパフォーマンスをテストする。

We present a study to detect friendship, its strength, and its change from smartphone location data collectedamong members of a fraternity. We extract a rich set of co-location features and build classifiers that detectfriendships and close friendship at 30% above a random baseline. We design cross-validation schema to testour model performance in specific application settings, finding it robust to seeing new dyads and to temporalvariance.
翻訳日:2022-11-02 02:06:13 公開日:2020-08-31
# 低分解能タンパク質構造分類のための転写学習

Transfer Learning for Protein Structure Classification at Low Resolution ( http://arxiv.org/abs/2008.04757v4 )

ライセンス: Link先を確認
Alexander Hudson and Shaogang Gong(参考訳) 構造決定は分子レベルでタンパク質の機能を理解する上で鍵となる。 アミノ酸配列の構造と機能の予測には大きな進歩があったが、研究者は詳細なタンパク質のコンホメーションを可視化するために高価で時間を要する分析方法に頼る必要がある。 本研究では,2次元行列で表される高解像度(3A)構造で訓練された深部畳み込みニューラルネットワークを用いて,低解像度で決定された構造から,タンパク質のクラスと構造を正確に(3A)予測できることを実証した。 そこで我々は,低解像度で高速で低コストなタンパク質構造分類の概念の証明と,機能予測への拡張の基礎を提供する。 入力表現が分類性能に及ぼす影響について検討し,細粒度構造予測には側鎖情報が必要でないことを示した。 最後に,高分解能,低分解能,NMRで決定された構造が共通の特徴空間に存在することを確認する。

Structure determination is key to understanding protein function at a molecular level. Whilst significant advances have been made in predicting structure and function from amino acid sequence, researchers must still rely on expensive, time-consuming analytical methods to visualise detailed protein conformation. In this study, we demonstrate that it is possible to make accurate ($\geq$80%) predictions of protein class and architecture from structures determined at low ($>$3A) resolution, using a deep convolutional neural network trained on high-resolution ($\leq$3A) structures represented as 2D matrices. Thus, we provide proof of concept for high-speed, low-cost protein structure classification at low resolution, and a basis for extension to prediction of function. We investigate the impact of the input representation on classification performance, showing that side-chain information may not be necessary for fine-grained structure predictions. Finally, we confirm that high-resolution, low-resolution and NMR-determined structures inhabit a common feature space, and thus provide a theoretical foundation for boosting with single-image super-resolution.
翻訳日:2022-10-31 11:13:19 公開日:2020-08-31
# TIDE: オブジェクト検出エラーを識別するための汎用ツールボックス

TIDE: A General Toolbox for Identifying Object Detection Errors ( http://arxiv.org/abs/2008.08115v2 )

ライセンス: Link先を確認
Daniel Bolya, Sean Foley, James Hays, Judy Hoffman(参考訳) 我々は、オブジェクト検出およびインスタンス分割アルゴリズムにおけるエラーの原因を分析するためのフレームワークおよび関連するツールボックスであるtideを紹介する。 重要なことは、我々のフレームワークはデータセットにまたがって適用でき、基盤となる予測システムに関する知識を必要とせずに直接予測ファイルを出力することができる。 したがって、我々のフレームワークは、各モデルの強みと弱みを包括的に分析しながら、標準的なmAP計算の代替として使用できる。 エラーを6つのタイプに分割し、重要なことは、エラーが全体的なパフォーマンスに与える影響を分離する方法で各エラーの寄与を測定するテクニックを最初に導入することです。 このような表現は、4つのデータセットと7つの認識モデルにわたる詳細な分析を通じて、正確で包括的な結論を導き出す上で重要である。 https://dbolya.github.io/tide/

We introduce TIDE, a framework and associated toolbox for analyzing the sources of error in object detection and instance segmentation algorithms. Importantly, our framework is applicable across datasets and can be applied directly to output prediction files without required knowledge of the underlying prediction system. Thus, our framework can be used as a drop-in replacement for the standard mAP computation while providing a comprehensive analysis of each model's strengths and weaknesses. We segment errors into six types and, crucially, are the first to introduce a technique for measuring the contribution of each error in a way that isolates its effect on overall performance. We show that such a representation is critical for drawing accurate, comprehensive conclusions through in-depth analysis across 4 datasets and 7 recognition models. Available at https://dbolya.github.io/tide/
翻訳日:2022-10-27 21:48:11 公開日:2020-08-31
# リーマン多様体上の非制約最適化

Unconstrained optimisation on Riemannian manifolds ( http://arxiv.org/abs/2008.11091v2 )

ライセンス: Link先を確認
Tuyen Trung Truong(参考訳) 本稿では、 (Local-) Backtracking Gradient Descent and New Q-Newton's method to the Riemannian set. ここでは、X が有限次元の一般リーマン多様体であり、$f:X\rightarrow \mathbb{R}$ a $C^2$ function that is Morse (つまり、すべての臨界点は非退化である)であるような結果のいくつかを簡単に述べることができる。 bf定理。 } リーマン局所追跡勾配Descentアルゴリズムにおけるハイパーパラメータのランダムな選択と初期点$x_0$のランダムな選択に対して、このアルゴリズムによって構築されたシーケンス$\{x_n\}$ (i)最低額のf$に収束する (ii) 最終的にすべてのコンパクト部分集合は $x$ となる(言い換えれば、$x$ の無限大に発散する)。 もし$f$ がコンパクトな部分レベルを持つなら、以前の選択肢のみが生じる。 収束率は、Armijoの古典的な論文と同じである。 bf定理。 f$が$C^3$であると仮定する。 リーマンの新しいq-ニュートン法における超パラメータのランダムな選択に対して、アルゴリズムによって構築された列が収束すると、極限は$f$の臨界点となる。 アルゴリズムに付随する力学系に対して、局所安定・中心多様体定理、つまり、$f$のサドル点に近いものが存在する。 極限点が非退化最小点であれば、収束の速度は二次的である。 さらに、x$ がリー群の開部分集合であり、初期点 $x_0$ がランダムに選択されるなら、サドル点をグローバルに避けることができる。 本稿では、リーマン逆追跡gdを用いてユークリッド空間内の有界球上の関数の最小値を求める一般的な方法を提案し、対称正方行列の最小固有値を計算するための明示的な計算を行う。

In this paper, we give explicit descriptions of versions of (Local-) Backtracking Gradient Descent and New Q-Newton's method to the Riemannian setting.Here are some easy to state consequences of results in this paper, where X is a general Riemannian manifold of finite dimension and $f:X\rightarrow \mathbb{R}$ a $C^2$ function which is Morse (that is, all its critical points are non-degenerate). {\bf Theorem.} For random choices of the hyperparameters in the Riemanian Local Backtracking Gradient Descent algorithm and for random choices of the initial point $x_0$, the sequence $\{x_n\}$ constructed by the algorithm either (i) converges to a local minimum of $f$ or (ii) eventually leaves every compact subsets of $X$ (in other words, diverges to infinity on $X$). If $f$ has compact sublevels, then only the former alternative happens. The convergence rate is the same as in the classical paper by Armijo. {\bf Theorem.} Assume that $f$ is $C^3$. For random choices of the hyperparametes in the Riemannian New Q-Newton's method, if the sequence constructed by the algorithm converges, then the limit is a critical point of $f$. We have a local Stable-Center manifold theorem, near saddle points of $f$, for the dynamical system associated to the algorithm. If the limit point is a non-degenerate minimum point, then the rate of convergence is quadratic. If moreover $X$ is an open subset of a Lie group and the initial point $x_0$ is chosen randomly, then we can globally avoid saddle points. As an application, we propose a general method using Riemannian Backtracking GD to find minimum of a function on a bounded ball in a Euclidean space, and do explicit calculations for calculating the smallest eigenvalue of a symmetric square matrix.
翻訳日:2022-10-25 03:45:08 公開日:2020-08-31
# 原子スケール特性予測のためのマルチスケールアプローチ

Multi-scale approach for the prediction of atomic scale properties ( http://arxiv.org/abs/2008.12122v2 )

ライセンス: Link先を確認
Andrea Grisafi and Jigyasa Nigam and Michele Ceriotti(参考訳) 電子近視性(electronic nearsightedness)は、凝縮物質の挙動を規定し、化学結合のような局所的な実体の記述を支持する基本的な原理の1つである。 局所性はまた、原子環境の短距離表現に基づく原子中心の寄与の総和として、凝集エネルギー、電子密度、および様々な応答特性などの量子力学的可観測物を予測する機械学習スキームの驚くべき成功の根底にある。 これらのアプローチの主な欠点の1つは、静電相互作用から長距離の性質を持つ量子非局在化まで、物理的効果を捉えることができないことである。 ここでは、同じフレームワークのローカル情報と非ローカル情報を組み合わせて、そのような制限を克服するマルチスケールスキームを構築する方法を示す。 このような特徴の最も単純なバージョンは、永久静電体の多極展開と形式的に対応できることを示す。 しかし、モデル構築のデータ駆動的性質により、この単純な形式は、異なるタイプの非局在化と集団的効果に取り組むのに適している。 分子物理学から表面科学, 生体物理学まで, 静電気, 分極, 分散によって駆動されるモデル相互作用に対する, このマルチスケールアプローチの能力を実証し, 誘電体応答関数の協調的挙動を示す。

Electronic nearsightedness is one of the fundamental principles governing the behavior of condensed matter and supporting its description in terms of local entities such as chemical bonds. Locality also underlies the tremendous success of machine-learning schemes that predict quantum mechanical observables -- such as the cohesive energy, the electron density, or a variety of response properties -- as a sum of atom-centred contributions, based on a short-range representation of atomic environments. One of the main shortcomings of these approaches is their inability to capture physical effects, ranging from electrostatic interactions to quantum delocalization, which have a long-range nature. Here we show how to build a multi-scale scheme that combines in the same framework local and non-local information, overcoming such limitations. We show that the simplest version of such features can be put in formal correspondence with a multipole expansion of permanent electrostatics. The data-driven nature of the model construction, however, makes this simple form suitable to tackle also different types of delocalized and collective effects. We present several examples that range from molecular physics, to surface science and biophysics, demonstrating the ability of this multi-scale approach to model interactions driven by electrostatics, polarization and dispersion, as well as the cooperative behavior of dielectric response functions.
翻訳日:2022-10-24 08:39:29 公開日:2020-08-31
# ニューラルネットワークシステムにおけるダイアグラムの使い方

How Researchers Use Diagrams in Communicating Neural Network Systems ( http://arxiv.org/abs/2008.12566v2 )

ライセンス: Link先を確認
Guy Clarke Marshall, Andr\'e Freitas, Caroline Jay(参考訳) ニューラルネットワークは一般的で効果的な機械学習コンポーネントであり、その応用は多くの領域で大きな科学的進歩をもたらしている。 ニューラルネットワークシステムの分野は急速に成長しているため、進歩がどのようにコミュニケーションされるかを理解することが重要である。 ダイアグラムはこの鍵であり、ほとんど全ての新しいシステムを記述する論文に現れている。 本稿では, インタビュー, カード分類, 質的フィードバックなどを通じて, 環境由来の事例を中心に構築されたニューラルネットワークシステム図の利用について検討する。 既存のデザイン,情報可視化,ユーザエクスペリエンスガイドラインのコンテキストにおいて,図の作成と解釈の両方において,使用法,知覚,嗜好の多様性が高いことが確認された。 既存のガイダンスとともにインタビューデータを考慮し、ニューラルネットワークシステム図の作成方法を改善するためのガイドラインを提案する。

Neural networks are a prevalent and effective machine learning component, and their application is leading to significant scientific progress in many domains. As the field of neural network systems is fast growing, it is important to understand how advances are communicated. Diagrams are key to this, appearing in almost all papers describing novel systems. This paper reports on a study into the use of neural network system diagrams, through interviews, card sorting, and qualitative feedback structured around ecologically-derived examples. We find high diversity of usage, perception and preference in both creation and interpretation of diagrams, examining this in the context of existing design, information visualisation, and user experience guidelines. Considering the interview data alongside existing guidance, we propose guidelines aiming to improve the way in which neural network system diagrams are constructed.
翻訳日:2022-10-24 02:24:16 公開日:2020-08-31
# Consensus Equilibrium を用いた画像再構成のためのデータと画像の事前統合

Data and Image Prior Integration for Image Reconstruction Using Consensus Equilibrium ( http://arxiv.org/abs/2009.00092v1 )

ライセンス: Link先を確認
Muhammad Usman Ghani and W. Clem Karl(参考訳) 画像領域先行モデルは、特にデータに制限がある場合、再構成画像の品質を改善することが示されている。 生データの前処理は、データドメインの事前の暗黙的あるいは明示的な含意を通じて、再構築の改善に有用性も別々に示している。 本研究では,画像再構成のためのデータ領域と画像領域の優先順位を統一的に統合する手法を提案する。 コンセンサス均衡フレームワークは、物理センサーモデル、データモデル、画像モデルを統合するために拡張されている。 この積分を実現するために、コンセンサス平衡で使用される従来の画像変数は、データドメイン量を表す変数で拡張される。 全体的な結果は、利用中の物理モデルと先行モデルと一致するデータと再構成された画像の両方の合計推定を生成する。 この研究で両ドメインで使用される先行モデルは、ディープニューラルネットワークを使用して作成される。 制限角CTと加速MRIの2つの応用において、データと画像領域の先行モデルの両方を組み込むことで得られる優れた品質を実証する。 これら両方のアプリケーションにおける以前のデータモデルは、欠落したデータの回復に重点を置いている。 実検層CTデータセットから90度の制限角トモグラフィー問題とシミュレーションデータセット上での4倍の高速化MRI問題について実験を行った。 新しいフレームワークは非常に柔軟で、不完全なデータを含む他の計算画像問題にも容易に適用できる。

Image domain prior models have been shown to improve the quality of reconstructed images, especially when data are limited. Pre-processing of raw data, through the implicit or explicit inclusion of data domain priors have separately also shown utility in improving reconstructions. In this work, a principled approach is presented allowing the unified integration of both data and image domain priors for improved image reconstruction. The consensus equilibrium framework is extended to integrate physical sensor models, data models, and image models. In order to achieve this integration, the conventional image variables used in consensus equilibrium are augmented with variables representing data domain quantities. The overall result produces combined estimates of both the data and the reconstructed image that is consistent with the physical models and prior models being utilized. The prior models used in both domains in this work are created using deep neural networks. The superior quality allowed by incorporating both data and image domain prior models is demonstrated for two applications: limited-angle CT and accelerated MRI. The prior data model in both these applications is focused on recovering missing data. Experimental results are presented for a 90 degree limited-angle tomography problem from a real checked-bagged CT dataset and a 4x accelerated MRI problem on a simulated dataset. The new framework is very flexible and can be easily applied to other computational imaging problems with imperfect data.
翻訳日:2022-10-23 07:45:04 公開日:2020-08-31
# 電子カルテを用いたCOVID-19関連死亡率のリアルタイム予測

Real-time Prediction of COVID-19 related Mortality using Electronic Health Records ( http://arxiv.org/abs/2008.13412v1 )

ライセンス: Link先を確認
Patrick Schwab, Arash Mehrjou, Sonali Parbhoo, Leo Anthony Celi, J\"urgen Hetzel, Markus Hofer, Bernhard Sch\"olkopf, Stefan Bauer(参考訳) コロナウイルス病2019(Coronavirus Disease 2019、COVID-19)は、重症急性呼吸器症候群ウイルス(SARS-CoV-2)によって引き起こされる新興の呼吸器疾患である。 感染の急増により、世界中の多くの医療機関が、リスクの高い患者の増加に配慮するよう圧力をかけられている。 感染者の数が多ければ、最も死亡リスクの高い患者を早期に特定することは、効果的な介入とケアの最適な優先順位付けを可能にするために重要である。 本稿では,covid-19関連死亡リスク評価のための臨床リスクスコアシステムであるcovid-19 early warning system(covews)を提案する。 CovEWSは、臨床に有意な予測パフォーマンスを持つ個々の患者に対して、事前に192時間(8日)まで連続的なリアルタイムリスクスコアを提供し、機械学習を用いて患者の電子健康記録(EHR)から自動的に抽出される。 米国(米国)、オーストラリア、マレーシア、インドの69の医療機関で観察された66430人の新型コロナウイルス陽性患者のコホートから、2863年以上の患者観察期間の合計データを用いて、CovEWSを訓練し、評価した。 5005人の患者の外部テストコホートでは、covewsはcovid-19関連死亡率を79.8\%$ (95\%$ confidence interval [ci]: 76.0$, 84.7\%$)から69.4\%$ (95\%$ ci: $57.6, 75.2\%$)まで予測している。 covewsは臨床医の早期介入を可能にし、covid-19関連死亡の予防や緩和に寄与する可能性がある。

Coronavirus Disease 2019 (COVID-19) is an emerging respiratory disease caused by the severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) with rapid human-to-human transmission and a high case fatality rate particularly in older patients. Due to the exponential growth of infections, many healthcare systems across the world are under pressure to care for increasing amounts of at-risk patients. Given the high number of infected patients, identifying patients with the highest mortality risk early is critical to enable effective intervention and optimal prioritisation of care. Here, we present the COVID-19 Early Warning System (CovEWS), a clinical risk scoring system for assessing COVID-19 related mortality risk. CovEWS provides continuous real-time risk scores for individual patients with clinically meaningful predictive performance up to 192 hours (8 days) in advance, and is automatically derived from patients' electronic health records (EHRs) using machine learning. We trained and evaluated CovEWS using de-identified data from a cohort of 66430 COVID-19 positive patients seen at over 69 healthcare institutions in the United States (US), Australia, Malaysia and India amounting to an aggregated total of over 2863 years of patient observation time. On an external test cohort of 5005 patients, CovEWS predicts COVID-19 related mortality from $78.8\%$ ($95\%$ confidence interval [CI]: $76.0$, $84.7\%$) to $69.4\%$ ($95\%$ CI: $57.6, 75.2\%$) specificity at a sensitivity greater than $95\%$ between respectively 1 and 192 hours prior to observed mortality events - significantly outperforming existing generic and COVID-19 specific clinical risk scores. CovEWS could enable clinicians to intervene at an earlier stage, and may therefore help in preventing or mitigating COVID-19 related mortality.
翻訳日:2022-10-23 07:44:45 公開日:2020-08-31
# 歴史依存専門家によるオンライン予測のための漸近的最適戦略

Asymptotically optimal strategies for online prediction with history-dependent experts ( http://arxiv.org/abs/2008.13703v1 )

ライセンス: Link先を確認
Jeff Calder and Nadejda Drenska(参考訳) 歴史に係わる専門家によるオンライン予測問題に対する鋭利な漸近的最適戦略を確立する。 予測問題は、$d$ dimensional de Bruijn graphと呼ばれる離散グラフ上で(部分的には)行われ、$d$は専門家が使う歴史の日数である。 以前の作業 [11] では$O(\varepsilon)$Optimical Strategy for $n=2$ experts と $d\leq 4$ days of history, [10] では$O(\varepsilon^{1/3})$Optimical Strategy for all $n\geq 2$ and all $d\geq 1$, ここでゲームは$N$ steps と $\varepsilon=N^{-1/2}$でプレイされる。 本稿では, de bruijn グラフ上の最適条件がグラフ poisson 方程式に対応していることを示し,すべての値が $n$ と $d$ に対して $o(\varepsilon)$ の最適戦略を確立する。

We establish sharp asymptotically optimal strategies for the problem of online prediction with history dependent experts. The prediction problem is played (in part) over a discrete graph called the $d$ dimensional de Bruijn graph, where $d$ is the number of days of history used by the experts. Previous work [11] established $O(\varepsilon)$ optimal strategies for $n=2$ experts and $d\leq 4$ days of history, while [10] established $O(\varepsilon^{1/3})$ optimal strategies for all $n\geq 2$ and all $d\geq 1$, where the game is played for $N$ steps and $\varepsilon=N^{-1/2}$. In this paper, we show that the optimality conditions over the de Bruijn graph correspond to a graph Poisson equation, and we establish $O(\varepsilon)$ optimal strategies for all values of $n$ and $d$.
翻訳日:2022-10-23 07:44:06 公開日:2020-08-31
# 高速グラント学習に基づくNOMAを用いた機械型通信

Fast Grant Learning-Based Approach for Machine Type Communications with NOMA ( http://arxiv.org/abs/2009.00105v1 )

ライセンス: Link先を確認
Manal El Tanab and Walaa Hamouda(参考訳) 本稿では,機械型デバイス (mtds) が混雑を回避しつつネットワークにアクセスすることを可能にする,非直交多重アクセス (noma) ベースの通信フレームワークを提案する。 提案手法は,まず,基地局 (BS) に要求を送らずにデバイスをスケジュールするために,高速なアップリンク付与を利用する2ステップ機構である。 次に、NOMAペアリングは信号のオーバーヘッドを低減するために分散的に使用される。 大規模シナリオにおけるBSにおける情報収集能力の制限のため、学習技術はそのような問題に最も適している。 したがって、高速付与MTDをスケジュールするためにマルチアームバンディット学習を採用する。 次に,高速なアップリンク付与スキームの2つの主な課題であるアクティブセット予測と最適スケジューリングの分離を支援する制約付きランダムノマペアリングを提案する。 NOMAを用いることで,予測エラーによるリソースの浪費を大幅に削減することができた。 さらに,提案手法は,達成可能な報酬の観点から,手頃な複雑さで,不実用的なOMA性能を容易に達成できることを示した。

In this paper, we propose a non-orthogonal multiple access (NOMA)-based communication framework that allows machine type devices (MTDs) to access the network while avoiding congestion. The proposed technique is a 2-step mechanism that first employs fast uplink grant to schedule the devices without sending a request to the base station (BS). Secondly, NOMA pairing is employed in a distributed manner to reduce signaling overhead. Due to the limited capability of information gathering at the BS in massive scenarios, learning techniques are best fit for such problems. Therefore, multi-arm bandit learning is adopted to schedule the fast grant MTDs. Then, constrained random NOMA pairing is proposed that assists in decoupling the two main challenges of fast uplink grant schemes namely, active set prediction and optimal scheduling. Using NOMA, we were able to significantly reduce the resource wastage due to prediction errors. Additionally, the results show that the proposed scheme can easily attain the impractical optimal OMA performance, in terms of the achievable rewards, at an affordable complexity.
翻訳日:2022-10-23 07:43:39 公開日:2020-08-31
# 奥行き画像の非ペア学習

Unpaired Learning of Deep Image Denoising ( http://arxiv.org/abs/2008.13711v1 )

ライセンス: Link先を確認
Xiaohe Wu, Ming Liu, Yue Cao, Dongwei Ren, Wangmeng Zuo(参考訳) クリーンでノイズの多い画像群から視覚障害者のネットワークを学習する作業について検討する。 このような問題の設定は、実世界のほとんどのアプリケーションでノイズの多いクリーンな画像を集めることができるため、一般的に実用的で価値のあるものである。 さらに、ノイズは信号に依存するが空間的に相関しないと仮定する。 本稿では, 自己教師付き学習と知識蒸留を組み込んだ2段階方式を提案する。 自己教師付き学習では,実雑音の画像のみから視覚を学習するための拡張盲点ネットワーク(D-BSN)を提案する。 ノイズの空間的独立性のため、1x1畳み込み層を積み重ねて各画像の雑音レベルマップを推定するネットワークを採用する。 D-BSNと画像固有ノイズモデル(CNN\_est)は、制約されたログを最大化することで共同で訓練することができる。 D-BSNの出力と推定雑音レベルマップから,ベイズ法則に基づいてデノナイジング性能を向上させることができる。 知識蒸留については,まず,学習ノイズモデルをクリーン画像に適用してペアトレーニング画像の合成を行い,第1段階で実際のノイズ画像と対応する発声結果を用いて,新たなペアセットを形成する。 そして、これら2組の集合を用いて既存の復調ネットワークを訓練することにより、究極の復調モデルを蒸留することができる。 実験により, 実世界の雑音画像と合成ノイズ画像の両方において, 定量的, 定性的な評価で良好に学習できることが確認された。

We investigate the task of learning blind image denoising networks from an unpaired set of clean and noisy images. Such problem setting generally is practical and valuable considering that it is feasible to collect unpaired noisy and clean images in most real-world applications. And we further assume that the noise can be signal dependent but is spatially uncorrelated. In order to facilitate unpaired learning of denoising network, this paper presents a two-stage scheme by incorporating self-supervised learning and knowledge distillation. For self-supervised learning, we suggest a dilated blind-spot network (D-BSN) to learn denoising solely from real noisy images. Due to the spatial independence of noise, we adopt a network by stacking 1x1 convolution layers to estimate the noise level map for each image. Both the D-BSN and image-specific noise model (CNN\_est) can be jointly trained via maximizing the constrained log-likelihood. Given the output of D-BSN and estimated noise level map, improved denoising performance can be further obtained based on the Bayes' rule. As for knowledge distillation, we first apply the learned noise models to clean images to synthesize a paired set of training images, and use the real noisy images and the corresponding denoising results in the first stage to form another paired set. Then, the ultimate denoising model can be distilled by training an existing denoising network using these two paired sets. Experiments show that our unpaired learning method performs favorably on both synthetic noisy images and real-world noisy photographs in terms of quantitative and qualitative evaluation.
翻訳日:2022-10-23 07:37:59 公開日:2020-08-31
# 異方性乱流による静的・動的シーンの画像再構成

Image Reconstruction of Static and Dynamic Scenes through Anisoplanatic Turbulence ( http://arxiv.org/abs/2009.00071v1 )

ライセンス: Link先を確認
Zhiyuan Mao, Nicholas Chimitt, Stanley Chan(参考訳) 地上の長距離受動的撮像システムは、しばしば乱気流による画質劣化に悩まされる。 このような乱れを除去する手法はあるが、その多くは動的シーンに拡張できない静的シーケンスに限られている。 さらに、乱流の物理は画像再構成アルゴリズムに統合されないことが多く、この手法の物理基盤は弱くなっている。 本稿では,静的および動的シーケンスの両方で大気乱流を緩和する統一的な手法を提案する。 既存の手法と比較して より良い結果が得られます (i)信頼性のある参照フレームを構築するための新しい時空非局所平均化手法 (ii)ラッキーフレームを生成するための幾何学的一貫性と鋭さの計量 (iii)ブラインドデコンボリューションのための点拡散関数の物理制約付き事前モデル。 合成および実長距離乱流列に基づく実験結果は,提案手法の性能を検証した。

Ground based long-range passive imaging systems often suffer from degraded image quality due to a turbulent atmosphere. While methods exist for removing such turbulent distortions, many are limited to static sequences which cannot be extended to dynamic scenes. In addition, the physics of the turbulence is often not integrated into the image reconstruction algorithms, making the physics foundations of the methods weak. In this paper, we present a unified method for atmospheric turbulence mitigation in both static and dynamic sequences. We are able to achieve better results compared to existing methods by utilizing (i) a novel space-time non-local averaging method to construct a reliable reference frame, (ii) a geometric consistency and a sharpness metric to generate the lucky frame, (iii) a physics-constrained prior model of the point spread function for blind deconvolution. Experimental results based on synthetic and real long-range turbulence sequences validate the performance of the proposed method.
翻訳日:2022-10-23 07:37:02 公開日:2020-08-31
# 強化学習を用いた自然刺激スコーピオンの制御

Control of a Nature-inspired Scorpion using Reinforcement Learning ( http://arxiv.org/abs/2008.13712v1 )

ライセンス: Link先を確認
Aakriti Agrawal, V S Rajashekhar, Rohitkumar Arasanipalai and Debasish Ghose(参考訳) 荒削りな地形や偵察場所を操作できる地上ロボットは、未知の領域をマッピングするのに非常に有用です。 また、人間の代わりに危険な場所を探索することもできる。 スコーピオンをモデルにした地上ロボットは、検出されていないものを横切ることができ、監視目的に使用できる。 そこで本稿では,スコーピオンにインスパイアされたロボットと,ナビゲーションのための強化学習(rl)ベースのコントローラのモデリングを提案する。 ロボットスコーピオンは、足の動きにシリアル4バー機構を使用する。 また、活発な尾と可動性の爪がある。 コントローラは、ロボットスコーピオンを目標のウェイポイントにナビゲートするように訓練される。 シミュレーション結果は,ロボットスコーピオンの効率的なナビゲーションを示す。

A terrestrial robot that can maneuver rough terrain and scout places is very useful in mapping out unknown areas. It can also be used explore dangerous areas in place of humans. A terrestrial robot modeled after a scorpion will be able to traverse undetected and can be used for surveillance purposes. Therefore, this paper proposes modelling of a scorpion inspired robot and a reinforcement learning (RL) based controller for navigation. The robot scorpion uses serial four bar mechanisms for the legs movements. It also has an active tail and a movable claw. The controller is trained to navigate the robot scorpion to the target waypoint. The simulation results demonstrate efficient navigation of the robot scorpion.
翻訳日:2022-10-23 07:36:53 公開日:2020-08-31
# Vyaktitv: パーソナリティ評価のためのマルチモーダルピアツーピアヒンディー語会話に基づくデータセット

Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset for Personality Assessment ( http://arxiv.org/abs/2008.13769v1 )

ライセンス: Link先を確認
Shahid Nawaz Khan, Maitree Leekha, Jainendra Shukla, Rajiv Ratn Shah(参考訳) パーソナリティ特性の自動検出は、メンタルヘルス認識や人的資源管理など、いくつかの応用に役立つ。 パーソナリティ検出のために導入されたほとんどのデータセットは、これらの特徴を個別に分析している。 しかし、性格は我々の社会的行動と密接に関連している。 さらに,低資源言語を用いたパーソナリティ分析に注目する研究はほとんどない。 この目的のために,新たなピアツーピアヒンディー語会話データセット vyaktitv を提案する。 参加者の質の高い音声とビデオ録音からなり、会話ごとにヒングリッシュのテキストによる書き起こしがある。 データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。 公共利用のためのデータセットを公開し、異なる次元の予備的な統計分析を行う。 最後に、データセットを使用できる様々なアプリケーションやタスクについても論じる。

Automatically detecting personality traits can aid several applications, such as mental health recognition and human resource management. Most datasets introduced for personality detection so far have analyzed these traits for each individual in isolation. However, personality is intimately linked to our social behavior. Furthermore, surprisingly little research has focused on personality analysis using low resource languages. To this end, we present a novel peer-to-peer Hindi conversation dataset- Vyaktitv. It consists of high-quality audio and video recordings of the participants, with Hinglish textual transcriptions for each conversation. The dataset also contains a rich set of socio-demographic features, like income, cultural orientation, amongst several others, for all the participants. We release the dataset for public use, as well as perform preliminary statistical analysis along the different dimensions. Finally, we also discuss various other applications and tasks for which the dataset can be employed.
翻訳日:2022-10-23 07:36:44 公開日:2020-08-31
# 自己回避歩行による重音からのランクワンスパイクの推定

Estimating Rank-One Spikes from Heavy-Tailed Noise via Self-Avoiding Walks ( http://arxiv.org/abs/2008.13735v1 )

ライセンス: Link先を確認
Jingqiu Ding, Samuel B.Hopkins, David Steurer(参考訳) 雑音分布の一般クラスに関して対称スパイク行列モデルについて検討した。 ランダムノイズ行列のランク1の変形がゼロ平均と単位分散で独立に分布している場合、そのランク1部を推定することが目的である。 ガウス雑音の場合、与えられた行列の最上位固有ベクトルは、例えば有名なbbp相転移の意味での最適統計的保証を達成するための広く研究された推定子である。 しかし、この推定器は重テールノイズに対して完全に故障する可能性がある。 本研究では,ガウス雑音においても最適であるbbpしきい値まで重み付き雑音に対応する推定器を示す。 我々は、行列の大きさが大きくなるにつれて、各エントリの分散が一定であるだけに依存する推定器の非漸近解析を与える。 これまでは、ノイズの高次モーメントが行列のサイズに依存しない定数で境界付けられた場合にのみ、これらの保証を達成する方法が知られていた。 我々の推定器はカラー符号化技術を用いて自己回避歩行を数えることで多項式時間で評価できる。 さらに、推定器をスパイクテンソルモデルに拡張し、類似の結果を確立する。

We study symmetric spiked matrix models with respect to a general class of noise distributions. Given a rank-1 deformation of a random noise matrix, whose entries are independently distributed with zero mean and unit variance, the goal is to estimate the rank-1 part. For the case of Gaussian noise, the top eigenvector of the given matrix is a widely-studied estimator known to achieve optimal statistical guarantees, e.g., in the sense of the celebrated BBP phase transition. However, this estimator can fail completely for heavy-tailed noise. In this work, we exhibit an estimator that works for heavy-tailed noise up to the BBP threshold that is optimal even for Gaussian noise. We give a non-asymptotic analysis of our estimator which relies only on the variance of each entry remaining constant as the size of the matrix grows: higher moments may grow arbitrarily fast or even fail to exist. Previously, it was only known how to achieve these guarantees if higher-order moments of the noises are bounded by a constant independent of the size of the matrix. Our estimator can be evaluated in polynomial time by counting self-avoiding walks via a color -coding technique. Moreover, we extend our estimator to spiked tensor models and establish analogous results.
翻訳日:2022-10-23 07:36:02 公開日:2020-08-31
# 多目的学習アプローチにおける演算重みによる効率・スパースニューラルネットワーク

Efficient and Sparse Neural Networks by Pruning Weights in a Multiobjective Learning Approach ( http://arxiv.org/abs/2008.13590v1 )

ライセンス: Link先を確認
Malena Reiners and Kathrin Klamroth and Michael Stiglmayr(参考訳) 過剰なパラメータ化と過剰フィッティングは、ディープニューラルネットワークの設計とトレーニングにおいて一般的な懸念である。 しかし、これらの戦略はほとんどの学習手法に準じ、時間と計算集約的な手順に悩まされている。 二目的最適化問題において、予測精度とネットワーク複雑性を2つの目的関数として扱うことにより、ニューラルネットワークのトレーニングに関する多目的視点を提案する。 例として,ネットワークパラメータの総コスト(あるいは複雑性)を評価するために,l1-ペナルティ関数を採用しながら予測精度の指標としてクロスエントロピーを用いる。 後者は、複雑さの低減を強化し、限界余分な計算コストだけを必要とする訓練中のプランニング手法と組み合わせられている。 多目的最適化の観点からは、これは本当に大規模な最適化問題である。 2つの異なる最適化パラダイムを比較する:一方、二目的問題から重み付きサムスカラー化へと変換するスカラー化ベースのアプローチを採用する。 一方,選好情報を必要とせず,単一のパレート最適解を生成する確率的多段階降下アルゴリズムを実装した。 第一に、適応的に選択されたスカラー化パラメータを用いた反復トレーニング実行により、好ましい膝溶液を同定する。 模範的畳み込みニューラルネットワークの予備的な数値計算結果から,ニューラルネットワークの複雑性の低減と精度低下の可能性が確認された。

Overparameterization and overfitting are common concerns when designing and training deep neural networks, that are often counteracted by pruning and regularization strategies. However, these strategies remain secondary to most learning approaches and suffer from time and computational intensive procedures. We suggest a multiobjective perspective on the training of neural networks by treating its prediction accuracy and the network complexity as two individual objective functions in a biobjective optimization problem. As a showcase example, we use the cross entropy as a measure of the prediction accuracy while adopting an l1-penalty function to assess the total cost (or complexity) of the network parameters. The latter is combined with an intra-training pruning approach that reinforces complexity reduction and requires only marginal extra computational cost. From the perspective of multiobjective optimization, this is a truly large-scale optimization problem. We compare two different optimization paradigms: On the one hand, we adopt a scalarization-based approach that transforms the biobjective problem into a series of weighted-sum scalarizations. On the other hand we implement stochastic multi-gradient descent algorithms that generate a single Pareto optimal solution without requiring or using preference information. In the first case, favorable knee solutions are identified by repeated training runs with adaptively selected scalarization parameters. Preliminary numerical results on exemplary convolutional neural networks confirm that large reductions in the complexity of neural networks with neglibile loss of accuracy are possible.
翻訳日:2022-10-23 07:35:32 公開日:2020-08-31
# トランジェントに基づく複雑系の分類

Classification of Complex Systems Based on Transients ( http://arxiv.org/abs/2008.13503v1 )

ライセンス: Link先を確認
Barbora Hudcova, Tomas Mikolov(参考訳) 人工生命をモデル化できるシステムを開発するためには,どのシステムが複雑な振る舞いを生成できるかを特定する必要がある。 決定論的離散空間と時間力学系の任意のクラスに適用可能な新しい分類法を提案する。 この方法は、ループに入る前にシステムの平均計算時間の異なる漸近挙動を区別する。 基本細胞オートマトンに適用すると,Wolframの手動分類と非常によく相関する分類結果が得られる。 さらに,2次元セルオートマトンを分類することにより,より複雑な計算モデルに容易に適用できることを示す。 この分類手法は複雑な構造が出現するシステムの開発に役立つと信じている。

In order to develop systems capable of modeling artificial life, we need to identify, which systems can produce complex behavior. We present a novel classification method applicable to any class of deterministic discrete space and time dynamical systems. The method distinguishes between different asymptotic behaviors of a system's average computation time before entering a loop. When applied to elementary cellular automata, we obtain classification results, which correlate very well with Wolfram's manual classification. Further, we use it to classify 2D cellular automata to show that our technique can easily be applied to more complex models of computation. We believe this classification method can help to develop systems, in which complex structures emerge.
翻訳日:2022-10-23 07:29:37 公開日:2020-08-31
# convolutional neural network-bagged decision tree:リアルタイムエネルギー消費量推定による電気自動車の走行距離不安軽減のためのハイブリッドアプローチ

Convolutional Neural Network-Bagged Decision Tree: A hybrid approach to reduce electric vehicle's driver's range anxiety by estimating energy consumption in real-time ( http://arxiv.org/abs/2008.13559v1 )

ライセンス: Link先を確認
Shatrughan Modi, Jhilik Bhattacharya, Prasenjit Basak(参考訳) 電気自動車(EV)の走行距離不安を克服するためには、正確なリアルタイムエネルギー消費推定が必要である。 温度,風速,バッテリのSOC,補助負荷,道路の高架化,車両の速度,加速度の影響を考慮し,CNN(Convolutional Neural Network)を用いてエネルギー消費量を推定するハイブリッドCNN-BDT手法が開発されている。 さらに、推定値を微調整するためにBDT(Bagged Decision Tree)を用いる。 既存の技術とは異なり、提案手法ではメーカーの内部車両パラメータは必要とせず、ノイズデータからでも複雑なパターンを簡単に学習できる。 既存の手法と比較した結果, 平均絶対エネルギー偏差が0.14で, 推定精度が向上した。

To overcome range anxiety problem of Electric Vehicles (EVs), an accurate real-time energy consumption estimation is necessary, which can be used to provide the EV's driver with information about the remaining range in real-time. A hybrid CNN-BDT approach has been developed, in which Convolutional Neural Network (CNN) is used to provide an energy consumption estimate considering the effect of temperature, wind speed, battery's SOC, auxiliary loads, road elevation, vehicle speed and acceleration. Further, Bagged Decision Tree (BDT) is used to fine tune the estimate. Unlike existing techniques, the proposed approach doesn't require internal vehicle parameters from manufacturer and can easily learn complex patterns even from noisy data. Comparison results with existing techniques show that the developed approach provides better estimates with least mean absolute energy deviation of 0.14.
翻訳日:2022-10-23 07:29:29 公開日:2020-08-31
# ai対応合法的マイクロディレクティブのロバスト性と脆性克服--自律的ai法的推論レベルの役割

Robustness and Overcoming Brittleness of AI-Enabled Legal Micro-Directives: The Role of Autonomous Levels of AI Legal Reasoning ( http://arxiv.org/abs/2009.02243v1 )

ライセンス: Link先を確認
Lance Eliot(参考訳) 法学者による最近の研究では、法律は必然的に法規から派生した、あるいは法規の目的の連続的な導出によって、またはそれ以外は自動的に生産される法規からなる法定マイクロディレクティブに変換され、社会全体で容易にアクセス可能な法定ディレクティブとして日常的に使用するための自動化によって伝播する可能性があると示唆されている。 This paper examines and extends the legal micro-directives theories in three crucial respects: (1) By indicating that legal micro-directives are likely to be AI-enabled and evolve over time in scope and velocity across the autonomous levels of AI Legal Reasoning, (2) By exploring the trade-offs between legal standards and legal rules as the imprinters of the micro-directives, and (3) By illuminating a set of brittleness exposures that can undermine legal micro-directives and proffering potential mitigating remedies to seek greater robustness in the instantiation and promulgation of such AI-powered lawful directives.

Recent research by legal scholars suggests that the law might inevitably be transformed into legal micro-directives consisting of legal rules that are derived from legal standards or that are otherwise produced automatically or via the consequent derivations of legal goals and then propagated via automation for everyday use as readily accessible lawful directives throughout society. This paper examines and extends the legal micro-directives theories in three crucial respects: (1) By indicating that legal micro-directives are likely to be AI-enabled and evolve over time in scope and velocity across the autonomous levels of AI Legal Reasoning, (2) By exploring the trade-offs between legal standards and legal rules as the imprinters of the micro-directives, and (3) By illuminating a set of brittleness exposures that can undermine legal micro-directives and proffering potential mitigating remedies to seek greater robustness in the instantiation and promulgation of such AI-powered lawful directives.
翻訳日:2022-10-23 07:28:57 公開日:2020-08-31
# ベイズネットワークを用いた予測能力成熟度定量化

Predictive Capability Maturity Quantification using Bayesian Network ( http://arxiv.org/abs/2010.03373v1 )

ライセンス: Link先を確認
Linyu Lin, Nam Dinh(参考訳) 原子力工学では、リスクインフォームド安全分析を支援するためにモデリングとシミュレーション(M&S)が広く用いられている。 核安全分析は重要な意味を持つため、シミュレーションの精度、すなわち、M&Sツールがシステムへの関心を適切に表現できる程度を評価するための検証プロセスが必要である。 しかし、データギャップのため、検証は不確実性の下で意思決定プロセスとなる。 専門家の知識と判断は、最終決定に対する証拠を収集し、選択し、特徴づけ、統合するために必要である。 しかし、CSAU: コードスケーリング、適用可能性、不確実性 (NUREG/CR-5249) と EMDAP: 評価モデル開発と評価プロセス (RG 1.203) では、このような意思決定プロセスは暗黙的で曖昧である。 シナリオが複雑である場合、知識バイアスや信頼できない判断は見過ごされ、シミュレーションの精度とそれに対応するリスクの不確実性を高める可能性がある。 したがって、実用的で透明で一貫性のある方法で、シミュレーションの適正性のための意思決定プロセスを定式化する枠組みが必要となる。 本稿では,検証活動から収集した情報に基づいてシミュレーションの妥当性を定量的に評価するためのフレームワークとして,ベイズネットワーク(pcmqbn)を用いた予測能力成熟度定量化手法を提案する。 外部フラッディングシナリオにおける静的構造への流体力予測におけるスムース粒子流体力学シミュレーションの有効性を評価するために, ケーススタディを構築した。 定性的・暗黙的な妥当性評価と比較すると,PCMQBNはシミュレーション精度の信頼性を高め,リスクインフォームド安全分析における期待損失を低減することができる。

In nuclear engineering, modeling and simulations (M&Ss) are widely applied to support risk-informed safety analysis. Since nuclear safety analysis has important implications, a convincing validation process is needed to assess simulation adequacy, i.e., the degree to which M&S tools can adequately represent the system quantities of interest. However, due to data gaps, validation becomes a decision-making process under uncertainties. Expert knowledge and judgments are required to collect, choose, characterize, and integrate evidence toward the final adequacy decision. However, in validation frameworks CSAU: Code Scaling, Applicability, and Uncertainty (NUREG/CR-5249) and EMDAP: Evaluation Model Development and Assessment Process (RG 1.203), such a decision-making process is largely implicit and obscure. When scenarios are complex, knowledge biases and unreliable judgments can be overlooked, which could increase uncertainty in the simulation adequacy result and the corresponding risks. Therefore, a framework is required to formalize the decision-making process for simulation adequacy in a practical, transparent, and consistent manner. This paper suggests a framework "Predictive Capability Maturity Quantification using Bayesian network (PCMQBN)" as a quantified framework for assessing simulation adequacy based on information collected from validation activities. A case study is prepared for evaluating the adequacy of a Smoothed Particle Hydrodynamic simulation in predicting the hydrodynamic forces onto static structures during an external flooding scenario. Comparing to the qualitative and implicit adequacy assessment, PCMQBN is able to improve confidence in the simulation adequacy result and to reduce expected loss in the risk-informed safety analysis.
翻訳日:2022-10-23 07:28:29 公開日:2020-08-31
# PeopleMapによる研究者のマッピング

Mapping Researchers with PeopleMap ( http://arxiv.org/abs/2009.00091v1 )

ライセンス: Link先を確認
Jon Saad-Falcon, Omar Shaikh, Zijie J. Wang, Austin P. Wright, Sasha Richardson, and Duen Horng Chau(参考訳) 大学における研究専門知識の発見は難しい作業である。 ディレクトリは常に時代遅れになり、研究者の作業を視覚的に要約したり、研究者間の共通の関心の探索を支援する助けはほとんどない。 その結果、内部と外部の両方が新しいつながりを発見し、研究協力を育て、研究の多様性を探求する機会を失った。 この問題に対処するため、ジョージア工科大学では、自然言語処理(NLP)を用いたオープンソースのインタラクティブなWebベースツールであるPeopleMapを開発し、研究者の興味や出版物に基づいて視覚マップを作成しました。 研究者のGoogle Scholarプロファイルのみを入力として必要とすることで、PeopleMapは研究者の埋め込みを生成し視覚化することで、公開情報の手作業によるキュレーションを大幅に削減する。 PeopleMapの採用と拡張を容易にするため、私たちはhttps://github.com/poloclub/People-mapでMITライセンス下でオープンソースにしました。 PeopleMapは、ジョージア工科大学にまたがって採用を拡大するための肯定的なフィードバックと熱意を受けてきた。

Discovering research expertise at universities can be a difficult task. Directories routinely become outdated, and few help in visually summarizing researchers' work or supporting the exploration of shared interests among researchers. This results in lost opportunities for both internal and external entities to discover new connections, nurture research collaboration, and explore the diversity of research. To address this problem, at Georgia Tech, we have been developing PeopleMap, an open-source interactive web-based tool that uses natural language processing (NLP) to create visual maps for researchers based on their research interests and publications. Requiring only the researchers' Google Scholar profiles as input, PeopleMap generates and visualizes embeddings for the researchers, significantly reducing the need for manual curation of publication information. To encourage and facilitate easy adoption and extension of PeopleMap, we have open-sourced it under the permissive MIT license at https://github.com/poloclub/people-map. PeopleMap has received positive feedback and enthusiasm for expanding its adoption across Georgia Tech.
翻訳日:2022-10-23 07:27:59 公開日:2020-08-31
# ニューラルネットワークを用いた拡張現実型ヒューマンアシストシステムにおける統合オブジェクトとタスク検出

Integrative Object and Pose to Task Detection for an Augmented-Reality-based Human Assistance System using Neural Networks ( http://arxiv.org/abs/2008.13419v1 )

ライセンス: Link先を確認
Linh K\"astner, Leon Eversberg, Marina Mursa, Jens Lambrecht(参考訳) 自動化され、デジタル化される産業の結果として、プロセスはより複雑になっています。 Augmented Realityは、ユーザ理解と空間情報の体験を高めることで、複雑なタスクを労働者に支援する大きな可能性を示してきた。 しかし, 産業プロセスへのARの受容と統合は, 確立された手法の欠如や, 退屈な統合努力の欠如により, いまだに限られている。 一方、深層ニューラルネットワークはコンピュータビジョンタスクにおいて顕著な成果を上げており、拡張現実アプリケーションを強化する大きな可能性を持っている。 本稿では,コンピュータビジョンタスクにディープニューラルネットワークを組み込んだ複雑な手作業作業を支援する,拡張現実に基づく人力支援システムを提案する。 具体的には、拡張現実とオブジェクトとアクション検出を組み合わせることで、ワークフローをより直感的で柔軟にします。 ユーザ受け入れと効率性の観点からシステムを評価するため,いくつかのユーザ調査を行った。 未訓練作業者の作業完了までの時間が大幅に短縮され,エラー率の低下が確認された。 さらに,支援システムを用いた学習曲線の検討を行った。

As a result of an increasingly automatized and digitized industry, processes are becoming more complex. Augmented Reality has shown considerable potential in assisting workers with complex tasks by enhancing user understanding and experience with spatial information. However, the acceptance and integration of AR into industrial processes is still limited due to the lack of established methods and tedious integration efforts. Meanwhile, deep neural networks have achieved remarkable results in computer vision tasks and bear great prospects to enrich Augmented Reality applications . In this paper, we propose an Augmented-Reality-based human assistance system to assist workers in complex manual tasks where we incorporate deep neural networks for computer vision tasks. More specifically, we combine Augmented Reality with object and action detectors to make workflows more intuitive and flexible. To evaluate our system in terms of user acceptance and efficiency, we conducted several user studies. We found a significant reduction in time to task completion in untrained workers and a decrease in error rate. Furthermore, we investigated the users learning curve with our assistance system.
翻訳日:2022-10-23 07:27:34 公開日:2020-08-31
# 人物再同定のための受容的多粒度表現

Receptive Multi-granularity Representation for Person Re-Identification ( http://arxiv.org/abs/2008.13450v1 )

ライセンス: Link先を確認
Guanshuo Wang, Yufeng Yuan, Jiwei Li, Shiming Ge, Xi Zhou(参考訳) 人物再同定の鍵は、変数環境をまたいだ識別表現の一貫した局所的詳細を達成することである。 現在のストライプベースの特徴学習アプローチは、印象的な精度を実現しているが、多様性、局所性、堅牢性の間の適切なトレードオフは行わない。 本稿では,文様特徴学習を容易にするための受容的多粒度学習手法を提案する。 この手法は、入力画像や出力特徴に対する現在のアプローチではなく、受容領域範囲を操作するための中間表現の局所分割を行い、適切な局所関係を維持しながら局所性を表現する。 この目的に向けて、局所分割は一様ストライプに対する有意均衡活性化を用いて適応的にプールされる。 ランダムシフト増強により、境界ボックス内に存在する人物の出現領域のばらつきが増大し、不一致が緩和される。 2分岐ネットワークアーキテクチャにより、識別的アイデンティティ表現のスケールが異なることが分かる。 このようにして,モデルストレージコストを大きくすることなく,より包括的かつ効率的な機能表現を提供できるのです。 データセット内およびデータセット間評価に関する広範囲な実験により,提案手法の有効性が実証された。 特に本手法は, Market-1501ベンチマークにおいて96.2%@Rank-1または90.0%@mAPの最先端精度を実現する。

A key for person re-identification is achieving consistent local details for discriminative representation across variable environments. Current stripe-based feature learning approaches have delivered impressive accuracy, but do not make a proper trade-off between diversity, locality, and robustness, which easily suffers from part semantic inconsistency for the conflict between rigid partition and misalignment. This paper proposes a receptive multi-granularity learning approach to facilitate stripe-based feature learning. This approach performs local partition on the intermediate representations to operate receptive region ranges, rather than current approaches on input images or output features, thus can enhance the representation of locality while remaining proper local association. Toward this end, the local partitions are adaptively pooled by using significance-balanced activations for uniform stripes. Random shifting augmentation is further introduced for a higher variance of person appearing regions within bounding boxes to ease misalignment. By two-branch network architecture, different scales of discriminative identity representation can be learned. In this way, our model can provide a more comprehensive and efficient feature representation without larger model storage costs. Extensive experiments on intra-dataset and cross-dataset evaluations demonstrate the effectiveness of the proposed approach. Especially, our approach achieves a state-of-the-art accuracy of 96.2%@Rank-1 or 90.0%@mAP on the challenging Market-1501 benchmark.
翻訳日:2022-10-23 07:20:58 公開日:2020-08-31
# モーメントからアクションをローカライズする学習

Learning to Localize Actions from Moments ( http://arxiv.org/abs/2008.13705v1 )

ライセンス: Link先を確認
Fuchen Long and Ting Yao and Zhaofan Qiu and Xinmei Tian and Jiebo Luo and Tao Mei(参考訳) アクションモーメントの知識(つまり、アクションインスタンスを含むトリミングされたビデオクリップ)により、人間は、トリミングされていないビデオで時間的にアクションをローカライズすることができる。 しかしながら、ほとんどの実践的な手法は、高価なラベル付けの努力と新しいカテゴリには適用できないにもかかわらず、時間的アノテーション(アクションカテゴリと時間的境界)でラベル付けされ、完全に監督された方法でモデルを開発する必要がある。 本稿では,大規模なアクションカテゴリのアクションローカライゼーションを学習するトランスファーラーニングタイプの新しいデザインを提案するが,興味のカテゴリから得られたアクションモーメントと,小さなアクションクラスから得られた未トリミングビデオの時間的アノテーションに限る。 具体的には、そのような設計を1段階のアクションローカライゼーションフレームワークに統合するアクションヘラルドネットワーク(AherNet)を提案する。 技術的には、重み伝達関数は、アクションモーメントまたは前景ビデオセグメントの分類と、合成コンテキストモーメントまたは未トリミングビデオにおけるアクションローカライゼーションの間の変換を構築するために一意に考案される。 各モーメントのコンテキストは、非トリミングビデオの背景と生成された特徴を区別する対向メカニズムを通じて学習される。 ActivityNet v1.3 の分割と THUMOS14 から ActivityNet v1.3 への広範な学習実験が行われている。 我々のAherNetは、ほとんど完全に教師されたアクションローカライゼーション手法と比較しても優位性を示している。 さらに、Kinetics-600のアクションモーメントの活用とActivityNet v1.3の200クラスの時間アノテーションに基づいて、600のカテゴリからアクションをローカライズするようにAherNetを訓練します。 ソースコードとデータは \url{https://github.com/fuchenustc/ahernet} で入手できる。

With the knowledge of action moments (i.e., trimmed video clips that each contains an action instance), humans could routinely localize an action temporally in an untrimmed video. Nevertheless, most practical methods still require all training videos to be labeled with temporal annotations (action category and temporal boundary) and develop the models in a fully-supervised manner, despite expensive labeling efforts and inapplicable to new categories. In this paper, we introduce a new design of transfer learning type to learn action localization for a large set of action categories, but only on action moments from the categories of interest and temporal annotations of untrimmed videos from a small set of action classes. Specifically, we present Action Herald Networks (AherNet) that integrate such design into an one-stage action localization framework. Technically, a weight transfer function is uniquely devised to build the transformation between classification of action moments or foreground video segments and action localization in synthetic contextual moments or untrimmed videos. The context of each moment is learnt through the adversarial mechanism to differentiate the generated features from those of background in untrimmed videos. Extensive experiments are conducted on the learning both across the splits of ActivityNet v1.3 and from THUMOS14 to ActivityNet v1.3. Our AherNet demonstrates the superiority even comparing to most fully-supervised action localization methods. More remarkably, we train AherNet to localize actions from 600 categories on the leverage of action moments in Kinetics-600 and temporal annotations from 200 classes in ActivityNet v1.3. Source code and data are available at \url{https://github.com/FuchenUSTC/AherNet}.
翻訳日:2022-10-23 07:20:24 公開日:2020-08-31
# メモリレスクラスインクリメンタル学習のための初期分類器重み付けリプレイ

Initial Classifier Weights Replay for Memoryless Class Incremental Learning ( http://arxiv.org/abs/2008.13710v1 )

ライセンス: Link先を確認
Eden Belouadah, Adrian Popescu, Ioannis Kanellos(参考訳) インクリメンタル学習(il)は、人工知能がデータのストリームを扱う必要があり、常にすべてのデータにアクセスできない場合に有用である。 最も難しい設定は、ディープモデルの一定の複雑さと、過去のデータの境界メモリにアクセスせずにインクリメンタルなモデル更新を必要とする。 そして、過去のクラスの表現は破滅的な忘れ方に強く影響される。 負の効果を軽減するため、知識蒸留を含む適応された微調整が通常展開される。 我々は,バニラ微調整バックボーンに基づく異なるアプローチを提案する。 クラスデータすべてでトレーニングされているため、過去のクラスの強い表現を提供する初期分類子重みを活用する。 しかし、異なる状態において学習される分類器の大きさは異なり、全てのクラスの公平な扱いには正規化が必要である。 正規化は、正規分布と仮定される初期分類器重みを標準化することで行われる。 さらに、状態レベル統計を用いて予測スコアの校正を行い、分類公平性をさらに向上させる。 メモリレスインクリメンタル学習環境において,4つの公開データセットを用いて徹底的な評価を行う。 その結果,本手法は大規模データセットにおいて,既存の手法よりも優れた性能を示すことがわかった。

Incremental Learning (IL) is useful when artificial systems need to deal with streams of data and do not have access to all data at all times. The most challenging setting requires a constant complexity of the deep model and an incremental model update without access to a bounded memory of past data. Then, the representations of past classes are strongly affected by catastrophic forgetting. To mitigate its negative effect, an adapted fine tuning which includes knowledge distillation is usually deployed. We propose a different approach based on a vanilla fine tuning backbone. It leverages initial classifier weights which provide a strong representation of past classes because they are trained with all class data. However, the magnitude of classifiers learned in different states varies and normalization is needed for a fair handling of all classes. Normalization is performed by standardizing the initial classifier weights, which are assumed to be normally distributed. In addition, a calibration of prediction scores is done by using state level statistics to further improve classification fairness. We conduct a thorough evaluation with four public datasets in a memoryless incremental learning setting. Results show that our method outperforms existing techniques by a large margin for large-scale datasets.
翻訳日:2022-10-23 07:19:53 公開日:2020-08-31
# 単眼3次元物体検出のための強化軸リファインメントネットワーク

Reinforced Axial Refinement Network for Monocular 3D Object Detection ( http://arxiv.org/abs/2008.13748v1 )

ライセンス: Link先を確認
Lijie Liu, Chufan Wu, Jiwen Lu, Lingxi Xie, Jie Zhou and Qi Tian(参考訳) モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。 これは、深度認識カメラによる情報損失に重大な困難がある、不適切な問題である。 従来の手法では空間から3dバウンディングボックスをサンプリングし、対象オブジェクトとそれらのそれぞれの関係を推定するが、有効サンプルの確率は3d空間では相対的に小さい。 サンプリングの効率を向上させるために,初期予測から始め,段階ごとに1つの3dパラメータしか変化せず,徐々に基礎的真理に向かって洗練していくことを提案する。 これには、数ステップで報酬を得るポリシを設計する必要があり、最適化するために強化学習を採用します。 提案するフレームワークであるReinforced Axial Refinement Network (RAR-Net)は,既存のモノクル3D検出手法に自由に統合可能な後処理の段階として機能し,計算コストの少ないKITTIデータセットの性能を向上させる。

Monocular 3D object detection aims to extract the 3D position and properties of objects from a 2D input image. This is an ill-posed problem with a major difficulty lying in the information loss by depth-agnostic cameras. Conventional approaches sample 3D bounding boxes from the space and infer the relationship between the target object and each of them, however, the probability of effective samples is relatively small in the 3D space. To improve the efficiency of sampling, we propose to start with an initial prediction and refine it gradually towards the ground truth, with only one 3d parameter changed in each step. This requires designing a policy which gets a reward after several steps, and thus we adopt reinforcement learning to optimize it. The proposed framework, Reinforced Axial Refinement Network (RAR-Net), serves as a post-processing stage which can be freely integrated into existing monocular 3D detection methods, and improve the performance on the KITTI dataset with small extra computational costs.
翻訳日:2022-10-23 07:19:14 公開日:2020-08-31
# ladder: 生成前処理による潜在データ分散モデリング

LaDDer: Latent Data Distribution Modelling with a Generative Prior ( http://arxiv.org/abs/2009.00088v1 )

ライセンス: Link先を確認
Shuyu Lin and Ronald Clark(参考訳) 本稿では,学習生成モデルの性能が,推定された \textbf{latent data distribution} ,すなわちそのトポロジーと構造特性を正確に表現するモデルの能力と密接に関連していることを示す。 変分オートエンコーダフレームワークにおける遅延データ分布の正確なモデリングと表現学習を容易にするため,LaDDerを提案する。 LaDDerの中心的な考え方はメタ埋め込みの概念であり、複数のVAEモデルを使用して埋め込みの埋め込みを学び、エンコーディングのはしごを形成する。 非パラメトリック混合を最内側のvaeのハイパープリミティブとして使用し、すべてのパラメータを統一変分フレームワークで学習する。 実験の結果,LaDDerモデルでは複雑な潜伏分布を正確に推定でき,表現品質の向上が期待できることがわかった。 また、導出データ分布を利用した新しい潜時空間補間法を提案する。

In this paper, we show that the performance of a learnt generative model is closely related to the model's ability to accurately represent the inferred \textbf{latent data distribution}, i.e. its topology and structural properties. We propose LaDDer to achieve accurate modelling of the latent data distribution in a variational autoencoder framework and to facilitate better representation learning. The central idea of LaDDer is a meta-embedding concept, which uses multiple VAE models to learn an embedding of the embeddings, forming a ladder of encodings. We use a non-parametric mixture as the hyper prior for the innermost VAE and learn all the parameters in a unified variational framework. From extensive experiments, we show that our LaDDer model is able to accurately estimate complex latent distribution and results in improvement in the representation quality. We also propose a novel latent space interpolation method that utilises the derived data distribution.
翻訳日:2022-10-23 07:18:54 公開日:2020-08-31
# DropLeaf:農薬散布方法計測のための精密農業用スマートフォンアプリケーション

DropLeaf: a precision farming smartphone application for measuring pesticide spraying methods ( http://arxiv.org/abs/2009.00453v1 )

ライセンス: Link先を確認
Bruno Brandoli, Gabriel Spadon, Travis Esau, Patrick Hennessy, Andre C. P. L. Carvalho, Jose F. Rodrigues-Jr, and Sihem Amer-Yahia(参考訳) 農薬の施用は主要な作物の栽培に多用されており、この数十年で作物の生産が増加した。 しかし、機械の適切な使用と校正は、農薬の散布が作物をどの程度うまく覆っているかを正確に推定できる評価手法に依存している。 以前の研究でいくつかの戦略が提案されているが、コストの上昇とポータビリティの低さは広く採用を許さない。 この研究は、スマートフォンベースのモバイルアプリケーションであるDropLeaf - Spraying Meter上で機能する新しいツールを紹介し、実験的に評価する。 DropLeafを用いた試験では、その汎用性にかかわらず、農薬の散布を高精度に推定できることを示した。 提案手法は画像解析に基づいており, 実・合成水感性紙上での噴霧沈着評価が成功している。 提案したツールは、通常のスマートフォンを備えた農夫や農夫が広く利用でき、幸福、生態学的、金銭的利点のある農薬の利用を改善することができる。 DropLeafは、新しいUAV(Unmanned Aerial Vehicle)スプレー機など、さまざまな方法のスプレードリフト評価に簡単に使用できる。

Pesticide application has been heavily used in the cultivation of major crops, contributing to the increase of crop production over the past decades. However, their appropriate use and calibration of machines rely upon evaluation methodologies that can precisely estimate how well the pesticides' spraying covered the crops. A few strategies have been proposed in former works, yet their elevated costs and low portability do not permit their wide adoption. This work introduces and experimentally assesses a novel tool that functions over a smartphone-based mobile application, named DropLeaf - Spraying Meter. Tests performed using DropLeaf demonstrated that, notwithstanding its versatility, it can estimate the pesticide spraying with high precision. Our methodology is based on image analysis, and the assessment of spraying deposition measures is performed successfully over real and synthetic water-sensitive papers. The proposed tool can be extensively used by farmers and agronomists furnished with regular smartphones, improving the utilization of pesticides with well-being, ecological, and monetary advantages. DropLeaf can be easily used for spray drift assessment of different methods, including emerging UAV (Unmanned Aerial Vehicle) sprayers.
翻訳日:2022-10-23 07:18:38 公開日:2020-08-31
# 映像系列のフレーム予測

Future Frame Prediction of a Video Sequence ( http://arxiv.org/abs/2009.01689v1 )

ライセンス: Link先を確認
Jasmeen Kaur, Sukhendu Das(参考訳) ビデオシーケンスの将来のフレームを予測することは、多数のアプリケーションに対応するコンピュータビジョンの分野への関心が高まっている問題である。 将来の出来事を予測、予測、推論する能力は、知能の本質であり、人間と機械の相互作用、ロボットのナビゲーション、自動運転といった意思決定システムの主な目標の1つである。 しかし、同じ入力ビデオ撮影で複数の将来のシーケンスが可能となる可能性があるため、課題は問題の曖昧な性質にある。 ナイーブに設計されたモデルは、複数の可能性のある未来を単一のぼやけた予測に平均する。 最近、2つの異なるアプローチがこの問題に対処しようとしている。 (a)確率性を表す潜在変数モデルの使用、及び (b)よりシャープな画像を作ることを目的とした、敵対的に訓練されたモデル。 潜伏変数モデルはしばしば現実的な結果を生み出すのに苦労するが、敵に訓練されたモデルは潜伏変数を過小評価するので、多様な予測が得られない。 これらの手法は相補的な強みと弱みを明らかにした。 この2つのアプローチを組み合わせることで、より現実的で、妥当な未来の範囲をカバーできるような予測が生まれます。 これはこのプロジェクトにおける研究の基盤と目的を形成する。 本稿では,両手法を組み合わせた新しいマルチスケールアーキテクチャを提案する。 MNIST, UCF101, Penn Actionデータセットの一連の実験と実験による評価により, 本モデルの有効性を検証した。 本手法は,ベースライン法を用いて得られた結果より優れる。

Predicting future frames of a video sequence has been a problem of high interest in the field of Computer Vision as it caters to a multitude of applications. The ability to predict, anticipate and reason about future events is the essence of intelligence and one of the main goals of decision-making systems such as human-machine interaction, robot navigation and autonomous driving. However, the challenge lies in the ambiguous nature of the problem as there may be multiple future sequences possible for the same input video shot. A naively designed model averages multiple possible futures into a single blurry prediction. Recently, two distinct approaches have attempted to address this problem as: (a) use of latent variable models that represent underlying stochasticity and (b) adversarially trained models that aim to produce sharper images. A latent variable model often struggles to produce realistic results, while an adversarially trained model underutilizes latent variables and thus fails to produce diverse predictions. These methods have revealed complementary strengths and weaknesses. Combining the two approaches produces predictions that appear more realistic and better cover the range of plausible futures. This forms the basis and objective of study in this project work. In this paper, we proposed a novel multi-scale architecture combining both approaches. We validate our proposed model through a series of experiments and empirical evaluations on Moving MNIST, UCF101, and Penn Action datasets. Our method outperforms the results obtained using the baseline methods.
翻訳日:2022-10-23 07:18:18 公開日:2020-08-31
# シーングラフによる自動運転車事故のリスク評価

Scene-Graph Augmented Data-Driven Risk Assessment of Autonomous Vehicle Decisions ( http://arxiv.org/abs/2009.06435v1 )

ライセンス: Link先を確認
Shih-Yuan Yu, Arnav V. Malawade, Deepan Muthirayan, Pramod P. Khargonekar, Mohammad A. Al Faruque(参考訳) 自律運転システム(ADS)の著しい進歩にもかかわらず、複雑な道路条件でのナビゲーションは難しい問題である。 様々な意思決定の主観的リスクレベルを評価することで、通常の運転シナリオと複雑な運転シナリオの両方において、ADSの安全性が向上する、というかなりの証拠がある。 しかし、既存のディープラーニングベースの手法は、しばしば交通関係者間の関係をモデル化できず、複雑な現実のシナリオに直面したときに苦しむことがある。 さらに、これらの方法は伝達性や説明性に欠ける。 これらの制約に対処するために,シーングラフを中間表現として用いる新しいデータ駆動アプローチを提案する。 我々のアプローチには、マルチリレーショングラフ畳み込みネットワーク、ロングショート長期記憶ネットワーク、そして運転操作の主観的リスクをモデル化するための注意層が含まれる。 モデルをトレーニングするために、このタスクを教師付きシーン分類問題として定式化する。 私たちは、モデルの能力を示す典型的なユースケースを考えています。 本手法は,大規模 (96.4% 対 91.2%) と小型 (91.8% 対 71.2%) の合成データセットにおいて,最先端のアプローチよりも高い分類精度を達成し,より小さなデータセットからでも効果的に学習できることを示す。 また,同じ合成データセットでトレーニングされた最先端モデルが達成した70.3%の精度と比較して,実世界のデータセットでテストした場合の平均87.8%の精度が得られることを示した。 最後に,空間的および時間的注意層の利用により,各モデルの性能が2.7%,0.7%向上し,その説明性が向上することを示す。

Despite impressive advancements in Autonomous Driving Systems (ADS), navigation in complex road conditions remains a challenging problem. There is considerable evidence that evaluating the subjective risk level of various decisions can improve ADS' safety in both normal and complex driving scenarios. However, existing deep learning-based methods often fail to model the relationships between traffic participants and can suffer when faced with complex real-world scenarios. Besides, these methods lack transferability and explainability. To address these limitations, we propose a novel data-driven approach that uses scene-graphs as intermediate representations. Our approach includes a Multi-Relation Graph Convolution Network, a Long-Short Term Memory Network, and attention layers for modeling the subjective risk of driving maneuvers. To train our model, we formulate this task as a supervised scene classification problem. We consider a typical use case to demonstrate our model's capabilities: lane changes. We show that our approach achieves a higher classification accuracy than the state-of-the-art approach on both large (96.4% vs. 91.2%) and small (91.8% vs. 71.2%) synthesized datasets, also illustrating that our approach can learn effectively even from smaller datasets. We also show that our model trained on a synthesized dataset achieves an average accuracy of 87.8% when tested on a real-world dataset compared to the 70.3% accuracy achieved by the state-of-the-art model trained on the same synthesized dataset, showing that our approach can more effectively transfer knowledge. Finally, we demonstrate that the use of spatial and temporal attention layers improves our model's performance by 2.7% and 0.7% respectively, and increases its explainability.
翻訳日:2022-10-23 07:17:57 公開日:2020-08-31
# inclass nets: 条件付き独立混合モデルと教師なし分類の非パラメトリック推定のための独立分類器ネットワーク

InClass Nets: Independent Classifier Networks for Nonparametric Estimation of Conditional Independence Mixture Models and Unsupervised Classification ( http://arxiv.org/abs/2009.00131v1 )

ライセンス: Link先を確認
Konstantin T. Matchev, Prasanth Shyamsundar(参考訳) 本稿では,Independent Classifier Network (InClass nets) と呼ばれる機械学習に基づく新しい手法を導入し,条件付き独立混合モデル(CIMM)の非パラメータ推定を行う。 データセットを異なるカテゴリに分割することで混合モデルの推定が自然に導かれるため,CIMMを多クラス分類問題として推定する方法を提案する。 InClass netは複数の独立した分類器ニューラルネットワーク(NN)で構成され、それぞれがCIMMの変数の1つを処理する。 CIMMをデータに適合させるには、適切なコスト関数を用いて個々のNNを同時に訓練する。 NNが任意の関数を近似する能力は、我々の手法を非パラメトリックにする。 NNのパワーのさらなる活用により、モデルの条件付き独立変数を個別に高次元にすることが可能になる。 二変量cimmの非パラメトリック識別性について、二変量cimmが識別可能となるために必要な(異なる)十分条件として、いくつかの新しい結果を導出する。 我々は、RainDancesVIと呼ばれるPythonパッケージとしてInClass netsの公開実装を提供し、いくつかの実例でInClass netsテクニックを検証する。 また,本手法は教師なし・半教師付き分類問題にも応用できる。

We introduce a new machine-learning-based approach, which we call the Independent Classifier networks (InClass nets) technique, for the nonparameteric estimation of conditional independence mixture models (CIMMs). We approach the estimation of a CIMM as a multi-class classification problem, since dividing the dataset into different categories naturally leads to the estimation of the mixture model. InClass nets consist of multiple independent classifier neural networks (NNs), each of which handles one of the variates of the CIMM. Fitting the CIMM to the data is performed by simultaneously training the individual NNs using suitable cost functions. The ability of NNs to approximate arbitrary functions makes our technique nonparametric. Further leveraging the power of NNs, we allow the conditionally independent variates of the model to be individually high-dimensional, which is the main advantage of our technique over existing non-machine-learning-based approaches. We derive some new results on the nonparametric identifiability of bivariate CIMMs, in the form of a necessary and a (different) sufficient condition for a bivariate CIMM to be identifiable. We provide a public implementation of InClass nets as a Python package called RainDancesVI and validate our InClass nets technique with several worked out examples. Our method also has applications in unsupervised and semi-supervised classification problems.
翻訳日:2022-10-23 07:11:53 公開日:2020-08-31
# 教師なし Hebbian Computation を用いた単一層フィードフォワードネットワークによるジェネリック音楽特徴の検出

Detecting Generic Music Features with Single Layer Feedforward Network using Unsupervised Hebbian Computation ( http://arxiv.org/abs/2008.13609v1 )

ライセンス: Link先を確認
Sourav Das and Anup Kumar Kolya(参考訳) 人気の高いオンライン音楽ストリーミングソフトウェアやアプリを通じて、デジタル音楽や巨大な音楽トラック機能が増え続けている中、ニューラルネットワークを使った特徴認識は、最近さまざまな実験で幅広い結果を生み出す実験に利用されている。 この研究を通じて、著者らは人気のあるオープンソース音楽コーパスからこれらの特徴を抽出し、同じデータセットを用いて一層ニューラルネットワークに教師なしヘビアン学習技術を適用することにより、新しい認識手法を探求した。 著者らは,そのようなアルゴリズムが単一層フィードフォワードネットワークにおいて,音楽特徴学習をパターンとして学習する上でどのように役立つかをシミュレートするために,詳細な経験的知見を示す。 教師なし学習アルゴリズムは、提案されたニューラルネットワークを強化し、音楽特徴検出に成功するために90.36%の精度を達成する。 類似したタスクの比較分析のために、著者はいくつかの以前のベンチマークのような結果を出した。 彼らはさらに、仕事の限界と徹底的なエラー分析について論じている。 著者らは、この特定分類技術とその性能に関する新たな情報の発見と収集を希望し、計算音楽特徴認識の技術を改善する可能性のある今後の方向性と展望をさらに理解したいと考えている。

With the ever-increasing number of digital music and vast music track features through popular online music streaming software and apps, feature recognition using the neural network is being used for experimentation to produce a wide range of results across a variety of experiments recently. Through this work, the authors extract information on such features from a popular open-source music corpus and explored new recognition techniques, by applying unsupervised Hebbian learning techniques on their single-layer neural network using the same dataset. The authors show the detailed empirical findings to simulate how such an algorithm can help a single layer feedforward network in training for music feature learning as patterns. The unsupervised training algorithm enhances their proposed neural network to achieve an accuracy of 90.36% for successful music feature detection. For comparative analysis against similar tasks, authors put their results with the likes of several previous benchmark works. They further discuss the limitations and thorough error analysis of their work. The authors hope to discover and gather new information about this particular classification technique and its performance, and further understand future potential directions and prospects that could improve the art of computational music feature recognition.
翻訳日:2022-10-23 07:11:10 公開日:2020-08-31
# SemEval-2020 Task 6: DEFTコーパスによる自由テキストからの定義抽出

SemEval-2020 Task 6: Definition extraction from free text with the DEFT corpus ( http://arxiv.org/abs/2008.13694v1 )

ライセンス: Link先を確認
Sasha Spala, Nicholas A Miller, Franck Dernoncourt, Carl Dockhorn(参考訳) 定義抽出の研究は10年以上にわたって行われており、主に考慮された定義の種類に重大な制約がある。 本稿では,自然言語における定義の複雑な現実を反映する項定義ペアコーパスを用いて,自由テキストから定義を抽出しなければならないセメバル共有タスクであるdeftevalを提案する。 自由テキストにおける定義とグロスはしばしば明示的な指標や文の境界を越えて、あるいは他の複雑な言語的な方法で現れる。 deftevalには3つの異なるサブタスクが含まれている。 2)シーケンスラベリング、及び 3)関係抽出。

Research on definition extraction has been conducted for well over a decade, largely with significant constraints on the type of definitions considered. In this work, we present DeftEval, a SemEval shared task in which participants must extract definitions from free text using a term-definition pair corpus that reflects the complex reality of definitions in natural language. Definitions and glosses in free text often appear without explicit indicators, across sentences boundaries, or in an otherwise complex linguistic manner. DeftEval involved 3 distinct subtasks: 1)Sentence classification, 2) sequence labeling, and 3) relation extraction.
翻訳日:2022-10-23 07:10:50 公開日:2020-08-31
# 人工知能自己改善を伴う有限時間技術特異性モデル

A Finite-Time Technological Singularity Model With Artificial Intelligence Self-Improvement ( http://arxiv.org/abs/2010.01961v1 )

ライセンス: Link先を確認
Ihor Kendiukhov(参考訳) 最近の人工知能開発、技術進歩加速、マクロ経済ダイナミクスの長期的なトレンドは、技術特異性仮説の関連性を高める。 本稿では,人工知能が人工知能技術者に取って代わることを前提として,有限時間技術特異性のモデルを構築した。 このモデルは以下のことを示唆している。 A を人工知能の開発レベルとする。 そして、技術的特異点 n のモーメントは、人工知能開発関数が無限に近づく時点として定義される。 したがって、それは有限時間で起こる。 人工知能の開発の無限レベルは実質的には到達できないが、この近似はいくつかの理由から有用であり、第一に、相転移やレジームの変化をモデル化できるためである。 モデルでは、インテリジェンス成長関数は、私たちがリストし比較する比較的広い条件下で双曲関数であるように見える。 その後、モデルに確率的項(ブラウン運動)を加え、その挙動の変化について検討する。 この結果は、乗法的成長を特徴とする様々なプロセスのダイナミクスのモデリングに応用できる。

Recent advances in the development of artificial intelligence, technological progress acceleration, long-term trends of macroeconomic dynamics increase the relevance of technological singularity hypothesis. In this paper, we build a model of finite-time technological singularity assuming that artificial intelligence will replace humans for artificial intelligence engineers after some point in time when it is developed enough. This model implies the following: let A be the level of development of artificial intelligence. Then, the moment of technological singularity n is defined as the point in time where artificial intelligence development function approaches infinity. Thus, it happens in finite time. Although infinite level of development of artificial intelligence cannot be reached practically, this approximation is useful for several reasons, firstly because it allows modeling a phase transition or a change of regime. In the model, intelligence growth function appears to be hyperbolic function under relatively broad conditions which we list and compare. Subsequently, we also add a stochastic term (Brownian motion) to the model and investigate the changes in its behavior. The results can be applied for the modeling of dynamics of various processes characterized by multiplicative growth.
翻訳日:2022-10-23 07:10:40 公開日:2020-08-31
# DeepFacePencil: フリーハンドスケッチから顔画像を作成する

DeepFacePencil: Creating Face Images from Freehand Sketches ( http://arxiv.org/abs/2008.13343v1 )

ライセンス: Link先を確認
Yuhang Li and Xuejin Chen and Binxin Yang and Zihan Chen and Zhihua Cheng and Zheng-Jun Zha(参考訳) 本稿では,手描きスケッチから写実的顔画像を生成する作業について検討する。 既存の画像から画像への変換には、大規模なスケッチと画像のデータセットが必要である。 彼らは通常、訓練データとして顔画像の合成エッジマップを使用する。 しかし、これらの合成エッジマップは対応する顔画像のエッジと厳密に一致し、膨大なストロークの多様性を持つ実際の手書きスケッチへの一般化能力を制限する。 そこで本研究では,手描きスケッチから写実的顔画像を生成するための効果的なツールであるdeepfacepencilを提案する。 空間的アテンションプーリング(SAP)は、様々なストロークスタイルと様々な詳細レベルをサポートするために空間的に変化するストローク歪みを適応的に扱うように設計されている。 その結果,手描きスケッチに対する画質とモデル一般化の両面において,既存の手法よりも優れたモデルが得られた。

In this paper, we explore the task of generating photo-realistic face images from hand-drawn sketches. Existing image-to-image translation methods require a large-scale dataset of paired sketches and images for supervision. They typically utilize synthesized edge maps of face images as training data. However, these synthesized edge maps strictly align with the edges of the corresponding face images, which limit their generalization ability to real hand-drawn sketches with vast stroke diversity. To address this problem, we propose DeepFacePencil, an effective tool that is able to generate photo-realistic face images from hand-drawn sketches, based on a novel dual generator image translation network during training. A novel spatial attention pooling (SAP) is designed to adaptively handle stroke distortions which are spatially varying to support various stroke styles and different levels of details. We conduct extensive experiments and the results demonstrate the superiority of our model over existing methods on both image quality and model generalization to hand-drawn sketches.
翻訳日:2022-10-23 07:10:03 公開日:2020-08-31
# 動的ビデオサムネイル生成のための文案内時間変調

Sentence Guided Temporal Modulation for Dynamic Video Thumbnail Generation ( http://arxiv.org/abs/2008.13362v1 )

ライセンス: Link先を確認
Mrigank Rochan, Mahesh Kumar Krishna Reddy, Yang Wang(参考訳) 文特定動的ビデオサムネイル生成の問題点を考察する。 入力ビデオとユーザクエリ文が与えられた場合、ゴールはビデオコンテンツのプレビューを提供するだけでなく、意味的にその文に対応するビデオサムネイルを生成することである。 本稿では,映像サムネイル生成ネットワークの正規化時間活性化を変調するために文埋め込みを利用した文誘導時間変調(sgtm)機構を提案する。 recurrentアーキテクチャを使用する既存のstate-of-the-artメソッドとは異なり、よりシンプルな並列化を可能にする非recurrentフレームワークを提案する。 大規模データセットに関する広範な実験と分析は,このフレームワークの有効性を実証するものだ。

We consider the problem of sentence specified dynamic video thumbnail generation. Given an input video and a user query sentence, the goal is to generate a video thumbnail that not only provides the preview of the video content, but also semantically corresponds to the sentence. In this paper, we propose a sentence guided temporal modulation (SGTM) mechanism that utilizes the sentence embedding to modulate the normalized temporal activations of the video thumbnail generation network. Unlike the existing state-of-the-art method that uses recurrent architectures, we propose a non-recurrent framework that is simple and allows much more parallelization. Extensive experiments and analysis on a large-scale dataset demonstrate the effectiveness of our framework.
翻訳日:2022-10-23 07:09:46 公開日:2020-08-31
# うつ病における脳波の伝達エントロピーによる異常ダイナミクスの解明

Transfer entropy applied on EEG in depression reveals aberrated dynamics ( http://arxiv.org/abs/2008.13625v1 )

ライセンス: Link先を確認
Milena Cukic, Slavoljub Radenkovic, Miodrag Stokic, and Danka Savic(参考訳) 大うつ病と健康管理の整合性がある患者から記録された脳波サンプルの転送エントロピー解析を適用した。 これは、mddにおける標準センター間の接続性および情報方向の観点からの収差ダイナミクスの最初のグラフィカル表現である。

We applied transfer entropy analysis on samples of electroencephalogram recorded from patients diagnosed with major depressive disorder and matched healthy controls. This is the first graphical representation of aberrated dynamics in terms of connectivity and the direction of information between standard centers in MDD.
翻訳日:2022-10-23 07:03:19 公開日:2020-08-31
# タンパク質接触予測のための教師なし構造学習

Unsupervised and Supervised Structure Learning for Protein Contact Prediction ( http://arxiv.org/abs/2009.00133v1 )

ライセンス: Link先を確認
Siqi Sun(参考訳) タンパク質接触はタンパク質の構造と機能を理解する上で重要な情報を提供するため、配列からの接触予測は重要な問題である。 最近の研究は、幾らかの正確な長距離接触がトポロジーレベルの構造モデリングに役立つことを示唆している。 したがって、接触予測と接触支援タンパク質折り畳みもこの問題の重要性を証明している。 本論文では,既存の関連課題を簡潔に紹介し,トポロジー制約のある教師なしグラフィカルモデルによる接触予測の確立方法を示す。 さらに,教師付き深層学習法を用いて,接触予測の精度をさらに高める方法について説明する。 最後に、接触予測の新規性を測定するための多様性スコアと呼ばれるスコアリングシステムと、新しいスコアリングシステムに関して接触を予測するアルゴリズムを提案する。

Protein contacts provide key information for the understanding of protein structure and function, and therefore contact prediction from sequences is an important problem. Recent research shows that some correctly predicted long-range contacts could help topology-level structure modeling. Thus, contact prediction and contact-assisted protein folding also proves the importance of this problem. In this thesis, I will briefly introduce the extant related work, then show how to establish the contact prediction through unsupervised graphical models with topology constraints. Further, I will explain how to use the supervised deep learning methods to further boost the accuracy of contact prediction. Finally, I will propose a scoring system called diversity score to measure the novelty of contact predictions, as well as an algorithm that predicts contacts with respect to the new scoring system.
翻訳日:2022-10-23 07:02:58 公開日:2020-08-31
# 自動マルチモーダル・デセプション検出における顔の感情表現の導入

Introducing Representations of Facial Affect in Automated Multimodal Deception Detection ( http://arxiv.org/abs/2008.13369v1 )

ライセンス: Link先を確認
Leena Mathur and Maja J Matari\'c(参考訳) 自動偽造検知システムは、医療分野や法律分野の高度な状況において、人間が偏見を検出するのを助けることで、社会の健康、正義、安全を高めることができる。 本稿では,視覚的・声道的・言語的モダリティの解釈可能な特徴とともに,顔の印象の次元的表現の識別力を用いた自動偽装検出手法を提案する。 私たちは、現実世界の、高額な法廷状況で真実または偽りにコミュニケーションする人々のビデオデータセットを使用しました。 aff-wildデータベースでトレーニングされた最先端のディープニューラルネットワークを実装し、話者から顔のヴァレンスと表情の覚醒の連続表現を抽出することで、自動感情認識の最近の進歩を生かした。 我々は,一元的サポートベクトルマシン(SVM)とSVMに基づくマルチモーダル融合法を用いて,偽造検出のための効果的な特徴,モダリティ,モデリング手法を実験した。 顔への影響で訓練されたユニモーダルモデルは80%のAUCを達成し、訓練セットに含まれていない話者を対象にしたテストでは91%のAUCを達成した、最高のパフォーマンスのマルチモーダルアプローチ(適応的なブースティング)に顔への影響が寄与した。 このアプローチは、解釈可能な視覚的、声道的、言葉的な特徴を使用してデータセットの偽装を検出するが、顔の影響を使わない、既存の自動機械学習アプローチよりも高いAUCを実現した。 あらゆるビデオの中で、欺きと真理のある話し手は、顔のヴァレンスと顔の覚醒に有意な違いを示し、情動と欺きに関する既存の心理学的理論への計算的支援に貢献した。 私たちのモデルにおける顔の影響の重要性は、詐欺やその他の社会的行動のモデリングと検出のための、自動化された感情認識機械学習アプローチの将来の発展を知らせ、動機付けています。

Automated deception detection systems can enhance health, justice, and security in society by helping humans detect deceivers in high-stakes situations across medical and legal domains, among others. This paper presents a novel analysis of the discriminative power of dimensional representations of facial affect for automated deception detection, along with interpretable features from visual, vocal, and verbal modalities. We used a video dataset of people communicating truthfully or deceptively in real-world, high-stakes courtroom situations. We leveraged recent advances in automated emotion recognition in-the-wild by implementing a state-of-the-art deep neural network trained on the Aff-Wild database to extract continuous representations of facial valence and facial arousal from speakers. We experimented with unimodal Support Vector Machines (SVM) and SVM-based multimodal fusion methods to identify effective features, modalities, and modeling approaches for detecting deception. Unimodal models trained on facial affect achieved an AUC of 80%, and facial affect contributed towards the highest-performing multimodal approach (adaptive boosting) that achieved an AUC of 91% when tested on speakers who were not part of training sets. This approach achieved a higher AUC than existing automated machine learning approaches that used interpretable visual, vocal, and verbal features to detect deception in this dataset, but did not use facial affect. Across all videos, deceptive and truthful speakers exhibited significant differences in facial valence and facial arousal, contributing computational support to existing psychological theories on affect and deception. The demonstrated importance of facial affect in our models informs and motivates the future development of automated, affect-aware machine learning approaches for modeling and detecting deception and other social behaviors in-the-wild.
翻訳日:2022-10-23 07:02:46 公開日:2020-08-31
# ALANET:Joint Video DeblurringとInterpolationのためのAdaptive Latent Attention Network

ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and Interpolation ( http://arxiv.org/abs/2009.01005v1 )

ライセンス: Link先を確認
Akash Gupta, Abhishek Aich, Amit K. Roy-Chowdhury(参考訳) 既存の作業は、フレーム分割とフレーム補間モジュールを別々に学習することで、高フレームレートのシャープビデオを生成する問題に対処する。 これらのアプローチの多くは、全ての入力フレームがぼやけているという強い前提を持っているが、現実の環境ではフレームの品質は異なる。 さらに、このようなアプローチは2つのタスク(脱臭または補間)を単独で実行するように訓練され、多くの実践的な状況では両方を要求される。 これらの作品と異なり、入力が常にぼやけているという前提もなく、高フレームレートのシャープビデオ合成のより現実的な問題に対処する。 本稿では,入力フレームがぼやけているか否かを事前に知ることなく,シャープな高フレームレート映像を合成し,デブロアと補間の両方を行う新しいアーキテクチャであるアダプティブ遅延注意ネットワーク(ALANET)を提案する。 逐次フレームの潜在表現からの情報は、フレームデブラリングとフレーム補間の両方に最適化された表現を生成するために利用できると仮定する。 具体的には,潜在空間内の連続するフレーム間において,自己アテンションとクロスアテンションモジュールの組み合わせを用いて,各フレームに対して最適な表現を生成する。 これらの注目モジュールを使って学習した最適化された表現は、シャープフレームの生成と補間に役立つ。 標準データセットに対する大規模な実験により、我々の手法はより難しい問題に取り組みながら、様々な最先端のアプローチに対して好適に機能することを示した。

Existing works address the problem of generating high frame-rate sharp videos by separately learning the frame deblurring and frame interpolation modules. Most of these approaches have a strong prior assumption that all the input frames are blurry whereas in a real-world setting, the quality of frames varies. Moreover, such approaches are trained to perform either of the two tasks - deblurring or interpolation - in isolation, while many practical situations call for both. Different from these works, we address a more realistic problem of high frame-rate sharp video synthesis with no prior assumption that input is always blurry. We introduce a novel architecture, Adaptive Latent Attention Network (ALANET), which synthesizes sharp high frame-rate videos with no prior knowledge of input frames being blurry or not, thereby performing the task of both deblurring and interpolation. We hypothesize that information from the latent representation of the consecutive frames can be utilized to generate optimized representations for both frame deblurring and frame interpolation. Specifically, we employ combination of self-attention and cross-attention module between consecutive frames in the latent space to generate optimized representation for each frame. The optimized representation learnt using these attention modules help the model to generate and interpolate sharp frames. Extensive experiments on standard datasets demonstrate that our method performs favorably against various state-of-the-art approaches, even though we tackle a much more difficult problem.
翻訳日:2022-10-23 07:01:07 公開日:2020-08-31
# radar+rgbattentive fusionによる自律走行車両のロバスト物体検出

Radar+RGB Attentive Fusion for Robust Object Detection in Autonomous Vehicles ( http://arxiv.org/abs/2008.13642v1 )

ライセンス: Link先を確認
Ritu Yadav, Axel Vierling, Karsten Berns(参考訳) 本稿では,RANet と BIRANet の2種類のアーキテクチャについて述べる。 提案アーキテクチャは,RGBカメラ画像とともにレーダ信号データを用いて,雨や塵,霧などの気象条件下でも効率よく動作するロバストな検知ネットワークを構築することを目的としている。 まず、特徴抽出ネットワークにおいて、レーダ情報を融合する。 第2に、レーダーポイントは誘導アンカーを生成するために使用される。 第3に,地域提案型ネットワークターゲットを改善する手法を提案する。 biranet は nuscenes データセットで 72.3/75.3% の平均 ap/ar を得ることができ、これは我々のベースネットワークである fast-rcnn with feature pyramid network (ffpn) の性能よりも優れている。 RANetは69.6/71.9%の平均AP/ARを同じデータセットで提供する。 また、BIRANetとRANetの両方がノイズに対して堅牢であると評価されている。

This paper presents two variations of architecture referred to as RANet and BIRANet. The proposed architecture aims to use radar signal data along with RGB camera images to form a robust detection network that works efficiently, even in variable lighting and weather conditions such as rain, dust, fog, and others. First, radar information is fused in the feature extractor network. Second, radar points are used to generate guided anchors. Third, a method is proposed to improve region proposal network targets. BIRANet yields 72.3/75.3% average AP/AR on the NuScenes dataset, which is better than the performance of our base network Faster-RCNN with Feature pyramid network(FFPN). RANet gives 69.6/71.9% average AP/AR on the same dataset, which is reasonably acceptable performance. Also, both BIRANet and RANet are evaluated to be robust towards the noise.
翻訳日:2022-10-23 06:53:56 公開日:2020-08-31
# RecSal : ビジュアル・サリエンシ予測のための深部再帰的スーパービジョン

RecSal : Deep Recursive Supervision for Visual Saliency Prediction ( http://arxiv.org/abs/2008.13745v1 )

ライセンス: Link先を確認
Sandeep Mishra, Oindrila Saha(参考訳) state-of-the-art saliency prediction methodはモデルアーキテクチャや損失関数に基づいて開発される。 しかし、一般に入手可能なサラジェンシー予測データセットは、最終集計サラジェンシーマップよりも、各刺激についてより多くの情報を生成するために利用することができる。 生物学的にインスピレーションを受けたこの情報は、膨大な数のパラメータを持つモデルを用いることなく、予測性能の向上に寄与する。 この光では,統計を抽出し,利用することを提案する。 (a)地域特定給付及び b) ネットワークに追加のコンテキストを提供するための固定の時間的順序。 また, 空間的あるいは時間的固定による余分な監督が, 塩分予測の性能向上に繋がることを示した。 さらに,この追加情報を活用するための新たなアーキテクチャを設計し,余分な監視を欠いたベースモデルよりも優れた性能を実現することを示す。 提案手法は,パラメータが50~80%少ない従来の最先端手法よりも優れていることを示す。 また,従来の手法と異なり,すべての評価指標において,モデルが一貫した性能を示す。

State-of-the-art saliency prediction methods develop upon model architectures or loss functions; while training to generate one target saliency map. However, publicly available saliency prediction datasets can be utilized to create more information for each stimulus than just a final aggregate saliency map. This information when utilized in a biologically inspired fashion can contribute in better prediction performance without the use of models with huge number of parameters. In this light, we propose to extract and use the statistics of (a) region specific saliency and (b) temporal order of fixations, to provide additional context to our network. We show that extra supervision using spatially or temporally sequenced fixations results in achieving better performance in saliency prediction. Further, we also design novel architectures for utilizing this extra information and show that it achieves superior performance over a base model which is devoid of extra supervision. We show that our best method outperforms previous state-of-the-art methods with 50-80% fewer parameters. We also show that our models perform consistently well across all evaluation metrics unlike prior methods.
翻訳日:2022-10-23 06:53:41 公開日:2020-08-31
# コントラスト型自己教師付き学習の枠組みと新しいアプローチの設計

A Framework For Contrastive Self-Supervised Learning And Designing A New Approach ( http://arxiv.org/abs/2009.00104v1 )

ライセンス: Link先を確認
William Falcon, Kyunghyun Cho(参考訳) コントラスト自己教師学習(Contrastive Self-supervised Learning, CSL)は、ラベルなしデータセットからアンカー、負、正の機能を選択・比較するプレテキストタスクを解くことで、有用な表現を学習するアプローチである。 本稿では,cslアプローチを特徴付ける概念的枠組みとして,(1)データ拡張パイプライン,(2)エンコーダ選択,(3)表現抽出,(4)類似度尺度,(5)損失関数を提案する。 我々は、AMDIM、CPC、SimCLRの3つの主要なCSLアプローチを分析し、異なるモチベーションにもかかわらず、これらが特別な場合であることを示す。 我々は,CIFAR-10,STL-10,ImageNet上での競合的な結果を実現し,エンコーダの選択や表現抽出戦略に対してより堅牢なYADIMを設計することで,我々のフレームワークの有用性を示す。 現在進行中のCSL研究を支援するため、AMDIM、CPC(V2)、SimCLR、BYOL、Moco(V2)、YADIMの標準化実装とともに、この概念フレームワークのPyTorch実装をリリースする。

Contrastive self-supervised learning (CSL) is an approach to learn useful representations by solving a pretext task that selects and compares anchor, negative and positive (APN) features from an unlabeled dataset. We present a conceptual framework that characterizes CSL approaches in five aspects (1) data augmentation pipeline, (2) encoder selection, (3) representation extraction, (4) similarity measure, and (5) loss function. We analyze three leading CSL approaches--AMDIM, CPC, and SimCLR--, and show that despite different motivations, they are special cases under this framework. We show the utility of our framework by designing Yet Another DIM (YADIM) which achieves competitive results on CIFAR-10, STL-10 and ImageNet, and is more robust to the choice of encoder and the representation extraction strategy. To support ongoing CSL research, we release the PyTorch implementation of this conceptual framework along with standardized implementations of AMDIM, CPC (V2), SimCLR, BYOL, Moco (V2) and YADIM.
翻訳日:2022-10-23 06:53:26 公開日:2020-08-31
# 多言語単語埋め込みにおけるバイリンガル語彙の発見

Discovering Bilingual Lexicons in Polyglot Word Embeddings ( http://arxiv.org/abs/2008.13347v1 )

ライセンス: Link先を確認
Ashiqur R. KhudaBukhsh, Shriphani Palakodety, Tom M. Mitchell(参考訳) バイリンガル辞書とフレーズテーブルは現代の機械翻訳システムにとって重要なリソースである。 近年の研究では、種子レキシコンや平行データがないと、教師なしの方法で高精度な二言語レキシコンを学べるが、そのような方法は巨大でクリーンな単言語コーパスの存在に依存している。 本稿では,多言語コーパスで多言語単語埋め込みを訓練した単一のスキップグラムモデルを用いて,この埋め込み空間における驚くほど単純な制約付き最近距離サンプリング手法が,英語とローマ字化されたヒンディー語で主に記述され,コードスイッチングがしばしば見られるような,厳格なソーシャルメディアセットにおいても,バイリンガルの語彙を検索できることを新たに発見する。 本手法は, 単言語コーパス, 種子レキシコン, その他の資源を必要としない。 さらに、ヨーロッパ3つの言語ペアをまたいで、多言語単語埋め込みが単語の豊かな意味表現を実際に学習し、制約のある近距離標本を用いて実質的な二言語レキシコンを検索できることを観察する。 クリーンテキストと騒がしいソーシャルメディアデータセットの両方にまたがる設定、およびリソース豊富な言語ペアとリソース不足の言語ペアにおける潜在的理由と下流アプリケーションについて検討する。

Bilingual lexicons and phrase tables are critical resources for modern Machine Translation systems. Although recent results show that without any seed lexicon or parallel data, highly accurate bilingual lexicons can be learned using unsupervised methods, such methods rely on the existence of large, clean monolingual corpora. In this work, we utilize a single Skip-gram model trained on a multilingual corpus yielding polyglot word embeddings, and present a novel finding that a surprisingly simple constrained nearest-neighbor sampling technique in this embedding space can retrieve bilingual lexicons, even in harsh social media data sets predominantly written in English and Romanized Hindi and often exhibiting code switching. Our method does not require monolingual corpora, seed lexicons, or any other such resources. Additionally, across three European language pairs, we observe that polyglot word embeddings indeed learn a rich semantic representation of words and substantial bilingual lexicons can be retrieved using our constrained nearest neighbor sampling. We investigate potential reasons and downstream applications in settings spanning both clean texts and noisy social media data sets, and in both resource-rich and under-resourced language pairs.
翻訳日:2022-10-23 06:52:44 公開日:2020-08-31
# 科学シミュレーションデータの関連性を考慮した多変量サンプリング戦略

Relationship-aware Multivariate Sampling Strategy for Scientific Simulation Data ( http://arxiv.org/abs/2008.13306v1 )

ライセンス: Link先を確認
Subhashis Hazarika, Ayan Biswas, Phillip J. Wolfram, Earl Lawrence, Nathan Urban(参考訳) 現在のスーパーコンピュータの計算能力の増大に伴い、科学シミュレーションによって生成されたデータのサイズは急速に増大している。 このような科学的データセットのストレージフットプリントを削減し、スケーラブルなポストホック解析を容易にするため、長年にわたり様々なデータ削減/要約手法が提案されてきた。 サンプリングアルゴリズムの異なるフレーバーは、高解像度の科学的データをサンプリングし、その後の分析に必要な重要なデータ特性を保存する。 しかし、これらのサンプリングアルゴリズムのほとんどは、単変量データのために設計され、単一変数のポストホック解析を行う。 本研究では,元の変数関係を保存し,サンプルデータ上で異なる多変量解析を可能にする多変量サンプリング戦略を提案する。 提案手法は主成分分析を用いて多変量データの分散を抽出し, 単一変数に対する既存の最先端サンプリングアルゴリズム上に構築することができる。 さらに,局所的多変量関係を効率的にモデル化するために,異なるデータ分割方式(正規および不規則)の変種を提案する。 実世界の2つの多変量データセットを用いて,提案した多変量サンプリング手法の有効性と,効率的なポストホック多変量解析の容易性を示す。

With the increasing computational power of current supercomputers, the size of data produced by scientific simulations is rapidly growing. To reduce the storage footprint and facilitate scalable post-hoc analyses of such scientific data sets, various data reduction/summarization methods have been proposed over the years. Different flavors of sampling algorithms exist to sample the high-resolution scientific data, while preserving important data properties required for subsequent analyses. However, most of these sampling algorithms are designed for univariate data and cater to post-hoc analyses of single variables. In this work, we propose a multivariate sampling strategy which preserves the original variable relationships and enables different multivariate analyses directly on the sampled data. Our proposed strategy utilizes principal component analysis to capture the variance of multivariate data and can be built on top of any existing state-of-the-art sampling algorithms for single variables. In addition, we also propose variants of different data partitioning schemes (regular and irregular) to efficiently model the local multivariate relationships. Using two real-world multivariate data sets, we demonstrate the efficacy of our proposed multivariate sampling strategy with respect to its data reduction capabilities as well as the ease of performing efficient post-hoc multivariate analyses.
翻訳日:2022-10-23 06:51:56 公開日:2020-08-31
# リアルタイムBCIにおける脳波信号圧縮のための深部畳み込みオートエンコーダのROS-Neuro統合

ROS-Neuro Integration of Deep Convolutional Autoencoders for EEG Signal Compression in Real-time BCIs ( http://arxiv.org/abs/2008.13485v1 )

ライセンス: Link先を確認
Andrea Valenti, Michele Barsotti, Raffaello Brondi, Davide Bacciu, Luca Ascari(参考訳) 典型的なEEGベースのBCIアプリケーションは、ノイズの多いEEGチャネル上で複雑な関数の計算を効率的に行う必要がある。 ディープラーニングアルゴリズムは、データから直接柔軟性のある非線形関数を学習することができ、その一定の処理遅延は、オンラインbciシステムへのデプロイに最適である。 しかし,システム全体のユーザビリティを損なうような予測不可能な動作を避けるためには,処理システムのジッタを可能な限り低くすることが重要である。 本稿では,深い畳み込みオートエンコーダに基づいて,脳波入力の効率的な圧縮を実現する新しい符号化手法を提案する。 我々は,我々のモデルをROS-Neuroノードにデプロイし,実世界のシナリオにおけるROSベースのBCIとロボットシステムの統合に適したものにする。 実験の結果,本システムは生入力に含まれる元の情報に保存された有意義な圧縮符号化を生成できることがわかった。 また、ROS-Neuroノードは、そのような符号化を最小のジッタで安定した速度で生成できることも示している。 我々のシステムは,ROS-Neuroフレームワークで完全に標準化された効率的なBCI処理パイプラインの開発に向けた重要な一歩となると信じている。

Typical EEG-based BCI applications require the computation of complex functions over the noisy EEG channels to be carried out in an efficient way. Deep learning algorithms are capable of learning flexible nonlinear functions directly from data, and their constant processing latency is perfect for their deployment into online BCI systems. However, it is crucial for the jitter of the processing system to be as low as possible, in order to avoid unpredictable behaviour that can ruin the system's overall usability. In this paper, we present a novel encoding method, based on on deep convolutional autoencoders, that is able to perform efficient compression of the raw EEG inputs. We deploy our model in a ROS-Neuro node, thus making it suitable for the integration in ROS-based BCI and robotic systems in real world scenarios. The experimental results show that our system is capable to generate meaningful compressed encoding preserving to original information contained in the raw input. They also show that the ROS-Neuro node is able to produce such encodings at a steady rate, with minimal jitter. We believe that our system can represent an important step towards the development of an effective BCI processing pipeline fully standardized in ROS-Neuro framework.
翻訳日:2022-10-23 06:51:19 公開日:2020-08-31
# 離散イベントシーケンス異常検出のためのマルチスケールワンクラスのリカレントニューラルネットワーク

Multi-Scale One-Class Recurrent Neural Networks for Discrete Event Sequence Anomaly Detection ( http://arxiv.org/abs/2008.13361v1 )

ライセンス: Link先を確認
Zhiwei Wang, Zhengzhang Chen, Jingchao Ni, Hui Liu, Haifeng Chen, Jiliang Tang(参考訳) 離散イベントシーケンスは、情報通信技術システムにおけるプロセスインタラクションの順序付けられたイベントシリーズなど、ユビキタスである。 近年、離散的なイベントシーケンスによる異常検出への取り組みが増えている。 しかし、データ不均衡の問題、イベントの離散性、データのシーケンシャルな性質など、いくつかの本質的な課題のため、依然として非常に難しい課題である。 これらの課題に対処するために,離散イベントシーケンス中の異常を検出するマルチスケール1クラスリカレントニューラルネットワークOC4Seqを提案する。 具体的には、oc4seqは、異常検出の目的をrecurrent neural networks(rnns)と統合し、離散的なイベントシーケンスを潜在空間に埋め込む。 さらに、個々のイベント、イベントのサブシーケンス、あるいはシーケンス全体によって異常なシーケンスが引き起こされる可能性があることを考慮し、異なるシーケンシャルパターンのレベルを同時にキャプチャするマルチスケールのRNNフレームワークを設計する。 3つのベンチマークデータセットの実験的結果は、oc4seqが様々な代表ベースラインを一貫して上回っていることを示している。 さらに, 定量的・定性的な分析を行い, イベント異常検出のためのマルチスケール・シーケンシャルパターンの取得の重要性を検証した。

Discrete event sequences are ubiquitous, such as an ordered event series of process interactions in Information and Communication Technology systems. Recent years have witnessed increasing efforts in detecting anomalies with discrete-event sequences. However, it still remains an extremely difficult task due to several intrinsic challenges including data imbalance issues, the discrete property of the events, and sequential nature of the data. To address these challenges, in this paper, we propose OC4Seq, a multi-scale one-class recurrent neural network for detecting anomalies in discrete event sequences. Specifically, OC4Seq integrates the anomaly detection objective with recurrent neural networks (RNNs) to embed the discrete event sequences into latent spaces, where anomalies can be easily detected. In addition, given that an anomalous sequence could be caused by either individual events, subsequences of events, or the whole sequence, we design a multi-scale RNN framework to capture different levels of sequential patterns simultaneously. Experimental results on three benchmark datasets show that OC4Seq consistently outperforms various representative baselines by a large margin. Moreover, through both quantitative and qualitative analysis, the importance of capturing multi-scale sequential patterns for event anomaly detection is verified.
翻訳日:2022-10-23 06:45:37 公開日:2020-08-31
# 総称近接データの複素値埋め込み

Complex-valued embeddings of generic proximity data ( http://arxiv.org/abs/2008.13454v1 )

ライセンス: Link先を確認
Maximilian M\"unch and Michiel Straat and Michael Biehl and Frank-Michael Schleif(参考訳) proximitiesは、ほぼすべての機械学習手法の中心にある。 入力データが等しい長さの数値ベクトルとして与えられる場合、ユークリッド距離やヒルベルト内積はモデリングアルゴリズムで頻繁に用いられる。 より一般的な見方では、対象は特定の数学的性質に従わない(対称)類似性または不類似性測度によって比較される。 これにより、多くの機械学習メソッドが無効になり、収束問題や一般化境界などの保証の損失につながる。 多くの場合、好まれる相同性測度は、地球移動距離のような計量ではなく、あるいは類似性測度はヒルベルト空間の単純内積ではなく、その一般化においてクライン空間である。 入力データが、テキストシーケンスのようにベクトル的でない場合、近接ベースの学習やngram埋め込み技術を適用することができる。 標準組込みは所望の固定長ベクトル符号化をもたらすが、コストがかかり、元のデータの完全な情報を保存する上でかなりの制限がある。 情報保存代替手段として,近接データの複素数値ベクトル埋め込みを提案する。 これにより、適切な機械学習アルゴリズムは、これらの固定長の複素数値ベクトルをさらなる処理に使用できる。 複雑な値のデータは、複雑な値の機械学習アルゴリズムの入力として機能する。 特に,教師付き学習とプロトタイプベースの学習の拡張について論じる。 提案手法は,様々な標準ベンチマークで評価され,非メトリックおよび非psd近接データを処理する従来の手法と比較して,高い性能を示す。

Proximities are at the heart of almost all machine learning methods. If the input data are given as numerical vectors of equal lengths, euclidean distance, or a Hilbertian inner product is frequently used in modeling algorithms. In a more generic view, objects are compared by a (symmetric) similarity or dissimilarity measure, which may not obey particular mathematical properties. This renders many machine learning methods invalid, leading to convergence problems and the loss of guarantees, like generalization bounds. In many cases, the preferred dissimilarity measure is not metric, like the earth mover distance, or the similarity measure may not be a simple inner product in a Hilbert space but in its generalization a Krein space. If the input data are non-vectorial, like text sequences, proximity-based learning is used or ngram embedding techniques can be applied. Standard embeddings lead to the desired fixed-length vector encoding, but are costly and have substantial limitations in preserving the original data's full information. As an information preserving alternative, we propose a complex-valued vector embedding of proximity data. This allows suitable machine learning algorithms to use these fixed-length, complex-valued vectors for further processing. The complex-valued data can serve as an input to complex-valued machine learning algorithms. In particular, we address supervised learning and use extensions of prototype-based learning. The proposed approach is evaluated on a variety of standard benchmarks and shows strong performance compared to traditional techniques in processing non-metric or non-psd proximity data.
翻訳日:2022-10-23 06:44:26 公開日:2020-08-31
# 高次最適隣のラプラシア行列を用いたマルチビュースペクトルクラスタリング

Multi-View Spectral Clustering with High-Order Optimal Neighborhood Laplacian Matrix ( http://arxiv.org/abs/2008.13539v1 )

ライセンス: Link先を確認
Weixuan Liang and Sihang Zhou and Jian Xiong and Xinwang Liu and Siwei Wang and En Zhu and Zhiping Cai and Xin Xu(参考訳) マルチビュースペクトルクラスタリングは、ビュー間の最適な埋め込みに基づいてクラスタリングを行うことにより、データ間の固有のクラスタ構造を効果的に明らかにすることができる。 様々な応用において有望な性能を示すが、既存の方法の多くは通常、事前に特定された一階のラプラシアン行列のグループを線形に結合して最適なラプラシアン行列を構築する。 また、$n\times n$ laplacian行列の複雑な操作を格納して実装することは、集中的なストレージと計算の複雑さを引き起こす。 これらの問題に対処するために,まず高次最適近傍ラプラシアン行列を学習するマルチビュースペクトルクラスタリングアルゴリズムを提案し,その後,高精度かつ効率的なマルチビュークラスタリングのために,レイトフュージョンバージョンに拡張する。 具体的には,一階および高階のラプラシアン行列の線形結合の近傍を同時に探索することにより,最適ラプラシアン行列を生成する。 これにより、学習した最適ラプラシア行列の代表能力が向上し、データ間の隠れた高次接続情報をよりよく活用することができ、クラスタリング性能が向上する。 結果の最適化問題を解くために,効率よく収束したアルゴリズムを設計する。 9つのデータセットの大規模な実験結果から,提案アルゴリズムの有効性と利点を検証する最先端手法に対するアルゴリズムの優位性を示す。

Multi-view spectral clustering can effectively reveal the intrinsic cluster structure among data by performing clustering on the learned optimal embedding across views. Though demonstrating promising performance in various applications, most of existing methods usually linearly combine a group of pre-specified first-order Laplacian matrices to construct the optimal Laplacian matrix, which may result in limited representation capability and insufficient information exploitation. Also, storing and implementing complex operations on the $n\times n$ Laplacian matrices incurs intensive storage and computation complexity. To address these issues, this paper first proposes a multi-view spectral clustering algorithm that learns a high-order optimal neighborhood Laplacian matrix, and then extends it to the late fusion version for accurate and efficient multi-view clustering. Specifically, our proposed algorithm generates the optimal Laplacian matrix by searching the neighborhood of the linear combination of both the first-order and high-order base Laplacian matrices simultaneously. By this way, the representative capacity of the learned optimal Laplacian matrix is enhanced, which is helpful to better utilize the hidden high-order connection information among data, leading to improved clustering performance. We design an efficient algorithm with proved convergence to solve the resultant optimization problem. Extensive experimental results on nine datasets demonstrate the superiority of our algorithm against state-of-the-art methods, which verifies the effectiveness and advantages of the proposed algorithm.
翻訳日:2022-10-23 06:44:04 公開日:2020-08-31
# ドメイン翻訳のためのLangevin冷却

Langevin Cooling for Domain Translation ( http://arxiv.org/abs/2008.13723v1 )

ライセンス: Link先を確認
Vignesh Srinivasan, Klaus-Robert M\"uller, Wojciech Samek, Shinichi Nakajima(参考訳) ドメイン翻訳は2つのドメイン間の対応を見つけるタスクである。 Several Deep Neural Network (DNN) models, e.g., CycleGAN and cross-lingual language models, have shown remarkable successes on this task under the unsupervised setting---the mappings between the domains are learned from two independent sets of training data in both domains (without paired samples). However, those methods typically do not perform well on a significant proportion of test samples. In this paper, we hypothesize that many of such unsuccessful samples lie at the fringe---relatively low-density areas---of data distribution, where the DNN was not trained very well, and propose to perform Langevin dynamics to bring such fringe samples towards high density areas. 我々は,Langevin Cooling (L-Cool)と呼ばれる我々の戦略が,画像翻訳や言語翻訳タスクにおける最先端の手法を強化することを質的かつ定量的に示す。

Domain translation is the task of finding correspondence between two domains. Several Deep Neural Network (DNN) models, e.g., CycleGAN and cross-lingual language models, have shown remarkable successes on this task under the unsupervised setting---the mappings between the domains are learned from two independent sets of training data in both domains (without paired samples). However, those methods typically do not perform well on a significant proportion of test samples. In this paper, we hypothesize that many of such unsuccessful samples lie at the fringe---relatively low-density areas---of data distribution, where the DNN was not trained very well, and propose to perform Langevin dynamics to bring such fringe samples towards high density areas. We demonstrate qualitatively and quantitatively that our strategy, called Langevin Cooling (L-Cool), enhances state-of-the-art methods in image translation and language translation tasks.
翻訳日:2022-10-23 06:43:01 公開日:2020-08-31
# 回帰・分類・生存のためのランダムフォレスト(RF)カーネル

Random Forest (RF) Kernel for Regression, Classification and Survival ( http://arxiv.org/abs/2009.00089v1 )

ライセンス: Link先を確認
Dai Feng and Richard Baumgartner(参考訳) ブレイマンのランダム・フォレスト(RF)は暗黙のカーネル・ジェネレータと解釈でき、続く近接行列はデータ駆動のRFカーネルを表す。 RFのカーネル・パースペクティブは、その統計的性質を理論的に研究するための原則的な枠組みの開発に使用されている。 しかし,カーネルとrf間のリンクの実用性は広く研究されておらず,系統的に評価されていない。 正規化線形モデルによって使用されるデータ駆動rfカーネルの性能と特性を,連続的,二元的および生存的ターゲットからなる包括的シミュレーション研究で明らかにする。 連続的および生存的目標に対して、RFカーネルはノイズの多い特徴を持つ高次元シナリオにおいてRFと競合することを示す。 バイナリターゲットでは、RFカーネルとRFは同等の性能を示す。 RFカーネルは漸近的にLaplaceカーネルに収束するので、評価に含めました。 ほとんどのシミュレーション設定では、RFとRFカーネルはLaplaceカーネルよりも優れていた。 それでも、Laplaceカーネルは競争力があり、アプリケーションの潜在的な価値を示していた。 また,これらの知見が実際にどのように活用されるかを示すために,実生活データから得られた結果について述べるとともに,解釈可能なプロトタイプやランドマーク化,回帰,生存の文脈におけるRFカーネルのさらなる拡張について考察する。 RFのベイジアン版で提供されるカーネルの今後の研究線について概説する。

Breiman's random forest (RF) can be interpreted as an implicit kernel generator,where the ensuing proximity matrix represents the data-driven RF kernel. Kernel perspective on the RF has been used to develop a principled framework for theoretical investigation of its statistical properties. However, practical utility of the links between kernels and the RF has not been widely explored and systematically evaluated.Focus of our work is investigation of the interplay between kernel methods and the RF. We elucidate the performance and properties of the data driven RF kernels used by regularized linear models in a comprehensive simulation study comprising of continuous, binary and survival targets. We show that for continuous and survival targets, the RF kernels are competitive to RF in higher dimensional scenarios with larger number of noisy features. For the binary target, the RF kernel and RF exhibit comparable performance. As the RF kernel asymptotically converges to the Laplace kernel, we included it in our evaluation. For most simulation setups, the RF and RFkernel outperformed the Laplace kernel. Nevertheless, in some cases the Laplace kernel was competitive, showing its potential value for applications. We also provide the results from real life data sets for the regression, classification and survival to illustrate how these insights may be leveraged in practice.Finally, we discuss further extensions of the RF kernels in the context of interpretable prototype and landmarking classification, regression and survival. We outline future line of research for kernels furnished by Bayesian counterparts of the RF.
翻訳日:2022-10-23 06:42:20 公開日:2020-08-31
# 推薦のための四分法に基づく自己注意型長期ユーザ嗜好エンコーディング

Quaternion-Based Self-Attentive Long Short-Term User Preference Encoding for Recommendation ( http://arxiv.org/abs/2008.13335v1 )

ライセンス: Link先を確認
Thanh Tran, Di You, Kyumin Lee(参考訳) 四元数空間は、伝統的なユークリッド空間に対していくつかの利点をもたらした:四元数 (i) 実物及び3つの虚構で構成され、より豊かな表現を奨励する。 (ii)複数の四元数成分間の相互作用をよりよくエンコードするハミルトン積を利用する。 (iii)自由度が小さく、過度に満たないモデルとなる。 残念なことに、現在のレコメンデーターシステムのほとんどはユークリッド空間における実際の価値ある表現に頼り、ユーザーの長期的利益または短期的な利益をモデル化している。 本稿では,ユーザの長期と短期の両方の嗜好をモデル化するために,四元空間を完全に活用する。 まず,QUaternionをベースとした自己認識型長期ユーザ符号化(QUILE)を提案する。 そこで本研究では,QUaternionをベースとした自己認識的短期ユーザエンコーディング(QUASE)を提案する。 モデルの能力を高めるために,四元系ゲーティング機構を用いて,クエーカーとクエーズを1つのモデル,すなわちクレーズに融合させる手法を提案する。 ベイジアンパーソナライズされたランキング(QABPR)とともに第4次逆数学習を開発し、モデルの堅牢性を向上させる。 6つの実世界のデータセットに対する大規模な実験により、私たちの融合したQUILSEモデルは11の最先端ベースラインを上回り、HIT@1では8.43%、NDCG@1では10.27%改善した。

Quaternion space has brought several benefits over the traditional Euclidean space: Quaternions (i) consist of a real and three imaginary components, encouraging richer representations; (ii) utilize Hamilton product which better encodes the inter-latent interactions across multiple Quaternion components; and (iii) result in a model with smaller degrees of freedom and less prone to overfitting. Unfortunately, most of the current recommender systems rely on real-valued representations in Euclidean space to model either user's long-term or short-term interests. In this paper, we fully utilize Quaternion space to model both user's long-term and short-term preferences. We first propose a QUaternion-based self-Attentive Long term user Encoding (QUALE) to study the user's long-term intents. Then, we propose a QUaternion-based self-Attentive Short term user Encoding (QUASE) to learn the user's short-term interests. To enhance our models' capability, we propose to fuse QUALE and QUASE into one model, namely QUALSE, by using a Quaternion-based gating mechanism. We further develop Quaternion-based Adversarial learning along with the Bayesian Personalized Ranking (QABPR) to improve our model's robustness. Extensive experiments on six real-world datasets show that our fused QUALSE model outperformed 11 state-of-the-art baselines, improving 8.43% at HIT@1 and 10.27% at NDCG@1 on average compared with the best baseline.
翻訳日:2022-10-23 06:36:24 公開日:2020-08-31
# PNEL: ポインタネットワークに基づく知識グラフ上のエンドツーエンドエンティティリンク

PNEL: Pointer Network based End-To-End Entity Linking over Knowledge Graphs ( http://arxiv.org/abs/2009.00106v1 )

ライセンス: Link先を確認
Debayan Banerjee, Debanjan Chaudhuri, Mohnish Dubey, Jens Lehmann(参考訳) 質問応答システムは一般に一連のステップからなるパイプラインとしてモデル化される。 このようなパイプラインでは、エンティティリンク(EL)が最初のステップになることが多い。 いくつかのELモデルはまずスパン検出を行い、それからエンティティの曖昧さを解消する。 このようなモデルでは、スパン検出フェーズカスケードから後のステップへのエラーが発生し、全体的な精度が低下する。 さらに、トレーニングデータにおける金の実体の欠如は、スパン検出器トレーニングの制限要因である。 したがって、エンドツーエンドのelモデルへの動きは、個別のスパン検出ステップが関与しないところから始まった。 本稿では,競争性能の高いポインターネットワークモデルを用いて,エンド・ツー・エンドのELに新たなアプローチを提案する。 我々はウィキデータナレッジグラフ上で3つのデータセットについて評価を行った。

Question Answering systems are generally modelled as a pipeline consisting of a sequence of steps. In such a pipeline, Entity Linking (EL) is often the first step. Several EL models first perform span detection and then entity disambiguation. In such models errors from the span detection phase cascade to later steps and result in a drop of overall accuracy. Moreover, lack of gold entity spans in training data is a limiting factor for span detector training. Hence the movement towards end-to-end EL models began where no separate span detection step is involved. In this work we present a novel approach to end-to-end EL by applying the popular Pointer Network model, which achieves competitive performance. We demonstrate this in our evaluation over three datasets on the Wikidata Knowledge Graph.
翻訳日:2022-10-23 06:35:32 公開日:2020-08-31
# 現実的な日光の下での単一画像デハージング手法の評価

Evaluating Single Image Dehazing Methods Under Realistic Sunlight Haze ( http://arxiv.org/abs/2008.13377v1 )

ライセンス: Link先を確認
Zahra Anvari, Vassilis Athitsos(参考訳) Hazeは視界と画質を劇的に劣化させ、オブジェクト検出などのコンピュータビジョンタスクの性能を低下させる。 単一画像デハジングは、広く研究されているにもかかわらず、挑戦的で不適切な問題である。 既存の方法の多くは、ヘイズが均一で均質な分布を持つと仮定しており、ヘイズは1色、すなわち煙に似た灰色がかった白色を持ち、実際のヘイズは異なるパターンや色で非均一に分布することができる。 本稿では,自然界で最も広く分布するハズのひとつとして,日光によって生み出されたハズに注目した。 日光は、日光による急激な密度変化と日中の日光色の変化による光のスペクトルで均一に分布しないヘイズを生成することができる。 これは画像デハジング手法に対する新たな挑戦である。 これらの手法を実践するには、この問題に対処する必要がある。 そこで本研究では,これらの手法の課題を定量化し,その性能を評価するために,さまざまな強度と色彩の日光が生成する,107種類のヘイズ画像を含む日光ヘイズベンチマークデータセットsun-hazeを提案する。 我々は,PSNR,SSIM,CIEDE2000,PI,NIQEなどの標準指標を用いて,このベンチマークデータセット上での最先端画像デハージング手法の代表的なセットを評価する。 これは現在の手法の限界を明らかにし、基礎となる仮定と実用性に疑問を呈する。

Haze can degrade the visibility and the image quality drastically, thus degrading the performance of computer vision tasks such as object detection. Single image dehazing is a challenging and ill-posed problem, despite being widely studied. Most existing methods assume that haze has a uniform/homogeneous distribution and haze can have a single color, i.e. grayish white color similar to smoke, while in reality haze can be distributed non-uniformly with different patterns and colors. In this paper, we focus on haze created by sunlight as it is one of the most prevalent type of haze in the wild. Sunlight can generate non-uniformly distributed haze with drastic density changes due to sun rays and also a spectrum of haze color due to sunlight color changes during the day. This presents a new challenge to image dehazing methods. For these methods to be practical, this problem needs to be addressed. To quantify the challenges and assess the performance of these methods, we present a sunlight haze benchmark dataset, Sun-Haze, containing 107 hazy images with different types of haze created by sunlight having a variety of intensity and color. We evaluate a representative set of state-of-the-art image dehazing methods on this benchmark dataset in terms of standard metrics such as PSNR, SSIM, CIEDE2000, PI and NIQE. This uncovers the limitation of the current methods, and questions their underlying assumptions as well as their practicality.
翻訳日:2022-10-23 06:35:22 公開日:2020-08-31
# iLGaCo: 歩行共変因子の増分学習

iLGaCo: Incremental Learning of Gait Covariate Factors ( http://arxiv.org/abs/2008.13507v1 )

ライセンス: Link先を確認
Zihao Mu and Francisco M. Castro and Manuel J. Marin-Jimenez and Nicolas Guil and Yan-ran Li and Shiqi Yu(参考訳) 歩行は、歩き方に基づいて人を識別するために使われる一般的な生体計測パターンである。 伝統的に、ディープラーニングに基づく歩行認識アプローチは、トレーニングデータセット全体を使用して訓練される。 実際、新しいデータ(クラス、ビューポイント、ウォーキング条件など)を含める必要がある場合、古いデータと新しいデータサンプルでモデルを再トレーニングする必要があります。 本稿では,歩行認識のための共変量因子を用いた最初の漸進学習手法であるilgacoを提案する。データセット全体を用いて,深層モデルをスクラッチから再トレーニングすることなく,新たな情報で更新することができる。 代わりに、我々のアプローチは、新しいデータと以前のサンプルの小さなサブセットを使って、より短いトレーニングプロセスを実行します。 このように、我々のモデルは以前の知識を維持しながら新しい情報を学ぶ。 我々は,casia-bデータセット上のilgacoについて,新たな視点の追加と新たな歩行条件の追加という,2つの段階的な評価を行った。 いずれの場合も,従来の ‘scratch-training-from-scratch' アプローチに近い結果であり,0.2% から 1.2% までの精度低下が得られた。 さらに、iLGaCoとLwFやiCarlのような他の漸進的な学習方法との比較では、実験によって6%から15%の精度が向上した。

Gait is a popular biometric pattern used for identifying people based on their way of walking. Traditionally, gait recognition approaches based on deep learning are trained using the whole training dataset. In fact, if new data (classes, view-points, walking conditions, etc.) need to be included, it is necessary to re-train again the model with old and new data samples. In this paper, we propose iLGaCo, the first incremental learning approach of covariate factors for gait recognition, where the deep model can be updated with new information without re-training it from scratch by using the whole dataset. Instead, our approach performs a shorter training process with the new data and a small subset of previous samples. This way, our model learns new information while retaining previous knowledge. We evaluate iLGaCo on CASIA-B dataset in two incremental ways: adding new view-points and adding new walking conditions. In both cases, our results are close to the classical `training-from-scratch' approach, obtaining a marginal drop in accuracy ranging from 0.2% to 1.2%, what shows the efficacy of our approach. In addition, the comparison of iLGaCo with other incremental learning methods, such as LwF and iCarl, shows a significant improvement in accuracy, between 6% and 15% depending on the experiment.
翻訳日:2022-10-23 06:34:58 公開日:2020-08-31
# 対空検知に対する対向パッチカモフラージュ

Adversarial Patch Camouflage against Aerial Detection ( http://arxiv.org/abs/2008.13671v1 )

ライセンス: Link先を確認
Ajaya Adhikari, Richard den Hollander, Ioannis Tolios, Michael van Bekkum, Anneloes Bal, Stijn Hendriks, Maarten Kruithof, Dennis Gross, Nils Jansen, Guillermo P\'erez, Kit Buurman, Stephan Raaijmakers(参考訳) 深層学習に基づく物体検出装置をドローンの監視映像に適用することにより、地上の軍事資産の検出を行うことができる。 軍事資産を目視から隠す伝統的な方法はカモフラージュであり、例えばカモフラージュ網を用いている。 しかし、飛行機や船舶のような大きな資産は伝統的なカモフラージュ網によって隠すのが難しい。 別のタイプのカモフラージュは、自動物体検出器の直接的誤解である。 近年,物体の画像に印加される小さな対角変化は,深層学習に基づく検出器による誤出力を生じさせることが明らかとなった。 特に、敵対的な攻撃は、画像中の人物の検出を禁止し、人物の前に特定のパターンが保持されているパッチが必要となり、検知器の人物をカモフラージュすることに成功した。 この種のパッチ攻撃の研究はまだ限られており、最適なパッチ構成に関するいくつかの質問は未解決のままである。 この作品には2つの貢献がある。 まず,大規模な軍事資産の上にパッチを配置し,画像上を自動検出装置からカモフラージュする無人航空機監視の用途に対して,パッチベースの敵攻撃を適用する。 パッチは、小さな部分だけをカバーしながら、オブジェクト全体の自動検出を防止することができる。 第2に,パッチ構成の異なる複数の実験を行い,そのサイズ,位置,数,塩分を変化させた。 以上の結果から,敵パッチ攻撃は従来のカモフラージュ活動の代替であり,航空監視画像の自動解析において考慮すべきであると考えられる。

Detection of military assets on the ground can be performed by applying deep learning-based object detectors on drone surveillance footage. The traditional way of hiding military assets from sight is camouflage, for example by using camouflage nets. However, large assets like planes or vessels are difficult to conceal by means of traditional camouflage nets. An alternative type of camouflage is the direct misleading of automatic object detectors. Recently, it has been observed that small adversarial changes applied to images of the object can produce erroneous output by deep learning-based detectors. In particular, adversarial attacks have been successfully demonstrated to prohibit person detections in images, requiring a patch with a specific pattern held up in front of the person, thereby essentially camouflaging the person for the detector. Research into this type of patch attacks is still limited and several questions related to the optimal patch configuration remain open. This work makes two contributions. First, we apply patch-based adversarial attacks for the use case of unmanned aerial surveillance, where the patch is laid on top of large military assets, camouflaging them from automatic detectors running over the imagery. The patch can prevent automatic detection of the whole object while only covering a small part of it. Second, we perform several experiments with different patch configurations, varying their size, position, number and saliency. Our results show that adversarial patch attacks form a realistic alternative to traditional camouflage activities, and should therefore be considered in the automated analysis of aerial surveillance imagery.
翻訳日:2022-10-23 06:34:36 公開日:2020-08-31
# 因果表現によるオンライン時空間行動検出と予測

Online Spatiotemporal Action Detection and Prediction via Causal Representations ( http://arxiv.org/abs/2008.13759v1 )

ライセンス: Link先を確認
Gurkirt Singh(参考訳) 本論文では,オンラインおよびリアルタイム処理の観点からビデオアクション理解の問題に焦点をあてる。 まず、従来のオフライン時空間行動検出パイプラインをオンライン時空間行動管検出システムに変換することから始める。 アクションチューブ(英: action tube)とは、時間とともに連結された境界の集合であり、空間と時間でアクションインスタンスを束縛する。 次に,既存の動作管を回帰によって未来へ拡張することで,検出手法の将来予測能力を検討する。 その後,オフライン3次元畳み込みニューラルネットワーク(cnns)の動作認識,時間的動作分節化,早期予測など,様々なタスクにおいて,オンライン/コーサル表現が同等の性能を達成できることを示す。

In this thesis, we focus on video action understanding problems from an online and real-time processing point of view. We start with the conversion of the traditional offline spatiotemporal action detection pipeline into an online spatiotemporal action tube detection system. An action tube is a set of bounding connected over time, which bounds an action instance in space and time. Next, we explore the future prediction capabilities of such detection methods by extending an existing action tube into the future by regression. Later, we seek to establish that online/causal representations can achieve similar performance to that of offline three dimensional (3D) convolutional neural networks (CNNs) on various tasks, including action recognition, temporal action segmentation and early prediction.
翻訳日:2022-10-23 06:34:11 公開日:2020-08-31
# 知識に基づく視覚的質問応答のためのクロスモーダル知識推論

Cross-modal Knowledge Reasoning for Knowledge-based Visual Question Answering ( http://arxiv.org/abs/2009.00145v1 )

ライセンス: Link先を確認
Jing Yu, Zihao Zhu, Yujing Wang, Weifeng Zhang, Yue Hu, Jianlong Tan(参考訳) KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。 この能力は難しいが、一般的なVQAを達成するには不可欠である。 既存のKVQAソリューションの1つの制限は、細かい選択なしにあらゆる種類の情報を共同で埋め込み、正しい答えを推論するための予期せぬノイズを導入することである。 質問指向と情報補完的な証拠をどうやって捉えるかは、この問題を解決する上で重要な課題である。 本稿では,人間の認知理論に着想を得て,視覚的,意味的,事実的視点から,複数の知識グラフによるイメージを描く。 そのため、ビジュアルグラフとセマンティックグラフは、事実グラフのイメージ条件付きインスタンス化と見なされる。 これらの新たな表現に加えて,マルチモーダル情報から補完的証拠を得るための再帰的推論プロセスとして,知識に基づく視覚的質問応答を再定式化する。 この目的のために、モデルを一連のメモリベースの推論ステップに分解し、それぞれをg raphベースのr ead、u pdate、c ontrol( gruc )モジュールで実行し、視覚情報と意味情報の両方に対して並列推論を行う。 モジュールを複数回積み重ねることで、推移的推論を行い、異なるモダリティの制約の下で質問指向の概念表現を得る。 最後に、すべての概念を共同で検討することにより、グローバル最適解を推論するためにグラフニューラルネットワークを実行する。 我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセット上で、新しい最先端性能を実現し、広範囲な実験により、モデルの有効性と解釈性を示す。

Knowledge-based Visual Question Answering (KVQA) requires external knowledge beyond the visible content to answer questions about an image. This ability is challenging but indispensable to achieve general VQA. One limitation of existing KVQA solutions is that they jointly embed all kinds of information without fine-grained selection, which introduces unexpected noises for reasoning the correct answer. How to capture the question-oriented and information-complementary evidence remains a key challenge to solve the problem. Inspired by the human cognition theory, in this paper, we depict an image by multiple knowledge graphs from the visual, semantic and factual views. Thereinto, the visual graph and semantic graph are regarded as image-conditioned instantiation of the factual graph. On top of these new representations, we re-formulate Knowledge-based Visual Question Answering as a recurrent reasoning process for obtaining complementary evidence from multimodal information. To this end, we decompose the model into a series of memory-based reasoning steps, each performed by a G raph-based R ead, U pdate, and C ontrol ( GRUC ) module that conducts parallel reasoning over both visual and semantic information. By stacking the modules multiple times, our model performs transitive reasoning and obtains question-oriented concept representations under the constrain of different modalities. Finally, we perform graph neural networks to infer the global-optimal answer by jointly considering all the concepts. We achieve a new state-of-the-art performance on three popular benchmark datasets, including FVQA, Visual7W-KB and OK-VQA, and demonstrate the effectiveness and interpretability of our model with extensive experiments.
翻訳日:2022-10-23 06:33:58 公開日:2020-08-31
# クラスタリングと半教師付き分類のための構造化グラフ学習

Structured Graph Learning for Clustering and Semi-supervised Classification ( http://arxiv.org/abs/2008.13429v1 )

ライセンス: Link先を確認
Zhao Kang and Chong Peng and Qiang Cheng and Xinwang Liu and Xi Peng and Zenglin Xu and Ling Tian(参考訳) グラフは、過去10年間に様々な問題における構造と相互作用のモデリングでますます人気を集めている。 グラフベースのクラスタリングと半教師付き分類技術は素晴らしい性能を示している。 本稿では,データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。 具体的には, 標本の自己表現性を用いて大域構造を捉え, 局所構造を尊重する適応隣接アプローチを提案する。 さらに,既存のグラフベースの手法では,クラスタリングや半教師付き分類を行う場合が多く,クラスタ構造が明示されていないため,最適性能が得られない場合がある。 ランク制約を考慮して、達成されたグラフは、$c$クラスタやクラスがある場合、正確に$c$接続されたコンポーネントを持つ。 この副産物として、グラフ学習とラベル推論は原則的に共同で、反復的に実装される。 理論的には、我々のモデルは特定の条件下でのカーネルk平均法とk平均法の組合せと等価であることを示す。 クラスタリングと半教師付き分類に関する広範な実験は,提案手法が他の最先端手法よりも優れていることを示している。

Graphs have become increasingly popular in modeling structures and interactions in a wide variety of problems during the last decade. Graph-based clustering and semi-supervised classification techniques have shown impressive performance. This paper proposes a graph learning framework to preserve both the local and global structure of data. Specifically, our method uses the self-expressiveness of samples to capture the global structure and adaptive neighbor approach to respect the local structure. Furthermore, most existing graph-based methods conduct clustering and semi-supervised classification on the graph learned from the original data matrix, which doesn't have explicit cluster structure, thus they might not achieve the optimal performance. By considering rank constraint, the achieved graph will have exactly $c$ connected components if there are $c$ clusters or classes. As a byproduct of this, graph learning and label inference are jointly and iteratively implemented in a principled way. Theoretically, we show that our model is equivalent to a combination of kernel k-means and k-means methods under certain condition. Extensive experiments on clustering and semi-supervised classification demonstrate that the proposed method outperforms other state-of-the-art methods.
翻訳日:2022-10-23 06:27:19 公開日:2020-08-31
# インクリメンタルクラスを考慮した適応埋め込み学習

Learning Adaptive Embedding Considering Incremental Class ( http://arxiv.org/abs/2008.13351v1 )

ライセンス: Link先を確認
Yang Yang, Zhen-Qiang Sun, HengShu Zhu, Yanjie Fu, Hui Xiong, Jian Yang(参考訳) CIL(Class-Incremental Learning)は、ストリーミングデータを用いて信頼性の高いモデルをトレーニングすることを目的としている。 従来の閉集合学習とは異なり、CILには2つの大きな課題がある。 1)新規クラス検出。 最初のトレーニングデータは不完全なクラスのみを含み、ストリーミングテストデータは未知のクラスを受け入れる。 したがって、モデルは既知のクラスを正確に分類するだけでなく、未知のクラスを効果的に検出する必要がある。 2)モデル拡張。 新たなクラスが検出された後、以前のデータ全体を使用せずにモデルを更新する必要がある。 しかし、従来のcil法はこれら2つの課題を完全に考慮していないが、第一に、それらは常に単一の新しいクラス検出に制限され、未知のクラスによって引き起こされる混乱を埋め込む。 さらに、モデルアップデートで既知のカテゴリの破滅的な忘れを無視する。 そこで本研究では,新しいクラス検出とモデル更新を統一されたフレームワークで処理するための適応的な埋め込み学習を目的としたCILFフレームワークを提案する。 より詳しくは、CILFは、クラス内およびクラス間構造を大幅に改善し、新しいクラス検出のためのコンパクトな埋め込み表現を取得することができる、分離されたプロトタイプベース損失による分類を規則化する。 次に、CILFは学習可能なカリキュラムクラスタリング演算子を用いて、学習したネットワークを微調整することで、セマンティッククラスタの数を推定する。 したがって、CILFは複数の新しいクラスを検知し、埋め込み混乱問題を緩和することができる。 最後に、ラベル付きストリーミングテストデータにより、CILFはネットワークを堅牢な正規化で更新し、破滅的な忘れを軽減できる。 これにより、CILFは、新しいクラス検出とモデル更新を反復的に実行することができる。

Class-Incremental Learning (CIL) aims to train a reliable model with the streaming data, which emerges unknown classes sequentially. Different from traditional closed set learning, CIL has two main challenges: 1) Novel class detection. The initial training data only contains incomplete classes, and streaming test data will accept unknown classes. Therefore, the model needs to not only accurately classify known classes, but also effectively detect unknown classes; 2) Model expansion. After the novel classes are detected, the model needs to be updated without re-training using entire previous data. However, traditional CIL methods have not fully considered these two challenges, first, they are always restricted to single novel class detection each phase and embedding confusion caused by unknown classes. Besides, they also ignore the catastrophic forgetting of known categories in model update. To this end, we propose a Class-Incremental Learning without Forgetting (CILF) framework, which aims to learn adaptive embedding for processing novel class detection and model update in a unified framework. In detail, CILF designs to regularize classification with decoupled prototype based loss, which can improve the intra-class and inter-class structure significantly, and acquire a compact embedding representation for novel class detection in result. Then, CILF employs a learnable curriculum clustering operator to estimate the number of semantic clusters via fine-tuning the learned network, in which curriculum operator can adaptively learn the embedding in self-taught form. Therefore, CILF can detect multiple novel classes and mitigate the embedding confusion problem. Last, with the labeled streaming test data, CILF can update the network with robust regularization to mitigate the catastrophic forgetting. Consequently, CILF is able to iteratively perform novel class detection and model update.
翻訳日:2022-10-23 06:27:04 公開日:2020-08-31
# 放射線学AI/ML開発と臨床展開のフィードバックとモニタリングのための多施設・レポートベース・集中型インフラ

A Multisite, Report-Based, Centralized Infrastructure for Feedback and Monitoring of Radiology AI/ML Development and Clinical Deployment ( http://arxiv.org/abs/2008.13781v1 )

ライセンス: Link先を確認
Menashe Benjamin, Guy Engelhard, Alex Aisen, Yinon Aradi, Elad Benjamin(参考訳) 人工知能(AI)/機械学習(ML)ソリューションの自動開発、デプロイ、監視、継続的な改善を成功させるためには、多地点で地理的に分散した多地点で高品質な画像の作成と収集のためのインフラが不可欠である。 画像閲覧, 予測, 自然言語処理(NLP)と画像発見とレポート間のハイパーリンクの生成を統合した, インタラクティブなラジオロジーレポート手法は, 日常的な解釈において, 局所的なラベルを提供する。 これらのイメージとラベルは、クラウドベースのシステムでキャプチャと集中化が可能である。 この手法は、アルゴリズムの性能をモニタする実用的かつ効率的なメカニズムを提供する。 また、新しいアルゴリズムモデルと既存のアルゴリズムモデルの反復的な開発と品質改善のためのフィードバックも提供する。 放射線技師を負担することなくフィードバックとモニタリングが達成される。 本手法は,市販後監視および外部データに対する規制要件に対処する。 総合的なマルチサイトデータ収集はバイアスを減らすのに役立つ。 リソース要件は、専用のレトロスペクティブ専門家のラベル付けに比べて大幅に削減されます。

An infrastructure for multisite, geographically-distributed creation and collection of diverse, high-quality, curated and labeled radiology image data is crucial for the successful automated development, deployment, monitoring and continuous improvement of Artificial Intelligence (AI)/Machine Learning (ML) solutions in the real world. An interactive radiology reporting approach that integrates image viewing, dictation, natural language processing (NLP) and creation of hyperlinks between image findings and the report, provides localized labels during routine interpretation. These images and labels can be captured and centralized in a cloud-based system. This method provides a practical and efficient mechanism with which to monitor algorithm performance. It also supplies feedback for iterative development and quality improvement of new and existing algorithmic models. Both feedback and monitoring are achieved without burdening the radiologist. The method addresses proposed regulatory requirements for post-marketing surveillance and external data. Comprehensive multi-site data collection assists in reducing bias. Resource requirements are greatly reduced compared to dedicated retrospective expert labeling.
翻訳日:2022-10-23 06:25:33 公開日:2020-08-31
# 視覚パターンの解釈可能な階層表現のための非文脈学習

Decontextualized learning for interpretable hierarchical representations of visual patterns ( http://arxiv.org/abs/2009.09893v1 )

ライセンス: Link先を確認
R. Ian Etheredge, Manfred Schartl, Alex Jordan(参考訳) 分類および物体検出タスクのための識別モデルとは別に、自然画像データを用いた基礎研究への深層畳み込みニューラルネットワークの適用は、特に下流解析に一連の解釈可能な特徴を必要とする場合において、多くの科学研究において重要な要件となっている。 本稿では,dhrl(decontextualized hierarchical representation learning)という,これに対処するために特別に設計されたアルゴリズムとトレーニングパラダイムを提案する。 生成的モデル連鎖手順とラダーネットワークアーキテクチャと、推論のための潜在空間正規化を組み合わせることで、dhrlは小さなデータセットの制限に対処し、階層的に整理された機能の分離を奨励する。 変分推論を用いた複雑な階層パターン解析のためのトラクタブルパスの提供に加えて、このアプローチは生成的であり、経験的および理論的アプローチと直接結合することができる。 DHRLの拡張性と有用性を強調するため,本手法を進化生物学の課題に適用する。

Apart from discriminative models for classification and object detection tasks, the application of deep convolutional neural networks to basic research utilizing natural imaging data has been somewhat limited; particularly in cases where a set of interpretable features for downstream analysis is needed, a key requirement for many scientific investigations. We present an algorithm and training paradigm designed specifically to address this: decontextualized hierarchical representation learning (DHRL). By combining a generative model chaining procedure with a ladder network architecture and latent space regularization for inference, DHRL address the limitations of small datasets and encourages a disentangled set of hierarchically organized features. In addition to providing a tractable path for analyzing complex hierarchal patterns using variation inference, this approach is generative and can be directly combined with empirical and theoretical approaches. To highlight the extensibility and usefulness of DHRL, we demonstrate this method in application to a question from evolutionary biology.
翻訳日:2022-10-23 06:25:18 公開日:2020-08-31
# 配向バウンディングボックスとLSTMオートエンコーダを用いた変形3次元形状の解析と予測

Analysis and Prediction of Deforming 3D Shapes using Oriented Bounding Boxes and LSTM Autoencoders ( http://arxiv.org/abs/2009.03782v1 )

ライセンス: Link先を確認
Sara Hahner, Rodrigo Iza-Teran, Jochen Garcke(参考訳) 複雑な3次元形状の時系列について,その解析パターンの検出と,複雑な形状の構造成分を用いて変形の予測を行う一般的な手法を提案する。 データ内のパターンの検出と変形挙動の時間的ダイナミクスの検出を可能にする低次元表現を作成するために,long short-term memory (lstm) 層をオートエンコーダに組み込む。 これは2つのデコーダで実現され、1つは再構成用、もう1つはシーケンスの将来の時間ステップの予測用である。 前処理ステップでは、研究対象のコンポーネントを向き付けられた境界ボックスに変換し、塑性変形の影響を捉え、構造を記述するデータの寸法を低減させる。 このアーキテクチャは、材料特性が変化する133の異なる部品を持つモデルの196台の車両衝突シミュレーションの結果に基づいてテストされる。 潜在表現では、異なる部品の塑性変形のパターンを検出することができる。 予測された境界ボックスは最終シミュレーション結果の推定を行い、その品質は異なるベースラインと比較して向上する。

For sequences of complex 3D shapes in time we present a general approach to detect patterns for their analysis and to predict the deformation by making use of structural components of the complex shape. We incorporate long short-term memory (LSTM) layers into an autoencoder to create low dimensional representations that allow the detection of patterns in the data and additionally detect the temporal dynamics in the deformation behavior. This is achieved with two decoders, one for reconstruction and one for prediction of future time steps of the sequence. In a preprocessing step the components of the studied object are converted to oriented bounding boxes which capture the impact of plastic deformation and allow reducing the dimensionality of the data describing the structure. The architecture is tested on the results of 196 car crash simulations of a model with 133 different components, where material properties are varied. In the latent representation we can detect patterns in the plastic deformation for the different components. The predicted bounding boxes give an estimate of the final simulation result and their quality is improved in comparison to different baselines.
翻訳日:2022-10-23 06:24:26 公開日:2020-08-31