このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201111となっている論文です。

PDF登録状況(公開日: 20201111)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子コヒーレンス蒸留と非コヒーレントランダム抽出に関する有限ブロック長解析

Finite Block Length Analysis on Quantum Coherence Distillation and Incoherent Randomness Extraction ( http://arxiv.org/abs/2002.12004v2 )

ライセンス: Link先を確認
Masahito Hayashi, Kun Fang and Kun Wang(参考訳) 本研究は,コヒーレンス蒸留作業の2次漸近性に関する最初の体系的研究である。 非アシスト設定では、非一貫性測定とランダム性抽出の前に自由非一貫性演算を許容するランダム性抽出フレームワークの変種を導入する。 次に、与えられた量子状態から抽出可能なランダムビットの最大数は、同じ状態から蒸留できるコヒーレントビットの最大数と正確に等しいことを示す。 この関係により、独立かつ同一に分散した環境で、両方のタスクの厳密な二階展開を導出できる。 驚くべきことに、ジェネリック状態のコヒーレンス蒸留を促進する非一貫性操作クラスは、すべて同じ2次膨張を許容しており、漸近的および大きなブロック長領域におけるコヒーレンス蒸留の操作等価性を示している。 次に、bobが手元の状態からコヒーレンスを蒸留する二部量子系において自然に発生する、他の系を持つ利己的なアリスによって支援された、上記の研究の行を補助的な設定に一般化する。 より正確には、新しい非コヒーレントなランダム性抽出タスクを導入し、このタスクとコヒーレンス蒸留の正確な関係を確立する。 これにより、無支援設定におけるワンショット関係が強化され、この暗号フレームワークが量子コヒーレンス蒸留の研究に新たな視点を提供していることが確認される。 同様に、この関係は補助タスクに二階の特徴を与える。 副積として、上記のタスクの2次展開から強い逆特性を示す。

We give the first systematic study on the second order asymptotics of the operational task of coherence distillation with and without assistance. In the unassisted setting, we introduce a variant of randomness extraction framework where free incoherent operations are allowed before the incoherent measurement and the randomness extractors. We then show that the maximum number of random bits extractable from a given quantum state is precisely equal to the maximum number of coherent bits that can be distilled from the same state. This relation enables us to derive tight second order expansions of both tasks in the independent and identically distributed setting. Remarkably, the incoherent operation classes that can empower coherence distillation for generic states all admit the same second order expansions, indicating their operational equivalence for coherence distillation in both asymptotic and large block length regime. We then generalize the above line of research to the assisted setting, arising naturally in bipartite quantum systems where Bob distills coherence from the state at hand, aided by the benevolent Alice possessing the other system. More precisely, we introduce a new assisted incoherent randomness extraction task and establish an exact relation between this task and the assisted coherence distillation. This strengthens the one-shot relation in the unassisted setting and confirms that this cryptographic framework indeed offers a new perspective to the study of quantum coherence distillation. Likewise, this relation yields second order characterizations to the assisted tasks. As by-products, we show the strong converse property of the aforementioned tasks from their second order expansions.
翻訳日:2023-06-01 12:48:43 公開日:2020-11-11
# 多元的絡み合い検証のための構成可能なセキュリティ

Composable Security for Multipartite Entanglement Verification ( http://arxiv.org/abs/2004.07679v3 )

ライセンス: Link先を確認
Raja Yehia, Eleni Diamanti and Iordanis Kerenidis(参考訳) 我々は、$n$のパーティが、おそらく不正直なパーティーによって制御される絡み合った生成リソースをテストすることができる構成可能なセキュアなプロトコルを提案する。 テストはローカルな量子演算と認証された古典的通信でのみ行われ、状態が互いに共有され、構成可能なセキュリティを提供する。すなわち、ソースがGHZ状態に少なくとも$$\epsilon$-closeの量子状態を共有するかどうかをテストするために、より大きな通信プロトコル内で$n$正直な関係者によってセキュアなサブルーチンとして使用できる。 この主張は、通常のゲームベースモデルでセキュリティが研究されたマルチパーティ・エンタングルメント検証の以前の結果の上にある。 本稿では,量子ネットワークにおける実用性向上のためにプロトコルの改良を行い,そのセキュリティを抽象暗号フレームワークで検討し,構成可能性の問題を強調し,隠れた仮定を避ける。 このフレームワークはトップツーボット理論であり、各コンポーネント(パーティまたはリソース)がプロトコルのタイムステップ毎に取得する情報の一部を明確にする。 また、所望のセキュリティ特性(局所シミュレーションまで)を持つ理想的なリソースとプロトコルを表す具体的なリソースとの区別がつかないセキュリティ証明は、この設定において、無料で構成可能である。 これにより、ノイズや悪意のあるソースが存在する場合でも、正直な関係者がGHZ状態や中止信号に近い状態が得られるような、構成可能なセキュアなマルチラウンドプロトコルを作成することができる。 我々のプロトコルは通常、通信や計算プロトコルを実行する前に、ネットワーク間でGHZ状態を安全に共有するために量子インターネットのサブルーチンとして使用できる。

We present a composably secure protocol allowing $n$ parties to test an entanglement generation resource controlled by a possibly dishonest party. The test consists only in local quantum operations and authenticated classical communication once a state is shared among them and provides composable security, namely it can be used as a secure subroutine by $n$ honest parties within larger communication protocols to test if a source is sharing quantum states that are at least $\epsilon$-close to the GHZ state. This claim comes on top of previous results on multipartite entanglement verification where the security was studied in the usual game-based model. Here, we improve the protocol to make it more suitable for practical use in a quantum network and we study its security in the Abstract Cryptography framework to highlight composability issues and avoid hidden assumptions. This framework is a top-to-bottom theory that makes explicit any piece of information that each component (party or resource) gets at every time-step of the protocol. Moreover any security proof, which amounts to showing indistinguishability between an ideal resource having the desired security properties (up to local simulation) and the concrete resource representing the protocol, is composable for free in this setting. This allows us to readily compose our basic protocol in order to create a composably secure multi-round protocol enabling honest parties to obtain a state close to a GHZ state or an abort signal, even in the presence of a noisy or malicious source. Our protocol can typically be used as a subroutine in a Quantum Internet, to securely share a GHZ state among the network before performing a communication or computation protocol.
翻訳日:2023-05-23 07:01:06 公開日:2020-11-11
# 3点スピンチェーンにおけるバスアシスト輸送:グローバル"sl vs"局所的アプローチ

Bath assisted transport in a three-site spin chain: global {\sl vs} local approach ( http://arxiv.org/abs/2004.10433v3 )

ライセンス: Link先を確認
Fabio Benatti, Roberto Floreanini, and Laleh Memarzadeh(参考訳) 標準の弱結合限界の中で、異なる温度で2つの異なる熱浴に結合した2つの端スピンを持つ開量子スピンチェーンの還元ダイナミクスは主に、スピン自己相互作用が考慮されていない、いわゆる \textit{global} と \textit{local} を用いて導かれる。 2つの状態の違いを比較するために、オープンな3サイト$XX$スピンチェーンに集中し、大域的および局所的な漸近状態に対処するための体系的手法を提供し、その後、中間部位を通してスピンフラックスを研究することで漸近的スピン輸送特性を比較する。 %) で, 開封3サイト$XX$スピン鎖の輸送特性を検討した。 %大域的アプローチにおける開鎖の正確な定常状態と、局所的アプローチにおける自己相互作用に関する第1次展開を解析的に導出する。 %の定常輸送特性を中間スピンで測定し, 2つのレジームに関する物理的シナリオを比較した。 %By 解析的および数値的手段 二つの状態における定常状態の解析的表現に基づいて、局所的なアプローチはスピンシンクや非無視的なスピン間相互作用によってのみ起こりうる源条件として生じる重要な大域的な影響を見逃すことが判明した。 さらに, スピン間カップリングを消失させることで, 局所的な無症候性輸送特性が大域的に回復できないことを示し, 1つのアプローチが物理的に固定可能であり, 2つの記述が共存可能な領域が存在することを指摘した。

Within the standard weak-coupling limit, the reduced dynamics of open quantum spin chains with their two end spins coupled to two distinct heat baths at different temperatures are mainly derived using the so-called \textit{global} and \textit{local} approaches, in which, respectively, the spin self-interaction is and is not taken into account. In order to compare the differences between the two regimes, we concentrate on an open three-site $XX$ spin-chain, provide systematic techniques to addressing the global and local asymptotic states and then compare the asymptotic spin-transport features by studying the spin flux through the middle site. %we examine the transport properties of an open three-site $XX$ spin-chain. %We analytically derive the exact steady state of the open chain in the global approach and its first order expansion with respect to the self-interaction in the local one. %The steady state transport properties through the middle spin is then studied %in order to compare the physical scenarios associated with the two regimes. %By analytical and numerical means, Basing on the analytical expressions of the stationary states in the two regimes, we find that the local approach misses important global effects emerging as spin sink and source terms that can only be due to non negligible inter-spin interactions. Moreover, we show that the local asympotic transport features cannot be recovered from the global ones by letting the inter-spin coupling vanish thus pointing to the existence of different coupling ranges where only one approach is physically tenable and possibly a region where the two descriptions may coexist.
翻訳日:2023-05-22 11:07:50 公開日:2020-11-11
# 光渦を用いた超精密Rydberg原子局在

Ultraprecise Rydberg atomic localization using optical vortices ( http://arxiv.org/abs/2005.10725v2 )

ライセンス: Link先を確認
Ning Jia, Teodora Kirova, Gediminas Juzeliunas, Hamid Reza Hamedi, and Jing Qian(参考訳) ドーナツ型光渦と相互作用する高励起リドバーグ原子のロバストな局在化を提案する。 従来のスタンディングウェーブ(SW)ベースのローカライゼーション法と比較して、渦ビームは、ナノメートルスケールまで閉じ込められた励起領域内で、ゼロ強度中心のみに超高精度な2次元ローカライゼーションを提供することができる。 我々は,Rydberg-Rydberg相互作用の存在が,適切なデチューニングによって部分的に補償された場合,高空間分解に対する反故意に強い閉じ込めを可能にすることを示す。 さらに、2光子デチューニングに補助的なSW変調を適用することで、ライドバーグ原子の3次元閉じ込めが可能になる。 この場合、渦場は横閉じ込めを与え、2光子デチューニングのSW変調はリドベルク原子を縦方向に局在させる。 新しいサブ波長の局在化手法を開発するために, 励起量を数ナノメートルのレベルまで減少させるため, 今後の実験応用の実現可能性を示す。

We propose a robust localization of the highly-excited Rydberg atoms, interacting with doughnut-shaped optical vortices. Compared with the earlier standing-wave (SW)-based localization methods, a vortex beam can provide an ultrahigh-precision two-dimensional localization solely in the zero-intensity center, within a confined excitation region down to the nanometer scale. We show that the presence of the Rydberg-Rydberg interaction permits counter-intuitively much stronger confinement towards a high spatial resolution when it is partially compensated by a suitable detuning. In addition, applying an auxiliary SW modulation to the two-photon detuning allows a three-dimensional confinement of Rydberg atoms. In this case, the vortex field provides a transverse confinement while the SW modulation of the two-photon detuning localizes the Rydberg atoms longitudinally. To develop a new subwavelength localization technique, our results pave one-step closer to reduce excitation volumes to the level of a few nanometers, representing a feasible implementation for the future experimental applications.
翻訳日:2023-05-19 03:37:31 公開日:2020-11-11
# 対称型トポロジカルエッジ状態の操作的絡み合い

Operational Entanglement of Symmetry-Protected Topological Edge States ( http://arxiv.org/abs/2005.13026v2 )

ライセンス: Link先を確認
K. Monkman, J. Sirker(参考訳) 粒子数の超選択的選択を考慮し,対称性に保護された位相的エッジ状態の非局所的性質を研究する。 半充填M-leg Su-Schrieffer-Heeger (SSH) はしごを例として, 境界から抽出可能なトポロジ特性と操作絡み合いが密接な連結であることを示す。 少なくとも2つの満たされたエッジ状態を持つ位相相は、量子レジスタに転送できる真の非二部的多体絡みを実現する可能性がある。 ユーザが制御する格子部位に充填されたエッジ状態が十分に局在している場合には、絡み合いを抽出することができる。 さらに,局所粒子数分光法だけでエッジ間の絡み合いの開始を推定できることが示され,ベルの不等式の破れを研究するための実験的プロトコルが提示された。

We use an entanglement measure that respects the superselection of particle number to study the non-local properties of symmetry-protected topological edge states. Considering half-filled M-leg Su-Schrieffer-Heeger (SSH) ladders as an example, we show that the topological properties and the operational entanglement extractable from the boundaries are intimately connected. Topological phases with at least two filled edge states have the potential to realize genuine, non-bipartite, many-body entanglement which can be transferred to a quantum register. The entanglement is extractable when the filled edge states are sufficiently localized on the lattice sites controlled by the users. We show, furthermore, that the onset of entanglement between the edges can be inferred from local particle number spectroscopy alone and present an experimental protocol to study the breaking of Bell's inequality.
翻訳日:2023-05-18 12:00:33 公開日:2020-11-11
# ターゲット間隔内固有値の量子計算

Quantum Computation of Eigenvalues within Target Intervals ( http://arxiv.org/abs/2005.13434v4 )

ライセンス: Link先を確認
Phillip W. K. Jensen, Lasse Bj{\o}rn Kristensen, Jakob S. Kottmann and Al\'an Aspuru-Guzik(参考訳) ハミルトンのエネルギースペクトルを計算することへの関心は広く、例えば材料中のイオンによる光学スペクトルとエネルギー沈着を分析することにある。 本研究では,対象エネルギー-固有状態の近似を必要とせず,対象エネルギー-固有状態内のエネルギー集合をサンプリングする量子アルゴリズムを提案する。 我々は,直接および反復増幅プロトコルの実装を議論し,リソースとランタイムの見積もりを与える。 分子水素の励起状態の増幅による初期応用例を示す。

There is widespread interest in calculating the energy spectrum of a Hamiltonian, for example to analyze optical spectra and energy deposition by ions in materials. In this study, we propose a quantum algorithm that samples the set of energies within a target energy-interval without requiring good approximations of the target energy-eigenstates. We discuss the implementation of direct and iterative amplification protocols and give resource and runtime estimates. We illustrate initial applications by amplifying excited states on molecular Hydrogen.
翻訳日:2023-05-18 05:13:34 公開日:2020-11-11
# キタエフの16倍のエノン理論の微視的モデル

Microscopic models for Kitaev's sixteenfold way of anyon theories ( http://arxiv.org/abs/2005.13683v2 )

ライセンス: Link先を確認
Sreejith Chulliparambil, Urban F. P. Seifert, Matthias Vojta, Lukas Janssen, Hong-Hao Tu(参考訳) 2次元において、自由あるいは弱相互作用したフェルミオンと非零スペクトルチャーン数 $\nu$ を結合した、$\mathbb{z}_2$ゲージ理論によって記述される位相次数は、kitaev が予測した$\nu \; \mathrm{mod}\; 16$ で分類される [ann. phys. 321, 2 (2006)]。 ここでは、オノン理論のいわゆる16倍の方法を実現するための、システマティックで完全な顕微鏡モデルの構築を提供する。 これらのモデルはクリフォード代数を満たす$Gamma$行列で定義され、大域的な$\mathrm{SO}(\nu)$対称性を享受し、$\nu$のパリティに応じて平方格子またはハニカム格子上に存在する。 これらのモデルは全て、マヨラナ表現を用いて正確に解き、正準粒子の位相スピンと基底状態の縮退を計算することで位相秩序を特徴づける。 Kugel-Khomskii型スピン軌道相互作用を持つ物質に対する$\nu=2$および$\nu=3$モデルの関連性について論じる。

In two dimensions, the topological order described by $\mathbb{Z}_2$ gauge theory coupled to free or weakly interacting fermions with a nonzero spectral Chern number $\nu$ is classified by $\nu \; \mathrm{mod}\; 16$ as predicted by Kitaev [Ann. Phys. 321, 2 (2006)]. Here we provide a systematic and complete construction of microscopic models realizing this so-called sixteenfold way of anyon theories. These models are defined by $\Gamma$ matrices satisfying the Clifford algebra, enjoy a global $\mathrm{SO}(\nu)$ symmetry, and live on either square or honeycomb lattices depending on the parity of $\nu$. We show that all these models are exactly solvable by using a Majorana representation and characterize the topological order by calculating the topological spin of an anyonic quasiparticle and the ground-state degeneracy. The possible relevance of the $\nu=2$ and $\nu=3$ models to materials with Kugel-Khomskii-type spin-orbital interactions is discussed.
翻訳日:2023-05-18 04:55:09 公開日:2020-11-11
# 2つのサブシステムの定義に対する絡み合い

Entanglement for any definition of two subsystems ( http://arxiv.org/abs/2006.07165v2 )

ライセンス: Link先を確認
Yu Cai, Baichu Yu, Pooja Jayachandran, Nicolas Brunner, Valerio Scarani, Jean-Daniel Bancal(参考訳) 量子状態の絡み合いの概念は通常、固定二分割に関して定義される。 実際、大域的な基底変化は、常に絡み合った状態を分離可能な状態にマッピングすることができる。 しかし、一連の状態を考える場合、状況は異なる。 この研究において、量子状態の「絶対的に絡み合った集合」の概念を定義する:大域基底の任意の選択に対して、集合内の少なくとも1つの状態は絡み合っている。 したがって、すべての二部構成、すなわち任意のサブシステムの定義に対して、集合は絡み合いを特徴付ける。 この現象の最小の例を示し、$\mathbb{C}^4 = \mathbb{C}^2 \otimes \mathbb{C}^2$ の四つの状態からなる。 さらに,絶対集合の絡み合いに対する定量的尺度を提案する。 この量を低く抑えるために、多項式最適化に基づく手法を開発し、独立興味を持つユニタリに対して凸最適化を行う。

The notion of entanglement of quantum states is usually defined with respect to a fixed bipartition. Indeed, a global basis change can always map an entangled state to a separable one. The situation is however different when considering a set of states. In this work we define the notion of an "absolutely entangled set" of quantum states: for any possible choice of global basis, at least one of the states in the set is entangled. Hence, for all bipartitions, i.e. any possible definition of the subsystems, the set features entanglement. We present a minimum example of this phenomenon, with a set of four states in $\mathbb{C}^4 = \mathbb{C}^2 \otimes \mathbb{C}^2$. Moreover, we propose a quantitative measure for absolute set entanglement. To lower-bound this quantity, we develop a method based on polynomial optimization to perform convex optimization over unitaries, which is of independent interest.
翻訳日:2023-05-15 22:22:44 公開日:2020-11-11
# 単一光子波束の識別性に及ぼす分散の影響

Effect of dispersion on indistinguishability between single-photon wave-packets ( http://arxiv.org/abs/2007.10576v2 )

ライセンス: Link先を確認
Yun-Ru Fan, Chen-Zhi Yuan, Rui-Ming Zhang, Si Shen, Peng Wu, He-Qing Wang, Hao Li, Guang-Wei Deng, Hai-Zhi Song, Li-Xing You, Zhen Wang, You Wang, Guang-Can Guo, and Qiang Zhou(参考訳) 分散媒質を伝播させると、レーザーパルスの時間スペクトルプロファイルは必然的に修正される。 このような分散効果は古典光学ではよく研究されているが、単一光子の波束、すなわち単光子の物質波に対する効果は明らかになっていない。 本稿では,Hong-Ou-Mandel(HOM)干渉による単一光子波束の不識別性に及ぼす分散の影響について検討する。 By dispersively manipulating two indistinguishable single-photon wave-packets before interfering with each other, we observe that the difference of the second-order dispersion between two optical paths of the HOM interferometer can be mapped to the interference curve, indicating that (1) with the same amount of dispersion effect in both paths, the HOM interference curve must be only determined by the intrinsic indistinguishability between the wave-packets, i.e., dispersion cancellation due to the indistinguishability between Feynman paths; (2) unbalanced dispersion effect in two paths cannot be cancelled and will broaden the interference curve thus providing a way to measure the second-order dispersion coefficient. 以上の結果から、単一光子波束のより包括的な理解とHOM干渉のさらなる応用を探るための舗装法が示唆された。

With propagating through a dispersive medium, the temporal-spectral profile of laser pulses should be inevitably modified. Although such dispersion effect has been well studied in classical optics, its effect on a single-photon wave-packet, i.e., the matter wave of a single-photon, has not yet been entirely revealed. In this paper, we investigate the effect of dispersion on indistinguishability of single-photon wave-packets through the Hong-Ou-Mandel (HOM) interference. By dispersively manipulating two indistinguishable single-photon wave-packets before interfering with each other, we observe that the difference of the second-order dispersion between two optical paths of the HOM interferometer can be mapped to the interference curve, indicating that (1) with the same amount of dispersion effect in both paths, the HOM interference curve must be only determined by the intrinsic indistinguishability between the wave-packets, i.e., dispersion cancellation due to the indistinguishability between Feynman paths; (2) unbalanced dispersion effect in two paths cannot be cancelled and will broaden the interference curve thus providing a way to measure the second-order dispersion coefficient. Our results suggest a more comprehensive understanding of the single-photon wave-packet and pave ways to explore further applications of the HOM interference.
翻訳日:2023-05-08 21:06:14 公開日:2020-11-11
# 電子ビームにおける量子相関の生成, キャラクタリゼーションおよび操作

Generation, Characterization and Manipulation of Quantum Correlations in Electron Beams ( http://arxiv.org/abs/2007.12128v2 )

ライセンス: Link先を確認
Shahaf Asban and Javier Garc\'ia de Abajo(参考訳) 量子エンハンシング技術では、エンタングルメントエンジニアリングが中心的な役割を果たす。 しかしながら、自由電子は、量子情報をエンコードし操作する能力が高いにもかかわらず、適切な理論的枠組みが欠如しているため、ほとんど探索されていない。 ここでは、理論概念を量子情報から利用可能な自由電子源にリンクする。 具体的には、偏光子担持媒体の表面近傍で伝播する電子間の相互作用を考察し、対結合によって引き起こされる絡みについて検討する。 これらの相関は制御された相互作用間隔と初期電子帯域に依存する。 広帯域電子の長い相互作用時間は時間的コヒーレンスを延ばす。 これは拡大したホン・ウー・マンデル峰を通して明らかにされ、エントロピーの増加と関連している。 次に,電子的時間モードの離散基底を導入し,形状プローブとの一致検出により両者を判別する。 これにより、自由電子による超高速な量子情報伝達の道が開かれ、時間領域にまたがる大きなアルファベットがアクセスできるようになる。

Entanglement engineering plays a central role in quantum-enhanced technologies, with potential physical platforms that outperform their classical counterparts. However, free electrons remain largely unexplored despite their great capacity to encode and manipulate quantum information, due in part the lack of a suitable theoretical framework. Here we link theoretical concepts from quantum information to available free-electron sources. Specifically, we consider the interactions among electrons propagating near the surface of a polariton-supporting medium, and study the entanglement induced by pair-wise coupling. These correlations depend on controlled interaction interval and the initial electron bandwidth. We show that long interaction times of broadband electrons extend their temporal coherence. This in turn is revealed through a widened Hong-Ou-Mandel peak, and associated with an increased entanglement entropy. We then introduce a discrete basis of electronic temporal-modes, and discriminate between them via coincidence detection with a shaped probe. This paves the way for ultrafast quantum information transfer by means of free electrons, rendering the large alphabet that they span in the time domain accessible.
翻訳日:2023-05-08 10:49:47 公開日:2020-11-11
# 確率変数系と自由意志定理

Systems of random variables and the Free Will Theorem ( http://arxiv.org/abs/2007.13229v3 )

ライセンス: Link先を確認
Ehtibar N. Dzhafarov and Janne V. Kujala(参考訳) タイトルはコンウェイとコチェンによる自由意志理論(Free Will Theorem)を指し、その派手な定式化は、実験者が自由意志を持っているならば、粒子もそうである。 より控えめな言葉で言えば、この定理は、空間的な分離粒子の個々の対は、それらの混合物が測定設定の全ての選択に対して同じであるので、決定論的系によって記述できないことを示している。 自由意志定理の定理を確率変数の系の観点から再構成し一般化し、証明が2つの観測に基づくことを示した:(1)いくつかの複合系は文脈的(局所的でない)であり、(2)空間的分離成分を持つ任意の決定論的系は非符号的である。 この2つの矛盾は、符号なし決定論システムの混合が、もし存在するならば、常に非文脈的であることを示すことによって得られる。 証明には「実験者の自由意志」(独立)の仮定は不要である:(1)の仮定によって冗長にされ、証明には不可欠である。 次に、個々の粒子対が決定論的系によって記述されない理由は自由意志定理よりも初等であると主張する。 文脈的かどうか、決定論的かどうかのシステムには、いくつかの設定の選択が含まれており、それぞれがシステムを変更することなく実際に使用することができる。 個々の粒子対は、単一の設定の選択に対してのみランダム変数を単一に実現することができる。 この概念化により、「実験者の自由意志」は、さらに有意に定式化することはできず、決定論と「粒子の自由意志」の選択は任意かつ不連続となる。

The title refers to the Free Will Theorem by Conway and Kochen whose flashy formulation is: if experimenters possess free will, then so do particles. In more modest terms, the theorem says that individual pairs of spacelike separated particles cannot be described by deterministic systems provided their mixture is the same for all choices of measurement settings. We reformulate and generalize the Free Will Theorem theorem in terms of systems of random variables, and show that the proof is based on two observations: (1) some compound systems are contextual (non-local), and (2) any deterministic system with spacelike separated components is non-signaling. The contradiction between the two is obtained by showing that a mixture of non-signaling deterministic systems, if they exist, is always noncontextual. The "experimenters' free will" (independence) assumption is not needed for the proof: it is made redundant by the assumption (1) above, critical for the proof. We next argue that the reason why an individual pair of particles is not described by a deterministic system is more elementary than in the Free Will Theorem. A system, contextual or not and deterministic or not, includes several choices of settings, each of which can be factually used without changing the system. An individual pair of particles can only afford a single realization of random variables for a single choice of settings. With this conceptualization, the "free will of experimenters" cannot be even meaningfully formulated, and the choice between the determinism and "free will of particles" becomes arbitrary and inconsequential.
翻訳日:2023-05-08 04:41:23 公開日:2020-11-11
# 開量子系における断熱の十分条件

Sufficient conditions for adiabaticity in open quantum systems ( http://arxiv.org/abs/2007.15138v2 )

ライセンス: Link先を確認
Alan C. Santos, Marcelo S. Sarandy(参考訳) 断熱近似は量子力学において広範な適用性を示し、ゆっくりと変化する時間依存ハミルトニアンによって支配される量子系における非遷移力学の簡単なアプローチを提供する。 しかし、標準断熱定理は閉量子系に対して特に導かれる。 現実的なオープンシステムシナリオでは、避けられないシステムと保守的な相互作用を考慮に入れなければならない。 本稿では,オープン量子系における断熱近似の十分な条件を紹介する。 これらの条件は単純だが一般であり、時間的局所マスター方程式の下で進化する任意の初期混合状態の断熱性を調べるための適切な手段を提供する。 まず, 開システムの断熱近似は, 非可逆エントロピー生成が消滅する熱平衡における量子熱力学の記述と相容れないことを示した。 また,量子制御のツールとして十分な条件を適用し,deutschアルゴリズムとdecoherenceに基づくlandau-zenerモデルの両方のハミルトニアンに対する断熱挙動の評価を行った。

The adiabatic approximation exhibits wide applicability in quantum mechanics, providing a simple approach for nontransitional dynamics in quantum systems governed by slowly varying time-dependent Hamiltonians. However, the standard adiabatic theorem is specifically derived for closed quantum systems. In a realistic open system scenario, the inevitable system-reservoir interaction must be taken into account, which strongly impacts the generalization of the adiabatic behavior. In this paper, we introduce sufficient conditions for the adiabatic approximation in open quantum systems. These conditions are simple yet general, providing a suitable instrument to investigate adiabaticity for arbitrary initial mixed states evolving under time local master equations. We first illustrate our results by showing that the adiabatic approximation for open systems is compatible with the description of quantum thermodynamics at thermal equilibrium, where irreversible entropy production is vanishing. We also apply our sufficient conditions as a tool in quantum control, evaluating the adiabatic behavior for the Hamiltonians of both the Deutsch algorithm and the Landau-Zener model under decoherence.
翻訳日:2023-05-07 20:24:08 公開日:2020-11-11
# quditsと高次元量子コンピューティング

Qudits and high-dimensional quantum computing ( http://arxiv.org/abs/2008.00959v4 )

ライセンス: Link先を確認
Yuchen Wang, Zixuan Hu, Barry C. Sanders, and Sabre Kais(参考訳) Quditは従来の2レベルキュービットに代わるマルチレベル計算ユニットである。 qubitと比較すると、quditは情報を保存および処理するためのより大きな状態空間を提供し、回路の複雑さの低減、実験的なセットアップの簡略化、アルゴリズム効率の向上を提供する。 本稿では、回路構築からアルゴリズム設計、実験手法まで、様々なトピックをカバーするquditベースの量子コンピューティングの概要について述べる。 まず,quditゲートの普遍性と,pi/8ゲート,SWAPゲート,マルチレベル制御ゲートなど,様々なquditゲートについて論じる。 次に、deutsch-jozsaアルゴリズム、量子フーリエ変換、位相推定アルゴリズムを含むいくつかの代表的な量子アルゴリズムのquditバージョンを示す。 最後に、フォトニックプラットフォーム、鉄トラップ、核磁気共鳴などのクオード計算のための様々な物理的実現について論じる。

Qudit is a multi-level computational unit alternative to the conventional 2-level qubit. Compared to qubit, qudit provides a larger state space to store and process information, and thus can provide reduction of the circuit complexity, simplification of the experimental setup and enhancement of the algorithm efficiency. This review provides an overview of qudit-based quantum computing covering a variety of topics ranging from circuit building, algorithm design, to experimental methods. We first discuss the qudit gate universality and a variety of qudit gates including the pi/8 gate, the SWAP gate, and the multi-level-controlled gate. We then present the qudit version of several representative quantum algorithms including the Deutsch-Jozsa algorithm, the quantum Fourier transform, and the phase estimation algorithm. Finally we discuss various physical realizations for qudit computation such as the photonic platform, iron trap, and nuclear magnetic resonance.
翻訳日:2023-05-07 18:13:17 公開日:2020-11-11
# アナログ量子探索進化の幾何学的側面

Geometric aspects of analog quantum search evolutions ( http://arxiv.org/abs/2008.07675v2 )

ライセンス: Link先を確認
Carlo Cafaro, Shannon Ray, Paul M. Alsing(参考訳) 2つの直交量子状態の間のfarhi-gutmann時間最適アナログ量子探索の進化は、射影ヒルベルト空間上でトレースされた単位効率の動的軌跡によって特徴づけられる。 特に、これらの最適力学軌道は、量子進化の初期状態と最終状態とを結合する最短測地線経路であることを示す。 さらに, 通常の時間-エネルギーの不確実性関係よりも厳密な不等式によって規定される最小の不確実性進化を検証した。 また,提案したリーマン幾何学的観点から,時間最適条件からの偏差の影響についても検討する。 さらに、量子探索に対する幾何学的アプローチによって提示される身体的直感的な側面を指摘した後、より現実的な時間依存量子探索進化への幾何学的分析の適用から生じる、実際に関連する物理的洞察について言及する。 最後に,量子コンピューティングタスクにおける熱的軌跡の効率性に関する幾何学的解析への本研究の拡張の可能性について概説する。

We use geometric concepts originally proposed by Anandan and Aharonov to show that the Farhi-Gutmann time optimal analog quantum search evolution between two orthogonal quantum states is characterized by unit efficiency dynamical trajectories traced on a projective Hilbert space. In particular, we prove that these optimal dynamical trajectories are the shortest geodesic paths joining the initial and the final states of the quantum evolution. In addition, we verify they describe minimum uncertainty evolutions specified by an uncertainty inequality that is tighter than the ordinary time-energy uncertainty relation. We also study the effects of deviations from the time optimality condition from our proposed Riemannian geometric perspective. Furthermore, after pointing out some physically intuitive aspects offered by our geometric approach to quantum searching, we mention some practically relevant physical insights that could emerge from the application of our geometric analysis to more realistic time-dependent quantum search evolutions. Finally, we briefly discuss possible extensions of our work to the geometric analysis of the efficiency of thermal trajectories of relevance in quantum computing tasks.
翻訳日:2023-05-05 23:01:44 公開日:2020-11-11
# majorana qubitsの分散読み出し

Dispersive readout of Majorana qubits ( http://arxiv.org/abs/2009.00027v2 )

ライセンス: Link先を確認
Thomas B. Smith, Maja C. Cassidy, David J. Reilly, Stephen D. Bartlett and Arne L. Grimsmo(参考訳) 共振器への分散結合に基づくマヨラナ量子ビットの読み出し方式の解析を行う。 ここではMajorana qubitsの変種であるMajorana TransmonとMajorana box qubitについて考察する。 どちらの場合も、qubit-resonator相互作用は、適切なシステムパラメータに対してMHz範囲で大きな分散シフトを発生させ、高い忠実度を持つサブマイクロ秒読み出しを可能にする。 マヨラナトランモンでは、読み出しに用いられる光-物質相互作用がマヨラナパリティを顕著に保存し、従来の電荷量子ビットよりも強い量子非分解(QND)読み出しの概念をもたらす。 対照的に、Majoranabox qubitsは共振器の変形が大きい分散限界において、約QNDの読み出し機構を回復するのみである。 また, majorana box qubit における分散読み出しと縦読み出しを比較した。 後者は適度なパラメータに対してより高速で高い忠実度で読み出しができるが、qndは明らかな利点があるため、これらのシステムにとってより優れた読み出しメカニズムであることが証明できる。

We analyze a readout scheme for Majorana qubits based on dispersive coupling to a resonator. We consider two variants of Majorana qubits: the Majorana transmon and the Majorana box qubit. In both cases, the qubit-resonator interaction can produce sizeable dispersive shifts in the MHz range for reasonable system parameters, allowing for submicrosecond readout with high fidelity. For Majorana transmons, the light-matter interaction used for readout manifestly conserves Majorana parity, which leads to a notion of quantum nondemolition (QND) readout that is stronger than for conventional charge qubits. In contrast, Majorana box qubits only recover an approximately QND readout mechanism in the dispersive limit where the resonator detuning is large. We also compare dispersive readout to longitudinal readout for the Majorana box qubit. We show that the latter gives faster and higher fidelity readout for reasonable parameters, while having the additional advantage of being manifestly QND, and so may prove to be a better readout mechanism for these systems.
翻訳日:2023-05-04 05:25:01 公開日:2020-11-11
# 衛星によるハイブリッドエンタングルメントの分布

Satellite-based Distribution of Hybrid Entanglement ( http://arxiv.org/abs/2010.10882v3 )

ライセンス: Link先を確認
Hung Do, Robert Malaney, Jonathan Green(参考訳) 連続変数(cv)と離散変数(dv)の混合技術からなる異種量子ネットワークは、グローバル量子通信が成熟するにつれてユビキタスになる。 CVモードとDVモードのハイブリッド量子絡み合いは、そのようなネットワークにおいて重要なリソースとなる。 このようなハイブリッド量子絡み合いの主要な候補は、schr\"odinger-cat状態と光子数状態の間にある。 本研究では,衛星から分散された2モードスクイーズド真空(tmsv)状態を用いて,地上量子ネットワークに予め格納したハイブリッドエンタングルメントの再分配のためのテレポーテーション資源について検討する。 我々は,TMSVリソースによる遠隔伝送がハイブリッドエンタングルメントの直接サテライト分布より優れる損失条件を決定するとともに,CVモードに対するDVモードの遠隔伝送の利点を定量化する。 低軌道から予測される損失条件下では、tmsvリソースを介したdvテレポーテーションは、異種量子ネットワーク内でハイブリッドな絡み合いを分配する他の方法と比較して、常に著しく改善された結果をもたらす。

Heterogeneous quantum networks consisting of mixed-technologies - Continuous Variable (CV) and Discrete Variable (DV) - will become ubiquitous as global quantum communication matures. Hybrid quantum-entanglement between CV and DV modes will be a critical resource in such networks. A leading candidate for such hybrid quantum entanglement is that between Schr\"odinger-cat states and photon-number states. In this work, we explore the use of Two-Mode Squeezed Vacuum (TMSV) states, distributed from satellites, as a teleportation resource for the re-distribution of our candidate hybrid entanglement pre-stored within terrestrial quantum networks. We determine the loss conditions under which teleportation via the TMSV resource outperforms direct-satellite distribution of the hybrid entanglement, in addition to quantifying the advantage of teleporting the DV mode relative to the CV mode. Our detailed calculations show that under the loss conditions anticipated from Low-Earth-Orbit, DV teleportation via the TMSV resource will always provide for significantly improved outcomes, relative to other means for distributing hybrid entanglement within heterogeneous quantum networks.
翻訳日:2023-04-28 03:19:50 公開日:2020-11-11
# 衛星コンステレーションのインターネット化とニーズ

Satellite Constellation Internet Affordability and Need ( http://arxiv.org/abs/2011.05168v2 )

ライセンス: Link先を確認
Meredith L. Rawls, Heidi B. Thiemann, Victor Chemin, Lucianne Walkowicz, Mike W. Peel, and Yan G. Grange(参考訳) 地球の低軌道にある大型衛星コンステレーションは、グローバルブロードバンドインターネットや他の通信ニーズの基盤を目指している。 衛星コンステレーションが天文学に与える影響を概観し、これらの衛星によって提供されるインターネットサービスは、居住可能でない、必要でない、あるいはその両方をターゲットにしていることを示す。 数十万から数十万の低地球軌道衛星による、天文学、地球上の星盤、環境への害は受け入れられない。

Large satellite constellations in low-Earth orbit seek to be the infrastructure for global broadband Internet and other telecommunication needs. We briefly review the impacts of satellite constellations on astronomy and show that the Internet service offered by these satellites will primarily target populations where it is unaffordable, not needed, or both. The harm done by tens to hundreds of thousands of low-Earth orbit satellites to astronomy, stargazers worldwide, and the environment is not acceptable.
翻訳日:2023-04-27 08:24:49 公開日:2020-11-11
# マルチモード回路QED用シームレス高Qマイクロ波キャビティ

Seamless high-Q microwave cavities for multimode circuit QED ( http://arxiv.org/abs/2010.16382v2 )

ライセンス: Link先を確認
Srivatsan Chakram, Andrew E. Oriani, Ravi K. Naik, Akash V. Dixit, Kevin He, Ankur Agrawal, Hyeokshin Kwon and David I. Schuster(参考訳) マルチモードキャビティ量子電磁力学(2レベルシステムが多くのキャビティモードと同時に相互作用する)は、量子情報処理と量子光学のための汎用フレームワークを提供する。 長いコヒーレンス時間と大きな相互作用強度の組み合わせにより、キャビティqedの主要な実験プラットフォームの一つは超伝導回路と3dマイクロ波共振器を結合することである。 本研究では,新しいシームレス空洞の9モードにまたがって,光子寿命が2$ms,コオペラティビティが0.5-1.5\times10^9$の3次元マルチモード回路QEDシステムを実現する。 単一ドライブラインのみを使用して,全キャビティモードに適用可能な汎用単一モード量子制御のための様々なプロトコルを実証する。 そこで我々は, モードスペクトルとモード-量子相互作用の制御を同時に可能とし, 損失を低減し, モノリシック超伝導マイクロ波キャビティを創出する簡単なフルート法を開発した。 本稿では, 様々な3次元キャビティ・ジオメトリを作製し, 極めて低散逸のマルチモード量子システムのためのテンプレートを提供することにより, 実装の柔軟性と容易さを強調した。 この研究は、ハードウェア効率の良いランダムアクセス量子メモリとプロセッサの実現、および光子を用いた量子多体物理学の探索に向けた重要なステップである。

Multimode cavity quantum electrodynamics ---where a two-level system interacts simultaneously with many cavity modes---provides a versatile framework for quantum information processing and quantum optics. Due to the combination of long coherence times and large interaction strengths, one of the leading experimental platforms for cavity QED involves coupling a superconducting circuit to a 3D microwave cavity. In this work, we realize a 3D multimode circuit QED system with single photon lifetimes of $2$ ms and cooperativities of $0.5-1.5\times10^9$ across 9 modes of a novel seamless cavity. We demonstrate a variety of protocols for universal single-mode quantum control applicable across all cavity modes, using only a single drive line. We achieve this by developing a straightforward flute method for creating monolithic superconducting microwave cavities that reduces loss while simultaneously allowing control of the mode spectrum and mode-qubit interaction. We highlight the flexibility and ease of implementation of this technique by using it to fabricate a variety of 3D cavity geometries, providing a template for engineering multimode quantum systems with exceptionally low dissipation. This work is an important step towards realizing hardware efficient random access quantum memories and processors, and for exploring quantum many-body physics with photons.
翻訳日:2023-04-26 07:41:09 公開日:2020-11-11
# パラメトリック増幅の標準量子限界を超えて

Beyond the standard quantum limit of parametric amplification ( http://arxiv.org/abs/2011.00914v3 )

ライセンス: Link先を確認
M. Renger, S. Pogorzalek, Q. Chen, Y. Nojiri, K. Inomata, Y. Nakamura, M. Partanen, A. Marx, R. Gross, F. Deppe, K. G. Fedorov(参考訳) 弱いマイクロ波信号の低雑音増幅は、量子情報処理における無数のプロトコルにとって不可欠である。 量子力学は、標準量子限界(sql)として知られる狭帯域信号の位相保存増幅のための追加入力ノイズに対して、光子の半下限を設定する。 この限界は最大量子効率0.5$に相当するが、広帯域信号の非退化パラメトリック増幅を用いることで克服できる。 原理的には、最大量子効率は 1 に達することが示される。 実験により、フラックス駆動のジョセフソンパラメトリック増幅器とブロードバンド熱信号を用いて、量子効率が0.69 pm 0.02$とSQLをはるかに超えた。 この結果により,超弱マイクロ波信号の検出の根本的な改善が期待できる。

The low-noise amplification of weak microwave signals is crucial for countless protocols in quantum information processing. Quantum mechanics sets an ultimate lower limit of half a photon to the added input noise for phase-preserving amplification of narrowband signals, also known as the standard quantum limit (SQL). This limit, which is equivalent to a maximum quantum efficiency of $0.5$, can be overcome by employing nondegenerate parametric amplification of broadband signals. We show that, in principle, a maximum quantum efficiency of 1 can be reached. Experimentally, we find a quantum efficiency of $0.69 \pm 0.02$, well beyond the SQL, by employing a flux-driven Josephson parametric amplifier and broadband thermal signals. We expect that our results allow for fundamental improvements in the detection of ultraweak microwave signals.
翻訳日:2023-04-26 01:49:21 公開日:2020-11-11
# 有限次元量子系の保存量子に対するKAM安定性

KAM-Stability for Conserved Quantities in Finite-Dimensional Quantum Systems ( http://arxiv.org/abs/2011.04707v2 )

ライセンス: Link先を確認
Daniel Burgarth, Paolo Facchi, Hiromichi Nakazato, Saverio Pascazio, Kazuya Yuasa(参考訳) 有限次元の量子系では、保存された量は小さな摂動に対するロバスト性によって特徴づけられる: 脆弱な対称性では、小さな摂動は長い時間にわたって大きな偏差をもたらすが、ロバストな対称性では、期待値は常に初期値に近いままである。 これは古典力学におけるkolmogorov-arnold-moser(kam)定理と類似している。 この顕著な結果を証明するために、量子ゼノダイナミクスのハミルトニアンを一般化した摂動級数の再開を導入する。

We show that for any finite-dimensional quantum systems the conserved quantities can be characterized by their robustness to small perturbations: for fragile symmetries small perturbations can lead to large deviations over long times, while for robust symmetries their expectation values remain close to their initial values for all times. This is in analogy with the celebrated Kolmogorov-Arnold-Moser (KAM) theorem in classical mechanics. To prove this remarkable result, we introduce a resummation of a perturbation series, which generalizes the Hamiltonian of the quantum Zeno dynamics.
翻訳日:2023-04-24 21:08:21 公開日:2020-11-11
# フォトニック量子技術のための単一有機分子

Single organic molecules for photonic quantum technologies ( http://arxiv.org/abs/2011.05059v2 )

ライセンス: Link先を確認
C. Toninelli, I. Gerhardt, A.S. Clark, A. Reserbat-Plantey, S. G\"otzinger, Z. Ristanovic, M. Colautti, P. Lombardi, K.D. Major, I. Deperasi\'nska, W.H. Pernice, F.H.L. Koppens, B. Kozankiewicz, A. Gourdon, V. Sandoghdar, and M. Orrit(参考訳) 固体中の単一分子の単離は、基礎科学と応用科学における基礎実験を可能にした。 液体ヘリウムの温度まで冷却すると、ある分子は数十メガヘルツ幅の遷移線を示し、励起状態の寿命によってのみ制限される。 有機材料の合成における極端な柔軟性は、低コストで発光波長の広いパレットを提供し、そのような単一色調の行列をサポートする。 過去数十年間、フォトニック構造への制御された結合は、光との相互作用効率を最適化した。 したがって、分子は単一の光子源として、また様々な統合プラットフォームとのコヒーレンス、スケーラビリティ、互換性の点で競合する性能を持つ非線形要素として操作できる。 さらに、電荷と運動の検知において単一量子分解能を約束して、フィールドと材料特性の光学的読み出しのためのトランスデューサとして使用できる。 単一分子に基づく量子エミッタは、量子科学と技術の発展において重要な役割を果たすことが示されている。

Isolating single molecules in the solid state has allowed fundamental experiments in basic and applied sciences. When cooled down to liquid helium temperature, certain molecules show transition lines, that are tens of megahertz wide, limited only by the excited state lifetime. The extreme flexibility in the synthesis of organic materials provides, at low costs, a wide palette of emission wavelengths and supporting matrices for such single chromophores. In the last decades, the controlled coupling to photonic structures has led to an optimized interaction efficiency with light. Molecules can hence be operated as single photon sources and as non-linear elements with competitive performance in terms of coherence, scalability and compatibility with diverse integrated platforms. Moreover, they can be used as transducers for the optical read-out of fields and material properties, with the promise of single-quanta resolution in the sensing of charges and motion. We show that quantum emitters based on single molecules hold promise to play a key role in the development of quantum science and technologies.
翻訳日:2023-04-24 19:03:42 公開日:2020-11-11
# 入力フライング量子ビットから損失量子メモリへの最適量子転送

Optimal Quantum Transfer from Input Flying Qubit to Lossy Quantum Memory ( http://arxiv.org/abs/2011.05667v1 )

ライセンス: Link先を確認
Eric Chatterjee, Daniel Soh, Matt Eichenfield(参考訳) 量子ネットワークでは、反射振幅が直接回復できない状態伝達の不完全さを表すため、共振器ベースの静止メモリ量子ビットに結合するフライング量子ビットの直接反射を最小限に抑えることが鍵となる。 転送忠実度を最適化することは、共振器の結合率をフライングキュービットフィールドに動的に変化させることで達成できる。 そこで本研究では,共振器損失を考慮できるオープン量子システムを用いて,量子メモリの固有損失の存在下での最適結合率プロファイルを解析的に導出する。 共振器フィールドは当初空でなければならないため、破壊的干渉による反射をキャンセルするために共振器の初期振幅を発生させる必要があり、また、この初期振幅は完全な転送過程を通じてネットの不完全性が一様になるように十分に小さくできることを示した。 次に、初期集団と固有損失率の関数として状態伝達忠実度を最大化する時間変化共振器結合を導出し、空飛ぶキュービットと共振器キュービットの間の最適量子状態伝達のための完全なプロトコルを提供する。 本稿では,指数型およびガウス型プロファイルを用いた完全プロトコルのフィデリティの解析式と数値例を示す。 量子メモリとして使用される共振器の本質的な損失に対して,99.9%程度の状態伝達忠実度が得られることを示す。

In a quantum network, a key challenge is to minimize the direct reflection of flying qubits as they couple to stationary, resonator-based memory qubits, as the reflected amplitude represents state transfer infidelity that cannot be directly recovered. Optimizing the transfer fidelity can be accomplished by dynamically varying the resonator's coupling rate to the flying qubit field. Here, we analytically derive the optimal coupling rate profile in the presence of intrinsic loss of the quantum memory using an open quantum systems method that can account for intrinsic resonator losses. We show that, since the resonator field must be initially empty, an initial amplitude in the resonator must be generated in order to cancel reflections via destructive interference; moreover, we show that this initial amplitude can be made sufficiently small as to allow the net infidelity throughout the complete transfer process to be close to unity. We then derive the time-varying resonator coupling that maximizes the state transfer fidelity as a function of the initial population and intrinsic loss rate, providing a complete protocol for optimal quantum state transfer between the flying qubit and resonator qubit. We present analytical expressions and numerical examples of the fidelities for the complete protocol using exponential and Gaussian profiles. We show that a state transfer fidelity of around 99.9% can be reached for practical intrinsic losses of resonators used as quantum memories.
翻訳日:2023-04-24 12:01:43 公開日:2020-11-11
# 3次元における量子セルオートマトンからのフェルミオンおよびボゾン量子場理論

Fermionic and bosonic quantum field theories from quantum cellular automata in three spatial dimensions ( http://arxiv.org/abs/2011.05597v1 )

ライセンス: Link先を確認
Leonard Mlodinow and Todd A. Brun(参考訳) 格子上の量子ウォークは、長波長の極限において相対論的波動方程式をもたらすが、単粒子の場合を超えて、特に複数の空間次元において困難であることが証明されている。 2つの異なる量子ウォークに基づく識別可能な粒子のための量子セルオートマトンを構築し、それぞれ反対称部分空間と対称部分空間に制限することで、3次元の自由フェルミオンとボソンに対する多粒子理論を生成できることを示した。 この構成は、通常のフェルミオン化の構成を複数の空間次元で禁止するノーゴー定理を避ける。 長波長の極限において、これらはディラック場理論とマクスウェル場理論、すなわち自由QEDを回復する。

Quantum walks on lattices can give rise to relativistic wave equations in the long-wavelength limit, but going beyond the single-particle case has proven challenging, especially in more than one spatial dimension. We construct quantum cellular automata for distinguishable particles based on two different quantum walks, and show that by restricting to the antisymmetric and symmetric subspaces, respectively, a multiparticle theory for free fermions and bosons in three spatial dimensions can be produced. This construction evades a no-go theorem that prohibits the usual fermionization constructions in more than one spatial dimension. In the long-wavelength limit, these recover Dirac field theory and Maxwell field theory, i.e., free QED.
翻訳日:2023-04-24 12:00:22 公開日:2020-11-11
# 分子分光における非コンドン効果のアナログ量子シミュレーション

Analog quantum simulation of non-Condon effects in molecular spectroscopy ( http://arxiv.org/abs/2011.05553v1 )

ライセンス: Link先を確認
Hamza Jnane, Nicolas P. D. Sawaya, Borja Peropadre, Alan Aspuru-Guzik, Raul Garcia-Patron, Joonsuk Huh(参考訳) 本研究では,2次的に小さい切断誤差を持つ非コンドン散乱演算を組み込んだ分子振動スペクトルのアナログ量子シミュレーションのための線形光学的実装を提案する。 これまでのところ、量子スピードアップを達成するためのアナログおよびデジタル量子アルゴリズムは、核座標に依存しない遷移双極子モーメントを指すコンドン体制においてのみ提案されている。 コンドン状態を超えたアナログ量子光学シミュレーション(すなわち非コンドン遷移)では、結果として生じる非ユニタリ散乱操作は線形光学ネットワークで適切に扱う必要がある。 本稿では,非コンドン効果に対する遷移双極子モーメント作用素の一階及び二階ヘルツベルグ・テラー展開を線形光学量子ハードウェア上で実装するために検討する。 この手法は、アナログおよびデジタル量子シミュレーションにおける任意の非ユニタリ操作を近似する新しい方法を開くと信じている。 本研究は,ナフタレン,フェナントレン,ベンゼンのビブロンスペクトルのin-silicoシミュレーションを用いて検討した。

In this work, we present a linear optical implementation for analog quantum simulation of molecular vibronic spectra, incorporating the non-Condon scattering operation with a quadratically small truncation error. Thus far, analog and digital quantum algorithms for achieving quantum speedup have been suggested only in the Condon regime, which refers to a transition dipole moment that is independent of nuclear coordinates. For analog quantum optical simulation beyond the Condon regime (i.e., non-Condon transitions) the resulting non-unitary scattering operations must be handled appropriately in a linear optical network. In this paper, we consider the first and second-order Herzberg-Teller expansions of the transition dipole moment operator for the non-Condon effect, for implementation on linear optical quantum hardware. We believe the method opens a new way to approximate arbitrary non-unitary operations in analog and digital quantum simulations. We report in-silico simulations of the vibronic spectra for naphthalene, phenanthrene, and benzene to support our findings.
翻訳日:2023-04-24 12:00:01 公開日:2020-11-11
# ホン・ウー・マンデル干渉はビームパス情報の消去方法に依存する

Hong-Ou-Mandel interference depends on the method of the erasing the beam path information ( http://arxiv.org/abs/2011.05545v1 )

ライセンス: Link先を確認
Sun-Hyun Youn(参考訳) ビームパスの情報と2つのパルス光源とのホン・ウー・マンデル干渉の関係について検討した。 パルスの形で2つの光子がビームスプリッターを通過し、2つの検出器で観測される単純なモデルを通じて、測定過程で、2つの光子の経路に関する情報がどのように消去されるかを調べる。 ビームパスの情報をクリアする方法には2つの方法があり、第一に、物理計測過程の初めから時間情報が得られない方法である。 もう1つは、その情報を測定して、データ解析プロセスの時間情報を消去する。 本研究は, ビームパスの浸透が物理計測から除去された場合にのみ, ホン・ウー・マンデル干渉が得られることを示す。

We study how the information of the beam path is related to the Hong-Ou-Mandel interference with two pulsed light sources. Through a simple model in which two photons in the form of pulses pass a beamsplitter and are observed at two detectors, we investigate how, during the measurement process, information about the paths of the two photons can be erased. There are two ways to clear the information of the beam path, the first being that from the beginning, during the physical measurement process, the time information is not obtained. The other is after measuring the information, to erase the temporal information in the data analyzing process. We show that Hong-Ou-Mandel interference can be obtained only when the beam path inofrmation is cleared from the physical measurement process.
翻訳日:2023-04-24 11:59:43 公開日:2020-11-11
# ランダム界面電荷トラップによるシリコン量子ゲートの可変性と忠実度限界

Variability and Fidelity Limits of Silicon Quantum Gates Due to Random Interface Charge Traps ( http://arxiv.org/abs/2011.05486v1 )

ライセンス: Link先を確認
Tong Wu and Jing Guo(参考訳) Siliconは、量子コンピューティングのハードウェア実現のための魅力的なマテリアルプラットフォームを提供する。 本研究では, シリコン金属酸化物半導体(MOS)量子ゲートにおけるランダム界面電荷トラップの効果をモデル化するために, 微視的確率シミュレーション法を開発した。 統計的結果は, 異方的に精製されたシリコンに高速な2量子ゲートを用いることで, 2量子ビット系量子ゲートの忠実度は98%, 最先端のMOS界面品質は75%であった。 複合ゲートパルスを用いることで、75%の確率で忠実度をさらに99.5%以上向上させることができる。 しかし、量子ゲートデバイス間のばらつきは、主にデバイス毎のトラップの数が少ないためである。 その結果、ランダムな電荷トラップによる可変性考慮の重要性と、シリコンベースの量子コンピューティングにおける忠実性向上の可能性を強調した。

Silicon offers an attractive material platform for hardware realization of quantum computing. In this study, a microscopic stochastic simulation method is developed to model the effect of random interface charge traps in silicon metal-oxide-semiconductor (MOS) quantum gates. The statistical results show that by using a fast two-qubit gate in isotopically purified silicon, the two-qubit silicon-based quantum gates have the fidelity >98% with a probability of 75% for the state-of-the-art MOS interface quality. By using a composite gate pulse, the fidelity can be further improved to >99.5% with the 75% probability. The variations between the quantum gate devices, however, are largely due to the small number of traps per device. The results highlight the importance of variability consideration due to random charge traps and potential to improve fidelity in silicon-based quantum computing.
翻訳日:2023-04-24 11:59:30 公開日:2020-11-11
# 古典的および量子光:量子基盤と量子情報のためのVersatileツール

Classical and Quantum Light: Versatile tools for quantum foundations and quantum information ( http://arxiv.org/abs/2011.05797v1 )

ライセンス: Link先を確認
Thais de Lima Silva(参考訳) 光線は離散的かつ連続的な領域で探索できる多くの自由度を提供する。 このような多くの自由度で光子を絡める可能性に加えて、光は量子情報や量子基礎の目的のために非常に有用で多用途なツールとなる。 本論文では, 離散的, 連続的自由度を更に探究する新たな貢献を提示することにより, その重要性と汎用性に留意する。 古典光を使った2つの実験から始まり、量子系と類似した振る舞いを探求する。 1つ目は、相対論的量子粒子の力学の古典光学シミュレーションである。 2つ目の研究は、効果的に離散的であるが連続変数系から構築される相互に偏りのない測定の理論に関連している。 論文の第2部では、偏光と経路離散自由度を用いる3つの作品が提示されている。 ひとつは、マルチパートシナリオにおけるステアリングと呼ばれる量子非局所相関の再定義で、前の定義の矛盾、すなわち、スクラッチからこの相関を作成できないと思われる操作を用いて作成することに基づいている。 これを量子ステアリング(quantum steering)と呼ぶ。 ステアリング露光は、絡み合った光子で観測される。 他の2つの研究は、量子ビットの量子チャネルの実験的な実装に関連しており、そのうちの1つは、条件付き過去未来相関 (CPF) と呼ばれる操作測度を用いて非マルコビアン性をテストする特定のチャネルである。 この論文は、単一量子ビットの任意の量子チャネルを実験的に実現するための提案で終わり、そこでは単一光子の偏光によって量子ビットが実現される。 使用する全ての光学デバイスの機能については、実際に説明されている。

Light beams offer many degrees of freedom to be explored in discrete and continuous domains. In addition to the possibility of entangling photons in these many degrees of freedom, it makes light a very useful and versatile tool for quantum information and quantum foundation purposes. In this thesis, we endorse its importance and versatility by presenting novel contributions that further explore both discrete and continuous degrees of freedom. It begins with two experiments that use classical light and explore its analogous behavior to quantum systems. The first one is a classical optics simulation of the dynamics of a relativistic quantum particle. The second work is related to the theory of mutually unbiased measurements that are effectively discrete but constructed from continuous variables systems. In the second part of the thesis, three works are presented that use the polarization and path discrete degrees of freedom. The first one is a redefinition of the quantum nonlocal correlation called steering in the multipartite scenario, based on an inconsistency in the previous definition, namely the creation of this correlation from scratch using operations that supposedly would not be able to do so. We call this exposure of quantum steering. Steering exposure is observed with entangled photons. The other two works are related to the experimental implementation of quantum channels of qubits, one of them is a particular channel for which we test for non-Markovianity using a operational measure called conditional past-future (CPF) correlation. The thesis finishes with a proposal for an experimental realization of any quantum channel of a single qubit, where the qubit is realized by the polarization of single photons. The functioning of all optical devices used is didactically explained.
翻訳日:2023-04-24 11:54:00 公開日:2020-11-11
# 四元系弾性散乱

Quaternionic elastic scattering ( http://arxiv.org/abs/2011.05743v1 )

ライセンス: Link先を確認
Sergio Giardino(参考訳) 量子粒子の弾性散乱を四元数量子力学(英語版)(\mathbbm h$qm)への実ヒルベルト空間アプローチと波動関数の導出式、位相シフト、および硬球散乱ポテンシャルの場合の光学定理に基づいて研究する。 これらの新しい四元数結果と複素量子力学における対応する結果との強い一致は、通常の複素量子力学の$\mathbbm h$qm 一般化の妥当性を補強する($\mathbbm c$qm)。

We study the elastic scattering of quantum particles based on a real Hilbert space approach to quaternionic quantum mechanics ($\mathbbm H$QM) and derive expression for the wave function, the phase shifts, as well as the optical theorem for the case of a hard sphere scattering potential. The strong agreement between these new quaternionic results and the corresponding results in complex quantum mechanics reinforce the validity of the $\mathbbm H$QM generalization of ordinary complex quantum mechanics ($\mathbbm C$QM).
翻訳日:2023-04-24 11:53:32 公開日:2020-11-11
# フォッカー理論におけるファインマン汎関数積分

Feynman Functional Integral in the Fokker Theory ( http://arxiv.org/abs/2011.05729v1 )

ライセンス: Link先を確認
Natalia Gorobey, Alexander Lukyanenko, and A. V. Goltsev(参考訳) フォッカーの量子論の2つの定式化の同値性は、直接電磁相互作用を持つ電荷系のプロパゲータのファインマン汎関数積分表現と、Schr\"{o}ディンガー波動方程式の類似として最小作用の量子原理に基づいて証明される。 2つのアプローチの共通基盤は、フォッカーの作用の一般化された正準形式である。

The equivalence of two formulations of Fokker's quantum theory is proved - based on the Feynman functional integral representation of the propagator for a system of charges with direct electromagnetic interaction and the quantum principle of least action as an analogue of the Schr\"{o}dinger wave equation. The common basis for the two approaches is the generalized canonical form of Fokker's action.
翻訳日:2023-04-24 11:52:19 公開日:2020-11-11
# メソスコピックデバイスにおけるアンダーソン大災害による熱発生

Heat generation due to the Anderson catastrophe in mesoscopic devices ( http://arxiv.org/abs/2011.05726v1 )

ライセンス: Link先を確認
A. V. Lebedev and V. M. Vinokur(参考訳) anderson's orthogonality catastrophe (aoc) の定理は、多体フェルミオン系の基底状態が散乱ポテンシャルによって摂動される同じ系の基底状態と漸近的に直交し、元の基底状態と新しい基底状態の重なり合いが系の大きさとゼロに崩壊することを保証する。 我々は、相補的金属酸化物半導体(CMOS)トランジスタにおける熱生成を説明するためにAOCを採用する。 トランジスタ内で放出される熱は、印加電圧下での電子伝達に伴う散逸と、高伝導状態と低伝導状態の切り替えに伴う電子の散乱行列の変化による純粋量子力学的AOC部分との2つの異なる成分からなる。 我々はAOCによる熱発生を計算し、それをスイッチング熱と呼ぶ。

Anderson's orthogonality catastrophe (AOC) theorem establishes that the ground state of the many-body fermion system is asymptotically orthogonal to the ground state of the same system perturbed by a scattering potential, so that the overlap between the original and new ground states decays to zero with the system size. We adopt the AOC for a description of heat production in a complementary metal-oxide-semiconductor (CMOS) transistor. We find that the heat released in the transistor comprises two distinct components, contribution from the dissipation accompanying electron transmission under the applied voltage and purely quantum-mechanical AOC part due to the change in scattering matrix for electrons upon switching between high and low conductance regimes. We calculate the AOC-induced heat production, which we call switching heat.
翻訳日:2023-04-24 11:52:09 公開日:2020-11-11
# Slice and Dice: 解剖学教育のための物理化ワークフロー

Slice and Dice: A Physicalization Workflow for Anatomical Edutainment ( http://arxiv.org/abs/2011.05689v1 )

ライセンス: Link先を確認
Renata G. Raidou, M. Eduard Gr\"oller, Hsiang-Yun Wu(参考訳) During the last decades, anatomy has become an interesting topic in education---even for laymen or schoolchildren. As medical imaging techniques become increasingly sophisticated, virtual anatomical education applications have emerged. Still, anatomical models are often preferred, as they facilitate 3D localization of anatomical structures. Recently, data physicalizations (i.e., physical visualizations) have proven to be effective and engaging---sometimes, even more than their virtual counterparts. これまでのところ、医療データの物理化は主に3Dプリンティングで、それでも高価で面倒だ。 容易に利用可能な技術(ホームプリンター)と安価な材料(紙や半透明フィルム)を用いて解剖学的エデュタインメントのための工芸品を生成する代替の物理化形態について検討する。 私たちの知る限りでは、解剖学的な教育の文脈において、これが初めてのコンピュータによる工芸アプローチである。 当社のアプローチはコスト効率が高く、シンプルで、作業が容易なワークフローに従い、組み立て可能なデータ彫刻(半透明スライスフォーム)を生み出します。 主にボリュームデータ(CTやMRIなど)をサポートするが、メッシュデータもインポートできる。 octreeは、インポートしたボリュームをスライスし、最適化ステップは、スライス構成を単純化し、組み立てが容易な最適な順序を提案する。 パッキングアルゴリズムは、ユーザが選択したサイズの紙や透明なフィルムにラベル、アノテーション、アセンブリ命令でスライスを配置し、印刷し、スライスフォームに組み立て、探索する。 このアプローチを評価するために,我々は2つのユーザ調査を行い,インタラクティブで魅力的な解剖学的物理化を成功させるための最初のポジティブなステップであることを実証した。

During the last decades, anatomy has become an interesting topic in education---even for laymen or schoolchildren. As medical imaging techniques become increasingly sophisticated, virtual anatomical education applications have emerged. Still, anatomical models are often preferred, as they facilitate 3D localization of anatomical structures. Recently, data physicalizations (i.e., physical visualizations) have proven to be effective and engaging---sometimes, even more than their virtual counterparts. So far, medical data physicalizations involve mainly 3D printing, which is still expensive and cumbersome. We investigate alternative forms of physicalizations, which use readily available technologies (home printers) and inexpensive materials (paper or semi-transparent films) to generate crafts for anatomical edutainment. To the best of our knowledge, this is the first computer-generated crafting approach within an anatomical edutainment context. Our approach follows a cost-effective, simple, and easy-to-employ workflow, resulting in assemblable data sculptures (i.e., semi-transparent sliceforms). It primarily supports volumetric data (such as CT or MRI), but mesh data can also be imported. An octree slices the imported volume and an optimization step simplifies the slice configuration, proposing the optimal order for easy assembly. A packing algorithm places the resulting slices with their labels, annotations, and assembly instructions on a paper or transparent film of user-selected size, to be printed, assembled into a sliceform, and explored. We conducted two user studies to assess our approach, demonstrating that it is an initial positive step towards the successful creation of interactive and engaging anatomical physicalizations.
翻訳日:2023-04-24 11:51:19 公開日:2020-11-11
# 生体認証システムのセキュリティ

Security in biometric systems ( http://arxiv.org/abs/2011.05679v1 )

ライセンス: Link先を確認
Francesc Serratosa(参考訳) 生体認証システムの目的は、識別メカニズムを提供することである。 この識別機構は、いくつかの目的を満たすために使用できる。 リソースへのセキュリティ提供に関連する最も一般的なものは、通常、認定された人員の認証または検出と、不正な人員の検出である。 技術的な見地からすると、これらの2つの目的は、ほとんどの機能が、問題のシステムのデータベースで以前に特定された人物を検索することで達成されるため、単一のポイントに含めることができる。 第1のケースでは、データベースに入力された人にアクセスが与えられ、第2のケースでは、データベースに入力されていない人にアクセスが与えられる。 これらは最も一般的な2つの攻撃であるが、この章で議論するものもある。 巻構成は以下の通り。 第1章では、攻撃の基本的な種類を概説し、通常の防御策(セクション1、2、3)を記述している。 第2章では、指紋認証、顔認識、虹彩認識に基づくシステムによる攻撃について記述している(第4章、第5章)。 攻撃方法が記述されると、いくつかの特定の保護策も議論される(第4節と第5節)。 最後に、サイドチャネル攻撃とその有用性を他の攻撃と組み合わせて記述する(第6節)。

The objective of biometric systems is to provide an identification mechanism. This identification mechanism can be used to fulfil several objectives. The most common, related to providing security to a resource, is usually authentication or detection of authorized personnel and detection of unauthorized personnel. From the technical point of view, these two objectives can be included in a single point since most functionalities are achieved by making searches of people previously identified in the database of the system in question. In the first case access is given to people entered in the database and in the second case access is given to people who are not entered in the database. Although these are the two most common attacks there are also others that we will discuss in this chapter. The structure of the chapter is as follows. The first part of the chapter gives an overview of the basic types of attacks and describes the usual protection measures (Sections 1, 2 and 3). The second part of the chapter describes several attacks that can be made on systems based on fingerprinting, face recognition, and iris recognition (Sections 4 and 5). Once the attack methodologies have been described, some specific protection measures are also discussed (Sections 4 and 5). Finally, side channel attacks and their usefulness in combination with other possible attacks are described (Section 6).
翻訳日:2023-04-24 11:50:39 公開日:2020-11-11
# 大学生の電話行動の持続的モバイル・ヘルス・ウェルビーイング・ソリューションへの理解

Understanding College Students' Phone Call Behaviors Towards a Sustainable Mobile Health and Wellbeing Solution ( http://arxiv.org/abs/2011.06007v1 )

ライセンス: Link先を確認
Yugyeong Kim, Sudip Vhaduri, and Christian Poellabauer(参考訳) 高校からキャンパス内での大学生活への移行の間、学生は家を出て、新しい人との出会い、より多くの責任、家族から離れること、学術的課題など、大きな人生の変化に直面し始める。 これらの最近の変化はストレスと不安の上昇をもたらし、学生の健康と幸福に影響を及ぼす。 スマートフォンとセンサーの豊富な収集により、学生の健康や幸福、学業成功に関連するコミュニケーション行動など、生徒の行動パターンに影響を与えるさまざまな要因を継続的に監視することができる。 本研究では,様々な時間(例えば1日のエポック,1週間の日数など)における様々な地理的状況(寮,授業,食事など)にまたがる大学生のコミュニケーションパターン(通話時間と頻度)を可視化手法を用いて評価する。 この研究から得られた発見は、スマートフォンベースの健康介入の設計と提供を促進するのに役立つ。

During the transition from high school to on-campus college life, a student leaves home and starts facing enormous life changes, including meeting new people, more responsibilities, being away from family, and academic challenges. These recent changes lead to an elevation of stress and anxiety, affecting a student's health and wellbeing. With the help of smartphones and their rich collection of sensors, we can continuously monitor various factors that affect students' behavioral patterns, such as communication behaviors associated with their health, wellbeing, and academic success. In this work, we try to assess college students' communication patterns (in terms of phone call duration and frequency) that vary across various geographical contexts (e.g., dormitories, classes, dining) during different times (e.g., epochs of a day, days of a week) using visualization techniques. Findings from this work will help foster the design and delivery of smartphone-based health interventions; thereby, help the students adapt to the changes in life.
翻訳日:2023-04-24 11:43:55 公開日:2020-11-11
# 量子コンピュータ上での自動微分可能なユニタリ結合クラスタの実現可能性

A Feasible Approach for Automatically Differentiable Unitary Coupled-Cluster on Quantum Computers ( http://arxiv.org/abs/2011.05938v1 )

ライセンス: Link先を確認
Jakob S. Kottmann, Abhinav Anand, Al\'an Aspuru-Guzik(参考訳) 量子コンピュータに適用可能なユニタリ結合クラスター型演算子のための計算量的に手頃で独立な勾配評価手順を開発した。 提案手法では,パラメータ化されたn-fold fermionic excitationに対する期待値の勾配を,類似した形状と大きさの4つの期待値で評価できるが,パラメータシフトルールの直接適用に基づく標準的なアプローチのほとんどはo(2^(2n)期待値の関連コストを伴っている。 実波動関数の場合、このコストはさらに2つの期待値に削減できる。 当社の戦略は,オープンソースパッケージテキラ内に実装されており,ブラックボード方式で異なる目的関数を構築できる。 電子接地と励起状態の初期応用について述べる。

We develop computationally affordable and encoding independent gradient evaluation procedures for unitary coupled-cluster type operators, applicable on quantum computers. We show that, within our framework, the gradient of an expectation value with respect to a parameterized n-fold fermionic excitation can be evaluated by four expectation values of similar form and size, whereas most standard approaches based on the direct application of the parameter-shift-rule come with an associated cost of O(2^(2n)) expectation values. For real wavefunctions, this cost can be further reduced to two expectation values. Our strategies are implemented within the open-source package tequila and allow blackboard style construction of differentiable objective functions. We illustrate initial applications for electronic ground and excited states.
翻訳日:2023-04-24 11:42:44 公開日:2020-11-11
# フォトニック量子ウォークにおける合成場誘起Bloch-Landau-Zener動力学

Bloch-Landau-Zener dynamics induced by a synthetic field in a photonic quantum walk ( http://arxiv.org/abs/2011.05893v1 )

ライセンス: Link先を確認
Alessio D'Errico, Raouf Barboza, Rebeca Tudor, Alexandre Dauphin, Pietro Massignan, Lorenzo Marrucci and Filippo Cardano(参考訳) 量子ウォーク(Quantum walk)は、コヒーレントなシステムのダイナミクスをモデル化するプロセスである。 彼らの実験的実装は、フロケトポロジカル絶縁体における新しい現象を明らかにする鍵を証明した。 ここでは、電荷粒子上の電界の作用を模倣した合成ゲージ場の存在下でのフォトニック量子ウォークを実現する。 2つの準エネルギー帯域間のエネルギーギャップをチューニングすることにより、ブロッホ振動とランダウ・ツェナー遷移の相互作用を特徴とする興味深い系のダイナミクスを考察する。 準エネルギー値 0 と $\pi$ の両ギャップが無限に小さいとき、フロッケダイナミクスは弾道拡散に従う。

Quantum walks are processes that model dynamics in coherent systems. Their experimental implementations proved key to unveil novel phenomena in Floquet topological insulators. Here we realize a photonic quantum walk in the presence of a synthetic gauge field, which mimics the action of an electric field on a charged particle. By tuning the energy gaps between the two quasi-energy bands, we investigate intriguing system dynamics characterized by the interplay between Bloch oscillations and Landau-Zener transitions. When both gaps at quasi-energy values 0 and $\pi$ are vanishingly small, the Floquet dynamics follows a ballistic spreading.
翻訳日:2023-04-24 11:42:13 公開日:2020-11-11
# 双極子スピン系における量子フィッシャー情報と歪情報相関

Quantum Fisher information and skew information correlations in dipolar spin system ( http://arxiv.org/abs/2011.05879v1 )

ライセンス: Link先を確認
R. Muthuganesan and V. K. Chandrasekar(参考訳) 量子フィッシャー情報(QFI)とスキュー情報(SI)は、量子資源理論において重要な役割を果たす。 物理系におけるこれらの測度の理解は、状態パラメータ推定と量子計測において実用的な意味を持つ。 本稿では,双極子とジアルシンスキー・モリヤ相互作用(dm)を結合したスピン1/2粒子を量子情報の物理担体として考える。 局所量子不確かさ (lqu) と局所量子フィッシャー情報 (lqfi) によって特徴づけられる熱平衡状態に対するスピン1/2粒子系の二成分非局所相関について検討した。 量子相関量子化器における双極子結合定数の影響について検討した。 DM相互作用は系の量子相関を大幅に強化する一方、温度は量子相関の量を消滅させる傾向にある。

Quantum Fisher information (QFI) and skew information (SI) plays a key role in the quantum resource theory. Understanding these measures in the physical system has practical significance in the state parameter estimation and quantum metrology. In this article, we consider a pair ofspin-1/2 particles coupled with dipolar and Dzyaloshinsky-Moriya (DM) interactions, serving as the physical carrier of quantum information. We examine the bipartite nonlocal correlations of pair of spin-1/2 particle system for the thermal equilibrium states, characterized by local quantum uncertainty (LQU) and local quantum Fisher information (lQFI). The effects of dipolar coupling constants on quantum correlation quantifiers are studied. The DM interaction greatly enhances the quantum correlation in the system whereas the temperature tends to annihilate the amount of quantum correlations.
翻訳日:2023-04-24 11:42:01 公開日:2020-11-11
# 双対膜能動受動オプトメカニカルキャビティの光学応答

Optical response of a dual membrane active-passive optomechanical cavity ( http://arxiv.org/abs/2011.05833v1 )

ライセンス: Link先を確認
Akash Kundu, Chao Jin, and Jia-Xin Peng(参考訳) 本研究は,各機械膜が2フォノンプロセスにより受動空洞と活性空洞とを個別に結合した二重膜アクティブパッシブキャビティについて検討する。 二次結合な光学系において平均場近似が失敗するため、系を完全に解析するために、我々はより一般化された平衡アプローチ、すなわちケルディシュ・グリーンの機能的アプローチに切り替える。 定式化グリーン関数を用いて伝送速度を計算し,各パラメータの伝送係数への影響を数値的に検討し,その背後にある特徴と物理を詳細に検討した。 光応答性に基づき、我々は高速で遅い光現象の研究をさらに拡張する。 提案システムは,キャビティパラメータの適切な選択の下で超高速光/超低速光を実現できるだけでなく,高速光と低速光の変換を実現することができる。

We investigate a dual membrane active-passive cavity where each mechanical membrane individually quadratically coupled to passive and active cavities via two-phonon process. Due to the fact that in the quadratically coupled optomechanical system mean-field approximation fails, hence to analyze the system completely, we switch to a more generalized out of equilibrium approach, namely Keldysh Green's functional approach. We calculate transmission rate using predetermined full retarded Green's function, and then numerically examine the effect of the various parameters on the transmission coefficient and discuss the features and physics behind them in detail. On the basis of the optical responsivity we further extend our study of fast and slow light phenomenon. The results show that our proposed system can not only realize ultra-fast light/ultra-slow light under proper choice of cavity parameters, but realization of the conversion between fast and slow light and vice versa.
翻訳日:2023-04-24 11:41:30 公開日:2020-11-11
# パターン化Geナノワイヤ系金属酸化物半導体(MOS)素子による電圧可変量子ドットアレイ

Voltage tunable quantum dot array by patterned Ge-nanowire based metal-oxide-semiconductor (MOS) devices ( http://arxiv.org/abs/2011.06580v1 )

ライセンス: Link先を確認
Subhrajit Sikdar, Basudev Nag Chowdhury, Rajib Saha and Sanatan Chattopadhyay(参考訳) 半導体量子ドット(qds)は、電子工学、光エレクトロニクス、太陽光発電、バイオセンシングアプリケーション、qビットベースの量子情報処理の分野を含む、幅広い先進および新興技術の第一ユニットと見なされている。 このようなQDは、離散量子状態を三次元的に生成するキャリアのユニークな性質に対して、いくつかの新しいデバイス応用に適している。 しかし、実際にはそのようなqdsの実現は、所望のスケーラビリティと再現性を備えた配列での製造や、室温での量子状態の制御に関して深刻な課題を呈する。 この文脈において、現在の研究は、室温で電圧調整可能な量子ドットとして動作可能な、高スケールのGeナノワイヤ(半径 ~25 nm)ベースの垂直金属酸化物半導体デバイスの製造を報告している。 このようなナノワイヤの電子は半径方向の幾何学的閉じ込めを経験する一方、量子状態を操作するために応用バイアスを調整することで軸方向に閉じ込めることができる。 このような電子の量子閉じ込めは、比較的低い周波数(200kHz)で室温キャパシタンス電圧(C-V)特性の段階的な応答から確認されている。 これらのステップはそれぞれ6個の電子電荷を占有する量子状態の畳み込みを包含する。 このようなキャリア閉じ込めの詳細は、非平衡グリーン関数(NEGF)形式に基づいてデバイス輸送特性を理論的にモデル化することにより、現在の研究で分析される。

Semiconductor quantum dots (QDs) are being regarded as the primary unit for a wide range of advanced and emerging technologies including electronics, optoelectronics, photovoltaics and biosensing applications as well as the domain of q-bits based quantum information processing. Such QDs are suitable for several novel device applications for their unique property of confining carriers 3-dimensionally creating discrete quantum states. However, the realization of such QDs in practice exhibits serious challenge regarding their fabrication in array with desired scalability and repeatability as well as control over the quantum states at room temperature. In this context, the current work reports the fabrication of an array of highly scaled Ge-nanowire (radius ~25 nm) based vertical metal-oxide-semiconductor devices that can operate as voltage tunable quantum dots at room temperature. The electrons in such nanowire experience a geometrical confinement in the radial direction, whereas, they can be confined axially by tuning the applied bias in order to manipulate the quantum states. Such quantum confinement of electrons has been confirmed from the step-like responses in the room temperature capacitance-voltage (C-V) characteristics at relatively low frequency (200 kHz). Each of such steps has observed to encompass convolution of the quantized states occupying ~6 electronic charges. The details of such carrier confinement are analyzed in the current work by theoretically modeling the device transport properties based on non-equilibrium Green's function (NEGF) formalism.
翻訳日:2023-04-24 11:33:59 公開日:2020-11-11
# su(n)1; n 奇素数でないクリフォード作用素

Clifford operators in SU(N)1; N not odd prime ( http://arxiv.org/abs/2011.06035v1 )

ライセンス: Link先を確認
Howard J. Schnitzer(参考訳) farinholt は qudit に対するクリフォード作用素の特徴を与え、d は奇数かつ偶数である。 このコメントにおいて、クリフォード作用素の構成に必要なゲートが示され、N も奇数も偶数も SU(N)1 に現れる演算から直接得られる。 SU(2)1におけるW3状態の証人について論じる。 例[1-4]を参照。

Farinholt gives a characterization of Clifford operators for qudits; d both odd and even. In this comment it is shown that the necessary gates for the construction of Clifford operators; N both odd and even, are obtained directly from operations that appear in SU(N)1. A witness for W3 states in SU(2)1 is discussed. See e.g. [1-4].
翻訳日:2023-04-24 11:32:03 公開日:2020-11-11
# イマジナリー$0$Nearest近傍への外挿と収束率の改善

Extrapolation Towards Imaginary $0$-Nearest Neighbour and Its Improved Convergence Rate ( http://arxiv.org/abs/2002.03054v2 )

ライセンス: Link先を確認
Akifumi Okuno, Hidetoshi Shimodaira(参考訳) k$-nearest neighbor (k$-nn) は教師付き分類の最も単純かつ最も広く使われている方法の1つであり、クエリに最も近い$k$オブジェクトの観測ラベルの重み付け比率を取ることによってクエリのラベルを予測する。 重みとパラメータ $k \in \mathbb{N}$ はバイアス分散トレードオフを規制し、トレードオフは、$k$-NN分類器の余剰リスクの収束率に暗黙的に影響を及ぼす。 非負の重みを持つ$k$-NNは広く開発されているが、バイアス項の根絶や最適収束率の達成には負の重みが不可欠であることが証明された。 本稿では,数個の$k \ge 1$値から$k=0$への非重み付き$k$-NN推定器を外挿し,仮想的な0-NN推定器を与える,新しいマルチスケール$k$-NN(MS-$k$-NN)を提案する。 提案手法は問合せとその周辺点に適応する最適実数値重みを暗黙的に計算する。 理論的には、MS-$k$-NNは、ある条件下での既存の最適速度と一致する改善率に達することを証明している。

$k$-nearest neighbour ($k$-NN) is one of the simplest and most widely-used methods for supervised classification, that predicts a query's label by taking weighted ratio of observed labels of $k$ objects nearest to the query. The weights and the parameter $k \in \mathbb{N}$ regulate its bias-variance trade-off, and the trade-off implicitly affects the convergence rate of the excess risk for the $k$-NN classifier; several existing studies considered selecting optimal $k$ and weights to obtain faster convergence rate. Whereas $k$-NN with non-negative weights has been developed widely, it was also proved that negative weights are essential for eradicating the bias terms and attaining optimal convergence rate. In this paper, we propose a novel multiscale $k$-NN (MS-$k$-NN), that extrapolates unweighted $k$-NN estimators from several $k \ge 1$ values to $k=0$, thus giving an imaginary 0-NN estimator. Our method implicitly computes optimal real-valued weights that are adaptive to the query and its neighbour points. We theoretically prove that the MS-$k$-NN attains the improved rate, which coincides with the existing optimal rate under some conditions.
翻訳日:2023-01-02 22:21:35 公開日:2020-11-11
# Deep Domain Adaptive Object Detection: A Survey

Deep Domain Adaptive Object Detection: a Survey ( http://arxiv.org/abs/2002.06797v3 )

ライセンス: Link先を確認
Wanyi Li, Fuyu Li, Yongkang Luo, Peng Wang and Jia sun(参考訳) 深層学習(DL)に基づく物体検出は大きな進歩を遂げた。 これらの方法は通常、大量のラベル付きトレーニングデータが利用可能であると仮定し、トレーニングとテストデータは同一のディストリビューションから引き出される。 しかし、この2つの前提は常に成り立つわけではない。 深部ドメイン適応オブジェクト検出(DDAOD)は、上記の課題に対処するための新しい学習パラダイムとして登場した。 本稿では,深部領域適応型オブジェクト検出手法の現状を概観する。 まず,深層領域適応の基本概念を簡潔に紹介する。 次に、深部領域適応検出器を5つのカテゴリに分類し、各カテゴリにおける代表法の詳細記述を行う。 最後に,今後の研究動向について考察する。

Deep learning (DL) based object detection has achieved great progress. These methods typically assume that large amount of labeled training data is available, and training and test data are drawn from an identical distribution. However, the two assumptions are not always hold in practice. Deep domain adaptive object detection (DDAOD) has emerged as a new learning paradigm to address the above mentioned challenges. This paper aims to review the state-of-the-art progress on deep domain adaptive object detection approaches. Firstly, we introduce briefly the basic concepts of deep domain adaptation. Secondly, the deep domain adaptive detectors are classified into five categories and detailed descriptions of representative methods in each category are provided. Finally, insights for future research trend are presented.
翻訳日:2022-12-31 13:00:51 公開日:2020-11-11
# BLANCにおける充足:文書要約の人為的品質評価

Fill in the BLANC: Human-free quality estimation of document summaries ( http://arxiv.org/abs/2002.09836v2 )

ライセンス: Link先を確認
Oleg Vasilyev, Vedant Dharnidharka, John Bohannon(参考訳) 本稿では,文書要約品質の自動推定手法であるBLANCを提案する。 我々の目標は、目的、再現可能、そして完全に自動化された方法で要約の機能性能を測定することである。 本手法は,事前学習した言語モデルによる文書要約へのアクセスによる性能向上を,文書のテキスト上で言語理解タスクを実行しながら測定することで実現する。 我々は,BLANCスコアが,ROUGEファミリーの要約品質測定と同等の相関性を持つことを示す。 また,ROUGEと異なり,BLANC法では人手による参照要約を必要とせず,完全人手による要約品質評価が可能である。

We present BLANC, a new approach to the automatic estimation of document summary quality. Our goal is to measure the functional performance of a summary with an objective, reproducible, and fully automated method. Our approach achieves this by measuring the performance boost gained by a pre-trained language model with access to a document summary while carrying out its language understanding task on the document's text. We present evidence that BLANC scores have as good correlation with human evaluations as do the ROUGE family of summary quality measurements. And unlike ROUGE, the BLANC method does not require human-written reference summaries, allowing for fully human-free summary quality estimation.
翻訳日:2022-12-29 09:47:43 公開日:2020-11-11
# DASNet:高解像度衛星画像の変更検出のための二重減衰完全畳み込みシムネットワーク

DASNet: Dual attentive fully convolutional siamese networks for change detection of high resolution satellite images ( http://arxiv.org/abs/2003.03608v2 )

ライセンス: Link先を確認
Jie Chen, Ziyang Yuan, Jian Peng, Li Chen, Haozhe Huang, Jiawei Zhu, Yu Liu, Haifeng Li(参考訳) 変化検出はリモートセンシング画像処理の基本的なタスクである。 研究の目的は、関心の変化情報を識別し、無関係な変更情報を干渉要因としてフィルタリングすることである。 近年、ディープラーニングの台頭により、変化検出のための新しいツールが提供され、目覚ましい結果が得られた。 しかし,本手法では,多時期リモートセンシング画像間の差分情報に着目し,疑似変化情報に対するロバスト性に欠ける。 疑似変化に対する現在の手法の抵抗の欠如を克服するため,本稿では,高解像度画像における変化検出のための2重減衰完全畳み込みシームズネットワーク(DASNet)を提案する。 デュアルアテンション機構により、長距離依存を捕捉してより識別性の高い特徴表現を取得し、モデルの認識性能を高める。 さらに、不均衡なサンプルは変化検出において深刻な問題であり、例えば、変化しないサンプルは変化したサンプルよりもはるかに多い。 重み付けされた二重マージン比較損失は、変化しない特徴対に対する注意を罰し、変化した特徴対に対する注意を高めることでこの問題に対処する。 提案手法は,他のベースライン法と比較して,F1スコアにおいてそれぞれ2.1\%と3.6\%の最大改善を実現していることを示す。 pytorchの実装はhttps://github.com/lehaifeng/dasnetで利用可能です。

Change detection is a basic task of remote sensing image processing. The research objective is to identity the change information of interest and filter out the irrelevant change information as interference factors. Recently, the rise of deep learning has provided new tools for change detection, which have yielded impressive results. However, the available methods focus mainly on the difference information between multitemporal remote sensing images and lack robustness to pseudo-change information. To overcome the lack of resistance of current methods to pseudo-changes, in this paper, we propose a new method, namely, dual attentive fully convolutional Siamese networks (DASNet) for change detection in high-resolution images. Through the dual-attention mechanism, long-range dependencies are captured to obtain more discriminant feature representations to enhance the recognition performance of the model. Moreover, the imbalanced sample is a serious problem in change detection, i.e. unchanged samples are much more than changed samples, which is one of the main reasons resulting in pseudo-changes. We put forward the weighted double margin contrastive loss to address this problem by punishing the attention to unchanged feature pairs and increase attention to changed feature pairs. The experimental results of our method on the change detection dataset (CDD) and the building change detection dataset (BCDD) demonstrate that compared with other baseline methods, the proposed method realizes maximum improvements of 2.1\% and 3.6\%, respectively, in the F1 score. Our Pytorch implementation is available at https://github.com/lehaifeng/DASNet.
翻訳日:2022-12-25 19:58:52 公開日:2020-11-11
# スケーラブルな探査のための敵対的目標

An Adversarial Objective for Scalable Exploration ( http://arxiv.org/abs/2003.06082v4 )

ライセンス: Link先を確認
Bernadette Bucher, Karl Schmeckpeper, Nikolai Matni, Kostas Daniilidis(参考訳) モデルに基づく好奇心は、最適サンプリングのためのアクティブな学習アプローチと、好奇心文学で提示された探索のための情報ゲインに基づくインセンティブを組み合わせる。 既存のモデルに基づくキュリオシティ手法は、ロボットタスクで使用される多くの予測計画パイプラインへのスケールに苦慮するアプローチで、予測の不確実性を近似する。 判別器ネットワークのスコアを最小化する逆好奇性手法を用いて,これらのスケーラビリティ問題に対処する。 この判別器は予測モデルと協調して最適化され、観察と行動のサンプルシーケンスに対するアクティブラーニングアプローチを可能にし、判別器によって最も現実的な予測と見なされる。 シミュレーション環境における主要なモデルに基づく探索戦略よりも、敵対的好奇心のアプローチに制限されるため、計算能力は徐々に向上する。 さらに,本手法をロボット操作予測計画パイプラインに拡張することで,ドメイン転送問題に対するサンプル効率と予測性能を向上させることを実証する。

Model-based curiosity combines active learning approaches to optimal sampling with the information gain based incentives for exploration presented in the curiosity literature. Existing model-based curiosity methods look to approximate prediction uncertainty with approaches which struggle to scale to many prediction-planning pipelines used in robotics tasks. We address these scalability issues with an adversarial curiosity method minimizing a score given by a discriminator network. This discriminator is optimized jointly with a prediction model and enables our active learning approach to sample sequences of observations and actions which result in predictions considered the least realistic by the discriminator. We demonstrate progressively increasing advantages as compute is restricted of our adversarial curiosity approach over leading model-based exploration strategies in simulated environments. We further demonstrate the ability of our adversarial curiosity method to scale to a robotic manipulation prediction-planning pipeline where we improve sample efficiency and prediction performance for a domain transfer problem.
翻訳日:2022-12-24 00:55:10 公開日:2020-11-11
# ParKCa: 原因を部分的に把握した因果推論

ParKCa: Causal Inference with Partially Known Causes ( http://arxiv.org/abs/2003.07952v4 )

ライセンス: Link先を確認
Raquel Aoki and Martin Ester(参考訳) 観測データから因果推論を行う方法は、偽データ収集やランダム化実験の実現が不可能であるシナリオの代替となる。 提案手法では,複数の因果推論手法の結果を組み合わせることで,既知の原因や潜在的な原因を含むアプリケーションの新たな原因を学習する。 我々はParKCAを実世界と模擬データセットの2つのゲノムワイドアソシエーション研究で検証した。 その結果,ParKCAは既存の方法よりも多くの原因を推測できることがわかった。

Methods for causal inference from observational data are an alternative for scenarios where collecting counterfactual data or realizing a randomized experiment is not possible. Adopting a stacking approach, our proposed method ParKCA combines the results of several causal inference methods to learn new causes in applications with some known causes and many potential causes. We validate ParKCA in two Genome-wide association studies, one real-world and one simulated dataset. Our results show that ParKCA can infer more causes than existing methods.
翻訳日:2022-12-22 20:53:22 公開日:2020-11-11
# 視覚増強アルゴリズムを用いたリアルタイム多クラス物体検出・認識

Real Time Multi-Class Object Detection and Recognition Using Vision Augmentation Algorithm ( http://arxiv.org/abs/2003.07442v4 )

ライセンス: Link先を確認
Al-Akhir Nayan, Joyeta Saha, Ahamad Nokib Mozumder, Khan Raqib Mahmud, Abul Kalam Al Azad(参考訳) 本研究の目的は,低解像度・低雑音の小型物体を検出することである。 既存のリアルタイムオブジェクト検出アルゴリズムは、画像全体の多レベル畳み込みとプール操作を実行し、画像の深いセマンティック特性を抽出するために必要な畳み込みのディープニューラルネットワークに基づいている。 検出モデルは、大きなオブジェクトに対してより良く機能する。 既存のモデルの特徴は、畳み込み操作を繰り返した後の小さなオブジェクトの本質的な特徴を完全に表現していない。 学習課題において,様々な畳み込みレベルのマルチスケール特徴を抽出するために,アップサンプリングとスキップ接続を用いた新しいリアルタイム検出アルゴリズムを導入し,小型物体の検出に顕著な性能を示した。 モデルの検出精度は、最先端モデルよりも高く、高速であることが示されている。

The aim of this research is to detect small objects with low resolution and noise. The existing real time object detection algorithm is based on the deep neural network of convolution need to perform multilevel convolution and pooling operations on the entire image to extract a deep semantic characteristic of the image. The detection models perform better for large objects. The features of existing models do not fully represent the essential features of small objects after repeated convolution operations. We have introduced a novel real time detection algorithm which employs upsampling and skip connection to extract multiscale features at different convolution levels in a learning task resulting a remarkable performance in detecting small objects. The detection precision of the model is shown to be higher and faster than that of the state-of-the-art models.
翻訳日:2022-12-22 20:20:06 公開日:2020-11-11
# モデル量子化とプルーニングのための位置ベーススケール勾配

Position-based Scaled Gradient for Model Quantization and Pruning ( http://arxiv.org/abs/2005.11035v4 )

ライセンス: Link先を確認
Jangho Kim, KiYoon Yoo, Nojun Kwak(参考訳) 本研究では,重みベクトルの位置に応じて勾配をスケールし,より圧縮しやすい位置スケールド勾配 (psg) を提案する。 まず,psgを標準勾配降下 (gd, psgd) に応用することは, 適切に設計された可逆関数によって元の重み空間を反動させることで得られる, 反動重み空間における gd と同値であることを示す。 第二に、重みベクトルに正規化子として作用するPSGが量子化やプルーニングなどのモデル圧縮領域に好適であることを示す。 PSGは、全精度モデルと圧縮されたモデルの間の重量分布のギャップを小さくする。 これにより、リソースの可用性に応じて、非圧縮モードまたは圧縮モードとしてモデルの多彩なデプロイが可能になる。 CIFAR-10/100とImageNetデータセットの実験結果から,極低ビットでもプルーニングと量子化の両領域におけるPSGの有効性が示された。 コードはgithubで公開されている。

We propose the position-based scaled gradient (PSG) that scales the gradient depending on the position of a weight vector to make it more compression-friendly. First, we theoretically show that applying PSG to the standard gradient descent (GD), which is called PSGD, is equivalent to the GD in the warped weight space, a space made by warping the original weight space via an appropriately designed invertible function. Second, we empirically show that PSG acting as a regularizer to a weight vector is favorable for model compression domains such as quantization and pruning. PSG reduces the gap between the weight distributions of a full-precision model and its compressed counterpart. This enables the versatile deployment of a model either as an uncompressed mode or as a compressed mode depending on the availability of resources. The experimental results on CIFAR-10/100 and ImageNet datasets show the effectiveness of the proposed PSG in both domains of pruning and quantization even for extremely low bits. The code is released in Github.
翻訳日:2022-11-30 08:41:50 公開日:2020-11-11
# 正規化ニューラルネットワークの統計的保証

Statistical Guarantees for Regularized Neural Networks ( http://arxiv.org/abs/2006.00294v2 )

ライセンス: Link先を確認
Mahsa Taheri and Fang Xie and Johannes Lederer(参考訳) ニューラルネットワークはデータ解析の標準ツールとなっているが、包括的な数学的理論は欠如している。 例えば、データからニューラルネットワークを学習するための統計的保証は、特に実際に使用されるか、あるいはそれと少なくとも類似した推定器のクラスに対して、ごくわずかである。 本稿では,最小二乗項と正則化器からなる推定器の一般統計保証を開発する。 次に、この保証を$\ell_1$-regularizationで例示し、対応する予測誤差が、層数において最も線形に、そしてパラメータの総数において対数的に増加することを示す。 その結果,ニューラルネットワークの正規化推定の数学的基礎を確立し,ニューラルネットワークとディープラーニングの数学的理解を深めることができた。

Neural networks have become standard tools in the analysis of data, but they lack comprehensive mathematical theories. For example, there are very few statistical guarantees for learning neural networks from data, especially for classes of estimators that are used in practice or at least similar to such. In this paper, we develop a general statistical guarantee for estimators that consist of a least-squares term and a regularizer. We then exemplify this guarantee with $\ell_1$-regularization, showing that the corresponding prediction error increases at most sub-linearly in the number of layers and at most logarithmically in the total number of parameters. Our results establish a mathematical basis for regularized estimation of neural networks, and they deepen our mathematical understanding of neural networks and deep learning more generally.
翻訳日:2022-11-26 17:33:39 公開日:2020-11-11
# DocBank: ドキュメントレイアウト分析のためのベンチマークデータセット

DocBank: A Benchmark Dataset for Document Layout Analysis ( http://arxiv.org/abs/2006.01038v3 )

ライセンス: Link先を確認
Minghao Li, Yiheng Xu, Lei Cui, Shaohan Huang, Furu Wei, Zhoujun Li, Ming Zhou(参考訳) 文書レイアウト分析は通常、文書を理解するのにコンピュータビジョンモデルに依存し、キャプチャーに不可欠なテキスト情報を無視する。 一方、視覚情報とテキスト情報の両方を備えた高品質なラベル付きデータセットはまだ不十分である。 本稿では,ドキュメントレイアウト解析のための詳細なトークンレベルのアノテーションを備えた,500万のドキュメントページを含むベンチマークデータセットである \textbf{docbank} を提案する。 DocBank は arXiv.com で利用可能な \LaTeX{} ドキュメントの監督が弱い、シンプルだが効果的な方法で構築されている。 DocBankでは、異なるモダリティのモデルを公平に比較することができ、マルチモーダルアプローチをさらに検討し、文書レイアウト解析の性能を向上させる。 いくつかの強力なベースラインを構築し、評価のために手動でトレイン/デベロップメント/テストセットを分割します。 実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。 DocBankデータセットは、 \url{https://github.com/doc-analysis/DocBank}で公開されている。

Document layout analysis usually relies on computer vision models to understand documents while ignoring textual information that is vital to capture. Meanwhile, high quality labeled datasets with both visual and textual information are still insufficient. In this paper, we present \textbf{DocBank}, a benchmark dataset that contains 500K document pages with fine-grained token-level annotations for document layout analysis. DocBank is constructed using a simple yet effective way with weak supervision from the \LaTeX{} documents available on the arXiv.com. With DocBank, models from different modalities can be compared fairly and multi-modal approaches will be further investigated and boost the performance of document layout analysis. We build several strong baselines and manually split train/dev/test sets for evaluation. Experiment results show that models trained on DocBank accurately recognize the layout information for a variety of documents. The DocBank dataset is publicly available at \url{https://github.com/doc-analysis/DocBank}.
翻訳日:2022-11-26 07:07:25 公開日:2020-11-11
# ケストX線画像に基づく新型コロナウイルス予測のためのCOVIDGRデータセットとCOVID-SDNet方法論

COVIDGR dataset and COVID-SDNet methodology for predicting COVID-19 based on Chest X-Ray images ( http://arxiv.org/abs/2006.01409v3 )

ライセンス: Link先を確認
S. Tabik, A. G\'omez-R\'ios, J.L. Mart\'in-Rodr\'iguez, I. Sevillano-Garc\'ia, M. Rey-Area, D. Charte, E. Guirado, J.L. Su\'arez, J. Luengo, M.A. Valero-Gonz\'alez, P. Garc\'ia-Villanova, E. Olmedo-S\'anchez, F. Herrera(参考訳) 現在、21世紀で最も感染症の多かったコロナウイルス(COVID-19)は、RT-PCR検査、CTスキャン、胸部X線画像(CXR)を用いて診断されている。 CT(Computed Tomography)スキャナーとRT-PCR検査は、ほとんどの医療センターでは利用できないため、多くの場合、CXR画像は臨床医の意思決定を支援する最も時間と費用のかかるツールとなっている。 深層学習ニューラルネットワークは、新型コロナウイルスのトリアージシステムを構築し、特に重症度の低い患者を検出できる大きな可能性を秘めている。 残念なことに、現在のデータベースはそのようなシステムの構築を許可していない。 この論文は3倍です。 (i)最近の新型コロナウイルスの分類モデルで達成された高感度を実証する。 スペイン・グラナダの病院大学Cl\'inico San Cecilioとの密接なコラボレーションの下で,正のRT-PCR, Mild, Moderate から Severe まで,全レベルの重症度を含む同質でバランスの取れたデータベース COVIDGR-1.0 を開発した。 COVIDGR-1.0 には 426 の正の PA (PosteroAnterior) CXR ビューと 426 の負の PA (PosteroAnterior) CXR ビューが含まれる。 3) 新型コロナウイルス分類モデルの一般化能力を向上させるために, COVID Smart Data based Network (COVID-SDNet) 手法を提案する。 我々のアプローチは、9,7.72\% \pm 0.95 \%$, 8,6.90\% \pm 3.20\%$, 6,1.80\% \pm 5.49\%$の厳格で穏やかなCOVID-19重症度レベル(Journal of Biomedical and Health Informaticsに論文として掲載)の精度で、良好で安定した結果に達した。 われわれのアプローチは、新型コロナウイルスの早期発見に役立つかもしれない。 COVIDGR-1.0と重度レベルラベルは、このリンクを通じて科学コミュニティで利用可能である。

Currently, Coronavirus disease (COVID-19), one of the most infectious diseases in the 21st century, is diagnosed using RT-PCR testing, CT scans and/or Chest X-Ray (CXR) images. CT (Computed Tomography) scanners and RT-PCR testing are not available in most medical centers and hence in many cases CXR images become the most time/cost effective tool for assisting clinicians in making decisions. Deep learning neural networks have a great potential for building COVID-19 triage systems and detecting COVID-19 patients, especially patients with low severity. Unfortunately, current databases do not allow building such systems as they are highly heterogeneous and biased towards severe cases. This paper is three-fold: (i) we demystify the high sensitivities achieved by most recent COVID-19 classification models, (ii) under a close collaboration with Hospital Universitario Cl\'inico San Cecilio, Granada, Spain, we built COVIDGR-1.0, a homogeneous and balanced database that includes all levels of severity, from normal with Positive RT-PCR, Mild, Moderate to Severe. COVIDGR-1.0 contains 426 positive and 426 negative PA (PosteroAnterior) CXR views and (iii) we propose COVID Smart Data based Network (COVID-SDNet) methodology for improving the generalization capacity of COVID-classification models. Our approach reaches good and stable results with an accuracy of $97.72\% \pm 0.95 \%$, $86.90\% \pm 3.20\%$, $61.80\% \pm 5.49\%$ in severe, moderate and mild COVID-19 severity levels (Paper accepted for publication in Journal of Biomedical and Health Informatics). Our approach could help in the early detection of COVID-19. COVIDGR-1.0 along with the severity level labels are available to the scientific community through this link https://dasci.es/es/transferencia/open-data/covidgr/.
翻訳日:2022-11-26 00:57:10 公開日:2020-11-11
# 間接的監督信号による学習可能性

Learnability with Indirect Supervision Signals ( http://arxiv.org/abs/2006.08791v2 )

ライセンス: Link先を確認
Kaifu Wang, Qiang Ning, Dan Roth(参考訳) 間接的な監視信号からの学習は、ゴールドラベルが欠落している場合やコストが高すぎる場合、現実世界のAIアプリケーションにおいて重要である。 本稿では,ゴールドラベルと非ゼロの相互情報を含む変数によって監督を行う場合,マルチクラス分類のための統一的理論フレームワークを開発する。 この問題の性質は決定される。 (i)金ラベルから間接監督変数への遷移確率と (II) 学習者の移行に関する事前知識。 本フレームワークは文献における仮定を緩和し,未知,非可逆,インスタンス依存のトランジションによる学習を支援する。 この理論は、学習可能性と一般化境界を特徴づける新しい概念 \emph{separation} を導入する。 また、スーパーセットアノテーションによる学習や共同監視信号など、さまざまな学習シナリオにおいて、具体的な新しい結果によるフレームワークの適用を実証する。

Learning from indirect supervision signals is important in real-world AI applications when, often, gold labels are missing or too costly. In this paper, we develop a unified theoretical framework for multi-class classification when the supervision is provided by a variable that contains nonzero mutual information with the gold label. The nature of this problem is determined by (i) the transition probability from the gold labels to the indirect supervision variables and (ii) the learner's prior knowledge about the transition. Our framework relaxes assumptions made in the literature, and supports learning with unknown, non-invertible and instance-dependent transitions. Our theory introduces a novel concept called \emph{separation}, which characterizes the learnability and generalization bounds. We also demonstrate the application of our framework via concrete novel results in a variety of learning scenarios such as learning with superset annotations and joint supervision signals.
翻訳日:2022-11-21 03:22:49 公開日:2020-11-11
# ランダムラベルでトレーニングすると、ニューラルネットワークは何を学ぶのか?

What Do Neural Networks Learn When Trained With Random Labels? ( http://arxiv.org/abs/2006.10455v2 )

ライセンス: Link先を確認
Hartmut Maennel and Ibrahim Alabdulmohsin and Ilya Tolstikhin and Robert J. N. Baldock and Olivier Bousquet and Sylvain Gelly and Daniel Keysers(参考訳) 我々は、完全にランダムなラベルを持つ自然画像データに基づいて訓練されたディープニューラルネットワーク(DNN)を研究する。 記憶、一般化、その他の現象を研究するためにしばしば使われる文学での人気にもかかわらず、DNNがこの環境で何を学ぶかについてはほとんど知られていない。 本稿では,ネットワークパラメータの主成分とデータとのアライメントがランダムラベルのトレーニング時に発生するような,畳み込みネットワークと完全連結ネットワークを解析的に示す。 このアライメント効果を,ランダムラベル付き画像データに事前学習し,その後,ランダムラベルまたは実ラベル付き不連続データセットに微調整することにより検討する。 ランダムラベルで事前訓練されたネットワークは、ウェイトスケーリングなどの単純な効果を考慮しても、スクラッチからのトレーニングに比べ、下流でのトレーニングを高速化する。 我々は,後続層での特殊化などの競合効果が正の伝達を隠蔽する可能性を解析する。 これらの効果は、CIFAR10とImageNet上のVGG16やResNet18などのネットワークアーキテクチャで研究されている。

We study deep neural networks (DNNs) trained on natural image data with entirely random labels. Despite its popularity in the literature, where it is often used to study memorization, generalization, and other phenomena, little is known about what DNNs learn in this setting. In this paper, we show analytically for convolutional and fully connected networks that an alignment between the principal components of network parameters and data takes place when training with random labels. We study this alignment effect by investigating neural networks pre-trained on randomly labelled image data and subsequently fine-tuned on disjoint datasets with random or real labels. We show how this alignment produces a positive transfer: networks pre-trained with random labels train faster downstream compared to training from scratch even after accounting for simple effects, such as weight scaling. We analyze how competing effects, such as specialization at later layers, may hide the positive transfer. These effects are studied in several network architectures, including VGG16 and ResNet18, on CIFAR10 and ImageNet.
翻訳日:2022-11-19 12:38:05 公開日:2020-11-11
# 多言語乳腺MRIのラベル付け

Labeling of Multilingual Breast MRI Reports ( http://arxiv.org/abs/2007.03028v3 )

ライセンス: Link先を確認
Chen-Han Tsai, Nahum Kiryati, Eli Konen, Miri Sklair-Levy, Arnaldo Mayer(参考訳) 医療報告は臨床試験を通じて患者の状態を記録するための重要な媒体である。 それらは、臨床ツールの開発に必要な大きなラベル付きデータセットを生成するために抽出できる貴重な情報を含んでいる。 しかし、ほとんどの医療報告は正規化されていない形式で保存されており、訓練されたヒトのアノテータ(典型的には医師)は、それぞれのケースを手動で評価し、ラベル付けする必要があるため、高価で時間を要する。 本研究では,LAMBRと呼ばれるカスタム言語表現を用いた多言語乳房MRIレポート分類器を開発するためのフレームワークを提案する。 提案手法は,臨床現場で直面する実践的課題を克服し,従来の手法と比較して,医療報告からラベルを抽出する際の性能向上を実証する。

Medical reports are an essential medium in recording a patient's condition throughout a clinical trial. They contain valuable information that can be extracted to generate a large labeled dataset needed for the development of clinical tools. However, the majority of medical reports are stored in an unregularized format, and a trained human annotator (typically a doctor) must manually assess and label each case, resulting in an expensive and time consuming procedure. In this work, we present a framework for developing a multilingual breast MRI report classifier using a custom-built language representation called LAMBR. Our proposed method overcomes practical challenges faced in clinical settings, and we demonstrate improved performance in extracting labels from medical reports when compared with conventional approaches.
翻訳日:2022-11-13 01:14:41 公開日:2020-11-11
# HeAT - データ分析のための分散GPUアクセラレーションテンソルフレームワーク

HeAT -- a Distributed and GPU-accelerated Tensor Framework for Data Analytics ( http://arxiv.org/abs/2007.13552v2 )

ライセンス: Link先を確認
Markus G\"otz, Daniel Coquelin, Charlotte Debus, Kai Krajsek, Claudia Comito, Philipp Knechtges, Bj\"orn Hagemeier, Michael Tarnawa, Simon Hanselmann, Martin Siggel, Achim Basermann, Achim Streit(参考訳) 利用可能なデータの急速な増加に対処するため,データ解析と機械学習ライブラリの効率性が最近注目されている。 従来の配列ベースの計算では大きな進歩があったが、ほとんどが単一の計算ノードで利用可能なリソースによって制限されている。 そのため、分散メモリアーキテクチャなど、分散リソースを利用するための新しいアプローチが必要となる。 そこで我々は,大規模並列処理のための配列ベースの数値プログラミングフレームワークであるHeATを紹介した。 HeATはPyTorchをノードローカルな熱心な実行エンジンとして使用し、MPIを介して任意の規模の大規模高性能コンピューティングシステムにワークロードを分散する。 低レベル配列の計算と、様々な高レベルアルゴリズムを提供する。 HeATを使用すると、NumPyユーザは利用可能なリソースを最大限に活用でき、分散データ分析の障壁を大幅に減らすことができる。 同様のフレームワークと比較すると、HeATは最大2桁のスピードアップを達成する。

To cope with the rapid growth in available data, the efficiency of data analysis and machine learning libraries has recently received increased attention. Although great advancements have been made in traditional array-based computations, most are limited by the resources available on a single computation node. Consequently, novel approaches must be made to exploit distributed resources, e.g. distributed memory architectures. To this end, we introduce HeAT, an array-based numerical programming framework for large-scale parallel processing with an easy-to-use NumPy-like API. HeAT utilizes PyTorch as a node-local eager execution engine and distributes the workload on arbitrarily large high-performance computing systems via MPI. It provides both low-level array computations, as well as assorted higher-level algorithms. With HeAT, it is possible for a NumPy user to take full advantage of their available resources, significantly lowering the barrier to distributed data analysis. When compared to similar frameworks, HeAT achieves speedups of up to two orders of magnitude.
翻訳日:2022-11-06 11:55:07 公開日:2020-11-11
# CaSPR: 標準時空間クラウド表現の学習

CaSPR: Learning Canonical Spatiotemporal Point Cloud Representations ( http://arxiv.org/abs/2008.02792v2 )

ライセンス: Link先を確認
Davis Rempe, Tolga Birdal, Yongheng Zhao, Zan Gojcic, Srinath Sridhar, Leonidas J. Guibas(参考訳) 本研究では,オブジェクト中心の正準時空間的点クラウド表現を学習するcasprを提案する。 我々の目標は,過去における時空間的近傍における時間的情報集約と対象状態の問合せを可能にすることである。 以前の作業と異なり、casprは時空連続性をサポートする表現を学習し、可変かつ不規則に時空サンプリングされた点雲に頑健であり、目に見えないオブジェクトインスタンスに一般化する。 我々のアプローチは問題を2つのサブタスクに分割する。 まず,入力点雲列を時空間カノニカル化対象空間にマッピングすることにより,時刻を明示的に符号化する。 この正規化を利用して、ニューラル常微分方程式と連続正規化フローを用いた動的に変化する形状の生成モデルを用いて時空間潜在表現を学習する。 本研究では, 形状再構成, カメラポーズ推定, 連続時空間配列再構成, 不規則または断続的なサンプル観察からの対応推定など, 様々な応用における本手法の有効性を実証する。

We propose CaSPR, a method to learn object-centric Canonical Spatiotemporal Point Cloud Representations of dynamically moving or evolving objects. Our goal is to enable information aggregation over time and the interrogation of object state at any spatiotemporal neighborhood in the past, observed or not. Different from previous work, CaSPR learns representations that support spacetime continuity, are robust to variable and irregularly spacetime-sampled point clouds, and generalize to unseen object instances. Our approach divides the problem into two subtasks. First, we explicitly encode time by mapping an input point cloud sequence to a spatiotemporally-canonicalized object space. We then leverage this canonicalization to learn a spatiotemporal latent representation using neural ordinary differential equations and a generative model of dynamically evolving shapes using continuous normalizing flows. We demonstrate the effectiveness of our method on several applications including shape reconstruction, camera pose estimation, continuous spatiotemporal sequence reconstruction, and correspondence estimation from irregularly or intermittently sampled observations.
翻訳日:2022-11-02 06:55:28 公開日:2020-11-11
# 糖尿病網膜症研究の基準 : セグメンテーション, グレーディング, 移植性

A Benchmark for Studying Diabetic Retinopathy: Segmentation, Grading, and Transferability ( http://arxiv.org/abs/2008.09772v3 )

ライセンス: Link先を確認
Yi Zhou, Boyang Wang, Lei Huang, Shanshan Cui and Ling Shao(参考訳) 糖尿病患者は、糖尿病網膜症(DR)と呼ばれる眼疾患を発症するリスクがある。 この疾患は、高血糖値が網膜の血管に損傷を与えるときに起こる。 コンピュータ支援型DR診断は、ディープラーニングの大きな成功により、DRと重度グレーディングを早期に検出するための有望なツールである。 しかし、現在のDR診断システムの多くは、一貫した微妙なアノテーションによるトレーニングデータがないため、眼科医にとって満足のいく性能や解釈性は得られない。 この問題に対処するため,2,842枚(FGADR)を含む細粒度アノテートDRデータセットを構築した。 このデータセットは、1,842枚の画像にピクセルレベルのdrm関連病変アノテーション、1000枚の画像と6人の眼科医による画像レベルのラベルがある。 提案したデータセットは、DR診断に関する広範な研究を可能にする。 評価のための3つのベンチマークタスクを設定しました。 DR病変セグメンテーション; DR病変セグメンテーション 2. 統合分類と区分による博士号の格付け 3. 眼のマルチディセーゼ識別のためのトランスファーラーニング さらに,第3タスクに対して新しい帰納的伝達学習手法を導入する。 今後の研究のベースラインとなるFGADRデータセットを用いて,異なる最先端手法を用いた大規模実験を行った。

People with diabetes are at risk of developing an eye disease called diabetic retinopathy (DR). This disease occurs when high blood glucose levels cause damage to blood vessels in the retina. Computer-aided DR diagnosis is a promising tool for early detection of DR and severity grading, due to the great success of deep learning. However, most current DR diagnosis systems do not achieve satisfactory performance or interpretability for ophthalmologists, due to the lack of training data with consistent and fine-grained annotations. To address this problem, we construct a large fine-grained annotated DR dataset containing 2,842 images (FGADR). This dataset has 1,842 images with pixel-level DR-related lesion annotations, and 1,000 images with image-level labels graded by six board-certified ophthalmologists with intra-rater consistency. The proposed dataset will enable extensive studies on DR diagnosis. We set up three benchmark tasks for evaluation: 1. DR lesion segmentation; 2. DR grading by joint classification and segmentation; 3. Transfer learning for ocular multi-disease identification. Moreover, a novel inductive transfer learning method is introduced for the third task. Extensive experiments using different state-of-the-art methods are conducted on our FGADR dataset, which can serve as baselines for future research.
翻訳日:2022-10-26 08:05:11 公開日:2020-11-11
# 適応的局所構造整合性に基づく異種リモートセンシング変化検出

Adaptive Local Structure Consistency based Heterogeneous Remote Sensing Change Detection ( http://arxiv.org/abs/2008.12958v2 )

ライセンス: Link先を確認
Lin Lei, Yuli Sun, Gangyao Kuang(参考訳) 不均質なリモートセンシング画像の変更検出は,自然災害による緊急状況のリモートセンシングにおいて重要かつ困難な課題である。 不均一センサの異なる撮像機構のため、画像を直接比較することは困難である。 この課題に対処するために、この文字中の異種画像間の適応的局所構造整合性(ALSC)に基づく教師なしの変更検出手法を探索し、ある画像領域における各パッチの局所構造を表す適応グラフを構築し、このグラフを他の画像領域に投影し、変化レベルを測定する。 この局所的な構造整合性は、不均一な画像が同じ基底オブジェクトに対して同じ構造情報を共有しているという事実を生かしている。 不均一データの漏洩を避けるために、グラフ投影により同じ画像領域で画素毎の変更画像を算出する。 実験結果から, ALSCに基づく変化検出手法の有効性を, 最先端手法との比較により検証した。

Change detection of heterogeneous remote sensing images is an important and challenging topic in remote sensing for emergency situation resulting from nature disaster. Due to the different imaging mechanisms of heterogeneous sensors, it is difficult to directly compare the images. To address this challenge, we explore an unsupervised change detection method based on adaptive local structure consistency (ALSC) between heterogeneous images in this letter, which constructs an adaptive graph representing the local structure for each patch in one image domain and then projects this graph to the other image domain to measure the change level. This local structure consistency exploits the fact that the heterogeneous images share the same structure information for the same ground object, which is imaging modality-invariant. To avoid the leakage of heterogeneous data, the pixelwise change image is calculated in the same image domain by graph projection. Experiment results demonstrate the effectiveness of the proposed ALSC based change detection method by comparing with some state-of-the-art methods.
翻訳日:2022-10-23 17:22:20 公開日:2020-11-11
# Brain2Word: 言語生成のための脳活動のデコード

Brain2Word: Decoding Brain Activity for Language Generation ( http://arxiv.org/abs/2009.04765v3 )

ライセンス: Link先を確認
Nicolas Affolter, Beni Egressy, Damian Pascual, Roger Wattenhofer(参考訳) 脳の活動を脳の刺激にマッピングするプロセスとして理解されている脳復号法は、ここ数年、活発な研究領域となっている。 言語刺激の場合、近年の研究では、fMRIスキャンを被験者が読んでいる単語の埋め込みにデコードできることが示されている。 しかし、そのような単語の埋め込みは脳のデコードではなく自然言語処理タスクのために設計されている。 そのため、正確な刺激を回復する能力を制限する。 本研究では,fMRIスキャンを直接分類し,対応する単語を固定語彙内にマッピングする手法を提案する。 既存の研究と異なり、これまで見られなかった被験者のスキャンで評価する。 我々は、これがより現実的な設定であり、未知の被験者からfMRIデータをデコードできるモデルを提案する。 我々のモデルは、この挑戦的なタスクにおいて5.22%のTop-1と13.59%のTop-5の精度を達成する。 さらに,このデコードされた単語を用いて,GPT-2モデルを用いて言語生成を誘導する。 このようにして、脳活動をコヒーレントテキストに変換するシステムの探求を進める。

Brain decoding, understood as the process of mapping brain activities to the stimuli that generated them, has been an active research area in the last years. In the case of language stimuli, recent studies have shown that it is possible to decode fMRI scans into an embedding of the word a subject is reading. However, such word embeddings are designed for natural language processing tasks rather than for brain decoding. Therefore, they limit our ability to recover the precise stimulus. In this work, we propose to directly classify an fMRI scan, mapping it to the corresponding word within a fixed vocabulary. Unlike existing work, we evaluate on scans from previously unseen subjects. We argue that this is a more realistic setup and we present a model that can decode fMRI data from unseen subjects. Our model achieves 5.22% Top-1 and 13.59% Top-5 accuracy in this challenging task, significantly outperforming all the considered competitive baselines. Furthermore, we use the decoded words to guide language generation with the GPT-2 model. This way, we advance the quest for a system that translates brain activities into coherent text.
翻訳日:2022-10-20 03:01:03 公開日:2020-11-11
# 付加的な敵意攻撃と防御のゲーム理論的解析

A Game Theoretic Analysis of Additive Adversarial Attacks and Defenses ( http://arxiv.org/abs/2009.06530v2 )

ライセンス: Link先を確認
Ambar Pal, Ren\'e Vidal(参考訳) 敵対的学習の研究は、攻撃が提案される攻撃者と防衛者の間の猫とマウスのゲームに続き、それらは新たな防御によって緩和され、その後、以前の防御を壊すような新たな攻撃が提案される。 しかし、より優れた攻撃や防御策が提案できない条件が存在するかどうかについては、いまだに不明である。 本稿では,均衡状態にある攻撃と防御を研究するためのゲーム理論フレームワークを提案する。 基礎となる二分法に対する局所線形決定境界モデルの下では、高速勾配法攻撃とランダム化平滑化防御がナッシュ平衡を形成することを示す。 次に、この平衡防衛が、データ生成分布から有限個のサンプルからどのように近似されるかを示し、近似の性能の一般化を導出する。

Research in adversarial learning follows a cat and mouse game between attackers and defenders where attacks are proposed, they are mitigated by new defenses, and subsequently new attacks are proposed that break earlier defenses, and so on. However, it has remained unclear as to whether there are conditions under which no better attacks or defenses can be proposed. In this paper, we propose a game-theoretic framework for studying attacks and defenses which exist in equilibrium. Under a locally linear decision boundary model for the underlying binary classifier, we prove that the Fast Gradient Method attack and the Randomized Smoothing defense form a Nash Equilibrium. We then show how this equilibrium defense can be approximated given finitely many samples from a data-generating distribution, and derive a generalization bound for the performance of our approximation.
翻訳日:2022-10-18 11:41:22 公開日:2020-11-11
# GRAC:自己ガイド型・自己調整型アクタークリティカル

GRAC: Self-Guided and Self-Regularized Actor-Critic ( http://arxiv.org/abs/2009.08973v2 )

ライセンス: Link先を確認
Lin Shao, Yifan You, Mengyuan Yan, Qingyun Sun, Jeannette Bohg(参考訳) 深層強化学習(DRL)アルゴリズムは、様々な困難な意思決定と制御タスクでうまく実証されている。 近年の深層強化学習アルゴリズムの主要な構成要素は,Q関数学習時の分岐を緩和するターゲットネットワークである。 しかし、ターゲットネットワークは機能更新の遅れにより学習プロセスを遅くすることができる。 本研究の主な貢献は,ターゲットネットワークを必要とせずに分散に対処する自己正規化TD学習手法である。 さらに,政策段階とゼロオーダー最適化を組み合わせた自己誘導型政策改善手法を提案する。 これにより、Q関数近似におけるローカルノイズに対する学習をより堅牢にし、アクターネットワークのアップデートをガイドします。 これらのコンポーネントは、新しい自己ガイド付き、自己正規化されたアクター批評家アルゴリズムであるGRACを定義する。 テスト対象のすべての環境において, OpenAI ジムタスクのスイート上で GRAC を評価する。

Deep reinforcement learning (DRL) algorithms have successfully been demonstrated on a range of challenging decision making and control tasks. One dominant component of recent deep reinforcement learning algorithms is the target network which mitigates the divergence when learning the Q function. However, target networks can slow down the learning process due to delayed function updates. Our main contribution in this work is a self-regularized TD-learning method to address divergence without requiring a target network. Additionally, we propose a self-guided policy improvement method by combining policy-gradient with zero-order optimization to search for actions associated with higher Q-values in a broad neighborhood. This makes learning more robust to local noise in the Q function approximation and guides the updates of our actor network. Taken together, these components define GRAC, a novel self-guided and self-regularized actor critic algorithm. We evaluate GRAC on the suite of OpenAI gym tasks, achieving or outperforming state of the art in every environment tested.
翻訳日:2022-10-17 02:14:56 公開日:2020-11-11
# 不確かさ推定による高精度分類のためのマルチロスサブアンサンブル

Multi-Loss Sub-Ensembles for Accurate Classification with Uncertainty Estimation ( http://arxiv.org/abs/2010.01917v2 )

ライセンス: Link先を確認
Omer Achrack, Raizy Kellerman, Ouriel Barzilay(参考訳) ディープニューラルネットワーク(DNN)は、過去10年間に多くの分野で革命を起こしてきた。 しかし、医療や自動運転といった安全要件の高いタスクでは、モデルの信頼性を評価することが不可欠である。 DNNの不確実性推定はベイズ法を用いて解決され、信頼性評価のために数学的に確立されたモデルを提供する。 これらのモデルは計算コストが高く、多くのリアルタイムユースケースでは一般的に実用的ではない。 近年,不確実性推定をより効率的に行うための非ベイズ的手法が提案されている。 高精度なDNNにおける不確実性推定手法を提案する。 単一タスク問題に対するマルチタスク学習の概念をシミュレーションし、その損失によって異なる類似モデルから並列予測を生成する。 このマルチロスアプローチは、不確実性推定を伴うシングルタスク学習のための単相学習を可能にする。 我々は,Deep-Sub-Ensembles法によって提案される利点を利用して,推定時間を比較的低く保つ。 この研究の目新しさは、計算時間の観点からの競争力を保ちながら、単純で便利なトレーニング手順で提案された正確な変分推論にある。 SVHN, CIFAR10, CIFAR100および異なるアーキテクチャを用いた画像ネットの実験を行った。 その結果,いくつかの不確実性対策における分類課題と競争結果の精度が向上した。

Deep neural networks (DNNs) have made a revolution in numerous fields during the last decade. However, in tasks with high safety requirements, such as medical or autonomous driving applications, providing an assessment of the models reliability can be vital. Uncertainty estimation for DNNs has been addressed using Bayesian methods, providing mathematically founded models for reliability assessment. These model are computationally expensive and generally impractical for many real-time use cases. Recently, non-Bayesian methods were proposed to tackle uncertainty estimation more efficiently. We propose an efficient method for uncertainty estimation in DNNs achieving high accuracy. We simulate the notion of multi-task learning on single-task problems by producing parallel predictions from similar models differing by their loss. This multi-loss approach allows one-phase training for single-task learning with uncertainty estimation. We keep our inference time relatively low by leveraging the advantage proposed by the Deep-Sub-Ensembles method. The novelty of this work resides in the proposed accurate variational inference with a simple and convenient training procedure, while remaining competitive in terms of computational time. We conduct experiments on SVHN, CIFAR10, CIFAR100 as well as Image-Net using different architectures. Our results show improved accuracy on the classification task and competitive results on several uncertainty measures.
翻訳日:2022-10-10 20:48:42 公開日:2020-11-11
# GDN: エンド・ツー・エンド6-DoFグラフ検出のための粗いフィン(C2F)表現

GDN: A Coarse-To-Fine (C2F) Representation for End-To-End 6-DoF Grasp Detection ( http://arxiv.org/abs/2010.10695v4 )

ライセンス: Link先を確認
Kuang-Yu Jeng, Yueh-Cheng Liu, Zhe Yu Liu, Jen-Wei Wang, Ya-Liang Chang, Hung-Ting Su, and Winston H. Hsu(参考訳) 本研究では,多様で高精度な6自由度把握を検出するために,新しいc2f把持表現設計と協調して,エンド・ツー・エンド把持検出ネットワークgdn(grab detection network)を提案する。 複数の把握候補をサンプリングし評価する従来の2段階アプローチと比較して、アーキテクチャは少なくとも20倍高速である。 また、シングルオブジェクトシーンにおける成功率と、散らかったシーンにおける完全な成功率の点で、8%と40%も正確である。 提案手法は,ビュー数や入力ポイントの異なる設定において,優れた結果を示す。 さらに、回転誤差と遷移誤差の両方を考慮し、検出モデルを把握するためのより包括的な評価ツールであるAPベースの新しい指標を提案する。

We proposed an end-to-end grasp detection network, Grasp Detection Network (GDN), cooperated with a novel coarse-to-fine (C2F) grasp representation design to detect diverse and accurate 6-DoF grasps based on point clouds. Compared to previous two-stage approaches which sample and evaluate multiple grasp candidates, our architecture is at least 20 times faster. It is also 8% and 40% more accurate in terms of the success rate in single object scenes and the complete rate in clutter scenes, respectively. Our method shows superior results among settings with different number of views and input points. Moreover, we propose a new AP-based metric which considers both rotation and transition errors, making it a more comprehensive evaluation tool for grasp detection models.
翻訳日:2022-10-05 00:34:42 公開日:2020-11-11
# オンラインオブザーバによる逆強化学習

Online Observer-Based Inverse Reinforcement Learning ( http://arxiv.org/abs/2011.02057v2 )

ライセンス: Link先を確認
Ryan Self, Kevin Coleman, He Bai, Rushikesh Kamalapurkar(参考訳) 本稿では,2次コスト関数を持つ線形システムに対して,IRL問題を状態推定問題としてキャストすることで,出力フィードバック逆強化学習(IRL)問題に対する新しいアプローチを開発した。 従来の状態推定を履歴スタックで再利用する新しいオブザーバ手法を含む,IRLのための2つのオブザーバベースの技術を開発した。 収束と堅牢性の理論的保証は適切な励起条件下で確立される。 ノイズフリー・ノイズフリー測定における観測器とフィルタの性能をシミュレーションにより検証した。

In this paper, a novel approach to the output-feedback inverse reinforcement learning (IRL) problem is developed by casting the IRL problem, for linear systems with quadratic cost functions, as a state estimation problem. Two observer-based techniques for IRL are developed, including a novel observer method that re-uses previous state estimates via history stacks. Theoretical guarantees for convergence and robustness are established under appropriate excitation conditions. Simulations demonstrate the performance of the developed observers and filters under noisy and noise-free measurements.
翻訳日:2022-09-30 06:28:18 公開日:2020-11-11
# 注意ビーム:画像キャプションのアプローチ

Attention Beam: An Image Captioning Approach ( http://arxiv.org/abs/2011.01753v2 )

ライセンス: Link先を確認
Anubhav Shrimal, Tanmoy Chakraborty(参考訳) 画像キャプションの目的は、所定の画像のテキスト記述を生成することである。 人間にとって簡単な作業のように見えるが、イメージ(コンピュータビジョン)を理解でき、結果として画像(自然言語理解)の人間的な記述を生成する能力を必要とするため、機械にとっては難しい。 近年,エンコーダ-デコーダアーキテクチャは画像キャプションの最先端化を実現している。 ここでは,エンコーダデコーダに基づくアーキテクチャ上にビームサーチのヒューリスティックを示し,Flickr8k,Flickr30k,MS COCOの3つのベンチマークデータセットに対して,より良い品質のキャプションを提供する。

The aim of image captioning is to generate textual description of a given image. Though seemingly an easy task for humans, it is challenging for machines as it requires the ability to comprehend the image (computer vision) and consequently generate a human-like description for the image (natural language understanding). In recent times, encoder-decoder based architectures have achieved state-of-the-art results for image captioning. Here, we present a heuristic of beam search on top of the encoder-decoder based architecture that gives better quality captions on three benchmark datasets: Flickr8k, Flickr30k and MS COCO.
翻訳日:2022-09-30 04:16:55 公開日:2020-11-11
# 容量駆動型スケールアウトニューラルレコメンデーション推論の理解

Understanding Capacity-Driven Scale-Out Neural Recommendation Inference ( http://arxiv.org/abs/2011.02084v2 )

ライセンス: Link先を確認
Michael Lui, Yavuz Yetim, \"Ozg\"ur \"Ozkan, Zhuoran Zhao, Shin-Yeh Tsai, Carole-Jean Wu, and Mark Hempstead(参考訳) ディープラーニングのレコメンデーションモデルがテラバイト規模に拡大した。 従来のサービススキーム – モデルを単一のサーバにロードする – では、このスケールはサポートできない。 このスケールをサポートする1つのアプローチは、複数のサーバにまたがる単一の大規模モデルのメモリ要求を分割する分散サービスまたは分散推論である。 この研究は、システム設計の巨大な領域を考えると、システム研究コミュニティが新しいモデル提供ソリューションを開発するための第一歩である。 大規模なディープリコメンデータシステムは、データセンターの全推論サイクルの最大79%を消費するため、新しいワークロードであり、研究に不可欠である。 そこで本研究では,データセンタサービスインフラストラクチャを使用した大規模ディープラーニング推奨推論を記述し,特徴付ける。 この研究は、他の最近の研究のスループット指向トレーニングシステムと比較して、特にレイテンシ境界推論システムを調査している。 分散推論のレイテンシと計算オーバーヘッドは、モデルが静的な埋め込みテーブル分布と入力推論要求のばらつきの結果であることがわかった。 さらに,3つのDLRMモデルによる3つの埋め込みテーブルマッピング戦略を評価し,エンドツーエンドのレイテンシ,計算オーバーヘッド,リソース効率の観点から,設計上のトレードオフを抽出した。 全体として、データセンタースケールのレコメンデーションモデルが分散推論方式で提供される場合、最良ケース構成でP99レイテンシは1%向上する。 レイテンシのオーバーヘッドは、主に使用されるコモディティインフラストラクチャと、埋め込みテーブルの幅によるものです。 さらに奨励的に、分散推論がデータセンターのレコメンデーションサービスにおける効率改善にどのように寄与するかを示す。

Deep learning recommendation models have grown to the terabyte scale. Traditional serving schemes--that load entire models to a single server--are unable to support this scale. One approach to support this scale is with distributed serving, or distributed inference, which divides the memory requirements of a single large model across multiple servers. This work is a first-step for the systems research community to develop novel model-serving solutions, given the huge system design space. Large-scale deep recommender systems are a novel workload and vital to study, as they consume up to 79% of all inference cycles in the data center. To that end, this work describes and characterizes scale-out deep learning recommendation inference using data-center serving infrastructure. This work specifically explores latency-bounded inference systems, compared to the throughput-oriented training systems of other recent works. We find that the latency and compute overheads of distributed inference are largely a result of a model's static embedding table distribution and sparsity of input inference requests. We further evaluate three embedding table mapping strategies of three DLRM-like models and specify challenging design trade-offs in terms of end-to-end latency, compute overhead, and resource efficiency. Overall, we observe only a marginal latency overhead when the data-center scale recommendation models are served with the distributed inference manner--P99 latency is increased by only 1% in the best case configuration. The latency overheads are largely a result of the commodity infrastructure used and the sparsity of embedding tables. Even more encouragingly, we also show how distributed inference can account for efficiency improvements in data-center scale recommendation serving.
翻訳日:2022-09-29 23:17:06 公開日:2020-11-11
# コンフォーメータにおける演奏者を用いた効率的なエンドツーエンド音声認識

Efficient End-to-End Speech Recognition Using Performers in Conformers ( http://arxiv.org/abs/2011.04196v2 )

ライセンス: Link先を確認
Peidong Wang, DeLiang Wang(参考訳) デバイス上のエンドツーエンド音声認識は、モデル効率に高い要求をもたらす。 ほとんどの先行作業は、モデルサイズを小さくすることで効率を向上させる。 モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。 具体的には、トランスフォーマーモジュールをパフォーマーに置き換えることで、conformerの浮動小数点演算を削減する。 提案した注目に基づく効率的なエンドツーエンド音声認識モデルは,1000万のパラメータと線形計算複雑性を持つLibriSpeechコーパス上での競合性能を実現する。 提案モデルは、従来の軽量エンド・ツー・エンドモデルの約20%のワードエラー率を上回っている。

On-device end-to-end speech recognition poses a high requirement on model efficiency. Most prior works improve the efficiency by reducing model sizes. We propose to reduce the complexity of model architectures in addition to model sizes. More specifically, we reduce the floating-point operations in conformer by replacing the transformer module with a performer. The proposed attention-based efficient end-to-end speech recognition model yields competitive performance on the LibriSpeech corpus with 10 millions of parameters and linear computation complexity. The proposed model also outperforms previous lightweight end-to-end models by about 20% relatively in word error rate.
翻訳日:2022-09-28 01:00:04 公開日:2020-11-11
# マルチモーダル・マルチタスク・マルチアテンション(m3)によるreticular pseudodrusenの深層学習 : 加齢黄斑変性の自動的・アクセス可能な分類に向けて

Multi-modal, multi-task, multi-attention (M3) deep learning detection of reticular pseudodrusen: towards automated and accessible classification of age-related macular degeneration ( http://arxiv.org/abs/2011.05142v2 )

ライセンス: Link先を確認
Qingyu Chen, Tiarnan D. L. Keenan, Alexis Allot, Yifan Peng, Elvira Agr\'on, Amitha Domalpally, Caroline C. W. Klaver, Daniel T. Luttikhuizen, Marcus H. Colyer, Catherine A. Cukras, Henry E. Wiley, M. Teresa Magone, Chantal Cousineau-Krieger, Wai T. Wong, Yingying Zhu, Emily Y. Chew, Zhiyong Lu (for the AREDS2 Deep Learning Research Group)(参考訳) 加齢に伴う黄斑変性(AMD)の重要な特徴であるRPD(Objective Reticular pseudodrusen, Objective Reticular pseudodrusen)は、標準色眼底撮影(CFP)の専門家によって検出されていない。 本研究の目的は,PD検出のための新しい「M3」深層学習フレームワークの開発と評価である。 材料と方法 M3 深層学習フレームワークは,CFP 単独,AF 単独,あるいはその両方を用いて,前向きに得られた 8000 個の CFP-FAF 画像対を用いて,PD の存在を正確に検出するために開発された(Age-Related Eye Disease Study 2)。 M3フレームワークは、マルチモーダル(単一または複数の画像モダリティからの検出)、マルチタスク(一般化性を改善するために異なるタスクを同時に訓練)、マルチアテンション(アンサンブルされた特徴表現の改善)操作を含む。 rpd検出の性能を最先端のディープラーニングモデルと13名の眼科医と比較し,他の2つのamd特徴(地形萎縮と色素異常)の検出性能も評価した。 RPD検出の結果, CFP単独の受信動作特性(AUROC) 0.832, 0.931, 0.933, FAF単独でそれぞれ達成した。 CFPのM3性能はヒト網膜専門医(F1スコア0.644対0.350)よりもかなり優れていた。 オランダのロッテルダム研究所では、CFP単独で高い精度(AUROC 0.965)を実証した。 m3フレームワークはまた、地理的萎縮と色素異常(auroc 0.909と0.912)を正確に検出し、その一般化を示した。 結論 本研究は,amd診断と予後の簡易化,正確化,自動診断を可能にする新しい深層学習フレームワークの開発,堅牢な評価,外部検証に成功したことを示す。

Objective Reticular pseudodrusen (RPD), a key feature of age-related macular degeneration (AMD), are poorly detected by human experts on standard color fundus photography (CFP) and typically require advanced imaging modalities such as fundus autofluorescence (FAF). The objective was to develop and evaluate the performance of a novel 'M3' deep learning framework on RPD detection. Materials and Methods A deep learning framework M3 was developed to detect RPD presence accurately using CFP alone, FAF alone, or both, employing >8000 CFP-FAF image pairs obtained prospectively (Age-Related Eye Disease Study 2). The M3 framework includes multi-modal (detection from single or multiple image modalities), multi-task (training different tasks simultaneously to improve generalizability), and multi-attention (improving ensembled feature representation) operation. Performance on RPD detection was compared with state-of-the-art deep learning models and 13 ophthalmologists; performance on detection of two other AMD features (geographic atrophy and pigmentary abnormalities) was also evaluated. Results For RPD detection, M3 achieved area under receiver operating characteristic (AUROC) 0.832, 0.931, and 0.933 for CFP alone, FAF alone, and both, respectively. M3 performance on CFP was very substantially superior to human retinal specialists (median F1-score 0.644 versus 0.350). External validation (on Rotterdam Study, Netherlands) demonstrated high accuracy on CFP alone (AUROC 0.965). The M3 framework also accurately detected geographic atrophy and pigmentary abnormalities (AUROC 0.909 and 0.912, respectively), demonstrating its generalizability. Conclusion This study demonstrates the successful development, robust evaluation, and external validation of a novel deep learning framework that enables accessible, accurate, and automated AMD diagnosis and prognosis.
翻訳日:2022-09-27 23:57:38 公開日:2020-11-11
# タトゥートモグラフィー:光学パターンを用いた自由手指3次元光音響画像再構成

Tattoo tomography: Freehand 3D photoacoustic image reconstruction with an optical pattern ( http://arxiv.org/abs/2011.04997v2 )

ライセンス: Link先を確認
Niklas Holzwarth, Melanie Schellenberg, Janek Gr\"ohl, Kris Dreher, Jan-Hinrich N\"olke, Alexander Seitel, Minu D. Tizabi, Beat P. M\"uller-Stich, Lena Maier-Hein(参考訳) 目的:光音響トモグラフィ(PAT)は血管のトポロジーや組織酸素化といった形態的および機能的な組織特性を空間的に解決できる新しいイメージング技術である。 この能力により、PATは様々な疾患の診断、治療、追跡に有望なモダリティとなるが、現在の欠点は、従来の2Dプローブによって提供される限定視野(FoV)である。 方法:本稿では,外部追跡システムを必要としない臨床ワークフローにスムーズに統合可能なpatデータ(tattoo tomography)の3次元再構成法を提案する。 これは、画像取得前に関心領域に配置された光学パターンに基づいている。 このパターンは、トモグラフィ画像により、パターンの座標系に対するプローブポーズの回復を可能にするように設計されている。 これにより、取得したPA画像のシーケンスを1つの共通グローバル座標系に変換し、PAT画像データの一貫した3次元再構成を可能にする。 結果: 実験ファントムデータと生体内前腕データを用いて行った最初の実現可能性調査では, タトゥー法は, 高精度かつ高精度なPATデータの3次元再構成に適していることが示された。 結論:従来の3D超音波(US)やPAT再構成のアプローチとは対照的に,Tattooアプローチでは複雑な外部ハードウェアや特定のアプリケーションで取得したトレーニングデータを必要としない。 したがって、これは臨床フリーハンドPATにとって貴重なツールとなる可能性がある。

Purpose: Photoacoustic tomography (PAT) is a novel imaging technique that can spatially resolve both morphological and functional tissue properties, such as the vessel topology and tissue oxygenation. While this capacity makes PAT a promising modality for the diagnosis, treatment and follow-up of various diseases, a current drawback is the limited field-of-view (FoV) provided by the conventionally applied 2D probes. Methods: In this paper, we present a novel approach to 3D reconstruction of PAT data (Tattoo tomography) that does not require an external tracking system and can smoothly be integrated into clinical workflows. It is based on an optical pattern placed on the region of interest prior to image acquisition. This pattern is designed in a way that a tomographic image of it enables the recovery of the probe pose relative to the coordinate system of the pattern. This allows the transformation of a sequence of acquired PA images into one common global coordinate system and thus the consistent 3D reconstruction of PAT imaging data. Results: An initial feasibility study conducted with experimental phantom data and in vivo forearm data indicates that the Tattoo approach is well-suited for 3D reconstruction of PAT data with high accuracy and precision. Conclusion: In contrast to previous approaches to 3D ultrasound (US) or PAT reconstruction, the Tattoo approach neither requires complex external hardware nor training data acquired for a specific application. It could thus become a valuable tool for clinical freehand PAT.
翻訳日:2022-09-27 08:33:05 公開日:2020-11-11
# 画像分類のための暗号化機械学習ソリューションの体系的比較

A Systematic Comparison of Encrypted Machine Learning Solutions for Image Classification ( http://arxiv.org/abs/2011.05296v2 )

ライセンス: Link先を確認
Veneta Haralampieva and Daniel Rueckert and Jonathan Passerat-Palmbach(参考訳) この研究は、プライベート画像分類の文脈におけるセキュアコンピューティング技術に基づく既存のフレームワークの包括的なレビューを提供する。 これらのアプローチの詳細な分析に続いて、パフォーマンスコスト、特にランタイムと通信オーバーヘッドを慎重に検討する。 データサイエンススタックの中心にセキュアなコンピューティングを実装する4つの最先端ライブラリ、pysyftとcryptenを使って、セキュアなマルチパーティ計算によるプライベート推論をサポートするpysyftとcrypten、信頼された実行環境を利用するtf-trusted、準同型暗号化に依存するhe-transformerを用いた実験を行った。 私たちの研究は、これらのフレームワークのユーザビリティ、ランタイム要件、精度の観点から、適合性を評価することを目的としています。 最先端のプロトコルとデータサイエンティストが実際に利用できるものとのギャップをよりよく理解するために、前述の4つのフレームワークからセキュアな予測を得るために、3つのニューラルネットワークアーキテクチャを設計しました。 MNISTデータセットとMalaria Cellイメージデータセットで2つのネットワークを評価した。 TF-Trusted と CrypTen の満足度を観測し,全てのフレームワークが対応する平文モデルの精度を完全に保存していることを確認した。

This work provides a comprehensive review of existing frameworks based on secure computing techniques in the context of private image classification. The in-depth analysis of these approaches is followed by careful examination of their performance costs, in particular runtime and communication overhead. To further illustrate the practical considerations when using different privacy-preserving technologies, experiments were conducted using four state-of-the-art libraries implementing secure computing at the heart of the data science stack: PySyft and CrypTen supporting private inference via Secure Multi-Party Computation, TF-Trusted utilising Trusted Execution Environments and HE- Transformer relying on Homomorphic encryption. Our work aims to evaluate the suitability of these frameworks from a usability, runtime requirements and accuracy point of view. In order to better understand the gap between state-of-the-art protocols and what is currently available in practice for a data scientist, we designed three neural network architecture to obtain secure predictions via each of the four aforementioned frameworks. Two networks were evaluated on the MNIST dataset and one on the Malaria Cell image dataset. We observed satisfying performances for TF-Trusted and CrypTen and noted that all frameworks perfectly preserved the accuracy of the corresponding plaintext model.
翻訳日:2022-09-27 08:24:16 公開日:2020-11-11
# スパース最適化によるニューラルネットワーク圧縮

Neural Network Compression Via Sparse Optimization ( http://arxiv.org/abs/2011.04868v2 )

ライセンス: Link先を確認
Tianyi Chen, Bo Ji, Yixin Shi, Tianyu Ding, Biyi Fang, Sheng Yi, Xiao Tu(参考訳) 推論コストを削減するためのディープニューラルネットワーク(DNN)の圧縮は、さまざまなアプリケーションの現実的なデプロイメント要件を満たすためにますます重要になる。 ネットワーク圧縮に関して、かなりの作業が行われてきたが、そのほとんどはヒューリスティックなルールベースか、あるいは一般的にさまざまなシナリオに組み込むのが好ましくない。 一方、スパース解を出力するスパース最適化は自然に圧縮条件に適合するが、確率的学習におけるスパース最適化の限られた研究のため、モデル圧縮への拡張と応用はまれである。 本研究では,スパース確率最適化の最近の進歩に基づくモデル圧縮フレームワークを提案する。 既存のモデル圧縮技術と比較して,本手法は有効であり,様々なアプリケーションに組み込むための余分なエンジニアリング作業は少なく,ベンチマーク圧縮タスクで数値的に実証されている。 特に,CIFAR10 の VGG16 と ImageNet の ResNet50 について,ベースライン重モデルと比較してそれぞれ同じ評価精度で最大 7.2 と 2.9 の FLOP 削減を実現した。

The compression of deep neural networks (DNNs) to reduce inference cost becomes increasingly important to meet realistic deployment requirements of various applications. There have been a significant amount of work regarding network compression, while most of them are heuristic rule-based or typically not friendly to be incorporated into varying scenarios. On the other hand, sparse optimization yielding sparse solutions naturally fits the compression requirement, but due to the limited study of sparse optimization in stochastic learning, its extension and application onto model compression is rarely well explored. In this work, we propose a model compression framework based on the recent progress on sparse stochastic optimization. Compared to existing model compression techniques, our method is effective and requires fewer extra engineering efforts to incorporate with varying applications, and has been numerically demonstrated on benchmark compression tasks. Particularly, we achieve up to 7.2 and 2.9 times FLOPs reduction with the same level of evaluation accuracy on VGG16 for CIFAR10 and ResNet50 for ImageNet compared to the baseline heavy models, respectively.
翻訳日:2022-09-27 07:15:32 公開日:2020-11-11
# ニューラルインクリメンタルASR, MT, TTSを用いた同時音声音声合成システム

Simultaneous Speech-to-Speech Translation System with Neural Incremental ASR, MT, and TTS ( http://arxiv.org/abs/2011.04845v2 )

ライセンス: Link先を確認
Katsuhito Sudoh, Takatomo Kano, Sashi Novitasari, Tomoya Yanagita, Sakriani Sakti, Satoshi Nakamura(参考訳) 本稿では,ニューラル音声と音声の同時翻訳システムとその評価について述べる。 このシステムは、自動音声認識(ASR)、機械翻訳(MT)、音声合成(TTS)の3つの完全インクリメンタルニューラルネットワークモジュールで構成されている。 システムのEar-Voice Spanにおける全体的なレイテンシと,モジュールレベルのパフォーマンスについて検討した。

This paper presents a newly developed, simultaneous neural speech-to-speech translation system and its evaluation. The system consists of three fully-incremental neural processing modules for automatic speech recognition (ASR), machine translation (MT), and text-to-speech synthesis (TTS). We investigated its overall latency in the system's Ear-Voice Span and speaking latency along with module-level performance.
翻訳日:2022-09-27 07:12:44 公開日:2020-11-11
# Sketch and Scale: 地理的に分散したtSNEとUMAP

Sketch and Scale: Geo-distributed tSNE and UMAP ( http://arxiv.org/abs/2011.06103v1 )

ライセンス: Link先を確認
Viska Wei, Nikita Ivkin, Vladimir Braverman, Alexander Szalay(参考訳) 地理的に分散したデータセット上で機械学習分析を実行することは、プライバシとデータセキュリティを保証するデータ管理ポリシの世界において急速に発生する問題である。 t-distributed Stochastic Neighbor Embedding (tSNE) やUniform Manifold Approximation and Projection (UMAP) といったツールを用いた高次元データの可視化がデータ科学者にとって一般的となった。 どちらのツールも、時間とメモリが貧弱です。 最近の最適化では1万のデータポイントの処理が成功したが、数百万ポイントを超えるスケーリングは依然として難しい。 我々はSketch and Scale(SnS)という新しいフレームワークを紹介します。 これはCount Sketchデータ構造を利用して、エッジノード上のデータを圧縮し、マスターノード上の縮小サイズスケッチを集約し、集約されたスケッチから抽出された最も密集した領域を表す要約上でバニラtSNEまたはUMAPを実行する。 我々は、この技術が完全に並列で、線形に時間にスケールし、メモリに対数的に分散し、通信し、世界中の複数のデータセンターにまたがる数百万、数十億のデータポイントでデータセットを解析できることを示す。 Sloan Digital Sky Survey (SDSS) から, 腫瘍生検の複数の画像から5200万35バンド画素の癌データと, 1億個の星の天体物理学データと多色光度データを用いて, この手法の有効性を実証した。

Running machine learning analytics over geographically distributed datasets is a rapidly arising problem in the world of data management policies ensuring privacy and data security. Visualizing high dimensional data using tools such as t-distributed Stochastic Neighbor Embedding (tSNE) and Uniform Manifold Approximation and Projection (UMAP) became common practice for data scientists. Both tools scale poorly in time and memory. While recent optimizations showed successful handling of 10,000 data points, scaling beyond million points is still challenging. We introduce a novel framework: Sketch and Scale (SnS). It leverages a Count Sketch data structure to compress the data on the edge nodes, aggregates the reduced size sketches on the master node, and runs vanilla tSNE or UMAP on the summary, representing the densest areas, extracted from the aggregated sketch. We show this technique to be fully parallel, scale linearly in time, logarithmically in memory, and communication, making it possible to analyze datasets with many millions, potentially billions of data points, spread across several data centers around the globe. We demonstrate the power of our method on two mid-size datasets: cancer data with 52 million 35-band pixels from multiple images of tumor biopsies; and astrophysics data of 100 million stars with multi-color photometry from the Sloan Digital Sky Survey (SDSS).
翻訳日:2022-09-27 01:13:40 公開日:2020-11-11
# 暴力犯罪の慢性的・一時的ホットスポットの調査:制御フィールド実験

Policing Chronic and Temporary Hot Spots of Violent Crime: A Controlled Field Experiment ( http://arxiv.org/abs/2011.06019v1 )

ライセンス: Link先を確認
Dylan J. Fitzpatrick (1), Wilpen L. Gorr (2), Daniel B. Neill (3) ((1) University of Chicago, (2) Carnegie Mellon University, (3) New York University)(参考訳) ホットスポットをベースとした警察プログラムは、犯罪の防止を目的としている。 多くのホットスポットプログラムは、慢性的なホットスポットの特定が容易であるが、犯罪防止のための有効性と公平な目標に対処するための一時的なホットスポット予測モデルを導入し、ピッツバーグの深刻な暴力犯罪を防ぐためのホットスポット予測の適用性を評価するクロスオーバー実験の結果を紹介する。 ピッツバーグ警察は12ヶ月の試験期間を通じて、市域の0.5パーセントを占める重大犯罪の慢性的および一時的なホットスポットを毎週予測するパトロール警官を配置した。 我々は、FBIが分類したP1V(Part 1 Violent)犯罪の殺人、強姦、強盗、加重暴行の総量25.3%、およびP1V犯罪のアフリカ系アメリカ人およびその他の非白人被害者の39.7%の減額により、治療ホットスポット内の重大暴力犯罪件数の統計学的かつ実質的に相当の減少を見出した。 一時的なホットスポットはパトロールの空間的分散を増加させ、p1vの犯罪を慢性ホットスポットよりも減少させるが、犯罪の総数は減少する。 自動車パトロールではなく足のパトロールのみが、ホットスポットで統計的に重要な犯罪を減らした。 犯罪発生の証拠は見つからないが, 近隣地域では, 統計的に重大な犯罪防止効果の流出がみられた。 また,地域中心のホットスポットパトロールが少数民族や他の住民の過度な逮捕を生んだという証拠は見つからない。

Hot-spot-based policing programs aim to deter crime through increased proactive patrols at high-crime locations. While most hot spot programs target easily identified chronic hot spots, we introduce models for predicting temporary hot spots to address effectiveness and equity objectives for crime prevention, and present findings from a crossover experiment evaluating application of hot spot predictions to prevent serious violent crime in Pittsburgh, PA. Over a 12-month experimental period, the Pittsburgh Bureau of Police assigned uniformed patrol officers to weekly predicted chronic and temporary hot spots of serious violent crimes comprising 0.5 percent of the city's area. We find statistically and practically significant reductions in serious violent crime counts within treatment hot spots as compared to control hot spots, with an overall reduction of 25.3 percent in the FBI-classified Part 1 Violent (P1V) crimes of homicide, rape, robbery, and aggravated assault, and a 39.7 percent reduction of African-American and other non-white victims of P1V crimes. We find that temporary hot spots increase spatial dispersion of patrols and have a greater percentage reduction in P1V crimes than chronic hot spots but fewer total number of crimes prevented. Only foot patrols, not car patrols, had statistically significant crime reductions in hot spots. We find no evidence of crime displacement; instead, we find weakly statistically significant spillover of crime prevention benefits to adjacent areas. In addition, we find no evidence that the community-oriented hot spot patrols produced over-policing arrests of minority or other populations.
翻訳日:2022-09-27 01:11:41 公開日:2020-11-11
# ローバーナビゲーション改善のための機械学習による経路計画(プレプリント版)

Machine Learning Based Path Planning for Improved Rover Navigation (Pre-Print Version) ( http://arxiv.org/abs/2011.06022v1 )

ライセンス: Link先を確認
Neil Abcouwer and Shreyansh Daftry and Siddarth Venkatraman and Tyler del Sesto and Olivier Toupet and Ravi Lanka and Jialin Song and Yisong Yue and Masahiro Ono(参考訳) NASAのPerseveranceローバーのベースラインサーフェスナビゲーションソフトウェアであるEnhanced AutoNav (ENav) は、ローバーが走行するための候補パスのリストをソートし、次に、最も高いランクのパスが安全かどうかを評価するために、アポキシマクリアランスアセスメント(ACE)アルゴリズムを使用する。 ACEはローバーの安全性を維持するために重要であるが、計算上は高価である。 パスリストの最も有望な候補がすべて無効であることが判明した場合、ENavはリストを検索し、実行可能なパスが見つかるまでACE評価を実行し続けなければなりません。 本稿では,ローバー周辺の地形分布を推定し,より効果的にACE評価前の候補経路をランク付けするコスト推定を行う2つのヒューリスティックスを提案する。 最初のヒューリスティックはソベル作用素と畳み込みを使って高勾配地形を横断するコストを組み込んだものである。 第2のヒューリスティックは、機械学習(ML)モデルを使用して、ACEによって不可避と見なされる領域を予測する。 我々は物理シミュレーションを用いてMLモデルのトレーニングデータを収集し、モンテカルロ試験を行い、様々な斜面や岩盤分布を持つ様々な地形におけるナビゲーション性能の定量化を行った。 ENavのベースライン性能と比較すると、ヒューリスティックスの統合はACE評価の大幅な削減と計画サイクル毎の平均計算時間を短縮し、経路効率を向上し、成功したトラバースの速度を維持または改善する。 オリジナルのACE安全性チェックを維持しながら、特定のボトルネックをMLでターゲットとするこの戦略は、惑星科学ミッションやその他の安全クリティカルなソフトウェアにMLを注入する方法の例を提供する。

Enhanced AutoNav (ENav), the baseline surface navigation software for NASA's Perseverance rover, sorts a list of candidate paths for the rover to traverse, then uses the Approximate Clearance Evaluation (ACE) algorithm to evaluate whether the most highly ranked paths are safe. ACE is crucial for maintaining the safety of the rover, but is computationally expensive. If the most promising candidates in the list of paths are all found to be infeasible, ENav must continue to search the list and run time-consuming ACE evaluations until a feasible path is found. In this paper, we present two heuristics that, given a terrain heightmap around the rover, produce cost estimates that more effectively rank the candidate paths before ACE evaluation. The first heuristic uses Sobel operators and convolution to incorporate the cost of traversing high-gradient terrain. The second heuristic uses a machine learning (ML) model to predict areas that will be deemed untraversable by ACE. We used physics simulations to collect training data for the ML model and to run Monte Carlo trials to quantify navigation performance across a variety of terrains with various slopes and rock distributions. Compared to ENav's baseline performance, integrating the heuristics can lead to a significant reduction in ACE evaluations and average computation time per planning cycle, increase path efficiency, and maintain or improve the rate of successful traverses. This strategy of targeting specific bottlenecks with ML while maintaining the original ACE safety checks provides an example of how ML can be infused into planetary science missions and other safety-critical software.
翻訳日:2022-09-27 01:11:08 公開日:2020-11-11
# FS-HGR:筋電図による手指ジェスチャー認識のためのFew-shot Learning

FS-HGR: Few-shot Learning for Hand Gesture Recognition via ElectroMyography ( http://arxiv.org/abs/2011.06104v1 )

ライセンス: Link先を確認
Elahe Rahimian, Soheil Zabihi, Amir Asif, Dario Farina, Seyed Farokh Atashzar, and Arash Mohammadi(参考訳) この研究は、Deep Neural Networks(DNN)の最近の進歩と、人間と機械のインターフェイスに広く応用されていることによる。 DNNは、最近、表面筋電図(sEMG)信号の処理により、意図した手の動きを検出するために使用されている。 これらのアプローチの最終的な目標は、補綴用高性能コントローラを実現することである。 しかし、DNNはトレーニング用に大量のデータを利用できる従来の方法よりも精度が優れているが、データを制限すると性能が大幅に低下する。 大規模なデータセットをトレーニングのために収集することは、研究所で実現可能だが、現実の応用には実用的ではない。 したがって、精度を高めつつ、最小限のトレーニングデータに依存する現代的なジェスチャー検出技術の設計は、不当に必要である。 本稿では,FS-HGRと呼ばれるメタラーニングの定式化に基づく,革新的で斬新な"Few-Shot Learning"フレームワークを提案する。 Few-shot Learningはドメイン適応の変種であり、必要な出力を1つまたは数個のトレーニング例に基づいて推測することを目的としている。 より具体的には、提案されたFS-HGRは、各クラスからのごくわずかな例を見てすぐに一般化する。 提案手法は,5-way 5-shot(5-way 5-shot(5-way 5-shot))と81.29%(5-way 5-shot(5-way 5-shot))、73.36%(5-way 5-shot(5-way 5-shot))である。

This work is motivated by the recent advances in Deep Neural Networks (DNNs) and their widespread applications in human-machine interfaces. DNNs have been recently used for detecting the intended hand gesture through processing of surface electromyogram (sEMG) signals. The ultimate goal of these approaches is to realize high-performance controllers for prosthetic. However, although DNNs have shown superior accuracy than conventional methods when large amounts of data are available for training, their performance substantially decreases when data are limited. Collecting large datasets for training may be feasible in research laboratories, but it is not a practical approach for real-life applications. Therefore, there is an unmet need for the design of a modern gesture detection technique that relies on minimal training data while providing high accuracy. Here we propose an innovative and novel "Few-Shot Learning" framework based on the formulation of meta-learning, referred to as the FS-HGR, to address this need. Few-shot learning is a variant of domain adaptation with the goal of inferring the required output based on just one or a few training examples. More specifically, the proposed FS-HGR quickly generalizes after seeing very few examples from each class. The proposed approach led to 85.94% classification accuracy on new repetitions with few-shot observation (5-way 5-shot), 81.29% accuracy on new subjects with few-shot observation (5-way 5-shot), and 73.36% accuracy on new gestures with few-shot observation (5-way 5-shot).
翻訳日:2022-09-27 01:10:16 公開日:2020-11-11
# 心不整脈の深層学習分類法

A deep-learning classifier for cardiac arrhythmias ( http://arxiv.org/abs/2011.05471v1 )

ライセンス: Link先を確認
Carla Sofia Carvalho(参考訳) 心臓不整脈を含む13種類の心臓の拍動を分類する手法について報告する。 この方法は、qrsピーク複合体を局在させて各心拍数を定義し、ニューラルネットワークを用いて各心拍クラスのパターン特性を推定する。 最適なニューラルネットワークは、6つの1次元畳み込み層と4つの密集層を含み、カーネルサイズは問題の特徴的なスケールの倍数であり、計算速度と物理的に動機づけられたニューラルネットワークとなる。 同じ数のheart beatクラスの場合、このメソッドは、以前公開されたメソッドよりもかなり小さなニューラルネットワークでより良い結果を得ることができます。

We report on a method that classifies heart beats according to a set of 13 classes, including cardiac arrhythmias. The method localises the QRS peak complex to define each heart beat and uses a neural network to infer the patterns characteristic of each heart beat class. The best performing neural network contains six one-dimensional convolutional layers and four dense layers, with the kernel sizes being multiples of the characteristic scale of the problem, thus resulting a computationally fast and physically motivated neural network. For the same number of heart beat classes, our method yields better results with a considerably smaller neural network than previously published methods, which renders our method competitive for deployment in an internet-of-things solution.
翻訳日:2022-09-27 01:09:25 公開日:2020-11-11
# 自己教師型トランスファー学習を用いた少ないデータによる感情認識

Recognizing More Emotions with Less Data Using Self-supervised Transfer Learning ( http://arxiv.org/abs/2011.05585v1 )

ライセンス: Link先を確認
Jonathan Boigne, Biman Liyanage, Ted \"Ostrem(参考訳) 学習データが少ない場合に有望な結果が得られる音声感情認識のための新しい転送学習法を提案する。 感情クラス毎の125例という低さで、8倍以上のデータでトレーニングされた強力なベースラインよりも高い精度を実現できたのです。 提案手法は,wav2vecモデルのような人間のアノテーションを必要としない,より汎用的な自己教師型タスクで訓練されたモデルから抽出された事前訓練された音声表現に含まれる知識を活用する。 私たちは、トレーニングデータサイズを変更することで、このアプローチのメリットに関する詳細な洞察を提供し、チームのラベリングをより効率的にする上で役立ちます。 音声感情認識(SER)研究コミュニティの中で,よく知られたデータセットであるIEMOCAPデータセットの他の一般的な手法との比較を行った。 さらに,伝達学習の音響知識と言語知識を組み合わせることで,結果を大幅に改善できることを示す。 我々は、アコースティック・プレトレーニングされた表現とBERTモデルからのセマンティックな表現とを、注意に基づくリカレントニューラルネットワークを通して一致させる。 モダリティとスケールをデータ量と組み合わせることで、パフォーマンスが大幅に向上する。 完全なIEMOCAPデータセットでトレーニングすると、73.9%の非重み付き精度(UA)の新しい最先端に達する。

We propose a novel transfer learning method for speech emotion recognition allowing us to obtain promising results when only few training data is available. With as low as 125 examples per emotion class, we were able to reach a higher accuracy than a strong baseline trained on 8 times more data. Our method leverages knowledge contained in pre-trained speech representations extracted from models trained on a more general self-supervised task which doesn't require human annotations, such as the wav2vec model. We provide detailed insights on the benefits of our approach by varying the training data size, which can help labeling teams to work more efficiently. We compare performance with other popular methods on the IEMOCAP dataset, a well-benchmarked dataset among the Speech Emotion Recognition (SER) research community. Furthermore, we demonstrate that results can be greatly improved by combining acoustic and linguistic knowledge from transfer learning. We align acoustic pre-trained representations with semantic representations from the BERT model through an attention-based recurrent neural network. Performance improves significantly when combining both modalities and scales with the amount of data. When trained on the full IEMOCAP dataset, we reach a new state-of-the-art of 73.9% unweighted accuracy (UA).
翻訳日:2022-09-27 01:08:54 公開日:2020-11-11
# フルデータ学習による音声強調のためのDeep Time Delay Neural Network

Deep Time Delay Neural Network for Speech Enhancement with Full Data Learning ( http://arxiv.org/abs/2011.05591v1 )

ライセンス: Link先を確認
Cunhang Fan, Bin Liu, Jianhua Tao, Jiangyan Yi, Zhengqi Wen, Leichao Song(参考訳) リカレントニューラルネットワーク(RNN)は近年,音声強調のために大幅に改善されている。 しかしながら、RNNのモデル複雑性と推論時間コストは、ディープフィードフォワードニューラルネットワーク(DNN)よりもはるかに高い。 これにより、音声強調の応用が制限される。 本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。 TDNNは、モジュール的でインクリメンタルな設計である、長期の時間的コンテキストをキャプチャする優れた可能性を秘めている。 さらに、TDNNはフィードフォワード構造を保持し、その推論コストは標準のDNNに匹敵する。 トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。 より具体的には、拡張されたモデルをトレーニングするためにノイズ・トゥ・クリーン(インプット・トゥ・ターゲット)を使用するだけでなく、クリーン・トゥ・クリーン・ノイズ・トゥ・サイレンスデータも使用します。 したがって、トレーニングデータはすべて、強化モデルのトレーニングに使用することができる。 TIMITデータセットを用いて実験を行った。 実験の結果,提案手法はDNNよりも優れた性能を示し,BLSTMよりも優れた性能が得られることがわかった。 一方,BLSTMと比較して,提案手法は推定時間を劇的に短縮する。

Recurrent neural networks (RNNs) have shown significant improvements in recent years for speech enhancement. However, the model complexity and inference time cost of RNNs are much higher than deep feed-forward neural networks (DNNs). Therefore, these limit the applications of speech enhancement. This paper proposes a deep time delay neural network (TDNN) for speech enhancement with full data learning. The TDNN has excellent potential for capturing long range temporal contexts, which utilizes a modular and incremental design. Besides, the TDNN preserves the feed-forward structure so that its inference cost is comparable to standard DNN. To make full use of the training data, we propose a full data learning method for speech enhancement. More specifically, we not only use the noisy-to-clean (input-to-target) to train the enhanced model, but also the clean-to-clean and noise-to-silence data. Therefore, all of the training data can be used to train the enhanced model. Our experiments are conducted on TIMIT dataset. Experimental results show that our proposed method could achieve a better performance than DNN and comparable even better performance than BLSTM. Meanwhile, compared with the BLSTM, the proposed method drastically reduce the inference time.
翻訳日:2022-09-27 01:08:35 公開日:2020-11-11
# フェデレーション学習に基づく新しいプライバシ保護型レコメンダシステムフレームワーク

A Novel Privacy-Preserved Recommender System Framework based on Federated Learning ( http://arxiv.org/abs/2011.05614v1 )

ライセンス: Link先を確認
Jiangcheng Qin, Baisong Liu(参考訳) Recommender System (RS) は現在、情報過負荷を解決する効果的な方法である。 ユーザの次のクリック行動を満たすためには,ユーザの個人情報や行動を収集し,包括的で深いユーザの嗜好認識を実現する必要がある。 しかし、これらの集中的に収集されたデータはプライバシーに敏感であり、漏洩はユーザーとサービスプロバイダー双方に深刻な問題を引き起こす可能性がある。 本稿では,ユーザのプライベートデータを集中的に収集することなく,推薦アルゴリズムのトレーニングと推論を可能にするために,フェデレーション学習パラダイムの適用を通じて,新たなプライバシ保護型レコメンデータシステムフレームワーク(PPRSF)を提案する。 pprsfは、プライバシー漏洩リスクを低減できるだけでなく、法的および規制上の要件を満たすだけでなく、様々な推奨アルゴリズムを適用することができる。

Recommender System (RS) is currently an effective way to solve information overload. To meet users' next click behavior, RS needs to collect users' personal information and behavior to achieve a comprehensive and profound user preference perception. However, these centrally collected data are privacy-sensitive, and any leakage may cause severe problems to both users and service providers. This paper proposed a novel privacy-preserved recommender system framework (PPRSF), through the application of federated learning paradigm, to enable the recommendation algorithm to be trained and carry out inference without centrally collecting users' private data. The PPRSF not only able to reduces the privacy leakage risk, satisfies legal and regulatory requirements but also allows various recommendation algorithms to be applied.
翻訳日:2022-09-27 01:01:55 公開日:2020-11-11
# ストレートスルー勾配を用いたエンドツーエンド音声認識のための効率的なニューラルアーキテクチャ探索

Efficient Neural Architecture Search for End-to-end Speech Recognition via Straight-Through Gradients ( http://arxiv.org/abs/2011.05649v1 )

ライセンス: Link先を確認
Huahuan Zheng, Keyu An, Zhijian Ou(参考訳) アーキテクチャエンジニアリングを自動化するプロセスであるNeural Architecture Search(NAS)は、専門家が設計したネットワークを学習したタスク固有のアーキテクチャに置き換え、エンドツーエンドの自動音声認識(ASR)を進めるための魅力的な次のステップである。 初期の計算要求NAS法とは対照的に、DARTS (Differentiable ARchiTecture Search)、SNAS (Stochastic NAS)、ProxylessNASといった最近の勾配に基づくNAS法はNAS効率を大幅に改善している。 本稿では,二つの貢献を述べる。 まず,ST-NASと呼ばれるStraight-Through(ST)勾配を用いた効率的なNAS法を開発した。 基本的にst-nasはsnasからの損失を使うが、stを使って離散変数を通じて勾配をバックプロパゲートし、損失を最適化する。 サブグラフサンプリングをサポートするためにST勾配を用いることは、DARTSやSNASを超える効率的なNASを実現するための中核要素である。 次に,ST-NASをエンドツーエンドASRに適用する。 広くベンチマークされた80時間のWSJと300時間のSwitchboardデータセットに対する実験は、ST-NASによって誘導されるアーキテクチャが、2つのデータセットで設計されたアーキテクチャを大幅に上回っていることを示している。 また,ST-NASのアーキテクチャ伝達性やメモリおよび時間における計算コストの低減といった強度についても報告する。

Neural Architecture Search (NAS), the process of automating architecture engineering, is an appealing next step to advancing end-to-end Automatic Speech Recognition (ASR), replacing expert-designed networks with learned, task-specific architectures. In contrast to early computational-demanding NAS methods, recent gradient-based NAS methods, e.g., DARTS (Differentiable ARchiTecture Search), SNAS (Stochastic NAS) and ProxylessNAS, significantly improve the NAS efficiency. In this paper, we make two contributions. First, we rigorously develop an efficient NAS method via Straight-Through (ST) gradients, called ST-NAS. Basically, ST-NAS uses the loss from SNAS but uses ST to back-propagate gradients through discrete variables to optimize the loss, which is not revealed in ProxylessNAS. Using ST gradients to support sub-graph sampling is a core element to achieve efficient NAS beyond DARTS and SNAS. Second, we successfully apply ST-NAS to end-to-end ASR. Experiments over the widely benchmarked 80-hour WSJ and 300-hour Switchboard datasets show that the ST-NAS induced architectures significantly outperform the human-designed architecture across the two datasets. Strengths of ST-NAS such as architecture transferability and low computation cost in memory and time are also reported.
翻訳日:2022-09-27 01:01:41 公開日:2020-11-11
# エッジ中心ネットワーク埋め込みに向けて

Toward Edge-Centric Network Embeddings ( http://arxiv.org/abs/2011.05650v1 )

ライセンス: Link先を確認
Giuseppe Pirr\`o(参考訳) 既存のネットワーク埋め込みアプローチは、低次元ノード表現の学習の問題に取り組む。 しかし、ネットワークは一対のノードをつなぐエッジの光でも見ることができる。 本論文の目的は,エッジ中心のネットワーク埋め込みの導入である。 本稿では,ノード埋め込みを直接計算する代わりに,線グラフとエッジ重み付け機構を結合した線グラフの概念を用いてエッジ埋め込みを計算し,線グラフの元のグラフのダイナミクスを保存するECNEという手法を提案する。 対象リンク(u,v)がまずノード u と v の間の経路を収集し、その経路に直接エッジを埋め込み、最終的にリンクの存在を予測するためにそれらを集約する、ECNE-LP と呼ばれるリンク予測フレームワークを提案する。 我々はECNEとECNE-LPの両方が、最先端技術に利益をもたらすことを示す。

Existing network embedding approaches tackle the problem of learning low-dimensional node representations. However, networks can also be seen in the light of edges interlinking pairs of nodes. The broad goal of this paper is to introduce edge-centric network embeddings. We present an approach called ECNE, which instead of computing node embeddings directly, computes edge embeddings by relying on the notion of line graph coupled with an edge weighting mechanism to preserve the dynamic of the original graph in the line graph. We also present a link prediction framework called ECNE-LP, which given a target link (u,v) first collects paths between nodes u and v, then directly embeds the edges in these paths, and finally aggregates them toward predicting the existence of a link. We show that both ECNE and ECNE-LP bring benefit wrt the state-of-the-art.
翻訳日:2022-09-27 01:01:14 公開日:2020-11-11
# 電気的加熱分解のベイズモデル

Bayesian model of electrical heating disaggregation ( http://arxiv.org/abs/2011.05674v1 )

ライセンス: Link先を確認
Fran\c{c}ois Culi\`ere, Laetitia Leduc and Alexander Belikov(参考訳) スマートメーターの採用は、ヨーロッパのスマートエネルギーへの移行における大きなマイルストーンである。 フランスの住宅セクターは、電力消費の$\approx$35\%、電気暖房の$\approx$40\%(INSEE)である。 Linkyの展開するスマートメーターの数は2021年に3500万に達する見込みだ。 そこで本研究では,676世帯を対象に,建設年や暖房の種類などのメタデータを有する少なくとも6ヶ月の観測期間を解析し,熱成分を電気負荷曲線から教師なしの方法で分離できる温度条件付電力消費のベイズモデルを提案する。 本質的には、このモデルは温度閾値によって特徴づけられるピースワイド線形モデルの混合であり、下記の2つのモードの混合が潜伏状態のホーム/アウェイを表すことを許している。

Adoption of smart meters is a major milestone on the path of European transition to smart energy. The residential sector in France represents $\approx$35\% of electricity consumption with $\approx$40\% (INSEE) of households using electrical heating. The number of deployed smart meters Linky is expected to reach 35M in 2021. In this manuscript we present an analysis of 676 households with an observation period of at least 6 months, for which we have metadata, such as the year of construction and the type of heating and propose a Bayesian model of the electrical consumption conditioned on temperature that allows to disaggregate the heating component from the electrical load curve in an unsupervised manner. In essence the model is a mixture of piece-wise linear models, characterised by a temperature threshold, below which we allow a mixture of two modes to represent the latent state home/away.
翻訳日:2022-09-27 01:01:03 公開日:2020-11-11
# 強化学習による挙動異種交通シミュレーション

Behaviorally Diverse Traffic Simulation via Reinforcement Learning ( http://arxiv.org/abs/2011.05741v1 )

ライセンス: Link先を確認
Shinya Shiroshita, Shirou Maruyama, Daisuke Nishiyama, Mario Ynocente Castro, Karim Hamzaoui, Guy Rosman, Jonathan DeCastro, Kuan-Hui Lee, Adrien Gaidon(参考訳) 交通シミュレーターは自動運転開発において重要なツールである。 さまざまなトラフィック参加者をモデリングするための選択肢を開発者に提供するための継続的な進歩がある一方で、これらのモデルを調整して、品質を維持しながら振る舞いの多様性を向上させることは、しばしば非常に難しい。 本稿では,自律運転エージェントのポリシー生成アルゴリズムを提案する。 提案アルゴリズムは、異なるポリシーセットセレクタを介して深層強化学習の表現と探索能力を活用することにより、多様性と運転能力のバランスをとる。 さらに,学習における行動の差異を広めるために,内在的な報酬を生かしたアルゴリズムを提案する。 定量的評価のために,政策と行動カバレッジの違いを測定する2つの軌跡に基づく評価指標を開発した。 本手法の有効性を,いくつかの挑戦的な交差点シーンにおいて実験的に示す。

Traffic simulators are important tools in autonomous driving development. While continuous progress has been made to provide developers more options for modeling various traffic participants, tuning these models to increase their behavioral diversity while maintaining quality is often very challenging. This paper introduces an easily-tunable policy generation algorithm for autonomous driving agents. The proposed algorithm balances diversity and driving skills by leveraging the representation and exploration abilities of deep reinforcement learning via a distinct policy set selector. Moreover, we present an algorithm utilizing intrinsic rewards to widen behavioral differences in the training. To provide quantitative assessments, we develop two trajectory-based evaluation metrics which measure the differences among policies and behavioral coverage. We experimentally show the effectiveness of our methods on several challenging intersection scenes.
翻訳日:2022-09-27 01:00:34 公開日:2020-11-11
# Recommenderシステムのためのハイパーキューブを用いたユーザ表現学習

Learning User Representations with Hypercuboids for Recommender Systems ( http://arxiv.org/abs/2011.05742v1 )

ライセンス: Link先を確認
Shuai Zhang, Huoyu Liu, Aston Zhang, Yue Hu, Ce Zhang, Yumeng Li, Tanchao Zhu, Shaojian He, Wenwu Ou(参考訳) 現実世界のレコメンデーションシステムでは、ユーザの関心のモデリングが重要です。 本稿では,パーソナライズされたレコメンデーションのための新しいユーザ関心表現モデルを提案する。 特に、私たちのモデルの背後にある重要な新しさは、空間内の点ではなく、ハイパーキューブとしてユーザーの関心を明示的にモデル化することです。 提案手法では,ユーザのハイパーキューブとアイテムとの合成距離を計算することで推薦スコアを学習する。 これにより、既存の協調フィルタリングアプローチの潜在的な幾何学的非フレキシビリティが軽減され、モデリング能力が大幅に向上する。 さらに,ユーザの興味の多様性を捉える能力を高めるために,2種類のハイパーキューブ型を提案する。 ユーザのアクティビティシーケンス(例えば、購入とレート)をキャプチャすることで、ユーザの超立方体学習を容易にするニューラルネットワークも提案されている。 提案モデルの有効性を,パブリックデータセットと商用データセットの両方で広範な実験により実証する。 実験結果から,本手法は既存の最先端技術を上回る有望な結果が得られた。

Modeling user interests is crucial in real-world recommender systems. In this paper, we present a new user interest representation model for personalized recommendation. Specifically, the key novelty behind our model is that it explicitly models user interests as a hypercuboid instead of a point in the space. In our approach, the recommendation score is learned by calculating a compositional distance between the user hypercuboid and the item. This helps to alleviate the potential geometric inflexibility of existing collaborative filtering approaches, enabling a greater extent of modeling capability. Furthermore, we present two variants of hypercuboids to enhance the capability in capturing the diversities of user interests. A neural architecture is also proposed to facilitate user hypercuboid learning by capturing the activity sequences (e.g., buy and rate) of users. We demonstrate the effectiveness of our proposed model via extensive experiments on both public and commercial datasets. Empirical results show that our approach achieves very promising results, outperforming existing state-of-the-art.
翻訳日:2022-09-27 01:00:21 公開日:2020-11-11
# 前方的介入に対するランク不均一因果効果の分断的検討

Split-Treatment Analysis to Rank Heterogeneous Causal Effects for Prospective Interventions ( http://arxiv.org/abs/2011.05877v1 )

ライセンス: Link先を確認
Yanbo Xu, Divyat Mahajan, Liz Manrao, Amit Sharma and Emre Kiciman(参考訳) 新しい広告やマーケティングの介入、機能推奨など、さまざまな介入のためには、その利益を最小限のコストや潜在的損害で最大化するために、特定のサブセットをターゲットにすることが重要です。 しかし、重要な課題は、まだ配備されていないため、そのような先進的な介入の効果に関するデータが入手できないことである。 本研究では,過去観測データを用いた前向き介入による影響が最も高い可能性の高い個人をランク付けする分割処理分析を提案する。 標準的な因果推論法とは異なり、分割処理法は標的治療自体の観察を必要としない。 代わりに、標的治療によって引き起こされるプロキシ治療の観察に依存する。 合理的な仮定の下では,代理処理に基づく不均一因果効果のランキングは,対象治療の効果に基づくランキングと同じであることを示す。 クロスバリデーションのための介入データがない場合、Split-Treatmentは、観測されていないコンファウンディングの感度分析を使用してモデルパラメータを選択する。 シミュレーションデータと大規模実世界のターゲティングタスクの両方にスプリット処理を適用し,ランダム化実験により検索したランキングを検証する。

For many kinds of interventions, such as a new advertisement, marketing intervention, or feature recommendation, it is important to target a specific subset of people for maximizing its benefits at minimum cost or potential harm. However, a key challenge is that no data is available about the effect of such a prospective intervention since it has not been deployed yet. In this work, we propose a split-treatment analysis that ranks the individuals most likely to be positively affected by a prospective intervention using past observational data. Unlike standard causal inference methods, the split-treatment method does not need any observations of the target treatments themselves. Instead it relies on observations of a proxy treatment that is caused by the target treatment. Under reasonable assumptions, we show that the ranking of heterogeneous causal effect based on the proxy treatment is the same as the ranking based on the target treatment's effect. In the absence of any interventional data for cross-validation, Split-Treatment uses sensitivity analyses for unobserved confounding to select model parameters. We apply Split-Treatment to both a simulated data and a large-scale, real-world targeting task and validate our discovered rankings via a randomized experiment for the latter.
翻訳日:2022-09-27 00:59:48 公開日:2020-11-11
# 符号化露光技術による圧縮映像復元のための統一フレームワーク

A Unified Framework for Compressive Video Recovery from Coded Exposure Techniques ( http://arxiv.org/abs/2011.05532v1 )

ライセンス: Link先を確認
Prasan Shedligeri, Anupama S, Kaushik Mitra(参考訳) 低帯域幅で高フレームレートビデオを取得するための符号化露光技術が提案されている。 最近では、コード化された露光技術とは異なり、圧縮された2つの測定値を単一の露光で取得できるCoded-2-Bucketカメラが提案されている。 2つの測定は有効なビデオリカバリにおいて1つよりも優れているが、定量的または定性的に2つの測定の利点が明らかであることは、まだ分かっていない。 本稿では,1つの符号化画像(フラッターシャッター,ピクセル単位の符号化露光)のみを撮影するものと,露出当たり2つの測定値(c2b)を定量的に定量的に比較した統一学習フレームワークを提案する。 学習に基づくフレームワークは、シフト可変畳み込み層と、完全畳み込み型ディープニューラルネットワークからなる。 提案する統一フレームワークは,3つのセンシング技術すべてにおいて,アートレコンストラクションの現状を実現する。 さらに分析したところ、ほとんどのシーンポイントが静的である場合、C2Bセンサーは1ピクセル単位の符号化された測定値を取得するよりも大きな利点があることがわかった。 しかし、ほとんどのシーンポイントが動いているとき、C2Bセンサーは1ピクセル単位の符号化露光測定よりも限界的な利点しか持たない。

Several coded exposure techniques have been proposed for acquiring high frame rate videos at low bandwidth. Most recently, a Coded-2-Bucket camera has been proposed that can acquire two compressed measurements in a single exposure, unlike previously proposed coded exposure techniques, which can acquire only a single measurement. Although two measurements are better than one for an effective video recovery, we are yet unaware of the clear advantage of two measurements, either quantitatively or qualitatively. Here, we propose a unified learning-based framework to make such a qualitative and quantitative comparison between those which capture only a single coded image (Flutter Shutter, Pixel-wise coded exposure) and those that capture two measurements per exposure (C2B). Our learning-based framework consists of a shift-variant convolutional layer followed by a fully convolutional deep neural network. Our proposed unified framework achieves the state of the art reconstructions in all three sensing techniques. Further analysis shows that when most scene points are static, the C2B sensor has a significant advantage over acquiring a single pixel-wise coded measurement. However, when most scene points undergo motion, the C2B sensor has only a marginal benefit over the single pixel-wise coded exposure measurement.
翻訳日:2022-09-27 00:53:18 公開日:2020-11-11
# FPGA: 完全なエンドツーエンドハイパースペクトル画像分類のための高速パッチフリーグローバルラーニングフレームワーク

FPGA: Fast Patch-Free Global Learning Framework for Fully End-to-End Hyperspectral Image Classification ( http://arxiv.org/abs/2011.05670v1 )

ライセンス: Link先を確認
Zhuo Zheng, Yanfei Zhong, Ailong Ma, Liangpei Zhang(参考訳) ディープラーニング技術は、ハイパースペクトル画像(HSI)分類に大きな改善をもたらした。 現在のディープラーニングベースのHSI分類器は、イメージを重複するパッチに分割することで、パッチベースの学習フレームワークに従う。 このように、これらの手法は、計算コストの高い局所的な学習方法である。 本稿では,HSI分類のための高速パッチフリーグローバルラーニング(FPGA)フレームワークを提案する。 FPGAでは、エンコーダデコーダをベースとしたFCNを用いて、画像全体を処理してグローバル空間情報を考慮し、高速な推論を行う。 しかしながら,HSI分類においてエンコーダ・デコーダをベースとしたFCNを直接利用するのは難しい。 高速な推論と大域的な空間情報マイニングを行うFCNの分散問題の解決と能力を維持するため,すべてのトレーニングサンプルを統計的に階層化されたサンプルに変換することで,まずグローバルな確率的成層サンプリング戦略を提案する。 この戦略はFPGAフレームワークにおけるFCNの収束を保証するために様々な勾配を得ることができる。 FCNアーキテクチャをより良く設計するために、HSI分類のための完全なエンドツーエンドネットワークであるFreeNetを提案し、グローバル空間情報の活用を最大化し、スペクトルアテンションベースのエンコーダと軽量デコーダを用いて性能を向上させる。 横接続モジュールは、エンコーダとデコーダを接続し、エンコーダの空間的詳細とデコーダのセマンティックな特徴を融合させるように設計されている。 3つの公開ベンチマークデータセットを用いて得られた実験結果は、FPGAフレームワークがHSI分類の速度と精度の両方においてパッチベースのフレームワークよりも優れていることを示唆している。 コードはhttps://github.com/Z-Zheng/FreeNetで公開されている。

Deep learning techniques have provided significant improvements in hyperspectral image (HSI) classification. The current deep learning based HSI classifiers follow a patch-based learning framework by dividing the image into overlapping patches. As such, these methods are local learning methods, which have a high computational cost. In this paper, a fast patch-free global learning (FPGA) framework is proposed for HSI classification. In FPGA, an encoder-decoder based FCN is utilized to consider the global spatial information by processing the whole image, which results in fast inference. However, it is difficult to directly utilize the encoder-decoder based FCN for HSI classification as it always fails to converge due to the insufficiently diverse gradients caused by the limited training samples. To solve the divergence problem and maintain the abilities of FCN of fast inference and global spatial information mining, a global stochastic stratified sampling strategy is first proposed by transforming all the training samples into a stochastic sequence of stratified samples. This strategy can obtain diverse gradients to guarantee the convergence of the FCN in the FPGA framework. For a better design of FCN architecture, FreeNet, which is a fully end-to-end network for HSI classification, is proposed to maximize the exploitation of the global spatial information and boost the performance via a spectral attention based encoder and a lightweight decoder. A lateral connection module is also designed to connect the encoder and decoder, fusing the spatial details in the encoder and the semantic features in the decoder. The experimental results obtained using three public benchmark datasets suggest that the FPGA framework is superior to the patch-based framework in both speed and accuracy for HSI classification. Code has been made available at: https://github.com/Z-Zheng/FreeNet.
翻訳日:2022-09-27 00:52:26 公開日:2020-11-11
# LittleYOLO-SPP: リアルタイム車両検出アルゴリズム

LittleYOLO-SPP: A Delicate Real-Time Vehicle Detection Algorithm ( http://arxiv.org/abs/2011.05940v1 )

ライセンス: Link先を確認
Sri Jamiya S, Esther Rani P(参考訳) リアルタイムの車両検出は困難かつ重要な課題である。 既存のリアルタイム車両検出には精度と速度が欠けている。 リアルタイムシステムは、車両の盗難や道路交通違反などの犯罪行為中の車両を高精度に検出し、見つける必要がある。 閉塞を伴う複雑なシーンにおける車両の検出も極めて困難である。 そこで本研究では,yolov3-tinyネットワークに基づく深層ニューラルネットワーク littleyolo-spp の軽量モデルを提案する。 YOLOv3-tinyオブジェクト検出ネットワークは、特徴抽出ネットワークを変更して、車両検出の速度と精度を高めることにより改善される。 提案するネットワークは,ネットワークに空間ピラミッドプーリングを組み込んだもので,ネットワーク学習能力を高めるために,特徴を結合する様々なスケールのプール層で構成されている。 有界ボックス回帰のための平均二乗誤差(MSE)と一般化IoU(GIoU)損失関数を用いてネットワークの性能を向上させる。 ネットワークトレーニングには、PASCAL VOC 2007、2012、MS COCO 2014データセット(車、バス、トラックなど)からの車両ベースのクラスが含まれる。 LittleYOLO-SPPネットワークは、ビデオフレームや気象条件に関わらず、高精度でリアルタイムで車両を検出する。 改良されたネットワークは、PASCAL VOCで77.44%、MS COCOデータセットで52.95%のmAPを達成する。

Vehicle detection in real-time is a challenging and important task. The existing real-time vehicle detection lacks accuracy and speed. Real-time systems must detect and locate vehicles during criminal activities like theft of vehicle and road traffic violations with high accuracy. Detection of vehicles in complex scenes with occlusion is also extremely difficult. In this study, a lightweight model of deep neural network LittleYOLO-SPP based on the YOLOv3-tiny network is proposed to detect vehicles effectively in real-time. The YOLOv3-tiny object detection network is improved by modifying its feature extraction network to increase the speed and accuracy of vehicle detection. The proposed network incorporated Spatial pyramid pooling into the network, which consists of different scales of pooling layers for concatenation of features to enhance network learning capability. The Mean square error (MSE) and Generalized IoU (GIoU) loss function for bounding box regression is used to increase the performance of the network. The network training includes vehicle-based classes from PASCAL VOC 2007,2012 and MS COCO 2014 datasets such as car, bus, and truck. LittleYOLO-SPP network detects the vehicle in real-time with high accuracy regardless of video frame and weather conditions. The improved network achieves a higher mAP of 77.44% on PASCAL VOC and 52.95% mAP on MS COCO datasets.
翻訳日:2022-09-27 00:51:38 公開日:2020-11-11
# 条件付き生成逆ネットワークを用いたパーソナリティ駆動ゲズアニメーション

Personality-Driven Gaze Animation with Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2012.02224v1 )

ライセンス: Link先を確認
Funda Durupinar(参考訳) 本研究では,ある人格の視線行動を合成するための生成的対人学習手法を提案する。 被験者42人のアイトラッキングデータとパーソナリティ特性からなる既存のデータセットを用いて,日常作業を行うモデルをトレーニングする。 ビッグファイブの性格特性(開放性、良心性、外向性、同意性、神経性)の値を考えると、我々のモデルは視線目標、点滅時間、瞳孔次元からなる時系列データを生成する。 生成したデータを用いて,ゲームエンジン上の仮想エージェントの視線運動を合成する。

We present a generative adversarial learning approach to synthesize gaze behavior of a given personality. We train the model using an existing data set that comprises eye-tracking data and personality traits of 42 participants performing an everyday task. Given the values of Big-Five personality traits (openness, conscientiousness, extroversion, agreeableness, and neuroticism), our model generates time series data consisting of gaze target, blinking times, and pupil dimensions. We use the generated data to synthesize the gaze motion of virtual agents on a game engine.
翻訳日:2022-09-27 00:51:02 公開日:2020-11-11
# 大規模深層学習勧告モデルの学習効率の理解

Understanding Training Efficiency of Deep Learning Recommendation Models at Scale ( http://arxiv.org/abs/2011.05497v1 )

ライセンス: Link先を確認
Bilge Acun, Matthew Murphy, Xiaodong Wang, Jade Nie, Carole-Jean Wu, Kim Hazelwood(参考訳) gpuの利用は機械学習のワークフローで広まり、今では多くのディープラーニングモデルで主流と見なされている。 一方、私たちの大規模データセンターで最も多くの計算サイクルを消費する最先端のパーソナルレコメンデーションモデルをトレーニングする場合、GPUの使用は、計算集約型コンポーネントとメモリ集約型コンポーネントの両方を持つため、さまざまな課題に突き当たった。 これらのレコメンデーションモデルのGPU性能と効率は、密度とスパース、MDP次元などのモデルアーキテクチャ構成に大きく影響される。 さらに、これらのモデルは、しばしば、限られたGPUメモリに収まらない大きな埋め込みテーブルを含んでいる。 本研究の目的は,GPUを用いた推薦モデルのトレーニング,大規模ハードウェア効率に影響を与える要因,そして新しいスケールアップGPUサーバ設計であるZionから学ぶことの難しさを説明することである。

The use of GPUs has proliferated for machine learning workflows and is now considered mainstream for many deep learning models. Meanwhile, when training state-of-the-art personal recommendation models, which consume the highest number of compute cycles at our large-scale datacenters, the use of GPUs came with various challenges due to having both compute-intensive and memory-intensive components. GPU performance and efficiency of these recommendation models are largely affected by model architecture configurations such as dense and sparse features, MLP dimensions. Furthermore, these models often contain large embedding tables that do not fit into limited GPU memory. The goal of this paper is to explain the intricacies of using GPUs for training recommendation models, factors affecting hardware efficiency at scale, and learnings from a new scale-up GPU server design, Zion.
翻訳日:2022-09-27 00:50:52 公開日:2020-11-11
# WaDeNet: ウェーブレット分解に基づく音声処理用CNN

WaDeNet: Wavelet Decomposition based CNN for Speech Processing ( http://arxiv.org/abs/2011.05594v1 )

ライセンス: Link先を確認
Prithvi Suresh and Abhijith Ragav(参考訳) 既存の音声処理システムは異なるモジュールで構成されており、音響モデリングや特徴抽出などの特定のタスクに個別に最適化されている。 システムの最適性を保証することに加えて、現在の音声処理システムの不整合性は、ユビキタスヘルスアプリケーションには適さない。 モバイル音声処理のためのエンドツーエンドモデルWaDeNetを提案する。 スペクトルの特徴を組み込むため、wadenetはアーキテクチャ内に音声信号のウェーブレット分解を組み込む。 これにより、WaDeNetはスペクトル特徴をエンドツーエンドで学習し、現在音声処理システムに存在している特徴抽出や連続的なモジュールの必要性を軽減することができる。 wadenetは、非侵襲的な感情認識のようなモバイルヘルスアプリケーションのための音声を含むデータセットの現在の技術を上回る。 WaDeNetは、既存のアートモデルと比較して平均6.36%の精度向上を実現している。 加えて、WaDeNetは同様のアーキテクチャを持つ単純なCNNよりもかなり軽量である。

Existing speech processing systems consist of different modules, individually optimized for a specific task such as acoustic modelling or feature extraction. In addition to not assuring optimality of the system, the disjoint nature of current speech processing systems make them unsuitable for ubiquitous health applications. We propose WaDeNet, an end-to-end model for mobile speech processing. In order to incorporate spectral features, WaDeNet embeds wavelet decomposition of the speech signal within the architecture. This allows WaDeNet to learn from spectral features in an end-to-end manner, thus alleviating the need for feature extraction and successive modules that are currently present in speech processing systems. WaDeNet outperforms the current state of the art in datasets that involve speech for mobile health applications such as non-invasive emotion recognition. WaDeNet achieves an average increase in accuracy of 6.36% when compared to the existing state of the art models. Additionally, WaDeNet is considerably lighter than a simple CNNs with a similar architecture.
翻訳日:2022-09-27 00:50:38 公開日:2020-11-11
# 凸凹法で訓練された線形拡張エロージョンパーセプトロン

Linear Dilation-Erosion Perceptron Trained Using a Convex-Concave Procedure ( http://arxiv.org/abs/2011.06512v1 )

ライセンス: Link先を確認
Angelica Louren\c{c}o Oliveira and Marcos Eduardo Valle(参考訳) 数学的形態学(英: Mathematical morphology、MM)は、画像の処理と解析に使用される非線形作用素の理論である。 モルフォロジーニューラルネットワーク(MNN)は、ニューロンがモルフォロジー演算子を計算するニューラルネットワークである。 ダイレーションと浸食はMMの基本演算子である。 代数的観点からは、拡張とエロージョンは、それぞれスプレム演算とインフィム演算に可換な作用素である。 本稿では,拡張とエロージョンを計算する前に線形変換を適用することによって与えられる<textit{linear dilation-erosion perceptron} (\ell$-dep) について述べる。 $\ell$-DEPモデルの決定関数は、ダイレーションと浸食を加えることで定義される。 さらに、$\ell$-DEPのトレーニングは凸凹最適化問題として定式化することができる。 いくつかの分類問題を用いて,$\ell$-DEPモデルの性能を他の機械学習手法と比較した。 計算実験は、二項分類タスクのための$\ell$-DEPモデルの潜在的な応用を支持する。

Mathematical morphology (MM) is a theory of non-linear operators used for the processing and analysis of images. Morphological neural networks (MNNs) are neural networks whose neurons compute morphological operators. Dilations and erosions are the elementary operators of MM. From an algebraic point of view, a dilation and an erosion are operators that commute respectively with the supremum and infimum operations. In this paper, we present the \textit{linear dilation-erosion perceptron} ($\ell$-DEP), which is given by applying linear transformations before computing a dilation and an erosion. The decision function of the $\ell$-DEP model is defined by adding a dilation and an erosion. Furthermore, training a $\ell$-DEP can be formulated as a convex-concave optimization problem. We compare the performance of the $\ell$-DEP model with other machine learning techniques using several classification problems. The computational experiments support the potential application of the proposed $\ell$-DEP model for binary classification tasks.
翻訳日:2022-09-27 00:45:03 公開日:2020-11-11
# 時間依存型ロボットミュージシャンのための強化学習

Reinforcement Learning with Time-dependent Goals for Robotic Musicians ( http://arxiv.org/abs/2011.05715v1 )

ライセンス: Link先を確認
Thilo Fryen, Manfred Eppe, Phuong D.H. Nguyen, Timo Gerkmann, Stefan Wermter(参考訳) 強化学習はロボット制御タスクを達成するための有望な方法である。 しかし、楽器を演奏する作業は、時間次元のメロディである逐次目標を達成することの難しさを伴うため、ほとんど探検されていない。 本稿では,目標条件付き強化学習に時間的拡張を導入することで,ロボットミュージシャンの育成に取り組む。 これらは、ロボットミュージシャンがテレミン楽器を演奏するためのトレーニングに使用できることを実証する。 ロボットエージェントをシミュレーションで訓練し、取得したポリシーを現実世界のロボットテレミニストに転送する。 補足ビデオ:https://youtu.be/jvC9mPzdQN4

Reinforcement learning is a promising method to accomplish robotic control tasks. The task of playing musical instruments is, however, largely unexplored because it involves the challenge of achieving sequential goals - melodies - that have a temporal dimension. In this paper, we address robotic musicianship by introducing a temporal extension to goal-conditioned reinforcement learning: Time-dependent goals. We demonstrate that these can be used to train a robotic musician to play the theremin instrument. We train the robotic agent in simulation and transfer the acquired policy to a real-world robotic thereminist. Supplemental video: https://youtu.be/jvC9mPzdQN4
翻訳日:2022-09-27 00:44:50 公開日:2020-11-11
# J-Recs: 原則とスケーラブルな勧告の正当化

J-Recs: Principled and Scalable Recommendation Justification ( http://arxiv.org/abs/2011.05928v1 )

ライセンス: Link先を確認
Namyong Park, Andrey Kan, Christos Faloutsos, Xin Luna Dong(参考訳) オンラインレコメンデーション(オンラインレコメンデーション)は、eコマースやビデオストリーミングなど、さまざまなサービスで不可欠な機能である。 推奨項目が好まれる理由を説明することによって,推奨項目の満足度や説得性が向上することが示されている。 本稿では,任意の推薦アルゴリズムの出力に適用可能な,ポストホックの正当性を生成する方法を提案する。 既存のポストホックメソッドは、多くの利用可能な入力データのうちの1つしか使わないか、事前に定義されたテンプレートに依存するため、様々な正当化を提供することで制限されることが多い。 我々は、簡潔で多様な正当化を生み出す方法であるj-recsの開発により、これらの初期のアプローチの限界に対処する。 J-Recsは、さまざまな種類の製品とユーザデータ(例えば、購入履歴と製品属性)に基づいて、さまざまな正当化を生成するレコメンデーションモデル非依存の手法である。 複数のタイプのデータを共同で処理する課題は、正当化生成のための原則付きグラフベースのアプローチを設計することで解決される。 理論的解析に加えて,合成データと実世界のデータについて広範な評価を行う。 以上の結果から, J-Recsは正当性を満足し, 有効正当性を効果的に生成し, ユーザの嗜好を基準値よりも最大20%精度で一致させることがわかった。

Online recommendation is an essential functionality across a variety of services, including e-commerce and video streaming, where items to buy, watch, or read are suggested to users. Justifying recommendations, i.e., explaining why a user might like the recommended item, has been shown to improve user satisfaction and persuasiveness of the recommendation. In this paper, we develop a method for generating post-hoc justifications that can be applied to the output of any recommendation algorithm. Existing post-hoc methods are often limited in providing diverse justifications, as they either use only one of many available types of input data, or rely on the predefined templates. We address these limitations of earlier approaches by developing J-Recs, a method for producing concise and diverse justifications. J-Recs is a recommendation model-agnostic method that generates diverse justifications based on various types of product and user data (e.g., purchase history and product attributes). The challenge of jointly processing multiple types of data is addressed by designing a principled graph-based approach for justification generation. In addition to theoretical analysis, we present an extensive evaluation on synthetic and real-world data. Our results show that J-Recs satisfies desirable properties of justifications, and efficiently produces effective justifications, matching user preferences up to 20% more accurately than baselines.
翻訳日:2022-09-27 00:44:24 公開日:2020-11-11
# 補助結果を用いた高次元分類規則の学習

Learning a high-dimensional classification rule using auxiliary outcomes ( http://arxiv.org/abs/2011.05493v1 )

ライセンス: Link先を確認
Muxuan Liang, Xiang Zhong, Jaeyoung Park(参考訳) 関連する結果は、多くの実践的な問題に共通している。 推定バイアスを内部空間と反空間の2つのタイプに分解し,高次元環境下での補助的な結果の存在により,利害関係の分類規則を推定する頑健な手法を開発した。 提案手法は,すべての結果を用いて効率を上げるプール推定ステップと,両種類のバイアスを補正するための関心結果のみを用いたキャリブレーションステップとを含む。 本研究では,プール型推定器が推定誤差が低く,反サブスペースバイアスが小さい場合には,単一の利得結果のみを使用する場合よりも推定誤差が低くなることを示す。 校正された推定器の推論手順も提供される。 提案手法の優位性を正当化するためにシミュレーションと実データ解析を行った。

Correlated outcomes are common in many practical problems. Based on a decomposition of estimation bias into two types, within-subspace and against-subspace, we develop a robust approach to estimating the classification rule for the outcome of interest with the presence of auxiliary outcomes in high-dimensional settings. The proposed method includes a pooled estimation step using all outcomes to gain efficiency, and a subsequent calibration step using only the outcome of interest to correct both types of biases. We show that when the pooled estimator has a low estimation error and a sparse against-subspace bias, the calibrated estimator can achieve a lower estimation error than that when using only the single outcome of interest. An inference procedure for the calibrated estimator is also provided. Simulations and a real data analysis are conducted to justify the superiority of the proposed method.
翻訳日:2022-09-27 00:43:58 公開日:2020-11-11
# ロボットとの音声言語インタラクション:研究課題と勧告, NSF Future Directions Workshop報告

Spoken Language Interaction with Robots: Research Issues and Recommendations, Report from the NSF Future Directions Workshop ( http://arxiv.org/abs/2011.05533v1 )

ライセンス: Link先を確認
Matthew Marge, Carol Espy-Wilson, Nigel Ward(参考訳) ロボットが急速に進歩するにつれ、社会におけるロボットの可能性を実現するためには、より効果的な人間とロボットの相互作用が必要である。 音声言語はソリューションの一部でなければならないが、音声言語インタラクション機能を提供する能力は依然として非常に限られている。 そこでNational Science Foundationはワークショップを開催し、スピーチ、言語、ロボット工学の研究者たちを集めて、何をすべきかを議論した。 その結果、必要な重要な科学的・工学的な進歩が明らかになった。 私たちの推薦は8つの一般的なテーマに大きく関係している。 まず、人間のニーズを満たすためには、音声技術とユーザエクスペリエンス設計の新しい課題に取り組む必要がある。 第二に、これは言語使用の社会的およびインタラクティブな側面のより良いモデルを必要とする。 第3に、堅牢性のためには、複数の仮説と目標を同時に考慮するなど、ユーザとの高帯域通信と不確実性処理の改善が必要である。 第四に、ロボットが新しい環境、新しいタスク、多様なユーザー人口でコミュニケーションできるように、大規模な再設計や大量のトレーニングデータを集めることなく、より強力な適応方法が必要である。 五つ目は、ロボットが具現化されているため、音声は視線、ジェスチャー、姿勢、動きなどの他のコミュニケーションモダリティと共に機能すべきである。 第6に、ロボットは複雑な環境で動作するため、音声コンポーネントは、ロボットがオブジェクト、場所、ノイズ源、ユーザー、その他の人間について知っていることのリッチで効率的な表現にアクセスする必要がある。 第7に,ロボットはリアルタイムで動作するため,音声処理や言語処理のコンポーネントも必要となる。 より多くの研究に加えて,共有可能なソフトウェアモジュールや内部インターフェース,安価なハードウェア,ベースラインシステム,さまざまなコーパスなど,インフラストラクチャやリソースに関する作業も必要です。

With robotics rapidly advancing, more effective human-robot interaction is increasingly needed to realize the full potential of robots for society. While spoken language must be part of the solution, our ability to provide spoken language interaction capabilities is still very limited. The National Science Foundation accordingly convened a workshop, bringing together speech, language, and robotics researchers to discuss what needs to be done. The result is this report, in which we identify key scientific and engineering advances needed. Our recommendations broadly relate to eight general themes. First, meeting human needs requires addressing new challenges in speech technology and user experience design. Second, this requires better models of the social and interactive aspects of language use. Third, for robustness, robots need higher-bandwidth communication with users and better handling of uncertainty, including simultaneous consideration of multiple hypotheses and goals. Fourth, more powerful adaptation methods are needed, to enable robots to communicate in new environments, for new tasks, and with diverse user populations, without extensive re-engineering or the collection of massive training data. Fifth, since robots are embodied, speech should function together with other communication modalities, such as gaze, gesture, posture, and motion. Sixth, since robots operate in complex environments, speech components need access to rich yet efficient representations of what the robot knows about objects, locations, noise sources, the user, and other humans. Seventh, since robots operate in real time, their speech and language processing components must also. Eighth, in addition to more research, we need more work on infrastructure and resources, including shareable software modules and internal interfaces, inexpensive hardware, baseline systems, and diverse corpora.
翻訳日:2022-09-27 00:43:08 公開日:2020-11-11
# 探索効率の向上による政策最適化

Proximal Policy Optimization via Enhanced Exploration Efficiency ( http://arxiv.org/abs/2011.05525v1 )

ライセンス: Link先を確認
Junwei Zhang, Zhenghao Zhang, Shuai Han, Shuai L\"u(参考訳) 近似ポリシー最適化(PPO)アルゴリズムは、特に連続制御タスクにおいて優れた性能を持つ深層強化学習アルゴリズムである。 しかし,本手法の性能は依然として探索能力に影響されている。 古典的な強化学習では、探索をより完全化し、データエクスプロイトと均衡させるスキームがあるが、アルゴリズムの複雑さのために複雑な環境では適用できない。 本稿では,PPOアルゴリズムにおける元のガウス的行動探索機構の仮定を分析し,探索能力が性能に与える影響を明らかにする。 その後, 探索問題を対象として, 不確実性推定に基づく探査促進機構を設計した。 次に、PPOアルゴリズムに探索拡張理論を適用し、複雑な環境で使用可能な固有探索モジュール(IEM-PPO)を用いた近似ポリシー最適化アルゴリズムを提案する。 実験部では,mujoco物理シミュレータの複数のタスクにおける提案手法を評価し,iem-ppoアルゴリズムとcuriosity driven exploration algorithm (icm-ppo) および original algorithm (ppo) との比較を行った。 実験結果から,IEM-PPOアルゴリズムはより長いトレーニング時間を必要とするが,サンプル効率と累積報酬の点で優れた性能を示し,安定性と堅牢性を示した。

Proximal policy optimization (PPO) algorithm is a deep reinforcement learning algorithm with outstanding performance, especially in continuous control tasks. But the performance of this method is still affected by its exploration ability. For classical reinforcement learning, there are some schemes that make exploration more full and balanced with data exploitation, but they can't be applied in complex environments due to the complexity of algorithm. Based on continuous control tasks with dense reward, this paper analyzes the assumption of the original Gaussian action exploration mechanism in PPO algorithm, and clarifies the influence of exploration ability on performance. Afterward, aiming at the problem of exploration, an exploration enhancement mechanism based on uncertainty estimation is designed in this paper. Then, we apply exploration enhancement theory to PPO algorithm and propose the proximal policy optimization algorithm with intrinsic exploration module (IEM-PPO) which can be used in complex environments. In the experimental parts, we evaluate our method on multiple tasks of MuJoCo physical simulator, and compare IEM-PPO algorithm with curiosity driven exploration algorithm (ICM-PPO) and original algorithm (PPO). The experimental results demonstrate that IEM-PPO algorithm needs longer training time, but performs better in terms of sample efficiency and cumulative reward, and has stability and robustness.
翻訳日:2022-09-27 00:35:58 公開日:2020-11-11
# フィルタマニフォールドアライメント

Filtered Manifold Alignment ( http://arxiv.org/abs/2011.05716v1 )

ライセンス: Link先を確認
Stefan Dernbach and Don Towsley(参考訳) ドメイン適応は、あるドメイン内のデータを活用して別のドメインでの学習を促進するために、トランスファー学習において不可欠なタスクです。 本稿では,2つの空間を接合した低次元空間にソース領域とターゲット領域を投影・フィルタリングする2段階のアプローチに基づく,新しい半教師付き多様体アライメント手法を提案する。 提案手法は,従来の多様体アライメント手法の計算複雑性を低減し,完全に異なる特徴セットでドメインを整合させるほど柔軟であり,実世界の画像データセットを分類した複数のベンチマーク領域適応タスクに対して,最先端の分類精度を示す。

Domain adaptation is an essential task in transfer learning to leverage data in one domain to bolster learning in another domain. In this paper, we present a new semi-supervised manifold alignment technique based on a two-step approach of projecting and filtering the source and target domains to low dimensional spaces followed by joining the two spaces. Our proposed approach, filtered manifold alignment (FMA), reduces the computational complexity of previous manifold alignment techniques, is flexible enough to align domains with completely disparate sets of feature and demonstrates state-of-the-art classification accuracy on multiple benchmark domain adaptation tasks composed of classifying real world image datasets.
翻訳日:2022-09-27 00:35:21 公開日:2020-11-11
# 二元分類のための線形拡張エロージョンパーセプトロン

Linear Dilation-Erosion Perceptron for Binary Classification ( http://arxiv.org/abs/2011.05989v1 )

ライセンス: Link先を確認
Angelica Louren\c{c}o Oliveira and Marcos Eduardo Valle(参考訳) 本研究は,二分法分類タスクにおける拡張エロージョンパーセプトロン(r-dep)モデルを簡潔に修正する。 次に、いわゆる線形拡張エロージョンパーセプトロン(l-dep)について述べる。 さらに,凹凸制約を受ける正規化ヒンジロス関数を最小化し,l-dep分類器の訓練を行う。 簡単な例が説明目的に挙げられる。

In this work, we briefly revise the reduced dilation-erosion perceptron (r-DEP) models for binary classification tasks. Then, we present the so-called linear dilation-erosion perceptron (l-DEP), in which a linear transformation is applied before the application of the morphological operators. Furthermore, we propose to train the l-DEP classifier by minimizing a regularized hinge-loss function subject to concave-convex restrictions. A simple example is given for illustrative purposes.
翻訳日:2022-09-27 00:34:35 公開日:2020-11-11
# nngp誘導ニューラルアーキテクチャ探索に向けて

Towards NNGP-guided Neural Architecture Search ( http://arxiv.org/abs/2011.06006v1 )

ライセンス: Link先を確認
Daniel S. Park, Jaehoon Lee, Daiyi Peng, Yuan Cao and Jascha Sohl-Dickstein(参考訳) ワイドベイズニューラルネットワークの予測は、ニューラルネットワークガウス過程(NNGP)として知られるガウス過程によって記述される。 NNGPカーネルの解析形式は多くのモデルで知られているが、畳み込みアーキテクチャの正確なカーネルの計算は違法に高価である。 初期化における有限ネットワークを用いたモンテカルロ推定により、これらのカーネルの効果的な近似が得られる。 Monte-Carlo NNGP推論は、データセットサイズが小さい場合の勾配降下訓練に比べ、FLOPsでは桁違いの精度が低い。 NNGP推論はネットワークアーキテクチャの性能の安価な尺度を提供するので、ニューラルネットワーク探索(NAS)の信号としての可能性を検討する。 CIFAR-10上のNAS-bench 101データセットにおける約423kネットワークのNNGP性能を計算し、勾配に基づくトレーニングを短縮した従来の性能指標と比較した。 ImageNetの移動型ニューラルネットワークサーチ(MNAS)空間において、10kのランダムサンプリングネットワーク上で同様の解析を行う。 NNGPベースのメトリクスの利点を比較検討し、潜在的な応用について議論する。 特に,NNGPの性能は,大規模な検索スペースの削減や,トレーニングベースのパフォーマンス対策の改善に使用可能な,トレーニングから得られるメトリクスに依存しない安価な信号であることを示す。

The predictions of wide Bayesian neural networks are described by a Gaussian process, known as the Neural Network Gaussian Process (NNGP). Analytic forms for NNGP kernels are known for many models, but computing the exact kernel for convolutional architectures is prohibitively expensive. One can obtain effective approximations of these kernels through Monte-Carlo estimation using finite networks at initialization. Monte-Carlo NNGP inference is orders-of-magnitude cheaper in FLOPs compared to gradient descent training when the dataset size is small. Since NNGP inference provides a cheap measure of performance of a network architecture, we investigate its potential as a signal for neural architecture search (NAS). We compute the NNGP performance of approximately 423k networks in the NAS-bench 101 dataset on CIFAR-10 and compare its utility against conventional performance measures obtained by shortened gradient-based training. We carry out a similar analysis on 10k randomly sampled networks in the mobile neural architecture search (MNAS) space for ImageNet. We discover comparative advantages of NNGP-based metrics, and discuss potential applications. In particular, we propose that NNGP performance is an inexpensive signal independent of metrics obtained from training that can either be used for reducing big search spaces, or improving training-based performance measures.
翻訳日:2022-09-27 00:34:26 公開日:2020-11-11
# 学習分布のアンサンブルを考慮した典型検査

Testing for Typicality with Respect to an Ensemble of Learned Distributions ( http://arxiv.org/abs/2011.06041v1 )

ライセンス: Link先を確認
Forrest Laine and Claire Tomlin(参考訳) データに基づいてトレーニングされたアルゴリズムは、トレーニングデータに類似したデータでのみうまく機能することが期待されるため、高次元データセットで異常検出を行う方法が必要となる。 データの集団が既知のベース分布から来る可能性が高いかどうかを検知する能力に関する理論的結果があり、これは適合性の良さ問題として知られている。 この問題に対する1つのサンプルアプローチは、オンラインテストに重要な計算上の利点を提供するが、ベース分布のモデルを知る必要がある。 この設定で異常なデータを正しく拒否する能力は、ベース分布のモデルの精度にかかっている。 高次元データでは、近年多くの研究者が指摘しているように、異常検出が確実に機能するように、ベース分布の正確なモデルを学ぶことは非常に難しい。 既存手法では、ベース分布のモデルが学習されているという事実は考慮されていない。 このギャップに対処するために,我々は,密度学習手順を考慮した理論的動機付け手法を提案する。 特に,アンサンブルの任意の構成員に対して,データが異常であれば異常データとなることを考慮し,密度モデルのアンサンブルを訓練することを提案する。 このアプローチを理論的に正当化し、まず、典型性に対するテストが適合性問題に対する有効なアプローチであることを証明し、次に、正しく構築されたモデルのアンサンブルに対して、モデルの典型集合の交叉が基底分布の典型集合の内部にあることを証明する。 提案手法は, 合成データの例の文脈において, 考慮すべき効果が容易に見ることができることを示す。

Methods of performing anomaly detection on high-dimensional data sets are needed, since algorithms which are trained on data are only expected to perform well on data that is similar to the training data. There are theoretical results on the ability to detect if a population of data is likely to come from a known base distribution, which is known as the goodness-of-fit problem. One-sample approaches to this problem offer significant computational advantages for online testing, but require knowing a model of the base distribution. The ability to correctly reject anomalous data in this setting hinges on the accuracy of the model of the base distribution. For high dimensional data, learning an accurate-enough model of the base distribution such that anomaly detection works reliably is very challenging, as many researchers have noted in recent years. Existing methods for the one-sample goodness-of-fit problem do not account for the fact that a model of the base distribution is learned. To address that gap, we offer a theoretically motivated approach to account for the density learning procedure. In particular, we propose training an ensemble of density models, considering data to be anomalous if the data is anomalous with respect to any member of the ensemble. We provide a theoretical justification for this approach, proving first that a test on typicality is a valid approach to the goodness-of-fit problem, and then proving that for a correctly constructed ensemble of models, the intersection of typical sets of the models lies in the interior of the typical set of the base distribution. We present our method in the context of an example on synthetic data in which the effects we consider can easily be seen.
翻訳日:2022-09-27 00:33:30 公開日:2020-11-11
# 変換スーパービジョンのない学習された同変レンダリング

Learned Equivariant Rendering without Transformation Supervision ( http://arxiv.org/abs/2011.05787v1 )

ライセンス: Link先を確認
Cinjon Resnick, Or Litany, Hugo Larochelle, Joan Bruna, Kyunghyun Cho(参考訳) 本稿では,映像からシーン表現を学習するための自己教師付きフレームワークを提案する。 提案手法は,移動物体のフレーム間の変換や背景の定値化に依拠する。 トレーニング後、シーンをリアルタイムで操作し、オブジェクト、変換、背景の見えない組み合わせを作成できます。 背景を持つMNISTの移動結果を示す。

We propose a self-supervised framework to learn scene representations from video that are automatically delineated into objects and background. Our method relies on moving objects being equivariant with respect to their transformation across frames and the background being constant. After training, we can manipulate and render the scenes in real time to create unseen combinations of objects, transformations, and backgrounds. We show results on moving MNIST with backgrounds.
翻訳日:2022-09-27 00:26:23 公開日:2020-11-11
# 動的平面畳み込み型占有ネットワーク

Dynamic Plane Convolutional Occupancy Networks ( http://arxiv.org/abs/2011.05813v1 )

ライセンス: Link先を確認
Stefan Lionar, Daniil Emtsev, Dusan Svilarkovic, Songyou Peng(参考訳) 暗黙的なニューラル表現を用いた学習に基づく3D再構成は、オブジェクトレベルだけでなく、より複雑なシーンでも有望な進歩を示している。 本稿では,3次元表面再構成の質を高めるために,新しい暗黙的表現である動的平面畳み込みネットワークを提案する。 入力ノイズ点雲は、複数の2次元動的平面に投影される点ごとの特徴に符号化される。 完全接続されたネットワークは、オブジェクトやシーンの形状を最もよく記述する平面パラメータを予測する。 翻訳等価性をさらに活用するために、平面特徴を処理するために畳み込みニューラルネットワークを適用する。 提案手法は,ShapeNetの無向点雲と屋内シーンデータセットからの表面再構成における優れた性能を示す。 さらに,学習した動的平面の分布についても興味深い観察を行った。

Learning-based 3D reconstruction using implicit neural representations has shown promising progress not only at the object level but also in more complicated scenes. In this paper, we propose Dynamic Plane Convolutional Occupancy Networks, a novel implicit representation pushing further the quality of 3D surface reconstruction. The input noisy point clouds are encoded into per-point features that are projected onto multiple 2D dynamic planes. A fully-connected network learns to predict plane parameters that best describe the shapes of objects or scenes. To further exploit translational equivariance, convolutional neural networks are applied to process the plane features. Our method shows superior performance in surface reconstruction from unoriented point clouds in ShapeNet as well as an indoor scene dataset. Moreover, we also provide interesting observations on the distribution of learned dynamic planes.
翻訳日:2022-09-27 00:26:16 公開日:2020-11-11
# 運転場所:魚眼カメラ1台で自由な空間検出

Where to drive: free space detection with one fisheye camera ( http://arxiv.org/abs/2011.05822v1 )

ライセンス: Link先を確認
Tobias Scheck, Adarsh Mallandur, Christian Wiede, Gangolf Hirtz(参考訳) 自動運転の分野での開発は、画像処理と機械学習の分野における新たな発展と相まって進んでいる。 ディープラーニングの利点を十分に活用するためには,十分なラベル付きトレーニングデータが必要である。 これは、全方位魚眼カメラには特に当てはまらない。 本稿では,Unity3Dをベースとした合成トレーニングデータの利用を提案する。 仮想魚眼カメラの作成には5パスアルゴリズムが用いられる。 この合成トレーニングデータは、異なるディープラーニングネットワークアーキテクチャに対する自由空間検出の適用のために評価される。 その結果,人工魚眼画像はディープラーニングの文脈で使用できることがわかった。

The development in the field of autonomous driving goes hand in hand with ever new developments in the field of image processing and machine learning methods. In order to fully exploit the advantages of deep learning, it is necessary to have sufficient labeled training data available. This is especially not the case for omnidirectional fisheye cameras. As a solution, we propose in this paper to use synthetic training data based on Unity3D. A five-pass algorithm is used to create a virtual fisheye camera. This synthetic training data is evaluated for the application of free space detection for different deep learning network architectures. The results indicate that synthetic fisheye images can be used in deep learning context.
翻訳日:2022-09-27 00:26:04 公開日:2020-11-11
# DeepI2I:GANからの転送による深層階層画像から画像への変換の実現

DeepI2I: Enabling Deep Hierarchical Image-to-Image Translation by Transferring from GANs ( http://arxiv.org/abs/2011.05867v1 )

ライセンス: Link先を確認
Yaxing Wang, Lu Yu, Joost van de Weijer(参考訳) 画像から画像への翻訳は、最近目覚ましい成果を上げている。 しかし、現在の成功にもかかわらず、クラス間の翻訳が大きな形状変更を必要とする場合、パフォーマンスが低下する。 これは現在最先端の画像画像化手法で使われている高分解能ボトルネックに起因している。 そこで本研究では,deepi2iと呼ばれる新しい階層型画像変換手法を提案する。 階層的な特徴を利用してモデルを学びます (a)浅い層に含まれる構造情報及び (b)深層から抽出した意味情報。 小データセット上での深部I2Iモデルのトレーニングを可能にするために,事前学習されたGANから知識を伝達する新しい移動学習手法を提案する。 具体的には、プリトレーニングgans(bigganまたはstylegan)の判別器を利用して、エンコーダと判別器とプリトレーニングジェネレータの両方を初期化し、モデルのジェネレータを初期化する。 知識転送を適用すると、エンコーダとジェネレータのアライメント問題が発生する。 これに対応するアダプタネットワークを導入します。 3つのデータセット(アニマルフェース、バード、フーズ)上の多種多様な画像間翻訳では、最先端と比較してmFIDを少なくとも35%削減する。 さらに,移動学習がI2Iシステム,特に小データセットの性能を大幅に向上させることを示す。 最後に、100以上のクラスを持つドメインに対して初めてI2I翻訳を行います。

Image-to-image translation has recently achieved remarkable results. But despite current success, it suffers from inferior performance when translations between classes require large shape changes. We attribute this to the high-resolution bottlenecks which are used by current state-of-the-art image-to-image methods. Therefore, in this work, we propose a novel deep hierarchical Image-to-Image Translation method, called DeepI2I. We learn a model by leveraging hierarchical features: (a) structural information contained in the shallow layers and (b) semantic information extracted from the deep layers. To enable the training of deep I2I models on small datasets, we propose a novel transfer learning method, that transfers knowledge from pre-trained GANs. Specifically, we leverage the discriminator of a pre-trained GANs (i.e. BigGAN or StyleGAN) to initialize both the encoder and the discriminator and the pre-trained generator to initialize the generator of our model. Applying knowledge transfer leads to an alignment problem between the encoder and generator. We introduce an adaptor network to address this. On many-class image-to-image translation on three datasets (Animal faces, Birds, and Foods) we decrease mFID by at least 35% when compared to the state-of-the-art. Furthermore, we qualitatively and quantitatively demonstrate that transfer learning significantly improves the performance of I2I systems, especially for small datasets. Finally, we are the first to perform I2I translations for domains with over 100 classes.
翻訳日:2022-09-27 00:25:57 公開日:2020-11-11
# grcnn:フローチャートからプログラムを合成するためのグラフ認識畳み込みニューラルネットワーク

GRCNN: Graph Recognition Convolutional Neural Network for Synthesizing Programs from Flow Charts ( http://arxiv.org/abs/2011.05980v1 )

ライセンス: Link先を確認
Lin Cheng, Zijiang Yang(参考訳) プログラム合成はユーザー仕様に基づいて自動的にプログラムを生成するタスクである。 本稿では,正確かつ直感的な仕様として機能するフローチャートからプログラムを合成するフレームワークを提案する。 そこで我々は,その画像からグラフ構造を認識するGRCNNというディープニューラルネットワークを提案する。 grcnnはエンドツーエンドでトレーニングされ、フローチャートのエッジとノード情報を同時に予測することができる。 プログラムを合成する精度は66.4%であり、エッジとノードを認識する精度は94.1%と67.9%である。 平均して、プログラムを合成するのに約60ミリ秒かかる。

Program synthesis is the task to automatically generate programs based on user specification. In this paper, we present a framework that synthesizes programs from flow charts that serve as accurate and intuitive specifications. In order doing so, we propose a deep neural network called GRCNN that recognizes graph structure from its image. GRCNN is trained end-to-end, which can predict edge and node information of the flow chart simultaneously. Experiments show that the accuracy rate to synthesize a program is 66.4%, and the accuracy rates to recognize edge and nodes are 94.1% and 67.9%, respectively. On average, it takes about 60 milliseconds to synthesize a program.
翻訳日:2022-09-27 00:25:36 公開日:2020-11-11
# 残響環境におけるエンドツーエンドのマルチチャンネル時間領域音声分離について

On End-to-end Multi-channel Time Domain Speech Separation in Reverberant Environments ( http://arxiv.org/abs/2011.05958v1 )

ライセンス: Link先を確認
Jisi Zhang, Catalin Zorila, Rama Doddipatla, Jon Barker(参考訳) 本稿では,残響環境におけるマルチチャネル時間領域音声分離手法を提案する。 完全畳み込みニューラルネットワーク構造は、従来の空間的特徴抽出を必要とせず、複数のマイクロホン録音から音声を直接分離するために用いられてきた。 残響が空間的特徴抽出に与える影響を低減するために, 残響前処理法を適用し, 分離性能をさらに向上させた。 wsj0-2mixデータセットの空間化バージョンをシミュレーションして提案システムの評価を行った。 分離信号の音源分離と音声認識性能は客観的に評価されている。 実験の結果,提案した完全畳み込みネットワークは,従来の特徴を持つ参照システムに対して,それぞれ13%以上,50%以上の単語誤り率(WER)を向上することがわかった。 提案システムにデバーベレーションを前処理として適用することにより、クリーンデータと残響データに基づいて訓練された音響モデルを用いてWERをさらに29%削減することができる。

This paper introduces a new method for multi-channel time domain speech separation in reverberant environments. A fully-convolutional neural network structure has been used to directly separate speech from multiple microphone recordings, with no need of conventional spatial feature extraction. To reduce the influence of reverberation on spatial feature extraction, a dereverberation pre-processing method has been applied to further improve the separation performance. A spatialized version of wsj0-2mix dataset has been simulated to evaluate the proposed system. Both source separation and speech recognition performance of the separated signals have been evaluated objectively. Experiments show that the proposed fully-convolutional network improves the source separation metric and the word error rate (WER) by more than 13% and 50% relative, respectively, over a reference system with conventional features. Applying dereverberation as pre-processing to the proposed system can further reduce the WER by 29% relative using an acoustic model trained on clean and reverberated data.
翻訳日:2022-09-27 00:25:26 公開日:2020-11-11
# テキスト提示が翻訳者性能に及ぼす影響

The Impact of Text Presentation on Translator Performance ( http://arxiv.org/abs/2011.05978v1 )

ライセンス: Link先を確認
Samuel L\"aubli, Patrick Simianer, Joern Wuebker, Geza Kovacs, Rico Sennrich, Spence Green(参考訳) 広く使われているコンピュータ支援翻訳(cat)ツールは、文書を文のようなセグメントに分割し、スプレッドシートのように並べる。 本稿では, 3つの実験テキスト処理タスクにおいて, トランスレータの性能, 速度, 精度に関する設計選択を初めて制御的に評価する。 提案手法では,文単位の提示により,テキストの再現性が向上し,文内エラーの同定が容易になることを示すとともに,ソースと対象文の上下配置によって,並べ合わせよりも高速にテキストの再現が可能となることを示す。 一方, 再検討の結果, 未分類テキストの提示は, 高い精度と時間効率をもたらすことが示唆された。 この結果は,CATツールの設計におけるベストプラクティスに直接影響している。

Widely used computer-aided translation (CAT) tools divide documents into segments such as sentences and arrange them in a side-by-side, spreadsheet-like view. We present the first controlled evaluation of these design choices on translator performance, measuring speed and accuracy in three experimental text processing tasks. We find significant evidence that sentence-by-sentence presentation enables faster text reproduction and within-sentence error identification compared to unsegmented text, and that a top-and-bottom arrangement of source and target sentences enables faster text reproduction compared to a side-by-side arrangement. For revision, on the other hand, our results suggest that presenting unsegmented text results in the highest accuracy and time efficiency. Our findings have direct implications for best practices in designing CAT tools.
翻訳日:2022-09-27 00:25:11 公開日:2020-11-11
# 深層学習因果効果の教育は予測性能を改善する

Teaching deep learning causal effects improves predictive performance ( http://arxiv.org/abs/2011.05466v1 )

ライセンス: Link先を確認
Jia Li, Xiaowei Jia, Haoyu Yang, Vipin Kumar, Michael Steinbach, Gyorgy Simon(参考訳) 因果推論は、説明的分析と個別化治療効果(ite)推定のための強力な統計的方法論であり、基本的な研究課題となっている。 ite推定は、素直に行うとバイアスのある見積もりになる傾向がある。 偏りのない推定を得るには、データから直接観測できない偽情報が必要である。 成熟したドメイン知識に基づいて、iteを推定する信頼できる伝統的な方法が存在する。 近年、ニューラルネットワークは臨床研究に広く用いられている。 具体的には、時間的電子健康記録(EHR)データ分析にリカレントニューラルネットワーク(RNN)を適用している。 しかし、RNNは因果知識を自動的に発見し、反事実情報を正しく推定し、ITTを正確に推定することが保証されていない。 この正確なITE推定の欠如は、モデルの性能を妨げます。 本研究は, ite関連の知識を正しく取り入れるために, rnnを誘導できるか, 予測性能を向上させるか検討する。 具体的には,まず時間的eprデータに対する因果的時間的構造を記述し,この構造に基づいて逐次的iteを時系列的プロペンサリティスコアマッチング(psm)を用いて時系列に沿って推定し,最後に,推定iteを組み込むための知識誘導ニューラルネットワーク手法を提案する。 本稿では,実世界および合成データ(実際の it が知られている)について,提案手法が rnn の予測性能を大幅に向上させることを示す。

Causal inference is a powerful statistical methodology for explanatory analysis and individualized treatment effect (ITE) estimation, a prominent causal inference task that has become a fundamental research problem. ITE estimation, when performed naively, tends to produce biased estimates. To obtain unbiased estimates, counterfactual information is needed, which is not directly observable from data. Based on mature domain knowledge, reliable traditional methods to estimate ITE exist. In recent years, neural networks have been widely used in clinical studies. Specifically, recurrent neural networks (RNN) have been applied to temporal Electronic Health Records (EHR) data analysis. However, RNNs are not guaranteed to automatically discover causal knowledge, correctly estimate counterfactual information, and thus correctly estimate the ITE. This lack of correct ITE estimates can hinder the performance of the model. In this work we study whether RNNs can be guided to correctly incorporate ITE-related knowledge and whether this improves predictive performance. Specifically, we first describe a Causal-Temporal Structure for temporal EHR data; then based on this structure, we estimate sequential ITE along the timeline, using sequential Propensity Score Matching (PSM); and finally, we propose a knowledge-guided neural network methodology to incorporate estimated ITE. We demonstrate on real-world and synthetic data (where the actual ITEs are known) that the proposed methodology can significantly improve the prediction performance of RNN.
翻訳日:2022-09-27 00:24:55 公開日:2020-11-11
# EHRデータによる新しい因果構造探索法 : 2型糖尿病の実証

A novel method for Causal Structure Discovery from EHR data, a demonstration on type-2 diabetes mellitus ( http://arxiv.org/abs/2011.05489v1 )

ライセンス: Link先を確認
Xinpeng Shen, Sisi Ma, Prashanthi Vemuri, M. Regina Castro, Pedro J. Caraballo, Gyorgy J. Simon(参考訳) 導入:基礎疾患の因果メカニズムの発見は、より良い診断、予後、治療選択を可能にする。 臨床試験は因果関係を決定するための金の基準であったが、それらは資源集約的であり、時には実現不可能あるいは非倫理的である。 電子健康記録(EHR)は、病気のメカニズムの発見を約束する豊富な実世界のデータを含んでいるが、既存の因果構造発見(CSD)手法は、EHRデータの特別な特徴のためにそれらを活用することに不足している。 これらの特徴がもたらす課題を克服するために,新しいデータ変換手法と新しいCSDアルゴリズムを提案する。 材料と方法:2型糖尿病への応用について,提案手法を実証した。 提案する変換法とcsd法を内部的に評価するために,mayo clinicの大規模なehrデータセットを使用し,外部検証としてfairview health servicesという独立した医療システムからの別の大規模データセットを用いた。 提案手法の性能を, 精度, 安定性, 完全性の観点から, 最先端csd法であるfast greedy equivalence search (fges) と比較した。 提案アルゴリズムの一般化性を外部検証により検証した。 結果と結論: 提案手法は, 研究設計の考察をうまく取り入れ, 信頼性の低いEHRタイムスタンプに面して頑健であり, 因果効果の方向をより正確かつ確実に推定できた。 提案したデータ変換により,検出したグラフの臨床的正しさとブートストラップ試料間のエッジ配向の整合性が向上した。 その結果、精度、安定性、完全性が向上した。

Introduction: The discovery of causal mechanisms underlying diseases enables better diagnosis, prognosis and treatment selection. Clinical trials have been the gold standard for determining causality, but they are resource intensive, sometimes infeasible or unethical. Electronic Health Records (EHR) contain a wealth of real-world data that holds promise for the discovery of disease mechanisms, yet the existing causal structure discovery (CSD) methods fall short on leveraging them due to the special characteristics of the EHR data. We propose a new data transformation method and a novel CSD algorithm to overcome the challenges posed by these characteristics. Materials and methods: We demonstrated the proposed methods on an application to type-2 diabetes mellitus. We used a large EHR data set from Mayo Clinic to internally evaluate the proposed transformation and CSD methods and used another large data set from an independent health system, Fairview Health Services, as external validation. We compared the performance of our proposed method to Fast Greedy Equivalence Search (FGES), a state-of-the-art CSD method in terms of correctness, stability and completeness. We tested the generalizability of the proposed algorithm through external validation. Results and conclusions: The proposed method improved over the existing methods by successfully incorporating study design considerations, was robust in face of unreliable EHR timestamps and inferred causal effect directions more correctly and reliably. The proposed data transformation successfully improved the clinical correctness of the discovered graph and the consistency of edge orientation across bootstrap samples. It resulted in superior accuracy, stability, and completeness.
翻訳日:2022-09-27 00:24:32 公開日:2020-11-11
# 関数型メタ構造のファジィ設計のための確率密度に基づくディープラーニングパラダイム

Probability-Density-Based Deep Learning Paradigm for the Fuzzy Design of Functional Metastructures ( http://arxiv.org/abs/2011.05516v1 )

ライセンス: Link先を確認
Ying-Tao Luo, Peng-Qi Li, Dong-Ting Li, Yu-Gui Peng, Zhi-Guo Geng, Shu-Huan Xie, Yong Li, Andrea Alu, Jie Zhu, Xue-Feng Zhu(参考訳) 量子力学において、ノルム二乗波動関数は、与えられた位置または運動量で測定される粒子の確率を記述する確率密度として解釈することができる。 この統計的性質はマイクロコスモスのファジィ構造の中核にある。 近年、ハイブリッド・ニューラル構造が注目され、様々なインテリジェントなシステムが広範囲に影響を及ぼした。 本稿では,関数型メタ構造のファジィ設計のための確率密度に基づくディープラーニングパラダイムを提案する。 他の逆設計法とは対照的に、我々の確率密度に基づくニューラルネットワークは、高次元パラメータ空間における全ての可塑性メタ構造を効率的に評価し、正確に捉えることができる。 確率密度分布の局所最大値は、所望のパフォーマンスを満たす最も可能性の高い候補に対応する。 対象の伝送スペクトルごとに複数のメタ構造を設計し,逆設計の有効性と一般化を具体的に示さない実験を行い,この普遍的適応アプローチを音響に限定するものではないことを検証する。

In quantum mechanics, a norm squared wave function can be interpreted as the probability density that describes the likelihood of a particle to be measured in a given position or momentum. This statistical property is at the core of the fuzzy structure of microcosmos. Recently, hybrid neural structures raised intense attention, resulting in various intelligent systems with far-reaching influence. Here, we propose a probability-density-based deep learning paradigm for the fuzzy design of functional meta-structures. In contrast to other inverse design methods, our probability-density-based neural network can efficiently evaluate and accurately capture all plausible meta-structures in a high-dimensional parameter space. Local maxima in probability density distribution correspond to the most likely candidates to meet the desired performances. We verify this universally adaptive approach in but not limited to acoustics by designing multiple meta-structures for each targeted transmission spectrum, with experiments unequivocally demonstrating the effectiveness and generalization of the inverse design.
翻訳日:2022-09-27 00:24:00 公開日:2020-11-11
# 背景塗布による自己組織化セグメンテーション

Self-supervised Segmentation via Background Inpainting ( http://arxiv.org/abs/2011.05626v1 )

ライセンス: Link先を確認
Isinsu Katircioglu, Helge Rhodin, Victor Constantin, J\"org Sp\"orri, Mathieu Salzmann, Pascal Fua(参考訳) 教師付きオブジェクト検出とセグメンテーション手法は印象的な精度を発揮する一方で、トレーニングしたデータと大きく異なる外観の画像を一般化する。 これに対処するために,移動可能なカメラで撮影される単一の画像に対して,自己教師あり検出とセグメンテーションのアプローチを導入する。 提案手法の核心となるのは,対象のセグメンテーションと背景の再構築がリンクされたタスクであること,背景の領域が周囲から再合成可能であること,移動物体を描写する領域は不可能であること,である。 我々はこの直感を自己教師付き損失関数にエンコードし、提案に基づくセグメンテーションネットワークを訓練する。 提案の離散的性質を考慮し,モンテカルロを基盤とした学習戦略を開発し,提案対象の広い空間を探索するアルゴリズムを提案する。 本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出と分割に応用し,既存の自己監督手法より優れている。

While supervised object detection and segmentation methods achieve impressive accuracy, they generalize poorly to images whose appearance significantly differs from the data they have been trained on. To address this when annotating data is prohibitively expensive, we introduce a self-supervised detection and segmentation approach that can work with single images captured by a potentially moving camera. At the heart of our approach lies the observation that object segmentation and background reconstruction are linked tasks, and that, for structured scenes, background regions can be re-synthesized from their surroundings, whereas regions depicting the moving object cannot. We encode this intuition into a self-supervised loss function that we exploit to train a proposal-based segmentation network. To account for the discrete nature of the proposals, we develop a Monte Carlo-based training strategy that allows the algorithm to explore the large space of object proposals. We apply our method to human detection and segmentation in images that visually depart from those of standard benchmarks and outperform existing self-supervised methods.
翻訳日:2022-09-27 00:16:46 公開日:2020-11-11
# 6dofポーズ推定のためのハイブリッドアプローチ

A Hybrid Approach for 6DoF Pose Estimation ( http://arxiv.org/abs/2011.05669v1 )

ライセンス: Link先を確認
Rebecca K\"onig and Bertram Drost(参考訳) 本稿では,最先端のディープラーニングに基づくインスタンス検出器を用いてrgb画像内のオブジェクトインスタンスを分割し,ポイントペアベースの投票法を用いてオブジェクトのポーズを復元する,剛体オブジェクトの6次元ポーズ推定手法を提案する。 さらに、インスタンス検出器とトレーニングセットを検証セット上で最高のパフォーマンスで選択する自動メソッド選択も使用します。 このハイブリッドアプローチは、CNNを用いて高度に構造化されていないデータをフィルタリングし、クラッタを切断し、頑健なポーズ推定のために証明された収束を伴う局所幾何学的アプローチである。 この手法はBOPコアデータセットで評価され、ベースライン法を大幅に超え、BOP 2020 Challengeで最も高速な手法である。

We propose a method for 6DoF pose estimation of rigid objects that uses a state-of-the-art deep learning based instance detector to segment object instances in an RGB image, followed by a point-pair based voting method to recover the object's pose. We additionally use an automatic method selection that chooses the instance detector and the training set as that with the highest performance on the validation set. This hybrid approach leverages the best of learning and classic approaches, using CNNs to filter highly unstructured data and cut through the clutter, and a local geometric approach with proven convergence for robust pose estimation. The method is evaluated on the BOP core datasets where it significantly exceeds the baseline method and is the best fast method in the BOP 2020 Challenge.
翻訳日:2022-09-27 00:16:15 公開日:2020-11-11
# 領域条件正規化を用いたゼロペア画像から画像への変換

Zero-Pair Image to Image Translation using Domain Conditional Normalization ( http://arxiv.org/abs/2011.05680v1 )

ライセンス: Link先を確認
Samarth Shukla, Andr\'es Romero, Luc Van Gool, Radu Timofte(参考訳) 本稿では、ゼロペア画像-画像変換のためのドメイン条件正規化(DCN)に基づくアプローチを提案する。 我々は,エンコーダ・デコーダ構造を持つ単一生成器を用いて,対象領域の出力を得るために,ドメイン条件正規化の異なる実装を分析する。 検証ベンチマークでは、トレーニングにRGB-deepthペアとRGB-semanticペアを使用し、深さ-semantic変換タスクのパフォーマンスを比較する。 提案手法は, 比較手法よりも質的, 定量的に改善され, パラメータははるかに少ない。 コードはhttps://github.com/samarthshukla/dcnで利用可能

In this paper, we propose an approach based on domain conditional normalization (DCN) for zero-pair image-to-image translation, i.e., translating between two domains which have no paired training data available but each have paired training data with a third domain. We employ a single generator which has an encoder-decoder structure and analyze different implementations of domain conditional normalization to obtain the desired target domain output. The validation benchmark uses RGB-depth pairs and RGB-semantic pairs for training and compares performance for the depth-semantic translation task. The proposed approaches improve in qualitative and quantitative terms over the compared methods, while using much fewer parameters. Code available at https://github.com/samarthshukla/dcn
翻訳日:2022-09-27 00:16:01 公開日:2020-11-11
# THEODOREから学ぶ: 深層移動学習のための合成一方向トップビュー屋内データセット

Learning from THEODORE: A Synthetic Omnidirectional Top-View Indoor Dataset for Deep Transfer Learning ( http://arxiv.org/abs/2011.05719v1 )

ライセンス: Link先を確認
Tobias Scheck, Roman Seidel, Gangolf Hirtz(参考訳) 人工屋内データセットに関する最近の研究は、畳み込みニューラルネットワーク(cnns)を用いた物体検出結果の大幅な改善を示している。 本稿では,14種類の高解像度魚眼画像10万点を含む,新しい大規模屋内データセットTheODOREを紹介する。 この目的のために、我々はリビングルームの3次元仮想環境、異なる人間キャラクター、インテリアテクスチャを作成します。 仮想環境から魚眼画像をキャプチャする以外に、セマンティックセグメンテーション、インスタンスマスク、オブジェクト検出タスクのバウンディングボックス用のアノテーションを作成しています。 合成データセットと全方位画像のアート実世界のデータセットの状態を比較した。 MS COCO重みに基づいて、我々のデータセットはオブジェクト検出のための微調整CNNに適していることを示す。 画像合成と領域ランダム化によるモデルの高一般化により、高精細分析データセット上のクラスパーソンに対して最大0.84までAPに達する。

Recent work about synthetic indoor datasets from perspective views has shown significant improvements of object detection results with Convolutional Neural Networks(CNNs). In this paper, we introduce THEODORE: a novel, large-scale indoor dataset containing 100,000 high-resolution diversified fisheye images with 14 classes. To this end, we create 3D virtual environments of living rooms, different human characters and interior textures. Beside capturing fisheye images from virtual environments we create annotations for semantic segmentation, instance masks and bounding boxes for object detection tasks. We compare our synthetic dataset to state of the art real-world datasets for omnidirectional images. Based on MS COCO weights, we show that our dataset is well suited for fine-tuning CNNs for object detection. Through a high generalization of our models by means of image synthesis and domain randomization, we reach an AP up to 0.84 for class person on High-Definition Analytics dataset.
翻訳日:2022-09-27 00:15:48 公開日:2020-11-11
# 生活支援アプリケーションにおける半教師付きインクリメンタル学習のためのcnnに基づく特徴空間

A CNN-based Feature Space for Semi-supervised Incremental Learning in Assisted Living Applications ( http://arxiv.org/abs/2011.05734v1 )

ライセンス: Link先を確認
Tobias Scheck, Ana Perez Grassi, Gangolf Hirtz(参考訳) 畳み込みニューラルネットワーク(CNN)は、時として、その一般化能力を超えた外観変化(新しいインスタンス)のオブジェクトに直面します。 これによりCNNは新たな知識、すなわち漸進的な学習を取り入れる必要がある。 本稿では,生活支援の観点から,この問題について考察する。 トレーニングデータセットから得られた特徴空間を用いて、CNNが適切に認識できない問題のある画像を自動的にラベル付けする。 半教師付きラベリングのための特徴空間の余分な情報を利用して、CNNの分類モデルを改善するために問題のある画像を利用する。 結果として得られる半教師付き漸進的な学習プロセスによって、広範な実験によって示されるように、新しいインスタンスの分類精度を40%向上させることができる。

A Convolutional Neural Network (CNN) is sometimes confronted with objects of changing appearance ( new instances) that exceed its generalization capability. This requires the CNN to incorporate new knowledge, i.e., to learn incrementally. In this paper, we are concerned with this problem in the context of assisted living. We propose using the feature space that results from the training dataset to automatically label problematic images that could not be properly recognized by the CNN. The idea is to exploit the extra information in the feature space for a semi-supervised labeling and to employ problematic images to improve the CNN's classification model. Among other benefits, the resulting semi-supervised incremental learning process allows improving the classification accuracy of new instances by 40% as illustrated by extensive experiments.
翻訳日:2022-09-27 00:15:34 公開日:2020-11-11
# 凝集度推定に基づくテキストコヒーレンスの評価

Assessment of text coherence based on the cohesion estimation ( http://arxiv.org/abs/2011.05788v1 )

ライセンス: Link先を確認
S.D. Pogorilyy, A.A. Kramov(参考訳) 本稿では,凝集度推定に基づくグラフベースのコヒーレンス推定手法を提案する。 本手法は,評価プロセスの理解をユーザに提供するために,グラフベースのアプローチを用いる。 また、異なる言語にも適用できるため、英語、中国語、アラビア語のテキストのセットにおいて、この方法の有効性について検討する。

In this paper, a graph-based coherence estimation method based on the cohesion estimation is suggested. Our method uses a graph-based approach to provide a user with an understanding of the evaluation process. Moreover, it can be applied to different languages, therefore, the effectiveness of this method is examined on the set of English, Chinese, and Arabic texts.
翻訳日:2022-09-27 00:08:30 公開日:2020-11-11
# Situated Data, Situated Systems:自然言語処理研究におけるパワーリレーションを用いたエンゲージ手法

Situated Data, Situated Systems: A Methodology to Engage with Power Relations in Natural Language Processing Research ( http://arxiv.org/abs/2011.05911v1 )

ライセンス: Link先を確認
Lucy Havens, Melissa Terras, Benjamin Bach, Beatrice Alex(参考訳) 本稿では,自然言語処理(NLP)研究におけるパワーリレーションに関わるバイアス対応手法を提案する。 NLP研究は、社会的文脈におけるバイアスにはほとんど関与せず、バイアスを緩和する能力を制限する。 研究者はアクション、テクニカルメソッド、ドキュメンテーションの実践を推奨しているが、バイアスに関する批判的リフレクションと技術的なnlpメソッドを統合する方法論は存在しない。 本稿では,学際的な文献レビューを行った結果,nlp研究にバイアス認識手法を提案する。 また,偏見付きテキストの定義,偏見付きNLPシステムの影響に関する議論,および考古学的メタデータ記述の研究において偏見対応手法をどのように実行しているかを示す事例研究を行った。

We propose a bias-aware methodology to engage with power relations in natural language processing (NLP) research. NLP research rarely engages with bias in social contexts, limiting its ability to mitigate bias. While researchers have recommended actions, technical methods, and documentation practices, no methodology exists to integrate critical reflections on bias with technical NLP methods. In this paper, after an extensive and interdisciplinary literature review, we contribute a bias-aware methodology for NLP research. We also contribute a definition of biased text, a discussion of the implications of biased NLP systems, and a case study demonstrating how we are executing the bias-aware methodology in research on archival metadata descriptions.
翻訳日:2022-09-27 00:08:23 公開日:2020-11-11
# IberLEF 2020におけるCAPITEL共有タスクの概要:名前付きエンティティ認識とユニバーサル依存性解析

Overview of CAPITEL Shared Tasks at IberLEF 2020: Named Entity Recognition and Universal Dependencies Parsing ( http://arxiv.org/abs/2011.05932v1 )

ライセンス: Link先を確認
Jordi Porta-Zamorano and Luis Espinosa-Anke(参考訳) 我々は、IberLEF 2020コンペティションシリーズの文脈で開催されているCAPITEL-EVAL共有タスクの結果を示す。 CAPITEL-EVALは,(1)名前付きエンティティ認識と分類,(2)ユニバーサル依存関係解析の2つのサブタスクで構成された。 どちらも、ソースデータは新たに注釈付きコーパスであるCAPITELで、ニュースワイヤドメイン内のスペイン語記事のコレクションである。 CAPITEL-EVALには合計7チームが参加し、全サブタスクで合計13チームが出場した。 このタスクに関するデータ、結果、さらなる情報はsites.google.com/view/capitel2020で見ることができる。

We present the results of the CAPITEL-EVAL shared task, held in the context of the IberLEF 2020 competition series. CAPITEL-EVAL consisted on two subtasks: (1) Named Entity Recognition and Classification and (2) Universal Dependency parsing. For both, the source data was a newly annotated corpus, CAPITEL, a collection of Spanish articles in the newswire domain. A total of seven teams participated in CAPITEL-EVAL, with a total of 13 runs submitted across all subtasks. Data, results and further information about this task can be found at sites.google.com/view/capitel2020.
翻訳日:2022-09-27 00:08:09 公開日:2020-11-11
# 高誤り認識シナリオにおける言語モデルのテキスト拡張

Text Augmentation for Language Models in High Error Recognition Scenario ( http://arxiv.org/abs/2011.06056v1 )

ライセンス: Link先を確認
Karel Bene\v{s} and Luk\'a\v{s} Burget(参考訳) 音声認識のための言語モデルの訓練におけるデータ拡張の効果を検討する。 我々は,asrエラーの単語単位のユニグラム統計に基づいて,グローバルエラー統計に基づく拡張を比較検討し,グローバルエラーの置換,削除,挿入率にのみ注意を払う方がよいことを観察した。 この単純なスキームはラベルの平滑化やサンプルの変種よりも一貫して性能が良い。 さらに,拡張データから推定したパープレキシティの挙動について検討するが,最終誤差率の予測には適さないと結論づけた。 我々は,CHiMe-6チャレンジにおいて,第2パス再描画から第1.1 %から第1.9 %まで絶対 WER の改善を図っている。

We examine the effect of data augmentation for training of language models for speech recognition. We compare augmentation based on global error statistics with one based on per-word unigram statistics of ASR errors and observe that it is better to only pay attention the global substitution, deletion and insertion rates. This simple scheme also performs consistently better than label smoothing and its sampled variants. Additionally, we investigate into the behavior of perplexity estimated on augmented data, but conclude that it gives no better prediction of the final error rate. Our best augmentation scheme increases the absolute WER improvement from second-pass rescoring from 1.1 % to 1.9 % absolute on the CHiMe-6 challenge.
翻訳日:2022-09-27 00:07:57 公開日:2020-11-11
# 個人化単語埋め込みの価値を探る

Exploring the Value of Personalized Word Embeddings ( http://arxiv.org/abs/2011.06057v1 )

ライセンス: Link先を確認
Charles Welch, Jonathan K. Kummerfeld, Ver\'onica P\'erez-Rosas, Rada Mihalcea(参考訳) 本稿では,パーソナライズされた単語埋め込みを紹介し,言語モデリングにおけるその価値を検討する。 パーソナライズされた単語表現と汎用的な単語表現を用いた場合の予測モデルの性能を比較し,これらの表現を性能向上にどのように活用できるかを検討する。 パーソナライズされたモデルを構築する際に、どの種類の単語がより正確に予測できるかを洞察する。 以上の結果から,特定の精神言語カテゴリーに属する単語のサブセットは,ユーザ間の表現に変化がみられ,汎用的およびパーソナライズされた単語埋め込みの組み合わせが最も優れた性能をもたらし,パープレキシティは4.7%低下することが示された。 さらに,パーソナライズされた単語埋め込みを用いた言語モデルが著者帰属に有効であることを示す。

In this paper, we introduce personalized word embeddings, and examine their value for language modeling. We compare the performance of our proposed prediction model when using personalized versus generic word representations, and study how these representations can be leveraged for improved performance. We provide insight into what types of words can be more accurately predicted when building personalized models. Our results show that a subset of words belonging to specific psycholinguistic categories tend to vary more in their representations across users and that combining generic and personalized word embeddings yields the best performance, with a 4.7% relative reduction in perplexity. Additionally, we show that a language model using personalized word embeddings can be effectively used for authorship attribution.
翻訳日:2022-09-27 00:07:46 公開日:2020-11-11
# パーソナリティと理論とデータの一致:イタリアのYouTubeコーパスがパーソナリティに関するコメントを公開

Matching Theory and Data with Personal-ITY: What a Corpus of Italian YouTube Comments Reveals About Personality ( http://arxiv.org/abs/2011.07009v1 )

ライセンス: Link先を確認
Elisa Bassignana, Malvina Nissim and Viviana Patti(参考訳) 英語以外の言語におけるパーソナリティ検出への貢献として、私たちは、パーソナリティ(Personal-ITY)を作成するために、遠く離れた監督に依存しています。 この特徴はMBTIという心理学研究における主要な個性理論の1つに由来する。 性格予測実験を使って (i)MBTIラベルを付加したTwitterデータセットであるTwiStyの他,当社のコーパス上でのパーソナリティ予測のタスクについて検討する。 (ii) 分類器が使用する特徴を詳細に分析し、最初にコーパスを作成するのに使った原説に照らして、具体的に観察する。 一つのモデルが人格検出に最適ではないことや、ある特性が他よりも検出し易いこと、また、理論に一致すること、例えば、あまり頻度の低い特徴がよりぼやけていることが観察された。

As a contribution to personality detection in languages other than English, we rely on distant supervision to create Personal-ITY, a novel corpus of YouTube comments in Italian, where authors are labelled with personality traits. The traits are derived from one of the mainstream personality theories in psychology research, named MBTI. Using personality prediction experiments, we (i) study the task of personality prediction in itself on our corpus as well as on TwiSty, a Twitter dataset also annotated with MBTI labels; (ii) carry out an extensive, in-depth analysis of the features used by the classifier, and view them specifically under the light of the original theory that we used to create the corpus in the first place. We observe that no single model is best at personality detection, and that while some traits are easier than others to detect, and also to match back to theory, for other, less frequent traits the picture is much more blurred.
翻訳日:2022-09-27 00:07:30 公開日:2020-11-11
# 多目的画像誤り隠蔽における妥協進化の応用

Application of Compromising Evolution in Multi-objective Image Error Concealment ( http://arxiv.org/abs/2011.05844v1 )

ライセンス: Link先を確認
Arash Broumand(参考訳) 多数の多目的最適化問題は、それらの相互選好が本質的に知られていない、同時に最適化される多くの適合関数と遭遇する。 基礎となる生成モデルの欠如により、既存の凸最適化アプローチは、画像拡張のような複雑な領域における問題に対するparetoの最適解を導出できない可能性がある。 そこで本報告では,このような欠点を解消するために,妥協の概念を生かして単純な遺伝的アルゴリズムを修正するために,妥協進化法を提案する。 シミュレーション結果は,画像誤り隠蔽のケーススタディにおいて,多目的最適化を解く手法のパワーを示す。

Numerous multi-objective optimization problems encounter with a number of fitness functions to be simultaneously optimized of which their mutual preferences are not inherently known. Suffering from the lack of underlying generative models, the existing convex optimization approaches may fail to derive the Pareto optimal solution for those problems in complicated domains such as image enhancement. In order to obviate such shortcomings, the Compromising Evolution Method is proposed in this report to modify the Simple Genetic Algorithm by utilizing the notion of compromise. The simulation results show the power of the proposed method solving multi-objective optimizations in a case study of image error concealment.
翻訳日:2022-09-27 00:07:11 公開日:2020-11-11
# モダリティ事前学習と注意によるマルチモーダル精度の向上

Improving Multimodal Accuracy Through Modality Pre-training and Attention ( http://arxiv.org/abs/2011.06102v1 )

ライセンス: Link先を確認
Aya Abdelsalam Ismail, Mahmudul Hasan, Faisal Ishtiaq(参考訳) マルチモーダルネットワークのトレーニングは困難であり、適切なパフォーマンスを達成するためには複雑なアーキテクチャが必要である。 この現象の1つの理由は、様々な様相の収束率の差である。 我々は、ネットワーク全体のエンドツーエンドのトレーニングの前に、マルチモーダルアーキテクチャでモダリティ固有のサブネットワークを個別にトレーニングすることで、この問題に対処する。 さらに,事前学習後のサブネットワーク間のアテンション機構の追加は,不明瞭なシナリオによる性能向上において,最も重要なモダリティを特定するのに役立つことを示す。 これらの2つのトリックを実行することで、単純なネットワークは、感情分析、感情認識、話者特性認識を含む複数のタスクをトレーニングするのに非常にコストがかかる複雑なアーキテクチャと同じようなパフォーマンスを実現することができることを示す。

Training a multimodal network is challenging and it requires complex architectures to achieve reasonable performance. We show that one reason for this phenomena is the difference between the convergence rate of various modalities. We address this by pre-training modality-specific sub-networks in multimodal architectures independently before end-to-end training of the entire network. Furthermore, we show that the addition of an attention mechanism between sub-networks after pre-training helps identify the most important modality during ambiguous scenarios boosting the performance. We demonstrate that by performing these two tricks a simple network can achieve similar performance to a complicated architecture that is significantly more expensive to train on multiple tasks including sentiment analysis, emotion recognition, and speaker trait recognition.
翻訳日:2022-09-27 00:06:42 公開日:2020-11-11
# 形状制御可能な活性化機能を有する磁壁漏洩脳ニューロン

Domain Wall Leaky Integrate-and-Fire Neurons with Shape-Based Configurable Activation Functions ( http://arxiv.org/abs/2011.06075v1 )

ライセンス: Link先を確認
Wesley H. Brigner, Naimul Hassan, Xuan Hu, Christopher H. Bennett, Felipe Garcia-Sanchez, Can Cui, Alvaro Velasquez, Matthew J. Marinella, Jean Anne C. Incorvia, Joseph S. Friedman(参考訳) 補完金属酸化物半導体(CMOS)デバイスは揮発性特性を示しており、ニューロモルフィックコンピューティングのようなアナログ用途には適していない。 一方、スピントロニクスデバイスは、ニューロモルフィックコンピューティングによく適合する不揮発性とアナログの両方の特徴を示す。 その結果、これらの新しいデバイスは、CMOS以外の人工知能アプリケーションの最前線にある。 しかし、これらの人工ニューロモルフィックデバイスの多くは依然としてcmosの使用を必要とするため、システムの効率は低下する。 そこで我々はこれまで,CMOSを必要としない人工ニューロンやシナプスを多数提案してきた。 これらのデバイスは、従来よりも大幅に改善されているが、ニューラルネットワークの学習と認識を可能にする能力は、固有のアクティベーション機能によって制限されている。 本研究は、磁区壁の形状を制御することによって活性化関数の設定を可能にするスピントロニクスニューロンの修正を提案する。 この研究で線形およびシグモダル活性化関数が示され、様々な活性化関数を実現するために同様のアプローチで拡張することができる。

Complementary metal oxide semiconductor (CMOS) devices display volatile characteristics, and are not well suited for analog applications such as neuromorphic computing. Spintronic devices, on the other hand, exhibit both non-volatile and analog features, which are well-suited to neuromorphic computing. Consequently, these novel devices are at the forefront of beyond-CMOS artificial intelligence applications. However, a large quantity of these artificial neuromorphic devices still require the use of CMOS, which decreases the efficiency of the system. To resolve this, we have previously proposed a number of artificial neurons and synapses that do not require CMOS for operation. Although these devices are a significant improvement over previous renditions, their ability to enable neural network learning and recognition is limited by their intrinsic activation functions. This work proposes modifications to these spintronic neurons that enable configuration of the activation functions through control of the shape of a magnetic domain wall track. Linear and sigmoidal activation functions are demonstrated in this work, which can be extended through a similar approach to enable a wide variety of activation functions.
翻訳日:2022-09-27 00:06:30 公開日:2020-11-11
# ワンショット視覚模倣用トランス

Transformers for One-Shot Visual Imitation ( http://arxiv.org/abs/2011.05970v1 )

ライセンス: Link先を確認
Sudeep Dasari, Abhinav Gupta(参考訳) 人間は、意図を推測し、過去の経験を使って同じ目的を達成することで、他人をシームレスに模倣することができる。 言い換えれば、生のビデオから複雑な意味知識を解析し、それを具体的な運動制御に効率的に翻訳することができる。 ロボットにも同じ能力を与えることができますか。 ロボット模倣学習の以前の研究は、専門家の人間のオペレーターから多様なスキルを習得できるエージェントを開発した。 しかしながら、これらのテクニックをテスト期間中にひとつの肯定的な例で機能させるのは、まだオープンな課題です。 制御は別として、難易度はデモンストレーターとロボットドメインのミスマッチに起因する。 例えば、オブジェクトは異なる場所に配置することができる(例えば、キッチンレイアウトは各家庭で異なる)。 さらに、このデモンストレーションは、形態や身体的な外観の異なるエージェント(例えば、人間)から来るため、1対1のアクション対応は利用できない。 本稿では,ロボットが過去の経験から,これらの領域間隙を部分的に橋渡しできる手法について検討する。 ニューラルネットワークは、他のエージェントからのコンテキストビデオから与えられた地上の真理ロボットアクションを模倣するように訓練され、テスト時間中に新しいビデオでトリガーされたタスクインスタンスに一般化されなければならない。 これらのタスクを実行するためには、ポリシー表現はコンテキスト駆動と動的認識の両方でなければならない、という仮説を立てる。 これらの仮定は、トランスフォーマーアテンション機構と自己教師付き逆ダイナミクス損失を用いてニューラルネットワークに組み込まれる。 最後に,一発操作タスクのスイートにおいて,従来のベースラインよりもタスク成功率で$\sim 2$xの改善が達成できることを実験的に検証した。

Humans are able to seamlessly visually imitate others, by inferring their intentions and using past experience to achieve the same end goal. In other words, we can parse complex semantic knowledge from raw video and efficiently translate that into concrete motor control. Is it possible to give a robot this same capability? Prior research in robot imitation learning has created agents which can acquire diverse skills from expert human operators. However, expanding these techniques to work with a single positive example during test time is still an open challenge. Apart from control, the difficulty stems from mismatches between the demonstrator and robot domains. For example, objects may be placed in different locations (e.g. kitchen layouts are different in every house). Additionally, the demonstration may come from an agent with different morphology and physical appearance (e.g. human), so one-to-one action correspondences are not available. This paper investigates techniques which allow robots to partially bridge these domain gaps, using their past experience. A neural network is trained to mimic ground truth robot actions given context video from another agent, and must generalize to unseen task instances when prompted with new videos during test time. We hypothesize that our policy representations must be both context driven and dynamics aware in order to perform these tasks. These assumptions are baked into the neural network using the Transformers attention mechanism and a self-supervised inverse dynamics loss. Finally, we experimentally determine that our method accomplishes a $\sim 2$x improvement in terms of task success rate over prior baselines in a suite of one-shot manipulation tasks.
翻訳日:2022-09-27 00:00:12 公開日:2020-11-11
# FastPathology:デジタル病理学におけるディープラーニング研究と意思決定支援のためのオープンソースプラットフォーム

FastPathology: An open-source platform for deep learning-based research and decision support in digital pathology ( http://arxiv.org/abs/2011.06033v1 )

ライセンス: Link先を確認
Andr\'e Pedersen, Marit Valla, Anna M. Bofin, Javier P\'erez de Frutos, Ingerid Reinertsen and Erik Smistad(参考訳) 深層畳み込みニューラルネットワーク(deep convolutional neural networks, cnns)は病理組織像のデジタル解析の最先端技術である。 大規模な全スライディング顕微鏡画像(WSI)は、これらの画像を読み、表示し、処理するために高度なメモリハンドリングを必要とする。 WSIを扱うためのオープンソースのプラットフォームはいくつかあるが、CNNモデルのデプロイをサポートするものはほとんどない。 これらのアプリケーションは推論にサードパーティのソリューションを使用するため、ユーザフレンドリで高性能な画像解析には適さない。 ローエンドマシン上でCNNをユーザフレンドリかつ実現可能にするため、我々はFastPathologyという新しいプラットフォームを開発し、FASTフレームワークとC++を使用しました。 wsisの読み書き、cnnモデルのデプロイ、結果のリアルタイムインタラクティブな可視化など、メモリ使用量を最小限に抑える。 ランタイム実験は、異なるアーキテクチャ、推論エンジン、ハードウェア構成、オペレーティングシステムの4つの異なるユースケースで実施された。 wsiの読み書き、可視化、ズーム、パンのメモリ使用量を、fastpathologyと3つの既存のプラットフォームを用いて測定した。 FastPathologyは、他のC++ベースのアプリケーションと同様のメモリで実行され、2つのJavaベースのプラットフォームよりもかなり少ない。 ニューラルネットワークモデル、推論エンジン、ハードウェア、プロセッサの選択はランタイムに大きな影響を与えた。 したがって、FastPathologyは単一のアプリケーションにおけるWSIの効率的な可視化と処理に必要なすべてのステップを含み、CNNと結果のリアルタイム表示を含む。 ソースコード、バイナリリリース、テストデータはgithubのhttps://github.com/sintefmedtek/fast-pathology/で見ることができる。

Deep convolutional neural networks (CNNs) are the current state-of-the-art for digital analysis of histopathological images. The large size of whole-slide microscopy images (WSIs) requires advanced memory handling to read, display and process these images. There are several open-source platforms for working with WSIs, but few support deployment of CNN models. These applications use third-party solutions for inference, making them less user-friendly and unsuitable for high-performance image analysis. To make deployment of CNNs user-friendly and feasible on low-end machines, we have developed a new platform, FastPathology, using the FAST framework and C++. It minimizes memory usage for reading and processing WSIs, deployment of CNN models, and real-time interactive visualization of results. Runtime experiments were conducted on four different use cases, using different architectures, inference engines, hardware configurations and operating systems. Memory usage for reading, visualizing, zooming and panning a WSI were measured, using FastPathology and three existing platforms. FastPathology performed similarly in terms of memory to the other C++ based application, while using considerably less than the two Java-based platforms. The choice of neural network model, inference engine, hardware and processors influenced runtime considerably. Thus, FastPathology includes all steps needed for efficient visualization and processing of WSIs in a single application, including inference of CNNs with real-time display of the results. Source code, binary releases and test data can be found online on GitHub at https://github.com/SINTEFMedtek/FAST-Pathology/.
翻訳日:2022-09-26 23:59:49 公開日:2020-11-11
# 造形データからの形態的曖昧さ

Morphological Disambiguation from Stemming Data ( http://arxiv.org/abs/2011.05504v1 )

ライセンス: Link先を確認
Antoine Nzeyimana(参考訳) 形態素解析と曖昧さの解消は、形態素豊かな言語の自然言語処理において重要な課題であり、重要な前処理である。 形態素豊かな言語であるkinyarwandaには、現在自動形態素解析のためのツールが欠けている。 言語学的にキュレートされた有限状態ツールは形態素解析のために容易に開発できるが、言語の形態学的豊かさは、効果的な曖昧さを必要とする多くの曖昧な分析を作成できる。 本稿では,クラウドソーシングによって収集した新たな語源データから,キニアルワンダ語の形態的曖昧さを学習する手法を提案する。 特徴工学とフィードフォワードニューラルネットワークに基づく分類器を用いて, 約89%の非コンテキスト化曖昧化精度を達成した。 本実験により, 茎の屈折特性と形態素関連規則が, 曖昧さの最も識別的な特徴であることが判明した。

Morphological analysis and disambiguation is an important task and a crucial preprocessing step in natural language processing of morphologically rich languages. Kinyarwanda, a morphologically rich language, currently lacks tools for automated morphological analysis. While linguistically curated finite state tools can be easily developed for morphological analysis, the morphological richness of the language allows many ambiguous analyses to be produced, requiring effective disambiguation. In this paper, we propose learning to morphologically disambiguate Kinyarwanda verbal forms from a new stemming dataset collected through crowd-sourcing. Using feature engineering and a feed-forward neural network based classifier, we achieve about 89% non-contextualized disambiguation accuracy. Our experiments reveal that inflectional properties of stems and morpheme association rules are the most discriminative features for disambiguation.
翻訳日:2022-09-26 23:58:28 公開日:2020-11-11
# NIT COVID-19 at WNUT-2020 Task 2: Deep Learning Model RoBERTa for Identify Informative COVID-19 English Tweets

NIT COVID-19 at WNUT-2020 Task 2: Deep Learning Model RoBERTa for Identify Informative COVID-19 English Tweets ( http://arxiv.org/abs/2011.05551v1 )

ライセンス: Link先を確認
Jagadeesh M S, Alphonse P J A(参考訳) 本稿では,nit_covid-19チームによるwnut-2020タスク2において,新型ウイルスの英語ツイートを識別するためのモデルを提案する。 この共有タスクは、インフォメーション(ノーベルウイルス)に関連する英語のつぶやきを自動的に識別する問題に対処する。 これらのインフォメーションツイートは、回復、確認、疑われ、死亡、および事件の位置または旅行履歴に関する情報を提供する。 提案手法は、英語の新型コロナウイルスのツイート分類に適したハイパーパラメータを持つ事前処理技術と事前訓練されたRoBERTaを含む。 共用タスクWNUT 2020 Task2のモデルによる性能はF1スコアの89.14%である。

This paper presents the model submitted by the NIT_COVID-19 team for identified informative COVID-19 English tweets at WNUT-2020 Task2. This shared task addresses the problem of automatically identifying whether an English tweet related to informative (novel coronavirus) or not. These informative tweets provide information about recovered, confirmed, suspected, and death cases as well as the location or travel history of the cases. The proposed approach includes pre-processing techniques and pre-trained RoBERTa with suitable hyperparameters for English coronavirus tweet classification. The performance achieved by the proposed model for shared task WNUT 2020 Task2 is 89.14% in the F1-score metric.
翻訳日:2022-09-26 23:58:13 公開日:2020-11-11
# パーソナリティ: イタリア語でパーソナリティを予測するYouTubeベースの新しいコーパス

Personal-ITY: A Novel YouTube-based Corpus for Personality Prediction in Italian ( http://arxiv.org/abs/2011.05688v1 )

ライセンス: Link先を確認
Elisa Bassignana, Malvina Nissim and Viviana Patti(参考訳) 本稿では,これまでに入手した資料に比べて多くの著者と異なるジャンルを含む,イタリア語におけるパーソナリティ予測のための新しいコーパスを提案する。 コーパスはDistant Supervisionを利用して構築されており、Myers-Briggs Type Indicator (MBTI) ラベルをYouTubeコメントに割り当て、さまざまな実験を行うことができる。 我々は,将来の作業のベースラインとして機能する個人性に関する予備実験について報告し,いくつかのタイプは他よりも予測が容易であることを示すとともに,データセット横断予測の要点について議論する。

We present a novel corpus for personality prediction in Italian, containing a larger number of authors and a different genre compared to previously available resources. The corpus is built exploiting Distant Supervision, assigning Myers-Briggs Type Indicator (MBTI) labels to YouTube comments, and can lend itself to a variety of experiments. We report on preliminary experiments on Personal-ITY, which can serve as a baseline for future work, showing that some types are easier to predict than others, and discussing the perks of cross-dataset prediction.
翻訳日:2022-09-26 23:58:01 公開日:2020-11-11
# 依存構文とニューラルモデルを用いた多言語アイアン検出

Multilingual Irony Detection with Dependency Syntax and Neural Models ( http://arxiv.org/abs/2011.05706v1 )

ライセンス: Link先を確認
Alessandra Teresa Cignarella, Valerio Basile, Manuela Sanguinetti, Cristina Bosco, Paolo Rosso and Farah Benamara(参考訳) 本稿では,多言語視点(英語,スペイン語,フランス語,イタリア語)における皮肉検出タスクにおける係り受けに基づく構文特徴の有効性について詳細に検討する。 これは構文知識からの貢献に注目し、普遍的依存関係スキームに従って構文を注釈する言語資源を活用している。 3つの異なる実験環境が提供される。 まず、古典的機械学習分類器と組み合わせた様々な構文依存型特徴について考察する。 第2のシナリオでは、2つの有名なワード埋め込みが解析データに基づいてトレーニングされ、ゴールド標準データセットに対してテストされる。 3つ目の設定では、依存性ベースの構文機能はMultilingual BERTアーキテクチャに統合されます。 その結果, 依存性に基づく詳細な構文情報は, アイロンの検出に有用であることが示唆された。

This paper presents an in-depth investigation of the effectiveness of dependency-based syntactic features on the irony detection task in a multilingual perspective (English, Spanish, French and Italian). It focuses on the contribution from syntactic knowledge, exploiting linguistic resources where syntax is annotated according to the Universal Dependencies scheme. Three distinct experimental settings are provided. In the first, a variety of syntactic dependency-based features combined with classical machine learning classifiers are explored. In the second scenario, two well-known types of word embeddings are trained on parsed data and tested against gold standard datasets. In the third setting, dependency-based syntactic features are combined into the Multilingual BERT architecture. The results suggest that fine-grained dependency-based syntactic information is informative for the detection of irony.
翻訳日:2022-09-26 23:57:49 公開日:2020-11-11
# IGSQL:文脈依存型テキスト-SQL生成のためのデータベーススキーマ相互作用グラフベースニューラルネットワークモデル

IGSQL: Database Schema Interaction Graph Based Neural Model for Context-Dependent Text-to-SQL Generation ( http://arxiv.org/abs/2011.05744v1 )

ライセンス: Link先を確認
Yitao Cai, Xiaojun Wan(参考訳) 近年、コンテキスト依存のテキスト-SQLタスクが注目されている。 従来のコンテキスト依存型テキスト-SQLタスクのモデルは、過去のユーザ入力の利用のみに集中していた。 本研究では,ユーザ入力の履歴情報をエンコーダを用いてキャプチャするだけでなく,データベーススキーマの履歴情報を利用するデータベーススキーマインタラクショングラフエンコーダを提案する。 復号化フェーズでは,異なる語彙の重要性を評価し,sqlトークンの予測を行うゲート機構を導入する。 ベンチマークsparcとcosqlデータセットは,2つの大規模複雑なコンテキスト依存のクロスドメイン・テキスト・ツー・sqlデータセットである。 我々のモデルは従来の最先端モデルよりも大きなマージンで優れており、2つのデータセットで新たな最先端結果が得られる。 比較とアブレーションの結果は,我々のモデルの有効性と,データベーススキーマ間相互作用グラフエンコーダの有用性を示している。

Context-dependent text-to-SQL task has drawn much attention in recent years. Previous models on context-dependent text-to-SQL task only concentrate on utilizing historical user inputs. In this work, in addition to using encoders to capture historical information of user inputs, we propose a database schema interaction graph encoder to utilize historicalal information of database schema items. In decoding phase, we introduce a gate mechanism to weigh the importance of different vocabularies and then make the prediction of SQL tokens. We evaluate our model on the benchmark SParC and CoSQL datasets, which are two large complex context-dependent cross-domain text-to-SQL datasets. Our model outperforms previous state-of-the-art model by a large margin and achieves new state-of-the-art results on the two datasets. The comparison and ablation results demonstrate the efficacy of our model and the usefulness of the database schema interaction graph encoder.
翻訳日:2022-09-26 23:57:38 公開日:2020-11-11
# 微分プライバシーの非対話的局所モデルにおける経験的リスク最小化

Empirical Risk Minimization in the Non-interactive Local Model of Differential Privacy ( http://arxiv.org/abs/2011.05934v1 )

ライセンス: Link先を確認
Di Wang and Marco Gaboardi and Adam Smith and Jinhui Xu(参考訳) 本稿では,非対話型局所微分プライバシー(LDP)モデルにおける経験的リスク最小化(ERM)問題について検討する。 この問題に関する以前の研究は、誤差$\alpha$を達成するためには、一般損失函数の次元$p$に依存する指数関数的な複雑さが必要であることを示唆している。 本稿では,このような制限を解消できる損失関数の条件を調査することにより,この問題を解決する試みを2つ行う。 最初の試みで、損失関数が$(\infty, t)$-smoothである場合、ベルンシュタイン多項式近似を用いることで、$\alpha$という項での指数依存性を避けることができることを示した。 次に,1ビット通信の複雑さと各プレイヤーの計算コストが$O(1)$であるプレーヤ効率のアルゴリズムを提案する。 これらのアルゴリズムの誤差境界は、漸近的に元のものと同じである。 追加の仮定では、サーバに対してより効率的なアルゴリズムも提供します。 第2の試行では、任意の1ドルLipschitz一般化線型凸損失関数に対して、誤差を達成するためのサンプル複雑性が$(\epsilon, \delta)$-LDPアルゴリズムは次元$p$でのみ線型であることを示す。 結果は内積近似手法の多項式を用いる。 最後に, 多項式近似を用いて, 様々な種類の多項式近似に基づいて, k-way境界クエリの集合とスムーズなクエリの集合を学習するための非インタラクティブな局所微分プライベートアルゴリズムを提案する。

In this paper, we study the Empirical Risk Minimization (ERM) problem in the non-interactive Local Differential Privacy (LDP) model. Previous research on this problem \citep{smith2017interaction} indicates that the sample complexity, to achieve error $\alpha$, needs to be exponentially depending on the dimensionality $p$ for general loss functions. In this paper, we make two attempts to resolve this issue by investigating conditions on the loss functions that allow us to remove such a limit. In our first attempt, we show that if the loss function is $(\infty, T)$-smooth, by using the Bernstein polynomial approximation we can avoid the exponential dependency in the term of $\alpha$. We then propose player-efficient algorithms with $1$-bit communication complexity and $O(1)$ computation cost for each player. The error bound of these algorithms is asymptotically the same as the original one. With some additional assumptions, we also give an algorithm which is more efficient for the server. In our second attempt, we show that for any $1$-Lipschitz generalized linear convex loss function, there is an $(\epsilon, \delta)$-LDP algorithm whose sample complexity for achieving error $\alpha$ is only linear in the dimensionality $p$. Our results use a polynomial of inner product approximation technique. Finally, motivated by the idea of using polynomial approximation and based on different types of polynomial approximations, we propose (efficient) non-interactive locally differentially private algorithms for learning the set of k-way marginal queries and the set of smooth queries.
翻訳日:2022-09-26 23:51:36 公開日:2020-11-11
# 高次元パラメータ推論の解法:辺縁後密度とモーメントネットワーク

Solving high-dimensional parameter inference: marginal posterior densities & Moment Networks ( http://arxiv.org/abs/2011.05991v1 )

ライセンス: Link先を確認
Niall Jeffrey and Benjamin D. Wandelt(参考訳) 推論のための高次元確率密度推定は「次元の曲線」に苦しむ。 多くの物理的推論問題において、完全な後方分布は、実際にはほとんど使われず、ほとんど使われない。 代わりに、高次元密度推定や高次元マルコフ連鎖モンテカルロ(MCMC)サンプリングを通した低次元境界分布の直接推定を提案する。 2次元辺縁後部を評価することにより、全次元パラメータ共分散構造を明らかにすることができる。 さらに,モーメントネットワークと呼ばれる高速神経回帰モデルの単純な階層を構築することを提案する。これは,任意の低次元の辺縁後密度の増大モーメントを計算し,解析的後部とマスケ自己回帰流から得られたモーメントの正確な結果を再現する。 高次元ligo様重力波時系列を用いた辺縁後密度推定を行い、基礎宇宙論の問題への応用について述べる。

High-dimensional probability density estimation for inference suffers from the "curse of dimensionality". For many physical inference problems, the full posterior distribution is unwieldy and seldom used in practice. Instead, we propose direct estimation of lower-dimensional marginal distributions, bypassing high-dimensional density estimation or high-dimensional Markov chain Monte Carlo (MCMC) sampling. By evaluating the two-dimensional marginal posteriors we can unveil the full-dimensional parameter covariance structure. We additionally propose constructing a simple hierarchy of fast neural regression models, called Moment Networks, that compute increasing moments of any desired lower-dimensional marginal posterior density; these reproduce exact results from analytic posteriors and those obtained from Masked Autoregressive Flows. We demonstrate marginal posterior density estimation using high-dimensional LIGO-like gravitational wave time series and describe applications for problems of fundamental cosmology.
翻訳日:2022-09-26 23:51:07 公開日:2020-11-11
# forestnet:衛星画像を用いた深層学習によるインドネシアの森林破壊のドライバ分類

ForestNet: Classifying Drivers of Deforestation in Indonesia using Deep Learning on Satellite Imagery ( http://arxiv.org/abs/2011.05479v1 )

ライセンス: Link先を確認
Jeremy Irvin, Hao Sheng, Neel Ramachandran, Sonja Johnson-Yu, Sharon Zhou, Kyle Story, Rose Rustowicz, Cooper Elsworth, Kemen Austin, Andrew Y. Ng(参考訳) 森林破壊につながる過程を特徴付けることは、森林保全・管理政策の策定と実施に不可欠である。 本研究では,インドネシアにおいて森林破壊率の高い国である森林破壊の要因を分類する,フォレストネットと呼ばれる深層学習モデルを開発した。 衛星画像を用いて、フォレストネットはどんな大きさの森林損失パッチでも森林破壊の直接の要因を特定する。 我々は、専門通訳のドライバアノテーションと組み合わせて、既知の森林損失イベントのランドサット8衛星画像のデータセットをキュレートする。 このデータセットを使用してモデルをトレーニングし、検証し、ForestNetが他の標準ドライバ分類アプローチを大幅に上回っていることを示す。 森林破壊ドライバー分類の自動化手法に関する今後の研究を支援するため,本研究で収集したデータセットはhttps://stanfordmlgroup.github.io/projects/forestnetで公開されている。

Characterizing the processes leading to deforestation is critical to the development and implementation of targeted forest conservation and management policies. In this work, we develop a deep learning model called ForestNet to classify the drivers of primary forest loss in Indonesia, a country with one of the highest deforestation rates in the world. Using satellite imagery, ForestNet identifies the direct drivers of deforestation in forest loss patches of any size. We curate a dataset of Landsat 8 satellite images of known forest loss events paired with driver annotations from expert interpreters. We use the dataset to train and validate the models and demonstrate that ForestNet substantially outperforms other standard driver classification approaches. In order to support future research on automated approaches to deforestation driver classification, the dataset curated in this study is publicly available at https://stanfordmlgroup.github.io/projects/forestnet .
翻訳日:2022-09-26 23:50:53 公開日:2020-11-11
# 胸部x線画像から肺炎を分類する深層伝達学習モデルの微調整によるアンサンブルベースアプローチ

An ensemble-based approach by fine-tuning the deep transfer learning models to classify pneumonia from chest X-ray images ( http://arxiv.org/abs/2011.05543v1 )

ライセンス: Link先を確認
Sagar Kora Venu(参考訳) 肺炎は、肺に感染するウイルス、細菌、または真菌によって引き起こされる。 米国では25万人以上の個人(主に成人)が毎年肺炎と診断され、5万人がこの病気で死亡した。 胸部x線撮影は、放射線技師が肺炎を検出するために広く使われている。 良く訓練された放射線科医の肺炎検出を見逃すことは珍しくなく、診断の正確性を改善する必要がある。 本研究では,ニューラルネットワークの学習時間を短縮し,一般化誤差を最小化する転送学習手法を提案する。 inceptionresnet, mobilenetv2, xception, densenet201, resnet152v2などの最先端のディープラーニングモデルを訓練し, 正確に肺炎を分類した。 後に、これらのモデルの重み付け平均アンサンブルを作成し、テスト精度98.46%、精度98.38%、リコール99.53%、f1スコア98.96%を達成した。 これらの正確性、正確性、およびf1スコアのパフォーマンス指標は、文献で報告された最も高いレベルであり、正確な肺炎の分類の基準と考えられる。

Pneumonia is caused by viruses, bacteria, or fungi that infect the lungs, which, if not diagnosed, can be fatal and lead to respiratory failure. More than 250,000 individuals in the United States, mainly adults, are diagnosed with pneumonia each year, and 50,000 die from the disease. Chest Radiography (X-ray) is widely used by radiologists to detect pneumonia. It is not uncommon to overlook pneumonia detection for a well-trained radiologist, which triggers the need for improvement in the diagnosis's accuracy. In this work, we propose using transfer learning, which can reduce the neural network's training time and minimize the generalization error. We trained, fine-tuned the state-of-the-art deep learning models such as InceptionResNet, MobileNetV2, Xception, DenseNet201, and ResNet152V2 to classify pneumonia accurately. Later, we created a weighted average ensemble of these models and achieved a test accuracy of 98.46%, precision of 98.38%, recall of 99.53%, and f1 score of 98.96%. These performance metrics of accuracy, precision, and f1 score are at their highest levels ever reported in the literature, which can be considered a benchmark for the accurate pneumonia classification.
翻訳日:2022-09-26 23:50:19 公開日:2020-11-11
# ジェネレーティブ・ディバイサル・ネットワークを用いた中国の風景画創出

End-to-End Chinese Landscape Painting Creation Using Generative Adversarial Networks ( http://arxiv.org/abs/2011.05552v1 )

ライセンス: Link先を確認
Alice Xue(参考訳) 現在のGANベースのアート生成手法は、条件入力に依存するため、非オリジナルなアートワークを生成する。 そこで本稿では,中国の風景画を終末から終末に生成する最初のモデルであるSketch-And-Paint GAN(SAPGAN)を提案する。 SAPGANは、エッジマップを生成するSketchGANと、続くエッジからペイントへの翻訳を行うPaintGANの2つのGANで構成されている。 我々のモデルは、中国の伝統的な風景画の新しいデータセットで訓練されています。 242人のビジュアルチューリングテストでは、SAPGANの絵画は55%の頻度で人間の作品と誤認され、ベースラインのGANの絵画よりも著しく優れています。 私たちの作品は、真に機械起源のアートジェネレーションの基礎を成している。

Current GAN-based art generation methods produce unoriginal artwork due to their dependence on conditional input. Here, we propose Sketch-And-Paint GAN (SAPGAN), the first model which generates Chinese landscape paintings from end to end, without conditional input. SAPGAN is composed of two GANs: SketchGAN for generation of edge maps, and PaintGAN for subsequent edge-to-painting translation. Our model is trained on a new dataset of traditional Chinese landscape paintings never before used for generative research. A 242-person Visual Turing Test study reveals that SAPGAN paintings are mistaken as human artwork with 55% frequency, significantly outperforming paintings from baseline GANs. Our work lays a groundwork for truly machine-original art generation.
翻訳日:2022-09-26 23:49:56 公開日:2020-11-11
# 画像分類のためのグラフ正規化を用いた半教師付きスパース表現

Semi-supervised Sparse Representation with Graph Regularization for Image Classification ( http://arxiv.org/abs/2011.05648v1 )

ライセンス: Link先を確認
Hongfeng Li(参考訳) 画像分類は現実のコンピュータにとって難しい問題である。 多数の手法が十分なラベル付き画像で満足のいく性能を達成できる。 しかし、ラベル付き画像は特定の画像分類タスクでは非常に制限されている。 代わりに、多くのラベルのない画像が利用可能で、入手が容易です。 したがって、利用可能な未ラベルデータを完全に活用することは、現在の画像分類法の性能をさらに向上させる潜在的方法である。 本稿では,画像分類のための半教師付きスパース表現アルゴリズムを提案する。 アルゴリズムでは、分類プロセスとスパース符号化を組み合わせることで、データ駆動線形分類器を学習する。 識別予測を得るために、予測されたラベルは、大域多様体構造グラフ、クラス内グラフ、クラス間グラフの3つのグラフで正規化される。 構築されたグラフはラベル付きデータとラベルなしデータの両方に含まれる構造情報を抽出することができる。 さらに、線形に分類できないデータを扱うためのカーネルバージョンに提案手法を拡張した。 そこで, 対応する最適化問題を解くために, 効率的なアルゴリズムを開発した。 いくつかの挑戦的データベースに対する実験結果から,提案アルゴリズムは関連する人気手法と比較して優れた性能を発揮することが示された。

Image classification is a challenging problem for computer in reality. Large numbers of methods can achieve satisfying performances with sufficient labeled images. However, labeled images are still highly limited for certain image classification tasks. Instead, lots of unlabeled images are available and easy to be obtained. Therefore, making full use of the available unlabeled data can be a potential way to further improve the performance of current image classification methods. In this paper, we propose a discriminative semi-supervised sparse representation algorithm for image classification. In the algorithm, the classification process is combined with the sparse coding to learn a data-driven linear classifier. To obtain discriminative predictions, the predicted labels are regularized with three graphs, i.e., the global manifold structure graph, the within-class graph and the between-classes graph. The constructed graphs are able to extract structure information included in both the labeled and unlabeled data. Moreover, the proposed method is extended to a kernel version for dealing with data that cannot be linearly classified. Accordingly, efficient algorithms are developed to solve the corresponding optimization problems. Experimental results on several challenging databases demonstrate that the proposed algorithm achieves excellent performances compared with related popular methods.
翻訳日:2022-09-26 23:49:27 公開日:2020-11-11
# 低線量CT用自己減衰スペクトル正規化マルコフパッチGANを用いた非局所ニューラルネットワークのノイズ意識トレーニング

Noise Conscious Training of Non Local Neural Network powered by Self Attentive Spectral Normalized Markovian Patch GAN for Low Dose CT Denoising ( http://arxiv.org/abs/2011.05684v1 )

ライセンス: Link先を確認
Sutanu Bera, Prabir Kumar Biswas(参考訳) 医療実践におけるCT(Computer Tomography)画像の使用の爆発的増加は、患者の放射線線量に対する公衆の関心を高めている。 しかし、放射線線量を減らすことでノイズやアーティファクトが増加し、スキャンの解釈可能性が低下する。 その結果、低線量ctの診断性能を向上させるための高度な画像再構成アルゴリズムが研究者の第一の関心事となった。 近年,低線量CT(LDCT)の主流手法として深層学習技術が出現している。 しかし、いくつかの一般的なボトルネックがまだ存在し、ディープラーニングベースのテクニックが最高のパフォーマンスを提供するのを妨げる。 本研究では,これらの問題を3つの新しい付加法で緩和する試みを行った。 まず,CT画像の近傍類似性をタスクの認知に活用するための新しい畳み込みモジュールを提案する。 提案モジュールはデノナイジングを顕著なマージンで促進するのに役立った。 次に,CTノイズの非定常性の問題に向けて移動し,LDCT復調のための新しいノイズ認識平均二乗誤差損失を導入した。 また、上記の損失は画像パッチを用いたct除音ネットワークの訓練に要する労力の軽減にも寄与した。 最後に,CTのタスクを識別する新しい識別機能を提案する。 従来のバニラ識別器は、微細構造の詳細を見落とし、グローバルな合意に集中する傾向にある。 LDCT画像の診断品質の回復には,自己注意と画素単位のGANが有効である。 2016年nih-aapm-mayoクリニック低線量ctグランドチャレンジの公開データセット上で検証した手法は,既存の手法よりも著しく優れていた。

The explosive rise of the use of Computer tomography (CT) imaging in medical practice has heightened public concern over the patient's associated radiation dose. However, reducing the radiation dose leads to increased noise and artifacts, which adversely degrades the scan's interpretability. Consequently, an advanced image reconstruction algorithm to improve the diagnostic performance of low dose ct arose as the primary concern among the researchers, which is challenging due to the ill-posedness of the problem. In recent times, the deep learning-based technique has emerged as a dominant method for low dose CT(LDCT) denoising. However, some common bottleneck still exists, which hinders deep learning-based techniques from furnishing the best performance. In this study, we attempted to mitigate these problems with three novel accretions. First, we propose a novel convolutional module as the first attempt to utilize neighborhood similarity of CT images for denoising tasks. Our proposed module assisted in boosting the denoising by a significant margin. Next, we moved towards the problem of non-stationarity of CT noise and introduced a new noise aware mean square error loss for LDCT denoising. Moreover, the loss mentioned above also assisted to alleviate the laborious effort required while training CT denoising network using image patches. Lastly, we propose a novel discriminator function for CT denoising tasks. The conventional vanilla discriminator tends to overlook the fine structural details and focus on the global agreement. Our proposed discriminator leverage self-attention and pixel-wise GANs for restoring the diagnostic quality of LDCT images. Our method validated on a publicly available dataset of the 2016 NIH-AAPM-Mayo Clinic Low Dose CT Grand Challenge performed remarkably better than the existing state of the art method.
翻訳日:2022-09-26 23:49:11 公開日:2020-11-11
# 畳み込み支援ベクトルマシンを用いた胸部CT画像におけるCOVID-19の分類

Classification of COVID-19 in Chest CT Images using Convolutional Support Vector Machines ( http://arxiv.org/abs/2011.05746v1 )

ライセンス: Link先を確認
Umut \"Ozkaya, \c{S}aban \"Ozt\"urk, Serkan Budak, Farid Melgani, Kemal Polat(参考訳) 目的:中国武漢で発生し、世界中に影響を与えたコロナウイルス2019(COVID-19)は、数千人の命を犠牲にした。 このウイルスが急速に拡散するため、手動診断は非効率である。 このため、人工知能アルゴリズムのサポートにより、新型コロナウイルスの自動検出研究が行なわれる。 方法:本研究では,高パフォーマンスのCOVID-19症例を検出する深層学習モデルを提案する。 提案手法は畳み込み支援ベクターマシン(csvm)として定義され,ct画像の自動分類が可能である。 移行学習法で訓練された事前学習された畳み込みニューラルネットワーク(CNN)とは異なり、CSVMモデルはスクラッチとして訓練される。 CSVM法の性能を評価するために、データセットはトレーニング(%75)とテスト(%25)の2つの部分に分けられる。 CSVMモデルは3つの異なるSVMカーネルを含むブロックで構成されている。 結果: cnnネットワークとcsvmモデルの性能を評価すると、csvm (7x7, 3x3, 1x1)モデルが最も高いパフォーマンスを示し、94.03% acc, 96.09% sen, 92.01% spe, 92.19% pre, 94.10% f1-score, 88.15% mcc, 88.07% kappaである。 結論: 提案手法は他の方法よりも効果的である。 これは、新型コロナウイルスとの戦いや将来の研究にインスピレーションを与えるために行われた実験で証明されている。

Purpose: Coronavirus 2019 (COVID-19), which emerged in Wuhan, China and affected the whole world, has cost the lives of thousands of people. Manual diagnosis is inefficient due to the rapid spread of this virus. For this reason, automatic COVID-19 detection studies are carried out with the support of artificial intelligence algorithms. Methods: In this study, a deep learning model that detects COVID-19 cases with high performance is presented. The proposed method is defined as Convolutional Support Vector Machine (CSVM) and can automatically classify Computed Tomography (CT) images. Unlike the pre-trained Convolutional Neural Networks (CNN) trained with the transfer learning method, the CSVM model is trained as a scratch. To evaluate the performance of the CSVM method, the dataset is divided into two parts as training (%75) and testing (%25). The CSVM model consists of blocks containing three different numbers of SVM kernels. Results: When the performance of pre-trained CNN networks and CSVM models is assessed, CSVM (7x7, 3x3, 1x1) model shows the highest performance with 94.03% ACC, 96.09% SEN, 92.01% SPE, 92.19% PRE, 94.10% F1-Score, 88.15% MCC and 88.07% Kappa metric values. Conclusion: The proposed method is more effective than other methods. It has proven in experiments performed to be an inspiration for combating COVID and for future studies.
翻訳日:2022-09-26 23:48:45 公開日:2020-11-11
# 微分的にプライベートな合成データ:応用評価と強化

Differentially Private Synthetic Data: Applied Evaluations and Enhancements ( http://arxiv.org/abs/2011.05537v1 )

ライセンス: Link先を確認
Lucas Rosenblatt, Xiaoyan Liu, Samira Pouyanfar, Eduardo de Leon, Anuj Desai, Joshua Allen(参考訳) 機械学習の実践者は、予測モデルを構築する際に、データ所有者のプライバシを侵害することなく、最も情報性の高いデータを活用することを求める。 プライベートなデータ合成は、個人の詳細を露出から保護し、プライベートに生成されたデータセット上で差分にプライベートな機械学習モデルのトレーニングを可能にする。 しかし, 差動合成データの有効性を効果的に評価するにはどうすればよいか? 本稿では,データ合成のための4つの差分私的生成対向ネットワークについて検討する。 それぞれを5つの標準表データセットと2つの応用業界シナリオで大規模に評価する。 我々は、最近の文献や他の標準機械学習ツールの新しいメトリクスでベンチマークする。 以上の結果から,いくつかのシンセサイザは異なるプライバシ予算に適用可能であり,さらに,アプローチ選択におけるドメインベースのトレードオフを複雑化することを示す。 研究者や専門家にもプライベートな内部データを用いた応用機械学習シナリオの実験的な学習を提供する。 さらに,合成データ生成のためのアンサンブルに基づくモデリング手法であるquailを提案する。 quailのトレードオフを検証し、同じ予算制約の下で、ベースラインの差分的教師付き学習モデルよりも優れる状況に留意する。

Machine learning practitioners frequently seek to leverage the most informative available data, without violating the data owner's privacy, when building predictive models. Differentially private data synthesis protects personal details from exposure, and allows for the training of differentially private machine learning models on privately generated datasets. But how can we effectively assess the efficacy of differentially private synthetic data? In this paper, we survey four differentially private generative adversarial networks for data synthesis. We evaluate each of them at scale on five standard tabular datasets, and in two applied industry scenarios. We benchmark with novel metrics from recent literature and other standard machine learning tools. Our results suggest some synthesizers are more applicable for different privacy budgets, and we further demonstrate complicating domain-based tradeoffs in selecting an approach. We offer experimental learning on applied machine learning scenarios with private internal data to researchers and practioners alike. In addition, we propose QUAIL, an ensemble-based modeling approach to generating synthetic data. We examine QUAIL's tradeoffs, and note circumstances in which it outperforms baseline differentially private supervised learning models under the same budget constraint.
翻訳日:2022-09-26 23:42:16 公開日:2020-11-11
# 事前学習の活用による把握探索の促進

Accelerating Grasp Exploration by Leveraging Learned Priors ( http://arxiv.org/abs/2011.05661v1 )

ライセンス: Link先を確認
Han Yu Li, Michael Danielczuk, Ashwin Balakrishna, Vishal Satish, Ken Goldberg(参考訳) ロボットが新しい物体を把握できることは、eコマースのオーダーフルフィルメントとホームサービスに産業的応用をもたらす。 データ駆動の把握ポリシーは、任意のオブジェクトを把握するための一般的な戦略を学ぶことに成功している。 しかし、これらのアプローチは複雑な幾何学を持つオブジェクトや、トレーニング分布の外側にあるオブジェクトを把握できない可能性がある。 本稿では,オンライン体験を用いて未知形状の物体を把握できるトンプソンサンプリングアルゴリズムを提案する。 このアルゴリズムは、デクスタリティネットワークロボット把持プランナーから学習された事前情報を活用して、把持探索をガイドし、新たな対象の安定なポーズごとに把持成功の確率的推定を提供する。 Dex-Netでポリシーをシードすることで、これらのオブジェクトの堅牢な把握をより効率的に見つけることができます。 実験によると、最高の学習方針は、3000のオブジェクトのポーズで30万以上のトレーニングを実行すると、平均的な総報酬64.5%を、oracleのベースラインの5.7%以内に達成する。

The ability of robots to grasp novel objects has industry applications in e-commerce order fulfillment and home service. Data-driven grasping policies have achieved success in learning general strategies for grasping arbitrary objects. However, these approaches can fail to grasp objects which have complex geometry or are significantly outside of the training distribution. We present a Thompson sampling algorithm that learns to grasp a given object with unknown geometry using online experience. The algorithm leverages learned priors from the Dexterity Network robot grasp planner to guide grasp exploration and provide probabilistic estimates of grasp success for each stable pose of the novel object. We find that seeding the policy with the Dex-Net prior allows it to more efficiently find robust grasps on these objects. Experiments suggest that the best learned policy attains an average total reward 64.5% higher than a greedy baseline and achieves within 5.7% of an oracle baseline when evaluated over 300,000 training runs across a set of 3000 object poses.
翻訳日:2022-09-26 23:41:31 公開日:2020-11-11
# 強化学習実験とロボット到達課題解法ベンチマーク

Reinforcement Learning Experiments and Benchmark for Solving Robotic Reaching Tasks ( http://arxiv.org/abs/2011.05782v1 )

ライセンス: Link先を確認
Pierre Aumjaud, David McAuliffe, Francisco Javier Rodr\'iguez Lera, Philip Cardiff(参考訳) 強化学習は、自己学習を通じて効率的なロボット制御手順を開発する能力のおかげで、ロボット工学において大きな可能性を秘めている。 特に、ロボットアームによる到達タスクの解決に強化学習がうまく適用されている。 本稿では,ロバストで再現可能で系統的な実験手順を定義し,この課題の解法におけるモデルフリーアルゴリズムの性能を比較する。 ポリシーはシミュレーションで訓練され、その後物理的なロボットマニピュレータに転送される。 その結果,各エピソードの開始時に目標位置がランダムに初期化されると,ハイドサイト体験再生探索技術により報奨信号の増大が7倍から9倍に増加することがわかった。

Reinforcement learning has shown great promise in robotics thanks to its ability to develop efficient robotic control procedures through self-training. In particular, reinforcement learning has been successfully applied to solving the reaching task with robotic arms. In this paper, we define a robust, reproducible and systematic experimental procedure to compare the performance of various model-free algorithms at solving this task. The policies are trained in simulation and are then transferred to a physical robotic manipulator. It is shown that augmenting the reward signal with the Hindsight Experience Replay exploration technique increases the average return of off-policy agents between 7 and 9 folds when the target position is initialised randomly at the beginning of each episode.
翻訳日:2022-09-26 23:41:12 公開日:2020-11-11
# 深層学習に基づくバリスト心電図システムにおける睡眠覚醒状態の分類

Classification Of Sleep-Wake State In A Ballistocardiogram System Based On Deep Learning ( http://arxiv.org/abs/2011.08977v1 )

ライセンス: Link先を確認
Nemath Ahmed, Aashit Singh, Srivyshnav KS, Gulshan Kumar, Gaurav Parchani, Vibhor Saran(参考訳) 睡眠状態分類は睡眠パターンの管理と理解に不可欠であり、一般的に急性または慢性の睡眠障害を特定する最初のステップである。 しかし、睡眠中の被験者の自然環境や状況に影響を与えずに行うことが不可欠である。 ポリソムノグラフィー(PSG)のような技術は邪魔になり、通常の睡眠モニタリングには有用ではない。 幸いなことに、新しい技術と高度なコンピューティングの台頭は、睡眠技術のモニタリングに最近復活した。 接触のない非閉塞性モニタリング技術の一つにBallistocradiography (BCG)があり、血液の心臓の放出に対する身体の反応を測定することでバイタルをモニターする。 本研究では,BCGセンサからの信号を用いて,睡眠覚醒状態の分類と睡眠覚醒時間を正確に予測するマルチヘッド1次元畳み込み型ディープニューラルネットワークを提案する。 本手法は,psgシステムに基づく研究と同等の95.5%の睡眠・覚醒分類スコアを得る。 さらに,睡眠・覚醒予測の精度をテストするために,制御・無制御環境における2つの独立した実験を行った。 115人の被験者で94.16%、350人の被験者で94.90%を得る。 提案方式の高精度で接触のない性質は,睡眠状態の長期モニタリングに有用である。

Sleep state classification is vital in managing and understanding sleep patterns and is generally the first step in identifying acute or chronic sleep disorders. However, it is essential to do this without affecting the natural environment or conditions of the subject during their sleep. Techniques such as Polysomnography(PSG) are obtrusive and are not convenient for regular sleep monitoring. Fortunately, The rise of novel technologies and advanced computing has given a recent resurgence to monitoring sleep techniques. One such contactless and unobtrusive monitoring technique is Ballistocradiography(BCG), in which vitals are monitored by measuring the body's reaction to the cardiac ejection of blood. In this study, we propose a Multi-Head 1D-Convolution based Deep Neural Network to classify sleep-wake state and predict sleep-wake time accurately using the signals coming from a BCG sensor. Our method achieves a sleep-wake classification score of 95.5%, which is on par with researches based on the PSG system. We further conducted two independent studies in a controlled and uncontrolled environment to test the sleep-wake prediction accuracy. We achieve a score of 94.16% in a controlled environment on 115 subjects and 94.90% in an uncontrolled environment on 350 subjects. The high accuracy and contactless nature of the proposed system make it a convenient method for long term monitoring of sleep states.
翻訳日:2022-09-26 23:40:42 公開日:2020-11-11
# レコメンダシステムのための適応型ニューラルネットワークアーキテクチャ

Adaptive Neural Architectures for Recommender Systems ( http://arxiv.org/abs/2012.00743v1 )

ライセンス: Link先を確認
Dimitrios Rafailidis, Stefanos Antaris(参考訳) ディープラーニングは、ユーザの好みの非線形関連を捉える効果的な手段であることが証明されている。 しかし、既存のディープラーニングアーキテクチャの主な欠点は、ユーザのリアルタイムフィードバックを無視して、一定の推奨戦略に従うことだ。 近年の深層強化戦略の進歩により,ユーザがシステムと対話しながらレコメンデーションポリシーを継続的に更新できることがわかった。 そうすることで、レコメンデーションセッションよりもユーザの好みに合った最適なポリシーを学ぶことができます。 深い強化戦略の主な欠点は、事前定義された固定されたニューラルネットワークアーキテクチャに基づいていることである。 この問題に対処するために,我々はまず推奨のための深層強化学習戦略を提示し,固定されたニューラルネットワークアーキテクチャによる主な限界について議論する。 そして、他の研究領域における連続的なタスクに、最近の進歩的ニューラルアーキテクチャの進歩がどのように使われているのかを詳述する。 最後に、深層強化学習と適応型ニューラルアーキテクチャのギャップを埋めるための重要な課題を示す。 強化学習による各ユーザからのフィードバックに基づいて最適なニューラルアーキテクチャを探索するためのガイドラインを提示し,リアルタイムレコメンデーションの予測性能とモデルの複雑さを考察した。

Deep learning has proved an effective means to capture the non-linear associations of user preferences. However, the main drawback of existing deep learning architectures is that they follow a fixed recommendation strategy, ignoring users' real time-feedback. Recent advances of deep reinforcement strategies showed that recommendation policies can be continuously updated while users interact with the system. In doing so, we can learn the optimal policy that fits to users' preferences over the recommendation sessions. The main drawback of deep reinforcement strategies is that are based on predefined and fixed neural architectures. To shed light on how to handle this issue, in this study we first present deep reinforcement learning strategies for recommendation and discuss the main limitations due to the fixed neural architectures. Then, we detail how recent advances on progressive neural architectures are used for consecutive tasks in other research domains. Finally, we present the key challenges to fill the gap between deep reinforcement learning and adaptive neural architectures. We provide guidelines for searching for the best neural architecture based on each user feedback via reinforcement learning, while considering the prediction performance on real-time recommendations and the model complexity.
翻訳日:2022-09-26 23:40:20 公開日:2020-11-11
# コンテンツベースフィルタを用いたTwitter上の関連する洪水画像の検索

Finding Relevant Flood Images on Twitter using Content-based Filters ( http://arxiv.org/abs/2011.05756v1 )

ライセンス: Link先を確認
Bj\"orn Barz, Kai Schr\"oter, Ann-Christin Kra, Joachim Denzler(参考訳) タイムリーな方法で洪水などの自然災害の分析は、粗い分散センサーやセンサー故障による限られたデータに悩まされることが多い。 同時に、Twitterなどのソーシャルメディアプラットフォームに投稿されたイベントの画像には、大量の情報が埋められている。 これらの画像は、状況の文書化と迅速な評価、センサーから得られないプロキシデータ(例えば、水質汚染の程度)の導出に使用できる。 しかし、オンラインに投稿されたすべての画像がこの目的に十分適しているわけではない。 そこで本研究では,洪水地域,浸水深さ,水質汚染の程度など,情報目的の1つに関係するtwitter画像を検出するための機械学習手法を用いた自動フィルタリング手法を提案する。 ツイートに存在するテキスト情報に頼る代わりに、フィルタは画像の内容を直接分析する。 本研究では,2つの大洪水イベントのケーススタディにおける2つの異なるアプローチと様々な特徴の評価を行った。 画像ベースフィルタは,キーワードベースフィルタと比較して検索結果の質を著しく向上し,平均精度を平均23%から53%に向上させることができる。

The analysis of natural disasters such as floods in a timely manner often suffers from limited data due to coarsely distributed sensors or sensor failures. At the same time, a plethora of information is buried in an abundance of images of the event posted on social media platforms such as Twitter. These images could be used to document and rapidly assess the situation and derive proxy-data not available from sensors, e.g., the degree of water pollution. However, not all images posted online are suitable or informative enough for this purpose. Therefore, we propose an automatic filtering approach using machine learning techniques for finding Twitter images that are relevant for one of the following information objectives: assessing the flooded area, the inundation depth, and the degree of water pollution. Instead of relying on textual information present in the tweet, the filter analyzes the image contents directly. We evaluate the performance of two different approaches and various features on a case-study of two major flooding events. Our image-based filter is able to enhance the quality of the results substantially compared with a keyword-based filter, improving the mean average precision from 23% to 53% on average.
翻訳日:2022-09-26 23:33:13 公開日:2020-11-11
# FAT: ハードウェア障害下での信頼性推論のためのニューラルネットワークのトレーニング

FAT: Training Neural Networks for Reliable Inference Under Hardware Faults ( http://arxiv.org/abs/2011.05873v1 )

ライセンス: Link先を確認
Ussama Zahid, Giulio Gambardella, Nicholas J. Fraser, Michaela Blott, Kees Vissers(参考訳) deep neural networks (dnn) は、画像分類から音声認識まで、複数のアプリケーションのための最先端のアルゴリズムである。 優れた精度を提供する一方で、大きな計算とメモリの要求があることが多い。 この結果、量子化されたニューラルネットワーク(qnn)は、高い精度に加えて、浮動小数点の同等値に比べて計算やメモリの要求が著しく低いため、特に組み込みデバイスで採用され、デプロイされるようになっている。 qnnのデプロイメントは、自動車、アビオニクス、医療、工業など、安全クリティカルなアプリケーションでも評価されている。 これらのシステムは機能的安全性を必要とし、ハードウェア障害が存在する場合でも障害のない動作を保証する。 一般にフォールトトレランスは、システムに冗長性を追加することで達成でき、全体的な計算要求をさらに悪化させ、電力と性能の要求を満たすことが困難になる。 機能的安全性を達成するためのハードウェアコストを削減するためには、DNN固有の機能を利用するドメイン固有のソリューションを検討することが不可欠である。 本研究では、ニューラルネットワーク(NN)トレーニング中のエラーモデリングを含む、障害認識トレーニング(FAT)と呼ばれる新しい手法を提案する。 我々の実験は、トレーニング中に畳み込み層に欠陥を注入することにより、精度の高い畳み込みニューラルネットワーク(CNN)をトレーニングできることを示した。 さらに,fatでトレーニングされたqnnから構築した冗長システムは,ハードウェアコストの低減により,より悪い場合の精度が向上することを示す。 これは CIFAR10, GTSRB, SVHN, ImageNet など多くの分類タスクに対して検証されている。

Deep neural networks (DNNs) are state-of-the-art algorithms for multiple applications, spanning from image classification to speech recognition. While providing excellent accuracy, they often have enormous compute and memory requirements. As a result of this, quantized neural networks (QNNs) are increasingly being adopted and deployed especially on embedded devices, thanks to their high accuracy, but also since they have significantly lower compute and memory requirements compared to their floating point equivalents. QNN deployment is also being evaluated for safety-critical applications, such as automotive, avionics, medical or industrial. These systems require functional safety, guaranteeing failure-free behaviour even in the presence of hardware faults. In general fault tolerance can be achieved by adding redundancy to the system, which further exacerbates the overall computational demands and makes it difficult to meet the power and performance requirements. In order to decrease the hardware cost for achieving functional safety, it is vital to explore domain-specific solutions which can exploit the inherent features of DNNs. In this work we present a novel methodology called fault-aware training (FAT), which includes error modeling during neural network (NN) training, to make QNNs resilient to specific fault models on the device. Our experiments show that by injecting faults in the convolutional layers during training, highly accurate convolutional neural networks (CNNs) can be trained which exhibits much better error tolerance compared to the original. Furthermore, we show that redundant systems which are built from QNNs trained with FAT achieve higher worse-case accuracy at lower hardware cost. This has been validated for numerous classification tasks including CIFAR10, GTSRB, SVHN and ImageNet.
翻訳日:2022-09-26 23:32:57 公開日:2020-11-11
# スキッピングネットワークを用いた転送核融合学習

Transferred Fusion Learning using Skipped Networks ( http://arxiv.org/abs/2011.05895v1 )

ライセンス: Link先を確認
Vinayaka R Kamath, Vishal S, Varun M(参考訳) 興味のあるエンティティの識別は、知的システムにおいて顕著である。 認識能力が追加されると、モデルの視覚的インテリジェンスが向上する。 転送学習やゼロショット学習のようないくつかの方法は、既存のモデルを再利用したり、既存のモデルを拡張したりして、オブジェクト認識のタスクでパフォーマンスを向上させるのに役立ちます。 トランスファード融合学習(Transfered fusion learning)は、両方の世界を最大限に活用し、システムに関わるモデルよりも優れたモデルを構築するためのメカニズムである。 本稿では,ネットワークが相互に学習する学生アーキテクチャを導入することで,転校学習のプロセスを増幅する新しいメカニズムを提案する。

Identification of an entity that is of interest is prominent in any intelligent system. The visual intelligence of the model is enhanced when the capability of recognition is added. Several methods such as transfer learning and zero shot learning help to reuse the existing models or augment the existing model to achieve improved performance at the task of object recognition. Transferred fusion learning is one such mechanism that intends to use the best of both worlds and build a model that is capable of outperforming the models involved in the system. We propose a novel mechanism to amplify the process of transfer learning by introducing a student architecture where the networks learn from each other.
翻訳日:2022-09-26 23:32:30 公開日:2020-11-11
# 老化顔認識のためのage gap reductionr-gan

Age Gap Reducer-GAN for Recognizing Age-Separated Faces ( http://arxiv.org/abs/2011.05897v1 )

ライセンス: Link先を確認
Daksha Yadav, Naman Kohli, Mayank Vatsa, Richa Singh, Afzel Noore(参考訳) 本稿では,年齢進行に伴う顔と時間変化をマッチングする新しいアルゴリズムを提案する。 提案手法は,顔の年齢推定と年齢別顔の検証を組み合わせた統合フレームワークである。 このアプローチの鍵となるアイデアは、対象者の性別の入力画像と、顔の進行を必要とする対象年齢群を条件付けして、時間を通じて年齢変化を学ぶことである。 損失関数は、元の画像と生成された顔画像との年齢ギャップを減少させ、アイデンティティを保持する。 視覚的忠実度および定量的評価は, 年齢別顔認識における異なる顔年齢データベースに対する提案アーキテクチャの有効性を示す。

In this paper, we propose a novel algorithm for matching faces with temporal variations caused due to age progression. The proposed generative adversarial network algorithm is a unified framework that combines facial age estimation and age-separated face verification. The key idea of this approach is to learn the age variations across time by conditioning the input image on the subject's gender and the target age group to which the face needs to be progressed. The loss function accounts for reducing the age gap between the original image and generated face image as well as preserving the identity. Both visual fidelity and quantitative evaluations demonstrate the efficacy of the proposed architecture on different facial age databases for age-separated face recognition.
翻訳日:2022-09-26 23:32:18 公開日:2020-11-11
# 双方向特徴予測による教師なし映像表現学習

Unsupervised Video Representation Learning by Bidirectional Feature Prediction ( http://arxiv.org/abs/2011.06037v1 )

ライセンス: Link先を確認
Nadine Behrmann and Juergen Gall and Mehdi Noroozi(参考訳) 本稿では,特徴予測を用いた自己教師型映像表現学習手法を提案する。 将来の特徴予測に焦点をあてた従来の手法とは対照的に、観測されていない過去のフレームから発生する監視信号は、将来のフレームから発生するものと相補的であると論じる。 提案手法の背景にある理論的根拠は,映像の時間構造を将来と過去を区別してネットワークに探索させることである。 我々は、未来と過去の共同符号化によって、スワップによる時間的ハードネガティブの包括的セットを提供する、対照的な学習フレームワークでモデルをトレーニングする。 実験により,両信号の活用は,学習した表現を動作認識の下流タスクに富むことを示した。 それは未来と過去の独立した予測を上回る。

This paper introduces a novel method for self-supervised video representation learning via feature prediction. In contrast to the previous methods that focus on future feature prediction, we argue that a supervisory signal arising from unobserved past frames is complementary to one that originates from the future frames. The rationale behind our method is to encourage the network to explore the temporal structure of videos by distinguishing between future and past given present observations. We train our model in a contrastive learning framework, where joint encoding of future and past provides us with a comprehensive set of temporal hard negatives via swapping. We empirically show that utilizing both signals enriches the learned representations for the downstream task of action recognition. It outperforms independent prediction of future and past.
翻訳日:2022-09-26 23:32:07 公開日:2020-11-11
# ユーザレビューに基づくeコマースクエリベース生成

E-commerce Query-based Generation based on User Review ( http://arxiv.org/abs/2011.05546v1 )

ライセンス: Link先を確認
Yiren Liu, Kuan-Ying Lee(参考訳) 電子商取引プラットフォーム上の商品の増加に伴い、ユーザーは購入する商品を決定するために他の買い物客のレビューを参照する傾向にある。 しかし、製品のレビューが多すぎると、ユーザはレビューを閲覧して、気に入らない製品属性について話すのに多くの時間を費やさなければなりません。 ユーザの製品固有の質問を自動的に要約して答えるシステムを確立したい。 本研究では,前者の投稿したレビューに基づいて,ユーザの質問に対する回答を生成する新しいseq2seqベースのテキスト生成モデルを提案する。 ユーザの質問や感情の極性を考慮し、関心の側面を抽出し、過去のユーザレビューを要約した回答を生成する。 具体的には,エンコード中に入力レビューと対象アスペクトの間に注意を向け,デコード時にレビューレーティングと入力コンテキストの両方を条件とする。 また,事前学習型補助評価分類器を導入し,モデル性能の向上と訓練時の収束促進を図る。 実世界のeコマースデータセットを用いた実験により,本モデルは従来導入したモデルと比較して性能が向上することを示した。

With the increasing number of merchandise on e-commerce platforms, users tend to refer to reviews of other shoppers to decide which product they should buy. However, with so many reviews of a product, users often have to spend lots of time browsing through reviews talking about product attributes they do not care about. We want to establish a system that can automatically summarize and answer user's product specific questions. In this study, we propose a novel seq2seq based text generation model to generate answers to user's question based on reviews posted by previous users. Given a user question and/or target sentiment polarity, we extract aspects of interest and generate an answer that summarizes previous relevant user reviews. Specifically, our model performs attention between input reviews and target aspects during encoding and is conditioned on both review rating and input context during decoding. We also incorporate a pre-trained auxiliary rating classifier to improve model performance and accelerate convergence during training. Experiments using real-world e-commerce dataset show that our model achieves improvement in performance compared to previously introduced models.
翻訳日:2022-09-26 23:31:54 公開日:2020-11-11
# 文書スクリーニングにおける群衆からのアクティブラーニング

Active Learning from Crowd in Document Screening ( http://arxiv.org/abs/2012.02297v1 )

ライセンス: Link先を確認
Evgeny Krivosheev, Burcu Sayin, Alessandro Bozzon, Zolt\'an Szl\'avik(参考訳) 本稿では,クラウドソーシングとマシンインテリジェンスを効果的に組み合わせて文書のスクリーニングを行う方法を検討する。 具体的には、文書を評価する機械学習分類器のセットの構築に注力し、それらを効率的にスクリーニングする。 予算が限られており、与えられた予算を問題に費やすには数え切れないほど多くの方法があるため、これは困難なタスクです。 本稿では,ラベルなしの文書に注釈を付けて問合せを行うマルチラベルアクティブ・ラーニング・スクリーニング手法であるobjective-aware samplingを提案する。 提案手法では,1つのフィルタ誤差を最小化するのではなく,分類エラーのリスクを最小限に抑えるために,どのマシンフィルタがより多くのトレーニングデータを必要とするか,アノテートすべき未ラベル項目を選択するかを決定する。 目的認識サンプリングは,アートアクティブラーニングサンプリングの手法を著しく上回っていることを実証する。

In this paper, we explore how to efficiently combine crowdsourcing and machine intelligence for the problem of document screening, where we need to screen documents with a set of machine-learning filters. Specifically, we focus on building a set of machine learning classifiers that evaluate documents, and then screen them efficiently. It is a challenging task since the budget is limited and there are countless number of ways to spend the given budget on the problem. We propose a multi-label active learning screening specific sampling technique -- objective-aware sampling -- for querying unlabelled documents for annotating. Our algorithm takes a decision on which machine filter need more training data and how to choose unlabeled items to annotate in order to minimize the risk of overall classification errors rather than minimizing a single filter error. We demonstrate that objective-aware sampling significantly outperforms the state of the art active learning sampling strategies.
翻訳日:2022-09-26 23:31:37 公開日:2020-11-11
# レバレッジサンプリングによる雑音のマトリックス補完

Matrix Completion with Noise via Leveraged Sampling ( http://arxiv.org/abs/2011.05885v1 )

ライセンス: Link先を確認
Xinjian Huang and Weiwei Liu and Bo Du(参考訳) 多くの行列補完法は、データが一様分布に従うと仮定する。 この仮定の限界に対処するため、 Chen ら。 \cite{Chen20152999} は、データが特定のバイアス分布に従う行列を復元することを提案する。 残念なことに、ほとんどの現実世界のアプリケーションでは、データマトリックスのリカバリは不完全であり、おそらくは破損した情報である。 本稿では, 観測項目のいくつかを, 行列の \emph{leverage score} に好適に依存する \emph{biased distribution} にサンプリングし, 観測項目のいくつかは一様に破損する低ランク行列の回復を検討する。 我々の理論的な知見は、観測された少数のエントリが小さなノイズ情報で破損しても、未知の$n\times n$Matrix of rank $r$をちょうど$O(nr\log^2 n)$ entryから確実に回収できることを示している。 実証研究は我々の理論的結果を検証する。

Many matrix completion methods assume that the data follows the uniform distribution. To address the limitation of this assumption, Chen et al. \cite{Chen20152999} propose to recover the matrix where the data follows the specific biased distribution. Unfortunately, in most real-world applications, the recovery of a data matrix appears to be incomplete, and perhaps even corrupted information. This paper considers the recovery of a low-rank matrix, where some observed entries are sampled in a \emph{biased distribution} suitably dependent on \emph{leverage scores} of a matrix, and some observed entries are uniformly corrupted. Our theoretical findings show that we can provably recover an unknown $n\times n$ matrix of rank $r$ from just about $O(nr\log^2 n)$ entries even when the few observed entries are corrupted with a small amount of noisy information. Empirical studies verify our theoretical results.
翻訳日:2022-09-26 23:24:11 公開日:2020-11-11
# 混合特徴によるビッグデータのクラスタリング

Clustering of Big Data with Mixed Features ( http://arxiv.org/abs/2011.06043v1 )

ライセンス: Link先を確認
Joshua Tobin, Mimi Zhang(参考訳) 大規模な混合データをクラスタリングすることは、データマイニングにおける中心的な問題である。 多くのアプローチではk-meansの概念を採用しており、したがって初期化に敏感であり、球状クラスタのみを検出し、未知数のクラスタを必要とする。 本稿では,本手法の適用性と効率を向上させることを目的とした,混合型大規模データのためのクラスタリングアルゴリズムを開発した。 改良点は3つある:(1)新しいアルゴリズムは混合データに適用可能; (2) アルゴリズムは比較的低い密度値の外れ値とクラスターを検出することができる;(3) アルゴリズムは正しいクラスタ数を決定する能力を持つ。 アルゴリズムの計算複雑性は、高速k-nearest neighbors法を適用し、コンポーネントセットにスケールダウンすることで大幅に低減される。 本研究では,本アルゴリズムが実際に有効であることを示す実験結果を示す。 キーワード:クラスタリング、ビッグデータ、ミックス属性、密度ピーク、Nearest-Neighborグラフ、コンダクタンス。

Clustering large, mixed data is a central problem in data mining. Many approaches adopt the idea of k-means, and hence are sensitive to initialisation, detect only spherical clusters, and require a priori the unknown number of clusters. We here develop a new clustering algorithm for large data of mixed type, aiming at improving the applicability and efficiency of the peak-finding technique. The improvements are threefold: (1) the new algorithm is applicable to mixed data; (2) the algorithm is capable of detecting outliers and clusters of relatively lower density values; (3) the algorithm is competent at deciding the correct number of clusters. The computational complexity of the algorithm is greatly reduced by applying a fast k-nearest neighbors method and by scaling down to component sets. We present experimental results to verify that our algorithm works well in practice. Keywords: Clustering; Big Data; Mixed Attribute; Density Peaks; Nearest-Neighbor Graph; Conductance.
翻訳日:2022-09-26 23:23:03 公開日:2020-11-11
# 空中シーン分類のための不変深圧縮性共分散プール

Invariant Deep Compressible Covariance Pooling for Aerial Scene Categorization ( http://arxiv.org/abs/2011.05702v1 )

ライセンス: Link先を確認
Shidong Wang, Yi Ren, Gerard Parr, Yu Guan and Ling Shao(参考訳) 識別的および不変特徴表現の学習は、視覚画像分類の鍵である。 本稿では,空中シーン分類におけるニュアンス変動を解決するために,新しい不変な深部圧縮性共分散プール(IDCCP)を提案する。 入力画像をD4群のような複数の共起直交行列からなる有限変換群に従って変換することを検討する。 次に、群構造を表現空間に移すためにシャム型ネットワークを採用し、そこで群作用の下で不変な自明な表現を導出することができる。 自明な表現で訓練された線形分類器も不変性を持つ。 さらに,表現の判別力を向上させるために,変換行列に直交制約を課しながらテンソル空間への表現を拡張し,特徴次元を効果的に削減する。 本手法は,公開された航空シーン画像データセットを広範囲に実験し,最新手法と比較し,その優位性を実証する。 特に、ResNetアーキテクチャを用いることで、我々のIDCCPモデルは、精度を犠牲にすることなく、テンソル表現の次元を約98%削減できる(すなわち、<0.5%)。

Learning discriminative and invariant feature representation is the key to visual image categorization. In this article, we propose a novel invariant deep compressible covariance pooling (IDCCP) to solve nuisance variations in aerial scene categorization. We consider transforming the input image according to a finite transformation group that consists of multiple confounding orthogonal matrices, such as the D4 group. Then, we adopt a Siamese-style network to transfer the group structure to the representation space, where we can derive a trivial representation that is invariant under the group action. The linear classifier trained with trivial representation will also be possessed with invariance. To further improve the discriminative power of representation, we extend the representation to the tensor space while imposing orthogonal constraints on the transformation matrix to effectively reduce feature dimensions. We conduct extensive experiments on the publicly released aerial scene image data sets and demonstrate the superiority of this method compared with state-of-the-art methods. In particular, with using ResNet architecture, our IDCCP model can reduce the dimension of the tensor representation by about 98% without sacrificing accuracy (i.e., <0.5%).
翻訳日:2022-09-26 23:22:36 公開日:2020-11-11
# obviousialmix: オープンセットとクローズドセットの組み合わせによる学習

EvidentialMix: Learning with Combined Open-set and Closed-set Noisy Labels ( http://arxiv.org/abs/2011.05704v1 )

ライセンス: Link先を確認
Ragav Sachdeva, Filipe R. Cordeiro, Vasileios Belagiannis, Ian Reid, Gustavo Carneiro(参考訳) ディープラーニングの有効性は、信頼できるデータ取得とアノテーションプロセスで注意深くキュレートされた大規模データセットに依存する。 しかし、このような大規模なデータセットを正確なアノテーションで取得するのは非常に高価で時間を要するため、安価な代替手段は、しばしばノイズの多いラベルを持つデータセットを生成する。 この分野では、2種類のラベルノイズのトレーニングモデルに注目してこの問題に対処している。 1) クローズドセットノイズは、一部のトレーニングサンプルが、既知の真のクラス以外のトレーニングラベルに誤ってアノテートされる。 2) トレーニングセットが既知のトレーニングラベルのセットに(部分的に)含まれない真のクラスを持つサンプルを含むオープンセットノイズ。 本研究では,オープンセットとクローズドセットのノイズラベルを組み合わせた新しいノイズラベル問題について検討し,この設定下でのトレーニングアルゴリズムの性能を評価するためのベンチマーク評価を導入する。 このような問題はより一般的であり、実際にはノイズの多いラベルシナリオをよりよく反映していると論じる。 さらに,この問題に対処する新しいアルゴリズムであるEvidentialMixを提案し,その性能を,提案したベンチマークのクローズドセットおよびオープンセットノイズに対する最先端手法と比較する。 その結果,従来の最先端手法よりも優れた分類結果と特徴表現が得られた。 コードはhttps://github.com/ragavsachdeva/evidentialmixで入手できる。

The efficacy of deep learning depends on large-scale data sets that have been carefully curated with reliable data acquisition and annotation processes. However, acquiring such large-scale data sets with precise annotations is very expensive and time-consuming, and the cheap alternatives often yield data sets that have noisy labels. The field has addressed this problem by focusing on training models under two types of label noise: 1) closed-set noise, where some training samples are incorrectly annotated to a training label other than their known true class; and 2) open-set noise, where the training set includes samples that possess a true class that is (strictly) not contained in the set of known training labels. In this work, we study a new variant of the noisy label problem that combines the open-set and closed-set noisy labels, and introduce a benchmark evaluation to assess the performance of training algorithms under this setup. We argue that such problem is more general and better reflects the noisy label scenarios in practice. Furthermore, we propose a novel algorithm, called EvidentialMix, that addresses this problem and compare its performance with the state-of-the-art methods for both closed-set and open-set noise on the proposed benchmark. Our results show that our method produces superior classification results and better feature representations than previous state-of-the-art methods. The code is available at https://github.com/ragavsachdeva/EvidentialMix.
翻訳日:2022-09-26 23:22:18 公開日:2020-11-11
# deepsim: 学習画像登録のための意味的類似度指標

DeepSim: Semantic similarity metrics for learned image registration ( http://arxiv.org/abs/2011.05735v1 )

ライセンス: Link先を確認
Steffen Czolbe, Oswin Krause, Aasa Feragen(参考訳) 画像登録のための意味的類似度尺度を提案する。 ユークリッド距離や正規化された相互相関のような既存のメトリクスは、強度の値の整合に焦点を合わせ、低強度のコントラストやノイズで困難を与える。 セマンティクスアプローチは、学習ベースの登録モデルの最適化を推進するデータセット特有の特徴を学習する。 複数の画像モダリティやアプリケーションにわたる、既存の教師なしおよび教師なしの手法と比較し、最先端技術よりも一貫して高い登録精度とより高速な収束を実現し、ノイズに対する学習された不変性は、低品質の画像に対してよりスムーズな変換をもたらす。

We propose a semantic similarity metric for image registration. Existing metrics like euclidean distance or normalized cross-correlation focus on aligning intensity values, giving difficulties with low intensity contrast or noise. Our semantic approach learns dataset-specific features that drive the optimization of a learning-based registration model. Comparing to existing unsupervised and supervised methods across multiple image modalities and applications, we achieve consistently high registration accuracy and faster convergence than state of the art, and the learned invariance to noise gives smoother transformations on low-quality images.
翻訳日:2022-09-26 23:21:54 公開日:2020-11-11
# Distill2Vec:知識蒸留による動的グラフ表現学習

Distill2Vec: Dynamic Graph Representation Learning with Knowledge Distillation ( http://arxiv.org/abs/2011.05664v1 )

ライセンス: Link先を確認
Stefanos Antaris, Dimitrios Rafailidis(参考訳) 動的グラフ表現学習戦略は、時間とともにグラフの進化を捉えるために異なるニューラルネットワークアーキテクチャに基づいている。 しかし、基盤となるニューラルネットワークは、トレーニングのために大量のパラメータを必要とし、オンラインの推論遅延が高く、新しいデータがオンラインに到着したときにはいくつかのモデルパラメータを更新する必要がある。 本研究では,オンライン推論の遅延を低減し,モデルの精度を高く維持するために,学習可能なパラメータの少ないコンパクトモデルを訓練するための知識蒸留戦略である distill2vec を提案する。 オフラインデータで訓練された教師モデルからオンラインデータのための小型の学生モデルに移行するために,Kulback-Leibler分散に基づく蒸留損失関数を設計する。 公開データセットを用いた実験では,提案手法がリンク予測タスクの5%まで向上し,最先端手法よりも優れていることが示された。 さらに,我々の知識蒸留戦略が,必要パラメータ数の観点から有効性を示す。そこでは,distill2vecは,ベースラインアプローチと比較して7:100までの圧縮率を達成している。 再現のために、我々の実装はhttps://stefanosantaris.github.io/Distill2Vec.comで公開されています。

Dynamic graph representation learning strategies are based on different neural architectures to capture the graph evolution over time. However, the underlying neural architectures require a large amount of parameters to train and suffer from high online inference latency, that is several model parameters have to be updated when new data arrive online. In this study we propose Distill2Vec, a knowledge distillation strategy to train a compact model with a low number of trainable parameters, so as to reduce the latency of online inference and maintain the model accuracy high. We design a distillation loss function based on Kullback-Leibler divergence to transfer the acquired knowledge from a teacher model trained on offline data, to a small-size student model for online data. Our experiments with publicly available datasets show the superiority of our proposed model over several state-of-the-art approaches with relative gains up to 5% in the link prediction task. In addition, we demonstrate the effectiveness of our knowledge distillation strategy, in terms of number of required parameters, where Distill2Vec achieves a compression ratio up to 7:100 when compared with baseline approaches. For reproduction purposes, our implementation is publicly available at https://stefanosantaris.github.io/Distill2Vec.
翻訳日:2022-09-26 23:16:16 公開日:2020-11-11
# VStreamDRLS: エンタープライズ分散ビデオストリーミングソリューションのための自己注意型動的グラフ表現学習

VStreamDRLS: Dynamic Graph Representation Learning with Self-Attention for Enterprise Distributed Video Streaming Solutions ( http://arxiv.org/abs/2011.05671v1 )

ライセンス: Link先を確認
Stefanos Antaris, Dimitrios Rafailidis(参考訳) ライブビデオストリーミングは、世界中のいくつかの企業にとって、標準的なコミュニケーションソリューションとして主流となっている。 高品質なライブビデオコンテンツを大量のオフィスに効率的にストリーミングするために、企業は、進化するエンタープライズネットワークの事前知識に依存する分散ビデオストリーミングソリューションを採用している。 しかし、そのようなネットワークは非常に複雑で動的である。 したがって、ライブ映像配信を最適に調整するには、視聴者間のネットワーク容量を正確に予測する必要がある。 本稿では、重み付きおよび動的グラフを用いたグラフ表現学習手法を提案し、視聴者/ノード間の接続/リンクの重みとなるネットワーク容量を予測する。 本稿では,ライブビデオストリーミングイベントのグラフ構造の進化をキャプチャするセルフアテンション機構を備えたグラフニューラルネットワークアーキテクチャであるvstreamdrlsを提案する。 VStreamDRLSはライブビデオストリーミングイベントの間、GCN(Graph Convolutional Network)モデルを採用し、GCNパラメータを進化させる自己保持機構を導入している。 そのため,本モデルでは,グラフの進化に関連するGCN重みに着目し,ノード表現を生成する。 企業ライブビデオストリーミングイベントによって生成された2つの実世界のデータセットにおけるリンク予測タスクに対する提案手法の評価を行った。 各イベントの期間は1時間であった。 実験の結果,vstreamdrlsの有効性を最先端戦略と比較した。 評価データセットと実装はhttps://github.com/stefanosantaris/vstreamdrlsで公開されています。

Live video streaming has become a mainstay as a standard communication solution for several enterprises worldwide. To efficiently stream high-quality live video content to a large amount of offices, companies employ distributed video streaming solutions which rely on prior knowledge of the underlying evolving enterprise network. However, such networks are highly complex and dynamic. Hence, to optimally coordinate the live video distribution, the available network capacity between viewers has to be accurately predicted. In this paper we propose a graph representation learning technique on weighted and dynamic graphs to predict the network capacity, that is the weights of connections/links between viewers/nodes. We propose VStreamDRLS, a graph neural network architecture with a self-attention mechanism to capture the evolution of the graph structure of live video streaming events. VStreamDRLS employs the graph convolutional network (GCN) model over the duration of a live video streaming event and introduces a self-attention mechanism to evolve the GCN parameters. In doing so, our model focuses on the GCN weights that are relevant to the evolution of the graph and generate the node representation, accordingly. We evaluate our proposed approach on the link prediction task on two real-world datasets, generated by enterprise live video streaming events. The duration of each event lasted an hour. The experimental results demonstrate the effectiveness of VStreamDRLS when compared with state-of-the-art strategies. Our evaluation datasets and implementation are publicly available at https://github.com/stefanosantaris/vstreamdrls
翻訳日:2022-09-26 23:15:57 公開日:2020-11-11
# EGAD:ライブビデオストリーミングイベントにおける自己注意と知識蒸留によるグラフ表現学習の展開

EGAD: Evolving Graph Representation Learning with Self-Attention and Knowledge Distillation for Live Video Streaming Events ( http://arxiv.org/abs/2011.05705v1 )

ライセンス: Link先を確認
Stefanos Antaris, Dimitrios Rafailidis, Sarunas Girdzijauskas(参考訳) 本研究では,重み付きグラフを用いた動的グラフ表現学習モデルを提案し,ライブビデオストリーミングイベントにおける視聴者間の接続のネットワーク容量を正確に予測する。 本稿では,連続するグラフ畳み込みネットワーク間の重み付けに自己アテンション機構を導入することで,グラフ進化を捉えるニューラルネットワークアーキテクチャegadを提案する。 さらに、ニューラルネットワークはトレーニングに膨大なパラメータを必要とするため、オンライン推論レイテンシが増加し、ライブビデオストリーミングイベントにおけるユーザエクスペリエンスに悪影響を及ぼすという事実も説明します。 大量のパラメータの高オンライン推論の問題に対処するため,我々は知識蒸留戦略を提案する。 特に,オフラインデータ上で教師モデルを事前学習し,その知識を教師からより少ないパラメータでより小さな生徒モデルに伝達することを目的とした蒸留損失関数の設計を行った。 ライブビデオストリーミングイベントによって生成された実世界の3つのデータセットのリンク予測タスクについて,提案モデルの評価を行った。 イベントは80分間続き、各ビューアはHive Streaming ABが提供する分散ソリューションを利用していた。 提案モデルの有効性を,最先端手法に対して評価した場合のリンク予測精度と要求パラメータ数の観点から検証した。 さらに, 異なる蒸留方法の圧縮比を用いて, 提案モデルの蒸留性能について検討し, 提案モデルが最大15:100まで圧縮比を達成でき, 高いリンク予測精度を保てることを示した。 再現のために、評価データセットと実装はhttps://stefanosantaris.github.io/egad.orgで公開されています。

In this study, we present a dynamic graph representation learning model on weighted graphs to accurately predict the network capacity of connections between viewers in a live video streaming event. We propose EGAD, a neural network architecture to capture the graph evolution by introducing a self-attention mechanism on the weights between consecutive graph convolutional networks. In addition, we account for the fact that neural architectures require a huge amount of parameters to train, thus increasing the online inference latency and negatively influencing the user experience in a live video streaming event. To address the problem of the high online inference of a vast number of parameters, we propose a knowledge distillation strategy. In particular, we design a distillation loss function, aiming to first pretrain a teacher model on offline data, and then transfer the knowledge from the teacher to a smaller student model with less parameters. We evaluate our proposed model on the link prediction task on three real-world datasets, generated by live video streaming events. The events lasted 80 minutes and each viewer exploited the distribution solution provided by the company Hive Streaming AB. The experiments demonstrate the effectiveness of the proposed model in terms of link prediction accuracy and number of required parameters, when evaluated against state-of-the-art approaches. In addition, we study the distillation performance of the proposed model in terms of compression ratio for different distillation strategies, where we show that the proposed model can achieve a compression ratio up to 15:100, preserving high link prediction accuracy. For reproduction purposes, our evaluation datasets and implementation are publicly available at https://stefanosantaris.github.io/EGAD.
翻訳日:2022-09-26 23:15:35 公開日:2020-11-11
# pymgrid: 応用人工知能研究のためのPythonマイクログリッドシミュレータ

pymgrid: An Open-Source Python Microgrid Simulator for Applied Artificial Intelligence Research ( http://arxiv.org/abs/2011.08004v1 )

ライセンス: Link先を確認
Gonzague Henri, Tanguy Levent, Avishai Halev, Reda Alami, Philippe Cordier(参考訳) マイクログリッドは、メイングリッドから切り離すことが可能で、二酸化炭素排出量を削減し、インフラの回復力を高めることで、気候変動の緩和に取り組む可能性がある。 分散した性質のため、マイクログリッドはしばしば慣用的であり、結果として、これらのシステムの制御は非自明である。 マイクログリッドシミュレータは存在するが、多くはスコープに制限があり、シミュレーションできる様々なマイクログリッドが存在する。 我々は、多数のマイクログリッドを生成し、シミュレートするオープンソースのPythonパッケージpymgridと、600以上の異なるマイクログリッドを生成できる最初のオープンソースツールを提案する。 pymgridはドメインの専門知識の大部分を抽象化し、ユーザが制御アルゴリズムに集中できるようにする。 特にpymgridは強化学習(rl)プラットフォームとして構築されており、マイクログリッドをマルコフ決定プロセスとしてモデル化する機能を備えている。 pymgridはまた、マイクログリッド設定における研究再現性を可能にするために、事前に計算された2つのマイクログリッドリストも導入している。

Microgrids, self contained electrical grids that are capable of disconnecting from the main grid, hold potential in both tackling climate change mitigation via reducing CO2 emissions and adaptation by increasing infrastructure resiliency. Due to their distributed nature, microgrids are often idiosyncratic; as a result, control of these systems is nontrivial. While microgrid simulators exist, many are limited in scope and in the variety of microgrids they can simulate. We propose pymgrid, an open-source Python package to generate and simulate a large number of microgrids, and the first open-source tool that can generate more than 600 different microgrids. pymgrid abstracts most of the domain expertise, allowing users to focus on control algorithms. In particular, pymgrid is built to be a reinforcement learning (RL) platform, and includes the ability to model microgrids as Markov decision processes. pymgrid also introduces two pre-computed list of microgrids, intended to allow for research reproducibility in the microgrid setting.
翻訳日:2022-09-26 23:14:39 公開日:2020-11-11
# 非パラメトリックサバイバル解析による長期パイプライン故障予測

Long-Term Pipeline Failure Prediction Using Nonparametric Survival Analysis ( http://arxiv.org/abs/2011.08671v1 )

ライセンス: Link先を確認
Dilusha Weeraddana, Sudaraka MallawaArachchi, Tharindu Warnakula, Zhidong Li, and Yang Wang(参考訳) オーストラリアの水基盤は100年以上前からあり、水の主な失敗によってその年齢が示され始めている。 オーストラリアの主要都市を横断する約50万のパイプラインが、住宅や企業に水を供給し、500万人以上の顧客にサービスを提供している。 これらの埋蔵資産の故障は、資産の損傷と水道の破壊を引き起こす。 オーストラリアのこれらの都市では, 年間平均1500回以上の水害が発生しているパイプ故障問題に対して, コスト効率の高い解を求めるために, 機械学習技術を適用した。 この目的を達成するために,過去の故障記録やパイプの記述子,その他の環境要因を用いて水本破砕の失敗可能性を評価し予測する機械学習モデルを構築し,水管網の挙動の詳細な図と理解を構築する。 以上の結果から,非パラメトリックサバイバル分析手法を組み込んだランサムサバイバルフォレスト(Random Survival Forest)が,長期予測においていくつかのアルゴリズムや専門家ヒューリスティックよりも優れていたことが示唆された。 さらに,長期予測に関連する不確実性を定量化する統計的推論手法を構築した。

Australian water infrastructure is more than a hundred years old, thus has begun to show its age through water main failures. Our work concerns approximately half a million pipelines across major Australian cities that deliver water to houses and businesses, serving over five million customers. Failures on these buried assets cause damage to properties and water supply disruptions. We applied Machine Learning techniques to find a cost-effective solution to the pipe failure problem in these Australian cities, where on average 1500 of water main failures occur each year. To achieve this objective, we construct a detailed picture and understanding of the behaviour of the water pipe network by developing a Machine Learning model to assess and predict the failure likelihood of water main breaking using historical failure records, descriptors of pipes and other environmental factors. Our results indicate that our system incorporating a nonparametric survival analysis technique called "Random Survival Forest" outperforms several popular algorithms and expert heuristics in long-term prediction. In addition, we construct a statistical inference technique to quantify the uncertainty associated with the long-term predictions.
翻訳日:2022-09-26 23:14:23 公開日:2020-11-11
# リンク予測を用いたマルチラベル分類

Multi-Label Classification Using Link Prediction ( http://arxiv.org/abs/2011.05476v1 )

ライセンス: Link先を確認
Seyed Amin Fadaee, Maryam Amir Haeri(参考訳) 近年,グラフ法による分類法が盛んに普及している。 これは、データをグラフで直感的にモデル化し、高レベルな特徴を利用して分類問題を解くことができるためである。 リンク予測を用いた分類に短いculpはグラフに基づく分類器である。 この分類器はデータのグラフ表現を利用して問題をリンク予測に変換し、未ラベルノードとそれに対する適切なクラスノードの間のリンクを見つけようとする。 CULPは高精度な分類器であることが証明され、ラベルをほぼ一定時間で予測する能力を持つ。 分類問題の変種はマルチラベル分類であり、インスタンスが複数のラベルを関連付けることができるマルチラベルデータに対してこの問題に取り組む。 本研究では,CULPアルゴリズムを拡張し,この問題に対処する。 提案する拡張は,CULPのパワーと,その直感的なデータ表現をマルチラベル領域に伝達する。

Solving classification with graph methods has gained huge popularity in recent years. This is due to the fact that the data can be intuitively modeled with graphs to utilize high level features to aid in solving the classification problem. CULP which is short for Classification Using Link Prediction is a graph-based classifier. This classifier utilizes the graph representation of the data and transforms the problem to that of link prediction where we try to find the link between an unlabeled node and the proper class node for it. CULP proved to be highly accurate classifier and it has the power to predict the labels in near constant time. A variant of the classification problem is multi-label classification which tackles this problem for multi-label data where an instance can have multiple labels associated to it. In this work, we extend the CULP algorithm to address this problem. Our proposed extensions conveys the powers of CULP and its intuitive representation of the data in to the multi-label domain and in comparison to some of the cutting edge multi-label classifiers, yield competitive results.
翻訳日:2022-09-26 23:14:06 公開日:2020-11-11
# 2次元bhattacharyyaバウンド線形判別分析とその応用

Two-dimensional Bhattacharyya bound linear discriminant analysis with its applications ( http://arxiv.org/abs/2011.05507v1 )

ライセンス: Link先を確認
Yan-Ru Guo, Yan-Qin Bai, Chun-Na Li, Lan Bai, Yuan-Hai Shao(参考訳) Bhattacharyya誤差境界推定(L2BLDA)によるL2-ノルム線形判別分析基準は,特徴抽出のための線形判別分析(LDA)を効果的に改善する。 しかし、L2BLDAはベクトル入力サンプルを扱うためにのみ提案されている。 画像などの2次元(2次元)入力に直面すると、画像の内在的構造を考慮しないため、いくつかの有用な情報が失われる。 本稿では,L2BLDAを2次元Bhattacharyya境界線形判別分析(2DBLDA)に拡張する。 2DBLDAは、クラス平均の重み付き対距離によって測定される行列ベースのクラス間距離を最大化し、一方、行列ベースのクラス内距離を最小化する。 クラス間およびクラス内用語間の重み付け定数は、提案する2dblda適応となる関連するデータによって決定される。 さらに、2DBLDAの基準は、バッタチャリア誤差の上限を最適化するのと同値である。 2DBLDAの構成により、ロバスト性を持ちながら小さなサンプルサイズ問題を回避することができ、単純な標準固有値分解問題によって解決できる。 画像認識および顔画像再構成実験の結果,提案手法の有効性が示された。

Recently proposed L2-norm linear discriminant analysis criterion via the Bhattacharyya error bound estimation (L2BLDA) is an effective improvement of linear discriminant analysis (LDA) for feature extraction. However, L2BLDA is only proposed to cope with vector input samples. When facing with two-dimensional (2D) inputs, such as images, it will lose some useful information, since it does not consider intrinsic structure of images. In this paper, we extend L2BLDA to a two-dimensional Bhattacharyya bound linear discriminant analysis (2DBLDA). 2DBLDA maximizes the matrix-based between-class distance which is measured by the weighted pairwise distances of class means and meanwhile minimizes the matrix-based within-class distance. The weighting constant between the between-class and within-class terms is determined by the involved data that makes the proposed 2DBLDA adaptive. In addition, the criterion of 2DBLDA is equivalent to optimizing an upper bound of the Bhattacharyya error. The construction of 2DBLDA makes it avoid the small sample size problem while also possess robustness, and can be solved through a simple standard eigenvalue decomposition problem. The experimental results on image recognition and face image reconstruction demonstrate the effectiveness of the proposed methods.
翻訳日:2022-09-26 23:13:50 公開日:2020-11-11
# 医用画像からの疾患特徴分節の視覚的説明と統計的推定のための解釈的・相乗的深層学習

Interpretable and synergistic deep learning for visual explanation and statistical estimations of segmentation of disease features from medical images ( http://arxiv.org/abs/2011.05791v1 )

ライセンス: Link先を確認
Sambuddha Ghosal and Pratik Shah(参考訳) 医学画像からの病因分類やセグメンテーションのための深層学習(DL)モデルは、無関係な自然界画像からの伝達学習(TL)を用いて、ますます訓練されている。 しかし、医用画像領域における特殊なタスクに対するTLの欠点と有用性はいまだ不明であり、トレーニングデータの増加がパフォーマンスを向上させるという仮定に基づいている。 TLとImageNetの初期化(TII-models)とマクロな光学的皮膚癌(LMI-models)、顕微鏡的前立腺核生検、CT(CT)DICOM画像のみを用いた教師あり学習の比較,厳密な統計的解析,および2値分割のためのDLアーキテクチャの比較を行った。 TIIおよびLMIモデルアウトプットとそのGrad-CAMの視覚的検査により、両モデルによる1つの腫瘍の自動セグメンテーションや、個別モデルからの様々な組み合わせにおける個々のセグメンテーションアウトプットマスクの使用が10%の性能向上をもたらす、いくつかの直感的なシナリオを同定した。 また,低データ環境下で臨床グレードの医用画像分割とモデル説明を行うための高度アンサンブルDL戦略を報告した。 例えば、我々の記述したLMIモデルとTIIモデルの性能、説明、再現性を推定することは、スパーシティがより良い学習を促進する状況に利用できる。 TIIおよびLMIモデル、コード、10,000以上の医療画像の無料GitHubリポジトリとそのGrad-CAM出力は、生物医学的な発見と応用のための高度な計算医学およびDL研究の出発点として利用できる。

Deep learning (DL) models for disease classification or segmentation from medical images are increasingly trained using transfer learning (TL) from unrelated natural world images. However, shortcomings and utility of TL for specialized tasks in the medical imaging domain remain unknown and are based on assumptions that increasing training data will improve performance. We report detailed comparisons, rigorous statistical analysis and comparisons of widely used DL architecture for binary segmentation after TL with ImageNet initialization (TII-models) with supervised learning with only medical images(LMI-models) of macroscopic optical skin cancer, microscopic prostate core biopsy and Computed Tomography (CT) DICOM images. Through visual inspection of TII and LMI model outputs and their Grad-CAM counterparts, our results identify several counter intuitive scenarios where automated segmentation of one tumor by both models or the use of individual segmentation output masks in various combinations from individual models leads to 10% increase in performance. We also report sophisticated ensemble DL strategies for achieving clinical grade medical image segmentation and model explanations under low data regimes. For example; estimating performance, explanations and replicability of LMI and TII models described by us can be used for situations in which sparsity promotes better learning. A free GitHub repository of TII and LMI models, code and more than 10,000 medical images and their Grad-CAM output from this study can be used as starting points for advanced computational medicine and DL research for biomedical discovery and applications.
翻訳日:2022-09-26 23:13:22 公開日:2020-11-11
# 物理制約によるマルチゾーン建築熱力学の深層学習

Physics-constrained Deep Learning of Multi-zone Building Thermal Dynamics ( http://arxiv.org/abs/2011.05987v1 )

ライセンス: Link先を確認
Jan Drgona, Aaron R. Tuor, Vikas Chandan and Draguna L. Vrabie(参考訳) 熱力学をモデル化するための物理制約付き制御指向深層学習法を提案する。 提案手法は,物理に基づく事前知識を構造化されたリカレントニューラルネットワークアーキテクチャに体系的に符号化することに基づく。 具体的には、従来の物理に基づくビルディングモデリングからニューラルネットワーク熱力学モデル構造への構造的先行性を含める。 さらに, ペナルティ法を利用して不平等な制約を与え, 物理的に現実的で安全な運転範囲内で予測を限定する。 安定固有値が系の散逸性を正確に特徴付けることを観測し、さらにペロン・フロベニウスの定理に基づく制約付き行列パラメータ化を用いて、ビルディング熱モデルパラメータ行列の優占固有値にバインドする。 20の温熱帯を有する実世界のオフィスビルから得られたデータセット上で,提案するデータ駆動モデリング手法の有効性と物理的解釈性を示す。 トレーニングに10日間の計測値しか使用せず,20日間連続して一般化し,文献で報告された先行研究結果と比較して精度が著しく向上した。

We present a physics-constrained control-oriented deep learning method for modeling building thermal dynamics. The proposed method is based on the systematic encoding of physics-based prior knowledge into a structured recurrent neural architecture. Specifically, our method incorporates structural priors from traditional physics-based building modeling into the neural network thermal dynamics model structure. Further, we leverage penalty methods to provide inequality constraints, thereby bounding predictions within physically realistic and safe operating ranges. Observing that stable eigenvalues accurately characterize the dissipativeness of the system, we additionally use a constrained matrix parameterization based on the Perron-Frobenius theorem to bound the dominant eigenvalues of the building thermal model parameter matrices. We demonstrate the proposed data-driven modeling approach's effectiveness and physical interpretability on a dataset obtained from a real-world office building with 20 thermal zones. Using only 10 days' measurements for training, we demonstrate generalization over 20 consecutive days, significantly improving the accuracy compared to prior state-of-the-art results reported in the literature.
翻訳日:2022-09-26 23:06:56 公開日:2020-11-11
# ニューラルCRFのポテンシャル関数設計法の検討

An Investigation of Potential Function Designs for Neural CRF ( http://arxiv.org/abs/2011.05604v1 )

ライセンス: Link先を確認
Zechuan Hu, Yong Jiang, Nguyen Bach, Tao Wang, Zhongqiang Huang, Fei Huang, Kewei Tu(参考訳) ニューラルネットワークの線形鎖CRFモデルは、シークエンスラベリングにおいて最も広く使われているアプローチの1つである。 本稿では, ニューラルCRFモデルにおいて, 出力関数と遷移関数を統合するだけでなく, 文脈単語の表現を入力として明示的に取り込む一連の表現的ポテンシャル関数について検討する。 広範な実験により、2つの隣接ラベルと2つの隣接ワードのベクトル表現に基づく分解された二次ポテンシャル関数は、一貫して最高の性能が得られることを示した。

The neural linear-chain CRF model is one of the most widely-used approach to sequence labeling. In this paper, we investigate a series of increasingly expressive potential functions for neural CRF models, which not only integrate the emission and transition functions, but also explicitly take the representations of the contextual words as input. Our extensive experiments show that the decomposed quadrilinear potential function based on the vector representations of two neighboring labels and two neighboring words consistently achieves the best performance.
翻訳日:2022-09-26 23:06:40 公開日:2020-11-11
# CalibreNet: 多言語シーケンスラベリングのためのキャリブレーションネットワーク

CalibreNet: Calibration Networks for Multilingual Sequence Labeling ( http://arxiv.org/abs/2011.05723v1 )

ライセンス: Link先を確認
Shining Liang, Linjun Shou, Jian Pei, Ming Gong, Wanli Zuo, Daxin Jiang(参考訳) 低リソース言語におけるトレーニングデータの欠如は、名前付きエンティティ認識(NER)や機械読み取り理解(MRC)といったシーケンスラベリングタスクに大きな課題をもたらす。 一つの大きな障害は、予測された答えの境界の誤差である。 この問題に対処するために,2つのステップで回答を予測するCalibreNetを提案する。 最初のステップでは、既存のシーケンスラベリングメソッドをベースモデルとして採用して、最初の回答を生成する。 第2のステップでは、calibrenetが最初の回答の境界を洗練する。 低リソース言語における訓練データの欠如に対処するために,calibrenetの多言語境界検出能力を向上させるために,教師なし句境界回復事前学習タスクを新たに開発した。 2つの言語間ベンチマークデータセットの実験により、提案手法はゼロショット言語間NERおよびMRCタスクにおいてSOTA結果を達成することを示した。

Lack of training data in low-resource languages presents huge challenges to sequence labeling tasks such as named entity recognition (NER) and machine reading comprehension (MRC). One major obstacle is the errors on the boundary of predicted answers. To tackle this problem, we propose CalibreNet, which predicts answers in two steps. In the first step, any existing sequence labeling method can be adopted as a base model to generate an initial answer. In the second step, CalibreNet refines the boundary of the initial answer. To tackle the challenge of lack of training data in low-resource languages, we dedicatedly develop a novel unsupervised phrase boundary recovery pre-training task to enhance the multilingual boundary detection capability of CalibreNet. Experiments on two cross-lingual benchmark datasets show that the proposed approach achieves SOTA results on zero-shot cross-lingual NER and MRC tasks.
翻訳日:2022-09-26 23:06:23 公開日:2020-11-11
# 重ね合わせ非パラメトリックベイズ手法によるエネルギー消費量予測

Energy consumption forecasting using a stacked nonparametric Bayesian approach ( http://arxiv.org/abs/2011.05519v1 )

ライセンス: Link先を確認
Dilusha Weeraddana, Nguyen Lu Dang Khoa, Lachlan O Neil, Weihong Wang, and Chen Cai(参考訳) 本稿では、複数の時系列データを用いて、非パラメトリックガウス過程(GP)の枠組みの中で家庭のエネルギー消費を予測する過程を研究する。 スマートメーターデータを用いて住宅用電気使用の鮮明なイメージを描き始めると, 消費者のガス消費との複雑な関係を詳細に把握し, 理解する必要があることが明らかになってきた。 電気とガスの消費パターンは様々な要因に大きく依存しており、これらの要因の複雑な相互作用は高度である。 また, 典型的なガス消費データは低粒度であり, 時間点も極めて少ないため, 従来の時系列予測技術の適用は過度な過度なオーバーフィットにつながる可能性がある。 これらの考察を踏まえ、各タスクに適用された各GPの予測後部を、次のレベルGPの事前および可能性に使用する重畳GP法を構築する。 このモデルを実世界のデータセットに適用し、複数の州におけるオーストラリアの世帯のエネルギー消費量を予測する。 直感的に魅力的な結果と他の一般的な機械学習技術との比較を行った。 以上の結果から,提案したGPモデルの方が,テストした他の予測手法よりも優れていることが示唆された。

In this paper, the process of forecasting household energy consumption is studied within the framework of the nonparametric Gaussian Process (GP), using multiple short time series data. As we begin to use smart meter data to paint a clearer picture of residential electricity use, it becomes increasingly apparent that we must also construct a detailed picture and understanding of consumer's complex relationship with gas consumption. Both electricity and gas consumption patterns are highly dependent on various factors, and the intricate interplay of these factors is sophisticated. Moreover, since typical gas consumption data is low granularity with very few time points, naive application of conventional time-series forecasting techniques can lead to severe over-fitting. Given these considerations, we construct a stacked GP method where the predictive posteriors of each GP applied to each task are used in the prior and likelihood of the next level GP. We apply our model to a real-world dataset to forecast energy consumption in Australian households across several states. We compare intuitively appealing results against other commonly used machine learning techniques. Overall, the results indicate that the proposed stacked GP model outperforms other forecasting techniques that we tested, especially when we have a multiple short time-series instances.
翻訳日:2022-09-26 23:05:52 公開日:2020-11-11
# マルチモーダル配車要求に対する共同予測--ディープマルチタスク・マルチグラフ学習に基づくアプローチ

Joint predictions of multi-modal ride-hailing demands: a deep multi-task multigraph learning-based approach ( http://arxiv.org/abs/2011.05602v1 )

ライセンス: Link先を確認
Jintao Ke, Siyuan Feng, Zheng Zhu, Hai Yang, Jieping Ye(参考訳) ライドシェアリングプラットフォームは一般的に、ソロライドサービスや共有ライドサービスなど、さまざまなサービスオプションを顧客に提供します。 異なるサービスモードに対する要求は相関しており、一つのサービスモードに対する需要の予測は、他のサービスモードに対する要求の歴史的な観察から恩恵を受ける可能性がある。 さらに、複数のサービスモードに対する要求の正確な共同予測は、プラットフォームが車両リソースを割り当て、ディスパッチするのに役立つ。 1つの特定のサービスモードに対する配車需要予測に関する文献は多数存在するが、複数のサービスモードに対する配車需要の合同予測への取り組みはほとんど行われていない。 この問題に対処するために,1) 異なるサービスモードの要求を予測する複数のマルチグラフ畳み込み(MGC)ネットワークと,2) 複数のMGCネットワーク間の知識共有を可能にするマルチタスク学習モジュールの2つのコンポーネントを組み合わせた深層マルチタスク学習手法を提案する。 具体的には、2つのマルチタスク学習構造が確立されている。 ひとつは正規化されたクロスタスク学習で、複数のmgcネットワークの入力と出力間のクロスタスク接続を構築する。 2つ目はマルチ線形関係学習であり、様々なMGCネットワークの重みに先行テンソル正規分布を課す。 異なるmgcネットワークの間に具体的な橋はないが、これらのネットワークの重みは互いに制約され、共通の事前分布に従う。 マンハッタンのFor-hire-vehicleデータセットから評価したところ,提案手法は,異なる配車モードの予測精度において,ベンチマークアルゴリズムよりも優れていることがわかった。

Ride-hailing platforms generally provide various service options to customers, such as solo ride services, shared ride services, etc. It is generally expected that demands for different service modes are correlated, and the prediction of demand for one service mode can benefit from historical observations of demands for other service modes. Moreover, an accurate joint prediction of demands for multiple service modes can help the platforms better allocate and dispatch vehicle resources. Although there is a large stream of literature on ride-hailing demand predictions for one specific service mode, little efforts have been paid towards joint predictions of ride-hailing demands for multiple service modes. To address this issue, we propose a deep multi-task multi-graph learning approach, which combines two components: (1) multiple multi-graph convolutional (MGC) networks for predicting demands for different service modes, and (2) multi-task learning modules that enable knowledge sharing across multiple MGC networks. More specifically, two multi-task learning structures are established. The first one is the regularized cross-task learning, which builds cross-task connections among the inputs and outputs of multiple MGC networks. The second one is the multi-linear relationship learning, which imposes a prior tensor normal distribution on the weights of various MGC networks. Although there are no concrete bridges between different MGC networks, the weights of these networks are constrained by each other and subject to a common prior distribution. Evaluated with the for-hire-vehicle datasets in Manhattan, we show that our propose approach outperforms the benchmark algorithms in prediction accuracy for different ride-hailing modes.
翻訳日:2022-09-26 23:04:59 公開日:2020-11-11
# ミニチュアオートカーレーシングのシミュレート・トゥ・リアルトランスファー

Sim-To-Real Transfer for Miniature Autonomous Car Racing ( http://arxiv.org/abs/2011.05617v1 )

ライセンス: Link先を確認
Yeong-Jia Roger Chu, Ting-Han Wei, Jin-Bo Huang, Yuan-Hao Chen, I-Chen Wu(参考訳) sim-to-real(シミュレーション・トゥ・リアル)とは、シミュレータでモデルをトレーニングし、現実世界に転送する、という用語で、より高速な深層強化学習(drl)トレーニングを可能にする技術である。 しかし,シミュレータと実世界の違いにより,実世界ではモデルの性能が低下することがしばしばある。 ドメインランダム化(Domain randomization)は、シミュレーションから実際のギャップを埋めるために、モデルをさまざまなシナリオに公開し、現実の状況に一般化する方法である。 しかし、DRLで自律走行車のレースモデルを訓練するためのドメインランダム化に従えば、望ましくない結果につながる可能性がある。 すなわち、ランダム化で訓練されたモデルは、より遅く走る傾向があり、テストトラックの完成率が高いことは、より長いラップタイムを犠牲にする。 本稿では,レースラップタイムを損なうことなく,トレーニングされたレースカーモデルの堅牢性を高めることを目的とする。 同じ形状(同じ最適経路)だが、照明や背景などが異なるトレーニングトラックとテストトラックについては、まず、トレーニングトラックに過度に適合するモデル(教師モデル)をトレーニングし、ほぼ最適経路に沿って移動します。 次に、このモデルを用いて、学生モデルにランダム化と共に正しい行動を教える。 この方法では、試験コース上で18.4\%の完成率を持つモデルは、52\%の完成率を持つ学生モデルを教えるのに役立ちます。 さらに、平均50回の試験で、生徒は教師より0.23秒早く終わることができる。 この0.23秒差はタイトなレースでは重要であり、ラップタイムは約10秒から12秒である。

Sim-to-real, a term that describes where a model is trained in a simulator then transferred to the real world, is a technique that enables faster deep reinforcement learning (DRL) training. However, differences between the simulator and the real world often cause the model to perform poorly in the real world. Domain randomization is a way to bridge the sim-to-real gap by exposing the model to a wide range of scenarios so that it can generalize to real-world situations. However, following domain randomization to train an autonomous car racing model with DRL can lead to undesirable outcomes. Namely, a model trained with randomization tends to run slower; a higher completion rate on the testing track comes at the expense of longer lap times. This paper aims to boost the robustness of a trained race car model without compromising racing lap times. For a training track and a testing track having the same shape (and same optimal paths), but with different lighting, background, etc., we first train a model (teacher model) that overfits the training track, moving along a near optimal path. We then use this model to teach a student model the correct actions along with randomization. With our method, a model with 18.4\% completion rate on the testing track is able to help teach a student model with 52\% completion. Moreover, over an average of 50 trials, the student is able to finish a lap 0.23 seconds faster than the teacher. This 0.23 second gap is significant in tight races, with lap times of about 10 to 12 seconds.
翻訳日:2022-09-26 23:04:31 公開日:2020-11-11
# 半教師付き意味理解に向けて

Towards Semi-Supervised Semantics Understanding from Speech ( http://arxiv.org/abs/2011.06195v1 )

ライセンス: Link先を確認
Cheng-I Lai, Jin Cao, Sravan Bodapati, Shang-Wen Li(参考訳) モデルがオラクルテキスト入力で訓練され、自動音声認識(ASR)出力を無視されたり、スロット値のない意図のみを予測するためにモデルが訓練されたり、あるいはモデルが大量の社内データで訓練されたりした。 そこで本稿では,音声から意味論を直接学習する,クリーンで汎用的なフレームワークを提案する。 我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築され、限られた量のSLUコーパスに基づいて微調整される。 並行して、SLUモデルが試験された2つの不適切な設定、すなわちノイズロストネスとE2Eセマンティクスの評価を同定した。 提案手法を現実的な環境騒音下でテストし, スロットがF1スコアを編集し, 2つの公的なSLUコーパスを用いた。 実験により, 音声を入力とするSLUフレームワークは, セマンティクス理解における入力としてオラクルテキストと同等に動作し, 環境騒音も発生し, ラベル付きセマンティクスデータが限られた量で利用できることがわかった。

Much recent work on Spoken Language Understanding (SLU) falls short in at least one of three ways: models were trained on oracle text input and neglected the Automatics Speech Recognition (ASR) outputs, models were trained to predict only intents without the slot values, or models were trained on a large amount of in-house data. We proposed a clean and general framework to learn semantics directly from speech with semi-supervision from transcribed speech to address these. Our framework is built upon pretrained end-to-end (E2E) ASR and self-supervised language models, such as BERT, and fine-tuned on a limited amount of target SLU corpus. In parallel, we identified two inadequate settings under which SLU models have been tested: noise-robustness and E2E semantics evaluation. We tested the proposed framework under realistic environmental noises and with a new metric, the slots edit F1 score, on two public SLU corpora. Experiments show that our SLU framework with speech as input can perform on par with those with oracle text as input in semantics understanding, while environmental noises are present, and a limited amount of labeled semantics data is available.
翻訳日:2022-09-26 22:58:02 公開日:2020-11-11
# センサに基づく人間行動認識のための半教師付き対人翻訳

Generic Semi-Supervised Adversarial Subject Translation for Sensor-Based Human Activity Recognition ( http://arxiv.org/abs/2012.03682v1 )

ライセンス: Link先を確認
Elnaz Soleimani, Ghazaleh Khodabandelou, Abdelghani Chibani, Yacine Amirat(参考訳) HAR(Human Activity Recognition)モデルの性能、特にディープニューラルネットワークは、十分にラベル付けされるべき大量のアノテートされたトレーニングデータの可用性に大きく依存している。 しかし、HARドメインにおけるデータ取得と手動アノテーションは、双方のステップで熟練した人材要求のため、極めて高価である。 したがって、既存のデータソースからの知識を適応させるためにドメイン適応技術が提案されている。 近年では, 画像分類において, 不均衡分布の影響を受けやすいセンサベースHAR問題に対して, 画像分類において極めて有望な結果が得られている。 本稿では,harにおける半教師付きドメイン適応のための新しい汎用的かつロバストな手法を提案する。この手法は,対象主題のラベルなしサンプルと対象主題のラベル付きサンプルのみからの知識を活用し,その欠点に取り組むための敵フレームワークの利点を生かしたものである。 大規模・中・小規模の3つの不均衡データに対して,提案モデルのロバスト性と有効性,データの不均衡を評価するための広範囲な対象翻訳実験を行った。 その結果,提案手法が最先端手法に対して有効であることが示され,オポチュニティ,LISSI,PAMAP2データセットに対する高レベルのアクティビティ認識指標が最大13%,4%,13%向上した。 LISSIデータセットは、人口密度が低く不均衡な分布のため、最も難しいデータセットである。 sa-ganadversarial domain adaptation法と比較して,提案手法は,マイクロミニバッチトレーニングの有効性を強調する3つのデータセットの平均7.5%で最終分類性能を向上させる。

The performance of Human Activity Recognition (HAR) models, particularly deep neural networks, is highly contingent upon the availability of the massive amount of annotated training data which should be sufficiently labeled. Though, data acquisition and manual annotation in the HAR domain are prohibitively expensive due to skilled human resource requirements in both steps. Hence, domain adaptation techniques have been proposed to adapt the knowledge from the existing source of data. More recently, adversarial transfer learning methods have shown very promising results in image classification, yet limited for sensor-based HAR problems, which are still prone to the unfavorable effects of the imbalanced distribution of samples. This paper presents a novel generic and robust approach for semi-supervised domain adaptation in HAR, which capitalizes on the advantages of the adversarial framework to tackle the shortcomings, by leveraging knowledge from annotated samples exclusively from the source subject and unlabeled ones of the target subject. Extensive subject translation experiments are conducted on three large, middle, and small-size datasets with different levels of imbalance to assess the robustness and effectiveness of the proposed model to the scale as well as imbalance in the data. The results demonstrate the effectiveness of our proposed algorithms over state-of-the-art methods, which led in up to 13%, 4%, and 13% improvement of our high-level activities recognition metrics for Opportunity, LISSI, and PAMAP2 datasets, respectively. The LISSI dataset is the most challenging one owing to its less populated and imbalanced distribution. Compared to the SA-GAN adversarial domain adaptation method, the proposed approach enhances the final classification performance with an average of 7.5% for the three datasets, which emphasizes the effectiveness of micro-mini-batch training.
翻訳日:2022-09-26 22:57:24 公開日:2020-11-11
# 自己組織化マップのパフォーマンス指標の調査と実装

A Survey and Implementation of Performance Metrics for Self-Organized Maps ( http://arxiv.org/abs/2011.05847v1 )

ライセンス: Link先を確認
Florent Forest, Mustapha Lebbah, Hanane Azzag, J\'er\^ome Lacaille(参考訳) 自己組織化マップアルゴリズムは、生物学、地質学、医療、産業、人文科学などの様々なアプリケーション領域で、高次元データセットを探索、クラスタ化、視覚化するための解釈可能なツールとして40年近く使われてきた。 すべてのアプリケーションにおいて、実践者は結果のマッピングをtextit{trust} にできるかどうかを知り、アルゴリズムパラメータ(例えば、マップサイズ)をチューニングするためのモデル選択を実行する必要がある。 自己組織化マップ(som)の定量的評価は、クラスタリング検証のサブセットであり、困難な問題である。 クラスタリングモデル選択は通常、クラスタリング妥当性指標を使用して達成される。 また、自己組織化されたクラスタリングモデルにも適用できますが、マップのトポロジーを無視して、疑問に答えるだけです。 SOMモデルの評価は,それらのトポロジを評価する上で,新たな課題をもたらす。 SOMモデルの性能評価の問題は、近辺の制約を取り入れた品質指標の族である「textit{topographic} indices」を産み出すなど、文学において既に十分に取り組まれている。 このような指標の一般的な例は、地形誤差、近傍保存、あるいは地形積である。 しかし、オープンソースの実装はほとんど見つからない。 既存のsomパフォーマンスメトリクスを調査した後、pythonと広く使われている数値ライブラリでそれらを実装し、オープンソースライブラリであるsomperfとして提供しました。 本稿では,我々のモジュールで利用可能な各メトリクスと使用例を紹介する。

Self-Organizing Map algorithms have been used for almost 40 years across various application domains such as biology, geology, healthcare, industry and humanities as an interpretable tool to explore, cluster and visualize high-dimensional data sets. In every application, practitioners need to know whether they can \textit{trust} the resulting mapping, and perform model selection to tune algorithm parameters (e.g. the map size). Quantitative evaluation of self-organizing maps (SOM) is a subset of clustering validation, which is a challenging problem as such. Clustering model selection is typically achieved by using clustering validity indices. While they also apply to self-organized clustering models, they ignore the topology of the map, only answering the question: do the SOM code vectors approximate well the data distribution? Evaluating SOM models brings in the additional challenge of assessing their topology: does the mapping preserve neighborhood relationships between the map and the original data? The problem of assessing the performance of SOM models has already been tackled quite thoroughly in literature, giving birth to a family of quality indices incorporating neighborhood constraints, called \textit{topographic} indices. Commonly used examples of such metrics are the topographic error, neighborhood preservation or the topographic product. However, open-source implementations are almost impossible to find. This is the issue we try to solve in this work: after a survey of existing SOM performance metrics, we implemented them in Python and widely used numerical libraries, and provide them as an open-source library, SOMperf. This paper introduces each metric available in our module along with usage examples.
翻訳日:2022-09-26 22:56:48 公開日:2020-11-11
# 深層ニューラルネットワークとニューロファジーネットワークによる経済システムの知的分析

Deep Neural Networks and Neuro-Fuzzy Networks for Intellectual Analysis of Economic Systems ( http://arxiv.org/abs/2011.05588v1 )

ライセンス: Link先を確認
Alexey Averkin and Sergey Yarushev(参考訳) 本稿では,ディープニューラルネットワークとニューロファジィネットに基づく時系列予測手法を提案する。 また,ANFISモデルの様々なモデルに基づく予測に関する研究について,概説する。 ディープラーニングは複雑なデータソースから高精度な予測を行う効果的な方法であることが証明されている。 また,本課題に対するDLとNeuro-Fuzzy Networksのモデルを提案する。 最後に,これらのモデルを用いたデータサイエンスタスクの可能性を示す。 本稿では,ルールベース手法をディープラーニングニューラルネットワークに組み込むためのアプローチについて概説する。

In tis paper we consider approaches for time series forecasting based on deep neural networks and neuro-fuzzy nets. Also, we make short review of researches in forecasting based on various models of ANFIS models. Deep Learning has proven to be an effective method for making highly accurate predictions from complex data sources. Also, we propose our models of DL and Neuro-Fuzzy Networks for this task. Finally, we show possibility of using these models for data science tasks. This paper presents also an overview of approaches for incorporating rule-based methodology into deep learning neural networks.
翻訳日:2022-09-26 22:56:20 公開日:2020-11-11
# Audrey: 個人化されたオープンドメイン会話ボット

Audrey: A Personalized Open-Domain Conversational Bot ( http://arxiv.org/abs/2011.05910v1 )

ライセンス: Link先を確認
Chung Hoon Hong, Yuan Liang, Sagnik Sinha Roy, Arushi Jain, Vihang Agarwal, Ryan Draves, Zhizhuo Zhou, William Chen, Yujian Liu, Martha Miracky, Lily Ge, Nikola Banovic, David Jurgens(参考訳) 会話インテリジェンス(英: Conversational Intelligence)とは、個人が情報、個人、関係のレベルに関わること。 自然言語理解の進歩は、最近のチャットボットが情報レベルでダイアログを成功させるのに役立つ。 しかし、現在の技術は、個人レベルで人間と会話し、それらと完全に関連しているため、まだ遅れている。 ミシガン大学がAlexa Prize Grand Challenge 3に提出したAudreyはオープンドメインの会話チャットボットで、顧客の個性や感情によって導かれる関心に基づく会話を通じて顧客をこれらのレベルに引き込む。 audreyは感情検出や個人理解モジュールといった社会的に認識されたモデルから構築されており、ユーザーの興味や欲求をより深く理解している。 私たちのアーキテクチャは、知識駆動型応答ジェネレータとコンテキスト駆動型ニューラル応答ジェネレータの間でバランスの取れたハイブリッドアプローチを使用して、顧客と対話する。 準決勝期間中,我々は1-5Likertスケールで平均3.25の累積評価を達成した。

Conversational Intelligence requires that a person engage on informational, personal and relational levels. Advances in Natural Language Understanding have helped recent chatbots succeed at dialog on the informational level. However, current techniques still lag for conversing with humans on a personal level and fully relating to them. The University of Michigan's submission to the Alexa Prize Grand Challenge 3, Audrey, is an open-domain conversational chat-bot that aims to engage customers on these levels through interest driven conversations guided by customers' personalities and emotions. Audrey is built from socially-aware models such as Emotion Detection and a Personal Understanding Module to grasp a deeper understanding of users' interests and desires. Our architecture interacts with customers using a hybrid approach balanced between knowledge-driven response generators and context-driven neural response generators to cater to all three levels of conversations. During the semi-finals period, we achieved an average cumulative rating of 3.25 on a 1-5 Likert scale.
翻訳日:2022-09-26 22:55:53 公開日:2020-11-11
# 量子インスパイアされたメタ構造の逆設計確率モデル

A Quantum-Inspired Probabilistic Model for the Inverse Design of Meta-Structures ( http://arxiv.org/abs/2011.05511v1 )

ライセンス: Link先を確認
Yingtao Luo and Xuefeng Zhu(参考訳) 量子力学において、ノルム二乗波動関数は、与えられた位置または運動量で測定される粒子の確率を記述する確率密度として解釈することができる。 この統計的性質は、ミクロコスモスの中核にある。 一方、素材の機械学習逆設計が注目され、物質工学のための様々なインテリジェントシステムが生まれた。 ここでは量子論にヒントを得て,機能的メタ構造の逆設計のための確率論的ディープラーニングパラダイムを提案する。 当社の確率密度ベースニューラルネットワーク(pdn)は,所望の性能を満たすために,可能なすべてのメタ構造を正確に捉えることができる。 確率密度分布の局所極大は、最も可能性の高い候補に対応する。 提案手法は,各伝送スペクトルに対して複数のメタ構造を設計すれば,設計選択を豊かにすることができる。

In quantum mechanics, a norm squared wave function can be interpreted as the probability density that describes the likelihood of a particle to be measured in a given position or momentum. This statistical property is at the core of the microcosmos. Meanwhile, machine learning inverse design of materials raised intensive attention, resulting in various intelligent systems for matter engineering. Here, inspired by quantum theory, we propose a probabilistic deep learning paradigm for the inverse design of functional meta-structures. Our probability-density-based neural network (PDN) can accurately capture all plausible meta-structures to meet the desired performances. Local maxima in probability density distribution correspond to the most likely candidates. We verify this approach by designing multiple meta-structures for each targeted transmission spectrum to enrich design choices.
翻訳日:2022-09-26 22:55:17 公開日:2020-11-11