このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201027となっている論文です。

PDF登録状況(公開日: 20201027)

TitleAuthorsAbstract論文公表日・翻訳日
# 空洞における集団散逸分子形成

Collective Dissipative Molecule Formation in a Cavity ( http://arxiv.org/abs/2002.05601v2 )

ライセンス: Link先を確認
David Wellnitz, Stefan Sch\"utz, Shannon Whitlock, Johannes Schachenmayer, Guido Pupillo(参考訳) 超低温原子からの高収率分子生成を実現する機構を提案する。 原子対はレーザーによって連続的に励起され、分子基底状態への集合的崩壊は損失キャビティモードへのカップリングによって引き起こされる。 解析的手法と数値的手法を組み合わせることで、原子の数を増やすだけで分子収率が向上し、最先端のアソシエーションスキームの効率を克服できることを実証する。 二原子極性分子と非極性分子の現実的な実験セットアップを議論し、量子状態工学、強化分子形成、集団動力学、キャビティを媒介する化学のためのツールとして、集合光物質相互作用を開放する。

We propose a mechanism to realize high-yield molecular formation from ultracold atoms. Atom pairs are continuously excited by a laser, and a collective decay into the molecular ground state is induced by a coupling to a lossy cavity mode. Using a combination of analytical and numerical techniques, we demonstrate that the molecular yield can be improved by simply increasing the number of atoms, and can overcome efficiencies of state-of-the-art association schemes. We discuss realistic experimental setups for diatomic polar and nonpolar molecules, opening up collective light matter interactions as a tool for quantum state engineering, enhanced molecule formation, collective dynamics, and cavity mediated chemistry.
翻訳日:2023-06-03 19:09:36 公開日:2020-10-27
# 不均一な嫌悪から集合状態の連続的保護

Continuous protection of a collective state from inhomogeneous dephasing ( http://arxiv.org/abs/2004.02295v2 )

ライセンス: Link先を確認
Ran Finkelstein, Ohr Lahad, Itsik Cohen, Omri Davidson, Shai Kiriati, Eilon Poem, and Ofer Firstenberg(参考訳) 我々は,集合量子状態の不均質な軽視を解消するためのスキームを紹介し,実証する。 このスキームは、同じ不均一な源に対して高感度で反対の感度を持つ補助センサ状態で、集合状態の連続的な調整を行う非共鳴場を用いる。 1つまたは2つのドレッシングフィールドを使用する場合、ドレッシング状態が強調されることから完全に保護される最適な条件を導出する。 後者はより優れた保護を提供し、クォービット位相回転を回避し、ノイズを駆動する感度を抑制する。 我々はさらに、残余、高次、高感度の全ての表現を導出する。 我々は,不均質な脱離が熱運動に由来する原子アンサンブルの集団励起を保護し,このスキームを実験的に研究した。 光子保存と検索を用いて,不均質なデファスメントの完全な抑制とメモリ時間の延長を実証する。 我々の手法は、他のシステムにおける運動の劣化を排除し、量子ゲートと中性原子によるメモリの性能を向上させるために適用することができる。 一般には様々なガス、固体、工学的なシステムに適用され、時間、空間、その他の領域の変化に対する感度はシステムのスケールアップを制限している。

We introduce and demonstrate a scheme for eliminating the inhomogeneous dephasing of a collective quantum state. The scheme employs off-resonant fields that continuously dress the collective state with an auxiliary sensor state, which has an enhanced and opposite sensitivity to the same source of inhomogeneity. We derive the optimal conditions under which the dressed state is fully protected from dephasing, when using either one or two dressing fields. The latter provides better protection, circumvents qubit phase rotation, and suppresses the sensitivity to drive noise. We further derive expressions for all residual, higher-order, sensitivities. We experimentally study the scheme by protecting a collective excitation of an atomic ensemble, where inhomogeneous dephasing originates from thermal motion. Using photon storage and retrieval, we demonstrate complete suppression of inhomogeneous dephasing and consequently a prolonged memory time. Our scheme may be applied to eliminate motional dephasing in other systems, improving the performance of quantum gates and memories with neutral atoms. It is also generally applicable to various gas, solid, and engineered systems, where sensitivity to variations in time, space, or other domains limits possible scale-up of the system.
翻訳日:2023-05-26 08:26:29 公開日:2020-10-27
# 量子回路の高度等価性検証

Advanced Equivalence Checking for Quantum Circuits ( http://arxiv.org/abs/2004.08420v2 )

ライセンス: Link先を確認
Lukas Burgholzer, Robert Wille(参考訳) 量子コンピューティングは、ある問題に取り組む方法を変えるだろう。 多くの化学、財務、機械学習のアプリケーションを劇的に高速化する。 しかし、これらの約束を活かすには、コンパイル、分解、マッピングといったステップからなる複雑な設計フローを実際のデバイス上で概念的量子アルゴリズムを実行する前に採用する必要がある。 この結果、様々なレベルの抽象的な記述が、互いに大きく異なる可能性がある。 基礎となる設計問題の複雑さは、単一のステップに対して効率的なソリューションを提供するだけでなく、当初意図していた機能がすべての抽象化レベルにわたって保存されていることを検証する必要がある。 これは量子回路の等価性チェックの手法を動機付ける。 しかし、既存のほとんどの手法は古典的な領域にインスパイアされ、単に量子回路をサポートするように拡張されただけである(つまり、0と1に依存せず、重ね合わせや絡み合いも採用している)。 本研究では、量子回路の異なるパラダイムを重荷としてだけでなく、機会として捉える高度な方法論を提案する。 実際、提案手法は、既存のアプローチの欠点を克服するために量子コンピューティング特有の特性を明示的に利用する。 量子回路の可逆性を利用して、多くの場合において複雑性を維持できることが示される。 さらに,古典的領域とは対照的に,量子回路の検証においてシミュレーションは非常に強力であることを示す。 実験的な評価により、結果として得られる手法により、これまでにない速さで等価性チェックが可能になることが確認された。 提案手法の実装はhttps://iic.jku.at/eda/research/quantum_verification/で公開されている。

Quantum computing will change the way we tackle certain problems. It promises to dramatically speed-up many chemical, financial, and machine-learning applications. However, to capitalize on those promises, complex design flows composed of steps such as compilation, decomposition, or mapping need to be employed before being able to execute a conceptual quantum algorithm on an actual device. This results in descriptions at various levels of abstraction which may significantly differ from each other. The complexity of the underlying design problems necessitates to not only provide efficient solutions for the single steps, but also to verify that the originally intended functionality is preserved throughout all levels of abstraction. This motivates methods for equivalence checking of quantum circuits. However, most existing methods are inspired by the classical realm and have merely been extended to support quantum circuits (i.e., circuits which do not only rely on 0's and 1's, but also employ superposition and entanglement). In this work, we propose an advanced methodology which takes the different paradigms of quantum circuits not only as a burden, but as an opportunity. In fact, the proposed methodology explicitly utilizes characteristics unique to quantum computing in order to overcome the shortcomings of existing approaches. We show that, by exploiting the reversibility of quantum circuits, complexity can be kept feasible in many cases. Moreover, we show that, in contrast to the classical realm, simulation is very powerful in verifying quantum circuits. Experimental evaluations confirm that the resulting methodology allows one to conduct equivalence checking dramatically faster than ever before--in many cases just a single simulation run is sufficient. An implementation of the proposed methodology is publicly available at https://iic.jku.at/eda/research/quantum_verification/.
翻訳日:2023-05-23 04:27:58 公開日:2020-10-27
# DMRGによる強い相互作用を持つ$\mathbb{Z}_2$フラットバンドの研究 : ねじれた二層グラフェンにインスパイアされた玩具モデル

DMRG study of strongly interacting $\mathbb{Z}_2$ flatbands: a toy model inspired by twisted bilayer graphene ( http://arxiv.org/abs/2004.10363v3 )

ライセンス: Link先を確認
P. Myles Eugenio and Ceren B. Da\u{g}(参考訳) 逆(または等)の位相量子数のバンドを占める電子(Chern$=\pm1$)と平坦な分散を持つ電子間の強い相互作用は、最低ランダウレベル(LLL)波動関数を用いて研究される。 より正確には、ハーフフィリングで2つのシナリオの基底状態を決定する。 (i)磁場の反対の符号を持つLLL、従ってチャーン数と反対の符号 (ii)同じ磁場を持つLLL。 ツイスト二層グラフェンのキラル対称連続体モデルに触発されたトイモデルであると主張する最初のシナリオでは、反対のチャーンlllはクラマー対であり、したがって時間反転対称性(英語版)(\mathbb{z}_2$)が存在する。 反発的な相互作用をオンにすることで、系は自発的に時間反転対称性(lll軌道あたりの1つの粒子によって記述される量子異常ホール状態)を破ることができる。 代わりに、同様のチャーン数の電子間の相互作用が取られる場合、基底状態は$su(2)$ ferromagnetであり、全スピンは任意の方向を向いており、例えば$\nu=1$ spin-$\frac{1}{2}$ quantum hall ferromagnetである。 これらのシナリオの基底状態とそれらの励起は解析的に議論され、密度行列再正規化群(DMRG)と正確な対角化によってさらに補完される。

Strong interactions between electrons occupying bands of opposite (or like) topological quantum numbers (Chern$=\pm1$), and with flat dispersion, are studied by using lowest Landau level (LLL) wavefunctions. More precisely, we determine the ground states for two scenarios at half-filling: (i) LLL's with opposite sign of magnetic field, and therefore opposite Chern number; and (ii) LLL's with the same magnetic field. In the first scenario -- which we argue to be a toy model inspired by the chirally symmetric continuum model for twisted bilayer graphene -- the opposite Chern LLL's are Kramer pairs, and thus there exists time-reversal symmetry ($\mathbb{Z}_2$). Turning on repulsive interactions drives the system to spontaneously break time-reversal symmetry -- a quantum anomalous Hall state described by one particle per LLL orbital, either all positive Chern $|++\cdots+>$ or all negative $|--\cdots->$. If instead, interactions are taken between electrons of like-Chern number, the ground state is an $SU(2)$ ferromagnet, with total spin pointing along an arbitrary direction, as with the $\nu=1$ spin-$\frac{1}{2}$ quantum Hall ferromagnet. The ground states and some of their excitations for both of these scenarios are argued analytically, and further complimented by density matrix renormalization group (DMRG) and exact diagonalization.
翻訳日:2023-05-22 11:14:06 公開日:2020-10-27
# 平衡量子相転移における量子コヒーレンスを明らかにするツールとしての準断熱エコーによる時間外相関の検出

Detecting out-of-time-order correlations via quasi-adiabatic echoes as a tool to reveal quantum coherence in equilibrium quantum phase transitions ( http://arxiv.org/abs/2006.01313v5 )

ライセンス: Link先を確認
Robert J. Lewis-Swan, Sean R. Muleady, Ana Maria Rey(参考訳) 本稿では,時間外相関(OTOC)を用いた平衡量子相転移と量子コヒーレンスを結合する新しい動的手法を提案する。 リプキン・メシュコフ・グリックおよび横場イジングモデルを図示的な例として採用することにより、量子相転移における基底状態のコヒーレンスと絡み合いの急激な変化が、OTOCの特殊なタイプである多重量子コヒーレンス(MQC)強度のスペクトルにおいて観測可能であることを示す。 また, 準アディバティックなクエンチを用いて, 基底状態の位相図から関連するOTOCを得るためのロバストなプロトコルを開発した。 本手法は,コヒーレント力学の時間反転を伴わないオトクの検出を可能にし,基盤となるハミルトニアンの符号を反転させることで時間反転が達成できない幅広い実験に適用可能かつ重要である。

We propose a new dynamical method to connect equilibrium quantum phase transitions and quantum coherence using out-of-time-order correlations (OTOCs). Adopting the iconic Lipkin-Meshkov-Glick and transverse-field Ising models as illustrative examples, we show that an abrupt change in coherence and entanglement of the ground state across a quantum phase transition is observable in the spectrum of multiple quantum coherence (MQC) intensities, which are a special type of OTOC. We also develop a robust protocol to obtain the relevant OTOCs using quasi-adiabatic quenches through the ground state phase diagram. Our scheme allows for the detection of OTOCs without time-reversal of coherent dynamics, making it applicable and important for a broad range of current experiments where time-reversal cannot be achieved by inverting the sign of the underlying Hamiltonian.
翻訳日:2023-05-17 11:09:51 公開日:2020-10-27
# カー・ニューマンブラックホールのホーキング放射粒子スペクトル

Hawking radiation particle spectrum of a Kerr-Newman black hole ( http://arxiv.org/abs/2006.09681v3 )

ライセンス: Link先を確認
Joshua Foo, Michael R. R. Good(参考訳) 荷電、回転するカー・ニューマンブラックホールは一般相対性理論のアインシュタイン・マクスウェル方程式に対する漸近的に平坦なブラックホール解の最も一般的なクラスである。 ここでは、(1+1)次元加速境界対応(すなわち、平面時空ミラー軌道)をミンコフスキー時空で利用することにより、カー・ニューマンブラックホールが生成するホーキング放射の簡易モデルを考える。 我々は,Kerr,Reissner-Nordstr\omおよびSchwarzschildの場合の粒子スペクトルとその深夜熱分布を導出する。 また,極値kerr-newman系の粒子スペクトルと全エネルギーを計算した。

Charged, rotating Kerr-Newman black holes represent the most general class of asymptotically flat black hole solutions to the Einstein-Maxwell equations of general relativity. Here, we consider a simplified model for the Hawking radiation produced by a Kerr-Newman black hole by utilising a (1+1)-dimensional accelerated boundary correspondence (i.e. a flat spacetime mirror trajectory) in Minkowski spacetime. We derive the particle spectrum and its late-time thermal distribution which reduces to the Kerr, Reissner-Nordstr\"om and Schwarzschild cases in the appropriate limits. We also compute the particle spectrum of the extremal Kerr-Newman system and the total energy emitted.
翻訳日:2023-05-13 15:57:34 公開日:2020-10-27
# 傾斜格子上の2成分量子ウォーカーの相関

Correlations in few two-component quantum walkers on a tilted lattice ( http://arxiv.org/abs/2006.13744v4 )

ライセンス: Link先を確認
Saubhik Sarkar and Tomasz Sowi\'nski(参考訳) 量子ウォーカの動的特性に及ぼす成分間相互作用の影響について検討する。 傾斜光学格子上の2つの非接触歩行者が、異なる部品から歩行者と相互作用する最も単純な状況を考える。 第3粒子の媒介効果は、様々な制御パラメータの背景で解析される。 相互作用誘起2粒子相関は、粒子統計、初期状態の選択、格子の傾き配置によって非自明に影響を受けることが示されている。 このように分析は全体像を提供し、相互作用する多成分量子ウォーカーの研究の出発点となる。

We study the effect of inter-component interactions on the dynamical properties of quantum walkers. We consider the simplest situation of two indistinguishable non-interacting walkers on a tilted optical lattice interacting with a walker from a different component. The mediated effect of the third particle is then analyzed in the backdrop of various controlling parameters. The interaction-induced two-particle correlations are shown to be non-trivially affected by the particle statistics, choice of initial states, and tilting configurations of the lattice. Our analysis thus offers an overall picture and serves as a starting point of a study of interacting multi-component quantum walkers.
翻訳日:2023-05-12 22:36:50 公開日:2020-10-27
# 情報コクオンの幾何学--単語埋め込みモデルによる文化空間の分析

The Geometry of Information Cocoon: Analyzing the Cultural Space with Word Embedding Models ( http://arxiv.org/abs/2007.10083v3 )

ライセンス: Link先を確認
Huimin Xu, Zhicong Chen, Ruiqi Li, Cheng-Jun Wang(参考訳) デジタルメディアの発展に伴い、情報コクオンの脅威が重大な問題となっている。 しかし、文化空間としての情報コクーンと社会階級との関係についてはほとんど知られていない。 本研究では,3つの大規模デジタルメディア利用データセットのうち,単語埋め込みモデルとランダムシャッフル手法を用いて文化空間を構築することで,この問題に対処する。 文化生産のフィールド理論に照らして,979人のコンピュータユーザ,10万人のスマートフォンユーザ,159,373人のモバイル読書アプリケーションユーザを対象に,社会階級における情報コクオン効果について検討した。 本分析により,デジタルメディアの日常利用において,情報コークスが広く存在することが明らかとなった。 また,低社会階級の人々は,エンタテインメントコンテンツで満たされた情報にこだわる確率が高い。 対照的に、より高い社会階級の人々は、情報コクオンの制約を乗り越える能力を持っている。 その結果,知識獲得における脆弱な集団のデメリットは,社会的不平等をさらに拡大する可能性が示唆された。

Accompanied by the development of digital media, the threat of information cocoon has become a significant issue. However, little is known about the measure of information cocoon as a cultural space and its relationship with social class. This study addresses this problem by constructing the cultural space with word embedding models and random shuffling methods among three large-scale digital media use datasets. In the light of field theory of cultural production, we investigate the information cocoon effect on different social classes among 979 computer users, 100,000 smartphone users, and 159,373 mobile reading application users. Our analysis reveals that information cocoons widely exist in the daily use of digital media. Moreover, people of lower social class have a higher probability of getting stuck in the information cocoon filled with the entertainment content. In contrast, the people of higher social class have more capability to stride over the constraints of the information cocoon. The results suggest that the disadvantages for vulnerable groups in acquiring knowledge may further widen social inequality.
翻訳日:2023-05-08 23:17:40 公開日:2020-10-27
# 流体力学限界における大きな偏差のダイナミクス:非相互作用系

Dynamics of large deviations in the hydrodynamic limit: Non-interacting systems ( http://arxiv.org/abs/2007.12113v2 )

ライセンス: Link先を確認
Gabriele Perfetto and Andrea Gambassi(参考訳) 2つの異なる温度で熱処理された2つの同一半無限部分と結合して得られる不均質初期状態に準備された量子鎖に沿った点に沿って移動するエネルギーの統計学について検討する。 特に, 非相互作用性フェルミオンおよびボゾン励起の原型モデルとして, 横場イジングと調和鎖を考える。 時空スケールのいわゆる流体力学の限界の中では、まずエネルギー密度と電流の平均値について議論し、その後、変動の統計値に基づいて、移動エネルギーのスケールされた累積生成関数を正確に計算する。 後者から、関連する大偏差関数の進化を求める。 この結果の自然な解釈は、古典的軌跡に沿って弾道的に移動する準粒子の半古典的な図式で与えられる。 非相互作用フェルミオンとボソンの場合の移動エネルギー計数量と大きな偏差関数の類似性と相違について考察した。

We study the dynamics of the statistics of the energy transferred across a point along a quantum chain which is prepared in the inhomogeneous initial state obtained by joining two identical semi-infinite parts thermalized at two different temperatures. In particular, we consider the transverse field Ising and harmonic chains as prototypical models of non-interacting fermionic and bosonic excitations, respectively. Within the so-called hydrodynamic limit of large space-time scales we first discuss the mean values of the energy density and current, and then, aiming at the statistics of fluctuations, we calculate exactly the scaled cumulant generating function of the transferred energy. From the latter, the evolution of the associated large deviation function is obtained. A natural interpretation of our results is provided in terms of a semi-classical picture of quasi-particles moving ballistically along classical trajectories. Similarities and differences between the transferred energy scaled cumulant and the large deviation functions in the cases of non-interacting fermions and bosons are discussed.
翻訳日:2023-05-08 10:49:21 公開日:2020-10-27
# 新型コロナウイルス(covid-19)に伴う中国のeコマースの混乱

Disruption in the Chinese E-Commerce During COVID-19 ( http://arxiv.org/abs/2009.14605v2 )

ライセンス: Link先を確認
Yuan Yuan and Muzhi Guan and Zhilun Zhou and Sundong Kim and Meeyoung Cha and Depeng Jin and Yong Li(参考訳) 新型コロナウイルス(COVID-19)は世界中で何百万人もの市民に感染し、多くの命を奪った。 本稿では、大規模なオンラインショッピングプラットフォームで見られる行動の変化を分析し、中国のeコマース市場への影響を考察する。 最初に時系列分析を行い、最も大規模な混乱に直面した製品カテゴリを特定します。 タイムラグ分析の結果,ショッピング行動にみられる行動パターンは流行の進行に非常に反応することが示された。 そこで本研究では,新型コロナウイルス関連製品の流行統計と行動特徴を包含する消費者需要予測手法を提案する。 実験の結果,我々の予測は既存のベースラインより優れており,長期および州レベルの予測にも及んでいることが明らかとなった。 我々は、市場分析と予測が、予防措置の開始に余分な時間を得ることで、将来のパンデミックに備える上でどのように役立つかについて議論する。

The recent outbreak of the novel coronavirus (COVID-19) has infected millions of citizens worldwide and claimed many lives. This paper examines its impact on the Chinese e-commerce market by analyzing behavioral changes seen from a large online shopping platform. We first conduct a time series analysis to identify product categories that faced the most extensive disruptions. The time-lagged analysis shows that behavioral patterns seen in shopping actions are highly responsive to epidemic development. Based on these findings, we present a consumer demand prediction method by encompassing the epidemic statistics and behavioral features for COVID-19 related products. Experiment results demonstrate that our predictions outperform existing baselines and further extend to the long-term and province-level forecasts. We discuss how our market analysis and prediction can help better prepare for future pandemics by gaining an extra time to launch preventive steps.
翻訳日:2023-05-08 10:39:55 公開日:2020-10-27
# ボース・アインシュタイン凝縮体におけるスピンモーメントの絡み合い

Spin-momentum entanglement in a Bose-Einstein condensate ( http://arxiv.org/abs/2007.13805v2 )

ライセンス: Link先を確認
Sumit Suresh Kale, Yijue Ding, Yong P. Chen, Bretislav Friedrich, Sabre Kais(参考訳) 絡み合いは量子情報処理のコアであり、量子スピードアップには不可欠である。 超低温原子系におけるスピン-モーメントカップリングの理論的および実験的研究から着想を得て、$^{87}$Rb原子の光学的捕捉されたBECのスピンと運動量の間の絡み合いを調べた。 ラマン場と高周波場によって引き起こされるこれらの自由度の結合によって生じる絡み合いを考察し、その結合パラメータへの依存性をフォン・ノイマンのエントロピーの評価と、絡み合いの尺度としての共起によって検討する。 我々の計算により、適切な実験条件下では、最大到達可能な値の80%のフォン・ノイマンエントロピーで、大きなスピンモーメントの絡み合いが得られることがわかった。 我々の分析は、量子情報応用にBECを使うことの可能性に光を当てている。

Entanglement is at the core of quantum information processing and may prove essential for quantum speed-up. Inspired by both theoretical and experimental studies of spin-momentum coupling in systems of ultra-cold atoms, we investigate the entanglement between the spin and momentum degrees of freedom of an optically trapped BEC of $^{87}$Rb atoms. We consider entanglement that arises due to the coupling of these degrees of freedom induced by Raman and radio-frequency fields and examine its dependence on the coupling parameters by evaluating von Neumann entropy as well as concurrence as measures of the entanglement attained. Our calculations reveal that under proper experimental conditions significant spin-momentum entanglement can be obtained, with von Neumann entropy of 80% of the maximum attainable value. Our analysis sheds some light on the prospects of using BECs for quantum information applications.
翻訳日:2023-05-08 02:28:17 公開日:2020-10-27
# マイクロ波光メカニクスの電気回路モデル

Electric circuit model of microwave optomechanics ( http://arxiv.org/abs/2007.14438v2 )

ライセンス: Link先を確認
Xin Zhou, Dylan Cattiaux, Didier Theron, and Eddy Collin(参考訳) 標準シングルトンマイクロ波光学を記述した古典電気回路の汎用モデリングについて報告する。 機械振動子を可動キャパシタとして動作させる並列RLC回路に基づいて、古典的な状態において、バックアクション力、入力出力表現、および関連するスペクトル密度などの重要な特徴を含む解析式を導出する。 これらの式は、キャビティとメカニカルオシレータの両方の占有数が大きい場合、オプティメクスで実行される標準的な量子処理と一致する。 さらに、導出分析は光学素子と特性を電子用語に変換し、定量測定と設計のために必須である。 最後に、標準量子処理と古典モデルとの直接比較は、量子と古典的レジームの境界に対処し、真に量子的な特徴とそうでない特徴を強調する。

We report on the generic classical electric circuit modeling that describes standard single-tone microwave optomechanics. Based on a parallel RLC circuit in which a mechanical oscillator acts as a movable capacitor, derivations of analytical expressions are presented, including key features such as the back-action force, the input-output expressions, and the spectral densities associated, all in the classical regime. These expressions coincide with the standard quantum treatment performed in optomechanics when the occupation number of both cavity and mechanical oscillator are large. Besides, the derived analytics transposes optical elements and properties into electronics terms, which is mandatory for quantitative measurement and design purposes. Finally, the direct comparison between the standard quantum treatment and the classical model addresses the bounds between quantum and classical regimes, highlighting the features which are truly quantum, and those which are not.
翻訳日:2023-05-07 23:09:28 公開日:2020-10-27
# データサイエンスライフサイクルにおけるバイアス

Biases in Data Science Lifecycle ( http://arxiv.org/abs/2009.09795v2 )

ライセンス: Link先を確認
Dinh-An Ho and Oya Beyan(参考訳) 近年、データサイエンスは我々の社会にとって欠かせない部分となっている。 ビジネス、社会化、研究、社会など、あらゆる分野のデータから価値と新たな洞察を得る機会があるので、私たちはこの技術に依存しています。 同時に、これらの技術への信頼がいかに正当化されているかという疑問も持ち上がっています。 このような力がバイアス、不適切、意図しない行動につながるリスクがある。 したがって、データサイエンスの実践の結果として生じる可能性のある倫理的考察を慎重に検討すべきであり、これらの潜在的な問題はデータサイエンスライフサイクル中に特定され、可能であれば軽減されるべきである。 しかし、典型的なデータ科学者はこれらの課題を特定するのに十分な知識を持っておらず、データサイエンス生産中に倫理の専門家を組み込むことは必ずしも不可能である。 本研究の目的は,データ科学者の実践的ガイドラインを提供し,その意識を高めることである。 本研究では,データサイエンスライフサイクルの異なる段階において,さまざまなバイアス源をレビューし,それらをグループ化した。 その作業はまだ進行中です。 早期出版の目的は、コミュニティのフィードバックを集め、バイアスタイプとソリューションのキュレートされた知識ベースを改善することである。

In recent years, data science has become an indispensable part of our society. Over time, we have become reliant on this technology because of its opportunity to gain value and new insights from data in any field - business, socializing, research and society. At the same time, it raises questions about how justified we are in placing our trust in these technologies. There is a risk that such powers may lead to biased, inappropriate or unintended actions. Therefore, ethical considerations which might occur as the result of data science practices should be carefully considered and these potential problems should be identified during the data science lifecycle and mitigated if possible. However, a typical data scientist has not enough knowledge for identifying these challenges and it is not always possible to include an ethics expert during data science production. The aim of this study is to provide a practical guideline to data scientists and increase their awareness. In this work, we reviewed different sources of biases and grouped them under different stages of the data science lifecycle. The work is still under progress. The aim of early publishing is to collect community feedback and improve the curated knowledge base for bias types and solutions.
翻訳日:2023-05-03 00:30:01 公開日:2020-10-27
# 近心光キャビティの高次横モードへの光の結合

Coupling Light to Higher Order Transverse Modes of a Near-Concentric Optical Cavity ( http://arxiv.org/abs/2010.14216v1 )

ライセンス: Link先を確認
Adrian Nugraha Utama, Chang Hoong Chow, Chi Huan Nguyen, Christian Kurtsiefer(参考訳) ほぼ同心系における光学的空洞は、ほぼ縮退した横モードを持ち、この状態における密集した横モードは原子との強い結合を可能にする。 これらの特徴は、原子と光の多モード相互作用を研究する興味深いプラットフォームを提供する。 ここでは、空間光変調器(SLM)を用いて、入射光ビームの位相を、近心光キャビティのLaguerre-Gaussianモード(LGモード)に適合させる。 単一のlgモードとそれらのよく定義された組み合わせの理論的予測に近い結合効率を示し,キャビティアライメントの不完全さを主成分とする結合効率を示した。

Optical cavities in the near-concentric regime have near-degenerate transverse modes; the tight focusing transverse modes in this regime enable strong coupling with atoms. These features provide an interesting platform to explore multi-mode interaction between atoms and light. Here, we use a spatial light modulator (SLM) to shape the phase of an incoming light beam to match several Laguerre-Gaussian (LG) modes of a near-concentric optical cavity. We demonstrate coupling efficiency close to the theoretical prediction for single LG modes and well-defined combinations of them, limited mainly by imperfections in the cavity alignment.
翻訳日:2023-04-27 08:52:24 公開日:2020-10-27
# グローバル量子温度測定のための最適プローブ

Optimal Probes for Global Quantum Thermometry ( http://arxiv.org/abs/2010.14200v1 )

ライセンス: Link先を確認
Wai-Keong Mok, Kishor Bharti, Leong-Chuan Kwek, Abolfazl Bayat(参考訳) 量子力学は別のサブ分野として現れ、量子スケールで熱力学の概念と法則を改訂した。 特に、温度測定の方法や温度計の認識や設計には破壊的な変化があった。 現在、量子温度測定では2つの大きな課題に直面している。 第一に、既存の最適精度の温度プローブは全て局所的であり、その操作は狭い範囲の温度に対してのみ最適である。 第二に、上記の最適局所プローブは複雑なエネルギースペクトルに膨大な縮退を課し、それらは実用的ではない。 ここでは, 温度センサの最適開発に繋がる地球温度測定の概念を定式化することで, これらの課題に対処した。 温度間隔が増加するにつれて, 最適プローブの異なる位相の出現が観察される。 さらに、最適な大域プローブの最適近似がスピンチェーンでどのように実現され、イオントラップや量子ドットで実装できるかを示す。

Quantum thermodynamics has emerged as a separate sub-discipline, revising the concepts and laws of thermodynamics, at the quantum scale. In particular, there has been a disruptive shift in the way thermometry, and thermometers are perceived and designed. Currently, we face two major challenges in quantum thermometry. First, all of the existing optimally precise temperature probes are local, meaning their operation is optimal only for a narrow range of temperatures. Second, aforesaid optimal local probes mandate complex energy spectrum with immense degeneracy, rendering them impractical. Here, we address these challenges by formalizing the notion of global thermometry leading to the development of optimal temperature sensors over a wide range of temperatures. We observe the emergence of different phases for such optimal probes as the temperature interval is increased. In addition, we show how the best approximation of optimal global probes can be realized in spin chains, implementable in ion traps and quantum dots.
翻訳日:2023-04-27 08:52:10 公開日:2020-10-27
# 量子ボルツマンマシンの群論

Group theory on quantum Boltzmann machine ( http://arxiv.org/abs/2010.14135v1 )

ライセンス: Link先を確認
Hai-jing Song, D. L. Zhou(参考訳) 群論は量子系の対称性を特徴づけることに成功しており、量子系の処理を大幅に単純化し統一する。 ここでは、量子ボルツマンマシンの対称性の概念を導入し、対称性を記述するための群理論を開発する。 この対称性は、対称性変換に関連するすべての対象状態が同値であるだけでなく、与えられた対象状態に対して、対象状態不変性を保つ対称性変換に関連するすべての最適解が同値であることを意味する。 量子ビット上に構築したボルツマンマシンに対して,グループを構築するための体系的手順を提案し,構成の完全性を検証する数値アルゴリズムを開発した。

Group theory is extremely successful in characterizing the symmetries in quantum systems, which greatly simplifies and unifies our treatments of quantum systems. Here we introduce the concept of the symmetry for a quantum Boltzmann machine and develop a group theory to describe the symmetry. This symmetry implies not only that all the target states related with the symmetry transformations are equivalent, but also that for a given target state all the optimal solutions related with the symmetry transformations that keeps the target state invariant are equivalent. For the Boltzmann machines built on qubits, we propose a systematic procedure to construct the group, and develop a numerical algorithm to verify the completeness of our construction.
翻訳日:2023-04-27 08:51:46 公開日:2020-10-27
# ワイル半金属MoTe2に基づく磁束可変超伝導量子回路

A flux tunable superconducting quantum circuit based on Weyl semimetal MoTe2 ( http://arxiv.org/abs/2010.14107v1 )

ライセンス: Link先を確認
K. L. Chiu, D. G. Qian, J. W. Qiu, W. Y. Liu, D. Tan, V. Mosallanejad, S. Liu, Z. T. Zhang, Y. Zhao, D. P. Yu(参考訳) エキゾチックなトポロジカルな性質を持つワイル半金属は、多くの研究分野で大きな注目を集めている。 s波超伝導体と組み合わせると、超電流はトポロジカルな表面チャネルによって輸送され、マヨラナ境界状態の挙動を模倣する接合を形成する。 本稿では、ワイル半金属Td-MoTe2と超伝導鉛窒化ニオブ(NbN)からなる側方接合からなるトランスモン様超伝導量子干渉装置(SQUID)を提案する。 SQUIDはモリブデンレニウム(MoRe)からなる読み出し空洞と結合し、高出力での応答は構成するジョセフソン接合(JJs)の存在を明らかにする。 回路のループ幾何学により、リードアウトキャビティの共振周波数は磁束によって調整される。 Weyl材料をベースとしたMoTe2とフラックス可変トランスモン様回路のJJを実演する。 本研究は,SQUIDベースの量子回路におけるトポロジ材料を利用した量子情報処理の可能性を実現するためのプラットフォームを提供する。

Weyl semimetals for their exotic topological properties have drawn considerable attention in many research fields. When in combination with s-wave superconductors, the supercurrent can be carried by their topological surface channels, forming junctions mimic the behavior of Majorana bound states. Here, we present a transmon-like superconducting quantum intereference device (SQUID) consists of lateral junctions made of Weyl semimetal Td-MoTe2 and superconducting leads niobium nitride (NbN). The SQUID is coupled to a readout cavity made of molybdenum rhenium (MoRe), whose response at high power reveal the existence of the constituting Josephson junctions (JJs). The loop geometry of the circuit allows the resonant frequency of the readout cavity to be tuned by the magnetic flux. We demonstrate a JJ made of MoTe2 and a flux-tunable transmon-like circuit based on Weyl materials. Our study provides a platform to utilize topological materials in SQUID-based quantum circuits for potential applications in quantum information processing.
翻訳日:2023-04-27 08:51:21 公開日:2020-10-27
# クビット運動による雑音相関とコヒーレンス向上

Characterize noise correlation and enhance coherence via qubit motion ( http://arxiv.org/abs/2010.14052v1 )

ライセンス: Link先を確認
Jiaxiu Han, Zhiyuan Li, Jingning Zhang, Huikai Xu, Kehuan Linghu, Yongchao Li, Chengyao Li, Mo Chen, Zhen Yang, Junhua Wang, Teng Ma, Guangming Xue, Yirong Jin, Haifeng Yu(参考訳) 空間雑音相関の同定は誤り訂正量子デバイスの開発において重要であるが、これまではほとんど研究されていない。 本研究では,7量子ビット量子系における任意の量子ビット間の雑音相関を効率的に決定するために,量子ビット運動と呼ばれる有効な新しい手法を用いる。 また、同一のクビットのペア間のノイズ相関も、異なる動作周波数のクビットに対して検討される。 さらに, 雑音相関のあるマルチキュービットシステムにおいて, 論理キュービットのコヒーレンスに対するクビット運動の促進効果を示すとともに, 論理状態をデコヒーレンスからより効率的に保護し, ほぼ1桁のデコヒーレンス時間で論理キュービットのデコヒーレンス時間を拡張することが実験的に実証されたモーションCPMG演算シーケンスを提案する。

The identification of spacial noise correlation is of critical importance in developing error-corrected quantum devices, but it has barely been studied so far. In this work, we utilize an effective new method called qubit motion, to efficiently determine the noise correlations between any pair of qubits in a 7-qubit superconducting quantum system. The noise correlations between the same pairs of qubits are also investigated when the qubits are at distinct operating frequencies. What's more, in this multi-qubit system with the presence of noise correlations, we demonstrate the enhancing effect of qubit motion on the coherence of logic qubit, and we propose a Motion-CPMG operation sequence to more efficiently protect the logic state from decoherence, which is experimentally demonstrated to extend the decoherence time of logic qubit by nearly one order of magnitude.
翻訳日:2023-04-27 08:50:27 公開日:2020-10-27
# モット転移近傍における超低温格子ボソンの断熱的調製の証明

Certifying the adiabatic preparation of ultracold lattice bosons in the vicinity of the Mott transition ( http://arxiv.org/abs/2010.14352v1 )

ライセンス: Link先を確認
C\'ecile Carcy, Ga\'etan Herc\'e, Antoine Tenart, Tommaso Roscilde, David Cl\'ement(参考訳) 三次元Bose-Hubbardモデルのシミュレーションを目的とした光学格子中における超低温ボソンの断熱的準備を評価するための共同実験および理論的解析を行った。 格子気体の熱測定は、3次元運動量空間密度の測定と同じ量のab-initio 量子モンテカルロ (QMC) 計算を組み合わせることで、超流動からモット状態に至る。 超流動-モット遷移における測定温度は、QMCで再構成された等エントロピー線と一致し、粒子あたりの保存エントロピーは$S/N=0.8(1) k_{B}$である。 さらに、この熱測定法に関連するフィッシャー情報は、実験で確認されたモット転移に近い臨界状態において後者が最も正確であることを示している。 これらの結果から, ボース・ハッバードモデルの平衡状態 (モット転移以上の量子臨界状態を含む) は, 冷原子装置で断熱的に生成できることが証明された。

We present a joint experimental and theoretical analysis to assess the adiabatic experimental preparation of ultracold bosons in optical lattices aimed at simulating the three-dimensional Bose-Hubbard model. Thermometry of lattice gases is realized from the superfluid to the Mott regime by combining the measurement of three-dimensional momentum-space densities with ab-initio quantum Monte Carlo (QMC) calculations of the same quantity. The measured temperatures across the superfluid-to-Mott transition are in agreement with isentropic lines reconstructed via QMC for the experimental parameters of interest, with a conserved entropy per particle of $S/N=0.8(1) k_{B}$. In addition, the Fisher information associated with this thermometry method shows that the latter is most accurate in the critical regime close to the Mott transition, as confirmed in the experiment. These results prove that equilibrium states of the Bose-Hubbard model - including those in the quantum-critical regime above the Mott transition - can be adiabatically prepared in cold-atom apparatus.
翻訳日:2023-04-27 08:42:53 公開日:2020-10-27
# ナノ粒子ドーピングによるカシミール系におけるペプチド系塗料の安定性向上効果

Effect of increased stability of peptide-based coatings in the Casimir regime via nanoparticle doping ( http://arxiv.org/abs/2010.14330v1 )

ライセンス: Link先を確認
G. L. Klimchitskaya, V. M. Mostepanenko, and E. N. Velichko(参考訳) 金属ナノ粒子をドープした薄いペプチド膜やコーティングは、電磁揺らぎの役割によりより安定であることがわかった。 真空ペプチド膜中に存在するドープフリー状態では, カシミールアトラクションが大きくなることが示されている。 ペプチド膜でコーティングされた誘電体基板では、ナノ粒子ドーピングはカシミール圧力が魅力的で、極端の点ではより大きな圧力の大きさのフィルム厚みに繋がる。 磁性ナノ粒子によるペプチドコーティングのドーピングは、非磁性粒子のすべての利点を保ち、同時に生体電子学の応用領域を大きく広げることのできるコーティングに超常磁性を付与する。

We find that thin peptide films and coatings doped with metallic nanoparticles are more stable due to the role of electromagnetic fluctuations. It is shown that for the doped freestanding in vacuum peptide film the Casimir attraction becomes larger in magnitude. For dielectric substrates coated with peptide films, the nanoparticle doping leads to a wider range of film thicknesses where the Casimir pressure is attractive and to larger pressure magnitudes at the points of extremum. The doping of peptide coatings with magnetic nanoparticles preserves all the advantages of nonmagnetic ones and simultaneously imparts superparamagnetic properties to the coating which could extend significantly the application areas of bioelectronics.
翻訳日:2023-04-27 08:42:37 公開日:2020-10-27
# 非可換平面上のグラフェンとセイベルグ・ウィッテン写像

Graphene on noncommutative plane and the Seiberg-Witten map ( http://arxiv.org/abs/2010.14328v1 )

ライセンス: Link先を確認
Aslam Halder(参考訳) 2次元(2次元)非可換(nc)平面上の一定の背景磁場の存在下でグラフェンが研究されている。 ゲージ不変性の問題を解くために、有効なマッスル nc ディラック場理論(英語版)を用いて分析を開始し、サイバーグ-ウィッテン (sw) 写像とモヤル星 (\star$) の積を組み込む。 質量を持たないディラック粒子のゲージ不変ハミルトニアンを計算し、nc平面上のグラフェンの相対論的ランダウ問題を研究する。 特に、質量を持たない相対論的電子の量子力学は、nc平面上の一定の背景磁場の存在下で単層グラフェン上を移動する。 また,グラフェン中のNCランダウ系のエネルギースペクトルも計算する。 得られた結果は空間 nc パラメータ $\theta$ によって補正される。 最後に、NC平面上のグラフェン中の電子のワイル方程式を見る。 興味深いことに、この場合、ヘリシティは$\theta$ modifiedである。

Graphene on two dimensional (2D) noncommutative (NC) plane in the presence of a constant background magnetic field has been studied. To handel the gauge-invariance issue we start our analysis by a effective massles NC Dirac field theory where we incorporate the Seiberg-Witten (SW) map along with the Moyal star ($\star$) product. The gauge-invariant Hamiltonian of a massless Dirac particle is then computed which is used to study the relativistic Landau problem of graphene on NC plane. Specifically we study the quantum dynamics of a massless relativistic electron moves on monolayer graphene, in the presence of a constant background magnetic field, on NC plane. We also compute the energy spectrum of the NC Landau system in graphene. The results obtained are corrected by the spatial NC parameter $\theta$. Finally we visit the Weyl equation for electron in graphene on NC plane. Interestingly, in this case helicity is found to be $\theta$ modified.
翻訳日:2023-04-27 08:42:23 公開日:2020-10-27
# 回転するブラックホールからの絡み合い増幅

Entanglement Amplification from Rotating Black Holes ( http://arxiv.org/abs/2010.14517v1 )

ライセンス: Link先を確認
Matthew P. G. Robbins, Laura J. Henderson, and Robert B. Mann(参考訳) 量子真空は、時空点間の場相関によって特徴づけられることが長年知られている。 これらの相関関係は、絡み合い収穫と呼ばれるプロセスを通じて単純な2レベル量子系(Unruh-DeWitt検出器)としてモデル化された一対の粒子検出器と交換することができる。 回転するBTZブラックホールの存在下でのこの現象を調べたところ、回転は収穫した真空の絡みを著しく増幅することがわかった。 共回転検出器間の共起は、ブラックホールからの中間距離において、大きな距離でのそれと比較して最大1桁の強さで増幅される。 この効果は、ほぼ極小のブラックホールに対して最も顕著であり、大きな空間のような検出器分離で収穫することができる。 また、ブラックホールの角運動量の増加に伴い、エンタングルメント・シャドー(エンタングルメントを抽出できないブラックホール付近の領域)が小さくなっていることも判明した。

The quantum vacuum has long been known to be characterized by field correlations between spacetime points. These correlations can be swapped with a pair of particle detectors, modelled as simple two-level quantum systems (Unruh-DeWitt detectors) via a process known as entanglement harvesting. We study this phenomenon in the presence of a rotating BTZ black hole, and find that rotation can significantly amplify the harvested vacuum entanglement. Concurrence between co-rotating detectors is amplified by as much as an order of magnitude at intermediate distances from the black hole relative to that at large distances. The effect is most pronounced for near-extremal small mass black holes, and allows for harvesting at large spacelike detector separations. We also find that the entanglement shadow -- a region near the black hole from which entanglement cannot be extracted -- is diminished in size as the black hole's angular momentum increases.
翻訳日:2023-04-27 08:33:00 公開日:2020-10-27
# u(1) 量子状態再構成のための対称リカレントニューラルネットワーク

U(1) symmetric recurrent neural networks for quantum state reconstruction ( http://arxiv.org/abs/2010.14514v1 )

ライセンス: Link先を確認
Stewart Morawetz, Isaac J.S. De Vlugt, Juan Carrasquilla, Roger G. Melko(参考訳) 生成モデルは量子シミュレータの強化のための有望な技術である。 これらの機械学習手法は、実験的な測定から量子状態を再構築することができ、物理観測値の計算に役立てることができる。 本稿では、捕捉イオンシミュレーターで探索された原型ハミルトニアンであるスピン-1/2XYモデルの基底状態を再構成するために、リカレントニューラルネットワーク(RNN)を用いる。 我々は最近Hibat-Allahらによって示されたU(1)対称性を強制した後、その性能を探求する。 [Phys. Rev. Research 2,023358(2020)]RNNの自己回帰性を維持する。 投影計測データからxyモデル基底状態の再構成について検討した結果,特に初期エポック法において,rnnにu(1)対称性を課すことで学習効率が著しく向上することが示された。 この性能向上は、トレーニングプロセスの安定化に役立つ、消滅と爆発の勾配を緩和する強制対称性の傾向から生じる可能性がある、と我々は主張する。 したがって、対称性強化RNNは、ハイブリッド古典量子アルゴリズムのような最適化と回路準備の間の迅速なフィードバックが必要な量子シミュレータの応用に特に有用である。

Generative models are a promising technology for the enhancement of quantum simulators. These machine learning methods are capable of reconstructing a quantum state from experimental measurements, and can aid in the calculation of physical observables. In this paper, we employ a recurrent neural network (RNN) to reconstruct the ground state of the spin-1/2 XY model, a prototypical Hamiltonian explored in trapped ion simulators. We explore its performance after enforcing a U(1) symmetry, which was recently shown by Hibat-Allah et al. [Phys. Rev. Research 2, 023358 (2020)] to preserve the autoregressive nature of the RNN. By studying the reconstruction of the XY model ground state from projective measurement data, we show that imposing U(1) symmetry on the RNN significantly increases the efficiency of learning, particularly in the early epoch regime. We argue that this performance increase may result from the tendency of the enforced symmetry to alleviate vanishing and exploding gradients, which helps stabilize the training process. Thus, symmetry-enforced RNNs may be particularly useful for applications of quantum simulators where a rapid feedback between optimization and circuit preparation is necessary, such as in hybrid classical-quantum algorithms.
翻訳日:2023-04-27 08:32:45 公開日:2020-10-27
# 障害存在下での非エルミート位相と方向増幅の対応

Correspondence between non-Hermitian topology and directional amplification in the presence of disorder ( http://arxiv.org/abs/2010.14513v1 )

ライセンス: Link先を確認
Clara C. Wanjura, Matteo Brunelli, and Andreas Nunnenkamp(参考訳) 非エルミート的(NH)トポロジカルな効果を実用に適用するためには、無秩序なシステムを研究する必要がある。 障害のない場合、NHダイナミックマトリックスの非自明な巻線数に関連付けると、非局所散逸表示の方向増幅を施した特定の駆動散逸キャビティアレイが現れる。 本研究では, nhトポロジーと方向増幅の対応が, 障害の存在下でも有効であることを解析的に示す。 非自明なトポロジを持つ系が例外点に近くチューニングされると、完全非相互性(消滅する逆利得で表される)は任意に強いオンサイト障害に対して保存される。 有界障害に対しては、散乱行列要素の確率分布に対する単純な境界を導出する。 これらの境界は、非自明なNHトポロジーに関連する本質的な特徴、すなわち、システムサイズとともに指数関数的に、エンドツーエンドのフォワード(逆)ゲインが増加する(抑制される)ことは、混乱したシステムで保存されることを示している。 空洞アレイのNHトポロジーは堅牢であり、実用的な用途に利用することができる。

In order for non-Hermitian (NH) topological effects to be relevant for practical applications, it is necessary to study disordered systems. In the absence of disorder, certain driven-dissipative cavity arrays with engineered non-local dissipation display directional amplification when associated with a non-trivial winding number of the NH dynamic matrix. In this work, we show analytically that the correspondence between NH topology and directional amplification holds even in the presence of disorder. When a system with non-trivial topology is tuned close to the exceptional point, perfect non-reciprocity (quantified by a vanishing reverse gain) is preserved for arbitrarily strong on-site disorder. For bounded disorder, we derive simple bounds for the probability distribution of the scattering matrix elements. These bounds show that the essential features associated with non-trivial NH topology, namely that the end-to-end forward (reverse) gain grows (is suppressed) exponentially with system size, are preserved in disordered systems. NH topology in cavity arrays is robust and can thus be exploited for practical applications.
翻訳日:2023-04-27 08:32:24 公開日:2020-10-27
# 機械学習による超低温原子単発画像からの可観測読み出しの最適化

Optimized Observable Readout from Single-shot Images of Ultracold Atoms via Machine Learning ( http://arxiv.org/abs/2010.14510v1 )

ライセンス: Link先を確認
Axel U. J. Lode, Rui Lin, Miriam B\"uttner, Luca Papariello, Camille L\'ev\^eque, R. Chitra, Marios C. Tsatsos, Dieter Jaksch, and Paolo Molignini(参考訳) シングルショット画像(single-shot images)は、超低温原子を使った実験の標準的な読み出しだ。 したがって、単発画像からの可観測性の効率的な抽出は不可欠である。 本稿では,ニューラルネットワークを用いてこの抽出を最適化する方法を示す。 平均的なアプローチとは対照的に、機械学習は1粒子と2粒子の密度を、劇的に削減された単写画像から正確に得ることができる。 量子揺らぎと相関は、前例のない精度で傾いたダブルウェルポテンシャルのボソンの物理的観測性を得るために直接利用される。 驚くべきことに、機械学習は、実空間のシングルショット画像から、運動量空間の可観測性の信頼できる抽出を可能にする。 これにより、その場と飛行時間の間の実験的な設定を再設定する必要がなくなるため、リソースの大幅な削減が期待できる。

Single-shot images are the standard readout of experiments with ultracold atoms -- the tarnished looking glass into their many-body physics. The efficient extraction of observables from single-shot images is thus crucial. Here, we demonstrate how artificial neural networks can optimize this extraction. In contrast to standard averaging approaches, machine learning allows both one- and two-particle densities to be accurately obtained from a drastically reduced number of single-shot images. Quantum fluctuations and correlations are directly harnessed to obtain physical observables for bosons in a tilted double-well potential at an unprecedented accuracy. Strikingly, machine learning also enables a reliable extraction of momentum-space observables from real-space single-shot images and vice versa. This obviates the need for a reconfiguration of the experimental setup between in-situ and time-of-flight imaging, thus potentially granting an outstanding reduction in resources.
翻訳日:2023-04-27 08:32:03 公開日:2020-10-27
# スピンコヒーレント状態表現における量子カオス

Quantum chaos in the spin coherent state representation ( http://arxiv.org/abs/2010.14509v1 )

ライセンス: Link先を確認
Marek Ku\'s and Robert Przybycie\'n(参考訳) スピンコヒーレント状態を用いて、古典的極限におけるカオス的振る舞いを示す単純なパラダイム的離散時間量子力学系の古典的および量子的進化を比較する。 スピンコヒーレント状態は、量子状態(p-表現)の位相空間準分布を定義するために用いられる。 原理的には、古典的なレベルにおいて古典的な位相空間上の古典的な分布関数を扱う量子力学と古典力学の直接比較に使うことができる。 本稿では,古典分布と量子分布の適切なモーメント,特にモーメントの1ステッププロパゲータの進化を比較することにより,異なる方法を示した。

We use spin coherent states to compare classical and quantum evolution of a simple paradigmatic, discrete-time quantum dynamical system exhibiting chaotic behavior in the classical limit. The spin coherent states are employed to define a phase-space quasidistribution for quantum states (P-representation). It can be, in principle, used for a direct comparison of the quantum and classical dynamics, where on the classical level one deals with the classical distribution function on the classical phase space. In the paper, we presented a different way by comparing evolution of appropriately defined moments of classical and quantum distributions, in particular the one-step propagators of the moments.
翻訳日:2023-04-27 08:31:49 公開日:2020-10-27
# 高度なプライバシー強化技術を用いた医療データ共有の革命--技術・法・倫理合成

Revolutionizing Medical Data Sharing Using Advanced Privacy Enhancing Technologies: Technical, Legal and Ethical Synthesis ( http://arxiv.org/abs/2010.14445v1 )

ライセンス: Link先を確認
James Scheibner, Jean Louis Raisaro, Juan Ram\'on Troncoso-Pastoriza, Marcello Ienca, Jacques Fellay, Effy Vayena, Jean-Pierre Hubaux(参考訳) マルチサイト医療データ共有は、現代の臨床および医学研究において重要である。 課題は、個人のプライバシーとデータ使用性を維持するデータ共有を行うことです。 従来のプライバシー強化技術の欠点は、機関がデータ共有契約に依存することを意味する。 これらの契約は、データ共有の非効率性を高め、重要な臨床治療や医学研究を阻害する可能性がある。 本稿では,2つの新しい先進的プライバシー強化技術 (pets) の合成について述べる。準同型暗号とセキュアなマルチパーティ計算 (mhe) である。 これらのPETはプライバシーの数学的保証を提供し、MHEはHEやSMCを別々に使用するよりもパフォーマンス上の優位性を提供する。 我々は、MHEが、データ保護のグローバルベンチマークを設定したGDPR(General Data Protection Regulation)の下で、医療データ共有の法的要件を満たしていると主張している。 具体的には、MHEを用いて処理および共有されたデータは匿名データとみなすことができる。 我々は、MHEが組織間の契約のカスタマイズによる依存を減らす方法について説明する。 提案手法は、医療研究のペースを加速し、医療機関や研究機関が共通のデータ相互運用性標準を採用するための追加インセンティブを提供する。

Multisite medical data sharing is critical in modern clinical practice and medical research. The challenge is to conduct data sharing that preserves individual privacy and data usability. The shortcomings of traditional privacy-enhancing technologies mean that institutions rely on bespoke data sharing contracts. These contracts increase the inefficiency of data sharing and may disincentivize important clinical treatment and medical research. This paper provides a synthesis between two novel advanced privacy enhancing technologies (PETs): Homomorphic Encryption and Secure Multiparty Computation (defined together as Multiparty Homomorphic Encryption or MHE). These PETs provide a mathematical guarantee of privacy, with MHE providing a performance advantage over separately using HE or SMC. We argue MHE fulfills legal requirements for medical data sharing under the General Data Protection Regulation (GDPR) which has set a global benchmark for data protection. Specifically, the data processed and shared using MHE can be considered anonymized data. We explain how MHE can reduce the reliance on customized contractual measures between institutions. The proposed approach can accelerate the pace of medical research whilst offering additional incentives for healthcare and research institutes to employ common data interoperability standards.
翻訳日:2023-04-27 08:31:27 公開日:2020-10-27
# Moodle LMSにテスト質問をインポートする

Import test questions into Moodle LMS ( http://arxiv.org/abs/2010.15577v1 )

ライセンス: Link先を確認
Iryna S. Mintii, Svitlana V. Shokaliuk, Tetiana A. Vakaliuk, Mykhailo M. Mintii, Vladimir N. Soloviev(参考訳) 本研究の目的は,学習管理システム(LMS)Moodleへのさらなるインポートを目的としたテキストファイル形式で,最も一般的なタイプのテスト質問を作成できる理論的および方法論的側面を明らかにすることである。 この研究の主題は、Moodle LMSテストデータベースの自動補完である。 本研究の目的は, テスト質問のインポートファイルを解析し, その利点と欠点を考察し, テキストファイルの形式で共通型のテスト質問を準備し, さらなるMoodle LMSへのインポートを行うためのガイドラインを開発することである。 aiken, gift, moodle xml, "true/false" questions, "multiple choice" (多数のもののうちの1つ)、"matching"、"numerical" または "short answer" および "essay" といった形式で質問ファイルを提出するための質問や指示をインポートするためのアクションアルゴリズムが本記事で提供されている。 Moodle LMSのビューモードでは,質問の提出形式,その設計事例,開発事例がデモされた。

The purpose of the study is to highlight the theoretical and methodological aspects of preparing the test questions of the most common types in the form of text files for further import into learning management system (LMS) Moodle. The subject of the research is the automated filling of the Moodle LMS test database. The objectives of the study: to analyze the import files of test questions, their advantages and disadvantages; to develop guidelines for the preparation of test questions of common types in the form of text files for further import into Moodle LMS. The action algorithms for importing questions and instructions for submitting question files in such formats as Aiken, GIFT, Moodle XML, "True/False" questions, "Multiple Choice" (one of many and many of many), "Matching", with an open answer - "Numerical" or "Short answer" and "Essay" are offered in this article. The formats for submitting questions, examples of its designing and developed questions were demonstrated in view mode in Moodle LMS.
翻訳日:2023-04-27 08:24:39 公開日:2020-10-27
# オープン量子系と機器を用いた生物学における量子様モデリング

Quantum-like modeling in biology with open quantum systems and instruments ( http://arxiv.org/abs/2010.15573v1 )

ライセンス: Link先を確認
Irina Basieva, Andrei Khrennikov, and Masanao Ozawa(参考訳) 本稿では,バイオシステムにおける情報プロセスの数学的モデリング手法を提案する。 量子論、特に量子測定理論の数学的形式論と方法論を探求する。 このアプローチは {\it quantum-like} と呼ばれ、生物系(量子生物物理学、量子認知)における真の量子物理過程の研究と区別されるべきである。 これは生物系の状態の量子情報表現に基づいており、その力学をオープン量子系の理論の枠組みでモデル化している。 この論文は、もともとのフォン・ノイマンの定式化から現代の量子機器理論まで、非物理学者フレンドリな量子測定理論のプレゼンテーションから始まる。 後者は、大腸菌細菌の認知効果とグルコース/ラクトース代謝の遺伝子制御のモデル組み合わせに適用される。 量子機器の最も一般的な構成は間接的な測定のスキームに基づいており、その測定装置は生体系における環境の役割を担っている。 このスキームの生物学的本質はヘルムホルツ感覚受容理論の量子形式化によって示されている。 次に、開系力学に移行し、量子マルコフ過程に集中して量子マスター方程式を考える。 本研究では,心理機能やエピジェネティック変異などの生物学的機能のモデル化を行う。

We present the novel approach to mathematical modeling of information processes in biosystems. It explores the mathematical formalism and methodology of quantum theory, especially quantum measurement theory. This approach is known as {\it quantum-like} and it should be distinguished from study of genuine quantum physical processes in biosystems (quantum biophysics, quantum cognition). It is based on quantum information representation of biosystem's state and modeling its dynamics in the framework of theory of open quantum systems. This paper starts with the non-physicist friendly presentation of quantum measurement theory, from the original von Neumann formulation to modern theory of quantum instruments. Then, latter is applied to model combinations of cognitive effects and gene regulation of glucose/lactose metabolism in Escherichia coli bacterium. The most general construction of quantum instruments is based on the scheme of indirect measurement, in that measurement apparatus plays the role of the environment for a biosystem. The biological essence of this scheme is illustrated by quantum formalization of Helmholtz sensation-perception theory. Then we move to open systems dynamics and consider quantum master equation, with concentrating on quantum Markov processes. In this framework, we model functioning of biological functions such as psychological functions and epigenetic mutation.
翻訳日:2023-04-27 08:24:22 公開日:2020-10-27
# 高次元に対するppt二乗予想の検討

Investigation of the PPT Squared Conjecture for High Dimensions ( http://arxiv.org/abs/2010.15554v1 )

ライセンス: Link先を確認
Ryan Jin(参考訳) 本稿では,Banff International Research Station Workshop: Operator Structures in Quantum Information Theory (Banff International Research Station, Alberta, 2012) において, M. Christandl が導入した正の偏移2乗予想について述べる。 より高次元での予想を考察し、2つの新しいアプローチ(量子チャネルの分解と構成)とそれに対応するいくつかのスキームを提供する。 未解決次元におけるPPT量子チャネルの構成を含むスキームの1つは、潜在的な反例をもたらす。

We present the positive-partial-transpose squared conjecture introduced by M. Christandl at Banff International Research Station Workshop: Operator Structures in Quantum Information Theory (Banff International Research Station, Alberta, 2012). We investigate the conjecture in higher dimensions and offer two novel approaches (decomposition and composition of quantum channels) and correspondingly, several schemes for finding counterexamples to this conjecture. One of the schemes involving the composition of PPT quantum channels in unsolved dimensions yields a potential counterexample.
翻訳日:2023-04-27 08:24:04 公開日:2020-10-27
# 波動関数崩壊の観測とボルン則の振り返り応用

Observations of wavefunction collapse and the retrospective application of the Born rule ( http://arxiv.org/abs/2010.15101v1 )

ライセンス: Link先を確認
Sivapalan Chelvaniththilan(参考訳) 本稿では,波動関数が崩壊するか否かによって異なる結果を与える思考実験を行う。 波動関数は崩壊の間シュロディンガー方程式に従わないので、保存則に違反する。 これが結果が異なる理由です。 波動関数が崩壊しない場合に保存される量は、そうでなければ変化するかもしれない。 また、ボルンルールを用いることで、測定後の状態が与えられる前に状態の確率を導出すること(通常用いられるように、その逆ではなく)は、観測者が量子系の測定を行うことについて持っている記憶が、誤った記憶である可能性が高いという結論を導き出すことも示します。

In this paper I present a thought experiment that gives different results depending on whether or not the wavefunction collapses. Since the wavefunction does not obey the Schrodinger equation during the collapse, conservation laws are violated. This is the reason why the results are different. Quantities that are conserved if the wavefunction does not collapse might change if it does. I also show that using the Born Rule to derive probabilities of states before a measurement given the state after it (rather than the other way round as it is usually used) leads to the conclusion that the memories that an observer has about making measurements of quantum systems have a significant probability of being false memories.
翻訳日:2023-04-27 08:23:56 公開日:2020-10-27
# 重力と量子計測の問題点

Gravitation and the Problem of Quantum Measurement ( http://arxiv.org/abs/2010.14965v1 )

ライセンス: Link先を確認
Chris Allen Broka(参考訳) 一般相対性理論の定量化の目標は半古典的重力を優先して放棄されるべきであると考える。 形式主義はそれを行うためのものである。 この文脈で量子測定の問題を考察する。 粒子」の概念を精査し、解明する。

We consider the possibility that the goal of quantizing General Relativity should be abandoned in favor of Semiclassical Gravity. A formalism is provided for doing so. The quantum measurement problem is investigated in this context. The 'particle' concept is examined and clarified.
翻訳日:2023-04-27 08:23:42 公開日:2020-10-27
# 量子センシングによる非線形信号歪み補正

Nonlinear Signal Distortion Corrections Through Quantum Sensing ( http://arxiv.org/abs/2010.14631v1 )

ライセンス: Link先を確認
Kevin R. Chaves, Xian Wu, Yaniv J. Rosen, and Jonathan L DuBois(参考訳) 正確なゲート生成を持つことは、量子システムの正確な制御に不可欠である。 生成されたゲートは通常、線形および非線形の歪みに苦しむ。 これまでの研究は、線形周波数歪みの補正に量子ビットを使う方法を示してきたが、非線形歪みの扱いについてコメントしなかった。 これは、rfエレクトロニクスからの非線形振幅歪みがラビパルスに最大10%影響することを示すため、重要な問題である。 本研究では,これらの非線形振幅歪みを特徴づけるために,トランスモン量子ビットを高感度な低温検出器として利用できることを示す。 補正により、700MHzの範囲で、これらの誤差を1%まで下げることができることを示す。 この補正技術は信号歪みの影響を最小限に抑え、ブロードバンド制御パルスに容易に適用でき、高忠実度任意の量子ゲートを生成することができる。

Having accurate gate generation is essential for precise control of a quantum system. The generated gate usually suffers from linear and nonlinear distortion. Previous works have demonstrated how to use a qubit to correct linear frequency distortions but have not commented on how to handle nonlinear distortions. This is an important issue as we show that nonlinear amplitude distortions from the RF electronics can affect Rabi pulses by as much as 10%. We present work that demonstrates how a transmon qubit can be used as a highly sensitive cryogenic detector to characterize these nonlinear amplitude distortions. We show that a correction can drive these errors down to <1% over a 700 MHz range. This correction technique provides a method to minimize the effects of signal distortions and can be easily applied to broadband control pulses to produce higher fidelity arbitrary quantum gates.
翻訳日:2023-04-27 08:22:57 公開日:2020-10-27
# フェルミオン系における量子資源としての一体絡み合い

One-body entanglement as a quantum resource in fermionic systems ( http://arxiv.org/abs/2001.03570v3 )

ライセンス: Link先を確認
N. Gigena, M. Di Tullio, R. Rossignoli(参考訳) 本研究では,一粒子密度行列(spdm)の混合性によって決定される,純フェルミオン状態の偏差(sd)の尺度である一体の絡み合いを量子資源と考えることができることを示す。 関連する理論はSDとその凸殻を自由状態とし、一体一元変換と単一粒子モードの占有率の測定を含む数保存フェルミオン線形光学演算(FLO)を基本自由状態とする。 まず,SPDM (Together with the $(N-1)$-body density matrix) を導出する純粋な$N$-fermion状態のSchmidt様分解に基づいて,片体絡みの両部状定式化を行う。 次に、FLO操作下では、初期および後測定SPDMが常にメジャー化関係を満たすことが証明され、これにより、平均して1体の絡み合いが増大しないことが保証される。 最終的に、この資源は反対称性を超えた相関を必要とするフェルミオン量子計算のモデルと一致することが示されている。 より一般的な自由度測定とモード絡み合いとの関係についても論じる。

We show that one-body entanglement, which is a measure of the deviation of a pure fermionic state from a Slater determinant (SD) and is determined by the mixedness of the single-particle density matrix (SPDM), can be considered as a quantum resource. The associated theory has SDs and their convex hull as free states, and number conserving fermion linear optics operations (FLO), which include one-body unitary transformations and measurements of the occupancy of single-particle modes, as the basic free operations. We first provide a bipartitelike formulation of one-body entanglement, based on a Schmidt-like decomposition of a pure $N$-fermion state, from which the SPDM [together with the $(N-1)$-body density matrix] can be derived. It is then proved that under FLO operations, the initial and postmeasurement SPDMs always satisfy a majorization relation, which ensures that these operations cannot increase, on average, the one-body entanglement. It is finally shown that this resource is consistent with a model of fermionic quantum computation which requires correlations beyond antisymmetrization. More general free measurements and the relation with mode entanglement are also discussed.
翻訳日:2023-01-12 23:21:32 公開日:2020-10-27
# 逆二項サンプリングによる不偏・効率的な対数類似度推定

Unbiased and Efficient Log-Likelihood Estimation with Inverse Binomial Sampling ( http://arxiv.org/abs/2001.03985v3 )

ライセンス: Link先を確認
Bas van Opheusden, Luigi Acerbi and Wei Ji Ma(参考訳) 科学的仮説の運命は、確率関数によって現代の統計的アプローチで定量化されたデータを説明するための計算モデルの能力に依存することが多い。 log-likelihoodはパラメータ推定とモデル評価のキー要素である。 しかし、計算生物学や神経科学などの分野における複雑なモデルのログ化は、しばしば解析的あるいは数値的に計算することができる。 それらの場合、研究者は観測データとモデルシミュレーションによって生成された合成観測を比較することで、ログの類似度を推定できるだけであることが多い。 シミュレーションによる帰納法を近似する標準的な手法は、データの要約統計を使うか、推定に厳しいバイアスを生じさせるリスクがある。 本稿では,データセット全体のログ類似度を,バイアスなく効率的に推定できる逆二項サンプリング法(inverse binomial sampling,ibs)について検討する。 それぞれの観測について、IBSはシミュレーターモデルからサンプルを抽出し、観察と一致させる。 ログのような推定は、描画されたサンプル数の関数である。 この推定器の分散は一様有界であり、偏りのない推定器の最小分散を達成し、分散の校正された推定値を計算できる。 IBS に有利な理論的議論と,シミュレーションベースモデルを用いた最大線量推定手法の実証評価を提供する。 ケーススタディでは、計算および認知神経科学から複雑さを増大させる3つのモデル適合問題を取り上げる。 全ての問題において、IBSは推定パラメータと最大対数類似値において、同じ平均サンプル数を持つ別のサンプリング手法よりも誤差が低い。 IBSの実用的かつ堅牢で,正確な技術が得られない場合に,ログライクな評価方法の実装が容易な可能性を示す。

The fate of scientific hypotheses often relies on the ability of a computational model to explain the data, quantified in modern statistical approaches by the likelihood function. The log-likelihood is the key element for parameter estimation and model evaluation. However, the log-likelihood of complex models in fields such as computational biology and neuroscience is often intractable to compute analytically or numerically. In those cases, researchers can often only estimate the log-likelihood by comparing observed data with synthetic observations generated by model simulations. Standard techniques to approximate the likelihood via simulation either use summary statistics of the data or are at risk of producing severe biases in the estimate. Here, we explore another method, inverse binomial sampling (IBS), which can estimate the log-likelihood of an entire data set efficiently and without bias. For each observation, IBS draws samples from the simulator model until one matches the observation. The log-likelihood estimate is then a function of the number of samples drawn. The variance of this estimator is uniformly bounded, achieves the minimum variance for an unbiased estimator, and we can compute calibrated estimates of the variance. We provide theoretical arguments in favor of IBS and an empirical assessment of the method for maximum-likelihood estimation with simulation-based models. As case studies, we take three model-fitting problems of increasing complexity from computational and cognitive neuroscience. In all problems, IBS generally produces lower error in the estimated parameters and maximum log-likelihood values than alternative sampling methods with the same average number of samples. Our results demonstrate the potential of IBS as a practical, robust, and easy to implement method for log-likelihood evaluation when exact techniques are not available.
翻訳日:2023-01-12 04:41:04 公開日:2020-10-27
# 咬合処理を伴うマルチビュー3dマルチオブジェクトトラッキングのためのベイズフィルタ

A Bayesian Filter for Multi-view 3D Multi-object Tracking with Occlusion Handling ( http://arxiv.org/abs/2001.04118v4 )

ライセンス: Link先を確認
Jonah Ong, Ba Tuong Vo, Ba Ngu Vo, Du Yong Kim, Sven Nordholm(参考訳) 本稿では,マルチカメラ構成に依存しない単分子検出器のトレーニングのみを必要とするオンラインマルチカメラ・マルチオブジェクトトラッカーを提案する。 提案アルゴリズムは, カメラ全体の検出回数を線形に計算し, カメラ数に応じて精度よくスケールする。 3dワールドフレームで動作し、オブジェクトの3d軌道推定を提供する。 重要な革新は、忠実で扱いやすい3dオクルージョンモデルであり、最適なベイズ多視点マルチオブジェクトフィルタリングに適応でき、単一のベイズ再帰、トラック管理のサブタスク、状態推定、クラッター拒否、オクルージョン/ミス検出処理にシームレスに統合できる。 提案アルゴリズムは最新のWILDTRACKSデータセットで評価され、新しいデータセット上で非常に混み合ったシーンで動作することを示した。

This paper proposes an online multi-camera multi-object tracker that only requires monocular detector training, independent of the multi-camera configurations, allowing seamless extension/deletion of cameras without retraining effort. The proposed algorithm has a linear complexity in the total number of detections across the cameras, and hence scales gracefully with the number of cameras. It operates in the 3D world frame, and provides 3D trajectory estimates of the objects. The key innovation is a high fidelity yet tractable 3D occlusion model, amenable to optimal Bayesian multi-view multi-object filtering, which seamlessly integrates, into a single Bayesian recursion, the sub-tasks of track management, state estimation, clutter rejection, and occlusion/misdetection handling. The proposed algorithm is evaluated on the latest WILDTRACKS dataset, and demonstrated to work in very crowded scenes on a new dataset.
翻訳日:2023-01-12 00:09:20 公開日:2020-10-27
# 二次元乱流対流の貯留層計算モデル

Reservoir computing model of two-dimensional turbulent convection ( http://arxiv.org/abs/2001.10280v2 )

ライセンス: Link先を確認
Sandeep Pandey, J\"org Schumacher(参考訳) レイリー数 ${\rm Ra}=10^7$ およびプレンドル数 ${\rm Pr}=7$ の2次元乱流レイリー-B\'{e}nard対流と、アスペクト比 6 の拡張領域における2次元乱流の大規模進化と結果として生じる低次乱流統計をモデル化するために貯留層計算を適用した。 対流流の長期直接数値シミュレーションに基づくデータ駆動型手法は, 2段階の手順を含む。 1) 固有直交分解(POD)スナップショット解析による元のシミュレーションデータの削減と, 最大全エネルギー振幅に関連する最初の150PODモードへの切り離しについて検討した。 2) 自由度150度の動的発展と対流流の大規模発展を記述するための貯留層計算モデルのセットアップと最適化。 貯留層計算モデルの予測の質を総合的に検証した。 モデルの中核となるのが貯水池であり、対応する隣接行列のスペクトル半径と、予測の質を調べるために変化するいくつかのハイパーパラメータによってチャーター化される非常に大きなスパースランダムネットワークである。 本研究は,大循環モデルにおけるメソスケール対流プロセスのモデル化のための新たな道を開くことができる乱流対流の大規模構造と低次統計をモデル化できることを示す。

Reservoir computing is applied to model the large-scale evolution and the resulting low-order turbulence statistics of a two-dimensional turbulent Rayleigh-B\'{e}nard convection flow at a Rayleigh number ${\rm Ra}=10^7$ and a Prandtl number ${\rm Pr}=7$ in an extended domain with an aspect ratio of 6. Our data-driven approach which is based on a long-term direct numerical simulation of the convection flow comprises a two-step procedure. (1) Reduction of the original simulation data by a Proper Orthogonal Decomposition (POD) snapshot analysis and subsequent truncation to the first 150 POD modes which are associated with the largest total energy amplitudes. (2) Setup and optimization of a reservoir computing model to describe the dynamical evolution of these 150 degrees of freedom and thus the large-scale evolution of the convection flow. The quality of the prediction of the reservoir computing model is comprehensively tested. At the core of the model is the reservoir, a very large sparse random network charcterized by the spectral radius of the corresponding adjacency matrix and a few further hyperparameters which are varied to investigate the quality of the prediction. Our work demonstrates that the reservoir computing model is capable to model the large-scale structure and low-order statistics of turbulent convection which can open new avenues for modeling mesoscale convection processes in larger circulation models.
翻訳日:2023-01-06 03:08:21 公開日:2020-10-27
# 縦断データを用いた逆行訓練によるscanner間ms病変分節の改善

Improved inter-scanner MS lesion segmentation by adversarial training on longitudinal data ( http://arxiv.org/abs/2002.00952v2 )

ライセンス: Link先を確認
Mattias Billast, Maria Ines Meyer, Diana M. Sima and David Robben(参考訳) ホワイトマター病変進展の評価は,MS患者の経過観察において重要なバイオマーカーであり,治療経過を決定する上で重要な役割を担っている。 現在の自動病変分割アルゴリズムは、MRIスキャナーやプロトコルの違いに関連する画像特性の変化の影響を受けやすい。 スキャン間研究におけるMS病変のセグメンテーションの整合性を改善するモデルを提案する。 まず,CNN ベースモデルを用いて,FDA が承認した病変分類ソフトウェア icobrain の性能を近似する。 次に、判別器モデルをトレーニングし、2つの病変のセグメンテーションが同じスキャナータイプを用いて取得されたスキャンに基づいて、このタスクにおいて78%の精度を達成する。 最後に、ベースモデルと判別器は、マルチスキャナ縦データに対して逆向きに訓練され、ベースモデルのスキャナ間一貫性が向上する。 モデルの性能は手動で記述した未知のデータセットで評価される。 対向ネットワークがベースモデルおよびFDA承認ソリューション上で改善結果を生成するテスト-再テストデータに基づいて、スキャン間変動を評価した。

The evaluation of white matter lesion progression is an important biomarker in the follow-up of MS patients and plays a crucial role when deciding the course of treatment. Current automated lesion segmentation algorithms are susceptible to variability in image characteristics related to MRI scanner or protocol differences. We propose a model that improves the consistency of MS lesion segmentations in inter-scanner studies. First, we train a CNN base model to approximate the performance of icobrain, an FDA-approved clinically available lesion segmentation software. A discriminator model is then trained to predict if two lesion segmentations are based on scans acquired using the same scanner type or not, achieving a 78% accuracy in this task. Finally, the base model and the discriminator are trained adversarially on multi-scanner longitudinal data to improve the inter-scanner consistency of the base model. The performance of the models is evaluated on an unseen dataset containing manual delineations. The inter-scanner variability is evaluated on test-retest data, where the adversarial network produces improved results over the base model and the FDA-approved solution.
翻訳日:2023-01-04 08:01:58 公開日:2020-10-27
# マルチサイト・ニューロイメージング・データセットにおけるバイアスの検出と補正

Detect and Correct Bias in Multi-Site Neuroimaging Datasets ( http://arxiv.org/abs/2002.05049v2 )

ライセンス: Link先を確認
Christian Wachinger and Anna Rieckmann and Sebastian P\"olsterl(参考訳) 複雑な機械学習アルゴリズムを訓練し、関連研究の統計力を高めたいという願望は、神経画像研究を、より大規模にデータセットを使用することに繋がる。 サンプルサイズを増やす最も明白な方法は、独立した研究からスキャンをプールすることである。 しかし、単純なプーリングは選択、測定、結合バイアスが潜り込み、スプリアス相関をもたらすため、しばしば不注意である。 本研究では、脳の3,320個の磁気共鳴画像を組み合わせて、ニューロイメージングのバイアスを調べる。 最初の実験では、71.5%の精度でスキャンをデータセットに正しく割り当てることができることを示すことにより、バイアスの存在に関する実証的な証拠を提供する。 このような証拠から、観測研究における主な欠点と見なされる共起バイアスについて、より詳しく検討する。 実際には、すべての潜在的な共同創設者を知らないし、データも持っていない。 したがって、共同設立者を未知の潜在変数としてモデル化する。 コルモゴロフ複雑性は、融合モデルまたは因果モデルがグラフィカルモデルの最も単純な分解を提供するかどうかを決定するために用いられる。 最後に,データセットの調和のための手法を提案し,画像特徴のバイアスを解消する能力について検討する。 特に,最近導入されたComBatアルゴリズムの拡張により,遺伝学における個体群階層化の調整に着想を得て,画像特徴のグローバルな変動を制御する。 この結果から,調和化は画像特徴のデータセット固有情報を低減できることが示された。 さらに、共起バイアスを低減し、因果関係にすることも可能である。 しかし、調和はまた、関連する主題固有の情報を容易に削除できるため注意が必要である。 コードはhttps://github.com/ai-med/dataset-biasで入手できる。

The desire to train complex machine learning algorithms and to increase the statistical power in association studies drives neuroimaging research to use ever-larger datasets. The most obvious way to increase sample size is by pooling scans from independent studies. However, simple pooling is often ill-advised as selection, measurement, and confounding biases may creep in and yield spurious correlations. In this work, we combine 35,320 magnetic resonance images of the brain from 17 studies to examine bias in neuroimaging. In the first experiment, Name That Dataset, we provide empirical evidence for the presence of bias by showing that scans can be correctly assigned to their respective dataset with 71.5% accuracy. Given such evidence, we take a closer look at confounding bias, which is often viewed as the main shortcoming in observational studies. In practice, we neither know all potential confounders nor do we have data on them. Hence, we model confounders as unknown, latent variables. Kolmogorov complexity is then used to decide whether the confounded or the causal model provides the simplest factorization of the graphical model. Finally, we present methods for dataset harmonization and study their ability to remove bias in imaging features. In particular, we propose an extension of the recently introduced ComBat algorithm to control for global variation across image features, inspired by adjusting for population stratification in genetics. Our results demonstrate that harmonization can reduce dataset-specific information in image features. Further, confounding bias can be reduced and even turned into a causal relationship. However, harmonziation also requires caution as it can easily remove relevant subject-specific information. Code is available at https://github.com/ai-med/Dataset-Bias.
翻訳日:2023-01-01 19:56:01 公開日:2020-10-27
# ソフトタイムウインドウを用いたマルチ車両ルーティング問題--マルチエージェント強化学習アプローチ

Multi-Vehicle Routing Problems with Soft Time Windows: A Multi-Agent Reinforcement Learning Approach ( http://arxiv.org/abs/2002.05513v2 )

ライセンス: Link先を確認
Ke Zhang, Meng Li, Zhengchao Zhang, Xi Lin, Fang He(参考訳) ソフトタイムウインドウ(mvrpstw)を用いた多車両経路問題は,都市物流流通システムにおいて不可欠である。 過去10年間に多くのMVRPSTWの手法が提案されてきたが、その多くは大量の計算時間を必要とするヒューリスティックなルールに基づいている。 現在のロジスティクス需要の増加に伴い、従来の手法は計算効率とソリューションの品質のジレンマを引き起こしている。 この問題を効率的に解くために,マルチエージェントアテンションモデル (multi-agent attention model) と呼ばれる新しい強化学習アルゴリズムを提案する。 具体的には,車両走行経路問題を車両走行経路生成プロセスと見なすとともに,注意層を有するエンコーダ・デコーダフレームワークを提案し,複数車両の走行経路を反復的に生成する。 さらに,モデルトレーニングのために,教師なし補助ネットワークを用いたマルチエージェント強化学習手法を開発した。 その結果,提案手法はGoogle OR-Toolsや従来の手法よりも計算時間が少なく,一貫した性能を発揮することがわかった。 さらに、顧客数や車両の容量を変化させることで、訓練されたモデルの堅牢性を検証する。

Multi-vehicle routing problem with soft time windows (MVRPSTW) is an indispensable constituent in urban logistics distribution systems. Over the past decade, numerous methods for MVRPSTW have been proposed, but most are based on heuristic rules that require a large amount of computation time. With the current rapid increase of logistics demands, traditional methods incur the dilemma between computational efficiency and solution quality. To efficiently solve the problem, we propose a novel reinforcement learning algorithm called the Multi-Agent Attention Model that can solve routing problem instantly benefit from lengthy offline training. Specifically, the vehicle routing problem is regarded as a vehicle tour generation process, and an encoder-decoder framework with attention layers is proposed to generate tours of multiple vehicles iteratively. Furthermore, a multi-agent reinforcement learning method with an unsupervised auxiliary network is developed for the model training. By evaluated on four synthetic networks with different scales, the results demonstrate that the proposed method consistently outperforms Google OR-Tools and traditional methods with little computation time. In addition, we validate the robustness of the well-trained model by varying the number of customers and the capacities of vehicles.
翻訳日:2023-01-01 13:22:40 公開日:2020-10-27
# 言語進化研究のための計算ツールとしてのマルチエージェント強化学習:歴史的文脈と今後の課題

Multi-Agent Reinforcement Learning as a Computational Tool for Language Evolution Research: Historical Context and Future Challenges ( http://arxiv.org/abs/2002.08878v2 )

ライセンス: Link先を確認
Cl\'ement Moulin-Frier and Pierre-Yves Oudeyer(参考訳) エージェント集団における創発的コミュニケーションの計算モデルは、近年MARL(Multi-Agent Reinforcement Learning)の進歩により、機械学習コミュニティへの関心が高まっている。 しかしながら、現在のコントリビューションは、前言語学的な物質から言語がどのように生まれたかを理解することを目的とした、初期の理論と計算の文献から、いまだに比較的切り離されている。 本研究の目的は、言語進化研究の歴史的文脈における最近のMARL貢献の位置づけと、この理論と計算の背景から将来の研究の課題を抽出することである。

Computational models of emergent communication in agent populations are currently gaining interest in the machine learning community due to recent advances in Multi-Agent Reinforcement Learning (MARL). Current contributions are however still relatively disconnected from the earlier theoretical and computational literature aiming at understanding how language might have emerged from a prelinguistic substance. The goal of this paper is to position recent MARL contributions within the historical context of language evolution research, as well as to extract from this theoretical and computational background a few challenges for future research.
翻訳日:2022-12-30 07:06:49 公開日:2020-10-27
# マイナショット学習のためのadversarial feature hallucination network

Adversarial Feature Hallucination Networks for Few-Shot Learning ( http://arxiv.org/abs/2003.13193v2 )

ライセンス: Link先を確認
Kai Li, Yulun Zhang, Kunpeng Li, Yun Fu(参考訳) 近年の様々なタスクにおけるディープラーニングの普及は、リッチでアクセスしやすいラベル付きデータに大きく寄与している。 にもかかわらず、多くの実アプリケーションにとって大規模な監視は高級なものであり、いくつかのラベル付きサンプルで新しいクラスの概念を学ぶことを目的とした、少数ショット学習(FSL)のようなラベルスカース技術への大きな関心を高めている。 fslへの自然なアプローチはデータ拡張であり、近年の多くの研究で様々なデータ合成モデルを提案することで実現性が証明されている。 しかし、これらのモデルは、合成データの識別可能性と多様性を十分に確保できず、しばしば望ましくない結果を生み出す。 本稿では,条件付きwasserstein生成型adversarial networks (cwgan) に基づくadversarial feature hallucination networks (afhn) を提案する。 2つの新しいレギュラライザー、すなわち分類レギュラライザとアンチコラプスレギュラライザーがafhnに組み込まれ、それぞれ、合成された特徴の識別性と多様性を促進する。 アブレーション研究は、提案したcWGANに基づく特徴幻覚フレームワークと提案された正則化器の有効性を検証する。 3つの一般的なベンチマークデータセットの比較結果は、既存のデータ拡張ベースのFSLアプローチや他の最先端ベンチマークに対するAFHNの優位性を裏付けるものである。

The recent flourish of deep learning in various tasks is largely accredited to the rich and accessible labeled data. Nonetheless, massive supervision remains a luxury for many real applications, boosting great interest in label-scarce techniques such as few-shot learning (FSL), which aims to learn concept of new classes with a few labeled samples. A natural approach to FSL is data augmentation and many recent works have proved the feasibility by proposing various data synthesis models. However, these models fail to well secure the discriminability and diversity of the synthesized data and thus often produce undesirable results. In this paper, we propose Adversarial Feature Hallucination Networks (AFHN) which is based on conditional Wasserstein Generative Adversarial networks (cWGAN) and hallucinates diverse and discriminative features conditioned on the few labeled samples. Two novel regularizers, i.e., the classification regularizer and the anti-collapse regularizer, are incorporated into AFHN to encourage discriminability and diversity of the synthesized features, respectively. Ablation study verifies the effectiveness of the proposed cWGAN based feature hallucination framework and the proposed regularizers. Comparative results on three common benchmark datasets substantiate the superiority of AFHN to existing data augmentation based FSL approaches and other state-of-the-art ones.
翻訳日:2022-12-18 07:45:19 公開日:2020-10-27
# ゼロ階確率勾配推定のための情報理論下界

Information-Theoretic Lower Bounds for Zero-Order Stochastic Gradient Estimation ( http://arxiv.org/abs/2003.13881v2 )

ライセンス: Link先を確認
Abdulrahman Alabdulkareem and Jean Honorio(参考訳) 本稿では,ゼロ階確率オラクルモデルにおける多次元滑らかな(おそらくは非凸)関数の勾配を推定するために必要なサンプル数を分析する。 このモデルでは、推定者は勾配の推定を生成するために関数のノイズ値にアクセスすることができる。 また,数値線形代数における古典的手法である有限差分法について,十分なサンプル数の解析を行う。 T$サンプルと$d$次元の場合、情報理論の下限は$\Omega(\sqrt{d/T})$である。 有界分散オラクルに対する有限差分法は、三階および高階微分が 0 である関数に対して $o(d^{4/3}/\sqrt{t})$ を持つことを示す。 これらの率はガウスのオラクルにとって厳密である。 したがって、有限差分法は最小限最適ではなく、より良い勾配推定法を開発するための空間が存在する。

In this paper we analyze the necessary number of samples to estimate the gradient of any multidimensional smooth (possibly non-convex) function in a zero-order stochastic oracle model. In this model, an estimator has access to noisy values of the function, in order to produce the estimate of the gradient. We also provide an analysis on the sufficient number of samples for the finite difference method, a classical technique in numerical linear algebra. For $T$ samples and $d$ dimensions, our information-theoretic lower bound is $\Omega(\sqrt{d/T})$. We show that the finite difference method for a bounded-variance oracle has rate $O(d^{4/3}/\sqrt{T})$ for functions with zero third and higher order derivatives. These rates are tight for Gaussian oracles. Thus, the finite difference method is not minimax optimal, and therefore there is space for the development of better gradient estimation methods.
翻訳日:2022-12-18 00:11:33 公開日:2020-10-27
# 付加的重要度尺度によるグローバル特徴量の理解

Understanding Global Feature Contributions With Additive Importance Measures ( http://arxiv.org/abs/2004.00668v2 )

ライセンス: Link先を確認
Ian Covert, Scott Lundberg, Su-In Lee(参考訳) 複雑な機械学習モデルの内部動作を理解することは長年の課題であり、最近の研究は局所的な解釈可能性に焦点を当てている。 グローバルな意味での個々の入力特徴の役割を評価するために,各特徴に関連付けられた予測力を通して,特徴の重要性を定義する視点を探る。 予測力(モデルベースと普遍性)の2つの概念を導入し,この手法を付加的重要度尺度の枠組みで定式化する。 次に,機能的相互作用を考慮した予測力の定量化手法であるSAGEを提案する。 実験の結果、SAGEは効率よく計算でき、他の方法よりも正確な重要値を割り当てることがわかった。

Understanding the inner workings of complex machine learning models is a long-standing problem and most recent research has focused on local interpretability. To assess the role of individual input features in a global sense, we explore the perspective of defining feature importance through the predictive power associated with each feature. We introduce two notions of predictive power (model-based and universal) and formalize this approach with a framework of additive importance measures, which unifies numerous methods in the literature. We then propose SAGE, a model-agnostic method that quantifies predictive power while accounting for feature interactions. Our experiments show that SAGE can be calculated efficiently and that it assigns more accurate importance values than other methods.
翻訳日:2022-12-17 18:09:22 公開日:2020-10-27
# Reconfigurable Voxels: LiDARベースのポイントクラウドの新しい表現

Reconfigurable Voxels: A New Representation for LiDAR-Based Point Clouds ( http://arxiv.org/abs/2004.02724v2 )

ライセンス: Link先を確認
Tai Wang, Xinge Zhu, Dahua Lin(参考訳) LiDARは、環境を感知する自律運転システムにとって重要な方法である。 LiDARによって得られた点雲は、通常スパースで不規則な分布を示すため、3Dオブジェクト、特に小さくて離れたものの検出には大きな課題が生じる。 この課題に対処するため、我々は3Dポイントクラウドから表現を構築するための新しいアプローチであるReconfigurable Voxelsを提案する。 具体的には,局所空間分布に基づいて各近傍を一定数のボクセルで適応的に被覆し,選択した近傍の点を統合して表現するバイアス付きランダムウォークスキームを考案する。 実験により,本手法は,特にスパース領域において,ボクセル特性の安定性を効果的に向上することがわかった。 nuScenes、Lyft、KITTIを含む複数のベンチマークの実験結果によると、この新しい表現は、目立ったオーバーヘッドコストを伴わずに、小規模および遠隔オブジェクトの検出性能を著しく向上させることができる。

LiDAR is an important method for autonomous driving systems to sense the environment. The point clouds obtained by LiDAR typically exhibit sparse and irregular distribution, thus posing great challenges to the detection of 3D objects, especially those that are small and distant. To tackle this difficulty, we propose Reconfigurable Voxels, a new approach to constructing representations from 3D point clouds. Specifically, we devise a biased random walk scheme, which adaptively covers each neighborhood with a fixed number of voxels based on the local spatial distribution and produces a representation by integrating the points in the chosen neighbors. We found empirically that this approach effectively improves the stability of voxel features, especially for sparse regions. Experimental results on multiple benchmarks, including nuScenes, Lyft, and KITTI, show that this new representation can remarkably improve the detection performance for small and distant objects, without incurring noticeable overhead costs.
翻訳日:2022-12-16 07:04:36 公開日:2020-10-27
# スパースガウス過程の直接損失最小化アルゴリズム

Direct loss minimization algorithms for sparse Gaussian processes ( http://arxiv.org/abs/2004.03083v3 )

ライセンス: Link先を確認
Yadi Wei, Rishit Sheth, Roni Khardon(参考訳) 本報告では,ガウス過程における後方損失の最小化を最適化する直接損失最小化法(DLM)について,徹底的に検討する。 共役の場合,ログロスのDLMと2乗損失のDLMを考えると,両症例とも有意な性能改善が見られた。 非共役ケースにおけるDLMの適用は、ログロスDLMの目的における期待の対数がしばしば難解であり、単純なサンプリングは勾配のバイアス付き推定に繋がるため、より複雑である。 この論文はこれに対処するための2つの技術的貢献をしている。 まず, 目的関数に対する勾配 (up) の偏りのない推定を行うため, 製品サンプリングを用いた新しい手法を提案する。 第二に、バイアスドモンテカルロ推定(bmc)の理論解析により、バイアスド勾配にもかかわらず確率的勾配降下が収束することが示された。 実験はDLMの実証的な成功を示す。 サンプリング法の比較により、uPSはよりサンプリング効率が高いが、bMCは収束時間と計算効率の点でより良いトレードオフをもたらすことが示された。

The paper provides a thorough investigation of Direct loss minimization (DLM), which optimizes the posterior to minimize predictive loss, in sparse Gaussian processes. For the conjugate case, we consider DLM for log-loss and DLM for square loss showing a significant performance improvement in both cases. The application of DLM in non-conjugate cases is more complex because the logarithm of expectation in the log-loss DLM objective is often intractable and simple sampling leads to biased estimates of gradients. The paper makes two technical contributions to address this. First, a new method using product sampling is proposed, which gives unbiased estimates of gradients (uPS) for the objective function. Second, a theoretical analysis of biased Monte Carlo estimates (bMC) shows that stochastic gradient descent converges despite the biased gradients. Experiments demonstrate empirical success of DLM. A comparison of the sampling methods shows that, while uPS is potentially more sample-efficient, bMC provides a better tradeoff in terms of convergence time and computational efficiency.
翻訳日:2022-12-15 22:52:20 公開日:2020-10-27
# アンダーサンプド膝MRI再建のための適応的知能アルゴリズム

An Adaptive Intelligence Algorithm for Undersampled Knee MRI Reconstruction ( http://arxiv.org/abs/2004.07339v2 )

ライセンス: Link先を確認
Nicola Pezzotti, Sahar Yousefi, Mohamed S. Elmahdy, Jeroen van Gemert, Christophe Sch\"ulke, Mariya Doneva, Tim Nielsen, Sergey Kastryulin, Boudewijn P.F. Lelieveldt, Matthias J.P. van Osch, Elwin de Weerdt, Marius Staring(参考訳) アダプティブインテリジェンス(Adaptive Intelligence)は、ドメイン知識の追加使用による機械学習テクニックの強化を目標とする。 本稿では,MR 取得を高速化するための適応知能の応用について述べる。 圧縮センシング理論に触発された反復学習に基づく再構成手法を用いて画像の再構成を行う。 トレーニングデータに基づいて,事前の再構成仮定を洗練し,修正するために,ディープニューラルネットワークを採用する。 このネットワークは、Facebook AI ResearchとNYU Langone Healthが主催した2019年の高速MRIチャレンジから、膝のMRIデータセットでトレーニングされ、テストされた。 課題に対する全ての提出は、最初は既知の根拠と類似性に基づいてランク付けされ、その後、トップ4の提出が放射線学的に評価された。 提案手法は,独立チャレンジデータセットを用いた高速MRIオーガナイザにより評価された。 第1位、第1位、第3位はそれぞれ8倍加速マルチコイル、第4xマルチコイル、第4xシングルコイルトラックである。 これにより,本手法の優れた性能と適用性を示す。

Adaptive intelligence aims at empowering machine learning techniques with the additional use of domain knowledge. In this work, we present the application of adaptive intelligence to accelerate MR acquisition. Starting from undersampled k-space data, an iterative learning-based reconstruction scheme inspired by compressed sensing theory is used to reconstruct the images. We adopt deep neural networks to refine and correct prior reconstruction assumptions given the training data. The network was trained and tested on a knee MRI dataset from the 2019 fastMRI challenge organized by Facebook AI Research and NYU Langone Health. All submissions to the challenge were initially ranked based on similarity with a known groundtruth, after which the top 4 submissions were evaluated radiologically. Our method was evaluated by the fastMRI organizers on an independent challenge dataset. It ranked #1, shared #1, and #3 on respectively the 8x accelerated multi-coil, the 4x multi-coil, and the 4x single-coil track. This demonstrates the superior performance and wide applicability of the method.
翻訳日:2022-12-13 04:05:51 公開日:2020-10-27
# 地形認識のためのテクスチャ幅情報モデリング

Modeling Extent-of-Texture Information for Ground Terrain Recognition ( http://arxiv.org/abs/2004.08141v2 )

ライセンス: Link先を確認
Shuvozit Ghose, Pinaki Nath Chowdhury, Partha Pratim Roy, Umapada Pal(参考訳) 地上地形画像の領域でコンテキスト情報が大きく変化するため,地上地形認識は難しい課題である。 本稿では,テクスチャ成分と順序空間情報のバランスを局所的に確立するために,テクスチャの幅をモデル化し,地中認識への新しいアプローチを提案する。 提案手法はまず,CNNのバックボーン特徴抽出ネットワークを用いて地形画像の有意義な情報を取得し,テクスチャや形状情報を局所的にモデル化する。 そして、注文のないテクスチャ情報と注文された形状情報をパッチ単位でエンコードし、ドメイン内メッセージパッシングモジュールが利用し、各パッチが互いに認識してリッチな特徴学習を行う。 次に、Extent-of-Texture(EoT)ガイド付きドメイン間メッセージパッシングモジュールは、テクスチャと形状情報の範囲を符号化されたテクスチャと形状情報とをパッチワイズで組み合わせて、秩序のないテクスチャ情報と秩序のない形状情報とのバランスをとる。 さらに、バイリニアモデルは、順序のないテクスチャ情報と順序付き形状情報とのペアワイズ相関を生成する。 最後に、全連結層により地上画像分類を行う。 実験結果から,DTD,MINC,GTOS-mobileなどの公開データセット上で,既存の最先端技術よりも提案モデルの方が優れた性能を示した。

Ground Terrain Recognition is a difficult task as the context information varies significantly over the regions of a ground terrain image. In this paper, we propose a novel approach towards ground-terrain recognition via modeling the Extent-of-Texture information to establish a balance between the order-less texture component and ordered-spatial information locally. At first, the proposed method uses a CNN backbone feature extractor network to capture meaningful information of a ground terrain image, and model the extent of texture and shape information locally. Then, the order-less texture information and ordered shape information are encoded in a patch-wise manner, which is utilized by intra-domain message passing module to make every patch aware of each other for rich feature learning. Next, the Extent-of-Texture (EoT) Guided Inter-domain Message Passing module combines the extent of texture and shape information with the encoded texture and shape information in a patch-wise fashion for sharing knowledge to balance out the order-less texture information with ordered shape information. Further, Bilinear model generates a pairwise correlation between the order-less texture information and ordered shape information. Finally, the ground-terrain image classification is performed by a fully connected layer. The experimental results indicate superior performance of the proposed model over existing state-of-the-art techniques on publicly available datasets like DTD, MINC and GTOS-mobile.
翻訳日:2022-12-12 13:25:46 公開日:2020-10-27
# ETC: 変換器における長文および構造化文のエンコード

ETC: Encoding Long and Structured Inputs in Transformers ( http://arxiv.org/abs/2004.08483v5 )

ライセンス: Link先を確認
Joshua Ainslie, Santiago Ontanon, Chris Alberti, Vaclav Cvicek, Zachary Fisher, Philip Pham, Anirudh Ravula, Sumit Sanghai, Qifan Wang, Li Yang(参考訳) トランスフォーマーモデルは、多くの自然言語処理(NLP)タスクにおいて、技術の進歩を遂げている。 本稿では,入力長のスケーリングと構造化入力の符号化という,標準トランスフォーマーアーキテクチャにおける2つの課題に対処する,新しいトランスフォーマーアーキテクチャである拡張トランスフォーマー構築(ETC)を提案する。 そこで本研究では,グローバルトークンと正規入力トークンの間に新たなグローバルローカル注意機構を導入する。 また,大域的局所的注意と相対的位置符号化とコントラスト予測符号化(cpc)を組み合わせることで,etcが構造化入力を符号化できることを示した。 我々は,4つの自然言語データセットにおいて,長文および/または構造化された入力を必要とする最新結果を得る。

Transformer models have advanced the state of the art in many Natural Language Processing (NLP) tasks. In this paper, we present a new Transformer architecture, Extended Transformer Construction (ETC), that addresses two key challenges of standard Transformer architectures, namely scaling input length and encoding structured inputs. To scale attention to longer inputs, we introduce a novel global-local attention mechanism between global tokens and regular input tokens. We also show that combining global-local attention with relative position encodings and a Contrastive Predictive Coding (CPC) pre-training objective allows ETC to encode structured inputs. We achieve state-of-the-art results on four natural language datasets requiring long and/or structured inputs.
翻訳日:2022-12-12 12:51:02 公開日:2020-10-27
# ゼロショットパラフレーズを用いた多言語の自動機械翻訳評価

Automatic Machine Translation Evaluation in Many Languages via Zero-Shot Paraphrasing ( http://arxiv.org/abs/2004.14564v2 )

ライセンス: Link先を確認
Brian Thompson and Matt Post(参考訳) 我々は,機械翻訳評価のタスクを,人間の参照に条件付きシーケンス・ツー・シーケンス・パラフレーズを用いたスコアリング機械翻訳出力の1つとする。 我々は,パラフレーズ処理をゼロショット翻訳タスク(チェコ語からチェコ語など)として扱う多言語NMTシステムとしてのパラフレーズ学習を提案する。 これにより、パラフラザーの出力モードは入力シーケンスのコピーを中心に設定され、MTシステムの出力が人間の参照と一致する最良のケースシナリオを表す。 我々の手法は単純で直感的で、訓練には人間の判断を必要としない。 私たちの単一モデル(39言語でトレーニングされています)は、すべての言語で、wmt 2019セグメントレベルの共有メトリクスタスク(トレーニングデータを持たないgujaratiを除く)で、すべての以前のメトリクスを上回ったり、統計的に関連付けたりしています。 また、基準ではなく基準条件として品質評価のタスクとして、我々のモデルを用いて検討し、WMT 2019における品質評価のタスクにおいて、すべての言語ペアにおける品質評価のタスクよりも大幅に優れていることを見出した。

We frame the task of machine translation evaluation as one of scoring machine translation output with a sequence-to-sequence paraphraser, conditioned on a human reference. We propose training the paraphraser as a multilingual NMT system, treating paraphrasing as a zero-shot translation task (e.g., Czech to Czech). This results in the paraphraser's output mode being centered around a copy of the input sequence, which represents the best case scenario where the MT system output matches a human reference. Our method is simple and intuitive, and does not require human judgements for training. Our single model (trained in 39 languages) outperforms or statistically ties with all prior metrics on the WMT 2019 segment-level shared metrics task in all languages (excluding Gujarati where the model had no training data). We also explore using our model for the task of quality estimation as a metric--conditioning on the source instead of the reference--and find that it significantly outperforms every submission to the WMT 2019 shared task on quality estimation in every language pair.
翻訳日:2022-12-08 04:07:38 公開日:2020-10-27
# ProtoQA: プロトタイプ・コモンセンス推論のための質問応答データセット

ProtoQA: A Question Answering Dataset for Prototypical Common-Sense Reasoning ( http://arxiv.org/abs/2005.00771v3 )

ライセンス: Link先を確認
Michael Boratko, Xiang Lorraine Li, Rajarshi Das, Tim O'Gorman, Dan Le, Andrew McCallum(参考訳) 人々が仕事のために家を出る前によく行うことなど、いくつかの原型的な状況に関する質問が与えられますか? 人間は獲得した経験を通じて容易に答えることができる。 そのような質問には複数の正しい答えがあり、他の質問よりも状況に共通するものもある。 本稿では,このような状況下での人工知能システムの常識推論能力をトレーニングし,評価するための新しい質問応答データセットを提案する。 トレーニングセットは、長期にわたる国際ゲームショーFAMILY-FEUDでプレイされている既存の質問セットから収集される。 隠れた評価セットは、100人の参加者から各質問に対する回答を収集することによって作成される。 また、モデルが解のランク付けリストを出力し、理想的には質問に対する全ての原型的回答をカバーする生成的評価タスクを提案する。 複数の競合するベースラインモデルを提示した後、人間のパフォーマンスは有意義なギャップを持つ全ての評価指標のモデルスコアを超え、タスクの難易度を支えていることがわかった。

Given questions regarding some prototypical situation such as Name something that people usually do before they leave the house for work? a human can easily answer them via acquired experiences. There can be multiple right answers for such questions, with some more common for a situation than others. This paper introduces a new question answering dataset for training and evaluating common sense reasoning capabilities of artificial intelligence systems in such prototypical situations. The training set is gathered from an existing set of questions played in a long-running international game show FAMILY- FEUD. The hidden evaluation set is created by gathering answers for each question from 100 crowd-workers. We also propose a generative evaluation task where a model has to output a ranked list of answers, ideally covering all prototypical answers for a question. After presenting multiple competitive baseline models, we find that human performance still exceeds model scores on all evaluation metrics with a meaningful gap, supporting the challenging nature of the task.
翻訳日:2022-12-07 12:35:34 公開日:2020-10-27
# 二元化ニューラルネットワークの有効実行検証

Efficient Exact Verification of Binarized Neural Networks ( http://arxiv.org/abs/2005.03597v2 )

ライセンス: Link先を確認
Kai Jia, Martin Rinard(参考訳) ニューラルネットワークの信頼性に関して、研究者はロバスト性を証明するための検証技術を開発した。 ほとんどの検証器は実数値ネットワークで動作する。 残念ながら、正確な(完全かつ健全な)検証器はスケーラビリティの問題に直面し、浮動小数点誤差による正確性を保証する。 我々は、BNN(Binarized Neural Networks)が同等の堅牢性を提供し、正確かつはるかに効率的な検証を可能にすると論じている。 我々は,BNNの効率的かつ正確な検証を行うための新しいシステムであるEEVを提案する。 EEVは2つの部分から構成される。 i) BNNエンコーディングに起因する修正基数制約をネイティブに処理することによりBNN検証を高速化する新しいSATソルバ。 (II) バランスの取れた層幅と低濃度境界を誘導し, 勾配を適応的にキャンセルすることで, 解き易いBNNを訓練する戦略。 mnist および cifar10 データセット上の非自明な畳み込み bnn の l-inf-bounded adversarial robustness に対する最初の厳密な検証結果を示し,eev の有効性を示す。 同じタスク上で同じアーキテクチャの実際の評価ネットワークの正確な検証と比較すると、EEVはBNNを数百から数千倍高速に検証し、ほとんどの場合において同等の検証精度を提供する。

Concerned with the reliability of neural networks, researchers have developed verification techniques to prove their robustness. Most verifiers work with real-valued networks. Unfortunately, the exact (complete and sound) verifiers face scalability challenges and provide no correctness guarantees due to floating point errors. We argue that Binarized Neural Networks (BNNs) provide comparable robustness and allow exact and significantly more efficient verification. We present a new system, EEV, for efficient and exact verification of BNNs. EEV consists of two parts: (i) a novel SAT solver that speeds up BNN verification by natively handling the reified cardinality constraints arising in BNN encodings; and (ii) strategies to train solver-friendly robust BNNs by inducing balanced layer-wise sparsity and low cardinality bounds, and adaptively cancelling the gradients. We demonstrate the effectiveness of EEV by presenting the first exact verification results for L-inf-bounded adversarial robustness of nontrivial convolutional BNNs on the MNIST and CIFAR10 datasets. Compared to exact verification of real-valued networks of the same architectures on the same tasks, EEV verifies BNNs hundreds to thousands of times faster, while delivering comparable verifiable accuracy in most cases.
翻訳日:2022-12-05 22:30:31 公開日:2020-10-27
# 非線形システムの安全探索と学習のためのチャンス制約軌道最適化

Chance-Constrained Trajectory Optimization for Safe Exploration and Learning of Nonlinear Systems ( http://arxiv.org/abs/2005.04374v3 )

ライセンス: Link先を確認
Yashwanth Kumar Nakka, Anqi Liu, Guanya Shi, Anima Anandkumar, Yisong Yue, and Soon-Jo Chung(参考訳) 学習に基づく制御アルゴリズムは、トレーニングに十分な監督を持つデータ収集を必要とする。 安全な探索アルゴリズムは、部分的な知識しか得られなくても、このデータ収集プロセスの安全性を保証する。 確率制約付き確率的最適制御と動的学習とフィードバック制御を統合した安全な探索による最適運動計画手法を提案する。 本稿では, 繰り返し凸最適化アルゴリズムを導出し, コストのかかる アンダーライン{S}tochastic \underline{N}onlinear \underline{O}ptimal \underline{C}ontrol problem (Info-SNOC) を解く。 最適化の目的は、パフォーマンスの制御コストと学習の探索コストをエンコードし、安全性を分散的にロバストな確率制約として組み込む。 ダイナミクスは、データから学習した堅牢な回帰モデルから予測される。 Info-SNOCアルゴリズムは、安全制約の下で未知の残留力学を学習するのに役立つ安全な運動計画の最適化プールを計算するために使用される。 安定したフィードバックコントローラを使用して、動作計画を実行し、モデル学習のためのデータを収集する。 我々は,探索手法からのロールアウトの安全性とエポック上の不確実性の低減を証明し,学習方法の整合性を保証する。 平面ロボットの安全軌道プールの設計と実装によりInfo-SNOCの有効性を検証する。 提案手法は, 決定論的軌道最適化手法と比較して, 安全性確保に成功率が高いことを示す。

Learning-based control algorithms require data collection with abundant supervision for training. Safe exploration algorithms ensure the safety of this data collection process even when only partial knowledge is available. We present a new approach for optimal motion planning with safe exploration that integrates chance-constrained stochastic optimal control with dynamics learning and feedback control. We derive an iterative convex optimization algorithm that solves an \underline{Info}rmation-cost \underline{S}tochastic \underline{N}onlinear \underline{O}ptimal \underline{C}ontrol problem (Info-SNOC). The optimization objective encodes control cost for performance and exploration cost for learning, and the safety is incorporated as distributionally robust chance constraints. The dynamics are predicted from a robust regression model that is learned from data. The Info-SNOC algorithm is used to compute a sub-optimal pool of safe motion plans that aid in exploration for learning unknown residual dynamics under safety constraints. A stable feedback controller is used to execute the motion plan and collect data for model learning. We prove the safety of rollout from our exploration method and reduction in uncertainty over epochs, thereby guaranteeing the consistency of our learning method. We validate the effectiveness of Info-SNOC by designing and implementing a pool of safe trajectories for a planar robot. We demonstrate that our approach has higher success rate in ensuring safety when compared to a deterministic trajectory optimization approach.
翻訳日:2022-12-05 07:09:50 公開日:2020-10-27
# Bayesian Bits:量子化とプルーニングの統合

Bayesian Bits: Unifying Quantization and Pruning ( http://arxiv.org/abs/2005.07093v3 )

ライセンス: Link先を確認
Mart van Baalen and Christos Louizos and Markus Nagel and Rana Ali Amjad and Ying Wang and Tijmen Blankevoort and Max Welling(参考訳) 我々は、勾配に基づく最適化による混合精度量子化とプルーニングの実用的な方法であるBayesian Bitsを紹介する。 ベイズビットは量子化演算の新たな分解を採用し、ビット幅を2倍にすることを考える。 新たなビット幅毎に、全精度値と予め丸められた値との残差誤差を定量化する。 次に、この量子化残差誤差を高い有効ビット幅と低い量子化雑音に対して加算するか否かを決定する。 2ビット幅のパワーから始めると、この分解は常にハードウェアフレンドリーな構成となり、さらに0ビットオプションによって、プルーニングと量子化の統合ビューとして機能する。 ベイズビットは学習可能な確率ゲートを導入し、与えられたテンソルのビット幅をまとめて制御する。 その結果、ゲート上で近似推論を行うことで低ビットの解を得ることができ、そのほとんどをオフにする事前分布を持つことができる。 提案手法をいくつかのベンチマークデータセットで実験的に検証し,静的ビット幅等価値よりも精度と効率のトレードオフを良好に得る,プルーニングされた混合精度ネットワークを学習できることを示した。

We introduce Bayesian Bits, a practical method for joint mixed precision quantization and pruning through gradient based optimization. Bayesian Bits employs a novel decomposition of the quantization operation, which sequentially considers doubling the bit width. At each new bit width, the residual error between the full precision value and the previously rounded value is quantized. We then decide whether or not to add this quantized residual error for a higher effective bit width and lower quantization noise. By starting with a power-of-two bit width, this decomposition will always produce hardware-friendly configurations, and through an additional 0-bit option, serves as a unified view of pruning and quantization. Bayesian Bits then introduces learnable stochastic gates, which collectively control the bit width of the given tensor. As a result, we can obtain low bit solutions by performing approximate inference over the gates, with prior distributions that encourage most of them to be switched off. We experimentally validate our proposed method on several benchmark datasets and show that we can learn pruned, mixed precision networks that provide a better trade-off between accuracy and efficiency than their static bit width equivalents.
翻訳日:2022-12-03 04:11:49 公開日:2020-10-27
# 統計的変化点検出のためのマッチングフィルタリングについて

On Matched Filtering for Statistical Change Point Detection ( http://arxiv.org/abs/2006.05539v4 )

ライセンス: Link先を確認
Kevin C. Cheng, Eric L. Miller, Michael C. Hughes, Shuchin Aeron(参考訳) 非パラメトリックかつ分布自由な2サンプルテストは多くの変更点検出アルゴリズムの基礎となっている。 しかし、時間関数としてのテスト統計学におけるランダム性は、偽陽性や局所的曖昧さに影響を受けやすい。 各種スライディングウインドウ,データ上のiid仮定下での2つのサンプルテストに対して,変更の期待される時間的シグネチャを導出し,適用することにより,これらの問題に対処する。 これらのフィルタは、wasserstein quantile test、wasserstein-1 distance test、maximum mean discrepancy squared (mmd^2)、kolmogorov-smirnov (ks) testの窓サイズに対して漸近的に導出される。 一致するフィルタは2つの重要な特性を持つ。 まず、これらは分散フリーであり、基礎となるデータ分布の事前知識なしで適用することができる。 第2に,本手法が生成するフィルタ信号が統計的に有意であることを示すピーク保存法である。 本研究では,合成データと活動認識ベンチマークを用いて,偽陽性を緩和し,検査精度を向上させる手法の有用性を実証する。 本手法では,アドホックな後処理を使わずに変更点の局所化を可能にし,現在の手法に共通する冗長な検出を除去できる。 さらに,quantile-quantile (q-q)関数に基づく統計的テストの性能を強調し,q-q関数から順序保存変換への不均一性が,同一データセット内の単一のしきい値で異なるスケールの変化点を検出できることを示す。

Non-parametric and distribution-free two-sample tests have been the foundation of many change point detection algorithms. However, randomness in the test statistic as a function of time makes them susceptible to false positives and localization ambiguity. We address these issues by deriving and applying filters matched to the expected temporal signatures of a change for various sliding window, two-sample tests under IID assumptions on the data. These filters are derived asymptotically with respect to the window size for the Wasserstein quantile test, the Wasserstein-1 distance test, Maximum Mean Discrepancy squared (MMD^2), and the Kolmogorov-Smirnov (KS) test. The matched filters are shown to have two important properties. First, they are distribution-free, and thus can be applied without prior knowledge of the underlying data distributions. Second, they are peak-preserving, which allows the filtered signal produced by our methods to maintain expected statistical significance. Through experiments on synthetic data as well as activity recognition benchmarks, we demonstrate the utility of this approach for mitigating false positives and improving the test precision. Our method allows for the localization of change points without the use of ad-hoc post-processing to remove redundant detections common to current methods. We further highlight the performance of statistical tests based on the Quantile-Quantile (Q-Q) function and show how the invariance property of the Q-Q function to order-preserving transformations allows these tests to detect change points of different scales with a single threshold within the same dataset.
翻訳日:2022-11-23 15:39:25 公開日:2020-10-27
# 音素周波数の再評価

Re-evaluating phoneme frequencies ( http://arxiv.org/abs/2006.05206v2 )

ライセンス: Link先を確認
Jayden L. Macklin-Cordes, Erich R. Round(参考訳) 因果過程は、それらが影響する言語変数に固有の分布をもたらす可能性がある。 したがって、変数の分布を確実に理解することで、因果的に形づくられた力を理解する鍵を握ることができる。 言語学における厳密な分布は、ジップの法則であり、一種の権力法則である。 パワーロー仮説に関する科学における大きな議論と、それを評価する初期の方法の信頼性の欠如の後、我々は音素の周波数を特徴付けるという主張の分布を再評価する。 最大可能性フレームワークを用いて166のオーストラリア諸語に対する電力法則と3つの代替分布の適合性を推定する。 初期の結果を裏付ける証拠を見つけると同時に、それらについて理解を深めることができます。 最も顕著なことに、音素在庫は、最も頻度の高いメンバー(おそらくは対数正規構造)の中でZipfianのような周波数構造を持っているように見えるが、最も頻度の低いメンバーでは幾何学的(あるいは指数的)構造である。 音韻変化において音素物質が重要な役割を担っているにもかかわらず、音素周波数の分布が同じであるような多彩な音素コンテンツを持つ在庫を期待できる理由について、これらの新たな知見を比較した。 我々は,この有望な研究計画において,今後の研究の優先順位を定めている。

Causal processes can give rise to distinctive distributions in the linguistic variables that they affect. Consequently, a secure understanding of a variable's distribution can hold a key to understanding the forces that have causally shaped it. A storied distribution in linguistics has been Zipf's law, a kind of power law. In the wake of a major debate in the sciences around power-law hypotheses and the unreliability of earlier methods of evaluating them, here we re-evaluate the distributions claimed to characterize phoneme frequencies. We infer the fit of power laws and three alternative distributions to 166 Australian languages, using a maximum likelihood framework. We find evidence supporting earlier results, but also nuancing them and increasing our understanding of them. Most notably, phonemic inventories appear to have a Zipfian-like frequency structure among their most-frequent members (though perhaps also a lognormal structure) but a geometric (or exponential) structure among the least-frequent. We compare these new insights the kinds of causal processes that affect the evolution of phonemic inventories over time, and identify a potential account for why, despite there being an important role for phonetic substance in phonemic change, we could still expect inventories with highly diverse phonetic content to share similar distributions of phoneme frequencies. We conclude with priorities for future work in this promising program of research.
翻訳日:2022-11-23 15:20:52 公開日:2020-10-27
# 雑音非線形線形モデルによる確率勾配勾配の高次非パラメトリック収束速度

Tight Nonparametric Convergence Rates for Stochastic Gradient Descent under the Noiseless Linear Model ( http://arxiv.org/abs/2006.08212v2 )

ライセンス: Link先を確認
Rapha\"el Berthier (PSL, SIERRA), Francis Bach (SIERRA, PSL), Pierre Gaillard (SIERRA, PSL, Thoth)(参考訳) 統計的教師付き学習の文脈において、ノイズのない線形モデルは、ランダム出力 $y$ とランダム特徴ベクトル $\phi(u)$ の間に決定論的線型関係 $y = \langle \theta_*, x \rangle$ が存在すると仮定する。 このモデルに基づく最小二乗リスクに対する1パス, 固定ステップサイズ確率勾配勾配の収束度を解析した。 イテレートの最適な$\theta_*$への収束と一般化誤差の減衰は、最適な$\theta_*$ と特徴ベクトル $\phi(u)$ の正則性に依存する指数の多項式収束率に従う。 我々はこの結果をカーネルヒルベルト空間フレームワークで解釈する。 特別な場合として,ランダムにサンプリングされた点における値のノイズのない観測から単位間隔の実関数を推定するオンラインアルゴリズムを解析し,関数と選択したカーネルのソボレフ平滑度に依存する。 最後に,教師付き学習環境を超えて解析を行い,そのスペクトル次元に応じて平均化過程(すなわちゴシップアルゴリズム)の収束率を求める。

In the context of statistical supervised learning, the noiseless linear model assumes that there exists a deterministic linear relation $Y = \langle \theta_*, X \rangle$ between the random output $Y$ and the random feature vector $\Phi(U)$, a potentially non-linear transformation of the inputs $U$. We analyze the convergence of single-pass, fixed step-size stochastic gradient descent on the least-square risk under this model. The convergence of the iterates to the optimum $\theta_*$ and the decay of the generalization error follow polynomial convergence rates with exponents that both depend on the regularities of the optimum $\theta_*$ and of the feature vectors $\Phi(u)$. We interpret our result in the reproducing kernel Hilbert space framework. As a special case, we analyze an online algorithm for estimating a real function on the unit interval from the noiseless observation of its value at randomly sampled points; the convergence depends on the Sobolev smoothness of the function and of a chosen kernel. Finally, we apply our analysis beyond the supervised learning setting to obtain convergence rates for the averaging process (a.k.a. gossip algorithm) on a graph depending on its spectral dimension.
翻訳日:2022-11-21 03:52:24 公開日:2020-10-27
# YouTube動画視聴によるセマンティックビジュアルナビゲーション

Semantic Visual Navigation by Watching YouTube Videos ( http://arxiv.org/abs/2006.10034v2 )

ライセンス: Link先を確認
Matthew Chang, Arjun Gupta, Saurabh Gupta(参考訳) 実環境レイアウトにおける意味的手がかりと統計的規則性は、新しい環境におけるナビゲーションの効率を向上させることができる。 本稿は,youtube ビデオを単に視聴することによって,新しい環境に興味のある対象にナビゲートするために,このような意味的手がかりを学習し,活用する。 YouTubeの動画には、アクションやゴールのラベルが付いておらず、最適な行動を示していないため、これは難しいことです。 本手法は,疑似ラベル付き遷移四足歩行(画像,アクション,次画像,報酬)におけるq-learningを用いて,これらの課題に取り組む。 パッシブデータからのオフポリシーq学習は,ナビゲーションに有意義な意味的手がかりを学習できることを示す。 これらのキューを階層的なナビゲーションポリシーで使用すると、視覚的に現実的なシミュレーションにおいてObjectGoalタスクの効率が向上する。 エンド・ツー・エンドのrl, 動作クローニング, 古典的手法に対して, 最小の直接的相互作用を用いて, 15-83%の相対的改善を観察した。

Semantic cues and statistical regularities in real-world environment layouts can improve efficiency for navigation in novel environments. This paper learns and leverages such semantic cues for navigating to objects of interest in novel environments, by simply watching YouTube videos. This is challenging because YouTube videos don't come with labels for actions or goals, and may not even showcase optimal behavior. Our method tackles these challenges through the use of Q-learning on pseudo-labeled transition quadruples (image, action, next image, reward). We show that such off-policy Q-learning from passive data is able to learn meaningful semantic cues for navigation. These cues, when used in a hierarchical navigation policy, lead to improved efficiency at the ObjectGoal task in visually realistic simulations. We observe a relative improvement of 15-83% over end-to-end RL, behavior cloning, and classical methods, while using minimal direct interaction.
翻訳日:2022-11-19 19:07:59 公開日:2020-10-27
# スパースルール学習における情報理論の限界

Information theoretic limits of learning a sparse rule ( http://arxiv.org/abs/2006.11313v2 )

ライセンス: Link先を確認
Cl\'ement Luneau, Jean Barbier and Nicolas Macris(参考訳) 本研究では,信号の非零成分数とアクセス可能なデータ点数が信号のサイズに対して部分線型であるようなレジームにおける一般化線形モデルを考える。 システムサイズが無限に大きくなるとサンプル毎の漸近的相互情報に対する変分公式が証明される。 この結果、信号エントリが有限サポートを持つ離散分布を持つ場合、ベイズ推定器の最小平均二乗誤差(mmse)の式を導出することができる。 このような信号と、スパーシリティとサンプリングレートの適切な消去スケールに対して、MMSEはピースワイズ定数が増加しないことがわかった。 特定の場合において、MMSEは全または無の位相遷移(すなわち、MMSEは臨界サンプリングレートでその最大値から0に急上昇する)も表示する。 オール・オー・ナッシング現象は以前、高次元線形回帰において起こることが示されている。 本分析は線形の場合を超越し,教師・生徒シナリオにおける一般活性化関数を持つパーセプトロンの重み付け学習に適用する。 特に、一般化誤差に対するオール・オー・ナッシング現象を、訓練例のサブ線形集合を用いて論じる。

We consider generalized linear models in regimes where the number of nonzero components of the signal and accessible data points are sublinear with respect to the size of the signal. We prove a variational formula for the asymptotic mutual information per sample when the system size grows to infinity. This result allows us to derive an expression for the minimum mean-square error (MMSE) of the Bayesian estimator when the signal entries have a discrete distribution with finite support. We find that, for such signals and suitable vanishing scalings of the sparsity and sampling rate, the MMSE is nonincreasing piecewise constant. In specific instances the MMSE even displays an all-or-nothing phase transition, that is, the MMSE sharply jumps from its maximum value to zero at a critical sampling rate. The all-or-nothing phenomenon has previously been shown to occur in high-dimensional linear regression. Our analysis goes beyond the linear case and applies to learning the weights of a perceptron with general activation function in a teacher-student scenario. In particular, we discuss an all-or-nothing phenomenon for the generalization error with a sublinear set of training examples.
翻訳日:2022-11-19 04:34:09 公開日:2020-10-27
# PAC-Bayes境界におけるデータの役割について

On the role of data in PAC-Bayes bounds ( http://arxiv.org/abs/2006.10929v2 )

ライセンス: Link先を確認
Gintare Karolina Dziugaite, Kyle Hsu, Waseem Gharbieh, Gabriel Arpino, Daniel M. Roy(参考訳) PAC-ベイズ境界における支配的な用語は、しばしばクルバック-リーブラー分岐である。 固定後核の経験的リスクに基づくいわゆる線形PAC-Bayesリスクバウンダリに対して、分布に依存するという理由から、先を期待後として選択することで、そのバウンダリの期待値を最小限にすることができる。 本研究は, 先行するオラクルに基づく境界が準最適であることを示す: ある場合において, 強い境界は, 実験的リスク項から除外された訓練データのサブセットが与えられた後部の条件付き期待値を用いて得られる。 先行学習にデータを使うことは、既知のヒューリスティックであるが、最適境界における重要な役割は新しいことである。 実際、データの使用は空きと非空きの境界の違いを意味する可能性がある。 この新原則を非凸学習の設定に適用し,MNISTおよびFashion MNISTにおけるデータ依存のオラクル事前を,保持データと非保持データでシミュレートし,両ケースで新たな非空き境界を示す。

The dominant term in PAC-Bayes bounds is often the Kullback--Leibler divergence between the posterior and prior. For so-called linear PAC-Bayes risk bounds based on the empirical risk of a fixed posterior kernel, it is possible to minimize the expected value of the bound by choosing the prior to be the expected posterior, which we call the oracle prior on the account that it is distribution dependent. In this work, we show that the bound based on the oracle prior can be suboptimal: In some cases, a stronger bound is obtained by using a data-dependent oracle prior, i.e., a conditional expectation of the posterior, given a subset of the training data that is then excluded from the empirical risk term. While using data to learn a prior is a known heuristic, its essential role in optimal bounds is new. In fact, we show that using data can mean the difference between vacuous and nonvacuous bounds. We apply this new principle in the setting of nonconvex learning, simulating data-dependent oracle priors on MNIST and Fashion MNIST with and without held-out data, and demonstrating new nonvacuous bounds in both cases.
翻訳日:2022-11-19 03:38:35 公開日:2020-10-27
# 深層変態不変クラスタリング

Deep Transformation-Invariant Clustering ( http://arxiv.org/abs/2006.11132v2 )

ライセンス: Link先を確認
Tom Monnier, Thibault Groueix, Mathieu Aubry(参考訳) 画像クラスタリングの最近の進歩は、一般的により深い表現を学ぶことに焦点を当てている。 対照的に,抽象的な特徴に依存しず,画像変換の予測を学び,画像空間内で直接クラスタリングを行う直交的アプローチを提案する。 この学習プロセスはK平均とガウス混合モデルの勾配に基づく訓練に自然に適合するが、余分な損失やハイパーパラメータは不要である。 これは、プロトタイプと変換を共同で学習する2つの新しいディープトランスフォーメーション不変のクラスタリングフレームワークにつながります。 より具体的には、深層学習モジュールを使用して、空間、色、形態的変換の不変性を解消します。 我々のアプローチは概念的に単純であり、タスクに望まれる不変性を容易に適応できる可能性や、クラスタセンターとクラスタへの割り当ての強い解釈可能性など、いくつかの利点がある。 提案手法は,標準画像クラスタリングベンチマークにおいて,競争力が高く,有望な結果をもたらすことを実証する。 最後に,実写真コレクション上でのクラスタリング結果を可視化することで,その頑健さと解釈性の向上の利点を示す。

Recent advances in image clustering typically focus on learning better deep representations. In contrast, we present an orthogonal approach that does not rely on abstract features but instead learns to predict image transformations and performs clustering directly in image space. This learning process naturally fits in the gradient-based training of K-means and Gaussian mixture model, without requiring any additional loss or hyper-parameters. It leads us to two new deep transformation-invariant clustering frameworks, which jointly learn prototypes and transformations. More specifically, we use deep learning modules that enable us to resolve invariance to spatial, color and morphological transformations. Our approach is conceptually simple and comes with several advantages, including the possibility to easily adapt the desired invariance to the task and a strong interpretability of both cluster centers and assignments to clusters. We demonstrate that our novel approach yields competitive and highly promising results on standard image clustering benchmarks. Finally, we showcase its robustness and the advantages of its improved interpretability by visualizing clustering results over real photograph collections.
翻訳日:2022-11-19 03:31:10 公開日:2020-10-27
# 深さの平方根のパワーと幅の相反する近似誤差を持つディープネットワーク

Deep Network with Approximation Error Being Reciprocal of Width to Power of Square Root of Depth ( http://arxiv.org/abs/2006.12231v6 )

ライセンス: Link先を確認
Zuowei Shen and Haizhao Yang and Shijun Zhang(参考訳) 超近似パワーを持つ新しいネットワークを導入する。 このネットワークは各ニューロンで floor (\lfloor x\rfloor$) または relu (\max\{0,x\}$) の活性化関数で構築されており、そのようなネットワークを floor-relu ネットワークと呼ぶ。 任意のハイパーパラメータ $n\in\mathbb{n}^+$ と $l\in\mathbb{n}^+$ に対して、幅が$\max\{d,\, 5n+13\}$ と深さが 64dl+3$ のフロアレイルネットワークは、それぞれ$[0,1]^d$ と近似誤差が 3\lambda d^{\alpha/2}n^{-\alpha\sqrt{l}}$, ここで $\alpha \in(0,1]$ と $\lambda$ はそれぞれ h\"older order and constant である。 より一般に、任意の連続関数 $f$ on $[0,1]^d$ と連続性 $\omega_f(\cdot)$ に対して、構成的近似レートは $\omega_f(\sqrt{d}\,n^{-\sqrt{l}})+2\omega_f(\sqrt{d}){n^{-\sqrt{l}}}$ である。 結果として、この新しいネットワークのクラスは、$\omega_f(r)$ as $r\to 0$ の変動が適度(例えば、$\omega_f(r) \lesssim r^\alpha$ for H\"older continuous function)であるとき、近似パワーにおける次元性の呪いを克服する。

A new network with super approximation power is introduced. This network is built with Floor ($\lfloor x\rfloor$) or ReLU ($\max\{0,x\}$) activation function in each neuron and hence we call such networks Floor-ReLU networks. For any hyper-parameters $N\in\mathbb{N}^+$ and $L\in\mathbb{N}^+$, it is shown that Floor-ReLU networks with width $\max\{d,\, 5N+13\}$ and depth $64dL+3$ can uniformly approximate a H\"older function $f$ on $[0,1]^d$ with an approximation error $3\lambda d^{\alpha/2}N^{-\alpha\sqrt{L}}$, where $\alpha \in(0,1]$ and $\lambda$ are the H\"older order and constant, respectively. More generally for an arbitrary continuous function $f$ on $[0,1]^d$ with a modulus of continuity $\omega_f(\cdot)$, the constructive approximation rate is $\omega_f(\sqrt{d}\,N^{-\sqrt{L}})+2\omega_f(\sqrt{d}){N^{-\sqrt{L}}}$. As a consequence, this new class of networks overcomes the curse of dimensionality in approximation power when the variation of $\omega_f(r)$ as $r\to 0$ is moderate (e.g., $\omega_f(r) \lesssim r^\alpha$ for H\"older continuous functions), since the major term to be considered in our approximation rate is essentially $\sqrt{d}$ times a function of $N$ and $L$ independent of $d$ within the modulus of continuity.
翻訳日:2022-11-18 05:40:15 公開日:2020-10-27
# DISK: 政策勾配による局所的特徴の学習

DISK: Learning local features with policy gradient ( http://arxiv.org/abs/2006.13566v2 )

ライセンス: Link先を確認
Micha{\l} J. Tyszkiewicz, Pascal Fua, Eduard Trulls(参考訳) 局所的な特徴フレームワークは、スパースキーポイントの選択とマッチングに固有の離散性のため、エンドツーエンドで学ぶのは難しい。 DISK(DIScrete Keypoints)は,強化学習(Reinforcement Learning, RL)の原理を活用し,多数の特徴マッチングをエンドツーエンドに最適化することで,これらの障害を克服する新しい手法である。 私たちの単純で表現力に富んだ確率的モデルは、トレーニングと推論体制を密に保ちながら、スクラッチから確実にトレーニングできる十分な収束特性を維持します。 我々の特徴は、差別的でありながら非常に密集的に抽出することができ、図1に示すように、良いキーポイントを構成するものに関する一般的な仮定に挑戦し、3つの公開ベンチマークで最先端の結果を提供する。

Local feature frameworks are difficult to learn in an end-to-end fashion, due to the discreteness inherent to the selection and matching of sparse keypoints. We introduce DISK (DIScrete Keypoints), a novel method that overcomes these obstacles by leveraging principles from Reinforcement Learning (RL), optimizing end-to-end for a high number of correct feature matches. Our simple yet expressive probabilistic model lets us keep the training and inference regimes close, while maintaining good enough convergence properties to reliably train from scratch. Our features can be extracted very densely while remaining discriminative, challenging commonly held assumptions about what constitutes a good keypoint, as showcased in Fig. 1, and deliver state-of-the-art results on three public benchmarks.
翻訳日:2022-11-17 09:42:23 公開日:2020-10-27
# 教師なし深層学習におけるジャコビアン項の相対勾配最適化

Relative gradient optimization of the Jacobian term in unsupervised deep learning ( http://arxiv.org/abs/2006.15090v2 )

ライセンス: Link先を確認
Luigi Gresele, Giancarlo Fissore, Adri\'an Javaloy, Bernhard Sch\"olkopf and Aapo Hyv\"arinen(参考訳) データを正しく記述する表現的確率モデルを学ぶことは、機械学習においてユビキタスな問題である。 この問題を解くための一般的なアプローチは、観測結果を単純なジョイント分布を持つ表現空間にマッピングすることであり、これは典型的には、非線形独立成分分析の場と接続する辺の積として書くことができる。 深層密度モデルはこのタスクに広く用いられてきたが、最大確率に基づくトレーニングにはジャコビアンの対数決定式の推定が必要であり、計算コストがかかるため、計算と表現力の間のトレードオフが生じる。 本研究では,このようなニューラルネットワークの厳密なトレーニングのための新しい手法を提案する。 相対勾配に基づいて,ニューラルネットワークパラメータの行列構造を利用して,高次元空間においても更新を効率的に計算する。 これにより、自己回帰正規化フローとは対照的に、構造に制約を課すことなく、ジャコビアンの対数行列を含む客観的関数による高速な訓練が可能となる。

Learning expressive probabilistic models correctly describing the data is a ubiquitous problem in machine learning. A popular approach for solving it is mapping the observations into a representation space with a simple joint distribution, which can typically be written as a product of its marginals -- thus drawing a connection with the field of nonlinear independent component analysis. Deep density models have been widely used for this task, but their maximum likelihood based training requires estimating the log-determinant of the Jacobian and is computationally expensive, thus imposing a trade-off between computation and expressive power. In this work, we propose a new approach for exact training of such neural networks. Based on relative gradients, we exploit the matrix structure of neural network parameters to compute updates efficiently even in high-dimensional spaces; the computational cost of the training is quadratic in the input size, in contrast with the cubic scaling of naive approaches. This allows fast training with objective functions involving the log-determinant of the Jacobian, without imposing constraints on its structure, in stark contrast to autoregressive normalizing flows.
翻訳日:2022-11-16 21:15:15 公開日:2020-10-27
# ハイパーグラフのランダムウォーク、ラプラシアン、クラスタリング

Hypergraph Random Walks, Laplacians, and Clustering ( http://arxiv.org/abs/2006.16377v2 )

ライセンス: Link先を確認
Koby Hayashi, Sinan G. Aksoy, Cheong Hee Park, and Haesun Park(参考訳) 本稿では,エッジ依存頂点重みを用いたランダムウォークに基づくハイパーグラフ構造データをクラスタリングするための柔軟なフレームワークを提案する。 エッジ依存頂点重み(EDVW)を組み込む場合、重みは各頂点-ハイパーエッジペアに関連付けられ、ハイパーグラフの重み付き入射行列を生成する。 このような重み付けはテキストデータセットの項文書表現に利用されてきた。 EDVWを用いたランダムウォークは,異なるハイパーグラフラプラシアン行列を構成するのにどのように役立つかを説明し,これらの出現行列とラプラシアンを用いてハイパーグラフクラスタリングを行う一連のクラスタリング手法を開発する。 実生活アプリケーションから得られた複数のデータセットを用いて,これらのクラスタリングアルゴリズムの性能を,既存のハイパーグラフクラスタリング手法と比較した。 提案手法は高品質なクラスタを生成し,今後の作業への道筋を強調することで結論づける。

We propose a flexible framework for clustering hypergraph-structured data based on recently proposed random walks utilizing edge-dependent vertex weights. When incorporating edge-dependent vertex weights (EDVW), a weight is associated with each vertex-hyperedge pair, yielding a weighted incidence matrix of the hypergraph. Such weightings have been utilized in term-document representations of text data sets. We explain how random walks with EDVW serve to construct different hypergraph Laplacian matrices, and then develop a suite of clustering methods that use these incidence matrices and Laplacians for hypergraph clustering. Using several data sets from real-life applications, we compare the performance of these clustering algorithms experimentally against a variety of existing hypergraph clustering methods. We show that the proposed methods produce higher-quality clusters and conclude by highlighting avenues for future work.
翻訳日:2022-11-15 13:53:59 公開日:2020-10-27
# 遺伝的探索による深層分子最適化の導出

Guiding Deep Molecular Optimization with Genetic Exploration ( http://arxiv.org/abs/2007.04897v3 )

ライセンス: Link先を確認
Sungsoo Ahn, Junsu Kim, Hankook Lee, Jinwoo Shin(参考訳) de novo分子設計は、望ましい性質を持つ分子の化学空間を探索しようとするものである。 近年,ディープラーニングが課題解決の有望なアプローチとして注目されている。 本稿では、ディープニューラルネットワーク(DNN)を訓練して高次分子を生成するための、単純かつ斬新なフレームワークである遺伝的専門家誘導学習(GEGL)を提案する。 本研究の主な目的は,DNNの模倣学習のための高品質な目標を生成する「遺伝的専門家改善」手順を設計することである。 大規模な実験により、GEGLは最先端の手法よりも大幅に改善されていることが示された。 例えば、GEGLは、ペナル化オクタノール-水分配係数の最適化を31.40点で解き、文献で最もよく知られているスコアは27.22点である。 また,20タスクのGuacaMolベンチマークでは,最新手法と比較して,19タスクの最高スコアを達成し,3タスクの完全スコアを新たに取得した。

De novo molecular design attempts to search over the chemical space for molecules with the desired property. Recently, deep learning has gained considerable attention as a promising approach to solve the problem. In this paper, we propose genetic expert-guided learning (GEGL), a simple yet novel framework for training a deep neural network (DNN) to generate highly-rewarding molecules. Our main idea is to design a "genetic expert improvement" procedure, which generates high-quality targets for imitation learning of the DNN. Extensive experiments show that GEGL significantly improves over state-of-the-art methods. For example, GEGL manages to solve the penalized octanol-water partition coefficient optimization with a score of 31.40, while the best-known score in the literature is 27.22. Besides, for the GuacaMol benchmark with 20 tasks, our method achieves the highest score for 19 tasks, in comparison with state-of-the-art methods, and newly obtains the perfect score for three tasks.
翻訳日:2022-11-13 13:00:31 公開日:2020-10-27
# 神経サブグラフマッチング

Neural Subgraph Matching ( http://arxiv.org/abs/2007.03092v2 )

ライセンス: Link先を確認
Rex (Zhitao) Ying, Zhaoyu Lou, Jiaxuan You, Chengtao Wen, Arquimedes Canedo, Jure Leskovec(参考訳) サブグラフマッチング(英: subgraph matching)とは、与えられた問合せグラフの存在と位置を決定する問題である。 NP完全問題であるにもかかわらず、サブグラフマッチング問題はネットワーク科学やデータベースシステムから生化学、認知科学まで幅広い分野において重要である。 しかし、組合せマッチングと整数プログラミングに基づく既存の手法は、大きなターゲットグラフとクエリグラフの両方のマッチング問題に対処できない。 本稿では, 精度, 効率, 堅牢な部分グラフマッチング手法であるNeuroMatchを提案する。 neuromatchはクエリとターゲットのグラフを小さなサブグラフに分解し、グラフニューラルネットワークを使って埋め込む。 部分グラフ関係に対応する幾何学的制約をキャプチャするために訓練されたneuromatchは、埋め込み空間で直接subgraphマッチングを効率的に実行する。 実験によると、ニューロマッチングは既存の組合せ法よりも100倍高速であり、既存の近似部分グラフマッチング法よりも18%正確である。

Subgraph matching is the problem of determining the presence and location(s) of a given query graph in a large target graph. Despite being an NP-complete problem, the subgraph matching problem is crucial in domains ranging from network science and database systems to biochemistry and cognitive science. However, existing techniques based on combinatorial matching and integer programming cannot handle matching problems with both large target and query graphs. Here we propose NeuroMatch, an accurate, efficient, and robust neural approach to subgraph matching. NeuroMatch decomposes query and target graphs into small subgraphs and embeds them using graph neural networks. Trained to capture geometric constraints corresponding to subgraph relations, NeuroMatch then efficiently performs subgraph matching directly in the embedding space. Experiments demonstrate NeuroMatch is 100x faster than existing combinatorial approaches and 18% more accurate than existing approximate subgraph matching methods.
翻訳日:2022-11-13 01:52:32 公開日:2020-10-27
# 確率線形帯域は敵攻撃にロバスト

Stochastic Linear Bandits Robust to Adversarial Attacks ( http://arxiv.org/abs/2007.03285v2 )

ライセンス: Link先を確認
Ilija Bogunovic, Arpan Losalka, Andreas Krause, Jonathan Scarlett(参考訳) 我々は、報酬がランダムノイズの対象となるだけでなく、適切な予算C$(すなわち、時間的地平線における汚職の大きさの和の上限)の対象となる敵攻撃も対象とする確率論的線形バンドイット問題を考える。 我々はロバスト位相除去アルゴリズムの2つの変種を提供し、その1つは$C$を知っており、もう1つはそうでない。 どちらの変種も、非崩壊の場合、$C = 0$でほぼ最適に後悔することを示し、また、一般に$C$に線形および二次的な依存を持つ追加の加法項をそれぞれ引き起こす。 これらの加法項がほぼ最適であることを示すアルゴリズム独立下界を示す。 さらに、文脈的な設定では、様々な文脈のセットアップを再考し、単純な欲求的アルゴリズムは、明確な探索を行わず、C$を知らないにもかかわらず、ほぼ最適加法的後悔項で証明可能な堅牢性を示す。

We consider a stochastic linear bandit problem in which the rewards are not only subject to random noise, but also adversarial attacks subject to a suitable budget $C$ (i.e., an upper bound on the sum of corruption magnitudes across the time horizon). We provide two variants of a Robust Phased Elimination algorithm, one that knows $C$ and one that does not. Both variants are shown to attain near-optimal regret in the non-corrupted case $C = 0$, while incurring additional additive terms respectively having a linear and quadratic dependency on $C$ in general. We present algorithm independent lower bounds showing that these additive terms are near-optimal. In addition, in a contextual setting, we revisit a setup of diverse contexts, and show that a simple greedy algorithm is provably robust with a near-optimal additive regret term, despite performing no explicit exploration and not knowing $C$.
翻訳日:2022-11-12 18:59:01 公開日:2020-10-27
# AIガバナンスを民主化するための優れたAI

Good AI for the Present of Humanity Democratizing AI Governance ( http://arxiv.org/abs/2007.04477v13 )

ライセンス: Link先を確認
Nicholas Kluge Corr\^ea and Nythamar de Oliveira(参考訳) サイバーパンクとAI倫理はお互いに何をしなければならないのか? サイバーパンク(cyberpunk)は、人間の経験と技術の間のポストヒューマンな関係を探求するsfのサブジャンルである。 ai倫理とサイバーパンク文学の類似点の1つは、どちらも、我々の技術的進歩が社会にもたらしうる未来の社会的、倫理的な問題を探求しようとすることである。 近年、AIに関わる倫理的事項が指摘され議論され、テクノロジー産業のガバナンスポリシーとしていくつかの倫理的原則と指針が提案されている。 しかし、これがAI倫理の役割なのだろうか? 法律の柔らかで曖昧なバージョンとして機能するか? この記事では、よりサイバーパンク的なAI倫理の方法と、より民主的なガバナンスの方法を主張したいと思います。 本研究では、AI産業の根底にある権力構造の欠点の一部を露呈し、AIガバナンスが世論の対象となり、優れたAIが全員にとって良いAIになるよう提案する。

What do Cyberpunk and AI Ethics have to do with each other? Cyberpunk is a sub-genre of science fiction that explores the post-human relationships between human experience and technology. One similarity between AI Ethics and Cyberpunk literature is that both seek to explore future social and ethical problems that our technological advances may bring upon society. In recent years, an increasing number of ethical matters involving AI have been pointed and debated, and several ethical principles and guides have been suggested as governance policies for the tech industry. However, would this be the role of AI Ethics? To serve as a soft and ambiguous version of the law? We would like to advocate in this article for a more Cyberpunk way of doing AI Ethics, with a more democratic way of governance. In this study, we will seek to expose some of the deficits of the underlying power structures of the AI industry, and suggest that AI governance be subject to public opinion, so that good AI can become good AI for all.
翻訳日:2022-11-12 13:16:50 公開日:2020-10-27
# UDBNET: 敵ゲームによる教師なしドキュメントバイナリ化ネットワーク

UDBNET: Unsupervised Document Binarization Network via Adversarial Game ( http://arxiv.org/abs/2007.07075v2 )

ライセンス: Link先を確認
Amandeep Kumar, Shuvozit Ghose, Pinaki Nath Chowdhury, Partha Pratim Roy, Umapada Pal(参考訳) 劣化した文書画像バイナリ化は、文書画像分析の領域で最も難しいタスクの1つです。 本稿では,3-player min-max 対角ゲームを導入し,文書画像のバイナライゼーションに向けた新しいアプローチを提案する。 ペアトレーニングデータがないと仮定して、教師なしのセットアップでネットワークをトレーニングします。 このアプローチでは、逆テクスチャ拡張ネットワーク(atanet)が、まず、劣化した参照画像のテクスチャをクリーンイメージに重畳する。 その後、クリーンな画像と生成された劣化したバージョンは、unsupervised Document Binarization Network (UDBNet) のトレーニングに使用される擬似ペアデータを構成する。 提案手法では,文書のビナライゼーションデータセットを拡大し,同一のコンテンツ特徴を持つ複数の画像を生成するが,テキストの特徴は異なる。 生成されたノイズ画像は、クリーンバージョンを取り戻すためにudbnetに送信される。 三人組のmin-max対戦ゲームの第3プレイヤーであるジョイントディミネーターはATANetとUDBNetの両者を組み合おうとする。 ATANetとUDBNetでモデル化された分布が時間とともに同じジョイント分布に整合すると、3人プレイヤのmin-max対戦ゲームは停止する。 このようにして、合同判別器はUDBNetを強制して、実際の劣化画像に対してより良い処理を行う。 実験結果は,広く使用されているDIBCOデータセット上で,既存の最先端アルゴリズムよりも提案モデルの方が優れた性能を示す。 提案システムのソースコードはhttps://github.com/VIROBO-15/UDBNET.comで公開されている。

Degraded document image binarization is one of the most challenging tasks in the domain of document image analysis. In this paper, we present a novel approach towards document image binarization by introducing three-player min-max adversarial game. We train the network in an unsupervised setup by assuming that we do not have any paired-training data. In our approach, an Adversarial Texture Augmentation Network (ATANet) first superimposes the texture of a degraded reference image over a clean image. Later, the clean image along with its generated degraded version constitute the pseudo paired-data which is used to train the Unsupervised Document Binarization Network (UDBNet). Following this approach, we have enlarged the document binarization datasets as it generates multiple images having same content feature but different textual feature. These generated noisy images are then fed into the UDBNet to get back the clean version. The joint discriminator which is the third-player of our three-player min-max adversarial game tries to couple both the ATANet and UDBNet. The three-player min-max adversarial game stops, when the distributions modelled by the ATANet and the UDBNet align to the same joint distribution over time. Thus, the joint discriminator enforces the UDBNet to perform better on real degraded image. The experimental results indicate the superior performance of the proposed model over existing state-of-the-art algorithm on widely used DIBCO datasets. The source code of the proposed system is publicly available at https://github.com/VIROBO-15/UDBNET.
翻訳日:2022-11-10 15:01:12 公開日:2020-10-27
# 周波数の思考--周波数認識による顔偽造検出

Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues ( http://arxiv.org/abs/2007.09355v2 )

ライセンス: Link先を確認
Yuyang Qian, Guojun Yin, Lu Sheng, Zixuan Chen and Jing Shao(参考訳) 現実的な顔操作技術は目覚ましい進歩を遂げたので、これらの技術の悪用の可能性に対する社会的懸念は、顔偽造検出の新たな研究トピックを生み出している。 しかし、近年の進歩は、特に圧縮画像やビデオにおいて、人間の目の知覚能力を超えて顔を鍛えることができるため、非常に難しい。 周波数の認識による偽造パターンのマイニングは,微妙な偽造物や圧縮誤差が説明できるような補足的な視点を提供してくれるため,解決できる可能性が示唆された。 フェースフォージェリ検出に周波数を導入するために,2つの異なる相補的な周波数認識手がかりの利点を生かした新しいF3-Netを提案する。 1)周波数対応分解画像成分、及び 2) 局所周波数統計は,2ストリーム協調学習フレームワークを用いて,偽造パターンを深く掘り下げる。 DCTを応用周波数領域変換に適用する。 包括的な研究を通じて、提案手法はFaceForensics++データセットにおいて、競合するすべての圧縮品質において、競合する最先端の手法よりも大幅に優れており、特に低品質メディアにおいて大きな優位性を示している。

As realistic facial manipulation technologies have achieved remarkable progress, social concerns about potential malicious abuse of these technologies bring out an emerging research topic of face forgery detection. However, it is extremely challenging since recent advances are able to forge faces beyond the perception ability of human eyes, especially in compressed images and videos. We find that mining forgery patterns with the awareness of frequency could be a cure, as frequency provides a complementary viewpoint where either subtle forgery artifacts or compression errors could be well described. To introduce frequency into the face forgery detection, we propose a novel Frequency in Face Forgery Network (F3-Net), taking advantages of two different but complementary frequency-aware clues, 1) frequency-aware decomposed image components, and 2) local frequency statistics, to deeply mine the forgery patterns via our two-stream collaborative learning framework. We apply DCT as the applied frequency-domain transformation. Through comprehensive studies, we show that the proposed F3-Net significantly outperforms competing state-of-the-art methods on all compression qualities in the challenging FaceForensics++ dataset, especially wins a big lead upon low-quality media.
翻訳日:2022-11-09 05:44:00 公開日:2020-10-27
# DEAL:画像分類のためのディープエビデンシャルアクティブラーニング

DEAL: Deep Evidential Active Learning for Image Classification ( http://arxiv.org/abs/2007.11344v2 )

ライセンス: Link先を確認
Patrick Hemmer, Niklas K\"uhl and Jakob Sch\"offer(参考訳) 畳み込みニューラルネットワーク(cnns)は、画像分類のような教師付きコンピュータビジョンタスクのための最先端のモデルであることが証明されている。 しかし、そのようなモデルのトレーニングと検証には、大きなラベル付きデータセットが一般的に必要である。 多くのドメインでは、ラベル付きデータは利用可能だが、例えば特定の専門家の知識が必要な場合、ラベル付けは高価である。 アクティブラーニング(AL)は、限られたラベル付きデータの問題を緩和するためのアプローチである。 ラベル付けのための最も情報的で代表的なデータインスタンスを選択することで、ALはモデルのより効率的な学習に貢献できる。 CNNの最近のAL手法は、ラベル付けするインスタンスの選択に異なる解決策を提案する。 しかし、それらは一貫してうまく動作せず、しばしば計算コストがかかる。 本稿では,高い予測の不確かさを捉えることにより,ラベルなしデータから効率的に学習する新しいalアルゴリズムを提案する。 CNNのソフトマックス標準出力をディリクレ密度のパラメータに置き換えることで、モデルはトレーニング中のモデルパフォーマンスの改善に効率的に寄与するデータインスタンスを識別する。 公開データを用いたいくつかの実験で,本手法が最先端のalアプローチを一貫して上回っていることを実証した。 容易に実装でき、トレーニングのために広範な計算リソースを必要としない。 さらに,胸部X線写真における肺炎の視覚信号の自動検出の分野では,実世界の医療利用に対するアプローチの利点を示すことができる。

Convolutional Neural Networks (CNNs) have proven to be state-of-the-art models for supervised computer vision tasks, such as image classification. However, large labeled data sets are generally needed for the training and validation of such models. In many domains, unlabeled data is available but labeling is expensive, for instance when specific expert knowledge is required. Active Learning (AL) is one approach to mitigate the problem of limited labeled data. Through selecting the most informative and representative data instances for labeling, AL can contribute to more efficient learning of the model. Recent AL methods for CNNs propose different solutions for the selection of instances to be labeled. However, they do not perform consistently well and are often computationally expensive. In this paper, we propose a novel AL algorithm that efficiently learns from unlabeled data by capturing high prediction uncertainty. By replacing the softmax standard output of a CNN with the parameters of a Dirichlet density, the model learns to identify data instances that contribute efficiently to improving model performance during training. We demonstrate in several experiments with publicly available data that our method consistently outperforms other state-of-the-art AL approaches. It can be easily implemented and does not require extensive computational resources for training. Additionally, we are able to show the benefits of the approach on a real-world medical use case in the field of automated detection of visual signals for pneumonia on chest radiographs.
翻訳日:2022-11-07 22:03:12 公開日:2020-10-27
# pclean: ドメイン固有の確率的プログラミングによる大規模ベイズデータクリーニング

PClean: Bayesian Data Cleaning at Scale with Domain-Specific Probabilistic Programming ( http://arxiv.org/abs/2007.11838v4 )

ライセンス: Link先を確認
Alexander K. Lew, Monica Agrawal, David Sontag, Vikash K. Mansinghka(参考訳) データクリーニングは、生成モデルにおける確率的推論として自然にフレーム化され、地平データベース上の事前分布と、データをフィルタリングして破損させたノイズチャネルをモデル化して、不完全で汚く、非正規化されたデータセットを生成する可能性を組み合わせることができる。 この観点から、データセット固有の知識を活用して汚いデータのクリーン化と正規化を行う確率的プログラミング言語であるPCleanを提案する。 pcleanは3つのモデリングと推論の貢献によって実現されている: (1) 関係データベースインスタンスの非パラメトリックモデル、確率的プログラムでカスタマイズ可能、(2) モデルの構造を利用する逐次モンテカルロ推論アルゴリズム、(3) データセットごとに構築された至近のsmc提案とブロックされたgibbs再帰動作。 短い(<50行)pcleanプログラムは、複数のデータクリーニングベンチマークでジェネリックppl推論よりも高速かつ正確であること、(同じランタイムで与えられたジェネリックppl推論とは異なり)最先端のデータクリーニングシステムに対する精度と実行時間で比較可能であること、そして数百万レコードの実際のデータセットにスケールできることを実証的に示します。

Data cleaning can be naturally framed as probabilistic inference in a generative model, combining a prior distribution over ground-truth databases with a likelihood that models the noisy channel by which the data are filtered and corrupted to yield incomplete, dirty, and denormalized datasets. Based on this view, we present PClean, a probabilistic programming language for leveraging dataset-specific knowledge to clean and normalize dirty data. PClean is powered by three modeling and inference contributions: (1) a non-parametric model of relational database instances, customizable via probabilistic programs, (2) a sequential Monte Carlo inference algorithm that exploits the model's structure, and (3) near-optimal SMC proposals and blocked Gibbs rejuvenation moves constructed on a per-dataset basis. We show empirically that short (< 50-line) PClean programs can be faster and more accurate than generic PPL inference on multiple data-cleaning benchmarks; perform comparably in terms of accuracy and runtime to state-of-the-art data-cleaning systems (unlike generic PPL inference given the same runtime); and scale to real-world datasets with millions of records.
翻訳日:2022-11-07 11:36:10 公開日:2020-10-27
# ブートストラップ型ニューラルプロセス

Bootstrapping Neural Processes ( http://arxiv.org/abs/2008.02956v2 )

ライセンス: Link先を確認
Juho Lee, Yoonho Lee, Jungtaek Kim, Eunho Yang, Sung Ju Hwang, Yee Whye Teh(参考訳) ユーザが事前に手作業で指定する従来の統計モデルとは異なり、ニューラル・プロセス(NP)は暗黙的にニューラルネットワークによる幅広い確率的プロセスを定義する。 データストリームが与えられたら、NPはデータを最もよく記述する確率過程を学ぶ。 この「データ駆動」な確率過程の学習方法は様々な種類のデータを扱うことが証明されているが、NPは確率過程の不確実性は単一の潜在変数によってモデル化され、柔軟性が制限されるという仮定に依存している。 そこで本研究では,ブートストラップを用いたNPファミリーの新規拡張であるBoostrapping Neural Process (BNP)を提案する。 ブートストラップは不確実性を推定するための古典的なデータ駆動手法であり、BNPは特定の形式を仮定することなくNPの確率性を学ぶことができる。 各種データに対するBNPの有効性とモデル-データミスマッチの有無によるロバスト性を示す。

Unlike in the traditional statistical modeling for which a user typically hand-specify a prior, Neural Processes (NPs) implicitly define a broad class of stochastic processes with neural networks. Given a data stream, NP learns a stochastic process that best describes the data. While this "data-driven" way of learning stochastic processes has proven to handle various types of data, NPs still rely on an assumption that uncertainty in stochastic processes is modeled by a single latent variable, which potentially limits the flexibility. To this end, we propose the Boostrapping Neural Process (BNP), a novel extension of the NP family using the bootstrap. The bootstrap is a classical data-driven technique for estimating uncertainty, which allows BNP to learn the stochasticity in NPs without assuming a particular form. We demonstrate the efficacy of BNP on various types of data and its robustness in the presence of model-data mismatch.
翻訳日:2022-11-02 00:35:10 公開日:2020-10-27
# DeepJetを用いたジェットフラワー分類

Jet Flavour Classification Using DeepJet ( http://arxiv.org/abs/2008.10519v2 )

ライセンス: Link先を確認
Emil Bols, Jan Kieseler, Mauro Verzetti, Markus Stoye, Anna Stakia(参考訳) ジェットフレーバーの分類は、現代の高エネルギー物理実験、特にLHCにおける幅広い応用において最も重要である。 本稿では,現代的深層学習技術を活用したタスクのための新しいアーキテクチャを提案する。 DeepJetと呼ばれるこの新しいモデルは、以前のアプローチに影響を及ぼした入力サイズの制限を克服する。 その結果,フレーバー分類性能が向上し,クォークグルーオンタグ付けを行うモデルが拡張された。

Jet flavour classification is of paramount importance for a broad range of applications in modern-day high-energy-physics experiments, particularly at the LHC. In this paper we propose a novel architecture for this task that exploits modern deep learning techniques. This new model, called DeepJet, overcomes the limitations in input size that affected previous approaches. As a result, the heavy flavour classification performance improves, and the model is extended to also perform quark-gluon tagging.
翻訳日:2022-10-25 12:35:48 公開日:2020-10-27
# 確率逆問題に対する生成的逆ネットワークにおけるaiと機械モデルの統合

Integration of AI and mechanistic modeling in generative adversarial networks for stochastic inverse problems ( http://arxiv.org/abs/2009.08267v2 )

ライセンス: Link先を確認
Jaimit Parikh, James Kozloski, and Viatcheslav Gurev(参考訳) 確率逆問題(SIP: Stochastic inverse problem)は、同じ種類の物体の集合の振る舞いに対処するが、細胞の集団のような様々な性質を持つ。 単一のパラメトリックファミリーからの機械的なモデル集団を用いて、sipは実世界の観測をモデルパラメータの潜在空間に移すことで、人口変動を説明する。 SIPにおける以前の研究は、マルコフ連鎖モンテカルロ法による単一集団のパラメータ推論問題の解決に重点を置いていた。 ここでは、複数の関連人口に対応するためにSIPを拡張している。 具体的には,モデルパラメータの2つの関連潜在空間を発見し,実験プロトコルにおける制御と治療の集団をシミュレートする。 ベイズ的アプローチではなく、モデルパラメータの分布を求める制約最適化問題として、2つの集団SIPを再構成する。 実験結果の分布とモデル出力の相違を最小限に抑えるために,制約最適化問題の構造を持つgans(generative adversarial network)に基づく新しいディープラーニングモデルを開発した。 GANの柔軟性により、計算にスケーラブルなソリューションを構築し、物理、生物物理学、経済学などの分野で日常的に現れる複雑なモデル入力パラメータ推論シナリオに取り組むことができ、既存の方法では扱えない。 具体的には,制御集団に対するパラメータ推定と,不確かさのあるモデルパラメータのサブセットのみに選択的に影響を及ぼすか,モデルパラメータに決定論的影響を与える治療集団の2つのシナリオを示す。

Stochastic inverse problems (SIP) address the behavior of a set of objects of the same kind but with variable properties, such as a population of cells. Using a population of mechanistic models from a single parametric family, SIP explains population variability by transferring real-world observations into the latent space of model parameters. Previous research in SIP focused on solving the parameter inference problem for a single population using Markov chain Monte Carlo methods. Here we extend SIP to address multiple related populations simultaneously. Specifically, we simulate control and treatment populations in experimental protocols by discovering two related latent spaces of model parameters. Instead of taking a Bayesian approach, our two-population SIP is reformulated as the constrained-optimization problem of finding distributions of model parameters. To minimize the divergence between distributions of experimental observations and model outputs, we developed novel deep learning models based on generative adversarial networks (GANs) which have the structure of our underlying constrained-optimization problem. The flexibility of GANs allowed us to build computationally scalable solutions and tackle complex model input parameter inference scenarios, which appear routinely in physics, biophysics, economics and other areas, and which can not be handled with existing methods. Specifically, we demonstrate two scenarios of parameter inference over a control population and a treatment population whose treatment either selectively affects only a subset of model parameters with some uncertainty or has a deterministic effect on all model parameters.
翻訳日:2022-10-17 08:34:27 公開日:2020-10-27
# ベトナムにおけるテキスト感情認識のためのベトナムのソーシャルメディア特性

Exploiting Vietnamese Social Media Characteristics for Textual Emotion Recognition in Vietnamese ( http://arxiv.org/abs/2009.11005v3 )

ライセンス: Link先を確認
Khang Phuoc-Quy Nguyen and Kiet Van Nguyen(参考訳) テキスト感情認識は近年,有望な研究課題となっている。 多くの研究者は、より正確で堅牢な感情検出システムの構築を目指している。 本稿では,テキスト感情認識において,データの事前処理が機械学習手法にどのように影響するかを示す実験を行う。 これらの実験は、ベンチマークデータセットとしてベトナムソーシャルメディア感情コーパス(UIT-VSMEC)で実施される。 ベトナムのソーシャルメディアの特徴を探求し,異なる前処理手法を提案するとともに,情緒的文脈によるキークローズ抽出を行い,UIT-VSMECにおける機械性能の向上を図る。 UIT-VSMEC (59.74%) の著者によるCNNモデルよりも4.66%向上し, ベトナムのソーシャルメディア特性に基づく適切な事前処理技術により, MLR(Multinomial Logistic Regression)が64.40%のF1スコアを達成した。

Textual emotion recognition has been a promising research topic in recent years. Many researchers aim to build more accurate and robust emotion detection systems. In this paper, we conduct several experiments to indicate how data pre-processing affects a machine learning method on textual emotion recognition. These experiments are performed on the Vietnamese Social Media Emotion Corpus (UIT-VSMEC) as the benchmark dataset. We explore Vietnamese social media characteristics to propose different pre-processing techniques, and key-clause extraction with emotional context to improve the machine performance on UIT-VSMEC. Our experimental evaluation shows that with appropriate pre-processing techniques based on Vietnamese social media characteristics, Multinomial Logistic Regression (MLR) achieves the best F1-score of 64.40%, a significant improvement of 4.66% over the CNN model built by the authors of UIT-VSMEC (59.74%).
翻訳日:2022-10-15 16:02:50 公開日:2020-10-27
# シーングラフは画像キャプションを改善するのに十分か?

Are scene graphs good enough to improve Image Captioning? ( http://arxiv.org/abs/2009.12313v2 )

ライセンス: Link先を確認
Victor Milewski and Marie-Francine Moens and Iacer Calixto(参考訳) 多くのトップパフォーマンス画像キャプションモデルは、画像記述を生成するためにオブジェクト検出モデルで計算されたオブジェクトの特徴のみに依存する。 しかし、近年の研究では、シーングラフを直接使用して、キャプションにオブジェクト関係に関する情報を導入することが提案されている。 本研究では,画像キャプションにおけるシーングラフの利用について詳しく検討する。 本研究では,追加のシーングラフエンコーダが画像記述の改善につながるかどうかを実証的に検討し,画像キャプションデコーダの状態を用いてグラフ更新を条件付ける条件付きグラフアテンションネットワーク(C-GAT)を提案する。 最後に、予測されたシーングラフの雑音がキャプション品質に与える影響を判定する。 全体としては、シーングラフ機能を使用するモデルと、異なるキャプションメトリクスにまたがるオブジェクト検出機能のみを使用するモデルの間に大きな差は見出されておらず、既存のシーングラフ生成モデルは、画像キャプションに有用であるには、まだノイズが多いことを示唆している。 さらに,予測されたシーングラフのクオリティは概ね低いが,高品質なシーングラフを使用する場合には,ボトムアップトップダウンベースラインと比較して最大3.3ciderのゲインが得られる。 私たちはすべての実験をhttps://github.com/iacercalixto/butd-image-captioningで再現するためにコードをオープンソースにしました。

Many top-performing image captioning models rely solely on object features computed with an object detection model to generate image descriptions. However, recent studies propose to directly use scene graphs to introduce information about object relations into captioning, hoping to better describe interactions between objects. In this work, we thoroughly investigate the use of scene graphs in image captioning. We empirically study whether using additional scene graph encoders can lead to better image descriptions and propose a conditional graph attention network (C-GAT), where the image captioning decoder state is used to condition the graph updates. Finally, we determine to what extent noise in the predicted scene graphs influence caption quality. Overall, we find no significant difference between models that use scene graph features and models that only use object detection features across different captioning metrics, which suggests that existing scene graph generation models are still too noisy to be useful in image captioning. Moreover, although the quality of predicted scene graphs is very low in general, when using high quality scene graphs we obtain gains of up to 3.3 CIDEr compared to a strong Bottom-Up Top-Down baseline. We open source code to reproduce all our experiments in https://github.com/iacercalixto/butd-image-captioning.
翻訳日:2022-10-14 22:12:12 公開日:2020-10-27
# 時系列データのための決定型条件付きGAN

Decision-Aware Conditional GANs for Time Series Data ( http://arxiv.org/abs/2009.12682v3 )

ライセンス: Link先を確認
He Sun, Zhun Deng, Hui Chen, David C. Parkes(参考訳) 本稿では、時系列生成の方法として、意思決定対応の時系列条件付き逆数生成ネットワーク(DAT-CGAN)を紹介する。 このフレームワークは、構造化決定関連量のマルチwasserstein損失を採用し、決定関連データの多様性を捉え、エンドユーザーの決定プロセスを支援する新しい効果を提供する。 重なり合うブロックサンプリング法により,サンプル効率を向上し,DAT-CGANの一般化特性を理論的に評価する。 このフレームワークは、複数ステップのポートフォリオ選択問題に対する金融時系列で実証される。 基礎となるデータや意思決定関連量に関して,強力なGANベースラインよりも優れた生成品質を示す。

We introduce the decision-aware time-series conditional generative adversarial network (DAT-CGAN) as a method for time-series generation. The framework adopts a multi-Wasserstein loss on structured decision-related quantities, capturing the heterogeneity of decision-related data and providing new effectiveness in supporting the decision processes of end users. We improve sample efficiency through an overlapped block-sampling method, and provide a theoretical characterization of the generalization properties of DAT-CGAN. The framework is demonstrated on financial time series for a multi-time-step portfolio choice problem. We demonstrate better generative quality in regard to underlying data and different decision-related quantities than strong, GAN-based baselines.
翻訳日:2022-10-14 08:26:34 公開日:2020-10-27
# 単語埋め込みにおける性バイアス評価のロバスト性と信頼性:ベースペアの役割

Robustness and Reliability of Gender Bias Assessment in Word Embeddings: The Role of Base Pairs ( http://arxiv.org/abs/2010.02847v2 )

ライセンス: Link先を確認
Haiyang Zhang, Alison Sneyd and Mark Stevenson(参考訳) 単語埋め込みはジェンダーバイアスを示すことが示されており、これを定量化する様々な方法が提案されている。 しかし、この手法がデータから受け継いだ社会的ステレオタイプを捉えている程度は議論されている。 バイアスは複雑な概念であり、それを定義するには複数の方法が存在する。 これまでの研究では、性別の単語ペアを利用してバイアスを計測し、バイアス付きアナロジーを抽出する。 それらに基づくバイアス測定は堅牢ではなく、現実のバイアスの一般的なタイプを特定することはできない一方で、それらを利用するアナログはバイアスの好ましくない指標である。 特に有名なアナロジー「man is to computer-programmer as woman is to homemaker」は社会バイアスではなく単語の類似性によるものである。 これは、埋め込みにおけるバイアスを測定する作業と、埋め込みを嫌悪する作業に重要な意味を持つ。

It has been shown that word embeddings can exhibit gender bias, and various methods have been proposed to quantify this. However, the extent to which the methods are capturing social stereotypes inherited from the data has been debated. Bias is a complex concept and there exist multiple ways to define it. Previous work has leveraged gender word pairs to measure bias and extract biased analogies. We show that the reliance on these gendered pairs has strong limitations: bias measures based off of them are not robust and cannot identify common types of real-world bias, whilst analogies utilising them are unsuitable indicators of bias. In particular, the well-known analogy "man is to computer-programmer as woman is to homemaker" is due to word similarity rather than societal bias. This has important implications for work on measuring bias in embeddings and related work debiasing embeddings.
翻訳日:2022-10-10 05:01:54 公開日:2020-10-27
# クエーサー凸最適化のための一階法の収束について

On The Convergence of First Order Methods for Quasar-Convex Optimization ( http://arxiv.org/abs/2010.04937v3 )

ライセンス: Link先を確認
Jikai Jin(参考訳) 近年、ディープラーニングの成功は、一般的な滑らかな非凸関数の最適化を研究する多くの研究者に影響を与えている。 しかし、最近の研究は、このクラス関数に対する悲観的な最悪のケースの複雑さを確立しており、これは現実世界のアプリケーション(例えばディープニューラルネットワークのトレーニング)における優れた性能とは対照的である。 一方, 一般の非凸最適化問題の多くは, 凸性に類似した構造的特性を享受している。 本稿では,理論と実践のギャップを埋めるために, \textit{quasar-convex function} のクラスを研究する。 本研究では,様々な設定と最適性基準の異なる一階法の収束について検討する。 凸関数に対して確立された標準結果と類似した複雑性上界を証明し、非凸関数の最先端収束率をより良くする。 本報告では, より効率的な最適化手順が可能であることを示唆し, 実際に同様の特性を示す問題をより多く見ていくことを楽しみにしている。

In recent years, the success of deep learning has inspired many researchers to study the optimization of general smooth non-convex functions. However, recent works have established pessimistic worst-case complexities for this class functions, which is in stark contrast with their superior performance in real-world applications (e.g. training deep neural networks). On the other hand, it is found that many popular non-convex optimization problems enjoy certain structured properties which bear some similarities to convexity. In this paper, we study the class of \textit{quasar-convex functions} to close the gap between theory and practice. We study the convergence of first order methods in a variety of different settings and under different optimality criterions. We prove complexity upper bounds that are similar to standard results established for convex functions and much better that state-of-the-art convergence rates of non-convex functions. Overall, this paper suggests that \textit{quasar-convexity} allows efficient optimization procedures, and we are looking forward to seeing more problems that demonstrate similar properties in practice.
翻訳日:2022-10-08 22:53:41 公開日:2020-10-27
# コントラスト表現学習:フレームワークとレビュー

Contrastive Representation Learning: A Framework and Review ( http://arxiv.org/abs/2010.05113v2 )

ライセンス: Link先を確認
Phuc H. Le-Khac, Graham Healy, Alan F. Smeaton(参考訳) コントラスト学習は、コンピュータビジョン領域における自己教師型表現学習の成功により、最近関心を集めている。 しかし、対照的な学習の起源は1990年代まで遡り、その発展はメートル法学習や自然言語処理を含む多くの分野や領域に及んでいる。 本稿では,総合的な文献レビューを行い,多くの異なるコントラスト学習方法を単純化し統一する,汎用的なコントラスト表現学習フレームワークを提案する。 また,コントラスト学習の各構成要素に対して,それを要約し,他の機械学習と区別するための分類法も提供する。 次に, コントラスト学習システムに存在する帰納的バイアスについて考察し, 機械学習の様々なサブフィールドから異なる視点でフレームワークを解析する。 コンピュータビジョンや自然言語処理,音声処理など,強化学習においても,コントラスト学習が適用された例も紹介されている。 最後に,今後の課題と有望な今後の研究の方向性について論じる。

Contrastive Learning has recently received interest due to its success in self-supervised representation learning in the computer vision domain. However, the origins of Contrastive Learning date as far back as the 1990s and its development has spanned across many fields and domains including Metric Learning and natural language processing. In this paper we provide a comprehensive literature review and we propose a general Contrastive Representation Learning framework that simplifies and unifies many different contrastive learning methods. We also provide a taxonomy for each of the components of contrastive learning in order to summarise it and distinguish it from other forms of machine learning. We then discuss the inductive biases which are present in any contrastive learning system and we analyse our framework under different views from various sub-fields of Machine Learning. Examples of how contrastive learning has been applied in computer vision, natural language processing, audio processing, and others, as well as in Reinforcement Learning are also presented. Finally, we discuss the challenges and some of the most promising future research directions ahead.
翻訳日:2022-10-08 22:45:43 公開日:2020-10-27
# 事前学習型スタイルGAN2ネットワークによる教師なし画像変換

Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2 Network ( http://arxiv.org/abs/2010.05713v2 )

ライセンス: Link先を確認
Jialu Huang, Jing Liao, Sam Kwong(参考訳) 画像から画像への変換(i2i)はアカデミアではホットな話題であり、画像合成、超高解像度、カラー化といった実業界にも応用されている。 しかし、従来のi2i翻訳法は2つ以上のドメインでデータを訓練する。 これは多くの計算資源を必要とする。 さらに、結果は品質が低く、さらに多くのアーティファクトが含まれています。 異なるドメイン内のデータがバランスが取れない場合、トレーニングプロセスは不安定になり、モダル崩壊がより起こりやすい。 我々は、ソースドメインの事前学習されたStyleGAN2モデル上で、一連のモデル変換を通じてターゲットドメインの新しいモデルを生成する新しいI2I翻訳手法を提案する。 その後,画像とその潜在ベクトル間の変換を実現するための逆変換法を提案する。 潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。 画像の質,多様性,意味的類似性の両面において,提案手法が優れた性能を発揮することを実証するために,定性的および定量的な評価を行った。

Image-to-Image (I2I) translation is a heated topic in academia, and it also has been applied in real-world industry for tasks like image synthesis, super-resolution, and colorization. However, traditional I2I translation methods train data in two or more domains together. This requires lots of computation resources. Moreover, the results are of lower quality, and they contain many more artifacts. The training process could be unstable when the data in different domains are not balanced, and modal collapse is more likely to happen. We proposed a new I2I translation method that generates a new model in the target domain via a series of model transformations on a pre-trained StyleGAN2 model in the source domain. After that, we proposed an inversion method to achieve the conversion between an image and its latent vector. By feeding the latent vector into the generated model, we can perform I2I translation between the source domain and target domain. Both qualitative and quantitative evaluations were conducted to prove that the proposed method can achieve outstanding performance in terms of image quality, diversity and semantic similarity to the input and reference images compared to state-of-the-art works.
翻訳日:2022-10-08 07:26:28 公開日:2020-10-27
# K平均クラスタリングの効率性について:評価,最適化,アルゴリズムの選択

On the Efficiency of K-Means Clustering: Evaluation, Optimization, and Algorithm Selection ( http://arxiv.org/abs/2010.06654v2 )

ライセンス: Link先を確認
Sheng Wang, Yuan Sun, Zhifeng Bao(参考訳) 本稿では,lloydの高速k-meansクラスタリングアルゴリズムを高速化する既存手法の徹底的な評価を行う。 そこで本研究では,既存手法の刈り取り機構を分析し,その共通パイプラインを統一評価フレームワークunikにまとめる。 UniKは、よく知られたメソッドのクラスを採用し、きめ細かいパフォーマンスの分解を可能にする。 UniK内では、複数のデータセット上で複数のパフォーマンス指標を用いて、既存のメソッドの長所と短所を徹底的に評価する。 さらに、より積極的な刈り出しのために複数の既存手法を効果的にハイブリダイズするUniK上の最適化アルゴリズムを導出する。 さらに,機械学習によってクラスタリングタスクの最も効率的な方法が自動的に選択可能かどうかを調査し,実践者や研究者に利益をもたらす。

This paper presents a thorough evaluation of the existing methods that accelerate Lloyd's algorithm for fast k-means clustering. To do so, we analyze the pruning mechanisms of existing methods, and summarize their common pipeline into a unified evaluation framework UniK. UniK embraces a class of well-known methods and enables a fine-grained performance breakdown. Within UniK, we thoroughly evaluate the pros and cons of existing methods using multiple performance metrics on a number of datasets. Furthermore, we derive an optimized algorithm over UniK, which effectively hybridizes multiple existing methods for more aggressive pruning. To take this further, we investigate whether the most efficient method for a given clustering task can be automatically selected by machine learning, to benefit practitioners and researchers.
翻訳日:2022-10-08 00:48:50 公開日:2020-10-27
# 機械読解における人間の視覚注意による注意モデル解釈

Interpreting Attention Models with Human Visual Attention in Machine Reading Comprehension ( http://arxiv.org/abs/2010.06396v2 )

ライセンス: Link先を確認
Ekta Sood, Simon Tannert, Diego Frassinelli, Andreas Bulling and Ngoc Thang Vu(参考訳) 注意機構を持つニューラルネットワークは多くの自然言語処理タスクにおいて優れた性能を達成しているが、学習された注意が人間の視覚的注意にどの程度似ているかは定かではない。 本稿では,視線追跡データを用いて,機械読解における人間の視覚注意と神経注意の関係を調べる新しい手法を提案する。 そこで本研究では,23人の被験者による視線追跡データセット MQA-RC を導入し,映像のプロットを読み,事前に定義された質問に回答する。 我々は,long short-term memory (lstm), convolutional neural models (cnn), xlnet transformersに基づくアートネットワークの状態を比較検討した。 人間の注意と性能との類似性がLSTMモデルとCNNモデルと大きく相関していることが判明した。 しかしながら、この関係はXLNetモデルには当てはまりません。 我々の結果は、異なるアーキテクチャは、かなり異なる神経注意戦略を学習し、神経と人間の注意の類似性は、最高のパフォーマンスを保証していないことを示唆している。

While neural networks with attention mechanisms have achieved superior performance on many natural language processing tasks, it remains unclear to which extent learned attention resembles human visual attention. In this paper, we propose a new method that leverages eye-tracking data to investigate the relationship between human visual attention and neural attention in machine reading comprehension. To this end, we introduce a novel 23 participant eye tracking dataset - MQA-RC, in which participants read movie plots and answered pre-defined questions. We compare state of the art networks based on long short-term memory (LSTM), convolutional neural models (CNN) and XLNet Transformer architectures. We find that higher similarity to human attention and performance significantly correlates to the LSTM and CNN models. However, we show this relationship does not hold true for the XLNet models -- despite the fact that the XLNet performs best on this challenging task. Our results suggest that different architectures seem to learn rather different neural attention strategies and similarity of neural to human attention does not guarantee best performance.
翻訳日:2022-10-07 23:38:34 公開日:2020-10-27
# X-FACTR:事前学習言語モデルからの多言語Factual Knowledge検索

X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained Language Models ( http://arxiv.org/abs/2010.06189v3 )

ライセンス: Link先を確認
Zhengbao Jiang, Antonios Anastasopoulos, Jun Araki, Haibo Ding, Graham Neubig(参考訳) 言語モデル(LM)は,「Punta Cana is located _」のような,クローゼスタイルの補間質問を完了させることで,事実知識の獲得に驚くほど成功した。 しかし、知識は多くの言語で書かれ、問合せされているが、lmsの事実表現能力の研究はほとんど英語で行われていない。 異なる言語におけるLMの事実知識検索を評価するため,23言語に類型的に多様性のあるクローゼスタイルプローブの多言語ベンチマークを作成する。 言語変形を適切に処理するために,単語から多語へ探索法を拡張し,複数の復号アルゴリズムを開発し,マルチトケン予測を生成する。 広範な実験結果は、利用可能なリソースが多かれ少なかれ少ない言語で、このタスクで現在の最先端のlmsがいかにうまく機能するか(あるいは貧弱であるか)についての洞察を提供する。 さらに,多言語LMの知識アクセス能力を向上させるためのコードスイッチング方式を提案し,その性能を複数のベンチマーク言語で検証する。 ベンチマークデータとコードはhttps://x-factr.github.ioでリリースされた。

Language models (LMs) have proven surprisingly successful at capturing factual knowledge by completing cloze-style fill-in-the-blank questions such as "Punta Cana is located in _." However, while knowledge is both written and queried in many languages, studies on LMs' factual representation ability have almost invariably been performed on English. To assess factual knowledge retrieval in LMs in different languages, we create a multilingual benchmark of cloze-style probes for 23 typologically diverse languages. To properly handle language variations, we expand probing methods from single- to multi-word entities, and develop several decoding algorithms to generate multi-token predictions. Extensive experimental results provide insights about how well (or poorly) current state-of-the-art LMs perform at this task in languages with more or fewer available resources. We further propose a code-switching-based method to improve the ability of multilingual LMs to access knowledge, and verify its effectiveness on several benchmark languages. Benchmark data and code have been released at https://x-factr.github.io.
翻訳日:2022-10-07 23:29:06 公開日:2020-10-27
# 視線誘導型ニューラルアテンションによる自然言語処理タスクの改善

Improving Natural Language Processing Tasks with Human Gaze-Guided Neural Attention ( http://arxiv.org/abs/2010.07891v2 )

ライセンス: Link先を確認
Ekta Sood, Simon Tannert, Philipp Mueller, Andreas Bulling(参考訳) コーパスの欠如は、自然言語処理(NLP)の神経的注意機構において、人間の視線データを監視信号として統合する進歩に限界がある。 そこで本研究では,1つの機械学習フレームワークにおいて,読解の認知モデルと明示的な人間の視線監督を組み合わせた新しいハイブリッドテキストサリエンシーモデル(tsm)を提案する。 4つの異なるコーパスにおいて、我々のハイブリッドTSM持続時間予測は、ヒトの視線基底真理と非常に相関していることを示す。 さらに,タスク固有の人間の視線データを必要としない上流nlpタスク用に設計されたネットワークの注意層にtsm予測を統合するための新しい共同モデリング手法を提案する。 提案手法は,google文圧縮コーパスにおいて,クオーラ質問対コーパス上での文圧縮性能を10%以上向上させることで,パラフレーゼ生成時の文圧縮性能を上回ることを実証する。 そこで本研究では,データ駆動型と認知モデル間のブリッジングの実践的アプローチを導入し,人間の視線誘導型ニューラルアテンションをNLPタスクに統合する方法を実証した。

A lack of corpora has so far limited advances in integrating human gaze data as a supervisory signal in neural attention mechanisms for natural language processing(NLP). We propose a novel hybrid text saliency model(TSM) that, for the first time, combines a cognitive model of reading with explicit human gaze supervision in a single machine learning framework. On four different corpora we demonstrate that our hybrid TSM duration predictions are highly correlated with human gaze ground truth. We further propose a novel joint modeling approach to integrate TSM predictions into the attention layer of a network designed for a specific upstream NLP task without the need for any task-specific human gaze data. We demonstrate that our joint model outperforms the state of the art in paraphrase generation on the Quora Question Pairs corpus by more than 10% in BLEU-4 and achieves state of the art performance for sentence compression on the challenging Google Sentence Compression corpus. As such, our work introduces a practical approach for bridging between data-driven and cognitive models and demonstrates a new way to integrate human gaze-guided neural attention into NLP tasks.
翻訳日:2022-10-07 02:57:44 公開日:2020-10-27
# 学習言語における構文誤差の分類

Classifying Syntactic Errors in Learner Language ( http://arxiv.org/abs/2010.11032v2 )

ライセンス: Link先を確認
Leshem Choshen, Dmitry Nikolaev, Yevgeni Berzak, Omri Abend(参考訳) 本稿では,文の形態的構造が変化した誤りを学習者の言語で分類する手法を提案する。 この手法は確立されたUniversal Dependencies構文表現スキームに基づいて構築され、他のエラー分類システムに補完情報を提供する。 既存の誤り分類法とは異なり,学習者英語と学習者ロシア語の構文的誤りの詳細な図を作成することにより,言語横断に適用できる。 さらに,主要な文法誤り訂正(GEC)システムの出力を解析するための方法論の有用性を示す。

We present a method for classifying syntactic errors in learner language, namely errors whose correction alters the morphosyntactic structure of a sentence. The methodology builds on the established Universal Dependencies syntactic representation scheme, and provides complementary information to other error-classification systems. Unlike existing error classification methods, our method is applicable across languages, which we showcase by producing a detailed picture of syntactic errors in learner English and learner Russian. We further demonstrate the utility of the methodology for analyzing the outputs of leading Grammatical Error Correction (GEC) systems.
翻訳日:2022-10-04 23:59:57 公開日:2020-10-27
# クロスドメイン形状類似学習のためのテクスチャ合成によるハードケース生成

Hard Example Generation by Texture Synthesis for Cross-domain Shape Similarity Learning ( http://arxiv.org/abs/2010.12238v2 )

ライセンス: Link先を確認
Huan Fu, Shunming Li, Rongfei Jia, Mingming Gong, Binqiang Zhao, and Dacheng Tao(参考訳) 画像ベース3d形状検索(ibsr)は、大きな3d形状データベースから、与えられた2d画像の対応する3d形状を見つけることを目的としている。 一般的なルーチンは、2D画像と3D形状を埋め込み空間にマッピングし、形状類似度尺度を定義する(あるいは学習する)ことである。 いくつかの適応技法によるメトリック学習は、形状類似性学習の自然な解であるように思われるが、細粒度形状検索では、しばしば性能が不十分である。 本稿では,性能不良の原因を特定し,この問題に対する実用的な解決法を提案する。 その結果, 負対間の形状差はテクスチャギャップに絡み合っており, 負対の押し出しにおいて計量学習が効果的でないことがわかった。 この問題に取り組むために,テクスチャ合成を応用した幾何指向多視点メトリック学習フレームワークを開発した。 3次元形状モデルのためのテクスチャの合成は硬い三重項を生成し、2次元画像におけるリッチテクスチャの悪影響を抑制することにより、ネットワークを幾何学的特徴の発見に集中させる。 提案手法は,最近リリースされた大規模3D-FUTURE[1]レポジトリと,Pix3D[2],Stanford Cars[3],Comp Cars[4]など,広く研究されている3つのベンチマークに対して,最先端のパフォーマンスを示す。 コードは、https://github.com/3D-FRONT-FUTURE/IBSR-textureで公開される。

Image-based 3D shape retrieval (IBSR) aims to find the corresponding 3D shape of a given 2D image from a large 3D shape database. The common routine is to map 2D images and 3D shapes into an embedding space and define (or learn) a shape similarity measure. While metric learning with some adaptation techniques seems to be a natural solution to shape similarity learning, the performance is often unsatisfactory for fine-grained shape retrieval. In the paper, we identify the source of the poor performance and propose a practical solution to this problem. We find that the shape difference between a negative pair is entangled with the texture gap, making metric learning ineffective in pushing away negative pairs. To tackle this issue, we develop a geometry-focused multi-view metric learning framework empowered by texture synthesis. The synthesis of textures for 3D shape models creates hard triplets, which suppress the adverse effects of rich texture in 2D images, thereby push the network to focus more on discovering geometric characteristics. Our approach shows state-of-the-art performance on a recently released large-scale 3D-FUTURE[1] repository, as well as three widely studied benchmarks, including Pix3D[2], Stanford Cars[3], and Comp Cars[4]. Codes will be made publicly available at: https://github.com/3D-FRONT-FUTURE/IBSR-texture
翻訳日:2022-10-03 23:09:50 公開日:2020-10-27
# Deep Metric Learningを超えて:敵対的差別的ドメイン規則化によるクロスモーダルマッチングを促進する

Beyond the Deep Metric Learning: Enhance the Cross-Modal Matching with Adversarial Discriminative Domain Regularization ( http://arxiv.org/abs/2010.12126v2 )

ライセンス: Link先を確認
Li Ren, Kai Li, LiQiang Wang, Kien Hua(参考訳) 画像とテキストのモダリティをまたいだ情報のマッチングは、視覚と自然言語処理の両方を含む多くのアプリケーションにとって基本的な課題である。 その目的は、視覚的情報とテキスト情報の類似度を比較するための効率的な類似度指標を見つけることである。 既存のアプローチは主に、共有空間内の局所的な視覚オブジェクトと文語を注意機構で一致させる。 類似性計算は、一致する特徴の単純な比較に基づいており、データの分布の特徴を無視しているため、マッチング性能はまだ限られている。 本稿では,この制限を視覚オブジェクトと文語間の識別的特徴分布を考慮した効率的な学習目標を用いて解決する。 具体的には,各画像テキストペア内の識別データドメインのセットを構築するために,パラダイムメトリック学習目標を超えて,新しいadversarial discriminative domain regularization (addr) 学習フレームワークを提案する。 このアプローチは,マッチングペア間の隠れ空間の分布を規制することにより,既存のメトリクス学習フレームワークの学習効率とパフォーマンスを一般的に向上させることができる。 実験の結果、この新しい手法はMS-COCOとFlickr30Kベンチマークにおいて、いくつかの一般的なクロスモーダルマッチング技術(SCAN、VSRN、BFAN)の全体的な性能を著しく向上させることが示された。

Matching information across image and text modalities is a fundamental challenge for many applications that involve both vision and natural language processing. The objective is to find efficient similarity metrics to compare the similarity between visual and textual information. Existing approaches mainly match the local visual objects and the sentence words in a shared space with attention mechanisms. The matching performance is still limited because the similarity computation is based on simple comparisons of the matching features, ignoring the characteristics of their distribution in the data. In this paper, we address this limitation with an efficient learning objective that considers the discriminative feature distributions between the visual objects and sentence words. Specifically, we propose a novel Adversarial Discriminative Domain Regularization (ADDR) learning framework, beyond the paradigm metric learning objective, to construct a set of discriminative data domains within each image-text pairs. Our approach can generally improve the learning efficiency and the performance of existing metrics learning frameworks by regulating the distribution of the hidden space between the matching pairs. The experimental results show that this new approach significantly improves the overall performance of several popular cross-modal matching techniques (SCAN, VSRN, BFAN) on the MS-COCO and Flickr30K benchmarks.
翻訳日:2022-10-03 23:00:31 公開日:2020-10-27
# ExPAN(N)D:FPGAシステムにおける効率的なニューラルネットワーク設計の可能性を探る

ExPAN(N)D: Exploring Posits for Efficient Artificial Neural Network Design in FPGA-based Systems ( http://arxiv.org/abs/2010.12869v2 )

ライセンス: Link先を確認
Suresh Nambi, Salim Ullah, Aditya Lohana, Siva Satyendra Sahoo, Farhad Merchant, Akash Kumar(参考訳) 最近の機械学習の進歩、特に人工知能ニューラルネットワーク(ANN)は、多くのアプリケーション分野において、スマート組み込みシステムを魅力的な選択肢にしている。 しかし、機械学習モデルの計算複雑性、メモリフットプリント、エネルギー要求は、リソース制約のある組み込みシステムへのデプロイを妨げる。 多くの最先端の研究は、様々な低ビット幅データ表現スキーム、最適化された演算子の実装、ネットワークプルーニングのような様々な複雑性低減技術を提案することでこの問題を考察している。 これらのテクニックによって提供される実装のメリットをさらに高めるためには、相互検査とこれらのテクニックのユニークな特徴を組み合わせる必要がある。 本稿では,ANNにおけるPosit数表現方式の有効性と不動点演算の実装効率を解析・獲得するフレームワークであるExPAN(N)Dを提案する。 PositスキームはIEEE 754$の単一精度浮動小数点数フォーマットよりも、より優れたダイナミックレンジと様々なアプリケーションに対して高い精度を提供する。 しかし、Positスキームの様々な分野の動的性質のため、対応する演算回路は単精度の演算ユニットよりも臨界経路遅延とリソース要求が高い。 そこで本研究では,出力精度を最小限に抑えつつ,高性能かつ省エネなハードウェア実装を実現するための,新しいPassit to fixed-point converterを提案する。 また,ネットワークのトレーニングパラメータを格納するために,修正されたポジットベース表現を提案する。 8 ビットの固定ポイントベースの推論アクセラレータと比較すると,提案手法では,mac ユニットのパラメータのストレージ要件とエネルギー消費量がそれぞれ $\approx46\%$ と $\approx18\%$ である。

The recent advances in machine learning, in general, and Artificial Neural Networks (ANN), in particular, has made smart embedded systems an attractive option for a larger number of application areas. However, the high computational complexity, memory footprints, and energy requirements of machine learning models hinder their deployment on resource-constrained embedded systems. Most state-of-the-art works have considered this problem by proposing various low bit-width data representation schemes, optimized arithmetic operators' implementations, and different complexity reduction techniques such as network pruning. To further elevate the implementation gains offered by these individual techniques, there is a need to cross-examine and combine these techniques' unique features. This paper presents ExPAN(N)D, a framework to analyze and ingather the efficacy of the Posit number representation scheme and the efficiency of fixed-point arithmetic implementations for ANNs. The Posit scheme offers a better dynamic range and higher precision for various applications than IEEE $754$ single-precision floating-point format. However, due to the dynamic nature of the various fields of the Posit scheme, the corresponding arithmetic circuits have higher critical path delay and resource requirements than the single-precision-based arithmetic units. Towards this end, we propose a novel Posit to fixed-point converter for enabling high-performance and energy-efficient hardware implementations for ANNs with minimal drop in the output accuracy. We also propose a modified Posit-based representation to store the trained parameters of a network. Compared to an $8$-bit fixed-point-based inference accelerator, our proposed implementation offers $\approx46\%$ and $\approx18\%$ reductions in the storage requirements of the parameters and energy consumption of the MAC units, respectively.
翻訳日:2022-10-03 13:28:06 公開日:2020-10-27
# 事前学習された単語の埋め込みを改善する自動エンコーディング

Autoencoding Improves Pre-trained Word Embeddings ( http://arxiv.org/abs/2010.13094v2 )

ライセンス: Link先を確認
Masahiro Kaneko and Danushka Bollegala(参考訳) 事前学習された単語埋め込みの幾何学に関する先行研究は、単語埋め込みを狭い円錐に分散させ、主成分ベクトルを用いて中心的かつ投影することで、所定の事前学習された単語埋め込みの精度を高めることができることを示した。 しかし、理論的には、この後処理ステップは平方l2再構成誤差を最小限に抑える線形オートエンコーダと等価である。 この結果は、事前訓練された埋め込みから主要なコンポーネントを取り除くことを提案した以前の作業(Mu と Viswanath, 2018)と矛盾する。 理論的な主張を実験的に検証し,言語資源やラベル付きデータへのアクセスを必要とせず,事前学習した単語の埋め込みを改善する上で,主成分の保持が本当に有用であることを示す。

Prior work investigating the geometry of pre-trained word embeddings have shown that word embeddings to be distributed in a narrow cone and by centering and projecting using principal component vectors one can increase the accuracy of a given set of pre-trained word embeddings. However, theoretically, this post-processing step is equivalent to applying a linear autoencoder to minimise the squared l2 reconstruction error. This result contradicts prior work (Mu and Viswanath, 2018) that proposed to remove the top principal components from pre-trained embeddings. We experimentally verify our theoretical claims and show that retaining the top principal components is indeed useful for improving pre-trained word embeddings, without requiring access to additional linguistic resources or labelled data.
翻訳日:2022-10-03 04:39:47 公開日:2020-10-27
# UPB at SemEval-2020 Task 12: Multilingual Offensive Language Detection on Social Media by Fine-tuning a Variety of BERT-based Models

UPB at SemEval-2020 Task 12: Multilingual Offensive Language Detection on Social Media by Fine-tuning a Variety of BERT-based Models ( http://arxiv.org/abs/2010.13609v2 )

ライセンス: Link先を確認
Mircea-Adrian Tanase, Dumitru-Clementin Cercel and Costin-Gabriel Chiru(参考訳) 攻撃的言語検出は、自然言語処理分野において最も困難な問題の一つであり、オンラインソーシャルメディアにおけるこの現象の出現によって課される。 本稿では,twitter上の攻撃的言語を,offenseval 2020共有タスクのサブタスクaで使用された5つの言語(英語,アラビア語,デンマーク語,ギリシャ語,トルコ語)で識別するためのトランスフォーマティブベースのソリューションについて述べる。 いくつかのニューラルアーキテクチャ(BERT、mBERT、Roberta、XLM-Roberta、ALBERT)は、単一言語と多言語コーパスの両方を用いて事前訓練され、複数のデータセットの組み合わせで比較された。 最後に、最も高いスコア付けのモデルが大会の応募に使われ、チーム21位85位、53位28位、39位39位、37位16位、46位46位、アラビア語、デンマーク語、ギリシャ語、トルコ語でそれぞれランク付けしました。

Offensive language detection is one of the most challenging problem in the natural language processing field, being imposed by the rising presence of this phenomenon in online social media. This paper describes our Transformer-based solutions for identifying offensive language on Twitter in five languages (i.e., English, Arabic, Danish, Greek, and Turkish), which was employed in Subtask A of the Offenseval 2020 shared task. Several neural architectures (i.e., BERT, mBERT, Roberta, XLM-Roberta, and ALBERT), pre-trained using both single-language and multilingual corpora, were fine-tuned and compared using multiple combinations of datasets. Finally, the highest-scoring models were used for our submissions in the competition, which ranked our team 21st of 85, 28th of 53, 19th of 39, 16th of 37, and 10th of 46 for English, Arabic, Danish, Greek, and Turkish, respectively.
翻訳日:2022-10-02 17:54:08 公開日:2020-10-27
# 音声信号の深部生成因子化

Deep generative factorization for speech signal ( http://arxiv.org/abs/2010.14242v1 )

ライセンス: Link先を確認
Haoran Sun, Lantian Li, Yunqi Cai, Yang Zhang, Thomas Fang Zheng, Dong Wang(参考訳) 様々な情報要素が音声信号に混合され、ほとんどの音声情報処理タスクにおいて主要な難易度となる。 直感的なアイデアは、音声信号を個々の情報要素(例えば、音声内容と話者特性)に分解することであるが、非常に難しいことが判明した。 本稿では,新しい因子識別正規化フローモデル (factorial DNF) に基づく音声分解手法を提案する。 音声コンテンツと話者特性を含む2要素ケースで行った実験は、提案した因子的DNFが、音声信号を分解し、情報表現と操作の観点から比較モデルより優れていることを示す。

Various information factors are blended in speech signals, which forms the primary difficulty for most speech information processing tasks. An intuitive idea is to factorize speech signal into individual information factors (e.g., phonetic content and speaker trait), though it turns out to be highly challenging. This paper presents a speech factorization approach based on a novel factorial discriminative normalization flow model (factorial DNF). Experiments conducted on a two-factor case that involves phonetic content and speaker trait demonstrates that the proposed factorial DNF has powerful capability to factorize speech signals and outperforms several comparative models in terms of information representation and manipulation.
翻訳日:2022-10-02 13:27:53 公開日:2020-10-27
# クロスドメインラベルのスクイーズ値:話者検証のための分離スコアリング手法

Squeezing value of cross-domain labels: a decoupled scoring approach for speaker verification ( http://arxiv.org/abs/2010.14243v1 )

ライセンス: Link先を確認
Lantian Li, Yang Zhang, Jiawen Kang, Thomas Fang Zheng, Dong Wang(参考訳) ドメインミスマッチは、しばしば実際のアプリケーションで起こり、話者検証システムで深刻なパフォーマンス低下を引き起こす。 共通の知恵は、ドメインに依存しない話者サブスペースを学ぶために、クロスドメインデータを収集し、マルチドメインPLDAモデルをトレーニングすることである。 本稿では,まず,クロスドメインデータを追加するだけでは,入試ミスマッチのある条件下での性能が向上しないことを示す。 注意深い分析は、この顕著な結果は、入学条件と試験条件の間の不整合統計によって引き起こされることを示している。 この分析に基づいて,クロスドメインラベルの値を最大に絞り込み,登録とテストのミスマッチ時に最適な検証スコアを得ることのできる分離スコアリング手法を提案する。 統計がコヒーレントであれば、新しい定式化は従来のpldaに遡る。 クロスチャネルテストによる実験の結果,提案手法は非常に効果的であり,ドメインミスマッチの原理的解決法であることがわかった。

Domain mismatch often occurs in real applications and causes serious performance reduction on speaker verification systems. The common wisdom is to collect cross-domain data and train a multi-domain PLDA model, with the hope to learn a domain-independent speaker subspace. In this paper, we firstly present an empirical study to show that simply adding cross-domain data does not help performance in conditions with enrollment-test mismatch. Careful analysis shows that this striking result is caused by the incoherent statistics between the enrollment and test conditions. Based on this analysis, we present a decoupled scoring approach that can maximally squeeze the value of cross-domain labels and obtain optimal verification scores when the enrollment and test are mismatched. When the statistics are coherent, the new formulation falls back to the conventional PLDA. Experimental results on cross-channel test show that the proposed approach is highly effective and is a principle solution to domain mismatch.
翻訳日:2022-10-02 13:27:42 公開日:2020-10-27
# それはすべて(サブ)タイトルにありますか? クラウドファンディング研究における信号評価の拡大

It's all in the (Sub-)title? Expanding Signal Evaluation in Crowdfunding Research ( http://arxiv.org/abs/2010.14389v1 )

ライセンス: Link先を確認
Constantin von Selasinsky and Andrew Jay Isaak(参考訳) CATA(Computer Aided Text Analysis)を組み込んだクラウドファンディングの成功の研究は、すぐに大きなリーグ(例えば、ParhankangasとRenko、2017年、Anglin et al.、2018年、Moss et al.、2018年)へと進み、理論上は情報非対称性、社会資本、シグナリング、またはそれらの組み合わせに基づいている。 しかし、クラウドファンディングの成功基準を探求する現在の論文は、利用可能な信号の幅を最大限に活用できず、技術プロジェクトを調べる論文はごくわずかである。 本稿では,このカテゴリのプロジェクト支援者に対して,起業家のテキスト成功信号の強みを比較し,対比する。 Kickstarterから集められた1,049のテクノロジープロジェクトのランダムなサンプルに基づいて、プロジェクトタイトルや説明だけでなく、ビデオ字幕からもテキスト情報を評価する。 サブタイトル情報の導入により,各モデルで説明される分散が増大し,その結果,資金提供の予測能力が向上することがわかった。 情報の世界を広げることにより、われわれの仕事はこの分野を前進させ、クラウドファンディングの成功シグナルをより詳細に研究し、それゆえ、クラウドファンディングにおける投資家の意思決定の理解を深める道を開く。

Research on crowdfunding success that incorporates CATA (computer-aided text analysis) is quickly advancing to the big leagues (e.g., Parhankangas and Renko, 2017; Anglin et al., 2018; Moss et al., 2018) and is often theoretically based on information asymmetry, social capital, signaling or a combination thereof. Yet, current papers that explore crowdfunding success criteria fail to take advantage of the full breadth of signals available and only very few such papers examine technology projects. In this paper, we compare and contrast the strength of the entrepreneur's textual success signals to project backers within this category. Based on a random sample of 1,049 technology projects collected from Kickstarter, we evaluate textual information not only from project titles and descriptions but also from video subtitles. We find that incorporating subtitle information increases the variance explained by the respective models and therefore their predictive capability for funding success. By expanding the information landscape, our work advances the field and paves the way for more fine-grained studies of success signals in crowdfunding and therefore for an improved understanding of investor decision-making in the crowd.
翻訳日:2022-10-02 13:26:50 公開日:2020-10-27
# ハイブリッド電気自動車における強化学習に基づく監視制御のためのウォームスタート法による学習時間短縮

Learning Time Reduction Using Warm Start Methods for a Reinforcement Learning Based Supervisory Control in Hybrid Electric Vehicle Applications ( http://arxiv.org/abs/2010.14575v1 )

ライセンス: Link先を確認
Bin Xu, Jun Hou, Junzhe Shi, Huayi Li, Dhruvang Rathod, Zhe Wang, Zoran Filipi(参考訳) 強化学習(Reinforcement Learning, RL)はロボット工学の分野で広く利用されており, ハイブリッド電気自動車(HEV)の監視制御において徐々に実施されている。 rlは、シミュレーションにおける燃料消費量の最小化の観点からは優れた性能を示すが、大きな学習イテレーション数には長い学習時間が必要であり、実車では適用できない。 また, 初期学習段階の燃料消費は, ベースライン制御よりもはるかに悪い。 本研究は, hev応用におけるq-learningの学習イテレーションを削減し, ウォームスタート法を用いた初期学習段階における燃料消費量を改善することを目的とする。 ゼロまたはランダムなq値を持つq-ラーニングを開始した以前の研究とは異なり、異なる監督制御(すなわち、等価消費最小化戦略制御とヒューリスティック制御)を持つq-ラーニングを開始し、詳細な分析を行う。 その結果、提案するウォームスタートq学習は、コールドスタートq学習よりも68.8%少ないイテレーションを必要とすることがわかった。 訓練されたq-learningは2つの異なる運転サイクルで検証され、等価な消費最小化戦略制御と比較して10-16%mpg改善を示す。 さらに、リアルタイム実現可能性を分析し、車両実装のガイダンスを提供する。 本研究の結果は,車両監視制御アプリケーションにおけるRLの展開を容易にするために利用できる。

Reinforcement Learning (RL) is widely utilized in the field of robotics, and as such, it is gradually being implemented in the Hybrid Electric Vehicle (HEV) supervisory control. Even though RL exhibits excellent performance in terms of fuel consumption minimization in simulation, the large learning iteration number needs a long learning time, making it hardly applicable in real-world vehicles. In addition, the fuel consumption of initial learning phases is much worse than baseline controls. This study aims to reduce the learning iterations of Q-learning in HEV application and improve fuel consumption in initial learning phases utilizing warm start methods. Different from previous studies, which initiated Q-learning with zero or random Q values, this study initiates the Q-learning with different supervisory controls (i.e., Equivalent Consumption Minimization Strategy control and heuristic control), and detailed analysis is given. The results show that the proposed warm start Q-learning requires 68.8% fewer iterations than cold start Q-learning. The trained Q-learning is validated in two different driving cycles, and the results show 10-16% MPG improvement when compared to Equivalent Consumption Minimization Strategy control. Furthermore, real-time feasibility is analyzed, and the guidance of vehicle implementation is provided. The results of this study can be used to facilitate the deployment of RL in vehicle supervisory control applications.
翻訳日:2022-10-02 13:26:28 公開日:2020-10-27
# NetFlowデータを用いた一般化インサイダー攻撃検出

Generalized Insider Attack Detection Implementation using NetFlow Data ( http://arxiv.org/abs/2010.15697v1 )

ライセンス: Link先を確認
Yash Samtani, Jesse Elwell(参考訳) 商用ネットワークにおけるインサイダー攻撃検出は、現時点で良い解決策が存在しない重要な問題である。 この問題は、ライブネットワークへの可視性の欠如と、異なる攻撃を区別するための標準機能が欠如しているためである。 本稿では,ネットワークデータを用いて攻撃を識別する手法について検討する。 我々の研究は、インサイダーネットワーク攻撃の弱い指標として、One-Class SVMやbi-clusteringのような教師なし機械学習技術に基づいています。 これらの手法を組み合わせて,提案アルゴリズムによって検出された異常をチェックするために,One-Class SVMを用いて実世界のデプロイに必要な偽陽性数を許容レベルに制限する。 我々は、pythonのプロトタイプ実装と、2つの異なる実世界の代表データセットに関する結果を提示する。 本手法は,実環境におけるインサイダーアタック検出に有望なツールであることを示す。

Insider Attack Detection in commercial networks is a critical problem that does not have any good solutions at this current time. The problem is challenging due to the lack of visibility into live networks and a lack of a standard feature set to distinguish between different attacks. In this paper, we study an approach centered on using network data to identify attacks. Our work builds on unsupervised machine learning techniques such as One-Class SVM and bi-clustering as weak indicators of insider network attacks. We combine these techniques to limit the number of false positives to an acceptable level required for real-world deployments by using One-Class SVM to check for anomalies detected by the proposed Bi-clustering algorithm. We present a prototype implementation in Python and associated results for two different real-world representative data sets. We show that our approach is a promising tool for insider attack detection in realistic settings.
翻訳日:2022-10-02 13:18:50 公開日:2020-10-27
# コールドスタート推薦における項目選択問題

The item selection problem for user cold-start recommendation ( http://arxiv.org/abs/2010.14013v1 )

ライセンス: Link先を確認
Yitong Meng, Jie Liu, Xiao Yan and James Cheng(参考訳) 新しいユーザがウェブサイトにサインアップしたとき、通常、アイテムとのインタラクション、ユーザプロファイル、他のユーザとのソーシャルリンクなど、彼/彼女の情報はない。 このような状況下では,まずはレコメンダシステムがユーザを引き付けて,ユーザがwebサイトにとどまり,アクティブなユーザになるようにしたいと考えています。 この問題は,新たなユーザコールドスタートカテゴリに陥り,企業の発展と存続にも不可欠である。 ユーザコールドスタートレコメンデーションに関する既存の作業では、例えばインタビュープロセスの設定など、追加のユーザ努力が必要か、あるいはユーザ人口統計、場所、社会関係など、サイド情報[10]を利用する必要がある。 しかし、ユーザーはインタビューを受ける気はなく、コールドスタートのユーザーについてのサイド情報はたいてい利用できない。 したがって、インタラクションやサイド情報が利用できず、ユーザの取り組みも不要な純粋なコールドスタートシナリオを考える。 この設定を研究することは、インタビューの最初のいくつかの質問を初期化するなど、他のコールドスタートソリューションの初期化にも重要である。

When a new user just signs up on a website, we usually have no information about him/her, i.e. no interaction with items, no user profile and no social links with other users. Under such circumstances, we still expect our recommender systems could attract the users at the first time so that the users decide to stay on the website and become active users. This problem falls into new user cold-start category and it is crucial to the development and even survival of a company. Existing works on user cold-start recommendation either require additional user efforts, e.g. setting up an interview process, or make use of side information [10] such as user demographics, locations, social relations, etc. However, users may not be willing to take the interview and side information on cold-start users is usually not available. Therefore, we consider a pure cold-start scenario where neither interaction nor side information is available and no user effort is required. Studying this setting is also important for the initialization of other cold-start solutions, such as initializing the first few questions of an interview.
翻訳日:2022-10-02 13:18:19 公開日:2020-10-27
# 情報理論解釈性向上のための深層学習の確率論的表現

A Probabilistic Representation of Deep Learning for Improving The Information Theoretic Interpretability ( http://arxiv.org/abs/2010.14054v1 )

ライセンス: Link先を確認
Xinjie Lan, Kenneth E. Barner(参考訳) 本稿では,情報理論の解釈性を改善するために,MLP(MultiLayer Perceptrons)の確率的表現を提案する。 以上より,mlpの隠れた層ではi.i.d.のアクティベーションが有効ではないことを実証し,非パラメトリック推論法に基づく既存の相互情報推定器は,mlpにおける情報フローの測定には無効であることを示した。 さらに,MLPに対する明示的な確率論的説明を紹介する。 i) 完全連結層 f に対する確率空間(Omega_F, t, P_F)を定義し、確率測度 P_F に対する活性化関数の大きな効果を示す。 (ii)ギブス分布PとしてMLP全体のアーキテクチャを証明する。 (iii)バックプロパゲーションは、mlpの全連結層のサンプル空間omega_fを最適化し、最適なギブス分布p*を学習し、入力とラベル間の統計的接続を表現することを目的とする。 MLPの確率論的説明に基づき、3つの側面において情報理論的解釈性を改善する。 (i) f の確率変数は離散的であり、対応するエントロピーは有限である。 (ii)情報ボトルネック理論は、バックプロパゲーションを考慮した場合、mlpにおける情報フローを正確に説明できない。 3) MLPの一般化のための新しい情報理論的説明を提案する。 最後に,MLPの確率的表現と情報理論的説明を合成データセットとベンチマークデータセットで示す。

In this paper, we propose a probabilistic representation of MultiLayer Perceptrons (MLPs) to improve the information-theoretic interpretability. Above all, we demonstrate that the activations being i.i.d. is not valid for all the hidden layers of MLPs, thus the existing mutual information estimators based on non-parametric inference methods, e.g., empirical distributions and Kernel Density Estimate (KDE), are invalid for measuring the information flow in MLPs. Moreover, we introduce explicit probabilistic explanations for MLPs: (i) we define the probability space (Omega_F, t, P_F) for a fully connected layer f and demonstrate the great effect of an activation function on the probability measure P_F ; (ii) we prove the entire architecture of MLPs as a Gibbs distribution P; and (iii) the back-propagation aims to optimize the sample space Omega_F of all the fully connected layers of MLPs for learning an optimal Gibbs distribution P* to express the statistical connection between the input and the label. Based on the probabilistic explanations for MLPs, we improve the information-theoretic interpretability of MLPs in three aspects: (i) the random variable of f is discrete and the corresponding entropy is finite; (ii) the information bottleneck theory cannot correctly explain the information flow in MLPs if we take into account the back-propagation; and (iii) we propose novel information-theoretic explanations for the generalization of MLPs. Finally, we demonstrate the proposed probabilistic representation and information-theoretic explanations for MLPs in a synthetic dataset and benchmark datasets.
翻訳日:2022-10-02 13:17:40 公開日:2020-10-27
# リプシッツ連続制御を用いた決定論的連続時間システムのハミルトン・ヤコビディープラーニング

Hamilton-Jacobi Deep Q-Learning for Deterministic Continuous-Time Systems with Lipschitz Continuous Controls ( http://arxiv.org/abs/2010.14087v1 )

ライセンス: Link先を確認
Jeongho Kim, Jaeuk Shin, Insoon Yang(参考訳) 本稿では,リプシッツ連続制御を用いた連続時間決定論的最適制御問題に対するq学習アルゴリズムを提案する。 本手法は,連続時間Q-関数への動的プログラミング原理の適用から導かれるハミルトン・ヤコビ・ベルマン方程式の新しいクラスに基づく。 hjb方程式の新しい半離散バージョンは、システムのダイナミクスを識別したり近似したりすることなく離散時間に収集されたデータを使用するq学習アルゴリズムを設計するために提案されている。 このアルゴリズムにより推定されたQ関数が最適Q関数に収束する条件を同定する。 本稿では,DQN(Deep Q-networks)の概念を連続制御環境に拡張したHamilton-Jacobi DQNを提案する。 このアプローチでは、HJB方程式は通常の微分方程式による最適制御の簡易な特徴づけを提供するため、グリーディ行動に対する最適化問題に対してアクターネットワークや数値解を必要としない。 ベンチマークタスクと高次元線形量子問題を用いて,提案手法の性能を実証的に実証する。

In this paper, we propose Q-learning algorithms for continuous-time deterministic optimal control problems with Lipschitz continuous controls. Our method is based on a new class of Hamilton-Jacobi-Bellman (HJB) equations derived from applying the dynamic programming principle to continuous-time Q-functions. A novel semi-discrete version of the HJB equation is proposed to design a Q-learning algorithm that uses data collected in discrete time without discretizing or approximating the system dynamics. We identify the condition under which the Q-function estimated by this algorithm converges to the optimal Q-function. For practical implementation, we propose the Hamilton-Jacobi DQN, which extends the idea of deep Q-networks (DQN) to our continuous control setting. This approach does not require actor networks or numerical solutions to optimization problems for greedy actions since the HJB equation provides a simple characterization of optimal controls via ordinary differential equations. We empirically demonstrate the performance of our method through benchmark tasks and high-dimensional linear-quadratic problems.
翻訳日:2022-10-02 13:17:17 公開日:2020-10-27
# バッテリー/ウルトラキャパシタ電気自動車のQラーニング戦略を用いたエネルギー消費と電池寿命最小化

Energy Consumption and Battery Aging Minimization Using a Q-learning Strategy for a Battery/Ultracapacitor Electric Vehicle ( http://arxiv.org/abs/2010.14115v1 )

ライセンス: Link先を確認
Bin Xu, Junzhe Shi, Sixu Li, Huayi Li, Zhe Wang(参考訳) 推進システムの電化革命は自動車業界で進行中である。 電動推進システムはエネルギー効率を改善し、化石燃料への依存を減らす。 しかし、電気自動車の電池は車両運転中の劣化過程を経験する。 バッテリー/スーパーキャパシタ電気自動車のバッテリ劣化とエネルギー消費の両方を考慮に入れた研究は、まだ不十分である。 本研究では,Qラーニングに基づく電池劣化とエネルギー消費を最小化するための戦略を提案する。 Q-learning以外にも、Particle Swarm Optimizationアルゴリズムを用いて2つのヒューリスティックエネルギー管理手法を提案し、最適化する。 最初に車両推進システムモデルを提示し, 遺伝的アルゴリズムを用いて重症度因子のバッテリー劣化モデルを検討し, 実験的に検証した。 結果分析では、q-learningは学習後に最適なポリシーマップで説明される。 そして、このベースラインとして、Qラーニングを用いた超キャパシタを用いた車両と、エネルギー管理戦略としての2つのヒューリスティック手法を比較したウルトラキャパシタのない車両の結果を用いる。 学習・検証駆動サイクルにおいて,Q-ラーニング戦略は電池劣化を13-20%遅くし,超キャパシタのないベースライン車両と比較して1.5-2%増加した。

Propulsion system electrification revolution has been undergoing in the automotive industry. The electrified propulsion system improves energy efficiency and reduces the dependence on fossil fuel. However, the batteries of electric vehicles experience degradation process during vehicle operation. Research considering both battery degradation and energy consumption in battery/ supercapacitor electric vehicles is still lacking. This study proposes a Q-learning-based strategy to minimize battery degradation and energy consumption. Besides Q-learning, two heuristic energy management methods are also proposed and optimized using Particle Swarm Optimization algorithm. A vehicle propulsion system model is first presented, where the severity factor battery degradation model is considered and experimentally validated with the help of Genetic Algorithm. In the results analysis, Q-learning is first explained with the optimal policy map after learning. Then, the result from a vehicle without ultracapacitor is used as the baseline, which is compared with the results from the vehicle with ultracapacitor using Q-learning, and two heuristic methods as the energy management strategies. At the learning and validation driving cycles, the results indicate that the Q-learning strategy slows down the battery degradation by 13-20% and increases the vehicle range by 1.5-2% compared with the baseline vehicle without ultracapacitor.
翻訳日:2022-10-02 13:16:59 公開日:2020-10-27
# 連続制御のための強化学習は物理エンジンを一般化できるか?

Can Reinforcement Learning for Continuous Control Generalize Across Physics Engines? ( http://arxiv.org/abs/2010.14444v1 )

ライセンス: Link先を確認
Aaqib Parvez Mohammed and Matias Valdenegro-Toro(参考訳) 強化学習(rl)アルゴリズムは可能な限り環境について学習すべきであるが、環境を生成する物理エンジンの特性ではない。 物理エンジンベースの環境でタスクを解決する複数のアルゴリズムがあるが、rlアルゴリズムが物理エンジンをまたいで一般化できるかどうかを理解するための作業はない。 本研究では,様々な制御タスクにおける各種深層強化学習アルゴリズムの一般化性能を比較する。 結果から,MuJoCoは他のエンジンに学習を移すのに最適なエンジンであることがわかった。 一方、PyBulletでトレーニングされたアルゴリズムは一般化されていない。 また,ランダムシードの効果を最小化できれば,様々なアルゴリズムが有望な一般化性を持つことがわかった。

Reinforcement learning (RL) algorithms should learn as much as possible about the environment but not the properties of the physics engines that generate the environment. There are multiple algorithms that solve the task in a physics engine based environment but there is no work done so far to understand if the RL algorithms can generalize across physics engines. In this work, we compare the generalization performance of various deep reinforcement learning algorithms on a variety of control tasks. Our results show that MuJoCo is the best engine to transfer the learning to other engines. On the other hand, none of the algorithms generalize when trained on PyBullet. We also found out that various algorithms have a promising generalizability if the effect of random seeds can be minimized on their performance.
翻訳日:2022-10-02 13:10:58 公開日:2020-10-27
# k-means++とk-means++ parallelの保証の改善

Improved Guarantees for k-means++ and k-means++ Parallel ( http://arxiv.org/abs/2010.14487v1 )

ライセンス: Link先を確認
Konstantin Makarychev, Aravind Reddy, Liren Shan(参考訳) 本稿では,k-means++とk-means++の並列性について検討する。 我々は,k-means++ と k-means++ の並列化に関する新しい解析と改良された近似とbi-criteria近似の保証を示す。 我々の結果は、これらのアルゴリズムが実際に非常によく機能する理由をより理論的に正当化する。 また,k-means++ と同じ近似保証を持つ k-means++ parallel algorithm (exponential race k-means++) の新しい変種を提案する。

In this paper, we study k-means++ and k-means++ parallel, the two most popular algorithms for the classic k-means clustering problem. We provide novel analyses and show improved approximation and bi-criteria approximation guarantees for k-means++ and k-means++ parallel. Our results give a better theoretical justification for why these algorithms perform extremely well in practice. We also propose a new variant of k-means++ parallel algorithm (Exponential Race k-means++) that has the same approximation guarantees as k-means++.
翻訳日:2022-10-02 13:10:47 公開日:2020-10-27
# COG:オフライン強化学習による新しいスキルと過去の経験を結びつける

COG: Connecting New Skills to Past Experience with Offline Reinforcement Learning ( http://arxiv.org/abs/2010.14500v1 )

ライセンス: Link先を確認
Avi Singh, Albert Yu, Jonathan Yang, Jesse Zhang, Aviral Kumar, Sergey Levine(参考訳) 強化学習は様々なロボティクス問題に応用されてきたが、ほとんどのアプリケーションは、新しいタスクごとにスクラッチからデータを収集する。 単一のタスクのために収集できるロボットデータの量は時間とコストの考慮によって制限されるため、学習された動作は通常狭く、ポリシーはトレーニングされたいくつかのシナリオでのみタスクを実行することができる。 以前に解決されたタスクから、あるいは教師なしまたは指示なしの環境相互作用から、大量の事前データを組み込んで学習行動を拡張し、一般化する方法があったらどうでしょう? 事前に収集したデータを用いてロボットスキルを拡張する作業は、明示的な階層やスキル分解の構築に重点を置いているが、本稿では、事前データを再利用して、動的プログラミングによって新しいスキルを拡張することができることを示す。 我々は,事前データが新しい課題の解決に成功していない場合でも,エージェントにその環境の仕組みをより深く理解させることで,より優れた方針の学習に利用できることを示す。 我々は,新しい課題を解決するための事前データセットに見られるいくつかの行動と,ロボットの4つのスキル(ピッキング,配置,引き出しの開口,把持)を連続して構成することを含む最も実験的な設定を結びつけることで,このアプローチの有効性を実証する。 我々は、エンドツーエンドでポリシーを訓練し、高次元画像観察を低レベルロボット制御コマンドにマッピングし、シミュレーションと実世界の両方の領域で結果を示す。 追加の資料とソースコードは、プロジェクトのWebサイトにある。

Reinforcement learning has been applied to a wide variety of robotics problems, but most of such applications involve collecting data from scratch for each new task. Since the amount of robot data we can collect for any single task is limited by time and cost considerations, the learned behavior is typically narrow: the policy can only execute the task in a handful of scenarios that it was trained on. What if there was a way to incorporate a large amount of prior data, either from previously solved tasks or from unsupervised or undirected environment interaction, to extend and generalize learned behaviors? While most prior work on extending robotic skills using pre-collected data focuses on building explicit hierarchies or skill decompositions, we show in this paper that we can reuse prior data to extend new skills simply through dynamic programming. We show that even when the prior data does not actually succeed at solving the new task, it can still be utilized for learning a better policy, by providing the agent with a broader understanding of the mechanics of its environment. We demonstrate the effectiveness of our approach by chaining together several behaviors seen in prior datasets for solving a new task, with our hardest experimental setting involving composing four robotic skills in a row: picking, placing, drawer opening, and grasping, where a +1/0 sparse reward is provided only on task completion. We train our policies in an end-to-end fashion, mapping high-dimensional image observations to low-level robot control commands, and present results in both simulated and real world domains. Additional materials and source code can be found on our project website: https://sites.google.com/view/cog-rl
翻訳日:2022-10-02 13:10:16 公開日:2020-10-27
# シークエンシャルリランカによる購買印象ギャップの対応

Addressing Purchase-Impression Gap through a Sequential Re-ranker ( http://arxiv.org/abs/2010.14570v1 )

ライセンス: Link先を確認
Shubhangi Tandon, Saratchandra Indrakanti, Amit Jaiswal, Svetlana Strunjas, Manojkumar Rangasamy Kannadasan(参考訳) eBayのような大規模なeコマースプラットフォームは、さまざまな在庫を持ち、オンライン買い物客にいくつかの購入オプションを提供している。 eコマース検索エンジンは、検索クエリに関連付けられる可能性のあるさまざまな購入意図の文脈において、利用可能な在庫の多様性と選択を上位に示すことが重要である。 検索ランク付けは、トレーニング中のアイテム間の好みを学習する学習からランク付けするモデルに最もよく利用される。 しかし、実行時に他のアイテムとは独立してアイテムをスコアする。 このようなスコアリング関数によって結果のトップに置かれる項目は独立に最適であるが、集合として準最適である。 これは、トップ結果の項目の理想的な分布と実際に感銘を受けたものとのミスマッチを引き起こす可能性がある。 本稿では,eコマースサイトのトップ検索結果に見られる購買・印象ギャップに対処する手法を提案する。 歴史的ショッピングパターンに基づく商品の理想的な分布を確立する。 次に,従来の点数ランキング装置で生成した上位検索結果を手法的に参照するシーケンシャルリランカを提案する。 リランクは、リランクリストに追加されたアイテムの印象分布をキャプチャする特別に構築された特徴を利用して、その独立関係と購入印象ギャップに対処する可能性との間で交換する候補を順次選択してリ順序リストを生成する。 シーケンシャルリランカは、複数のアイテム側面に関する購入印象ギャップに対処することができる。 rerankerの初期バージョンは、ebayでコンバージョンとエンゲージメントの指標で有望な向上を見せた。 ランダムにサンプリングされた検証データセットの実験から,提案手法が上位20項目の平均購入・印象ギャップを約10%削減し,変換指標の改善を実現していることが明らかとなった。

Large scale eCommerce platforms such as eBay carry a wide variety of inventory and provide several buying choices to online shoppers. It is critical for eCommerce search engines to showcase in the top results the variety and selection of inventory available, specifically in the context of the various buying intents that may be associated with a search query. Search rankers are most commonly powered by learning-to-rank models which learn the preference between items during training. However, they score items independent of other items at runtime. Although the items placed at top of the results by such scoring functions may be independently optimal, they can be sub-optimal as a set. This may lead to a mismatch between the ideal distribution of items in the top results vs what is actually impressed. In this paper, we present methods to address the purchase-impression gap observed in top search results on eCommerce sites. We establish the ideal distribution of items based on historic shopping patterns. We then present a sequential reranker that methodically reranks top search results produced by a conventional pointwise scoring ranker. The reranker produces a reordered list by sequentially selecting candidates trading off between their independent relevance and potential to address the purchase-impression gap by utilizing specially constructed features that capture impression distribution of items already added to a reranked list. The sequential reranker enables addressing purchase impression gap with respect to multiple item aspects. Early version of the reranker showed promising lifts in conversion and engagement metrics at eBay. Based on experiments on randomly sampled validation datasets, we observe that the reranking methodology presented produces around 10% reduction in purchase-impression gap at an average for the top 20 results, while making improvements to conversion metrics.
翻訳日:2022-10-02 13:09:48 公開日:2020-10-27
# 安全であることを学ぶ - 安全性を批判する深いRL

Learning to be Safe: Deep RL with a Safety Critic ( http://arxiv.org/abs/2010.14603v1 )

ライセンス: Link先を確認
Krishnan Srinivasan, Benjamin Eysenbach, Sehoon Ha, Jie Tan, Chelsea Finn(参考訳) 安全性は、実世界のシナリオに強化学習(RL)アルゴリズムをデプロイする上で不可欠な要素であり、学習プロセス自体において重要である。 safe rlへの自然な最初のアプローチは、ポリシーの動作に関する制約を手動で指定することだ。 しかし、学習がAIシステムの大規模開発を進展させるのと同じように、手動の安全仕様がスケールできない混乱したオープンな環境における安全性を確保するためには、学習安全仕様も必要かもしれない。 子どもの安全環境から人間が段階的に学ぶ方法と同様に、タスクと環境の1セットで安全である方法を学び、その学習した直感を使って、新しい修正されたタスクを学ぶ際の将来の行動を制約します。 シミュレーションナビゲーション,四足歩行,偶発的手操作という3つの課題領域において,このような安全性制約付き転送学習の形式を実証的に研究した。 標準の深度RL技術や従来の安全RL手法と比較して,本手法は,物体の落下や落下といった安全性を著しく低減し,より速く,より安定した学習が可能な新しいタスクや新しい環境における学習を可能にする。 これにより、より安全なrlシステムだけでなく、より効率的なrlシステムへの道筋が示唆される。

Safety is an essential component for deploying reinforcement learning (RL) algorithms in real-world scenarios, and is critical during the learning process itself. A natural first approach toward safe RL is to manually specify constraints on the policy's behavior. However, just as learning has enabled progress in large-scale development of AI systems, learning safety specifications may also be necessary to ensure safety in messy open-world environments where manual safety specifications cannot scale. Akin to how humans learn incrementally starting in child-safe environments, we propose to learn how to be safe in one set of tasks and environments, and then use that learned intuition to constrain future behaviors when learning new, modified tasks. We empirically study this form of safety-constrained transfer learning in three challenging domains: simulated navigation, quadruped locomotion, and dexterous in-hand manipulation. In comparison to standard deep RL techniques and prior approaches to safe RL, we find that our method enables the learning of new tasks and in new environments with both substantially fewer safety incidents, such as falling or dropping an object, and faster, more stable learning. This suggests a path forward not only for safer RL systems, but also for more effective RL systems.
翻訳日:2022-10-02 13:08:36 公開日:2020-10-27
# 人工データによるテキスト関係モデリングの改善

Improving Text Relationship Modeling with Artificial Data ( http://arxiv.org/abs/2010.14640v1 )

ライセンス: Link先を確認
Peter Organisciak, Maggie Ryan(参考訳) データ拡張は、人工的に生成されたサンプルを使用して、教師付き機械学習をサポートし、結果のモデルに堅牢性を追加し、ラベル付きデータの可用性の制限を考慮できる。 デジタル図書館における関係分類に合成データアプローチを適用し,評価し,既存のメタデータから推測するに足らず,デジタル図書館に共通な関係性を持つ人工書を生成する。 書籍間の全部関係の分類において,合成データはディープニューラルネットワーク分類器を91%向上させることがわかった。 さらに、完全人工学習データから有用な新しいテキスト関係クラスを学ぶための合成データの能力についても検討する。

Data augmentation uses artificially-created examples to support supervised machine learning, adding robustness to the resulting models and helping to account for limited availability of labelled data. We apply and evaluate a synthetic data approach to relationship classification in digital libraries, generating artificial books with relationships that are common in digital libraries but not easier inferred from existing metadata. We find that for classification on whole-part relationships between books, synthetic data improves a deep neural network classifier by 91%. Further, we consider the ability of synthetic data to learn a useful new text relationship class from fully artificial training data.
翻訳日:2022-10-02 13:07:50 公開日:2020-10-27
# 交通事故重大度予測のための木ベースおよび組立回帰アルゴリズムの比較解析

Comparison Analysis of Tree Based and Ensembled Regression Algorithms for Traffic Accident Severity Prediction ( http://arxiv.org/abs/2010.14921v1 )

ライセンス: Link先を確認
Muhammad Umer, Saima Sadiq, Abid Ishaq, Saleem Ullah, Najia Saher, Hamza Ahmad Madni(参考訳) 都市道路における交通量の急速な増加は、世界中の交通シナリオを変えてきた。 また、最悪の場合、重篤かつ致命的な道路事故の割合も増加している。 都市道路における交通安全と管理を改善するためには,事故の重大度レベルの予測が必要である。 さまざまな機械学習モデルが事故予測に使用されている。 本研究では,木系アンサンブルモデル (Random Forest, AdaBoost, Extra Tree, Gradient Boosting) と2つの統計モデル (Logistic Regression Stochastic Gradient Descent) を比較して,交通事故の重大度を予測する。 事故の重大さと強く相関する重要な特徴はランダムフォレストによって同定される。 分析の結果、ランサムフォレストは最高性能で0.974の精度、0.954の精度、0.930のリコール、0.942のFスコアで、道路事故の重大度を分類する他の手法と比較して20の重要な特徴を用いた。

Rapid increase of traffic volume on urban roads over time has changed the traffic scenario globally. It has also increased the ratio of road accidents that can be severe and fatal in the worst case. To improve traffic safety and its management on urban roads, there is a need for prediction of severity level of accidents. Various machine learning models are being used for accident prediction. In this study, tree based ensemble models (Random Forest, AdaBoost, Extra Tree, and Gradient Boosting) and ensemble of two statistical models (Logistic Regression Stochastic Gradient Descent) as voting classifiers are compared for prediction of road accident severity. Significant features that are strongly correlated with the accident severity are identified by Random Forest. Analysis proved Random Forest as the best performing model with highest classification results with 0.974 accuracy, 0.954 precision, 0.930 recall and 0.942 F-score using 20 most significant features as compared to other techniques classification of road accidents severity.
翻訳日:2022-10-02 13:07:38 公開日:2020-10-27
# 確率的深層学習による季節予測の改善

Improving seasonal forecast using probabilistic deep learning ( http://arxiv.org/abs/2010.14610v1 )

ライセンス: Link先を確認
Baoxiang Pan, Gemma J. Anderson, AndrE Goncalves, Donald D. Lucas, CEline J.W. Bonfils, Jiwoo Lee(参考訳) 季節予測の可能性とその社会経済的利益を実現する道筋は、一般循環モデルに基づく動的予測システムの改善に大きく依存する。 季節の動的予測を改善するためには,モデル初期化誤差,定式化欠陥,内部の気候変動による予測限界を明らかにすることが必要である。 大規模な予測アンサンブルの生成に多大なコストがかかり、予測検証のための観測が限られているため、季節予測ベンチマークと診断作業は困難である。 本研究では,季節予測能力の向上と予測診断のために,既存の気候シミュレーションを多用した確率的深層ニューラルネットワークモデルを開発した。 気候シミュレーションで符号化された複雑な物理的関係を活用することで, 準グローバル季節予測における降水量および近地温度の動的予測システムと比較して, 確率的予測モデルは, 決定論的および確率的スキルに優れることを示した。 我々は,この確率的予測手法を応用して初期化誤差の影響を定量化し,モデル定式化の欠陥を動的季節予測システムに適用する。 本稿では,季節変動に影響を及ぼす主要な予測要因を効率的に同定するために,塩分分析手法を提案する。 さらに,変動ベイズを用いた不確実性を明示的にモデル化することにより,季節変動の支配的モードであるエルニーノ/サザン振動が地球規模の季節予測可能性にどのように影響するか,より決定的な解を与える。

The path toward realizing the potential of seasonal forecasting and its socioeconomic benefits depends heavily on improving general circulation model based dynamical forecasting systems. To improve dynamical seasonal forecast, it is crucial to set up forecast benchmarks, and clarify forecast limitations posed by model initialization errors, formulation deficiencies, and internal climate variability. With huge cost in generating large forecast ensembles, and limited observations for forecast verification, the seasonal forecast benchmarking and diagnosing task proves challenging. In this study, we develop a probabilistic deep neural network model, drawing on a wealth of existing climate simulations to enhance seasonal forecast capability and forecast diagnosis. By leveraging complex physical relationships encoded in climate simulations, our probabilistic forecast model demonstrates favorable deterministic and probabilistic skill compared to state-of-the-art dynamical forecast systems in quasi-global seasonal forecast of precipitation and near-surface temperature. We apply this probabilistic forecast methodology to quantify the impacts of initialization errors and model formulation deficiencies in a dynamical seasonal forecasting system. We introduce the saliency analysis approach to efficiently identify the key predictors that influence seasonal variability. Furthermore, by explicitly modeling uncertainty using variational Bayes, we give a more definitive answer to how the El Nino/Southern Oscillation, the dominant mode of seasonal variability, modulates global seasonal predictability.
翻訳日:2022-10-02 13:02:07 公開日:2020-10-27
# 疎度制約付きグラフブラインドデコンボリューション

Graph Blind Deconvolution with Sparseness Constraint ( http://arxiv.org/abs/2010.14002v1 )

ライセンス: Link先を確認
Kazuma Iwata, Koki Yamada, and Yuichi Tanaka(参考訳) 本稿では,グラフ上の信号に対するブラインドデコンボリューション法を提案する。 グラフブラインドデコンボリューション(Graph blind deconvolution)は、不明瞭でノイズの多い測定結果からグラフ上の元の信号を推定するアルゴリズムである。 非零要素の数に制約を加えることは、多くの異なるアプリケーションに望ましい。 本稿は、$\ell_0$のノルム制約を持つ最適化問題によって与えられる、元のソースの正確な数に制約を課す問題を扱う。 ADMM反復解法を用いてこの非凸最適化問題を解く。 合成信号を用いた数値実験により,提案手法の有効性が示された。

We propose a blind deconvolution method for signals on graphs, with the exact sparseness constraint for the original signal. Graph blind deconvolution is an algorithm for estimating the original signal on a graph from a set of blurred and noisy measurements. Imposing a constraint on the number of nonzero elements is desirable for many different applications. This paper deals with the problem with constraints placed on the exact number of original sources, which is given by an optimization problem with an $\ell_0$ norm constraint. We solve this non-convex optimization problem using the ADMM iterative solver. Numerical experiments using synthetic signals demonstrate the effectiveness of the proposed method.
翻訳日:2022-10-02 13:00:30 公開日:2020-10-27
# 文法圧縮線形代数の不可能性

Impossibility Results for Grammar-Compressed Linear Algebra ( http://arxiv.org/abs/2010.14181v1 )

ライセンス: Link先を確認
Amir Abboud, Arturs Backurs, Karl Bringmann, Marvin K\"unnemann(参考訳) 膨大なデータを扱うために、ベクトルや行列を圧縮するのに自然で人気がある。 ベクターをサイズn$からサイズn \ll n$に圧縮すると、保存や送信がより簡単になりますが、処理も簡単になるのでしょうか? 本稿では、ロスレス圧縮スキームについて検討し、圧縮データの計算を元のデータと同じくらい効率的に行うことができるかどうかを問う。 つまり、ある操作が時間複雑性$T(\rm{inputsize})$を持つなら、$T(N)$ではなく、時間$T(n)$で圧縮された表現でそれを実行できますか? 内積、行列ベクトル乗法、行列乗法など、最も基本的な線形代数演算を考える。 特に、2つの圧縮ベクトルが与えられたとき、その内積をo(n)$で計算できるだろうか? あるいは、最初に圧縮し、次に乗算して、$\Omega(N)$timeを使わなければなりませんか? 答えは圧縮方式に依存する。 Run-Length-Encoding (RLE)のような単純な製品の場合、内部積は$O(n)$ timeで実現できるが、よりリッチなクラスからの圧縮では不可能であることが証明されている。 これは、lempel-zivファミリーのような最も一般的な方法を含む文法圧縮のクラスである。 これらのスキームは単純なRLEよりも圧縮性が高いが、残念なことに、計算の実行ははるかに難しい。

To handle vast amounts of data, it is natural and popular to compress vectors and matrices. When we compress a vector from size $N$ down to size $n \ll N$, it certainly makes it easier to store and transmit efficiently, but does it also make it easier to process? In this paper we consider lossless compression schemes, and ask if we can run our computations on the compressed data as efficiently as if the original data was that small. That is, if an operation has time complexity $T(\rm{inputsize})$, can we perform it on the compressed representation in time $T(n)$ rather than $T(N)$? We consider the most basic linear algebra operations: inner product, matrix-vector multiplication, and matrix multiplication. In particular, given two compressed vectors, can we compute their inner product in time $O(n)$? Or perhaps we must decompress first and then multiply, spending $\Omega(N)$ time? The answer depends on the compression scheme. While for simple ones such as Run-Length-Encoding (RLE) the inner product can be done in $O(n)$ time, we prove that this is impossible for compressions from a richer class: essentially $n^2$ or even larger runtimes are needed in the worst case (under complexity assumptions). This is the class of grammar-compressions containing most popular methods such as the Lempel-Ziv family. These schemes are more compressing than the simple RLE, but alas, we prove that performing computations on them is much harder.
翻訳日:2022-10-02 12:59:32 公開日:2020-10-27
# オートエンコーダに基づくハイパースペクトル異常検出

Hyperspectral Anomaly Change Detection Based on Auto-encoder ( http://arxiv.org/abs/2010.14119v1 )

ライセンス: Link先を確認
Meiqi Hu, Chen Wu, Liangpei Zhang, and Bo Du(参考訳) ハイパースペクトルイメージング技術により、ハイパースペクトルデータは豊富なスペクトル情報を提供し、地質調査、植生分析、軍事偵察においてより重要な役割を果たす。 通常の変化検出とは異なり、超スペクトル異常変化検出(hacd)は、多時間超スペクトル画像(hsi)間の小さいが重要な異常変化を見つけるのに役立つ。 従来の研究では、ほとんどの古典的手法は線形回帰を用いて2つのHSI間のマッピング関係を確立し、残像から異常を検出する。 しかし、多時間hsis間の真のスペクトル差は非常に複雑で非線形であり、これらの線形予測器の性能は限られている。 本稿では,自動エンコーダ(ACDA)に基づく独自のHACDアルゴリズムを提案し,非線形解を提案する。 提案するacdaは複雑な撮像条件に対して有効な予測モデルを構築することができる。 ACDAモデルでは、2つの系統的自動エンコーダ(AE)ネットワークが配置され、2つの方向から予測器を構築する。 予測器は、背景のスペクトル変動をモデル化し、別の撮像条件下で予測画像を得る。 そして、予測画像と対応する期待画像との間の平均二乗誤差(mse)を計算して損失マップを得る。 最終的に、最終的な異常変化強度マップとして、2方向の2つの損失マップの最小値を取る。 実験結果は、"Viareggio 2013"データセット上で、従来の手法よりも効率性と優位性を示す。

With the hyperspectral imaging technology, hyperspectral data provides abundant spectral information and plays a more important role in geological survey, vegetation analysis and military reconnaissance. Different from normal change detection, hyperspectral anomaly change detection (HACD) helps to find those small but important anomaly changes between multi-temporal hyperspectral images (HSI). In previous works, most classical methods use linear regression to establish the mapping relationship between two HSIs and then detect the anomalies from the residual image. However, the real spectral differences between multi-temporal HSIs are likely to be quite complex and of nonlinearity, leading to the limited performance of these linear predictors. In this paper, we propose an original HACD algorithm based on auto-encoder (ACDA) to give a nonlinear solution. The proposed ACDA can construct an effective predictor model when facing complex imaging conditions. In the ACDA model, two systematic auto-encoder (AE) networks are deployed to construct two predictors from two directions. The predictor is used to model the spectral variation of the background to obtain the predicted image under another imaging condition. Then mean square error (MSE) between the predictive image and corresponding expected image is computed to obtain the loss map, where the spectral differences of the unchanged pixels are highly suppressed and anomaly changes are highlighted. Ultimately, we take the minimum of the two loss maps of two directions as the final anomaly change intensity map. The experiments results on public "Viareggio 2013" datasets demonstrate the efficiency and superiority over traditional methods.
翻訳日:2022-10-02 12:52:21 公開日:2020-10-27
# AI操作されたフェイク顔検出のための一般的な特徴のマイニング

Mining Generalized Features for Detecting AI-Manipulated Fake Faces ( http://arxiv.org/abs/2010.14129v1 )

ライセンス: Link先を確認
Yang Yu, Rongrong Ni and Yao Zhao(参考訳) 近年,AIによる顔認証技術が急速に発展し,社会に新たなセキュリティ問題を引き起こしている。 既存の検出法では, 偽顔の分類が異なるが, クロスマニピュレーション技術間の分布バイアスのため, 偽顔の「見えない」操作技術による検出性能は依然として劣っている。 そこで本稿では,本質的特徴のマイニングに着目し,分布バイアスを取り除き,一般化能力を向上させる新しい枠組みを提案する。 まず,cdi (channel difference image) とsi (spectrum image) に内在する手掛かりをカメラ画像から抽出し,ai操作プロセスにおいて不可欠となるステップについて考察する。 次に,オクターブ畳み込み(octconv)と注意に基づく融合モジュールを導入し,cdiとsiから本質的特徴を効果的かつ適応的に抽出する。 最後に,より一般化した検出フレームワークを得るために,操作技術の偏りをなくすアライメントモジュールを設計する。 提案手法は,最も人気があり最先端の操作技術を持つ偽顔データセットの4つのカテゴリで評価し,非常に競争力のある性能を実現する。 提案手法の一般化能力をさらに検証するため,クロスマニピュレーション手法の実験を行い,本手法の利点を示す。

Recently, AI-manipulated face techniques have developed rapidly and constantly, which has raised new security issues in society. Although existing detection methods consider different categories of fake faces, the performance on detecting the fake faces with "unseen" manipulation techniques is still poor due to the distribution bias among cross-manipulation techniques. To solve this problem, we propose a novel framework that focuses on mining intrinsic features and further eliminating the distribution bias to improve the generalization ability. Firstly, we focus on mining the intrinsic clues in the channel difference image (CDI) and spectrum image (SI) from the camera imaging process and the indispensable step in AI manipulation process. Then, we introduce the Octave Convolution (OctConv) and an attention-based fusion module to effectively and adaptively mine intrinsic features from CDI and SI. Finally, we design an alignment module to eliminate the bias of manipulation techniques to obtain a more generalized detection framework. We evaluate the proposed framework on four categories of fake faces datasets with the most popular and state-of-the-art manipulation techniques, and achieve very competitive performances. To further verify the generalization ability of the proposed framework, we conduct experiments on cross-manipulation techniques, and the results show the advantages of our method.
翻訳日:2022-10-02 12:51:58 公開日:2020-10-27
# PDFによるCT再構成:マルチスキャン測地と線量レベルのためのパラメータ依存フレームワーク

CT Reconstruction with PDF: Parameter-Dependent Framework for Multiple Scanning Geometries and Dose Levels ( http://arxiv.org/abs/2010.14350v1 )

ライセンス: Link先を確認
Wenjun Xia, Zexin Lu, Yongqiang Huang, Yan Liu, Hu Chen, Jiliu Zhou, Yi Zhang(参考訳) 深層学習に基づくCT再構成手法の主流は、通常、走査幾何学と線量レベルの修正が必要であり、これはトレーニングコストを大幅に増加させ、臨床応用のためのより多くのトレーニングデータを必要とする。 本稿では,複数の走査型ジオメトリと線量レベルを同時にトレーニングするパラメータ依存フレームワーク(PDF)を提案する。 提案するpdfでは、幾何と線量レベルはパラメータ化され、2つの多層パーセプトロン (mlps) に供給される。 MLPはCT再構成ネットワークの特徴マップを変調するために利用され、ネットワークは異なる走査測地と線量レベルで出力する。 実験により,提案手法は,特定の幾何レベルと線量レベルで訓練された元のネットワークと競合する性能を得ることができ,複数の走査型ジオメトリと線量レベルのトレーニングコストを効率的に削減できることを示した。

Current mainstream of CT reconstruction methods based on deep learning usually needs to fix the scanning geometry and dose level, which will significantly aggravate the training cost and need more training data for clinical application. In this paper, we propose a parameter-dependent framework (PDF) which trains data with multiple scanning geometries and dose levels simultaneously. In the proposed PDF, the geometry and dose level are parameterized and fed into two multi-layer perceptrons (MLPs). The MLPs are leveraged to modulate the feature maps of CT reconstruction network, which condition the network outputs on different scanning geometries and dose levels. The experiments show that our proposed method can obtain competing performance similar to the original network trained with specific geometry and dose level, which can efficiently save the extra training cost for multiple scanning geometries and dose levels.
翻訳日:2022-10-02 12:51:14 公開日:2020-10-27
# スペクトルctのための4次非局所テンソル分解モデル

Fourth-Order Nonlocal Tensor Decomposition Model for Spectral Computed Tomography ( http://arxiv.org/abs/2010.14361v1 )

ライセンス: Link先を確認
Xiang Chen, Wenjun Xia, Yan Liu, Hu Chen, Jiliu Zhou, Yi Zhang(参考訳) 分光CT(Spectral Computed Tomography)は、光子計数検出器(PCD)を用いて異なるエネルギービンからスペクトル画像を再構成することができる。 しかし、限られた光子と対応するスペクトル分率の計数速度のため、再構成されたスペクトル画像は通常、激しいノイズを被る。 本稿では,スペクトルCT画像再構成法(FONT-SIR)のための4階非局所テンソル分解モデルを提案する。 同様のパッチは空間次元とスペクトル次元の両方で同時に収集され、基本テンソル単位を形成する。 さらに、主成分分析(PCA)を用いてパッチから潜時特徴を抽出し、堅牢で効率的な類似度測定を行う。 そして、生成した第4次テンソルユニット上で低ランク及びスパーシティ分解を行い、重み付き核ノルムおよび全変動(tv)ノルムを用いて、低ランク及びスパーシティ制約を強制する。 目的関数を最適化するために乗算器の交互方向法(ADMM)を採用する。 提案したFONT-SIRによる実験結果から,音の抑制やディテール保存の観点から,複数の最先端手法と比較して,シミュレーションおよび実データセットの質的,定量的な性能が向上した。

Spectral computed tomography (CT) can reconstruct spectral images from different energy bins using photon counting detectors (PCDs). However, due to the limited photons and counting rate in the corresponding spectral fraction, the reconstructed spectral images usually suffer from severe noise. In this paper, a fourth-order nonlocal tensor decomposition model for spectral CT image reconstruction (FONT-SIR) method is proposed. Similar patches are collected in both spatial and spectral dimensions simultaneously to form the basic tensor unit. Additionally, principal component analysis (PCA) is applied to extract latent features from the patches for a robust and efficient similarity measure. Then, low-rank and sparsity decomposition is performed on the produced fourth-order tensor unit, and the weighted nuclear norm and total variation (TV) norm are used to enforce the low-rank and sparsity constraints, respectively. The alternating direction method of multipliers (ADMM) is adopted to optimize the objective function. The experimental results with our proposed FONT-SIR demonstrates a superior qualitative and quantitative performance for both simulated and real data sets relative to several state-of-the-art methods, in terms of noise suppression and detail preservation.
翻訳日:2022-10-02 12:50:58 公開日:2020-10-27
# 自律システム(PAZ)の認識

Perception for Autonomous Systems (PAZ) ( http://arxiv.org/abs/2010.14541v1 )

ライセンス: Link先を確認
Octavio Arriaga, Matias Valdenegro-Toro, Mohandass Muthuraja, Sushma Devaramani, Frank Kirchner(参考訳) 本稿では,PAZ(Perception for Autonomous Systems)ソフトウェアライブラリを紹介する。 PAZは階層的な認識ライブラリであり、ユーザーは要求やスキルレベルに応じて複数のレベルの抽象化を操作できる。 具体的には、PAZはパイプライン、プロセッサ、バックエンドと呼ばれる3つの階層レベルに分けられます。 これらの抽象化により、ユーザーは、機械学習(ml)モデルの入力および出力の事前処理、データ提供、予測および後処理に適用可能な階層的モジュラースキームで関数を構成できる。 PAZはこれらの抽象化を使用して、2Dキーポイント推定、2Dオブジェクト検出、3Dキーポイント発見、6Dポーズ推定、感情分類、顔認識、インスタンスセグメンテーション、アテンションメカニズムなどの複数のロボット認識タスクのための再利用可能なトレーニングと予測パイプラインを構築する。

In this paper we introduce the Perception for Autonomous Systems (PAZ) software library. PAZ is a hierarchical perception library that allow users to manipulate multiple levels of abstraction in accordance to their requirements or skill level. More specifically, PAZ is divided into three hierarchical levels which we refer to as pipelines, processors, and backends. These abstractions allows users to compose functions in a hierarchical modular scheme that can be applied for preprocessing, data-augmentation, prediction and postprocessing of inputs and outputs of machine learning (ML) models. PAZ uses these abstractions to build reusable training and prediction pipelines for multiple robot perception tasks such as: 2D keypoint estimation, 2D object detection, 3D keypoint discovery, 6D pose estimation, emotion classification, face recognition, instance segmentation, and attention mechanisms.
翻訳日:2022-10-02 12:50:36 公開日:2020-10-27
# 複素値LSTMの実現による位相認識音声強調

Phase Aware Speech Enhancement using Realisation of Complex-valued LSTM ( http://arxiv.org/abs/2010.14122v1 )

ライセンス: Link先を確認
Raktim Gautam Goswami, Sivaganesh Andhavarapu and K Sri Rama Murty(参考訳) 深層学習に基づく音声強調法(SE法)の多くは、観測された雑音の多い音声信号からクリーン音声信号の大きさスペクトルを、スペクトルマスキングや回帰によって推定することに依存する。 これらの方法は、推定等級スペクトルから時間領域波形を合成しながらノイズ相を再利用する。 しかし、seにおけるフェーズの重要性を強調する最近の研究がある。 複素数値フィードフォワードニューラルネットワーク(FFNN)を用いて、複雑な比マスクの位相を考慮した推定を試みた。 しかしffnnは位相推定に必要な逐次情報をキャプチャできない。 本研究では,複素値長短期メモリ(RCLSTM)ネットワークの実現を提案し,時系列情報を用いて複素比マスク(CRM)を推定する。 提案したRCLSTMは複雑な演算を用いて複雑な数値列を処理するように設計されており、CRMの実際の部分と想像上の部分の依存関係を保存し、相を保ちます。 提案手法は,音声バンクコーパスとデマンドデータベースから生成した雑音混合音声について評価する。 実価値に基づくマスキング法と比較して,提案したRCLSTMは,音声品質の知覚的評価(PESQ)を含むいくつかの客観的尺度において,4.3%以上向上する。

Most of the deep learning based speech enhancement (SE) methods rely on estimating the magnitude spectrum of the clean speech signal from the observed noisy speech signal, either by magnitude spectral masking or regression. These methods reuse the noisy phase while synthesizing the time-domain waveform from the estimated magnitude spectrum. However, there have been recent works highlighting the importance of phase in SE. There was an attempt to estimate the complex ratio mask taking phase into account using complex-valued feed-forward neural network (FFNN). But FFNNs cannot capture the sequential information essential for phase estimation. In this work, we propose a realisation of complex-valued long short-term memory (RCLSTM) network to estimate the complex ratio mask (CRM) using sequential information along time. The proposed RCLSTM is designed to process the complex-valued sequences using complex arithmetic, and hence it preserves the dependencies between the real and imaginary parts of CRM and thereby the phase. The proposed method is evaluated on the noisy speech mixtures formed from the Voice-Bank corpus and DEMAND database. When compared to real value based masking methods, the proposed RCLSTM improves over them in several objective measures including perceptual evaluation of speech quality (PESQ), in which it improves by over 4.3%
翻訳日:2022-10-02 12:50:04 公開日:2020-10-27
# 保証された自律性 - 信頼できる自律システムへの道

Assured Autonomy: Path Toward Living With Autonomous Systems We Can Trust ( http://arxiv.org/abs/2010.14443v1 )

ライセンス: Link先を確認
Ufuk Topcu, Nadya Bliss, Nancy Cooke, Missy Cummings, Ashley Llorens, Howard Shrobe, and Lenore Zuck(参考訳) 自主性の確立という課題は、産業、政府、アカデミックへの関心が急速に高まっている。 自律性(autonomy)は、人間の操作者によって直接制御されることなくシステムが振る舞う機能である。 そのために、様々なシステムやアプリケーションに存在することが期待されている。 防衛、移動、医療、製造、民間インフラを含む、広範囲の産業部門は、自治の機会を受け入れつつも、遅かれ早かれ必要な保証レベルを確立するための同様の障壁に直面している。 多くの政府機関が自律性の確保という課題に対処しようとしている。 すでに膨大な関心と自律性への投資を前提に、学界、産業、政府における利害関係者間の対話を促進し、意識を高めるために、保証された自律性に関する一連のワークショップが開催された。 この3つのワークショップは、自律性を保証するための目標、研究トレンドとニーズ、そして自律性の持続的な進歩を促進する戦略の統一的な理解を促進することを目的としている。 2019年10月に開催された第1回ワークショップでは、アプリケーションとセクター間の自律システムの実現における、現在および予想される課題と課題に焦点を当てた。 2020年2月に開催された第2回ワークショップでは、既存の能力、現在の研究、ワークショップで特定される課題や問題に対処できる研究トレンドに焦点を当てた。 第3のイベントは、前回の2つのワークショップの主要な発見と推奨事項の草案に関する議論に捧げられた。

The challenge of establishing assurance in autonomy is rapidly attracting increasing interest in the industry, government, and academia. Autonomy is a broad and expansive capability that enables systems to behave without direct control by a human operator. To that end, it is expected to be present in a wide variety of systems and applications. A vast range of industrial sectors, including (but by no means limited to) defense, mobility, health care, manufacturing, and civilian infrastructure, are embracing the opportunities in autonomy yet face the similar barriers toward establishing the necessary level of assurance sooner or later. Numerous government agencies are poised to tackle the challenges in assured autonomy. Given the already immense interest and investment in autonomy, a series of workshops on Assured Autonomy was convened to facilitate dialogs and increase awareness among the stakeholders in the academia, industry, and government. This series of three workshops aimed to help create a unified understanding of the goals for assured autonomy, the research trends and needs, and a strategy that will facilitate sustained progress in autonomy. The first workshop, held in October 2019, focused on current and anticipated challenges and problems in assuring autonomous systems within and across applications and sectors. The second workshop held in February 2020, focused on existing capabilities, current research, and research trends that could address the challenges and problems identified in workshop. The third event was dedicated to a discussion of a draft of the major findings from the previous two workshops and the recommendations.
翻訳日:2022-10-02 12:49:43 公開日:2020-10-27
# ソフィアロボットのためのニューロシンボリックな人型アームコントローラ

A Neuro-Symbolic Humanlike Arm Controller for Sophia the Robot ( http://arxiv.org/abs/2010.13983v1 )

ライセンス: Link先を確認
David Hanson (Hanson Robotics), Alishba Imran (Hanson Robotics), Abhinandan Vellanki (Hanson Robotics), Sanjeew Kanagaraj (Hanson Robotics)(参考訳) 本稿では,機械認識,畳み込みニューラルネットワーク,記号型AIを用いたロボットアームの設計と構築について概説する。 ロボットアームは、人間のような機械的構成と審美を備え、28度の自由度、タッチセンサー、一連の弾性アクチュエータを備えています。 アームはロールドウやガゼボでモデル化され、urdfモデルとユニティが組み合わされ、バッカラット(カジノカードゲーム)、ロックペーパーのハサミ、ハンドシェイク、ドローのライブゲームをプレイするためのモーションコントロールソリューションが実装された。 これには、手と顔のジェスチャーの社会的制御と、タスクの把握と操作のための物理的逆キネマティクス(ik)が含まれる。 このフレームワークは、anaアバターxprizeの人間とaiのハイブリッドテレプレゼンスへの取り組みであるteam ahamとの共同研究で現在使用されているsophia 2020 alphaプラットフォームに不可欠な部分である。 これらの結果は、広くリリースされたHanson Robotics Sophia 2020ロボットプラットフォームでテストすることができる。

We outline the design and construction of novel robotic arms using machine perception, convolutional neural networks, and symbolic AI for logical control and affordance indexing. We describe our robotic arms built with a humanlike mechanical configuration and aesthetic, with 28 degrees of freedom, touch sensors, and series elastic actuators. The arms were modelled in Roodle and Gazebo with URDF models, as well as Unity, and implement motion control solutions for solving live games of Baccarat (the casino card game), rock paper scissors, handshaking, and drawing. This includes live interactions with people, incorporating both social control of the hands and facial gestures, and physical inverse kinematics (IK) for grasping and manipulation tasks. The resulting framework is an integral part of the Sophia 2020 alpha platform, which is being used with ongoing research in the authors work with team AHAM, an ANA Avatar Xprize effort towards human-AI hybrid telepresence. These results are available to test on the broadly released Hanson Robotics Sophia 2020 robot platform, for users to try and extend.
翻訳日:2022-10-02 12:43:08 公開日:2020-10-27
# 教師なし知識注入による効果的なFAQ検索と質問マッチング

Effective FAQ Retrieval and Question Matching With Unsupervised Knowledge Injection ( http://arxiv.org/abs/2010.14049v1 )

ライセンス: Link先を確認
Wen-Ting Tseng, Tien-Hong Lo, Yung-Chang Hsu and Berlin Chen(参考訳) 頻繁に聞かれる質問(faq)の検索は、頻繁な質問や関心事に関する情報を提供することを目的としており、多くの分野において広範囲にわたって応用されている。 この目的のために、faq検索に対する主要なアプローチは、質問と質問(q-q)の類似性、質問の関連回答(q-a)との関連性、あるいはq-q類似度尺度とq-a関連尺度から収集された手がかりを組み合わせることによって、質問-回答対をランク付けする。 本稿では,q-Q類似度尺度とq-A関連度尺度から収集した手がかりと,汎用(オープンドメイン)知識ベースから抽出した余分な単語相互作用情報を,q-A関連度を推定するための文脈言語モデルに注入することにより,この研究の行を拡張した。 さらに,ドメイン固有知識ベース情報の補助として機能し,単語間のドメイン固有トポロジ関連関係を教師なしで活用することについても検討する。 これにより、文表現と、単語間のドメイン固有および局所的関連関係に関する知識を対応付けることができ、より優れたq-a関連尺度が得られる。 提案手法のバリエーションを,公開可能な中国のFAQデータセット上で評価するとともに,入力クエリと類似した意図を持つQAデータセットから質問を検索する大規模質問マッチングタスクに適用し,コンテキスト化する。 これら2つのデータセットの大規模な実験結果から,提案手法の有望な性能が確認された。

Frequently asked question (FAQ) retrieval, with the purpose of providing information on frequent questions or concerns, has far-reaching applications in many areas, where a collection of question-answer (Q-A) pairs compiled a priori can be employed to retrieve an appropriate answer in response to a user\u2019s query that is likely to reoccur frequently. To this end, predominant approaches to FAQ retrieval typically rank question-answer pairs by considering either the similarity between the query and a question (q-Q), the relevance between the query and the associated answer of a question (q-A), or combining the clues gathered from the q-Q similarity measure and the q-A relevance measure. In this paper, we extend this line of research by combining the clues gathered from the q-Q similarity measure and the q-A relevance measure and meanwhile injecting extra word interaction information, distilled from a generic (open domain) knowledge base, into a contextual language model for inferring the q-A relevance. Furthermore, we also explore to capitalize on domain-specific topically-relevant relations between words in an unsupervised manner, acting as a surrogate to the supervised domain-specific knowledge base information. As such, it enables the model to equip sentence representations with the knowledge about domain-specific and topically-relevant relations among words, thereby providing a better q-A relevance measure. We evaluate variants of our approach on a publicly-available Chinese FAQ dataset, and further apply and contextualize it to a large-scale question-matching task, which aims to search questions from a QA dataset that have a similar intent as an input query. Extensive experimental results on these two datasets confirm the promising performance of the proposed approach in relation to some state-of-the-art ones.
翻訳日:2022-10-02 12:42:46 公開日:2020-10-27
# 重症心疾患の診断における緑内障患者の至適性について

Optimisation des parcours patients pour lutter contre l'errance de diagnostic des patients atteints de maladies rares ( http://arxiv.org/abs/2010.14167v1 )

ライセンス: Link先を確認
Fr\'ed\'eric Log\'e (CMAP), R\'emi Besson (CRC), St\'ephanie Allassonni\`ere (CRC)(参考訳) フランスで稀な疾患を患っている患者は、診断されるまで平均2年待たなければならない。 この医療行動は、健康システムと、病態が悪化する可能性がある患者の両方にとって非常に有害である。 CRMR (Centrals of Reference for Rare Diseases) の効率的なネットワークが存在するが、患者はしばしばこれらの構造を遅すぎると言及される。 我々は,来院患者を検知しcrmrを参照する警告システムを構築するためのシミュレーターを作成するために,患者経路の確率論的モデリングを検討している。

A patient suffering from a rare disease in France has to wait an average of two years before being diagnosed. This medical wandering is highly detrimental both for the health system and for patients whose pathology may worsen. There exists an efficient network of Centres of Reference for Rare Diseases (CRMR), but patients are often referred to these structures too late. We are considering a probabilistic modelling of the patient pathway in order to create a simulator that will allow us to create an alert system that detects wandering patients and refers them to a CRMR while considering the potential additional costs associated with these decisions.
翻訳日:2022-10-02 12:41:46 公開日:2020-10-27
# 少数の例を用いたサブシーケンスマッチングのための動的境界時間ワーピング

Dynamic Boundary Time Warping for Sub-sequence Matching with Few Examples ( http://arxiv.org/abs/2010.14464v1 )

ライセンス: Link先を確認
{\L}ukasz Borchmann, Dawid Jurkiewicz, Filip Grali\'nski, Tomasz G\'orecki(参考訳) 本稿では,短いシーケンスの集合に類似した,長い時間的シーケンスの断片を見つける新しい方法を提案する。 クエリ例の平均シーケンスの計算に依存しない,このような検索のためのアルゴリズムを最初に提案した。 その代わり、クエリの例をそのまま使い、それら全てを同時に利用します。 dynamic time warping (dtw) 技術に基づく提案手法は, クエリ・バイ・サンプル検索タスクに特に適している。 自然言語処理の分野から2つの異なる少数ショット問題で評価した。 結果は、ベースラインと以前のアプローチを上回っているか、少ないサンプルが利用できる場合に同等の結果が得られることを示している。

The paper presents a novel method of finding a fragment in a long temporal sequence similar to the set of shorter sequences. We are the first to propose an algorithm for such a search that does not rely on computing the average sequence from query examples. Instead, we use query examples as is, utilizing all of them simultaneously. The introduced method based on the Dynamic Time Warping (DTW) technique is suited explicitly for few-shot query-by-example retrieval tasks. We evaluate it on two different few-shot problems from the field of Natural Language Processing. The results show it either outperforms baselines and previous approaches or achieves comparable results when a low number of examples is available.
翻訳日:2022-10-02 12:41:34 公開日:2020-10-27
# ストリーミングと非ストリーミングのasrを統一するカスケードエンコーダ

Cascaded encoders for unifying streaming and non-streaming ASR ( http://arxiv.org/abs/2010.14606v1 )

ライセンス: Link先を確認
Arun Narayanan, Tara N. Sainath, Ruoming Pang, Jiahui Yu, Chung-Cheng Chiu, Rohit Prabhavalkar, Ehsan Variani, Trevor Strohman(参考訳) エンドツーエンド(E2E)自動音声認識(ASR)モデルは、現在、いくつかのベンチマークで競合性能を示している。 これらのモデルはストリーミングモードまたは非ストリーミングモードで動作するように構成されている。 この研究は、両方のモードで同時に動作可能な単一のE2E ASRモデルを構築するためのカスケードエンコーダを提示する。 提案モデルはストリーミングと非ストリーミングエンコーダで構成される。 入力機能はストリーミングエンコーダによって最初に処理され、非ストリーミングエンコーダはストリーミングエンコーダの出力にのみ依存する。 単一のデコーダは、ストリーミングまたは非ストリーミングエンコーダの出力を使用してデコードすることを学ぶ。 その結果,このモデルはストリーミングモードで動作する場合,スタンドアロンのストリーミングモデルと同様のワードエラー率(WER)を実現し,非ストリーミングモードで動作する場合,10%~27%の相対的改善が得られた。 また,提案手法は既存のE2E2パスモデル,特に長文音声よりも優れていることを示す。

End-to-end (E2E) automatic speech recognition (ASR) models, by now, have shown competitive performance on several benchmarks. These models are structured to either operate in streaming or non-streaming mode. This work presents cascaded encoders for building a single E2E ASR model that can operate in both these modes simultaneously. The proposed model consists of streaming and non-streaming encoders. Input features are first processed by the streaming encoder; the non-streaming encoder operates exclusively on the output of the streaming encoder. A single decoder then learns to decode either using the output of the streaming or the non-streaming encoder. Results show that this model achieves similar word error rates (WER) as a standalone streaming model when operating in streaming mode, and obtains 10% -- 27% relative improvement when operating in non-streaming mode. Our results also show that the proposed approach outperforms existing E2E two-pass models, especially on long-form speech.
翻訳日:2022-10-02 12:41:26 公開日:2020-10-27
# 胸部X線によるCOVID-19診断のためのトリプルビュー畳み込みニューラルネットワーク

Triple-view Convolutional Neural Networks for COVID-19 Diagnosis with Chest X-ray ( http://arxiv.org/abs/2010.14091v1 )

ライセンス: Link先を確認
Jianjia Zhang(参考訳) 新型コロナウイルス(COVID-19)は世界中の多くの人々に影響を与えており、医療システムに大きなストレスを与えている。 新型コロナウイルスの早期かつ正確な診断は、感染患者のスクリーニングと人対人感染の破壊に重要である。 胸部X線(CXR)をベースとした深層学習を用いた新型コロナウイルスのコンピュータ支援診断がこの目的に期待できる解決策となる。 しかし、新型コロナウイルスの多種多様な放射線写真の特徴は、特に各CXRスキャンでは通常1つの画像しか生成しない場合、難しい。 データ不足は、大規模な医療用CXRデータセットの収集が現在困難であるため、別の問題である。 したがって、利用可能な限られたサンプルからより情報的で関連性の高い特徴を抽出する方法が不可欠である。 これらの問題に対処するため、従来のCXR画像処理方法とは異なり、CXR画像を用いたCOVID-19診断のための3視点畳み込みニューラルネットワークを提案する。 特に,提案するネットワークは,各cxr画像の3つのビュー,すなわち左肺ビュー,右肺ビュー,全体ビューから個々の特徴を3つのストリームに抽出し,それらを統合して共同診断を行う。 提案するネットワーク構造はヒト肺の解剖学的構造を尊重しており、実際にはcovid-19の臨床診断とよく一致している。 さらに、ビューのラベル付けは、多くの既存のメソッドで必要とされる専門家のドメイン知識を必要としない。 実験により, 提案手法は, 特に難易度の高い3クラス分類課題において, 最先端性能を実現し, 広範な一般化と高い柔軟性が認められた。

The Coronavirus Disease 2019 (COVID-19) is affecting increasingly large number of people worldwide, posing significant stress to the health care systems. Early and accurate diagnosis of COVID-19 is critical in screening of infected patients and breaking the person-to-person transmission. Chest X-ray (CXR) based computer-aided diagnosis of COVID-19 using deep learning becomes a promising solution to this end. However, the diverse and various radiographic features of COVID-19 make it challenging, especially when considering each CXR scan typically only generates one single image. Data scarcity is another issue since collecting large-scale medical CXR data set could be difficult at present. Therefore, how to extract more informative and relevant features from the limited samples available becomes essential. To address these issues, unlike traditional methods processing each CXR image from a single view, this paper proposes triple-view convolutional neural networks for COVID-19 diagnosis with CXR images. Specifically, the proposed networks extract individual features from three views of each CXR image, i.e., the left lung view, the right lung view and the overall view, in three streams and then integrate them for joint diagnosis. The proposed network structure respects the anatomical structure of human lungs and is well aligned with clinical diagnosis of COVID-19 in practice. In addition, the labeling of the views does not require experts' domain knowledge, which is needed by many existing methods. The experimental results show that the proposed method achieves state-of-the-art performance, especially in the more challenging three class classification task, and admits wide generality and high flexibility.
翻訳日:2022-10-02 12:40:56 公開日:2020-10-27
# 新型コロナウイルスとSARS-CoV-2の総合辞書と条件変動解析

A Comprehensive Dictionary and Term Variation Analysis for COVID-19 and SARS-CoV-2 ( http://arxiv.org/abs/2010.14588v1 )

ライセンス: Link先を確認
Robert Leaman and Zhiyong Lu(参考訳) sars-cov-2またはcovid-19のいずれでも使われる科学文献の固有用語の数は著しく多く、確立された標準用語にもかかわらず急速に増加を続けている。 この高い項変動は、これらの重要な実体の高いリコール識別を困難にする。 本書では,SARS-CoV-2およびCOVID-19の文献で用いられる用語の広範な辞書について述べる。 規則に基づくアプローチで新しい用語の変種を反復的に生成し、その変種を大きなテキストコーパスに配置する。 我々は辞書を用語資源の広範なコレクションと比較し、我々のリソースがかなりの数の追加用語を提供することを示す。 われわれの辞書を用いてSARS-CoV-2とCOVID-19の用語を経時的に分析し、ユニークな用語の数が急速に増え続けていることを示す。 我々の辞書はhttps://github.com/ncbi-nlp/CovidTermVar.comで無料で入手できる。

The number of unique terms in the scientific literature used to refer to either SARS-CoV-2 or COVID-19 is remarkably large and has continued to increase rapidly despite well-established standardized terms. This high degree of term variation makes high recall identification of these important entities difficult. In this manuscript we present an extensive dictionary of terms used in the literature to refer to SARS-CoV-2 and COVID-19. We use a rule-based approach to iteratively generate new term variants, then locate these variants in a large text corpus. We compare our dictionary to an extensive collection of terminological resources, demonstrating that our resource provides a substantial number of additional terms. We use our dictionary to analyze the usage of SARS-CoV-2 and COVID-19 terms over time and show that the number of unique terms continues to grow rapidly. Our dictionary is freely available at https://github.com/ncbi-nlp/CovidTermVar.
翻訳日:2022-10-02 12:34:30 公開日:2020-10-27
# アンサンブル特徴選択と分類器アンサンブルを用いた心電図データの分類精度の向上

Enhanced Classification Accuracy for Cardiotocogram Data with Ensemble Feature Selection and Classifier Ensemble ( http://arxiv.org/abs/2010.14051v1 )

ライセンス: Link先を確認
Tipawan Silwattananusarn, Wanida Kanarkard, Kulthida Tuamsuk(参考訳) 本稿では,分類精度を向上させるために,アンサンブル学習に基づく特徴選択と分類器アンサンブルモデルを提案する。 この仮説は、良い特徴集合は、アンサンブル特徴選択からSVMアンサンブルまでのクラスと高い相関を持つ特徴を含み、分類精度のパフォーマンスで達成できるというものである。 提案手法は2段階からなる。 (i)アンサンブルに基づく特徴選択手法を適用して、サポートベクターになりそうな特徴集合を選択すること。 (ii)選択した特徴を用いてSVMアンサンブルを構築する。 提案手法は心電図データを用いた実験により評価した。 4つの特徴選択技術が使われた。 (i)相関に基づく (ii)一貫性に基づく。 (iii)レリーフ及び (iv)情報ゲイン。 実験の結果,情報ゲイン特徴選択のアンサンブルとSVMアンサンブルとの相関に基づく特徴選択は,単一のSVM分類器とSVM分類器のアンサンブル特徴選択の両方よりも高い分類精度を示した。

In this paper ensemble learning based feature selection and classifier ensemble model is proposed to improve classification accuracy. The hypothesis is that good feature sets contain features that are highly correlated with the class from ensemble feature selection to SVM ensembles which can be achieved on the performance of classification accuracy. The proposed approach consists of two phases: (i) to select feature sets that are likely to be the support vectors by applying ensemble based feature selection methods; and (ii) to construct an SVM ensemble using the selected features. The proposed approach was evaluated by experiments on Cardiotocography dataset. Four feature selection techniques were used: (i) Correlation-based, (ii) Consistency-based, (iii) ReliefF and (iv) Information Gain. Experimental results showed that using the ensemble of Information Gain feature selection and Correlation-based feature selection with SVM ensembles achieved higher classification accuracy than both single SVM classifier and ensemble feature selection with SVM classifier.
翻訳日:2022-10-02 12:33:59 公開日:2020-10-27
# 適応型ウィンドウベーススケジューリングを用いた大規模ニューラルネットワークの外部学習

Out-of-core Training for Extremely Large-Scale Neural Networks With Adaptive Window-Based Scheduling ( http://arxiv.org/abs/2010.14109v1 )

ライセンス: Link先を確認
Akio Hayakawa, Takuya Narihira(参考訳) 大きなニューラルネットワークは様々なタスクで高いパフォーマンスを示すが、GPUメモリサイズに制限があるため、大きなネットワークのトレーニングは難しい。 本稿では,GPUメモリよりも大容量の超大規模ニューラルネットワークを高速にトレーニングする,新しいアウトオブコアアルゴリズムを提案する。 所定のメモリ予算制約の下で、スケジューリングアルゴリズムは各関数のメモリ使用量に応じてメモリ転送のタイミングを局所的に調整し、計算とメモリ転送の重複を改善する。 さらに、OSで一般的に行われている仮想アドレッシング手法を、コア外実行によるニューラルネットワークのトレーニングに適用し、頻繁なメモリ転送によるメモリ断片化を大幅に削減する。 提案アルゴリズムでは,1440バッチサイズでResNet-50をトレーニングし,トレーニング速度を55%に維持することに成功した。 また、従来の最先端ネットワーク、すなわち、より高速な実行で最先端ネットワークよりも1.55倍のネットワークをトレーニングしている。 さらに,本手法は様々な種類のネットワークに対してスケーラブルであることを示す。

While large neural networks demonstrate higher performance in various tasks, training large networks is difficult due to limitations on GPU memory size. We propose a novel out-of-core algorithm that enables faster training of extremely large-scale neural networks with sizes larger than allotted GPU memory. Under a given memory budget constraint, our scheduling algorithm locally adapts the timing of memory transfers according to memory usage of each function, which improves overlap between computation and memory transfers. Additionally, we apply virtual addressing technique, commonly performed in OS, to training of neural networks with out-of-core execution, which drastically reduces the amount of memory fragmentation caused by frequent memory transfers. With our proposed algorithm, we successfully train ResNet-50 with 1440 batch-size with keeping training speed at 55%, which is 7.5x larger than the upper bound of physical memory. It also outperforms a previous state-of-the-art substantially, i.e. it trains a 1.55x larger network than state-of-the-art with faster execution. Moreover, we experimentally show that our approach is also scalable for various types of networks.
翻訳日:2022-10-02 12:33:43 公開日:2020-10-27
# 頑健な低データ解:半導体ナノロッドの次元予測

A robust low data solution: dimension prediction of semiconductor nanorods ( http://arxiv.org/abs/2010.14111v1 )

ライセンス: Link先を確認
Xiaoli Liu, Yang Xu, Jiali Li, Xuanwei Ong, Salwa Ali Ibrahim, Tonio Buonassisi, Xiaonan Wang(参考訳) ナノ結晶の寸法の精密制御は、様々な用途の物性を調整するために重要である。 しかし、実験的な最適化による従来の制御は遅く、退屈で時間がかかります。 ここでは、半導体ナノロッド(NR)の長さ、幅、アスペクト比を正確に予測するために、堅牢なディープニューラルネットワークベースの回帰アルゴリズムを開発した。 限られた実験データ(28サンプル)があるため、データ生成に初めてSMOTE-REG(Synthetic Minority Oversampling Technique for regression)が使用されている。 ディープニューラルネットワークは回帰モデルの開発にさらに応用され、同じ分布を持つオリジナルデータと生成されたデータの両方でよく計算された予測を実証する。 予測モデルをさらに実験データで検証し,正確な予測結果を示す。 さらに、各変数の重みを解釈するために、局所解釈可能なモデル非依存説明(lime)が使われ、対象次元に対するその重要性に対応しており、実験的な観察とよく相関することが認められている。

Precise control over dimension of nanocrystals is critical to tune the properties for various applications. However, the traditional control through experimental optimization is slow, tedious and time consuming. Herein a robust deep neural network-based regression algorithm has been developed for precise prediction of length, width, and aspect ratios of semiconductor nanorods (NRs). Given there is limited experimental data available (28 samples), a Synthetic Minority Oversampling Technique for regression (SMOTE-REG) has been employed for the first time for data generation. Deep neural network is further applied to develop regression model which demonstrated the well performed prediction on both the original and generated data with a similar distribution. The prediction model is further validated with additional experimental data, showing accurate prediction results. Additionally, Local Interpretable Model-Agnostic Explanations (LIME) is used to interpret the weight for each variable, which corresponds to its importance towards the target dimension, which is approved to be well correlated well with experimental observations.
翻訳日:2022-10-02 12:33:22 公開日:2020-10-27
# 弱ラベルと強ラベルを用いた雑音データストリームのアクティブラーニング

Active Learning for Noisy Data Streams Using Weak and Strong Labelers ( http://arxiv.org/abs/2010.14149v1 )

ライセンス: Link先を確認
Taraneh Younesian, Dick Epema, Lydia Y. Chen(参考訳) データを正しくラベリングすることは、特にオンラインデータストリームにおいて、機械学習において高価で困難な作業である。 特にディープラーニングモデルは、現実世界の問題で取得するのが非常に難しい、クリーンなラベル付きデータを必要とする。 ラベル付けのコストを最小限に抑えながらラベル付けに有用なデータサンプルを選択することは、トレーニングプロセスの効率を維持する上で非常に重要です。 異なる専門知識と各ラベリングコストを持つ複数のラベラーに直面すると、どのラベラーを選ぶかを決めるのは簡単ではない。 本稿では,雑音ラベル付きデータストリームの存在下で,限られた予算に制約された,人間の自然なラベリング能力に着想を得た,新しい弱い,強いラベラー問題を考える。 そこで本研究では,フィルタリング,多様性の追加,情報的サンプル選択,ラベル抽出の4段階からなるオンライン能動学習アルゴリズムを提案する。 我々は、疑わしいノイズサンプルをフィルタリングし、強力なラベル付きラベルを用いた多様な情報データに予算を費やすことを目的としている。 我々は,個々のサンプルの情報とモデル信頼度を組み合わせることで,情報ゲインを測定する決定関数を導出する。 画像分類データセットCIFAR10とCIFAR100を最大60%のノイズで評価した。 実験により,クエリを行うラベラーをインテリジェントに決定することで,ラベラーを1つだけ持つ場合と同等の精度を保ちながら,予算を削減できることを示した。

Labeling data correctly is an expensive and challenging task in machine learning, especially for on-line data streams. Deep learning models especially require a large number of clean labeled data that is very difficult to acquire in real-world problems. Choosing useful data samples to label while minimizing the cost of labeling is crucial to maintain efficiency in the training process. When confronted with multiple labelers with different expertise and respective labeling costs, deciding which labeler to choose is nontrivial. In this paper, we consider a novel weak and strong labeler problem inspired by humans natural ability for labeling, in the presence of data streams with noisy labels and constrained by a limited budget. We propose an on-line active learning algorithm that consists of four steps: filtering, adding diversity, informative sample selection, and labeler selection. We aim to filter out the suspicious noisy samples and spend the budget on the diverse informative data using strong and weak labelers in a cost-effective manner. We derive a decision function that measures the information gain by combining the informativeness of individual samples and model confidence. We evaluate our proposed algorithm on the well-known image classification datasets CIFAR10 and CIFAR100 with up to 60% noise. Experiments show that by intelligently deciding which labeler to query, our algorithm maintains the same accuracy compared to the case of having only one of the labelers available while spending less of the budget.
翻訳日:2022-10-02 12:33:06 公開日:2020-10-27
# ネットワーク上のビッグデータからのフェデレーション学習

Federated Learning From Big Data Over Networks ( http://arxiv.org/abs/2010.14159v1 )

ライセンス: Link先を確認
Y. Sarcheshmehpour, M. Leinonen and A. Jung(参考訳) 本稿では,ローカルデータセットの集合からのフェデレーション学習のための新しいアルゴリズムを定式化し,研究する。 このアルゴリズムは、非方向の"empirical"グラフを介してローカルデータセットを関連付ける本質的なネットワーク構造に基くものである。 ネットワーク化線形回帰モデルを用いてネットワーク上のそのようなビッグデータをモデル化する。 各ローカルデータセットは個々の回帰重みを持つ。 ローカルデータセットのクローズクニットサブコレクションの重み付けは、ほんの少ししか外れないように強制される。 このことは、原始双対法を用いて解決するネットワークラッソ問題に自然に寄与する。 本手法のメッセージパッシング実装により,分散フェデレーション学習アルゴリズムを得る。 本研究では,連体学習アルゴリズムの統計的および計算的性質の詳細な解析を行う。

This paper formulates and studies a novel algorithm for federated learning from large collections of local datasets. This algorithm capitalizes on an intrinsic network structure that relates the local datasets via an undirected "empirical" graph. We model such big data over networks using a networked linear regression model. Each local dataset has individual regression weights. The weights of close-knit sub-collections of local datasets are enforced to deviate only little. This lends naturally to a network Lasso problem which we solve using a primal-dual method. We obtain a distributed federated learning algorithm via a message passing implementation of this primal-dual method. We provide a detailed analysis of the statistical and computational properties of the resulting federated learning algorithm.
翻訳日:2022-10-02 12:32:40 公開日:2020-10-27
# 訓練速度とモデル選択に関するベイズ的視点

A Bayesian Perspective on Training Speed and Model Selection ( http://arxiv.org/abs/2010.14499v1 )

ライセンス: Link先を確認
Clare Lyle, Lisa Schut, Binxin Ru, Yarin Gal, Mark van der Wilk(参考訳) 線形モデルにおけるトレーニング速度と限界確率の関係を説明するためにベイズ的視点を用いる。 第一に、モデルのトレーニング速度の尺度は、その限界確率を推定するために使用することができる。 第二に、ある条件下では回帰損失を最小限に抑えるために訓練された線形モデル組み合わせにおけるモデルの相対重み付けを予測する。 線形モデルおよびディープニューラルネットワークの無限幅限界に対するモデル選択タスクにおいて,結果を検証する。 我々はさらに,これらの設定で開発された直観が,確率的勾配降下を訓練した深層ニューラルネットワークにも有効であることを示す実証的証拠を与える。 その結果,確率的勾配降下を訓練したニューラルネットワークが一般化する関数に偏っている理由を説明するための新しい方向性が示唆された。

We take a Bayesian perspective to illustrate a connection between training speed and the marginal likelihood in linear models. This provides two major insights: first, that a measure of a model's training speed can be used to estimate its marginal likelihood. Second, that this measure, under certain conditions, predicts the relative weighting of models in linear model combinations trained to minimize a regression loss. We verify our results in model selection tasks for linear models and for the infinite-width limit of deep neural networks. We further provide encouraging empirical evidence that the intuition developed in these settings also holds for deep neural networks trained with stochastic gradient descent. Our results suggest a promising new direction towards explaining why neural networks trained with stochastic gradient descent are biased towards functions that generalize well.
翻訳日:2022-10-02 12:32:12 公開日:2020-10-27
# SIRI:空間記述解決のための空間関係誘導ネットワーク

SIRI: Spatial Relation Induced Network For Spatial Description Resolution ( http://arxiv.org/abs/2010.14301v1 )

ライセンス: Link先を確認
Peiyao Wang, Weixin Luo, Yanyu Xu, Haojie Li, Shugong Xu, Jianyu Yang, Shenghua Gao(参考訳) パノラマストリートビューにおいて,対応言語記述を与えられた対象位置に対して,言語誘導型局所化タスクとして空間的記述解決を提案する。 空間関係を蒸留しながら、オブジェクトレベルの関係を明示的に特徴付けることは、現在欠落しているが、このタスクには不可欠である。 本研究は,人間を模倣し,一対一の視点で空間関係の単語と対象を逐次横断し,その対象を同定する新しい空間関係誘導ネットワークを提案する。 具体的には、視覚的特徴は、投影された潜在空間内の暗黙的対象レベルでまず相関し、次いで各空間関係語によって蒸留され、それぞれの空間関係を表す異なる活性化された特徴となる。 さらに、位置情報の欠如を解消するために、グローバルな位置推定を先取りし、グローバルな位置推論の曖昧さをもたらす可能性がある。 言語的特徴と視覚的特徴の両方が連結され、ターゲットのローカライゼーションが確定する。 タッチダウン実験の結果,80ピクセルの半径で測定した精度では,最先端法よりも24\%高い値を示した。 提案手法は,タッチダウンと同じ設定で収集した拡張データセットの一般化も行う。

Spatial Description Resolution, as a language-guided localization task, is proposed for target location in a panoramic street view, given corresponding language descriptions. Explicitly characterizing an object-level relationship while distilling spatial relationships are currently absent but crucial to this task. Mimicking humans, who sequentially traverse spatial relationship words and objects with a first-person view to locate their target, we propose a novel spatial relationship induced (SIRI) network. Specifically, visual features are firstly correlated at an implicit object-level in a projected latent space; then they are distilled by each spatial relationship word, resulting in each differently activated feature representing each spatial relationship. Further, we introduce global position priors to fix the absence of positional information, which may result in global positional reasoning ambiguities. Both the linguistic and visual features are concatenated to finalize the target localization. Experimental results on the Touchdown show that our method is around 24\% better than the state-of-the-art method in terms of accuracy, measured by an 80-pixel radius. Our method also generalizes well on our proposed extended dataset collected using the same settings as Touchdown.
翻訳日:2022-10-02 12:25:32 公開日:2020-10-27
# ピクセルベースの表情合成

Pixel-based Facial Expression Synthesis ( http://arxiv.org/abs/2010.14397v1 )

ライセンス: Link先を確認
Arbish Akram, Nazar Khan(参考訳) 表情合成はGAN(Generative Adversarial Networks)の出現によって顕著な進歩を遂げた。 しかし、GANベースのアプローチは、テストデータ分布がトレーニングデータ分布に近い限り、主にフォトリアリスティックな結果を生成する。 GANの品質は、画像がわずかに異なる分布から得られる場合、著しく低下する。 また,近年の研究では,局所的な顔領域の変化によって表情を合成できることが示されている。 本研究では,各出力画素が1つの入力画素のみを観測する画素ベースの表情合成法を提案する。 提案手法は,数百のトレーニング画像のみを活用し,優れた一般化を実現する。 実験の結果,提案手法は,データ内画像における最先端のgansと同等の性能を示し,データ外画像の処理性能が著しく向上した。 さらに,提案手法は2桁の規模で,資源制約のあるデバイスへの展開に適したモデルである。

Facial expression synthesis has achieved remarkable advances with the advent of Generative Adversarial Networks (GANs). However, GAN-based approaches mostly generate photo-realistic results as long as the testing data distribution is close to the training data distribution. The quality of GAN results significantly degrades when testing images are from a slightly different distribution. Moreover, recent work has shown that facial expressions can be synthesized by changing localized face regions. In this work, we propose a pixel-based facial expression synthesis method in which each output pixel observes only one input pixel. The proposed method achieves good generalization capability by leveraging only a few hundred training images. Experimental results demonstrate that the proposed method performs comparably well against state-of-the-art GANs on in-dataset images and significantly better on out-of-dataset images. In addition, the proposed model is two orders of magnitude smaller which makes it suitable for deployment on resource-constrained devices.
翻訳日:2022-10-02 12:24:59 公開日:2020-10-27
# 複数仮説と深層埋め込みを用いた単語認識の改善

Improving Word Recognition using Multiple Hypotheses and Deep Embeddings ( http://arxiv.org/abs/2010.14411v1 )

ライセンス: Link先を確認
Siddhant Bansal, Praveen Krishnan, C.V. Jawahar(参考訳) 本稿では,単語画像埋め込みを用いた単語認識精度の向上手法を提案する。 訓練されたテキスト認識器を使用し、与えられた単語画像に対して複数のテキスト仮説を予測できる。 我々の融合方式は、訓練された単語画像埋め込みネットワークから得られた単語画像とテキスト埋め込みを利用して認識プロセスを改善する。 本研究では,単語画像の埋め込みが対応するテキストの埋め込みに近い適切な埋め込み空間を学習するために,三重項損失を用いてトレーニングを行うEmbedNetを提案する。 更新された埋め込み空間は、高い信頼性で正しい予測を選択するのに役立つ。 精度をさらに向上するために,信頼性ベースの精度ブースタ (CAB) と呼ばれるプラグアンドプレイモジュールを提案する。 CABモジュールは、テキスト認識器から得られた信頼スコアと、埋め込み間のユークリッド距離を取り込み、更新された距離ベクトルを生成する。 更新された距離ベクトルは、正しい単語に対する低い距離値と間違った単語に対する高い距離値とを有する。 我々は,ヒンディー語の本集に基づいて,提案手法を体系的に評価した。 本手法は, 単語認識精度の面で10%程度の絶対的改善を実現する。

We propose a novel scheme for improving the word recognition accuracy using word image embeddings. We use a trained text recognizer, which can predict multiple text hypothesis for a given word image. Our fusion scheme improves the recognition process by utilizing the word image and text embeddings obtained from a trained word image embedding network. We propose EmbedNet, which is trained using a triplet loss for learning a suitable embedding space where the embedding of the word image lies closer to the embedding of the corresponding text transcription. The updated embedding space thus helps in choosing the correct prediction with higher confidence. To further improve the accuracy, we propose a plug-and-play module called Confidence based Accuracy Booster (CAB). The CAB module takes in the confidence scores obtained from the text recognizer and Euclidean distances between the embeddings to generate an updated distance vector. The updated distance vector has lower distance values for the correct words and higher distance values for the incorrect words. We rigorously evaluate our proposed method systematically on a collection of books in the Hindi language. Our method achieves an absolute improvement of around 10 percent in terms of word recognition accuracy.
翻訳日:2022-10-02 12:24:44 公開日:2020-10-27
# 構成認識学習による構造化ビジュアル検索

Structured Visual Search via Composition-aware Learning ( http://arxiv.org/abs/2010.14438v1 )

ライセンス: Link先を確認
Mert Kilickaya and Arnold W.M. Smeulders(参考訳) 本稿では構造化クエリを用いたビジュアル検索について検討する。 この構造は、オブジェクトの位置とカテゴリをエンコードする2D合成の形をしている。 オブジェクトの位置とカテゴリの変換は、視覚的構成間の連続的な値の関係をもたらし、非常に有益な情報を伝達するが、以前の手法では利用されない。 この研究の目的は、同値の対称性の概念を利用することで、これらの連続的な関係を活用することである。 我々のモデル出力は入力変換に対して対称に変化するように訓練されており、感度の高い特徴空間をもたらす。 提案手法は,より小さな特徴空間を用いて少ないデータから学習するので,高い効率の検索手法がもたらされる。 MS-COCOとHICO-DETの2つの大規模ベンチマーク実験により,本手法が競合技術に対する性能向上につながることが示された。

This paper studies visual search using structured queries. The structure is in the form of a 2D composition that encodes the position and the category of the objects. The transformation of the position and the category of the objects leads to a continuous-valued relationship between visual compositions, which carries highly beneficial information, although not leveraged by previous techniques. To that end, in this work, our goal is to leverage these continuous relationships by using the notion of symmetry in equivariance. Our model output is trained to change symmetrically with respect to the input transformations, leading to a sensitive feature space. Doing so leads to a highly efficient search technique, as our approach learns from fewer data using a smaller feature space. Experiments on two large-scale benchmarks of MS-COCO and HICO-DET demonstrates that our approach leads to a considerable gain in the performance against competing techniques.
翻訳日:2022-10-02 12:24:27 公開日:2020-10-27
# MRIを用いた植物根構造再構築のためのロバスト骨格化

Robust Skeletonization for Plant Root Structure Reconstruction from MRI ( http://arxiv.org/abs/2010.14440v1 )

ライセンス: Link先を確認
Jannis Horn, Yi Zhao, Nils Wandel, Magdalena Landl, Andrea Schnepf, and Sven Behnke(参考訳) MRIからの植物根の構造的再構成は、低分解能と低信号-雑音比により、不連結性や誤った結合根につながる可能性があるため困難である。 我々はこの課題に対して2段階のアプローチを提案する。 第1段階はセマンティクスルート対土壌セグメンテーションに基づいており、ルートボクセルからシュートまでの最低コストパスを見つける。 第2段階は第1段階で生成された最大の完全連結成分を取り、3Dスケルトン化を用いてグラフ構造を抽出する。 本手法を22個のMRIスキャンで評価し,ヒトの専門的再構成と比較した。

Structural reconstruction of plant roots from MRI is challenging, because of low resolution and low signal-to-noise ratio of the 3D measurements which may lead to disconnectivities and wrongly connected roots. We propose a two-stage approach for this task. The first stage is based on semantic root vs. soil segmentation and finds lowest-cost paths from any root voxel to the shoot. The second stage takes the largest fully connected component generated in the first stage and uses 3D skeletonization to extract a graph structure. We evaluate our method on 22 MRI scans and compare to human expert reconstructions.
翻訳日:2022-10-02 12:24:12 公開日:2020-10-27
# 表現学習に現れる視覚概念の学習可能性と記述可能性の定量化

Quantifying Learnability and Describability of Visual Concepts Emerging in Representation Learning ( http://arxiv.org/abs/2010.14551v1 )

ライセンス: Link先を確認
Iro Laina, Ruth C. Fong, Andrea Vedaldi(参考訳) ブラックボックスモデル、特に教師なしモデルの影響の増大は、それらを理解し解釈するためのツールへの関心が高まっている。 本稿では,ディープニューラルネットワークによって自動的に検出される視覚グループ化を,最先端のクラスタリング手法から,どのように特徴付けるかを検討する。 クラスタは、既存のラベル付きデータセットに容易に対応します。 しかし、しばしばそうしないが、「直観的解釈可能性」を維持している。 我々は,教師なし画像を含む任意の画像グルーピングの解釈可能性の定量化に使用できる視覚学習性と記述可能性という2つの概念を導入する。 視覚的な例(学習可能性)から視覚的な例(学習可能性)を一般化する能力を測定することによって,(1) 視覚的な例の集合を簡潔でテキスト的な記述(記述可能性)に置き換えることができるかを測定する。 人間の注釈を分類器として評価することにより,既存の評価指標の主観的品質を除去した。 拡張性を向上するために,視覚的グループ化のための記述を自動生成するクラスレベルのキャプションシステムを提案し,デクリビビリティ・メトリックを用いて人間のアノテータと比較した。

The increasing impact of black box models, and particularly of unsupervised ones, comes with an increasing interest in tools to understand and interpret them. In this paper, we consider in particular how to characterise visual groupings discovered automatically by deep neural networks, starting with state-of-the-art clustering methods. In some cases, clusters readily correspond to an existing labelled dataset. However, often they do not, yet they still maintain an "intuitive interpretability". We introduce two concepts, visual learnability and describability, that can be used to quantify the interpretability of arbitrary image groupings, including unsupervised ones. The idea is to measure (1) how well humans can learn to reproduce a grouping by measuring their ability to generalise from a small set of visual examples (learnability) and (2) whether the set of visual examples can be replaced by a succinct, textual description (describability). By assessing human annotators as classifiers, we remove the subjective quality of existing evaluation metrics. For better scalability, we finally propose a class-level captioning system to generate descriptions for visual groupings automatically and compare it to human annotators using the describability metric.
翻訳日:2022-10-02 12:24:01 公開日:2020-10-27
# 変形性畳み込みLSTMによる人体感情認識

Deformable Convolutional LSTM for Human Body Emotion Recognition ( http://arxiv.org/abs/2010.14607v1 )

ライセンス: Link先を確認
Peyman Tahghighi, Abbas Koochari, Masoume Jalali(参考訳) 人は無数の方法で感情を表現する。 最も重要なものは、人間とコンピュータの相互作用(hci)のような様々な分野に多くの応用がある全身表現である。 人間の感情認識における最も重要な課題の1つは、顔と体を使って様々な方法で同じ感情を表現することである。 近年,Deep Neural Networks (DNN) を用いて,これらの課題を克服する手法が数多く提案されている。 しかし,これらの手法の多くは画像や表情のみに基づいており,画像のスケールや回転などの変形が認識精度に悪影響を及ぼすとは考えていなかった。 本研究では,変形可能な畳み込みに関する最近の研究に動機づけられ,畳み込み型長期短期記憶(convlstm)のコアに変形可能な動作を組み込むことにより,画像内のこれらの変形に対する頑健性を改善し,任意の長さの映像から感情認識タスクの精度を向上させる。 GEMEPデータセットの実験を行い、検証セット上での人体全体の感情認識のタスクにおいて、最先端の精度98.8%を達成した。

People represent their emotions in a myriad of ways. Among the most important ones is whole body expressions which have many applications in different fields such as human-computer interaction (HCI). One of the most important challenges in human emotion recognition is that people express the same feeling in various ways using their face and their body. Recently many methods have tried to overcome these challenges using Deep Neural Networks (DNNs). However, most of these methods were based on images or on facial expressions only and did not consider deformation that may happen in the images such as scaling and rotation which can adversely affect the recognition accuracy. In this work, motivated by recent researches on deformable convolutions, we incorporate the deformable behavior into the core of convolutional long short-term memory (ConvLSTM) to improve robustness to these deformations in the image and, consequently, improve its accuracy on the emotion recognition task from videos of arbitrary length. We did experiments on the GEMEP dataset and achieved state-of-the-art accuracy of 98.8% on the task of whole human body emotion recognition on the validation set.
翻訳日:2022-10-02 12:23:31 公開日:2020-10-27
# 単眼のメッシュ回復のための合成トレーニング

Synthetic Training for Monocular Human Mesh Recovery ( http://arxiv.org/abs/2010.14036v1 )

ライセンス: Link先を確認
Yu Sun and Qian Bao and Wu Liu and Wenpeng Gao and Yili Fu and Chuang Gan and Tao Mei(参考訳) モノクロ画像からの3dヒューマンメッシュの復元は、コンピュータビジョンで人気のあるトピックであり、幅広い応用がある。 本稿では,複数の身体部分(例えば,体,手)の3次元メッシュを,単一のRGB画像との大きな差で推定することを目的とする。 既存の手法は主に反復最適化に基づいており、非常に時間がかかる。 この目標を達成するために,単発モデルを訓練することを提案する。 主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。 この問題を解決するために、異なる身体特性のレグレッションを分散させるマルチブランチ・フレームワークを設計し、不用意なデータを用いて各コンポーネントのトレーニングを合成訓練方法で分離する。 さらに、一般化能力を強化するため、既存の手法では3d-to-2dプロジェクションによる推定3dポーズの監視にin-the-wild 2d poseデータセットを使用している。 しかし, カメラプロジェクションの外部予測効果に対処するには, 一般的に使用される弱視モデルが不十分である。 そこで,より適切な監督を行うために,射影関数に深さ差を組み込んだ深さ-スケール(d2s)投影法を提案する。 提案手法は, cmu panoptic studioデータセットの従来手法を評価結果で上回り, ヒト3.6mボディとstbハンドベンチマークで比較結果を得た。 より印象的なことに、提案したD2Sプロジェクションを用いて、クローズショット画像の性能が大幅に向上し、計算効率の明らかな優位性を維持している。

Recovering 3D human mesh from monocular images is a popular topic in computer vision and has a wide range of applications. This paper aims to estimate 3D mesh of multiple body parts (e.g., body, hands) with large-scale differences from a single RGB image. Existing methods are mostly based on iterative optimization, which is very time-consuming. We propose to train a single-shot model to achieve this goal. The main challenge is lacking training data that have complete 3D annotations of all body parts in 2D images. To solve this problem, we design a multi-branch framework to disentangle the regression of different body properties, enabling us to separate each component's training in a synthetic training manner using unpaired data available. Besides, to strengthen the generalization ability, most existing methods have used in-the-wild 2D pose datasets to supervise the estimated 3D pose via 3D-to-2D projection. However, we observe that the commonly used weak-perspective model performs poorly in dealing with the external foreshortening effect of camera projection. Therefore, we propose a depth-to-scale (D2S) projection to incorporate the depth difference into the projection function to derive per-joint scale variants for more proper supervision. The proposed method outperforms previous methods on the CMU Panoptic Studio dataset according to the evaluation results and achieves comparable results on the Human3.6M body and STB hand benchmarks. More impressively, the performance in close shot images gets significantly improved using the proposed D2S projection for weak supervision, while maintains obvious superiority in computational efficiency.
翻訳日:2022-10-02 12:15:50 公開日:2020-10-27
# MMFT-BERT:ビジュアル質問応答のためのBERT符号化による多モード核融合変換器

MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering ( http://arxiv.org/abs/2010.14095v1 )

ライセンス: Link先を確認
Aisha Urooj Khan, Amir Mazaheri, Niels da Vitoria Lobo, Mubarak Shah(参考訳) 本稿では,複数入力モードの個別および複合処理を保証するために,MMFT-BERT(MultiModal Fusion Transformer with BERT encodings)を提案する。 提案手法は,BERTエンコーディングを個別に採用したマルチモーダルデータ(ビデオとテキスト)を処理し,新しいトランスフォーマーベースの融合法を用いて融合する。 提案手法は,異なるモダリティのソースを,類似のアーキテクチャを持つ異なるBERTインスタンスに分解するが,重みは可変である。 これにより、TVQAデータセット上でSOTA結果が得られる。 さらに,TVQAの独立した診断サブセットであるTVQA-Visualを提供する。 この一連の質問は、スーパーヒューマンパフォーマンスの達成を防ぐために、モデルの振る舞いとTVQAがもたらす課題を研究するのに役立ちます。 本手法の有効性と優位性を示す実験を行った。

We present MMFT-BERT(MultiModal Fusion Transformer with BERT encodings), to solve Visual Question Answering (VQA) ensuring individual and combined processing of multiple input modalities. Our approach benefits from processing multimodal data (video and text) adopting the BERT encodings individually and using a novel transformer-based fusion method to fuse them together. Our method decomposes the different sources of modalities, into different BERT instances with similar architectures, but variable weights. This achieves SOTA results on the TVQA dataset. Additionally, we provide TVQA-Visual, an isolated diagnostic subset of TVQA, which strictly requires the knowledge of visual (V) modality based on a human annotator's judgment. This set of questions helps us to study the model's behavior and the challenges TVQA poses to prevent the achievement of super human performance. Extensive experiments show the effectiveness and superiority of our method.
翻訳日:2022-10-02 12:15:22 公開日:2020-10-27
# 位置・角度依存重み付けによるボクセルの再構成

Reconstruction of Voxels with Position- and Angle-Dependent Weightings ( http://arxiv.org/abs/2010.14205v1 )

ライセンス: Link先を確認
Lina Felsner, Tobias W\"urfl, Christopher Syben, Philipp Roser, Alexander Preuhs, Andreas Maier, and Christian Riess(参考訳) 個々の重み付きボクセルの復元問題は前方投影における位置依存関数と角度依存関数をモデル化することができる。 これによりシステムマトリックスが変更され、標準フィルタバックプロジェクションの使用が禁止される。 本研究は,システム行列と重み付け部の観点から,まずこの再構成問題を定式化する。 疑似逆計算を行い,解がランク不足であり,従って非常に不適切であることを示す。 これは再建の基本的な限界である。 次に反復解を導出し、その経験則を任意の閉形式解に実験的に示す。

The reconstruction problem of voxels with individual weightings can be modeled a position- and angle- dependent function in the forward-projection. This changes the system matrix and prohibits to use standard filtered backprojection. In this work we first formulate this reconstruction problem in terms of a system matrix and weighting part. We compute the pseudoinverse and show that the solution is rank-deficient and hence very ill posed. This is a fundamental limitation for reconstruction. We then derive an iterative solution and experimentally show its uperiority to any closed-form solution.
翻訳日:2022-10-02 12:15:04 公開日:2020-10-27
# 屋内移動地図システムのための3dポイントクラウドと画像データの簡易かつ効率的な登録

A Simple and Efficient Registration of 3D Point Cloud and Image Data for Indoor Mobile Mapping System ( http://arxiv.org/abs/2010.14261v1 )

ライセンス: Link先を確認
Hao Ma, Jingbin Liu, Keke Liu, Hongyu Qiu, Dong Xu, Zemin Wang, Xiaodong Gong, Sheng Yang (State Key Laboratory of Information Engineering in Survering, Mapping and Remote Sensing, Wuhan University)(参考訳) 光画像による3次元LiDAR点雲の登録は、マルチソースデータの組み合わせにおいて重要である。 幾何学的ミスアライメントは元々、LiDAR点雲と光学画像の間のポーズデータに存在する。 初期ポーズの精度と3dポイントと画像データの統合の適用性を向上させるため,簡易かつ効率的な登録手法を開発した。 まず,LiDARの点雲と画像から点特徴を抽出する。点特徴は単一フレームのLiDARから,点特徴は古典的なCanny法による画像から抽出する。 コストマップはCannyイメージエッジ検出に基づいて構築される。 最適化方向は、低コストが所望の方向を表すコストマップによって導かれ、損失関数もまた、目的とした方法のロバスト性を向上させると考えられる。 実験は楽しい結果を示します。

Registration of 3D LiDAR point clouds with optical images is critical in the combination of multi-source data. Geometric misalignment originally exists in the pose data between LiDAR point clouds and optical images. To improve the accuracy of the initial pose and the applicability of the integration of 3D points and image data, we develop a simple but efficient registration method. We firstly extract point features from LiDAR point clouds and images: point features is extracted from single-frame LiDAR and point features from images using classical Canny method. Cost map is subsequently built based on Canny image edge detection. The optimization direction is guided by the cost map where low cost represents the the desired direction, and loss function is also considered to improve the robustness of the the purposed method. Experiments show pleasant results.
翻訳日:2022-10-02 12:14:57 公開日:2020-10-27
# 車両-プレート関係採掘によるナンバープレート検出のためのエンドツーエンドトレーニングネットワーク

End-to-end trainable network for degraded license plate detection via vehicle-plate relation mining ( http://arxiv.org/abs/2010.14266v1 )

ライセンス: Link先を確認
Song-Lu Chen, Shu Tian, Jia-Wei Ma, Qi Liu, Chun Yang, Feng Chen and Xu-Cheng Yin(参考訳) ライセンスプレート検出は、ライセンスプレート認識システムの最初の重要なステップであり、オンロードシナリオのような実際のアプリケーションでは依然として難しい。 特に遠距離カメラや移動カメラが原因で生じる小型・斜めのナンバープレートは検出が困難である。 そこで本研究では,車両プレート関係マイニングによるライセンスプレートの劣化検出法を提案する。 まず,車両とナンバープレートの関係を利用してナンバープレート周辺の地域を推定し,検索面積を大幅に削減し,極めて小型のナンバープレートを高精度に検出する手法を提案する。 第2に,ライセンスプレートの四隅を後退させて斜めのライセンスプレートをロバストに検出することにより,局所領域における四角境界ボックスの予測を提案する。 さらに、ネットワーク全体をエンドツーエンドでトレーニングすることもできる。 提案手法の有効性を検証するための広範囲な実験を行った。 コードはhttps://github.com/chensonglu/LPD-end-to-endで入手できる。

License plate detection is the first and essential step of the license plate recognition system and is still challenging in real applications, such as on-road scenarios. In particular, small-sized and oblique license plates, mainly caused by the distant and mobile camera, are difficult to detect. In this work, we propose a novel and applicable method for degraded license plate detection via vehicle-plate relation mining, which localizes the license plate in a coarse-to-fine scheme. First, we propose to estimate the local region around the license plate by using the relationships between the vehicle and the license plate, which can greatly reduce the search area and precisely detect very small-sized license plates. Second, we propose to predict the quadrilateral bounding box in the local region by regressing the four corners of the license plate to robustly detect oblique license plates. Moreover, the whole network can be trained in an end-to-end manner. Extensive experiments verify the effectiveness of our proposed method for small-sized and oblique license plates. Codes are available at https://github.com/chensonglu/LPD-end-to-end.
翻訳日:2022-10-02 12:14:44 公開日:2020-10-27
# 屋内移動体計測システムのための計測可能なパノラマ画像生成法

A Method of Generating Measurable Panoramic Image for Indoor Mobile Measurement System ( http://arxiv.org/abs/2010.14270v1 )

ライセンス: Link先を確認
Hao Ma, Jingbin Liu, Zhirong Hu, Hongyu Qiu, Dong Xu, Zemin Wang, Xiaodong Gong, Sheng Yang(参考訳) 本稿では,LiDARと画像データの融合と画像縫合という2つの重要な研究ホットスポットを含む,深度情報付き高品質なパノラマ画像を生成する手法を設計する。 3dポイントと画像データの融合のために, 信頼性の高いキャリブレーションおよび同期センサに基づいて, ライダーポイントをrgb画像平面に投影することにより, まずスパース深度マップを生成できるので, パラメータ自己適応フレームワークを採用し, 2次元高密度深度マップを作成する。 画像縫合には、グラフカットに基づく方法を用いて重なり領域の最適シームラインを探索し、ピラミッドマルチバンドに基づく幾何学的影響と画像ブレンドを緩和し、縫合線近傍の測光効果を解消する。 各画素は深度値に関連付けられているので、この深さ値を球面投影の半径として設計し、さらにパノラマ画像を世界座標に投影し、高品質で測定可能なパノラマ画像を生成する。 目的とする手法は,データ収集プラットフォームからのデータに基づいてテストし,良好なアプリケーションの見通しを示す。

This paper designs a technique route to generate high-quality panoramic image with depth information, which involves two critical research hotspots: fusion of LiDAR and image data and image stitching. For the fusion of 3D points and image data, since a sparse depth map can be firstly generated by projecting LiDAR point onto the RGB image plane based on our reliable calibrated and synchronized sensors, we adopt a parameter self-adaptive framework to produce 2D dense depth map. For image stitching, optimal seamline for the overlapping area is searched using a graph-cuts-based method to alleviate the geometric influence and image blending based on the pyramid multi-band is utilized to eliminate the photometric effects near the stitching line. Since each pixel is associated with a depth value, we design this depth value as a radius in the spherical projection which can further project the panoramic image to the world coordinate and consequently produces a high-quality measurable panoramic image. The purposed method is tested on the data from our data collection platform and presents a satisfactory application prospects.
翻訳日:2022-10-02 12:14:27 公開日:2020-10-27
# 高速局所攻撃:オブジェクト検出器の局所的逆例の生成

Fast Local Attack: Generating Local Adversarial Examples for Object Detectors ( http://arxiv.org/abs/2010.14291v1 )

ライセンス: Link先を確認
Quanyu Liao, Xin Wang, Bin Kong, Siwei Lyu, Youbing Yin, Qi Song and Xi Wu(参考訳) ディープニューラルネットワークは、敵の例に弱い。 画像に知覚できない逆境の摂動を加えると失敗する。 既存の研究は画像分類器やアンカーベースの物体検出器の攻撃に重点を置いているが、画像全体の摂動を世界中に発生させるため、それは不要である。 本研究では,高レベルなセマンティック情報を利用して,アンカーフリー物体検出器の攻撃的局所摂動を生成する。 その結果、計算量が少なくなり、高いブラックボックス攻撃が可能となり、攻撃性能も向上した。 提案手法で生成した逆例は, アンカーフリー物体検出器を攻撃できるだけでなく, アンカーベース物体検出器を攻撃できる。

The deep neural network is vulnerable to adversarial examples. Adding imperceptible adversarial perturbations to images is enough to make them fail. Most existing research focuses on attacking image classifiers or anchor-based object detectors, but they generate globally perturbation on the whole image, which is unnecessary. In our work, we leverage higher-level semantic information to generate high aggressive local perturbations for anchor-free object detectors. As a result, it is less computationally intensive and achieves a higher black-box attack as well as transferring attack performance. The adversarial examples generated by our method are not only capable of attacking anchor-free object detectors, but also able to be transferred to attack anchor-based object detector.
翻訳日:2022-10-02 12:14:05 公開日:2020-10-27
# グラフニューラルネットワークを用いた強増分構成解析

Strongly Incremental Constituency Parsing with Graph Neural Networks ( http://arxiv.org/abs/2010.14568v1 )

ライセンス: Link先を確認
Kaiyu Yang, Jia Deng(参考訳) 構文木への構文解析は、nlpの下流アプリケーションに役立つ。 トランジションベースのパーサは、状態遷移システムでアクションを実行することでツリーを構築する。 それらは計算効率が良く、機械学習を利用して部分木に基づく行動を予測できる。 しかし、既存のトランジッションベースのパーサーは、主にシフト-還元遷移系に基づいており、これは人間が文をパースする方法と一致していない。 人間はそれぞれのステップに正確に1つのトークンを追加することで、単一のパースツリーを成長させる。 本稿では,attach-juxtaposeと呼ばれる新しい遷移系を提案する。 それは強いインクリメンタルであり、単一の木を使って部分的な文を表し、各アクションは部分木にちょうど1つのトークンを追加します。 当社のトランジションシステムに基づいて, 強くインクリメンタルなパーサを開発した。 各ステップでは、グラフニューラルネットワークを使用して部分木をエンコードし、アクションを予測する。 我々はPenn Treebank (PTB) と Chinese Treebank (CTB) について解析を行った。 PTBでは、既存のパーサを選挙区木のみでトレーニングし、依存関係ツリーを追加のトレーニングデータとして使用する最先端のパーサと同等に動作します。 CTBでは,我々のパーサーが新たな最先端技術を確立している。 コードはhttps://github.com/princeton-vl/attach-juxtapose-parserで入手できる。

Parsing sentences into syntax trees can benefit downstream applications in NLP. Transition-based parsers build trees by executing actions in a state transition system. They are computationally efficient, and can leverage machine learning to predict actions based on partial trees. However, existing transition-based parsers are predominantly based on the shift-reduce transition system, which does not align with how humans are known to parse sentences. Psycholinguistic research suggests that human parsing is strongly incremental: humans grow a single parse tree by adding exactly one token at each step. In this paper, we propose a novel transition system called attach-juxtapose. It is strongly incremental; it represents a partial sentence using a single tree; each action adds exactly one token into the partial tree. Based on our transition system, we develop a strongly incremental parser. At each step, it encodes the partial tree using a graph neural network and predicts an action. We evaluate our parser on Penn Treebank (PTB) and Chinese Treebank (CTB). On PTB, it outperforms existing parsers trained with only constituency trees; and it performs on par with state-of-the-art parsers that use dependency trees as additional training data. On CTB, our parser establishes a new state of the art. Code is available at https://github.com/princeton-vl/attach-juxtapose-parser.
翻訳日:2022-10-02 12:07:51 公開日:2020-10-27
# 臨床報告のリターンの低下について

On the diminishing return of labeling clinical reports ( http://arxiv.org/abs/2010.14587v1 )

ライセンス: Link先を確認
Jean-Baptiste Lamare, Tobi Olatunji, Li Yao(参考訳) より優れた機械学習モデルは、非医療領域からの自然言語処理(NLP)問題に関するより大規模なデータセットのトレーニングによって、着実に得られる可能性がある、という証拠は少ない。 医学的NLPにも同じことが当てはまるかどうかは、これまで徹底的に調査されていない。 この研究は、必ずしもそうではないことを示している。 我々は, 医療nlpモデルの性能が, ごく少量のラベル付きデータで得られる可能性について, 共通の信念とは正反対に, 問題領域の特異性から, 何らかの反直観的な見解を明らかにした。 胸部x線x線診断データのうち最大2つからなる固定テストセットにおけるトレーニングデータサイズの影響を,異常分類の課題に対して定量的に示す。 トレーニングされたモデルは、トレーニングデータを効率的に利用するだけでなく、現在の最先端のルールベースシステムを大幅に上回っています。

Ample evidence suggests that better machine learning models may be steadily obtained by training on increasingly larger datasets on natural language processing (NLP) problems from non-medical domains. Whether the same holds true for medical NLP has by far not been thoroughly investigated. This work shows that this is indeed not always the case. We reveal the somehow counter-intuitive observation that performant medical NLP models may be obtained with small amount of labeled data, quite the opposite to the common belief, most likely due to the domain specificity of the problem. We show quantitatively the effect of training data size on a fixed test set composed of two of the largest public chest x-ray radiology report datasets on the task of abnormality classification. The trained models not only make use of the training data efficiently, but also outperform the current state-of-the-art rule-based systems by a significant margin.
翻訳日:2022-10-02 12:06:59 公開日:2020-10-27
# 深層強化学習による金融資産特有取引ルールの学習

Learning Financial Asset-Specific Trading Rules via Deep Reinforcement Learning ( http://arxiv.org/abs/2010.14194v1 )

ライセンス: Link先を確認
Mehran Taghian, Ahmad Asadi, Reza Safabakhsh(参考訳) 資産の財務状況に基づいて資産固有の取引信号を生成することは、自動取引における難題の1つである。 さまざまな技術分析技術に基づいて様々な資産取引ルールを実験的に提案する。 しかし、こうしたトレーディング戦略は黒字であり、膨大な歴史データから新たな資産固有のトレーディングルールを抽出して総リターンを増やし、ポートフォリオのリスクを減らすことは、人間の専門家にとって困難である。 近年,各資産の新たな取引ルールを学ぶために,様々な深層強化学習(drl)手法が採用されている。 本稿では,様々な特徴抽出モジュールを用いたDRLモデルを提案する。 異なる入力表現がモデルの性能に及ぼす影響を調査し,異なる市場および資産状況におけるDRLモデルの性能について検討した。 この研究で提案されたモデルは、単一資産固有の取引ルールを学習する際の他の最先端モデルよりも優れており、特定の資産について2年間で262%近いリターンを得た一方、最高の最先端モデルは、同じ期間に同じ資産で78%を得ることができた。

Generating asset-specific trading signals based on the financial conditions of the assets is one of the challenging problems in automated trading. Various asset trading rules are proposed experimentally based on different technical analysis techniques. However, these kind of trading strategies are profitable, extracting new asset-specific trading rules from vast historical data to increase total return and decrease the risk of portfolios is difficult for human experts. Recently, various deep reinforcement learning (DRL) methods are employed to learn the new trading rules for each asset. In this paper, a novel DRL model with various feature extraction modules is proposed. The effect of different input representations on the performance of the models is investigated and the performance of DRL-based models in different markets and asset situations is studied. The proposed model in this work outperformed the other state-of-the-art models in learning single asset-specific trading rules and obtained a total return of almost 262% in two years on a specific asset while the best state-of-the-art model get 78% on the same asset in the same time period.
翻訳日:2022-10-02 12:06:11 公開日:2020-10-27
# 人工知能の観点から見たデジタルトウィン

The DigitalTwin from an Artificial Intelligence Perspective ( http://arxiv.org/abs/2010.14376v1 )

ライセンス: Link先を確認
Oliver Niggemann and Alexander Diedrich and Christian Kuehnert and Erik Pfannstiel and Joshua Schraven(参考訳) 人工知能と機械学習に基づくサイバー物理システムのためのサービスは、物理的な仮想表現を必要とする。 モデリングの労力を削減し、結果を同期するためには、システムライフサイクル全体、すなわちDigitalTwinにおいて、すべてのサービスが使用する共通かつユニークな仮想表現が必要である。 本稿では,AI参照モデルであるAI参照モデルであるDigitalTwinを定義する。 この参照モデルは、プロセス産業から実行中の例を用いて検証され、また、最近のプロジェクトで行われている作業を分析します。

Services for Cyber-Physical Systems based on Artificial Intelligence and Machine Learning require a virtual representation of the physical. To reduce modeling efforts and to synchronize results, for each system, a common and unique virtual representation used by all services during the whole system life-cycle is needed, i.e. a DigitalTwin. In this paper such a DigitalTwin, namely the AI reference model AITwin, is defined. This reference model is verified by using a running example from process industry and by analyzing the work done in recent projects.
翻訳日:2022-10-02 12:05:16 公開日:2020-10-27
# WMT2020のためのVolctrans並列コーパスフィルタリングシステム

Volctrans Parallel Corpus Filtering System for WMT 2020 ( http://arxiv.org/abs/2010.14029v1 )

ライセンス: Link先を確認
Runxin Xu, Zhuo Zhi, Jun Cao, Mingxuan Wang, Lei Li(参考訳) 本稿では、並列コーパスフィルタリングと低リソース条件のアライメントに関するwmt20共有タスクへの提案について述べる。 このタスクでは、参加者は与えられたドキュメントペアから潜在的な並列文ペアを調整し、低品質のペアをフィルタできるようにスコアを付ける必要があります。 我々のシステムであるVolctransは、採掘モジュールと採点モジュールの2つのモジュールで構成されている。 単語アライメントモデルに基づいて、マイニングモジュールは、潜在並列文を抽出するために反復マイニング戦略を採用する。 スコアリングモジュールでは、XLMベースのスコアラーがスコアを提供し、その後に機構とアンサンブルを再配置する。 Scratch/Fine-Tune条件下では,3.x/2.xと2.x/2.xがベースラインを上回っている。

In this paper, we describe our submissions to the WMT20 shared task on parallel corpus filtering and alignment for low-resource conditions. The task requires the participants to align potential parallel sentence pairs out of the given document pairs, and score them so that low-quality pairs can be filtered. Our system, Volctrans, is made of two modules, i.e., a mining module and a scoring module. Based on the word alignment model, the mining module adopts an iterative mining strategy to extract latent parallel sentences. In the scoring module, an XLM-based scorer provides scores, followed by reranking mechanisms and ensemble. Our submissions outperform the baseline by 3.x/2.x and 2.x/2.x for km-en and ps-en on From Scratch/Fine-Tune conditions, which is the highest among all submissions.
翻訳日:2022-10-02 11:58:06 公開日:2020-10-27
# BERT から BERT へ: シーケンスタギングにおけるタスク固有およびタスク非依存の半監督アプローチの比較

To BERT or Not to BERT: Comparing Task-specific and Task-agnostic Semi-Supervised Approaches for Sequence Tagging ( http://arxiv.org/abs/2010.14042v1 )

ライセンス: Link先を確認
Kasturi Bhattacharjee, Miguel Ballesteros, Rishita Anubhai, Smaranda Muresan, Jie Ma, Faisal Ladhak, Yaser Al-Onaizan(参考訳) BERTのようなTransformerライクなアーキテクチャを使って大量の未ラベルデータを活用することは、下流タスクのためにさらに微調整できる汎用表現の学習における有効性から、近年人気を集めている。 しかし、これらのモデルの訓練は、経済と環境の両方の観点から費用がかかる可能性がある。 本研究では、タスク固有の半教師付きアプローチであるクロスビュートレーニング(CVT)を探索し、ドメインやタスクに関連する英語データを含む複数の設定でタスクに依存しないBERTと比較することにより、ラベル付きデータを効果的に活用する方法を検討する。 CVTはより軽量なモデルアーキテクチャを用いており、一連のシーケンスタギングタスクにおいてBERTと同じような性能を達成でき、財務・環境への影響も少ないことを示す。

Leveraging large amounts of unlabeled data using Transformer-like architectures, like BERT, has gained popularity in recent times owing to their effectiveness in learning general representations that can then be further fine-tuned for downstream tasks to much success. However, training these models can be costly both from an economic and environmental standpoint. In this work, we investigate how to effectively use unlabeled data: by exploring the task-specific semi-supervised approach, Cross-View Training (CVT) and comparing it with task-agnostic BERT in multiple settings that include domain and task relevant English data. CVT uses a much lighter model architecture and we show that it achieves similar performance to BERT on a set of sequence tagging tasks, with lesser financial and environmental impact.
翻訳日:2022-10-02 11:57:51 公開日:2020-10-27
# イベント検出:グラフ畳み込みニューラルネットワークのためのゲート多様性と構文重要度スコア

Event Detection: Gate Diversity and Syntactic Importance Scoresfor Graph Convolution Neural Networks ( http://arxiv.org/abs/2010.14123v1 )

ライセンス: Link先を確認
Viet Dac Lai, Tuan Ngo Nguyen, Thien Huu Nguyen(参考訳) イベント検出(ED)に関する最近の研究は、構文依存グラフがグラフ畳み込みニューラルネットワーク(GCN)に応用され、最先端のパフォーマンスを実現することを示唆している。 しかし、そのようなグラフベースモデルにおける隠れベクトルの計算はトリガー候補語とは無関係であり、イベント予測のためのトリガー候補の無関係な情報をポテンティカルに残している。 addi-tion では、現在の ed のモデルは、depen-dency tree で得られる単語の全体的な文脈的重要度スコアを活用できず、パフォーマンスが向上している。 そこで本研究では,cgnモデルの隠れvec-torにおけるノイズ情報をトリガー候補からの情報に基づいてフィルタリングする新しいゲーティング機構を提案する。 また、ゲートの文脈的多様性を実現するための新しいメカニズムを導入し、EDのグラフサンドモデルに対する重要スコアの整合性を示す。 実験により,提案モデルが2つのEDデータセットの最先端性を実現することが示された。

Recent studies on event detection (ED) haveshown that the syntactic dependency graph canbe employed in graph convolution neural net-works (GCN) to achieve state-of-the-art per-formance. However, the computation of thehidden vectors in such graph-based models isagnostic to the trigger candidate words, po-tentially leaving irrelevant information for thetrigger candidate for event prediction. In addi-tion, the current models for ED fail to exploitthe overall contextual importance scores of thewords, which can be obtained via the depen-dency tree, to boost the performance. In thisstudy, we propose a novel gating mechanismto filter noisy information in the hidden vec-tors of the GCN models for ED based on theinformation from the trigger candidate. Wealso introduce novel mechanisms to achievethe contextual diversity for the gates and theimportance score consistency for the graphsand models in ED. The experiments show thatthe proposed model achieves state-of-the-artperformance on two ED datasets
翻訳日:2022-10-02 11:57:36 公開日:2020-10-27
# パーソナライズド・レスポンス生成におけるリスナーの社会的アイデンティティ

Listener's Social Identity Matters in Personalised Response Generation ( http://arxiv.org/abs/2010.14342v1 )

ライセンス: Link先を確認
Guanyi Chen, Yinhe Zheng, Yupei Du(参考訳) パーソナライズされた応答生成は、ジェネレータに社会的アイデンティティを割り当てることで、人間のような応答を生成することができる。 しかし、プラグマティクス理論は、人間は、自分が誰であるかだけでなく、誰と話しているかにも基づいて、話し方を調整することを示唆している。 言い換えれば、パーソナライズされた対話をモデル化する場合、リスナーの社会的アイデンティティも考慮に入れるとよいかもしれない。 この考え方を検証するために,ジェンダーを社会変数の典型例として用いて,聴取者のアイデンティティがソーシャルメディア上の中国語対話で使用される言語に与える影響を調査する。 また、パーソナライズされたジェネレータを構築します。 実験の結果,応答の言語利用においてリスナーのアイデンティティが本当に重要であること,応答生成器がそのような言語利用の違いを捉えることができることを示した。 さらに興味深いことに、リスナーのアイデンティティをモデリングすることで、パーソナライズされたレスポンスジェネレータは、自身のアイデンティティにおいてより良く機能する。

Personalised response generation enables generating human-like responses by means of assigning the generator a social identity. However, pragmatics theory suggests that human beings adjust the way of speaking based on not only who they are but also whom they are talking to. In other words, when modelling personalised dialogues, it might be favourable if we also take the listener's social identity into consideration. To validate this idea, we use gender as a typical example of a social variable to investigate how the listener's identity influences the language used in Chinese dialogues on social media. Also, we build personalised generators. The experiment results demonstrate that the listener's identity indeed matters in the language use of responses and that the response generator can capture such differences in language use. More interestingly, by additionally modelling the listener's identity, the personalised response generator performs better in its own identity.
翻訳日:2022-10-02 11:57:08 公開日:2020-10-27
# 文脈ステレオタイプをアンマキングする:BERTの性バイアスの測定と緩和

Unmasking Contextual Stereotypes: Measuring and Mitigating BERT's Gender Bias ( http://arxiv.org/abs/2010.14534v1 )

ライセンス: Link先を確認
Marion Bartl and Malvina Nissim and Albert Gatt(参考訳) 文脈的単語埋め込みは、NLPシステムにおける表現的知識源として標準埋め込みを置き換える。 これまで様々なバイアスが標準的な単語埋め込みに見られてきたため、置換に符号化されたバイアスも評価することが重要である。 BERT (Devlin et al., 2018) に着目し, 性別を示す対象語と, 英語とドイツ語の職業名との関連性を調査し, 実世界の労働統計との比較を行った。 我々は,GAPコーパス(Webster et al., 2018)上でBERTを微調整し,CDS(Maudslay et al., 2019)を適用した上でバイアスを軽減する。 偏りを測定する方法は英語などの言語には適しているが、ドイツ語のような豊かな形態素と性標示を持つ言語には適さないことを示す。 本研究は,近年の大規模多言語モデルを重視したバイアスと緩和手法を言語横断的に検討することの重要性を浮き彫りにした。

Contextualized word embeddings have been replacing standard embeddings as the representational knowledge source of choice in NLP systems. Since a variety of biases have previously been found in standard word embeddings, it is crucial to assess biases encoded in their replacements as well. Focusing on BERT (Devlin et al., 2018), we measure gender bias by studying associations between gender-denoting target words and names of professions in English and German, comparing the findings with real-world workforce statistics. We mitigate bias by fine-tuning BERT on the GAP corpus (Webster et al., 2018), after applying Counterfactual Data Substitution (CDS) (Maudslay et al., 2019). We show that our method of measuring bias is appropriate for languages such as English, but not for languages with a rich morphology and gender-marking, such as German. Our results highlight the importance of investigating bias and mitigation techniques cross-linguistically, especially in view of the current emphasis on large-scale, multilingual language models.
翻訳日:2022-10-02 11:56:37 公開日:2020-10-27
# 自己回帰非対称線型ガウス隠れマルコフモデル

Autoregressive Asymmetric Linear Gaussian Hidden Markov Models ( http://arxiv.org/abs/2010.15604v1 )

ライセンス: Link先を確認
Carlos Puerto-Santana and Pedro Larra\~naga and Concha Bielza(参考訳) 時間とともに進化する現実のプロセスでは、関連する変数間の関係が変化する可能性がある。 したがって、プロセスの各状態に対して異なる推論モデルを持つことが有利である。 非対称隠れマルコフモデルは、この動的要求を満たし、プロセスのトレンドを潜在変数として表現できるフレームワークを提供する。 本稿では,これらの非対称隠れマルコフモデルに非対称自己回帰成分を持たせるように修正し,与えられた訓練集合に対するペナルティ化確率を最大化する自己回帰順序をモデルが選択できるようにした。 さらに,提案モデルに適合するように推論や隠れ状態復号,パラメータ学習をどのように適用すべきかを示す。 最後に、この新モデルの能力を示すために、合成および実データを用いて実験を行う。

In a real life process evolving over time, the relationship between its relevant variables may change. Therefore, it is advantageous to have different inference models for each state of the process. Asymmetric hidden Markov models fulfil this dynamical requirement and provide a framework where the trend of the process can be expressed as a latent variable. In this paper, we modify these recent asymmetric hidden Markov models to have an asymmetric autoregressive component, allowing the model to choose the order of autoregression that maximizes its penalized likelihood for a given training set. Additionally, we show how inference, hidden states decoding and parameter learning must be adapted to fit the proposed model. Finally, we run experiments with synthetic and real data to show the capabilities of this new model.
翻訳日:2022-10-02 11:49:23 公開日:2020-10-27
# 音声とタグの相互アライメントのためのコンテキストタグ埋め込み学習

Learning Contextual Tag Embeddings for Cross-Modal Alignment of Audio and Tags ( http://arxiv.org/abs/2010.14171v1 )

ライセンス: Link先を確認
Xavier Favory, Konstantinos Drossos, Tuomas Virtanen, Xavier Serra(参考訳) 自己教師型音声表現学習は、様々な下流タスクに使用できる汎用的なオーディオ埋め込みを得るための魅力的な代替手段を提供する。 音声と単語/タグの両方を考慮に入れるアプローチは、トレーニング中に未知のタグに一般化できるテキスト処理モデルを採用していない。 本研究では,音声オートエンコーダ(AAE),一般単語埋め込みモデル(WEM),マルチヘッド自己認識機構(MHA)を用いて音声表現を学習する手法を提案する。 MHAはWEMの出力に参画し、音声に関連付けられたタグの文脈的表現を提供し、MHAの出力とAAEのエンコーダの出力とをコントラスト的損失を用いて整合させる。 我々はAAEとMHAを共同で最適化し、オーディオ表現(AAEのエンコーダの出力)を、音、音楽ジャンル、楽器分類の3つの下流タスクで活用することで評価する。 以上の結果から,タグベースのネットワークにおいて,複数頭部の自己アテンションを用いることで,より優れた学習音声表現を導き出すことができた。

Self-supervised audio representation learning offers an attractive alternative for obtaining generic audio embeddings, capable to be employed into various downstream tasks. Published approaches that consider both audio and words/tags associated with audio do not employ text processing models that are capable to generalize to tags unknown during training. In this work we propose a method for learning audio representations using an audio autoencoder (AAE), a general word embeddings model (WEM), and a multi-head self-attention (MHA) mechanism. MHA attends on the output of the WEM, providing a contextualized representation of the tags associated with the audio, and we align the output of MHA with the output of the encoder of AAE using a contrastive loss. We jointly optimize AAE and MHA and we evaluate the audio representations (i.e. the output of the encoder of AAE) by utilizing them in three different downstream tasks, namely sound, music genre, and music instrument classification. Our results show that employing multi-head self-attention with multiple heads in the tag-based network can induce better learned audio representations.
翻訳日:2022-10-02 11:48:07 公開日:2020-10-27
# レート低減原理に基づく深層ネットワーク

Deep Networks from the Principle of Rate Reduction ( http://arxiv.org/abs/2010.14765v1 )

ライセンス: Link先を確認
Kwan Ho Ryan Chan, Yaodong Yu, Chong You, Haozhi Qi, John Wright, Yi Ma(参考訳) この研究は、レート低減と(シフト)不変分類の原理から現代の深層(畳み込み)ネットワークを解釈しようとするものである。 学習した特徴量の減少率を最適化する基本的反復勾配法は,多層深層ネットワーク,すなわち1層1回を自然に実現することを示す。 階層化アーキテクチャ、線形および非線形演算子、およびネットワークのパラメータさえも、勾配スキームをエミュレートして前方伝播方式で明示的に構成されている。 この「ホワイトボックス」ネットワークの全てのコンポーネントは正確な最適化、統計学、幾何学的解釈を持っている。 この原則付きフレームワークは、ディープネットワークの初期段階におけるマルチチャネル昇降とスパースコーディングの役割も明らかにし、正当化する。 さらに、ソ派生ネットワークのすべての線型作用素は、厳密にシフト不変であるように分類を強制すると、自然にマルチチャネル畳み込みとなる。 この導出は、そのような畳み込みネットワークがスペクトル領域の構築と学習において著しく効率的であることを示している。 予備シミュレーションと実験により,構築した深層ネットワークは,バックプロパゲーショントレーニングがなくても,すでに良好な識別表現を学習できることが示された。

This work attempts to interpret modern deep (convolutional) networks from the principles of rate reduction and (shift) invariant classification. We show that the basic iterative gradient ascent scheme for optimizing the rate reduction of learned features naturally leads to a multi-layer deep network, one iteration per layer. The layered architectures, linear and nonlinear operators, and even parameters of the network are all explicitly constructed layer-by-layer in a forward propagation fashion by emulating the gradient scheme. All components of this "white box" network have precise optimization, statistical, and geometric interpretation. This principled framework also reveals and justifies the role of multi-channel lifting and sparse coding in early stage of deep networks. Moreover, all linear operators of the so-derived network naturally become multi-channel convolutions when we enforce classification to be rigorously shift-invariant. The derivation also indicates that such a convolutional network is significantly more efficient to construct and learn in the spectral domain. Our preliminary simulations and experiments indicate that so constructed deep network can already learn a good discriminative representation even without any back propagation training.
翻訳日:2022-10-02 11:47:46 公開日:2020-10-27
# ファイバオプティカル通信システムのための物理に基づく深層学習

Physics-Based Deep Learning for Fiber-Optic Communication Systems ( http://arxiv.org/abs/2010.14258v1 )

ライセンス: Link先を確認
Christian H\"ager and Henry D. Pfister(参考訳) We propose a new machine-learning approach for fiber-optic communication systems whose signal propagation is governed by the nonlinear Schr\"odinger equation (NLSE). Our main observation is that the popular split-step method (SSM) for numerically solving the NLSE has essentially the same functional form as a deep multi-layer neural network; in both cases, one alternates linear steps and pointwise nonlinearities. We exploit this connection by parameterizing the SSM and viewing the linear steps as general linear functions, similar to the weight matrices in a neural network. The resulting physics-based machine-learning model has several advantages over "black-box" function approximators. 例えば、なぜうまく機能するのかを理解するために、学習したソリューションを調べ、解釈することができる。 応用として、NLSEを効率よく反転させるタスクである低複素非線形等化を考える。 これをデジタルバックプロパゲーション (digital backpropagation, dbp) と呼ぶ。 ニューラルネットワークを採用するのではなく、学習DBP(LDBP)と呼ばれるアルゴリズムでは、各ステップでトレーニング可能なフィルタを持つ物理モデルを使用しており、勾配降下中にフィルタタップを段階的にプルーニングすることで複雑さを低減している。 私たちのおもな発見は、フィルタを非常に短い長さにプルーピングできるということです。 結果として、複雑さは以前の作業と比べて桁違いに小さくすることができる。 フィルタ応答を検査することにより、学習パラメータ構成に対する追加の理論的正当性が提供される。 我々の研究は、データ駆動最適化と既存のドメイン知識を組み合わせることで、古いコミュニケーション問題に対する新たな洞察を生み出すことができることを示している。

We propose a new machine-learning approach for fiber-optic communication systems whose signal propagation is governed by the nonlinear Schr\"odinger equation (NLSE). Our main observation is that the popular split-step method (SSM) for numerically solving the NLSE has essentially the same functional form as a deep multi-layer neural network; in both cases, one alternates linear steps and pointwise nonlinearities. We exploit this connection by parameterizing the SSM and viewing the linear steps as general linear functions, similar to the weight matrices in a neural network. The resulting physics-based machine-learning model has several advantages over "black-box" function approximators. For example, it allows us to examine and interpret the learned solutions in order to understand why they perform well. As an application, low-complexity nonlinear equalization is considered, where the task is to efficiently invert the NLSE. This is commonly referred to as digital backpropagation (DBP). Rather than employing neural networks, the proposed algorithm, dubbed learned DBP (LDBP), uses the physics-based model with trainable filters in each step and its complexity is reduced by progressively pruning filter taps during gradient descent. Our main finding is that the filters can be pruned to remarkably short lengths-as few as 3 taps/step-without sacrificing performance. As a result, the complexity can be reduced by orders of magnitude in comparison to prior work. By inspecting the filter responses, an additional theoretical justification for the learned parameter configurations is provided. Our work illustrates that combining data-driven optimization with existing domain knowledge can generate new insights into old communications problems.
翻訳日:2022-10-02 11:40:20 公開日:2020-10-27
# グリオ芽腫のラジオゲノミクス : 分子サブタイプに関連する放射線の同定

Radiogenomics of Glioblastoma: Identification of Radiomics associated with Molecular Subtypes ( http://arxiv.org/abs/2010.14068v1 )

ライセンス: Link先を確認
Navodini Wijethilake, Mobarakol Islam, Dulani Meedeniya, Charith Chitraranjan, Indika Perera, Hongliang Ren(参考訳) グリオ芽腫は悪性中枢神経系腫瘍の中で最も悪性であり、GBMサブタイプは分子レベル遺伝子変異に基づく。 これらの変化は、組織学にも影響を及ぼす。 したがって、拡張や浮腫の発生など、画像の可視的な変化を引き起こす可能性がある。 本研究では,腫瘍部分領域の強度,容積,テクスチャの特徴を抽出し,遺伝子発現の特徴と生存率との相関を同定する。 以上より,glioblastomaの亜型との関連性について検討した。 その結果, 腫瘍, 腫瘍コア, 壊死領域のフラクタル次元は, 神経, 古典, 間葉系サブタイプ間に有意差が認められた。 さらに、gbmのサブタイプを平均79%の放射線利用率で予測し、90%以上を遺伝子発現プロファイルを利用した精度で予測する。

Glioblastoma is the most malignant type of central nervous system tumor with GBM subtypes cleaved based on molecular level gene alterations. These alterations are also happened to affect the histology. Thus, it can cause visible changes in images, such as enhancement and edema development. In this study, we extract intensity, volume, and texture features from the tumor subregions to identify the correlations with gene expression features and overall survival. Consequently, we utilize the radiomics to find associations with the subtypes of glioblastoma. Accordingly, the fractal dimensions of the whole tumor, tumor core, and necrosis regions show a significant difference between the Proneural, Classical and Mesenchymal subtypes. Additionally, the subtypes of GBM are predicted with an average accuracy of 79% utilizing radiomics and accuracy over 90% utilizing gene expression profiles.
翻訳日:2022-10-02 11:39:57 公開日:2020-10-27
# FaceLeaks: Black-boxクエリによる転送学習モデルに対する推論攻撃

FaceLeaks: Inference Attacks against Transfer Learning Models via Black-box Queries ( http://arxiv.org/abs/2010.14023v1 )

ライセンス: Link先を確認
Seng Pei Liew and Tsubasa Takahashi(参考訳) 転送学習は、大量のデータを事前トレーニングした単一の強力なモデル(教師モデル)を使用して、トレーニングコストを著しく負担することなく、タスク固有のモデル(学生モデル)を構築できる、有用な機械学習フレームワークである。 教師モデルは、プライベートデータを含むか、プライベート入力と相互作用する。 教師モデルと直接対話することなく,そのような個人情報を漏洩・推測できるかどうかを検討する。 このような推論攻撃は、個人のプライバシーに非常に敏感な伝達学習の応用である顔認識の文脈で記述する。 ブラックボックスと現実的な設定の下では,生徒モデルによる個々のトレーニングインスタンスとのインタラクションでは教師に関する情報が明らかにされないため,既存の推論手法は有効ではないことを示す。 次に、集約レベル情報から推測する新しい戦略を提案する。 これにより、敵が生徒モデルのみにアクセスした場合でも、教師モデルに対するメンバーシップ推論攻撃が可能であることが示されている。 さらに,敵が限定的な補助情報を持っている場合でも,敏感な属性を推測できることを実証する。 最後に防衛戦略を議論し、評価する。 我々の広範な研究は、情報漏洩が現実の状況で広く使われている伝達学習フレームワークに対する真のプライバシー上の脅威であることを示している。

Transfer learning is a useful machine learning framework that allows one to build task-specific models (student models) without significantly incurring training costs using a single powerful model (teacher model) pre-trained with a large amount of data. The teacher model may contain private data, or interact with private inputs. We investigate if one can leak or infer such private information without interacting with the teacher model directly. We describe such inference attacks in the context of face recognition, an application of transfer learning that is highly sensitive to personal privacy. Under black-box and realistic settings, we show that existing inference techniques are ineffective, as interacting with individual training instances through the student models does not reveal information about the teacher. We then propose novel strategies to infer from aggregate-level information. Consequently, membership inference attacks on the teacher model are shown to be possible, even when the adversary has access only to the student models. We further demonstrate that sensitive attributes can be inferred, even in the case where the adversary has limited auxiliary information. Finally, defensive strategies are discussed and evaluated. Our extensive study indicates that information leakage is a real privacy threat to the transfer learning framework widely used in real-life situations.
翻訳日:2022-10-02 11:38:34 公開日:2020-10-27
# ディープニューラルネットワークの低ビット幅トレーニングのための統計的枠組み

A Statistical Framework for Low-bitwidth Training of Deep Neural Networks ( http://arxiv.org/abs/2010.14298v1 )

ライセンス: Link先を確認
Jianfei Chen, Yu Gai, Zhewei Yao, Michael W. Mahoney, Joseph E. Gonzalez(参考訳) ニューラルネットワークモデルのアクティベーション、重み、勾配を定量化することで、低ビット幅ハードウェアを使用するフル量子化トレーニング(FQT)は、ディープニューラルネットワークのトレーニングを加速するための有望なアプローチである。 FQTの最大の課題は、特に勾配量子化が収束特性にどのように影響するかという理論的な理解の欠如である。 本稿では,FQTアルゴリズムを解析するための統計的枠組みを提示することにより,この問題に対処する。 我々は、FQTの量子化勾配を、その完全精度の確率的推定量、すなわち量子化認識訓練(QAT)と呼ばれる手順と見なしている。 我々は, FQT勾配がQAT勾配の偏りのない推定器であることを示し, その分散に対する勾配量子化の影響について論じる。 これらの理論結果に触発されて、2つの新しい勾配量子化器を開発し、既存のテンソル単位の量子化器よりも分散が小さいことを示す。 ImageNet上のResNet-50のトレーニングでは、既存のINT8ベースラインに匹敵する、QATに対するバリデーション精度の損失がわずか0.5%である。

Fully quantized training (FQT), which uses low-bitwidth hardware by quantizing the activations, weights, and gradients of a neural network model, is a promising approach to accelerate the training of deep neural networks. One major challenge with FQT is the lack of theoretical understanding, in particular of how gradient quantization impacts convergence properties. In this paper, we address this problem by presenting a statistical framework for analyzing FQT algorithms. We view the quantized gradient of FQT as a stochastic estimator of its full precision counterpart, a procedure known as quantization-aware training (QAT). We show that the FQT gradient is an unbiased estimator of the QAT gradient, and we discuss the impact of gradient quantization on its variance. Inspired by these theoretical results, we develop two novel gradient quantizers, and we show that these have smaller variance than the existing per-tensor quantizer. For training ResNet-50 on ImageNet, our 5-bit block Householder quantizer achieves only 0.5% validation accuracy loss relative to QAT, comparable to the existing INT8 baseline.
翻訳日:2022-10-02 11:32:57 公開日:2020-10-27
# 効率的な非パラメトリック帯域探索のためのサブサンプリング

Sub-sampling for Efficient Non-Parametric Bandit Exploration ( http://arxiv.org/abs/2010.14323v1 )

ライセンス: Link先を確認
Dorian Baudry (CNRS, CRIStAL, SEQUEL), Emilie Kaufmann (CNRS, CRIStAL, SEQUEL), Odalric-Ambrym Maillard (SEQUEL)(参考訳) 本稿では,異なる武器群(ベルヌーイ分布,ガウス分布,ポアソン分布)に対して漸近的に最適な後悔を同時に達成する再サンプリングに基づく,最初のマルチアームバンディットアルゴリズムを提案する。 各ケースで最適となるように異なる事前を指定する必要があるトンプソンサンプリングとは異なり、我々の提案するRB-SDAは分布依存的なチューニングを必要としない。 RB-SDAは、BESA [1] と SSMC [2] アルゴリズムで最初に使われたサブサンプリングのアイデアを、異なるサブサンプリング方式で組み合わせたサブサンプリングデュエルアルゴリズム(SDA)のファミリーに属している。 特にrb-sdaはランダムブロックサンプリングを用いる。 本研究は,バンディットモデルにおける新たなアプローチの柔軟性とロバスト性を評価する実験研究である。

In this paper we propose the first multi-armed bandit algorithm based on re-sampling that achieves asymptotically optimal regret simultaneously for different families of arms (namely Bernoulli, Gaussian and Poisson distributions). Unlike Thompson Sampling which requires to specify a different prior to be optimal in each case, our proposal RB-SDA does not need any distribution-dependent tuning. RB-SDA belongs to the family of Sub-sampling Duelling Algorithms (SDA) which combines the sub-sampling idea first used by the BESA [1] and SSMC [2] algorithms with different sub-sampling schemes. In particular, RB-SDA uses Random Block sampling. We perform an experimental study assessing the flexibility and robustness of this promising novel approach for exploration in bandit models.
翻訳日:2022-10-02 11:32:35 公開日:2020-10-27
# 非線形偏微分方程式に制約された多様体の小さなデータセットに対する確率論的学習

Probabilistic learning on manifolds constrained by nonlinear partial differential equations for small datasets ( http://arxiv.org/abs/2010.14324v1 )

ライセンス: Link先を確認
Christian Soize and Roger Ghanem(参考訳) The Probabilistic Learning on Manifolds (PLoM) の新たな拡張について紹介する。 これにより、確率計算モデル(SCM)が利用可能であり、ベクトル値のランダム制御パラメータに依存する偏微分方程式(PDE)によって記述される幅広い非線形確率境界値問題の解を合成することができる。 このSCMの1つの数値評価のコストは、トレーニングデータセット(小さなデータ)を構築するために限られた数のポイントしか計算できないと仮定される。 トレーニングデータセットの各点は、ベクトル値確率過程(確率解)とそれに依存するランダム制御パラメータから実現される。 PDEによって制約された提示されたPLoMは、確率過程とその対応するランダム制御パラメータの多くの学習された実現を生成することができる。 これらの学習された実現は、平均二乗感覚におけるPDEのベクトル値ランダム残差を最小限に抑えるために生成される。 この課題を解決するために適切な新しい手法が開発されている。 3つの申し込みがある。 1つは、非定常確率励起を持つ単純な不確実非線形力学系である。 2つ目は、レイノルズ数がランダム制御パラメータである非圧縮性流れに対する2次元非線形非定常ナビエ-ストークス方程式に関するものである。 最後に、不確実性を持つ3次元弾性構造の非線形ダイナミクスを扱う。 その結果,確率的PDEにより制約されたPLoMの検証が可能となったが,制約のないPLoMのさらなる検証も可能となった。

A novel extension of the Probabilistic Learning on Manifolds (PLoM) is presented. It makes it possible to synthesize solutions to a wide range of nonlinear stochastic boundary value problems described by partial differential equations (PDEs) for which a stochastic computational model (SCM) is available and depends on a vector-valued random control parameter. The cost of a single numerical evaluation of this SCM is assumed to be such that only a limited number of points can be computed for constructing the training dataset (small data). Each point of the training dataset is made up realizations from a vector-valued stochastic process (the stochastic solution) and the associated random control parameter on which it depends. The presented PLoM constrained by PDE allows for generating a large number of learned realizations of the stochastic process and its corresponding random control parameter. These learned realizations are generated so as to minimize the vector-valued random residual of the PDE in the mean-square sense. Appropriate novel methods are developed to solve this challenging problem. Three applications are presented. The first one is a simple uncertain nonlinear dynamical system with a nonstationary stochastic excitation. The second one concerns the 2D nonlinear unsteady Navier-Stokes equations for incompressible flows in which the Reynolds number is the random control parameter. The last one deals with the nonlinear dynamics of a 3D elastic structure with uncertainties. The results obtained make it possible to validate the PLoM constrained by stochastic PDE but also provide further validation of the PLoM without constraint.
翻訳日:2022-10-02 11:32:20 公開日:2020-10-27
# 敵対的デュエル・バンディット

Adversarial Dueling Bandits ( http://arxiv.org/abs/2010.14563v1 )

ライセンス: Link先を確認
Aadirupa Saha, Tomer Koren, Yishay Mansour(参考訳) 敵対的デュエル・バンディットにおける後悔の最小化の問題を紹介する。 古典的なDueling Banditsのように、学習者はアイテムのペアを何度も選択し、このペアに対して相対的なバイナリの ‘win-loss’ フィードバックのみを観察する必要があるが、このフィードバックは任意の選好行列から生成され、おそらく逆選択される。 我々の主な結果は、K$項目の集合から得られる 'emph{Borda-winner} に対して $T$-round regret が$\tilde{O}(K^{1/3}T^{2/3})$であり、一致する $\Omega(K^{1/3}T^{2/3})$ lower bound である。 私たちはまた、同様の高い確率の後悔境界を証明します。 さらに、より単純な \emph{fixed-gap} 逆向きの設定も検討し、これは2つの極端優先フィードバックモデル(定常選好と任意の選好列)をブリッジする。 ここでは、$\Delta$は、最良の項目と他のすべての項目の間のボルダのスコアのギャップであり、主な問題パラメータへの依存度が$K$と$\Delta$が(対数的要因まで)厳密であることを示す$\Omega(K/\Delta^2)の低い境界を示す。

We introduce the problem of regret minimization in Adversarial Dueling Bandits. As in classic Dueling Bandits, the learner has to repeatedly choose a pair of items and observe only a relative binary `win-loss' feedback for this pair, but here this feedback is generated from an arbitrary preference matrix, possibly chosen adversarially. Our main result is an algorithm whose $T$-round regret compared to the \emph{Borda-winner} from a set of $K$ items is $\tilde{O}(K^{1/3}T^{2/3})$, as well as a matching $\Omega(K^{1/3}T^{2/3})$ lower bound. We also prove a similar high probability regret bound. We further consider a simpler \emph{fixed-gap} adversarial setup, which bridges between two extreme preference feedback models for dueling bandits: stationary preferences and an arbitrary sequence of preferences. For the fixed-gap adversarial setup we give an $\smash{ \tilde{O}((K/\Delta^2)\log{T}) }$ regret algorithm, where $\Delta$ is the gap in Borda scores between the best item and all other items, and show a lower bound of $\Omega(K/\Delta^2)$ indicating that our dependence on the main problem parameters $K$ and $\Delta$ is tight (up to logarithmic factors).
翻訳日:2022-10-02 11:31:26 公開日:2020-10-27
# 勾配分割による時間差学習

Temporal Difference Learning as Gradient Splitting ( http://arxiv.org/abs/2010.14657v1 )

ライセンス: Link先を確認
Rui Liu and Alex Olshevsky(参考訳) 線形関数近似を用いた時間差学習は、マルコフ決定過程におけるポリシーの価値関数の低次元近似を求める一般的な方法である。 本手法は, 適切に選択された関数の勾配の分割という観点から, 新たな解釈を与える。 この解釈の結果として、勾配降下の収束証明は時間差学習にほぼ冗長に適用できる。 時間差がなぜ機能するのかという、より完全な説明に加えて、我々の解釈は収束時間も改善する。 1/\sqrt{t}$ step-size では、時間差学習における従来の同等の有限時間収束時間境界が、境界の前に1/(1-\gamma)$の乗算係数を持ち、$\gamma$が値引き係数である。 値関数の平均を推定するTD学習における小さな変化は、1/(1-\gamma)$が漸近的に無視可能な項を乗算する収束時間を持つことを示す。

Temporal difference learning with linear function approximation is a popular method to obtain a low-dimensional approximation of the value function of a policy in a Markov Decision Process. We give a new interpretation of this method in terms of a splitting of the gradient of an appropriately chosen function. As a consequence of this interpretation, convergence proofs for gradient descent can be applied almost verbatim to temporal difference learning. Beyond giving a new, fuller explanation of why temporal difference works, our interpretation also yields improved convergence times. We consider the setting with $1/\sqrt{T}$ step-size, where previous comparable finite-time convergence time bounds for temporal difference learning had the multiplicative factor $1/(1-\gamma)$ in front of the bound, with $\gamma$ being the discount factor. We show that a minor variation on TD learning which estimates the mean of the value function separately has a convergence time where $1/(1-\gamma)$ only multiplies an asymptotically negligible term.
翻訳日:2022-10-02 11:30:34 公開日:2020-10-27
# 1次および2次損失を伴うオンライン学習

Online Learning with Primary and Secondary Losses ( http://arxiv.org/abs/2010.14670v1 )

ライセンス: Link先を確認
Avrim Blum, Han Shao(参考訳) 第1次および第2次損失を伴うオンライン学習の問題について検討する。 例えば、求職者がどの職種を雇用するかを判断する採用者は、偽陽性と偽陰性(一次損失)を等しく重み付けするが、求職者は偽陰性(二次損失)をはるかに重み付けする。 第一の損失については「専門家のアドバイス」を組み合わさって、第二の損失については、同時に、最悪の専門家よりも劣悪なパフォーマンスを達成できますか? 残念なことに、この目標は二次損失に対する有界分散仮定なしでは達成できない。 より一般的には、一次損失に対する後悔を最小限に抑え、二次損失を線形閾値で制限する目的を考察する。 正の面では、すべての専門家が二次損失が任意の時間間隔でo(t)$の線形しきい値を超えないという仮定を満たせば、スイッチング制限アルゴリズムを実行することでこの目標を達成できることを示す。 すべての専門家がこの仮定を満たしていない場合、我々のアルゴリズムは、専門家を非活性化し、反応させるタイミングを決定する外部のオラクルへのアクセスによって、この目標を達成することができる。

We study the problem of online learning with primary and secondary losses. For example, a recruiter making decisions of which job applicants to hire might weigh false positives and false negatives equally (the primary loss) but the applicants might weigh false negatives much higher (the secondary loss). We consider the following question: Can we combine "expert advice" to achieve low regret with respect to the primary loss, while at the same time performing {\em not much worse than the worst expert} with respect to the secondary loss? Unfortunately, we show that this goal is unachievable without any bounded variance assumption on the secondary loss. More generally, we consider the goal of minimizing the regret with respect to the primary loss and bounding the secondary loss by a linear threshold. On the positive side, we show that running any switching-limited algorithm can achieve this goal if all experts satisfy the assumption that the secondary loss does not exceed the linear threshold by $o(T)$ for any time interval. If not all experts satisfy this assumption, our algorithms can achieve this goal given access to some external oracles which determine when to deactivate and reactivate experts.
翻訳日:2022-10-02 11:30:17 公開日:2020-10-27
# 不連続表現の教師なし学習とその評価

A Sober Look at the Unsupervised Learning of Disentangled Representations and their Evaluation ( http://arxiv.org/abs/2010.14766v1 )

ライセンス: Link先を確認
Francesco Locatello, Stefan Bauer, Mario Lucic, Gunnar R\"atsch, Sylvain Gelly, Bernhard Sch\"olkopf, Olivier Bachem(参考訳) emph{unsupervised} learning of \emph{disentangled} representationsの背景にある考え方は、実世界のデータは、教師なし学習アルゴリズムによって復元できるいくつかの説明的要因によって生成されることである。 本稿では,最近のこの分野の進展を概観し,いくつかの共通前提に挑戦する。 まず,不連続表現の教師なし学習は,モデルとデータの両方に帰納的バイアスを伴わずに,基本的に不可能であることを示す。 そして、8つのデータセットに関する再現可能な大規模実験において、最も顕著な手法と評価指標をカバーする14,000ドル以上のモデルをトレーニングする。 異なる手法は、対応する損失によって「強化」された特性をうまく強制するが、よく見分けられたモデルは監督なしでは識別できない。 さらに、異なる評価指標は「不連続」と見なされるべきものについて必ずしも一致せず、その推定において系統的な違いを示す。 最後に、乱れが増加すると、下流タスクの学習のサンプル複雑さが低下するとは限らない。 本研究は,インダクティブバイアスと(簡易)監督の役割を明記し,学習表現の絡み合いを強制する具体的な利点について検討し,複数のデータセットをカバーする再現可能な実験的な設定を検討することを目的とする。

The idea behind the \emph{unsupervised} learning of \emph{disentangled} representations is that real-world data is generated by a few explanatory factors of variation which can be recovered by unsupervised learning algorithms. In this paper, we provide a sober look at recent progress in the field and challenge some common assumptions. We first theoretically show that the unsupervised learning of disentangled representations is fundamentally impossible without inductive biases on both the models and the data. Then, we train over $14000$ models covering most prominent methods and evaluation metrics in a reproducible large-scale experimental study on eight data sets. We observe that while the different methods successfully enforce properties "encouraged" by the corresponding losses, well-disentangled models seemingly cannot be identified without supervision. Furthermore, different evaluation metrics do not always agree on what should be considered "disentangled" and exhibit systematic differences in the estimation. Finally, increased disentanglement does not seem to necessarily lead to a decreased sample complexity of learning for downstream tasks. Our results suggest that future work on disentanglement learning should be explicit about the role of inductive biases and (implicit) supervision, investigate concrete benefits of enforcing disentanglement of the learned representations, and consider a reproducible experimental setup covering several data sets.
翻訳日:2022-10-02 11:29:56 公開日:2020-10-27
# 効果的な強化学習のための行動優先

Behavior Priors for Efficient Reinforcement Learning ( http://arxiv.org/abs/2010.14274v1 )

ライセンス: Link先を確認
Dhruva Tirumala, Alexandre Galashov, Hyeonwoo Noh, Leonard Hasenclever, Razvan Pascanu, Jonathan Schwarz, Guillaume Desjardins, Wojciech Marian Czarnecki, Arun Ahuja, Yee Whye Teh, Nicolas Heess(参考訳) ますます困難な問題を解決するために強化学習エージェントを配備するにつれて、世界の構造や効果的な解法戦略に関する事前知識を注入する手段がますます重要になる。 本研究では,情報とアーキテクチャ上の制約と確率的モデリング文献のアイデアを組み合わせることで,関連するタスクやコンテキストのセット間で共有される共通動作やインタラクションパターンを捉えた行動優先を学習する方法を検討する。 例えば、人間の日々の行動は、様々な状況や目標にまたがる特徴的な移動と操作パターンを含んでいる。 本稿では,確率的軌道モデルを用いてこのような行動パターンを捉える方法と,マルチタスクや移動学習を容易にする強化学習手法に効果的に統合する方法について論じる。 次に、これらのアイデアを潜在変数モデルに拡張し、再利用可能なモジュールの振る舞いの異なる側面を捉える階層的事前学習の定式化を検討する。 このような潜在変数の定式化が階層的強化学習(hrl)と相互情報と好奇心に基づく目標の関連作業とどのように結びつくかについて議論し,既存の考え方に対する代替的視点を提供する。 シミュレーションされた連続制御ドメインに適用することにより,このフレームワークの有効性を実証する。

As we deploy reinforcement learning agents to solve increasingly challenging problems, methods that allow us to inject prior knowledge about the structure of the world and effective solution strategies becomes increasingly important. In this work we consider how information and architectural constraints can be combined with ideas from the probabilistic modeling literature to learn behavior priors that capture the common movement and interaction patterns that are shared across a set of related tasks or contexts. For example the day-to day behavior of humans comprises distinctive locomotion and manipulation patterns that recur across many different situations and goals. We discuss how such behavior patterns can be captured using probabilistic trajectory models and how these can be integrated effectively into reinforcement learning schemes, e.g.\ to facilitate multi-task and transfer learning. We then extend these ideas to latent variable models and consider a formulation to learn hierarchical priors that capture different aspects of the behavior in reusable modules. We discuss how such latent variable formulations connect to related work on hierarchical reinforcement learning (HRL) and mutual information and curiosity based objectives, thereby offering an alternative perspective on existing ideas. We demonstrate the effectiveness of our framework by applying it to a range of simulated continuous control domains.
翻訳日:2022-10-02 11:22:42 公開日:2020-10-27
# 体重を下げる場所を知る - 迅速な不確実性推定に向けて

Know Where To Drop Your Weights: Towards Faster Uncertainty Estimation ( http://arxiv.org/abs/2010.14019v1 )

ライセンス: Link先を確認
Akshatha Kamath and Dwaraknath Gnaneshwar and Matias Valdenegro-Toro(参考訳) 低レイテンシアプリケーションや分散サンプル検出に使用されるモデルの認識論的不確実性の推定は、不確実性推定手法の計算的要求による課題である。 モンテカルロドロップアウト(mcd)やドロップコネクト(mcdc)といった近似技術を用いたモデル不確実性の推定には、ネットワークを経由するフォワードパスが多数必要となる。 本稿では、ニューラルネットワークのサブセットを用いて、MCCによるてんかん不確実性をモデル化するSelect-DCを提案する。 実験により,不確実性をモデル化するGFLOPSはモンテカルロDropConnectに比べて大幅に減少し,性能の限界トレードオフが見られた。 我々は、CIFAR 10、CIFAR 100、SVHNデータセットをResNetおよびVGGモデルで一連の実験を行う。 さらに,ドロップ確率の異なるネットワークの様々な層にDropConnectを適用すると,ネットワーク性能と予測分布のエントロピーがどう影響するかを示す。

Estimating epistemic uncertainty of models used in low-latency applications and Out-Of-Distribution samples detection is a challenge due to the computationally demanding nature of uncertainty estimation techniques. Estimating model uncertainty using approximation techniques like Monte Carlo Dropout (MCD), DropConnect (MCDC) requires a large number of forward passes through the network, rendering them inapt for low-latency applications. We propose Select-DC which uses a subset of layers in a neural network to model epistemic uncertainty with MCDC. Through our experiments, we show a significant reduction in the GFLOPS required to model uncertainty, compared to Monte Carlo DropConnect, with marginal trade-off in performance. We perform a suite of experiments on CIFAR 10, CIFAR 100, and SVHN datasets with ResNet and VGG models. We further show how applying DropConnect to various layers in the network with different drop probabilities affects the networks performance and the entropy of the predictive distribution.
翻訳日:2022-10-02 11:21:17 公開日:2020-10-27
# 高速インターリーブ双方向シーケンス生成

Fast Interleaved Bidirectional Sequence Generation ( http://arxiv.org/abs/2010.14481v1 )

ライセンス: Link先を確認
Biao Zhang, Ivan Titov, Rico Sennrich(参考訳) シーケンス生成中の独立性仮定は推論を高速化するが、高度に依存するトークンの並列生成は品質のコストがかかる。 隣接トークン間の独立性(半自己回帰復号、SA)を仮定する代わりに、双方向シーケンス生成からインスピレーションを得て、左右方向と左右方向から目標単語を同時に生成するデコーダを導入する。 本稿では,一方向デコードのための標準的なアーキテクチャを,単純に2つの方向をインターリーブし,単語の位置と自己注意マスクを適応させることで,双方向デコーダに容易に変換可能であることを示す。 インターリーブされた双方向デコーダ (IBDecoder) は標準トランスフォーマーのモデル単純性と訓練効率を保ち、5つの機械翻訳タスクと2つの文書要約タスクにおいて、同等品質の自己回帰デコーダに比べて2倍程度のデコード高速化を実現する。 IBDecoderの独立性の仮定はよりフェリシティであるため、左から右へのSAよりも優れています。 さらに高いスピードアップを達成するために,複数の隣接トークンを同時に予測するか,ターゲットシーケンスを分割して多方向復号化を行うハイブリッドモデルを探索する。 これらの手法は,<1 BLEU または <0.5 ROUGE (平均) のコストで,異なるタスク間で 4X-11X の高速化を実現する。 ソースコードはhttps://github.com/bzhanggo/zero。

Independence assumptions during sequence generation can speed up inference, but parallel generation of highly inter-dependent tokens comes at a cost in quality. Instead of assuming independence between neighbouring tokens (semi-autoregressive decoding, SA), we take inspiration from bidirectional sequence generation and introduce a decoder that generates target words from the left-to-right and right-to-left directions simultaneously. We show that we can easily convert a standard architecture for unidirectional decoding into a bidirectional decoder by simply interleaving the two directions and adapting the word positions and self-attention masks. Our interleaved bidirectional decoder (IBDecoder) retains the model simplicity and training efficiency of the standard Transformer, and on five machine translation tasks and two document summarization tasks, achieves a decoding speedup of ~2X compared to autoregressive decoding with comparable quality. Notably, it outperforms left-to-right SA because the independence assumptions in IBDecoder are more felicitous. To achieve even higher speedups, we explore hybrid models where we either simultaneously predict multiple neighbouring tokens per direction, or perform multi-directional decoding by partitioning the target sequence. These methods achieve speedups to 4X-11X across different tasks at the cost of <1 BLEU or <0.5 ROUGE (on average). Source code is released at https://github.com/bzhangGo/zero.
翻訳日:2022-10-02 11:14:38 公開日:2020-10-27
# DGST:テキストスタイル転送のためのデュアルジェネレータネットワーク

DGST: a Dual-Generator Network for Text Style Transfer ( http://arxiv.org/abs/2010.14557v1 )

ライセンス: Link先を確認
Xiao Li, Guanyi Chen, Chenghua Lin, Ruizhe Li(参考訳) テキストスタイル転送のためのDGST, 新規でシンプルなデュアルジェネレータネットワークアーキテクチャを提案する。 我々のモデルは2つのジェネレータのみを使用し、訓練には識別器や並列コーパスに依存しない。 YelpおよびIMDbデータセットにおける定量的および定性的な実験は、我々のモデルがより複雑なアーキテクチャ設計を持ついくつかの強力なベースラインと比較して、競争力のある性能を示すことを示している。

We propose DGST, a novel and simple Dual-Generator network architecture for text Style Transfer. Our model employs two generators only, and does not rely on any discriminators or parallel corpus for training. Both quantitative and qualitative experiments on the Yelp and IMDb datasets show that our model gives competitive performance compared to several strong baselines with more complicated architecture designs.
翻訳日:2022-10-02 11:14:11 公開日:2020-10-27
# DualTKB: テキストと知識ベース間のデュアルラーニングブリッジ

DualTKB: A Dual Learning Bridge between Text and Knowledge Base ( http://arxiv.org/abs/2010.14660v1 )

ライセンス: Link先を確認
Pierre L. Dognin, Igor Melnyk, Inkit Padhi, Cicero Nogueira dos Santos, Payel Das(参考訳) 本研究では,コモンセンス知識ベース (kbs) における教師なしテキストのパスとパスに対する二重学習手法を提案する。 弱教師付きデータセットを作成することにより、弱監督の影響を調査し、わずかな監督でもモデル性能を大幅に改善し、高品質な転送を可能にすることを示す。 生成モデルに適した新しいCommonsense KBコンプリートメトリクスを提案し,異なるモデルアーキテクチャと評価指標について検討する。 実験結果から,提案手法は既存のベースラインと非常に良好に比較できることがわかった。 このアプローチは、KBの自動構築/拡張のためのより高度なシステムと、KB変換をコヒーレントなテキスト記述に逆操作するための有効なステップである。

In this work, we present a dual learning approach for unsupervised text to path and path to text transfers in Commonsense Knowledge Bases (KBs). We investigate the impact of weak supervision by creating a weakly supervised dataset and show that even a slight amount of supervision can significantly improve the model performance and enable better-quality transfers. We examine different model architectures, and evaluation metrics, proposing a novel Commonsense KB completion metric tailored for generative models. Extensive experimental results show that the proposed method compares very favorably to the existing baselines. This approach is a viable step towards a more advanced system for automatic KB construction/expansion and the reverse operation of KB conversion to coherent textual descriptions.
翻訳日:2022-10-02 11:13:38 公開日:2020-10-27
# 機械学習を用いたオプティカル衛星とウェブカメラによるスイス湖の氷モニタリング

Ice Monitoring in Swiss Lakes from Optical Satellites and Webcams using Machine Learning ( http://arxiv.org/abs/2010.14300v1 )

ライセンス: Link先を確認
Manu Tom and Rajanie Prabha and Tianyu Wu and Emmanuel Baltsavias and Laura Leal-Taixe and Konrad Schindler(参考訳) 湖氷の傾向などの気候指標の連続観測は、地域および地球規模の気候システムの力学を理解する上で重要である。 その結果、湖氷はGCOS(Global Climate Observing System)の Essential Climate Variables (ECV) に含まれており、運用監視機能の設定が必要である。 多時間衛星画像とWebカムストリームは、湖氷を監視するための有効なデータソースの一つである。 本研究では,多スペクトル光学衛星画像(viirsとmodis)とrgb webcam画像の両方から,スイスアルプス湖の氷河の時空間的範囲とアイスオンとアイスオフの日付を決定するツールとして,機械学習に基づく画像解析について検討する。 湖氷モニタリングを,湖面の各画素を分類して,氷被覆の空間的に明示的なマップを得る,ピクセル単位の意味セグメンテーション問題としてモデル化する。 本研究では,複数の冬季および湖沼のデータから,提案手法が一貫した良好な結果が得られることを示す。 衛星を用いた手法では,両センサの平均インターセクション・オーバー・ユニオン(mIoU)スコアは93%である。 また、湖や冬によく分布し、miouスコアは78%以上、80%以上である。 平均すると、webカメラアプローチでは、miou値が87%(約)、一般化スコアが71%(約1.)、一般化スコアが69%(約1.)とそれぞれ異なるカメラと冬で達成されています。 さらに、2つの冬と3つのカメラのデータを含むウェブカメラ画像のベンチマークデータセット(Photi-LakeIce)も提案した。

Continuous observation of climate indicators, such as trends in lake freezing, is important to understand the dynamics of the local and global climate system. Consequently, lake ice has been included among the Essential Climate Variables (ECVs) of the Global Climate Observing System (GCOS), and there is a need to set up operational monitoring capabilities. Multi-temporal satellite images and publicly available webcam streams are among the viable data sources to monitor lake ice. In this work we investigate machine learning-based image analysis as a tool to determine the spatio-temporal extent of ice on Swiss Alpine lakes as well as the ice-on and ice-off dates, from both multispectral optical satellite images (VIIRS and MODIS) and RGB webcam images. We model lake ice monitoring as a pixel-wise semantic segmentation problem, i.e., each pixel on the lake surface is classified to obtain a spatially explicit map of ice cover. We show experimentally that the proposed system produces consistently good results when tested on data from multiple winters and lakes. Our satellite-based method obtains mean Intersection-over-Union (mIoU) scores >93%, for both sensors. It also generalises well across lakes and winters with mIoU scores >78% and >80% respectively. On average, our webcam approach achieves mIoU values of 87% (approx.) and generalisation scores of 71% (approx.) and 69% (approx.) across different cameras and winters respectively. Additionally, we put forward a new benchmark dataset of webcam images (Photi-LakeIce) which includes data from two winters and three cameras.
翻訳日:2022-10-02 11:13:25 公開日:2020-10-27
# 人工知能に基づく著者識別は、大イザイア巻物 (1qisaa) に代表される死海巻物の未知の筆跡の新たな証拠を生み出す。

Artificial intelligence based writer identification generates new evidence for the unknown scribes of the Dead Sea Scrolls exemplified by the Great Isaiah Scroll (1QIsaa) ( http://arxiv.org/abs/2010.14476v1 )

ライセンス: Link先を確認
Mladen Popovi\'c, Maruf A. Dhali, Lambert Schomaker(参考訳) 死海巻は聖書の古代のスクリバル文化の具体的な証拠である。 古筆の研究であるパラレオグラフィーは、このスクリバル文化へのアクセスを提供することができる。 しかし、従来のパレオグラフィーの問題点の1つは、書体が一様に近いときに作者の身元を決定することである。 これはグレート・イザヤ・スクロール(1QIsaa)の例である。 この目的のために、我々はパターン認識と人工知能技術を用いて、著者識別に関する巻物のパレオグラフィーを革新し、聖書の古代スリバル文化へのオープンアクセスのために個々の書体のマイクロレベルを開拓した。 1qisaaは1人の著者によって書かれたと多くの学者は考えているが、本巻の一連のコラムの破断点の新たな証拠を報告する。 著者のアイデンティティを前提とせず, 縮小次元特徴空間の点雲に基づいて, 原稿の1段目と2段目からのコラムが, 2つの異なる領域の散布プロット, 特にデジタルパラオグラフィツールにおいて, それぞれがスクリプトサンプルのまったく異なる実行的側面を扱っていることがわかった。 二次的独立解析では、書き手の違いを仮定し、また別の独立した特徴法といくつかの異なる種類の統計検査を用いて、カラムシリーズで切替点が見つかった。 明快な相転移はカラム27付近で明らかである。 両半身の統計的に有意な差が認められたため, 第三次, 後法解析を行った。 この研究は、古代聖書の筆跡が1冊の筆跡のみによって複製されたのではなく、複数の筆跡が1つの写本で密に協力できるという新しい具体的な証拠を提供することによって、聖書の古代の書写文化に新たな光を当てるものである。

The Dead Sea Scrolls are tangible evidence of the Bible's ancient scribal culture. Palaeography - the study of ancient handwriting - can provide access to this scribal culture. However, one of the problems of traditional palaeography is to determine writer identity when the writing style is near uniform. This is exemplified by the Great Isaiah Scroll (1QIsaa). To this end, we used pattern recognition and artificial intelligence techniques to innovate the palaeography of the scrolls regarding writer identification and to pioneer the microlevel of individual scribes to open access to the Bible's ancient scribal culture. Although many scholars believe that 1QIsaa was written by one scribe, we report new evidence for a breaking point in the series of columns in this scroll. Without prior assumption of writer identity, based on point clouds of the reduced-dimensionality feature-space, we found that columns from the first and second halves of the manuscript ended up in two distinct zones of such scatter plots, notably for a range of digital palaeography tools, each addressing very different featural aspects of the script samples. In a secondary, independent, analysis, now assuming writer difference and using yet another independent feature method and several different types of statistical testing, a switching point was found in the column series. A clear phase transition is apparent around column 27. Given the statistically significant differences between the two halves, a tertiary, post-hoc analysis was performed. Demonstrating that two main scribes were responsible for the Great Isaiah Scroll, this study sheds new light on the Bible's ancient scribal culture by providing new, tangible evidence that ancient biblical texts were not copied by a single scribe only but that multiple scribes could closely collaborate on one particular manuscript.
翻訳日:2022-10-02 11:12:57 公開日:2020-10-27
# Fit to Measure:ロバスト物体認識のためのサイズに関する推論

Fit to Measure: Reasoning about Sizes for Robust Object Recognition ( http://arxiv.org/abs/2010.14296v1 )

ライセンス: Link先を確認
Agnese Chiatti, Enrico Motta, Enrico Daga, Gianluca Bardaro(参考訳) サービスロボットは、特に、極度の気象条件下や社会的距離を維持する必要がある場合など、私たちが介入するのが不便で安全でない場合に、日々の作業の多くに役立つ。 しかし、複雑なタスクをロボットに委譲することに成功する前には、動的で現実世界の環境を理解する能力を高める必要がある。 この文脈では、ロボットの視覚インテリジェンスを改善するための第一の前提は、堅牢で信頼性の高いオブジェクト認識システムを構築することである。 オブジェクト認識ソリューションは伝統的に機械学習の手法に基づいているが、知識に基づく推論による拡張は、その性能を向上させることが示されている。 特に,視覚知能の認識的要求を識別する先行研究に基づいて,物体の典型的大きさの知識が物体認識システムの精度を著しく向上できると仮定した。 本稿では,この仮説を検証するために,MLアーキテクチャにおけるオブジェクトサイズに関する知識を統合するアプローチを提案する。 実世界のロボットシナリオにおける我々の実験は、この組み合わせアプローチによって、最先端の機械学習手法よりも大幅にパフォーマンスが向上することを示している。

Service robots can help with many of our daily tasks, especially in those cases where it is inconvenient or unsafe for us to intervene: e.g., under extreme weather conditions or when social distance needs to be maintained. However, before we can successfully delegate complex tasks to robots, we need to enhance their ability to make sense of dynamic, real world environments. In this context, the first prerequisite to improving the Visual Intelligence of a robot is building robust and reliable object recognition systems. While object recognition solutions are traditionally based on Machine Learning methods, augmenting them with knowledge based reasoners has been shown to improve their performance. In particular, based on our prior work on identifying the epistemic requirements of Visual Intelligence, we hypothesise that knowledge of the typical size of objects could significantly improve the accuracy of an object recognition system. To verify this hypothesis, in this paper we present an approach to integrating knowledge about object sizes in a ML based architecture. Our experiments in a real world robotic scenario show that this combined approach ensures a significant performance increase over state of the art Machine Learning methods.
翻訳日:2022-10-02 11:05:27 公開日:2020-10-27
# ハイブリッドバックプロパゲーション並列貯留層ネットワーク

Hybrid Backpropagation Parallel Reservoir Networks ( http://arxiv.org/abs/2010.14611v1 )

ライセンス: Link先を確認
Matthew Evanusa and Snehesh Shrestha and Michelle Girvan and Cornelia Ferm\"uller and Yiannis Aloimonos(参考訳) 多くの実世界のアプリケーションでは、LSTMやGRUのような完全微分可能なRNNが時系列学習の課題を解決するために広くデプロイされている。 これらのネットワークは、実際にうまく機能するが、勾配更新に間に合うように、生物学的に非現実的なネットワークの展開を伴い、計算コストが高く、チューニングが難しいバックプロパゲーションを介してトレーニングされる。 2つ目のパラダイムは、リカレント重み行列を固定してランダムに保つリザーバコンピューティングである。 本稿では,リザーバのランダムな時間的特徴とディープニューラルネットワークの読み出しパワーとバッチ正規化を併用したハイブリッドバックプロパゲーション並列エコー状態ネットワーク(hbp-esn)を提案する。 脳波測定による感情認識のためのDEAデータセットとChaLearnのスケルトンキーポイントを用いたジェスチャー認識という,2つの複雑な実世界の多次元時系列データセット上で,我々の新しいネットワークはLSTMやGRUよりも優れていることを示す。 また, HBP-ESN M-Ring と呼ばれる新しいメタリング構造を組み込むことで, 1つの大きな貯水池に類似した性能を実現し, メモリ容量の最大化を図っている。 そこで我々は,このハイブリッド型貯水池深層学習パラダイムを,時間的あるいはシーケンシャルなデータのRNN学習の新たな代替手段として提供する。

In many real-world applications, fully-differentiable RNNs such as LSTMs and GRUs have been widely deployed to solve time series learning tasks. These networks train via Backpropagation Through Time, which can work well in practice but involves a biologically unrealistic unrolling of the network in time for gradient updates, are computationally expensive, and can be hard to tune. A second paradigm, Reservoir Computing, keeps the recurrent weight matrix fixed and random. Here, we propose a novel hybrid network, which we call Hybrid Backpropagation Parallel Echo State Network (HBP-ESN) which combines the effectiveness of learning random temporal features of reservoirs with the readout power of a deep neural network with batch normalization. We demonstrate that our new network outperforms LSTMs and GRUs, including multi-layer "deep" versions of these networks, on two complex real-world multi-dimensional time series datasets: gesture recognition using skeleton keypoints from ChaLearn, and the DEAP dataset for emotion recognition from EEG measurements. We show also that the inclusion of a novel meta-ring structure, which we call HBP-ESN M-Ring, achieves similar performance to one large reservoir while decreasing the memory required by an order of magnitude. We thus offer this new hybrid reservoir deep learning paradigm as a new alternative direction for RNN learning of temporal or sequential data.
翻訳日:2022-10-02 11:04:46 公開日:2020-10-27
# 入力境界化によるNLPモデルの解釈

Interpretation of NLP models through input marginalization ( http://arxiv.org/abs/2010.13984v1 )

ライセンス: Link先を確認
Siwon Kim, Jihun Yi, Eunji Kim, and Sungroh Yoon(参考訳) 自然言語処理(NLP)のためのディープニューラルネットワークの「ブラックボックス」特性を解明するために,入力の各トークンを消去した後の予測確率の変化を測定することによって予測を解釈する手法が提案されている。 既存のメソッドは、それぞれのトークンを予め定義された値(つまりゼロ)で置き換えるので、結果の文はトレーニングデータ分布から外れ、誤解を招く解釈をもたらす。 本研究では,既存の解釈手法によって引き起こされる配当問題の提起と対策を行い,各トークンのマーシャリゼーションを提案する。 感情分析や自然言語推論のために訓練された様々なNLPモデルを,提案手法を用いて解釈する。

To demystify the "black box" property of deep neural networks for natural language processing (NLP), several methods have been proposed to interpret their predictions by measuring the change in prediction probability after erasing each token of an input. Since existing methods replace each token with a predefined value (i.e., zero), the resulting sentence lies out of the training data distribution, yielding misleading interpretations. In this study, we raise the out-of-distribution problem induced by the existing interpretation methods and present a remedy; we propose to marginalize each token out. We interpret various NLP models trained for sentiment analysis and natural language inference using the proposed method.
翻訳日:2022-10-02 11:03:52 公開日:2020-10-27
# Multi-XScience:科学論文の超多文書要約のための大規模データセット

Multi-XScience: A Large-scale Dataset for Extreme Multi-document Summarization of Scientific Articles ( http://arxiv.org/abs/2010.14235v1 )

ライセンス: Link先を確認
Yao Lu, Yue Dong, Laurent Charlin(参考訳) マルチドキュメントの要約は、大規模なデータセットがほとんど存在しない難題である。 学術論文から作成した大規模マルチドキュメント要約データセットであるMulti-XScienceを提案する。 multi-xscienceは、論文の関連作業セクションとその引用記事を書くという、挑戦的なマルチドキュメント要約タスクを導入している。 私たちの研究は、抽象的モデリングアプローチを好むデータセット構築プロトコルであるextreme summarizationにインスパイアされています。 記述統計と経験的結果-Multi-XScienceデータセットでトレーニングされたいくつかの最先端モデルを使用--Multi-XScienceは抽象モデルによく適している、という認識。

Multi-document summarization is a challenging task for which there exists little large-scale datasets. We propose Multi-XScience, a large-scale multi-document summarization dataset created from scientific articles. Multi-XScience introduces a challenging multi-document summarization task: writing the related-work section of a paper based on its abstract and the articles it references. Our work is inspired by extreme summarization, a dataset construction protocol that favours abstractive modeling approaches. Descriptive statistics and empirical results---using several state-of-the-art models trained on the Multi-XScience dataset---reveal that Multi-XScience is well suited for abstractive models.
翻訳日:2022-10-02 11:03:40 公開日:2020-10-27
# 言語分枝知識蒸留による言語間機械読解

Cross-lingual Machine Reading Comprehension with Language Branch Knowledge Distillation ( http://arxiv.org/abs/2010.14271v1 )

ライセンス: Link先を確認
Junhao Liu, Linjun Shou, Jian Pei, Ming Gong, Min Yang, Daxin Jiang(参考訳) アラビア語、ヒンディー語、ベトナム語などの低ソース言語に大規模な注釈付きデータセットがないため、言語間機械読解(CLMRC)は依然として難しい問題である。 従来の多くのアプローチでは、英語などのリッチソース言語から低ソース言語への変換を補助的な監督として使用していた。 しかし、翻訳データを有効に活用し、翻訳によってもたらされるノイズの影響を低減する方法は、いまだに困難である。 本稿では,この課題に取り組み,Language Branch Machine Reading Comprehension (LBMRC) という新たな拡張アプローチにより言語間移動性能を向上させる。 言語ブランチ(Language branch)は、すべてのターゲット言語で質問とペアを組んだ単一の言語におけるパスのグループである。 LBMRCに基づく個別言語に習熟した複数機械読解モデル(MRC)を訓練する。 そこで我々は,複数の言語分岐モデルから対象言語に対する単一モデルへの多言語蒸留アプローチを考案した。 lbmrcと多言語蒸留を組み合わせると、データノイズに対してより強固になるため、モデルの言語横断能力が向上する。 一方、生成された単一多言語モデルは全ての対象言語に適用可能であり、複数のモデルのトレーニング、推論、メンテナンスのコストを削減できる。 CLMRCベンチマークの大規模実験により,提案手法の有効性が明らかとなった。

Cross-lingual Machine Reading Comprehension (CLMRC) remains a challenging problem due to the lack of large-scale annotated datasets in low-source languages, such as Arabic, Hindi, and Vietnamese. Many previous approaches use translation data by translating from a rich-source language, such as English, to low-source languages as auxiliary supervision. However, how to effectively leverage translation data and reduce the impact of noise introduced by translation remains onerous. In this paper, we tackle this challenge and enhance the cross-lingual transferring performance by a novel augmentation approach named Language Branch Machine Reading Comprehension (LBMRC). A language branch is a group of passages in one single language paired with questions in all target languages. We train multiple machine reading comprehension (MRC) models proficient in individual language based on LBMRC. Then, we devise a multilingual distillation approach to amalgamate knowledge from multiple language branch models to a single model for all target languages. Combining the LBMRC and multilingual distillation can be more robust to the data noises, therefore, improving the model's cross-lingual ability. Meanwhile, the produced single multilingual model is applicable to all target languages, which saves the cost of training, inference, and maintenance for multiple models. Extensive experiments on two CLMRC benchmarks clearly show the effectiveness of our proposed method.
翻訳日:2022-10-02 11:03:15 公開日:2020-10-27
# 段階的凸最適化問題の効率的非凸再構成法

An efficient nonconvex reformulation of stagewise convex optimization problems ( http://arxiv.org/abs/2010.14322v1 )

ライセンス: Link先を確認
Rudy Bunel, Oliver Hinder, Srinadh Bhojanapalli, Krishnamurthy (Dj) Dvijotham(参考訳) ステージ構造を持つ凸最適化問題は、最適制御、ディープニューラルネットワークの検証、等張回帰など、いくつかの文脈で現れる。 オフ・ザ・シェルフ・ソルバはこれらの問題を解決することができるが、スケールが悪くなる可能性がある。 我々は、このステージ構造を利用するために設計された非凸改質を開発する。 我々の再構成は単純な境界制約しか持たず、射影勾配法およびそれらの加速変量による解が可能である。 本手法は,元凸問題に対する一次および二重実現可能な解列を自動的に生成し,最適性証明を容易にする。 非凸定式化の理論的性質を確立し、(ほとんど)急激な局所ミニマを伴わず、凸問題と同じ大域的最適性を持つことを示す。 pgdは局所的最小化を回避するため、常に大域的最小化に収束するように修正する。 ニューラルネットワークの検証には,ほんの数段階の勾配ステップで小さな双対性ギャップを求める。 これにより、オフザシェルフおよび特殊解法よりも高速に大規模な検証問題を解くことができる。

Convex optimization problems with staged structure appear in several contexts, including optimal control, verification of deep neural networks, and isotonic regression. Off-the-shelf solvers can solve these problems but may scale poorly. We develop a nonconvex reformulation designed to exploit this staged structure. Our reformulation has only simple bound constraints, enabling solution via projected gradient methods and their accelerated variants. The method automatically generates a sequence of primal and dual feasible solutions to the original convex problem, making optimality certification easy. We establish theoretical properties of the nonconvex formulation, showing that it is (almost) free of spurious local minima and has the same global optimum as the convex problem. We modify PGD to avoid spurious local minimizers so it always converges to the global minimizer. For neural network verification, our approach obtains small duality gaps in only a few gradient steps. Consequently, it can quickly solve large-scale verification problems faster than both off-the-shelf and specialized solvers.
翻訳日:2022-10-02 10:56:12 公開日:2020-10-27
# 決定木に基づくニューラルチューリングマシンについての一考察

A short note on the decision tree based neural turing machine ( http://arxiv.org/abs/2010.14753v1 )

ライセンス: Link先を確認
Yingshi Chen(参考訳) チューリングマシンと決定木は長い間独立して発展してきた。 最近の微分可能モデルの発展により、それらの間には交点がある。 neural turing machine(ntm)は、メモリネットワークのドアを開く。 外部メモリバンクの読み書きには、異なる注意機構を使用する。 微分可能な森は古典的な決定木に微分可能な特性をもたらす。 本稿では,この2つのモデル間の深い関係について述べる。 つまり、微分可能な森林はNTMの特殊なケースである。 異なる森林は、実際には決定木に基づく神経チューリングマシンである。 この深いつながりに基づき,RaDF (Response augmented differential forest) を提案する。 RaDFのコントローラは異なるフォレストであり、RaDFの外部メモリは応答ベクトルであり、葉ノードによって読み書きされる。

Turing machine and decision tree have developed independently for a long time. With the recent development of differentiable models, there is an intersection between them. Neural turing machine(NTM) opens door for the memory network. It use differentiable attention mechanism to read/write external memory bank. Differentiable forest brings differentiable properties to classical decision tree. In this short note, we show the deep connection between these two models. That is: differentiable forest is a special case of NTM. Differentiable forest is actually decision tree based neural turing machine. Based on this deep connection, we propose a response augmented differential forest (RaDF). The controller of RaDF is differentiable forest, the external memory of RaDF are response vectors which would be read/write by leaf nodes.
翻訳日:2022-10-02 10:55:57 公開日:2020-10-27
# ストーリーベースビデオ理解のためのコアテンショントランスフォーマ

Co-attentional Transformers for Story-Based Video Understanding ( http://arxiv.org/abs/2010.14104v1 )

ライセンス: Link先を確認
Bj\"orn Bebensee, Byoung-Tak Zhang(参考訳) 近年の視覚と言語学習の傾向に触発されて、ストーリーベースの映像理解へのアプリケーション内における視覚・言語融合の注意機構の適用について検討する。 他のビデオベースのQAタスクと同様に、ビデオストーリーの理解には複雑な時間的依存関係を理解する必要がある。 しかし、ビデオの物語的な側面に焦点を当てているため、異なるキャラクター間の相互作用の理解や、彼らの行動や動機の理解も必要である。 本稿では,演劇などの視覚的物語に見られる長期的依存関係をよりよく把握し,映像質問応答タスクにおいてその性能を計測する,新しいコアテンショナルトランスフォーマーモデルを提案する。 我々は、最近導入されたDramaQAデータセットに、文字中心のビデオストーリー理解質問を特徴付けるアプローチを評価した。 我々のモデルは、ベースラインモデル全体の8ポイント、少なくとも4.95ポイント、すべての難易度レベルで12.8ポイントを上回り、a dramaqaチャレンジの勝者を打ち負かした。

Inspired by recent trends in vision and language learning, we explore applications of attention mechanisms for visio-lingual fusion within an application to story-based video understanding. Like other video-based QA tasks, video story understanding requires agents to grasp complex temporal dependencies. However, as it focuses on the narrative aspect of video it also requires understanding of the interactions between different characters, as well as their actions and their motivations. We propose a novel co-attentional transformer model to better capture long-term dependencies seen in visual stories such as dramas and measure its performance on the video question answering task. We evaluate our approach on the recently introduced DramaQA dataset which features character-centered video story understanding questions. Our model outperforms the baseline model by 8 percentage points overall, at least 4.95 and up to 12.8 percentage points on all difficulty levels and manages to beat the winner of the DramaQA challenge.
翻訳日:2022-10-02 10:55:35 公開日:2020-10-27
# 名前は「宗教を推論する 性格に基づくアプローチ」です

It's All in the Name: A Character Based Approach To Infer Religion ( http://arxiv.org/abs/2010.14479v1 )

ライセンス: Link先を確認
Rochana Chaturvedi, Sugat Chaturvedi(参考訳) 過去10年間、テキストからの人口統計学的推論は自然言語処理の分野で注目を集めている。 本稿では、宗教が健全な社会区分である南アジアの宗教を推測するために、個人名を用いるが、その非集約的なデータはほとんど残っていない。 既存の研究は辞書に基づく手法で宗教を予測するため、見当たらない名前の分類はできない。 文字パターンを学習する文字ベースモデルを用いて、未知の名前を高精度に分類できる。 これらのモデルはずっと高速で、簡単に大規模なデータセットにスケールできる。 個人の名前と親/親の名前を組み合わせることで分類器を改良し,精度を著しく向上させる。 最後に,複雑な非線形分類器の予測を説明できる階層関係伝播を用いた畳み込みニューラルネットワークモデルの分類決定をトレースし,それらのブラックボックスの性質を回避する。 分類器によって学習された文字パターンは,言語的起源に根ざしていることを示す。

Demographic inference from text has received a surge of attention in the field of natural language processing in the last decade. In this paper, we use personal names to infer religion in South Asia - where religion is a salient social division, and yet, disaggregated data on it remains scarce. Existing work predicts religion using dictionary based method, and therefore, can not classify unseen names. We use character based models which learn character patterns and, therefore, can classify unseen names as well with high accuracy. These models are also much faster and can easily be scaled to large data sets. We improve our classifier by combining the name of an individual with that of their parent/spouse and achieve remarkably high accuracy. Finally, we trace the classification decisions of a convolutional neural network model using layer-wise relevance propagation which can explain the predictions of complex non-linear classifiers and circumvent their purported black box nature. We show how character patterns learned by the classifier are rooted in the linguistic origins of names.
翻訳日:2022-10-02 10:55:20 公開日:2020-10-27