このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201104となっている論文です。

PDF登録状況(公開日: 20201104)

TitleAuthorsAbstract論文公表日・翻訳日
# STIRAP支援エネルギー移動によるオプトメカニカル冷却:$メカニカルグラウンド状態への代替ルート

Optomechanical cooling by STIRAP-assisted energy transfer $:$ an alternative route towards the mechanical ground state ( http://arxiv.org/abs/2002.11549v2 )

ライセンス: Link先を確認
Bijita Sarma, Thomas Busch, and Jason Twamley(参考訳) 標準的なオプティメカル冷却法は、理想的には弱い結合とキャビティ減衰率を必要とする。 結合が大きすぎると、サイドバンド分解冷却が不安定になり、回転波近似が無効になる。 本研究は,光共振器を駆動光モードに結合した光共振器を,他の補助光共振器の光モードに結合した光共振器を冷却するプロトコルについて述べる。 また、駆動の振幅を変調することにより、機械モードから機械モードの冷却に繋がる損失補助光学モードへの占領のある種のSTIRAP転送を実行することができることを示す。 本稿では,このプロトコルが,強結合や未解決のサイドバンド限界といった様々な方法で,通常の光機械的サイドバンド冷却に勝ることを示す。

Standard optomechanical cooling methods ideally require weak coupling and cavity damping rates which enable the motional sidebands to be well resolved. If the coupling is too large then sideband-resolved cooling is unstable or the rotating wave approximation can become invalid. In this work we describe a protocol to cool a mechanical resonator coupled to a driven optical mode in an optomechanical cavity, which is also coupled to an optical mode in another auxiliary optical cavity, and both the cavities are frequency-modulated. We show that by modulating the amplitude of the drive as well, one can execute a type of STIRAP transfer of occupation from the mechanical mode to the lossy auxiliary optical mode which results in cooling of the mechanical mode. We show how this protocol can outperform normal optomechanical sideband cooling in various regimes such as the strong coupling and the unresolved sideband limit.
翻訳日:2023-06-01 21:15:38 公開日:2020-11-04
# 量子機械学習による基底状態波動関数からの励起状態の予測

Predicting excited states from ground state wavefunction by supervised quantum machine learning ( http://arxiv.org/abs/2002.12925v4 )

ライセンス: Link先を確認
Hiroki Kawai and Yuya O. Nakagawa(参考訳) 分子の励起状態は光化学と化学反応の中心にある。 近年の量子計算化学の発展は、短期量子コンピュータ上の分子の励起状態を計算する様々なアルゴリズムの発明に繋がるが、基底状態を計算するためのアルゴリズムよりも多くの計算負荷を必要とする。 本研究では,分子の励起状態特性を基底状態の波動関数からのみ予測し,励起状態を計算するための計算コストを削減できる教師付き量子機械学習手法を提案する。 本モデルは, 単一量子ビットパウリ演算子の測定結果を, 貯留層からの出力状態で処理する古典的機械学習ユニットと, 量子貯水池で構成されている。 量子貯水池は、単一量子ビット演算子をシステムの必須情報を含む複雑なマルチ量子ビットに効果的に変換するので、古典的機械学習ユニットはそれらを適切にデコードすることができる。 量子コンピュータの実行数は、古典的な機械学習ユニットのみをトレーニングすることで節約され、モデル全体は、現在の実験で実装される量子ハードウェアの控えめなリソースを必要とする。 近距離量子コンピュータにおいて、ノイズが避けられない小分子の数値シミュレーションにより、モデル予測能力を示す。 その結果,入力として基底状態からのみ励起状態と励起状態との間の遷移双極子モーメントとともに,第1および第2励起エネルギーを十分に再現できることがわかった。 我々の貢献は量子化学と量子材料の研究における量子コンピュータの応用を強化することを期待している。

Excited states of molecules lie in the heart of photochemistry and chemical reactions. The recent development in quantum computational chemistry leads to inventions of a variety of algorithms that calculate the excited states of molecules on near-term quantum computers, but they require more computational burdens than the algorithms for calculating the ground states. In this study, we propose a scheme of supervised quantum machine learning which predicts the excited-state properties of molecules only from their ground state wavefunction resulting in reducing the computational cost for calculating the excited states. Our model is comprised of a quantum reservoir and a classical machine learning unit which processes the measurement results of single-qubit Pauli operators with the output state from the reservoir. The quantum reservoir effectively transforms the single-qubit operators into complicated multi-qubit ones which contain essential information of the system, so that the classical machine learning unit may decode them appropriately. The number of runs for quantum computers is saved by training only the classical machine learning unit, and the whole model requires modest resources of quantum hardware that may be implemented in current experiments. We illustrate the predictive ability of our model by numerical simulations for small molecules with and without noise inevitable in near-term quantum computers. The results show that our scheme well reproduces the first and second excitation energies as well as the transition dipole moment between the ground states and excited states only from the ground state as an input. We expect our contribution will enhance the applications of quantum computers in the study of quantum chemistry and quantum materials.
翻訳日:2023-06-01 07:43:03 公開日:2020-11-04
# エヴェレットの普遍波動関数の理論

Everett's Theory of the Universal Wave Function ( http://arxiv.org/abs/2005.04812v2 )

ライセンス: Link先を確認
Biao Wu(参考訳) これはEverett氏による多世界理論のチュートリアルです。 第一の部分は、マッハ・ゼーダー干渉計だけからなる宇宙における多くの世界の出現を示している。 第二の主部はエヴェレットの長い論文の補足であり、その理論はもともと明快さと厳密さで詳しく説明されていた。 最近の進展を踏まえて、いくつかの小さなコメントが追加されている。 エヴェレットの見解に同意しなかったとしても、不確実性関係の一般化、エンタングルメント(あるいは正準相関)の定義の独特な方法、ハミルトニアンを用いた量子測定の定式化、および相対状態から多くのことを学ぶことになる。

This is a tutorial for the many-worlds theory by Everett, which includes some of my personal views. It has two main parts.The first main part shows the emergence of many worlds in a universe consisting of only a Mach-Zehnder interferometer. The second main part is an abridgment of Everett's long thesis, where his theory was originally elaborated in detail with clarity and rigor. Some minor comments are added in the abridgment in light of recent developments. Even if you do not agree to Everett's view, you will still learn a great deal from his generalization of the uncertainty relation, his unique way of defining entanglement (or canonical correlation), his formulation of quantum measurement using Hamiltonian, and his relative state.
翻訳日:2023-05-20 14:18:26 公開日:2020-11-04
# ランダム二次ハミルトニアンの固有状態絡み合いエントロピー

Eigenstate Entanglement Entropy in Random Quadratic Hamiltonians ( http://arxiv.org/abs/2006.11302v2 )

ライセンス: Link先を確認
Patrycja {\L}yd\.zba, Marcos Rigol, Lev Vidmar(参考訳) 固有状態の絡み合いエントロピーは、最近、一般的な量子カオスモデルと可積分を区別する強力なツールであることが示されている。 可積分モデルにおいて、平均固有状態絡み合いエントロピー(すべてのハミルトン固有状態上)のユニークな特徴は、体積法係数がサブシステム分数に依存することである。 したがって、量子カオスモデルで発生する最大値(サブシステム分数独立)から逸脱する。 二次ハミルトニアンに対するランダム行列理論を用いて、部分系分数の関数として平均固有状態絡み合いエントロピーの閉形式式を得る。 Sachdev-Ye-Kitaevモデルに対する数値結果に対する正当性を検証した。 また,正則ランダム帯域行列モデルの固有状態の平均エンタングルメントエントロピー(非局在状態)を記述し,準同値空間の局所性を示す二次モデルの結果と近いが同じではないことを示す。

The eigenstate entanglement entropy has been recently shown to be a powerful tool to distinguish integrable from generic quantum-chaotic models. In integrable models, a unique feature of the average eigenstate entanglement entropy (over all Hamiltonian eigenstates) is that the volume-law coefficient depends on the subsystem fraction. Hence, it deviates from the maximal (subsystem fraction independent) value encountered in quantum-chaotic models. Using random matrix theory for quadratic Hamiltonians, we obtain a closed-form expression for the average eigenstate entanglement entropy as a function of the subsystem fraction. We test its correctness against numerical results for the quadratic Sachdev-Ye-Kitaev model. We also show that it describes the average entanglement entropy of eigenstates of the power-law random banded matrix model (in the delocalized regime), and that it is close but not the same as the result for quadratic models that exhibit localization in quasimomentum space.
翻訳日:2023-05-13 11:14:49 公開日:2020-11-04
# 相互情報からの非信号相関のキャラクタリゼーション

Characterization of non-signaling correlations from mutual information ( http://arxiv.org/abs/2010.04795v2 )

ライセンス: Link先を確認
Ignacio Perito, Guido Bellomo, Daniel Galicer, Santiago Figueira, Augusto J. Roncaglia, Ariel Bendersky(参考訳) 本稿では,ベル関数の最大値と関係者間の相互情報を含む2次元表現の観点から,非シグナリング相関の集合の特性について述べる。 特に、この表現を2つの測定値と2つの結果を持つ2部ベルシナリオに適用する。 これら物理的に有意な量と数値最適化法といくつかの分析結果から、量子と量子後の研究に焦点を当てた非信号相関の異なる部分集合間のフロンティアについて検討する。 最後に、Tsirelson 境界がこの文脈において量子力学に頼らずに特異点として現れることを示す。

We present a characterization of the set of non-signaling correlations in terms of a two dimensional representation that involves the maximal value of a Bell functional and the mutual information between the parties. In particular, we apply this representation to the bipartite Bell scenario with two measurements and two outcomes. In terms of these physically meaningful quantities and through numerical optimization methods and some analytical results, we investigate the frontier between the different subsets of the non-signaling correlations, focussing on the quantum and post-quantum ones. Finally, we show that the Tsirelson bound appears as a singular point in this context without resorting to quantum mechanics.
翻訳日:2023-04-29 13:09:52 公開日:2020-11-04
# 鏡を横切るディラック粒子波パケットからの遷移放射

Transition radiation from a Dirac particle wave packet traversing a mirror ( http://arxiv.org/abs/2010.05236v2 )

ライセンス: Link先を確認
P.O. Kazinski and G.Yu. Lazarenko(参考訳) 理想導電板を横切る1つのディラック粒子波パケットから遷移放射で生成された光子を記録する包括的確率の明示的な表現は摂動理論の先行順序によって導かれる。 ディラック粒子の異常な磁気モーメントを考慮に入れる。 電気的荷電粒子からの遷移放射に対する量子補正は、反応平面(E$-plane)に直交する偏光ベクトルを持つ光子の生成を引き起こすことが示されている。 これらの補正は、量子リコイルとウェーブパケットの有限サイズの両方から生じる。 中性子が正常に導電板に落下して生じる遷移放射については、反応面に偏光ベクトルを持つ光子を検出する確率は、入射粒子の観察角度やエネルギーに依存しない。 粒子波パケットの異なる形状から発生する遷移放射の特性について検討した。 特に、1つのツイストしたディラック粒子の波束によって生じる遷移放射について述べる。 遷移放射に対する古典的アプローチとの比較を行い、n$-粒子波パケットによって放射される光子を検出する包括的確率の量子式を導出する。

The explicit expression for the inclusive probability to record a photon created in transition radiation from a one Dirac particle wave packet traversing an ideally conducting plate is derived in the leading order of perturbation theory. The anomalous magnetic moment of the Dirac particle is taken into account. It is shown that the quantum corrections to transition radiation from an electrically charged particle give rise to production of photons with polarization vector orthogonal to the reaction plane ($E$-plane). These corrections result from both the quantum recoil and the finite size of a wave packet. As for transition radiation produced by a neutron falling normally onto the conducting plate, the probability to detect a photon with polarization vector lying in the reaction plane does not depend on the observation angle and the energy of the incident particle. The peculiarities of transition radiation stemming from different shapes of the particle wave packet are investigated. In particular, the transition radiation produced by the wave packet of one twisted Dirac particle is described. The comparison with classical approach to transition radiation is given and the quantum formula for the inclusive probability to detect a photon radiated by the $N$-particle wave packet is derived.
翻訳日:2023-04-29 11:14:25 公開日:2020-11-04
# 量子距離論におけるパラメータ推定のためのショートカット・トゥ・アディバティティのような手法

Shortcut-to-adiabaticity-like techniques for parameter estimation in quantum metrology ( http://arxiv.org/abs/2010.05828v3 )

ライセンス: Link先を確認
Marina Cabedo-Olaya, Juan Gonzalo Muga, and Sof\'ia Mart\'inez-Garaot(参考訳) 量子力学は、精密測定と測定感度を改善するために量子力学を利用する。 通常、時間に依存しないハミルトニアンに対して定式化されるが、時間に依存しないハミルトニアンには、時間に依存しないハミルトニアンでは到達できないフィッシャー情報の時間依存性のような利点がある。 時間依存ハミルトニアンを持つ量子メトロロジーの最適適応制御(nature communications 8, 2017)において、shengshi pang と andrew n. jordan は、"counterdiabatic approach" と形式的に類似したアプローチ、特にフィッシャー情報の上限に到達するためにオリジナルのハミルトニアンに制御項を追加して、近距離対断法(sta-like method)を提唱した。 この研究をstaの観点から再検討し,metrology と ordinary sta における sta-like 法との関係と差異について考察する。 この分析は、パラメータ推定に他のSTAライクな手法を適用する方法である。 特に,実験室で容易に実装できる代替時間依存ハミルトニアンを提案するために,物理的ユニタリ変換の利用を検討する。

Quantum metrology makes use of quantum mechanics to improve precision measurements and measurement sensitivities. It is usually formulated for time-independent Hamiltonians but time-dependent Hamiltonians may offer advantages, such as a $T^4$ time dependence of the Fisher information which cannot be reached with a time-independent Hamiltonian. In Optimal adaptive control for quantum metrology with time-dependent Hamiltonians (Nature Communications 8, 2017), Shengshi Pang and Andrew N. Jordan put forward a Shortcut-to-adiabaticity (STA)-like method, specifically an approach formally similar to the "counterdiabatic approach", adding a control term to the original Hamiltonian to reach the upper bound of the Fisher information. We revisit this work from the point of view of STA to set the relations and differences between STA-like methods in metrology and ordinary STA. This analysis paves the way for the application of other STA-like techniques in parameter estimation. In particular we explore the use of physical unitary transformations to propose alternative time-dependent Hamiltonians which may be easier to implement in the laboratory.
翻訳日:2023-04-29 07:08:18 公開日:2020-11-04
# 政治地理学と表現 : ペンシルベニア州の地区化を事例として

Political Geography and Representation: A Case Study of Districting in Pennsylvania ( http://arxiv.org/abs/2010.14608v2 )

ライセンス: Link先を確認
Jonathan Rodden, Thomas Weighill(参考訳) このプレプリントは、ある州における最近の投票パターンに関して、質的かつ定量的に、詳細な外観を提供する。 政治地理学によってパルチザンがどの程度傾いているかを調べる。 特に,スケールの役割について詳しく検討する。 パルチザンニュートラルマップは票に比例する議席をほとんど与えず、地区の大きさを小さくすることは比例地図を見つけるのをさらに難しくする傾向がある。 このプレプリントは、次々に編集される『政治幾何学』の章として準備された。 (mggg.org/gerrybook)

This preprint offers a detailed look, both qualitative and quantitative, at districting with respect to recent voting patterns in one state: Pennsylvania. We investigate how much the partisan playing field is tilted by political geography. In particular we closely examine the role of scale. We find that partisan-neutral maps rarely give seats proportional to votes, and that making the district size smaller tends to make it even harder to find a proportional map. This preprint was prepared as a chapter in the forthcoming edited volume Political Geometry, an interdisciplinary collection of essays on redistricting. (mggg.org/gerrybook)
翻訳日:2023-04-27 08:22:34 公開日:2020-11-04
# エントロピーのジェリーマンダリングへの応用

Three Applications of Entropy to Gerrymandering ( http://arxiv.org/abs/2010.14972v2 )

ライセンス: Link先を確認
Larry Guth, Ari Nieh, Thomas Weighill(参考訳) このプレプリントは、1つの数学的アイデア - エントロピーを様々な方法で再帰に適用する方法の探求である。 エントロピー(エントロピー)に対する行動の呼びかけというよりは、数学が問題の再限定について私たちの考えに伝える多くの方法の1つを説明するケーススタディです。 このプレプリントは、次々に編集される『政治幾何学』の章として準備された。 (mggg.org/gerrybook)

This preprint is an exploration in how a single mathematical idea - entropy - can be applied to redistricting in a number of ways. It's meant to be read not so much as a call to action for entropy, but as a case study illustrating one of the many ways math can inform our thinking on redistricting problems. This preprint was prepared as a chapter in the forthcoming edited volume Political Geometry, an interdisciplinary collection of essays on redistricting. (mggg.org/gerrybook)
翻訳日:2023-04-27 06:23:22 公開日:2020-11-04
# 複数のコインを用いた量子ウォークによる絡み合った状態生成

Entangled state generation via quantum walks with multiple coins ( http://arxiv.org/abs/2011.01643v2 )

ライセンス: Link先を確認
Meng Li and Yun Shang(参考訳) 絡み合った状態の生成は、量子理論の基礎と技術応用の両方から重要である。 エンタングルメントスワッピングは、量子通信プロトコルにおけるエンタングルメントを生成する効率的な方法を提供する。 しかし、エンタングルメントスワップの鍵であるクイディットの完全なベル測定は、線形要素と粒子検出器のみを用いることで達成不可能であることが証明されている。 このボトルネックを回避するために,複数コインを用いた量子ウォークモデルを用いて,2量子絡み状態,2量子絡み状態,3量子GHZ状態,3量子GHZ状態を含む絡み合い状態を生成する手法を提案する。 次に,ibm量子プラットフォーム上の複数の特定当事者間でベル状態と3量子ビットghz状態の実験的実現を行い,量子トモグラフィによる精度の高い結果を得る。 最後に,マルチパーティ量子シークレット共有における本方式の実用的応用について述べる。

Generation of entangled state is of paramount importance both from quantum theoretical foundation and technology applications. Entanglement swapping provides an efficient method to generate entanglement in quantum communication protocols. However, perfect Bell measurements for qudits, the key to entanglement swapping, have been proven impossible to achieve by using only linear elements and particle detectors. To avoid this bottleneck, we propose a novel scheme to generate entangled state including two-qubit entangled state, two-qudit entangled state, three-qubit GHZ state and three-qudit GHZ state between several designate parties via the model of quantum walks with multiple coins. Then we conduct experimental realization of Bell state and three-qubit GHZ state between several designate parties on IBM quantum platform and the result has high fidelity by preforming quantum tomography. In the end, we give a practical application of our scheme in multiparty quantum secret sharing.
翻訳日:2023-04-25 11:59:31 公開日:2020-11-04
# 一般化された例外的量子ウォーク探索

Generalized exceptional quantum walk search ( http://arxiv.org/abs/2011.01629v2 )

ライセンス: Link先を確認
Meng Li and Yun Shang(参考訳) 量子ウォーク探索の例外的構成を主に研究している。 AKRアルゴリズムによって2次元グリッドを探索するためには、AKRアルゴリズムでは効果的に見つからない例外的な構成のクラスがいくつか見出され、既知の対角線構成はその特別な場合とみなすことができる。 一方,数値シミュレーションによる例外的構成における成功確率を向上できる2つの修正量子ウォークモデルを与える。 さらに,一般化された例外的構成の概念を導入し,グローバーコインを用いたサイクル上での量子ウォークによる探索を考える。 G をグロバー拡散変換とする最も自然なコイン結合モデル (G,-) は、サイクル上でマークされた頂点を単に検索するときに一般化された例外的な構成である。 結局、一般化された例外的な構成は、例外的な構成と異なる量子コヒーレンスを持つ。 これらは、ある意味での量子ウォーク探索の例外的な構成の範囲を大きく広げている。

We mainly study exceptional configuration for coined quantum walk search. For searching on a two-dimensional grid by AKR algorithm, we find some new classes of exceptional configurations that cannot be found by the AKR algorithm effectively and the known diagonal configuration can be regarded as its special case. Meanwhile, we give two modified quantum walk models that can improve the success probability in the exceptional configurations by numerical simulation. Furthermore, we introduce the concept of generalized exceptional configuration and consider search by quantum walk on a cycle with Grover coin. We find that the most natural coin combination model (G,-), where G is a Grover diffusion transformation, is a generalized exceptional configuration when just searching one marked vertex on the cycle. In the end, we find generalized exceptional configuration has a different evolution of quantum coherence from exceptional configuration. These extend largely the range of exceptional configuration of quantum walk search in some sense.
翻訳日:2023-04-25 11:59:11 公開日:2020-11-04
# 目的に合わない:「5つの安全」の批判的分析

Not fit for Purpose: A critical analysis of the 'Five Safes' ( http://arxiv.org/abs/2011.02142v1 )

ライセンス: Link先を確認
Chris Culnane, Benjamin I. P. Rubinstein, David Watts(参考訳) オーストラリア、ニュージーランド、イギリスの政府機関が政策手段として採用し、あるいは法律に具体化された「5つの安全」フレームワークは、個人情報からデータを公開するリスクを管理することを目的としている。 その人気にもかかわらず、ファイブ・セーフズは法的あるいは技術的な批判的な分析をほとんど受けていない。 既存の法的保護から切り離されていることや、強力な技術的措置を優先する手段を提供することなしに安全概念の確保から、開示リスクを経時的に静的に見ること、繰り返し評価を必要としないことまでである。 Five Safesは、結果のデータ共有が'安全'のベストプラクティスや公共の利益のために行われるという自信をほとんど提供しない。

Adopted by government agencies in Australia, New Zealand and the UK as policy instrument or as embodied into legislation, the 'Five Safes' framework aims to manage risks of releasing data derived from personal information. Despite its popularity, the Five Safes has undergone little legal or technical critical analysis. We argue that the Fives Safes is fundamentally flawed: from being disconnected from existing legal protections and appropriation of notions of safety without providing any means to prefer strong technical measures, to viewing disclosure risk as static through time and not requiring repeat assessment. The Five Safes provides little confidence that resulting data sharing is performed using 'safety' best practice or for purposes in service of public interest.
翻訳日:2023-04-25 07:39:47 公開日:2020-11-04
# 量子メタモルフィズム

Quantum metamorphism ( http://arxiv.org/abs/2011.02113v1 )

ライセンス: Link先を確認
Victor M. Bastidas, Marta P. Estarellas, Tomo Osada, Kae Nemoto and William J. Munro(参考訳) 結晶は規則的で頑健な構造を形成し、極端条件下では結晶変成作用と呼ばれる過程において異なる配置に溶けて再結晶することができる。 結晶は宇宙における連続的な翻訳対称性の破れによって存在するが、近年では離散結晶秩序も時間内に出現し、離散時間結晶(DTC)と呼ばれる新しい物質相を生じさせることが提案されている。 本稿では,これら2つのアイデアを結合し,異なる周期性を持つ2つのDTC(2Tと4T-DTC)間の量子準同型モデルを提案する。 我々のモデルでは、メタモルフィズムの条件は、4T-DTCハミルトニアンの摂動項の変調によるものであり、徐々に構造を解き、それを2T-DTCに変換する。 この過程は周期駆動系の多体物理学の観点から詳細に研究されている。 また,現在の量子技術を用いて量子準同型を実験的に観察するプロトコルを提案する。

Crystals form regular and robust structures that under extreme conditions can melt and recrystallize into different arrangements in a process that is called crystal metamorphism. While crystals exist due to the breaking of a continuous translation symmetry in space, it has recently been proposed that discrete crystalline order can also emerge in time and give raise to a novel phase of matter named discrete time crystal (DTC). In this paper, we join these two ideas and propose a model for quantum metamorphism between two DTCs of different periodicity, a 2T and 4T-DTC. In our model the conditions for metamorphism come from the modulation of perturbative terms in the 4T-DTC Hamiltonian that gradually melt its structure and transform it into a 2T-DTC. This process is studied in detail from the viewpoint of manybody physics of periodically driven systems. We also propose a protocol to experimentally observe quantum metamorphism using current quantum technology.
翻訳日:2023-04-25 07:39:33 公開日:2020-11-04
# PT対称系における非エルミートファブリペロ共鳴

Non-Hermitian Fabry-Perot Resonances in a PT-symmetric system ( http://arxiv.org/abs/2011.02097v1 )

ライセンス: Link先を確認
Ken Shobe, Keiichi Kuramoto, Ken-Ichiro Imura, Naomichi Hatano(参考訳) 非エルミチアン散乱問題では、送信確率の挙動は、ハーミチアン散乱系とは大きく異なり、非ハーミティティーは散乱系に確率を付加または除去することができるため、ユニティを超えるか、あるいは発散することもある。 本稿では,PT対称ポテンシャルの散乱問題を考察し,反直観的挙動を求める。 通常のPT対称非エルミティアン系では、典型的には弱非ハーミティティーの体制において定常半ハーミティアン力学が見つかるが、非ハーミティティーが例外的な点を超えると不安定性が観測される。 対照的に、送信確率の挙動は、異なるピークを持つ弱い非ヘルミティティーの状態では強い非エルミティアンであり、強い非ヘルミティティティの状態では表面的にエルミティアンであり、従来のファブリペロ型ピーク構造を回復する。 S-行列のユニタリ性は概して両状態において破られるが、無限に強い非ハーモニティ性の極限で回復される。

In non-Hermitian scattering problems the behavior of the transmission probability is very different from its Hermitian counterpart; it can exceed unity or even be divergent, since the non-Hermiticity can add or remove the probability to and from the scattering system. In the present paper, we consider the scattering problem of a PT-symmetric potential and find a counter-intuitive behavior. In the usual PT-symmetric non-Hermitian system, we would typically find stationary semi-Hermitian dynamics in a regime of weak non-Hermiticity but observe instability once the non-Hermiticity goes beyond an exceptional point. Here, in contrast, the behavior of the transmission probability is strongly non-Hermitian in the regime of weak non-Hermiticity with divergent peaks, while it is superficially Hermitian in the regime of strong non-Hermiticity, recovering the conventional Fabry-Perot-type peak structure. We show that the unitarity of the S-matrix is generally broken in both of the regimes, but is recovered in the limit of infinitely strong non-Hermiticity.
翻訳日:2023-04-25 07:38:17 公開日:2020-11-04
# ソフト量子環の最小固有値の最適化

Optimization of the lowest eigenvalue of a soft quantum ring ( http://arxiv.org/abs/2011.02257v1 )

ライセンス: Link先を確認
Pavel Exner and Vladimir Lotoreichik(参考訳) 偏微分式 $-\Delta -\mu$ に付随する自己随伴2次元シュル・オジンガー作用素 $H_\mu$ を考える。 この演算子は空でない負の離散スペクトルを持ち、最小の固有値に対する2つの最適化結果が得られる。 まず、$\mu_\bot$を固定し、最初の問題におけるオプティマイザの曲率帯の形に関して最小の固有値を最大化する。 また、この結果を、曲線のストリップに囲まれた領域の特性関数の正の倍という形で、さらに$H_\mu$の摂動を伴う状況に一般化する。 次に、全プロファイルが$\alpha >0$であるという制約の下で、曲線ストリップの形状を固定し、$\mu_\bot$の変動に関して最小の固有値を最小化する。 この問題のオプティマイザは$\alpha$の積によって与えられる$\mu_\bot$と、最適な位置でサポートされているDirac$\delta$-functionである。

We consider the self-adjoint two-dimensional Schr\"odinger operator $H_\mu$ associated with the differential expression $-\Delta -\mu$ describing a particle exposed to an attractive interaction given by a measure $\mu$ supported in a closed curvilinear strip and having fixed transversal one-dimensional profile measure $\mu_\bot$. This operator has nonempty negative discrete spectrum and we obtain two optimization results for its lowest eigenvalue. For the first one, we fix $\mu_\bot$ and maximize the lowest eigenvalue with respect to shape of the curvilinear strip the optimizer in the first problem turns out to be the annulus. We also generalize this result to the situation which involves an additional perturbation of $H_\mu$ in the form of a positive multiple of the characteristic function of the domain surrounded by the curvilinear strip. Secondly, we fix the shape of the curvilinear strip and minimize the lowest eigenvalue with respect to variation of $\mu_\bot$, under the constraint that the total profile measure $\alpha >0$ is fixed. The optimizer in this problem is $\mu_\bot$ given by the product of $\alpha$ and the Dirac $\delta$-function supported at an optimal position.
翻訳日:2023-04-25 07:33:31 公開日:2020-11-04
# 量子通信 --テレポーテーションの銀のジュビリーを祝う

Quantum Communication -- Celebrating the Silver Jubilee of Teleportation ( http://arxiv.org/abs/2011.02232v1 )

ライセンス: Link先を確認
Rotem Liss, Tal Mor(参考訳) 本論文は,量子テレポーテーションの意味,歴史,影響を提示する論説である。

This is an editorial paper presenting the meaning, history, and influence of quantum teleportation.
翻訳日:2023-04-25 07:33:01 公開日:2020-11-04
# ランダム対角行列と可積分ビリヤードにおけるパワースペクトルとフォームファクター

Power spectrum and form factor in random diagonal matrices and integrable billiards ( http://arxiv.org/abs/2011.02210v1 )

ライセンス: Link先を確認
Roman Riser and Eugene Kanzieper(参考訳) 通常の古典力学を示す量子系におけるパワースペクトルの普遍的挙動に関する論争に乗じて、ポアソンスペクトルの普遍性クラスと関連付けられたランダム対角行列(RDM)のモデルに注目し、パワースペクトルとフォームファクタがRDMスペクトルの両側のトランケーションによってどのように影響を受けるかを検討する。 両統計の非摂動的記述を発達させ、それらの詳細な漸近分析を行い、伝統的な仮定(議論の中心にある)が、パワースペクトルが単にスペクトル形式因子によって決定されるだけであるということを明確に示す。 この観察は、積分可能な古典力学を持つ有界量子系は完全な RDM スペクトルではなく、非常に不規則に記述されるので、重要な結果をもたらす。 半円および不合理矩形ビリヤードの高精度数値シミュレーションは、これらの結論を独立に支持する。

Triggered by a controversy surrounding a universal behaviour of the power spectrum in quantum systems exhibiting regular classical dynamics, we focus on a model of random diagonal matrices (RDM), often associated with the Poisson spectral universality class, and examine how the power spectrum and the form factor get affected by two-sided truncations of RDM spectra. Having developed a nonperturbative description of both statistics, we perform their detailed asymptotic analysis to demonstrate explicitly how a traditional assumption (lying at the heart of the controversy) -- that the power spectrum is merely determined by the spectral form factor -- breaks down for truncated spectra. This observation has important consequences as we further argue that bounded quantum systems with integrable classical dynamics are described by heavily truncated rather than complete RDM spectra. High-precision numerical simulations of semicircular and irrational rectangular billiards lend independent support to these conclusions.
翻訳日:2023-04-25 07:32:20 公開日:2020-11-04
# 実践から理論へ:量子鍵配電系における「明るい照明」攻撃

From Practice to Theory: The "Bright Illumination" Attack on Quantum Key Distribution Systems ( http://arxiv.org/abs/2011.02152v1 )

ライセンス: Link先を確認
Rotem Liss, Tal Mor(参考訳) ライト照明」攻撃 (Lydersen et al., Nat. Photon. 4, 686-689 (2010)) は、量子鍵分布系に対して完全に実装可能な実用的な攻撃である。 量子情報処理のほとんど全ての発展(例えば、ショアの因子分解アルゴリズム、量子テレポーテーション、ベネット・ブラザード(bb84)の量子鍵分布、"photon-number split"攻撃、その他多くの例)とは対照的に、理論は適切な実装の数十年前に提案されてきたが、"bright illumination"攻撃は理論的な予測の兆候やヒントを先取りしている。 ここでは,「量子側チャネル攻撃」の概念を補完する「反転空間」手法(「量子側チャネル攻撃」という用語は「古典的」,すなわち「非量子的」コンピュータセキュリティにおける類似用語と類似している)が,「明るい照明」攻撃を予測する機会を逃した理由を説明する。

The "Bright Illumination" attack [Lydersen et al., Nat. Photon. 4, 686-689 (2010)] is a practical attack, fully implementable against quantum key distribution systems. In contrast to almost all developments in quantum information processing (for example, Shor's factorization algorithm, quantum teleportation, Bennett-Brassard (BB84) quantum key distribution, the "Photon-Number Splitting" attack, and many other examples), for which theory has been proposed decades before a proper implementation, the "Bright Illumination" attack preceded any sign or hint of a theoretical prediction. Here we explain how the "Reversed-Space" methodology of attacks, complementary to the notion of "quantum side-channel attacks" (which is analogous to a similar term in "classical" - namely, non-quantum - computer security), has missed the opportunity of predicting the "Bright Illumination" attack.
翻訳日:2023-04-25 07:31:23 公開日:2020-11-04
# 駆動散逸量子系の隠れた時間反転対称性、量子詳細バランスおよび正確な解

Hidden time-reversal symmetry, quantum detailed balance and exact solutions of driven-dissipative quantum systems ( http://arxiv.org/abs/2011.02148v1 )

ライセンス: Link先を確認
David Roberts, Andrew Lingenfelter, Aashish Clerk(参考訳) 駆動散逸量子系は、相関関数の時間対称性に基づく詳細バランスの単純な概念を一般的には満たさない。 いずれにせよ、このようなシステムは、適切な絡み合った熱場二重状態で準備された元のシステムの二重バージョンにおいて、最も直接的に現れる隠れた時間反転対称性を示すことができる。 この隠れた時間反転対称性は直接的な操作性を持ち、非自明な定常状態の正確な解を見つけるための一般的な方法を提供する。 このアプローチの特別な例としては、コヒーレント量子吸収器と量子光学からの複素$P$関数法がある。 また, 隠れTRSは単一系実験においても観測可能な結果を示し, 非線形性, 熱ゆらぎ, 駆動の非自明な組み合わせによって破壊できることを示した。 このアイデアを説明するために、駆動量子ビットと非線形キャビティの具体例を分析する。 これらのシステムは隠れた時間反転対称性を示すが、従来の詳細なバランスは示さない。

Driven-dissipative quantum systems generically do not satisfy simple notions of detailed balance based on the time symmetry of correlation functions. We show that such systems can nonetheless exhibit a hidden time-reversal symmetry which most directly manifests itself in a doubled version of the original system prepared in an appropriate entangled thermofield double state. This hidden time-reversal symmetry has a direct operational utility: it provides a general method for finding exact solutions of non-trivial steady states. Special cases of this approach include the coherent quantum absorber and complex-$P$ function methods from quantum optics. We also show that hidden TRS has observable consequences even in single-system experiments, and can be broken by the non-trivial combination of nonlinearity, thermal fluctuations, and driving. To illustrate our ideas, we analyze concrete examples of driven qubits and nonlinear cavities. These systems exhibit hidden time-reversal symmetry but not conventional detailed balance.
翻訳日:2023-04-25 07:31:01 公開日:2020-11-04
# 確率的世界

The probabilistic world ( http://arxiv.org/abs/2011.02867v1 )

ライセンス: Link先を確認
C. Wetterich(参考訳) この研究は確率に基づく物理学の基本的な定式化を試みる。 基本的な仮定は単純で、一つの世界が存在する。 人間は確率に基づく法則を定式化することでその性質を理解することができる。 我々の確率的設定は、古典的な統計規則に従って計算される確率分布、可観測値、およびそれらの期待値の概念のみを用いる。 時刻は観測者間の順序付け構造である。 確率論的法則を理解することで、人間は将来の出来事を予測できる。 空間、時空、幾何学も観測対象の構造として現れる。 古典的な統計体系の中で、時間構造は波動関数、密度行列、非可換作用素などの量子物理学の多くの側面を誘導する。 古典密度行列は、時間局所サブシステムの確率情報を符号化する。 サブシステムは通常、環境と関連付けられ、一般的に議論されるよりもずっとリッチな構造を提供する。 不完全統計と確率観測可能なサブシステムに特に注意を払う。 量子システムは、ユニタリ進化法則に従う特定の時間局所サブシステムである。 量子力学の全ての法則は古典統計学における期待値の基本法則から導かれる。 特に、古典確率分布の観点から、絡み合った量子系について論じる。 我々のアプローチでは、量子場理論は宇宙全体の確率分布によって常に記述されなければならない。 量子場理論の基本的な汎関数積分は、ミンコフスキー符号を持つ関数積分の基礎となる確率分布を定義する必要がある。 この研究は理論物理学の文脈に残るが、ここで開発された概念は幅広い分野の科学に適用できる。

This work attempts a fundamental formulation of physics based on probabilities. The basic assumptions are simple: One world exists. Humans can understand its properties by formulating laws based on probabilities. Our probabilistic setting only employs the notions of a probability distribution, observables and their expectation values, which are computed according to the classical statistical rule. Time is an ordering structure among observables. Understanding the probabilistic laws enables humans to make predictions for future events. Also space, spacetime and geometry emerge as structures among observables. Within the classical statistical system the time structure induces the concepts of wave functions, density matrices, non-commuting operators and many other aspects of quantum physics. The classical density matrix encodes the probabilistic information of a time-local subsystem. Subsystems are typically correlated with their environment, offering a much richer structure than discussed commonly. We pay particular attention to subsystems with incomplete statistics and probabilistic observables. Quantum systems are particular time-local subsystems that follow an unitary evolution law. All laws of quantum mechanics are derived from the basic law for expectation values in classical statistics. In particular, we discuss entangled quantum systems in terms of classical probability distributions. In our approach quantum field theories have to be described by an overall probability distribution for the whole Universe for all times. The fundamental functional integral for quantum field theories should define a probability distribution, underlying the functional integral with Minkowski signature. While this work remains in the context of theoretical physics, the concepts developed here apply to a wide area of science.
翻訳日:2023-04-25 07:24:19 公開日:2020-11-04
# 絡み合った自由粒子による超高次およびサブラジアンス

Super- and subradiance by entangled free particles ( http://arxiv.org/abs/2011.02548v1 )

ライセンス: Link先を確認
Aviv Karnieli, Nicholas Rivera, Ady Arie and Ido Kaminer(参考訳) 複数の量子エミッターが放射されると、その放出速度はスーパーまたはサブラディアンスと呼ばれるプロセスにおける集団干渉によって増大または抑制される。 このような過程は、自由荷電粒子による発光でもよく知られている。 これまで、これらの系における超放射と準放射の実験的および理論的研究はすべて、エミッター間の古典的な相関を含んでいた。 しかし、異なる放出粒子間の絡み合いのような量子相関への依存は研究されていない。 自由電子波動関数のコヒーレントシェーピングの最近の進歩は、スーパー・サブラディアンスの量子状態の研究を動機付ける。 このレターでは、2粒子の波動関数によらず、一対の経路絡み合った電子がスーパーまたはサブラジアントの発光を示すことを示す。 異なる自由電子のベル状態を選択することで、古典的な混合状態によって説明できない方法で光のスペクトルと放出パターンを再構成することができる。 我々は、光媒質中の発光に関するこれらの結果を示し、その多体量子状態への一般化について論じる。 本研究により, 発光物質波の量子状態に敏感であり, 多体系の量子状態を測定するための非破壊的な測定方法として機能する可能性が示唆された。

When multiple quantum emitters radiate, their emission rate may be enhanced or suppressed due to collective interference in a process known as super- or subradiance. Such processes are well-known to occur also in light emission by free charged particles. To date, all experimental and theoretical studies of super- and subradiance in these systems involved the classical correlations between the emitters. However, dependence on quantum correlations, such as entanglement between different emitting particles, has not been studied. Recent advances in coherent-shaping of free-electron wavefunctions motivate the investigation of such quantum regimes of super- and subradiance. In this Letter, we show how a pair of coincident path-entangled electrons can demonstrate either super- or subradiant light emission, depending on the two-particle wavefunction. By choosing different free-electron Bell-states, the spectrum and emission pattern of the light can be reshaped, in a manner that cannot be accounted for by a classical mixed state. We show these results for light emission in any optical medium, and discuss their generalization to many-body quantum states. Our findings suggest that light emission can be sensitive to the explicit quantum state of the emitting matter wave, and possibly serve as a non-destructive measurement scheme for measuring the quantum state of many-body systems.
翻訳日:2023-04-25 07:23:45 公開日:2020-11-04
# デジタル民主主義におけるアイデンティティと人格--擬人化と人格証明における包摂性、平等、安全、プライバシの評価

Identity and Personhood in Digital Democracy: Evaluating Inclusion, Equality, Security, and Privacy in Pseudonym Parties and Other Proofs of Personhood ( http://arxiv.org/abs/2011.02412v1 )

ライセンス: Link先を確認
Bryan Ford(参考訳) デジタルアイデンティティは、デジタル民主主義の前提条件に思える。有権者を特定せずに“一人、一人の投票”をオンラインでどうやって確保できるのか? しかし、デジタルidソリューション – idチェック、生体認証、自己主権id、信頼ネットワーク – はすべて欠陥があり、ユーザには排除、アイデンティティ損失、盗難、強制力に弱い。 デジタルアイデンティティーは、馬を引っ張るカートだから、この欠陥は克服できないかもしれない。 デジタル民主主義の重みを十分に確保するには、デジタルアイデンティティを「デジタル人格」という確固たる基盤の上に構築する必要がある。 アイデンティティは属性や所属を通じて個人を区別するものであるが、パーソナライズとは、アイデンティティーの喪失、盗難、強制、または偽装による民主的権利の侵食に対する保護を含む、アイデンティティとは独立して、実際の人々全員にデジタル参加権を付与することである。 我々は、この欠落した基盤を提供する「人格の証明」の代替アプローチを探求し、分析する。 疑似パーティーは、イベント間のデジタルトークンの力で、周期的な物理世界のイベントの透明性と結婚する。 これらのトークンは、オンライン投票や液状民主主義、サンプリングされた陪審または熟考投票、虐待に抵抗する社会的コミュニケーション、無許可暗号通貨における普遍的ベーシックインカムのマイニングといった目的のために使用できる、限定的ではあるが再生可能なクレームを表す。 参加者に物理的なセキュリティとプライバシを強制する瞬間を提供することで、今日のE投票システムを悩ませている強制と投票のリスクに対処することができる。 また,人格証明のための他の提案手法についても検討し,その一部は全オンライン参加などの利便性を提供する。 これらの選択肢は現在、重要なデジタル人格目標をすべて満たすには至っていないが、私たちが直面する課題に関する貴重な洞察を提供する。

Digital identity seems like a prerequisite for digital democracy: how can we ensure "one person, one vote" online without identifying voters? But digital identity solutions - ID checking, biometrics, self-sovereign identity, and trust networks - all present flaws, leaving users vulnerable to exclusion, identity loss or theft, and coercion. These flaws may be insurmountable because digital identity is a cart pulling the horse. We cannot achieve digital identity secure enough for the weight of digital democracy, until we build it on a solid foundation of "digital personhood." While identity is about distinguishing one person from another through attributes or affiliations, personhood is about giving all real people inalienable digital participation rights independent of identity, including protection against erosion of their democratic rights through identity loss, theft, coercion, or fakery. We explore and analyze alternative approaches to "proof of personhood" that may provide this missing foundation. Pseudonym parties marry the transparency of periodic physical-world events with the power of digital tokens between events. These tokens represent limited-term but renewable claims usable for purposes such as online voting or liquid democracy, sampled juries or deliberative polls, abuse-resistant social communication, or minting universal basic income in a permissionless cryptocurrency. Enhancing pseudonym parties to provide participants a moment of enforced physical security and privacy can address coercion and vote-buying risks that plague today's E-voting systems. We also examine other proposed approaches to proof of personhood, some of which offer conveniences such as all-online participation. These alternatives currently fall short of satisfying all the key digital personhood goals, unfortunately, but offer valuable insights into the challenges we face.
翻訳日:2023-04-25 07:22:45 公開日:2020-11-04
# ロンドン修正コヒーレント状態の統計的性質

Statistical properties of London modified coherent states ( http://arxiv.org/abs/2011.02381v1 )

ライセンス: Link先を確認
H\'ector M. Moya-Cessa and Julio Guerrero(参考訳) 本稿では,ロンドンコヒーレント状態に対するアイデンティティの解法を構築するために導入された改良型ロンドンコヒーレント状態の統計的性質について論じる。 特に、大きな振幅区間に対してポアソニアンな挙動が存在することを示し、それらの振動光子分布は原子反転のリングリバイバルを示す。

In this paper we discuss statistical properties of modified London coherent states, that were introduced in order build up a resolution of the identity for London coherent states. In particular, we show that there exist sub-Poissonian behaviour for a large interval of amplitudes and, because their oscillating photon distribution, they show ringing revivals of the atomic inversion.
翻訳日:2023-04-25 07:22:08 公開日:2020-11-04
# 物理学における決定論と直観主義数学

Indeterminism in Physics and Intuitionistic Mathematics ( http://arxiv.org/abs/2011.02348v1 )

ライセンス: Link先を確認
Nicolas Gisin(参考訳) ほとんどの物理学理論は決定論的であり、量子力学の顕著な例外は、しかしながら、いわゆる測定問題に悩まされる。 この状況は、標準数学が不確定主義を「話す」ことができないことや、時間が経つにつれて新しい情報が生み出される世界観を提示できないことによるものかもしれない。 そのような場合、科学的決定論は、科学者が使用する時間のない数学的言語のためにのみ幻想である。 この可能性を調べるためには、科学者が予測を計算し、不決定論や時間の経過に適合できるほど強力な代替数学言語を開発する必要がある。 直観主義数学はそのような言語を提供しており、簡単な言葉で説明する。

Most physics theories are deterministic, with the notable exception of quantum mechanics which, however, comes plagued by the so-called measurement problem. This state of affairs might well be due to the inability of standard mathematics to "speak" of indeterminism, its inability to present us a worldview in which new information is created as time passes. In such a case, scientific determinism would only be an illusion due to the timeless mathematical language scientists use. To investigate this possibility it is necessary to develop an alternative mathematical language that is both powerful enough to allow scientists to compute predictions and compatible with indeterminism and the passage of time. We argue that intuitionistic mathematics provides such a language and we illustrate it in simple terms.
翻訳日:2023-04-25 07:22:02 公開日:2020-11-04
# 強化学習のセンスと確率的推論

Making Sense of Reinforcement Learning and Probabilistic Inference ( http://arxiv.org/abs/2001.00805v3 )

ライセンス: Link先を確認
Brendan O'Donoghue, Ian Osband, Catalin Ionescu(参考訳) 強化学習(rl)は、制御問題と統計的推定を組み合わせる: システムのダイナミクスはエージェントには知られておらず、経験を通じて学べる。 最近の研究では、'rl as inference' をキャスティングし、確率的推論として rl 問題を一般化するためのフレームワークを提案する。 本稿は,RLを推論問題として整合的にキャストできる感覚を明らかにするために,そのアプローチにおける重要な欠点を提示する。 特に、RLエージェントは、その行動が将来の報酬や観察に与える影響を考慮しなければならない。 最も単純な設定以外は、実際のRLアルゴリズムが近似に頼らなければならないように、結果として生じる推論は計算的に難解である。 一般の'RL as inference'近似は、非常に基本的な問題でさえも性能が良くないことを示す。 しかし,小さな修正で実現可能なアルゴリズムが得られることを示すとともに,そのアルゴリズムが最近提案されているk学習と等価であることを示し,さらにトンプソンサンプリングと結びつける。

Reinforcement learning (RL) combines a control problem with statistical estimation: The system dynamics are not known to the agent, but can be learned through experience. A recent line of research casts `RL as inference' and suggests a particular framework to generalize the RL problem as probabilistic inference. Our paper surfaces a key shortcoming in that approach, and clarifies the sense in which RL can be coherently cast as an inference problem. In particular, an RL agent must consider the effects of its actions upon future rewards and observations: The exploration-exploitation tradeoff. In all but the most simple settings, the resulting inference is computationally intractable so that practical RL algorithms must resort to approximation. We demonstrate that the popular `RL as inference' approximation can perform poorly in even very basic problems. However, we show that with a small modification the framework does yield algorithms that can provably perform well, and we show that the resulting algorithm is equivalent to the recently proposed K-learning, which we further connect with Thompson sampling.
翻訳日:2023-01-14 17:27:31 公開日:2020-11-04
# 潜在共同設立者の存在下での線形非ガウス非巡回モデルの因果発見

Causal discovery of linear non-Gaussian acyclic models in the presence of latent confounders ( http://arxiv.org/abs/2001.04197v4 )

ライセンス: Link先を確認
Takashi Nicholas Maeda and Shohei Shimizu(参考訳) 潜伏した共同ファウンダーの影響を受けたデータからの因果関係の発見は、重要かつ難しい課題である。 因果関数型モデルに基づくアプローチは、潜在的共同設立者の影響を受けやすい変数を示すために使われていない。 本稿では, 潜在共起者によって影響を受ける観測変数の因果構造を発見するために, 反復因果発見 (repetitive causal discovery, rcd) と呼ばれる因果的機能モデルに基づく手法を提案する。 RCDは少数の観測変数間で因果方向を推定し、その関係が潜伏した共同設立者の影響を受けているかどうかを判定する。 rcdは最終的に因果グラフを生成し、双方向矢印は同一の潜在共起者を持つ2つの変数を示し、有向矢印は同一の潜在共起者に影響されない2つの変数の因果方向を示す。 シミュレーションデータと実世界のデータを用いた実験的検証の結果,rcdは潜在共起者の同定や観測変数間の因果方向の同定に有効であることがわかった。

Causal discovery from data affected by latent confounders is an important and difficult challenge. Causal functional model-based approaches have not been used to present variables whose relationships are affected by latent confounders, while some constraint-based methods can present them. This paper proposes a causal functional model-based method called repetitive causal discovery (RCD) to discover the causal structure of observed variables affected by latent confounders. RCD repeats inferring the causal directions between a small number of observed variables and determines whether the relationships are affected by latent confounders. RCD finally produces a causal graph where a bi-directed arrow indicates the pair of variables that have the same latent confounders, and a directed arrow indicates the causal direction of a pair of variables that are not affected by the same latent confounder. The results of experimental validation using simulated data and real-world data confirmed that RCD is effective in identifying latent confounders and causal directions between observed variables.
翻訳日:2023-01-11 22:39:33 公開日:2020-11-04
# X線画像の教師なし異常検出

Unsupervised Anomaly Detection for X-Ray Images ( http://arxiv.org/abs/2001.10883v2 )

ライセンス: Link先を確認
Diana Davletshina, Valentyn Melnychuk, Viet Tran, Hitansh Singla, Max Berrendorf, Evgeniy Faerman, Michael Fromm, and Matthias Schubert(参考訳) 医療(画像)データのラベルを取得するには、少ない専門家と高価な専門家が必要である。 さらに、曖昧な症状のため、単一の画像が医療状態の正確な診断に足りることはほとんどない。 代わりに、患者の医療履歴や検査結果など、追加の背景情報を考慮に入れる必要があることが多い。 そこで本研究では,手指のX線画像の評価において,異常のない画像で訓練された教師なしの方法が,医師の助けになるかを検討する。 本手法は,診断の効率を高め,重要な領域の欠落のリスクを低減する。 そこで我々は,教師なし学習に最先端の手法を適用し,異常を検出し,これらの手法の出力がどのように説明できるかを示す。 しばしば異常と誤認されるノイズの影響を低減するために,我々は強力な前処理パイプラインを導入する。 我々は、異なるアプローチを広範囲に評価し、ラベルがなくても、手にあるx線画像の実世界のデータセットで満足のいく結果が得られることを実証的に示す。 また, 前処理の重要性も評価し, 主要な発見の1つとして, この手法が無作為には, ほとんど無作為に動作しない点が挙げられる。 再現性を高め、研究を加速するために、コードをhttps://github.com/Valentyn1997/xrayで公開します。

Obtaining labels for medical (image) data requires scarce and expensive experts. Moreover, due to ambiguous symptoms, single images rarely suffice to correctly diagnose a medical condition. Instead, it often requires to take additional background information such as the patient's medical history or test results into account. Hence, instead of focusing on uninterpretable black-box systems delivering an uncertain final diagnosis in an end-to-end-fashion, we investigate how unsupervised methods trained on images without anomalies can be used to assist doctors in evaluating X-ray images of hands. Our method increases the efficiency of making a diagnosis and reduces the risk of missing important regions. Therefore, we adopt state-of-the-art approaches for unsupervised learning to detect anomalies and show how the outputs of these methods can be explained. To reduce the effect of noise, which often can be mistaken for an anomaly, we introduce a powerful preprocessing pipeline. We provide an extensive evaluation of different approaches and demonstrate empirically that even without labels it is possible to achieve satisfying results on a real-world dataset of X-ray images of hands. We also evaluate the importance of preprocessing and one of our main findings is that without it, most of our approaches perform not better than random. To foster reproducibility and accelerate research we make our code publicly available at https://github.com/Valentyn1997/xray
翻訳日:2023-01-05 20:35:41 公開日:2020-11-04
# オフポリティ評価と政策最適化のためのミニマックス値インターバル

Minimax Value Interval for Off-Policy Evaluation and Policy Optimization ( http://arxiv.org/abs/2002.02081v6 )

ライセンス: Link先を確認
Nan Jiang, Jiawei Huang(参考訳) 価値関数と限界化重要度重みを用いたオフポリシー評価(ope)のためのミニマックス法について検討した。 従来の重要度サンプリングにおける指数的分散を克服する約束があるにもかかわらず、いくつかの重要な問題が残っている: 1) 関数近似が必要であり、一般に偏りがある。 信頼できるOPEのために、偏見を定量化する手段はあるのだろうか? 2)2つのスタイル(「重み学習」と「価値学習」)に分けられる。 それらを統一できますか? 本稿では,両質問を肯定的に答える。 従来の方法の導出(各スタイルから1つずつ;uehara et al., 2020)を少し変更することで、これらを特別なタイプのダブルロバストネスを伴う単一の値区間に統一する: 値関数か重要度級のいずれかが適切に指定されている場合、その間隔は有効であり、その長さは他のクラスの誤特定を定量化する。 我々の間隔はまた、最近の手法に対する統一的な見解と新たな洞察を提供し、データカバレッジが不十分な非政治政策最適化における調査と活用における結果の影響をさらに探求する。

We study minimax methods for off-policy evaluation (OPE) using value functions and marginalized importance weights. Despite that they hold promises of overcoming the exponential variance in traditional importance sampling, several key problems remain: (1) They require function approximation and are generally biased. For the sake of trustworthy OPE, is there anyway to quantify the biases? (2) They are split into two styles ("weight-learning" vs "value-learning"). Can we unify them? In this paper we answer both questions positively. By slightly altering the derivation of previous methods (one from each style; Uehara et al., 2020), we unify them into a single value interval that comes with a special type of double robustness: when either the value-function or the importance-weight class is well specified, the interval is valid and its length quantifies the misspecification of the other class. Our interval also provides a unified view of and new insights to some recent methods, and we further explore the implications of our results on exploration and exploitation in off-policy policy optimization with insufficient data coverage.
翻訳日:2023-01-03 10:01:25 公開日:2020-11-04
# フラクショナルアンダーダムランゲヴィンダイナミクス:重音下でのモーメントによるSGDのリターゲティング

Fractional Underdamped Langevin Dynamics: Retargeting SGD with Momentum under Heavy-Tailed Gradient Noise ( http://arxiv.org/abs/2002.05685v2 )

ライセンス: Link先を確認
Umut \c{S}im\c{s}ekli, Lingjiong Zhu, Yee Whye Teh, Mert G\"urb\"uzbalaban(参考訳) モーメントを伴う確率勾配降下(SGDm)は、ディープラーニングにおける最も一般的な最適化アルゴリズムの1つである。 凸問題にはsgdmの豊富な理論があるが、この問題が非凸で勾配ノイズが重み付き振舞いを示す深層学習の文脈では、近年の研究で実証的に観察されたように、この理論は開発されていない。 本研究では, アンダーダムドランゲヴィン力学 (ULD) として知られるSGDmのemph{continuous-time} 変種について検討し, その漸近特性について検討する。 統計物理学の最近の研究で支持されているように、この摂動の重みは、ステップサイズが小さい場合でもバイアスをもたらすと理論的にも経験的にも論じるが、力学の「定常分布の最適値」が最適化されるコスト関数の最適値と一致しないかもしれない。 そこで我々は, FULD (emph{fractional} ULD) と呼ばれる新しいフレームワークを開発し, FULD が本来のコストの最適値と正確に一致するギブズ分布を目標としていることを証明した。 fuldのオイラー離散化は, \emph{natural gradient} 法と \emph{gradient clipping} 法とのアルゴリズム的類似性が注目され,深層学習におけるその役割を理解するための新たな視点がもたらされている。 我々は,合成モデルとニューラルネットワークを用いた実験により,この理論を支持する。

Stochastic gradient descent with momentum (SGDm) is one of the most popular optimization algorithms in deep learning. While there is a rich theory of SGDm for convex problems, the theory is considerably less developed in the context of deep learning where the problem is non-convex and the gradient noise might exhibit a heavy-tailed behavior, as empirically observed in recent studies. In this study, we consider a \emph{continuous-time} variant of SGDm, known as the underdamped Langevin dynamics (ULD), and investigate its asymptotic properties under heavy-tailed perturbations. Supported by recent studies from statistical physics, we argue both theoretically and empirically that the heavy-tails of such perturbations can result in a bias even when the step-size is small, in the sense that \emph{the optima of stationary distribution} of the dynamics might not match \emph{the optima of the cost function to be optimized}. As a remedy, we develop a novel framework, which we coin as \emph{fractional} ULD (FULD), and prove that FULD targets the so-called Gibbs distribution, whose optima exactly match the optima of the original cost. We observe that the Euler discretization of FULD has noteworthy algorithmic similarities with \emph{natural gradient} methods and \emph{gradient clipping}, bringing a new perspective on understanding their role in deep learning. We support our theory with experiments conducted on a synthetic model and neural networks.
翻訳日:2023-01-01 10:03:04 公開日:2020-11-04
# CPM R-CNN:物体検出における点誘導誤りの校正

CPM R-CNN: Calibrating Point-guided Misalignment in Object Detection ( http://arxiv.org/abs/2003.03570v2 )

ライセンス: Link先を確認
Bin Zhu, Qing Song, Lu Yang, Zhihui Wang, Chun Liu, Mengjie Hu(参考訳) 物体検出では、オフセット誘導とポイント誘導回帰がアンカーベースとアンカーフリーを別々に支配する。 近年,アンカー方式にポイント誘導方式を導入している。 しかし,この方法で予測されるポイントは,提案の一致領域や局所化スコアと不一致しており,性能の差が顕著である。 本稿では,3つの効率的なモジュールを含むCPM R-CNNを提案する。 COCOデータセットの十分な評価により、CPM R-CNNは、上記の誤調整を校正することにより、位置決め精度を向上させるために効率よく示される。 ResNet-101とFPNをベースとした高速R-CNNとグリッドR-CNNを比較検討した結果,それぞれ3.3%,1.5%の検出精度が得られた。 さらに,COCOテストデブでは49.9%の差で改善が達成された。 コードとモデルは公開されます。

In object detection, offset-guided and point-guided regression dominate anchor-based and anchor-free method separately. Recently, point-guided approach is introduced to anchor-based method. However, we observe points predicted by this way are misaligned with matched region of proposals and score of localization, causing a notable gap in performance. In this paper, we propose CPM R-CNN which contains three efficient modules to optimize anchor-based point-guided method. According to sufficient evaluations on the COCO dataset, CPM R-CNN is demonstrated efficient to improve the localization accuracy by calibrating mentioned misalignment. Compared with Faster R-CNN and Grid R-CNN based on ResNet-101 with FPN, our approach can substantially improve detection mAP by 3.3% and 1.5% respectively without whistles and bells. Moreover, our best model achieves improvement by a large margin to 49.9% on COCO test-dev. Code and models will be publicly available.
翻訳日:2022-12-25 19:59:45 公開日:2020-11-04
# 潜在空間接続によるスペクトルからの形状の瞬時復元

Instant recovery of shape from spectrum via latent space connections ( http://arxiv.org/abs/2003.06523v4 )

ライセンス: Link先を確認
Riccardo Marin, Arianna Rampini, Umberto Castellani, Emanuele Rodol\`a, Maks Ovsjanikov, Simone Melzi(参考訳) ラプラシアンスペクトルから形状を復元する最初の学習法を提案する。 自動エンコーダが与えられた場合、我々のモデルはサイクル整合モジュールの形で潜在ベクトルを固有値列にマッピングする。 このモジュールは、所定の形状のスペクトルと幾何学の間の効率的かつ効果的なリンクを提供する。 我々のデータ駆動型アプローチは、計算コストのごく一部でより正確な結果を提供しながら、事前の手法で必要となるアドホック正規化器の必要性を置き換える。 我々の学習モデルは、異なる次元(2次元と3次元の形状も同様)、表現(メシ、輪郭、点雲)、異なる形状のクラスにまたがって適用され、複雑さに影響を与えることなく入力スペクトルの任意の分解能を認める。 柔軟性の向上により,スペクトルからの形状生成,メッシュ超解像,形状探索,スタイル移動,点雲からのスペクトル推定,分割移動,点対点マッチングなど,統合されたフレームワーク内での3次元視覚および幾何学処理における極めて難しい課題に対処できる。

We introduce the first learning-based method for recovering shapes from Laplacian spectra. Given an auto-encoder, our model takes the form of a cycle-consistent module to map latent vectors to sequences of eigenvalues. This module provides an efficient and effective linkage between spectrum and geometry of a given shape. Our data-driven approach replaces the need for ad-hoc regularizers required by prior methods, while providing more accurate results at a fraction of the computational cost. Our learning model applies without modifications across different dimensions (2D and 3D shapes alike), representations (meshes, contours and point clouds), as well as across different shape classes, and admits arbitrary resolution of the input spectrum without affecting complexity. The increased flexibility allows us to provide a proxy to differentiable eigendecomposition and to address notoriously difficult tasks in 3D vision and geometry processing within a unified framework, including shape generation from spectrum, mesh super-resolution, shape exploration, style transfer, spectrum estimation from point clouds, segmentation transfer and point-to-point matching.
翻訳日:2022-12-23 20:10:39 公開日:2020-11-04
# 歴史写本における変遷の種類の自動同定

Automatic Identification of Types of Alterations in Historical Manuscripts ( http://arxiv.org/abs/2003.09136v3 )

ライセンス: Link先を確認
David Lassner (TUB), Anne Baillot (3L.AM), Sergej Dogadov (TUB), Klaus-Robert M\"uller (TUB), Shinichi Nakajima (TUB)(参考訳) 書状などの歴史写本の変質は、有望な研究分野である。 一方、それらはテキストの構築を理解するのに役立ちます。 一方、写本の時点でセンシティブであると考えられるトピックは、特に削除の場合において、変更を考慮に入れた場合には、一貫性と文脈性がもたらされる。 しかし、写本の改変の分析は伝統的に非常に退屈な作業である。 本稿では,文書の変更を分類する機械学習に基づく手法を提案する。 特に、コンテンツに関連する変化を分類する新しい確率モデル(Alteration Latent Dirichlet Allocation, alterLDA in the following)を提案する。 本手法は,ラベル付きデータに対する変更認識において高い性能を達成できる,デジタル学術版Berlin Intellectualsで実施した実験に基づいて,提案手法を開発した。 ラベルのないデータについて、 alterLDA を適用することで、1800年頃のベルリンの知識人関係におけるセンシティブなトピックに関する洞察だけでなく、著者、編集者、その他の原稿寄稿者の変更行動に関する興味深い新たな洞察がもたらされる。 本研究は,学術誌Berlin Intellectualsに基づく研究結果に加えて,文書の変種を表す他のデジタルリソースの文脈で使用可能なテキスト生成解析のための一般的な枠組みを提示する。 そこで我々は,このような結果を得るために追従すべき方法論的手順を詳細に提示し,機械学習アプリケーションであるDigital Humanitiesの素例となる。

Alterations in historical manuscripts such as letters represent a promising field of research. On the one hand, they help understand the construction of text. On the other hand, topics that are being considered sensitive at the time of the manuscript gain coherence and contextuality when taking alterations into account, especially in the case of deletions. The analysis of alterations in manuscripts, though, is a traditionally very tedious work. In this paper, we present a machine learning-based approach to help categorize alterations in documents. In particular, we present a new probabilistic model (Alteration Latent Dirichlet Allocation, alterLDA in the following) that categorizes content-related alterations. The method proposed here is developed based on experiments carried out on the digital scholarly edition Berlin Intellectuals, for which alterLDA achieves high performance in the recognition of alterations on labelled data. On unlabelled data, applying alterLDA leads to interesting new insights into the alteration behavior of authors, editors and other manuscript contributors, as well as insights into sensitive topics in the correspondence of Berlin intellectuals around 1800. In addition to the findings based on the digital scholarly edition Berlin Intellectuals, we present a general framework for the analysis of text genesis that can be used in the context of other digital resources representing document variants. To that end, we present in detail the methodological steps that are to be followed in order to achieve such results, giving thereby a prime example of an Machine Learning application the Digital Humanities.
翻訳日:2022-12-21 21:50:26 公開日:2020-11-04
# ディープスパイキングニューラルネットにおけるバックプロパゲーションのための整流線形後シナプス電位関数

Rectified Linear Postsynaptic Potential Function for Backpropagation in Deep Spiking Neural Networks ( http://arxiv.org/abs/2003.11837v2 )

ライセンス: Link先を確認
Malu Zhang, Jiadong Wang, Burin Amornpaisannon, Zhixuan Zhang, VPK Miriyala, Ammar Belatreche, Hong Qu, Jibin Wu, Yansong Chua, Trevor E. Carlson and Haizhou Li(参考訳) spiking neural networks (snns) は時空間スパイクパターンを用いて情報を表現し、伝達する。 ディープラーニングの成功に触発されたDeep Spiking Neural Networks(DeepSNNs)の研究は、人工知能アプリケーションに有望な方向を提供する。 しかし、よく研究されたエラーバックプロパゲーション(BP)アルゴリズムは直接適用できないため、DeepSNNのトレーニングは簡単ではない。 本稿では,DeepSNNにおいてエラーバックプロパゲーションがうまく動作しない理由について,まず理解する。 この問題に対処するために,スパイキングニューロンに対する単純かつ効率的な線形後シナプス電位関数rel-pspを提案し,deepsnnsのためのスパイク・タイピング依存性バックプロパゲーション(stdbp)学習アルゴリズムを提案する。 STDBPアルゴリズムでは、個々のスパイクのタイミングを用いて情報(時間符号化)を伝達し、イベント駆動方式でスパイクタイミングに基づいて学習(バックプロパゲーション)を行う。 提案手法は,deepsnnのスパイク時間に基づく学習アルゴリズムにおいて,最先端の分類精度を実現できることを示す。 さらに,提案するstdbp学習アルゴリズムから得られたモデルパラメータを用いて,最近提案されたニューロモルフィック推論アクセラレータ上での超低消費電力推論操作を実証する。 実験の結果、ニューロモルフィックハードウェアは総消費電力の 0.751~mw を消費し、mnistデータセットから画像を分類するために 47.71~ms の低レイテンシを達成した。 本研究は,情報エンコーディング,シナプス可塑性,意思決定におけるスパイクタイミングダイナミクスの寄与を調査し,今後のdeepsnnとニューロモルフィックハードウェアシステムの設計への新たな展望を提供する。

Spiking Neural Networks (SNNs) use spatio-temporal spike patterns to represent and transmit information, which is not only biologically realistic but also suitable for ultra-low-power event-driven neuromorphic implementation. Motivated by the success of deep learning, the study of Deep Spiking Neural Networks (DeepSNNs) provides promising directions for artificial intelligence applications. However, training of DeepSNNs is not straightforward because the well-studied error back-propagation (BP) algorithm is not directly applicable. In this paper, we first establish an understanding as to why error back-propagation does not work well in DeepSNNs. To address this problem, we propose a simple yet efficient Rectified Linear Postsynaptic Potential function (ReL-PSP) for spiking neurons and propose a Spike-Timing-Dependent Back-Propagation (STDBP) learning algorithm for DeepSNNs. In STDBP algorithm, the timing of individual spikes is used to convey information (temporal coding), and learning (back-propagation) is performed based on spike timing in an event-driven manner. Our experimental results show that the proposed learning algorithm achieves state-of-the-art classification accuracy in single spike time based learning algorithms of DeepSNNs. Furthermore, by utilizing the trained model parameters obtained from the proposed STDBP learning algorithm, we demonstrate the ultra-low-power inference operations on a recently proposed neuromorphic inference accelerator. Experimental results show that the neuromorphic hardware consumes 0.751~mW of the total power consumption and achieves a low latency of 47.71~ms to classify an image from the MNIST dataset. Overall, this work investigates the contribution of spike timing dynamics to information encoding, synaptic plasticity and decision making, providing a new perspective to design of future DeepSNNs and neuromorphic hardware systems.
翻訳日:2022-12-19 21:06:28 公開日:2020-11-04
# 一般化ゼロショット学習からクラス記述子付きロングテールへ

From Generalized zero-shot learning to long-tail with class descriptors ( http://arxiv.org/abs/2004.02235v4 )

ライセンス: Link先を確認
Dvir Samuel, Yuval Atzmon and Gal Chechik(参考訳) 現実世界のデータは主に不均衡で長い尾を持つが、深層モデルは頻繁なクラスの存在下で稀なクラスを認識するのに苦労している。 しばしば、クラスはテキスト記述のようなサイド情報を伴うことができるが、バランスの取れないロングテールデータで学習するためにそれを使う方法が完全には明確ではない。 このような記述は、主に(一般化)ゼロショット学習(ZSL)で使われており、クラス記述を持つZSLは、ロングテール分布にも有用であることを示している。 DRAGONは,クラス記述子を用いたロングテール学習のためのレイトフュージョンアーキテクチャである。 1)サンプル・バイ・サンプルベースでヘッドクラスに対するバイアスを補正し,(2)クラス記述からの情報を融合してテールクラスの精度を向上させる。 また,CUB-LT,SUN-LT,AWA-LTをクラス記述付き長期学習用として導入し,既存の学習属性データセットとクラス記述子付きImagenet-LTを導入した。 DRAGONは、新しいベンチマークで最先端モデルを上回っている。 また、GFSLの既存のベンチマークには、クラス記述子(GFSL-d)と標準(ビジョンのみ)の長期学習用ImageNet-LT、CIFAR-10、100、Places365がある。

Real-world data is predominantly unbalanced and long-tailed, but deep models struggle to recognize rare classes in the presence of frequent classes. Often, classes can be accompanied by side information like textual descriptions, but it is not fully clear how to use them for learning with unbalanced long-tail data. Such descriptions have been mostly used in (Generalized) Zero-shot learning (ZSL), suggesting that ZSL with class descriptions may also be useful for long-tail distributions. We describe DRAGON, a late-fusion architecture for long-tail learning with class descriptors. It learns to (1) correct the bias towards head classes on a sample-by-sample basis; and (2) fuse information from class-descriptions to improve the tail-class accuracy. We also introduce new benchmarks CUB-LT, SUN-LT, AWA-LT for long-tail learning with class-descriptions, building on existing learning-with-attributes datasets and a version of Imagenet-LT with class descriptors. DRAGON outperforms state-of-the-art models on the new benchmark. It is also a new SoTA on existing benchmarks for GFSL with class descriptors (GFSL-d) and standard (vision-only) long-tailed learning ImageNet-LT, CIFAR-10, 100, and Places365.
翻訳日:2022-12-16 12:10:07 公開日:2020-11-04
# RAIN:ロバストで正確な画像分類ネットワークのためのシンプルなアプローチ

RAIN: A Simple Approach for Robust and Accurate Image Classification Networks ( http://arxiv.org/abs/2004.14798v4 )

ライセンス: Link先を確認
Jiawei Du, Hanshu Yan, Vincent Y. F. Tan, Joey Tianyi Zhou, Rick Siow Mong Goh, Jiashi Feng(参考訳) 既存の防御手法の大部分は、予測精度を犠牲にして堅牢性を達成することが示されている。 望ましくない精度の大幅な低下は、機械学習アルゴリズムの信頼性に悪影響を及ぼし、現実的なアプリケーションへの展開を禁止している。 本稿では,CNN分類器のロバスト性を改善するために,ロバスト・高精度画像分類N(RAIN)と呼ばれる新しい前処理フレームワークを提案するとともに,その高い予測精度を保ちながら,このジレンマに対処することを目的とする。 RAINは、新しいランダム化エンハンスメントスキームを導入している。 入力をランダム化することにより、モデル前方予測経路と逆勾配経路との結合を断ち切ることにより、モデルのロバスト性が向上する。 しかし、既存の前処理方式と同様に、ランダム化プロセスは予測精度を劣化させる。 このような理由を解明するために、原画像と処理画像の違いを比較し、入力画像中の高周波成分が失われ、分類器の精度が低下することを発見した。 この発見に基づいて、RAINは入力の高周波の詳細を強化し、CNNの高精度な予測精度を維持する。 具体的には,ランダム化小円シフト(RdmSCS)とランダム化ダウンサンプリング(RdmDU)の2つの新しいランダム化モジュールから構成される。 RdmDUモジュールは入力画像をランダムにダウンサンプルし、RdmSCSモジュールはランダムに選択された方向に沿って小さな画素数で入力画像を円形にシフトする。 最後に、RdmDUモジュールは深層超解像ネットワークのような詳細エンハンスメントモデルでアップサンプリングを行う。 STL10 と ImageNet のデータセットを用いて、様々な種類の敵攻撃に対する RAIN の有効性を検証する。

It has been shown that the majority of existing adversarial defense methods achieve robustness at the cost of sacrificing prediction accuracy. The undesirable severe drop in accuracy adversely affects the reliability of machine learning algorithms and prohibits their deployment in realistic applications. This paper aims to address this dilemma by proposing a novel preprocessing framework, which we term Robust and Accurate Image classificatioN(RAIN), to improve the robustness of given CNN classifiers and, at the same time, preserve their high prediction accuracies. RAIN introduces a new randomization-enhancement scheme. It applies randomization over inputs to break the ties between the model forward prediction path and the backward gradient path, thus improving the model robustness. However, similar to existing preprocessing-based methods, the randomized process will degrade the prediction accuracy. To understand why this is the case, we compare the difference between original and processed images, and find it is the loss of high-frequency components in the input image that leads to accuracy drop of the classifier. Based on this finding, RAIN enhances the input's high-frequency details to retain the CNN's high prediction accuracy. Concretely, RAIN consists of two novel randomization modules: randomized small circular shift (RdmSCS) and randomized down-upsampling (RdmDU). The RdmDU module randomly downsamples the input image, and then the RdmSCS module circularly shifts the input image along a randomly chosen direction by a small but random number of pixels. Finally, the RdmDU module performs upsampling with a detail-enhancement model, such as deep super-resolution networks. We conduct extensive experiments on the STL10 and ImageNet datasets to verify the effectiveness of RAIN against various types of adversarial attacks.
翻訳日:2022-12-10 03:25:05 公開日:2020-11-04
# スキーマ誘導自然言語生成

Schema-Guided Natural Language Generation ( http://arxiv.org/abs/2005.05480v2 )

ライセンス: Link先を確認
Yuheng Du, Shereen Oraby, Vittorio Perera, Minmin Shen, Anjali Narayan-Chen, Tagyoung Chung, Anu Venkatesh, Dilek Hakkani-Tur(参考訳) ニューラルネットワークによる自然言語生成(NLG)へのアプローチが近年人気を集めており、入力の意味表現を正確に実現する自然言語プロンプトの生成が目標となっている。 ニューラルネットワークモデルのトレーニングを容易にするため、研究者はペア発話とその意味表現の大きなデータセットを作成しました。 しかし,このようなデータセットの作成は困難な作業であり,その大部分は,実現すべきスロットとバリュートークンからなる単純な意味表現で構成されている。 これらの表現には、ドメイン情報やスロットや値の記述など、nlgシステムが一般化しようとするときに使用できるコンテキスト情報が含まれない。 本稿では,スキーマ誘導自然言語生成(SG-NLG)の課題について述べる。 ここでは、まだ自然言語プロンプトを生成することが目標だが、SG-NLGでは、入力MRとコンテキスト情報を提供するリッチスキーマがペアリングされる。 sg-nlg用のデータセットを生成するには、既存のデータセットを別のタスクに再利用する。 ダイアログ状態トラッキング。ドメインに関する情報、ユーザインテント、スロット記述など、複数の属性にまたがる、大きくてリッチなスキーマを含む。 このデータセットに基づいて、ニューラルネットワーク生成のためのさまざまな最先端モデルをトレーニングし、リッチスキーマ情報を含む多くのケースにおいて、モデルがセマンティクスと多様性の両方の観点から高品質なアウトプットを生成することができることを示す。 また,見知らぬ領域と見えない領域とのモデル性能の比較実験を行い,全体の出力品質に対する高い評価を示す。

Neural network based approaches to data-to-text natural language generation (NLG) have gained popularity in recent years, with the goal of generating a natural language prompt that accurately realizes an input meaning representation. To facilitate the training of neural network models, researchers created large datasets of paired utterances and their meaning representations. However, the creation of such datasets is an arduous task and they mostly consist of simple meaning representations composed of slot and value tokens to be realized. These representations do not include any contextual information that an NLG system can use when trying to generalize, such as domain information and descriptions of slots and values. In this paper, we present the novel task of Schema-Guided Natural Language Generation (SG-NLG). Here, the goal is still to generate a natural language prompt, but in SG-NLG, the input MRs are paired with rich schemata providing contextual information. To generate a dataset for SG-NLG we re-purpose an existing dataset for another task: dialog state tracking, which includes a large and rich schema spanning multiple different attributes, including information about the domain, user intent, and slot descriptions. We train different state-of-the-art models for neural natural language generation on this dataset and show that in many cases, including rich schema information allows our models to produce higher quality outputs both in terms of semantics and diversity. We also conduct experiments comparing model performance on seen versus unseen domains, and present a human evaluation demonstrating high ratings for overall output quality.
翻訳日:2022-12-04 20:20:51 公開日:2020-11-04
# 確率的バイナリネットワークのためのパスサンプル解析勾配推定器

Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks ( http://arxiv.org/abs/2006.03143v2 )

ライセンス: Link先を確認
Alexander Shekhovtsov, Viktor Yanush, Boris Flach(参考訳) 二元アクティベーションと二元重みを持つニューラルネットワークでは、勾配降下によるトレーニングは、モデルが区分的な定数応答を持つため複雑である。 アクティベーションの前に雑音を加えることによって得られる確率的二元ネットワークを考える。 予測されたモデル応答はパラメータの滑らかな関数となり、勾配はよく定義されるが、正確に見積もるのは困難である。 そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。 この方法は小さなバイアスの価格でのばらつきを著しく低減し、既存のバイアスのない偏り推定器と比較して非常に実用的なトレードオフを与える。 さらに、1つの余分な線形化ステップが、以前はアドホックなヒューリスティックとしてのみ知られていた深い直線スルー推定に繋がることを示す。 グラデーション推定の精度を実験的に向上させ, 両手法を併用した深部畳み込みモデルにおいて, より安定かつ優れた訓練を行うことを示す。

In neural networks with binary activations and or binary weights the training by gradient descent is complicated as the model has piecewise constant response. We consider stochastic binary networks, obtained by adding noises in front of activations. The expected model response becomes a smooth function of parameters, its gradient is well defined but it is challenging to estimate it accurately. We propose a new method for this estimation problem combining sampling and analytic approximation steps. The method has a significantly reduced variance at the price of a small bias which gives a very practical tradeoff in comparison with existing unbiased and biased estimators. We further show that one extra linearization step leads to a deep straight-through estimator previously known only as an ad-hoc heuristic. We experimentally show higher accuracy in gradient estimation and demonstrate a more stable and better performing training in deep convolutional models with both proposed methods.
翻訳日:2022-11-25 09:33:50 公開日:2020-11-04
# Ansor : ディープラーニングのための高性能テンソルプログラムの生成

Ansor : Generating High-Performance Tensor Programs for Deep Learning ( http://arxiv.org/abs/2006.06762v4 )

ライセンス: Link先を確認
Lianmin Zheng, Chengfan Jia, Minmin Sun, Zhao Wu, Cody Hao Yu, Ameer Haj-Ali, Yida Wang, Jun Yang, Danyang Zhuo, Koushik Sen, Joseph E. Gonzalez, Ion Stoica(参考訳) 高性能テンソルプログラムは、ディープニューラルネットワークの効率的な実行を保証するために不可欠である。 しかし、様々なハードウェアプラットフォーム上で異なる演算子に対してパフォーマンステンソルプログラムを取得することは、非常に難しい。 現在、ディープラーニングシステムはベンダーが提供するカーネルライブラリや様々な検索戦略に頼っている。 これらのアプローチは、プラットフォーム固有の最適化コードを開発するための重要なエンジニアリングの努力を必要とするか、あるいは検索スペースの制限と非効率的な探索戦略のために高性能なプログラムを見つけられなかった。 本稿では,ディープラーニングアプリケーションのためのテンソルプログラム生成フレームワークansorを提案する。 既存の検索戦略と比較して、Ansorは検索空間の階層的な表現からプログラムをサンプリングすることで、多くの最適化の組み合わせを探索する。 ansorはサンプルプログラムを進化的探索と学習コストモデルで微調整し、最適なプログラムを識別する。 Ansorは、既存の最先端アプローチの検索空間外にある高性能プログラムを見つけることができる。 さらに、ansorはタスクスケジューラを使用して、ディープニューラルネットワークで複数のサブグラフを同時に最適化する。 我々は、AnsorがIntel CPU、ARM CPU、NVIDIA GPUの最先端技術に対するディープニューラルネットワークの実行性能を最大3.8\times$、2.6\times$、1.7\times$で改善していることを示す。

High-performance tensor programs are crucial to guarantee efficient execution of deep neural networks. However, obtaining performant tensor programs for different operators on various hardware platforms is notoriously challenging. Currently, deep learning systems rely on vendor-provided kernel libraries or various search strategies to get performant tensor programs. These approaches either require significant engineering effort to develop platform-specific optimization code or fall short of finding high-performance programs due to restricted search space and ineffective exploration strategy. We present Ansor, a tensor program generation framework for deep learning applications. Compared with existing search strategies, Ansor explores many more optimization combinations by sampling programs from a hierarchical representation of the search space. Ansor then fine-tunes the sampled programs with evolutionary search and a learned cost model to identify the best programs. Ansor can find high-performance programs that are outside the search space of existing state-of-the-art approaches. In addition, Ansor utilizes a task scheduler to simultaneously optimize multiple subgraphs in deep neural networks. We show that Ansor improves the execution performance of deep neural networks relative to the state-of-the-art on the Intel CPU, ARM CPU, and NVIDIA GPU by up to $3.8\times$, $2.6\times$, and $1.7\times$, respectively.
翻訳日:2022-11-22 09:19:34 公開日:2020-11-04
# Mucko: Fact-based Visual Question Answeringのための多層クロスモーダル知識推論

Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering ( http://arxiv.org/abs/2006.09073v3 )

ライセンス: Link先を確認
Zihao Zhu, Jing Yu, Yujing Wang, Yajing Sun, Yue Hu, Qi Wu(参考訳) Fact-based Visual Question Answering (FVQA)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。 既存のFVQAソリューションの1つの制限は、細かな選択なしにあらゆる種類の情報を共同で埋め込み、最終的な答えを推論するための予期せぬノイズを導入することである。 質問指向と情報補完的な証拠をどうやって捉えるかは、この問題を解決する上で重要な課題である。 本稿では,視覚的,意味的,事実的特徴に対応する複数の情報層を含む多様不均質グラフによる画像について述べる。 多層グラフ表現の上に、与えられた問題に最も関係のある異なる層から証拠を捉えるために、モダリティ対応の不均一グラフ畳み込みネットワークを提案する。 具体的には、モダリティ内グラフ畳み込みは各モダリティからエビデンスを選択し、クロスモーダルグラフ畳み込みは異なるモダリティ間で関連する情報を集約する。 このプロセスを複数回積み重ねることで、反復的推論を行い、全ての質問指向の証拠を分析して最適解を予測する。 fvqaタスクで新たな最先端性能を達成し,広範な実験によりモデルの有効性と解釈可能性を示す。

Fact-based Visual Question Answering (FVQA) requires external knowledge beyond visible content to answer questions about an image, which is challenging but indispensable to achieve general VQA. One limitation of existing FVQA solutions is that they jointly embed all kinds of information without fine-grained selection, which introduces unexpected noises for reasoning the final answer. How to capture the question-oriented and information-complementary evidence remains a key challenge to solve the problem. In this paper, we depict an image by a multi-modal heterogeneous graph, which contains multiple layers of information corresponding to the visual, semantic and factual features. On top of the multi-layer graph representations, we propose a modality-aware heterogeneous graph convolutional network to capture evidence from different layers that is most relevant to the given question. Specifically, the intra-modal graph convolution selects evidence from each modality and cross-modal graph convolution aggregates relevant information across different modalities. By stacking this process multiple times, our model performs iterative reasoning and predicts the optimal answer by analyzing all question-oriented evidence. We achieve a new state-of-the-art performance on the FVQA task and demonstrate the effectiveness and interpretability of our model with extensive experiments.
翻訳日:2022-11-20 18:35:43 公開日:2020-11-04
# 結合型可逆ニューラルネットワークは普遍微分同相近似器である

Coupling-based Invertible Neural Networks Are Universal Diffeomorphism Approximators ( http://arxiv.org/abs/2006.11469v2 )

ライセンス: Link先を確認
Takeshi Teshima, Isao Ishikawa, Koichi Tojo, Kenta Oono, Masahiro Ikeda, and Masashi Sugiyama(参考訳) 結合フロー(CF-INN)に基づく可逆ニューラルネットワークは、画像合成や表現学習など、さまざまな機械学習応用を有する。 しかし、解析的可逆性のようなそれらの望ましい特性は、関数形式を制限するコストで得られる。 cf-inns は可逆関数に対する普遍近似子なのか? 普遍性がなければ、cf-inn が決して近似できないような可逆変換が存在しうるため、モデルクラスは信頼できない。 cf-inn が普遍的であるとは、その層がアフィンカップリングと可逆線型関数を特別な場合として含むことである。 アフィンカップリングに基づくフローモデルの正規化が普遍分布近似器であるかどうかという、未解決の問題を肯定的に解決することができる。 普遍性を証明する過程で、ある微分同相類に対する普遍性の同値性を示す一般定理を証明し、これはそれ自体が興味を持つ理論的な洞察である。

Invertible neural networks based on coupling flows (CF-INNs) have various machine learning applications such as image synthesis and representation learning. However, their desirable characteristics such as analytic invertibility come at the cost of restricting the functional forms. This poses a question on their representation power: are CF-INNs universal approximators for invertible functions? Without a universality, there could be a well-behaved invertible transformation that the CF-INN can never approximate, hence it would render the model class unreliable. We answer this question by showing a convenient criterion: a CF-INN is universal if its layers contain affine coupling and invertible linear functions as special cases. As its corollary, we can affirmatively resolve a previously unsolved problem: whether normalizing flow models based on affine coupling can be universal distributional approximators. In the course of proving the universality, we prove a general theorem to show the equivalence of the universality for certain diffeomorphism classes, a theoretical insight that is of interest by itself.
翻訳日:2022-11-18 21:53:12 公開日:2020-11-04
# テキスト生成のためのスパースプロトタイプの学習

Learning Sparse Prototypes for Text Generation ( http://arxiv.org/abs/2006.16336v2 )

ライセンス: Link先を確認
Junxian He, Taylor Berg-Kirkpatrick, Graham Neubig(参考訳) プロトタイプ駆動テキスト生成は非パラメトリックモデルを使用し、まず文の"prototypes"ライブラリから選択し、次にプロトタイプを修正して出力テキストを生成する。 有効ではあるが、これらの方法はトレーニングコーパス全体の保存とインデックスを必要とするため、テスト時に非効率である。 さらに、既存の手法ではトレーニング時に参照すべきプロトタイプを特定するためにヒューリスティックを必要とすることが多い。 本稿では,新しい生成モデルを提案する。このモデルでは,sparse prototype サポートセットを自動的に学習し,しかしながら,強力な言語モデリング性能を実現する。 これは,(1)プロトタイプ選択分布に先行してスパース性誘導を課すこと,(2)不定形変分推論を用いてプロトタイプ検索関数を学習することにより達成される。 実験では,テスト時の1000倍のメモリ削減と1000倍の高速化を実現しながら,従来のプロトタイプ駆動言語モデルよりも優れていた。 より興味深いことに、学習されたプロトタイプは、プロトタイプ選択のスパーシティが異なるため、異なる粒度で意味と構文を捉えることができ、特定の文属性は、生成のためにプロトタイプを指定することで制御できる。

Prototype-driven text generation uses non-parametric models that first choose from a library of sentence "prototypes" and then modify the prototype to generate the output text. While effective, these methods are inefficient at test time as a result of needing to store and index the entire training corpus. Further, existing methods often require heuristics to identify which prototypes to reference at training time. In this paper, we propose a novel generative model that automatically learns a sparse prototype support set that, nonetheless, achieves strong language modeling performance. This is achieved by (1) imposing a sparsity-inducing prior on the prototype selection distribution, and (2) utilizing amortized variational inference to learn a prototype retrieval function. In experiments, our model outperforms previous prototype-driven language models while achieving up to a 1000x memory reduction, as well as a 1000x speed-up at test time. More interestingly, we show that the learned prototypes are able to capture semantics and syntax at different granularity as we vary the sparsity of prototype selection, and that certain sentence attributes can be controlled by specifying the prototype for generation.
翻訳日:2022-11-15 13:27:57 公開日:2020-11-04
# 制約違反のないプライベート最適化

Private Optimization Without Constraint Violations ( http://arxiv.org/abs/2007.01181v2 )

ライセンス: Link先を確認
Andr\'es Mu\~noz Medina, Umar Syed, Sergei Vassilvitskii, Ellen Vitercik(参考訳) 制約の右辺がプライベートデータに依存する場合,線形制約付き微分プライベート最適化の問題について検討する。 この種の問題は、多くのアプリケーション、特にリソース割り当てに現れる。 以前の研究は、プライバシを保ちながら、時には制約に違反する解決策を提供した。 しかし、多くの設定では、制約はいかなる状況でも違反することはできない。 この難しい要件に対処するために,確率 1 の制約を満たす近似最適解を解くアルゴリズムを提案する。 また,本アルゴリズムの解の目的値と最適解との差が,すべての微分プライベートアルゴリズムの対数因子に密着していることを示す下限を証明した。 我々は,プライバシを保ちながら,アルゴリズムがほぼ最適な性能を達成できることを示す実験で締めくくった。

We study the problem of differentially private optimization with linear constraints when the right-hand-side of the constraints depends on private data. This type of problem appears in many applications, especially resource allocation. Previous research provided solutions that retained privacy but sometimes violated the constraints. In many settings, however, the constraints cannot be violated under any circumstances. To address this hard requirement, we present an algorithm that releases a nearly-optimal solution satisfying the constraints with probability 1. We also prove a lower bound demonstrating that the difference between the objective value of our algorithm's solution and the optimal solution is tight up to logarithmic factors among all differentially private algorithms. We conclude with experiments demonstrating that our algorithm can achieve nearly optimal performance while preserving privacy.
翻訳日:2022-11-14 13:52:11 公開日:2020-11-04
# NeuMiss Network: 教師付き学習のための識別可能なプログラミング

NeuMiss networks: differentiable programming for supervised learning with missing values ( http://arxiv.org/abs/2007.01627v4 )

ライセンス: Link先を確認
Marine Le Morvan (PARIETAL, IJCLab), Julie Josse (CMAP, XPOP), Thomas Moreau (PARIETAL), Erwan Scornet (CMAP), Ga\"el Varoquaux (PARIETAL, MILA)(参考訳) 価値の欠如は教師付き学習をより困難にする。 実際、以前の研究は、応答が完全なデータの線形関数である場合でも、最適予測器は観測されたエントリと不足指標の複素関数であることを示した。 その結果、一貫したアプローチの計算やサンプルの複雑さは、次元の数を指数関数的にできる欠落パターンの数に依存する。 本研究では,線形性仮定の下での最適予測器の解析形式と,ランダム(mar)における欠落や自己マスキング(無作為ではない)を含む様々な欠落データ機構を導出する。 最適予測子のノイマン級数近似に基づいて,ニューミスネットワークと呼ばれる新しい原理アーキテクチャを提案する。 彼らの独創性と強みは、新しいタイプの非線形性、すなわち欠如指標による乗算を使うことによって生まれる。 我々は、NeuMissネットワークのベイズリスクを上限として、多くのパラメータと、欠落したデータパターンの数に依存しない計算複雑性の両方で予測精度が良いことを示す。 その結果、多くの特徴を持つ問題によく対応し、中規模のサンプルでは統計的に効率的である。 さらに,EMや計算処理とは対照的に,自己マスキングなどのMNAR設定が難しいなど,データメカニズムの欠如に対して堅牢であることを示す。

The presence of missing values makes supervised learning much more challenging. Indeed, previous work has shown that even when the response is a linear function of the complete data, the optimal predictor is a complex function of the observed entries and the missingness indicator. As a result, the computational or sample complexities of consistent approaches depend on the number of missing patterns, which can be exponential in the number of dimensions. In this work, we derive the analytical form of the optimal predictor under a linearity assumption and various missing data mechanisms including Missing at Random (MAR) and self-masking (Missing Not At Random). Based on a Neumann-series approximation of the optimal predictor, we propose a new principled architecture, named NeuMiss networks. Their originality and strength come from the use of a new type of non-linearity: the multiplication by the missingness indicator. We provide an upper bound on the Bayes risk of NeuMiss networks, and show that they have good predictive accuracy with both a number of parameters and a computational complexity independent of the number of missing data patterns. As a result they scale well to problems with many features, and remain statistically efficient for medium-sized samples. Moreover, we show that, contrary to procedures using EM or imputation, they are robust to the missing data mechanism, including difficult MNAR settings such as self-masking.
翻訳日:2022-11-14 04:17:06 公開日:2020-11-04
# 補助タスクが学習ポイントゴーアナビゲーションを高速化

Auxiliary Tasks Speed Up Learning PointGoal Navigation ( http://arxiv.org/abs/2007.04561v2 )

ライセンス: Link先を確認
Joel Ye, Dhruv Batra, Erik Wijmans, Abhishek Das(参考訳) pointgoal navigationは、エージェントが見えない環境で特定のポイントにナビゲートする必要がある、具体化されたタスクである。 Wijmansらは、このタスクは解決可能であるが、その方法は計算的に禁止されており、25億フレームと180GPU日を必要とすることを示した。 本研究では,自己教師付き補助タスクを用いたポイントnav学習におけるサンプルと時間効率を著しく向上させる手法(例えば,2つの自己中心的観測間の動作を予測し,2つの観測間の距離を軌道から予測するなど)を開発した。 複数の補助的タスクを鼻で組み合わせることで、サンプル効率が向上するが、1点以上の利得しか得られない。 これを解決するために、個々の補助タスクから学習した表現を組み合わせるために注意を払っています。 我々のベストエージェントは従来のDD-PPOを40Mフレームで5.5倍高速化し、DD-PPOの性能を0.16SPLで向上させる。 私たちのコードはhttps://github.com/joel99/habitat-pointnav-auxで公開されています。

PointGoal Navigation is an embodied task that requires agents to navigate to a specified point in an unseen environment. Wijmans et al. showed that this task is solvable but their method is computationally prohibitive, requiring 2.5 billion frames and 180 GPU-days. In this work, we develop a method to significantly increase sample and time efficiency in learning PointNav using self-supervised auxiliary tasks (e.g. predicting the action taken between two egocentric observations, predicting the distance between two observations from a trajectory,etc.).We find that naively combining multiple auxiliary tasks improves sample efficiency,but only provides marginal gains beyond a point. To overcome this, we use attention to combine representations learnt from individual auxiliary tasks. Our best agent is 5.5x faster to reach the performance of the previous state-of-the-art, DD-PPO, at 40M frames, and improves on DD-PPO's performance at 40M frames by 0.16 SPL. Our code is publicly available at https://github.com/joel99/habitat-pointnav-aux.
翻訳日:2022-11-12 04:07:20 公開日:2020-11-04
# リスク対策のベイズ最適化

Bayesian Optimization of Risk Measures ( http://arxiv.org/abs/2007.05554v3 )

ライセンス: Link先を確認
Sait Cakmak, Raul Astudillo, Peter Frazier and Enlu Zhou(参考訳) ここでは、$F$はブラックボックスの高価な評価関数であり、$\rho$は、環境ランダム変数$W$によって誘導されるランダム性に関して計算されたVaRまたはCVaRのリスク測度を表す。 このような問題はポートフォリオ最適化や堅牢なシステム設計といった不確実性の下での意思決定において発生する。 目的関数の構造を利用してサンプリング効率を大幅に向上する新しいベイズ最適化アルゴリズム群を提案する。 ベイズ最適化の典型的な目的関数を直接モデル化する代わりに、これらのアルゴリズムはガウス過程として$f$をモデル化し、目的関数に暗黙の後方でどの点を評価するかを決定する。 様々な数値実験において,本手法の有効性を実証する。

We consider Bayesian optimization of objective functions of the form $\rho[ F(x, W) ]$, where $F$ is a black-box expensive-to-evaluate function and $\rho$ denotes either the VaR or CVaR risk measure, computed with respect to the randomness induced by the environmental random variable $W$. Such problems arise in decision making under uncertainty, such as in portfolio optimization and robust systems design. We propose a family of novel Bayesian optimization algorithms that exploit the structure of the objective function to substantially improve sampling efficiency. Instead of modeling the objective function directly as is typical in Bayesian optimization, these algorithms model $F$ as a Gaussian process, and use the implied posterior on the objective function to decide which points to evaluate. We demonstrate the effectiveness of our approach in a variety of numerical experiments.
翻訳日:2022-11-11 21:42:21 公開日:2020-11-04
# メタ学習はメタ強化を必要とする

Meta-Learning Requires Meta-Augmentation ( http://arxiv.org/abs/2007.05549v2 )

ライセンス: Link先を確認
Janarthanan Rajendran, Alex Irpan, Eric Jang(参考訳) メタラーニングアルゴリズムは、タスクのターゲットを予測するモデルと、新しいタスクから与えられた例を素早く更新するベースラーナの2つのコンポーネントを学ぶことを目指している。 この追加的なレベルの学習は強力ですが、モデルとベース学習者の両方で過度に適合できるため、オーバーフィットのための別の潜在的なソースも生成します。 これら2種類のメタラーニングオーバーフィッティングについて記述し、共通のメタラーニングベンチマークに実験的に現れることを示す。 次に,新しいタスクに一般化しない自明なソリューションを学習することから,ベース学習者やモデルを妨げるランダム性を加える方法であるメタオーグメンテーションについて,情報理論の枠組みを用いて議論する。 メタ強化は,最近提案されたメタ正規化技術に対して大きな相補的利益をもたらすことを示す。

Meta-learning algorithms aim to learn two components: a model that predicts targets for a task, and a base learner that quickly updates that model when given examples from a new task. This additional level of learning can be powerful, but it also creates another potential source for overfitting, since we can now overfit in either the model or the base learner. We describe both of these forms of metalearning overfitting, and demonstrate that they appear experimentally in common meta-learning benchmarks. We then use an information-theoretic framework to discuss meta-augmentation, a way to add randomness that discourages the base learner and model from learning trivial solutions that do not generalize to new tasks. We demonstrate that meta-augmentation produces large complementary benefits to recently proposed meta-regularization techniques.
翻訳日:2022-11-11 21:15:04 公開日:2020-11-04
# トレーニングデータを越えた公正性の確保

Ensuring Fairness Beyond the Training Data ( http://arxiv.org/abs/2007.06029v2 )

ライセンス: Link先を確認
Debmalya Mandal, Samuel Deng, Suman Jana, Jeannette M. Wing, and Daniel Hsu(参考訳) 訓練分布の摂動に頑健な公平な分類器の研究を開始する。 近年の進歩にもかかわらず、公正性に関する文献は公平で堅牢な分類器の設計をほとんど無視してきた。 本研究では,トレーニング分布だけでなく,トレーニングサンプルの摂動を重み付けした分布のクラスに対しても公平な分類器を開発する。 分布的にロバストなトレーニング損失を最小限に抑えることを目標とする min-max 目的関数を定式化し、同時に分布のクラスに対して公平な分類子を求める。 まずこの問題を,分布のクラスに対してロバストな公平な分類器を見つけることに還元する。 オンライン学習アルゴリズムに基づいて,このような公正で堅牢な解に確実に収束する反復アルゴリズムを開発した。 標準的な機械学習フェアネスデータセットの実験は、最先端の公正分類器と比較して、我々の分類器は、テストセット上の大規模な摂動に対する公正性保証とテスト精度を保っていることを示唆している。 さらに,本実験では,このような分類器の公平性と正確性との間には,固有のトレードオフが存在することを示した。

We initiate the study of fair classifiers that are robust to perturbations in the training distribution. Despite recent progress, the literature on fairness has largely ignored the design of fair and robust classifiers. In this work, we develop classifiers that are fair not only with respect to the training distribution, but also for a class of distributions that are weighted perturbations of the training samples. We formulate a min-max objective function whose goal is to minimize a distributionally robust training loss, and at the same time, find a classifier that is fair with respect to a class of distributions. We first reduce this problem to finding a fair classifier that is robust with respect to the class of distributions. Based on online learning algorithm, we develop an iterative algorithm that provably converges to such a fair and robust solution. Experiments on standard machine learning fairness datasets suggest that, compared to the state-of-the-art fair classifiers, our classifier retains fairness guarantees and test accuracy for a large class of perturbations on the test set. Furthermore, our experiments show that there is an inherent trade-off between fairness robustness and accuracy of such classifiers.
翻訳日:2022-11-11 05:20:03 公開日:2020-11-04
# 形態的リッチオンラインASRのためのサブワードユニットを用いたディープトランスフォーマーに基づくデータ拡張

Deep Transformer based Data Augmentation with Subword Units for Morphologically Rich Online ASR ( http://arxiv.org/abs/2007.06949v3 )

ライセンス: Link先を確認
Bal\'azs Tarj\'an, Gy\"orgy Szasz\'ak, Tibor Fegy\'o, P\'eter Mihajlik(参考訳) 近年のDeep Transformerモデルは、ASRの言語モデリングタスクにおいて特に強力であることが証明されている。 しかし、その高い複雑さは、オンラインシステムの最初の(単一の)パスに適用するのが非常に難しい。 近年の研究では、ニューラルネットワーク言語モデル(LM)の知識の大部分は、ニューラルテキスト生成に基づくデータ拡張を用いて従来のn-gramに転送可能であることが示されている。 本稿では,汎用テキストコーパス上でGPT-2 Transformer LMを事前訓練し,ハンガリーの会話コールセンタASRタスクで微調整する。 トランスフォーマティブテキストによるデータ拡張は言語を分離するのには有効であるが、形態学的にリッチな言語では語彙が爆発する。 そこで本研究では,生成されたテキストを統計的に派生したサブワードに再合成するサブワードベースニューラルテキスト拡張法を提案する。 morfessor と bpe の統計サブワードトークンライザを比較し,語彙サイズとメモリ要件を大幅に削減しながら,両手法とも wer を大幅に改善できることを示した。 最後に,サブワードに基づくニューラルテキスト拡張が,単語ベースのアプローチよりも,全体的werだけでなく,oov単語の認識において優れていることを示す。

Recently Deep Transformer models have proven to be particularly powerful in language modeling tasks for ASR. Their high complexity, however, makes them very difficult to apply in the first (single) pass of an online system. Recent studies showed that a considerable part of the knowledge of neural network Language Models (LM) can be transferred to traditional n-grams by using neural text generation based data augmentation. In our paper, we pre-train a GPT-2 Transformer LM on a general text corpus and fine-tune it on our Hungarian conversational call center ASR task. We show that although data augmentation with Transformer-generated text works well for isolating languages, it causes a vocabulary explosion in a morphologically rich language. Therefore, we propose a new method called subword-based neural text augmentation, where we retokenize the generated text into statistically derived subwords. We compare Morfessor and BPE statistical subword tokenizers and show that both methods can significantly improve the WER while greatly reducing vocabulary size and memory requirements. Finally, we also demonstrate that subword-based neural text augmentation outperforms the word-based approach not only in terms of overall WER but also in recognition of OOV words.
翻訳日:2022-11-10 15:08:50 公開日:2020-11-04
# グラフ畳み込みネットワークの単純化:行列分解に基づく視点

Simplification of Graph Convolutional Networks: A Matrix Factorization-based Perspective ( http://arxiv.org/abs/2007.09036v5 )

ライセンス: Link先を確認
Qiang Liu and Haoli Zhang and Zhaocheng Liu(参考訳) 近年では、グラフ畳み込みネットワーク(GCN)が大幅に進歩している。 しかし、GCNの計算は通常、グラフ全体を保持するために大きなメモリ空間を必要とする。 その結果、gcnは、特に複雑な実世界のアプリケーションにおける大規模グラフに対して、十分に柔軟ではない。 幸いなことに、マトリックスファクトリゼーション(MF)に基づく手法は自然にミニバッチの構築をサポートしており、GCNと比較して分散コンピューティングに親しみやすい。 そこで本稿では,GCNとMFの接続を解析し,GCNを単位化と協調学習による行列分解として単純化する。 さらに,本分析の指導のもと,統一・協調学習行列因子化(UCMF)と呼ばれるGCNの代替モデルを提案する。 いくつかの実世界のデータセットで広範な実験が行われた。 半教師付きノード分類の課題について, 実験結果から, UCMFはGCNと比較して, 類似あるいは優れた性能を発揮することが示された。 一方、分散UCMFは分散GCN法よりも著しく優れており、UCMFは大規模で複雑な現実世界のアプリケーションに多大な利益をもたらすことが示されている。 さらに,グラフ埋め込みの典型的な課題であるコミュニティ検出の実験も行っており,提案したUCMFモデルはいくつかの代表的なグラフ埋め込みモデルよりも優れている。

In recent years, substantial progress has been made on Graph Convolutional Networks (GCNs). However, the computing of GCN usually requires a large memory space for keeping the entire graph. In consequence, GCN is not flexible enough, especially for large scale graphs in complex real-world applications. Fortunately, methods based on Matrix Factorization (MF) naturally support constructing mini-batches, and thus are more friendly to distributed computing compared with GCN. Accordingly, in this paper, we analyze the connections between GCN and MF, and simplify GCN as matrix factorization with unitization and co-training. Furthermore, under the guidance of our analysis, we propose an alternative model to GCN named Unitized and Co-training Matrix Factorization (UCMF). Extensive experiments have been conducted on several real-world datasets. On the task of semi-supervised node classification, the experimental results illustrate that UCMF achieves similar or superior performances compared with GCN. Meanwhile, distributed UCMF significantly outperforms distributed GCN methods, which shows that UCMF can greatly benefit large scale and complex real-world applications. Moreover, we have also conducted experiments on a typical task of graph embedding, i.e., community detection, and the proposed UCMF model outperforms several representative graph embedding models.
翻訳日:2022-11-09 14:50:13 公開日:2020-11-04
# 粗粒スペクトル射影(CGSP):量子ユニタリダイナミクスへの深層学習支援アプローチ

Coarse-grained spectral projection (CGSP): a deep learning-assisted approach to quantum unitary dynamics ( http://arxiv.org/abs/2007.09788v2 )

ライセンス: Link先を確認
Pinchen Xie, Weinan E(参考訳) 本稿では,量子ユニタリ動的問題に取り組むための深層学習支援手法として,クエンチダイナミクスに着目した粗粒スペクトル投影法(cgsp)を提案する。 cgspは高度なニューラルネットワーク量子アンサッツを用いて多体量子状態のスペクトル成分を体系的に抽出できることを示す。 CGSPは量子力学の線形ユニタリの性質を完全に利用しており、エルゴード力学の他の量子モンテカルロ法よりも優れている可能性がある。 周期境界条件を持つ1D XXZモデルの予備的な数値計算を行い,CGSPの実用性を実証した。

We propose the coarse-grained spectral projection method (CGSP), a deep learning-assisted approach for tackling quantum unitary dynamic problems with an emphasis on quench dynamics. We show CGSP can extract spectral components of many-body quantum states systematically with sophisticated neural network quantum ansatz. CGSP exploits fully the linear unitary nature of the quantum dynamics, and is potentially superior to other quantum Monte Carlo methods for ergodic dynamics. Preliminary numerical results on 1D XXZ models with periodic boundary condition are carried out to demonstrate the practicality of CGSP.
翻訳日:2022-11-09 00:49:40 公開日:2020-11-04
# ムンチャウセン強化学習

Munchausen Reinforcement Learning ( http://arxiv.org/abs/2007.14430v3 )

ライセンス: Link先を確認
Nino Vieillard, Olivier Pietquin, Matthieu Geist(参考訳) ブートストラップは強化学習(rl)のコアメカニズムである。 ほとんどのアルゴリズムは時間差に基づいて、この値の現在の推定値によって遷移状態の真の値を置き換える。 しかし、別の見積もりは、現在のポリシーであるRLのブートストラップに活用できる。 私たちの中心となる貢献は、非常にシンプルなアイデアにあります。 この方法でのディープq-network(dqn)の微調整は、分散rlやnステップリターン、優先度付きリプレイを使わずに、atariゲーム上の分散メソッドと競合するエージェントを提供する。 このアイデアの汎用性を実証するために、Implicit Quantile Network (IQN) と併用する。 その結果、エージェントはAtariでRainbowを上回り、元のアルゴリズムをほとんど変更せずに新しいState of the Artをインストールした。 この経験的な研究に加え、ボンネットの下で何が起こるかという理論的な洞察が強まり、暗黙のクルバック・リーブラー正則化とアクションギャップの増加をもたらす。

Bootstrapping is a core mechanism in Reinforcement Learning (RL). Most algorithms, based on temporal differences, replace the true value of a transiting state by their current estimate of this value. Yet, another estimate could be leveraged to bootstrap RL: the current policy. Our core contribution stands in a very simple idea: adding the scaled log-policy to the immediate reward. We show that slightly modifying Deep Q-Network (DQN) in that way provides an agent that is competitive with distributional methods on Atari games, without making use of distributional RL, n-step returns or prioritized replay. To demonstrate the versatility of this idea, we also use it together with an Implicit Quantile Network (IQN). The resulting agent outperforms Rainbow on Atari, installing a new State of the Art with very little modifications to the original algorithm. To add to this empirical study, we provide strong theoretical insights on what happens under the hood -- implicit Kullback-Leibler regularization and increase of the action-gap.
翻訳日:2022-11-06 01:44:19 公開日:2020-11-04
# 救急部門におけるcovid-19患者の劣化予測のための人工知能システム

An artificial intelligence system for predicting the deterioration of COVID-19 patients in the emergency department ( http://arxiv.org/abs/2008.01774v2 )

ライセンス: Link先を確認
Farah E. Shamout, Yiqiu Shen, Nan Wu, Aakash Kaku, Jungkyu Park, Taro Makino, Stanis{\l}aw Jastrz\k{e}bski, Jan Witowski, Duo Wang, Ben Zhang, Siddhant Dogra, Meng Cao, Narges Razavian, David Kudlowitz, Lea Azour, William Moore, Yvonne W. Lui, Yindalon Aphinyanaphongs, Carlos Fernandez-Granda, Krzysztof J. Geras(参考訳) 新型コロナウイルス感染症(COVID-19)のパンデミックで、救急署の患者を迅速かつ正確にトリアージすることは意思決定に欠かせない。 本稿では,胸部x線画像から学習するディープニューラルネットワークと,臨床変数から学習する勾配強調モデルを用いて,劣化リスクの自動予測のためのデータ駆動アプローチを提案する。 我々は3,661人の患者からのデータを用いてトレーニングを行い,96時間以内に劣化を予測すると,受信者動作特性曲線(AUC)が0.786(95% CI: 0.745-0.830)未満の領域を達成した。 深層ニューラルネットワークは、胸部x線画像の情報領域を抽出し、臨床医が予測を解釈できるように支援し、2人の放射線科医を読者調査で比較可能とする。 実際の臨床環境でのパフォーマンスを検証するために、我々はパンデミックの最初の波の間、ニューヨーク大学ランゴネ・ヘルスにディープニューラルネットワークの予備バージョンを静かに配置し、正確な予測をリアルタイムで生成した。 まとめると,本研究は,新型コロナウイルスのトリアージ患者に対して,前科医を支援するシステムの可能性を示すものである。

During the coronavirus disease 2019 (COVID-19) pandemic, rapid and accurate triage of patients at the emergency department is critical to inform decision-making. We propose a data-driven approach for automatic prediction of deterioration risk using a deep neural network that learns from chest X-ray images and a gradient boosting model that learns from routine clinical variables. Our AI prognosis system, trained using data from 3,661 patients, achieves an area under the receiver operating characteristic curve (AUC) of 0.786 (95% CI: 0.745-0.830) when predicting deterioration within 96 hours. The deep neural network extracts informative areas of chest X-ray images to assist clinicians in interpreting the predictions and performs comparably to two radiologists in a reader study. In order to verify performance in a real clinical setting, we silently deployed a preliminary version of the deep neural network at New York University Langone Health during the first wave of the pandemic, which produced accurate predictions in real-time. In summary, our findings demonstrate the potential of the proposed system for assisting front-line physicians in the triage of COVID-19 patients.
翻訳日:2022-11-03 00:07:05 公開日:2020-11-04
# マルチエージェント強化学習における逆コミュニケーションの出現

The Emergence of Adversarial Communication in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2008.02616v2 )

ライセンス: Link先を確認
Jan Blumenkamp, Amanda Prorok(参考訳) 多くの現実世界の問題は複数の自律エージェントの調整を必要とする。 最近の研究は、複雑なマルチエージェント協調を可能にする明示的なコミュニケーション戦略を学ぶためのグラフニューラルネットワーク(GNN)の約束を示している。 これらの研究は協調型マルチエージェントシステムのモデルを用いており、エージェントは共通のグローバル目標を達成するために努力する。 自己関心のあるローカルな目的を持つエージェントを考えるとき、標準的な設計選択はこれらを独立した学習システムとしてモデル化することである。 しかし、このような設計選択は、単一の異なる通信チャネルの存在を妨げ、結果としてエージェント間通信戦略の学習を禁止している。 本研究では,このギャップに対処するために,個別の非共有報酬に対応する学習モデルと,すべてのエージェントに共通する識別可能なコミュニケーションチャネルを提示する。 エージェントが自己関心のある目的を持つ場合に注目し,敵とのコミュニケーションの出現を誘発する学習アルゴリズムを開発する。 我々は,マルチエージェントのカバレッジと経路計画問題に関する実験を行い,エージェントが相互に通信するメッセージを可視化するポストホックな解釈手法を用いた。 エージェントの協調チームを大きく上回るような,高度にマニピュレイティブなコミュニケーション戦略を学習できる,単一の自己関心エージェントの能力を示す。

Many real-world problems require the coordination of multiple autonomous agents. Recent work has shown the promise of Graph Neural Networks (GNNs) to learn explicit communication strategies that enable complex multi-agent coordination. These works use models of cooperative multi-agent systems whereby agents strive to achieve a shared global goal. When considering agents with self-interested local objectives, the standard design choice is to model these as separate learning systems (albeit sharing the same environment). Such a design choice, however, precludes the existence of a single, differentiable communication channel, and consequently prohibits the learning of inter-agent communication strategies. In this work, we address this gap by presenting a learning model that accommodates individual non-shared rewards and a differentiable communication channel that is common among all agents. We focus on the case where agents have self-interested objectives, and develop a learning algorithm that elicits the emergence of adversarial communications. We perform experiments on multi-agent coverage and path planning problems, and employ a post-hoc interpretability technique to visualize the messages that agents communicate to each other. We show how a single self-interested agent is capable of learning highly manipulative communication strategies that allows it to significantly outperform a cooperative team of agents.
翻訳日:2022-11-02 06:53:56 公開日:2020-11-04
# 機械翻訳におけるインド語の低資源状態の再考

Revisiting Low Resource Status of Indian Languages in Machine Translation ( http://arxiv.org/abs/2008.04860v2 )

ライセンス: Link先を確認
Jerin Philip, Shashank Siripragada, Vinay P. Namboodiri, C.V. Jawahar(参考訳) インド語の機械翻訳性能は、大規模多言語文整列コーパスとロバストベンチマークの欠如により妨げられている。 本稿では,インド言語ニューラルマシン翻訳(nmt)システムのためのコーパスを得るための自動化フレームワークを提供し,分析する。 我々のパイプラインは、ベースラインNTTシステム、検索モジュール、政府によるプレスリリースなどの公開ウェブサイトと連携するために使用されるアライメントモジュールで構成されています。 この取り組みの主な貢献は、上記のパイプラインを使用してコーパスのサイズを反復的に改善し、システムの各コンポーネントを改善するインクリメンタルな方法を得ることである。 また,本研究を通じて,ピボット言語の選択や,コーパスサイズの反復的増加の影響など,設計上の選択も評価した。 自動化フレームワークの提供に加えて、インドの言語で利用可能な既存のコーパスに比べて、比較的大きなコーパスの生成も行っています。 このコーパスは,wat評価ベンチマークおよび他の標準評価ベンチマークにおいて,大幅に改良された結果を得るのに役立つ。

Indian language machine translation performance is hampered due to the lack of large scale multi-lingual sentence aligned corpora and robust benchmarks. Through this paper, we provide and analyse an automated framework to obtain such a corpus for Indian language neural machine translation (NMT) systems. Our pipeline consists of a baseline NMT system, a retrieval module, and an alignment module that is used to work with publicly available websites such as press releases by the government. The main contribution towards this effort is to obtain an incremental method that uses the above pipeline to iteratively improve the size of the corpus as well as improve each of the components of our system. Through our work, we also evaluate the design choices such as the choice of pivoting language and the effect of iterative incremental increase in corpus size. Our work in addition to providing an automated framework also results in generating a relatively larger corpus as compared to existing corpora that are available for Indian languages. This corpus helps us obtain substantially improved results on the publicly available WAT evaluation benchmark and other standard evaluation benchmarks.
翻訳日:2022-10-31 11:27:45 公開日:2020-11-04
# 多項式時間と遅延を伴うナイーブベイズおよび他の線形分類器の説明

Explaining Naive Bayes and Other Linear Classifiers with Polynomial Time and Delay ( http://arxiv.org/abs/2008.05803v2 )

ライセンス: Link先を確認
Joao Marques-Silva, Thomas Gerspacher, Martin C. Cooper, Alexey Ignatiev, Nina Narodytska(参考訳) 最近の研究は、ナイーブベイズ分類器 (nbcs) のいわゆる pi-explanation の計算を提案している。 pi-explanation は予測に十分である特徴値ペアの部分最小集合であり、時間と空間において最悪の指数関数的なアルゴリズムで計算されている。 対照的に、NBC の 1 つの PI-Explanation の計算は、ログ線形時間で行うことができ、線形分類器のより一般的なクラスにも適用可能であることを示す。 さらに, PI-Explanationの列挙は多項式遅延によって得られることを示す。 実験の結果,従来の研究と比較すると,新しいアルゴリズムの性能向上が示された。 実験結果は, ヒューリスティックな説明の質を測定する方法も検討した。

Recent work proposed the computation of so-called PI-explanations of Naive Bayes Classifiers (NBCs). PI-explanations are subset-minimal sets of feature-value pairs that are sufficient for the prediction, and have been computed with state-of-the-art exact algorithms that are worst-case exponential in time and space. In contrast, we show that the computation of one PI-explanation for an NBC can be achieved in log-linear time, and that the same result also applies to the more general class of linear classifiers. Furthermore, we show that the enumeration of PI-explanations can be obtained with polynomial delay. Experimental results demonstrate the performance gains of the new algorithms when compared with earlier work. The experimental results also investigate ways to measure the quality of heuristic explanations
翻訳日:2022-10-30 22:37:55 公開日:2020-11-04
# ssgp:ロバストおよび汎用補間のためのスパース空間誘導伝搬

SSGP: Sparse Spatial Guided Propagation for Robust and Generic Interpolation ( http://arxiv.org/abs/2008.09346v2 )

ライセンス: Link先を確認
Ren\'e Schuster, Oliver Wasenm\"uller, Christian Unger, Didier Stricker(参考訳) 密度の高い目標解像度へのスパース画素情報の補間は、コンピュータビジョンにおける複数の分野にわたる応用を見出す。 動き場の最先端の補間は、対象画像から抽出されたエッジ情報を利用するモデルに基づく補間を適用する。 ディープ補完に関しては、データ駆動学習アプローチが広く使われている。 私たちの研究は、疎情報に対する密集したガイダンスの問題に取り組む、最近の奥行き完了の傾向にインスパイアされています。 このようなアイデアを拡張して,光学フローやシーンフロー,奥行き完了といった多数の補間問題に適用可能な,汎用的なクロスドメインアーキテクチャを構築する。 本実験では,提案するsparse spatial guided propagation (ssgp) の概念により,特殊アルゴリズムと比較して頑健性,精度,速度が向上することを示す。

Interpolation of sparse pixel information towards a dense target resolution finds its application across multiple disciplines in computer vision. State-of-the-art interpolation of motion fields applies model-based interpolation that makes use of edge information extracted from the target image. For depth completion, data-driven learning approaches are widespread. Our work is inspired by latest trends in depth completion that tackle the problem of dense guidance for sparse information. We extend these ideas and create a generic cross-domain architecture that can be applied for a multitude of interpolation problems like optical flow, scene flow, or depth completion. In our experiments, we show that our proposed concept of Sparse Spatial Guided Propagation (SSGP) achieves improvements to robustness, accuracy, or speed compared to specialized algorithms.
翻訳日:2022-10-26 21:47:01 公開日:2020-11-04
# Sten型ノイズによる画像のスキップ接続によるオートエンコーダの訓練による異常検出の改善

Improved anomaly detection by training an autoencoder with skip connections on images corrupted with Stain-shaped noise ( http://arxiv.org/abs/2008.12977v2 )

ライセンス: Link先を確認
Anne-Sophie Collin and Christophe De Vleeschouwer(参考訳) 産業的ビジョンでは、異常検出問題は任意の画像(欠陥の有無にかかわらず)をクリーンな画像(欠陥のないもの)にマッピングするように訓練されたオートエンコーダで対処することができる。 本手法では, 従来, 異常検出は復元残差に依存するか, あるいは復元不確実性に依存する。 再構成のシャープさを改善するために,スキップ接続を用いたオートエンコーダアーキテクチャを提案する。 クリーンな画像のみをトレーニングに利用できる一般的なシナリオでは、ネットワークのアイデンティティマッピングへの収束を防止するために合成ノイズモデルを用いてそれらを分解し、その目的のために元のステンドノイズモデルを導入することを提案する。 本モデルでは,実際の欠陥の有無に関わらず,任意の実世界の画像からクリーンな画像の復元を好むことを示す。 提案手法の妥当性を示すことに加えて, 画像の異常検出のためのMVTec ADデータセット上での性能を比較することで, 再構成に基づく手法を一貫した評価を行う。

In industrial vision, the anomaly detection problem can be addressed with an autoencoder trained to map an arbitrary image, i.e. with or without any defect, to a clean image, i.e. without any defect. In this approach, anomaly detection relies conventionally on the reconstruction residual or, alternatively, on the reconstruction uncertainty. To improve the sharpness of the reconstruction, we consider an autoencoder architecture with skip connections. In the common scenario where only clean images are available for training, we propose to corrupt them with a synthetic noise model to prevent the convergence of the network towards the identity mapping, and introduce an original Stain noise model for that purpose. We show that this model favors the reconstruction of clean images from arbitrary real-world images, regardless of the actual defects appearance. In addition to demonstrating the relevance of our approach, our validation provides the first consistent assessment of reconstruction-based methods, by comparing their performance over the MVTec AD dataset, both for pixel- and image-wise anomaly detection.
翻訳日:2022-10-23 17:30:15 公開日:2020-11-04
# Synbols: 合成データセットを用いた学習アルゴリズムの提案

Synbols: Probing Learning Algorithms with Synthetic Datasets ( http://arxiv.org/abs/2009.06415v2 )

ライセンス: Link先を確認
Alexandre Lacoste, Pau Rodr\'iguez, Fr\'ed\'eric Branchaud-Charron, Parmida Atighehchian, Massimo Caccia, Issam Laradji, Alexandre Drouin, Matt Craddock, Laurent Charlin, David V\'azquez(参考訳) 機械学習の分野の進歩は、既存のアルゴリズムの限界を押し上げるベンチマークデータセットの導入によって加速されている。 学習アルゴリズムの特定の特性や障害モードをテストするためにデータセットの設計を導入することは、この分野のイノベーションに直接的な影響を与えるため、高い関心を持つ問題である。 この意味では、Synbols -- Synthetic Symbolsという、低解像度の画像でレンダリングされた潜在機能のリッチな構成で、新しいデータセットを高速に生成するツールを紹介します。 synbolsはunicode標準で利用可能な大量のシンボルとopen fontコミュニティによって提供される幅広い芸術的フォントを活用している。 ツールの高レベルインタフェースは、様々な種類のテクスチャやオクルージョンを含む、潜在機能上の新しい分布を迅速に生成するための言語を提供する。 シンボラの汎用性を示すために、教師付き学習、アクティブラーニング、分布の一般化の欠如、教師なし表現学習、オブジェクトカウントなど、さまざまな学習設定における標準学習アルゴリズムの制限と欠陥を解剖する。

Progress in the field of machine learning has been fueled by the introduction of benchmark datasets pushing the limits of existing algorithms. Enabling the design of datasets to test specific properties and failure modes of learning algorithms is thus a problem of high interest, as it has a direct impact on innovation in the field. In this sense, we introduce Synbols -- Synthetic Symbols -- a tool for rapidly generating new datasets with a rich composition of latent features rendered in low resolution images. Synbols leverages the large amount of symbols available in the Unicode standard and the wide range of artistic font provided by the open font community. Our tool's high-level interface provides a language for rapidly generating new distributions on the latent features, including various types of textures and occlusions. To showcase the versatility of Synbols, we use it to dissect the limitations and flaws in standard learning algorithms in various learning setups including supervised learning, active learning, out of distribution generalization, unsupervised representation learning, and object counting.
翻訳日:2022-10-18 11:22:43 公開日:2020-11-04
# 共同創設者数を分散させたニューラルネットワークによる総合的治療効果の効率的な推定

Efficient Estimation of General Treatment Effects using Neural Networks with A Diverging Number of Confounders ( http://arxiv.org/abs/2009.07055v3 )

ライセンス: Link先を確認
Xiaohong Chen, Ying Liu, Shujie Ma, Zheng Zhang(参考訳) 因果効果の推定は行動学、社会学、経済学、生物医学の第一目標である。 未確立の処置課題条件の下では、共同設立者に対する調整は、共同設立者に対する結果及び/または治療に関する迷惑関数を推定する必要がある。 従来の手法は、ニュアンス関数を近似するためにパラメトリックまたは非パラメトリックモデリング戦略に依存する。 パラメトリック法は、非パラメトリック推定が「次元の帰結」に苦しむ一方で、誤特定の可能性によるカジュアル効果推定に深刻なバイアスをもたらす可能性がある。 本稿では,共変量数がサンプルサイズに比例して増加する場合に,フィードフォワード人工ニューラルネットワークを用いて治療効果を効率的に推定するための新しい統一手法を提案する。 平均, 量子および非対称最小二乗処理効果を含む一般最適化フレームワークを特例として検討する。 この統合された設定の下で、ニューラルネットワークによって推定されるニュアンス関数による処理効果の一般化最適化推定器を開発する。 さらに,提案する推定器の整合性と漸近的正規性を確立し,半パラメトリック効率の限界に達することを示す。 提案手法はシミュレーション研究と実データ応用によって示される。

The estimation of causal effects is a primary goal of behavioral, social, economic and biomedical sciences. Under the unconfounded treatment assignment condition, adjustment for confounders requires estimating the nuisance functions relating outcome and/or treatment to confounders. The conventional approaches rely on either a parametric or a nonparametric modeling strategy to approximate the nuisance functions. Parametric methods can introduce serious bias into casual effect estimation due to possible mis-specification, while nonparametric estimation suffers from the "curse of dimensionality". This paper proposes a new unified approach for efficient estimation of treatment effects using feedforward artificial neural networks when the number of covariates is allowed to increase with the sample size. We consider a general optimization framework that includes the average, quantile and asymmetric least squares treatment effects as special cases. Under this unified setup, we develop a generalized optimization estimator for the treatment effect with the nuisance function estimated by neural networks. We further establish the consistency and asymptotic normality of the proposed estimator and show that it attains the semiparametric efficiency bound. The proposed methods are illustrated via simulation studies and a real data application.
翻訳日:2022-10-18 06:32:08 公開日:2020-11-04
# 深部畳み込みニューラルネットワークを用いた炭酸塩微生物分析における化石および無生物粒の自動同定

Automatic identification of fossils and abiotic grains during carbonate microfacies analysis using deep convolutional neural networks ( http://arxiv.org/abs/2009.11429v2 )

ライセンス: Link先を確認
Xiaokang Liu, Haijun Song(参考訳) 細断面の微相同定に基づく岩石学的解析は堆積環境の解釈や古生態学的復元に広く用いられている。 マイクロファシーからの化石認識は、石油学者にとってこの課題を完了させる必須の手順である。 骨格断片の形態的および微細構造的多様性の解消には、顕微鏡下での微生物の化石形態と長期の訓練の広範な知識が必要である。 この要件は、堆積学者や古生物学者、特に初心者にとって、ある種の課題をもたらす。 しかし、機械分類器はこの課題に対処するのに役立つ。 本研究では,1,149件の参考資料と2つの資料(22の化石および無生物穀物群30,815件を含む)の公開データからなるマイクロファシズム画像データセットを収集した。 我々は,過去数年間,コンピュータビジョンにおいて非常に効率的であることが証明された4つの古典的深層畳み込みニューラルネットワーク(DCNN)を実装するために,高性能なワークステーションを使用した。 このフレームワークでは,大規模なImageNetデータセット上でトレーニングされた事前学習パラメータを,ネットワークの初期化として再利用し,低計算コストで高精度を実現する。 我々は、インセプションresnet v2アーキテクチャの上位1つのうち最大95%と上位3つのテストアキュラティの99%を入手した。 機械分類器はドロマイトやピライトなどの鉱物に対して 0.99 の精度を示した。 バイバルベ、ブラキオポッド、オストラコッドのような類似した形態を持つサンプルでは困難であったが、それでも精度は0.88であった。 我々の機械学習フレームワークは、人間の分類器に匹敵する再現性とバイアス回避で高い精度を示した。 これにより、人間の専門家が日常的な識別を行うという面倒で手動による作業の多くを排除できる。

Petrographic analysis based on microfacies identification in thin sections is widely used in sedimentary environment interpretation and paleoecological reconstruction. Fossil recognition from microfacies is an essential procedure for petrographers to complete this task. Distinguishing the morphological and microstructural diversity of skeletal fragments requires extensive prior knowledge of fossil morphotypes in microfacies and long training sessions under the microscope. This requirement engenders certain challenges for sedimentologists and paleontologists, especially novices. However, a machine classifier can help address this challenge. In this study, we collected a microfacies image dataset comprising both public data from 1,149 references and our own materials (including 30,815 images of 22 fossil and abiotic grain groups). We employed a high-performance workstation to implement four classic deep convolutional neural networks (DCNNs), which have proven to be highly efficient in computer vision over the last several years. Our framework uses a transfer learning technique, which reuses the pre-trained parameters that are trained on a larger ImageNet dataset as initialization for the network to achieve high accuracy with low computing costs. We obtained up to 95% of the top one and 99% of the top three test accuracies in the Inception ResNet v2 architecture. The machine classifier exhibited 0.99 precision on minerals, such as dolomite and pyrite. Although it had some difficulty on samples having similar morphologies, such as the bivalve, brachiopod, and ostracod, it nevertheless obtained 0.88 precision. Our machine learning framework demonstrated high accuracy with reproducibility and bias avoidance that was comparable to those of human classifiers. Its application can thus eliminate much of the tedious, manually intensive efforts by human experts conducting routine identification.
翻訳日:2022-10-15 05:07:30 公開日:2020-11-04
# 投影マッピング実装:知覚結果の直接外部化とロボット説明性向上のためのアクションインテントの実現

Projection Mapping Implementation: Enabling Direct Externalization of Perception Results and Action Intent to Improve Robot Explainability ( http://arxiv.org/abs/2010.02263v3 )

ライセンス: Link先を確認
Zhao Han, Alexander Wilkinson, Jenna Parrillo, Jordan Allspaw, Holly A. Yanco(参考訳) 非言語的手がかり、例えば視線や腕の動きに関する既存の研究は、知覚結果や行動意図といったロボットの内部状態を正確に提示するものではない。 ロボットの動作環境に直接状態を投影することは、ロボットの意図に対する精神的推論を排除し、直接的で正確で、より健全であるという利点がある。 しかし、ロボット工学におけるプロジェクションマッピングのためのツールが、既存のモーションプランニングライブラリ(MoveItなど)と比べて不足している。 本稿では,ロボットと人間とのより優れたインタラクションを実現するために,研究者や実践者が境界を押し上げるプロジェクションマッピングの実装について詳述する。 GitHubでは、サンプル操作プロジェクションマッピングのための実用的なドキュメントやコードも提供しています。

Existing research on non-verbal cues, e.g., eye gaze or arm movement, may not accurately present a robot's internal states such as perception results and action intent. Projecting the states directly onto a robot's operating environment has the advantages of being direct, accurate, and more salient, eliminating mental inference about the robot's intention. However, there is a lack of tools for projection mapping in robotics, compared to established motion planning libraries (e.g., MoveIt). In this paper, we detail the implementation of projection mapping to enable researchers and practitioners to push the boundaries for better interaction between robots and humans. We also provide practical documentation and code for a sample manipulation projection mapping on GitHub: https://github.com/uml-robotics/projection_mapping.
翻訳日:2022-10-10 22:15:29 公開日:2020-11-04
# テキスト生成のための連続・離散空間におけるGANの協調学習

Collaborative Training of GANs in Continuous and Discrete Spaces for Text Generation ( http://arxiv.org/abs/2010.08213v2 )

ライセンス: Link先を確認
Yanghoon Kim, Seungpil Won, Seunghyun Yoon and Kyomin Jung(参考訳) 生成的敵ネットワーク(GAN)をテキスト関連タスクに適用することは、言語の性質が離散的であるため困難である。 ある研究の行は、強化学習(RL)を採用し、離散的な行動空間において、次の単語サンプリングポリシーを直接最適化することでこの問題を解決する。 このような手法は完全文から報酬を計算し、露出バイアスによる誤りの蓄積を避ける。 他のアプローチでは、微分不能な離散プロセスを回避するために、テキストを連続表現にマッピングする近似技術を用いる。 特に、オートエンコーダベースの手法は、複雑な離散構造をモデル化できるロバスト表現を効果的に生成する。 本稿では,連続空間と離散空間の協調学習を促進する新しいテキストGANアーキテクチャを提案する。 提案手法では,暗黙的データ多様体の学習にオートエンコーダを用い,連続空間における対角的学習の学習目標を提供する。 さらに、完全テキスト出力を直接評価し、離散空間においてRLを介して更新する。 2つの逆行訓練間の協調的な相互作用は、異なる空間におけるテキスト表現を効果的に規則化する。 3つの標準ベンチマークデータセットの実験結果から,本モデルは品質,多様性,グローバル一貫性において最先端のテキストganを実質的に上回っていることが示された。

Applying generative adversarial networks (GANs) to text-related tasks is challenging due to the discrete nature of language. One line of research resolves this issue by employing reinforcement learning (RL) and optimizing the next-word sampling policy directly in a discrete action space. Such methods compute the rewards from complete sentences and avoid error accumulation due to exposure bias. Other approaches employ approximation techniques that map the text to continuous representation in order to circumvent the non-differentiable discrete process. Particularly, autoencoder-based methods effectively produce robust representations that can model complex discrete structures. In this paper, we propose a novel text GAN architecture that promotes the collaborative training of the continuous-space and discrete-space methods. Our method employs an autoencoder to learn an implicit data manifold, providing a learning objective for adversarial training in a continuous space. Furthermore, the complete textual output is directly evaluated and updated via RL in a discrete space. The collaborative interplay between the two adversarial trainings effectively regularize the text representations in different spaces. The experimental results on three standard benchmark datasets show that our model substantially outperforms state-of-the-art text GANs with respect to quality, diversity, and global consistency.
翻訳日:2022-10-06 19:53:33 公開日:2020-11-04
# 防衛誘導移動可能攻撃

Defense-guided Transferable Adversarial Attacks ( http://arxiv.org/abs/2010.11535v2 )

ライセンス: Link先を確認
Zifei Zhang, Kai Qiao, Jian Chen and Ningning Liang(参考訳) ディープニューラルネットワークは、優れた課題を遂行するが、クリーンな入力に人間の知覚できない摂動を適用することで分類器を誤解させる敵の例に影響を受けやすい。 クエリフリーなブラックボックスのシナリオでは、逆例は未知のモデルへの転送が困難であり、転送可能性の低いいくつかの方法が提案されている。 このような問題を解決するために、敵攻撃と防御の両方に有効な入力変換に着想を得た最大最小のフレームワークを設計する。 具体的には,入力のアフィン変換による損失値を最小手順の防御として減少させ,最大手順の攻撃として運動量反復アルゴリズムによる損失値を増大させる。 転送可能性を高めるために、最大ミン理論を用いて変換値を決定する。 imagenetにおける広範囲な実験により、我々の防御誘導移動可能攻撃は転送性が著しく向上することが示された。 実験により,本手法は平均58.38%に到達し,通常訓練モデルでは12.1%,敵対訓練モデルでは11.13%に向上した。 また, 本手法は, 伝達性の向上に関する実証的知見を提供し, 深層モデルのロバスト性を評価するためのベンチマークとして期待できる。

Though deep neural networks perform challenging tasks excellently, they are susceptible to adversarial examples, which mislead classifiers by applying human-imperceptible perturbations on clean inputs. Under the query-free black-box scenario, adversarial examples are hard to transfer to unknown models, and several methods have been proposed with the low transferability. To settle such issue, we design a max-min framework inspired by input transformations, which are benificial to both the adversarial attack and defense. Explicitly, we decrease loss values with inputs' affline transformations as a defense in the minimum procedure, and then increase loss values with the momentum iterative algorithm as an attack in the maximum procedure. To further promote transferability, we determine transformed values with the max-min theory. Extensive experiments on Imagenet demonstrate that our defense-guided transferable attacks achieve impressive increase on transferability. Experimentally, we show that our ASR of adversarial attack reaches to 58.38% on average, which outperforms the state-of-the-art method by 12.1% on the normally trained models and by 11.13% on the adversarially trained models. Additionally, we provide elucidative insights on the improvement of transferability, and our method is expected to be a benchmark for assessing the robustness of deep models.
翻訳日:2022-10-04 05:48:33 公開日:2020-11-04
# 変換に基づくモデルの統計的保証と暗黙的変分推論への応用

Statistical Guarantees for Transformation Based Models with Applications to Implicit Variational Inference ( http://arxiv.org/abs/2010.14056v2 )

ライセンス: Link先を確認
Sean Plummer, Shuang Zhou, Anirban Bhattacharya, David Dunson, Debdeep Pati(参考訳) 変換に基づく手法は、非条件的および条件的密度推定のような問題に対する非パラメトリックな推論において、共通の潜在変数の集合のフレキシブルな変換としてデータをモデル化するユニークな階層構造のために魅力的なアプローチである。 最近では、変分分布の柔軟な暗黙の族を構成するために変分推論(VI)に変換ベースのモデルが用いられている。 しかし、非パラメトリック推論と変分推論の両方での使用は理論的な正当化を欠いている。 非線型潜在変数モデル(NL-LVM)の非パラメトリック推論における使用の理論的正当性は、密度空間に先立って誘導される変換の支持が$L_1$の意味で十分大きいことを示す。 また,gaussian process (gp) pre が変換関数上に配置されると,後方は対数係数まで最適速度に集中することを示した。 非パラメトリックな設定で示される柔軟性を採用することで、NL-LVMを用いて、GP-IVIと考えられる変分分布の暗黙の族を構築する。 GP-IVIが最適リスク境界を達成し、Kulback-Leiblerの発散という意味での真の後方を近似する十分な条件を導出する。 私たちの知る限りでは、これは暗黙の変分推論に対する理論的保証を提供する最初の仕事です。

Transformation-based methods have been an attractive approach in non-parametric inference for problems such as unconditional and conditional density estimation due to their unique hierarchical structure that models the data as flexible transformation of a set of common latent variables. More recently, transformation-based models have been used in variational inference (VI) to construct flexible implicit families of variational distributions. However, their use in both non-parametric inference and variational inference lacks theoretical justification. We provide theoretical justification for the use of non-linear latent variable models (NL-LVMs) in non-parametric inference by showing that the support of the transformation induced prior in the space of densities is sufficiently large in the $L_1$ sense. We also show that, when a Gaussian process (GP) prior is placed on the transformation function, the posterior concentrates at the optimal rate up to a logarithmic factor. Adopting the flexibility demonstrated in the non-parametric setting, we use the NL-LVM to construct an implicit family of variational distributions, deemed GP-IVI. We delineate sufficient conditions under which GP-IVI achieves optimal risk bounds and approximates the true posterior in the sense of the Kullback-Leibler divergence. To the best of our knowledge, this is the first work on providing theoretical guarantees for implicit variational inference.
翻訳日:2022-10-03 22:27:06 公開日:2020-11-04
# ニューラルネットワークのトポロジカル解析によるインタラクション検出に向けて

Towards Interaction Detection Using Topological Analysis on Neural Networks ( http://arxiv.org/abs/2010.13015v2 )

ライセンス: Link先を確認
Zirui Liu, Qingquan Song, Kaixiong Zhou, Ting Hsiang Wang, Ying Shan, Xia Hu(参考訳) 入力特徴間の統計的相互作用を検出することは重要かつ困難な課題である。 近年の進歩により、訓練されたニューラルネットワークから学習したインタラクションを抽出することができる。 また、ニューラルネットワークでは、あらゆる相互作用する特徴が共通の隠蔽ユニットとの強い重み付けされた接続に従わなければならないことも観察されている。 本稿では,ニューラルネットワークの接続性を分析することによって,新しいトポロジカルな視点からインタラクション検出問題を検討することを提案する。 具体的には、永続的ホモロジーの理論に基づいて、相互作用強度を定量化する新しい尺度を提案する。 この測定結果に基づき,PIDアルゴリズムを用いて対話を効率的に検出する手法を開発した。 提案するアルゴリズムは,様々なハイパーパラメータを持つ合成および実世界のデータセット上で,多数のインタラクション検出タスクにわたって評価される。 実験の結果,PIDアルゴリズムは最先端のベースラインよりも優れていた。

Detecting statistical interactions between input features is a crucial and challenging task. Recent advances demonstrate that it is possible to extract learned interactions from trained neural networks. It has also been observed that, in neural networks, any interacting features must follow a strongly weighted connection to common hidden units. Motivated by the observation, in this paper, we propose to investigate the interaction detection problem from a novel topological perspective by analyzing the connectivity in neural networks. Specially, we propose a new measure for quantifying interaction strength, based upon the well-received theory of persistent homology. Based on this measure, a Persistence Interaction detection~(PID) algorithm is developed to efficiently detect interactions. Our proposed algorithm is evaluated across a number of interaction detection tasks on several synthetic and real world datasets with different hyperparameters. Experimental results validate that the PID algorithm outperforms the state-of-the-art baselines.
翻訳日:2022-10-03 04:21:41 公開日:2020-11-04
# 機械学習アルゴリズムと畳み込みニューラルネットワークを用いた自動運転車両のグローバル画像分割プロセス

Global Image Segmentation Process using Machine Learning algorithm & Convolution Neural Network method for Self- Driving Vehicles ( http://arxiv.org/abs/2010.13294v2 )

ライセンス: Link先を確認
Tirumalapudi Raviteja, Rajay Vedaraj .I.S(参考訳) 自動運転車技術では、画像のセグメンテーションが視覚的知覚の重要な問題であった。 この画像分割プロセスは、主に医療用途に使用される。 そこで我々は,周辺環境におけるエージェントの予測,道路境界の同定,路線標識の追跡を行う視覚的知覚タスクに画像分割処理を適用した。 本研究の目的は,画像分割処理と畳み込みニューラルネットワークを用いて視覚知覚の効率的な結果を得るために,入力画像を分割することである。 サンプリングには、python言語を使用してjupyter notebookで実行されるローカルシティデータセットのサンプルと検証プロセスを仮定する。 本研究では,視覚検査システム理解のための最先端技術の開発を標準化し,さらに進めるための画像分割手法を提案する。 実験の結果, 平均IOUは73%であった。 また,NVDIA GeForce GTX 1050 GPUを用いて90FPSの推論速度を実現する。

In autonomous Vehicles technology Image segmentation was a major problem in visual perception. This image segmentation process is mainly used in medical applications. Here we adopted an image segmentation process to visual perception tasks for predicting the agents on the surrounding environment, identifying the road boundaries and tracking the line markings. Main objective of the paper is to divide the input images using the image segmentation process and Convolution Neural Network method for efficient results of visual perception. For Sampling assume a local city data-set samples and validation process done in Jupyter Notebook using Python language. We proposed this image segmentation method planning to standard and further the development of state-of-the art methods for visual inspection system understanding. The experimental results achieves 73% mean IOU. Our method also achieves 90 FPS inference speed and using a NVDIA GeForce GTX 1050 GPU.
翻訳日:2022-10-02 19:49:55 公開日:2020-11-04
# 分子スペクトルと反応における溶媒効果の機械学習

Machine learning of solvent effects on molecular spectra and reactions ( http://arxiv.org/abs/2010.14942v2 )

ライセンス: Link先を確認
Michael Gastegger, Kristof T. Sch\"utt, Klaus-Robert M\"uller(参考訳) 溶液のような環境における複雑な化学系の高速かつ正確なシミュレーションは、理論化学における長年の課題である。 近年、機械学習によって量子化学の境界が拡大され、従来の手法では手が届かなかった電子構造理論の高精度で効率的なサロゲートモデルが提供されるようになった。 これらのモデルは、外部の電場や磁場、溶媒効果などの環境への影響を考慮せずに、長い間閉鎖分子系に限定されてきた。 本稿では、分子と任意の外部磁場との相互作用をモデル化するためのディープニューラルネットワークFieldSchNetを紹介する。 fieldschnetは豊富な分子応答特性へのアクセスを提供し、赤外線、ラマン、核磁気共鳴などの幅広い分子スペクトルをシミュレートすることができる。 さらに、暗黙的で明示的な分子環境を記述でき、解法のための分極可能な連続体モデルとして、または量子力学/分子力学の設定で機能する。 我々はFieldSchNetを用いて、溶媒効果が分子スペクトルおよびクレイゼン配位反応に与える影響を研究する。 これらの結果に基づき,fieldschnetを用いて再配置反応の活性化障壁を著しく低減できる外部環境をデザインし,逆化学設計の有望な会場を実証した。

Fast and accurate simulation of complex chemical systems in environments such as solutions is a long standing challenge in theoretical chemistry. In recent years, machine learning has extended the boundaries of quantum chemistry by providing highly accurate and efficient surrogate models of electronic structure theory, which previously have been out of reach for conventional approaches. Those models have long been restricted to closed molecular systems without accounting for environmental influences, such as external electric and magnetic fields or solvent effects. Here, we introduce the deep neural network FieldSchNet for modeling the interaction of molecules with arbitrary external fields. FieldSchNet offers access to a wealth of molecular response properties, enabling it to simulate a wide range of molecular spectra, such as infrared, Raman and nuclear magnetic resonance. Beyond that, it is able to describe implicit and explicit molecular environments, operating as a polarizable continuum model for solvation or in a quantum mechanics / molecular mechanics setup. We employ FieldSchNet to study the influence of solvent effects on molecular spectra and a Claisen rearrangement reaction. Based on these results, we use FieldSchNet to design an external environment capable of lowering the activation barrier of the rearrangement reaction significantly, demonstrating promising venues for inverse chemical design.
翻訳日:2022-10-02 05:56:34 公開日:2020-11-04
# 対話グラフ:非決定論的対話管理のためのデータ強化,訓練,評価

Conversation Graph: Data Augmentation, Training and Evaluation for Non-Deterministic Dialogue Management ( http://arxiv.org/abs/2010.15411v2 )

ライセンス: Link先を確認
Milan Gritta, Gerasimos Lampouras and Ignacio Iacobacci(参考訳) タスク指向の対話システムは通常、大量の高品質なトレーニングデータに依存するか、複雑な手作りのルールを必要とする。 しかし、既存のデータセットは対話の複雑さを考慮してサイズが制限されることが多い。 さらに、従来のトレーニング信号推論は、非決定論的エージェントの振る舞い、すなわち同一の対話状態において有効な複数のアクションを考えるのに適していない。 本研究では,データ拡張,マルチ参照学習,非決定論的エージェントの評価に活用できる対話グラフ(ConvGraph)を提案する。 ConvGraphはデータボリュームと多様性を増大させる新しい対話パスを生成する。 3つのデータセットにまたがる内在的および外在的評価は、convgraphによるデータ拡張および/またはマルチリファレンストレーニングが、対話の成功率を最大6.4%向上させることを示している。

Task-oriented dialogue systems typically rely on large amounts of high-quality training data or require complex handcrafted rules. However, existing datasets are often limited in size considering the complexity of the dialogues. Additionally, conventional training signal inference is not suitable for non-deterministic agent behaviour, i.e. considering multiple actions as valid in identical dialogue states. We propose the Conversation Graph (ConvGraph), a graph-based representation of dialogues that can be exploited for data augmentation, multi-reference training and evaluation of non-deterministic agents. ConvGraph generates novel dialogue paths to augment data volume and diversity. Intrinsic and extrinsic evaluation across three datasets shows that data augmentation and/or multi-reference training with ConvGraph can improve dialogue success rates by up to 6.4%.
翻訳日:2022-10-01 22:54:01 公開日:2020-11-04
# ボットの捕獲:ボット攻撃に対するCAPTCHAロバスト性を改善するための逆例の使用

Capture the Bot: Using Adversarial Examples to Improve CAPTCHA Robustness to Bot Attacks ( http://arxiv.org/abs/2010.16204v2 )

ライセンス: Link先を確認
Dorjan Hitaj, Briland Hitaj, Sushil Jajodia, Luigi V. Mancini(参考訳) これまでCAPTCHAは、(悪意のある)ボットによるWebサービスへの不正アクセスを防ぐと同時に、人間のビジターにとってトラブルのない体験を維持しながら、最初の防衛線として機能してきた。 しかし、文学における最近の研究は、機械学習(ml)の進歩を利用して既存のcaptchaベースの防御を容易にバイパスする高度なボットの証拠を提供している。 この作業では、この問題に対処する第一歩を踏み出します。 本稿では,新しいCAPTCHA方式であるCAPTUREを紹介する。 通常、敵対的な例はMLモデルのアストレイを導くのに使用されるが、CAPTUREでは、そのようなメカニズムの"良い利用"を試みる。 私たちの経験的評価では、captchaは人間が簡単に解くことができると同時に、mlベースのボットソルバを効果的に防ぐことができることが示されています。

To this date, CAPTCHAs have served as the first line of defense preventing unauthorized access by (malicious) bots to web-based services, while at the same time maintaining a trouble-free experience for human visitors. However, recent work in the literature has provided evidence of sophisticated bots that make use of advancements in machine learning (ML) to easily bypass existing CAPTCHA-based defenses. In this work, we take the first step to address this problem. We introduce CAPTURE, a novel CAPTCHA scheme based on adversarial examples. While typically adversarial examples are used to lead an ML model astray, with CAPTURE, we attempt to make a "good use" of such mechanisms. Our empirical evaluations show that CAPTURE can produce CAPTCHAs that are easy to solve by humans while at the same time, effectively thwarting ML-based bot solvers.
翻訳日:2022-10-01 17:29:36 公開日:2020-11-04
# 組合せ多バンド問題とエネルギー管理への応用

The Combinatorial Multi-Bandit Problem and its Application to Energy Management ( http://arxiv.org/abs/2010.16269v3 )

ライセンス: Link先を確認
Tobias Jacobs, Mischa Schmidt, S\'ebastien Nicolas, Anett Sch\"ulke(参考訳) エネルギーシステム管理における応用に動機づけられた組合せ型マルチバンド問題について検討する。 結果分布が不明な複数の確率的マルチアームバンディットを与えられた場合、各バンディット結果のベクトルを1つのスカラー報酬にマッピングする組合せ目的関数の値を最適化する。 多次元作用空間を持つ単一帯域問題とは異なり、個々の帯域幅の結果は我々の設定で観測可能であり、目的関数が知られている。 個々のオブザーバビリティが探索と搾取の間のより良いトレードオフを可能にするという仮説に導かれ、単一バンドイットに対するより低い後悔を一般化し、複数のバンドイットに対して並列的な探索を認めることを示した。 エネルギー管理アプリケーションのために,マルチアームバンディットの探索原理と数学的プログラミングを組み合わせたアルゴリズムを提案する。 実験では,365エピソードの地平線内で,それぞれ24の行動を有する150のバンディットに対して,行動割当を学習する手法の有効性を実証した。

We study a Combinatorial Multi-Bandit Problem motivated by applications in energy systems management. Given multiple probabilistic multi-arm bandits with unknown outcome distributions, the task is to optimize the value of a combinatorial objective function mapping the vector of individual bandit outcomes to a single scalar reward. Unlike in single-bandit problems with multi-dimensional action space, the outcomes of the individual bandits are observable in our setting and the objective function is known. Guided by the hypothesis that individual observability enables better trade-offs between exploration and exploitation, we generalize the lower regret bound for single bandits, showing that indeed for multiple bandits it admits parallelized exploration. For our energy management application we propose a range of algorithms that combine exploration principles for multi-arm bandits with mathematical programming. In an experimental study we demonstrate the effectiveness of our approach to learn action assignments for 150 bandits, each having 24 actions, within a horizon of 365 episodes.
翻訳日:2022-10-01 17:12:08 公開日:2020-11-04
# 「3つのアルゴリズムは偽証を負わない」:単語埋め込みにおけるマルチクラスデバイアス法の評価

"Thy algorithm shalt not bear false witness": An Evaluation of Multiclass Debiasing Methods on Word Embeddings ( http://arxiv.org/abs/2010.16228v2 )

ライセンス: Link先を確認
Thalea Schlender and Gerasimos Spanakis(参考訳) 人工知能応用の広範な発展と雇用に伴い、これらのアルゴリズムの公平性に関する研究が増加している。 具体的には、自然言語処理領域において、単語埋め込みにおいて社会的バイアスが持続し、使用時にこれらのバイアスを増幅する危険性があることが示されている。 社会バイアスの例として、宗教バイアスは単語埋め込みの中で持続し、その除去の必要性が強調される。 本稿では,最先端のマルチクラスデバイアス技術であるハードデバイアス,ソフトウィートデバイアス,コンセプタデバイアスについて検討する。 単語埋め込みアソシエーションテスト(WEAT)、平均コサイン類似度(MAC)、相対負性感覚バイアス(RNSB)によるバイアス除去を定量化することにより、共通のバイアスを取り除く際のパフォーマンスを評価する。 word2vec、glove、conceptnetの3つの広く使われている単語埋め込みの宗教的バイアス除去を調査し、この方法がconceptordebiasingであることを示した。 具体的には、3つの単語埋め込み集合について、測定された宗教バイアスを平均82,42%、96,78%、54,76%減少させる。

With the vast development and employment of artificial intelligence applications, research into the fairness of these algorithms has been increased. Specifically, in the natural language processing domain, it has been shown that social biases persist in word embeddings and are thus in danger of amplifying these biases when used. As an example of social bias, religious biases are shown to persist in word embeddings and the need for its removal is highlighted. This paper investigates the state-of-the-art multiclass debiasing techniques: Hard debiasing, SoftWEAT debiasing and Conceptor debiasing. It evaluates their performance when removing religious bias on a common basis by quantifying bias removal via the Word Embedding Association Test (WEAT), Mean Average Cosine Similarity (MAC) and the Relative Negative Sentiment Bias (RNSB). By investigating the religious bias removal on three widely used word embeddings, namely: Word2Vec, GloVe, and ConceptNet, it is shown that the preferred method is ConceptorDebiasing. Specifically, this technique manages to decrease the measured religious bias on average by 82,42%, 96,78% and 54,76% for the three word embedding sets respectively.
翻訳日:2022-10-01 15:53:41 公開日:2020-11-04
# 3D-LaneNet+:半局所表現を用いたアンカーフリーレーン検出

3D-LaneNet+: Anchor Free Lane Detection using a Semi-Local Representation ( http://arxiv.org/abs/2011.01535v2 )

ライセンス: Link先を確認
Netalee Efrat, Max Bluvstein, Shaul Oron, Dan Levi, Noa Garnett, Bat El Shlomo(参考訳) 3D-LaneNet+は、スプリット、マージ、ショートレーン、垂直レーンなどの任意のトポロジーの3dレーンを検出できるカメラベースの3Dレーン検出のためのDNN方式である。 我々は,最近提案する3d-lanenetを追従し,これら従来サポートされていないレーントポロジの検出を可能にするように拡張する。 我々の出力表現はアンカーフリーな半局所タイル表現であり、レーンをパラメータを学習可能な単純なレーンセグメントに分解する。 さらに、レーンのインスタンスごとに、ローカルに検出されたセグメントのグローバル接続が完全な3dレーンを形成する理由を組み込んだ特徴を学習する。 この組み合わせにより、3D-LaneNet+は、オリジナルの3D-LaneNetのようにレーンアンカーの使用、非最大抑制、レーンモデルの適合を避けることができる。 合成データと実世界データの両方を用いて3D-LaneNet+の有効性を示す。 その結果, 複雑なレーントポロジー, 曲率, 表面形状へのより良い一般化に起因した, オリジナルの3dレーンネットと比較して大きな改善が見られた。

3D-LaneNet+ is a camera-based DNN method for anchor free 3D lane detection which is able to detect 3d lanes of any arbitrary topology such as splits, merges, as well as short and perpendicular lanes. We follow recently proposed 3D-LaneNet, and extend it to enable the detection of these previously unsupported lane topologies. Our output representation is an anchor free, semi-local tile representation that breaks down lanes into simple lane segments whose parameters can be learnt. In addition we learn, per lane instance, feature embedding that reasons for the global connectivity of locally detected segments to form full 3d lanes. This combination allows 3D-LaneNet+ to avoid using lane anchors, non-maximum suppression, and lane model fitting as in the original 3D-LaneNet. We demonstrate the efficacy of 3D-LaneNet+ using both synthetic and real world data. Results show significant improvement relative to the original 3D-LaneNet that can be attributed to better generalization to complex lane topologies, curvatures and surface geometries.
翻訳日:2022-09-30 23:28:27 公開日:2020-11-04
# transquest: 言語間トランスフォーマーによる翻訳品質推定

TransQuest: Translation Quality Estimation with Cross-lingual Transformers ( http://arxiv.org/abs/2011.01536v2 )

ライセンス: Link先を確認
Tharindu Ranasinghe, Constantin Orasan, Ruslan Mitkov(参考訳) 近年, 文レベルの品質評価 (QE) の分野では, 主にニューラルベースアーキテクチャを用いて大きな進歩を遂げている。 しかしながら、これらのメソッドの大部分は、トレーニング対象の言語ペアのみで動作し、新しい言語ペアの再トレーニングが必要である。 このプロセスは技術的な観点からは困難であり、通常は計算コストがかかる。 本稿では,言語間変換をベースとした簡単なQEフレームワークを提案し,これを2つの異なるニューラルアーキテクチャの実装と評価に利用する。 評価の結果,提案手法は,WMTのデータセットをトレーニングした場合に,現在のオープンソース品質評価フレームワークよりも優れていることがわかった。 さらに、このフレームワークは、特に低リソース言語を扱う場合、転送学習設定において非常に有用であることが証明され、非常に競争力のある結果が得られる。

Recent years have seen big advances in the field of sentence-level quality estimation (QE), largely as a result of using neural-based architectures. However, the majority of these methods work only on the language pair they are trained on and need retraining for new language pairs. This process can prove difficult from a technical point of view and is usually computationally expensive. In this paper we propose a simple QE framework based on cross-lingual transformers, and we use it to implement and evaluate two different neural architectures. Our evaluation shows that the proposed methods achieve state-of-the-art results outperforming current open-source quality estimation frameworks when trained on datasets from WMT. In addition, the framework proves very useful in transfer learning settings, especially when dealing with low-resourced languages, allowing us to obtain very competitive results.
翻訳日:2022-09-30 22:45:16 公開日:2020-11-04
# 日本語ゼロアナフォラ分解能のための文脈データ拡張に関する実証的研究

An Empirical Study of Contextual Data Augmentation for Japanese Zero Anaphora Resolution ( http://arxiv.org/abs/2011.00948v2 )

ライセンス: Link先を確認
Ryuto Konno, Yuichiroh Matsubayashi, Shun Kiyono, Hiroki Ouchi, Ryo Takahashi, Kentaro Inui(参考訳) zero anaphora resolution (zar) の重要な問題はラベル付きデータの不足である。 本研究では,データ拡張によってこの問題がいかに効果的に解決できるかを検討する。 我々は、事前訓練された言語モデルを用いてラベル付きトレーニングインスタンスを生成する、文脈データ拡張(CDA)と呼ばれる最先端データ拡張手法を採用する。 CDAは、テキスト分類や機械翻訳など、いくつかの自然言語処理タスクでうまく機能していると報告されている。 本研究は,データ拡張の計算コストを削減する方法と,生成されたデータの品質を保証する方法という,cdaの未熟な2つの問題に対処する。 また, CDA を ZAR に適応させる手法として, [MASK] による拡張と言語制御によるマスキングを提案する。 その結果,本手法は精度向上と計算コスト削減の両方に寄与することがわかった。 提案手法は,従来のCDAと比較して,強化トレーニングデータの品質を向上させることができることを示す。

One critical issue of zero anaphora resolution (ZAR) is the scarcity of labeled data. This study explores how effectively this problem can be alleviated by data augmentation. We adopt a state-of-the-art data augmentation method, called the contextual data augmentation (CDA), that generates labeled training instances using a pretrained language model. The CDA has been reported to work well for several other natural language processing tasks, including text classification and machine translation. This study addresses two underexplored issues on CDA, that is, how to reduce the computational cost of data augmentation and how to ensure the quality of the generated data. We also propose two methods to adapt CDA to ZAR: [MASK]-based augmentation and linguistically-controlled masking. Consequently, the experimental results on Japanese ZAR show that our methods contribute to both the accuracy gain and the computation cost reduction. Our closer analysis reveals that the proposed method can improve the quality of the augmented training data when compared to the conventional CDA.
翻訳日:2022-09-30 11:57:13 公開日:2020-11-04
# 値引き設定のためのwang-foster-kakade下限の変種

A Variant of the Wang-Foster-Kakade Lower Bound for the Discounted Setting ( http://arxiv.org/abs/2011.01075v2 )

ライセンス: Link先を確認
Philip Amortila, Nan Jiang, Tengyang Xie(参考訳) 近年, Wang et al. (2020) は, 線形実現可能な値関数を持つバッチ強化学習 (RL) において, 有限ホライゾンの場合において, 高い難易度を示した。 本稿では,1次元の特徴を持つ2状態のMDPに構成を単純化し,無限のデータでも学習が不可能であることを示す。

Recently, Wang et al. (2020) showed a highly intriguing hardness result for batch reinforcement learning (RL) with linearly realizable value function and good feature coverage in the finite-horizon case. In this note we show that once adapted to the discounted setting, the construction can be simplified to a 2-state MDP with 1-dimensional features, such that learning is impossible even with an infinite amount of data.
翻訳日:2022-09-30 10:46:04 公開日:2020-11-04
# 対戦相手の行動を評価する:世界的攻撃

Valuing Player Actions in Counter-Strike: Global Offensive ( http://arxiv.org/abs/2011.01324v2 )

ライセンス: Link先を確認
Peter Xenopoulos, Harish Doraiswamy, Claudio Silva(参考訳) esportsの関心は高まっているが、アクセス可能なデータや実証済みで再現可能な分析フレームワークといった、基本的なスポーツ分析リソースが欠けている。 counter-strike: global offensive (csgo)は2番目に人気のあるeスポーツであり、これらの問題に苦しむ。 したがって,チーム,メディア,賭け者,ファンにとって重要な課題であるCSGOプレーヤーの定量的評価は困難である。 そこで本稿では,(1)オープンソース実装によるcsgoのデータモデル,(2)csgoにおける距離を定義するためのグラフ距離測定,(3)チームの勝利確率の変化に基づいてプレイヤーの行動を評価するコンテキスト認識フレームワークを紹介する。 7000万以上のゲーム内csgoイベントを使用して,既存の評価フレームワークと比較して,フレームワークの一貫性と独立性を示す。 また,高インパクトプレイ識別と不確実性推定のユースケースも提供する。

Esports, despite its expanding interest, lacks fundamental sports analytics resources such as accessible data or proven and reproducible analytical frameworks. Even Counter-Strike: Global Offensive (CSGO), the second most popular esport, suffers from these problems. Thus, quantitative evaluation of CSGO players, a task important to teams, media, bettors and fans, is difficult. To address this, we introduce (1) a data model for CSGO with an open-source implementation; (2) a graph distance measure for defining distances in CSGO; and (3) a context-aware framework to value players' actions based on changes in their team's chances of winning. Using over 70 million in-game CSGO events, we demonstrate our framework's consistency and independence compared to existing valuation frameworks. We also provide use cases demonstrating high-impact play identification and uncertainty estimation.
翻訳日:2022-09-30 10:45:54 公開日:2020-11-04
# 同時脳波-fMRIにおけるBCGアーチファクト除去のためのシングルショット可逆GAN

Single Shot Reversible GAN for BCG artifact removal in simultaneous EEG-fMRI ( http://arxiv.org/abs/2011.01710v2 )

ライセンス: Link先を確認
Guang Lin, Jianhai Zhang, Yuxi Liu(参考訳) 脳波-fMRI同時取得・解析技術は脳科学の様々な研究分野で広く利用されている。 しかし、このシナリオでBCG(Ballistocardiogram)アーティファクトを除去する方法は、依然として大きな課題である。 クリーンでbcg汚染された脳波信号を同時に得ることは不可能であるため、bcgアーティファクト除去は典型的な信号対信号問題である。 そこで本研究では,新しいGANトレーニングモデルであるSingle Shot Reversible GAN(SSRGAN)を提案する。 このモデルでは、従来のように双方向変換に2つの独立したモデルを使う代わりに、2種類の信号の特徴をうまく組み合わせることができる。 さらに、モデルは特定の関数を持つ複数の独立した畳み込みブロックに分解される。 ブロックの追加トレーニングにより、モデルの局所的な表現能力が改善され、全体のモデル性能が向上する。 実験の結果,既存の手法と比較して,BCGアーティファクトをより効果的に除去し,有用な脳波情報を保持できることが示唆された。

Simultaneous EEG-fMRI acquisition and analysis technology has been widely used in various research fields of brain science. However, how to remove the ballistocardiogram (BCG) artifacts in this scenario remains a huge challenge. Because it is impossible to obtain clean and BCG-contaminated EEG signals at the same time, BCG artifact removal is a typical unpaired signal-to-signal problem. To solve this problem, this paper proposed a new GAN training model - Single Shot Reversible GAN (SSRGAN). The model is allowing bidirectional input to better combine the characteristics of the two types of signals, instead of using two independent models for bidirectional conversion as in the past. Furthermore, the model is decomposed into multiple independent convolutional blocks with specific functions. Through additional training of the blocks, the local representation ability of the model is improved, thereby improving the overall model performance. Experimental results show that, compared with existing methods, the method proposed in this paper can remove BCG artifacts more effectively and retain the useful EEG information.
翻訳日:2022-09-30 05:38:09 公開日:2020-11-04
# 学習可能な運動モデルとオクルージョンを用いたシーンフローのための深部時間融合フレームワーク

A Deep Temporal Fusion Framework for Scene Flow Using a Learnable Motion Model and Occlusions ( http://arxiv.org/abs/2011.01603v2 )

ライセンス: Link先を確認
Ren\'e Schuster, Christian Unger, Didier Stricker(参考訳) 運動推定はコンピュータビジョンにおける重要な課題の1つである。 従来のデュアルフレームアプローチでは、オクルージョンと外見運動は、特に物体の大きな(エゴ)動きによる車両の環境認識の文脈において、制限要因である。 本研究では,複数フレーム構成におけるシーンフロー推定の時間的融合によるオクルージョン問題を克服するための新しいデータ駆動手法を提案する。 従来の手法とは対照的に、定常運動モデルに頼るのではなく、データから動きの一般的な時間的関係を学習する。 第2のステップでは、ニューラルネットワークは、共通の参照フレームからの双方向のシーンフロー推定を組み合わせ、洗練された推定値と閉塞マスクの自然な副産物を生成する。 このようにして、本手法は、複数のシーンフロー推定器に対して高速なマルチフレーム拡張を提供する。

Motion estimation is one of the core challenges in computer vision. With traditional dual-frame approaches, occlusions and out-of-view motions are a limiting factor, especially in the context of environmental perception for vehicles due to the large (ego-) motion of objects. Our work proposes a novel data-driven approach for temporal fusion of scene flow estimates in a multi-frame setup to overcome the issue of occlusion. Contrary to most previous methods, we do not rely on a constant motion model, but instead learn a generic temporal relation of motion from data. In a second step, a neural network combines bi-directional scene flow estimates from a common reference frame, yielding a refined estimate and a natural byproduct of occlusion masks. This way, our approach provides a fast multi-frame extension for a variety of scene flow estimators, which outperforms the underlying dual-frame approaches.
翻訳日:2022-09-30 05:20:40 公開日:2020-11-04
# コントラスト学習による半教師付き顔動作単位強度推定

Semi-supervised Facial Action Unit Intensity Estimation with Contrastive Learning ( http://arxiv.org/abs/2011.01864v2 )

ライセンス: Link先を確認
Enrique Sanchez, Adrian Bulat, Anestis Zaganidis, Georgios Tzimiropoulos(参考訳) 本稿では,ラベル付き画像が少ない顔行動単位の強度を推定する難題に対処する。 従来の作業とは対照的に、この手法ではキーフレームを手動で選択する必要はなく、注釈付きフレームを最大$2\%$で生成し、それは\textit{randomly select}である。 そこで本研究では,特徴抽出器と時間モジュールを組み合わせた時空間モデルが2段階学習される半教師付き学習手法を提案する。 第1段階では、ラベルのないビデオのデータセットを使用して、コントラスト学習に基づいて、顔の行動ダイナミクスの強い時空間的表現を学ぶ。 私たちの知る限りでは、顔の振る舞いを教師なしでモデル化するためのこのフレームワークを最初に構築しました。 第2段階では、ランダムに選択されたフレームのデータセットを使用して、当社の時空間モデル上で回帰器をトレーニングし、AU強度を推定します。 提案手法は,高度にスパースでランダムにラベル付けされたフレームに対して,ネットワークの出力に対してのみ時間によるバックプロパゲーションを適用するが,第1段階の教師なし事前学習により,AU強度を正確に推定する訓練を効果的に行うことができることを示す。 ラベル付きフレームを慎重に選択することなく,disFAとBP4Dの両方のデータセットに対してランダムに選択されたデータに対して,2\%のコストで作業する場合,既存の手法よりも優れていることを示す。

This paper tackles the challenging problem of estimating the intensity of Facial Action Units with few labeled images. Contrary to previous works, our method does not require to manually select key frames, and produces state-of-the-art results with as little as $2\%$ of annotated frames, which are \textit{randomly chosen}. To this end, we propose a semi-supervised learning approach where a spatio-temporal model combining a feature extractor and a temporal module are learned in two stages. The first stage uses datasets of unlabeled videos to learn a strong spatio-temporal representation of facial behavior dynamics based on contrastive learning. To our knowledge we are the first to build upon this framework for modeling facial behavior in an unsupervised manner. The second stage uses another dataset of randomly chosen labeled frames to train a regressor on top of our spatio-temporal model for estimating the AU intensity. We show that although backpropagation through time is applied only with respect to the output of the network for extremely sparse and randomly chosen labeled frames, our model can be effectively trained to estimate AU intensity accurately, thanks to the unsupervised pre-training of the first stage. We experimentally validate that our method outperforms existing methods when working with as little as $2\%$ of randomly chosen data for both DISFA and BP4D datasets, without a careful choice of labeled frames, a time-consuming task still required in previous approaches.
翻訳日:2022-09-30 05:18:56 公開日:2020-11-04
# 経験者、刺激者、ターゲット: 機械学習が感情を推測できる意味的な役割は?

Experiencers, Stimuli, or Targets: Which Semantic Roles Enable Machine Learning to Infer the Emotions? ( http://arxiv.org/abs/2011.01599v2 )

ライセンス: Link先を確認
Laura Oberl\"ander, Kevin Reich and Roman Klinger(参考訳) 感情認識は主に、テキスト単位が予め定義されたインベントリ(例えば、恐怖、喜び、怒り、嫌悪、悲しみ、驚き、信頼、期待)から感情に割り当てられるテキスト分類として定式化される。 近年では「誰が感情を感じるか」や「この感情を引き起こすか」といった疑問に答えるために、テキストから構造を抽出するセマンティック・ロール・ラベリング・アプローチが開発されている。 双方のサブタスクに対して協調的刺激と感情カテゴリー予測が有用であることが示されているが、これらの意味的役割のどちらが感情を推測できるのかは定かではない。 個人のアイデンティティが特定の感情(Xは常に幸せ)に偏っているからです。 特定のターゲット(誰もがXを愛している)か、あるいは刺激(Xがみんなを悲しませている)か? 我々は,テキスト中のこれらの役割のフィラーをマスキングすることで,少なくとも1つの意味的役割を付与された5つの利用可能なデータセット上で感情分類モデルをトレーニングすることで,これらの疑問に答える。 さらに,その役割の位置をモデルに通知することで分類判断が改善されるか分析する。 特に文献コーパスでは,役割情報によって感情の分類が向上することがわかった。

Emotion recognition is predominantly formulated as text classification in which textual units are assigned to an emotion from a predefined inventory (e.g., fear, joy, anger, disgust, sadness, surprise, trust, anticipation). More recently, semantic role labeling approaches have been developed to extract structures from the text to answer questions like: "who is described to feel the emotion?" (experiencer), "what causes this emotion?" (stimulus), and at which entity is it directed?" (target). Though it has been shown that jointly modeling stimulus and emotion category prediction is beneficial for both subtasks, it remains unclear which of these semantic roles enables a classifier to infer the emotion. Is it the experiencer, because the identity of a person is biased towards a particular emotion (X is always happy)? Is it a particular target (everybody loves X) or a stimulus (doing X makes everybody sad)? We answer these questions by training emotion classification models on five available datasets annotated with at least one semantic role by masking the fillers of these roles in the text in a controlled manner and find that across multiple corpora, stimuli and targets carry emotion information, while the experiencer might be considered a confounder. Further, we analyze if informing the model about the position of the role improves the classification decision. Particularly on literature corpora we find that the role information improves the emotion classification.
翻訳日:2022-09-30 04:43:14 公開日:2020-11-04
# テクスチャ抑制による転向学習のための視覚表現の学習

Learning Visual Representations for Transfer Learning by Suppressing Texture ( http://arxiv.org/abs/2011.01901v2 )

ライセンス: Link先を確認
Shlok Mishra, Anshul Shah, Ankan Bansal, Jonghyun Choi, Abhinav Shrivastava, Abhishek Sharma, David Jacobs(参考訳) 近年の文献では、CNNの教師付きトレーニングから得られる特徴は、高レベルの情報を符号化するのではなく、テクスチャを過度に強調することが示されている。 特に自己教師付き学習では、低レベルの手がかりとしてのテクスチャは、ネットワークが高レベルの表現を学習することを妨げるショートカットを提供する。 これらの問題に対処するために、異方性拡散に基づく古典的手法を用いて、テクスチャを抑圧した画像を用いた強化訓練を提案する。 この簡単な方法は重要なエッジ情報を保持し、同時にテクスチャを抑えるのに役立つ。 提案手法は,MoCoV2やJigsawといった教師付き学習タスクや自己教師型学習タスクにおいて,8つの多様なデータセットを用いてオブジェクト検出と画像分類に関する最先端の成果を実証的に示す。 提案手法は, 移動学習に特に有効であり, 5つの標準移動学習データセットの性能向上を観察した。 Sketch-ImageNetデータセットとDTDデータセットの大幅な改善(最大11.49\%)と、唾液度マップによる視覚的分析は、私たちのアプローチがよりよい転送表現の学習に役立つことを示唆している。

Recent literature has shown that features obtained from supervised training of CNNs may over-emphasize texture rather than encoding high-level information. In self-supervised learning in particular, texture as a low-level cue may provide shortcuts that prevent the network from learning higher level representations. To address these problems we propose to use classic methods based on anisotropic diffusion to augment training using images with suppressed texture. This simple method helps retain important edge information and suppress texture at the same time. We empirically show that our method achieves state-of-the-art results on object detection and image classification with eight diverse datasets in either supervised or self-supervised learning tasks such as MoCoV2 and Jigsaw. Our method is particularly effective for transfer learning tasks and we observed improved performance on five standard transfer learning datasets. The large improvements (up to 11.49\%) on the Sketch-ImageNet dataset, DTD dataset and additional visual analyses with saliency maps suggest that our approach helps in learning better representations that better transfer.
翻訳日:2022-09-30 04:16:21 公開日:2020-11-04
# 予測と書き込み: K-Meansクラスタリングを使ってNVMストレージの寿命を延ばす

Predict and Write: Using K-Means Clustering to Extend the Lifetime of NVM Storage ( http://arxiv.org/abs/2011.02556v1 )

ライセンス: Link先を確認
Saeed Kargar, Heiner Litz, Faisal Nawab(参考訳) 非揮発性メモリ(NVM)技術は書き込み持続時間に制限がある。 そこで本研究では,クラスタベースの機械学習手法を用いてnvmの寿命を延ばすk/vストアであるpredict and write (pnw)を提案する。 PNW は PUT/UPDATE 操作のビットフリップ数を減らし、更新された値が書き込まれるべき最高のメモリ位置を決定する。 PNWはK/Vストアの間接レベルを利用して、その値に基づいて任意の書き込みに対してターゲットメモリ位置を自由に選択する。 PNWは、参照するデータ値の類似性によってクラスタ化された動的アドレスプール内のNVMアドレスを整理する。 本研究では,あるPUT/UPDATE操作の適切なターゲットメモリ位置を選択することで,技術状況に対して最大85%,56%のビットフリップとキャッシュライン数を削減可能であることを示す。

Non-volatile memory (NVM) technologies suffer from limited write endurance. To address this challenge, we propose Predict and Write (PNW), a K/V-store that uses a clustering-based machine learning approach to extend the lifetime of NVMs. PNW decreases the number of bit flips for PUT/UPDATE operations by determining the best memory location an updated value should be written to. PNW leverages the indirection level of K/V-stores to freely choose the target memory location for any given write based on its value. PNW organizes NVM addresses in a dynamic address pool clustered by the similarity of the data values they refer to. We show that, by choosing the right target memory location for a given PUT/UPDATE operation, the number of total bit flips and cache lines can be reduced by up to 85% and 56% over the state of the art.
翻訳日:2022-09-29 23:25:56 公開日:2020-11-04
# イベント継続時間が自動Wheeze分類に及ぼす影響

Influence of Event Duration on Automatic Wheeze Classification ( http://arxiv.org/abs/2011.02874v1 )

ライセンス: Link先を確認
Bruno M. Rocha, Diogo Pessoa, Alda Marques, Paulo Carvalho, Rui Pedro Paiva(参考訳) 呼吸器疾患の患者は、通常、口笛のような冒険的な呼吸音を呈する。 Wheezeイベントは、一定期間を持つ。 本研究では,ホイズ分類におけるイベント継続時間の影響,すなわち非ホイズクラスの作成が分類器の性能に及ぼす影響について検討した。 まず, オープンアクセス型呼吸音データベース上で, 感度98%, 特異値95%の分類器をそれぞれ評価した。 そして、非wheezeクラス(すなわちイベント持続時間)の設計において1つのパラメータを変更することで、最良の分類器は、それぞれ55%と76%の感度と特異値に到達した。 これらの結果は,ワイズ分類アルゴリズムの性能評価における実験設計の重要性を示している。

Patients with respiratory conditions typically exhibit adventitious respiratory sounds, such as wheezes. Wheeze events have variable duration. In this work we studied the influence of event duration on wheeze classification, namely how the creation of the non-wheeze class affected the classifiers' performance. First, we evaluated several classifiers on an open access respiratory sound database, with the best one reaching sensitivity and specificity values of 98% and 95%, respectively. Then, by changing one parameter in the design of the non-wheeze class, i.e., event duration, the best classifier only reached sensitivity and specificity values of 55% and 76%, respectively. These results demonstrate the importance of experimental design on the assessment of wheeze classification algorithms' performance.
翻訳日:2022-09-29 23:25:11 公開日:2020-11-04
# 連系知識蒸留

Federated Knowledge Distillation ( http://arxiv.org/abs/2011.02367v1 )

ライセンス: Link先を確認
Hyowoon Seo, Jihong Park, Seungeun Oh, Mehdi Bennis, Seong-Lyun Kim(参考訳) 分散学習フレームワークは、生データを公開するのではなく、ワーカー間でモデルパラメータの交換に依存することが多い。 一番の例は、各ニューラルネットワークモデルの勾配や重みを交換するフェデレーション学習である。 しかし、限られた通信資源の下では、モデルパラメータが膨大な現代のディープニューラルネットワークでは、そのような手法は非常にコストがかかる。 この点において、フェデレート蒸留(FD)は、一般的にモデルサイズ(MNISTデータセットの10ラベルなど)よりも小さい次元のモデル出力のみを交換する、魅力的な分散学習ソリューションである。 この章の目標は、コミュニケーション効率とさまざまなタスクへの適用性を実証しながら、FDの深い理解を提供することである。 この目的のために、この章の第1部では、神経接核(ntk)の理論を利用して、知識蒸留(kd)と共蒸留(cd)という2つのfdの基本アルゴリズムに対する新しい漸近分析を提供する。 次に、第2部では分類タスクにおけるfdのベースライン実装を詳述し、flと比較して精度と通信効率の観点からその性能を示す。 最後に,分散学習タスクと環境に対するfdの適用性を示すために,第3部では,非対称なアップリンク・アンド・ダウンリンク無線チャネル上のfdと強化学習のためのfdという2つの選択したアプリケーションを紹介する。

Distributed learning frameworks often rely on exchanging model parameters across workers, instead of revealing their raw data. A prime example is federated learning that exchanges the gradients or weights of each neural network model. Under limited communication resources, however, such a method becomes extremely costly particularly for modern deep neural networks having a huge number of model parameters. In this regard, federated distillation (FD) is a compelling distributed learning solution that only exchanges the model outputs whose dimensions are commonly much smaller than the model sizes (e.g., 10 labels in the MNIST dataset). The goal of this chapter is to provide a deep understanding of FD while demonstrating its communication efficiency and applicability to a variety of tasks. To this end, towards demystifying the operational principle of FD, the first part of this chapter provides a novel asymptotic analysis for two foundational algorithms of FD, namely knowledge distillation (KD) and co-distillation (CD), by exploiting the theory of neural tangent kernel (NTK). Next, the second part elaborates on a baseline implementation of FD for a classification task, and illustrates its performance in terms of accuracy and communication efficiency compared to FL. Lastly, to demonstrate the applicability of FD to various distributed learning tasks and environments, the third part presents two selected applications, namely FD over asymmetric uplink-and-downlink wireless channels and FD for reinforcement learning.
翻訳日:2022-09-29 23:24:26 公開日:2020-11-04
# 負荷分散を考慮した消費者モデリングのためのデータ駆動機械学習アプローチ

A Data-Driven Machine Learning Approach for Consumer Modeling with Load Disaggregation ( http://arxiv.org/abs/2011.03519v1 )

ライセンス: Link先を確認
A. Khaled Zarabie, Sanjoy Das, and Hongyu Wu(参考訳) ニューラルネットワークのような非パラメトリックモデルでは負荷予測に十分であるが,分散システムの運用計画,負荷スケジューリング,エネルギートレーディング,ユーティリティ要求応答プログラムなど,幅広いアプリケーションにおいて,固定およびシフト可能な負荷の別個の推定が有用である。 半パラメトリック推定モデルは通常、需要のコスト感性を知る必要がある。 既存の研究では、常に最適と思われるいくつかの任意パラメータが使われている。 本稿では,住宅利用者の消費データから導出したデータ駆動セミパラメトリックモデルの汎用クラスを提案する。 2段階機械学習アプローチが開発されている。 第一段階では、非負行列分解(NMF)とガウス混合モデル(GMM)からなるハイブリッドアルゴリズムを用いて、固定およびシフト可能なコンポーネントへの負荷の分散を達成し、後者は予測最大化(EM)アルゴリズムで訓練する。 固定およびシフト可能な負荷は、経済的に考慮された分析処理を受ける。 第2段階では、モデルパラメータをl2ノルム、エプシロン非感受性回帰法を用いて推定する。 住宅顧客2人の実エネルギー利用データから,提案手法の有効性を示す。

While non-parametric models, such as neural networks, are sufficient in the load forecasting, separate estimates of fixed and shiftable loads are beneficial to a wide range of applications such as distribution system operational planning, load scheduling, energy trading, and utility demand response programs. A semi-parametric estimation model is usually required, where cost sensitivities of demands must be known. Existing research work consistently uses somewhat arbitrary parameters that seem to work best. In this paper, we propose a generic class of data-driven semiparametric models derived from consumption data of residential consumers. A two-stage machine learning approach is developed. In the first stage, disaggregation of the load into fixed and shiftable components is accomplished by means of a hybrid algorithm consisting of non-negative matrix factorization (NMF) and Gaussian mixture models (GMM), with the latter trained by an expectation-maximization (EM) algorithm. The fixed and shiftable loads are subject to analytic treatment with economic considerations. In the second stage, the model parameters are estimated using an L2-norm, epsilon-insensitive regression approach. Actual energy usage data of two residential customers show the validity of the proposed method.
翻訳日:2022-09-29 23:24:00 公開日:2020-11-04
# モデルベースヒューリスティック深層強化学習による視覚慣性システム校正のための学習軌跡

Learning Trajectories for Visual-Inertial System Calibration via Model-based Heuristic Deep Reinforcement Learning ( http://arxiv.org/abs/2011.02574v1 )

ライセンス: Link先を確認
Le Chen, Yunke Ao, Florian Tschopp, Andrei Cramariuc, Michel Breyer, Jen Jen Chung, Roland Siegwart, Cesar Cadena(参考訳) 視覚慣性システムは、カメラ内在性とセンサー間遠近性の両方の正確なキャリブレーションに依存しており、通常はキャリブレーションターゲットの前で複雑な動きを手動で行う必要がある。 本研究では,モデルに基づく深部強化学習を用いて,視覚慣性系校正に適した軌道を得るための新しい手法を提案する。 我々の重要な貢献は、キャリブレーション過程をマルコフ決定プロセスとしてモデル化し、モデルに基づく深部強化学習と粒子群最適化を用いて、ロボットアームで行うキャリブレーション軌道のシーケンスを確立することである。 実験の結果, 経路長の類似や短さを維持しながら, 学習方針によって生成された軌道は, ランダムあるいは手作りの軌道よりもキャリブレーション誤差が低いことがわかった。

Visual-inertial systems rely on precise calibrations of both camera intrinsics and inter-sensor extrinsics, which typically require manually performing complex motions in front of a calibration target. In this work we present a novel approach to obtain favorable trajectories for visual-inertial system calibration, using model-based deep reinforcement learning. Our key contribution is to model the calibration process as a Markov decision process and then use model-based deep reinforcement learning with particle swarm optimization to establish a sequence of calibration trajectories to be performed by a robot arm. Our experiments show that while maintaining similar or shorter path lengths, the trajectories generated by our learned policy result in lower calibration errors compared to random or handcrafted trajectories.
翻訳日:2022-09-29 23:18:04 公開日:2020-11-04
# RetroXpert:化学者としての再合成予測を分解する

RetroXpert: Decompose Retrosynthesis Prediction like a Chemist ( http://arxiv.org/abs/2011.02893v1 )

ライセンス: Link先を確認
Chaochao Yan and Qianggang Ding and Peilin Zhao and Shuangjia Zheng and Jinyu Yang and Yang Yu and Junzhou Huang(参考訳) レトロシンセシスは、ターゲット分子を利用可能な構成要素に再帰的に分解するプロセスである。 有機合成計画における問題解決において重要な役割を担っている。 逆合成解析を自動化または支援するために, 様々な逆合成予測アルゴリズムが提案されている。 しかし、そのほとんどは面倒で、予測の解釈性に欠けています。 本稿では, 化学者がレトロシンセシス予測にどのようにアプローチするかに触発された, 自動リトロシンセティック展開のための新しいテンプレートフリーアルゴリズムを考案する。 我々の方法はレトロ合成を2段階に分解する。 一 新規なグラフ神経ネットワークを介して標的分子の電位反応中心を同定し、中間合成子を生成すること。 二 頑健な反応生成モデルにより合成物に関連する反応物を生成すること。 最先端のベースラインをかなりの差で上回る一方で、我々のモデルは化学的に合理的な解釈も提供する。

Retrosynthesis is the process of recursively decomposing target molecules into available building blocks. It plays an important role in solving problems in organic synthesis planning. To automate or assist in the retrosynthesis analysis, various retrosynthesis prediction algorithms have been proposed. However, most of them are cumbersome and lack interpretability about their predictions. In this paper, we devise a novel template-free algorithm for automatic retrosynthetic expansion inspired by how chemists approach retrosynthesis prediction. Our method disassembles retrosynthesis into two steps: i) identify the potential reaction center of the target molecule through a novel graph neural network and generate intermediate synthons, and ii) generate the reactants associated with synthons via a robust reactant generation model. While outperforming the state-of-the-art baselines by a significant margin, our model also provides chemically reasonable interpretation.
翻訳日:2022-09-29 23:17:48 公開日:2020-11-04
# DeepDFT: 正確な電荷密度予測のためのニューラルネットワーク

DeepDFT: Neural Message Passing Network for Accurate Charge Density Prediction ( http://arxiv.org/abs/2011.03346v1 )

ライセンス: Link先を確認
Peter Bj{\o}rn J{\o}rgensen and Arghya Bhowmik(参考訳) 我々は,すべての基底状態特性を計算可能な電子構造シミュレーションの基本変数である原子周りの電荷密度を予測するディープラーニングモデルdeepdftを提案する。 このモデルは、相互作用する原子頂点と電荷密度を予測する特別なクエリポイント頂点からなるグラフ上のニューラルメッセージパッシングとして定式化される。 モデルの精度とスケーラビリティは、分子、固体、液体に対して実証される。 異なる交換相関関数を用いた密度汎関数シミュレーションにより得られた電荷密度の変動よりも低い平均予測誤差が得られる。

We introduce DeepDFT, a deep learning model for predicting the electronic charge density around atoms, the fundamental variable in electronic structure simulations from which all ground state properties can be calculated. The model is formulated as neural message passing on a graph, consisting of interacting atom vertices and special query point vertices for which the charge density is predicted. The accuracy and scalability of the model are demonstrated for molecules, solids and liquids. The trained model achieves lower average prediction errors than the observed variations in charge density obtained from density functional theory simulations using different exchange correlation functionals.
翻訳日:2022-09-29 23:17:36 公開日:2020-11-04
# インドにおけるcovid-19パンデミックにおける不健康空気の脱毒に関する宇宙観測

Space observation on detoxing the unhealthy air quality during COVID-19 pandemic in India ( http://arxiv.org/abs/2012.03847v1 )

ライセンス: Link先を確認
Prabhat Kumar, Rohit Kumar Kasera, S Suresh(参考訳) 本研究の目的は、インドにおける新型コロナウイルスのパンデミックと不健康な大気質の宇宙観測との相関を明らかにすることにある。 世界は新型コロナウイルス感染の連鎖を断ち切るために封鎖されている。 航空品質指数(AQI)は、産業・交通セクターの一時閉鎖によるロックダウンの開始後に改善が始まっている。 この研究は、最近NASA(National Aeronautics and Space Administration)、ESA(European Space Agency)、ISRO(Indian Space and Research Organization)によって発表されたデータをまとめた。 本稿では,二酸化窒素 (no2) , エアロゾル光学深度 (aod), pm2.5, pm10 の空間観測がインド各地における大気質に及ぼす影響について考察した。 本研究は, ロックダウン前後の空気質の脱毒現象を, 電流のフレームと前年同期で解析した。 その結果、NO2の排出が40%から50%に減少し、インド北部の過去20年間に比べて低濃度のエアロゾルの光学レベルが低下したとして、不健康な大気汚染の脱毒効果が示された。

The purpose of this study has extremely dedicated to exposing the correlation between coronavirus pandemic and space observation on unhealthy air quality in India. The world has undergone lockdown to break the chain of coronavirus infection. The Air Quality Index (AQI) has started to improve after the commencement of lockdown due to industrial and transportation sectors temporally closed. This study compiled the data recently released by NASA (National Aeronautics and Space Administration), ESA (European Space Agency), and ISRO (Indian Space and Research Organization). In this paper, we have discussed the space observation on Nitrogen Dioxide (NO2), Aerosol Optical Depth (AOD), PM2.5, and PM10 influenced the air quality across the various region of India. We analyzed the detoxing of air quality before and during the lockdown period over the same time the frame of current and the previous year. The result has shown a positive impact on the detoxing of unhealthy air quality during lockdown stated as the emission of NO2 has reduced to 40% - 50% and optical level of aerosol indexed at low compared to the last 20 years in northern India.
翻訳日:2022-09-29 23:17:27 公開日:2020-11-04
# ディープスピーチは先取りできるのか?

Can We Trust Deep Speech Prior? ( http://arxiv.org/abs/2011.02110v1 )

ライセンス: Link先を確認
Ying Shi, Haolin Chen, Zhiyuan Tang, Lantian Li, Dong Wang and Jiqing Han(参考訳) 近年,非負行列分解(VAE-NMF)アーキテクチャを用いた変分オートエンコーダなど,深層音声に基づく音声強調(SE)が注目されている。 低ランクな共分散を持つガウスのような浅いモデルによるクリーン音声を表現する従来のアプローチと比較して、新しいアプローチでは、クリーン音声を表現するために深い生成モデルを採用している。 理論上は明らかな優位性にもかかわらず、深層生成モデルが生み出す可能性は常に音声品質と一致しないため、深部事前は慎重に利用する必要があると論じる。 我々はこの問題に関する総合的な研究を設計し、深層音声の先行結果に基づいて妥当なSE性能が達成できることを示したが、その結果は準最適かもしれない。 慎重な分析により、この問題は、深層生成モデルの柔軟性と最大様相訓練(ML)の性質との間の不整合に深く根ざしていることが示された。

Recently, speech enhancement (SE) based on deep speech prior has attracted much attention, such as the variational auto-encoder with non-negative matrix factorization (VAE-NMF) architecture. Compared to conventional approaches that represent clean speech by shallow models such as Gaussians with a low-rank covariance, the new approach employs deep generative models to represent the clean speech, which often provides a better prior. Despite the clear advantage in theory, we argue that deep priors must be used with much caution, since the likelihood produced by a deep generative model does not always coincide with the speech quality. We designed a comprehensive study on this issue and demonstrated that based on deep speech priors, a reasonable SE performance can be achieved, but the results might be suboptimal. A careful analysis showed that this problem is deeply rooted in the disharmony between the flexibility of deep generative models and the nature of the maximum-likelihood (ML) training.
翻訳日:2022-09-29 23:16:36 公開日:2020-11-04
# 相関に基づくマルチファサールモデルによる音声の脳波認識の改善

Correlation based Multi-phasal models for improved imagined speech EEG recognition ( http://arxiv.org/abs/2011.02195v1 )

ライセンス: Link先を確認
Rini A Sharon, Hema A Murthy(参考訳) 人間の理解可能なコマンドへの音声脳波(EEG)の変換は、自然主義的な脳コンピューターインタフェースの設計を大いに促進する。 本研究は,音声単位の分類を改善するために,特定の音声単位に対応する音声の動きを発話・想像・実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることを目的とする。 ニューラルネットワークを用いた二相共通表現学習モジュールは、分析フェーズと支援フェーズとの相関と再現性をモデル化する。 次に、訓練された相関ネットワークを用いて分析相の判別特徴を抽出する。 これらの特徴は、ガウス混合に基づく隠れマルコフモデルやディープニューラルネットワークのような機械学習モデルを用いて、さらに5つのバイナリ音韻学カテゴリに分類される。 提案手法は復号化時の多相データの非可利用性をさらに扱う。 本論文で提案するマルチファサール相関モデルにより,脳波の認識性能が向上することが示唆された。

Translation of imagined speech electroencephalogram(EEG) into human understandable commands greatly facilitates the design of naturalistic brain computer interfaces. To achieve improved imagined speech unit classification, this work aims to profit from the parallel information contained in multi-phasal EEG data recorded while speaking, imagining and performing articulatory movements corresponding to specific speech units. A bi-phase common representation learning module using neural networks is designed to model the correlation and reproducibility between an analysis phase and a support phase. The trained Correlation Network is then employed to extract discriminative features of the analysis phase. These features are further classified into five binary phonological categories using machine learning models such as Gaussian mixture based hidden Markov model and deep neural networks. The proposed approach further handles the non-availability of multi-phasal data during decoding. Topographic visualizations along with result-based inferences suggest that the multi-phasal correlation modelling approach proposed in the paper enhances imagined-speech EEG recognition performance.
翻訳日:2022-09-29 23:16:18 公開日:2020-11-04
# 畳み込み近位ニューラルネットワークとプラグアンドプレイアルゴリズム

Convolutional Proximal Neural Networks and Plug-and-Play Algorithms ( http://arxiv.org/abs/2011.02281v1 )

ライセンス: Link先を確認
Johannes Hertrich and Sebastian Neumayer and Gabriele Steidl(参考訳) 本稿では,構築平均演算子である畳み込み近位ニューラルネットワーク(cPNN)を紹介する。 完全長さのフィルタに対して、Stiefel多様体の部分多様体上の確率勾配降下アルゴリズムを提案し、cPNNを訓練する。 有限長フィルタの場合、最小二乗距離を恒等演算子にペナルティすることで演算子に課される直交制約を近似する関数を最小化するためのアルゴリズムを設計する。 そこで, 所定のリプシッツ定数を持つcPNNを用いて信号や画像の分解を行い, 得られた品質はリプシッツ定数に依存する。 最後に, cPNN ベースのデノイザをPlug-and-Play (PnP) フレームワークに適用し, オラクル構造に基づく PnP 前方分割アルゴリズムの収束結果を提供する。

In this paper, we introduce convolutional proximal neural networks (cPNNs), which are by construction averaged operators. For filters of full length, we propose a stochastic gradient descent algorithm on a submanifold of the Stiefel manifold to train cPNNs. In case of filters with limited length, we design algorithms for minimizing functionals that approximate the orthogonality constraints imposed on the operators by penalizing the least squares distance to the identity operator. Then, we investigate how scaled cPNNs with a prescribed Lipschitz constant can be used for denoising signals and images, where the achieved quality depends on the Lipschitz constant. Finally, we apply cPNN based denoisers within a Plug-and-Play (PnP) framework and provide convergence results for the corresponding PnP forward-backward splitting algorithm based on an oracle construction.
翻訳日:2022-09-29 23:16:02 公開日:2020-11-04
# 大規模問題に対するMRIサンプリングパターンの高速データ駆動学習

Fast Data-Driven Learning of MRI Sampling Pattern for Large Scale Problems ( http://arxiv.org/abs/2011.02322v1 )

ライセンス: Link先を確認
Marcelo V. W. Zibetti and Gabor T. Herman and Ravinder R. Regatte(参考訳) 目的: 高速なデータ駆動最適化手法であるバイアス加速サブセット選択(BASS)を提案し, 大規模並列MRIにおけるスキャン時間を削減することを目的として, 効率的なサンプリングパターン(SP)を学習する。 方法: 特定の解剖学のカルテジアン完全サンプリングされたk空間データをトレーニングに利用できる場合, バスが適用可能であり, 再構成方法, 特定の解剖学および非サンプリング点の回収において, k空間のどの点がより関連しているかを学習する。 BASSは4つの並列MRI再構成法を用いて,SPの自由選択を可能にする低ランク度と疎度に基づいて試験を行った。 2つのデータセットをテストした。1つは高解像度イメージングのための脳画像、もう1つは軟骨の定量的マッピングのための膝画像である。 結果: BASSは計算コストが低く, 収束が速いため, 現行の強欲アプローチの100倍の速さでSPを得た。 同じスキャン時間を考慮すると、再構成品質は可変密度とポアソンディスクspsによって提供されるspよりも45\%向上した。 任意に、スキャン時間は復元品質を損なうことなくほぼ半減することができる。 結論: BASSは現在のアプローチと比較して,より大規模なSPと大規模なデータセットを用いて,様々な再構成手法の効果的なSPを迅速に学習することができる。 これにより、特定のMRI問題に対して効率的なサンプリングと再構成のペアを選択できる。

Purpose: A fast data-driven optimization approach, named bias-accelerated subset selection (BASS), is proposed for learning efficacious sampling patterns (SPs) with the purpose of reducing scan time in large-dimensional parallel MRI. Methods: BASS is applicable when Cartesian fully-sampled k-space data of specific anatomy is available for training and the reconstruction method is specified, learning which k-space points are more relevant for the specific anatomy and reconstruction in recovering the non-sampled points. BASS was tested with four reconstruction methods for parallel MRI based on low-rankness and sparsity that allow a free choice of the SP. Two datasets were tested, one of the brain images for high-resolution imaging and another of knee images for quantitative mapping of the cartilage. Results: BASS, with its low computational cost and fast convergence, obtained SPs 100 times faster than the current best greedy approaches. Reconstruction quality increased up to 45\% with our learned SP over that provided by variable density and Poisson disk SPs, considering the same scan time. Optionally, the scan time can be nearly halved without loss of reconstruction quality. Conclusion: Compared with current approaches, BASS can be used to rapidly learn effective SPs for various reconstruction methods, using larger SP and larger datasets. This enables a better selection of efficacious sampling-reconstruction pairs for specific MRI problems.
翻訳日:2022-09-29 23:15:46 公開日:2020-11-04
# 残響・雑音下における未知話者のための単一チャンネル音声分離

Single channel voice separation for unknown number of speakers under reverberant and noisy settings ( http://arxiv.org/abs/2011.02329v1 )

ライセンス: Link先を確認
Shlomo E. Chazan, Lior Wolf, Eliya Nachmani, Yossi Adi(参考訳) 本稿では,未知話者の音声分離のための統一ネットワークを提案する。 提案手法は話者分類分枝と共に最適化された複数の分離ヘッドからなる。 分離は、すべての分離ヘッド間のパラメータ共有とともに、時間領域で実行される。 分類部は、話者数を推定し、各頭部は異なる数の話者を分離することに特化している。 提案手法は, クリーンかつノイズの多い残響セットティングを用いて評価する。 その結果,提案手法はベースラインモデルよりも有意差で優れていることが示唆された。 さらに、最大5人の話者が同時に話す新しい雑音と残響データセットを提示する。

We present a unified network for voice separation of an unknown number of speakers. The proposed approach is composed of several separation heads optimized together with a speaker classification branch. The separation is carried out in the time domain, together with parameter sharing between all separation heads. The classification branch estimates the number of speakers while each head is specialized in separating a different number of speakers. We evaluate the proposed model under both clean and noisy reverberant set-tings. Results suggest that the proposed approach is superior to the baseline model by a significant margin. Additionally, we present a new noisy and reverberant dataset of up to five different speakers speaking simultaneously.
翻訳日:2022-09-29 23:15:19 公開日:2020-11-04
# DeepReg: 医用画像登録のためのディープラーニングツールキット

DeepReg: a deep learning toolkit for medical image registration ( http://arxiv.org/abs/2011.02580v1 )

ライセンス: Link先を確認
Yunguan Fu, Nina Monta\~na Brown, Shaheer U. Saeed, Adri\`a Casamitjana, Zachary M. C. Baum, R\'emi Delaunay, Qianye Yang, Alexander Grimwood, Zhe Min, Stefano B. Blumberg, Juan Eugenio Iglesias, Dean C. Barratt, Ester Bonmati, Daniel C. Alexander, Matthew J. Clarkson, Tom Vercauteren, Yipeng Hu(参考訳) DeepReg (https://github.com/DeepRegNet/DeepReg) は、ディープラーニングを用いた医用画像登録の研究と教育のためのコミュニティ支援オープンソースツールキットである。

DeepReg (https://github.com/DeepRegNet/DeepReg) is a community-supported open-source toolkit for research and education in medical image registration using deep learning.
翻訳日:2022-09-29 23:09:41 公開日:2020-11-04
# EEGS: 透明な感情モデル

EEGS: A Transparent Model of Emotions ( http://arxiv.org/abs/2011.02573v1 )

ライセンス: Link先を確認
Suman Ojha, Jonathan Vitale and Mary-Anne Williams(参考訳) 本稿では,感情モデルであるEEGSの計算の詳細を述べるとともに,他の感情モデルにも適用可能な3段階の検証手法について概説する。 既存の感情モデリングの文献における大きなギャップは、実装されたモデルの計算/技術的詳細が欠如していることである。 評価変数の計算に関する技術的詳細を過去の研究で提示することで,これらの問題に部分的に対処する。 本稿では,評価理論の理論的前提に基づく感情強度計算のための数式を提案する。 さらに、我々の感情モデルが自律エージェントの社会的受容性に対する規制された感情状態にどのように到達できるかについて議論する。 この論文は、知識の透明性、正確なベンチマーク、感情モデリングの分野のさらなる進化を可能にすることを願っている。

This paper presents the computational details of our emotion model, EEGS, and also provides an overview of a three-stage validation methodology used for the evaluation of our model, which can also be applicable for other computational models of emotion. A major gap in existing emotion modelling literature has been the lack of computational/technical details of the implemented models, which not only makes it difficult for early-stage researchers to understand the area but also prevents benchmarking of the developed models for expert researchers. We partly addressed these issues by presenting technical details for the computation of appraisal variables in our previous work. In this paper, we present mathematical formulas for the calculation of emotion intensities based on the theoretical premises of appraisal theory. Moreover, we will discuss how we enable our emotion model to reach to a regulated emotional state for social acceptability of autonomous agents. We hope this paper will allow a better transparency of knowledge, accurate benchmarking and further evolution of the field of emotion modelling.
翻訳日:2022-09-29 23:08:52 公開日:2020-11-04
# 構文指向型変分オートエンコーダを用いた極限条件用ポリマー

Polymers for Extreme Conditions Designed Using Syntax-Directed Variational Autoencoders ( http://arxiv.org/abs/2011.02551v1 )

ライセンス: Link先を確認
Rohit Batra, Hanjun Dai, Tran Doan Huan, Lihua Chen, Chiho Kim, Will R. Gutekunst, Le Song, Rampi Ramprasad(参考訳) 新しい材料の設計と発見は、材料候補のほぼ無限の可能性と、要求される複数の特性と性能の目的のため、非常に非自明である。 したがって、現在機械学習ツールは、物質対プロパティ空間から理論写像を学習することで、望まれる特性を持つ物質候補を事実上スクリーニングするために用いられる。 しかし、このアプローチは非効率であり、人間の想像力が想像できる候補によって厳しく制約されている。 そこで,本研究では,所望の特性/性能の目的を満たす候補を直接生成する「emph{inverse}」問題を解くことで,材料発見の課題に取り組む。 本研究では,(1)高温,(2)高電場,(3)高温<emph{and}高電場,(3)臨界構造,電気・エネルギー貯蔵用途に有用な3つの極端条件下で頑健なポリマーを発見するために,ガウス過程回帰(GPR)モデルを用いて,構文指向の変分オートエンコーダ(VAE)をタンデムで利用した。 人間の創造性から学ぶ(そして強化する)このアプローチは一般に一般的であり、他の標的特性や性能指標を持つポリマーを発見するために拡張することができる。

The design/discovery of new materials is highly non-trivial owing to the near-infinite possibilities of material candidates, and multiple required property/performance objectives. Thus, machine learning tools are now commonly employed to virtually screen material candidates with desired properties by learning a theoretical mapping from material-to-property space, referred to as the \emph{forward} problem. However, this approach is inefficient, and severely constrained by the candidates that human imagination can conceive. Thus, in this work on polymers, we tackle the materials discovery challenge by solving the \emph{inverse} problem: directly generating candidates that satisfy desired property/performance objectives. We utilize syntax-directed variational autoencoders (VAE) in tandem with Gaussian process regression (GPR) models to discover polymers expected to be robust under three extreme conditions: (1) high temperatures, (2) high electric field, and (3) high temperature \emph{and} high electric field, useful for critical structural, electrical and energy storage applications. This approach to learn from (and augment) human ingenuity is general, and can be extended to discover polymers with other targeted properties and performance measures.
翻訳日:2022-09-29 23:06:46 公開日:2020-11-04
# VoxCeleb Speaker Recognition Challenge 2020におけるクエリ拡張システム

Query Expansion System for the VoxCeleb Speaker Recognition Challenge 2020 ( http://arxiv.org/abs/2011.02882v1 )

ライセンス: Link先を確認
Yu-Sen Cheng, Chun-Liang Shih, Tien-Hong Lo, Wen-Ting Tseng, Berlin Chen(参考訳) 本稿では,VoxCeleb Speaker Recognition Challenge (VoxSRC) 2020への応募について述べる。 2つのアプローチが採用されている。 1つは話者照合にクエリ拡張を適用することであり、これは研究のベースラインと比較して大きな進歩を示している。 もう一つの方法は、カルディ抽出x-ベクトルを使い、その確率的線形判別分析(plda)スコアとresnetスコアを組み合わせることである。

In this report, we describe our submission to the VoxCeleb Speaker Recognition Challenge (VoxSRC) 2020. Two approaches are adopted. One is to apply query expansion on speaker verification, which shows significant progress compared to baseline in the study. Another is to use Kaldi extract x-vector and to combine its Probabilistic Linear Discriminant Analysis (PLDA) score with ResNet score.
翻訳日:2022-09-29 23:01:38 公開日:2020-11-04
# CoT-AMFlow:教師なし光フロー推定のための協調学習戦略を用いた適応変調ネットワーク

CoT-AMFlow: Adaptive Modulation Network with Co-Teaching Strategy for Unsupervised Optical Flow Estimation ( http://arxiv.org/abs/2011.02156v1 )

ライセンス: Link先を確認
Hengli Wang, Rui Fan, Ming Liu(参考訳) エゴ運動とシーン変化の解釈は、移動ロボットにとって基本的な課題である。 光の流れ情報を用いて周囲の動きを推定することができる。 近年,教師なし光流量推定が研究ホットスポットとなっている。 しかし、教師なしのアプローチは、部分的に排除されたり、テクスチャのない地域では信頼できないことが多い。 本稿では,この問題を解決するために,教師なし光フロー推定手法であるCoT-AMFlowを提案する。 ネットワークアーキテクチャの観点からは,フロー変調モジュール (FMM) とコストボリューム変調モジュール (CMM) の2つの新しいモジュールタイプを用いた適応変調ネットワークを開発し,課題のある領域のアウトレイラを除去する。 トレーニングパラダイムについては,2つのネットワークが同時に,課題領域について相互に教え合い,精度をさらに向上する学習戦略を採用する。 MPIシンテル、KITTI Flow、ミドルベリーフローのベンチマーク実験の結果、CoT-AMFlowは他の最先端の教師なしアプローチよりも性能が良く、しかもリアルタイムに動作していることがわかった。 私たちのプロジェクトページはhttps://sites.google.com/view/cot-amflowで閲覧できます。

The interpretation of ego motion and scene change is a fundamental task for mobile robots. Optical flow information can be employed to estimate motion in the surroundings. Recently, unsupervised optical flow estimation has become a research hotspot. However, unsupervised approaches are often easy to be unreliable on partially occluded or texture-less regions. To deal with this problem, we propose CoT-AMFlow in this paper, an unsupervised optical flow estimation approach. In terms of the network architecture, we develop an adaptive modulation network that employs two novel module types, flow modulation modules (FMMs) and cost volume modulation modules (CMMs), to remove outliers in challenging regions. As for the training paradigm, we adopt a co-teaching strategy, where two networks simultaneously teach each other about challenging regions to further improve accuracy. Experimental results on the MPI Sintel, KITTI Flow and Middlebury Flow benchmarks demonstrate that our CoT-AMFlow outperforms all other state-of-the-art unsupervised approaches, while still running in real time. Our project page is available at https://sites.google.com/view/cot-amflow.
翻訳日:2022-09-29 23:01:32 公開日:2020-11-04
# アフィン不変三角測量

Affine invariant triangulations ( http://arxiv.org/abs/2011.02197v1 )

ライセンス: Link先を確認
Prosenjit Bose, Pilar Cano, Rodrigo I. Silveira(参考訳) 本研究ではアフィン不変2次元三角法について検討する。 つまり、任意の(未知の)アフィン変換に対して$S$の点に対して同じ三角関数を生成するメソッドは、$S$である。 我々の研究は、Nielson [Geom. Mod, 191-210. Springer, 1993] のアフィン不変なノルムを定義するために$S$の共分散行列の逆を使って、$A_{S}$、${DT}_{A_{S}}[S]$と表されるアフィン不変な三角形を定義する方法に基づいている。 幾何学的観点から、$A_{S}$-ノルムを再検討し、${DT}_{A_{S}}[S]$が、$S$に基づいた変換された点集合の標準的なデラウネー三角化として見ることができることを示す。 1-tough であること、完全マッチングを含むこと、完全幾何グラフの定数スパンナーであることなど、そのよく知られた性質をすべて保持していることが証明される。 A_{S}$-norm は、最小スパンニング木、近接グラフ、ガブリエルグラフ、相対近傍グラフ、およびこれらのグラフの高次バージョンといった、関連する幾何学構造の階層に拡張されることを示す。 さらに、点集合 $s$ とポリゴン $p$ の頂点の異なるアフィン不変なソート法を提供し、既知のアルゴリズムと組み合わせることで、他のアフィン不変三角測量法 $s$ と $p$ を得ることができる。

We study affine invariant 2D triangulation methods. That is, methods that produce the same triangulation for a point set $S$ for any (unknown) affine transformation of $S$. Our work is based on a method by Nielson [A characterization of an affine invariant triangulation. Geom. Mod, 191-210. Springer, 1993] that uses the inverse of the covariance matrix of $S$ to define an affine invariant norm, denoted $A_{S}$, and an affine invariant triangulation, denoted ${DT}_{A_{S}}[S]$. We revisit the $A_{S}$-norm from a geometric perspective, and show that ${DT}_{A_{S}}[S]$ can be seen as a standard Delaunay triangulation of a transformed point set based on $S$. We prove that it retains all of its well-known properties such as being 1-tough, containing a perfect matching, and being a constant spanner of the complete geometric graph of $S$. We show that the $A_{S}$-norm extends to a hierarchy of related geometric structures such as the minimum spanning tree, nearest neighbor graph, Gabriel graph, relative neighborhood graph, and higher order versions of these graphs. In addition, we provide different affine invariant sorting methods of a point set $S$ and of the vertices of a polygon $P$ that can be combined with known algorithms to obtain other affine invariant triangulation methods of $S$ and of $P$.
翻訳日:2022-09-29 23:00:46 公開日:2020-11-04
# bggan:bokeh-glass生成広告ネットワークによるリアルなbokehのレンダリング

BGGAN: Bokeh-Glass Generative Adversarial Network for Rendering Realistic Bokeh ( http://arxiv.org/abs/2011.02242v1 )

ライセンス: Link先を確認
Ming Qian, Congyu Qiao, Jiamin Lin, Zhenyu Guo, Chenghua Li, Cong Leng, Jian Cheng(参考訳) ボケ効果で撮影される写真は、焦点領域がぼやけている間、焦点のある物体が鋭いことを意味することが多い。 DSLRはこのような効果を自然にレンダリングすることができる。 しかし、センサーの限界により、スマートフォンは深度効果の画像を直接キャプチャすることはできない。 本稿では,複雑なハードウェアに依存しないボケ画像を生成するGlass-Netという新しいジェネレータを提案する。 一方、モデルを微調整する段階で現実的なボケ効果をレンダリングするために、GANに基づく手法と知覚的損失を組み合わせる。 さらに、私たちのネットワークではインスタンス正規化(IN)が再実装されており、スマートフォンGPU上でのINによるtfliteモデルの高速化が保証されています。 実験の結果,我々の方法は高品質なボケ効果を示し,全スマートフォンチップセットで1.9秒で1,1024時間1536$ピクセル画像を処理することができた。 このアプローチはAIM 2020 Rendering Realistic Bokeh Challenge Track 1 \& Track 2にランクインした。

A photo captured with bokeh effect often means objects in focus are sharp while the out-of-focus areas are all blurred. DSLR can easily render this kind of effect naturally. However, due to the limitation of sensors, smartphones cannot capture images with depth-of-field effects directly. In this paper, we propose a novel generator called Glass-Net, which generates bokeh images not relying on complex hardware. Meanwhile, the GAN-based method and perceptual loss are combined for rendering a realistic bokeh effect in the stage of finetuning the model. Moreover, Instance Normalization(IN) is reimplemented in our network, which ensures our tflite model with IN can be accelerated on smartphone GPU. Experiments show that our method is able to render a high-quality bokeh effect and process one $1024 \times 1536$ pixel image in 1.9 seconds on all smartphone chipsets. This approach ranked First in AIM 2020 Rendering Realistic Bokeh Challenge Track 1 \& Track 2.
翻訳日:2022-09-29 23:00:18 公開日:2020-11-04
# 低分解能qctから組織ミネラル密度と骨量率を計算するためのノイズ低減法

Noise Reduction to Compute Tissue Mineral Density and Trabecular Bone Volume Fraction from Low Resolution QCT ( http://arxiv.org/abs/2011.02382v1 )

ライセンス: Link先を確認
Felix Thomsen and Jos\'e M. Fuertes Garc\'ia and Manuel Lucena and Juan Pisula and Rodrigo de Luis Garc\'ia and Jan Broggrefe and Claudio Delrieux(参考訳) 組織ミネラル密度(tmd)や骨容積比(bv/tv)などの微構造パラメータを、noや標準ノイズ低減フィルタを用いた場合よりも高い精度で計算するために、定量的ct(qct)ノイズ低減のための特定の損失関数を有する3次元ニューラルネットワークを提案する。 椎体ファントム研究は、高分解能の末梢および臨床CTスキャンと、生体内CTノイズと3種類の管電流(100, 250, 360 mA)の9回の繰り返しを含む。 20466個の純発振性パッチと接地トラスパッチで5倍のクロス検証を行った。 トレーニングとテストエラーの比較により,オーバーフィッティングに対する高いロバスト性が示された。 BMDとボクセルの密度の評価には効果を示しなかったが、フィルタは未フィルタリングデータに対するTMDとBV/TVの計算を徹底的に改善した。 低分解能TMDとBV/TVのルート平均二乗誤差は初期値の17%以下に低下した。 さらに、フィルタリングされた低分解能スキャンでは、高分解能CTスキャンよりもTMDおよびBV/TV関連情報が多く、非濾過または2つの最先端標準復調法でフィルタリングされた。 提案したアーキテクチャはしきい値と回転不変量であり、幅広い画像解像度に適用可能であり、さらなる微細構造パラメータの正確な計算に役立つ可能性が高い。 さらに、構造パラメータを直接計算するニューラルネットワークよりも、過度に適合する傾向が低い。 結論として,100mAs,120kVpなどの標準低露光CTプロトコルから3次元微細構造情報を評価できるため,骨粗しょう症などの骨疾患の診断に有用である可能性が示唆された。

We propose a 3D neural network with specific loss functions for quantitative computed tomography (QCT) noise reduction to compute micro-structural parameters such as tissue mineral density (TMD) and bone volume ratio (BV/TV) with significantly higher accuracy than using no or standard noise reduction filters. The vertebra-phantom study contained high resolution peripheral and clinical CT scans with simulated in vivo CT noise and nine repetitions of three different tube currents (100, 250 and 360 mAs). Five-fold cross validation was performed on 20466 purely spongy pairs of noisy and ground-truth patches. Comparison of training and test errors revealed high robustness against over-fitting. While not showing effects for the assessment of BMD and voxel-wise densities, the filter improved thoroughly the computation of TMD and BV/TV with respect to the unfiltered data. Root-mean-square and accuracy errors of low resolution TMD and BV/TV decreased to less than 17% of the initial values. Furthermore filtered low resolution scans revealed still more TMD- and BV/TV-relevant information than high resolution CT scans, either unfiltered or filtered with two state-of-the-art standard denoising methods. The proposed architecture is threshold and rotational invariant, applicable on a wide range of image resolutions at once, and likely serves for an accurate computation of further micro-structural parameters. Furthermore, it is less prone for over-fitting than neural networks that compute structural parameters directly. In conclusion, the method is potentially important for the diagnosis of osteoporosis and other bone diseases since it allows to assess relevant 3D micro-structural information from standard low exposure CT protocols such as 100 mAs and 120 kVp.
翻訳日:2022-09-29 22:59:33 公開日:2020-11-04
# オンラインレコメンデーションのための生成的逆深層強化学習

Generative Inverse Deep Reinforcement Learning for Online Recommendation ( http://arxiv.org/abs/2011.02248v1 )

ライセンス: Link先を確認
Xiaocong Chen and Lina Yao and Aixin Sun and Xianzhi Wang and Xiwei Xu and Liming Zhu(参考訳) 深層強化学習により,エージェントは環境とのインタラクションを通じてユーザの関心を動的に捉えることができる。 推薦研究に多大な関心を寄せている。 深い強化学習は、ユーザの興味を学習し、学習プロセスを制御するために報酬関数を使用する。 しかし、ほとんどの報酬関数は手動で設計されており、それらはレコメンデーション問題の高多様性、次元性、非線形性を反映する非現実的あるいは不正確である。 これにより、エージェントは最も満足のいくレコメンデーションを生成するのに最適なポリシーを学ぶことが困難になる。 上記の課題に対処するため,オンラインレコメンデーションのために,ユーザの行動から報酬関数を自動的に抽出する新しい逆強化学習手法InvRecを提案する。 オンラインプラットフォームvirtualtb上で実験を行い,提案手法の有効性と有効性を示すため,最先端手法との比較を行った。

Deep reinforcement learning enables an agent to capture user's interest through interactions with the environment dynamically. It has attracted great interest in the recommendation research. Deep reinforcement learning uses a reward function to learn user's interest and to control the learning process. However, most reward functions are manually designed; they are either unrealistic or imprecise to reflect the high variety, dimensionality, and non-linearity properties of the recommendation problem. That makes it difficult for the agent to learn an optimal policy to generate the most satisfactory recommendations. To address the above issue, we propose a novel generative inverse reinforcement learning approach, namely InvRec, which extracts the reward function from user's behaviors automatically, for online recommendation. We conduct experiments on an online platform, VirtualTB, and compare with several state-of-the-art methods to demonstrate the feasibility and effectiveness of our proposed approach.
翻訳日:2022-09-29 22:51:18 公開日:2020-11-04
# 抽象論における必要十分説明

Necessary and Sufficient Explanations in Abstract Argumentation ( http://arxiv.org/abs/2011.02414v1 )

ライセンス: Link先を確認
AnneMarie Borg and Floris Bex(参考訳) 本稿では,様々な拡張的意味論の下で,ある議論が受け入れられるか否か(あるいは受け入れられないのか)という,形式的議論に必要な説明と十分な説明について論じる。 議論に基づく結論を導出できるフレームワークが与えられたら、我々は必要性と十分性について研究する: 議論の(非)受容に何が必要か、あるいは十分か?

In this paper, we discuss necessary and sufficient explanations for formal argumentation - the question whether and why a certain argument can be accepted (or not) under various extension-based semantics. Given a framework with which explanations for argumentation-based conclusions can be derived, we study necessity and sufficiency: what (sets of) arguments are necessary or sufficient for the (non-)acceptance of an argument?
翻訳日:2022-09-29 22:51:03 公開日:2020-11-04
# 銀行パフォーマンスのモデリング:新しいファジィ2段階DEAアプローチ

Modeling bank performance: A novel fuzzy two-stage DEA approach ( http://arxiv.org/abs/2011.02442v1 )

ライセンス: Link先を確認
Mohammad Izadikhah(参考訳) 銀行のパフォーマンス評価は、各国の経済発展において重要な役割を担っているため、常に関心を集めてきた。 データ包絡分析(DEA)は,銀行部門のパフォーマンス測定に広く用いられている。 従来のDEA手法では、意思決定単位(DMU)は、各DMUの内部相互作用を考慮せずに入力の集合を出力の集合に変換するブラックボックスと見なされる。 2段階のDEAモデルは、この欠点を克服するために設計されている。 そこで本稿では,拡張Russellモデルに基づく新しい2段階DEAモデルを提案する。 一方、製造システム、製造プロセス、サービスシステムなど、多くの状況において、入力、中間、出力をファジィ変数として与えることができる。 本研究の目的は,ハメダ県のメッリ銀行15支店の効率を測定するため,新しいファジィ2段階deaモデルを構築し,提示することである。

Evaluating the banks' performance has always been of interest due to their crucial role in the economic development of each country. Data envelopment analysis (DEA) has been widely used for measuring the performance of bank branches. In the conventional DEA approach, decision making units (DMUs) are regarded as black boxes that transform sets of inputs into sets of outputs without considering the internal interactions taking place within each DMU. Two-stage DEA models are designed to overcome this shortfall. Thus, this paper presented a new two-stage DEA model based on a modification on Enhanced Russell Model. On the other hand, in many situations, such as in a manufacturing system, a production process or a service system, inputs, intermediates and outputs can be given as a fuzzy variable. The main aim of this paper is to build and present a new fuzzy two-stage DEA model for measuring the efficiency of 15 branches of Melli bank in Hamedan province.
翻訳日:2022-09-29 22:50:55 公開日:2020-11-04
# 選好の変化を伴う社会的選択--表現定理と長期政策

Social Choice with Changing Preferences: Representation Theorems and Long-Run Policies ( http://arxiv.org/abs/2011.02544v1 )

ライセンス: Link先を確認
Kshitij Kulkarni, Sven Neth(参考訳) マルコフ決定プロセスとして、好みを変えるグループ意思決定について検討する。 私たちは、時間とともにグループを選択できる自動意思決定システムの増加にモチベーションを受けています。 我々の主要な貢献は、社会的選択理論からの古典的な表現定理が、この動的設定において最適なポリシーを特徴づけるためにどのように適応できるかを示すことである。 本稿では,社会選択論の功利主義社会福祉機能に適合するMDP報酬関数の公理的特性について述べる。 また,社会的選択論的公理の実施が長期的最適結果に繋がらない場合についても議論する。

We study group decision making with changing preferences as a Markov Decision Process. We are motivated by the increasing prevalence of automated decision-making systems when making choices for groups of people over time. Our main contribution is to show how classic representation theorems from social choice theory can be adapted to characterize optimal policies in this dynamic setting. We provide an axiomatic characterization of MDP reward functions that agree with the Utilitarianism social welfare functionals of social choice theory. We also provide discussion of cases when the implementation of social choice-theoretic axioms may fail to lead to long-run optimal outcomes.
翻訳日:2022-09-29 22:50:39 公開日:2020-11-04
# アダプティブ・コンビネーション・アロケーション

Adaptive Combinatorial Allocation ( http://arxiv.org/abs/2011.02330v1 )

ライセンス: Link先を確認
Maximilian Kasy and Alexander Teytelboym(参考訳) 我々は、アロケーションが繰り返し選択され、リターンが未知であるが学習でき、決定が制約の対象となるような設定を検討する。 我々のモデルは、複雑な制約があっても、2面と1面のマッチングをカバーしている。 我々はトンプソンサンプリングに基づくアプローチを提案する。 我々の主な結果は、このアルゴリズムの期待された後悔に縛られる事前独立有限サンプルである。 割り当ての数は参加者数で指数関数的に増加するが、境界はこの数に依存しない。 米国における難民再定住データを用いて,本アルゴリズムの性能について述べる。

We consider settings where an allocation has to be chosen repeatedly, returns are unknown but can be learned, and decisions are subject to constraints. Our model covers two-sided and one-sided matching, even with complex constraints. We propose an approach based on Thompson sampling. Our main result is a prior-independent finite-sample bound on the expected regret for this algorithm. Although the number of allocations grows exponentially in the number of participants, the bound does not depend on this number. We illustrate the performance of our algorithm using data on refugee resettlement in the United States.
翻訳日:2022-09-29 22:50:27 公開日:2020-11-04
# シングルループおよびデュアルループマルチモーダルチェーンフレームワークによるasrおよびttsの画像拡張

Augmenting Images for ASR and TTS through Single-loop and Dual-loop Multimodal Chain Framework ( http://arxiv.org/abs/2011.02099v1 )

ライセンス: Link先を確認
Johanes Effendi, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura(参考訳) 従来,自動音声認識(ASR)とテキスト音声合成(TTS)を併用して,半教師付き学習において相互に支援し,大量のペア音声とテキストデータの必要性を回避するマシン音声認識チェーンが提案されてきた。 しかし、このフレームワークには大量の非ペア(音声またはテキスト)データが必要である。 プロトタイプのマルチモーダルマシンチェーンは、より多くの未ペアデータの必要性を低減し、音声やテキストデータが得られなくても、ASRやTSが改善される可能性がある。 残念ながら、このフレームワークは画像検索(IR)モデルに依存しており、トレーニング中にすでに知られていた画像のみを扱うことに限られていた。 さらに,この枠組みの性能は単一話者人工音声データでのみ検討された。 本研究では、画像生成(IG)によるマルチモーダルマシンチェーンフレームワークを改良し、マルチスピーカ自然言語データに基づく単一ループおよびデュアルループアーキテクチャを用いて、ASRおよびTSの画像データの拡張の可能性を検討する。 実験の結果、シングルループとデュアルループのマルチモーダルチェーンフレームワークの両方が、画像のみのデータセットを使用して、ASRとTSの性能改善を可能にした。

Previous research has proposed a machine speech chain to enable automatic speech recognition (ASR) and text-to-speech synthesis (TTS) to assist each other in semi-supervised learning and to avoid the need for a large amount of paired speech and text data. However, that framework still requires a large amount of unpaired (speech or text) data. A prototype multimodal machine chain was then explored to further reduce the need for a large amount of unpaired data, which could improve ASR or TTS even when no more speech or text data were available. Unfortunately, this framework relied on the image retrieval (IR) model, and thus it was limited to handling only those images that were already known during training. Furthermore, the performance of this framework was only investigated with single-speaker artificial speech data. In this study, we revamp the multimodal machine chain framework with image generation (IG) and investigate the possibility of augmenting image data for ASR and TTS using single-loop and dual-loop architectures on multispeaker natural speech data. Experimental results revealed that both single-loop and dual-loop multimodal chain frameworks enabled ASR and TTS to improve their performance using an image-only dataset.
翻訳日:2022-09-29 22:50:19 公開日:2020-11-04
# インクリメンタル・マシン・スピーチ・チェーンによるリアルタイム音声聴取の実現

Incremental Machine Speech Chain Towards Enabling Listening while Speaking in Real-time ( http://arxiv.org/abs/2011.02126v1 )

ライセンス: Link先を確認
Sashi Novitasari, Andros Tjandra, Tomoya Yanagita, Sakriani Sakti, Satoshi Nakamura(参考訳) 自動音声認識(asr)と音声合成tts(text-to-speech synthesis tts)の半教師あり開発のために,人間の発話連鎖機構に触発されて,ディープラーニングに基づく機械音声連鎖フレームワークが最近提案されている。 しかし、話しながら聴くメカニズムは、入力シーケンス全体を受信した後にのみ行うことができる。 したがって、長い発話に遭遇するとかなりの遅延が生じる。 対照的に、人間はリアルタイムで話すことを聴くことができ、もし聴覚が遅れたとしても、話し続けることはできない。 本研究では,機械がリアルタイムに話しながら聴くことを可能にするために,インクリメンタル・マシン・スピーチ・チェーンを提案する。 具体的には,短期ループによる両システムの改善により,インクリメンタルasr (isr) とインクリメンタルtts (itts) を構築した。 実験結果から,提案手法は,非インクリメンタルな基本音声連鎖に匹敵する性能を維持しつつ,長時間発話による遅延を低減できることがわかった。

Inspired by a human speech chain mechanism, a machine speech chain framework based on deep learning was recently proposed for the semi-supervised development of automatic speech recognition (ASR) and text-to-speech synthesis TTS) systems. However, the mechanism to listen while speaking can be done only after receiving entire input sequences. Thus, there is a significant delay when encountering long utterances. By contrast, humans can listen to what hey speak in real-time, and if there is a delay in hearing, they won't be able to continue speaking. In this work, we propose an incremental machine speech chain towards enabling machine to listen while speaking in real-time. Specifically, we construct incremental ASR (ISR) and incremental TTS (ITTS) by letting both systems improve together through a short-term loop. Our experimental results reveal that our proposed framework is able to reduce delays due to long utterances while keeping a comparable performance to the non-incremental basic machine speech chain.
翻訳日:2022-09-29 22:49:58 公開日:2020-11-04
# インクリメンタル音声認識のための注意伝達による逐次学習

Sequence-to-Sequence Learning via Attention Transfer for Incremental Speech Recognition ( http://arxiv.org/abs/2011.02127v1 )

ライセンス: Link先を確認
Sashi Novitasari, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura(参考訳) ASR(Attention-based sequence-to-Sequence Automatic Speech Recognition)は、入力シーケンス全体の受信後に出力が生成されるため、長い発話を認識するのにかなりの遅延を必要とする。 近年、いくつかの研究でインクリメンタル音声認識(ISR)のシーケンス機構が提案されているが、フレームワークや学習アルゴリズムは標準のASRモデルよりも複雑である。 主な理由は、モデルがインクリメンタルなステップを決定し、現在の短い音声セグメントに合わせた書き起こしを学ぶ必要があるためである。 本研究では,教師モデルとして全発話asr,学生モデルとしてisrを扱い,isrタスクに注意に基づくasrの本来のアーキテクチャを活用できるかどうかを検討する。 我々は、より薄いモデルや浅いモデルを使う代わりに、教師モデルのオリジナルのアーキテクチャを短いシーケンス(エンコーダとデコーダの状態)で保持する代替の学生ネットワークを設計する。 学生ネットワークは、注意伝達を用いて、現在の入力された短い音声セグメントと書き起こしの一致を模倣することを学ぶ。 実験の結果,認識プロセスの開始時刻を約1.7秒で遅延させることで,終了まで待たなければならないものと同等の性能が得られることがわかった。

Attention-based sequence-to-sequence automatic speech recognition (ASR) requires a significant delay to recognize long utterances because the output is generated after receiving entire input sequences. Although several studies recently proposed sequence mechanisms for incremental speech recognition (ISR), using different frameworks and learning algorithms is more complicated than the standard ASR model. One main reason is because the model needs to decide the incremental steps and learn the transcription that aligns with the current short speech segment. In this work, we investigate whether it is possible to employ the original architecture of attention-based ASR for ISR tasks by treating a full-utterance ASR as the teacher model and the ISR as the student model. We design an alternative student network that, instead of using a thinner or a shallower model, keeps the original architecture of the teacher model but with shorter sequences (few encoder and decoder states). Using attention transfer, the student network learns to mimic the same alignment between the current input short speech segments and the transcription. Our experiments show that by delaying the starting time of recognition process with about 1.7 sec, we can achieve comparable performance to one that needs to wait until the end.
翻訳日:2022-09-29 22:49:39 公開日:2020-11-04
# Javanese, Sundanese, Balinese, Bataks音声認識と合成のための言語間機械音声チェイン

Cross-Lingual Machine Speech Chain for Javanese, Sundanese, Balinese, and Bataks Speech Recognition and Synthesis ( http://arxiv.org/abs/2011.02128v1 )

ライセンス: Link先を確認
Sashi Novitasari, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura(参考訳) インドネシアでは700以上の民族言語が話されているが、現地のコミュニティや村外の人々とのコミュニケーションを支援することのできる技術は限られている。 その結果、先住民のコミュニティは文化的障壁のために孤立しており、言語は消え続けている。 コミュニケーションを加速するために、音声音声翻訳技術(S2ST)は言語障壁を克服する1つのアプローチである。 しかし、S2STシステムには、教師付き訓練と民族社会からの収集が困難な幅広い言語資源に大きく依存する機械翻訳(MT)、音声認識(ASR)、合成(TTS)が必要である。 近年,asrとttsが半教師付き学習において相互に支援できる機械音声連鎖機構が提案されている。 このフレームワークは最初、単言語言語のみに実装された。 本研究では,ジャワ人,スンダ人,バリネ人,バタク人といったインドネシアの諸民族の音声認識と合成に焦点をあてる。 まず,標準インドネシアのasrとttsを,監督訓練で個別に訓練した。 次に,インドネシア語 ASR と TTS を,テキストデータと音声データのみを用いた言語間機械音声連鎖フレームワークで活用することにより,民族言語の ASR と TTS を開発した。

Even though over seven hundred ethnic languages are spoken in Indonesia, the available technology remains limited that could support communication within indigenous communities as well as with people outside the villages. As a result, indigenous communities still face isolation due to cultural barriers; languages continue to disappear. To accelerate communication, speech-to-speech translation (S2ST) technology is one approach that can overcome language barriers. However, S2ST systems require machine translation (MT), speech recognition (ASR), and synthesis (TTS) that rely heavily on supervised training and a broad set of language resources that can be difficult to collect from ethnic communities. Recently, a machine speech chain mechanism was proposed to enable ASR and TTS to assist each other in semi-supervised learning. The framework was initially implemented only for monolingual languages. In this study, we focus on developing speech recognition and synthesis for these Indonesian ethnic languages: Javanese, Sundanese, Balinese, and Bataks. We first separately train ASR and TTS of standard Indonesian in supervised training. We then develop ASR and TTS of ethnic languages by utilizing Indonesian ASR and TTS in a cross-lingual machine speech chain framework with only text or only speech data removing the need for paired speech-text data of those ethnic languages.
翻訳日:2022-09-29 22:49:17 公開日:2020-11-04
# ニューラルテキスト音声の韻律表現学習と文脈サンプリング

Prosodic Representation Learning and Contextual Sampling for Neural Text-to-Speech ( http://arxiv.org/abs/2011.02252v1 )

ライセンス: Link先を確認
Sri Karlapati, Ammar Abbas, Zack Hodari, Alexis Moinet, Arnaud Joly, Penny Karanasou, Thomas Drugman(参考訳) 本稿では,文脈的に適切な韻律を持つニューラル音声合成のための新しい2段階学習プロセスで訓練されたモデルであるkathakaを提案する。 I期では,訓練中に利用可能なメルスペクトルから文レベルで韻律分布を学習する。 第二段階では,テキストで利用可能な文脈情報を用いて学習韻律分布をサンプル化する新しい手法を提案する。 これを実現するために,テキストにBERT,テキストから抽出した構文木にグラフアテンションネットワークを用いる。 統計的に有意な相対的改善は、記録と比較して強いベースラインよりも自然性が13.2\%高い。 また,サンプリング手法のバリエーションに関するアブレーション調査を行い,各症例の基準値に対して統計的に有意な改善を示した。

In this paper, we introduce Kathaka, a model trained with a novel two-stage training process for neural speech synthesis with contextually appropriate prosody. In Stage I, we learn a prosodic distribution at the sentence level from mel-spectrograms available during training. In Stage II, we propose a novel method to sample from this learnt prosodic distribution using the contextual information available in text. To do this, we use BERT on text, and graph-attention networks on parse trees extracted from text. We show a statistically significant relative improvement of $13.2\%$ in naturalness over a strong baseline when compared to recordings. We also conduct an ablation study on variations of our sampling technique, and show a statistically significant improvement over the baseline in each case.
翻訳日:2022-09-29 22:48:56 公開日:2020-11-04
# テクスチャの多様性を維持しつつビデオクリップから無限ループをシームレスに生成する改良アルゴリズム

Improved Algorithm for Seamlessly Creating Infinite Loops from a Video Clip, while Preserving Variety in Textures ( http://arxiv.org/abs/2011.02579v1 )

ライセンス: Link先を確認
Kunjal Panchal(参考訳) このプロジェクトはSzeliski氏の論文“Video Textures”を実装している。 その目的は「動画」や「gif」と呼ばれるものを作ることであり、これは「写真とビデオの中間にある場所」である。 旗を振ったり、雨を振ったり、ろうそくの炎を鳴らしたりするなど、繰り返し動く(テクスチャ)ビデオを入力するのが目的だ。 出力は、オリジナルのビデオをシームレスに無限に拡張する新しいビデオだ。 実際には出力は無限ではなく、代わりにビデオプレーヤーを使ってループされ、決して繰り返されないほどの長さです。 本実装の目的は,2乗距離の粗和から最も洗練されたウェーブレット距離に切り替えることによる距離測定の改善であり,提案する基本アルゴリズムに強度正規化,クロスフェイディング,モーフィングを加えることである。 また,多様性と滑らかさのトレードオフについても実験を行った。

This project implements the paper "Video Textures" by Szeliski. The aim is to create a "Moving Picture" or as we popularly call it, a GIF; which is "somewhere between a photograph and a video". The idea is to input a video which has some repeated motion (the texture), such as a flag waving, rain, or a candle flame. The output is a new video that infinitely extends the original video in a seamless way. In practice, the output isn't really infinte, but is instead looped using a video player and is sufficiently long as to appear to never repeat. Our goal from this implementation was to: improve distance metric by switching from a crude sum of squared distance to most sophisticated wavelet-based distance; add intensity normalization, cross-fading and morphing to the suggested basic algorithm. We also experiment on the trade-off between variety and smoothness.
翻訳日:2022-09-29 22:42:23 公開日:2020-11-04
# エンドツーエンドコードスイッチング音声認識のためのデータ拡張

Data Augmentation for End-to-end Code-switching Speech Recognition ( http://arxiv.org/abs/2011.02160v1 )

ライセンス: Link先を確認
Chenpeng Du, Hao Li, Yizhou Lu, Lan Wang, Yanmin Qian(参考訳) コードスイッチングエンドツーエンド自動音声認識(ASR)モデルのトレーニングは通常、大量のデータを必要とするが、コードスイッチングデータは制限されることが多い。 本稿では,コードスイッチングデータ拡張のための3つの新しいアプローチを提案する。 具体的には、既存のコードスイッチングデータによる音声スプライシングと、単語翻訳や単語挿入によって生成された新しいコードスイッチングテキストによるTSである。 200時間におよぶmandarin- english code-switching datasetの実験では,提案する3つのアプローチはすべて,asrを個別に大幅に改善することが示された。 さらに,提案手法はすべて,最近普及した投機と組み合わせることができ,付加利得が得られる。 WERはデータ拡張のないシステムに比べて24.0%減少し、SpecAugmentのみのシステムに比べてまだ13.0%上昇している。

Training a code-switching end-to-end automatic speech recognition (ASR) model normally requires a large amount of data, while code-switching data is often limited. In this paper, three novel approaches are proposed for code-switching data augmentation. Specifically, they are audio splicing with the existing code-switching data, and TTS with new code-switching texts generated by word translation or word insertion. Our experiments on 200 hours Mandarin-English code-switching dataset show that all the three proposed approaches yield significant improvements on code-switching ASR individually. Moreover, all the proposed approaches can be combined with recent popular SpecAugment, and an addition gain can be obtained. WER is significantly reduced by relative 24.0% compared to the system without any data augmentation, and still relative 13.0% gain compared to the system with only SpecAugment
翻訳日:2022-09-29 22:41:48 公開日:2020-11-04
# クリケットマッチング出力予測のための長期記憶モデルの解析

Analysing Long Short Term Memory Models for Cricket Match Outcome Prediction ( http://arxiv.org/abs/2011.02122v1 )

ライセンス: Link先を確認
Rahul Chakwate, Madhan R A(参考訳) 技術が進歩するにつれて、高度なセンサーの助けを借りて大量のデータがスポーツで収集される。 Sports Analyticsは、チームとそのプレーヤーに建設的なアドバンテージを提供するために、このデータの研究である。 国際クリケットの試合は世界中で人気があります。 近年,様々な機械学習技術を用いてクリケットマッチングデータを解析し,試合結果の勝敗を予測している。 一般的にこれらのモデルは、試合開始前に試合結果を予測するために、チーム、会場、平均ランレート、勝利マージンなどの総合的な試合レベルの統計を利用する。 しかし、ボール・バイ・ボールレベルの統計に基づく洞察を提供する作品はほとんどない。 本稿では,ボール・バイ・ボールの統計値から,試合の勝利確率を一定間隔で予測できる新しい再帰ニューラルネットワークモデルを提案する。 LSTM(Long Short Term Memory)モデルは、トレーニングデータセットから利用可能なマッチレベルの詳細だけでなく、ボールワイズ機能として入力される。 試合中いつでもタイムスタンプで試合に勝つという予測を与える。 このレベルの洞察は、チームが各ボールの後に試合に勝つ確率を予測し、ゲーム戦略において重要な変更を行うかどうかを判断するのに役立つ。

As the technology advances, an ample amount of data is collected in sports with the help of advanced sensors. Sports Analytics is the study of this data to provide a constructive advantage to the team and its players. The game of international cricket is popular all across the globe. Recently, various machine learning techniques have been used to analyse the cricket match data and predict the match outcome as win or lose. Generally these models make use of the overall match level statistics such as teams, venue, average run rate, win margin, etc to predict the match results before the beginning of the match. However, very few works provide insights based on the ball-by-ball level statistics. Here we propose a novel Recurrent Neural Network model which can predict the win probability of a match at regular intervals given the ball-by-ball statistics. The Long Short Term Memory (LSTM) Model takes as input the ball wise features as well as the match level details available from the training dataset. It gives a prediction of winning the match at any time stamp during the match. This level of insight will help the team to predict the probability of them winning the match after every ball and help them determine the critical in-game changes they should make in their game strategies.
翻訳日:2022-09-29 22:41:06 公開日:2020-11-04
# 特徴量に基づく新しい異常検出によるニューラルネットワークのバックドア検出

Detecting Backdoors in Neural Networks Using Novel Feature-Based Anomaly Detection ( http://arxiv.org/abs/2011.02526v1 )

ライセンス: Link先を確認
Hao Fu, Akshaj Kumar Veldanda, Prashanth Krishnamurthy, Siddharth Garg, and Farshad Khorrami(参考訳) 本稿では,攻撃者-チョセントリガーの存在下で誤った予測を行うように悪意をもって訓練されたニューラルネットワークバックドア攻撃に対する新たな防御手法を提案する。 我々の防御は、バックドアネットワークの特徴抽出層が新しい特徴を組み込んでトリガーの存在を検知し、その後の分類層がトリガーが検出された際の誤予測を学習するという直感に基づいている。 そこで, バックドアを検知するために, クリーンな検証データに基づいて訓練された2つの相乗的異常検出器を用いた。第1は異常な特徴をチェックするノベルティ検出器であり, 第2は特徴から出力への異常マッピングを, 検証データに基づいて訓練された別分類器との比較により検出する。 このアプローチは、最先端の防御をうまく回避できる幅広いバックドアネットワーク(トリガーのバリエーションが複数ある)で評価される。 さらに,本手法の頑健性,大規模データセットのスケーラビリティ,ドメインシフト時の有効性を評価する。 また,データ拡張により防御性をさらに向上できることを示す。

This paper proposes a new defense against neural network backdooring attacks that are maliciously trained to mispredict in the presence of attacker-chosen triggers. Our defense is based on the intuition that the feature extraction layers of a backdoored network embed new features to detect the presence of a trigger and the subsequent classification layers learn to mispredict when triggers are detected. Therefore, to detect backdoors, the proposed defense uses two synergistic anomaly detectors trained on clean validation data: the first is a novelty detector that checks for anomalous features, while the second detects anomalous mappings from features to outputs by comparing with a separate classifier trained on validation data. The approach is evaluated on a wide range of backdoored networks (with multiple variations of triggers) that successfully evade state-of-the-art defenses. Additionally, we evaluate the robustness of our approach on imperceptible perturbations, scalability on large-scale datasets, and effectiveness under domain shift. This paper also shows that the defense can be further improved using data augmentation.
翻訳日:2022-09-29 22:40:47 公開日:2020-11-04
# 対人学習--オープン・セット・ドメイン・アダプテーションにおける自然の区別と未知

Against Adversarial Learning: Naturally Distinguish Known and Unknown in Open Set Domain Adaptation ( http://arxiv.org/abs/2011.02876v1 )

ライセンス: Link先を確認
Sitong Mao, Xiao Shen, Fu-lai Chung(参考訳) オープンセットドメイン適応は、ターゲットドメインがソースドメインに存在しないカテゴリを含むというシナリオを指す。 これは、ソースドメインとターゲットドメインが同じカテゴリを含む典型的なクローズドセットドメイン適応と比較して、現実においてより一般的な状況である。 オープンセットドメイン適応の主な困難は、機械学習モデルが知っていることの概念しか持たない場合に、未知のクラスに属する対象データを区別する必要があることである。 本稿では,未知の対象データと未知のデータを,追加のハイパーパラメータを設定することなく自然に識別し,未知のクラスに予測された対象データを同時に分類できる「against adversarial learning」手法を提案する。 実験の結果,提案手法は最先端手法に比べて性能が著しく向上することがわかった。

Open set domain adaptation refers to the scenario that the target domain contains categories that do not exist in the source domain. It is a more common situation in the reality compared with the typical closed set domain adaptation where the source domain and the target domain contain the same categories. The main difficulty of open set domain adaptation is that we need to distinguish which target data belongs to the unknown classes when machine learning models only have concepts about what they know. In this paper, we propose an "against adversarial learning" method that can distinguish unknown target data and known data naturally without setting any additional hyper parameters and the target data predicted to the known classes can be classified at the same time. Experimental results show that the proposed method can make significant improvement in performance compared with several state-of-the-art methods.
翻訳日:2022-09-29 22:40:28 公開日:2020-11-04
# 混合集合領域適応

Mixed Set Domain Adaptation ( http://arxiv.org/abs/2011.02877v1 )

ライセンス: Link先を確認
Sitong Mao, Keli Zhang, Fu-lai Chung(参考訳) 従来型のドメイン適応の設定では、ソースデータセットのカテゴリは同じドメイン(あるいはマルチソースドメイン適応のドメイン)からのもので、実際には必ずしも当てはまりません。 本稿では,<textbf{\textit{Mixed Set Domain Adaptation} (MSDA)を提案する。 msdaの設定では、ソースデータセットのさまざまなカテゴリが、すべて同じドメインから収集されるわけではない。 例えば、カテゴリ $1\sim k$ はドメイン $\alpha$ から、カテゴリ $k+1\sim c$ はドメイン $\beta$ から収集される。 このような状況下では、ソースデータ内の分布差により、ドメイン適応性能がさらに影響を受けます。 異なるカテゴリ間の分布差を低減できる特徴要素重み付け法(FEW)もMSDAに提案されている。 実験結果と品質分析により,msda問題解決の意義と提案手法の有効性が示された。

In the settings of conventional domain adaptation, categories of the source dataset are from the same domain (or domains for multi-source domain adaptation), which is not always true in reality. In this paper, we propose \textbf{\textit{Mixed Set Domain Adaptation} (MSDA)}. Under the settings of MSDA, different categories of the source dataset are not all collected from the same domain(s). For instance, category $1\sim k$ are collected from domain $\alpha$ while category $k+1\sim c$ are collected from domain $\beta$. Under such situation, domain adaptation performance will be further influenced because of the distribution discrepancy inside the source data. A feature element-wise weighting (FEW) method that can reduce distribution discrepancy between different categories is also proposed for MSDA. Experimental results and quality analysis show the significance of solving MSDA problem and the effectiveness of the proposed method.
翻訳日:2022-09-29 22:40:13 公開日:2020-11-04
# 連続観測空間のためのオンラインPMDPソルバー

An On-Line POMDP Solver for Continuous Observation Spaces ( http://arxiv.org/abs/2011.02076v1 )

ライセンス: Link先を確認
Marcus Hoerger, Hanna Kurniawati(参考訳) 自律ロボットには部分的可観測性の下での計画が不可欠である。 このような計画問題に対処するための原則は、部分的に観測可能なマルコフ決定プロセス(POMDP)である。 POMDPの解法は計算に難航するが、過去20年間に近似したPOMDP解法の開発において大きな進歩を遂げてきた。 しかし、連続観測空間を持つ問題に対するロバスト解の計算は依然として困難である。 ほとんどのオンラインソルバは、観測空間の離散化や、計画中に考慮される観測回数を人為的に制限し、扱いやすい方針を計算する。 本稿では,モンテカルロ・トレー探索法と粒子フィルタリング法を組み合わせて,離散化された観測空間を必要とせず,計画中に考慮される観測回数の制限を回避するためのオンラインPOMDPソルバ,Lazy Belief extract for Continuous POMDPs (LABECOP)を提案する。 連続観測空間を含む3つの異なる問題に対する実験により、LABECOP は最先端の POMDP 解法と類似または類似していることが示された。

Planning under partial obervability is essential for autonomous robots. A principled way to address such planning problems is the Partially Observable Markov Decision Process (POMDP). Although solving POMDPs is computationally intractable, substantial advancements have been achieved in developing approximate POMDP solvers in the past two decades. However, computing robust solutions for problems with continuous observation spaces remains challenging. Most on-line solvers rely on discretising the observation space or artificially limiting the number of observations that are considered during planning to compute tractable policies. In this paper we propose a new on-line POMDP solver, called Lazy Belief Extraction for Continuous POMDPs (LABECOP), that combines methods from Monte-Carlo-Tree-Search and particle filtering to construct a policy reprentation which doesn't require discretised observation spaces and avoids limiting the number of observations considered during planning. Experiments on three different problems involving continuous observation spaces indicate that LABECOP performs similar or better than state-of-the-art POMDP solvers.
翻訳日:2022-09-29 22:40:01 公開日:2020-11-04
# UAV映像の美的品質評価のための深層マルチモーダリティ学習

Deep Multimodality Learning for UAV Video Aesthetic Quality Assessment ( http://arxiv.org/abs/2011.02356v1 )

ライセンス: Link先を確認
Qi Kuang, Xin Jin, Qinping Zhao, Bin Zhou(参考訳) 無人航空機(UAV)や空中ビデオは増え続けているが、空中映像の美学に焦点を当てた研究は、航空写真の美的品質を改善するための貴重な情報を提供する。 本稿では,UAV映像の美的品質評価のための深層多目的学習手法を提案する。 より具体的には、マルチストリームフレームワークは、空間的な外観、ドローンカメラの動き、シーン構造など、複数のモードから美的属性を利用するように設計されている。 この新しいマルチストリームフレームワークには,新たなモーションストリームネットワークが提案されている。 ドローンカメラで撮影した6000個のUAV映像でデータセットを構築した。 我々のモデルは、UAVビデオがプロの写真家やアマチュアによって撮影されたかどうかをシーンタイプ分類と共に判断することができる。 実験の結果,本手法はビデオの分類法や従来のSVMに基づくビデオ美学よりも優れていた。 さらに,提案手法を用いたuavビデオグレーティング,プロセグメンテーション検出,美学に基づくuavパス計画の3つの応用例を示す。

Despite the growing number of unmanned aerial vehicles (UAVs) and aerial videos, there is a paucity of studies focusing on the aesthetics of aerial videos that can provide valuable information for improving the aesthetic quality of aerial photography. In this article, we present a method of deep multimodality learning for UAV video aesthetic quality assessment. More specifically, a multistream framework is designed to exploit aesthetic attributes from multiple modalities, including spatial appearance, drone camera motion, and scene structure. A novel specially designed motion stream network is proposed for this new multistream framework. We construct a dataset with 6,000 UAV video shots captured by drone cameras. Our model can judge whether a UAV video was shot by professional photographers or amateurs together with the scene type classification. The experimental results reveal that our method outperforms the video classification methods and traditional SVM-based methods for video aesthetics. In addition, we present three application examples of UAV video grading, professional segment detection and aesthetic-based UAV path planning using the proposed method.
翻訳日:2022-09-29 22:33:49 公開日:2020-11-04
# SD-Measure:ソーシャルディスタンシング検出器

SD-Measure: A Social Distancing Detector ( http://arxiv.org/abs/2011.02365v1 )

ライセンス: Link先を確認
Savyasachi Gupta, Rudraksh Kapil, Goutham Kanahasabai, Shreyas Srinivas Joshi, and Aniruddha Srinivas Joshi(参考訳) ソーシャルディスタンシング(ソーシャルディスタンシング)の実践は、伝染病の拡散を抑制するために不可欠であり、新型コロナウイルス(COVID-19)パンデミックの間、世界中の医薬品以外の予防策として採用されてきた。 本研究は,ビデオ映像からのソーシャルディスタンシングを検出するための新しいフレームワークであるsd-measureを提案する。 提案フレームワークは、Mask R-CNNディープニューラルネットワークを利用して、ビデオフレーム内の人を検出する。 人同士の交流の間にソーシャルディスタンシングが実践されているかどうかを一貫して識別するため、映像の経過を追跡するために遠心追跡アルゴリズムが使用される。 カメラからの距離と自己間の距離を近似する真のアルゴリズムの助けを借りて,ソーシャルディスタンシングガイドラインが遵守されているかどうかを判断する。 このフレームワークは、CVFD(Custom Video Footage Dataset)とCPID(Custom Personal Images Dataset)でテストした結果、低い誤報率と高い精度で達成され、ソーシャルディスタンシングガイドラインが施行されたかどうかを判断する効果が示された。

The practice of social distancing is imperative to curbing the spread of contagious diseases and has been globally adopted as a non-pharmaceutical prevention measure during the COVID-19 pandemic. This work proposes a novel framework named SD-Measure for detecting social distancing from video footages. The proposed framework leverages the Mask R-CNN deep neural network to detect people in a video frame. To consistently identify whether social distancing is practiced during the interaction between people, a centroid tracking algorithm is utilised to track the subjects over the course of the footage. With the aid of authentic algorithms for approximating the distance of people from the camera and between themselves, we determine whether the social distancing guidelines are being adhered to. The framework attained a high accuracy value in conjunction with a low false alarm rate when tested on Custom Video Footage Dataset (CVFD) and Custom Personal Images Dataset (CPID), where it manifested its effectiveness in determining whether social distancing guidelines were practiced.
翻訳日:2022-09-29 22:33:31 公開日:2020-11-04
# ビデオから顔のマスクを検出するディープラーニングフレームワーク

Deep Learning Framework to Detect Face Masks from Video Footage ( http://arxiv.org/abs/2011.02371v1 )

ライセンス: Link先を確認
Aniruddha Srinivas Joshi, Shreyas Srinivas Joshi, Goutham Kanahasabai, Rudraksh Kapil, and Savyasachi Gupta(参考訳) 新型コロナウイルス(COVID-19)のパンデミック以降、公共空間での顔マスクの使用は社会的義務となり、公衆の安全を確保するために顔マスクの識別が不可欠となっている。 映像中の顔用マスクの検出は、主にマスク自体がマスク領域に顔用ランドマークがないため、顔検出アルゴリズムのオクルージョンとして振る舞うため、難しい課題である。 本研究では,ディープラーニングを用いたビデオ中の顔マスクの検出手法を提案する。 提案フレームワークは,MTCNN顔検出モデルを利用して,映像フレームに存在する顔とそれに対応する顔のランドマークを識別する。 これらの顔画像と手がかりは、mobilenetv2アーキテクチャをマスクされた領域を識別するためのオブジェクト検出器として利用するネオテリック分類器によって処理される。 提案フレームワークは、新型コロナウイルスの安全プロトコルに準拠しつつ、公共空間の人々の動きを捉えたビデオの集合体であるデータセット上でテストされた。 提案手法は,高い精度,リコール,精度を達成し,顔のマスク検出の有効性を示した。

The use of facial masks in public spaces has become a social obligation since the wake of the COVID-19 global pandemic and the identification of facial masks can be imperative to ensure public safety. Detection of facial masks in video footages is a challenging task primarily due to the fact that the masks themselves behave as occlusions to face detection algorithms due to the absence of facial landmarks in the masked regions. In this work, we propose an approach for detecting facial masks in videos using deep learning. The proposed framework capitalizes on the MTCNN face detection model to identify the faces and their corresponding facial landmarks present in the video frame. These facial images and cues are then processed by a neoteric classifier that utilises the MobileNetV2 architecture as an object detector for identifying masked regions. The proposed framework was tested on a dataset which is a collection of videos capturing the movement of people in public spaces while complying with COVID-19 safety protocols. The proposed methodology demonstrated its effectiveness in detecting facial masks by achieving high precision, recall, and accuracy.
翻訳日:2022-09-29 22:33:11 公開日:2020-11-04
# ビデオアクション分類のための相互モダリティ学習

Mutual Modality Learning for Video Action Classification ( http://arxiv.org/abs/2011.02543v1 )

ライセンス: Link先を確認
Stepan Komkov, Maksim Dzabraev, Aleksandr Petiushko(参考訳) 映像行動分類モデルの構築は急速に進んでいる。 しかし、これらのモデルの性能は、異なるモードで訓練された同じモデル(例えば光学フロー)をアンサンブルすることで、容易に改善できる。 残念ながら、推論中にいくつかのモダリティを使用するのは計算コストがかかる。 近年の研究では、マルチモーダリティの利点を単一のRGBモデルに統合する方法が検討されている。 しかし、改善の余地はまだあります。 本稿では,アンサンブルパワーを1つのモデルに組み込む様々な手法について検討する。 適切な初期化と相互モダリティ学習が単一モダリティモデルを強化することを示す。 その結果、Something-v2ベンチマークで最先端の結果が得られた。

The construction of models for video action classification progresses rapidly. However, the performance of those models can still be easily improved by ensembling with the same models trained on different modalities (e.g. Optical flow). Unfortunately, it is computationally expensive to use several modalities during inference. Recent works examine the ways to integrate advantages of multi-modality into a single RGB-model. Yet, there is still a room for improvement. In this paper, we explore the various methods to embed the ensemble power into a single model. We show that proper initialization, as well as mutual modality learning, enhances single-modality models. As a result, we achieve state-of-the-art results in the Something-Something-v2 benchmark.
翻訳日:2022-09-29 22:32:03 公開日:2020-11-04
# ディープシーン解析モデルのための多層特徴集約

Multi-layer Feature Aggregation for Deep Scene Parsing Models ( http://arxiv.org/abs/2011.02572v1 )

ライセンス: Link先を確認
Litao Yu, Yongsheng Gao, Jun Zhou, Jian Zhang, Qiang Wu(参考訳) 画像からのシーン解析は、視覚的コンテンツ理解における根本的な問題である。 この密な予測タスクでは、解析モデルは全てのピクセルをカテゴリラベルに割り当て、隣接する画像パッチのコンテキスト情報を必要とする。 したがって、この学習課題は、オブジェクトやシーンの幾何学的および意味的な特性を同時に記述することである。 本稿では,新しい特徴集約モジュールを設計し,特徴の識別能力を向上させるために,より適切なグローバル表現を生成することにより,深層解析網の多層特徴出力を空間的整合性に効果的に活用することを検討する。 提案モジュールは、空間情報と意味情報を相関付けるために、中間視覚特徴を自動選択することができる。 同時に、多重スキップ接続は強力な監視機構を形成し、深層解析ネットワークを訓練しやすくする。 4つの公開シーン解析データセットに対する大規模な実験により、提案した特徴集約モジュールを備えたディープパーシングネットワークは、非常に有望な結果が得られることを示した。

Scene parsing from images is a fundamental yet challenging problem in visual content understanding. In this dense prediction task, the parsing model assigns every pixel to a categorical label, which requires the contextual information of adjacent image patches. So the challenge for this learning task is to simultaneously describe the geometric and semantic properties of objects or a scene. In this paper, we explore the effective use of multi-layer feature outputs of the deep parsing networks for spatial-semantic consistency by designing a novel feature aggregation module to generate the appropriate global representation prior, to improve the discriminative power of features. The proposed module can auto-select the intermediate visual features to correlate the spatial and semantic information. At the same time, the multiple skip connections form a strong supervision, making the deep parsing network easy to train. Extensive experiments on four public scene parsing datasets prove that the deep parsing network equipped with the proposed feature aggregation module can achieve very promising results.
翻訳日:2022-09-29 22:31:32 公開日:2020-11-04
# 映像における3次元人物ポーズ推定における時間的関節深度の活用

Leveraging Temporal Joint Depths for Improving 3D Human Pose Estimation in Video ( http://arxiv.org/abs/2011.02172v1 )

ライセンス: Link先を確認
Naoki Kato, Hiroto Honda, Yusuke Uchida(参考訳) 映像の各フレームで推定された2次元ポーズから3次元ポーズを予測する手法の有効性を3次元ポーズ推定に実証した。 しかし、人物の外観情報のない2Dポーズは、関節深度に関して非常に曖昧である。 本稿では,映像の各フレームにおける3次元ポーズを推定し,時間的情報を考慮して精錬することを提案する。 提案手法は, 関節奥行きの曖昧さを低減し, 3次元ポーズ推定精度を向上させる。

The effectiveness of the approaches to predict 3D poses from 2D poses estimated in each frame of a video has been demonstrated for 3D human pose estimation. However, 2D poses without appearance information of persons have much ambiguity with respect to the joint depths. In this paper, we propose to estimate a 3D pose in each frame of a video and refine it considering temporal information. The proposed approach reduces the ambiguity of the joint depths and improves the 3D pose estimation accuracy.
翻訳日:2022-09-29 22:24:38 公開日:2020-11-04
# Deep Metric Learningを用いたFew-Shot Font生成

Few-Shot Font Generation with Deep Metric Learning ( http://arxiv.org/abs/2011.02206v1 )

ライセンス: Link先を確認
Haruka Aoki, Koki Tsubota, Hikaru Ikuta, Kiyoharu Aizawa(参考訳) 日本語や中国語など多数の文字を持つ言語のフォントを設計することは、非常に労働集約的で時間を要する作業である。 本研究では,合成グリフが骨格,輪郭,セリフなどのコヒーレントな特徴を有することが期待される数種類のフォントサンプルから,日本語フォントを自動的に生成する問題に対処する。 既存の手法では、スタイル参照グリフの数が非常に限られている場合、微細グリフ画像の生成に失敗することが多い。 そこで我々は,より優れたスタイル機能を抽出するためのシンプルで強力なフレームワークを提案する。 このフレームワークは、スタイルエンコーダにディープメトリック学習を導入する。 提案フレームワークの有効性を実証するために,白黒および形状識別フォントデータセットを用いた実験を行った。

Designing fonts for languages with a large number of characters, such as Japanese and Chinese, is an extremely labor-intensive and time-consuming task. In this study, we addressed the problem of automatically generating Japanese typographic fonts from only a few font samples, where the synthesized glyphs are expected to have coherent characteristics, such as skeletons, contours, and serifs. Existing methods often fail to generate fine glyph images when the number of style reference glyphs is extremely limited. Herein, we proposed a simple but powerful framework for extracting better style features. This framework introduces deep metric learning to style encoders. We performed experiments using black-and-white and shape-distinctive font datasets and demonstrated the effectiveness of the proposed framework.
翻訳日:2022-09-29 22:24:31 公開日:2020-11-04
# 弱改良問題としてのき裂検出-アノテーション集約型き裂検出器の実現に向けて

Crack Detection as a Weakly-Supervised Problem: Towards Achieving Less Annotation-Intensive Crack Detectors ( http://arxiv.org/abs/2011.02208v1 )

ライセンス: Link先を確認
Yuki Inoue and Hiroto Nagayoshi(参考訳) 自動き裂検出は、現在手作業で行われている労働集約的な建物や道路検査を大幅に削減する可能性を持つ重要なタスクである。 この分野での最近の研究は検出精度を大幅に改善した。 しかしながら、メソッドはしばしばコストのかかるアノテーションプロセスに依存します。 さらに、さまざまなターゲットドメインを扱うには、通常、新しい環境ごとに新しいアノテーションのバッチが必要になる。 これにより、リアルタイムに亀裂検出システムをデプロイする場合、データアノテーションは重大なボトルネックとなる。 この問題を解決するために,き裂検出問題を弱教師付き問題として定式化し,二分岐フレームワークを提案する。 低品質のアノテーションにトレーニングされた教師付きモデルの予測とピクセルの明るさに基づく予測を組み合わせることで、アノテーションの品質に影響がなくなる。 実験結果から,低品質アノテーションを付与しても高い検出精度を保っていることがわかった。 提案されたフレームワークの実装はhttps://github.com/hitachi-rd-cv/weakly-sup-crackdetで公開されている。

Automatic crack detection is a critical task that has the potential to drastically reduce labor-intensive building and road inspections currently being done manually. Recent studies in this field have significantly improved the detection accuracy. However, the methods often heavily rely on costly annotation processes. In addition, to handle a wide variety of target domains, new batches of annotations are usually required for each new environment. This makes the data annotation cost a significant bottleneck when deploying crack detection systems in real life. To resolve this issue, we formulate the crack detection problem as a weakly-supervised problem and propose a two-branched framework. By combining predictions of a supervised model trained on low quality annotations with predictions based on pixel brightness, our framework is less affected by the annotation quality. Experimental results show that the proposed framework retains high detection accuracy even when provided with low quality annotations. Implementation of the proposed framework is publicly available at https://github.com/hitachi-rd-cv/weakly-sup-crackdet.
翻訳日:2022-09-29 22:24:18 公開日:2020-11-04
# ステレオカメラを用いた低コスト高セキュリティ顔認証

Low cost enhanced security face recognition with stereo cameras ( http://arxiv.org/abs/2011.02222v1 )

ライセンス: Link先を確認
Biel Tura Vecino, Mart\'i Cobos and Philippe Salembier(参考訳) この記事では、ほとんどの認識アーキテクチャにおける現在のセキュリティ脆弱性の解決に貢献する、顔認識代替策について検討する。 現在の市場における低コストの顔認証ソフトウェアは、深度情報の欠如により、顔の印刷画像に騙されることがある。 提示されたソフトウェアは、ステレオセットアップの助けを借りて顔の深度マップを作成し、従来の認識プログラムよりも高いレベルのセキュリティを提供する。 深層畳み込みニューラルネットワークを用いて人物のアイデンティティと顔深度マップの解析を行い、安全な低コストなリアルタイム顔認証手法を提供する。

This article explores a face recognition alternative which seeks to contribute to resolve current security vulnerabilities in most recognition architectures. Current low cost facial authentication software in the market can be fooled by a printed picture of a face due to the lack of depth information. The presented software creates a depth map of the face with the help of a stereo setup, offering a higher level of security than traditional recognition programs. Analysis of the person's identity and facial depth map are processed through deep convolutional neural networks, providing a secure low cost real-time face authentication method.
翻訳日:2022-09-29 22:24:01 公開日:2020-11-04
# 深い確率的点集合登録のための登録損失学習

Registration Loss Learning for Deep Probabilistic Point Set Registration ( http://arxiv.org/abs/2011.02229v1 )

ライセンス: Link先を確認
Felix J\"aremo Lawin, Per-Erik Forss\'en(参考訳) 点集合登録の確率的手法は、使用点数の線形複雑性のような興味深い理論的性質を持ち、複数の点集合の合同登録に容易に一般化できる。 そこで本研究では,その認識性能を芸術の状況に合致するように改善する。 これは、学習した特徴を取り入れ、各混合成分にvon Mises-Fisher特徴モデルを追加し、学習した注意重みを使って行う。 登録繰り返しをバックプロパゲートすることで、登録エラーを直接損失として利用する登録損失学習戦略(RLL)を用いて、これらを共同で学習する。 これは確率的登録が完全に微分可能であるため可能であり、結果として真にエンドツーエンドの学習フレームワークとなる。 3dmatchとkittiデータセットについて広範な実験を行った。 実験によれば、このアプローチはkittiの最先端を上回って、学習した機能と学習戦略の統合によって大いに有益である。 コードはhttps://github.com/felja633/RLLRegで入手できる。

Probabilistic methods for point set registration have interesting theoretical properties, such as linear complexity in the number of used points, and they easily generalize to joint registration of multiple point sets. In this work, we improve their recognition performance to match state of the art. This is done by incorporating learned features, by adding a von Mises-Fisher feature model in each mixture component, and by using learned attention weights. We learn these jointly using a registration loss learning strategy (RLL) that directly uses the registration error as a loss, by back-propagating through the registration iterations. This is possible as the probabilistic registration is fully differentiable, and the result is a learning framework that is truly end-to-end. We perform extensive experiments on the 3DMatch and Kitti datasets. The experiments demonstrate that our approach benefits significantly from the integration of the learned features and our learning strategy, outperforming the state-of-the-art on Kitti. Code is available at https://github.com/felja633/RLLReg.
翻訳日:2022-09-29 22:23:52 公開日:2020-11-04
# 野生のカメラ識別のためのforchheim画像データベース

The Forchheim Image Database for Camera Identification in the Wild ( http://arxiv.org/abs/2011.02241v1 )

ライセンス: Link先を確認
Benjamin Hadwiger, Christian Riess(参考訳) 画像証明は、犯罪捜査やジャーナリストの事実確認において重要な知識を表現できる。 過去20年間、ソースカメラと画像の配信履歴に関する情報を取得するための多くのアルゴリズムが提案されてきた。 これらのテクニックの公平なランク付けには、実際のテストケースでのパフォーマンスを厳格に評価することが重要である。 この目的のために、いくつかのデータセットが提案されている。 しかし、既存のデータベースにはギャップがあると主張する。我々の知識では、現在2つの目標、すなわち2つの目標を同時に満たすデータセットはありません。 a) シーンの内容と法医学的痕跡をきれいに分離し、 b)ソーシャルメディアの再圧縮のような現実的な後処理をサポートする。 本稿では,このギャップを埋めるためにFODB(Forchheim Image Database)を提案する。 スマートフォンのカメラ27台で143シーンの2万3000枚以上の画像で構成されており、法医学的な成果物から画像コンテンツをきれいに分離することができる。 各画像は、オリジナルのカメラネイティブバージョンと、ソーシャルネットワークから5つのコピーの6つの異なる品質で提供される。 カメラ識別手法の評価において,FODBの有用性を示す。 3つの発見を報告する。 まず、最近提案された汎用EfficientNetは、クリーン画像と圧縮画像の両方で、いくつかの専門のCNNを著しく上回っている。 第二に、分類器は、人工劣化による増大後の未知の後処理においても性能向上が得られる。 第3に,FODBによるシーン内容と法医学的トレースのクリーンな分離は,アルゴリズムベンチマークにおいて重要な,厳密な境界条件を課している。

Image provenance can represent crucial knowledge in criminal investigation and journalistic fact checking. In the last two decades, numerous algorithms have been proposed for obtaining information on the source camera and distribution history of an image. For a fair ranking of these techniques, it is important to rigorously assess their performance on practically relevant test cases. To this end, a number of datasets have been proposed. However, we argue that there is a gap in existing databases: to our knowledge, there is currently no dataset that simultaneously satisfies two goals, namely a) to cleanly separate scene content and forensic traces, and b) to support realistic post-processing like social media recompression. In this work, we propose the Forchheim Image Database (FODB) to close this gap. It consists of more than 23,000 images of 143 scenes by 27 smartphone cameras, and it allows to cleanly separate image content from forensic artifacts. Each image is provided in 6 different qualities: the original camera-native version, and five copies from social networks. We demonstrate the usefulness of FODB in an evaluation of methods for camera identification. We report three findings. First, the recently proposed general-purpose EfficientNet remarkably outperforms several dedicated forensic CNNs both on clean and compressed images. Second, classifiers obtain a performance boost even on unknown post-processing after augmentation by artificial degradations. Third, FODB's clean separation of scene content and forensic traces imposes important, rigorous boundary conditions for algorithm benchmarking.
翻訳日:2022-09-29 22:23:35 公開日:2020-11-04
# 美術史文書分析のための手書き分類

Handwriting Classification for the Analysis of Art-Historical Documents ( http://arxiv.org/abs/2011.02264v1 )

ライセンス: Link先を確認
Christian Bartz, Hendrik R\"atz, Christoph Meinel(参考訳) デジタル化されたアーカイブは、何世代もの学者の知識を何百万もの文書に格納し保存する。 これらのアーカイブのサイズは、専門家による手動分析が高価すぎるため、自動分析を要求する。 本稿では,WPIの美術史アーカイブからスキャンした文書の筆跡解析に焦点をあてる。 このアーカイブは、複数の言語で書かれた文書で構成されており、認識モデル作成のための注釈付きトレーニングデータがないため、手書きOCRパイプラインの新しいステップとして、手書き分類の課題を提案する。 本稿では,その視覚構造に基づいて,テキスト断片,例えば,数字,日付,単語をラベルで抽出した手書き分類モデルを提案する。 このような分類は、コンテンツ全体を読むことなく、特定の種類のテキストを含む文書をハイライトすることで、歴史家を支援する。 そこで本研究では,テキスト分類のための深層学習モデルを開発し,比較する。 大規模な実験では,提案手法の利点と欠点を示し,実世界のデータセット上での利用シナリオについて議論する。

Digitized archives contain and preserve the knowledge of generations of scholars in millions of documents. The size of these archives calls for automatic analysis since a manual analysis by specialists is often too expensive. In this paper, we focus on the analysis of handwriting in scanned documents from the art-historic archive of the WPI. Since the archive consists of documents written in several languages and lacks annotated training data for the creation of recognition models, we propose the task of handwriting classification as a new step for a handwriting OCR pipeline. We propose a handwriting classification model that labels extracted text fragments, eg, numbers, dates, or words, based on their visual structure. Such a classification supports historians by highlighting documents that contain a specific class of text without the need to read the entire content. To this end, we develop and compare several deep learning-based models for text classification. In extensive experiments, we show the advantages and disadvantages of our proposed approach and discuss possible usage scenarios on a real-world dataset.
翻訳日:2022-09-29 22:23:16 公開日:2020-11-04
# s3-net:シングルショットセグメンテーションによる高速軽量ビデオシーン理解ネットワーク

S3-Net: A Fast and Lightweight Video Scene Understanding Network by Single-shot Segmentation ( http://arxiv.org/abs/2011.02265v1 )

ライセンス: Link先を確認
Yuan Cheng, Yuchao Yang, Hai-Bao Chen, Ngai Wong, Hao Yu(参考訳) ビデオのリアルタイム理解は、自動運転など、さまざまなAIアプリケーションにおいて不可欠である。 本研究は,映像シーン理解のための高速単発セグメンテーション戦略を提案する。 提案するS3-Netは,STMに基づく時空間モデルへの入力として,構造化時系列意味的特徴を抽出する。 S3-Netはテンソル化技術と量子化技術を活用し、エッジコンピューティングに軽量である。 CityScapes、UCF11、HMDB51、MOMENTSデータセットを用いた実験では、提案されたS3-Netは、UCF11による3D-CNNベースのアプローチに比べて精度が8.1%向上し、ストレージは6.9倍、推論速度はGTX1080 Ti GPUでCityScapes上で22.8FPSである。

Real-time understanding in video is crucial in various AI applications such as autonomous driving. This work presents a fast single-shot segmentation strategy for video scene understanding. The proposed net, called S3-Net, quickly locates and segments target sub-scenes, meanwhile extracts structured time-series semantic features as inputs to an LSTM-based spatio-temporal model. Utilizing tensorization and quantization techniques, S3-Net is intended to be lightweight for edge computing. Experiments using CityScapes, UCF11, HMDB51 and MOMENTS datasets demonstrate that the proposed S3-Net achieves an accuracy improvement of 8.1% versus the 3D-CNN based approach on UCF11, a storage reduction of 6.9x and an inference speed of 22.8 FPS on CityScapes with a GTX1080Ti GPU.
翻訳日:2022-09-29 22:23:01 公開日:2020-11-04
# 中国のイディオム予測のためのBERTに基づくデュアル埋め込みモデル

A BERT-based Dual Embedding Model for Chinese Idiom Prediction ( http://arxiv.org/abs/2011.02378v1 )

ライセンス: Link先を確認
Minghuan Tan and Jing Jiang(参考訳) 中国語の慣用句は、通常古代の物語に由来する特別な固定句であり、その意味はしばしば高度に慣用的で非構成的である。 中国のイディオム予測タスクは、空白の文脈で与えられた一連の候補イディオムから正しいイディオムを選択することである。 本稿では,単語をエンコードし,イディオムの二重埋め込みを学習するためのBERTベースの二重埋め込みモデルを提案する。 具体的には、まず、各候補イディオムの埋め込みとコンテキスト内の空白に対応する隠れ表現とを一致させる。 次に、各候補のイディオムの埋め込みと、コンテキスト境界コンテキストプール内のすべてのトークンの隠れた表現を一致させます。 さらに,2種類のマッチングに2つの別々のイディオム埋め込みを適用することを提案する。 最近リリースされた中国のイディオムクロゼテストデータセットの実験では、提案手法が既存の技術よりも優れた性能を示している。 アブレーション実験は、コンテキストプーリングと二重埋め込みの両方が性能改善に寄与することを示した。

Chinese idioms are special fixed phrases usually derived from ancient stories, whose meanings are oftentimes highly idiomatic and non-compositional. The Chinese idiom prediction task is to select the correct idiom from a set of candidate idioms given a context with a blank. We propose a BERT-based dual embedding model to encode the contextual words as well as to learn dual embeddings of the idioms. Specifically, we first match the embedding of each candidate idiom with the hidden representation corresponding to the blank in the context. We then match the embedding of each candidate idiom with the hidden representations of all the tokens in the context thorough context pooling. We further propose to use two separate idiom embeddings for the two kinds of matching. Experiments on a recently released Chinese idiom cloze test dataset show that our proposed method performs better than the existing state of the art. Ablation experiments also show that both context pooling and dual embedding contribute to the improvement of performance.
翻訳日:2022-09-29 22:16:25 公開日:2020-11-04
# MTLB-STRUCT @PARSEME 2020: マルチタスク学習と事前学習されたマスケッド言語モデルを用いた未知のマルチワード表現のキャプチャ

MTLB-STRUCT @PARSEME 2020: Capturing Unseen Multiword Expressions Using Multi-task Learning and Pre-trained Masked Language Models ( http://arxiv.org/abs/2011.02541v1 )

ライセンス: Link先を確認
Shiva Taslimipoor, Sara Bahaadini, Ekaterina Kochmar(参考訳) 本稿では,言語マルチワード表現(VMWE)と係り受け解析木を協調的に学習する半教師システムについて述べる。 このモデルは、事前訓練された多言語BERTの恩恵を受ける。 BERT隠れレイヤは2つのタスク間で共有され、VMWEタグを取得するための追加の線形レイヤを導入します。 依存性解析木予測は、BERT上の線形層と双線形層とツリーCRFとでモデル化される。 このシステムは、PPARSEME共有タスク2020のオープントラックに参加しており、F1スコアで、見えないVMWEと一般的には、14言語すべてで平均されたVMWEを識別する。

This paper describes a semi-supervised system that jointly learns verbal multiword expressions (VMWEs) and dependency parse trees as an auxiliary task. The model benefits from pre-trained multilingual BERT. BERT hidden layers are shared among the two tasks and we introduce an additional linear layer to retrieve VMWE tags. The dependency parse tree prediction is modelled by a linear layer and a bilinear one plus a tree CRF on top of BERT. The system has participated in the open track of the PARSEME shared task 2020 and ranked first in terms of F1-score in identifying unseen VMWEs as well as VMWEs in general, averaged across all 14 languages.
翻訳日:2022-09-29 22:16:10 公開日:2020-11-04
# MK-SQuIT:反復的テンプレート充填による質問の合成

MK-SQuIT: Synthesizing Questions using Iterative Template-filling ( http://arxiv.org/abs/2011.02566v1 )

ライセンス: Link先を確認
Benjamin A. Spiegel, Vincent Cheong, James E. Kaplan, Anthony Sanchez(参考訳) この研究の目的は、できるだけ少ない人間の入力で質問/問い合わせペアを合成的に生成するフレームワークを作ることである。 これらのデータセットは、自然言語の質問をクエリに変換するための機械翻訳システムのトレーニングに使用することができる。 既存のデータセット生成の方法は、データセットのサイズと線形にスケールする人間の入力を必要とし、結果として小さなデータセットとなる。 簡単な初期設定タスク以外は、システムのクエリ生成プロセス中に人間の入力は不要である。 RDFトリプルの知識ベースであるWikiDataを,質問やクエリの主要なコンテンツを生成するソースとして利用しています。 質問テンプレートの複数のレイヤを使用することで、以前の方法で人間が処理したクエリ生成の最も困難な部分のいくつかを回避できます。 システムは複数のドメインに簡単に設定でき、英語以外の自然言語でクエリを生成するように変更できます。 また、4つのWikiDataドメインにまたがる110,000の質問/問い合わせペアの例を示す。 次に、商用QA設定でpromiseを示すデータセットを使用してトレーニングするベースラインモデルを示す。

The aim of this work is to create a framework for synthetically generating question/query pairs with as little human input as possible. These datasets can be used to train machine translation systems to convert natural language questions into queries, a useful tool that could allow for more natural access to database information. Existing methods of dataset generation require human input that scales linearly with the size of the dataset, resulting in small datasets. Aside from a short initial configuration task, no human input is required during the query generation process of our system. We leverage WikiData, a knowledge base of RDF triples, as a source for generating the main content of questions and queries. Using multiple layers of question templating we are able to sidestep some of the most challenging parts of query generation that have been handled by humans in previous methods; humans never have to modify, aggregate, inspect, annotate, or generate any questions or queries at any step in the process. Our system is easily configurable to multiple domains and can be modified to generate queries in natural languages other than English. We also present an example dataset of 110,000 question/query pairs across four WikiData domains. We then present a baseline model that we train using the dataset which shows promise in a commercial QA setting.
翻訳日:2022-09-29 22:15:54 公開日:2020-11-04
# コラボレーティブグループチャットにおける回答識別

Answer Identification in Collaborative Organizational Group Chat ( http://arxiv.org/abs/2011.08074v1 )

ライセンス: Link先を確認
Naama Tepper, Naama Zwerdling, David Naori and Inbal Ronen(参考訳) 組織グループチャットにおける回答識別のための簡単な教師なしアプローチを提案する。 近年、異なる場所や時間帯の同僚間での非同期テキストベースのコラボレーションを可能にする組織グループチャットが増えている。 質問への答えを見つけることは仕事の効率にとって非常に重要です。 しかしながら、グループチャットの特徴は、会話の絡み合いと'常にオン'なアベイラビリティであり、ユーザがリアルタイムで関心のある質問への回答や振り返りでの回答を見つけるのが困難である。 さらに、構造的特徴と語彙的特徴はチャットグループによって異なり、"one model fits all"アプローチを見つけるのが困難である。 我々のカーネル密度推定(KDE)に基づくクラスタリングアプローチであるAns-Chatは、応答同定の手段として議論パターンを暗黙的に学習し、チャネル固有のタグ付けの必要性を排除する。 経験的評価は、このソリューションが他のアプローチよりも優れていることを示している。

We present a simple unsupervised approach for answer identification in organizational group chat. In recent years, organizational group chat is on the rise enabling asynchronous text-based collaboration between co-workers in different locations and time zones. Finding answers to questions is often critical for work efficiency. However, group chat is characterized by intertwined conversations and 'always on' availability, making it hard for users to pinpoint answers to questions they care about in real-time or search for answers in retrospective. In addition, structural and lexical characteristics differ between chat groups, making it hard to find a 'one model fits all' approach. Our Kernel Density Estimation (KDE) based clustering approach termed Ans-Chat implicitly learns discussion patterns as a means for answer identification, thus eliminating the need to channel-specific tagging. Empirical evaluation shows that this solution outperforms other approached.
翻訳日:2022-09-29 22:15:05 公開日:2020-11-04
# キーポイント候補を用いたソベルフィルタとCNNを用いたリアルタイムキーポイント検出

Realtime CNN-based Keypoint Detector with Sobel Filter and CNN-based Descriptor Trained with Keypoint Candidates ( http://arxiv.org/abs/2011.02119v1 )

ライセンス: Link先を確認
Xun Yuan, Ke Hu, and Song Chen(参考訳) ローカル特徴検出器とディスクリプタは、SLAMや3D再構成など、多くのコンピュータビジョンタスクにおいて必須である。 本稿では,2つのCNN,軽量なSobelNetとDesNetを導入し,キーポイントを検出し,局所的な局所記述子を計算する。 検出器とディスクリプタは並列に動作します。 sobelフィルタはcnnの入力として入力画像のエッジ構造を提供する。 CNNの出力マップ上で、非最大抑制(NMS)プロセスを実行した後、キーポイントの位置を取得する。 コーナポイントをキーポイントとして検出するために,SobelNetのトレーニングプロセスにおいてガウス損失を設計する。 同時に、DesNetの入力は元のグレースケールイメージであり、円損失はDesNetのトレーニングに使用される。 さらに、DesNetのトレーニング中にSobelNetの出力マップが必要である。 我々はHPatchesベンチマーク、ETHベンチマーク、FM-Benchなどいくつかのベンチマークで評価を行った。 sobelnet は近年の sota メソッドよりも少ない計算で、より良い性能または同等の性能を実現している。 640x480の画像の推測時間は、それぞれRTX 2070 SUPER上のSobelNetとDesNetの7.59msと1.09msである。

The local feature detector and descriptor are essential in many computer vision tasks, such as SLAM and 3D reconstruction. In this paper, we introduce two separate CNNs, lightweight SobelNet and DesNet, to detect key points and to compute dense local descriptors. The detector and the descriptor work in parallel. Sobel filter provides the edge structure of the input images as the input of CNN. The locations of key points will be obtained after exerting the non-maximum suppression (NMS) process on the output map of the CNN. We design Gaussian loss for the training process of SobelNet to detect corner points as keypoints. At the same time, the input of DesNet is the original grayscale image, and circle loss is used to train DesNet. Besides, output maps of SobelNet are needed while training DesNet. We have evaluated our method on several benchmarks including HPatches benchmark, ETH benchmark, and FM-Bench. SobelNet achieves better or comparable performance with less computation compared with SOTA methods in recent years. The inference time of an image of 640x480 is 7.59ms and 1.09ms for SobelNet and DesNet respectively on RTX 2070 SUPER.
翻訳日:2022-09-29 22:14:12 公開日:2020-11-04
# 細粒糖尿病網膜症における識別的表現の学習

Learning Discriminative Representations for Fine-Grained Diabetic Retinopathy Grading ( http://arxiv.org/abs/2011.02120v1 )

ライセンス: Link先を確認
Li Tian, Liyan Ma, Zhijie Wen, Shaorong Xie, Yupeng Xu(参考訳) 糖尿病網膜症(dr)は視覚障害の主な原因の一つである。 しかし, 早期DRの症状は認められず, 診断が遅れ, 疾患の進行がみられた。 病気の重症度を決定するためには、眼科医は根底画像の識別部分に焦点を当てる必要がある。 近年,深層学習は医用画像解析において大きな成功を収めている。 しかし、ほとんどの研究は畳み込みニューラルネットワーク(CNN)に基づくアルゴリズムを直接採用しており、クラス間の差が微妙で漸進的であるという事実を無視している。 そこで我々は,DRの自動画像グレーディングをきめ細かな分類課題として検討し,病的識別領域を特定するための双線形モデルを構築した。 クラス間の順序情報を活用するために,順序回帰法を用いてソフトラベルを得る。 さらに,ネットワークのトレーニングにカテゴリ的損失のみを用いることに加えて,メトリクス的損失を導入して,より差別的な特徴空間を学習する。 実験により,2つの公開IDRiDおよびDeepDRデータセットにおける提案手法の優れた性能を示す。

Diabetic retinopathy (DR) is one of the leading causes of blindness. However, no specific symptoms of early DR lead to a delayed diagnosis, which results in disease progression in patients. To determine the disease severity levels, ophthalmologists need to focus on the discriminative parts of the fundus images. In recent years, deep learning has achieved great success in medical image analysis. However, most works directly employ algorithms based on convolutional neural networks (CNNs), which ignore the fact that the difference among classes is subtle and gradual. Hence, we consider automatic image grading of DR as a fine-grained classification task, and construct a bilinear model to identify the pathologically discriminative areas. In order to leverage the ordinal information among classes, we use an ordinal regression method to obtain the soft labels. In addition, other than only using a categorical loss to train our network, we also introduce the metric loss to learn a more discriminative feature space. Experimental results demonstrate the superior performance of the proposed method on two public IDRiD and DeepDR datasets.
翻訳日:2022-09-29 22:13:49 公開日:2020-11-04
# 深部画像合成

Deep Image Compositing ( http://arxiv.org/abs/2011.02146v1 )

ライセンス: Link先を確認
He Zhang, Jianming Zhang, Federico Perazzi, Zhe Lin, Vishal M. Patel(参考訳) 画像合成は、異なる画像の領域を組み合わせて新しい画像を構成するタスクである。 一般的なユースケースは、ポートレートイメージの背景交換である。 高品質な複合材料を得るため、プロは通常、高度な写真編集ツールでも非常に時間がかかるセグメンテーション、マットリング、フォアグラウンドカラー除染などの複数の編集手順を手作業で行う。 本稿では,ユーザが入力することなく高品質な画像合成を自動的に生成する手法を提案する。 提案手法は,背景画像と背景画像の両方の文脈情報と色情報の利用を最適化するために,エンドツーエンドで訓練することができる。 特に,ラプラシアピラミッドのブレンディングに触発され,前景と背景画像からの情報を異なるスケールで効果的に融合するために,密結合マルチストリーム融合ネットワークが提案されている。 さらに,訓練データの欠如を軽減するために,簡単なケースから複雑なケースへと徐々にトレーニングする自習戦略を導入する。 提案手法は品質の高い複合材料を自動的に生成し, 質的, 定量的に既存手法よりも優れることを示す。

Image compositing is a task of combining regions from different images to compose a new image. A common use case is background replacement of portrait images. To obtain high quality composites, professionals typically manually perform multiple editing steps such as segmentation, matting and foreground color decontamination, which is very time consuming even with sophisticated photo editing tools. In this paper, we propose a new method which can automatically generate high-quality image compositing without any user input. Our method can be trained end-to-end to optimize exploitation of contextual and color information of both foreground and background images, where the compositing quality is considered in the optimization. Specifically, inspired by Laplacian pyramid blending, a dense-connected multi-stream fusion network is proposed to effectively fuse the information from the foreground and background images at different scales. In addition, we introduce a self-taught strategy to progressively train from easy to complex cases to mitigate the lack of training data. Experiments show that the proposed method can automatically generate high-quality composites and outperforms existing methods both qualitatively and quantitatively.
翻訳日:2022-09-29 22:13:32 公開日:2020-11-04
# DeepReach: 高次元の到達性に対するディープラーニングアプローチ

DeepReach: A Deep Learning Approach to High-Dimensional Reachability ( http://arxiv.org/abs/2011.02082v1 )

ライセンス: Link先を確認
Somil Bansal, Claire Tomlin(参考訳) Hamilton-Jacobi (HJ) 到達可能性解析は動的制御系の性能と安全性を保証する重要な形式的検証手法である。 その利点は、一般的な非線形システムのダイナミクスとの互換性、境界外乱の形式的処理、状態と入力の制約を扱う能力などである。 しかし、PDEの計算とメモリの複雑さは、状態変数の数に関して指数関数的にスケールし、その直接的な使用を小規模システムに制限する。 本稿では,高次元到達性問題に対するニューラルPDEソルバを開発するために,正弦波ネットワークの新しい展開を利用するDeepReachを提案する。 DeepReachの計算要求は状態次元と直接スケールするのではなく、基礎となる到達可能なチューブの複雑さによってスケールする。 DeepReachは最先端のリーチビリティ手法に匹敵する結果を達成し、PDEソリューションの明示的な監督を必要とせず、外部の障害や逆入力、システムの制約を簡単に扱えるとともに、システムのための安全コントローラも提供する。 そこで,DeepReachは,9次元多車衝突問題と,自律運転による10次元狭路問題について実演する。

Hamilton-Jacobi (HJ) reachability analysis is an important formal verification method for guaranteeing performance and safety properties of dynamical control systems. Its advantages include compatibility with general nonlinear system dynamics, formal treatment of bounded disturbances, and the ability to deal with state and input constraints. However, it involves solving a PDE, whose computational and memory complexity scales exponentially with respect to the number of state variables, limiting its direct use to small-scale systems. We propose DeepReach, a method that leverages new developments in sinusoidal networks to develop a neural PDE solver for high-dimensional reachability problems. The computational requirements of DeepReach do not scale directly with the state dimension, but rather with the complexity of the underlying reachable tube. DeepReach achieves comparable results to the state-of-the-art reachability methods, does not require any explicit supervision for the PDE solution, can easily handle external disturbances, adversarial inputs, and system constraints, and also provides a safety controller for the system. We demonstrate DeepReach on a 9D multi-vehicle collision problem, and a 10D narrow passage problem, motivated by autonomous driving applications.
翻訳日:2022-09-29 22:06:43 公開日:2020-11-04
# 局所多項式回帰を用いた勾配に基づく経験的リスク最小化

Gradient-Based Empirical Risk Minimization using Local Polynomial Regression ( http://arxiv.org/abs/2011.02522v1 )

ライセンス: Link先を確認
Ali Jadbabaie and Anuran Makur and Devavrat Shah(参考訳) 本稿では,反復勾配に基づく手法を用いて,滑らかで強い凸損失関数の経験的リスク最小化(erm)の問題を考える。 この文献の主要な目標は、収束率を$\epsilon$-approximate 解に分析することによって、勾配降下 (gd) や確率勾配降下 (sgd) といった異なるアルゴリズムを比較することである。 例えば、oracleのgdの複雑さは$o(n\log(\epsilon^{-1})$であり、ここでは$n$はトレーニングサンプルの数である。 n$ が大きければ、これは実際に高価になり、sgd が好まれるのは、oracle が $o(\epsilon^{-1})$ という複雑さのためである。 このような標準解析は最適化されているパラメータの損失関数の滑らかさのみを利用する。 対照的に、データの損失関数がスムーズな場合、各イテレーションでoracleを学習し、重要なシステムにおいてgdとsgdの両方のoracleの複雑さを上回ることを示しています。 具体的には、各繰り返しにおいて、提案アルゴリズムは損失関数の勾配を学習するために局所多項式回帰を行い、ERM対象関数の真の勾配を推定する。 このアルゴリズムのoracleの複雑さは、$\tilde{o}((p \epsilon^{-1})^{d/(2\eta)})$ (neglecting sub-dominant factors)のようにスケールする。ここで、$d$と$p$はそれぞれデータとパラメータ空間の次元であり、損失関数の勾配はデータに関して$\eta$-h\"{o}lderクラスに属する。 我々は,非パラメトリック統計学における局所多項式回帰解析を拡張し,多変量設定における補間保証を提供するとともに,不正確なGD文献からツールを利用する。 GDやSGDとは異なり、我々の手法の複雑さは$d$と$p$に依存する。 しかし、$d$が小さく、損失関数がデータの滑らかさを示すと、我々のアルゴリズムはオラクルの複雑さにおいて、非常に広い範囲の$p$と$\epsilon$でgdとsgdを上回ります。

In this paper, we consider the problem of empirical risk minimization (ERM) of smooth, strongly convex loss functions using iterative gradient-based methods. A major goal of this literature has been to compare different algorithms, such as gradient descent (GD) or stochastic gradient descent (SGD), by analyzing their rates of convergence to $\epsilon$-approximate solutions. For example, the oracle complexity of GD is $O(n\log(\epsilon^{-1}))$, where $n$ is the number of training samples. When $n$ is large, this can be expensive in practice, and SGD is preferred due to its oracle complexity of $O(\epsilon^{-1})$. Such standard analyses only utilize the smoothness of the loss function in the parameter being optimized. In contrast, we demonstrate that when the loss function is smooth in the data, we can learn the oracle at every iteration and beat the oracle complexities of both GD and SGD in important regimes. Specifically, at every iteration, our proposed algorithm performs local polynomial regression to learn the gradient of the loss function, and then estimates the true gradient of the ERM objective function. We establish that the oracle complexity of our algorithm scales like $\tilde{O}((p \epsilon^{-1})^{d/(2\eta)})$ (neglecting sub-dominant factors), where $d$ and $p$ are the data and parameter space dimensions, respectively, and the gradient of the loss function belongs to a $\eta$-H\"{o}lder class with respect to the data. Our proof extends the analysis of local polynomial regression in non-parametric statistics to provide interpolation guarantees in multivariate settings, and also exploits tools from the inexact GD literature. Unlike GD and SGD, the complexity of our method depends on $d$ and $p$. However, when $d$ is small and the loss function exhibits modest smoothness in the data, our algorithm beats GD and SGD in oracle complexity for a very broad range of $p$ and $\epsilon$.
翻訳日:2022-09-29 22:06:08 公開日:2020-11-04
# 多言語BERTによる遺伝的・タイポロジー信号の探索

Probing Multilingual BERT for Genetic and Typological Signals ( http://arxiv.org/abs/2011.02070v1 )

ライセンス: Link先を確認
Taraka Rama and Lisa Beinborn and Steffen Eger(参考訳) 我々は、100言語にわたる系統的・地理的言語信号とmBERT表現に基づく言語距離を計算するために、多言語BERT(mBERT)の層を探索する。 私たち 1) 言語距離を用いて, 言語木を推定し, 評価し, 四分木距離の観点から基準系木に近いことを発見した。 2) 距離行列回帰分析を行い, 言語距離を系統学的に説明し, 構造的要因で最悪であることを見出した。 3) ダイアクロニックな意味の安定性(言語間表現の変動性に基づく)を測定するための新しい尺度を提示する。 本研究は,言語間表現のタイプ論的解釈可能性の出現に寄与する。

We probe the layers in multilingual BERT (mBERT) for phylogenetic and geographic language signals across 100 languages and compute language distances based on the mBERT representations. We 1) employ the language distances to infer and evaluate language trees, finding that they are close to the reference family tree in terms of quartet tree distance, 2) perform distance matrix regression analysis, finding that the language distances can be best explained by phylogenetic and worst by structural factors and 3) present a novel measure for measuring diachronic meaning stability (based on cross-lingual representation variability) which correlates significantly with published ranked lists based on linguistic approaches. Our results contribute to the nascent field of typological interpretability of cross-lingual text representations.
翻訳日:2022-09-29 22:05:16 公開日:2020-11-04
# BERTに基づく事前学習モデルを用いた中国語文法の補正

Chinese Grammatical Correction Using BERT-based Pre-trained Model ( http://arxiv.org/abs/2011.02093v1 )

ライセンス: Link先を確認
Hongfei Wang, Michiki Kurosawa, Satoru Katsumata, and Mamoru Komachi(参考訳) 近年、事前訓練されたモデルが広く研究され、いくつかの下流タスクが利用の恩恵を受けている。 本研究では,Cuiらが開発したBERTを用いた事前学習モデル(2020)を中国語文法誤り訂正タスクのエンコーダデコーダモデルに組み込む2つの手法の有効性を検証する。 また、エラータイプを分析し、文レベルのエラーはまだ対処されていないと結論づける。

In recent years, pre-trained models have been extensively studied, and several downstream tasks have benefited from their utilization. In this study, we verify the effectiveness of two methods that incorporate a BERT-based pre-trained model developed by Cui et al. (2020) into an encoder-decoder model on Chinese grammatical error correction tasks. We also analyze the error type and conclude that sentence-level errors are yet to be addressed.
翻訳日:2022-09-29 22:05:02 公開日:2020-11-04
# PheMT: ユーザ生成コンテンツに対する機械翻訳ロバストネスのための現象論的データセット

PheMT: A Phenomenon-wise Dataset for Machine Translation Robustness on User-Generated Contents ( http://arxiv.org/abs/2011.02121v1 )

ライセンス: Link先を確認
Ryo Fujii, Masato Mita, Kaori Abe, Kazuaki Hanawa, Makoto Morishita, Jun Suzuki and Kentaro Inui(参考訳) ニューラルマシン翻訳(NMT)は、ニュースドメインからのテキストなどのクリーンな入力を翻訳する際に、その品質を大幅に改善した。 しかし、既存の研究では、NMTはインターネット上のユーザ生成コンテンツ(UGC)など、かなりのノイズを伴うある種の入力に苦戦していることが示唆されている。 NMTを異文化間コミュニケーションに活用するために、最も有望な方向性の1つは、これらの表現を正しく扱うモデルを開発することである。 その重要性は認識されているものの、クリーンな入力の翻訳とUGCの翻訳の間にどのような大きなギャップが生じるのかは不明である。 そこで本研究では,日本語翻訳における特定の言語現象に対するMTシステムの堅牢性を評価するための新しいデータセットであるPheMTを提案する。 作成したデータセットを用いて行った実験では、社内モデルだけでなく、市販のシステムでも、特定の現象の存在によって大きく混乱していることがわかった。

Neural Machine Translation (NMT) has shown drastic improvement in its quality when translating clean input, such as text from the news domain. However, existing studies suggest that NMT still struggles with certain kinds of input with considerable noise, such as User-Generated Contents (UGC) on the Internet. To make better use of NMT for cross-cultural communication, one of the most promising directions is to develop a model that correctly handles these expressions. Though its importance has been recognized, it is still not clear as to what creates the great gap in performance between the translation of clean input and that of UGC. To answer the question, we present a new dataset, PheMT, for evaluating the robustness of MT systems against specific linguistic phenomena in Japanese-English translation. Our experiments with the created dataset revealed that not only our in-house models but even widely used off-the-shelf systems are greatly disturbed by the presence of certain phenomena.
翻訳日:2022-09-29 22:04:55 公開日:2020-11-04
# 弦と音の類似性を利用したニューラルテキスト正規化

Neural text normalization leveraging similarities of strings and sounds ( http://arxiv.org/abs/2011.02173v1 )

ライセンス: Link先を確認
Riku Kawamura, Tatsuya Aoki, Hidetaka Kamigaito, Hiroya Takamura and Manabu Okumura(参考訳) 単語列と音声の類似性を考慮してテキストを正規化できるニューラルモデルを提案する。 本研究では,単語文字列と音の類似性を考慮したモデルと,単語文字列と音の類似性のみを考慮したモデルと,類似性のないモデルをベースラインとして比較した。 その結果,文字列の類似性は誤発音や略語を扱うことに成功し,音声の類似性を考慮すると音韻置換や強調文字の扱いに成功していることがわかった。 提案モデルがベースラインよりも高いf$_1$スコアを達成した。

We propose neural models that can normalize text by considering the similarities of word strings and sounds. We experimentally compared a model that considers the similarities of both word strings and sounds, a model that considers only the similarity of word strings or of sounds, and a model without the similarities as a baseline. Results showed that leveraging the word string similarity succeeded in dealing with misspellings and abbreviations, and taking into account the sound similarity succeeded in dealing with phonetic substitutions and emphasized characters. So that the proposed models achieved higher F$_1$ scores than the baseline.
翻訳日:2022-09-29 22:04:38 公開日:2020-11-04
# 深層ニューラルネットワークと自己学習による化学タンパク質相互作用の抽出

Extracting Chemical-Protein Interactions via Calibrated Deep Neural Network and Self-training ( http://arxiv.org/abs/2011.02207v1 )

ライセンス: Link先を確認
Dongha Choi and Hyunju Lee(参考訳) 化学物質とタンパク質との相互作用の抽出は、医薬品開発や薬物副作用の予測など、多くの生物医学研究において重要である。 この問題に対処するために、ディープニューラルネットワーク(DNN)モデルを含むいくつかの自然言語処理手法が適用されている。 しかし、これらの手法は信頼度が過度になる傾向があり、モデルの信頼性が低下する傾向にあったハードラベルデータを用いて訓練された。 データ不確実性を推定し、信頼性を向上させるため、ディープラーニングモデルに"校正"技術を適用した。 本研究では, 化学物質-タンパク質相互作用を抽出するために, 不確実性情報と校正技術を用いたDNNベースのアプローチを提案する。 まず、事前学習した言語理解モデルを用いて入力シーケンスを符号化し、2つのキャリブレーション手法を用いて学習する。 最後に、推定不確実性を用いて抽出した拡張データでモデルを再学習する。 我々の手法は,従来の手法よりも高い校正能力を維持しつつ,Biocreative VI ChemProtタスクに関して最先端のパフォーマンスを実現している。 さらに,本手法は,不確実性推定による性能改善の可能性を示す。

The extraction of interactions between chemicals and proteins from several biomedical articles is important in many fields of biomedical research such as drug development and prediction of drug side effects. Several natural language processing methods, including deep neural network (DNN) models, have been applied to address this problem. However, these methods were trained with hard-labeled data, which tend to become over-confident, leading to degradation of the model reliability. To estimate the data uncertainty and improve the reliability, "calibration" techniques have been applied to deep learning models. In this study, to extract chemical--protein interactions, we propose a DNN-based approach incorporating uncertainty information and calibration techniques. Our model first encodes the input sequence using a pre-trained language-understanding model, following which it is trained using two calibration methods: mixup training and addition of a confidence penalty loss. Finally, the model is re-trained with augmented data that are extracted using the estimated uncertainties. Our approach has achieved state-of-the-art performance with regard to the Biocreative VI ChemProt task, while preserving higher calibration abilities than those of previous approaches. Furthermore, our approach also presents the possibilities of using uncertainty estimation for performance improvement.
翻訳日:2022-09-29 22:04:28 公開日:2020-11-04
# 脳状態同定のためのデータからのノード中心グラフ学習

Node-Centric Graph Learning from Data for Brain State Identification ( http://arxiv.org/abs/2011.02179v1 )

ライセンス: Link先を確認
Nafiseh Ghoroghchian, David M. Groppe, Roman Genov, Taufik A. Valiante, and Stark C. Draper(参考訳) データ駆動グラフ学習は、ノード間の接続の強度を決定することによってネットワークをモデル化する。 データは、各グラフノードに値を関連付けるグラフ信号を指す。 既存のグラフ学習手法では、グラフ信号に単純化されたモデルを使うか、計算量やメモリ要件の面では極めて高価である。 これは、ノード数が多い場合や、ネットワークに時間的変化がある場合に特に当てはまる。 合理的な計算容量を持つリッチなモデルを考えるために,グラフ上の表現学習に基づくグラフ学習手法を提案する。 表現学習はグラフノード毎に埋め込みを生成し、近隣ノードからの情報を考慮に入れます。 グラフ学習法はグラフ類似度行列を計算するために埋め込みをさらに修正する。 この研究では、グラフ学習は脳の状態識別のための脳ネットワークを調べるために用いられる。 10例の頭蓋内脳波(ieeg)信号の広範なデータセットから, 時変脳グラフを推定した。 次に、グラフを入力として分類器に適用し、発作と非サイズレ脳状態を区別する。 受信者動作特性曲線(AUC)下の領域の2値分類基準を用いて、この手法は2つの広く使われている脳ネットワークモデリング手法と比較して平均9.13パーセント改善する。

Data-driven graph learning models a network by determining the strength of connections between its nodes. The data refers to a graph signal which associates a value with each graph node. Existing graph learning methods either use simplified models for the graph signal, or they are prohibitively expensive in terms of computational and memory requirements. This is particularly true when the number of nodes is high or there are temporal changes in the network. In order to consider richer models with a reasonable computational tractability, we introduce a graph learning method based on representation learning on graphs. Representation learning generates an embedding for each graph node, taking the information from neighbouring nodes into account. Our graph learning method further modifies the embeddings to compute the graph similarity matrix. In this work, graph learning is used to examine brain networks for brain state identification. We infer time-varying brain graphs from an extensive dataset of intracranial electroencephalographic (iEEG) signals from ten patients. We then apply the graphs as input to a classifier to distinguish seizure vs. non-seizure brain states. Using the binary classification metric of area under the receiver operating characteristic curve (AUC), this approach yields an average of 9.13 percent improvement when compared to two widely used brain network modeling methods.
翻訳日:2022-09-29 21:59:21 公開日:2020-11-04
# AUC最大化のための確率的ハード閾値アルゴリズム

Stochastic Hard Thresholding Algorithms for AUC Maximization ( http://arxiv.org/abs/2011.02396v1 )

ライセンス: Link先を確認
Zhenhuan Yang, Baojian Zhou, Yunwen Lei, Yiming Ying(参考訳) 本稿では,不均衡分類におけるauc最大化の重要な問題に対する確率的ハードしきい値アルゴリズムの開発を目的とする。 主な課題は、AUCの最大化に関わるペアワイズ損失である。 本稿では、確率的ハードしきい値アルゴリズム(\texttt{SHT-AUC})が開発された経験的リスク最小化(ERM)として、U統計目標関数を再構成することで、この障害を克服する。 我々の知る限りでは、これはAUC最大化のための確率的ハードしきい値アルゴリズムを1回あたり$\O(b d)$で提供する最初の試みであり、$d$と$b$はそれぞれデータの次元とミニバッチサイズである。 提案アルゴリズムは, 線形収束率を許容誤差まで楽しむことを示す。 特に、データがガウス分布から生成されると、データがより不均衡になるにつれて収束が遅くなることを示す。 提案するアルゴリズムの効率性と有効性を示すために,広範な実験を行った。

In this paper, we aim to develop stochastic hard thresholding algorithms for the important problem of AUC maximization in imbalanced classification. The main challenge is the pairwise loss involved in AUC maximization. We overcome this obstacle by reformulating the U-statistics objective function as an empirical risk minimization (ERM), from which a stochastic hard thresholding algorithm (\texttt{SHT-AUC}) is developed. To our best knowledge, this is the first attempt to provide stochastic hard thresholding algorithms for AUC maximization with a per-iteration cost $\O(b d)$ where $d$ and $b$ are the dimension of the data and the minibatch size, respectively. We show that the proposed algorithm enjoys the linear convergence rate up to a tolerance error. In particular, we show, if the data is generated from the Gaussian distribution, then its convergence becomes slower as the data gets more imbalanced. We conduct extensive experiments to show the efficiency and effectiveness of the proposed algorithms.
翻訳日:2022-09-29 21:59:02 公開日:2020-11-04
# 幾何学グラフ上の線形代数のアルゴリズムと硬さ

Algorithms and Hardness for Linear Algebra on Geometric Graphs ( http://arxiv.org/abs/2011.02466v1 )

ライセンス: Link先を確認
Josh Alman, Timothy Chu, Aaron Schild, Zhao Song(参考訳) 関数 $\mathsf{k} : \mathbb{r}^{d} \times \mathbb{r}^{d} \to \mathbb{r}_{\geq 0}$, and a set $p = \{ x_1, \ldots, x_n\} \subset \mathbb{r}^d$ of $n$ points に対して、$\mathsf{k}$ graph $g_p$ of $p$ は$n$ノードの完全なグラフであり、ノード間の重み$i$ と $j$ は$\mathsf{k}(x_i, x_j)$ で与えられる。 本稿では,これらのグラフ上で効率的なスペクトルグラフ理論がいつ可能かを考察する。 We investigate whether or not it is possible to solve the following problems in $n^{1+o(1)}$ time for a $\mathsf{K}$-graph $G_P$ when $d < n^{o(1)}$: $\bullet$ Multiply a given vector by the adjacency matrix or Laplacian matrix of $G_P$ $\bullet$ Find a spectral sparsifier of $G_P$ $\bullet$ Solve a Laplacian system in $G_P$'s Laplacian matrix For each of these problems, we consider all functions of the form $\mathsf{K}(u,v) = f(\|u-v\|_2^2)$ for a function $f:\mathbb{R} \rightarrow \mathbb{R}$. 我々は、gaussian kernel、neural tangent kernelなどを含む多くの$\mathsf{k}$に対して、アルゴリズムと同等のハードネス結果を提供する。 例えば、次元 $d = \omega(\log n)$ において、これらの3つの問題すべてに対して、低パラメータ値が $n^{1+o(1)}$ であるような関数 $f$ に関連するパラメータが存在することを示し、高パラメータ値は、$f$ 上の自然な仮定が与えられたとき、強い指数時間仮説(\mathsf{seth}$)を仮定する準二次時間アルゴリズムが存在しないことを暗示する。 結果の一部として、グリーンガードとロークリンの祝福された高速多重極法における次元$d$への指数的依存は、幅広い関数のクラスに対して$\mathsf{SETH}$を仮定すると、改善できないことを示す。 我々の知る限りでは、これは高速多重極法について証明された最初の形式的制限である。

For a function $\mathsf{K} : \mathbb{R}^{d} \times \mathbb{R}^{d} \to \mathbb{R}_{\geq 0}$, and a set $P = \{ x_1, \ldots, x_n\} \subset \mathbb{R}^d$ of $n$ points, the $\mathsf{K}$ graph $G_P$ of $P$ is the complete graph on $n$ nodes where the weight between nodes $i$ and $j$ is given by $\mathsf{K}(x_i, x_j)$. In this paper, we initiate the study of when efficient spectral graph theory is possible on these graphs. We investigate whether or not it is possible to solve the following problems in $n^{1+o(1)}$ time for a $\mathsf{K}$-graph $G_P$ when $d < n^{o(1)}$: $\bullet$ Multiply a given vector by the adjacency matrix or Laplacian matrix of $G_P$ $\bullet$ Find a spectral sparsifier of $G_P$ $\bullet$ Solve a Laplacian system in $G_P$'s Laplacian matrix For each of these problems, we consider all functions of the form $\mathsf{K}(u,v) = f(\|u-v\|_2^2)$ for a function $f:\mathbb{R} \rightarrow \mathbb{R}$. We provide algorithms and comparable hardness results for many such $\mathsf{K}$, including the Gaussian kernel, Neural tangent kernels, and more. For example, in dimension $d = \Omega(\log n)$, we show that there is a parameter associated with the function $f$ for which low parameter values imply $n^{1+o(1)}$ time algorithms for all three of these problems and high parameter values imply the nonexistence of subquadratic time algorithms assuming Strong Exponential Time Hypothesis ($\mathsf{SETH}$), given natural assumptions on $f$. As part of our results, we also show that the exponential dependence on the dimension $d$ in the celebrated fast multipole method of Greengard and Rokhlin cannot be improved, assuming $\mathsf{SETH}$, for a broad class of functions $f$. To the best of our knowledge, this is the first formal limitation proven about fast multipole methods.
翻訳日:2022-09-29 21:58:45 公開日:2020-11-04
# ノイズは人間とニューラルネットワークを同じように悩ませるのか? 医用画像解析の展望

Do Noises Bother Human and Neural Networks In the Same Way? A Medical Image Analysis Perspective ( http://arxiv.org/abs/2011.02155v1 )

ライセンス: Link先を確認
Shao-Cheng Wen, Yu-Jen Chen, Zihao Liu, Wujie Wen, Xiaowei Xu, Yiyu Shi, Tsung-Yi Ho, Qianjun Jia, Meiping Huang, Jian Zhuang(参考訳) 深層学習は、鑑別、分類、セグメンテーションなど、医療画像において既にその力を実証していた。 これらの応用はすべて、医療画像の自動解析に先立って提案され、精度向上のための臨床評価において、放射線医により多くの情報をもたらす。 近年,多くの医療用 denoising 法では,有意なアーチファクト低減効果とノイズ除去効果が定量的にも定性的にも示された。 しかし、これらの既存手法は人間の視力を中心に開発されており、人間の目で知覚できるノイズ効果を最小限に抑えるように設計されている。 本稿では,次のニューラルネットワークのデノナイズに着目したアプリケーション誘導型デノナイズフレームワークを提案する。 実験では,提案フレームワークを異なるデータセット,モデル,ユースケースに適用した。 実験の結果,提案手法は,人間の視覚情報ネットワークよりも優れた結果が得られることがわかった。

Deep learning had already demonstrated its power in medical images, including denoising, classification, segmentation, etc. All these applications are proposed to automatically analyze medical images beforehand, which brings more information to radiologists during clinical assessment for accuracy improvement. Recently, many medical denoising methods had shown their significant artifact reduction result and noise removal both quantitatively and qualitatively. However, those existing methods are developed around human-vision, i.e., they are designed to minimize the noise effect that can be perceived by human eyes. In this paper, we introduce an application-guided denoising framework, which focuses on denoising for the following neural networks. In our experiments, we apply the proposed framework to different datasets, models, and use cases. Experimental results show that our proposed framework can achieve a better result than human-vision denoising network.
翻訳日:2022-09-29 21:57:21 公開日:2020-11-04
# video generative adversarial networks - レビュー

Video Generative Adversarial Networks: A Review ( http://arxiv.org/abs/2011.02250v1 )

ライセンス: Link先を確認
Nuha Aldausari, Arcot Sowmya, Nadine Marcus, Gelareh Mohammadi(参考訳) メディア、教育、エンターテイメントなど、複数の分野におけるコンテンツ制作分野への関心が高まり、画像、ビデオ、オーディオ、テキストなどのコンテンツを生成するためにAIアルゴリズムを使用する論文が増えている。 Generative Adversarial Networks (GAN)は、実際のデータサンプルに似たデータサンプルを合成する有望なモデルの1つである。 GANsモデルのバリエーションは、いくつかの調査論文である程度カバーされているが、私たちの知る限りでは、これは最先端のビデオGANsモデルをレビューする最初の調査論文の1つである。 本稿では,まずGANのレビュー論文を,一般的なGANのレビュー論文,画像GANのレビュー論文,および異常検出,医用画像,サイバーセキュリティなどの特別分野GANのレビュー論文に分類した。 本稿は、当初ビデオドメイン向けに開発されなかったが、複数のビデオGANに採用されているGANフレームワークの主な改善点について要約する。 そして、条件の有無に応じて、2つの主要区分の下に、映像GANsモデルの包括的なレビューを行う。 条件モデルはさらに、条件の種類に応じて音声、テキスト、ビデオ、画像にグループ化される。 論文は、現在のビデオ GAN モデルの主な課題と限界を強調して締めくくった。 補足材料には、データセット、応用損失関数、評価指標の包括的なリストが提供されている。

With the increasing interest in the content creation field in multiple sectors such as media, education, and entertainment, there is an increasing trend in the papers that uses AI algorithms to generate content such as images, videos, audio, and text. Generative Adversarial Networks (GANs) in one of the promising models that synthesizes data samples that are similar to real data samples. While the variations of GANs models, in general, have been covered to some extent in several survey papers, to the best of our knowledge, this is among the first survey papers that reviews the state-of-the-art video GANs models. This paper first categorized GANs review papers into general GANs review papers, image GANs review papers, and special field GANs review papers such as anomaly detection, medical imaging, or cybersecurity. The paper then summarizes the main improvements in GANs frameworks that are not initially developed for the video domain but have been adopted in multiple video GANs variations. Then, a comprehensive review of video GANs models is provided under two main divisions according to the presence or non-presence of a condition. The conditional models then further grouped according to the type of condition into audio, text, video, and image. The paper is concluded by highlighting the main challenges and limitations of the current video GANs models. A comprehensive list of datasets, applied loss functions, and evaluation metrics is provided in the supplementary material.
翻訳日:2022-09-29 21:57:09 公開日:2020-11-04
# ビデオ検索のためのグラフに基づく時間アグリゲーション

Graph Based Temporal Aggregation for Video Retrieval ( http://arxiv.org/abs/2011.02426v1 )

ライセンス: Link先を確認
Arvind Srinivasan, Aprameya Bharadwaj, Aveek Saha, Subramanyam Natarajan(参考訳) 大規模なビデオ検索は、多くの研究が進行中の研究分野である。 この分野の作業の大部分は、VSE++のような技術を使ったテキストクエリによるビデオ検索である。 しかし、画像検索による映像検索の研究はほとんど行われておらず、この分野で行われている作業は、ビデオデータセット内の画像クエリを利用するか、フレーム単位でビデオフレームを反復する。 これらのアプローチはデータセットの外からのクエリでは一般化されておらず、大規模なビデオデータセットではうまくスケールしない。 これらの課題を克服するために,検索対象のすべてのビデオから,統合されたフレーム集合から無向グラフを構築した画像クエリによるビデオ検索手法を提案する。 このグラフのノードの特徴は、ビデオ検索のタスクで使用される。 MSR-VTTデータセット上で、データセット外部からのクエリイメージを使用して実験を行う。 この新しいアプローチであるP@5を評価するために、P@10およびP@20メトリクスを算出する。 この研究ではResNet-152とResNet-50という2つの異なるモデルが使用されている。

Large scale video retrieval is a field of study with a lot of ongoing research. Most of the work in the field is on video retrieval through text queries using techniques such as VSE++. However, there is little research done on video retrieval through image queries, and the work that has been done in this field either uses image queries from within the video dataset or iterates through videos frame by frame. These approaches are not generalized for queries from outside the dataset and do not scale well for large video datasets. To overcome these issues, we propose a new approach for video retrieval through image queries where an undirected graph is constructed from the combined set of frames from all videos to be searched. The node features of this graph are used in the task of video retrieval. Experimentation is done on the MSR-VTT dataset by using query images from outside the dataset. To evaluate this novel approach P@5, P@10 and P@20 metrics are calculated. Two different ResNet models namely, ResNet-152 and ResNet-50 are used in this study.
翻訳日:2022-09-29 21:56:47 公開日:2020-11-04
# von-Mises損失を用いた不確実なVoxelに基づく3次元物体検出と追跡

Uncertainty-Aware Voxel based 3D Object Detection and Tracking with von-Mises Loss ( http://arxiv.org/abs/2011.02553v1 )

ライセンス: Link先を確認
Yuanxin Zhong, Minghan Zhu and Huei Peng(参考訳) オブジェクトの検出と追跡は、自律性において重要なタスクである。 特に、最近は3dオブジェクトの検出と追跡がホットな話題になっている。 物体検出には様々な方法が提案されているが、3次元検出・追跡タスクの不確実性は少ない。 不確実性は、認識システムのエラーに対処し、堅牢性を改善するのに役立つ。 本稿では,3次元物体検出の代表的なアルゴリズムの一つである第2検出器に不確実性回帰を付加することにより,目標追尾性能を向上させる手法を提案する。 本手法は, ガウス負対数損失(NLL)を推定するための位置的および次元的不確かさを推定し, 角不確かさ推定のためのvon-Mises NLL損失を導入する。 不確実性アウトプットを古典的なオブジェクトトラッキングフレームワークに供給し,一定の共分散を仮定したバニラトラッカと比較して追跡性能が向上することを示した。

Object detection and tracking is a key task in autonomy. Specifically, 3D object detection and tracking have been an emerging hot topic recently. Although various methods have been proposed for object detection, uncertainty in the 3D detection and tracking tasks has been less explored. Uncertainty helps us tackle the error in the perception system and improve robustness. In this paper, we propose a method for improving target tracking performance by adding uncertainty regression to the SECOND detector, which is one of the most representative algorithms of 3D object detection. Our method estimates positional and dimensional uncertainties with Gaussian Negative Log-Likelihood (NLL) Loss for estimation and introduces von-Mises NLL Loss for angular uncertainty estimation. We fed the uncertainty output into a classical object tracking framework and proved that our method increased the tracking performance compared against the vanilla tracker with constant covariance assumption.
翻訳日:2022-09-29 21:49:17 公開日:2020-11-04
# モバイルネットにおけるサブテンソル量子化

Subtensor Quantization for Mobilenets ( http://arxiv.org/abs/2011.08009v1 )

ライセンス: Link先を確認
Thu Dinh, Andrey Melnikov, Vasilios Daskalopoulos, Sek Chai(参考訳) ディープニューラルネットワーク(DNN)の量子化により、開発者はより少ないメモリとより効率的な低消費電力推論でモデルをデプロイできるようになった。 しかし、全てのDNN設計が量子化に親しみやすいわけではない。 例えば、人気の高いMobilenetアーキテクチャは、パラメータサイズと計算遅延を分離可能な深さワイド畳み込みで削減するように調整されているが、全ての量子化アルゴリズムがうまく機能し、精度が浮動小数点バージョンに悪影響を及ぼすわけではない。 本稿では,量子化損失の根本原因を解析し,チャネル単位やトレーニング対応アプローチに依存しない代替案を提案する。 我々は、ImageNetデータセット上の画像分類タスクと、浮動小数点バージョンの0.7%以内で、トレーニング後の8ビット推論トップ-1精度を評価する。

Quantization for deep neural networks (DNN) have enabled developers to deploy models with less memory and more efficient low-power inference. However, not all DNN designs are friendly to quantization. For example, the popular Mobilenet architecture has been tuned to reduce parameter size and computational latency with separable depth-wise convolutions, but not all quantization algorithms work well and the accuracy can suffer against its float point versions. In this paper, we analyzed several root causes of quantization loss and proposed alternatives that do not rely on per-channel or training-aware approaches. We evaluate the image classification task on ImageNet dataset, and our post-training quantized 8-bit inference top-1 accuracy in within 0.7% of the floating point version.
翻訳日:2022-09-29 21:49:01 公開日:2020-11-04
# JNLPチーム: COLIEE 2020における法律処理のためのディープラーニング

JNLP Team: Deep Learning for Legal Processing in COLIEE 2020 ( http://arxiv.org/abs/2011.08071v1 )

ライセンス: Link先を確認
Ha-Thanh Nguyen, Hai-Yen Thi Vuong, Phuong Minh Nguyen, Binh Tran Dang, Quan Minh Bui, Sinh Trong Vu, Chau Minh Nguyen, Vu Tran, Ken Satoh, Minh Le Nguyen(参考訳) 我々は,COLIEE 2020において,法律検索と法的質問応答の自動システムのためのディープラーニングに基づく手法を提案する。 これらのシステムはすべて、指定されたタスクに微調整される前に、大量のデータで事前訓練されることによって特徴づけられる。 このアプローチは、データの不足を克服し、優れたパフォーマンスを達成するのに役立ち、情報検索における関連する問題に対処し、法的領域における意思決定支援に役立ちます。 さらに、他のドメイン固有の問題に対処するためのアプローチも検討できる。

We propose deep learning based methods for automatic systems of legal retrieval and legal question-answering in COLIEE 2020. These systems are all characterized by being pre-trained on large amounts of data before being finetuned for the specified tasks. This approach helps to overcome the data scarcity and achieve good performance, thus can be useful for tackling related problems in information retrieval, and decision support in the legal domain. Besides, the approach can be explored to deal with other domain specific problems.
翻訳日:2022-09-29 21:48:46 公開日:2020-11-04
# 人間と人工感情のシミュレーション(共有)

Simulation of Human and Artificial Emotion (SHArE) ( http://arxiv.org/abs/2011.02151v1 )

ライセンス: Link先を確認
Kwadwo Opong-Mensah(参考訳) 人間と人工感情のシミュレーションフレームワーク(share)は、心理学、神経科学、人工知能の間で伝達可能なパラメータの観点から感情のアーキテクチャを記述する。 これらのパラメータは抽象概念として定義したり、個々のニューロンの電圧レベルまで微粒化することができる。 このモデルは、様々な精神疾患に対する新しい治療ソリューションにつながる可能性のある、人間の感情的軌道設計を可能にする。 人工知能のためのこの研究は、機械の感情や動機を観察する手段としてニューラルネットワークに適用できるコンパクトな表記法を提供する。

The framework for Simulation of Human and Artificial Emotion (SHArE) describes the architecture of emotion in terms of parameters transferable between psychology, neuroscience, and artificial intelligence. These parameters can be defined as abstract concepts or granularized down to the voltage levels of individual neurons. This model enables emotional trajectory design for humans which may lead to novel therapeutic solutions for various mental health concerns. For artificial intelligence, this work provides a compact notation which can be applied to neural networks as a means to observe the emotions and motivations of machines.
翻訳日:2022-09-29 21:48:15 公開日:2020-11-04
# IDE-Net:人間データからの対話型駆動イベントとパターン抽出

IDE-Net: Interactive Driving Event and Pattern Extraction from Human Data ( http://arxiv.org/abs/2011.02403v1 )

ライセンス: Link先を確認
Xiaosong Jia, Liting Sun, Masayoshi Tomizuka, Wei Zhan(参考訳) 自動運転車(AV)は、様々な運転シナリオにおいて、複数の異種道路利用者と道路を共有する必要がある。 全ての観察されたエージェントと慎重に相互作用することは圧倒的で不要であり、AVは周囲のエージェントといつ相互作用するかを判断する必要がある。 AVの予測・計画モジュールの設計・テストを容易にするため、対話行動の詳細な理解は適切な表現によって期待され、行動データのイベントを自動的に抽出・分類する必要がある。 相互作用の本質的なパターンに対する回答は、これらのモチベーションには欠かせないだけでなく、いつ答えるにも不可欠である。 したがって、人間データからインタラクティブな運転イベントやパターンを抽出する学習は、avにとって重要なタスクであるかどうかを問う。 しかし、対話行動の定義や分類は明確ではなく、既存の作品の多くは手作業によるラベリングや手作業によるルールや特徴に基づいている。 本稿では,車両軌道から対話イベントやパターンを直接抽出するディープラーニングフレームワークであるInteractive Driving Event and Pattern extract Network (IDE-Net)を提案する。 IDE-Netでは、マルチタスク学習のパワーを活用し、教師なしの方法でパターン抽出を支援する3つの補助タスクを提案する。 また、軌道データを符号化する独自の時空間ブロックを設計する。 InterACTIONデータセットの実験結果は、より優れた一般化性と効果的なパターン抽出の観点から、そのような設計の有効性を検証した。 インタラクションの3つの解釈可能なパターンを見つけ、ドライバーの行動表現、モデリング、理解のための洞察をもたらす。 客観的評価指標と主観的評価指標の両方を学習パターンの分析に適用した。

Autonomous vehicles (AVs) need to share the road with multiple, heterogeneous road users in a variety of driving scenarios. It is overwhelming and unnecessary to carefully interact with all observed agents, and AVs need to determine whether and when to interact with each surrounding agent. In order to facilitate the design and testing of prediction and planning modules of AVs, in-depth understanding of interactive behavior is expected with proper representation, and events in behavior data need to be extracted and categorized automatically. Answers to what are the essential patterns of interactions are also crucial for these motivations in addition to answering whether and when. Thus, learning to extract interactive driving events and patterns from human data for tackling the whether-when-what tasks is of critical importance for AVs. There is, however, no clear definition and taxonomy of interactive behavior, and most of the existing works are based on either manual labelling or hand-crafted rules and features. In this paper, we propose the Interactive Driving event and pattern Extraction Network (IDE-Net), which is a deep learning framework to automatically extract interaction events and patterns directly from vehicle trajectories. In IDE-Net, we leverage the power of multi-task learning and proposed three auxiliary tasks to assist the pattern extraction in an unsupervised fashion. We also design a unique spatial-temporal block to encode the trajectory data. Experimental results on the INTERACTION dataset verified the effectiveness of such designs in terms of better generalizability and effective pattern extraction. We find three interpretable patterns of interactions, bringing insights for driver behavior representation, modeling and comprehension. Both objective and subjective evaluation metrics are adopted in our analysis of the learned patterns.
翻訳日:2022-09-29 21:47:59 公開日:2020-11-04
# 微分方程式と関数方程式を解くニューロシンボリック法

A Neuro-Symbolic Method for Solving Differential and Functional Equations ( http://arxiv.org/abs/2011.02415v1 )

ライセンス: Link先を確認
Maysum Panju, Ali Ghodsi(参考訳) ニューラルネットワークを用いて微分方程式を解く場合、通常は数学的に解釈できないブラックボックス関数の形で解を生成する。 深層学習学習手法を利用して微分方程式を解くための記号表現を生成する手法を提案する。 既存の手法とは異なり、我々のシステムは記号数学よりも言語モデルを学習する必要がなく、スケーラブルでコンパクトで、様々なタスクや構成に容易に適応できる。 本手法の一環として, 数学的表現を学習し, カスタマイズ可能な目的を最適化するニューラルアーキテクチャを提案する。 このシステムは、常に有効な記号式を返すように設計されており、微分方程式に対する正確な解析解が見つからない場合、有用な近似を生成する。 本手法が多くの微分方程式にどのように適用できるかを例示し,有用あるいは洞察に富むシンボリック近似を求める。 さらに, 積分方程式や関数方程式など他の数学的タスクに対する記号的解を求めるために, システムを無力に一般化する方法を示す。

When neural networks are used to solve differential equations, they usually produce solutions in the form of black-box functions that are not directly mathematically interpretable. We introduce a method for generating symbolic expressions to solve differential equations while leveraging deep learning training methods. Unlike existing methods, our system does not require learning a language model over symbolic mathematics, making it scalable, compact, and easily adaptable for a variety of tasks and configurations. As part of the method, we propose a novel neural architecture for learning mathematical expressions to optimize a customizable objective. The system is designed to always return a valid symbolic formula, generating a useful approximation when an exact analytic solution to a differential equation is not or cannot be found. We demonstrate through examples how our method can be applied on a number of differential equations, often obtaining symbolic approximations that are useful or insightful. Furthermore, we show how the system can be effortlessly generalized to find symbolic solutions to other mathematical tasks, including integration and functional equations.
翻訳日:2022-09-29 21:47:35 公開日:2020-11-04
# ロバスト・精密・タスク指向の把持予測によるロボット組立

Towards Robotic Assembly by Predicting Robust, Precise and Task-oriented Grasps ( http://arxiv.org/abs/2011.02462v1 )

ライセンス: Link先を確認
Jialiang Zhao, Daniel Troniak, Oliver Kroemer(参考訳) 自律ロボットの精密組み立て作業にはロバストなタスク指向の把握計画が不可欠である。 対象タスクの形状や前提条件の知識は、実行すべき適切な把握を決定する際に取り入れるべきである。 しかし,ロボット制御時のノイズ,未知の物体特性,複雑な物体と物体の相互作用をモデル化する困難など,これらの把握を実現する上での課題には,いくつかの要因がある。 本稿では,3つのカスケードネットワークを学習することにより,この問題を分解し,ロバスト性,精度,タスク性能の把握を最適化する手法を提案する。 本手法は,ペグへの歯車の挿入,角へのブラケットの整列,スロットへの形状の挿入という3つの一般的な組立作業におけるシミュレーション手法を評価する。 提案手法は,プロセス生成オブジェクトを用いた大規模自己教師あり把握シミュレーションに基づくカリキュラムを用いて学習する。 最後に,本手法がブラケット挿入の4.28mm誤差と歯車挿入の1.44mm誤差を達成できる実ロボットを用いて,最初の2つのタスクの性能を評価する。

Robust task-oriented grasp planning is vital for autonomous robotic precision assembly tasks. Knowledge of the objects' geometry and preconditions of the target task should be incorporated when determining the proper grasp to execute. However, several factors contribute to the challenges of realizing these grasps such as noise when controlling the robot, unknown object properties, and difficulties modeling complex object-object interactions. We propose a method that decomposes this problem and optimizes for grasp robustness, precision, and task performance by learning three cascaded networks. We evaluate our method in simulation on three common assembly tasks: inserting gears onto pegs, aligning brackets into corners, and inserting shapes into slots. Our policies are trained using a curriculum based on large-scale self-supervised grasp simulations with procedurally generated objects. Finally, we evaluate the performance of the first two tasks with a real robot where our method achieves 4.28mm error for bracket insertion and 1.44mm error for gear insertion.
翻訳日:2022-09-29 21:47:19 公開日:2020-11-04
# 量子化変分推論

Quantized Variational Inference ( http://arxiv.org/abs/2011.02271v1 )

ライセンス: Link先を確認
Amir Dib(参考訳) 我々は,エビデンス下限最大化の新しいアルゴリズムである量子化変分推論(quantized variational inference)を提案する。 本稿では, ELBO最適化において, 漸近的に減衰するバイアスを発生させるコストで, 最適なボロノイテッセレーションが分散自由勾配をいかに生み出すかを示す。 その後,漸近境界を改善するためのリチャードソン外挿型手法を提案する。 量子化変分推論フレームワークを用いることで、スコア関数と再パラメータ化勾配推定器の両方の高速収束を計算コストで実現できることを示す。 最後に,本手法の性能とその限界を評価する実験をいくつか提案する。

We present Quantized Variational Inference, a new algorithm for Evidence Lower Bound maximization. We show how Optimal Voronoi Tesselation produces variance free gradients for ELBO optimization at the cost of introducing asymptotically decaying bias. Subsequently, we propose a Richardson extrapolation type method to improve the asymptotic bound. We show that using the Quantized Variational Inference framework leads to fast convergence for both score function and the reparametrized gradient estimator at a comparable computational cost. Finally, we propose several experiments to assess the performance of our method and its limitations.
翻訳日:2022-09-29 21:40:35 公開日:2020-11-04
# GANにおける勾配の収束性について: 勾配流としてのMDD GAN

On the Convergence of Gradient Descent in GANs: MMD GAN As a Gradient Flow ( http://arxiv.org/abs/2011.02402v1 )

ライセンス: Link先を確認
Youssef Mroueh, Truyen Nguyen(参考訳) 我々は、GANの最大平均誤差($\mathrm{MMD}$)問題を考察し、勾配正規化$\mathrm{MMD}$ GANにおけるmin-maxゲームを模倣するパラメトリックカーネル化勾配フローを提案する。 この流れは確率分布の統計的多様体上の$\mathrm{mmd}$を最小化する降下方向を与える。 次に、勾配正規化 $\mathrm{MMD}$ GAN におけるジェネレータのパラメータ空間上の勾配降下が対象分布に大域的に収束することを保証する明示的な条件を導出する。 この条件下では、MDD GANにおける勾配降下の非漸近収束結果を与える。 この論文のもう1つの貢献は、$\mathrm{MMD}$ の正規化の動的定式化の導入であり、$\mathrm{MMD}$ のパラメトリックな核化降下が、新しいリーマン構造に関してこの関数の勾配フローであることを示すことである。 得られた理論的結果は、非常に一般的な汎関数に対する勾配流を扱えるので、GAN 以外の統計多様体上の他の種類の変分推論にも応用できる。 最後に,我々のパラメトリック核化勾配流はGANトレーニングを安定させ,収束を保証することを示唆する数値実験を行った。

We consider the maximum mean discrepancy ($\mathrm{MMD}$) GAN problem and propose a parametric kernelized gradient flow that mimics the min-max game in gradient regularized $\mathrm{MMD}$ GAN. We show that this flow provides a descent direction minimizing the $\mathrm{MMD}$ on a statistical manifold of probability distributions. We then derive an explicit condition which ensures that gradient descent on the parameter space of the generator in gradient regularized $\mathrm{MMD}$ GAN is globally convergent to the target distribution. Under this condition, we give non asymptotic convergence results of gradient descent in MMD GAN. Another contribution of this paper is the introduction of a dynamic formulation of a regularization of $\mathrm{MMD}$ and demonstrating that the parametric kernelized descent for $\mathrm{MMD}$ is the gradient flow of this functional with respect to the new Riemannian structure. Our obtained theoretical result allows ones to treat gradient flows for quite general functionals and thus has potential applications to other types of variational inferences on a statistical manifold beyond GANs. Finally, numerical experiments suggest that our parametric kernelized gradient flow stabilizes GAN training and guarantees convergence.
翻訳日:2022-09-29 21:40:26 公開日:2020-11-04
# 大規模データセットのための極限学習マシンにおけるランクベース擬似逆計算

Rank Based Pseudoinverse Computation in Extreme Learning Machine for Large Datasets ( http://arxiv.org/abs/2011.02436v1 )

ライセンス: Link先を確認
Ramesh Ragala and Bharadwaja kumar(参考訳) ELM(Extreme Learning Machine)は、単一層フィードフォワードニューラルネットワーク(SLFN)に基づく分類、回帰問題に対する効率的かつ効果的な最小二乗学習アルゴリズムである。 文献では、適度なデータセットに対してより高速な収束と優れた一般化能力があることが示されている。 しかし、多数の隠れノードがある場合や、複雑なパターン認識問題をトレーニングするための大量のインスタンスがある場合、疑似逆を計算することに関わる多くの課題がある。 この問題に対処するために,EM-ELM,DF-ELMなどのいくつかの手法が文献で提案されている。 本稿では,隠れ層行列の新しいランクベース行列分解法を導入し,最適学習時間を持ち,隠れ層における多数の隠れノードの計算複雑性を低減する。 以上の結果から,df-elmアルゴリズムの最小訓練時間に近い訓練時間と,近年の文献で効率的なdf-elmアルゴリズムの最悪の訓練時間との差が示唆された。

Extreme Learning Machine (ELM) is an efficient and effective least-square-based learning algorithm for classification, regression problems based on single hidden layer feed-forward neural network (SLFN). It has been shown in the literature that it has faster convergence and good generalization ability for moderate datasets. But, there is great deal of challenge involved in computing the pseudoinverse when there are large numbers of hidden nodes or for large number of instances to train complex pattern recognition problems. To address this problem, a few approaches such as EM-ELM, DF-ELM have been proposed in the literature. In this paper, a new rank-based matrix decomposition of the hidden layer matrix is introduced to have the optimal training time and reduce the computational complexity for a large number of hidden nodes in the hidden layer. The results show that it has constant training time which is closer towards the minimal training time and very far from worst-case training time of the DF-ELM algorithm that has been shown efficient in the recent literature.
翻訳日:2022-09-29 21:39:47 公開日:2020-11-04
# 微粒バイアス分散分解を必要とする二重蛍光の理解

Understanding Double Descent Requires a Fine-Grained Bias-Variance Decomposition ( http://arxiv.org/abs/2011.03321v1 )

ライセンス: Link先を確認
Ben Adlam and Jeffrey Pennington(参考訳) 古典的学習理論は、機械学習モデルの最適一般化性能は、高いバイアスを示すより単純なモデルと予測関数の高分散を示すより複雑なモデルで中間モデル複雑性で起こるべきであることを示唆している。 しかし、そのような単純なトレードオフは、過度にパラメータ化された状態におけるバイアスと分散を同時に達成する深層学習モデルを適切に記述していない。 この振る舞いを説明する上での大きな障害は、ディープラーニングアルゴリズムが一般に、個々の寄与が全分散で見えない複数のランダムなソースを含むことである。 微粒化解析を実現するために, サンプリング, 初期化, ラベルのランダム性に関連する用語に, ばらつきの解釈可能な対称分解を記述した。 さらに,この分解の高次元漸近挙動をランダムな特徴核回帰に対して計算し,その現象学を解析した。 バイアスはネットワーク幅とともに単調に減少するが、分散項は非単調な振る舞いを示し、ラベルノイズがなくても補間境界で発散することができる。 発散はサンプリングと初期化の間の 'emph{interaction} によって引き起こされ、したがって初期パラメータ (すなわちアンサンブル学習) に対するサンプル (bagging) \emph{or} の差分化によって排除される。

Classical learning theory suggests that the optimal generalization performance of a machine learning model should occur at an intermediate model complexity, with simpler models exhibiting high bias and more complex models exhibiting high variance of the predictive function. However, such a simple trade-off does not adequately describe deep learning models that simultaneously attain low bias and variance in the heavily overparameterized regime. A primary obstacle in explaining this behavior is that deep learning algorithms typically involve multiple sources of randomness whose individual contributions are not visible in the total variance. To enable fine-grained analysis, we describe an interpretable, symmetric decomposition of the variance into terms associated with the randomness from sampling, initialization, and the labels. Moreover, we compute the high-dimensional asymptotic behavior of this decomposition for random feature kernel regression, and analyze the strikingly rich phenomenology that arises. We find that the bias decreases monotonically with the network width, but the variance terms exhibit non-monotonic behavior and can diverge at the interpolation boundary, even in the absence of label noise. The divergence is caused by the \emph{interaction} between sampling and initialization and can therefore be eliminated by marginalizing over samples (i.e. bagging) \emph{or} over the initial parameters (i.e. ensemble learning).
翻訳日:2022-09-29 21:38:49 公開日:2020-11-04
# 階層群スパース正規化を用いた深層畳み込みニューラルネットワークのフィルタプルーニング

Filter Pruning using Hierarchical Group Sparse Regularization for Deep Convolutional Neural Networks ( http://arxiv.org/abs/2011.02389v1 )

ライセンス: Link先を確認
Kakeru Mitsuno and Takio Kurita(参考訳) 畳み込みニューラルネットワークは、しばしば冗長なパラメータで訓練されるため、冗長なカーネルやフィルタを削減して、分類精度を落とさずにコンパクトなネットワークを得ることができる。 本稿では,階層型群スパース正規化を用いたフィルタプルーニング手法を提案する。 従来の研究では,不要チャネルに接続されたフィルタが自動的に0に近いスパースネットワークを得る際に,階層群スパース正規化が有効であることを示した。 階層群スパース正規化による畳み込みニューラルネットワークのトレーニング後、ランダムに選択されたトレーニングサンプルの分類損失の増加に基づいて不要フィルタを選択し、コンパクトなネットワークを得る。 提案手法は, CIFAR-10におけるResNetのパラメータを50%以上削減できるが, 試料の精度は0.3%しか低下しない。 また、ベースラインネットワークよりも精度の高いtinyimagenet-200では、34%のresnetパラメータが削減される。

Since the convolutional neural networks are often trained with redundant parameters, it is possible to reduce redundant kernels or filters to obtain a compact network without dropping the classification accuracy. In this paper, we propose a filter pruning method using the hierarchical group sparse regularization. It is shown in our previous work that the hierarchical group sparse regularization is effective in obtaining sparse networks in which filters connected to unnecessary channels are automatically close to zero. After training the convolutional neural network with the hierarchical group sparse regularization, the unnecessary filters are selected based on the increase of the classification loss of the randomly selected training samples to obtain a compact network. It is shown that the proposed method can reduce more than 50% parameters of ResNet for CIFAR-10 with only 0.3% decrease in the accuracy of test samples. Also, 34% parameters of ResNet are reduced for TinyImageNet-200 with higher accuracy than the baseline network.
翻訳日:2022-09-29 21:38:02 公開日:2020-11-04
# 知識蒸留を用いたディープニューラルネットワークのためのチャネルプランティング

Channel Planting for Deep Neural Networks using Knowledge Distillation ( http://arxiv.org/abs/2011.02390v1 )

ライセンス: Link先を確認
Kakeru Mitsuno, Yuichiro Nomura and Takio Kurita(参考訳) 近年、より深く、より広いニューラルネットワークはコンピュータビジョンタスクにおいて優れた性能を示しているが、その膨大なパラメータは計算コストとオーバーフィットをもたらす。 ネットワーク性能を低下させることなく,ネットワークサイズを圧縮する方法が提案されている。 ネットワークプルーニングは、ネットワークから冗長かつ不要なパラメータを削減できる。 知識蒸留はより深いネットワークの知識をより小さなネットワークに伝達することができる。 これらの手法により得られたより小さなネットワークの性能は、予め定義されたネットワークによって制限される。 ニューラルネットワーク検索が提案されており、ネットワークのアーキテクチャを自動的に検索して、構造制限を破ることができる。 また、ネットワークをサブネットワークとしてインクリメンタルにトレーニングするための動的構成方法もある。 本稿では,植え付けと呼ばれる深層ニューラルネットワークのための新しいインクリメンタルトレーニングアルゴリズムを提案する。 初期ネットワークの層にチャネルを段階的に増やし、初期のトレーニングされたパラメータを固定することで、ネットワーク性能を改善するために、より少ないパラメータで最適なネットワークアーキテクチャを探索することができる。 また, 栽培チャネルの訓練に知識蒸留法を適用することを提案する。 より深いネットワークの知識を伝達することで、ネットワークを効果的かつ効率的に成長させることができる。 CIFAR-10/100 や STL-10 などの異なるデータセットに対する提案手法の有効性を評価する。 STL-10データセットでは、大きなネットワークに比べて7%のパラメータで同等の性能を達成でき、少量のデータによるオーバーフィッティングを低減できることを示す。

In recent years, deeper and wider neural networks have shown excellent performance in computer vision tasks, while their enormous amount of parameters results in increased computational cost and overfitting. Several methods have been proposed to compress the size of the networks without reducing network performance. Network pruning can reduce redundant and unnecessary parameters from a network. Knowledge distillation can transfer the knowledge of deeper and wider networks to smaller networks. The performance of the smaller network obtained by these methods is bounded by the predefined network. Neural architecture search has been proposed, which can search automatically the architecture of the networks to break the structure limitation. Also, there is a dynamic configuration method to train networks incrementally as sub-networks. In this paper, we present a novel incremental training algorithm for deep neural networks called planting. Our planting can search the optimal network architecture with smaller number of parameters for improving the network performance by augmenting channels incrementally to layers of the initial networks while keeping the earlier trained parameters fixed. Also, we propose using the knowledge distillation method for training the channels planted. By transferring the knowledge of deeper and wider networks, we can grow the networks effectively and efficiently. We evaluate the effectiveness of the proposed method on different datasets such as CIFAR-10/100 and STL-10. For the STL-10 dataset, we show that we are able to achieve comparable performance with only 7% parameters compared to the larger network and reduce the overfitting caused by a small amount of the data.
翻訳日:2022-09-29 21:37:48 公開日:2020-11-04
# 飛行管理システムにおける軌道予測の適応応力試験

Adaptive Stress Testing of Trajectory Predictions in Flight Management Systems ( http://arxiv.org/abs/2011.02559v1 )

ライセンス: Link先を確認
Robert J. Moss, Ritchie Lee, Nicholas Visser, Joachim Hochwarth, James G. Lopez, and Mykel J. Kochenderfer(参考訳) 飛行クリティカルシステムにおける故障事象とその可能性を探るため,適応ストレステストと呼ばれる高度なブラックボックスストレステスト手法を用いて検討を行った。 本研究では,横方向の経路点と経路環境条件の集合を入力とした開発型商業飛行管理システムから軌道予測器を解析する。 本研究の目的は,予測された側方軌道の不整合に関連する障害イベントを探索することである。 この作業の意図は、潜在的な障害を見つけて、それを開発者に報告することで、デプロイ前にシステムの欠点に対処し、解決することです。 探索性能を向上させるため、本研究は、探索中の状態遷移を収集し、シミュレーションロールアウトの終了時に評価することにより、シーケンシャルな決定問題に対してより一般的に適用される適応的ストレス試験定式化を拡張した。 改良型モンテカルロ木探索アルゴリズムを, 対向的強化学習者として, 漸進的に拡張した。 この性能はモンテカルロ直接シミュレーションやクロスエントロピー法と比較される。 目標は、従来の要件ベースのテストでは見つからない潜在的な問題を見つけることです。 その結果、適応的ストレステスト手法は、より多くの障害を見つけ、ベースライン手法と比較して高い確率で失敗を見つけます。

To find failure events and their likelihoods in flight-critical systems, we investigate the use of an advanced black-box stress testing approach called adaptive stress testing. We analyze a trajectory predictor from a developmental commercial flight management system which takes as input a collection of lateral waypoints and en-route environmental conditions. Our aim is to search for failure events relating to inconsistencies in the predicted lateral trajectories. The intention of this work is to find likely failures and report them back to the developers so they can address and potentially resolve shortcomings of the system before deployment. To improve search performance, this work extends the adaptive stress testing formulation to be applied more generally to sequential decision-making problems with episodic reward by collecting the state transitions during the search and evaluating at the end of the simulated rollout. We use a modified Monte Carlo tree search algorithm with progressive widening as our adversarial reinforcement learner. The performance is compared to direct Monte Carlo simulations and to the cross-entropy method as an alternative importance sampling baseline. The goal is to find potential problems otherwise not found by traditional requirements-based testing. Results indicate that our adaptive stress testing approach finds more failures and finds failures with higher likelihood relative to the baseline approaches.
翻訳日:2022-09-29 21:31:02 公開日:2020-11-04
# 多様性に富むオプション批判

Diversity-Enriched Option-Critic ( http://arxiv.org/abs/2011.02565v1 )

ライセンス: Link先を確認
Anand Kamat and Doina Precup(参考訳) 時間的抽象化により、強化学習エージェントは知識を表現し、異なる時間的スケールの戦略を開発することができる。 オプション批判フレームワークは、モデルフリー設定でオプションとして表現される、時間的に拡張されたアクションをエンドツーエンドで学習する。 しかし、オプション批判の可能性は、2つの大きな課題、非常に類似した動作を採用する複数のオプション、タスク関連オプションの縮小のために制限されている。 これらの発生は、一時的な抽象化の必要性を損なうだけでなく、パフォーマンスにも影響を及ぼす。 本稿では,様々な選択肢を学習することで,これらの問題に取り組む。 本稿では,課題報酬を増大させる情報理論固有の報酬と,オプションセットにおける行動多様性を促進するための新たな終了目標を提案する。 提案手法は,複数の離散的かつ連続的な制御タスクに対してエンドツーエンドでオプションを学習できることを実証的に示す。 さらに,提案手法は,オプション批判とは対照的に,堅牢で再利用可能な,信頼性の高い,解釈可能な選択肢を持続的に生成することを示す。

Temporal abstraction allows reinforcement learning agents to represent knowledge and develop strategies over different temporal scales. The option-critic framework has been demonstrated to learn temporally extended actions, represented as options, end-to-end in a model-free setting. However, feasibility of option-critic remains limited due to two major challenges, multiple options adopting very similar behavior, or a shrinking set of task relevant options. These occurrences not only void the need for temporal abstraction, they also affect performance. In this paper, we tackle these problems by learning a diverse set of options. We introduce an information-theoretic intrinsic reward, which augments the task reward, as well as a novel termination objective, in order to encourage behavioral diversity in the option set. We show empirically that our proposed method is capable of learning options end-to-end on several discrete and continuous control tasks, outperforms option-critic by a wide margin. Furthermore, we show that our approach sustainably generates robust, reusable, reliable and interpretable options, in contrast to option-critic.
翻訳日:2022-09-29 21:30:42 公開日:2020-11-04
# 残留可能性森林

Residual Likelihood Forests ( http://arxiv.org/abs/2011.02086v1 )

ライセンス: Link先を確認
Yan Zuo, Tom Drummond(参考訳) 本稿では,Residual Likelihood Forests (RLF)と呼ばれる新たなアンサンブル学習手法を提案する。 弱学習者は、事前学習者の文脈における大域的損失(観測データから測定される確率分布ではなく)を用いて逐次最適化された条件付き確率を生成し、乗算的に(加法ではなく)合成する。 これにより、強力な分類器の効率が向上し、モデル容量の点でよりコンパクトな分類器の設計が可能になる。 提案手法をいくつかの機械学習分類タスクに適用し,性能の大幅な向上を示す。 Random ForestsやGradient Boosted Treesといったいくつかのアンサンブルアプローチと比較すると、RDFは必要なモデルサイズを同時に削減しながら、パフォーマンスを大幅に改善する。

This paper presents a novel ensemble learning approach called Residual Likelihood Forests (RLF). Our weak learners produce conditional likelihoods that are sequentially optimized using global loss in the context of previous learners within a boosting-like framework (rather than probability distributions that are measured from observed data) and are combined multiplicatively (rather than additively). This increases the efficiency of our strong classifier, allowing for the design of classifiers which are more compact in terms of model capacity. We apply our method to several machine learning classification tasks, showing significant improvements in performance. When compared against several ensemble approaches including Random Forests and Gradient Boosted Trees, RLFs offer a significant improvement in performance whilst concurrently reducing the required model size.
翻訳日:2022-09-29 21:30:24 公開日:2020-11-04
# キャップ付きノルム線形判別分析とその応用

Capped norm linear discriminant analysis and its applications ( http://arxiv.org/abs/2011.02147v1 )

ライセンス: Link先を確認
Jiakou Liu, Xiong Xiong, Pei-Wei Ren, Da Zhao, Chun-Na Li, Yuan-Hai Shao(参考訳) 古典線形判別分析 (lda) は正方形フロベニアスノルムに基づいており、そのため外れ値やノイズに敏感である。 LDAのロバスト性を改善するために,非二乗 l_2-ノルムと「キャップ」演算を用いた行列のキャップ付き l_{2,1}-ノルムを導入し,CLDA と呼ばれる新規なキャップ付き l_{2,1}-ノルム線形判別法を提案する。 キャップ付きl_{2,1}-ノルムを用いることで、CLDAは極端な外れ値を取り除き、ノイズデータの影響を抑えることができる。 実際、CLDAは重み付きLDAと見なすこともできる。 CLDAは、理論収束を伴う一連の一般化固有値問題によって解決される。 人工データセットとUCIデータセットと2つの画像データセットの実験結果から,CLDAの有効性が示された。

Classical linear discriminant analysis (LDA) is based on squared Frobenious norm and hence is sensitive to outliers and noise. To improve the robustness of LDA, in this paper, we introduce capped l_{2,1}-norm of a matrix, which employs non-squared l_2-norm and "capped" operation, and further propose a novel capped l_{2,1}-norm linear discriminant analysis, called CLDA. Due to the use of capped l_{2,1}-norm, CLDA can effectively remove extreme outliers and suppress the effect of noise data. In fact, CLDA can be also viewed as a weighted LDA. CLDA is solved through a series of generalized eigenvalue problems with theoretical convergency. The experimental results on an artificial data set, some UCI data sets and two image data sets demonstrate the effectiveness of CLDA.
翻訳日:2022-09-29 21:30:09 公開日:2020-11-04
# eadamオプティマイザ:$\epsilon$adamのインパクト

EAdam Optimizer: How $\epsilon$ Impact Adam ( http://arxiv.org/abs/2011.02150v1 )

ライセンス: Link先を確認
Wei Yuan and Kai-Xin Gao(参考訳) 多くの適応最適化手法がディープラーニングで提案され、Adamはデフォルトのアルゴリズムと見なされ、多くのディープラーニングフレームワークで広く使われている。 近年、Adabound、RAdam、AdabeliefなどのAdamの変種が提案され、Adamよりも優れた性能を示している。 しかし、これらの変種は主に勾配や四角形の違いによって段階的な変化に焦点をあてている。 本稿では,強力な二階最適化器の成功のために適切な減衰が重要であるという事実から,Adamの定数$\epsilon$の影響を論じる。 驚いたことに、Adam が $\epsilon$ の位置を変更するだけでより良いパフォーマンスを得ることができる。 この発見に基づいて、余分なハイパーパラメータや計算コストを必要としないEAdamと呼ばれるAdamの新しい変種を提案する。 また,本手法とAdamの関係と差異についても論じる。 最後に,様々なタスクやモデルについて広範な実験を行う。 実験の結果,本手法はadamと比較して大幅に改善できることがわかった。 私たちのコードはhttps://github.com/yuanwei2019/eadam-optimizerで利用可能です。

Many adaptive optimization methods have been proposed and used in deep learning, in which Adam is regarded as the default algorithm and widely used in many deep learning frameworks. Recently, many variants of Adam, such as Adabound, RAdam and Adabelief, have been proposed and show better performance than Adam. However, these variants mainly focus on changing the stepsize by making differences on the gradient or the square of it. Motivated by the fact that suitable damping is important for the success of powerful second-order optimizers, we discuss the impact of the constant $\epsilon$ for Adam in this paper. Surprisingly, we can obtain better performance than Adam simply changing the position of $\epsilon$. Based on this finding, we propose a new variant of Adam called EAdam, which doesn't need extra hyper-parameters or computational costs. We also discuss the relationships and differences between our method and Adam. Finally, we conduct extensive experiments on various popular tasks and models. Experimental results show that our method can bring significant improvement compared with Adam. Our code is available at https://github.com/yuanwei2019/EAdam-optimizer.
翻訳日:2022-09-29 21:29:54 公開日:2020-11-04
# tabu searchによるフロアスペース最適化による店舗収益の最大化

Maximizing Store Revenues using Tabu Search for Floor Space Optimization ( http://arxiv.org/abs/2011.04422v1 )

ライセンス: Link先を確認
Jiefeng Xu and Evren Gul and Alvin Lim(参考訳) フロアスペース最適化は小売業者がよく直面する重要な収益管理問題である。 フロアスペースを最も適切な計画図に割り当てられた製品カテゴリに最適に割り当てることで、ストア収益を最大化する。 我々は,この問題をグローバル制約を付加した連結多重選択クナップサック問題として定式化し,複数の特別地区構造を利用したタブ検索に基づくメタヒューリスティックを提案する。 また、複数の近傍の動きを結合する方法を決定するメカニズムも組み込んでいます。 先行検索履歴からの学習に基づく候補リスト戦略も,検索品質の向上に活用されている。 一連のテスト問題による計算テストの結果、タブ検索ヒューリスティックは妥当な時間内に全ての問題を解くことができることを示した。 計算実験により,アルゴリズムの関連成分の個々の寄与の分析を行った。

Floor space optimization is a critical revenue management problem commonly encountered by retailers. It maximizes store revenue by optimally allocating floor space to product categories which are assigned to their most appropriate planograms. We formulate the problem as a connected multi-choice knapsack problem with an additional global constraint and propose a tabu search based meta-heuristic that exploits the multiple special neighborhood structures. We also incorporate a mechanism to determine how to combine the multiple neighborhood moves. A candidate list strategy based on learning from prior search history is also employed to improve the search quality. The results of computational testing with a set of test problems show that our tabu search heuristic can solve all problems within a reasonable amount of time. Analyses of individual contributions of relevant components of the algorithm were conducted with computational experiments.
翻訳日:2022-09-29 21:22:28 公開日:2020-11-04
# 遺伝的アルゴリズムと機械学習を併用した輸血・誘導シナリオによる血液様物質の高スペクトル分類

Hyperspectral classification of blood-like substances using machine learning methods combined with genetic algorithms in transductive and inductive scenarios ( http://arxiv.org/abs/2011.02188v1 )

ライセンス: Link先を確認
Filip Pa{\l}ka, Wojciech Ksi\k{a}\.zek, Pawe{\l} P{\l}awiak, Micha{\l} Romaszewski, Kamil Ksi\k{a}\.zek(参考訳) 本研究は,高スペクトル画像分類における遺伝的アルゴリズム(GA)のモデル化と帯域選択に焦点を当てた。 血液を含む7つのハイパースペクトル画像と5つの視覚的に類似した物質からなる法医学的インスパイアされたデータセットを用いて、GA最適化分類器を2つのシナリオでテストする。 実験では,GAと格子探索による古典モデル最適化を比較した。 この結果から,GAに基づくモデル最適化はバンド数を削減し,GSベースの参照モデルより優れた正確な分類器を作成することができることがわかった。 検証セットの重要性を強調する実験でこれを説明します。

This study is focused on applying genetic algorithms (GA) to model and band selection in hyperspectral image classification. We use a forensic-inspired data set of seven hyperspectral images with blood and five visually similar substances to test GA-optimised classifiers in two scenarios: when the training and test data come from the same image and when they come from different images, which is a more challenging task due to significant spectra differences. In our experiments we compare GA with a classic model optimisation through grid search. Our results show that GA-based model optimisation can reduce the number of bands and create an accurate classifier that outperforms the GS-based reference models, provided that during model optimisation it has access to examples similar to test data. We illustrate this with experiment highlighting the importance of a validation set.
翻訳日:2022-09-29 21:21:56 公開日:2020-11-04
# 局所系推論のための深層学習分類器

A deep learning classifier for local ancestry inference ( http://arxiv.org/abs/2011.02081v1 )

ライセンス: Link先を確認
Matthew Aguirre, Jan Sokol, Guhan Venkataraman, Alexander Ioannidis(参考訳) 局所祖先推論(LAI)は、個人のゲノムの各セグメントの祖先を特定し、多様なコホートの医学的および集団遺伝学的研究において重要なステップである。 LAIにはHidden Markov ModelsやRandom Forestsなどいくつかの技術が使用されている。 本稿では,LAIタスクを画像分割問題として定式化し,エンコーダ・デコーダアーキテクチャを備えた深層畳み込みニューラルネットワークを用いた新しいLAIツールを開発する。 そこで本研究では,5つの大陸集団の非混合個体972個体の完全なゲノム配列を用いて,同一集団から選択した279個体から得られたシミュレーションデータを用いて,本モデルを評価する。 私たちのモデルは、ゼロショットタスクとしてadmixtureを学習でき、既存のゴールド標準ツールであるrfmixのものとほぼ同等の精度で祖先の割り当てが得られます。

Local ancestry inference (LAI) identifies the ancestry of each segment of an individual's genome and is an important step in medical and population genetic studies of diverse cohorts. Several techniques have been used for LAI, including Hidden Markov Models and Random Forests. Here, we formulate the LAI task as an image segmentation problem and develop a new LAI tool using a deep convolutional neural network with an encoder-decoder architecture. We train our model using complete genome sequences from 982 unadmixed individuals from each of five continental ancestry groups, and we evaluate it using simulated admixed data derived from an additional 279 individuals selected from the same populations. We show that our model is able to learn admixture as a zero-shot task, yielding ancestry assignments that are nearly as accurate as those from the existing gold standard tool, RFMix.
翻訳日:2022-09-29 21:20:47 公開日:2020-11-04
# 対話システムのためのハイブリッド監視強化モデル

Hybrid Supervised Reinforced Model for Dialogue Systems ( http://arxiv.org/abs/2011.02243v1 )

ライセンス: Link先を確認
Carlos Miranda and Yacine Kessaci(参考訳) 本稿では,Dep Recurrent Q-Networks (DRQN) に基づくタスク指向対話システムにおけるリカレントハイブリッドモデルとトレーニング手順を提案する。 このモデルは,対話管理に必要なタスク – 状態追跡と意思決定 – に対処する。 これは人間と機械の相互作用をモデル化し、対話コンテキストを埋め込んで議論を導く。 このモデルは、非リカレントベースラインよりも高い性能、学習速度、堅牢性を達成する。 さらに,方針の進化と潜在表現を情報的に解釈し,検証することができる。

This paper presents a recurrent hybrid model and training procedure for task-oriented dialogue systems based on Deep Recurrent Q-Networks (DRQN). The model copes with both tasks required for Dialogue Management: State Tracking and Decision Making. It is based on modeling Human-Machine interaction into a latent representation embedding an interaction context to guide the discussion. The model achieves greater performance, learning speed and robustness than a non-recurrent baseline. Moreover, results allow interpreting and validating the policy evolution and the latent representations information-wise.
翻訳日:2022-09-29 21:20:31 公開日:2020-11-04
# 低リソースニューラルマシン変換のための最適化トランスフォーマー

Optimizing Transformer for Low-Resource Neural Machine Translation ( http://arxiv.org/abs/2011.02266v1 )

ライセンス: Link先を確認
Ali Araabi, Christof Monz(参考訳) 低リソース言語としても知られる、限られた並列データを持つ言語ペアは、ニューラルマシン翻訳の課題である。 Transformerモデルは、多くの言語ペアにおいて大幅な改善を達成し、事実上の主流アーキテクチャとなっているが、低リソース条件下での機能については、まだ完全には研究されていない。 IWSLT14トレーニングデータの異なるサブセットに対する実験により,低リソース条件下でのTransformerの有効性はハイパーパラメータ設定に大きく依存していることがわかった。 本研究では,低リソース条件に最適化されたトランスを用いることで,トランスのデフォルト設定よりも7.3 bleu点までの変換品質が向上することを示す。

Language pairs with limited amounts of parallel data, also known as low-resource languages, remain a challenge for neural machine translation. While the Transformer model has achieved significant improvements for many language pairs and has become the de facto mainstream architecture, its capability under low-resource conditions has not been fully investigated yet. Our experiments on different subsets of the IWSLT14 training data show that the effectiveness of Transformer under low-resource conditions is highly dependent on the hyper-parameter settings. Our experiments show that using an optimized Transformer for low-resource conditions improves the translation quality up to 7.3 BLEU points compared to using the Transformer default settings.
翻訳日:2022-09-29 21:20:25 公開日:2020-11-04
# Indic-Transformers:インドの言語におけるトランスフォーマー言語モデルの解析

Indic-Transformers: An Analysis of Transformer Language Models for Indian Languages ( http://arxiv.org/abs/2011.02323v1 )

ライセンス: Link先を確認
Kushal Jain, Adwait Deshpande, Kumar Shridhar, Felix Laumann, Ayushman Dash(参考訳) トランスフォーマーアーキテクチャに基づく言語モデルは,テキスト分類や質問処理,トークン分類など,幅広いnlpタスクにおいて最先端のパフォーマンスを達成している。 しかしながら、このパフォーマンスは通常、英語、フランス語、スペイン語、ドイツ語などの高リソース言語でテストされ報告される。 一方、インドの言語はそのようなベンチマークでは表現されていない。 インドの言語の中には、多言語トランスフォーマーモデルのトレーニングに含まれているものもあるが、そのような研究の中心にはなっていない。 インドの言語の性能を特に評価するために,ヒンディー語,ベンガル語,テルグ語の複数の下流タスクを広範囲に実験し,これらの言語モデルを分析した。 本稿では,事前学習したモデルの微調整モデルパラメータの有効性を,ゼロから言語モデルを訓練する方法と比較する。 さらに,データセットサイズとモデル性能の厳密な依存性を実証的に論じる一方で,タスク固有のモデルとメソッドの選択を奨励する。 テキスト分類タスクにおいて,ヒンディー語とベンガル語の最先端性能を実現する。 最後に、インド言語のモデリングを扱うための効果的な戦略を示し、コミュニティ向けのモデルチェックポイント(https://huggingface.co/neuralspace-reverie)をリリースします。

Language models based on the Transformer architecture have achieved state-of-the-art performance on a wide range of NLP tasks such as text classification, question-answering, and token classification. However, this performance is usually tested and reported on high-resource languages, like English, French, Spanish, and German. Indian languages, on the other hand, are underrepresented in such benchmarks. Despite some Indian languages being included in training multilingual Transformer models, they have not been the primary focus of such work. In order to evaluate the performance on Indian languages specifically, we analyze these language models through extensive experiments on multiple downstream tasks in Hindi, Bengali, and Telugu language. Here, we compare the efficacy of fine-tuning model parameters of pre-trained models against that of training a language model from scratch. Moreover, we empirically argue against the strict dependency between the dataset size and model performance, but rather encourage task-specific model and method selection. We achieve state-of-the-art performance on Hindi and Bengali languages for text classification task. Finally, we present effective strategies for handling the modeling of Indian languages and we release our model checkpoints for the community : https://huggingface.co/neuralspace-reverie.
翻訳日:2022-09-29 21:20:12 公開日:2020-11-04
# BERTにおける新しい動詞学習の検討:選択選好クラスと交替型構文一般化

Investigating Novel Verb Learning in BERT: Selectional Preference Classes and Alternation-Based Syntactic Generalization ( http://arxiv.org/abs/2011.02417v1 )

ライセンス: Link先を確認
Tristan Thrush, Ethan Wilcox, and Roger Levy(参考訳) ディープラーニングモデルの統語能力に関するこれまでの研究は、文法一般化の強さと、トレーニング中にモデルが露出する証拠量との関係を対象としていない。 本稿では,英語動詞の2つの側面について,BERTの少数ショット学習能力をテストするために,新しい単語学習パラダイムを導入することでこの問題に対処する。 前者に対しては、1つのフレームで1つの単語交互ペアでBERTを微調整し、モデルがその姉妹フレームで新しい動詞を期待するかどうかを問う。 後者の場合,不完全な選択対象のネットワーク上でBERTを微調整し,未検証だが検証可能な動詞/オブジェクトペアを期待できるかを問う。 BERT は,新しい単語を1つか2つの例で微調整した後,頑健な文法的一般化を行う。 言語交替テストでは、モデルが推移バイアスと一致する動作を示すことが判明した: 数回見られる動詞は直接オブジェクトを取ることが期待されているが、直接オブジェクトで見られる動詞は非推移的に発生することは期待できない。

Previous studies investigating the syntactic abilities of deep learning models have not targeted the relationship between the strength of the grammatical generalization and the amount of evidence to which the model is exposed during training. We address this issue by deploying a novel word-learning paradigm to test BERT's few-shot learning capabilities for two aspects of English verbs: alternations and classes of selectional preferences. For the former, we fine-tune BERT on a single frame in a verbal-alternation pair and ask whether the model expects the novel verb to occur in its sister frame. For the latter, we fine-tune BERT on an incomplete selectional network of verbal objects and ask whether it expects unattested but plausible verb/object pairs. We find that BERT makes robust grammatical generalizations after just one or two instances of a novel word in fine-tuning. For the verbal alternation tests, we find that the model displays behavior that is consistent with a transitivity bias: verbs seen few times are expected to take direct objects, but verbs seen with direct objects are not expected to occur intransitively.
翻訳日:2022-09-29 21:19:51 公開日:2020-11-04