このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200512となっている論文です。

PDF登録状況(公開日: 20200512)

TitleAuthorsAbstract論文公表日・翻訳日
# 光格子を用いた精密プログラマブル量子シミュレーション

Precise Programmable Quantum Simulations with Optical Lattices ( http://arxiv.org/abs/2003.01674v2 )

ライセンス: Link先を確認
Xingze Qiu, Jie Zou, Xiaodong Qi, and Xiaopeng Li(参考訳) 本稿では,プログラマブルデジタルマイクロミラーデバイス(DMD)技術に基づいて,光学格子を用いたタイトバインディングモデルを高精度にシミュレートする手法を提案する。 Wegner-flowのサブルーチンは、与えられた光ポテンシャルに対するタイトな結合モデルの正確な抽出と、ターゲティングモデルのポテンシャルを調整するためのリバースエンジニアリングステップで構成されており、どちらも高精度かつ高効率な古典的アルゴリズムを開発している。 本プロトコルでは,Wannier関数の再正規化と高帯域効果を系統的に校正することにより,プログラム可能なオンサイトエネルギーとトンネルの密結合モデルを,MDD技術と統合された光学格子で正確にシミュレートできることを示す。 数値シミュレーションにより,前例のないプログラム性を持つ局在物理学の量子シミュレーションと,量子計算の優位性を示すために原子ベースのボーソンサンプリングを実現することを実証した。 このアプローチは、光学格子に基づく大規模かつ正確にプログラム可能な量子シミュレーションへの道を開くことを期待する。

We present an efficient approach to precisely simulate tight binding models with optical lattices, based on programmable digital-micromirror-device (DMD) techniques. Our approach consists of a subroutine of Wegner-flow enabled precise extraction of a tight-binding model for a given optical potential, and a reverse engineering step of adjusting the potential for a targeting model, for both of which we develop classical algorithms to achieve high precision and high efficiency. With renormalization of Wannier functions and high band effects systematically calibrated in our protocol, we show the tight-binding models with programmable onsite energies and tunnelings can be precisely simulated with optical lattices integrated with the DMD techniques. With numerical simulation, we demonstrate that our approach would facilitate quantum simulation of localization physics with unprecedented programmability and atom-based boson sampling for illustration of quantum computational advantage. We expect this approach would pave a way towards large-scale and precise programmable quantum simulations based on optical lattices.
翻訳日:2023-05-31 07:30:23 公開日:2020-05-12
# 慣性フレームの量子判別:ローカル vs. グローバル

Quantum Distinction of Inertial Frames: Local vs. Global ( http://arxiv.org/abs/2003.09719v2 )

ライセンス: Link先を確認
Wan Cong, Jiri Bicak, David Kubiznak and Robert B. Mann(参考訳) 薄膜シェル内の平坦な時空に置かれたunruh-dewitt検出器の応答関数について検討した。 応答関数が局所的および大域的(ミンコフスキー)慣性フレームを区別し、古典的測定により、光信号がシェルやバックに移動できない有限時間間隔で検出器をオンにしても、シェルの存在をピックアップすることを示す。 また、検知器の応答が殻内の位置に依存するかを分析する。

We study the response function of Unruh-deWitt detectors placed in a flat spacetime inside a thin matter shell. We show that the response function distinguishes between the local and global (Minkowski) inertial frames and picks up the presence of the shell even when the detector is switched on for a finite time interval within which a light signal cannot travel to the shell and back as required by a classical measurement. We also analyze how the response of the detector depends on its location within the shell.
翻訳日:2023-05-28 13:39:55 公開日:2020-05-12
# マイクロ波-光伝送用薄膜ニオブ酸リチウムのキャビティ電気光学

Cavity electro-optics in thin-film lithium niobate for efficient microwave-to-optical transduction ( http://arxiv.org/abs/2005.00939v2 )

ライセンス: Link先を確認
Jeffrey Holzgrafe, Neil Sinclair, Di Zhu, Amirhassan Shams-Ansari, Marco Colangelo, Yaowen Hu, Mian Zhang, Karl K. Berggren, Marko Lon\v{c}ar(参考訳) 超伝導量子デバイスとマイクロ波光量子トランスデューサによる光ファイバの結合は、大規模量子ネットワークを可能にする可能性がある。 本研究では,pockels electro-optic (eo) 効果に基づくトランスデューサの直接変換機構,高帯域幅,低ノイズ化の可能性について検討する。 しかし、以前に実証されたEOトランスデューサは、弱いEO結合を克服し、高い効率を達成するために大きな光ポンプ電力を必要とする。 そこで我々は、このプラットフォームにおける低光損失と強いEOカップリングを利用して、ニオブ酸リチウム薄膜のEOトランスデューサを作成する。 トランスダクション効率は最大2.7\times10^{-5}$、ポンプパワー正規化効率は1.9\times10^{-6}/\mathrm{\mu w}$である。 マイクロ波共振器の圧電結合を音響モードにさらに低減し、光共振器品質係数を従来より高め、EO結合性を高めるための電極形状を変更することにより、トランスダクション効率を向上させることができる。 我々は, ニオブ酸リチウム薄膜のEOトランスデューサのさらなる開発により, 光ポンプの低出力化が期待できる。

Linking superconducting quantum devices to optical fibers via microwave-optical quantum transducers may enable large scale quantum networks. For this application, transducers based on the Pockels electro-optic (EO) effect are promising for their direct conversion mechanism, high bandwidth, and potential for low-noise operation. However, previously demonstrated EO transducers require large optical pump power to overcome weak EO coupling and reach high efficiency. Here, we create an EO transducer in thin-film lithium niobate, leveraging the low optical loss and strong EO coupling in this platform. We demonstrate a transduction efficiency of up to $2.7\times10^{-5}$, and a pump-power normalized efficiency of $1.9\times10^{-6}/\mathrm{\mu W}$. The transduction efficiency can be improved by further reducing the microwave resonator's piezoelectric coupling to acoustic modes, increasing the optical resonator quality factor to previously demonstrated levels, and changing the electrode geometry for enhanced EO coupling. We expect that with further development, EO transducers in thin-film lithium niobate can achieve near-unity efficiency with low optical pump power.
翻訳日:2023-05-21 13:03:20 公開日:2020-05-12
# モンテカルロ波動関数による再結合ラジカルのスピンダイナミクス

Monte-Carlo wavefunction approach for the spin dynamics of recombining radicals ( http://arxiv.org/abs/2005.04417v2 )

ライセンス: Link先を確認
Robert H. Keens and Daniel R. Kattnig(参考訳) モンテカルロ波動関数 (mcwf) を応用し, スピン選択的再結合反応を受けるラジカル対の開系スピンダイナミクスを処理した。 これらのシステムでは、非リンドブラドマスター方程式が広く採用されており、非トレース保存ハベルコーン超作用素と反応依存交換と単項三重項を併用して再結合する。 この種のマスター方程式は、伝播を適切に終了させることによって、反応を説明する2つ目のタイプの量子ジャンプを導入することで、mcwfアプローチに適応できることを示す。 このようにして,従来マスター方程式法では処理不可能と考えられていた系の時間依存ラジカル対生存確率の近似解を評価できる。 鳥の量子コンパスや関連する現象に関係していると示唆されたラジカル対反応の計算を用いて提案手法を考察する。

We adapt the Monte-Carlo wavefunction (MCWF) approach to treat the open-system spin dynamics of radical pairs subject to spin-selective recombination reactions. For these systems, non-Lindbladian master equations are widely employed, which account for recombination via the non trace-preserving Haberkorn superoperator in combination with reaction-dependent exchange and singlet-triplet dephasing terms. We show that this type of master equation can be accommodated in the MCWF approach, by introducing a second type of quantum jump that accounts for the reaction simply by suitably terminating the propagation. In this way, we are able to evaluate approximate solutions to the time-dependent radical pair survival probability for systems that have been considered untreatable with the master equation approach until now. We explicate the suggested approach with calculations for radical pair reactions that have been suggested to be relevant for the quantum compass of birds and related phenomena.
翻訳日:2023-05-20 18:09:55 公開日:2020-05-12
# 量子漁業情報と変動に基づく十分な絡み合い基準

A sufficient Entanglement Criterion Based On Quantum Fisher Information and Variance ( http://arxiv.org/abs/2005.05533v1 )

ライセンス: Link先を確認
Qing-Hua Zhang, Shao-Ming Fei(参考訳) 我々は、量子フィッシャー情報と量子分散に基づいて不等式という形で定式化し、多部交絡を検出する。 これは、有界絡み合った状態も検出できるという意味で、確立されたPTT基準の補完と見なすことができる。 不平等はY.Akbari-Kourbolagh $et\ alによって動機付けられている。 $[Phys. Rev A. 99, 012304 (2019)] は、量子フィッシャー情報に基づくマルチパーティの絡み合い基準を導入した。 私たちの基準は、白いノイズが混ざったn$-qudit純状態を検出するために実験的に測定できます。 いくつかの例は、我々の基準が絡み合った状態を検出するのに優れた性能を持つことを示すものである。

We derive criterion in the form of inequality based on quantum Fisher information and quantum variance to detect multipartite entanglement. It can be regarded as complementary of the well-established PPT criterion in the sense that it can also detect bound entangled states. The inequality is motivated by Y.Akbari-Kourbolagh $et\ al.$[Phys. Rev A. 99, 012304 (2019)] which introduced a multipartite entanglement criterion based on quantum Fisher information. Our criterion is experimentally measurable for detecting any $N$-qudit pure state mixed with white noisy. We take several examples to illustrate that our criterion has good performance for detecting certain entangled states.
翻訳日:2023-05-20 12:05:11 公開日:2020-05-12
# 感染経路の追跡によるcovid-19の追跡

Tracking COVID-19 by Tracking Infectious Trajectories ( http://arxiv.org/abs/2005.05523v1 )

ライセンス: Link先を確認
Badreddine Benreguia, Hamouma Moumen, and Mohammed Amine Merzoug(参考訳) 新型コロナウイルスのパンデミックは今でも多くの死者と感染者を発生させている。 世界中の政府は、ウイルスの拡散を遅らせるために厳しい測定を行ってきたが(例えば、旅行制限、すべてのスポーツ、社会、経済活動の停止、隔離、ソーシャルディスタンシングなど)、多くの人が死亡し、さらに多くの人がまだ危険にさらされている。 事実、最近行われた研究によると、中国で確認された感染の79\%は、症状のない未記録の患者によって引き起こされたものである。 また、他の多くの国では、症状の出現までに数日かかるため、既知の感染者数は実際の感染者数ではないことが報告されている(実際の感染者数ははるかに多いと予想されている)。 つまり、無症候性患者が新型コロナウイルスの大規模感染拡大の背景にある主要な要因であり、政府がこの危機的状況のコントロールを失う大きな要因でもある。 この世界的なパンデミックの是正に寄与するため、本稿では、未文書の患者と感染箇所の両方を見つけるために特別に設計されたIoT(Internet of Things)調査システムを提案する。 その目的は、当局が高い汚染部位を消毒し、明らかな症状がなくても人々を拘束するのを助けることである。 また,感染患者や疑わしい患者との密接な接触の有無を判定するシステムも提案した。 その結果、疑わしいケースの迅速分離と、パンデミックの伝播に対するより効率的な制御が達成できる。

Nowadays, the coronavirus pandemic has and is still causing large numbers of deaths and infected people. Although governments all over the world have taken severe measurements to slow down the virus spreading (e.g., travel restrictions, suspending all sportive, social, and economic activities, quarantines, social distancing, etc.), a lot of persons have died and a lot more are still in danger. Indeed, a recently conducted study~\cite{ref2} has reported that 79\% of the confirmed infections in China were caused by undocumented patients who had no symptoms. In the same context, in numerous other countries, since coronavirus takes several days before the emergence of symptoms, it has also been reported that the known number of infections is not representative of the real number of infected people (the actual number is expected to be much higher). That is to say, asymptomatic patients are the main factor behind the large quick spreading of coronavirus and are also the major reason that caused governments to lose control over this critical situation. To contribute to remedying this global pandemic, in this paper, we propose an IoT (Internet of Things) investigation system that was specifically designed to spot both undocumented patients and infectious places. The goal is to help the authorities to disinfect high-contamination sites and confine persons even if they have no apparent symptoms. The proposed system also allows determining all persons who had close contact with infected or suspected patients. Consequently, rapid isolation of suspicious cases and more efficient control over any pandemic propagation can be achieved.
翻訳日:2023-05-20 12:04:58 公開日:2020-05-12
# ランダム電信ノイズ下でのビットフリップ量子ビットの低温・高温計測用誤差解析

Error analysis of bit-flip qubits under random telegraph noise for low and high temperature measurement application ( http://arxiv.org/abs/2005.05493v1 )

ライセンス: Link先を確認
Sanjay Prabhakar(参考訳) ランダム電信ノイズ(rtn)下での量子ビットゲート演算の小さな誤差を達成することは、量子コンピューティングと量子誤差補正の潜在的な応用に大きな関心事である。 RTNの有無で、$\pi$, CORPSE, SCORPSE, 対称パルスおよび非対称パルスによって駆動される量子ビットの誤差を計算する。 z方向のx方向とRTNでパルスが作用する特殊な場合、ノイズ相関時間の小さな値の場合、$\pi$-pulseは他の全てのパルスの中で誤差が小さい。 大きなノイズ相関時間の場合、おそらくホワイトノイズの場合、対称パルスは小さなノイズ強度のエネルギー振幅に対して小さな誤差を発生させるが、CORPSEパルスは大きなノイズ強度のエネルギー振幅に対して小さな誤差を発生させる。 3方向に作用するパルスについては、RTNのエネルギー振幅の小さい大きな強度の存在下で小さな誤差を生じるパルス列が同定された。 より正確には、$\pi$ パルスが x 方向に作用し、死体パルスが y 方向に作用し、スコープスパルスが z 方向に作用すると、そのようなパルスシーケンスは小さな誤差を生じさせ、ビットフリップ量子誤差補正の実装においてより良い候補を考えることができる。 RTNの小さなエネルギー振幅の誤差解析は低温測定に有用であるのに対し、RTNの大きなエネルギー振幅の誤差解析は量子誤り訂正符号の室温測定に有用である。

Achieving small error for qubit gate operations under random telegraph noise (RTN) is of great interest for potential applications in quantum computing and quantum error correction. I calculate the error generated in the qubit driven by $\pi$, CORPSE, SCORPSE, symmetric and asymmetric pulses in presence of RTN. For a special case when pulse acts in x-direction and RTN in z-direction, I find that for small value of noise correlation time, $\pi$-pulse has small error among all the other pulses. For large value of noise correlation time, possibly white noise, symmetric pulse generates small error for small energy amplitudes of noise strength, whereas CORPSE pulse has small error for large energy amplitudes of noise strength. For the pulses acting in all the three directions, several pulse sequences were identified that generate small error in presence of small and large strength of energy amplitudes of RTN. More precisely, when $\pi$ pulse acts in x direction, CORPSE pulse acts in y direction and SCORPSE pulse acts in z-direction then such pulse sequences induces small error and may consider for better candidate in implementing of bit-flip quantum error correction. Error analysis of small energy amplitudes of RTN may be useful for low temperature measurements, whereas error analysis of large energy amplitudes of RTN may be useful for room temperature measurements of quantum error correction codes.
翻訳日:2023-05-20 12:04:32 公開日:2020-05-12
# 量子ランダム数のプライバシーの推定

Estimating the privacy of quantum-random numbers ( http://arxiv.org/abs/2005.05675v1 )

ライセンス: Link先を確認
Johannes Seiler, Thomas Strohm and Wolfgang Schleich(参考訳) 2つの絡み合った2レベルシステムからなるシステムのサブシステム上で、ユーザが生成した数で攻撃者が得ることのできる情報を分析する。 攻撃者とユーザはそれぞれのサブシステム上でのみ測定を行う。 ユーザのサブシステムの密度行列に関する知識はすでに、攻撃者がアクセス可能な情報の上限を完全に決定している。 この情報を量子状態の識別によって得られる適切な境界と比較・対比する。

We analyze the information an attacker can obtain on the numbers generated by a user by measurements on a subsystem of a system consisting of two entangled two-level systems. The attacker and the user make measurements on their respective subsystems, only. Already the knowledge of the density matrix of the subsystem of the user completely determines the upper bound on the information accessible to the attacker. We compare and contrast this information to the appropriate bounds provided by quantum state discrimination.
翻訳日:2023-05-20 12:02:21 公開日:2020-05-12
# 有機分子におけるプラズモニックパーセル効果

Plasmonic Purcell Effect in Organic Molecules ( http://arxiv.org/abs/2005.05657v1 )

ライセンス: Link先を確認
D. Zhao, R. E. F. Silva, C. Climent, J. Feist, A. I. Fern\'andez-Dom\'inguez, F. J. Garc\'ia-Vidal(参考訳) 量子テンソルネットワーク計算により,プラズモンナノ構造近傍に位置する有機分子が経験するパーセル効果について検討した。 特に,2つのAgナノスフィアのギャップにおけるドナー・アセプター色素について考察する。 理論的なアプローチにより、分子振動と光ナノキャビティモードの両方の連続体の現実的な記述が可能となる。 我々はエキシトンダイナミクスとそれに対応する放射スペクトルの両方を分析し、これらの大きさが現在まで使われている単純化されたモデルによって正確に表現されていないことを示した。 分子カップリングを放射性および非放射性プラズモニックモードに分解することで、システム内で起こるクエンチング現象学に光を注入する。

By means of quantum tensor network calculations, we investigate the large Purcell effect experienced by an organic molecule placed in the vicinity of a plasmonic nanostructure. In particular, we consider a donor-{\pi} bridge-acceptor dye at the gap of two Ag nanospheres. Our theoretical approach allows for a realistic description of the continua of both molecular vibrations and optical nanocavity modes. We analyze both the exciton dynamics and the corresponding emission spectrum, showing that these magnitudes are not accurately represented by the simplified models used up to date. By disentangling the molecule coupling to radiative and non-radiative plasmonic modes, we also shed light into the quenching phenomenology taking place in the system.
翻訳日:2023-05-20 12:02:15 公開日:2020-05-12
# 平均エネルギーによる高次フロケット基底の定義

Defining a well-ordered Floquet basis by the average energy ( http://arxiv.org/abs/2005.05631v1 )

ライセンス: Link先を確認
Cristian M. Le, Ryosuke Akashi, Shinji Tsuneyuki(参考訳) 現時点では、周期的に駆動される量子系の状態を計算する最も効率的な方法は、フロケ理論とフロケ固有基底を用いることである。 この基底集合法の幅広い応用は、フロケ固有関数のユニークな順序付けの欠如、共鳴における定義の曖昧さ、共鳴における無限小摂動に対する不安定さによって制限される。 平均エネルギーを量子数として再定義し,固有ベイジを再定義することで,この問題に対処する。 この再定義の結果、フロケ・リッツ変分原理も得られ、ヒルベルト空間の切り離しを正当化する。

At the moment, the most efficient method to compute the state of a periodically driven quantum system is using Floquet theory and the Floquet eigenbasis. The wide application of this basis set method is limited by: a lack of unique ordering of the Floquet eigenfunctions, an ambiguity in their definition at resonance, and an instability against infinitesimal perturbation at resonance. We address these problems by redefining the eigenbasis using a revised definition of the average energy as a quantum number. As a result of this redefinition, we also obtain a Floquet-Ritz variational principle, and justify the truncation of the Hilbert space.
翻訳日:2023-05-20 12:02:05 公開日:2020-05-12
# 単一スピン系における幾何相と動的相の相互作用

Interplay between geometric and dynamic phases in a single spin system ( http://arxiv.org/abs/2005.05619v1 )

ライセンス: Link先を確認
A. A. Wood, K. Streltsov, R. M. Goldblatt, M. B. Plenio, L. C. L. Hollenberg, R. E. Scholten and A. M. Martin(参考訳) ブロッホ球上の異なる軌道上でダイヤモンド中の窒素空孔(nv)中心のスピンを駆動するためにマイクロ波場と自由偏差の組み合わせを用い,全相の幾何学的および動的部分へのフレーム依存的分解の物理的意義について検討した。 実験はnvのスピン-1基底状態の2段階部分空間上で行われ、アハラノフ-アナンダン幾何相が自身を大域的な位相として表し、nv基底状態の三重項の第3段階を用いて検出する。 幾何学的アハロノフ-アナンダン相は、進化するスピンによって引き起こされる固体角度との接続を保っているが、一般的には系の力学の幾何学的依存性を抑制する動的位相を伴う。 これらの結果は、フレーム依存幾何位相の物理的意義に関する洞察を与える。

We use a combination of microwave fields and free precession to drive the spin of a nitrogen-vacancy (NV) center in diamond on different trajectories on the Bloch sphere, and investigate the physical significance of the frame-dependent decomposition of the total phase into geometric and dynamic parts. The experiments are performed on a two-level subspace of the spin-1 ground state of the NV, where the Aharonov-Anandan geometric phase manifests itself as a global phase, and we use the third level of the NV ground state triplet to detect it. We show that while the geometric Aharonov-Anandan phase retains its connection to the solid angle swept out by the evolving spin, it is generally accompanied by a dynamic phase that suppresses the geometric dependence of the system dynamics. These results offer insights into the physical significance of frame-dependent geometric phases.
翻訳日:2023-05-20 12:01:05 公開日:2020-05-12
# WindowsとAndroidプラットフォームのランサムウェア

Ransomware in Windows and Android Platforms ( http://arxiv.org/abs/2005.05571v1 )

ライセンス: Link先を確認
Abdulrahman Alzahrani, Ali Alshehri, Hani Alshahrani, Huirong Fu(参考訳) マルウェアの増殖と高度化は飛躍的に増大し、進化を続けている。 近年の無差別なランサムウェア被害は、被害を防ぐために効果的な検出技術に重大なニーズを課している。 そのため、ランサムウェアはサイバースペース研究者の間で注目を集めている。 本稿では,ランサムウェア攻撃の包括的概要と,WindowsおよびAndroidプラットフォームにおける既存の検出・防止技術の概要について述べる。 さらに、これらのテクニックの長所と短所を強調し、それらの比較を提供する。 さらに、ユーザとシステム管理者にレコメンデーションを提供する。

Malware proliferation and sophistication have drastically increased and evolved continuously. Recent indiscriminate ransomware victimizations have imposed critical needs of effective detection techniques to prevent damages. Therefore, ransomware has drawn attention among cyberspace researchers. This paper contributes a comprehensive overview of ransomware attacks and summarizes existing detection and prevention techniques in both Windows and Android platforms. Moreover, it highlights the strengths and shortcomings of those techniques and provides a comparison between them. Furthermore, it gives recommendations to users and system administrators.
翻訳日:2023-05-20 11:59:24 公開日:2020-05-12
# 無限次元HaPPY符号:絡み合いウェッジ再構成とダイナミクス

The infinite-dimensional HaPPY code: entanglement wedge reconstruction and dynamics ( http://arxiv.org/abs/2005.05971v1 )

ライセンス: Link先を確認
Elliott Gesteau and Monica Jinwoo Kang(参考訳) 我々は、HPPY符号の無限次元のアナログを、ヒルベルト空間にそれぞれ定義された一連の安定化符号として構成する。 ヒルベルト空間は等尺写像によって関連付けられ、明確に定義する。 無限次元HaPPY符号と互換性のあるハミルトニアンを構築し、固有フラクタル構造を持つコードの安定化についてさらに研究する。 この結果を用いて、コードのダイナミクスを研究し、非自明なバルク・ハミルトニアンを境界に写像する。 写像の像はスケール不変であるが、境界における長距離の絡み合いは生じず、したがって CFT の特徴を再現することができない。 この結果は、AdS/CFT対応のモデルとしてのHaPPY符号の限界を示しているが、量子重力における量子エラー補正の関連性は、CFTコンテキストに制限されない可能性があることを示唆している。

We construct an infinite-dimensional analog of the HaPPY code as a growing series of stabilizer codes defined respective to their Hilbert spaces. The Hilbert spaces are related by isometric maps, which we define explicitly. We construct a Hamiltonian that is compatible with the infinite-dimensional HaPPY code and further study the stabilizer of our code, which has an inherent fractal structure. We use this result to study the dynamics of the code and map a nontrivial bulk Hamiltonian to the boundary. We find that the image of the mapping is scale invariant, but does not create any long-range entanglement in the boundary, therefore failing to reproduce the features of a CFT. This result shows the limits of the HaPPY code as a model of the AdS/CFT correspondence, but also hints that the relevance of quantum error correction in quantum gravity may not be limited to the CFT context.
翻訳日:2023-05-20 11:50:17 公開日:2020-05-12
# spectator qubitsによる制御相ゲートのコヒーレント誤差のベンチマーク

Benchmarking Coherent Errors in Controlled-Phase Gates due to Spectator Qubits ( http://arxiv.org/abs/2005.05914v1 )

ライセンス: Link先を確認
S. Krinner, S. Lazar, A. Remm, C. K. Andersen, N. Lacroix, G. J. Norris, C. Hellings, M. Gabureac, C. Eichler, A. Wallraff(参考訳) マルチキュービット量子プロセッサの動作における大きな課題は、マルチキュービットコヒーレントエラーを軽減することである。 超伝導回路では、制御線路の不完全分離に由来するクロストークに加えて、キュービット間の分散結合がマルチキュービットコヒーレントエラーの主要な原因である。 制御相ゲートにおける位相誤差は、ゲートに係わる2つのキュービットを1つ以上のオブザーバキュービットに分散結合することによる。 量子プロセストモグラフィーによるゲート不忠実度の測定を行った。 さらに,ゲート量子ビットと非計算状態とのカップリングにより,2量子条件位相誤差が増大することが指摘された。 本研究は,マルチキュービット設定において,有限オン/オフ比の2量子ビットゲートの忠実性に対する限界を理解する上で重要である。

A major challenge in operating multi-qubit quantum processors is to mitigate multi-qubit coherent errors. For superconducting circuits, besides crosstalk originating from imperfect isolation of control lines, dispersive coupling between qubits is a major source of multi-qubit coherent errors. We benchmark phase errors in a controlled-phase gate due to dispersive coupling of either of the qubits involved in the gate to one or more spectator qubits. We measure the associated gate infidelity using quantum process tomography. In addition, we point out that, due to coupling of the gate qubits to a non-computational state during the gate, two-qubit conditional phase errors are enhanced. Our work is important for understanding limits to the fidelity of two-qubit gates with finite on/off ratio in multi-qubit settings.
翻訳日:2023-05-20 11:49:47 公開日:2020-05-12
# アインシュタイン-ポドルスキー-ローゼン-ボーム実験の離散事象シミュレーション

Discrete-event simulation of an extended Einstein-Podolsky-Rosen-Bohm experiment ( http://arxiv.org/abs/2005.05711v1 )

ライセンス: Link先を確認
Hans De Raedt, Manpreet Singh Jattana, Dennis Willsch, Madita Willsch, Fengping Jin, Kristel Michielsen(参考訳) 本研究では,アインシュタイン-ポドルスキー-ローゼン-ボーム実験により得られたデータ統計の量子論的予測を再現できるサブ量子モデルを構築する。 このモデルはアインシュタインの局所性の基準を満たし、イベントバイイベントと因果効果の方法でデータを生成する。 量子理論は,特定のモデルパラメータのみに対するシミュレーションデータの統計を記述することができることを示す。

We use discrete-event simulation to construct a subquantum model that can reproduce the quantum-theoretical prediction for the statistics of data produced by the Einstein-Podolsky-Rosen-Bohm experiment and an extension thereof. This model satisfies Einstein's criterion of locality and generates data in an event-by-event and cause-and-effect manner. We show that quantum theory can describe the statistics of the simulation data for a certain range of model parameters only.
翻訳日:2023-05-20 11:48:31 公開日:2020-05-12
# 量子不確かさの公理としての推定独立性

Estimation independence as an axiom for quantum uncertainty ( http://arxiv.org/abs/2005.07044v1 )

ライセンス: Link先を確認
Agung Budiyono(参考訳) 量子の不確かさは、多くの直観に反する非古典的現象の根底にある量子力学の基盤である。 近年の研究では、非古典的相関を根本的に制限し、その正確な形からの逸脱は熱力学の第2法則に違反する可能性があることが顕著に示されている。 その形を独自に決定する深い自然の原則はあるか? ここでは、非古典理論のクラスに対する一般的な疫学の枠組みの中で働き、他の古典理論に疫学的な制限を導入することにより、位置の分布は基礎となる運動場によって既約パラメータ化される。 量子力学の数学は、エージェントが位置や実験的な設定に関する情報を与えられたモーメントの特定の推定を行う操作スキームの中で形式的に現れることが最近示されている。 さらに、量子不確実性は、推定器の「特定の」選択と関連する推定誤差に遡ることができる。 本研究は, 1 つの系の運動量の推定が, 1 つの系から独立して作成された他の系の位置から独立していなければならないという, 推定独立性の妥当な原理を示し, 推定器の特定の形状, 特にプランク定数の順序で大域非分離確率変数が与える強度までの推定誤差を抽出する。

Quantum uncertainty is the cornerstone of quantum mechanics which underlies many counterintuitive nonclassical phenomena. Recent studies remarkably showed that it also fundamentally limits nonclassical correlation, and crucially, a deviation from its exact form may lead to a violation of the second law of thermodynamics. Are there deep and natural principles which uniquely determines its form? Here we work within a general epistemic framework for a class of nonclassical theories, introducing an epistemic restriction to an otherwise classical theory, so that the distributions of positions are irreducibly parameterized by the underlying momentum fields. It was recently shown that the mathematics of quantum mechanics formally arises within an operational scheme, wherein an agent makes a specific estimation of the momentum given information on the positions and the experimental settings. Moreover, quantum uncertainty can be traced back to the `specific' choice of estimator and the associated estimation error. In the present work, we show that a plausible principle of estimation independence, which requires that the estimation of momentum of one system must be independent of the position of another system independently prepared of the first, singles out the specific forms of the estimator, and especially the estimation error up to its strength given by a global-nonseparable random variable on the order of Planck constant.
翻訳日:2023-05-20 11:41:49 公開日:2020-05-12
# 漸近的に制限された位相空間表現、弱運動量値および量子波動関数の再構成

Epistemically restricted phase space representation, weak momentum value, and reconstruction of quantum wave function ( http://arxiv.org/abs/2005.06991v1 )

ライセンス: Link先を確認
Agung Budiyono(参考訳) 量子状態に関連付けられた位相空間分布は以前にも提案されており、位相空間における量子不確かさを透過的に表すプランク定数の順序で大域ランダム変数によってパラメータ化された特定の疫学的制約が組み込まれている。 ここでは, 位相空間(ERPS)の分布は, 運動量の弱い測定と位置選択によって決定できることを示す。 ERPS表現では、波動関数の位相と振幅は、位置依存(条件)平均と、エピステマティックに制限された運動量変動のばらつきによってそれぞれ正確に捕捉される。 これらはそれぞれ、弱運動量値の測定による波動関数の再構成と、エピステマティックに制限された運動量変動の観点からの運動量弱値の解釈を許し、弱運動量値の実部と虚部で決定される。 erps表現は、認識論的制限、量子波動関数、位置選択後の弱運動量測定に具現化された量子不確実性の間の深い概念的関係を研究するための透明で豊かな枠組みを提供する。

A phase space distribution associated with a quantum state was previously proposed, which incorporates a specific epistemic restriction parameterized by a global random variable on the order of Planck constant, transparently manifesting quantum uncertainty in phase space. Here we show that the epistemically restricted phase space (ERPS) distribution can be determined via weak measurement of momentum followed by post-selection on position. In the ERPS representation, the phase and amplitude of the wave function are neatly captured respectively by the position-dependent (conditional) average and variance of the epistemically restricted momentum fluctuation. They are in turn respectively determined by the real and imaginary parts of the weak momentum value, permitting a reconstruction of wave function using weak momentum value measurement, and an interpretation of momentum weak value in term of epistemically restricted momentum fluctuations. The ERPS representation thus provides a transparent and rich framework to study the deep conceptual links between quantum uncertainty embodied in epistemic restriction, quantum wave function, and weak momentum measurement with position post-selection, which may offer useful insight to better understand their meaning.
翻訳日:2023-05-20 11:41:12 公開日:2020-05-12
# 固体スピン量子ビットにおける普遍コヒーレンス保護

Universal coherence protection in a solid-state spin qubit ( http://arxiv.org/abs/2005.06082v1 )

ライセンス: Link先を確認
Kevin C. Miao, Joseph P. Blanton, Christopher P. Anderson, Alexandre Bourassa, Alexander L. Crook, Gary Wolfowicz, Hiroshi Abe, Takeshi Ohshima, David D. Awschalom(参考訳) デコヒーレンスは主に量子ビットの物理的実現を制限し、その緩和は量子科学にとって重要である。 そこで我々は, 印加マイクロ波駆動と炭化ケイ素希釈欠陥の基底状態電子スピンとのハイブリッド化により, 脱コヒーレンス保護部分空間に埋設したロバスト量子ビットを構築した。 量子ビットは磁気、電気、温度のゆらぎから保護されており、固体中のほとんど全ての関連する脱コヒーレンスチャネルを考慮に入れている。 このことは、クォービットの不均一な退化時間を4桁以上(>22ミリ秒)増加させ、ハーン・エチョのコヒーレンス時間は64ミリ秒に近づいた。 この結果は、プラットフォームに依存しない重要なコンポーネントをほとんど必要とせず、量子アーキテクチャの幅広い選択において実質的なコヒーレンス改善が達成できることを示唆している。

Decoherence largely limits the physical realization of qubits and its mitigation is critical to quantum science. Here, we construct a robust qubit embedded in a decoherence-protected subspace, obtained by hybridizing an applied microwave drive with the ground-state electron spin of a silicon carbide divacancy defect. The qubit is protected from magnetic, electric, and temperature fluctuations, which account for nearly all relevant decoherence channels in the solid state. This culminates in an increase of the qubit's inhomogeneous dephasing time by over four orders of magnitude (to > 22 milliseconds), while its Hahn-echo coherence time approaches 64 milliseconds. Requiring few key platform-independent components, this result suggests that substantial coherence improvements can be achieved in a wide selection of quantum architectures.
翻訳日:2023-05-20 11:40:21 公開日:2020-05-12
# 波長分割多重化による効率的な量子フィンガープリント

Efficient experimental quantum fingerprinting with wavelength division multiplexing ( http://arxiv.org/abs/2005.06049v1 )

ライセンス: Link先を確認
Xiaoqing Zhong, Feihu Xu, Hoi-Kwong Lo and Li Qian(参考訳) 量子通信複雑性は、量子状態を用いた情報通信(つまり、あるタスクを達成するのに必要な最小限の通信量)の効率を研究する。 代表的な例として量子フィンガープリントがあり、同時にメッセージパッシングモデルが検討され、従来のフィンガープリントプロトコルよりも最小限の通信量が指数関数的に小さい可能性がある。 実用的な量子指紋認証プロトコルに基づく実験では、コヒーレント状態が指紋を構成するために使用され、量子指紋認証の優位性が実証された。 しかし、コヒーレント状態を用いることにより、このコヒーレント量子フィンガープリント(CQF)プロトコルにおける通信時間が増加する。 さらに、これらの実験実験で伝達される情報の最小量は、単一光子検出器の暗黒数によって大きく制限される。 本稿では、波長分割多重化(WDM)と多重波長チャネルの同時検出により、既存のCQFプロトコルの性能を向上させることを提案する。 我々は、新しいwdm-cqfプロトコルが通信時間を著しく削減できることを示す。 さらに重要なことに、同じ実験パラメータで、新しい方式では元のcqfプロトコルに比べて通信量が大幅に削減される。 波長チャネルが多ければ多いほど、WDM-CQFプロトコルによる通信は少なくなる。 また、6波長チャネルを持つ新しいWDM-CQFプロトコルの実証実験を行った。 実験により,WDMを用いた新しい方式が従来のプロトコルに勝るだけでなく,元のCQFプロトコルで要求される通信量を半分以上削減することを確認した。

Quantum communication complexity studies the efficiency of information communication (that is, the minimum amount of communication required to achieve a certain task) using quantum states. One representative example is quantum fingerprinting, in which the simultaneous message passing model is considered and the minimum amount of communication could be exponentially smaller than the classical fingerprinting protocol. Experimental demonstrations based on a practical quantum fingerprinting protocol where coherent states are used to construct the fingerprints, have successfully shown the superiority of quantum fingerprinting. However, as a consequence of using coherent states, the communication time in this coherent quantum fingerprinting (CQF) protocol is increased. Moreover, the minimum amount of information communicated in these experimental demonstrations is largely limited by the dark counts of the single photon detectors. Here, we propose to enhance the performance of the existing CQF protocol through applying wavelength division multiplexing (WDM) and simultaneous detection of multiple wavelength channels. We show that the new WDM-CQF protocol can potentially reduce the communication time significantly. More importantly, with the same experimental parameters, the amount of communication is much reduced in the new scheme compared with the original CQF protocol. The more wavelength channels are used, the less communication is required by WDM-CQF protocol. We also perform a proof-of-concept experimental demonstration of the new WDM-CQF protocol with 6 wavelength channels. The experimental results further validate that the new scheme with WDM not only beats the classical protocol, but also reduces the amount of communication required by the original CQF protocol by more than half.
翻訳日:2023-05-20 11:39:41 公開日:2020-05-12
# Thomas-Fermi境界値問題に対する新しいアプローチ

A new approach to the Thomas-Fermi boundary-value problem ( http://arxiv.org/abs/2005.06044v1 )

ライセンス: Link先を確認
Giampiero Esposito, Salvatore Esposito(参考訳) トーマス・フェルミ方程式 sqrt(x)phi'''=phi*(3/2) が与えられると、本論文はまず、従属変数 y(x)=sqrt(x phi(x)) を定義することにより変化させる。 境界条件は、y(x) は原点において sqrt(x) として消えなければならないが、独立変数 x のパワー (1/2)(1-chi) に比例する無限大のフォールオフ挙動を持ち、chi は正の数である。 そのような境界条件は、x の整数の有限線型結合と半負の和の比の sqrt(x) の形の近似解の 1-パラメータ族につながる。 chi が 3 に等しいとすると、sommerfeld の漸近解と正確に一致するため、近似解の明示的な形式は x のすべての値に対して得られる。 それらは小さな x のマヨラナ解と正確に一致し、x のすべての値の数値解に非常に近いままである。 驚くべきことに、シリーズを使わずに、我々の近似解は、small-x から large-x へのスムーズな遷移を達成する。 最終的に、相対論的、非指数的、熱的効果を含む一般化されたトーマス・フェルミ方程式が研究され、この方程式の物理パラメータの小さいあるいは有限な値に対して、小さくて大きい x での近似解が見つかる。

Given the Thomas-Fermi equation sqrt(x)phi''=phi*(3/2), this paper changes first the dependent variable by defining y(x)=sqrt(x phi(x)). The boundary conditions require that y(x) must vanish at the origin as sqrt(x), whereas it has a fall-off behaviour at infinity proportional to the power (1/2)(1-chi) of the independent variable x, chi being a positive number. Such boundary conditions lead to a 1-parameter family of approximate solutions in the form sqrt(x) times a ratio of finite linear combinations of integer and half-odd powers of x. If chi is set equal to 3, in order to agree exactly with the asymptotic solution of Sommerfeld, explicit forms of the approximate solution are obtained for all values of x. They agree exactly with the Majorana solution at small x, and remain very close to the numerical solution for all values of x. Remarkably, without making any use of series, our approximate solutions achieve a smooth transition from small-x to large-x behaviour. Eventually, the generalized Thomas-Fermi equation that includes relativistic, non-extensive and thermal effects is studied, finding approximate solutions at small and large x for small or finite values of the physical parameters in this equation.
翻訳日:2023-05-20 11:39:19 公開日:2020-05-12
# 量子検出器の最適制御

Optimal control for quantum detectors ( http://arxiv.org/abs/2005.05995v1 )

ライセンス: Link先を確認
Paraj Titum, Kevin M. Schultz, Alireza Seif, Gregory D. Quiroz, B. D. Clader(参考訳) 量子システムは、外部フィールドのパラメータを推定する際、弱い信号を検出できるため、期待できる候補である。 しかし、背景雑音に隠れた弱い信号を検知しようとすると、信号対雑音比は生の感度よりも関連性が高い。 我々は、信号と雑音の統計的特性に関する控えめな仮定の下で、量子センサを用いて背景雑音の存在下で外部信号を検出する最適量子制御を行う。 興味深いことに、ホワイトバックグラウンドノイズの最適解は、単純でよく知られたスピンロック制御スキームである。 さらに,数値手法を用いて,相関するローレンツスペクトルである背景雑音について一般化する。 相関時間を増加させるためには,cpmgなどのパルスベースのシーケンスも信号検出の最適制御に近く,クロスオーバーは信号周波数に依存する。 これらの結果から,複雑なパルス整形を必要とせずに,短期量子センサに最適検出方式を実装できることが示唆された。

Quantum systems are promising candidates for sensing of weak signals as they can provide unrivaled performance when estimating parameters of external fields. However, when trying to detect weak signals that are hidden by background noise, the signal-to-noise-ratio is a more relevant metric than raw sensitivity. We identify, under modest assumptions about the statistical properties of the signal and noise, the optimal quantum control to detect an external signal in the presence of background noise using a quantum sensor. Interestingly, for white background noise, the optimal solution is the simple and well-known spin-locking control scheme. We further generalize, using numerical techniques, these results to the background noise being a correlated Lorentzian spectrum. We show that for increasing correlation time, pulse based sequences such as CPMG are also close to the optimal control for detecting the signal, with the crossover dependent on the signal frequency. These results show that an optimal detection scheme can be easily implemented in near-term quantum sensors without the need for complicated pulse shaping.
翻訳日:2023-05-20 11:38:54 公開日:2020-05-12
# 言語モデルは、電子健康記録データのための効果的な患者表現学習技術である

Language Models Are An Effective Patient Representation Learning Technique For Electronic Health Record Data ( http://arxiv.org/abs/2001.05295v2 )

ライセンス: Link先を確認
Ethan Steinberg, Ken Jung, Jason A. Fries, Conor K. Corbin, Stephen R. Pfohl, Nigam H. Shah(参考訳) EHR(Electronic Health Record)の普及により、さまざまな臨床結果の予測モデルを構築するための機械学習の開発が加速された。 このプロセスは、モデルをトレーニングするための患者記録が比較的少ないことで制約されることが多い。 自然言語処理の手法に触発された患者表現スキームを用いることで,患者集団全体から得られた情報を,人口のサブセットのみが関係する特定のモデルを訓練するタスクに移すことで,臨床予測モデルの精度を高めることができる。 このような患者表現スキームは、5つの予測タスクにおけるaurocの平均改善率を標準のベースラインと比較して3.5%とし、臨床予測モデルを訓練するための患者記録が少量しか得られない場合の平均改善率を19%まで上昇させる。

Widespread adoption of electronic health records (EHRs) has fueled the development of using machine learning to build prediction models for various clinical outcomes. This process is often constrained by having a relatively small number of patient records for training the model. We demonstrate that using patient representation schemes inspired from techniques in natural language processing can increase the accuracy of clinical prediction models by transferring information learned from the entire patient population to the task of training a specific model, where only a subset of the population is relevant. Such patient representation schemes enable a 3.5% mean improvement in AUROC on five prediction tasks compared to standard baselines, with the average improvement rising to 19% when only a small number of patient records are available for training the clinical prediction model.
翻訳日:2023-01-14 01:52:17 公開日:2020-05-12
# データの価値は何か? データ品質推定のための数学的手法について

What is the Value of Data? On Mathematical Methods for Data Quality Estimation ( http://arxiv.org/abs/2001.03464v2 )

ライセンス: Link先を確認
Netanel Raviv, Siddharth Jain, Jehoshua Bruck(参考訳) データは情報時代の最も重要な資産の1つであり、社会的な影響は否定できない。 しかし、データの質を評価する厳密な方法が欠けている。 本稿では,与えられたデータセットの品質に関する形式的定義を提案する。 予測直径と呼ぶ量によってデータセットの品質を評価する。これは、ランダムに選択された2つの仮説の相違を計測し、最近、アクティブラーニングの応用を見出した。 我々はブール超平面に注目し,フーリエ解析的,代数的,確率的手法の集まりを用いて,期待される直径の計算に対する理論的保証と実用的な解法を考案する。 また,代数的構造化データセットにおける期待直径の挙動を調査し,この品質概念を検証する実験を行い,その実現可能性を示す。

Data is one of the most important assets of the information age, and its societal impact is undisputed. Yet, rigorous methods of assessing the quality of data are lacking. In this paper, we propose a formal definition for the quality of a given dataset. We assess a dataset's quality by a quantity we call the expected diameter, which measures the expected disagreement between two randomly chosen hypotheses that explain it, and has recently found applications in active learning. We focus on Boolean hyperplanes, and utilize a collection of Fourier analytic, algebraic, and probabilistic methods to come up with theoretical guarantees and practical solutions for the computation of the expected diameter. We also study the behaviour of the expected diameter on algebraically structured datasets, conduct experiments that validate this notion of quality, and demonstrate the feasibility of our techniques.
翻訳日:2023-01-13 04:38:37 公開日:2020-05-12
# ベイズ最適化による超低温ガス中の秩序状態の生成

Preparation of ordered states in ultra-cold gases using Bayesian optimization ( http://arxiv.org/abs/2001.03520v3 )

ライセンス: Link先を確認
Rick Mukherjee, Frederic Sauvage, Harry Xie, Robert L\"ow and Florian Mintert(参考訳) 超低温原子ガスは、内部および外部の自由度の両方において、制御性の度合いという点で一意である。 これにより、複雑な量子多体現象の研究に使うことができる。 しかし、多くのシナリオにおいて、デコヒーレンスやシステム不完全性にもかかわらず、所望の量子状態を忠実に準備する前提条件は必ずしも適切に満たされない。 特定の目標状態への道をたどるために、ベイズ最適化に基づく量子最適制御フレームワークを探索する。 ベイズ最適化の確率的モデリングと広い探索の側面は、データ取得が高価である量子実験に特に適している。 格子内のボソンのモット絶縁体遷移とライドバーグ結晶の形成の数値シミュレーションを用いて, ベイズ最適化は, 既存の最適制御法と比較して, 有限かつノイズの多いデータに対して, より良い制御解を求めることができることを示した。

Ultra-cold atomic gases are unique in terms of the degree of controllability, both for internal and external degrees of freedom. This makes it possible to use them for the study of complex quantum many-body phenomena. However in many scenarios, the prerequisite condition of faithfully preparing a desired quantum state despite decoherence and system imperfections is not always adequately met. To path the way to a specific target state, we explore quantum optimal control framework based on Bayesian optimization. The probabilistic modeling and broad exploration aspects of Bayesian optimization is particularly suitable for quantum experiments where data acquisition can be expensive. Using numerical simulations for the superfluid to Mott-insulator transition for bosons in a lattice as well for the formation of Rydberg crystals as explicit examples, we demonstrate that Bayesian optimization is capable of finding better control solutions with regards to finite and noisy data compared to existing methods of optimal control.
翻訳日:2023-01-12 22:54:13 公開日:2020-05-12
# 急冷カイラルモデルにおける時間依存位相遷移のバルク検出

Bulk detection of time-dependent topological transitions in quenched chiral models ( http://arxiv.org/abs/2001.05960v2 )

ライセンス: Link先を確認
Alessio D'Errico, Francesco Di Colandrea, Raouf Barboza, Alexandre Dauphin, Maciej Lewenstein, Pietro Massignan, Lorenzo Marrucci and Filippo Cardano(参考訳) 1次元キラル系のトポロジーは、ハミルトン固有状態の巻数によって捉えられる。 ここでは,単粒子波動関数の平均カイラル変位をユニタリ写像および翻訳不変写像を介して完全局所化された関数に連結して測定することにより,この不変量を読み取ることができることを示す。 驚くべきことに、平均キラル変位は、基礎となるハミルトニアンが異なる位相相の間をクエンチした場合でも、回転数を検出することができる。 我々は、これらの結果を実験的に構造化光の量子ウォークで確認する。

The topology of one-dimensional chiral systems is captured by the winding number of the Hamiltonian eigenstates. Here we show that this invariant can be read-out by measuring the mean chiral displacement of a single-particle wavefunction that is connected to a fully localized one via a unitary and translational-invariant map. Remarkably, this implies that the mean chiral displacement can detect the winding number even when the underlying Hamiltonian is quenched between different topological phases. We confirm experimentally these results in a quantum walk of structured light.
翻訳日:2023-01-11 01:13:56 公開日:2020-05-12
# マルチリレーショナルグラフ畳み込みネットワークによる車両挙動の正確な分類に向けて

Towards Accurate Vehicle Behaviour Classification With Multi-Relational Graph Convolutional Networks ( http://arxiv.org/abs/2002.00786v3 )

ライセンス: Link先を確認
Sravan Mylavarapu, Mahtab Sandhu, Priyesh Vijayan, K Madhava Krishna, Balaraman Ravindran, Anoop Namboodiri(参考訳) センサデータの時間的シーケンスから道路車両の挙動を理解することが人気を集めている。 本稿では,モノクラー画像シーケンスやビデオから車両の挙動を理解するパイプラインを提案する。 シーンのセマンティクス、光学フロー、オブジェクトラベルとともに、シーン内のオブジェクト(車両)と他のオブジェクト(集合的に連続した位置)に関する空間情報を取得するために、モノクラーシーケンスが使用される。 この空間情報はマルチリレーショナルグラフ畳み込みネットワーク(mr-gcn)によって符号化され、そのようなエンコーディングの時系列シーケンスはリカレントネットワークに供給され、車両の挙動をラベル付けする。 提案されたフレームワークは、ヨーロッパ、中国、インドの道路上のシーンを含む、多様なデータセット上のさまざまな車両動作を高い忠実度に分類することができる。 このフレームワークはまた、再アノテーション、再トレーニング、さらには微調整を伴わずに、データセットをまたいだモデルのシームレスな転送も提供する。 我々は,ベースライン時空間分類器と比較して比較性能向上率を示し,フレームワークの有効性を示すために様々なアブレーションを詳述した。

Understanding on-road vehicle behaviour from a temporal sequence of sensor data is gaining in popularity. In this paper, we propose a pipeline for understanding vehicle behaviour from a monocular image sequence or video. A monocular sequence along with scene semantics, optical flow and object labels are used to get spatial information about the object (vehicle) of interest and other objects (semantically contiguous set of locations) in the scene. This spatial information is encoded by a Multi-Relational Graph Convolutional Network (MR-GCN), and a temporal sequence of such encodings is fed to a recurrent network to label vehicle behaviours. The proposed framework can classify a variety of vehicle behaviours to high fidelity on datasets that are diverse and include European, Chinese and Indian on-road scenes. The framework also provides for seamless transfer of models across datasets without entailing re-annotation, retraining and even fine-tuning. We show comparative performance gain over baseline Spatio-temporal classifiers and detail a variety of ablations to showcase the efficacy of the framework.
翻訳日:2023-01-04 09:05:32 公開日:2020-05-12
# 欠損値を持つ線形生成データ上の線形予測子:非一貫性と解

Linear predictor on linearly-generated data with missing values: non consistency and solutions ( http://arxiv.org/abs/2002.00658v2 )

ライセンス: Link先を確認
Marine Le Morvan (PARIETAL, IJCLab), Nicolas Prost (CMAP, XPOP), Julie Josse (CMAP, XPOP), Erwan Scornet (CMAP), Ga\"el Varoquaux (PARIETAL, MILA)(参考訳) データに値がない場合に予測器を構築することを検討する。 予測対象が全観測データの線形関数であるような単純な場合について検討し, 欠落した値が存在する場合, 最適予測器は線形でない可能性があることを示す。 特定のガウスの場合には、観測されたデータと様々な欠落値指標の間のマルチウェイ相互作用の線形関数として記述することができる。 その本質的複雑性から,簡単な近似法と有限サンプルによる一般化境界の証明を行い,各手法が最善を尽くすレジームを強調する。 次に、ReLU活性化関数を持つ多層パーセプトロンの一貫性を示し、真のモデルと近似との良好なトレードオフを探索する。 我々の研究では、利用可能なデータの量によって、欠落した値に適合できる興味深いモデルのファミリーを強調します。

We consider building predictors when the data have missing values. We study the seemingly-simple case where the target to predict is a linear function of the fully-observed data and we show that, in the presence of missing values, the optimal predictor may not be linear. In the particular Gaussian case, it can be written as a linear function of multiway interactions between the observed data and the various missing-value indicators. Due to its intrinsic complexity, we study a simple approximation and prove generalization bounds with finite samples, highlighting regimes for which each method performs best. We then show that multilayer perceptrons with ReLU activation functions can be consistent, and can explore good trade-offs between the true model and approximations. Our study highlights the interesting family of models that are beneficial to fit with missing values depending on the amount of data available.
翻訳日:2023-01-04 08:03:44 公開日:2020-05-12
# 高速定常視覚誘発電位(SSVEP)脳-コンピュータインタフェース(BCI)を目指して

Towards a Fast Steady-State Visual Evoked Potentials (SSVEP) Brain-Computer Interface (BCI) ( http://arxiv.org/abs/2002.01171v2 )

ライセンス: Link先を確認
Aung Aung Phyo Wai, Yangsong Zhang, Heng Guo, Ying Chi, Lei Zhang, Xian-Sheng Hua, Seong Whan Lee and Cuntai Guan(参考訳) 定常視覚誘発電位(SSVEP) 脳コンピュータインタフェース(BCI)は、高い精度と情報スループットをもたらす信頼性の高い応答を提供する。 しかし、高い精度を達成するには、通常は1秒以上という比較的長い時間を要する。 被験者固有のトレーニングと校正によって, サブ秒応答精度を向上させるための様々な手法が提案された。 退屈なキャリブレーションと主題固有のトレーニングによってパフォーマンスが大幅に改善され、結果としてユーザの不快感が高まった。 そこで我々は,空間フィルタと時間アライメント(CSTA)を組み合わせて,SSVEP応答を秒以下の応答時間で認識する訓練自由手法を提案する。 CSTAは、定常応答と相補融合による刺激テンプレートの線形相関と非線形類似性を利用して、良好な性能向上を実現する。 CSTAの精度と情報伝達率(ITR)を2つのSSVEPデータセットを用いたトレーニングベースおよびトレーニングフリー手法と比較して評価した。 オフライン解析において, CSTA は 4 級と 4 級の SSVEP データセットで 97.43$\pm$2.26 % と 85.71$\pm$13.41 % の最大平均精度を達成した。 CSTAは両データセットのトレーニング不要法よりも平均性能(p<0.001)が有意に高い。 トレーニングベースの手法と比較して、CSTAは平均精度が29.33$\pm$19.65%高く、時間窓の統計的差は0.5秒未満である。 長い時間窓では、CSTAはトレーニングベースの方法よりも統計的に有意に優れた性能を示すが、同等のパフォーマンスを示す。 提案手法は,サブ秒応答時間において高い目標認識性能を実現しつつ,トレーニングを必要とせず,主観非依存のSSVEP分類の利点をもたらすことを示す。

Steady-state visual evoked potentials (SSVEP) brain-computer interface (BCI) provides reliable responses leading to high accuracy and information throughput. But achieving high accuracy typically requires a relatively long time window of one second or more. Various methods were proposed to improve sub-second response accuracy through subject-specific training and calibration. Substantial performance improvements were achieved with tedious calibration and subject-specific training; resulting in the user's discomfort. So, we propose a training-free method by combining spatial-filtering and temporal alignment (CSTA) to recognize SSVEP responses in sub-second response time. CSTA exploits linear correlation and non-linear similarity between steady-state responses and stimulus templates with complementary fusion to achieve desirable performance improvements. We evaluated the performance of CSTA in terms of accuracy and Information Transfer Rate (ITR) in comparison with both training-based and training-free methods using two SSVEP data-sets. We observed that CSTA achieves the maximum mean accuracy of 97.43$\pm$2.26 % and 85.71$\pm$13.41 % with four-class and forty-class SSVEP data-sets respectively in sub-second response time in offline analysis. CSTA yields significantly higher mean performance (p<0.001) than the training-free method on both data-sets. Compared with training-based methods, CSTA shows 29.33$\pm$19.65 % higher mean accuracy with statistically significant differences in time window less than 0.5 s. In longer time windows, CSTA exhibits either better or comparable performance though not statistically significantly better than training-based methods. We show that the proposed method brings advantages of subject-independent SSVEP classification without requiring training while enabling high target recognition performance in sub-second response time.
翻訳日:2023-01-04 02:40:48 公開日:2020-05-12
# 浮動小数点精度を用いたニューラルネットワーク学習のための新しいMRAMベースのプロセスインメモリ加速器

A New MRAM-based Process In-Memory Accelerator for Efficient Neural Network Training with Floating Point Precision ( http://arxiv.org/abs/2003.01551v2 )

ライセンス: Link先を確認
Hongjie Wang, Yang Zhao, Chaojian Li, Yue Wang, Yingyan Lin(参考訳) 現代のディープニューラルネットワーク(DNN)の優れたパフォーマンスは、しばしば禁止的なトレーニングコストを伴い、DNNイノベーションの急速な発展を制限し、様々な環境問題を引き起こす。 トレーニングの主流となるデータ移動コストを削減するため、プロセスインメモリ(PIM)がDNNウェイトへのアクセスを緩和する有望なソリューションとして登場した。 しかし、最先端のPIM DNNトレーニングアクセラレータは、限られた論理機能をサポートするメモリ技術に基づいて、限られた精度のアナログ/混合信号計算またはデジタルコンピューティングを使用するため、浮動小数点演算を実現するために複雑な手順を必要とする。 本稿では、浮動小数点精度をサポートしたスピン軌道トルク磁気ランダムアクセスメモリ(SOT-MRAM)を用いたデジタルPIM加速器を提案する。 具体的には,(1)SOT-MRAMセル,(2)完全付加設計,(3)浮動小数点演算などが特徴である。 実験の結果,提案したSOT-MRAM PIMベースのDNNトレーニングアクセラレータは3.3$\times$,1.8$\times$,2.5$\times$を,最先端のPIMベースのDNNトレーニングアクセラレータと比較してそれぞれエネルギー,レイテンシ,面積の面で改善できることがわかった。

The excellent performance of modern deep neural networks (DNNs) comes at an often prohibitive training cost, limiting the rapid development of DNN innovations and raising various environmental concerns. To reduce the dominant data movement cost of training, process in-memory (PIM) has emerged as a promising solution as it alleviates the need to access DNN weights. However, state-of-the-art PIM DNN training accelerators employ either analog/mixed signal computing which has limited precision or digital computing based on a memory technology that supports limited logic functions and thus requires complicated procedure to realize floating point computation. In this paper, we propose a spin orbit torque magnetic random access memory (SOT-MRAM) based digital PIM accelerator that supports floating point precision. Specifically, this new accelerator features an innovative (1) SOT-MRAM cell, (2) full addition design, and (3) floating point computation. Experiment results show that the proposed SOT-MRAM PIM based DNN training accelerator can achieve 3.3$\times$, 1.8$\times$, and 2.5$\times$ improvement in terms of energy, latency, and area, respectively, compared with a state-of-the-art PIM based DNN training accelerator.
翻訳日:2022-12-27 06:06:27 公開日:2020-05-12
# PyCARL:スパイクニューラルネットワークのハードウェアソフト協調シミュレーションのためのPyNNインタフェース

PyCARL: A PyNN Interface for Hardware-Software Co-Simulation of Spiking Neural Network ( http://arxiv.org/abs/2003.09696v2 )

ライセンス: Link先を確認
Adarsha Balaji, Prathyusha Adiraju, Hirak J. Kashyap, Anup Das, Jeffrey L. Krichmar, Nikil D. Dutt, Francky Catthoor(参考訳) PyCARLは、スパイキングニューラルネットワーク(SNN)のハードウェア・ソフトウェア共同シミュレーションのための、PyNNベースの共通Pythonプログラミングインタフェースである。 PyCARLを通じて、以下の2つの重要なコントリビューションを行います。 まず,計算効率,GPU加速,生体物理詳細SNNシミュレータであるCARLsimにPyNNのインタフェースを提供する。 PyCARLは機械学習モデルの共同開発とCARLsimとPyNNユーザ間のコード共有を促進し、統合的でより大きなニューロモルフィックコミュニティを促進する。 第2に,truenorth,loihi,dynapseなどの最先端ニューロモルフィックハードウェアのサイクル正確なモデルをpycarlに統合し,通信ニューロン間のスパイクを遅延させ,性能を低下させるハードウェア遅延を正確にモデル化する。 pycarlは、ソフトウェアのみのシミュレーションと、機械学習モデルのハードウェアとソフトウェアの共同シミュレーションのパフォーマンスの違いを分析し最適化する。 システム設計者はpycarlを使って、製品開発の初期段階で設計空間の探索を行い、神経形態の製品をより早くデプロイできることを示した。 我々はPyCARLのメモリ使用量とシミュレーション時間を,機能テスト,合成SNN,現実的なアプリケーションを用いて評価した。 以上の結果から,大規模SNNではCARLsimに比べてPyCARLは大きなオーバーヘッドを伴わないことが示された。 我々はまた、これらのSNNを最先端のニューロモルフィックハードウェアとして分析するためにPyCARLを使用し、ソフトウェアのみのシミュレーションとの大きな性能差を示す。 PyCARLは、モデル開発の初期にそのような違いを評価し、最小化することができる。

We present PyCARL, a PyNN-based common Python programming interface for hardware-software co-simulation of spiking neural network (SNN). Through PyCARL, we make the following two key contributions. First, we provide an interface of PyNN to CARLsim, a computationally-efficient, GPU-accelerated and biophysically-detailed SNN simulator. PyCARL facilitates joint development of machine learning models and code sharing between CARLsim and PyNN users, promoting an integrated and larger neuromorphic community. Second, we integrate cycle-accurate models of state-of-the-art neuromorphic hardware such as TrueNorth, Loihi, and DynapSE in PyCARL, to accurately model hardware latencies that delay spikes between communicating neurons and degrade performance. PyCARL allows users to analyze and optimize the performance difference between software-only simulation and hardware-software co-simulation of their machine learning models. We show that system designers can also use PyCARL to perform design-space exploration early in the product development stage, facilitating faster time-to-deployment of neuromorphic products. We evaluate the memory usage and simulation time of PyCARL using functionality tests, synthetic SNNs, and realistic applications. Our results demonstrate that for large SNNs, PyCARL does not lead to any significant overhead compared to CARLsim. We also use PyCARL to analyze these SNNs for a state-of-the-art neuromorphic hardware and demonstrate a significant performance deviation from software-only simulations. PyCARL allows to evaluate and minimize such differences early during model development.
翻訳日:2022-12-21 12:40:58 公開日:2020-05-12
# MRI再構成のための深部複雑値畳み込みニューラルネットワークの解析

Analysis of Deep Complex-Valued Convolutional Neural Networks for MRI Reconstruction ( http://arxiv.org/abs/2004.01738v4 )

ライセンス: Link先を確認
Elizabeth K. Cole, Joseph Y. Cheng, John M. Pauly, and Shreyas S. Vasanawala(参考訳) 多くの実世界の信号源は複素値であり、実および虚数成分を持つ。 しかし、既存のディープラーニングプラットフォームやネットワークアーキテクチャの大部分は、複雑な数値データの使用をサポートしていない。 MRIデータは本質的に複素数値であり、既存のアプローチは複素データのよりリッチな代数構造を捨てる。 本研究では,2チャネル実数値ネットワークの代わりに画像再構成を行うために,終端から終端までの複雑な畳み込みニューラルネットワークについて検討する。 本研究では,スキャン時間の短縮を目的とした磁気共鳴画像再構成に応用し,様々な有望な複合値活性化関数の性能を判定する。 複雑な値の畳み込みを持つ複雑な値のCNNは、様々なネットワークアーキテクチャやデータセットに対して、同じ数のトレーニング可能なパラメータを持つ実値の畳み込みよりも優れた再構成を提供する。

Many real-world signal sources are complex-valued, having real and imaginary components. However, the vast majority of existing deep learning platforms and network architectures do not support the use of complex-valued data. MRI data is inherently complex-valued, so existing approaches discard the richer algebraic structure of the complex data. In this work, we investigate end-to-end complex-valued convolutional neural networks - specifically, for image reconstruction in lieu of two-channel real-valued networks. We apply this to magnetic resonance imaging reconstruction for the purpose of accelerating scan times and determine the performance of various promising complex-valued activation functions. We find that complex-valued CNNs with complex-valued convolutions provide superior reconstructions compared to real-valued convolutions with the same number of trainable parameters, over a variety of network architectures and datasets.
翻訳日:2022-12-17 04:18:20 公開日:2020-05-12
# スパイクニューラルネットワークのニューロモルフィックハードウェアへのコンパイル

Compiling Spiking Neural Networks to Neuromorphic Hardware ( http://arxiv.org/abs/2004.03717v2 )

ライセンス: Link先を確認
Shihao Song, Adarsha Balaji, Anup Das, Nagarajan Kandasamy, and James Shackleford(参考訳) スパイクベースの計算モデル、例えばspyking neural network(snn)で実装された機械学習アプリケーションは、ニューロモルフィックなハードウェア上で実行される場合のエネルギー消費を減らす大きな可能性を秘めている。 しかしながら、SNNのハードウェアへのコンパイルとマッピングは、特にハードウェアの計算とストレージリソース(例えばクロスバー)をSNNのニューロンとシナプス間で共有する必要がある場合、難しい。 本稿では,資源制約のあるニューロモルフィックハードウェア上でSNNを解析・コンパイルし,実行時間やスループットなどの重要なパフォーマンス指標を保証する手法を提案する。 私たちのアプローチは、以下の3つの重要な貢献をします。 まず,snをニューロンとシナプスのクラスタに分割し,各クラスタをクロスバーのリソースに適合させる技術を提案する。 第2に、SDFG(Synchronous Dataflow Graphs)のリッチなセマンティクスと表現性を利用して、クラスタ化されたSNNを表現し、Max-Plus Algebraを用いて、利用可能な計算能力、ストレージ容量、バッファサイズ、通信帯域幅を考慮してその性能を分析する。 第3に、SNNベースのアプリケーションを実行時にニューロモルフィックなハードウェアにコンパイルし、承認するセルフタイム実行ベースの高速手法を提案し、ハードウェア上の利用可能なリソースに動的に適応する。 提案手法を標準SNNベースのアプリケーションで評価し,現行のプラクティスと比較して大幅な性能向上を示した。

Machine learning applications that are implemented with spike-based computation model, e.g., Spiking Neural Network (SNN), have a great potential to lower the energy consumption when they are executed on a neuromorphic hardware. However, compiling and mapping an SNN to the hardware is challenging, especially when compute and storage resources of the hardware (viz. crossbar) need to be shared among the neurons and synapses of the SNN. We propose an approach to analyze and compile SNNs on a resource-constrained neuromorphic hardware, providing guarantee on key performance metrics such as execution time and throughput. Our approach makes the following three key contributions. First, we propose a greedy technique to partition an SNN into clusters of neurons and synapses such that each cluster can fit on to the resources of a crossbar. Second, we exploit the rich semantics and expressiveness of Synchronous Dataflow Graphs (SDFGs) to represent a clustered SNN and analyze its performance using Max-Plus Algebra, considering the available compute and storage capacities, buffer sizes, and communication bandwidth. Third, we propose a self-timed execution-based fast technique to compile and admit SNN-based applications to a neuromorphic hardware at run-time, adapting dynamically to the available resources on the hardware. We evaluate our approach with standard SNN-based applications and demonstrate a significant performance improvement compared to current practices.
翻訳日:2022-12-16 00:06:29 公開日:2020-05-12
# dashcamビデオにおける異常検出に向けて

Towards Anomaly Detection in Dashcam Videos ( http://arxiv.org/abs/2004.05261v2 )

ライセンス: Link先を確認
Sanjay Haresh, Sateesh Kumar, M. Zeeshan Zia, Quoc-Huy Tran(参考訳) 安価なセンシングと計算、さらには保険の革新により、スマートダッシュボードカメラがユビキタスになった。 車線離脱や安全な距離追尾に焦点を当てたシンプルなモデル駆動型コンピュータビジョンアルゴリズムが、これらのデバイスへの道を探っている。 残念ながら、道路の危険の長期分布は、これらの手作りパイプラインが運転者の安全システムに不十分であることを意味する。 我々は,このギャップを埋めるために,ディープラーニングからdashcamビデオへデータ駆動異常検出のアイデアを適用することを提案する。 残念ながら、動くカメラに異常理解を適用する文献はほとんど存在せず、関連するデータセットも欠落している。 この問題に対処するために,トラックダッシュカム動画の大規模かつ多種多様なデータセット,すなわちレトロトラック(retrotruck)を提示する。 適用します (i)一級別損失、及び (ii)レコンストラクションに基づく損失、レトロトラックの異常検出、および既存の静的カメラデータセット。 この文脈におけるオブジェクトの相互作用をモデル化するための定式化を導入する。 我々の実験は、我々のデータセットが通常の異常検出データセットよりも確かに難しいことを示しており、以前の異常検出手法はここではうまく動作しない。 さらに,ダッシュカムデータを用いた異常検出手法の2つの重要なファミリの挙動に関する知見を共有した。

Inexpensive sensing and computation, as well as insurance innovations, have made smart dashboard cameras ubiquitous. Increasingly, simple model-driven computer vision algorithms focused on lane departures or safe following distances are finding their way into these devices. Unfortunately, the long-tailed distribution of road hazards means that these hand-crafted pipelines are inadequate for driver safety systems. We propose to apply data-driven anomaly detection ideas from deep learning to dashcam videos, which hold the promise of bridging this gap. Unfortunately, there exists almost no literature applying anomaly understanding to moving cameras, and correspondingly there is also a lack of relevant datasets. To counter this issue, we present a large and diverse dataset of truck dashcam videos, namely RetroTrucks, that includes normal and anomalous driving scenes. We apply: (i) one-class classification loss and (ii) reconstruction-based loss, for anomaly detection on RetroTrucks as well as on existing static-camera datasets. We introduce formulations for modeling object interactions in this context as priors. Our experiments indicate that our dataset is indeed more challenging than standard anomaly detection datasets, and previous anomaly detection methods do not perform well here out-of-the-box. In addition, we share insights into the behavior of these two important families of anomaly detection approaches on dashcam data.
翻訳日:2022-12-14 12:50:19 公開日:2020-05-12
# MITRE ATT&CK のアソシエーションの学習

Learning the Associations of MITRE ATT&CK Adversarial Techniques ( http://arxiv.org/abs/2005.01654v2 )

ライセンス: Link先を確認
Rawan Al-Shaer and Jonathan M. Spring and Eliana Christou(参考訳) MITRE ATT&CK Frameworkは、敵の戦術、技術、手順(TTP)のリッチで実行可能なリポジトリを提供する。 しかし、この情報は攻撃診断(すなわち、法医学)や緩和(すなわち侵入応答)に非常に有用であり、観測された攻撃に基づく監視されていない攻撃技術の予測を可能にする技術関連を確実に構築することができる。 本稿では,MITRE ATT&CK が報告した APT および Software 攻撃データに対する統計的機械学習解析を行い,手法予測に使用できる有意な相関関係を示す手法クラスタリングを推測する。 テクニック間の複雑な多次元関係のため、従来のクラスタリング手法の多くは、使用可能な関連を得られなかった。 階層的クラスタリングを用いて95%信頼度で攻撃技術関連を推定することにより,統計的に有意かつ説明可能な技術相関が得られる。 本分析では,aptとソフトウェアアタックの両方に対して98の異なる技術関連(クラスタ)を発見した。 評価の結果,提案手法の78%は高い予測可能性を示す重要な相互情報を示すことがわかった。

The MITRE ATT&CK Framework provides a rich and actionable repository of adversarial tactics, techniques, and procedures (TTP). However, this information would be highly useful for attack diagnosis (i.e., forensics) and mitigation (i.e., intrusion response) if we can reliably construct technique associations that will enable predicting unobserved attack techniques based on observed ones. In this paper, we present our statistical machine learning analysis on APT and Software attack data reported by MITRE ATT&CK to infer the technique clustering that represents the significant correlation that can be used for technique prediction. Due to the complex multidimensional relationships between techniques, many of the traditional clustering methods could not obtain usable associations. Our approach, using hierarchical clustering for inferring attack technique associations with 95% confidence, provides statistically significant and explainable technique correlations. Our analysis discovers 98 different technique associations (i.e., clusters) for both APT and Software attacks. Our evaluation results show that 78% of the techniques associated by our algorithm exhibit significant mutual information that indicates reasonably high predictability.
翻訳日:2022-12-12 22:05:31 公開日:2020-05-12
# CTスキャンにおけるロバスト・高能率肺葉分節の関連モデリング

Relational Modeling for Robust and Efficient Pulmonary Lobe Segmentation in CT Scans ( http://arxiv.org/abs/2004.07443v4 )

ライセンス: Link先を確認
Weiyi Xie, Colin Jacobs, Jean-Paul Charbonnier, Bram van Ginneken(参考訳) CT検査における肺葉の分画は肺疾患の局所的評価に不可欠である。 畳み込みニューラルネットワークに基づく最近の研究は、このタスクで優れた性能を達成している。 しかし、畳み込みの性質上、構造的な関係を捉えることは制限されている。 肺葉の形状は互いに影響を与え、その境界は血管、気道、胸壁などの他の構造物の外観に関係している。 このような構造的関係は、COVID-19やCOPDなどの疾患によって肺が影響を受ける場合、肺葉の正確な起伏に重要な役割を果たす。 本稿では、新しい非局所ニューラルネットワークモジュールを導入することにより、構造化された関係を利用するリレーショナルアプローチ(RTSU-Net)を提案する。 提案するモジュールは,すべての畳み込み特徴の視覚的および幾何学的関係を学習し,自己付着重み付けを生成する。 新型コロナウイルス(covid-19)患者から得られるトレーニングデータは限られており、まずコプトゲン研究(4000名、評価1000名)の5000名を対象に、rtsu-netのトレーニングと検証を行いました。 COPDGeneで事前訓練したモデルを用いて,470人のCOVID-19被疑者(370人,評価100人)を対象にトランスファーラーニングを適用し,RTSU-Netを評価した。 実験の結果、RTSU-Netは3つのベースラインを上回り、新型コロナウイルスによる重篤な肺感染症に対して堅牢に作用することが示された。

Pulmonary lobe segmentation in computed tomography scans is essential for regional assessment of pulmonary diseases. Recent works based on convolution neural networks have achieved good performance for this task. However, they are still limited in capturing structured relationships due to the nature of convolution. The shape of the pulmonary lobes affect each other and their borders relate to the appearance of other structures, such as vessels, airways, and the pleural wall. We argue that such structural relationships play a critical role in the accurate delineation of pulmonary lobes when the lungs are affected by diseases such as COVID-19 or COPD. In this paper, we propose a relational approach (RTSU-Net) that leverages structured relationships by introducing a novel non-local neural network module. The proposed module learns both visual and geometric relationships among all convolution features to produce self-attention weights. With a limited amount of training data available from COVID-19 subjects, we initially train and validate RTSU-Net on a cohort of 5000 subjects from the COPDGene study (4000 for training and 1000 for evaluation). Using models pre-trained on COPDGene, we apply transfer learning to retrain and evaluate RTSU-Net on 470 COVID-19 suspects (370 for retraining and 100 for evaluation). Experimental results show that RTSU-Net outperforms three baselines and performs robustly on cases with severe lung infection due to COVID-19.
翻訳日:2022-12-12 22:04:47 公開日:2020-05-12
# LRCN-RetailNet: 正確な数え方のための繰り返しニューラルネットワークアーキテクチャ

LRCN-RetailNet: A recurrent neural network architecture for accurate people counting ( http://arxiv.org/abs/2004.09672v2 )

ライセンス: Link先を確認
Lucas Massa, Adriano Barbosa, Krerley Oliveira, Thales Vieira(参考訳) 小売店における顧客フローの測定と分析は、顧客行動の理解を深め、意思決定を支援するために不可欠である。 それにもかかわらず、自動カウントのための新しい技術の開発にはあまり注目されていない。 lrcn-retailnet: 非線形回帰モデルを学習し、低コストの監視カメラで撮影したビデオから人の数を正確に予測できる、リカレントニューラルネットワークアーキテクチャである。 入力ビデオフォーマットは、最近提案されたrgbp画像フォーマットに従っており、色と人(フォアグラウンド)情報で構成されている。 本アーキテクチャでは,RGBP画像からの畳み込み層から抽出した空間的特徴と,繰り返し層によって活用される問題の時間的コヒーレンスという2つの側面を考慮できる。 教師付き学習手法により、訓練されたモデルは、高い精度で人を数えることを予測できることが示される。 さらに,営業担当者を人数から除外するために,方法論の素直な変更が有効であることを示す。 提案アーキテクチャを検証,評価,比較するための総合的な実験を行った。 その結果、LRCN-RetailNetは、イテレーション毎に1つの画像の評価に制限されていた以前のRetailNetアーキテクチャと、オブジェクト検出のための最先端のニューラルネットワークの両方を著しく上回りました。 最後に、計算性能実験により、全手法がリアルタイムに人の数を推定するのに有効であることが確認された。

Measuring and analyzing the flow of customers in retail stores is essential for a retailer to better comprehend customers' behavior and support decision-making. Nevertheless, not much attention has been given to the development of novel technologies for automatic people counting. We introduce LRCN-RetailNet: a recurrent neural network architecture capable of learning a non-linear regression model and accurately predicting the people count from videos captured by low-cost surveillance cameras. The input video format follows the recently proposed RGBP image format, which is comprised of color and people (foreground) information. Our architecture is capable of considering two relevant aspects: spatial features extracted through convolutional layers from the RGBP images; and the temporal coherence of the problem, which is exploited by recurrent layers. We show that, through a supervised learning approach, the trained models are capable of predicting the people count with high accuracy. Additionally, we present and demonstrate that a straightforward modification of the methodology is effective to exclude salespeople from the people count. Comprehensive experiments were conducted to validate, evaluate and compare the proposed architecture. Results corroborated that LRCN-RetailNet remarkably outperforms both the previous RetailNet architecture, which was limited to evaluating a single image per iteration; and a state-of-the-art neural network for object detection. Finally, computational performance experiments confirmed that the entire methodology is effective to estimate people count in real-time.
翻訳日:2022-12-11 19:06:56 公開日:2020-05-12
# 全変量に基づくテクスチャセグメンテーションのためのハイパーパラメータの自動選択

Automated data-driven selection of the hyperparameters for Total-Variation based texture segmentation ( http://arxiv.org/abs/2004.09434v2 )

ライセンス: Link先を確認
Barbara Pascal and Samuel Vaiter and Nelly Pustelnik and Patrice Abry(参考訳) ペナライズド・リースト・スクエアは信号処理や画像処理に広く使われている。 しかし、正規化パラメータの微調整を必要とするため、大きな制限に悩まされる。 ノイズ確率分布の仮定の下で、スタインに基づくアプローチは二次リスクの偏りのない推定子を与える。 一般化シュタイン非バイアスリスク推定器は、共分散行列を反転させることなく相関ガウス雑音を処理するために再訪される。 そこで,広範グリッド探索を避けるためには,正規化パラメータに対する二次リスクを最小限に抑えるアルゴリズム的スキームを設計する必要がある。 この研究は、デレダールのリスクのスタインの非バイアス GrAdient 推定器を、正則化パラメータの一般的な自動チューニングを導出し、相関ガウス雑音の場合に拡張する。 まず,一般相関ガウス雑音の場合,勾配推定器の漸近的不偏性を示す。 提案するパラメータ選択戦略はフラクタルテクスチャセグメンテーションに特化され、問題定式化は自然にスケール間および空間的相関のあるノイズを伴う。 数値的な評価と実践的な問題についての議論が提供される。

Penalized Least Squares are widely used in signal and image processing. Yet, it suffers from a major limitation since it requires fine-tuning of the regularization parameters. Under assumptions on the noise probability distribution, Stein-based approaches provide unbiased estimator of the quadratic risk. The Generalized Stein Unbiased Risk Estimator is revisited to handle correlated Gaussian noise without requiring to invert the covariance matrix. Then, in order to avoid expansive grid search, it is necessary to design algorithmic scheme minimizing the quadratic risk with respect to regularization parameters. This work extends the Stein's Unbiased GrAdient estimator of the Risk of Deledalle et al. to the case of correlated Gaussian noise, deriving a general automatic tuning of regularization parameters. First, the theoretical asymptotic unbiasedness of the gradient estimator is demonstrated in the case of general correlated Gaussian noise. Then, the proposed parameter selection strategy is particularized to fractal texture segmentation, where problem formulation naturally entails inter-scale and spatially correlated noise. Numerical assessment is provided, as well as discussion of the practical issues.
翻訳日:2022-12-11 18:09:48 公開日:2020-05-12
# 線形拘束帯域に対するトンプソンサンプリング

Thompson Sampling for Linearly Constrained Bandits ( http://arxiv.org/abs/2004.09258v2 )

ライセンス: Link先を確認
Vidit Saxena, Joseph E. Gonzalez, and Joakim Jald\'en(参考訳) 本稿では,確率的線形制約の下で累積報酬を最大化することを目的としたマルチアームバンディット (mab) について述べる。 この問題の現実的な例では、よく知られたトンプソンサンプリング(TS)ヒューリスティックの拡張が最近提案されている。 しかし、制約付きTSの有限時間解析は困難であり、結果として、O(\sqrt{T}) のみが累積報酬損失(すなわち後悔)に制限される。 本稿では,各ラウンドの報酬を得る確率に線形制約を課す,バンドイットのtsベースアルゴリズムであるlincontsについて述べる。 また,LinConTSでは,過度な制約違反と累積的制約違反がO(\log T)によって上界されていることを示す。 本稿では,双対問題を慎重に解析し,非制約TSに関する最近の理論的研究と組み合わせた証明手法を開発した。 実世界の2つのデータセットの数値実験により、LinConTSは、後悔と違反を同時に最小化するために、漸近的に最適な上信頼境界(UCB)スキームより優れていることを示した。

We address multi-armed bandits (MAB) where the objective is to maximize the cumulative reward under a probabilistic linear constraint. For a few real-world instances of this problem, constrained extensions of the well-known Thompson Sampling (TS) heuristic have recently been proposed. However, finite-time analysis of constrained TS is challenging; as a result, only O(\sqrt{T}) bounds on the cumulative reward loss (i.e., the regret) are available. In this paper, we describe LinConTS, a TS-based algorithm for bandits that place a linear constraint on the probability of earning a reward in every round. We show that for LinConTS, the regret as well as the cumulative constraint violations are upper bounded by O(\log T) for the suboptimal arms. We develop a proof technique that relies on careful analysis of the dual problem and combine it with recent theoretical work on unconstrained TS. Through numerical experiments on two real-world datasets, we demonstrate that LinConTS outperforms an asymptotically optimal upper confidence bound (UCB) scheme in terms of simultaneously minimizing the regret and the violation.
翻訳日:2022-12-11 17:43:08 公開日:2020-05-12
# すべての文書が構造を所有する:グラフニューラルネットワークによる帰納的テキスト分類

Every Document Owns Its Structure: Inductive Text Classification via Graph Neural Networks ( http://arxiv.org/abs/2004.13826v2 )

ライセンス: Link先を確認
Yufeng Zhang, Xueli Yu, Zeyu Cui, Shu Wu, Zhongzhen Wen and Liang Wang(参考訳) 自然言語処理(NLP)ではテキスト分類が基本であり,近年,グラフニューラルネットワーク(GNN)が採用されている。 しかし、既存のグラフベースの作品は、各文書内の文脈的単語関係を捉えることも、新しい単語の帰納的学習を補うこともできない。 本研究では,このような問題を克服するために,GNN を用いた帰納的テキスト分類のための Texting を提案する。 まず、各文書の個々のグラフを作成し、次にGNNを使用して、その局所構造に基づいて粒度の細かい単語表現を学習し、また、新しい文書に見えない単語の埋め込みを効果的に生成する。 最後に、単語ノードを文書埋め込みとして集約する。 4つのベンチマークデータセットの大規模な実験により,本手法は最先端のテキスト分類法より優れていることが示された。

Text classification is fundamental in natural language processing (NLP), and Graph Neural Networks (GNN) are recently applied in this task. However, the existing graph-based works can neither capture the contextual word relationships within each document nor fulfil the inductive learning of new words. In this work, to overcome such problems, we propose TextING for inductive text classification via GNN. We first build individual graphs for each document and then use GNN to learn the fine-grained word representations based on their local structures, which can also effectively produce embeddings for unseen words in the new document. Finally, the word nodes are aggregated as the document embedding. Extensive experiments on four benchmark datasets show that our method outperforms state-of-the-art text classification methods.
翻訳日:2022-12-10 18:23:48 公開日:2020-05-12
# 混合マンナのフェア分割におけるロイヤリティフリーネスと他の共通特性

Jealousy-freeness and other common properties in Fair Division of Mixed Manna ( http://arxiv.org/abs/2004.11469v3 )

ライセンス: Link先を確認
Martin Aleksandrov(参考訳) 我々は,エージェントに不可分なアイテムを割り当てる公平な分割設定を考える。 設定中の各エージェントは、各アイテムに対して厳密に負、ゼロ、または正の効能を持つ。 したがって、あるエージェントにとって良いもの、他のエージェントにとって悪いもの(混合物)、誰にとっても良いもの(商品)、あるいは誰にとっても悪いもの(悪物)を区別します。 本モデルでは, 1 項目までの妬みフリーネス,1 項目までの妬みフリーネス,パレートオプティリティといった割当の公理的概念について検討する。 これらの特性の組み合わせに関して、多くの新しい可能性と不可能な結果が得られる。 また,これらの組み合わせに関する新しい計算タスクについても検討する。 そこで我々は,混合マンナの公平な分割における最先端の技術を推し進める。

We consider a fair division setting where indivisible items are allocated to agents. Each agent in the setting has strictly negative, zero or strictly positive utility for each item. We, thus, make a distinction between items that are good for some agents and bad for other agents (i.e. mixed), good for everyone (i.e. goods) or bad for everyone (i.e. bads). For this model, we study axiomatic concepts of allocations such as jealousy-freeness up to one item, envy-freeness up to one item and Pareto-optimality. We obtain many new possibility and impossibility results in regard to combinations of these properties. We also investigate new computational tasks related to such combinations. Thus, we advance the state-of-the-art in fair division of mixed manna.
翻訳日:2022-12-10 10:04:52 公開日:2020-05-12
# 局所適応はX線胸部疾患検出のための深層学習モデルの精度を向上させる : タイ研究

Local Adaptation Improves Accuracy of Deep Learning Model for Automated X-Ray Thoracic Disease Detection : A Thai Study ( http://arxiv.org/abs/2004.10975v3 )

ライセンス: Link先を確認
Isarun Chamveha, Trongtum Tongdee, Pairash Saiviroonporn, and Warasinee Chaisangmongkon(参考訳) 医療画像診断における人工知能の分野における有望な研究にもかかわらず、タイでは、ローカルデータセットに適用されるアルゴリズムの正確性と有用性を確認するための大規模な検証研究は行われていない。 421,859個の局所胸部x線写真を用いて,胸部疾患の自動検出のための深部学習アルゴリズムの開発とテストを行った。 本研究は,畳み込みニューラルネットワークが胸部x線上の13個の共通異常条件の検出において顕著な性能を発揮することを示し,局所画像のトレーニングセットへの取り込みが,モデルの成功の鍵となる。 本稿では,CXR異常検出のための最先端モデルを提案する。 このモデルがワークフローに統合されれば、CXR分析プロセスにおける医療従事者に対して、最大55.6%の作業削減が達成される。 本研究は,領域内での安全かつ効率的な使用を確保するために,医療診断アルゴリズムのローカルな研究に投資することの重要性を強調している。

Despite much promising research in the area of artificial intelligence for medical image diagnosis, there has been no large-scale validation study done in Thailand to confirm the accuracy and utility of such algorithms when applied to local datasets. Here we present a wide-reaching development and testing of a deep learning algorithm for automated thoracic disease detection, utilizing 421,859 local chest radiographs. Our study shows that convolutional neural networks can achieve remarkable performance in detecting 13 common abnormality conditions on chest X-ray, and the incorporation of local images into the training set is key to the model's success. This paper presents a state-of-the-art model for CXR abnormality detection, reaching an average AUROC of 0.91. This model, if integrated to the workflow, can result in up to 55.6% work reduction for medical practitioners in the CXR analysis process. Our work emphasizes the importance of investing in local research of medical diagnosis algorithms to ensure safe and efficient usage within the intended region.
翻訳日:2022-12-10 09:19:27 公開日:2020-05-12
# マルチスケール残差ネットワークに基づくハイパースペクトル画像分類

Hyperspectral Images Classification Based on Multi-scale Residual Network ( http://arxiv.org/abs/2004.12381v2 )

ライセンス: Link先を確認
Xiangdong Zhang, Tengjun Wang, Yun Yang(参考訳) ハイパースペクトルリモートセンシング画像には多くの冗長な情報が含まれており、データ構造は非常に非線形であるため、従来の機械学習手法の分類精度は低い。 最近の研究では、深層畳み込みニューラルネットワークに基づくハイパースペクトル画像分類が高精度であることが示されている。 しかし、少量のデータをトレーニングに使用する場合、深層学習法の分類精度は大幅に低下する。 ハイパースペクトル画像の小型サンプル上で既存のアルゴリズムの分類精度が低いという課題を解決するため,マルチスケール残差ネットワークを提案する。 残差ブロックに分岐構造を追加し、その枝の大きさの異なる畳み込み核を用いて、空間的およびスペクトル的特徴の多スケール抽出と融合を実現する。 ハイパースペクトル画像に含まれる空間情報とスペクトル情報が十分に活用され、分類精度が向上する。 さらに、スピードの向上と過度な適合を防止するため、このモデルは動的学習率、BNおよびDropout戦略を使用する。 実験の結果,本手法の分類精度は,他のアルゴリズムよりも優れたインド松とパヴィア大学のデータセットにおいてそれぞれ99.07%,99.96%であった。

Because hyperspectral remote sensing images contain a lot of redundant information and the data structure is highly non-linear, leading to low classification accuracy of traditional machine learning methods. The latest research shows that hyperspectral image classification based on deep convolutional neural network has high accuracy. However, when a small amount of data is used for training, the classification accuracy of deep learning methods is greatly reduced. In order to solve the problem of low classification accuracy of existing algorithms on small samples of hyperspectral images, a multi-scale residual network is proposed. The multi-scale extraction and fusion of spatial and spectral features is realized by adding a branch structure into the residual block and using convolution kernels of different sizes in the branch. The spatial and spectral information contained in hyperspectral images are fully utilized to improve the classification accuracy. In addition, in order to improve the speed and prevent overfitting, the model uses dynamic learning rate, BN and Dropout strategies. The experimental results show that the overall classification accuracy of this method is 99.07% and 99.96% respectively in the data set of Indian Pines and Pavia University, which is better than other algorithms.
翻訳日:2022-12-09 13:35:21 公開日:2020-05-12
# 逐次凸近似に基づく確率的非凸最適化と学習

Distributed Stochastic Nonconvex Optimization and Learning based on Successive Convex Approximation ( http://arxiv.org/abs/2004.14882v2 )

ライセンス: Link先を確認
Paolo Di Lorenzo, Simone Scardapane(参考訳) 分散確率的非凸最適化をマルチエージェントネットワークで検討する。 本稿では,滑らかな(多分非凸)関数(エージェントの和有効性)と凸(多分非滑らか)正規化器の期待値の和の分散最小化のための新しいアルゴリズムフレームワークを提案する。 提案手法は, 逐次凸近似(SCA)手法を応用し, エージェント間の平均勾配を追跡する機構として動的コンセンサスを活用し, 累積平均勾配を再現し, 積算効用関数の期待勾配を復元する。 非凸問題の(定常)解への収束はほぼ確実である。 最後に,ニューラルネットワークの確率的分散トレーニングに適用する。 数値結果は理論的な主張を裏付けるものであり、文献で利用可能な他の方法に関して提案手法の利点を示すものである。

We study distributed stochastic nonconvex optimization in multi-agent networks. We introduce a novel algorithmic framework for the distributed minimization of the sum of the expected value of a smooth (possibly nonconvex) function (the agents' sum-utility) plus a convex (possibly nonsmooth) regularizer. The proposed method hinges on successive convex approximation (SCA) techniques, leveraging dynamic consensus as a mechanism to track the average gradient among the agents, and recursive averaging to recover the expected gradient of the sum-utility function. Almost sure convergence to (stationary) solutions of the nonconvex problem is established. Finally, the method is applied to distributed stochastic training of neural networks. Numerical results confirm the theoretical claims, and illustrate the advantages of the proposed method with respect to other methods available in the literature.
翻訳日:2022-12-08 05:43:28 公開日:2020-05-12
# multiqt:リアルタイム質問追跡のためのマルチモーダル学習

MultiQT: Multimodal Learning for Real-Time Question Tracking in Speech ( http://arxiv.org/abs/2005.00812v2 )

ライセンス: Link先を確認
Jakob D. Havtorn, Jan Latko, Joakim Edin, Lasse Borgholt, Lars Maal{\o}e, Lorenzo Belgrano, Nicolai F. Jacobsen, Regitze Sdun, \v{Z}eljko Agi\'c(参考訳) 緊急通報者のための幅広い意思決定支援システムに組み込まれている英語の緊急医療サービスへの通話中に、リアルタイムで音声に質問をラベル付けするという、挑戦的で実用的な課題に対処します。 音声におけるリアルタイムシーケンスラベリングに対する新しいマルチモーダルアプローチを提案する。 本モデルでは,ストリーム音声から学習し,その雑音を自動音声認識によってテキストに書き起こすことによって,音声とそのテキスト表現を2つの異なるモーダルやビューとして扱う。 以上の結果から,テキストや音声のみと比較した場合,不適切な雑音下,トレーニングデータの限られた量において,共同学習が有意な向上を示した。 その結果,マルチモーダル学習による類似した改善パターンを観察できる医学的症状検出に一般化した。

We address a challenging and practical task of labeling questions in speech in real time during telephone calls to emergency medical services in English, which embeds within a broader decision support system for emergency call-takers. We propose a novel multimodal approach to real-time sequence labeling in speech. Our model treats speech and its own textual representation as two separate modalities or views, as it jointly learns from streamed audio and its noisy transcription into text via automatic speech recognition. Our results show significant gains of jointly learning from the two modalities when compared to text or audio only, under adverse noise and limited volume of training data. The results generalize to medical symptoms detection where we observe a similar pattern of improvements with multimodal learning.
翻訳日:2022-12-07 12:51:41 公開日:2020-05-12
# Navier-Stokes方程式へのパラメトリック解の集約と補間のための物理インフォームニューラルネットワークのアクティブトレーニング

Active Training of Physics-Informed Neural Networks to Aggregate and Interpolate Parametric Solutions to the Navier-Stokes Equations ( http://arxiv.org/abs/2005.05092v2 )

ライセンス: Link先を確認
Christopher J Arthurs and Andrew P King(参考訳) この研究の目的は、パラメータがドメイン形状や境界条件などの物理的特性を定義するパラメータ空間の領域にわたってナビエ・ストークス方程式の解を近似するニューラルネットワークを訓練することである。 この研究の貢献は3つある: 1) ニューラルネットワークが物理問題に対するパラメータ的解の族全体の効率的なアグリゲータになり得ることを示すために、有限要素のような伝統的な信頼できる数値法を用いて訓練された。 物理的およびパラメータ空間の任意の時点(漸近的に~3$\mu s$ / query)における圧力と速度の極めて高速な評価、およびデータ圧縮(ネットワークは自身のトレーニングデータと比較して99.5%少ないストレージスペースを必要とする)を含む利点がある。 2) ニューラルネットワークはパラメータ空間内の有限要素解の間を正確に補間し, 従来のシミュレーションが実施されていない問題に対して, 圧力および速度場解を瞬時に問合せすることができることを示す。 3)学習中に有限要素ソルバを自動的にクエリして、ニューラルネットワークの予測が最も改善が必要な場所で追加のトレーニングデータを取得することにより、パラメータ空間全体のトレーニングデータを自律的に取得し、効率よく分散する能動的学習アルゴリズムを導入する。 上述の項目2の明らかな実用性に加えて, 高速パラメータスイーピングにおけるネットワークの応用を実演し, 管内の狭み度を精度良く予測し, 所定流量でエンドツーエンドの圧力差が50%増加することを示した。 この能力は、動脈疾患の診断とコンピュータ支援設計の両方に応用できる可能性がある。

The goal of this work is to train a neural network which approximates solutions to the Navier-Stokes equations across a region of parameter space, in which the parameters define physical properties such as domain shape and boundary conditions. The contributions of this work are threefold: 1) To demonstrate that neural networks can be efficient aggregators of whole families of parameteric solutions to physical problems, trained using data created with traditional, trusted numerical methods such as finite elements. Advantages include extremely fast evaluation of pressure and velocity at any point in physical and parameter space (asymptotically, ~3 $\mu s$ / query), and data compression (the network requires 99\% less storage space compared to its own training data). 2) To demonstrate that the neural networks can accurately interpolate between finite element solutions in parameter space, allowing them to be instantly queried for pressure and velocity field solutions to problems for which traditional simulations have never been performed. 3) To introduce an active learning algorithm, so that during training, a finite element solver can automatically be queried to obtain additional training data in locations where the neural network's predictions are in most need of improvement, thus autonomously acquiring and efficiently distributing training data throughout parameter space. In addition to the obvious utility of Item 2, above, we demonstrate an application of the network in rapid parameter sweeping, very precisely predicting the degree of narrowing in a tube which would result in a 50\% increase in end-to-end pressure difference at a given flow rate. This capability could have applications in both medical diagnosis of arterial disease, and in computer-aided design.
翻訳日:2022-12-07 12:17:28 公開日:2020-05-12
# 一般化エントロピー規則化か:ラベルの平滑化について特別なことは何もない

Generalized Entropy Regularization or: There's Nothing Special about Label Smoothing ( http://arxiv.org/abs/2005.00820v2 )

ライセンス: Link先を確認
Clara Meister, Elizabeth Salesky, Ryan Cotterell(参考訳) 従来の研究は、確率モデルの出力分布を直接正規化し、過度に適合する共通の兆候であるピーク性(すなわち過信)の予測を緩和した。 ラベルの平滑化が一つであるこの手法のクラスはエントロピー正則化と結びついている。 言語生成タスクにおけるアーキテクチャやデータセット間のラベルスムーシングが一貫した成功にもかかわらず、(1)エントロピー正規化器がモデルに持つ基礎的効果についてはほとんど理解されておらず、(2)エントロピー正規化技術の完全な空間は探索されていない。 本稿では,特殊なケースとしてラベル平滑化を含むエントロピー正規化器のパラメトリックファミリーを導入し,モデルエントロピーと言語生成タスクの性能の関係をよりよく理解するために使用する。 また,モデル性能のばらつきは,モデルのエントロピーによって説明できることがわかった。 最後に、ラベルの平滑化は、言語生成モデルにおいて望ましくない性質である出力分布の疎結合を許容しないため、他のエントロピー正規化手法の使用を推奨する。

Prior work has explored directly regularizing the output distributions of probabilistic models to alleviate peaky (i.e. over-confident) predictions, a common sign of overfitting. This class of techniques, of which label smoothing is one, has a connection to entropy regularization. Despite the consistent success of label smoothing across architectures and data sets in language generation tasks, two problems remain open: (1) there is little understanding of the underlying effects entropy regularizers have on models, and (2) the full space of entropy regularization techniques is largely unexplored. We introduce a parametric family of entropy regularizers, which includes label smoothing as a special case, and use it to gain a better understanding of the relationship between the entropy of a model and its performance on language generation tasks. We also find that variance in model performance can be explained largely by the resulting entropy of the model. Lastly, we find that label smoothing provably does not allow for sparsity in an output distribution, an undesirable property for language generation models, and therefore advise the use of other entropy regularization methods in its place.
翻訳日:2022-12-07 11:49:02 公開日:2020-05-12
# ENGINE:非自律機械翻訳のためのエネルギーベース推論ネットワーク

ENGINE: Energy-Based Inference Networks for Non-Autoregressive Machine Translation ( http://arxiv.org/abs/2005.00850v2 )

ライセンス: Link先を確認
Lifu Tu, Richard Yuanzhe Pang, Sam Wiseman, Kevin Gimpel(参考訳) 我々は,事前学習された自己回帰モデルによって定義されるエネルギーを最小限に抑えるために,非自己回帰機械翻訳モデルを訓練することを提案する。 特に、我々の非自己回帰的翻訳システムは、自己回帰的教師のエネルギーを最小限に抑えるために訓練された推論ネットワーク(Tu and Gimpel, 2018)と見なしている。 これは、教師モデルのビーム検索出力からなる蒸留コーパス上で非自己回帰モデルを訓練するという一般的なアプローチとは対照的である。 我々のアプローチはENGINE(ENerGy-based Inference NEtworks)と呼ばれ、IWSLT 2014 DE-ENとWMT 2016 RO-ENデータセットで最先端の非自己回帰結果を実現し、自己回帰モデルの性能にアプローチする。

We propose to train a non-autoregressive machine translation model to minimize the energy defined by a pretrained autoregressive model. In particular, we view our non-autoregressive translation system as an inference network (Tu and Gimpel, 2018) trained to minimize the autoregressive teacher energy. This contrasts with the popular approach of training a non-autoregressive model on a distilled corpus consisting of the beam-searched outputs of such a teacher model. Our approach, which we call ENGINE (ENerGy-based Inference NEtworks), achieves state-of-the-art non-autoregressive results on the IWSLT 2014 DE-EN and WMT 2016 RO-EN datasets, approaching the performance of autoregressive models.
翻訳日:2022-12-07 11:48:39 公開日:2020-05-12
# プール」と予測モデルの組み合わせは、covid-19(コロナウイルス)検査の数を73%削減できる

A combination of 'pooling' with a prediction model can reduce by 73% the number of COVID-19 (Corona-virus) tests ( http://arxiv.org/abs/2005.03453v3 )

ライセンス: Link先を確認
Tomer Cohen, Lior Finkelman, Gal Grimberg, Gadi Shenhar, Ofer Strichman, Yonatan Strichman, Stav Yeger(参考訳) ニューラルネットワークに基づく予測モデルと,'Grid'と呼ばれる新しいテストプール法(元のDorfman法ではなく,ダブルプール法よりも優れている)を組み合わせることで,Covid-19テストの数を73%削減できることを示す。

We show that combining a prediction model (based on neural networks), with a new method of test pooling (better than the original Dorfman method, and better than double-pooling) called 'Grid', we can reduce the number of Covid-19 tests by 73%.
翻訳日:2022-12-07 06:24:02 公開日:2020-05-12
# プローブとパーサーの物語

A Tale of a Probe and a Parser ( http://arxiv.org/abs/2005.01641v2 )

ライセンス: Link先を確認
Rowan Hall Maudslay, Josef Valvoda, Tiago Pimentel, Adina Williams, Ryan Cotterell(参考訳) 言語のニューラルモデルで符号化されている言語情報を測定することは、NLPで人気がある。 研究者は、他のモデルの出力から言語構造を抽出するために設計された教師付きモデル"プローブ"をトレーニングすることで、この企業にアプローチする。 そのようなプローブの1つは構造プローブ(Hewitt and Manning, 2019)で、構文情報が文脈化された単語表現でエンコードされる範囲を定量化するために設計された。 構造プローブは、解析文学では証明されていない新しい設計であり、正確な利点はすぐには明らかではない。 構文プローブが既存の技術を利用するのに効果的かどうかを調べるため、構造プローブをより伝統的なパーサと同一の軽量パラメータ化と比較する。 パーサーは、9つの分析された言語のうち7つのUASの構造的プローブ(例えば、英語で11.1ポイント)を上回っている。 しかし、第2のあまり一般的でない計量では、構造的プローブがパーサーを上回るという逆の傾向がある。 どちらが望ましいのか、という疑問が浮かび上がっています。

Measuring what linguistic information is encoded in neural models of language has become popular in NLP. Researchers approach this enterprise by training "probes" - supervised models designed to extract linguistic structure from another model's output. One such probe is the structural probe (Hewitt and Manning, 2019), designed to quantify the extent to which syntactic information is encoded in contextualised word representations. The structural probe has a novel design, unattested in the parsing literature, the precise benefit of which is not immediately obvious. To explore whether syntactic probes would do better to make use of existing techniques, we compare the structural probe to a more traditional parser with an identical lightweight parameterisation. The parser outperforms structural probe on UUAS in seven of nine analysed languages, often by a substantial amount (e.g. by 11.1 points in English). Under a second less common metric, however, there is the opposite trend - the structural probe outperforms the parser. This begs the question: which metric should we prefer?
翻訳日:2022-12-07 00:56:20 公開日:2020-05-12
# 非線形ダイナミクスの階層的分解とシステム同定と政策蒸留の制御

Hierarchical Decomposition of Nonlinear Dynamics and Control for System Identification and Policy Distillation ( http://arxiv.org/abs/2005.01432v2 )

ライセンス: Link先を確認
Hany Abdulsamad and Jan Peters(参考訳) 非線形力学系の制御は、自律エージェントにとって大きな課題である。 強化学習(RL)の最近のトレンドは、力学とポリシーの複雑な表現に焦点を当てており、様々なハードコントロールタスクの解決に顕著な結果をもたらしている。 しかし、この新しい高度化と極めて過度にパラメータ化されたモデルは、その結果のポリシーを解釈する能力の全体的な削減のコストを伴っている。 本稿では,制御コミュニティから着想を得て,複雑なダイナミクスをより単純なコンポーネントに分解するために,ハイブリッドスイッチングシステムの原則を適用する。 本研究では,確率的グラフィカルモデルの豊かな表現力を活用し,シーケンスモデルを学習してデータの時間構造を把握し,非線形力学を確率スイッチング線形力学系に自動的に分解する予測最大化(EM)アルゴリズムを導出する。 さらに,このスイッチングモデルにより,非線型専門家からマルコフ型および自己回帰型局所線形コントローラの階層構造を模倣学習シナリオで抽出できることを示す。

The control of nonlinear dynamical systems remains a major challenge for autonomous agents. Current trends in reinforcement learning (RL) focus on complex representations of dynamics and policies, which have yielded impressive results in solving a variety of hard control tasks. However, this new sophistication and extremely over-parameterized models have come with the cost of an overall reduction in our ability to interpret the resulting policies. In this paper, we take inspiration from the control community and apply the principles of hybrid switching systems in order to break down complex dynamics into simpler components. We exploit the rich representational power of probabilistic graphical models and derive an expectation-maximization (EM) algorithm for learning a sequence model to capture the temporal structure of the data and automatically decompose nonlinear dynamics into stochastic switching linear dynamical systems. Moreover, we show how this framework of switching models enables extracting hierarchies of Markovian and auto-regressive locally linear controllers from nonlinear experts in an imitation learning scenario.
翻訳日:2022-12-07 00:10:36 公開日:2020-05-12
# Gumbel Softmaxによるコミュニティ検出クラスタリング

Community Detection Clustering via Gumbel Softmax ( http://arxiv.org/abs/2005.02372v2 )

ライセンス: Link先を確認
Deepak Bhaskar Acharya, Huaming Zhang(参考訳) 近年,音声認識や視覚処理など多くのシステムにおいて,ディープラーニングが広く採用されている。 本研究では,グラフデータセット間のコミュニティ検出における深層学習の利用の可能性について検討する。 グラフは、ソーシャルネットワーク、情報グラフ、レコメンダシステム、ライフサイエンスなど、さまざまな分野で勢いを増している。 本稿では,様々なグラフデータセットのノードをクラスタリングするコミュニティ検出手法を提案する。 Affiliation Network、Animal Network、Human Contact Network、Human Social Network、Miscellaneous Networkに属するさまざまなカテゴリデータセットをクラスタ化する。 ネットワーク内のノード間の相互作用をモデル化する深層学習の役割は、グラフネットワーク分析に関連する科学の分野に革命をもたらす。 本稿では,グラフネットワーククラスタリングへのガムベルソフトマックスアプローチの拡張について述べる。 特定のグラフデータセットに関する実験の結果、新しいアプローチは従来のクラスタリングを大きく上回っており、グラフコミュニティ検出クラスタリングにおけるディープラーニングの有効性を強く示している。 zachary karate club, highland tribe, train bomb, american revolution, dolphins, zebra, windsurfers, les mis\'erables, political booksなど,さまざまなデータセットを使用して,グラフクラスタリングアルゴリズムを実験しています。

Recently, in many systems such as speech recognition and visual processing, deep learning has been widely implemented. In this research, we are exploring the possibility of using deep learning in community detection among the graph datasets. Graphs have gained growing traction in different fields, including social networks, information graphs, the recommender system, and also life sciences. In this paper, we propose a method of community detection clustering the nodes of various graph datasets. We cluster different category datasets that belong to Affiliation networks, Animal networks, Human contact networks, Human social networks, Miscellaneous networks. The deep learning role in modeling the interaction between nodes in a network allows a revolution in the field of science relevant to graph network analysis. In this paper, we extend the gumbel softmax approach to graph network clustering. The experimental findings on specific graph datasets reveal that the new approach outperforms traditional clustering significantly, which strongly shows the efficacy of deep learning in graph community detection clustering. We do a series of experiments on our graph clustering algorithm, using various datasets: Zachary karate club, Highland Tribe, Train bombing, American Revolution, Dolphins, Zebra, Windsurfers, Les Mis\'erables, Political books.
翻訳日:2022-12-06 13:51:09 公開日:2020-05-12
# マルチメディアアプリケーション用アノテーションを用いたマンガデータセット"Manga109"の構築

Building a Manga Dataset "Manga109" with Annotations for Multimedia Applications ( http://arxiv.org/abs/2005.04425v2 )

ライセンス: Link先を確認
Kiyoharu Aizawa, Azuma Fujimoto, Atsushi Otsubo, Toru Ogawa, Yusuke Matsui, Koki Tsubota, Hikaru Ikuta(参考訳) マンガ(manga)、あるいはマンガ(comics)は、マルチモーダルなアートワークの一種であり、適切なデータセットがないため、ディープラーニングアプリケーションの最新トレンドに残されている。 そこで我々は、109冊の日本漫画(94冊、21,142ページ)からなるデータセットmanga109を構築し、学術利用の許可を得て一般公開した。 フレーム, 音声テキスト, 文字顔, 文字体を慎重に注釈し, 注釈の総数は500万を超えている。 このデータセットは多くのマンガイメージとアノテーションを提供しており、機械学習アルゴリズムとその評価に有用である。 学術的利用に加えて,産業用データセットのサブセットに対するさらなる許可を得た。 本稿では、データセットの詳細を説明し、既存のディープラーニング手法を適用し、データセットによって実現可能なマルチメディア処理アプリケーション(検出、検索、生成)をいくつか紹介する。

Manga, or comics, which are a type of multimodal artwork, have been left behind in the recent trend of deep learning applications because of the lack of a proper dataset. Hence, we built Manga109, a dataset consisting of a variety of 109 Japanese comic books (94 authors and 21,142 pages) and made it publicly available by obtaining author permissions for academic use. We carefully annotated the frames, speech texts, character faces, and character bodies; the total number of annotations exceeds 500k. This dataset provides numerous manga images and annotations, which will be beneficial for use in machine learning algorithms and their evaluation. In addition to academic use, we obtained further permission for a subset of the dataset for industrial use. In this article, we describe the details of the dataset and present a few examples of multimedia processing applications (detection, retrieval, and generation) that apply existing deep learning methods and are made possible by the dataset.
翻訳日:2022-12-05 07:10:49 公開日:2020-05-12
# オンライン広告における大規模重み付きbマッチング問題に対するヒューリスティック探索の高速化

Learning to Accelerate Heuristic Searching for Large-Scale Maximum Weighted b-Matching Problems in Online Advertising ( http://arxiv.org/abs/2005.04355v2 )

ライセンス: Link先を確認
Xiaotian Hao, Junqi Jin, Jianye Hao, Jin Li, Weixun Wang, Yi Ma, Zhenzhe Zheng, Han Li, Jian Xu and Kun Gai(参考訳) bマッチングはアルゴリズム設計において基本であり、経済市場や労働市場などに広く適用されている。 これらの実用的な問題は、通常2つの異なる特徴を示す:大規模と動的であり、マッチングアルゴリズムを定期的に繰り返し実行する必要がある。 しかし、既存の完全で近似的なアルゴリズムは、通常、耐え難い実行時間を必要とするか、計算資源が多すぎるため、このような設定では失敗する。 この問題に対処するために,前回のインスタンスから学んだ知識を活用して新しい問題インスタンスを解く, \texttt{neusearcher} を提案する。 具体的には,マッチングエッジ重みのしきい値を予測するために,探索領域を大幅に削減できるマルチチャネルグラフニューラルネットワークを設計した。 さらに,収束まで解の質を反復的に向上させる並列ヒューリスティック探索アルゴリズムを提案する。 オープンデータセットとインダストリアルデータセットの両方の実験により、 \texttt{neusearcher} は2倍から3倍のスピードアップが可能で、最先端の近似アプローチと全く同じソリューションを実現している。

Bipartite b-matching is fundamental in algorithm design, and has been widely applied into economic markets, labor markets, etc. These practical problems usually exhibit two distinct features: large-scale and dynamic, which requires the matching algorithm to be repeatedly executed at regular intervals. However, existing exact and approximate algorithms usually fail in such settings due to either requiring intolerable running time or too much computation resource. To address this issue, we propose \texttt{NeuSearcher} which leverages the knowledge learned from previously instances to solve new problem instances. Specifically, we design a multichannel graph neural network to predict the threshold of the matched edges weights, by which the search region could be significantly reduced. We further propose a parallel heuristic search algorithm to iteratively improve the solution quality until convergence. Experiments on both open and industrial datasets demonstrate that \texttt{NeuSearcher} can speed up 2 to 3 times while achieving exactly the same matching solution compared with the state-of-the-art approximation approaches.
翻訳日:2022-12-05 07:09:23 公開日:2020-05-12
# アクティブラーニングによるシステムとユーザ要求の協調的最適化

Empowering Active Learning to Jointly Optimize System and User Demands ( http://arxiv.org/abs/2005.04470v2 )

ライセンス: Link先を確認
Ji-Ung Lee, Christian M. Meyer, Iryna Gurevych(参考訳) 既存のアクティブラーニングアプローチは、最も効率的なトレーニングをもたらすアノテーションのためにラベルのないインスタンスをサンプリングすることで、システム性能を最大化する。 しかし、アクティブな学習がエンドユーザーアプリケーションと統合されると、それ以外は読書に興味のないインスタンスをラベル付けするのに時間を費やすため、参加するユーザにとってフラストレーションが発生する可能性がある。 本稿では,アクティブラーニングシステム(効果的に学習する)とユーザ(有用なインスタンスを知覚する)の一見相反する目標を協調的に最適化する,新たなアクティブラーニング手法を提案する。 本手法は,特定のユーザに対する運動の適切性を予測するために,システムが迅速に学習する必要があること,また,そのスキルに合致したエクササイズしか受け取らないこと,等から,教育アプリケーションにおけるアプローチを考察する。 複数の学習戦略とユーザタイプを実際のユーザからのデータで評価し,代替手法がエンドユーザに適さない多くのエクササイズをもたらす場合,共同アプローチが両方の目標を満足できることを確認した。

Existing approaches to active learning maximize the system performance by sampling unlabeled instances for annotation that yield the most efficient training. However, when active learning is integrated with an end-user application, this can lead to frustration for participating users, as they spend time labeling instances that they would not otherwise be interested in reading. In this paper, we propose a new active learning approach that jointly optimizes the seemingly counteracting objectives of the active learning system (training efficiently) and the user (receiving useful instances). We study our approach in an educational application, which particularly benefits from this technique as the system needs to rapidly learn to predict the appropriateness of an exercise to a particular user, while the users should receive only exercises that match their skills. We evaluate multiple learning strategies and user types with data from real users and find that our joint approach better satisfies both objectives when alternative methods lead to many unsuitable exercises for end users.
翻訳日:2022-12-05 07:02:16 公開日:2020-05-12
# 画像の持続的ホモロジーにおける双対性

Duality in Persistent Homology of Images ( http://arxiv.org/abs/2005.04597v2 )

ライセンス: Link先を確認
Ad\'elie Garin, Teresa Heiss, Kelly Maggs, Bea Bleile, Vanessa Robins(参考訳) 2つの二重フィルタCW錯体の持続ホモロジーバーコード間の関係を導出する。 グレースケールのデジタル画像に適用し、2つの異なる(デュアル)トポロジカルなピクセル接続モデル間でバーコードを変換するアルゴリズムを得る。

We derive the relationship between the persistent homology barcodes of two dual filtered CW complexes. Applied to greyscale digital images, we obtain an algorithm to convert barcodes between the two different (dual) topological models of pixel connectivity.
翻訳日:2022-12-05 02:13:35 公開日:2020-05-12
# 高解像度衛星画像のための光度マルチビューメッシュ微細化

Photometric Multi-View Mesh Refinement for High-Resolution Satellite Images ( http://arxiv.org/abs/2005.04777v2 )

ライセンス: Link先を確認
Mathias Rothermel, Ke Gong, Dieter Fritsch, Konrad Schindler, Norbert Haala(参考訳) 現代の高解像度衛星センサは、地上サンプリング距離(GSD)30~50cmの光学画像を収集し、衛星データからの3D画像の再構成に新たな関心を喚起した。 最先端の復元法は通常2.5dの標高データを生成する。 本稿では,マルチビュー衛星画像から全3次元表面メッシュを復元する手法を提案する。 提案手法は粗い初期メッシュを入力とし,すべての頂点位置を反復的に更新することで画像間のフォトコンシステンシーを最大化する。 光一貫性は、ある画像から別の画像へ表面を介してテクスチャを伝達することで、画像空間で測定される。 我々は、有理関数モデル(RFM)を通してテクスチャ類似性の変化を伝播する方程式を導出し、しばしば有理多項式係数(RPC)モデルとも呼ばれる。 さらに,勾配降下を伴う曲面を最適化する階層的スキームを考案した。 2つの異なるデータセットを用いた実験では、従来の濃密な画像マッチングによって生成された初期デジタル標高モデル(DEM)の改善が示されている。 さらに,本手法は,オフnadirビューが利用可能であればファサード構造などの真の3次元形状を再構築できることを実証する。

Modern high-resolution satellite sensors collect optical imagery with ground sampling distances (GSDs) of 30-50cm, which has sparked a renewed interest in photogrammetric 3D surface reconstruction from satellite data. State-of-the-art reconstruction methods typically generate 2.5D elevation data. Here, we present an approach to recover full 3D surface meshes from multi-view satellite imagery. The proposed method takes as input a coarse initial mesh and refines it by iteratively updating all vertex positions to maximize the photo-consistency between images. Photo-consistency is measured in image space, by transferring texture from one image to another via the surface. We derive the equations to propagate changes in texture similarity through the rational function model (RFM), often also referred to as rational polynomial coefficient (RPC) model. Furthermore, we devise a hierarchical scheme to optimize the surface with gradient descent. In experiments with two different datasets, we show that the refinement improves the initial digital elevation models (DEMs) generated with conventional dense image matching. Moreover, we demonstrate that our method is able to reconstruct true 3D geometry, such as facade structures, if off-nadir views are available.
翻訳日:2022-12-05 02:06:42 公開日:2020-05-12
# 物体検出における正確な位置推定のためのスコープヘッド

Scope Head for Accurate Localization in Object Detection ( http://arxiv.org/abs/2005.04854v2 )

ライセンス: Link先を確認
Geng Zhan, Dan Xu, Guo Lu, Wei Wu, Chunhua Shen, Wanli Ouyang(参考訳) 既存のアンカーベースおよびアンカーフリーな物体検出器は、多段または一段パイプラインで非常に有望な検出性能を達成した。 しかし、手作りの2Dアンカー定義における設計上の困難と、1D直接位置回帰における学習の複雑さにはまだ直面する。 本稿では,これらの問題に対処するため,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。 このアプローチは予測空間を定量化し、局所化に粗い戦略を用いる。 回帰ベースのアンカーフリーメソッドのように優れた柔軟性を実現し、より正確な予測を行う。 さらに、検出結果の局所化品質を示すために、継承されたアンカー選択スコアを学習し、カテゴリ分類スコアとアンカー選択スコアを組み合わせることにより、検出ボックスの信頼性をよりよく表現することを提案する。 我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。

Existing anchor-based and anchor-free object detectors in multi-stage or one-stage pipelines have achieved very promising detection performance. However, they still encounter the design difficulty in hand-crafted 2D anchor definition and the learning complexity in 1D direct location regression. To tackle these issues, in this paper, we propose a novel detector coined as ScopeNet, which models anchors of each location as a mutually dependent relationship. This approach quantizes the prediction space and employs a coarse-to-fine strategy for localization. It achieves superior flexibility as in the regression based anchor-free methods, while produces more precise prediction. Besides, an inherit anchor selection score is learned to indicate the localization quality of the detection result, and we propose to better represent the confidence of a detection box by combining the category-classification score and the anchor-selection score. With our concise and effective design, the proposed ScopeNet achieves state-of-the-art results on COCO
翻訳日:2022-12-04 20:19:11 公開日:2020-05-12
# 混合制約ベイズ最適化のための上層信頼境界性能基準と航空機設計への応用

Upper Trust Bound Feasibility Criterion for Mixed Constrained Bayesian Optimization with Application to Aircraft Design ( http://arxiv.org/abs/2005.05067v2 )

ライセンス: Link先を確認
R\'emy Priem ((1) and (2)), Nathalie Bartoli (1), Youssef Diouane (2), Alessandro Sgueglia ((1) and (2)) ((1) ONERA, DTIS, Universit\'ee de Toulouse, Toulouse, France, (2) ISAE-SUPAERO, Universit\'ee de Toulouse, Toulouse, 31055 Cedex 4, France)(参考訳) ベイズ最適化法は評価に費用がかかるブラックボックス最適化問題にうまく適用されている。 本稿では,超効率的なグローバル最適化アルゴリズムを適用し,より正確な混合制約問題の解法を提案する。 提案手法は、平均予測とガウス過程によって与えられる関連する不確実性関数を組み合わせることで、実現可能な領域の探索を促進する。 さらに, 学習率基準に基づく改良手順を導入し, エクスプロイトと探索のトレードオフを強化する。 本研究は, 数値実験におけるアプローチの可能性を示すものである。 最後に,提案手法の優位性を示す概念的航空機構成への応用について,最先端のブラックボックス最適化問題の集合と比較した。 キーワード:グローバル最適化、混合制約最適化、ブラックボックス最適化、ベイズ最適化、ガウス過程。

Bayesian optimization methods have been successfully applied to black box optimization problems that are expensive to evaluate. In this paper, we adapt the so-called super effcient global optimization algorithm to solve more accurately mixed constrained problems. The proposed approach handles constraints by means of upper trust bound, the latter encourages exploration of the feasible domain by combining the mean prediction and the associated uncertainty function given by the Gaussian processes. On top of that, a refinement procedure, based on a learning rate criterion, is introduced to enhance the exploitation and exploration trade-off. We show the good potential of the approach on a set of numerical experiments. Finally, we present an application to conceptual aircraft configuration upon which we show the superiority of the proposed approach compared to a set of the state-of-the-art black box optimization solvers. Keywords: Global Optimization, Mixed Constrained Optimization, Black box optimization, Bayesian Optimization, Gaussian Process.
翻訳日:2022-12-04 19:52:54 公開日:2020-05-12
# 不完全な情報に基づく最寄りの隣接分類器:ある回答から特定の予測へ

Nearest Neighbor Classifiers over Incomplete Information: From Certain Answers to Certain Predictions ( http://arxiv.org/abs/2005.05117v2 )

ライセンス: Link先を確認
Bojan Karla\v{s}, Peng Li, Renzhi Wu, Nezihe Merve G\"urel, Xu Chu, Wentao Wu, Ce Zhang(参考訳) 機械学習(ML)アプリケーションは近年成長しており、その主な原因はデータの可用性の向上にある。 しかし、非一貫性と不完全な情報は、実世界のデータセットにはどこにでもある。 本稿では,データベース研究コミュニティが何十年にもわたって研究してきたcoddテーブルに対して,ある種の回答の概念を機械学習の分野に拡張して,その影響に関する形式的な研究を行う。 Specifically, we focus on classification problems and propose the notion of "Certain Predictions" (CP) -- a test data example can be certainly predicted (CP'ed) if all possible classifiers trained on top of all possible worlds induced by the incompleteness of data would yield the same prediction. We study two fundamental CP queries: (Q1) checking query that determines whether a data example can be CP'ed; and (Q2) counting query that computes the number of classifiers that support a particular prediction (i.e., label). Given that general solutions to CP queries are, not surprisingly, hard without assumption over the type of classifier, we further present a case study in the context of nearest neighbor (NN) classifiers, where efficient solutions to CP queries can be developed -- we show that it is possible to answer both queries in linear or polynomial time over exponentially many possible worlds. 機械学習のためのデータクリーニング (DC for ML) の重要な応用例として, CPの例を挙げる。 CPをベースとしたCPCleanアプローチは,手作業による手作業による分類精度において,既存の手法よりも大幅に優れることが示された。

Machine learning (ML) applications have been thriving recently, largely attributed to the increasing availability of data. However, inconsistency and incomplete information are ubiquitous in real-world datasets, and their impact on ML applications remains elusive. In this paper, we present a formal study of this impact by extending the notion of Certain Answers for Codd tables, which has been explored by the database research community for decades, into the field of machine learning. Specifically, we focus on classification problems and propose the notion of "Certain Predictions" (CP) -- a test data example can be certainly predicted (CP'ed) if all possible classifiers trained on top of all possible worlds induced by the incompleteness of data would yield the same prediction. We study two fundamental CP queries: (Q1) checking query that determines whether a data example can be CP'ed; and (Q2) counting query that computes the number of classifiers that support a particular prediction (i.e., label). Given that general solutions to CP queries are, not surprisingly, hard without assumption over the type of classifier, we further present a case study in the context of nearest neighbor (NN) classifiers, where efficient solutions to CP queries can be developed -- we show that it is possible to answer both queries in linear or polynomial time over exponentially many possible worlds. We demonstrate one example use case of CP in the important application of "data cleaning for machine learning (DC for ML)." We show that our proposed CPClean approach built based on CP can often significantly outperform existing techniques in terms of classification accuracy with mild manual cleaning effort.
翻訳日:2022-12-04 19:52:36 公開日:2020-05-12
# simplemkkm: 単純な多重カーネルk-means

SimpleMKKM: Simple Multiple Kernel K-means ( http://arxiv.org/abs/2005.04975v2 )

ライセンス: Link先を確認
Xinwang Liu, En Zhu, Jiyuan Liu, Timothy Hospedales, Yang Wang, Meng Wang(参考訳) 本稿では,単純なマルチカーネルk-means (SimpleMKKM) と呼ばれる,単純で効果的なマルチカーネルクラスタリングアルゴリズムを提案する。 広く使われているカーネルアライメント基準をマルチカーネルクラスタリングに拡張する。 我々の基準は、カーネル係数とクラスタリング分割行列における難解な最小化最大化問題によって与えられる。 最適化のために, 勾配降下法を用いて効率よく解けるスムーズな最小化法として, 問題を再定式化する。 クラスタリング一般化誤差の観点から,SimpleMKKMの性能を理論的に解析する。 11のベンチマークデータセットに関する総合的な実験は、SimpleMKKMが、最先端のマルチカーネルクラスタリングの選択肢よりも優れていることを示している。

We propose a simple yet effective multiple kernel clustering algorithm, termed simple multiple kernel k-means (SimpleMKKM). It extends the widely used supervised kernel alignment criterion to multi-kernel clustering. Our criterion is given by an intractable minimization-maximization problem in the kernel coefficient and clustering partition matrix. To optimize it, we re-formulate the problem as a smooth minimization one, which can be solved efficiently using a reduced gradient descent algorithm. We theoretically analyze the performance of SimpleMKKM in terms of its clustering generalization error. Comprehensive experiments on 11 benchmark datasets demonstrate that SimpleMKKM outperforms state of the art multi-kernel clustering alternatives.
翻訳日:2022-12-04 19:34:31 公開日:2020-05-12
# 畳み込みニューラルネットワークを用いた新生児脳波における低酸素性虚血性脳症の重症度解析

Grading the severity of hypoxic-ischemic encephalopathy in newborn EEG using a convolutional neural network ( http://arxiv.org/abs/2005.05561v1 )

ライセンス: Link先を確認
Sumit A. Raurale, Geraldine B. Boylan, Gordon Lightbody and John M. O'Toole(参考訳) eeg(electroencephalography)は、出生時の脳への血液と酸素の欠如による損傷の診断に有用である。 本研究では,脳波データ中の階層表現を学習する深層畳み込みニューラルネットワークを用いた,新しいエンドツーエンドアーキテクチャを提案する。 低酸素虚血性脳症の4段階を分類し、54人の新生児から63時間の多チャンネル脳波データセットで評価する。 提案手法は,1段階投票で79.6%,2段階投票で81.5%の精度を実現する。 これらの結果は、既存の機能ベースシステムと同等の精度で、新生児脳波の異なる損傷の程度を分類するために、機能のないアプローチがいかに使われるかを示している。 新生児の背景脳波の自動評価は、低体温症などの介入療法を必要とする幼児の早期発見に役立つ。

Electroencephalography (EEG) is a valuable clinical tool for grading injury caused by lack of blood and oxygen to the brain during birth. This study presents a novel end-to-end architecture, using a deep convolutional neural network, that learns hierarchical representations within raw EEG data. The system classifies 4 grades of hypoxic-ischemic encephalopathy and is evaluated on a multi-channel EEG dataset of 63 hours from 54 newborns. The proposed method achieves a testing accuracy of 79.6% with one-step voting and 81.5% with two-step voting. These results show how a feature-free approach can be used to classify different grades of injury in newborn EEG with comparable accuracy to existing feature-based systems. Automated grading of newborn background EEG could help with the early identification of those infants in need of interventional therapies such as hypothermia.
翻訳日:2022-12-03 20:01:05 公開日:2020-05-12
# HoB$_{2}$近水素液化温度における巨大磁気食塩効果の機械学習による発見

Machine Learning Guided Discovery of Gigantic Magnetocaloric Effect in HoB$_{2}$ Near Hydrogen Liquefaction Temperature ( http://arxiv.org/abs/2005.05618v1 )

ライセンス: Link先を確認
Pedro Baptista de Castro, Kensei Terashima, Takafumi D Yamamoto, Zhufeng Hou, Suguru Iwasaki, Ryo Matsumoto, Shintaro Adachi, Yoshito Saito, Peng Song, Hiroyuki Takeya, Yoshihiko Takano(参考訳) 磁気冷凍は、材料中の磁場の応用と除去によるエントロピー変化である磁気光学効果を利用し、従来のガスサイクル以外の冷却の代替経路を提供する。 集中的な研究により、大きな磁気カロリック効果を示す膨大な磁気材料が発見されたが、多くの化合物に対するこれらの性質はまだ不明である。 この未知の空間で新しい機能材料を探索するために、機械学習は大きな磁気光学効果を示す材料を選択するためのガイドとして使用される。 By this approach, HoB$_{2}$ is singled out, synthesized and its magnetocaloric properties are evaluated, leading to the experimental discovery of gigantic magnetic entropy change 40.1 J kg$^{-1}$ K$^{-1}$ (0.35 J cm$^{-3}$ K$^{-1}$) for a field change of 5 T in the vicinity of a ferromagnetic second-order phase transition with a Curie temperature of 15 K. This is the highest value reported so far, to our knowledge, near the hydrogen liquefaction temperature thus it is a highly suitable material for hydrogen liquefaction and low temperature magnetic cooling applications.

Magnetic refrigeration exploits the magnetocaloric effect which is the entropy change upon application and removal of magnetic fields in materials, providing an alternate path for refrigeration other than the conventional gas cycles. While intensive research has uncovered a vast number of magnetic materials which exhibits large magnetocaloric effect, these properties for a large number of compounds still remain unknown. To explore new functional materials in this unknown space, machine learning is used as a guide for selecting materials which could exhibit large magnetocaloric effect. By this approach, HoB$_{2}$ is singled out, synthesized and its magnetocaloric properties are evaluated, leading to the experimental discovery of gigantic magnetic entropy change 40.1 J kg$^{-1}$ K$^{-1}$ (0.35 J cm$^{-3}$ K$^{-1}$) for a field change of 5 T in the vicinity of a ferromagnetic second-order phase transition with a Curie temperature of 15 K. This is the highest value reported so far, to our knowledge, near the hydrogen liquefaction temperature thus it is a highly suitable material for hydrogen liquefaction and low temperature magnetic cooling applications.
翻訳日:2022-12-03 20:00:49 公開日:2020-05-12
# 5Gネットワークのためのセキュアなフェデレーション学習フレームワーク

A Secure Federated Learning Framework for 5G Networks ( http://arxiv.org/abs/2005.05752v1 )

ライセンス: Link先を確認
Yi Liu, Jialiang Peng, Jiawen Kang, Abdullah M. Iliyasu, Dusit Niyato, and Ahmed A. Abd El-Latif(参考訳) フェデレーション学習(federated learning, fl)は、5gネットワーク内の異なるデバイスにローカルに保存され、維持される分散トレーニングデータセットを使用して機械学習モデルを構築するための新しいパラダイムとして最近提案されている。 flでは、中央アグリゲータは参加者がアップロードしたローカルアップデートを蓄積してグローバルモデルを更新する。 しかし、重大なセキュリティ上の脅威として、毒殺とメンバーシップ推論の2つがある。 これらの攻撃は悪意のある参加者や信頼できない参加者によって実行され、グローバルモデルの建設失敗やflモデルのプライバシーの漏洩を引き起こす。 したがって、flは防衛のセキュリティ手段を開発することが不可欠である。 本稿では,ブロックチェーンベースのセキュアなFLフレームワークを提案する。 中央アグリゲータは、毒殺攻撃から守るためにスマートコントラクトを自動実行することにより、悪意のある参加者と信頼性の低い参加者を認識する。 さらに、ローカルな差分プライバシー技術を用いて、メンバーシップ推論攻撃を防ぐ。 提案手法は, 5gネットワークにおけるflのセキュリティを向上し, 効果的に中毒やメンバーシップ推論攻撃を抑止できることが示唆された。

Federated Learning (FL) has been recently proposed as an emerging paradigm to build machine learning models using distributed training datasets that are locally stored and maintained on different devices in 5G networks while providing privacy preservation for participants. In FL, the central aggregator accumulates local updates uploaded by participants to update a global model. However, there are two critical security threats: poisoning and membership inference attacks. These attacks may be carried out by malicious or unreliable participants, resulting in the construction failure of global models or privacy leakage of FL models. Therefore, it is crucial for FL to develop security means of defense. In this article, we propose a blockchain-based secure FL framework to create smart contracts and prevent malicious or unreliable participants from involving in FL. In doing so, the central aggregator recognizes malicious and unreliable participants by automatically executing smart contracts to defend against poisoning attacks. Further, we use local differential privacy techniques to prevent membership inference attacks. Numerical results suggest that the proposed framework can effectively deter poisoning and membership inference attacks, thereby improving the security of FL in 5G networks.
翻訳日:2022-12-03 20:00:33 公開日:2020-05-12
# 線形放物型偏微分方程式によるシステムのデータから学習した非インタラクティブ還元モデルの確率的誤差推定

Probabilistic error estimation for non-intrusive reduced models learned from data of systems governed by linear parabolic partial differential equations ( http://arxiv.org/abs/2005.05890v1 )

ライセンス: Link先を確認
Wayne Isaac Tan Uy and Benjamin Peherstorfer(参考訳) この研究は、線形放物型偏微分方程式と制御入力で支配される高次元系のデータから、非侵入モデル還元で学習したモデルに対する残差誤差推定器を導出した。 その結果, 誤差推定器に必要な量は, 初期条件, 制御入力, 高次元解の軌跡や確率的意味での有界といったデータから, 非インタラクティブな方法で最小二乗問題の解として正確に得られることがわかった。 計算手順はオフライン/オンラインの分解に従う。 オフライン(トレーニング)フェーズでは、高次元システムはブラックボックス方式で公平に解決され、データを生成し、エラー推定器を設定する。 オンラインフェーズでは、推定器を用いて、新しい初期条件に対する縮小モデル予測の誤差と、高次元システムに関連のない新しい制御入力をバインドする。 数値計算により,提案手法のワークフローをデータから還元モデル,認定予測まで示す。

This work derives a residual-based a posteriori error estimator for reduced models learned with non-intrusive model reduction from data of high-dimensional systems governed by linear parabolic partial differential equations with control inputs. It is shown that quantities that are necessary for the error estimator can be either obtained exactly as the solutions of least-squares problems in a non-intrusive way from data such as initial conditions, control inputs, and high-dimensional solution trajectories or bounded in a probabilistic sense. The computational procedure follows an offline/online decomposition. In the offline (training) phase, the high-dimensional system is judiciously solved in a black-box fashion to generate data and to set up the error estimator. In the online phase, the estimator is used to bound the error of the reduced-model predictions for new initial conditions and new control inputs without recourse to the high-dimensional system. Numerical results demonstrate the workflow of the proposed approach from data to reduced models to certified predictions.
翻訳日:2022-12-03 19:59:58 公開日:2020-05-12
# Centaur: パーソナライズされたレコメンデーションのためのチプルトベースハイブリッドスパースセンス加速器

Centaur: A Chiplet-based, Hybrid Sparse-Dense Accelerator for Personalized Recommendations ( http://arxiv.org/abs/2005.05968v1 )

ライセンス: Link先を確認
Ranggi Hwang, Taehun Kim, Youngeun Kwon, Minsoo Rhu(参考訳) パーソナライズドレコメンデーションはバックボーン機械学習(ml)アルゴリズムであり、クラウドデータセンタからサービスされるいくつかの重要なアプリケーションドメイン(広告、eコマースなど)を駆動する。 スパース埋め込みレイヤはレコメンデーションを設計する上で重要なビルディングブロックであるが、この重要なMLアルゴリズムを適切に加速することにはほとんど注意が払われていない。 本稿では、まず、パーソナライズドレコメンデーションに関する詳細なワークロード特性を提供し、メモリ集約型埋め込み層と計算集約型マルチレイヤ・パーセプトロン(mlp)層という2つの重要な性能制限層を特定する。 次に、チップレットベースのハイブリッドスパースセンスアクセラレータであるCentaurを紹介し、埋め込み層のメモリスループット問題とMLP層の計算制限の両方に対処する。 我々は,パッケージ統合CPU+FPGAデバイスであるIntel HARPv2の実装と実演を行い,従来の手法よりも1.7~17.2倍の性能向上と1.7-19.5倍のエネルギー効率向上を示す。

Personalized recommendations are the backbone machine learning (ML) algorithm that powers several important application domains (e.g., ads, e-commerce, etc) serviced from cloud datacenters. Sparse embedding layers are a crucial building block in designing recommendations yet little attention has been paid in properly accelerating this important ML algorithm. This paper first provides a detailed workload characterization on personalized recommendations and identifies two significant performance limiters: memory-intensive embedding layers and compute-intensive multi-layer perceptron (MLP) layers. We then present Centaur, a chiplet-based hybrid sparse-dense accelerator that addresses both the memory throughput challenges of embedding layers and the compute limitations of MLP layers. We implement and demonstrate our proposal on an Intel HARPv2, a package-integrated CPU+FPGA device, which shows a 1.7-17.2x performance speedup and 1.7-19.5x energy-efficiency improvement than conventional approaches.
翻訳日:2022-12-03 19:59:41 公開日:2020-05-12
# Serdab: 複数のエンクレーブにまたがるニューラルネットワーク計算を分割するIoTフレームワーク

Serdab: An IoT Framework for Partitioning Neural Networks Computation across Multiple Enclaves ( http://arxiv.org/abs/2005.06043v1 )

ライセンス: Link先を確認
Tarek Elgamal, Klara Nahrstedt(参考訳) 近年のDeep Neural Networks(DNN)とEdge Computingの進歩により、エッジデバイス、ビデオソースに近い、リモートクラウド計算リソースを含む階層的なクラスタ上で、ホーム/セキュリティカメラからのビデオストリームを自動的に分析することが可能になった。 しかし、異なるデバイスを通過するユーザーの機密データのプライバシーと機密性を維持することは、多くのユーザーにとって懸念されている。 プライベートユーザデータは、悪意のある攻撃者による攻撃や、ユーザによって明示的に承認されていないアクティビティでデータを使用する内部管理者による誤用の対象となる。 この課題に対処するために,複数のセキュアなエンクレーブ(例えばintel sgx)にディープニューラルネットワークをデプロイするための分散オーケストレーションフレームワークであるserdabを提案する。 Secure Enclavesは、その内部にデプロイされたデータ/コードのプライバシを保証する。 しかし、その限られたハードウェアリソースは、ディープニューラルネットワーク全体を実行する場合に非効率になる。 このギャップを埋めるため、SerdabはDNNパーティショニング戦略を提案し、ニューラルネットワークの層を複数のエンクレーブデバイスまたは複数のエンクレーブデバイスや他のハードウェアアクセラレータに分散させる。 我々のパーティショニング戦略は、ニューラルネットワーク全体を1エンクレーブで実行する場合と比較して最大4.7倍のスピードアップを達成する。

Recent advances in Deep Neural Networks (DNN) and Edge Computing have made it possible to automatically analyze streams of videos from home/security cameras over hierarchical clusters that include edge devices, close to the video source, as well as remote cloud compute resources. However, preserving the privacy and confidentiality of users' sensitive data as it passes through different devices remains a concern to most users. Private user data is subject to attacks by malicious attackers or misuse by internal administrators who may use the data in activities that are not explicitly approved by the user. To address this challenge, we present Serdab, a distributed orchestration framework for deploying deep neural network computation across multiple secure enclaves (e.g., Intel SGX). Secure enclaves provide a guarantee on the privacy of the data/code deployed inside it. However, their limited hardware resources make them inefficient when solely running an entire deep neural network. To bridge this gap, Serdab presents a DNN partitioning strategy to distribute the layers of the neural network across multiple enclave devices or across an enclave device and other hardware accelerators. Our partitioning strategy achieves up to 4.7x speedup compared to executing the entire neural network in one enclave.
翻訳日:2022-12-03 19:59:19 公開日:2020-05-12
# horovodrunner対応sparkクラスタにおける畳み込みニューラルネットワークとグラフ畳み込みネットワークのベンチマークテスト

Benchmark Tests of Convolutional Neural Network and Graph Convolutional Network on HorovodRunner Enabled Spark Clusters ( http://arxiv.org/abs/2005.05510v1 )

ライセンス: Link先を確認
Jing Pan, Wendao Liu, Jing Zhou(参考訳) 分散型ディープラーニングタスクの高速イテレーションの自由は、大企業の競争上の優位性と市場シェアを獲得する上で非常に重要である。 HorovodRunnerはこのプロセスを比較的アクセスしやすいスパーククラスタに持ち込む。 しかし、HorovodRunner自体のベンチマークテストは存在せず、特にグラフ畳み込みネットワーク(GCN)や、独自に構築されたGPUクラスタを必要とする以前のHorovodの非常に限定的なスケーラビリティベンチマークテストは存在していない。 初めて、DatabricksのHorovodRunnerは、畳み込みニューラルネットワーク(CNN)ベースのタスクをGPUとCPUクラスタの両方で実行することで、スケーリング効率を大幅に向上するが、元のGCNタスクではないことを示す。 また、HorovodRunnerで初めてRectified Adamオプティマイザを実装しました。

The freedom of fast iterations of distributed deep learning tasks is crucial for smaller companies to gain competitive advantages and market shares from big tech giants. HorovodRunner brings this process to relatively accessible spark clusters. There have been, however, no benchmark tests on HorovodRunner per se, nor specifically graph convolutional network (GCN, hereafter), and very limited scalability benchmark tests on Horovod, the predecessor requiring custom built GPU clusters. For the first time, we show that Databricks' HorovodRunner achieves significant lift in scaling efficiency for the convolutional neural network (CNN, hereafter) based tasks on both GPU and CPU clusters, but not the original GCN task. We also implemented the Rectified Adam optimizer for the first time in HorovodRunner.
翻訳日:2022-12-03 19:54:35 公開日:2020-05-12
# gognn: 構造化エンティティインタラクションを予測するためのグラフニューラルネットワーク

GoGNN: Graph of Graphs Neural Network for Predicting Structured Entity Interactions ( http://arxiv.org/abs/2005.05537v1 )

ライセンス: Link先を確認
Hanchen Wang, Defu Lian, Ying Zhang, Lu Qin, Xuemin Lin(参考訳) 実体相互作用予測は化学、生物学、物質科学、医学など多くの重要な応用において不可欠である。 構造化されたエンティティのためのローカルグラフと、構造化されたエンティティ間のインタラクションをキャプチャするグローバルグラフという2つのタイプのグラフが関係しているため、各エンティティが複雑な構造、すなわち構造化されたエンティティによって表現される場合、この問題は非常に困難になる。 構造化された実体相互作用予測に関する既存の研究は、グラフモデルのユニークなグラフを適切に利用できない。 本稿では,構造化エンティティグラフとエンティティ相互作用グラフの両方の特徴を階層的に抽出するグラフ・オブ・グラフニューラルネットワーク,すなわちGoGNNを提案する。 また,モデルがグラフの両レベルにおいて隣り合う重要性を保つための双対接続機構を提案する。 実世界のデータセットに対する大規模な実験により、GoGNNは化学化学相互作用予測と薬物と薬物の相互作用予測という2つの代表的な構造的相互作用予測タスクにおいて最先端の手法より優れていることが示された。 私たちのコードはGithubで入手可能です。

Entity interaction prediction is essential in many important applications such as chemistry, biology, material science, and medical science. The problem becomes quite challenging when each entity is represented by a complex structure, namely structured entity, because two types of graphs are involved: local graphs for structured entities and a global graph to capture the interactions between structured entities. We observe that existing works on structured entity interaction prediction cannot properly exploit the unique graph of graphs model. In this paper, we propose a Graph of Graphs Neural Network, namely GoGNN, which extracts the features in both structured entity graphs and the entity interaction graph in a hierarchical way. We also propose the dual-attention mechanism that enables the model to preserve the neighbor importance in both levels of graphs. Extensive experiments on real-world datasets show that GoGNN outperforms the state-of-the-art methods on two representative structured entity interaction prediction tasks: chemical-chemical interaction prediction and drug-drug interaction prediction. Our code is available at Github.
翻訳日:2022-12-03 19:54:18 公開日:2020-05-12
# バースト間検出法による新生児脳波における微量交互活性の同定

Identifying trace alternant activity in neonatal EEG using an inter-burst detection approach ( http://arxiv.org/abs/2005.05559v1 )

ライセンス: Link先を確認
Sumit A. Raurale, Geraldine B. Boylan, Gordon Lightbody and John M. O'Toole(参考訳) 心電図(eeg)は、集中治療中の新生児の睡眠覚醒サイクルを観察するための重要な臨床ツールである。 新生児期における静かな睡眠中の脳波活動の特徴は、低電圧活動(インターバースト)によって分離された短子・高電圧活動(bursts)の交互周期によって定義される。 本研究は,まずバースト間を検知し,次にバースト間とバースト間の時間マップを処理してta活性を検出する新しい手法を提案する。 72名の健常児の脳波記録を用いて評価を行った。 1)次に使用されるバースト間検出方法 2)TA活性の検出。 第一に、複数の振幅とスペクトル特性を支持ベクトルマシン(SVM)を用いてTA活動中のバースト間バーストからバーストを分類し、動作特性曲線(AUC)が0.95(95%信頼区間、CI:0.93〜0.98)の中央値領域となる。 次に, TAエンベロープを生成するために, 連続SVM出力, 信頼度スコアを後処理した。 このエンベロープは連続脳波中のTA活性を0.84 (95% CI: 0.80 - 0.88) で検出するために使用された。 これらの結果は,バースト間検出手法とポスト処理を併用してTA活性を分類する方法を検証した。 TAの有無を検知することは、臨床的に重要な睡眠覚醒サイクルの破壊を定量化するのに役立つ。

Electroencephalography (EEG) is an important clinical tool for reviewing sleep-wake cycling in neonates in intensive care. Trace alternant (TA)-a characteristic pattern of EEG activity during quiet sleep in term neonates-is defined by alternating periods of short-duration, high-voltage activity (bursts) separated by lower-voltage activity (inter-bursts). This study presents a novel approach for detecting TA activity by first detecting the inter-bursts and then processing the temporal map of the bursts and inter-bursts. EEG recordings from 72 healthy term neonates were used to develop and evaluate performance of 1) an inter-burst detection method which is then used for 2) detection of TA activity. First, multiple amplitude and spectral features were combined using a support vector machine (SVM) to classify bursts from inter-bursts within TA activity, resulting in a median area under the operating characteristic curve (AUC) of 0.95 (95% confidence interval, CI: 0.93 to 0.98). Second, post-processing of the continuous SVM output, the confidence score, was used to produce a TA envelope. This envelope was used to detect TA activity within the continuous EEG with a median AUC of 0.84 (95% CI: 0.80 to 0.88). These results validate how an inter-burst detection approach combined with post processing can be used to classify TA activity. Detecting the presence or absence of TA will help quantify disruption of the clinically important sleep-wake cycle.
翻訳日:2022-12-03 19:53:59 公開日:2020-05-12
# 機械学習によるチーガー定数の推定

Estimating the Cheeger constant using machine learning ( http://arxiv.org/abs/2005.05812v1 )

ライセンス: Link先を確認
Ambar Jain, Shivam Pal, and Kashyap Rajeevsarathy(参考訳) 本稿では、機械学習を用いて、連結正則グラフのチーガー定数が、グラフスペクトルの最大2つの固有値に支配的な線形依存性を持つことを示す。 また、より小さなグラフ上の訓練されたディープニューラルネットワークは、より大きなグラフのチェーガー定数を推定する有効な推定手段として利用できることを示す。

In this paper, we use machine learning to show that the Cheeger constant of a connected regular graph has a predominant linear dependence on the largest two eigenvalues of the graph spectrum. We also show that a trained deep neural network on graphs of smaller sizes can be used as an effective estimator in estimating the Cheeger constant of larger graphs.
翻訳日:2022-12-03 19:53:33 公開日:2020-05-12
# モデル盗み防止のための入力の摂動

Perturbing Inputs to Prevent Model Stealing ( http://arxiv.org/abs/2005.05823v1 )

ライセンス: Link先を確認
Justin Grana(参考訳) クラウドにデプロイされた機械学習サービス(ml-service)への入力が、モデル盗み攻撃からいかに保護されるかを示す。 私たちの定式化では、ユーザから入力を受け取り、モデルの出力を返すMLサービスがあります。 MLサービスのパラメータを学ぶことに興味がある攻撃者がいます。 線形回帰モデルとロジスティック回帰モデルを用いて,入力に対するノイズの戦略的付加が攻撃者の推定問題を根本的に変えていることを示す。 我々は、無限のサンプルであっても、攻撃者は真のモデルパラメータを回復できないことを示した。 我々は,攻撃者のパラメータ推定におけるエラーとMLサービス出力のエラーとのトレードオフを特徴付けることに重点を置いている。

We show how perturbing inputs to machine learning services (ML-service) deployed in the cloud can protect against model stealing attacks. In our formulation, there is an ML-service that receives inputs from users and returns the output of the model. There is an attacker that is interested in learning the parameters of the ML-service. We use the linear and logistic regression models to illustrate how strategically adding noise to the inputs fundamentally alters the attacker's estimation problem. We show that even with infinite samples, the attacker would not be able to recover the true model parameters. We focus on characterizing the trade-off between the error in the attacker's estimate of the parameters with the error in the ML-service's output.
翻訳日:2022-12-03 19:53:29 公開日:2020-05-12
# 無線通信のための深層学習

Deep Learning for Wireless Communications ( http://arxiv.org/abs/2005.06068v1 )

ライセンス: Link先を確認
Tugba Erpek, Timothy J. O'Shea, Yalin E. Sagduyu, Yi Shi, T. Charles Clancy(参考訳) 既存の通信システムは、高度な自由度を持つ新しい無線アプリケーションのための最適化の複雑さを扱う際に、翻訳理論に固有の限界を示す。 深層学習は、データ駆動ソリューションを通じてこの課題を克服し、限られたスペクトルリソースを利用する際の無線システムの性能を向上させる強い可能性を秘めている。 本章では、まず、オートエンコーダを用いたエンドツーエンド通信システムの設計にディープラーニングがどのように使われているかを説明する。 この柔軟な設計は、チャネル障害を効果的に捉え、単一アンテナ、マルチアンテナ、マルチユーザ通信において、送信機および受信機操作を最適化する。 次に,チャネルモデリングや推定から信号検出や分類タスクに至るまで,スペクトル状況認識におけるディープラーニングの利点について述べる。 ディープラーニングはモデルベースのメソッドが失敗するとパフォーマンスが向上する。 最後に,無線通信セキュリティにおけるディープラーニングの応用について論じる。 この文脈では、敵対的機械学習は、無線攻撃を発射し、防御する新しい手段を提供する。 これらのアプリケーションは、設計、最適化、適応、セキュアな無線通信のための新しい手段を提供する際に、ディープラーニングの力を示す。

Existing communication systems exhibit inherent limitations in translating theory to practice when handling the complexity of optimization for emerging wireless applications with high degrees of freedom. Deep learning has a strong potential to overcome this challenge via data-driven solutions and improve the performance of wireless systems in utilizing limited spectrum resources. In this chapter, we first describe how deep learning is used to design an end-to-end communication system using autoencoders. This flexible design effectively captures channel impairments and optimizes transmitter and receiver operations jointly in single-antenna, multiple-antenna, and multiuser communications. Next, we present the benefits of deep learning in spectrum situation awareness ranging from channel modeling and estimation to signal detection and classification tasks. Deep learning improves the performance when the model-based methods fail. Finally, we discuss how deep learning applies to wireless communication security. In this context, adversarial machine learning provides novel means to launch and defend against wireless attacks. These applications demonstrate the power of deep learning in providing novel means to design, optimize, adapt, and secure wireless communications.
翻訳日:2022-12-03 19:52:59 公開日:2020-05-12
# Scones: Sketchesの会話オーサリングを目指して

Scones: Towards Conversational Authoring of Sketches ( http://arxiv.org/abs/2005.07781v1 )

ライセンス: Link先を確認
Forrest Huang, Eldon Schoop, David Ha, John Canny(参考訳) 反復的な精錬と批評のスケッチは、効果的なデザインを開発するための重要なステップである。 テキスト命令からスケッチを反復的に作成できる混合開始型機械学習駆動システムであるSconesを紹介する。 Sconesは、自然言語からセマンティック仕様で作成されたスケッチされたオブジェクトのシーンを反復的に生成する、新しいディープラーニングベースのシステムである。 sconesはテキストベースのシーン修正タスクで最先端のパフォーマンスを超え、高いレベルのシーン情報で指定されたポーズでスケッチを生成するマスクコンディショニングスケッチモデルを導入している。 sconesの探索的ユーザ評価では、参加者はsconesで反復的な描画タスクを楽しんだことを報告し、さらなるアプリケーションのための追加機能を提案した。 sconesは、アートやデザインのスケッチを通じてアイデアを伝えるために、ループ内人間アプリケーションをサポートする自動化されたインテリジェントなシステムへの第一歩だと考えています。

Iteratively refining and critiquing sketches are crucial steps to developing effective designs. We introduce Scones, a mixed-initiative, machine-learning-driven system that enables users to iteratively author sketches from text instructions. Scones is a novel deep-learning-based system that iteratively generates scenes of sketched objects composed with semantic specifications from natural language. Scones exceeds state-of-the-art performance on a text-based scene modification task, and introduces a mask-conditioned sketching model that can generate sketches with poses specified by high-level scene information. In an exploratory user evaluation of Scones, participants reported enjoying an iterative drawing task with Scones, and suggested additional features for further applications. We believe Scones is an early step towards automated, intelligent systems that support human-in-the-loop applications for communicating ideas through sketching in art and design.
翻訳日:2022-12-03 19:52:41 公開日:2020-05-12
# 反復的ドメイン最適化

Iterative Domain Optimization ( http://arxiv.org/abs/2005.10005v1 )

ライセンス: Link先を確認
Raian Noufel Lefgoum(参考訳) 本稿では,その勾配に基づく反復最適化アルゴリズムを用いて,与えられた関数が大きな,小さい,あるいは特定の値を取るような大域Dを探索する手法を提案する。 目的関数が直接最適化可能でないことを示すが、各イテレーションにおいて、この目的関数を他の関数で近似して最適化する手法を用いる。 次に、機械学習におけるこのアルゴリズムのユースケースを探り、モデルがいくつかの制約に対して大小の値を出力する領域を見つける。 実験は、タイタニックデータセットでトレーニングされたモデルを用いた5つのケースで、このアルゴリズムの効率を示す。

In this paper we study a new approach in optimization that aims to search a large domain D where a given function takes large, small or specific values via an iterative optimization algorithm based on the gradient. We show that the objective function used is not directly optimizable, however, we use a trick to approximate this objective by another one at each iteration to optimize it. Then we explore a use case of this algorithm in machine learning to find domains where the models output large and small values with respect of some constraints. Experiments demonstrate the efficiency of this algorithm on five cases with models trained on the titanic dataset.
翻訳日:2022-12-03 19:52:25 公開日:2020-05-12
# ファクトリーフロアアーティファクトの非侵襲的モニタリングのためのコンピュータビジョンツールキット

Computer Vision Toolkit for Non-invasive Monitoring of Factory Floor Artifacts ( http://arxiv.org/abs/2005.06037v1 )

ライセンス: Link先を確認
Aditya M. Deshpande, Anil Kumar Telikicherla, Vinay Jakkali, David A. Wickelhaus, Manish Kumar, and Sam Anand(参考訳) デジタル化は、スマートでコネクテッドなテクノロジーをビジネス、政府、そしてコミュニティの不可欠な部分へと導いてきた。 デジタル化のために、クラウド製造(CM)と産業用モノのインターネット(IIoT)に焦点を当てた研究と開発が活発に行われている。 本研究は,工場のフロアを非侵襲的にデジタル化するコンピュータビジョンツールキット (CV Toolkit) を,工場データ収集のための産業用4.0要件に従って提示する。 現在、設計やセンサーの変更の制限により、レガシーシステムのデジタル化に技術的課題が続いている。 この新しいツールキットは、レガシ生産機械や工場のフロアアーティファクトを、機械の物理的変化の必要なしに、デジタルでスマートな製造環境と容易に統合できるように開発されている。 開発したシステムはモジュール式であり、生産機械のリアルタイム監視を可能にする。 モジュール性は、CV Toolkitの現在のフレームワークに新しいソフトウェアアプリケーションを組み込むことを可能にする。 このツールキットと製造フロアをシンプルでデプロイ可能でコスト効率の良い方法で接続できるようにするため、ツールキットは既知の製造データ標準であるmtconnectと統合され、デジタル入力を商用ステータストラッキングおよびレポートソフトウェアソリューションによって読み取れるデータストリームに"変換"する。 提案するツールキットは,シンシナティ大学社内で開発されたモックパネル環境を用いて,ユーザビリティを強調する。

Digitization has led to smart, connected technologies be an integral part of businesses, governments and communities. For manufacturing digitization, there has been active research and development with a focus on Cloud Manufacturing (CM) and the Industrial Internet of Things (IIoT). This work presents a computer vision toolkit (CV Toolkit) for non-invasive digitization of the factory floor in line with Industry 4.0 requirements for factory data collection. Currently, technical challenges persist towards digitization of legacy systems due to the limitation for changes in their design and sensors. This novel toolkit is developed to facilitate easy integration of legacy production machinery and factory floor artifacts with the digital and smart manufacturing environment with no requirement of any physical changes in the machines. The system developed is modular, and allows real-time monitoring of production machinery. Modularity aspect allows the incorporation of new software applications in the current framework of CV Toolkit. To allow connectivity of this toolkit with manufacturing floors in a simple, deployable and cost-effective manner, the toolkit is integrated with a known manufacturing data standard, MTConnect, to "translate" the digital inputs into data streams that can be read by commercial status tracking and reporting software solutions. The proposed toolkit is demonstrated using a mock-panel environment developed in house at the University of Cincinnati to highlight its usability.
翻訳日:2022-12-03 19:52:16 公開日:2020-05-12
# モンテカルロ地域成長による確率論的セマンティックセマンティックセグメンテーション

Probabilistic Semantic Segmentation Refinement by Monte Carlo Region Growing ( http://arxiv.org/abs/2005.05856v1 )

ライセンス: Link先を確認
Philipe A. Dias and Henry Medeiros(参考訳) 精細なピクセルレベルの精度を持つセマンティックセグメンテーションは、様々なコンピュータビジョンアプリケーションの基本コンポーネントである。 しかしながら、畳み込みニューラルネットワークのアーキテクチャの最近の進歩によって提供される大きな改善にもかかわらず、現代の最先端手法によって提供されるセグメンテーションは、依然として限定的な境界順守を示している。 我々はモンテカルロサンプリングと画素類似性を利用して高信頼度ラベルを低信頼度分類の領域に伝播する完全教師なし後処理アルゴリズムを提案する。 我々のアルゴリズムは確率的領域成長リファインメント (pRGR) と呼ばれ、クラスタを多変量正規分布のピクセル集合としてモデル化する厳密な数学的基礎に基づいている。 pRGRはベイズ推定と分散低減手法を駆使して、様々な受信フィールドサイズで複数の改善イテレーションを行い、クラスタ統計を更新して局所像の特徴に適応させる。 複数の現代的な意味セグメンテーションネットワークとベンチマークデータセットを用いた実験は、異なる粗さレベルでのセグメンテーション予測の精度向上と、モンテカルロ反復で得られた分散推定をセグメンテーション精度と高い相関性を持つ不確実性尺度として適合性を示す。

Semantic segmentation with fine-grained pixel-level accuracy is a fundamental component of a variety of computer vision applications. However, despite the large improvements provided by recent advances in the architectures of convolutional neural networks, segmentations provided by modern state-of-the-art methods still show limited boundary adherence. We introduce a fully unsupervised post-processing algorithm that exploits Monte Carlo sampling and pixel similarities to propagate high-confidence pixel labels into regions of low-confidence classification. Our algorithm, which we call probabilistic Region Growing Refinement (pRGR), is based on a rigorous mathematical foundation in which clusters are modelled as multivariate normally distributed sets of pixels. Exploiting concepts of Bayesian estimation and variance reduction techniques, pRGR performs multiple refinement iterations at varied receptive fields sizes, while updating cluster statistics to adapt to local image features. Experiments using multiple modern semantic segmentation networks and benchmark datasets demonstrate the effectiveness of our approach for the refinement of segmentation predictions at different levels of coarseness, as well as the suitability of the variance estimates obtained in the Monte Carlo iterations as uncertainty measures that are highly correlated with segmentation accuracy.
翻訳日:2022-12-03 19:46:30 公開日:2020-05-12
# 深層学習に基づく物体検出による収穫後処理改善のためのリンゴ欠陥検出

Apple Defect Detection Using Deep Learning Based Object Detection For Better Post Harvest Handling ( http://arxiv.org/abs/2005.06089v1 )

ライセンス: Link先を確認
Paolo Valdez(参考訳) 農業におけるコンピュータビジョンとディープラーニング技術の導入は、農家の収穫品質と生産性を高めることを目的としている。 収穫後、輸出市場と品質評価は果物や野菜の品揃えに影響される。 特に、リンゴは収穫または/または収穫後の期間に発生する幅広い欠陥に感受性がある。 本研究の目的は,近年のコンピュータビジョンや YOLOv3 (Redmon & Farhadi (2018) などの深層学習手法が,リンゴの欠陥から健康なリンゴを検出するのに役立つかどうかを探ることである。

The inclusion of Computer Vision and Deep Learning technologies in Agriculture aims to increase the harvest quality, and productivity of farmers. During postharvest, the export market and quality evaluation are affected by assorting of fruits and vegetables. In particular, apples are susceptible to a wide range of defects that can occur during harvesting or/and during the post-harvesting period. This paper aims to help farmers with post-harvest handling by exploring if recent computer vision and deep learning methods such as the YOLOv3 (Redmon & Farhadi (2018)) can help in detecting healthy apples from apples with defects.
翻訳日:2022-12-03 19:45:12 公開日:2020-05-12
# 有向相互作用コンビネータとchemlambdaの人工生命特性

Artificial life properties of directed interaction combinators vs. chemlambda ( http://arxiv.org/abs/2005.06060v1 )

ライセンス: Link先を確認
M. Buliga(参考訳) 実験用のフレームワークをhttps://mbuliga.github.io/quinegraphs/ic-vs-chem.html#icvschemと2つの人工化学系で提供している。 これらの化学薬品が人工生命の行動(複製、代謝、死)を可能にするかどうかに興味があります。 これらの実験の主な結論は、グラフの書き直しは、それらの人工的な生命特性に関して、矛盾する書き直しを許容するシステムよりも優れていることである。 これは、非競合グラフ書き換えシステムが歴史的に好まれる分散コンピューティングのための優れたグラフ書き換えシステムを探すことと矛盾する。 これはchemlambda、lambda calculus、interaction combinatorによる人工化学の実験を継続し、https://chemlambda.github.io/index.htmlのエントリページから入手でき、arxiv:2003.14332で説明されている。

We provide a framework for experimentation at https://mbuliga.github.io/quinegraphs/ic-vs-chem.html#icvschem with two artificial chemistries: directed interaction combinators (dirIC, defined in section 2) and chemlambda. We are interested if these chemistries allow for artificial life behaviour: replication, metabolism and death. The main conclusion of these experiments is that graph rewrites systems which allow conflicting rewrites are better than those which don't, as concerns their artificial life properties. This is in contradiction with the search for good graph rewrite systems for decentralized computing, where non-conflicting graph rewrite systems are historically preferred. This continues the artificial chemistry experiments with chemlambda, lambda calculus or interaction combinators, available from the entry page at https://chemlambda.github.io/index.html and described in arXiv:2003.14332.
翻訳日:2022-12-03 19:44:34 公開日:2020-05-12
# At-Most-K制約に対するSAT符号化の比較

Yet Another Comparison of SAT Encodings for the At-Most-K Constraint ( http://arxiv.org/abs/2005.06274v1 )

ライセンス: Link先を確認
Neng-Fa Zhou(参考訳) at-most-k制約は組合せ問題においてユビキタスであり、制約に対して多くのSATエンコーディングが利用可能である。 以前の実験では、k$>1のシーケンシャルカウンタエンコーディングの競合性を示しており、単位伝搬による弧の一貫性を強制できないため、バイナリアダインダエンコーディングよりもコンパクトな並列カウンタエンコーディングを除外している。 本稿では,最大k制約に対するバイナリ加算エンコーディングの驚くべき性能を示す実験を行う。

The at-most-k constraint is ubiquitous in combinatorial problems, and numerous SAT encodings are available for the constraint. Prior experiments have shown the competitiveness of the sequential-counter encoding for k $>$ 1, and have excluded the parallel-counter encoding, which is more compact that the binary-adder encoding, from consideration due to its incapability of enforcing arc consistency through unit propagation. This paper presents an experiment that shows astounding performance of the binary-adder encoding for the at-most-k constraint.
翻訳日:2022-12-03 19:36:48 公開日:2020-05-12
# discretalk:機械翻訳問題としてのtext-to-speech

DiscreTalk: Text-to-Speech as a Machine Translation Problem ( http://arxiv.org/abs/2005.05525v1 )

ライセンス: Link先を確認
Tomoki Hayashi and Shinji Watanabe(参考訳) 本稿では,ニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。 提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルとからなる。 VQ-VAEモデルは、音声波形から離散シンボル列へのマッピング関数を学習し、トランスフォーマー-NMTモデルは、与えられた入力テキストからこの離散シンボル列を推定するように訓練される。 VQ-VAEモデルは、完全データ駆動でそのようなマッピングを学習できるので、従来のE2E-TTSモデルで必要とされる特徴抽出のハイパーパラメータを検討する必要はない。 離散記号を用いることで、NMTで開発された様々な手法と、ビームサーチ、サブワードユニット、言語モデルとの融合などの自動音声認識(ASR)を利用できる。 さらに,ttsの一般的な問題の一つである予測特徴の過剰な平滑化問題を回避することができる。 JSUTコーパスを用いた実験により,提案手法は非自己回帰型ニューラルボコーダを用いた従来のTransformer-TTSモデルよりも自然度が高く,VQ-VAEモデルの再構築に匹敵する性能が得られた。

This paper proposes a new end-to-end text-to-speech (E2E-TTS) model based on neural machine translation (NMT). The proposed model consists of two components; a non-autoregressive vector quantized variational autoencoder (VQ-VAE) model and an autoregressive Transformer-NMT model. The VQ-VAE model learns a mapping function from a speech waveform into a sequence of discrete symbols, and then the Transformer-NMT model is trained to estimate this discrete symbol sequence from a given input text. Since the VQ-VAE model can learn such a mapping in a fully-data-driven manner, we do not need to consider hyperparameters of the feature extraction required in the conventional E2E-TTS models. Thanks to the use of discrete symbols, we can use various techniques developed in NMT and automatic speech recognition (ASR) such as beam search, subword units, and fusions with a language model. Furthermore, we can avoid an over smoothing problem of predicted features, which is one of the common issues in TTS. The experimental evaluation with the JSUT corpus shows that the proposed method outperforms the conventional Transformer-TTS model with a non-autoregressive neural vocoder in naturalness, achieving the performance comparable to the reconstruction of the VQ-VAE model.
翻訳日:2022-12-03 19:36:00 公開日:2020-05-12
# AdaDuriAN:DuriANを用いたニューラルテキスト音声へのFew-shot Adaptation

AdaDurIAN: Few-shot Adaptation for Neural Text-to-Speech with DurIAN ( http://arxiv.org/abs/2005.05642v1 )

ライセンス: Link先を確認
Zewang Zhang, Qiao Tian, Heng Lu, Ling-Hui Chen, Shan Liu(参考訳) 本稿では,DurIANに基づく平均モデルを用いて,新しい話者が,非常に限定的な単言語データを用いて,正確な発音と流動的な言語間発話を両立させる方法について検討する。 最近提案された end-to-end text-to-speech (tts) システムの弱点は、堅牢なアライメントが達成困難である。 この問題に対処するために、改良されたDurIANベースの平均モデルをトレーニングすることでAdaDurIANを導入し、異なる話者間で共有話者非依存コンテンツエンコーダを用いて、少数ショット学習に活用する。 実験では、AdaDurIANがベースラインのエンド・ツー・エンドシステムよりも大きなマージンで性能を向上できることを示す。 主観評価では,AdaDurIANは自然性および話者類似性の嗜好において,高い平均世論スコア(MOS)を得ることが示された。 また、感情伝達タスクにAdaDurIANを適用し、その有望な性能を示す。

This paper investigates how to leverage a DurIAN-based average model to enable a new speaker to have both accurate pronunciation and fluent cross-lingual speaking with very limited monolingual data. A weakness of the recently proposed end-to-end text-to-speech (TTS) systems is that robust alignment is hard to achieve, which hinders it to scale well with very limited data. To cope with this issue, we introduce AdaDurIAN by training an improved DurIAN-based average model and leverage it to few-shot learning with the shared speaker-independent content encoder across different speakers. Several few-shot learning tasks in our experiments show AdaDurIAN can outperform the baseline end-to-end system by a large margin. Subjective evaluations also show that AdaDurIAN yields higher mean opinion score (MOS) of naturalness and more preferences of speaker similarity. In addition, we also apply AdaDurIAN to emotion transfer tasks and demonstrate its promising performance.
翻訳日:2022-12-03 19:35:36 公開日:2020-05-12
# 赤外・可視画像のためのベイズ核融合

Bayesian Fusion for Infrared and Visible Images ( http://arxiv.org/abs/2005.05839v1 )

ライセンス: Link先を確認
Zixiang Zhao, Shuang Xu, Chunxia Zhang, Junmin Liu, Jiangshe Zhang(参考訳) 赤外線および可視画像融合は画像融合においてホットな問題である。 この課題では、可視画像の勾配及び詳細なテクスチャ情報と、赤外線画像の熱放射およびハイライト対象の両方を含む融合画像を得る。 本稿では,赤外・可視画像のための新しいベイズ融合モデルを構築した。 本モデルでは,画像融合タスクを回帰問題にキャストする。 変数の不確実性を測定するために、階層的ベイズ方式でモデルを定式化する。 融合画像が人間の視覚システムを満たすことを目的としたモデルでは、全変量(TV)ペナルティが組み込まれている。 その後、予測最大化(EM)アルゴリズムによりモデルを効率的に推定する。 我々は、TNOおよびNIR画像融合データセット上で、最先端のいくつかのアプローチでアルゴリズムをテストする。 従来の手法と比較して,高照度目標とテクスチャ詳細度に優れた融合画像の生成が可能となり,自動検出・認識システムの信頼性が向上した。

Infrared and visible image fusion has been a hot issue in image fusion. In this task, a fused image containing both the gradient and detailed texture information of visible images as well as the thermal radiation and highlighting targets of infrared images is expected to be obtained. In this paper, a novel Bayesian fusion model is established for infrared and visible images. In our model, the image fusion task is cast into a regression problem. To measure the variable uncertainty, we formulate the model in a hierarchical Bayesian manner. Aiming at making the fused image satisfy human visual system, the model incorporates the total-variation(TV) penalty. Subsequently, the model is efficiently inferred by the expectation-maximization(EM) algorithm. We test our algorithm on TNO and NIR image fusion datasets with several state-of-the-art approaches. Compared with the previous methods, the novel model can generate better fused images with high-light targets and rich texture details, which can improve the reliability of the target automatic detection and recognition system.
翻訳日:2022-12-03 19:27:34 公開日:2020-05-12
# 非均質画像デハジングのための高速深層マルチパッチ階層ネットワーク

Fast Deep Multi-patch Hierarchical Network for Nonhomogeneous Image Dehazing ( http://arxiv.org/abs/2005.05999v1 )

ライセンス: Link先を確認
Sourya Dipta Das, Saikat Dutta(参考訳) 近年,CNNをベースとしたエンドツーエンドのディープラーニング手法は,画像デハジングにおいて優位性を実現しているが,非均一なデハジングでは著しく失敗する傾向にある。 それとは別に、既存の一般的なマルチスケールアプローチは実行時集約的でメモリ非効率である。 本研究では,ネットワークパラメータの少ないhazed画像の異なる空間領域の複数の画像パッチから特徴を集約することにより,不均質なhazed画像を復元する高速深層マルチパッチ階層ネットワークを提案する。 提案手法は,現場の霧や霧の密度の異なる環境に対して非常に堅牢であり,モデル全体のサイズが約21.7MBであるため,非常に軽量である。 また、1200x1600 HDの画質画像を処理するために平均0.0145sの現在のマルチスケールメソッドと比較して高速なランタイムも提供する。 最後に,Dense Haze 除去におけるネットワークの他の最先端モデルに対する優位性を示す。

Recently, CNN based end-to-end deep learning methods achieve superiority in Image Dehazing but they tend to fail drastically in Non-homogeneous dehazing. Apart from that, existing popular Multi-scale approaches are runtime intensive and memory inefficient. In this context, we proposed a fast Deep Multi-patch Hierarchical Network to restore Non-homogeneous hazed images by aggregating features from multiple image patches from different spatial sections of the hazed image with fewer number of network parameters. Our proposed method is quite robust for different environments with various density of the haze or fog in the scene and very lightweight as the total size of the model is around 21.7 MB. It also provides faster runtime compared to current multi-scale methods with an average runtime of 0.0145s to process 1200x1600 HD quality image. Finally, we show the superiority of this network on Dense Haze Removal to other state-of-the-art models.
翻訳日:2022-12-03 19:26:35 公開日:2020-05-12
# 頑健な表情認識のためのオクルージョン適応ディープネットワーク

Occlusion-Adaptive Deep Network for Robust Facial Expression Recognition ( http://arxiv.org/abs/2005.06040v1 )

ライセンス: Link先を確認
Hui Ding, Peng Zhou, and Rama Chellappa(参考訳) 部分的に隠された顔の表情を認識することは、難しいコンピュータビジョンの問題である。 以前の表現認識手法では、この問題を見落としていたり、極端な仮定で解決した。 人間の視覚系は、隠蔽を無視して非隠蔽顔領域に焦点を合わせているため、隠蔽領域から腐敗した特徴を発見・破棄し、認識に使用されないようにランドマーク誘導注意枝を提案する。 注意マップが最初に作成され、特定の顔の部分が隠蔽されているかを示し、我々のモデルを非隠蔽領域に誘導する。 さらにロバスト性を向上させるために,特徴マップを重複しない顔ブロックに分割し,各ブロックに個別に表現を予測させる顔領域分岐を提案する。 これにより、より多様で識別的な特徴が生まれ、顔の一部が隠されていても表情認識システムが回復する。 2つの枝の相乗効果によって、我々のオクルージョン適応型ディープネットワークは、2つの挑戦的内在型ベンチマークデータセットと3つの実世界の隠蔽式データセットに対して、最先端の手法を著しく上回っている。

Recognizing the expressions of partially occluded faces is a challenging computer vision problem. Previous expression recognition methods, either overlooked this issue or resolved it using extreme assumptions. Motivated by the fact that the human visual system is adept at ignoring the occlusion and focus on non-occluded facial areas, we propose a landmark-guided attention branch to find and discard corrupted features from occluded regions so that they are not used for recognition. An attention map is first generated to indicate if a specific facial part is occluded and guide our model to attend to non-occluded regions. To further improve robustness, we propose a facial region branch to partition the feature maps into non-overlapping facial blocks and task each block to predict the expression independently. This results in more diverse and discriminative features, enabling the expression recognition system to recover even though the face is partially occluded. Depending on the synergistic effects of the two branches, our occlusion-adaptive deep network significantly outperforms state-of-the-art methods on two challenging in-the-wild benchmark datasets and three real-world occluded expression datasets.
翻訳日:2022-12-03 19:26:20 公開日:2020-05-12
# 歴史を悩ませるな -- 会話型質問応答における複合的エラーの軽減

Do not let the history haunt you -- Mitigating Compounding Errors in Conversational Question Answering ( http://arxiv.org/abs/2005.05754v1 )

ライセンス: Link先を確認
Angrosh Mandya, James O'Neill, Danushka Bollegala, and Frans Coenen(参考訳) CoQA(Conversational Question Answering)タスクは、文脈的段落に関する一連の会話的質問に答えることである。 既存のアプローチでは、テスト時に会話的な質問に答えるために、人間による直感的な回答が採用されているが、現実的なシナリオでは、CoQAモデルは以前の質問に対する根本的直感的な回答にアクセスできない。 本稿では,事前に予測した応答をテスト時に使用すると複合エラーが発生し,coqaシステムの性能が著しく低下することを示す。 そこで本研究では,学習中に対象回答とモデル予測を動的に選択し,テスト時の状況を密にシミュレーションするサンプリング戦略を提案する。 さらに,この現象の深刻度を,質問型,会話長,ドメイン型の関数として分析する。

The Conversational Question Answering (CoQA) task involves answering a sequence of inter-related conversational questions about a contextual paragraph. Although existing approaches employ human-written ground-truth answers for answering conversational questions at test time, in a realistic scenario, the CoQA model will not have any access to ground-truth answers for the previous questions, compelling the model to rely upon its own previously predicted answers for answering the subsequent questions. In this paper, we find that compounding errors occur when using previously predicted answers at test time, significantly lowering the performance of CoQA systems. To solve this problem, we propose a sampling strategy that dynamically selects between target answers and model predictions during training, thereby closely simulating the situation at test time. Further, we analyse the severity of this phenomena as a function of the question type, conversation length and domain type.
翻訳日:2022-12-03 19:25:58 公開日:2020-05-12
# Pseudocode-to-code 生成のためのセマンティックスコープ

Semantic Scaffolds for Pseudocode-to-Code Generation ( http://arxiv.org/abs/2005.05927v1 )

ライセンス: Link先を確認
Ruiqi Zhong, Mitchell Stern, Dan Klein(参考訳) プログラムの高レベルな意味的・統語的構成を表す軽量な構造である意味的足場に基づくプログラム生成手法を提案する。 まず,プログラムのビーム探索の制約として使用する可塑性足場を探索することにより,既存の手法と比較して検索空間のカバレッジを向上する。 擬似コード生成のためのSPoCデータセットに階層的検索手法を適用し、行レベルの自然言語擬似コードアノテーションを付与し、実行ベースのテストケースを満たすプログラムを作成する。 推論中にセマンティックスキャフォールドを使用することで、従来の最先端技術に比べて、トップ100の精度が10%向上する。 さらに、目に見えない問題に対してテストした場合、前のベストアプローチのトップ3000のパフォーマンスに到達するには、たった11人の候補が必要です。

We propose a method for program generation based on semantic scaffolds, lightweight structures representing the high-level semantic and syntactic composition of a program. By first searching over plausible scaffolds then using these as constraints for a beam search over programs, we achieve better coverage of the search space when compared with existing techniques. We apply our hierarchical search method to the SPoC dataset for pseudocode-to-code generation, in which we are given line-level natural language pseudocode annotations and aim to produce a program satisfying execution-based test cases. By using semantic scaffolds during inference, we achieve a 10% absolute improvement in top-100 accuracy over the previous state-of-the-art. Additionally, we require only 11 candidates to reach the top-3000 performance of the previous best approach when tested against unseen problems, demonstrating a substantial improvement in efficiency.
翻訳日:2022-12-03 19:25:26 公開日:2020-05-12
# 3DV:深度ビデオにおける動作認識のための3次元ダイナミックボクセル

3DV: 3D Dynamic Voxel for Action Recognition in Depth Video ( http://arxiv.org/abs/2005.05501v1 )

ライセンス: Link先を確認
Yancheng Wang, Yang Xiao, Fu Xiong, Wenxiang Jiang, Zhiguo Cao, Joey Tianyi Zhou and Junsong Yuan(参考訳) 深度に基づく3D動作認識を容易にするため、3D動的ボクセル(3DV)を新しい3D動作表現として提案する。 3次元空間のボクセル化により、3DVの鍵となるアイデアは、3DVの3次元運動情報を時間的ランクプーリングによってコンパクトに正規のボクセルセット(すなわち3DV)に符号化することである。 利用可能な3dvボクセルは、内在的に3d空間的および運動的特徴を併せ持つ。 3DVはポイントセットとして抽象化され、エンドツーエンドの学習方法で3Dアクション認識のためにPointNet++に入力される。 3DVをポイントセット形式に転送する直感は、PointNet++は軽量で、ポイントセットに向けた深い機能学習に有効である。 3DVは外観の手がかりを失う可能性があるため、動作特徴と外観特徴を協調的に学習するためのマルチストリーム3D動作認識法も提案されている。 また,アクションの時間次情報をよりリッチに抽出するために,深度映像を時間分割に分割し,この手順を3次元Vでエンコードする。 4つの確立されたベンチマークデータセットに関する広範な実験は、提案の優越性を示している。 また,NTU RGB+D 120[13]では,クロスオブジェクトとクロスセットテストの設定で82.4%,93.5%の精度が得られた。 3DVのコードはhttps://github.com/3huo/3DV-Actionで公開されている。

To facilitate depth-based 3D action recognition, 3D dynamic voxel (3DV) is proposed as a novel 3D motion representation. With 3D space voxelization, the key idea of 3DV is to encode 3D motion information within depth video into a regular voxel set (i.e., 3DV) compactly, via temporal rank pooling. Each available 3DV voxel intrinsically involves 3D spatial and motion feature jointly. 3DV is then abstracted as a point set and input into PointNet++ for 3D action recognition, in the end-to-end learning way. The intuition for transferring 3DV into the point set form is that, PointNet++ is lightweight and effective for deep feature learning towards point set. Since 3DV may lose appearance clue, a multi-stream 3D action recognition manner is also proposed to learn motion and appearance feature jointly. To extract richer temporal order information of actions, we also divide the depth video into temporal splits and encode this procedure in 3DV integrally. The extensive experiments on 4 well-established benchmark datasets demonstrate the superiority of our proposition. Impressively, we acquire the accuracy of 82.4% and 93.5% on NTU RGB+D 120 [13] with the cross-subject and crosssetup test setting respectively. 3DV's code is available at https://github.com/3huo/3DV-Action.
翻訳日:2022-12-03 19:19:13 公開日:2020-05-12
# PSDet: 効率的かつ普遍的な駐車スロット検出

PSDet: Efficient and Universal Parking Slot Detection ( http://arxiv.org/abs/2005.05528v1 )

ライセンス: Link先を確認
Zizhang Wu, Weiwei Sun, Man Wang, Xiaoquan Wang, Lizhu Ding, Fan Wang(参考訳) リアルタイム駐車スロット検出はバレット駐車システムにおいて重要な役割を担っているが、既存の手法では実世界のアプリケーションでの成功は限られている。 利用可能なデータセットは多様性が限られており、それが一般化能力の低下の原因となっている。 \romannumeral2: 駐車スロット検出の専門知識は過小評価されている。 したがって、ネットワークをトレーニングし、コミュニティの利益のためにリリースするための大規模なベンチマークに注釈を付けます。 本ベンチマークでは,各駐車場の観測結果から,駐車スロット頂点の座標を再現し,スロットを正確にローカライズするための円形ディスクリプタを提案する。 性能をさらに高めるため,我々は2段階の深層構造を開発し,頂点を粗面から細部までローカライズする。 我々のベンチマークやその他のデータセットでは、リアルタイムであると同時に最先端の精度を達成する。 Benchmark は https://github.com/wuzzh/Parking-slot-dataset で利用可能である。

While real-time parking slot detection plays a critical role in valet parking systems, existing methods have limited success in real-world applications. We argue two reasons accounting for the unsatisfactory performance: \romannumeral1, The available datasets have limited diversity, which causes the low generalization ability. \romannumeral2, Expert knowledge for parking slot detection is under-estimated. Thus, we annotate a large-scale benchmark for training the network and release it for the benefit of community. Driven by the observation of various parking lots in our benchmark, we propose the circular descriptor to regress the coordinates of parking slot vertexes and accordingly localize slots accurately. To further boost the performance, we develop a two-stage deep architecture to localize vertexes in the coarse-to-fine manner. In our benchmark and other datasets, it achieves the state-of-the-art accuracy while being real-time in practice. Benchmark is available at: https://github.com/wuzzh/Parking-slot-dataset
翻訳日:2022-12-03 19:18:47 公開日:2020-05-12
# Benford-Fourier係数による逆例の有効かつロバストな検出

Effective and Robust Detection of Adversarial Examples via Benford-Fourier Coefficients ( http://arxiv.org/abs/2005.05552v1 )

ライセンス: Link先を確認
Chengcheng Ma, Baoyuan Wu, Shibiao Xu, Yanbo Fan, Yong Zhang, Xiaopeng Zhang, Zhifeng Li(参考訳) 敵対的な例はディープニューラルネットワーク(DNN)に対する深刻な脅威としてよく知られている。 本研究は,DNNモデルが一般化されたガウス分布 (GGD) に従っているが,異なるパラメータ (形状因子,平均,および分散) でDNNモデルの出力と内部応答が従うという仮定に基づいて,逆例の検出について検討する。 GGDは多くのポピュラーな分布(例えばラプラシア語、ガウス語、制服)をカバーする一般的な分布ファミリーである。 内部応答の内在分布を、特定の分布よりも近似する可能性が高い。 さらに、形状係数は他の2つのパラメータよりもデータベースに頑健であるため、逆方向検出のための形状係数を用いて識別的特徴を構築することを提案し、反応を用いて容易に推定できるベンフォード・フーリエ係数(MBF)の大きさを用いる。 そして、MBF特性を利用して、支持ベクトルマシンを対向検出器として訓練する。 画像分類の観点からの広範な実験により,提案手法は,最先端の敵検出法と比較して,異なる作法や異なるソースの敵例の検出にはるかに効果的で頑健であることが判明した。

Adversarial examples have been well known as a serious threat to deep neural networks (DNNs). In this work, we study the detection of adversarial examples, based on the assumption that the output and internal responses of one DNN model for both adversarial and benign examples follow the generalized Gaussian distribution (GGD), but with different parameters (i.e., shape factor, mean, and variance). GGD is a general distribution family to cover many popular distributions (e.g., Laplacian, Gaussian, or uniform). It is more likely to approximate the intrinsic distributions of internal responses than any specific distribution. Besides, since the shape factor is more robust to different databases rather than the other two parameters, we propose to construct discriminative features via the shape factor for adversarial detection, employing the magnitude of Benford-Fourier coefficients (MBF), which can be easily estimated using responses. Finally, a support vector machine is trained as the adversarial detector through leveraging the MBF features. Extensive experiments in terms of image classification demonstrate that the proposed detector is much more effective and robust on detecting adversarial examples of different crafting methods and different sources, compared to state-of-the-art adversarial detection methods.
翻訳日:2022-12-03 19:18:31 公開日:2020-05-12
# Webデータからの教師なしマルチラベルデータセット生成

Unsupervised Multi-label Dataset Generation from Web Data ( http://arxiv.org/abs/2005.05623v1 )

ライセンス: Link先を確認
Carlos Roig, David Varas, Issey Masuda, Juan Carlos Riveiro, Elisenda Bou-Balust(参考訳) 本稿では,Webデータからマルチラベルデータセットを教師なしで生成するシステムを提案する。 この目的を達成するために、この作品には2つの主な貢献がある。 a) Webデータから低ノイズで教師なしの単一ラベルデータセットの生成 b) このようなデータセットにおけるラベルの増大(シングルラベルからマルチラベルまで) シングルラベルデータセットの生成は、教師なしノイズ低減フェーズ(アンカーを使用したクラスタのクラスタリングと選択)を使用して、正しくラベル付けされた画像の85%を取得する。 次に、クラスアクティベーションマップと各クラスに関連する不確実性を用いて、データセット内の画像に新しいラベルを割り当てる、教師なしラベル拡張処理を実行する。 本論文で作成したデータセットと、各データセットにそれぞれ9.5%と27%のラベルを付加したパブリックデータセット(places365)に適用することにより、提案するシステムが初期データセットを堅牢に強化できることを実証する。

This paper presents a system towards the generation of multi-label datasets from web data in an unsupervised manner. To achieve this objective, this work comprises two main contributions, namely: a) the generation of a low-noise unsupervised single-label dataset from web-data, and b) the augmentation of labels in such dataset (from single label to multi label). The generation of a single-label dataset uses an unsupervised noise reduction phase (clustering and selection of clusters using anchors) obtaining a 85% of correctly labeled images. An unsupervised label augmentation process is then performed to assign new labels to the images in the dataset using the class activation maps and the uncertainty associated with each class. This process is applied to the dataset generated in this paper and a public dataset (Places365) achieving a 9.5% and 27% of extra labels in each dataset respectively, therefore demonstrating that the presented system can robustly enrich the initial dataset.
翻訳日:2022-12-03 19:18:07 公開日:2020-05-12
# 実世界シナリオにおけるCNN生成顔画像の検出

Detecting CNN-Generated Facial Images in Real-World Scenarios ( http://arxiv.org/abs/2005.05632v1 )

ライセンス: Link先を確認
Nils Hulzebosch, Sarah Ibrahimi, Marcel Worring(参考訳) 人工的なcnn生成画像は高品質で、人間が実際の画像と区別するのに苦労している。 いくつかのアルゴリズム検出法が提案されているが、これらは未知の情報源からのデータにあまり一般化せず、現実のシナリオでは実現不可能である。 本研究では, クロスモデル, クロスデータ, 後処理評価からなる実世界の状況下での検知手法を評価するためのフレームワークを提案し, 提案フレームワークを用いた最先端検出手法の評価を行う。 さらに,一般的な画像前処理法の有用性について検討した。 最後に、オンライン調査を行うことで、CNN生成画像の検出における人的パフォーマンスと、このパフォーマンスに影響を与える要因を評価する。 この結果から,CNNに基づく検出手法は実世界のシナリオで使用するには不十分であることが示唆された。

Artificial, CNN-generated images are now of such high quality that humans have trouble distinguishing them from real images. Several algorithmic detection methods have been proposed, but these appear to generalize poorly to data from unknown sources, making them infeasible for real-world scenarios. In this work, we present a framework for evaluating detection methods under real-world conditions, consisting of cross-model, cross-data, and post-processing evaluation, and we evaluate state-of-the-art detection methods using the proposed framework. Furthermore, we examine the usefulness of commonly used image pre-processing methods. Lastly, we evaluate human performance on detecting CNN-generated images, along with factors that influence this performance, by conducting an online survey. Our results suggest that CNN-based detection methods are not yet robust enough to be used in real-world scenarios.
翻訳日:2022-12-03 19:17:54 公開日:2020-05-12
# Stillleben:ロボットのディープラーニングのためのリアルなシーン合成

Stillleben: Realistic Scene Synthesis for Deep Learning in Robotics ( http://arxiv.org/abs/2005.05659v1 )

ライセンス: Link先を確認
Max Schwarz and Sven Behnke(参考訳) トレーニングデータは、ディープラーニングアプローチの鍵となる要素であるが、ロボット工学でしばしば遭遇する専門分野の獲得は困難である。 本稿では,セマンティックセグメンテーションやオブジェクト検出,対応性やポーズ推定といった,乱れたシーン認識タスクのトレーニングデータを生成することができる合成パイプラインについて述べる。 物理シミュレーションを用いて,物体メッシュを物理的にリアルで密集したシーンに配置する。 配置されたシーンは、ランダムな外観と材料パラメータを持つ高品質なラスタライズを用いてレンダリングされる。 カメラセンサに導入されたノイズやその他の変換をシミュレートする。 私たちのパイプラインはディープニューラルネットワークのトレーニング中にオンラインで実行することができ、生涯学習や反復的なレンダリング・アンド・コンパレートアプローチに応用できます。 本手法は,従来のモデルに匹敵する性能を実現するため,実際にトレーニングフレームを使わずに,挑戦的なycbビデオデータセット上で意味セグメンテーションを学習することで,ユーザビリティを実証する。 さらに,実世界のリグラッピングシステムでの成功例を示す。

Training data is the key ingredient for deep learning approaches, but difficult to obtain for the specialized domains often encountered in robotics. We describe a synthesis pipeline capable of producing training data for cluttered scene perception tasks such as semantic segmentation, object detection, and correspondence or pose estimation. Our approach arranges object meshes in physically realistic, dense scenes using physics simulation. The arranged scenes are rendered using high-quality rasterization with randomized appearance and material parameters. Noise and other transformations introduced by the camera sensors are simulated. Our pipeline can be run online during training of a deep neural network, yielding applications in life-long learning and in iterative render-and-compare approaches. We demonstrate the usability by learning semantic segmentation on the challenging YCB-Video dataset without actually using any training frames, where our method achieves performance comparable to a conventionally trained model. Additionally, we show successful application in a real-world regrasping system.
翻訳日:2022-12-03 19:17:42 公開日:2020-05-12
# 3次元点雲パターン解析に基づくケルト硬貨の自動クラスタリング

Automatic clustering of Celtic coins based on 3D point cloud pattern analysis ( http://arxiv.org/abs/2005.05705v1 )

ライセンス: Link先を確認
Sofiane Horache and Jean-Emmanuel Deschaud and Fran\c{c}ois Goulette and Katherine Gruel and Thierry Lejars(参考訳) 同じ死によって打たれた硬貨の認識とクラスタリングは考古学研究の関心事である。 現在、この作品は専門家によってしか実行できず、非常に退屈である。 本稿では,コインの3Dスキャンに基づいてダイを自動的にクラスタリングする手法を提案する。 それは登録、比較、グラフベースのクラスタリングの3つのステップに基づいている。 紀元前2世紀から紀元前1世紀にかけてのケルト国庫からの90枚の硬貨の実験的結果は、専門家の作業と同等のクラスタリング品質を示している。

The recognition and clustering of coins which have been struck by the same die is of interest for archeological studies. Nowadays, this work can only be performed by experts and is very tedious. In this paper, we propose a method to automatically cluster dies, based on 3D scans of coins. It is based on three steps: registration, comparison and graph-based clustering. Experimental results on 90 coins coming from a Celtic treasury from the II-Ith century BC show a clustering quality equivalent to expert's work.
翻訳日:2022-12-03 19:17:24 公開日:2020-05-12
# 構文構造をより良い言語モデリングに活用する:構文距離アプローチ

Exploiting Syntactic Structure for Better Language Modeling: A Syntactic Distance Approach ( http://arxiv.org/abs/2005.05864v1 )

ライセンス: Link先を確認
Wenyu Du, Zhouhan Lin, Yikang Shen, Timothy J. O'Donnell, Yoshua Bengio and Yue Zhang(参考訳) 構文構造の知識は言語モデリングを改善するべきであると一般的に信じられている。 しかし, 構文構造をニューラルネットワークモデルに効果的かつ効率的に組み込むことは, 課題となっている。 本稿では,マルチタスクの目的,すなわちモデルが単語と基底真理を同時に予測し,これら2つの異なる目的間の情報が同じ中間表現を共有する「合成距離」と呼ばれる形式で木を解析する。 Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。

It is commonly believed that knowledge of syntactic structure should improve language modeling. However, effectively and computationally efficiently incorporating syntactic structure into neural language models has been a challenging topic. In this paper, we make use of a multi-task objective, i.e., the models simultaneously predict words as well as ground truth parse trees in a form called "syntactic distances", where information between these two separate objectives shares the same intermediate representation. Experimental results on the Penn Treebank and Chinese Treebank datasets show that when ground truth parse trees are provided as additional training signals, the model is able to achieve lower perplexity and induce trees with better quality.
翻訳日:2022-12-03 19:09:48 公開日:2020-05-12
# 言語と視覚に関する推論における相互関連性

Cross-Modality Relevance for Reasoning on Language and Vision ( http://arxiv.org/abs/2005.06035v1 )

ライセンス: Link先を確認
Chen Zheng, Quan Guo, Parisa Kordjamshidi(参考訳) この研究は、視覚的質問応答(VQA)や視覚的推論(NLVR)といった、下流の課題に対する言語と視覚データに対する学習と推論の課題を扱う。 我々は,目的タスクの監督下で,様々な入力モダリティのコンポーネント間の関連表現を学習するために,エンドツーエンドフレームワークで使用される新しいクロスモーダル関連モジュールを設計する。 テキストエンティティと視覚エンティティの関連性をモデル化することに加えて、テキスト内のエンティティ関係と画像内のオブジェクト関係との間の高次関連性をモデル化する。 提案手法は,公開ベンチマークを用いた2つの異なる言語および視覚タスクの競合性能を示し,その結果を改良する。 NLVRタスクによる入力空間とその関連表現の学習アライメントにより、VQAタスクのトレーニング効率が向上する。

This work deals with the challenge of learning and reasoning over language and vision data for the related downstream tasks such as visual question answering (VQA) and natural language for visual reasoning (NLVR). We design a novel cross-modality relevance module that is used in an end-to-end framework to learn the relevance representation between components of various input modalities under the supervision of a target task, which is more generalizable to unobserved data compared to merely reshaping the original representation space. In addition to modeling the relevance between the textual entities and visual entities, we model the higher-order relevance between entity relations in the text and object relations in the image. Our proposed approach shows competitive performance on two different language and vision tasks using public benchmarks and improves the state-of-the-art published results. The learned alignments of input spaces and their relevance representations by NLVR task boost the training efficiency of VQA task.
翻訳日:2022-12-03 19:09:28 公開日:2020-05-12
# スパイクトリガード降下

Spike-Triggered Descent ( http://arxiv.org/abs/2005.05572v1 )

ライセンス: Link先を確認
Michael Kummer, Arunava Banerjee(参考訳) 感覚刺激に対する神経反応の特徴は神経科学の中心的な問題である。 影響のあるテクニックであるspike-triggered average (sta)は、様々な動物において最適な線形核を抽出するのに使われている。 しかし、モデル仮定が満たされない場合、誤解を招く可能性があり、不正確である。 スパイクトリガード降下(STD)と呼ばれる手法を導入し、STAが失敗するシナリオにおいて精度を高め、成功をもたらすために単独またはSTAと併用することができる。 STDは、観察されたスパイクトレインの再生を学ぶモデルニューロンをシミュレートすることで機能する。 学習は、新しい内積空間としてモデル化されたスパイク列車の空間に依存するパラメータ最適化によって達成される。 この手法は限られたデータを使って高精度に高次カーネルを学習することができる。 Locusta migratoria tympanal nerve dataから抽出されたカーネルは、このアプローチの強さを示している。

The characterization of neural responses to sensory stimuli is a central problem in neuroscience. Spike-triggered average (STA), an influential technique, has been used to extract optimal linear kernels in a variety of animal subjects. However, when the model assumptions are not met, it can lead to misleading and imprecise results. We introduce a technique, called spike-triggered descent (STD), which can be used alone or in conjunction with STA to increase precision and yield success in scenarios where STA fails. STD works by simulating a model neuron that learns to reproduce the observed spike train. Learning is achieved via parameter optimization that relies on a metric induced on the space of spike trains modeled as a novel inner product space. This technique can precisely learn higher order kernels using limited data. Kernels extracted from a Locusta migratoria tympanal nerve dataset demonstrate the strength of this approach.
翻訳日:2022-12-03 19:09:11 公開日:2020-05-12
# 不完全領域モデルによる目標認識

Goal Recognition over Imperfect Domain Models ( http://arxiv.org/abs/2005.05712v1 )

ライセンス: Link先を確認
Ramon Fraga Pereira(参考訳) 目標認識(goal recognition)とは、自律的なエージェントや人間の意図した目標を、環境における行動を観察して認識する問題である。 過去数年間、目標認識と計画認識に対する既存のアプローチは、自律的なエージェントが振る舞う環境を形式化するドメインモデルに関する欠陥に対処する必要性を無視してきた。 本論文では,不完全ドメインモデルに対する目標認識の問題を紹介し,(1)不完全ドメインモデルと,(2)動作記述における前提条件と効果を持つ不完全離散ドメインモデル,(2)遷移関数が過去の観測から近似され,十分に定義されていない近似連続ドメインモデル,という2つの異なる不完全ドメインモデルを明確に扱う解法を考案する。 既存の認識アプローチを文献から活用し,不完全領域モデルに対する新たな目標認識手法を開発した。 これらの2種類の不完全なドメインモデルに対する実験と評価は、新しいゴール認識アプローチが、文献のベースラインアプローチと比較して、いくつかのレベルの可観測性と不完全性で正確であることを示している。

Goal recognition is the problem of recognizing the intended goal of autonomous agents or humans by observing their behavior in an environment. Over the past years, most existing approaches to goal and plan recognition have been ignoring the need to deal with imperfections regarding the domain model that formalizes the environment where autonomous agents behave. In this thesis, we introduce the problem of goal recognition over imperfect domain models, and develop solution approaches that explicitly deal with two distinct types of imperfect domains models: (1) incomplete discrete domain models that have possible, rather than known, preconditions and effects in action descriptions; and (2) approximate continuous domain models, where the transition function is approximated from past observations and not well-defined. We develop novel goal recognition approaches over imperfect domains models by leveraging and adapting existing recognition approaches from the literature. Experiments and evaluation over these two types of imperfect domains models show that our novel goal recognition approaches are accurate in comparison to baseline approaches from the literature, at several levels of observability and imperfections.
翻訳日:2022-12-03 19:08:30 公開日:2020-05-12
# 仮定に基づく議論における選好誘発

Preference Elicitation in Assumption-Based Argumentation ( http://arxiv.org/abs/2005.05721v1 )

ライセンス: Link先を確認
Quratul-ain Mahesar, Nir Oren and Wamberto W. Vasconcelos(参考訳) 様々な構造化議論フレームワークは、選好を標準推論手順の一部として利用し、選好による推論を可能にする。 本稿では,標準的な推論問題の逆数を考察し,仮定よりも何を好むかを見極めることにより,与えられた結論が導かれるかを検討する。 我々は、ABA(Assumption-Based Argumentation)フレームワークで研究を行い、所望の競合のない結論の集合を与えられたセマンティクスの下で得るシステム内の仮定よりも、可能なすべての優先順位の集合を計算および列挙するアルゴリズムを提案する。 アルゴリズムを記述した後、その健全性、完全性、複雑さを確立する。

Various structured argumentation frameworks utilize preferences as part of their standard inference procedure to enable reasoning with preferences. In this paper, we consider an inverse of the standard reasoning problem, seeking to identify what preferences over assumptions could lead to a given set of conclusions being drawn. We ground our work in the Assumption-Based Argumentation (ABA) framework, and present an algorithm which computes and enumerates all possible sets of preferences over the assumptions in the system from which a desired conflict free set of conclusions can be obtained under a given semantic. After describing our algorithm, we establish its soundness, completeness and complexity.
翻訳日:2022-12-03 19:08:10 公開日:2020-05-12
# 説明可能な計画のための議論スキーム

Argument Schemes for Explainable Planning ( http://arxiv.org/abs/2005.05849v1 )

ライセンス: Link先を確認
Quratul-ain Mahesar and Simon Parsons(参考訳) 人工知能(AI)は、インテリジェントなソリューションを生み出すシステムの開発にますます利用されている。 しかし、構築されたシステムが人間によって信頼されるかどうかには大きな懸念がある。 aiシステムの信頼を確立するためには、ソリューションの背後にある理由を理解する必要があるため、システムはそのアウトプットを説明し、正当化することができるべきである。 本稿では,AI計画の領域において,議論を用いて説明を行う。 我々は,計画とその構成要素を説明する議論を作成するための議論スキームと,議論間のインタラクションを可能にし,計画の重要な要素に関するさらなる情報を得るための批判的質問のセットを提案する。 最後に、計画論のいくつかの性質を示す。

Artificial Intelligence (AI) is being increasingly used to develop systems that produce intelligent solutions. However, there is a major concern that whether the systems built will be trusted by humans. In order to establish trust in AI systems, there is a need for the user to understand the reasoning behind their solutions and therefore, the system should be able to explain and justify its output. In this paper, we use argumentation to provide explanations in the domain of AI planning. We present argument schemes to create arguments that explain a plan and its components; and a set of critical questions that allow interaction between the arguments and enable the user to obtain further information regarding the key elements of the plan. Finally, we present some properties of the plan arguments.
翻訳日:2022-12-03 19:08:00 公開日:2020-05-12
# 公正が自動化できない理由:EUの非差別法とAIのギャップを埋める

Why Fairness Cannot Be Automated: Bridging the Gap Between EU Non-Discrimination Law and AI ( http://arxiv.org/abs/2005.05906v1 )

ライセンス: Link先を確認
Sandra Wachter, Brent Mittelstadt, Chris Russell(参考訳) 本論では、欧州の差別概念と既存の公正性の統計的尺度の相違について述べる。 まず、EU非差別法に基づく請求を提出するための明確な要件について検討する。 アルゴリズムと人間の差別の異なる性質のため、EUの現在の要件は文脈が多すぎ、直観に依存しており、自動化されるべき司法解釈に開放されている。 第2に、人間ではなくAIが差別を行う場合、非差別法によって提供される法的保護がいかに問題となるかを示す。 人間は否定的な態度(例えば、ステレオタイプ、偏見)と意図しない偏見(例えば、組織的慣行や内在的なステレオタイプ)によって差別され、差別が起こったという被害者へのシグナルとして機能する。 最後に、機械学習における公正性に関する既存の研究が、EU非差別法に基づくケース評価の手順とどのように一致しているかを検討する。 我々は,欧州司法裁判所の「金の基準」に適合する基準的統計測定として,条件付き人口格差(CDD)を提案する。 自動識別事件の統計的証拠の標準セットを確立することは、AIや自動システムを含むケースの、司法解釈ではなく、評価のための一貫した手続きを確保するのに役立つ。 自動識別の特定・評価における手続き的規則性の提案を通じて,EU非差別法の下で実施される司法解釈に対する文脈的アプローチを引き続き尊重し,有効にしつつ,可能な限り公正性を考慮した自動化システムの構築方法を明らかにする。 N.B. Abridged 抽象

This article identifies a critical incompatibility between European notions of discrimination and existing statistical measures of fairness. First, we review the evidential requirements to bring a claim under EU non-discrimination law. Due to the disparate nature of algorithmic and human discrimination, the EU's current requirements are too contextual, reliant on intuition, and open to judicial interpretation to be automated. Second, we show how the legal protection offered by non-discrimination law is challenged when AI, not humans, discriminate. Humans discriminate due to negative attitudes (e.g. stereotypes, prejudice) and unintentional biases (e.g. organisational practices or internalised stereotypes) which can act as a signal to victims that discrimination has occurred. Finally, we examine how existing work on fairness in machine learning lines up with procedures for assessing cases under EU non-discrimination law. We propose "conditional demographic disparity" (CDD) as a standard baseline statistical measurement that aligns with the European Court of Justice's "gold standard." Establishing a standard set of statistical evidence for automated discrimination cases can help ensure consistent procedures for assessment, but not judicial interpretation, of cases involving AI and automated systems. Through this proposal for procedural regularity in the identification and assessment of automated discrimination, we clarify how to build considerations of fairness into automated systems as far as possible while still respecting and enabling the contextual approach to judicial interpretation practiced under EU non-discrimination law. N.B. Abridged abstract
翻訳日:2022-12-03 19:07:50 公開日:2020-05-12
# 災害対応のための画像分類器の訓練と展開

Train and Deploy an Image Classifier for Disaster Response ( http://arxiv.org/abs/2005.05495v1 )

ライセンス: Link先を確認
Jianyu Mao, Kiana Harris, Nae-Rong Chang, Caleb Pennell, Yiming Ren(参考訳) 深層学習画像分類が年々強力になるにつれて,災害対応の導入によって,対応者の作業効率が向上することが明らかとなった。 AlexNet、ResNet、MobileNet、DenseNets、および4-Layer CNNなどのニューラルネットワークモデルを用いて、最大79%の精度で設定された大規模な画像データから洪水災害画像を分類した。 私たちのモデルとデータセットを扱うチュートリアルは、画像に含まれる他のタイプの災害を分類するための基盤を作りました。

With Deep Learning Image Classification becoming more powerful each year, it is apparent that its introduction to disaster response will increase the efficiency that responders can work with. Using several Neural Network Models, including AlexNet, ResNet, MobileNet, DenseNets, and 4-Layer CNN, we have classified flood disaster images from a large image data set with up to 79% accuracy. Our models and tutorials for working with the data set have created a foundation for others to classify other types of disasters contained in the images.
翻訳日:2022-12-03 19:07:24 公開日:2020-05-12
# 古いデータも古いラベルも使用しない意味セグメンテーションのためのクラスインクリメンタル学習

Class-Incremental Learning for Semantic Segmentation Re-Using Neither Old Data Nor Old Labels ( http://arxiv.org/abs/2005.06050v1 )

ライセンス: Link先を確認
Marvin Klingner, Andreas B\"ar, Philipp Donn and Tim Fingscheidt(参考訳) セマンティックセグメンテーションのために訓練されたニューラルネットワークは、自動運転の知覚に必須であるが、現在のアルゴリズムのほとんどは、一定の数のクラスを想定しており、追加のクラスを必要とする新しい自動運転システムを開発する際に大きな制限がある。 本稿では,モデルが当初トレーニングしたラベル付きデータを使わずに,セマンティックセグメンテーションのためのクラスインクリメンタル学習を実装する手法を提案する。 以前のアプローチは、古いクラスと新しいクラスの両方のラベルに依存するか、それらを適切に区別しないかのどちらかである。 本稿では,新しいクラスにのみラベルを必要とする新しいクラス増分学習手法を用いて,これらの問題を克服する方法を示す。 具体的には (i)古いデータにも古いラベルにも依存しない新しい損失関数を導入する。 (ii) 事前訓練されたセマンティックセグメンテーションモデルに新しいクラスをモジュール形式で組み込む方法を示し、最後に、 (iii)従来のアプローチを再実装し、それらを我々のものと比べる。 cityscapesデータセットでは、すべてのベースラインのmiou性能を3.5%絶対的に上回り、シングルステージトレーニングの最高性能限界を2.2%下回っており、すべてのデータとラベルを同時に頼りにしています。

While neural networks trained for semantic segmentation are essential for perception in autonomous driving, most current algorithms assume a fixed number of classes, presenting a major limitation when developing new autonomous driving systems with the need of additional classes. In this paper we present a technique implementing class-incremental learning for semantic segmentation without using the labeled data the model was initially trained on. Previous approaches still either rely on labels for both old and new classes, or fail to properly distinguish between them. We show how to overcome these problems with a novel class-incremental learning technique, which nonetheless requires labels only for the new classes. Specifically, (i) we introduce a new loss function that neither relies on old data nor on old labels, (ii) we show how new classes can be integrated in a modular fashion into pretrained semantic segmentation models, and finally (iii) we re-implement previous approaches in a unified setting to compare them to ours. We evaluate our method on the Cityscapes dataset, where we exceed the mIoU performance of all baselines by 3.5% absolute reaching a result, which is only 2.2% absolute below the upper performance limit of single-stage training, relying on all data and labels simultaneously.
翻訳日:2022-12-03 19:00:49 公開日:2020-05-12
# Scan-Specific Fine-Tuning of Physics-based Neural Networks による高忠実度加速MRI再構成

High-Fidelity Accelerated MRI Reconstruction by Scan-Specific Fine-Tuning of Physics-Based Neural Networks ( http://arxiv.org/abs/2005.05550v1 )

ライセンス: Link先を確認
Seyed Amir Hossein Hosseini, Burhaneddin Yaman, Steen Moeller, and Mehmet Ak\c{c}akaya(参考訳) 高分解能MRIでは、長時間のスキャンが課題である。 ディープラーニングは、データから直接学習されるデータ駆動型正規化器を提供することによって、MRIの再構築を加速する強力な手段として登場した。 これらのデータ駆動プライオリティは、トレーニング中に学習された後、テストフェーズの将来のデータに対して変化しない。 本研究では,トランスファーラーニング手法を用いて,これらレギュレータを自己超越的手法を用いて新しい被験者に微調整する手法を提案する。 提案手法は, 深層学習MRI法において極めて高速な再構成時間を損なう可能性があるが, 膝関節MRIの結果から, 再構成画像の残存遺物を大幅に減少させる可能性が示唆された。 さらに,本手法は, トレーニングデータでは利用できない稀な病態への一般化のリスクを低減できる可能性が示唆された。

Long scan duration remains a challenge for high-resolution MRI. Deep learning has emerged as a powerful means for accelerated MRI reconstruction by providing data-driven regularizers that are directly learned from data. These data-driven priors typically remain unchanged for future data in the testing phase once they are learned during training. In this study, we propose to use a transfer learning approach to fine-tune these regularizers for new subjects using a self-supervision approach. While the proposed approach can compromise the extremely fast reconstruction time of deep learning MRI methods, our results on knee MRI indicate that such adaptation can substantially reduce the remaining artifacts in reconstructed images. In addition, the proposed approach has the potential to reduce the risks of generalization to rare pathological conditions, which may be unavailable in the training data.
翻訳日:2022-12-03 19:00:25 公開日:2020-05-12
# 階層型多言語機械翻訳のための枠組み

A Framework for Hierarchical Multilingual Machine Translation ( http://arxiv.org/abs/2005.05507v1 )

ライセンス: Link先を確認
Ion Madrazo Azpiazu, Maria Soledad Pera(参考訳) 多言語機械翻訳は、トランスファーラーニングによる低リソース言語における機械翻訳性能を向上させる可能性から、最近流行している。 しかし、既存の多言語機械翻訳戦略の成功を示す実証試験は、特定の言語群における実験に限られている。 本稿では,異なる言語を組み込むことによる負の効果を回避しつつ,類似言語間での移動を可能にするために,類型的言語系木を利用した多言語機械翻訳戦略を構築するための階層的枠組みを提案する。 41言語からなるデータセット上での探索実験により,提案手法の有効性が実証された。特に,より豊富なリソースセットが利用可能となる類型的関連族を用いて,低リソース言語の性能向上を図っている。

Multilingual machine translation has recently been in vogue given its potential for improving machine translation performance for low-resource languages via transfer learning. Empirical examinations demonstrating the success of existing multilingual machine translation strategies, however, are limited to experiments in specific language groups. In this paper, we present a hierarchical framework for building multilingual machine translation strategies that takes advantage of a typological language family tree for enabling transfer among similar languages while avoiding the negative effects that result from incorporating languages that are too different to each other. Exhaustive experimentation on a dataset with 41 languages demonstrates the validity of the proposed framework, especially when it comes to improving the performance of low-resource languages via the use of typologically related families for which richer sets of resources are available.
翻訳日:2022-12-03 19:00:11 公開日:2020-05-12
# エンティティアライメントのための近傍マッチングネットワーク

Neighborhood Matching Network for Entity Alignment ( http://arxiv.org/abs/2005.05607v1 )

ライセンス: Link先を確認
Yuting Wu, Xiao Liu, Yansong Feng, Zheng Wang and Dongyan Zhao(参考訳) 知識グラフ間の構造的不均一性は、エンティティアライメントの際立った課題である。 本稿では,構造的異質性問題に取り組むための新しいエンティティアライメントフレームワークであるneighent matching network (nmn)を提案する。 NMNは、トポロジカル構造と近傍差の両方を捉えるために、エンティティ間の類似性を推定する。 エンティティアライメントのためのより良い学習表現のための2つの革新的なコンポーネントを提供する。 まず、新しいグラフサンプリング法を用いて、各エンティティの識別的近傍を蒸留する。 その後、クロスグラフの近傍マッチングモジュールを採用し、与えられたエンティティペアの近傍差を共同で符号化する。 このような戦略により、NMNはアライメントタスクに悪影響を与えるノイズの多い隣人を無視しながら、マッチング指向のエンティティ表現を効果的に構築できる。 3つのエンティティアライメントデータセットで行った広範囲な実験により、nmnはより厳しいケースで近隣の類似性を正確に推定でき、以前の12の最先端の手法を大きく上回っている。

Structural heterogeneity between knowledge graphs is an outstanding challenge for entity alignment. This paper presents Neighborhood Matching Network (NMN), a novel entity alignment framework for tackling the structural heterogeneity challenge. NMN estimates the similarities between entities to capture both the topological structure and the neighborhood difference. It provides two innovative components for better learning representations for entity alignment. It first uses a novel graph sampling method to distill a discriminative neighborhood for each entity. It then adopts a cross-graph neighborhood matching module to jointly encode the neighborhood difference for a given entity pair. Such strategies allow NMN to effectively construct matching-oriented entity representations while ignoring noisy neighbors that have a negative impact on the alignment task. Extensive experiments performed on three entity alignment datasets show that NMN can well estimate the neighborhood similarity in more tough cases and significantly outperforms 12 previous state-of-the-art methods.
翻訳日:2022-12-03 18:59:58 公開日:2020-05-12
# 文法的誤りに対する言語エンコーダのロバスト性について

On the Robustness of Language Encoders against Grammatical Errors ( http://arxiv.org/abs/2005.05683v1 )

ライセンス: Link先を確認
Fan Yin, Quanyu Long, Tao Meng, Kai-Wei Chang(参考訳) 本研究は,言語エンコーダ(ELMo,BERT,RoBERTa)の自然な文法的誤りに直面する場合の動作を徹底的に診断する。 具体的には、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。 このアプローチを使って、下流アプリケーションのデバッグモデルを容易にします。 結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。 モデルの振る舞いを解釈するために,非文法的な文と誤りの位置を識別する能力を明らかにするための言語受容性タスクをさらに設計する。 文の正しさの予測を訓練した単純な分類器を持つ固定されたコンテクストエンコーダは誤り位置を見つけることができる。 また、BERTのクローゼテストも設計し、BERTがコンテキスト内のエラーと特定のトークン間の相互作用をキャプチャすることを確認した。 その結果,文法的誤りに対する言語エンコーダの頑健さと動作の理解に光を当てた。

We conduct a thorough study to diagnose the behaviors of pre-trained language encoders (ELMo, BERT, and RoBERTa) when confronted with natural grammatical errors. Specifically, we collect real grammatical errors from non-native speakers and conduct adversarial attacks to simulate these errors on clean text data. We use this approach to facilitate debugging models on downstream applications. Results confirm that the performance of all tested models is affected but the degree of impact varies. To interpret model behaviors, we further design a linguistic acceptability task to reveal their abilities in identifying ungrammatical sentences and the position of errors. We find that fixed contextual encoders with a simple classifier trained on the prediction of sentence correctness are able to locate error positions. We also design a cloze test for BERT and discover that BERT captures the interaction between errors and specific tokens in context. Our results shed light on understanding the robustness and behaviors of language encoders against grammatical errors.
翻訳日:2022-12-03 18:59:11 公開日:2020-05-12
# 多語表現型検出は語彙複雑性評価に役立つ

Detecting Multiword Expression Type Helps Lexical Complexity Assessment ( http://arxiv.org/abs/2005.05692v1 )

ライセンス: Link先を確認
Ekaterina Kochmar, Sian Gooding, and Matthew Shardlow(参考訳) MWE(Multiword Expression)は、その慣用的な性質から単一の語彙単位として扱われるべきレキシムを表す。 複数のNLPアプリケーションは、MWE識別の恩恵を受けることが示されているが、MWEの語彙的複雑さの研究はまだ未探索領域である。 本研究は,Yimam et al. (2017) の複合単語識別共有タスク 2018 データセットを再注釈し,MWE のタイプを用いて,様々な語彙に対する複雑性スコアを提供する。 本論文では,mweの注釈付きデータセットをリリースし,このデータセットはテキスト簡易化コミュニティにとって貴重なリソースであると信じている。 さらに、ネイティブおよび非ネイティブ読者にとって最も問題となる表現形式について検討する。 最後に,MWE型に関する情報から,語彙的複雑性評価システムの有効性を示す。

Multiword expressions (MWEs) represent lexemes that should be treated as single lexical units due to their idiosyncratic nature. Multiple NLP applications have been shown to benefit from MWE identification, however the research on lexical complexity of MWEs is still an under-explored area. In this work, we re-annotate the Complex Word Identification Shared Task 2018 dataset of Yimam et al. (2017), which provides complexity scores for a range of lexemes, with the types of MWEs. We release the MWE-annotated dataset with this paper, and we believe this dataset represents a valuable resource for the text simplification community. In addition, we investigate which types of expressions are most problematic for native and non-native readers. Finally, we show that a lexical complexity assessment system benefits from the information about MWE types.
翻訳日:2022-12-03 18:58:55 公開日:2020-05-12
# WMT 2019における機械翻訳における人間の親子関係と超人的性能の再評価

Reassessing Claims of Human Parity and Super-Human Performance in Machine Translation at WMT 2019 ( http://arxiv.org/abs/2005.05738v1 )

ライセンス: Link先を確認
Antonio Toral(参考訳) 我々は、wmt 2019のニュース共有タスクにおいて、英語からドイツ語、英語からロシア語、ドイツ語から英語への3つの翻訳方向について、人間のパリティと超人的なパフォーマンスの主張を再検討する。 まず、その共有タスクの人的評価における3つの潜在的な問題を特定する。 (i)使用可能なインターセテンシャルコンテキストの限られた量 (二)蒸発器の限定翻訳能力及び翻訳能力 (iii)参考翻訳の使用。 次に,これらの問題を考慮した修正評価を行う。 以上の結果から,WMT 2019における人的平等と超人的パフォーマンスの主張は,英語とドイツ語の人的平等の主張を除いてすべて否定されるべきであることが示唆された。 この結果に基づき,機械翻訳における人間のパリティの今後の評価に向けて,一連の勧告とオープン質問を行った。

We reassess the claims of human parity and super-human performance made at the news shared task of WMT 2019 for three translation directions: English-to-German, English-to-Russian and German-to-English. First we identify three potential issues in the human evaluation of that shared task: (i) the limited amount of intersentential context available, (ii) the limited translation proficiency of the evaluators and (iii) the use of a reference translation. We then conduct a modified evaluation taking these issues into account. Our results indicate that all the claims of human parity and super-human performance made at WMT 2019 should be refuted, except the claim of human parity for English-to-German. Based on our findings, we put forward a set of recommendations and open questions for future assessments of human parity in machine translation.
翻訳日:2022-12-03 18:58:39 公開日:2020-05-12
# interactionnet:非共有結合型タンパク質-リガンド相互作用のモデル化と説明

InteractionNet: Modeling and Explaining of Noncovalent Protein-Ligand Interactions with Noncovalent Graph Neural Network and Layer-Wise Relevance Propagation ( http://arxiv.org/abs/2005.13438v1 )

ライセンス: Link先を確認
Hyeoncheol Cho, Eok Kyun Lee, Insung S. Choi(参考訳) グラフに基づく深層学習モデルの非共有タンパク質-リガンド相互作用への拡張は、構造に基づく薬物設計において注目を集めている。 グラフニューラルネットワーク(GNN)によるタンパク質-リガンド相互作用のモデル化は、タンパク質-リガンド複合体構造のグラフ表現への変換に困難を経験し、訓練されたモデルが適切な非共有相互作用を適切に学習するかどうかという疑問を残している。 そこで我々は、異なる畳み込み層を通して2つの分離された分子グラフを学習する、InteractionNetと呼ばれるGNNアーキテクチャを提案する。 また, モデル予測の化学的妥当性を検討するために, 層間相関伝播法を用いてinteractionnetモデルの解析を行った。 共有的および非共有的畳み込みステップの分離により、各ステップの寄与を独立に評価し、非共有的相互作用に対するグラフ構築戦略を解析することが可能となった。 タンパク質-リガンド結合親和性の予測にInteractionNetを適用し, 化学解釈における非共有相互作用の予測に成功した。

Expanding the scope of graph-based, deep-learning models to noncovalent protein-ligand interactions has earned increasing attention in structure-based drug design. Modeling the protein-ligand interactions with graph neural networks (GNNs) has experienced difficulties in the conversion of protein-ligand complex structures into the graph representation and left questions regarding whether the trained models properly learn the appropriate noncovalent interactions. Here, we proposed a GNN architecture, denoted as InteractionNet, which learns two separated molecular graphs, being covalent and noncovalent, through distinct convolution layers. We also analyzed the InteractionNet model with an explainability technique, i.e., layer-wise relevance propagation, for examination of the chemical relevance of the model's predictions. Separation of the covalent and noncovalent convolutional steps made it possible to evaluate the contribution of each step independently and analyze the graph-building strategy for noncovalent interactions. We applied InteractionNet to the prediction of protein-ligand binding affinity and showed that our model successfully predicted the noncovalent interactions in both performance and relevance in chemical interpretation.
翻訳日:2022-12-03 18:52:55 公開日:2020-05-12
# COVID-19Base:COVID-19に関連するバイオメディカルエンティティを探求する知識ベース

COVID-19Base: A knowledgebase to explore biomedical entities related to COVID-19 ( http://arxiv.org/abs/2005.05954v1 )

ライセンス: Link先を確認
Junaed Younus Khan, Md. Tawkat Islam Khondaker, Iram Tazim Hoque, Hamada Al-Absi, Mohammad Saifur Rahman, Tanvir Alam, M. Sohel Rahman(参考訳) 文献マイニングをベースとしたバイオメディカルエンティティであるCOVID-19Baseについて紹介する。 COVID-19Baseを開発するために、利用可能な科学文献や関連する公共リソースから情報を抽出する。 ヒト遺伝子、ヒトmirna、ヒトlncrna、疾患、タンパク質データバンク、薬物および薬物副作用を含む7つのトピック特異的辞書が統合され、新型コロナウイルスに関連する科学的証拠を発掘する。 我々は,自然言語処理,感情分析,深層学習に基づく疾患に対する薬物の有効性を測定する新しい手法を用いて,自動文献マイニング・ラベル付けシステムを開発した。 私たちの知る限りでは、これはCOVID-19専用の初めての知識ベースであり、文学的な採掘を通じて、様々な種類の生物医学的実体を統合する。 新型コロナウイルス(COVID-19Base)で報告された、採掘されたバイオメディカルな物質と特定された相互作用の適切な調査は、研究コミュニティが新型コロナウイルスの治療方法を見つけるのに役立つだろう。

We are presenting COVID-19Base, a knowledgebase highlighting the biomedical entities related to COVID-19 disease based on literature mining. To develop COVID-19Base, we mine the information from publicly available scientific literature and related public resources. We considered seven topic-specific dictionaries, including human genes, human miRNAs, human lncRNAs, diseases, Protein Databank, drugs, and drug side effects, are integrated to mine all scientific evidence related to COVID-19. We have employed an automated literature mining and labeling system through a novel approach to measure the effectiveness of drugs against diseases based on natural language processing, sentiment analysis, and deep learning. To the best of our knowledge, this is the first knowledgebase dedicated to COVID-19, which integrates such large variety of related biomedical entities through literature mining. Proper investigation of the mined biomedical entities along with the identified interactions among those, reported in COVID-19Base, would help the research community to discover possible ways for the therapeutic treatment of COVID-19.
翻訳日:2022-12-03 18:52:33 公開日:2020-05-12
# アイデンティティから3d表現を分離したリアルタイム表情認識「 in the wild」

Real-time Facial Expression Recognition "In The Wild'' by Disentangling 3D Expression from Identity ( http://arxiv.org/abs/2005.05509v1 )

ライセンス: Link先を確認
Mohammad Rami Koujan, Luma Alharbawee, Giorgos Giannakakis, Nicolas Pugeault, Anastasios Roussos(参考訳) 人間の感情分析は、特にAffective Computingの分野における多くの研究の焦点であり、人間とコンピュータの知的な相互作用、ストレス分析、インタラクティブゲーム、アニメーションなど、多くのアプリケーションにとって重要である。 自動感情分析のソリューションは、深層学習アプローチの開発や、インターネット上の膨大な視覚的顔データの利用によっても恩恵を受けている。 本稿では,単一のrgb画像から人間の感情認識を行う新しい手法を提案する。 顔画像の大規模データセット (\textbf{FaceVid}) を構築し, 顔のダイナミックス, アイデンティティ, 表情, 外観, 3Dポーズのバリエーションに富む。 このデータセットを用いて、深層畳み込みニューラルネットワークを訓練し、3次元モーファブルモデルの表現パラメータを推定し、効果的なバックエンド感情分類器と組み合わせる。 提案フレームワークは,毎秒50フレームで動作し,3次元表現の変動パラメータをロバストに推定し,wild画像から表情を正確に認識する。 提案手法は, 顔画像からの基本的な感情認識や顔映像からのストレス認識において, 比較した3次元表現パラメータを推定する手法よりも優れており, 最先端のパフォーマンスを実現していることを示す。 %であり,顔画像からの感情認識の現状と比較した。

Human emotions analysis has been the focus of many studies, especially in the field of Affective Computing, and is important for many applications, e.g. human-computer intelligent interaction, stress analysis, interactive games, animations, etc. Solutions for automatic emotion analysis have also benefited from the development of deep learning approaches and the availability of vast amount of visual facial data on the internet. This paper proposes a novel method for human emotion recognition from a single RGB image. We construct a large-scale dataset of facial videos (\textbf{FaceVid}), rich in facial dynamics, identities, expressions, appearance and 3D pose variations. We use this dataset to train a deep Convolutional Neural Network for estimating expression parameters of a 3D Morphable Model and combine it with an effective back-end emotion classifier. Our proposed framework runs at 50 frames per second and is capable of robustly estimating parameters of 3D expression variation and accurately recognizing facial expressions from in-the-wild images. We present extensive experimental evaluation that shows that the proposed method outperforms the compared techniques in estimating the 3D expression parameters and achieves state-of-the-art performance in recognising the basic emotions from facial images, as well as recognising stress from facial videos. %compared to the current state of the art in emotion recognition from facial images.
翻訳日:2022-12-03 18:52:16 公開日:2020-05-12
# 新型コロナウイルススクリーニングのための胸部X線画像の多チャンネル移動学習

Multi-Channel Transfer Learning of Chest X-ray Images for Screening of COVID-19 ( http://arxiv.org/abs/2005.05576v1 )

ライセンス: Link先を確認
Sampa Misra, Seungwan Jeon, Seiyon Lee, Ravi Managuli, and Chulhong Kim(参考訳) 2019年の新型コロナウイルス(COVID-19)は世界中で急速に広がり、社会全体に影響を及ぼしている。 現在、covid-19患者をスクリーニングするためのゴールドスタンダードテストは、ポリメラーゼ連鎖反応テストである。 しかし、新型コロナウイルス検査キットは広く利用できず、時間がかかる。 そのため、胸部X線は早期検診のために検討されている。 胸部X線におけるCOVID-19の提示は特徴によって異なっており、読影の専門化が求められるため、診断に使用が制限される。 放射線科医が胸部x線を迅速に読み取るという課題に対処するために,resnetアーキテクチャに基づくマルチチャネル転送学習モデルを提案し,新型コロナウイルス胸部x線診断を容易にする。 3つのResNetベースモデル(モデルa,b,) c) を, Dataset_A (正常1579例, 疾患4429例), Dataset_B (肺炎4245例, 非肺炎1763例), Dataset_C (184 COVID-19), Non-COVID19 5824例) を用いて再訓練した。 (a)正常、または病気 (b)肺炎、非肺炎、及び (c)COVID-19、または非COVID19。 最後に、これらの3つのモデルは、正常、肺炎、およびCOVID-19の患者を分類するために、Dataset_D(正常1579人、肺炎4245人、COVID-19184人)を使用して組み立て、微調整された。 結果から,アンサンブルモデルは単一ResNetモデルよりも精度が高く,各クラスに関連性のあるセマンティックな特徴を抽出するため,Dataset_Dを用いて再トレーニングされることがわかった。 提案手法は精度94 %,リコール率100%を提供する。 そこで本手法は, 患者をスクリーニングする患者に有効であり, 即時トリアージと治療が有効である可能性が示唆された。

The 2019 novel coronavirus (COVID-19) has spread rapidly all over the world and it is affecting the whole society. The current gold standard test for screening COVID-19 patients is the polymerase chain reaction test. However, the COVID-19 test kits are not widely available and time-consuming. Thus, as an alternative, chest X-rays are being considered for quick screening. Since the presentation of COVID-19 in chest X-rays is varied in features and specialization in reading COVID-19 chest X-rays are required thus limiting its use for diagnosis. To address this challenge of reading chest X-rays by radiologists quickly, we present a multi-channel transfer learning model based on ResNet architecture to facilitate the diagnosis of COVID-19 chest X-ray. Three ResNet-based models (Models a, b, and c) were retrained using Dataset_A (1579 normal and 4429 diseased), Dataset_B (4245 pneumonia and 1763 non-pneumonia), and Dataset_C (184 COVID-19 and 5824 Non-COVID19), respectively, to classify (a) normal or diseased, (b) pneumonia or non-pneumonia, and (c) COVID-19 or non-COVID19. Finally, these three models were ensembled and fine-tuned using Dataset_D (1579 normal, 4245 pneumonia, and 184 COVID-19) to classify normal, pneumonia, and COVID-19 cases. Our results show that the ensemble model is more accurate than the single ResNet model, which is also re-trained using Dataset_D as it extracts more relevant semantic features for each class. Our approach provides a precision of 94 % and a recall of 100%. Thus, our method could potentially help clinicians in screening patients for COVID-19, thus facilitating immediate triaging and treatment for better outcomes.
翻訳日:2022-12-03 18:51:38 公開日:2020-05-12
# 可逆画像再スケーリング

Invertible Image Rescaling ( http://arxiv.org/abs/2005.05650v1 )

ライセンス: Link先を確認
Mingqing Xiao, Shuxin Zheng, Chang Liu, Yaolong Wang, Di He, Guolin Ke, Jiang Bian, Zhouchen Lin, and Tie-Yan Liu(参考訳) 高解像度デジタル画像は通常、様々なディスプレイ画面に適合するようにスケールダウンしたり、ストレージと帯域幅のコストを節約したりする。 しかし、典型的なイメージダウンスケーリングは、高周波情報の欠落による非射影マッピングであり、逆アップスケーリング手順の不備を招き、ダウンスケールされた低解像度画像から詳細を復元する上で大きな課題となる。 画像超解像法による単純なアップスケーリングは、不満足な回復性能をもたらす。 本研究では,画像アップスケーリングの異常な性質を軽減できる可逆的ビジェクティブ変換(invertible bijective transformation)という新たな視点から,ダウンスケーリングとアップスケーリングのプロセスをモデル化して,この問題を解決することを提案する。 本稿では,視覚的に高精細な低解像度画像を生成するためのフレームワークと目的を意図的に設計したインバータブル・リスケーリング・ネット(irn)を開発した。 このようにして、ネットワークを介して低解像度の画像でランダムに描画された潜在変数を逆に通過させることで、スケールアップが容易になる。 実験の結果, ダウンスケール画像からの画像高スケール再構成の定量的, 質的評価から, 既存手法と比較して, モデルが有意な改善を示した。

High-resolution digital images are usually downscaled to fit various display screens or save the cost of storage and bandwidth, meanwhile the post-upscaling is adpoted to recover the original resolutions or the details in the zoom-in images. However, typical image downscaling is a non-injective mapping due to the loss of high-frequency information, which leads to the ill-posed problem of the inverse upscaling procedure and poses great challenges for recovering details from the downscaled low-resolution images. Simply upscaling with image super-resolution methods results in unsatisfactory recovering performance. In this work, we propose to solve this problem by modeling the downscaling and upscaling processes from a new perspective, i.e. an invertible bijective transformation, which can largely mitigate the ill-posed nature of image upscaling. We develop an Invertible Rescaling Net (IRN) with deliberately designed framework and objectives to produce visually-pleasing low-resolution images and meanwhile capture the distribution of the lost information using a latent variable following a specified distribution in the downscaling process. In this way, upscaling is made tractable by inversely passing a randomly-drawn latent variable with the low-resolution image through the network. Experimental results demonstrate the significant improvement of our model over existing methods in terms of both quantitative and qualitative evaluations of image upscaling reconstruction from downscaled images.
翻訳日:2022-12-03 18:51:04 公開日:2020-05-12
# 畳み込みニューラルネットワークを用いた大域的都市域の超高分解能土地被覆マッピング

Very High Resolution Land Cover Mapping of Urban Areas at Global Scale with Convolutional Neural Networks ( http://arxiv.org/abs/2005.05652v1 )

ライセンス: Link先を確認
Thomas Tilak (1), Arnaud Braun (1), David Chandler (1), Nicolas David (1), Sylvain Galopin (1), Am\'elie Lombard (2), Micha\"el Michaud (1), Camille Parisel (1), Matthieu Porte (1), and Marjorie Robert (1) ((1) Institut National de l'Information G\'eographique et Foresti\`ere, (2) CEREMA)(参考訳) 本稿では,高解像度画像と限られたノイズラベル付きデータから,都市域の7クラス土地被覆マップを作成する手法について述べる。 本研究の目的は, アスファルト, 裸土, 建物, 草地, 鉱物(透水性人工地域), 20cmの空中画像から得られた森林と水, およびデジタルハイトモデルを用いて, 大規模地域(フランス県)のセグメンテーションマップを作成することである。 データベースの集約、セミオートマチックな分類、手動のアノテーションなど、いくつかの分野に関するトレーニングデータセットを作成して、各クラスで完全な真実を把握しました。 異なるエンコーダ・デコーダアーキテクチャ(U-Net, U-Net with Resnet encoder, Deeplab v3+)の比較研究は、異なる損失関数を持つ。 最後の積は、ベクトル化の前に縫合されたモデル予測から計算された非常に貴重な土地被覆マップである。

This paper describes a methodology to produce a 7-classes land cover map of urban areas from very high resolution images and limited noisy labeled data. The objective is to make a segmentation map of a large area (a french department) with the following classes: asphalt, bare soil, building, grassland, mineral material (permeable artificialized areas), forest and water from 20cm aerial images and Digital Height Model. We created a training dataset on a few areas of interest aggregating databases, semi-automatic classification, and manual annotation to get a complete ground truth in each class. A comparative study of different encoder-decoder architectures (U-Net, U-Net with Resnet encoders, Deeplab v3+) is presented with different loss functions. The final product is a highly valuable land cover map computed from model predictions stitched together, binarized, and refined before vectorization.
翻訳日:2022-12-03 18:50:39 公開日:2020-05-12
# RetinotopicNet:グローバルコンテキストを持つローカル記述子を用いた反復的注意機構

RetinotopicNet: An Iterative Attention Mechanism Using Local Descriptors with Global Context ( http://arxiv.org/abs/2005.05701v1 )

ライセンス: Link先を確認
Thomas Kurbiel and Shahrzad Khaleghian(参考訳) 畳み込みニューラルネットワーク(CNN)は近年のコンピュータビジョン研究における多くの進歩の原動力となった。 この進歩は多くの実用的な応用を生み出しており、CNNを組み込みシステムに効率的に移動させる必要性が高まっている。 しかし、従来のCNNはスケールと回転不変性に欠けており、自然画像において最も頻繁に遭遇する変換の2つである。 その結果、CNNは異なるスケールで同じオブジェクトの異なる機能を学ぶ必要がある。 この冗長性は、CNNが所望の精度を達成するために非常に深くなければならない主な理由である。 本稿では,自然が人間の脳の問題をいかに解決したかを再現し,効率的な解法を開発する。 この目的のために、cnn は対極変換を用いて抽出された小さなパッチ上で動作させ、これはスケールと回転同変であることが知られている。 このように抽出されたパッチは、中央の磁場を拡大し、周囲を圧縮する優れた特性を有する。 したがって、グローバルコンテキスト情報を持つローカルディスクリプタを得る。 しかし、単一のパッチの処理は通常、例えば分類タスクにおいて高い精度を達成するには不十分である。 したがって、我々はササードと呼ばれるいくつかの異なる場所へ連続してジャンプし、画像全体の理解を構築する。 ログポーラパッチにはグローバルなコンテキスト情報が含まれているため、小さなパッチのみを使用して、ササードを効率的に計算できる。 サッケードは対極変換の変換等価性の欠如を効率的に補う。

Convolutional Neural Networks (CNNs) were the driving force behind many advancements in Computer Vision research in recent years. This progress has spawned many practical applications and we see an increased need to efficiently move CNNs to embedded systems today. However traditional CNNs lack the property of scale and rotation invariance: two of the most frequently encountered transformations in natural images. As a consequence CNNs have to learn different features for same objects at different scales. This redundancy is the main reason why CNNs need to be very deep in order to achieve the desired accuracy. In this paper we develop an efficient solution by reproducing how nature has solved the problem in the human brain. To this end we let our CNN operate on small patches extracted using the log-polar transform, which is known to be scale and rotation equivariant. Patches extracted in this way have the nice property of magnifying the central field and compressing the periphery. Hence we obtain local descriptors with global context information. However the processing of a single patch is usually not sufficient to achieve high accuracies in e.g. classification tasks. We therefore successively jump to several different locations, called saccades, thus building an understanding of the whole image. Since log-polar patches contain global context information, we can efficiently calculate following saccades using only the small patches. Saccades efficiently compensate for the lack of translation equivariance of the log-polar transform.
翻訳日:2022-12-03 18:50:20 公開日:2020-05-12
# ディープモーション再ターゲティングのためのスケルトンアウェアネットワーク

Skeleton-Aware Networks for Deep Motion Retargeting ( http://arxiv.org/abs/2005.05732v1 )

ライセンス: Link先を確認
Kfir Aberman, Peizhuo Li, Dani Lischinski, Olga Sorkine-Hornung, Daniel Cohen-Or, Baoquan Chen(参考訳) 骨格間のデータ駆動型動き再ターゲティングのための新しいディープラーニングフレームワークを導入し,その構造は異なるが,同相グラフに対応する。 重要なことは、トレーニングセットの動作間の明確なペアリングを必要とせずに、再ターゲットする方法を学ぶことだ。 我々は、異なる同型骨格が共通の原始骨格に、エッジマージ操作によって還元される可能性があるという事実を活用し、骨格プール(skeletal pooling)と呼ぶ。 したがって、我々の主な技術的貢献は、新しい微分可能な畳み込み、プーリング、アンプール演算子の導入です。 これらのオペレーターは骨格を意識しており、骨格の階層構造と関節の隣接性を明確に説明し、ともに元の動きを原始骨格の関節に関連する深い時間的特徴の集まりに変換するのに役立つ。 言い換えれば、我々のオペレーターは、運動を共通の潜在空間に埋め込む新しいディープモーション処理フレームワークの構築ブロックを形成し、同型骨格の集合によって共有される。 したがって、再ターゲティングは単にこの潜在空間にエンコードし、復号することで達成することができる。 本実験は, 従来の手法と比較して, モーション・リターゲティングおよびモーション・プロセッシングの枠組みの有効性を示した。 また,異なる骨格に適用された動きのペアを含む合成データセットを用いて定量的に評価した。 私たちの知る限りでは、この手法は、サンプルの異なるキネマティックチェーンを持つ骨格間で、ペアの例なしで再ターゲティングを行う最初の方法です。

We introduce a novel deep learning framework for data-driven motion retargeting between skeletons, which may have different structure, yet corresponding to homeomorphic graphs. Importantly, our approach learns how to retarget without requiring any explicit pairing between the motions in the training set. We leverage the fact that different homeomorphic skeletons may be reduced to a common primal skeleton by a sequence of edge merging operations, which we refer to as skeletal pooling. Thus, our main technical contribution is the introduction of novel differentiable convolution, pooling, and unpooling operators. These operators are skeleton-aware, meaning that they explicitly account for the skeleton's hierarchical structure and joint adjacency, and together they serve to transform the original motion into a collection of deep temporal features associated with the joints of the primal skeleton. In other words, our operators form the building blocks of a new deep motion processing framework that embeds the motion into a common latent space, shared by a collection of homeomorphic skeletons. Thus, retargeting can be achieved simply by encoding to, and decoding from this latent space. Our experiments show the effectiveness of our framework for motion retargeting, as well as motion processing in general, compared to existing approaches. Our approach is also quantitatively evaluated on a synthetic dataset that contains pairs of motions applied to different skeletons. To the best of our knowledge, our method is the first to perform retargeting between skeletons with differently sampled kinematic chains, without any paired examples.
翻訳日:2022-12-03 18:50:02 公開日:2020-05-12
# ビデオからアニメーションへの非ペア動作スタイル転送

Unpaired Motion Style Transfer from Video to Animation ( http://arxiv.org/abs/2005.05751v1 )

ライセンス: Link先を確認
Kfir Aberman, Yijia Weng, Dani Lischinski, Daniel Cohen-Or, Baoquan Chen(参考訳) あるアニメーションクリップから別のアニメーションクリップにモーションスタイルを転送する一方で、後者のモーションコンテンツを保存することは、キャラクターアニメーションにおいて長年の課題であった。 既存のデータ駆動アプローチの多くは、同じコンテンツを持つ動きを異なるスタイルで実行するペアデータに依存している。 また、これらのアプローチはトレーニング中に見られたスタイルの転送に限られる。 本稿では,スタイルラベル付き動作の非ペアコレクションから学習し,トレーニング中に観察されない動作スタイルを転送可能にする,モーションスタイル転送のための新しいデータ駆動フレームワークを提案する。 さらに,映像から直接動作スタイルを抽出し,3次元再構成を回避し,3次元入力動作に適用することができる。 我々のスタイル転送ネットワークは、動作をコンテンツとスタイルの2つの潜在コードにエンコードし、それぞれがデコード(合成)プロセスにおいて異なる役割を果たす。 コンテンツコードはいくつかの時間的畳み込み層によって出力動作にデコードされるが、スタイルコードは時間不変適応インスタンス正規化(adain)によって深い特徴を修飾する。 また,コンテンツコードは3次元のジョイント回転からエンコードされるが,3次元と2次元のジョイント位置からスタイルへの埋め込みが一般的であり,ビデオからのスタイル抽出が可能となる。 我々の結果は、ペア化されたトレーニングデータを必要としないにも関わらず、最先端の手法に匹敵する。 私たちの知る限りでは,ビデオから3dアニメーションに直接スタイル転送をデモするのは初めてです – mocapシステムでキャプチャされたモーションをはるかに越えて,スタイル例のセットを拡張することが可能な機能です。

Transferring the motion style from one animation clip to another, while preserving the motion content of the latter, has been a long-standing problem in character animation. Most existing data-driven approaches are supervised and rely on paired data, where motions with the same content are performed in different styles. In addition, these approaches are limited to transfer of styles that were seen during training. In this paper, we present a novel data-driven framework for motion style transfer, which learns from an unpaired collection of motions with style labels, and enables transferring motion styles not observed during training. Furthermore, our framework is able to extract motion styles directly from videos, bypassing 3D reconstruction, and apply them to the 3D input motion. Our style transfer network encodes motions into two latent codes, for content and for style, each of which plays a different role in the decoding (synthesis) process. While the content code is decoded into the output motion by several temporal convolutional layers, the style code modifies deep features via temporally invariant adaptive instance normalization (AdaIN). Moreover, while the content code is encoded from 3D joint rotations, we learn a common embedding for style from either 3D or 2D joint positions, enabling style extraction from videos. Our results are comparable to the state-of-the-art, despite not requiring paired training data, and outperform other methods when transferring previously unseen styles. To our knowledge, we are the first to demonstrate style transfer directly from videos to 3D animations - an ability which enables one to extend the set of style examples far beyond motions captured by MoCap systems.
翻訳日:2022-12-03 18:49:37 公開日:2020-05-12
# 弱ラベルデータを用いた車載加速度センサによる運転者の眠気推定の学習

Learning to Estimate Driver Drowsiness from Car Acceleration Sensors using Weakly Labeled Data ( http://arxiv.org/abs/2005.05898v1 )

ライセンス: Link先を確認
Takayuki Katsuki, Kun Zhao, Takayuki Yoshizumi(参考訳) 本稿では,自動車加速度センサの信号からドライバの眠気を推定する学習課題について述べる。 ドライバー自身でさえ、負担のかかる侵襲的センサーを使用しない限り、自分の眠気をタイムリーに認識できないため、タイムスタンプごとにラベル付きトレーニングデータを取得することは現実的な目標ではない。 この困難に対処するために、我々はタスクを弱い教師付き学習として定式化する。 タイムスタンプごとにラベルを追加する必要はなく、タイムスタンプ毎にラベルを追加する必要もあります。 疲れた運転者の眠気のいくつかの側面が時間とともに増加すると仮定することで、そのような弱いラベル付きデータから学習できるアルゴリズムを定式化する。 アルゴリズムの実装方法として,スケーラブルな確率最適化手法を導出する。 実走行データセットの数値実験は,ベースライン法に対するアルゴリズムの利点を示す。

This paper addresses the learning task of estimating driver drowsiness from the signals of car acceleration sensors. Since even drivers themselves cannot perceive their own drowsiness in a timely manner unless they use burdensome invasive sensors, obtaining labeled training data for each timestamp is not a realistic goal. To deal with this difficulty, we formulate the task as a weakly supervised learning. We only need to add labels for each complete trip, not for every timestamp independently. By assuming that some aspects of driver drowsiness increase over time due to tiredness, we formulate an algorithm that can learn from such weakly labeled data. We derive a scalable stochastic optimization method as a way of implementing the algorithm. Numerical experiments on real driving datasets demonstrate the advantages of our algorithm against baseline methods.
翻訳日:2022-12-03 18:41:54 公開日:2020-05-12
# 画像の逆問題に対するディープラーニング技術

Deep Learning Techniques for Inverse Problems in Imaging ( http://arxiv.org/abs/2005.06001v1 )

ライセンス: Link先を確認
Gregory Ongie, Ajil Jalal, Christopher A. Metzler, Richard G. Baraniuk, Alexandros G. Dimakis, Rebecca Willett(参考訳) 機械学習における最近の研究は、ディープニューラルネットワークが計算イメージングで生じる様々な逆問題を解くのに利用できることを示している。 我々は,この新興地域の中心的なテーマを探究し,様々な問題や再構築法を分類できる分類法を提案する。 本分類は,(1)フォワードモデルが知られているか否か,(2)トレーニングやテストにどの程度使われているか,(2)学習が監督されているか,または教師なしか,すなわち,訓練がマッチングされた地上真理画像と測定ペアへのアクセスに依存しているか,という2つの中心軸に沿って構成されている。 また,これらのレコンストラクションアプローチや注意事項,一般的な障害モード,さらには今後の作業のためのオープンな問題や道について論じる。

Recent work in machine learning shows that deep neural networks can be used to solve a wide variety of inverse problems arising in computational imaging. We explore the central prevailing themes of this emerging area and present a taxonomy that can be used to categorize different problems and reconstruction methods. Our taxonomy is organized along two central axes: (1) whether or not a forward model is known and to what extent it is used in training and testing, and (2) whether or not the learning is supervised or unsupervised, i.e., whether or not the training relies on access to matched ground truth image and measurement pairs. We also discuss the trade-offs associated with these different reconstruction approaches, caveats and common failure modes, plus open problems and avenues for future work.
翻訳日:2022-12-03 18:41:40 公開日:2020-05-12
# 機械学習における視覚分析と人間関与

Visual Analytics and Human Involvement in Machine Learning ( http://arxiv.org/abs/2005.06057v1 )

ライセンス: Link先を確認
Salomon Eisler, Joachim Meyer(参考訳) 急速に発展するAIシステムとアプリケーションは、分析プロセスの事実上のすべての部分に人間が関与する必要がある。 人間の決定は主に可視化に基づいており、データサイエンティストにデータ特性の詳細と分析手順の結果を提供する。 異なる視覚化は、機械学習(ML)プロセスの異なるステップで使用される。 視覚化に使用する決定は、データドメインやデータモデル、MLプロセスのステップなど、要因に依存する。 本章では、mlプロセスにおける7つのステップについて述べ、異なる種類のデータ、モデル、目的の異なるステップに関連する様々な可視化技術について検討する。

The rapidly developing AI systems and applications still require human involvement in practically all parts of the analytics process. Human decisions are largely based on visualizations, providing data scientists details of data properties and the results of analytical procedures. Different visualizations are used in the different steps of the Machine Learning (ML) process. The decision which visualization to use depends on factors, such as the data domain, the data model and the step in the ML process. In this chapter, we describe the seven steps in the ML process and review different visualization techniques that are relevant for the different steps for different types of data, models and purposes.
翻訳日:2022-12-03 18:41:25 公開日:2020-05-12
# テンソル分解による脳波とfMRIの早期軟・柔軟な融合

Early soft and flexible fusion of EEG and fMRI via tensor decompositions ( http://arxiv.org/abs/2005.07134v1 )

ライセンス: Link先を確認
Christos Chatzichristos, Eleftherios Kofidis, Lieven De Lathauwer, Sergios Theodoridis, Sabine Van Huffel(参考訳) data fusionは、同じタスクの補完的なビューを提供する複数のデータセットの合同分析を指す。 本稿では,脳波(EEG)と機能的磁気共鳴イメージング(fMRI)データを共同で解析する問題について考察する。 脳波とfMRIの同時解析は、これらのモーダルが相補的な時空間分解能を持つため、脳機能を研究する上で非常に有益である。 これまでに報告された融合法は、少なくとも1つのモダリティにおいてデータの多方向的性質を無視し、または2つのデータセットの関係について非常に強い仮定に依存している。 このプレプリントでは、これらの2つの点は、2つのモードにおいて初めてテンソルモデルを採用するとともに、二重結合テンソル分解を探求し、マルチモーダル解析を実装するためのソフトで柔軟なカップリングアプローチに従うことによって対処される。 脳波の事象関連電位(ERP)変動に対処するため、PARAFAC2モデルが採用されている。 その結果, 並列独立成分分析 (ICA) と, 実データとシミュレーションデータの両方におけるハードカップリング法を比較した。 ICAに基づく手法よりもテンソル法の方が優れていることを示す。 ハードカップリングの基礎となる仮定を満たさないシナリオでは、ソフトで柔軟な結合分解の利点が明らかに示される。

Data fusion refers to the joint analysis of multiple datasets which provide complementary views of the same task. In this preprint, the problem of jointly analyzing electroencephalography (EEG) and functional Magnetic Resonance Imaging (fMRI) data is considered. Jointly analyzing EEG and fMRI measurements is highly beneficial for studying brain function because these modalities have complementary spatiotemporal resolution: EEG offers good temporal resolution while fMRI is better in its spatial resolution. The fusion methods reported so far ignore the underlying multi-way nature of the data in at least one of the modalities and/or rely on very strong assumptions about the relation of the two datasets. In this preprint, these two points are addressed by adopting for the first time tensor models in the two modalities while also exploring double coupled tensor decompositions and by following soft and flexible coupling approaches to implement the multi-modal analysis. To cope with the Event Related Potential (ERP) variability in EEG, the PARAFAC2 model is adopted. The results obtained are compared against those of parallel Independent Component Analysis (ICA) and hard coupling alternatives in both simulated and real data. Our results confirm the superiority of tensorial methods over methods based on ICA. In scenarios that do not meet the assumptions underlying hard coupling, the advantage of soft and flexible coupled decompositions is clearly demonstrated.
翻訳日:2022-12-03 18:40:38 公開日:2020-05-12
# RSO: ディープニューラルネットワークのトレーニングのための勾配自由サンプリングに基づくアプローチ

RSO: A Gradient Free Sampling Based Approach For Training Deep Neural Networks ( http://arxiv.org/abs/2005.05955v1 )

ライセンス: Link先を確認
Rohun Tripathi and Bharat Singh(参考訳) 本稿では,勾配自由マルコフ連鎖モンテカルロ探索に基づく深層ニューラルネットワークの学習手法であるrso(random search optimization)を提案する。 この目的のために、RSOはディープニューラルネットワークの重みに摂動を加え、ミニバッチの損失を減らすかどうかをテストする。 これが損失を減らす場合、重量は更新され、そうでなければ既存の重量は維持される。 驚くべきことに、このプロセスを各重量に対して数回繰り返すことは、ディープニューラルネットワークをトレーニングするのに十分である。 RSOの重み更新数は、SGDのバックプロパゲーションに比べて桁違いに少ない。 RSOは学習率の概念がないため、各ステップで積極的な重み更新を行うことができる。 個々のレイヤに対する重み更新ステップも、損失の大きさと結合されない。 RSOは6から10層のディープニューラルネットワークを持つMNISTデータセットとCIFAR-10データセットの分類タスクに基づいて評価され、それぞれ99.1%と81.8%の精度を達成する。 また,重みをわずか5倍に更新すると,mnistの98%の分類精度が得られることがわかった。

We propose RSO (random search optimization), a gradient free Markov Chain Monte Carlo search based approach for training deep neural networks. To this end, RSO adds a perturbation to a weight in a deep neural network and tests if it reduces the loss on a mini-batch. If this reduces the loss, the weight is updated, otherwise the existing weight is retained. Surprisingly, we find that repeating this process a few times for each weight is sufficient to train a deep neural network. The number of weight updates for RSO is an order of magnitude lesser when compared to backpropagation with SGD. RSO can make aggressive weight updates in each step as there is no concept of learning rate. The weight update step for individual layers is also not coupled with the magnitude of the loss. RSO is evaluated on classification tasks on MNIST and CIFAR-10 datasets with deep neural networks of 6 to 10 layers where it achieves an accuracy of 99.1% and 81.8% respectively. We also find that after updating the weights just 5 times, the algorithm obtains a classification accuracy of 98% on MNIST.
翻訳日:2022-12-03 18:34:17 公開日:2020-05-12
# 深層学習競争における再現性確保

Guaranteeing Reproducibility in Deep Learning Competitions ( http://arxiv.org/abs/2005.06041v1 )

ライセンス: Link先を確認
Brandon Houghton, Stephanie Milani, Nicholay Topin, William Guss, Katja Hofmann, Diego Perez-Liebana, Manuela Veloso, Ruslan Salakhutdinov(参考訳) 再現可能でロバストなトレーニング行動を持つ手法の開発を促進するために,事前学習したエージェントではなく,学習手順のパフォーマンスを競合者が直接評価する課題パラダイムを提案する。 コンペティションのオーガナイザは、制御された環境で提案されたメソッドを再トレーニングすることで再現性を保証し、 -- 保持されたテストセットを使用して提出をトレーニングすることで、トレーニングされた環境を過ぎての一般化を保証する。

To encourage the development of methods with reproducible and robust training behavior, we propose a challenge paradigm where competitors are evaluated directly on the performance of their learning procedures rather than pre-trained agents. Since competition organizers re-train proposed methods in a controlled setting they can guarantee reproducibility, and -- by retraining submissions using a held-out test set -- help ensure generalization past the environments on which they were trained.
翻訳日:2022-12-03 18:33:59 公開日:2020-05-12
# 勾配近似誤差制御による離散離散マルコフ確率場に対する確率学習

Stochastic Learning for Sparse Discrete Markov Random Fields with Controlled Gradient Approximation Error ( http://arxiv.org/abs/2005.06083v1 )

ライセンス: Link先を確認
Sinong Geng, Zhaobin Kuang, Jie Liu, Stephen Wright, David Page(参考訳) 離散マルコフ確率場 (mrfs) におけるl_1$-レギュラライズ最大度推定/推定問題(mle)について検討し, 効率的かつスケーラブルな学習にはスパース正規化と近似推論の両方が必要であることを示した。 これらの課題に対処するために,確率的近位勾配(spg; honorio 2012a, atchade et al. 2014,miasojedow and rejchel 2016)と呼ばれる確率的学習フレームワークを検討する。 spgは、勾配近似のための確率的オラクル(ギブズサンプリング)に由来する、非エクササイズな近位勾配アルゴリズム [schmidtet al., 2011] である。 正確な勾配評価は、離散型mrfs [koller and friedman, 2009] のnp-hard推論問題のために一般には実現不可能である。 理論的には、勾配近似の質を検査し制御するための新しい検証可能な境界を提供する。 実験的に,SPGの性能を高めるために,検証可能な境界に基づく漸近学習戦略(TAY)を提案する。

We study the $L_1$-regularized maximum likelihood estimator/estimation (MLE) problem for discrete Markov random fields (MRFs), where efficient and scalable learning requires both sparse regularization and approximate inference. To address these challenges, we consider a stochastic learning framework called stochastic proximal gradient (SPG; Honorio 2012a, Atchade et al. 2014,Miasojedow and Rejchel 2016). SPG is an inexact proximal gradient algorithm [Schmidtet al., 2011], whose inexactness stems from the stochastic oracle (Gibbs sampling) for gradient approximation - exact gradient evaluation is infeasible in general due to the NP-hard inference problem for discrete MRFs [Koller and Friedman, 2009]. Theoretically, we provide novel verifiable bounds to inspect and control the quality of gradient approximation. Empirically, we propose the tighten asymptotically (TAY) learning strategy based on the verifiable bounds to boost the performance of SPG.
翻訳日:2022-12-03 18:33:50 公開日:2020-05-12
# 時間ポアソン正方形のルート図形モデル

Temporal Poisson Square Root Graphical Models ( http://arxiv.org/abs/2005.06462v1 )

ライセンス: Link先を確認
Sinong Geng, Zhaobin Kuang, Peggy Peissig, David Page(参考訳) 本稿では,時系列イベントデータをモデル化するための時間的ポアソン平方根グラフモデル(TPSQR)を提案する。 TPSQRは、あらゆる可能なイベントタイプの時間的関係を推定することにより、任意のイベントタイプの発生が他のタイプを興奮または阻害するかどうかについて、全体的な視点を提供することができる。 TPSQRは、同じテンプレートパラメータ化を共有する関連するPSQRの集合を推定することによって学習される。 これらのPSQRは、PSQRから生じるより計算集約的な擬似類似問題を近似するために、ポアソン擬似類似度を用いて、擬似類似度で推定される。 理論的には、軽微な仮定の下では、ポアソン擬似近似は基礎となるPSQRを回復するためにスパーシスタントであることが示される。 マーシュフィールド・クリニックの電子健康記録(EHR)から数百万の薬物処方薬と症状診断イベントを用いてTPSQRを学習し、副作用の薬物反応(ADR)を検出する。 実験の結果,学習したTPSQRsは,ERHからADR信号を効率よく回収できることがわかった。

We propose temporal Poisson square root graphical models (TPSQRs), a generalization of Poisson square root graphical models (PSQRs) specifically designed for modeling longitudinal event data. By estimating the temporal relationships for all possible pairs of event types, TPSQRs can offer a holistic perspective about whether the occurrences of any given event type could excite or inhibit any other type. A TPSQR is learned by estimating a collection of interrelated PSQRs that share the same template parameterization. These PSQRs are estimated jointly in a pseudo-likelihood fashion, where Poisson pseudo-likelihood is used to approximate the original more computationally-intensive pseudo-likelihood problem stemming from PSQRs. Theoretically, we demonstrate that under mild assumptions, the Poisson pseudo-likelihood approximation is sparsistent for recovering the underlying PSQR. Empirically, we learn TPSQRs from Marshfield Clinic electronic health records (EHRs) with millions of drug prescription and condition diagnosis events, for adverse drug reaction (ADR) detection. Experimental results demonstrate that the learned TPSQRs can recover ADR signals from the EHR effectively and efficiently.
翻訳日:2022-12-03 18:33:28 公開日:2020-05-12
# それは既知の嘘だ:以前に事実確認された主張を検知する

That is a Known Lie: Detecting Previously Fact-Checked Claims ( http://arxiv.org/abs/2005.06058v1 )

ライセンス: Link先を確認
Shaden Shaar, Giovanni Da San Martino, Nikolay Babulkov, Preslav Nakov(参考訳) 近年の「フェイクニュース」の普及は、いくつかの手動の事実チェックイニシアチブの出現など、多くの反応を引き起こしている。 その結果、多くの事実チェックされた主張が蓄積され、ソーシャルメディアにおける新たな主張や政治家による新たな声明が、信頼できる事実チェック組織によって既に事実チェックされている可能性が高まっている。 手動の事実チェックは非常に時間がかかる(かつ完全に自動的な事実チェックには信頼性の問題がある)ため、この労力を節約し、すでに事実チェック済みの主張に時間を費やすことを避けることが重要である。 興味深いことに、タスクの重要性にもかかわらず、これまで研究コミュニティからは無視されてきた。 ここではこのギャップを埋めることを目指しています。 特に、タスクを定式化し、それがどのように関連しているかを議論するが、以前の作業とは異なっている。 さらに専門的なデータセットを作成し、研究コミュニティにリリースします。 最後に、最先端検索とテキスト類似性アプローチの大幅な改善を実証する学習 to ランク実験を提案する。

The recent proliferation of "fake news" has triggered a number of responses, most notably the emergence of several manual fact-checking initiatives. As a result and over time, a large number of fact-checked claims have been accumulated, which increases the likelihood that a new claim in social media or a new statement by a politician might have already been fact-checked by some trusted fact-checking organization, as viral claims often come back after a while in social media, and politicians like to repeat their favorite statements, true or false, over and over again. As manual fact-checking is very time-consuming (and fully automatic fact-checking has credibility issues), it is important to try to save this effort and to avoid wasting time on claims that have already been fact-checked. Interestingly, despite the importance of the task, it has been largely ignored by the research community so far. Here, we aim to bridge this gap. In particular, we formulate the task and we discuss how it relates to, but also differs from, previous work. We further create a specialized dataset, which we release to the research community. Finally, we present learning-to-rank experiments that demonstrate sizable improvements over state-of-the-art retrieval and textual similarity approaches.
翻訳日:2022-12-03 18:32:39 公開日:2020-05-12
# ニュース(AESPEN)からの社会・政治イベントの自動抽出 : ワークショップと共有課題報告

Automated Extraction of Socio-political Events from News (AESPEN): Workshop and Shared Task Report ( http://arxiv.org/abs/2005.06070v1 )

ライセンス: Link先を確認
Ali H\"urriyeto\u{g}lu, Vanni Zavarella, Hristo Tanev, Erdem Y\"or\"uk, Ali Safaya, Osman Mutlu(参考訳) 我々は,言語資源評価会議(lrec 2020)で開催したワークショップと共有タスクの範囲内で,ニュースから社会政治イベントを自動的に抽出する取り組みについて述べる。 我々は,計算言語学と社会・政治科学におけるイベント抽出研究は,ソース,国,言語間の大規模社会・政治イベント情報収集を可能にするために,お互いをさらに支援する必要があると考えている。 イベントは、通常の研究論文と、イベント文のコア参照識別(ESCI)トラックに関する共有タスクで構成されている。 提案はすべてプログラム委員会の5人によって審査された。 このワークショップは、機械学習方法論、言語資源、物質衝突予測、社会・政治イベント情報収集の分野における共有タスク参加レポートの評価に関する研究論文を魅了した。 社会政治イベントに関連するデータソースとイベント情報収集手法の量と多様性を示し、自動化されたテキスト処理技術と社会・政治科学の要件とのギャップを埋める必要性を示した。

We describe our effort on automated extraction of socio-political events from news in the scope of a workshop and a shared task we organized at Language Resources and Evaluation Conference (LREC 2020). We believe the event extraction studies in computational linguistics and social and political sciences should further support each other in order to enable large scale socio-political event information collection across sources, countries, and languages. The event consists of regular research papers and a shared task, which is about event sentence coreference identification (ESCI), tracks. All submissions were reviewed by five members of the program committee. The workshop attracted research papers related to evaluation of machine learning methodologies, language resources, material conflict forecasting, and a shared task participation report in the scope of socio-political event information collection. It has shown us the volume and variety of both the data sources and event information collection approaches related to socio-political events and the need to fill the gap between automated text processing techniques and requirements of social and political sciences.
翻訳日:2022-12-03 18:32:19 公開日:2020-05-12
# 複合発現遺伝子の深部マイニングのためのグラニュラーバイクラスタリング法

A Novel Granular-Based Bi-Clustering Method of Deep Mining the Co-Expressed Genes ( http://arxiv.org/abs/2005.05519v1 )

ライセンス: Link先を確認
Kaijie Xu, Witold Pedrycz, Zhiwu Li, Yinghui Quan, and Weike Nie(参考訳) 従来のクラスタリング法は、遺伝子表現データの巨大で異質なグループを扱う場合に限られており、これは双方向クラスタリング法の開発を動機付けている。 ビクラスタリング法は、サンプル(遺伝子)のサブセットが試験条件下で協調的に制御されるバイクラスタをマイニングするために用いられる。 バイオインフォマティクス研究において、遺伝子発現データから類似の変動度を持つ一貫した傾向と傾向の2クラスターの採掘が不可欠であることが示されている。 残念ながら、従来の二クラスタ法はそのような二クラスタを発見するのに完全には効果がない。 そこで本研究では,グラニュラーコンピューティングの理論を取り入れた新しい二クラスタリング手法を提案する。 提案手法では、時系列の群と見なされる遺伝子データ行列を、順序づけられた一連の情報顆粒に変換する。 情報グラニュラーを用いて、遺伝子データの特性行列を構築し、連続した条件間の表現値の変動傾向を捉え、理想的な二クラスターをマイニングする。 実験結果は理論解析と一致し,提案手法の優れた性能を示す。

Traditional clustering methods are limited when dealing with huge and heterogeneous groups of gene expression data, which motivates the development of bi-clustering methods. Bi-clustering methods are used to mine bi-clusters whose subsets of samples (genes) are co-regulated under their test conditions. Studies show that mining bi-clusters of consistent trends and trends with similar degrees of fluctuations from the gene expression data is essential in bioinformatics research. Unfortunately, traditional bi-clustering methods are not fully effective in discovering such bi-clusters. Therefore, we propose a novel bi-clustering method by involving here the theory of Granular Computing. In the proposed scheme, the gene data matrix, considered as a group of time series, is transformed into a series of ordered information granules. With the information granules we build a characteristic matrix of the gene data to capture the fluctuation trend of the expression value between consecutive conditions to mine the ideal bi-clusters. The experimental results are in agreement with the theoretical analysis, and show the excellent performance of the proposed method.
翻訳日:2022-12-03 18:32:01 公開日:2020-05-12
# 離散パラメータの適応演算子選択のための統一フレームワーク

Unified Framework for the Adaptive Operator Selection of Discrete Parameters ( http://arxiv.org/abs/2005.05613v1 )

ライセンス: Link先を確認
Mudita Sharma, Manuel Lopez-Ibanez and Dimitar Kazakov(参考訳) 進化的アルゴリズム(EA)における演算子(AOS)の適応選択の徹底的な調査を行う。 既存のAOSメソッドの分類に基づいて構築されるフレームワークにより多くのコンポーネントを追加することで、AOS構造を単純化しました。 単純化に加えて,文献からaos手法の共通性を考察し,一般化した。 各コンポーネントにはいくつかの選択肢があり、それぞれが式で表される。 我々は3つの比較を行う。 まず、文献からの手法をデフォルトのハイパーパラメータでBBOBテストベッドでテストする。 第二に、これらのメソッドのハイパーパラメータはIRACEと呼ばれるオフライン設定子を使って調整される。 第三に、与えられた問題の集合に対して、IRACEを使用してコンポーネントの最適な組み合わせを選択し、それらのハイパーパラメータをチューニングします。

We conduct an exhaustive survey of adaptive selection of operators (AOS) in Evolutionary Algorithms (EAs). We simplified the AOS structure by adding more components to the framework to built upon the existing categorisation of AOS methods. In addition to simplifying, we looked at the commonality among AOS methods from literature to generalise them. Each component is presented with a number of alternative choices, each represented with a formula. We make three sets of comparisons. First, the methods from literature are tested on the BBOB test bed with their default hyper parameters. Second, the hyper parameters of these methods are tuned using an offline configurator known as IRACE. Third, for a given set of problems, we use IRACE to select the best combination of components and tune their hyper parameters.
翻訳日:2022-12-03 18:31:46 公開日:2020-05-12
# 核判別解析における非線形埋め込みの幾何学

The Geometry of Nonlinear Embeddings in Kernel Discriminant Analysis ( http://arxiv.org/abs/2005.05546v1 )

ライセンス: Link先を確認
Jiae Kim, Yoonkyung Lee and Zhiyu Liang(参考訳) フィッシャーの線形判別分析は古典的な分類法であるが、線形特徴のみを捉えることに制限されている。 拡張としてのカーネル識別分析は、非線形特徴写像によって制限を緩和することが知られている。 データ分布とカーネルに依存する集団レベルの識別関数を同定することにより,多項式カーネルとガウスカーネルとの判別解析における非線形埋め込みの幾何学について検討する。 判別関数を得るために、クラス間およびクラス内共分散演算子を用いた一般化固有値問題を解く。 多項式判別剤は、集団モーメントを通してクラス差を明示的にキャプチャする。 ガウスの判別式を近似するために、エルミート多項式の指数的生成関数を利用してガウス核の特殊表現を用いる。 また,gaussian discriminant はデータのランダム化投影を用いて近似できることを示した。 本研究は,非線形埋め込みの判定において,データ分布とカーネルがどのように相互作用するかを照らし,カーネルとそのパラメータを選択するためのガイドラインを提供する。

Fisher's linear discriminant analysis is a classical method for classification, yet it is limited to capturing linear features only. Kernel discriminant analysis as an extension is known to successfully alleviate the limitation through a nonlinear feature mapping. We study the geometry of nonlinear embeddings in discriminant analysis with polynomial kernels and Gaussian kernel by identifying the population-level discriminant function that depends on the data distribution and the kernel. In order to obtain the discriminant function, we solve a generalized eigenvalue problem with between-class and within-class covariance operators. The polynomial discriminants are shown to capture the class difference through the population moments explicitly. For approximation of the Gaussian discriminant, we use a particular representation of the Gaussian kernel by utilizing the exponential generating function for Hermite polynomials. We also show that the Gaussian discriminant can be approximated using randomized projections of the data. Our results illuminate how the data distribution and the kernel interact in determination of the nonlinear embedding for discrimination, and provide a guideline for choice of the kernel and its parameters.
翻訳日:2022-12-03 18:24:58 公開日:2020-05-12
# 多視点クラスタリングのための凝集型ニューラルネットワーク

Agglomerative Neural Networks for Multi-view Clustering ( http://arxiv.org/abs/2005.05556v1 )

ライセンス: Link先を確認
Zhe Liu, Yun Li, Lina Yao, Xianzhi Wang and Feiping Nie(参考訳) 従来のマルチビュークラスタリング手法は、コンセンサスとサブビューの相互差を最小限にして、ビューコンセンサスを求める。 しかし、このペアワイズ比較は、サブビューの一部がさらに集約された場合、ビュー間の関係を正確に表現することはできない。 上記の課題に対処するために,最適コンセンサスビューを近似する凝集解析を提案し,ビュー構造内のサブビュー関係を記述する。 本稿では,制約付きラプラシアンランクに基づくagglomerative neural network(ann)を,専用のポストプロセッシングステップ(k-meansなど)を避けつつ,マルチビューデータをクラスタ化する。 さらに、複雑なシナリオのデータを扱うために、ANNを学習可能なデータ空間に拡張します。 4つの人気データセットにおける最先端のマルチビュークラスタリングアプローチに対する評価結果から, annのビュー・コンセンサス解析能力が示唆された。 さらに,ANNが複雑なビュー構造と拡張性を解析し,その堅牢性とデータ駆動型修正の有効性を説明する。

Conventional multi-view clustering methods seek for a view consensus through minimizing the pairwise discrepancy between the consensus and subviews. However, the pairwise comparison cannot portray the inter-view relationship precisely if some of the subviews can be further agglomerated. To address the above challenge, we propose the agglomerative analysis to approximate the optimal consensus view, thereby describing the subview relationship within a view structure. We present Agglomerative Neural Network (ANN) based on Constrained Laplacian Rank to cluster multi-view data directly while avoiding a dedicated postprocessing step (e.g., using K-means). We further extend ANN with learnable data space to handle data of complex scenarios. Our evaluations against several state-of-the-art multi-view clustering approaches on four popular datasets show the promising view-consensus analysis ability of ANN. We further demonstrate ANN's capability in analyzing complex view structures and extensibility in our case study and explain its robustness and effectiveness of data-driven modifications.
翻訳日:2022-12-03 18:24:42 公開日:2020-05-12
# AttViz: 透明なニューラルネットワークモデリングのための自己注意のオンライン探索

AttViz: Online exploration of self-attention for transparent neural language modeling ( http://arxiv.org/abs/2005.05716v1 )

ライセンス: Link先を確認
Bla\v{z} \v{S}krlj, Nika Er\v{z}en, Shane Sheehan, Saturnino Luz, Marko Robnik-\v{S}ikonja, Senja Pollak(参考訳) クエリ応答やテキスト分類,曖昧さ回避,補完,翻訳といったタスクでは,ニューラルネットワークモデルが一般的な方法論になりつつある。 一般的に数億のパラメータで構成されているこれらのニューラルネットワークモデルは、解釈可能性の犠牲で最先端のパフォーマンスを提供する。 翻訳作業のために最初に導入されたアテンションメカニズムは、他の言語関連タスクにうまく採用されている。 我々は,個々のテキストトークンに関連づけられた実数値を自己参照探索するためのオンラインツールキットであるattvizを提案する。 既存のディープラーニングパイプラインがattvizに適したアウトプットを生成する方法を示し、オンライン上で、注意ヘッドとその集約の新たな可視化を提供する。 提案するシステムがモデルが学んだ(あるいは強調した)ことの検査や理解にどのように役立つのか,ニュースセグメントの例を示す。

Neural language models are becoming the prevailing methodology for the tasks of query answering, text classification, disambiguation, completion and translation. Commonly comprised of hundreds of millions of parameters, these neural network models offer state-of-the-art performance at the cost of interpretability; humans are no longer capable of tracing and understanding how decisions are being made. The attention mechanism, introduced initially for the task of translation, has been successfully adopted for other language-related tasks. We propose AttViz, an online toolkit for exploration of self-attention---real values associated with individual text tokens. We show how existing deep learning pipelines can produce outputs suitable for AttViz, offering novel visualizations of the attention heads and their aggregations with minimal effort, online. We show on examples of news segments how the proposed system can be used to inspect and potentially better understand what a model has learned (or emphasized).
翻訳日:2022-12-03 18:24:10 公開日:2020-05-12
# 敵攻撃に対するアンサンブルロバスト性の評価

Evaluating Ensemble Robustness Against Adversarial Attacks ( http://arxiv.org/abs/2005.05750v1 )

ライセンス: Link先を確認
George Adam and Romain Speciel(参考訳) ニューラルネットワークを騙す目的で生成されるわずかに摂動された入力である敵の例は、モデル間で転送されることが知られている。 この転送可能性の概念は、ターゲットモデルの内部パラメータが不明なブラックボックス設定でモデルを攻撃する可能性につながるため、重大なセキュリティ上の懸念を引き起こす。 本稿では,アンサンブル内のモデル間の敵の移動可能性を分析し,最小化する。 そこで本研究では,アンサンブルの構成モデルを効果的に組み合わせることで,アンサンブル自体を対象とする対角的例の空間を小さくする手法を提案する。 さらに,本手法を訓練中に有効に利用することにより,対角的事例に対するアンサンブルの堅牢性を高めることができることを示す。

Adversarial examples, which are slightly perturbed inputs generated with the aim of fooling a neural network, are known to transfer between models; adversaries which are effective on one model will often fool another. This concept of transferability poses grave security concerns as it leads to the possibility of attacking models in a black box setting, during which the internal parameters of the target model are unknown. In this paper, we seek to analyze and minimize the transferability of adversaries between models within an ensemble. To this end, we introduce a gradient based measure of how effectively an ensemble's constituent models collaborate to reduce the space of adversarial examples targeting the ensemble itself. Furthermore, we demonstrate that this measure can be utilized during training as to increase an ensemble's robustness to adversarial examples.
翻訳日:2022-12-03 18:23:53 公開日:2020-05-12
# エネルギー対応dnnグラフ最適化

Energy-Aware DNN Graph Optimization ( http://arxiv.org/abs/2005.05837v1 )

ライセンス: Link先を確認
Yu Wang, Rong Ge and Shuang Qiu(参考訳) 推論性能を最適化するディープニューラルネットワーク(DNN)グラフの既存の研究とは異なり、エネルギーの認識と省エネのためのDNNグラフの最適化について検討する。 本稿では,dnnグラフのエネルギー消費やエネルギーと推論性能のバランスを最適化する手法を提案する。 本手法は,等価グラフの空間を効率的に探索し,最小実行コストのグラフと対応するアルゴリズムを同定する。 提案手法を実装し,GPU ベースマシン上で複数の DNN モデルを用いて評価する。 その結果,提案手法は24%の省エネ,すなわち無視可能な性能への影響が得られた。

Unlike existing work in deep neural network (DNN) graphs optimization for inference performance, we explore DNN graph optimization for energy awareness and savings for power- and resource-constrained machine learning devices. We present a method that allows users to optimize energy consumption or balance between energy and inference performance for DNN graphs. This method efficiently searches through the space of equivalent graphs, and identifies a graph and the corresponding algorithms that incur the least cost in execution. We implement the method and evaluate it with multiple DNN models on a GPU-based machine. Results show that our method achieves significant energy savings, i.e., 24% with negligible performance impact.
翻訳日:2022-12-03 18:23:28 公開日:2020-05-12
# エンドツーエンド最適化を用いたDeep Metric Learningによる教師なし異常検出

Unsupervised Anomaly Detection via Deep Metric Learning with End-to-End Optimization ( http://arxiv.org/abs/2005.05865v1 )

ライセンス: Link先を確認
Selim F. Yilmaz and Suleyman S. Kozat(参考訳) 本研究では,高次元データの教師なし異常検出について検討し,DMLに基づくフレームワークを提案する。 特に,深層ニューラルネットワークを用いて距離測定を学習する。 本手法により,従来のデータから異常をよりよく分離した距離空間にデータを投影し,高次元データに対する次元の呪いの影響を低減する。 本稿では, 従来の全データを正常に仮定する手法として, 自己監督による新しいデータ蒸留法を提案する。 また,DML文献からのハードマイニング技術も採用している。 これらのコンポーネントがモデルのパフォーマンスを改善し、実行時間を大幅に削減します。 提案手法は,14個の実世界のデータセットに対する広範な実験を通じて,14個のデータセットに対する平均4.44%から11.74%の絶対的な改善など,最先端の教師なし異常検出手法と比較して,大幅な性能向上を示す。 さらに,我々のメソッドのソースコードをGithubで公開し,さらなる研究を促進する。

We investigate unsupervised anomaly detection for high-dimensional data and introduce a deep metric learning (DML) based framework. In particular, we learn a distance metric through a deep neural network. Through this metric, we project the data into the metric space that better separates the anomalies from the normal data and reduces the effect of the curse of dimensionality for high-dimensional data. We present a novel data distillation method through self-supervision to remedy the conventional practice of assuming all data as normal. We also employ the hard mining technique from the DML literature. We show these components improve the performance of our model and significantly reduce the running time. Through an extensive set of experiments on the 14 real-world datasets, our method demonstrates significant performance gains compared to the state-of-the-art unsupervised anomaly detection methods, e.g., an absolute improvement between 4.44% and 11.74% on the average over the 14 datasets. Furthermore, we share the source code of our method on Github to facilitate further research.
翻訳日:2022-12-03 18:22:41 公開日:2020-05-12
# Jigsaw-VAE: 変分オートエンコーダのバランシング機能を目指す

Jigsaw-VAE: Towards Balancing Features in Variational Autoencoders ( http://arxiv.org/abs/2005.05496v1 )

ライセンス: Link先を確認
Saeid Asgari Taghanaki, Mohammad Havaei, Alex Lamb, Aditya Sanghi, Ara Danielyan, Tonya Custis(参考訳) VAEによって学習された潜伏変数は、機能抽出の教師なしの方法としてかなりの関心を集めており、下流タスクに使用できる。 ある環境で学んだ機能が異なる環境にまたがって一般化するかどうかという問題に対する関心が高まっている。 ここでは、VAE潜伏変数が、他の変数を犠牲にして、変動のいくつかの要因に焦点を当てることがよく示されています。 機能の不均衡は、機能の存在が変化する環境で潜在変数が使用される場合の一般化が不十分になる。 同様に、不均衡な特徴で訓練された潜伏変数はVAEを誘導し、より多様な(すなわち支配的な特徴に偏った)サンプルを生成する。 そこで本稿では,VAEの正規化方式を提案する。 また,生成画像における特徴のバランスを測定するための簡易指標も導入した。

The latent variables learned by VAEs have seen considerable interest as an unsupervised way of extracting features, which can then be used for downstream tasks. There is a growing interest in the question of whether features learned on one environment will generalize across different environments. We demonstrate here that VAE latent variables often focus on some factors of variation at the expense of others - in this case we refer to the features as ``imbalanced''. Feature imbalance leads to poor generalization when the latent variables are used in an environment where the presence of features changes. Similarly, latent variables trained with imbalanced features induce the VAE to generate less diverse (i.e. biased towards dominant features) samples. To address this, we propose a regularization scheme for VAEs, which we show substantially addresses the feature imbalance problem. We also introduce a simple metric to measure the balance of features in generated images.
翻訳日:2022-12-03 18:16:21 公開日:2020-05-12
# ビューブートストラップを用いた多視点共有サブスペース学習

Generalized Multi-view Shared Subspace Learning using View Bootstrapping ( http://arxiv.org/abs/2005.06038v1 )

ライセンス: Link先を確認
Krishna Somandepalli and Shrikanth Narayanan(参考訳) マルチビュー学習の主要な目的は、下流学習タスクを改善するために、オブジェクト/イベントのクラスの複数の並列ビューに共通する情報をモデル化することである。 この文脈では、2つのオープンリサーチの疑問が残る。 イベント毎に数百ビューをモデル化するにはどうすればよいのか? これらのビューの取得方法を知らずに、堅牢なマルチビュー埋め込みを学べますか? 本稿では,多視点相関に基づくニューラルな手法を提案する。 組込み次元のサブサンプルに対するビュー数に対する上限を与えるため,行列濃度理論を用いて,ブートストラップしたマルチビュー相関対象の誤差を解析した。 音声単語認識, 3次元物体分類, ポーズ不変顔認識実験により, 多数のビューをモデル化するビューブートストラップの頑健性を示す。 結果から,本手法の適用性について考察した。

A key objective in multi-view learning is to model the information common to multiple parallel views of a class of objects/events to improve downstream learning tasks. In this context, two open research questions remain: How can we model hundreds of views per event? Can we learn robust multi-view embeddings without any knowledge of how these views are acquired? We present a neural method based on multi-view correlation to capture the information shared across a large number of views by subsampling them in a view-agnostic manner during training. To provide an upper bound on the number of views to subsample for a given embedding dimension, we analyze the error of the bootstrapped multi-view correlation objective using matrix concentration theory. Our experiments on spoken word recognition, 3D object classification and pose-invariant face recognition demonstrate the robustness of view bootstrapping to model a large number of views. Results underscore the applicability of our method for a view-agnostic learning setting.
翻訳日:2022-12-03 18:16:04 公開日:2020-05-12
# 91言語における感情辞書の学習と評価

Learning and Evaluating Emotion Lexicons for 91 Languages ( http://arxiv.org/abs/2005.05672v1 )

ライセンス: Link先を確認
Sven Buechel, Susanna R\"ucker, Udo Hahn(参考訳) 感情レキシコンは単語の感情的意味を記述し、それゆえ感情分析と感情分析の中心となる。 しかし、手動でキュレートされたレキシコンは少数の言語でのみ利用可能であり、世界中のほとんどの言語は下流アプリケーションにとって貴重なリソースを欠いている。 さらに悪いことに、彼らのカバー範囲は、彼らが持つ語彙単位と特徴とする感情変数の両方について制限されることが多い。 このボトルネックを解消するために,我々は,任意の対象言語に対して,ほぼ任意に大きめの感情語彙を作成する手法を提案する。 私たちのアプローチでは、ソース言語感情レキシコン、バイリンガル言語翻訳モデル、ターゲット言語埋め込みモデルのみを必要とします。 これらの要求を91言語で満たし、それぞれ10万以上の語彙エントリを持つ8つの感情変数からなる表現的にリッチな高被覆レキシコンを生成することができる。 提案手法は,26のデータセットから自動生成した語彙を,12の言語にまたがって評価し,その結果,語彙生成に対する最先端のモノリンガルアプローチと一致し,言語や変数に対する人間の信頼性を超越する結果が得られた。 コードとデータは、doi https://doi.org/10.5281/zenodo.3779901でアーカイブされている。

Emotion lexicons describe the affective meaning of words and thus constitute a centerpiece for advanced sentiment and emotion analysis. Yet, manually curated lexicons are only available for a handful of languages, leaving most languages of the world without such a precious resource for downstream applications. Even worse, their coverage is often limited both in terms of the lexical units they contain and the emotional variables they feature. In order to break this bottleneck, we here introduce a methodology for creating almost arbitrarily large emotion lexicons for any target language. Our approach requires nothing but a source language emotion lexicon, a bilingual word translation model, and a target language embedding model. Fulfilling these requirements for 91 languages, we are able to generate representationally rich high-coverage lexicons comprising eight emotional variables with more than 100k lexical entries each. We evaluated the automatically generated lexicons against human judgment from 26 datasets, spanning 12 typologically diverse languages, and found that our approach produces results in line with state-of-the-art monolingual approaches to lexicon creation and even surpasses human reliability for some languages and variables. Code and data are available at https://github.com/JULIELab/MEmoLon archived under DOI https://doi.org/10.5281/zenodo.3779901.
翻訳日:2022-12-03 18:15:49 公開日:2020-05-12
# WinoWhy:Winograd Schema Challengeへの回答に必須のコモンセンス知識の深い診断

WinoWhy: A Deep Diagnosis of Essential Commonsense Knowledge for Answering Winograd Schema Challenge ( http://arxiv.org/abs/2005.05763v1 )

ライセンス: Link先を確認
Hongming Zhang, Xinran Zhao, Yangqiu Song(参考訳) 本稿では,Wonograd Schema Challenge (WSC) に答えるために,本質的なコモンセンス知識を包括的に分類する。 各質問に対して、アノテータはまず正しい判断をする理由を提供し、次に6つの主要な知識カテゴリに分類します。 そうすることで、既存の方法の限界(つまり、既存の方法で効果的に表現できない知識や推論できない知識)をよりよく理解し、より良い常識推論のために将来獲得する必要がある常識知識に光を当てることができます。 さらに、現在のwscモデルが常識を理解することができるか、あるいはデータセットの統計的バイアスに基づいて単にwscの問題を解いているかを調べるために、収集された理由を利用してwinowhyと呼ばれる新しいタスクを開発します。 実験の結果、事前学習された言語表現モデルは、オリジナルのwscデータセットで有望な進歩を遂げているが、winowhyでは未だに苦戦している。 さらに実験により、教師付きモデルではより良いパフォーマンスが得られるが、これらのモデルの性能はデータセットの分布に敏感であることが示された。 WinoWhyとすべてのコードは、https://github.com/HKUST-KnowComp/WinoWhyで入手できる。

In this paper, we present the first comprehensive categorization of essential commonsense knowledge for answering the Winograd Schema Challenge (WSC). For each of the questions, we invite annotators to first provide reasons for making correct decisions and then categorize them into six major knowledge categories. By doing so, we better understand the limitation of existing methods (i.e., what kind of knowledge cannot be effectively represented or inferred with existing methods) and shed some light on the commonsense knowledge that we need to acquire in the future for better commonsense reasoning. Moreover, to investigate whether current WSC models can understand the commonsense or they simply solve the WSC questions based on the statistical bias of the dataset, we leverage the collected reasons to develop a new task called WinoWhy, which requires models to distinguish plausible reasons from very similar but wrong reasons for all WSC questions. Experimental results prove that even though pre-trained language representation models have achieved promising progress on the original WSC dataset, they are still struggling at WinoWhy. Further experiments show that even though supervised models can achieve better performance, the performance of these models can be sensitive to the dataset distribution. WinoWhy and all codes are available at: https://github.com/HKUST-KnowComp/WinoWhy.
翻訳日:2022-12-03 18:15:26 公開日:2020-05-12
# 微調整トランスモデルによる同時言い換えと翻訳

Simultaneous paraphrasing and translation by fine-tuning Transformer models ( http://arxiv.org/abs/2005.05570v1 )

ライセンス: Link先を確認
Rakesh Chada(参考訳) 本稿では,acl 2020の第4回ニューラルジェネレーション・トランスレーションワークショップ(wngt)において,言語教育における同時翻訳とパラフレージングに関する共通タスクへの3番目の提案について述べる。 最終システムは事前訓練された翻訳モデルを活用し、トランスフォーマーアーキテクチャとオーバーサンプリング戦略を組み合わせて競合性能を達成する。 このシステムはハンガリー語(重み付けマクロF1の27%の絶対改善)とポルトガル語(33%の絶対改善)のベースラインを大きく上回っている。

This paper describes the third place submission to the shared task on simultaneous translation and paraphrasing for language education at the 4th workshop on Neural Generation and Translation (WNGT) for ACL 2020. The final system leverages pre-trained translation models and uses a Transformer architecture combined with an oversampling strategy to achieve a competitive performance. This system significantly outperforms the baseline on Hungarian (27% absolute improvement in Weighted Macro F1 score) and Portuguese (33% absolute improvement) languages.
翻訳日:2022-12-03 18:14:59 公開日:2020-05-12
# 少ないテキスト分類のための動的メモリ誘導ネットワーク

Dynamic Memory Induction Networks for Few-Shot Text Classification ( http://arxiv.org/abs/2005.05727v1 )

ライセンス: Link先を確認
Ruiying Geng, Binhua Li, Yongbin Li, Jian Sun, Xiaodan Zhu(参考訳) 本稿では,テキスト分類のための動的メモリ誘導ネットワーク(DMIN)を提案する。 このモデルは動的ルーティングを使用して、メモリベースの少数ショット学習に柔軟性を提供し、少数ショット分類モデルのクリティカルキャパシティであるサポートセットをより適合させる。 そこで我々は,メタ学習の一般化能力の向上を目的とした,クエリ情報付き帰納モデルをさらに発展させる。 提案したモデルでは, miniRCV1 と ODIC のデータセット上で新たな最先端結果を実現し,性能(精度)を 2~4% 向上させる。 さらに、各コンポーネントの有効性を示すために詳細な分析を行う。

This paper proposes Dynamic Memory Induction Networks (DMIN) for few-shot text classification. The model utilizes dynamic routing to provide more flexibility to memory-based few-shot learning in order to better adapt the support sets, which is a critical capacity of few-shot classification models. Based on that, we further develop induction models with query information, aiming to enhance the generalization ability of meta-learning. The proposed model achieves new state-of-the-art results on the miniRCV1 and ODIC dataset, improving the best performance (accuracy) by 2~4%. Detailed analysis is further performed to show the effectiveness of each component.
翻訳日:2022-12-03 18:14:49 公開日:2020-05-12
# トータルターゲットを考慮したデータ駆動型スケジューリングアルゴリズム

Data-driven Algorithm for Scheduling with Total Tardiness ( http://arxiv.org/abs/2005.05579v1 )

ライセンス: Link先を確認
Michal Bou\v{s}ka, Anton\'in Nov\'ak, P\v{r}emysl \v{S}\r{u}cha, Istv\'an M\'odos, and Zden\v{e}k Hanz\'alek(参考訳) 本稿では,従来のnp-hard single machine scheduling問題を解くためのディープラーニングの利用について検討する。 エンド・ツー・エンドの機械学習モデルを設計する代わりに、よく知られた問題を分解し、データ駆動アプローチで強化する。 我々は、与えられたジョブセットの基準を学習し、予測するディープニューラルネットワークを含む回帰器を設計した。 このネットワークは、ローラーの分解定理に基づく単一パススケジューリングアルゴリズムで使用される基準の多項式時間推定器として機能する。 基本的に、回帰器はアルゴリズムを誘導し、各ジョブに最適な位置を選択する。 実験結果から,データ駆動型アプローチは,トレーニングフェーズから大幅に大きなインスタンス(最大350ジョブ)への情報を効率的に一般化でき,最適なギャップは約0.5%であり,最先端のnbrヒューリスティックのギャップの4分の4以下であることがわかった。

In this paper, we investigate the use of deep learning for solving a classical NP-Hard single machine scheduling problem where the criterion is to minimize the total tardiness. Instead of designing an end-to-end machine learning model, we utilize well known decomposition of the problem and we enhance it with a data-driven approach. We have designed a regressor containing a deep neural network that learns and predicts the criterion of a given set of jobs. The network acts as a polynomial-time estimator of the criterion that is used in a single-pass scheduling algorithm based on Lawler's decomposition theorem. Essentially, the regressor guides the algorithm to select the best position for each job. The experimental results show that our data-driven approach can efficiently generalize information from the training phase to significantly larger instances (up to 350 jobs) where it achieves an optimality gap of about 0.5%, which is four times less than the gap of the state-of-the-art NBR heuristic.
翻訳日:2022-12-03 18:14:30 公開日:2020-05-12
# Unbiased Deep Reinforcement Learning: 既存のアルゴリズムと将来のアルゴリズムのための一般的なトレーニングフレームワーク

Unbiased Deep Reinforcement Learning: A General Training Framework for Existing and Future Algorithms ( http://arxiv.org/abs/2005.07782v1 )

ライセンス: Link先を確認
Huihui Zhang and Wu Huang(参考訳) 近年、深層ニューラルネットワークが強化学習の領域でうまく適用されている(bengio2009learning,krizhevsky2012imagenet,hinton2006reducing})。 Deep reinforcement learning \cite{mnih2015human} は、従来のエージェントよりも高次元の感覚入力から直接効果的なポリシーを学習する利点があると報告されている。 しかし、文献の範囲内では、既存のトレーニングフレームワークに根本的な変更や改善はない。 本稿では、概念的に理解可能であり、強化学習のためのすべての実現可能なアルゴリズムに一般化し易い新しい学習フレームワークを提案する。 生データ入力を達成するためにモンテカルロサンプリングを用い,マルコフ決定プロセスシーケンスを達成するためにバッチで訓練し,経験リプレイの代わりにネットワークパラメータを同期的に更新する。 この学習フレームワークは,実確率分布データ入力と正確に一致する推定値を持つ損失関数の偏りのない近似を最適化することを証明し,離散行動空間と連続制御問題の両方で評価した後,既存の深層強化学習よりもサンプル効率と収束率を圧倒的に有する。 さらに,従来の離散的かつ連続的なシナリオを扱うために,新しいフレームワークを組み込んだアルゴリズムを提案する。 これらのアルゴリズムは、強化学習の枠組みの下で、元のバージョンよりもはるかに効率的であることが証明され、我々の新しいフレームワークに一般化するための既存および将来のアルゴリズムの例を提供する。

In recent years deep neural networks have been successfully applied to the domains of reinforcement learning \cite{bengio2009learning,krizhevsky2012imagenet,hinton2006reducing}. Deep reinforcement learning \cite{mnih2015human} is reported to have the advantage of learning effective policies directly from high-dimensional sensory inputs over traditional agents. However, within the scope of the literature, there is no fundamental change or improvement on the existing training framework. Here we propose a novel training framework that is conceptually comprehensible and potentially easy to be generalized to all feasible algorithms for reinforcement learning. We employ Monte-carlo sampling to achieve raw data inputs, and train them in batch to achieve Markov decision process sequences and synchronously update the network parameters instead of experience replay. This training framework proves to optimize the unbiased approximation of loss function whose estimation exactly matches the real probability distribution data inputs follow, and thus have overwhelming advantages of sample efficiency and convergence rate over existing deep reinforcement learning after evaluating it on both discrete action spaces and continuous control problems. Besides, we propose several algorithms embedded with our new framework to deal with typical discrete and continuous scenarios. These algorithms prove to be far more efficient than their original versions under the framework of deep reinforcement learning, and provide examples for existing and future algorithms to generalize to our new framework.
翻訳日:2022-12-03 18:14:14 公開日:2020-05-12
# Prta:ニュースにおけるプロパガンダ技術分析を支援するシステム

Prta: A System to Support the Analysis of Propaganda Techniques in the News ( http://arxiv.org/abs/2005.05854v1 )

ライセンス: Link先を確認
Giovanni Da San Martino, Shaden Shaar, Yifan Zhang, Seunghak Yu, Alberto Barr\'on-Cede\~no, Preslav Nakov(参考訳) 2016年の米大統領選やブレグジット(ブレグジット)、新型コロナウイルス(COVID-19)などの最近の出来事は、オンラインの偽情報の危険性を浮き彫りにした。 事実チェックと偽情報検出に注目する研究が数多く行われている。 しかし、プロパガンダのメッセージを伝えるのに使われる特定の修辞的・心理的技法にはほとんど注意が払われていない。 このような技術を使用することは、メディアのリテラシーと批判的思考を促進し、最終的には「フェイクニュース」や偽情報キャンペーンの影響を制限するのに役立つ。 Prta (Propaganda Persuasion Techniques Analyzer) では,プロパガンダテクニックの出現するスパンを強調表示し,プロパガンダテクニックを用いて比較することで,定期的にクロールした記事の探索を可能にする。 このシステムは、また、時間間隔、キーワード、および/またはメディアの政治的指向に基づいて、ユーザによって指定されたフィルタリング基準に従って、時間的および時間的および時間的、そのようなテクニックの使用に関する統計を報告する。 さらに、ユーザーは専用のインターフェイスやAPIを通じて、任意のテキストやURLを分析できる。 システムはオンラインで利用可能である。

Recent events, such as the 2016 US Presidential Campaign, Brexit and the COVID-19 "infodemic", have brought into the spotlight the dangers of online disinformation. There has been a lot of research focusing on fact-checking and disinformation detection. However, little attention has been paid to the specific rhetorical and psychological techniques used to convey propaganda messages. Revealing the use of such techniques can help promote media literacy and critical thinking, and eventually contribute to limiting the impact of "fake news" and disinformation campaigns. Prta (Propaganda Persuasion Techniques Analyzer) allows users to explore the articles crawled on a regular basis by highlighting the spans in which propaganda techniques occur and to compare them on the basis of their use of propaganda techniques. The system further reports statistics about the use of such techniques, overall and over time, or according to filtering criteria specified by the user based on time interval, keywords, and/or political orientation of the media. Moreover, it allows users to analyze any text or URL through a dedicated interface or via an API. The system is available online: https://www.tanbih.org/prta
翻訳日:2022-12-03 18:07:38 公開日:2020-05-12
# 強化学習を用いたスパイクニューラルネットワークの訓練

Training spiking neural networks using reinforcement learning ( http://arxiv.org/abs/2005.05941v1 )

ライセンス: Link先を確認
Sneha Aenugu(参考訳) 脳内のニューロンは、ニューラルネットワークの連続的なシグナル伝達とは対照的に、個別のアクションスパイクを介して相互に通信する。 したがって、活性化関数の微分可能性の仮定に依存するニューラルネットワークにおけるパラメータの最適化手法は、もはや脳内の学習プロセスのモデル化には適用されない。 本稿では,スパイクニューラルネットワークのトレーニングを容易にするために,生物学的に証明可能なバックプロパゲーション代替法を提案する。 我々は,複雑なタスクにおける意思決定を可能にするために,空間的および時間的クレジット割り当て問題を解決するための強化学習規則(rl)の候補性を検討することに集中する。 あるアプローチでは、ニューラルネットワーク内の各ニューロンを、特徴空間の異なる表現を形成する独立したRLエージェントとみなす一方で、ネットワーク全体が、その課題を解決するための複雑なポリシーの表現を形成する。 言い換えれば、スパイクニューラルネットワークにおける確率変換による微分を可能にするために、再パラメータ化手法を適用する。 gridworld、cartpole、マウンテンカーといった従来のrlドメインに適用することで、これら2つのアプローチを比較して比較する。 また、この領域における今後の研究を可能にするためのバリエーションや拡張についても提案する。

Neurons in the brain communicate with each other through discrete action spikes as opposed to continuous signal transmission in artificial neural networks. Therefore, the traditional techniques for optimization of parameters in neural networks which rely on the assumption of differentiability of activation functions are no longer applicable to modeling the learning processes in the brain. In this project, we propose biologically-plausible alternatives to backpropagation to facilitate the training of spiking neural networks. We primarily focus on investigating the candidacy of reinforcement learning (RL) rules in solving the spatial and temporal credit assignment problems to enable decision-making in complex tasks. In one approach, we consider each neuron in a multi-layer neural network as an independent RL agent forming a different representation of the feature space while the network as a whole forms the representation of the complex policy to solve the task at hand. In other approach, we apply the reparameterization trick to enable differentiation through stochastic transformations in spiking neural networks. We compare and contrast the two approaches by applying them to traditional RL domains such as gridworld, cartpole and mountain car. Further we also suggest variations and enhancements to enable future research in this area.
翻訳日:2022-12-03 18:07:16 公開日:2020-05-12
# ゲーテッドサプライズを用いたイベント圧縮

Fostering Event Compression using Gated Surprise ( http://arxiv.org/abs/2005.05704v1 )

ライセンス: Link先を確認
Dania Humaidan, Sebastian Otte, Martin V. Butz(参考訳) 私たちの脳は、動的に変化するセンサーモブターデータのストリームを受け取ります。 しかし、私たちはかなり組織化された世界を認識し、イベントとして分割し、認識します。 事象予測認知に関する認知科学の計算理論は、私たちの脳が、感覚運動データから適切な文脈体験のチャンクに分割することによって、生成的事象予測モデルを形成することを示唆している。 本稿では,この過程をモデル化し,異なるイベントライクなコンテキストのコンパクト圧縮を開発する階層型,サプライズゲート型リカレントニューラルネットワークアーキテクチャを紹介する。 このアーキテクチャは、継続およびその後のコンテキストの生成圧縮を開発する、コンテキストLSTM層を含んでいる。 これらの圧縮はGRUライクな層に渡され、サプライズ信号を使ってリカレント遅延状態を更新する。 潜時状態は別のLSTM層に転送され、供給された潜時圧縮信号の光で実際の動的感覚の流れを処理する。 本モデルでは,複数のイベント処理タスクにおいて,個別のイベント圧縮を開発し,最高のパフォーマンスを実現する。 このアーキテクチャは、リソース効率のよい学習、階層的モデルに基づく強化学習のさらなる発展、および人工的な事象予測認知と知性の開発に非常に有用である。

Our brain receives a dynamically changing stream of sensorimotor data. Yet, we perceive a rather organized world, which we segment into and perceive as events. Computational theories of cognitive science on event-predictive cognition suggest that our brain forms generative, event-predictive models by segmenting sensorimotor data into suitable chunks of contextual experiences. Here, we introduce a hierarchical, surprise-gated recurrent neural network architecture, which models this process and develops compact compressions of distinct event-like contexts. The architecture contains a contextual LSTM layer, which develops generative compressions of ongoing and subsequent contexts. These compressions are passed into a GRU-like layer, which uses surprise signals to update its recurrent latent state. The latent state is passed forward into another LSTM layer, which processes actual dynamic sensory flow in the light of the provided latent, contextual compression signals. Our model shows to develop distinct event compressions and achieves the best performance on multiple event processing tasks. The architecture may be very useful for the further development of resource-efficient learning, hierarchical model-based reinforcement learning, as well as the development of artificial event-predictive cognition and intelligence.
翻訳日:2022-12-03 18:06:57 公開日:2020-05-12
# 鋼表面における製造欠陥のワンショット認識

One-Shot Recognition of Manufacturing Defects in Steel Surfaces ( http://arxiv.org/abs/2005.05815v1 )

ライセンス: Link先を確認
Aditya M. Deshpande and Ali A. Minai and Manish Kumar(参考訳) 品質管理は、欠陥のない製品と顧客ニーズを満たすために、製造において不可欠なプロセスである。 このプロセスの自動化は、高い製造スループットとともに高品質を維持するために重要です。 近年のディープラーニングやコンピュータビジョン技術の進歩により、画像から人間に近い精度で様々な特徴を検出できるようになった。 しかし、これらのアプローチの多くはデータ集約的です。 このようなシステムを製造フロア上での訓練と展開は、高価で時間がかかる可能性がある。 大量のトレーニングデータの必要性は、実際の製造システムにおけるこれらのアプローチの適用性の限界の1つである。 本研究では,シームズ畳み込みニューラルネットワークを応用して,そのようなタスクをワンショット認識する手法を提案する。 本研究は,鋼板表面欠陥の同定により,鋼板の品質管理にワンショット学習を応用できることを実証する。 この方法は、トレーニングデータの要求を大幅に低減し、リアルタイムに実行することもできる。

Quality control is an essential process in manufacturing to make the product defect-free as well as to meet customer needs. The automation of this process is important to maintain high quality along with the high manufacturing throughput. With recent developments in deep learning and computer vision technologies, it has become possible to detect various features from the images with near-human accuracy. However, many of these approaches are data intensive. Training and deployment of such a system on manufacturing floors may become expensive and time-consuming. The need for large amounts of training data is one of the limitations of the applicability of these approaches in real-world manufacturing systems. In this work, we propose the application of a Siamese convolutional neural network to do one-shot recognition for such a task. Our results demonstrate how one-shot learning can be used in quality control of steel by identification of defects on the steel surface. This method can significantly reduce the requirements of training data and can also be run in real-time.
翻訳日:2022-12-03 18:05:00 公開日:2020-05-12