このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210718となっている論文です。

PDF登録状況(公開日: 20210718)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子ゼロ知識の同時合成について

On the Concurrent Composition of Quantum Zero-Knowledge ( http://arxiv.org/abs/2012.03139v4 )

ライセンス: Link先を確認
Prabhanjan Ananth, Kai-Min Chung, Rolando L. La Placa(参考訳) コンカレントコンポジションにおける量子多項式時間検証器(量子ゼロ知識)に対するゼロ知識確保の概念について検討する。 古典的設定で広く研究されているにもかかわらず、量子的設定における同時構成はほとんど研究されていない。 並列量子ゼロ知識の形式的研究を開始する。 NP と QMA に対する有界並行QZK: 後量子片方向関数を仮定すると、有界並列設定における NP に対する量子ゼロ知識証明システムが存在する。 この設定では、証明者と同時に対話できる検証器の数を優先的に固定する。 同じ仮定の下では、有界並行性設定においてQMAの量子ゼロ知識証明システムが存在することも示している。 -quantum proofs of knowledge: if quantum hardness of learning with error (qlwe) を仮定すると、知識特性の量子証明を満たすnpのための有界並列ゼロ知識証明システムが存在する。 この抽出機構は、抽出確率が受理確率(抽出可能性)に無視できるほど近いことと同時に、抽出後の証明者の状態が検証者と相互作用した後の証明者の状態に統計的に近いことを保証する(同化可能性)。 また, [Unruh EUROCRYPT'12] の精巧な研究とそれに続くすべての成果は, 抽出性の弱いバージョンを満足し, さらに, 再現性は得られなかった。 その結果,qmaの量子知識システムの先行研究よりも優れたパラメータが得られた。

We study the notion of zero-knowledge secure against quantum polynomial-time verifiers (referred to as quantum zero-knowledge) in the concurrent composition setting. Despite being extensively studied in the classical setting, concurrent composition in the quantum setting has hardly been studied. We initiate a formal study of concurrent quantum zero-knowledge. Our results are as follows: -Bounded Concurrent QZK for NP and QMA: Assuming post-quantum one-way functions, there exists a quantum zero-knowledge proof system for NP in the bounded concurrent setting. In this setting, we fix a priori the number of verifiers that can simultaneously interact with the prover. Under the same assumption, we also show that there exists a quantum zero-knowledge proof system for QMA in the bounded concurrency setting. -Quantum Proofs of Knowledge: Assuming quantum hardness of learning with errors (QLWE), there exists a bounded concurrent zero-knowledge proof system for NP satisfying quantum proof of knowledge property. Our extraction mechanism simultaneously allows for extraction probability to be negligibly close to acceptance probability (extractability) and also ensures that the prover's state after extraction is statistically close to the prover's state after interacting with the verifier (simulatability). The seminal work of [Unruh EUROCRYPT'12], and all its followups, satisfied a weaker version of extractability property and moreover, did not achieve simulatability. Our result yields a proof of quantum knowledge system for QMA with better parameters than prior works.
翻訳日:2023-04-22 00:46:31 公開日:2021-07-18
# ハイゼンベルクの不確実性原理は時間次元に当てはまるか。

Does the Heisenberg uncertainty principle apply along the time dimension? ( http://arxiv.org/abs/2101.10512v3 )

ライセンス: Link先を確認
John Ashmead(参考訳) ハイゼンベルクの不確実性原理(hup)は、3つの空間次元に沿って適用されるのと同じ方法で時間次元に沿って適用されるか? 相対性理論はそうすべきであると言っている。 アト秒スケールでの最近の測定の進歩により、この質問を実験的に決定することができる。 最も直接的なテストは、量子粒子の到着時刻を測定することであり、もしHUPが時間に適用されるなら、到着時刻の分散は測定可能なほど増加する。 標準の場合、適切な時間軸の指標を開発し、時間に不確実性がある場合を含めるように拡張し、比較します。 予想通り、HUPが時間軸に沿って適用すれば、到着時間における不確実性は増大する。 結果はローレンツ共分散によって完全に制約され、従って一意に定義される。 ですから、実験的な質問があります。 任意の定分解能は、量子力学と相対性理論における時間の役割に関して重要な意味を持つ。 正の結果はまた、量子通信、アト秒物理学(タンパク質の折り畳みなど)、量子コンピューティングの分野で重要な実用的応用をもたらす。

Does the Heisenberg uncertainty principle (HUP) apply along the time dimension in the same way it applies along the three space dimensions? Relativity says it should; current practice says no. With recent advances in measurement at the attosecond scale it is now possible to decide this question experimentally. The most direct test is to measure the time-of-arrival of a quantum particle: if the HUP applies in time, then the dispersion in the time-of-arrival will be measurably increased. We develop an appropriate metric of time-of-arrival in the standard case; extend this to include the case where there is uncertainty in time; then compare. There is -- as expected -- increased uncertainty in the time-of-arrival if the HUP applies along the time axis. The results are fully constrained by Lorentz covariance, therefore uniquely defined, therefore falsifiable. So we have an experimental question on our hands. Any definite resolution would have significant implications with respect to the role of time in quantum mechanics and relativity. A positive result would also have significant practical applications in the areas of quantum communication, attosecond physics (e.g. protein folding), and quantum computing.
翻訳日:2023-04-13 22:33:14 公開日:2021-07-18
# 修正実空間-ファフィアン法によるマヨラナ零モードのFateと1次元準周期格子におけるモビリティエッジ

Fate of Majorana zero modes by a modified real-space-Pfaffian method and mobility edges in a one-dimensional quasiperiodic lattice ( http://arxiv.org/abs/2102.00737v2 )

ライセンス: Link先を確認
Shujie Cheng, Yufei Zhu, Gao Xianlong and Tong Liu(参考訳) 準周期オンサイト電位を持つ1次元p$-wave超伝導体の研究を目標とする。 位相不変量を計算するために修正実空間パフィアン法が適用される。 マヨラナ・ゼロモードは非自明なトポロジーによって保護され、位相相転移はエネルギーギャップの開閉と再開を伴うことが確認される。 さらに,拡張された$p$-wave ペアリングと局所化された準不等式との競合から生じる移動性エッジが存在することを数値的に確認する。 超伝導ペアリングパラメータとオンサイト電位強度がモビリティエッジに与える影響を定性的に解析した。 一般に、我々の研究は準周期ポテンシャルを持つp$-wave超伝導モデルの研究を豊かにしている。

We aim to study a one-dimensional $p$-wave superconductor with quasiperiodic on-site potentials. A modified real-space-Pfaffian method is applied to calculate the topological invariants. We confirm that the Majorana zero mode is protected by the nontrivial topology the topological phase transition is accompanied by the energy gap closing and reopening. In addition, we numerically find that there are mobility edges which originate from the competition between the extended $p$-wave pairing and the localized quasi-disorder. We qualitatively analyze the influence of superconducting pairing parameters and on-site potential strength on the mobility edge. In general, our work enriches the research on the $p$-wave superconducting models with quasiperiodic potentials.
翻訳日:2023-04-13 03:04:57 公開日:2021-07-18
# コヒーレンスを介するコヒーレンス駆動単一量子ドットに結合したキャビティフィールドのスクイーズ

Coherence-mediated squeezing of cavity field coupled to a coherently driven single quantum dot ( http://arxiv.org/abs/2107.03849v2 )

ライセンス: Link先を確認
Parvendra Kumar and Agnikumar G. Vedeshwar(参考訳) コヒーレンスは、量子論から量子情報まで、多くの量子物理学の応用において重要な資源であり続けている。 ここでは、コヒーレント駆動単一量子ドットに結合したキャビティ場のスクイーズにおける最大コヒーレンス結果の理論的研究を報告する。 我々は最近開発されたポーラロンマスター方程式理論を用いて,エクシトン-フォノン結合がスクイーズに与える影響を正確に把握した。

Coherence has been remaining a key resource for numerous applications of quantum physics ranging from quantum metrology to quantum information. Here, we report a theoretical work on how maximally created coherence results in the squeezing of cavity field coupled to a coherently driven single quantum dot. We employ a recently developed polaron master equation theory for accurately incorporating the impact of exciton-phonon coupling on squeezing.
翻訳日:2023-03-23 02:10:45 公開日:2021-07-18
# 適応プライオリティに基づくIoTサービスの競合解決

Adaptive Priority-based Conflict Resolution of IoT Services ( http://arxiv.org/abs/2107.08348v1 )

ライセンス: Link先を確認
Dipankar Chaki and Athman Bouguettaya(参考訳) マルチレジデントスマートホームにおけるIoTサービスのための新しいコンフリクト解決フレームワークを提案する。 住民の状況要因(年齢、病気、障害など)を考慮した適応優先度モデルを開発した。 提案する優先度モデルは,解析階層プロセスの概念を用いて設計する。 提案手法の有効性を示すために,実世界のデータセットに関する一連の実験を行った。

We propose a novel conflict resolution framework for IoT services in multi-resident smart homes. An adaptive priority model is developed considering the residents' contextual factors (e.g., age, illness, impairment). The proposed priority model is designed using the concept of the analytic hierarchy process. A set of experiments on real-world datasets are conducted to show the efficiency of the proposed approach.
翻訳日:2023-03-21 23:23:54 公開日:2021-07-18
# 分子振動クエンチの量子的性質:水-分子水素衝突

Quantum nature of molecular vibrational quenching: Water - molecular hydrogen collisions ( http://arxiv.org/abs/2107.08044v1 )

ライセンス: Link先を確認
Laurent Wiesenfeld(参考訳) 分子内エネルギーの分子衝突による運動エネルギーへの変換速度は、衝突線の形状と気体の輸送特性を計算することができる。 分光観測を外気圏を含む暖かい天体ガスの物理的性質に結びつけるためには、ro振動速度の知識が必要である。 この文脈において最重要となるシステムでは、H2O による振動曲げモードのクエンチングは、多くの量子レベルと大きな振動エネルギー移動にもかかわらず、回転エネルギーと運動エネルギーとの振動の交換は量子過程のままであることを示す。 投射体の量子化ローターの励起は、最も効果的に回転振動する水のクエンチ経路である。 そのために、完全な量子第一原理計算、ポテンシャルと力学を使い、全ての段階で、完全に結合されたチャネル形式で収束する。 直交H2 による H2O の第1回曲げモードの焼成速度は 500K までであり、完全に収束した連結チャネル形式である。

Rates of conversions of molecular internal energy to and from kinetic energy by means of molecular collision allows to compute collisional line shapes and transport properties of gases. Knowledge of ro-vibrational quenching rates is necessary to connect spectral observations to physical properties of warm astrophysical gasses, including exo-atmospheres. For a system of paramount importance in this context, the vibrational bending mode quenching of H2O by H2, we show here that exchange of vibrational to rotational and kinetic energy remains a quantum process, despite the large numbers of quantum levels involved and the large vibrational energy transfer. The excitation of the quantized rotor of the projectile is by far the most effective ro-vibrational quenching path of water. To do so, we use a fully quantum first principle computation, potential and dynamics, converging it at all stages, in a full coupled channel formalisms. We present here rates for the quenching of the first bendingmode of ortho-H2O by ortho H2, up to 500K, in a fully converged coupled channels formalism.
翻訳日:2023-03-21 23:23:48 公開日:2021-07-18
# 量子系における非正規ハミルトン力学とその量子コンピュータ上の実現

Non-normal Hamiltonian dynamics in quantum systems and its realization on quantum computers ( http://arxiv.org/abs/2107.08445v1 )

ライセンス: Link先を確認
Nobuyuki Okuma and Yuya O. Nakagawa(参考訳) 非正規行列の固有スペクトルは、エルミート共役と可換でないが、過去数年間に広く研究されてきた非エルミート物理学の中心的な問題である。 しかし、しばしば見過ごされている非正規行列の別の特徴:擬スペクトラム(英語版)または小さな摂動の下でのスペクトルの集合である。 本稿では,開量子系におけるlindbladマスター方程式の連続量子軌道として実現される非正規行列(ハミルトニアン)によって駆動される動力学の研究を行い,非正規ハミルトニアンの非標準擬スペクトルの性質をダイナミクスが明らかにできることを指摘する。 特に、非正規化量子状態のノルムの過渡的ダイナミクスは非正規化ハミルトニアンと発展し、これは量子ジャンプなしで軌道を観測する確率に関係している。 擬似スペクトル挙動によるノルムの減衰率の過渡的抑制を定式化し、時間-エネルギーの不確かさ関係の非エルミート的/非正規な類似性を導出する。 また、量子回路上での非一元演算を実現する手法と、変分量子シミュレーションと呼ばれる量子古典ハイブリッドアルゴリズムを利用する方法の2つを実験的に実現し、量子コンピュータにおける理論的な発見を観察する手法についても検討する。 IBM Quantumが提供するクラウドベースの量子コンピュータを用いた実演では、超過時間におけるノルムの凍結力学が示され、量子ゼノ効果の非正規アナログと見なすことができる。

The eigenspectrum of a non-normal matrix, which does not commute with its Hermitian conjugate, is a central issue of non-Hermitian physics that has been extensively studied in the past few years. There is, however, another characteristic of a non-normal matrix that has often been overlooked: the pseudospectrum, or the set of spectra under small perturbations. In this paper, we study the dynamics driven by the non-normal matrix (Hamiltonian) realized as a continuous quantum trajectory of the Lindblad master equation in open quantum systems and point out that the dynamics can reveal the nature of unconventional pseudospectrum of the non-normal Hamiltonian. In particular, we focus on the transient dynamics of the norm of an unnormalized quantum state evolved with the non-normal Hamiltonian, which is related to the probability for observing the trajectory with no quantum jump. We formulate the transient suppression of the decay rate of the norm due to the pseudospectral behavior and derive a non-Hermitian/non-normal analog of the time-energy uncertainty relation. We also consider two methods to experimentally realize the non-normal dynamics and observe our theoretical findings on quantum computers: one uses a technique to realize non-unitary operations on quantum circuits and the other leverages a quantum-classical hybrid algorithm called variational quantum simulation. Our demonstrations using cloud-based quantum computers provided by IBM Quantum exhibit the frozen dynamics of the norm in transient time, which can be regarded as a non-normal analog of the quantum Zeno effect.
翻訳日:2023-03-21 23:19:44 公開日:2021-07-18
# 化学反応の量子論理的検出

Quantum-Logic Detection of Chemical Reactions ( http://arxiv.org/abs/2107.08441v1 )

ライセンス: Link先を確認
Or Katz, Meirav Pinkas, Nitzan Akerman, Roee Ozeri(参考訳) 量子状態における一対の原子による化学反応の研究は、量子化学における基礎石を構成する。 しかし、単一の化学反応の観察と制御を可能にする実証された技術は少数である。 本稿では,超低温中性原子と低温イオンとの化学反応を量子論理を用いて研究する新しい手法を提案する。 我々は超低温ルビジウム原子と単イオン化ストロンチウムの同位体との反応における超微細エネルギーの放出を実験的に研究した。 本研究では, 反応結果を検出し, 化学イオンの反応速度を, 量子論理による論理イオンの運動状態を読み取ることによって測定する。 我々の研究は、レーザーの直接冷却と状態検出が利用できない全ての原子イオンと分子イオンのための既存の実験ツールを用いて、化学反応を研究するためのツールボックスを広げている。

Studies of chemical reactions by a single pair of atoms in a well defined quantum state constitute a corner stone in quantum chemistry. Yet, the number of demonstrated techniques which enable observation and control of a single chemical reaction is handful. Here we propose and demonstrate a new technique to study chemical reactions between an ultracold neutral atom and a cold ion using quantum logic. We experimentally study the release of hyperfine energy in a reaction between an ultracold rubidium atom and isotopes of singly ionized strontium for which we do not have experimental control. We detect the reaction outcome and measure the reaction rate of the chemistry ion by reading the motional state of a logic ion via quantum logic, in a single shot. Our work opens new avenues and extends the toolbox of studying chemical reactions, with existing experimental tools, for all atomic and molecular ions in which direct laser cooling and state detection are unavailable.
翻訳日:2023-03-21 23:18:44 公開日:2021-07-18
# 量子論理冷却と読み出しに基づく(反)陽子磁気モーメントを用いたcpt試験

CPT test with (anti-)proton magnetic moments based on quantum logic cooling and readout ( http://arxiv.org/abs/2107.08438v1 )

ライセンス: Link先を確認
M. Niemann, A.-G. Paschke, T. Dubielzig, S. Ulmer, C. Ospelkaus(参考訳) DehmeltとVanDyckの有名な1987年の電子と陽電子のg因子の測定は、レプトンセクターで最も正確なg因子の比較であり、CPT違反の可能性の敏感な試験である。 陽子と反陽子との相補的なg因子比較は、バリオンセクターでCPT対称性をテストするのが好ましい。 dehmeltの連続的stern-gerlach効果とdouble penning-trap法に基づく最近の実験は急速に進展している。 しかし、極低温技術を用いた地表面の冷却は重バリオンでは事実上不可能であり、連続的なStern-Gerlach効果はmが粒子の質量であり、その磁気モーメントが$\mu$/mとなるため、実行は非常に困難である。 どちらの困難も最終的に精度を制限します。 我々は,ハインツェンやワインランド,ワインランドらによって提案された量子論理技術に基づいて,単一(反)プロトンとのg因子比較の代替手法を実現するための実験的展望について論じる。 基本的な考え方は、良く制御された原子イオンと相互作用することで、単一の(反)プロトンを冷やし、制御し、測定することである。

Dehmelt and VanDyck's famous 1987 measurement of the electron and positron g-factor is still the most precise g-factor comparison in the lepton sector, and a sensitive test of possible CPT violation. A complementary g-factor comparison between the proton and the antiproton is highly desirable to test CPT symmetry in the baryon sector. Current experiments, based on Dehmelt's continuous Stern-Gerlach effect and the double Penning-trap technique, are making rapid progress. They are, however, extremely difficult to carry out because ground state cooling using cryogenic techniques is virtually impossible for heavy baryons, and because the continous Stern-Gerlach effect scales as $\mu$/m, where m is the mass of the particle and $\mu$ its magnetic moment. Both difficulties will ultimately limit the accuracy. We discuss experimental prospects of realizing an alternative approach to a g-factor comparison with single (anti)protons, based on quantum logic techniques proposed by Heinzen and Wineland and by Wineland et al. The basic idea is to cool, control and measure single (anti-)protons through interaction with a well-controlled atomic ion.
翻訳日:2023-03-21 23:18:30 公開日:2021-07-18
# 共振レーザー冷却と単一(アンチ)プロトンの検出に向けて

Towards Sympathetic Laser Cooling and Detection of Single (Anti-)Proton ( http://arxiv.org/abs/2107.08435v1 )

ライセンス: Link先を確認
T. Meiners, M. Niemann, A.-G. Paschke, M. Borchert, A. Idel, J. Mielke, K. Voges, A. Bautista-Salvador, R. Lehnert, S. Ulmer, C. Ospelkaus(参考訳) 単一(反)プロトンによる基本cpt対称性の試験に向けた最近の実験は急速に進んでいるが、粒子の非零温度とスピン状態検出の難しさによって損傷されている。 レーザーに基づく量子論理に基づく単一(反)プロトン冷却と状態検出のアプローチについて述べる。

Current experimental efforts to test the fundamental CPT symmetry with single (anti-)protons are progressing at a rapid pace but are hurt by the nonzero temperature of particles and the difficulty of spin state detection. We describe a laser-based and quantum logic inspired approach to single (anti-)proton cooling and state detection.
翻訳日:2023-03-21 23:18:06 公開日:2021-07-18
# 交感神経冷却(アンチ)プロトンを用いた精密実験用低温ペニングトラップ装置

Cryogenic Penning-Trap Apparatus for Precision Experiments with Sympathetically Cooled (anti)protons ( http://arxiv.org/abs/2107.08433v1 )

ライセンス: Link先を確認
M. Niemann, T. Meiners, J. Mielke, N. Pulido, J. Schaper, M.J. Borchert, J.M. Cornejo, A.-G. Paschke, G. Zarantonello, H. Hahn, T. Lang, C. Manzoni, M. Marangoni, G. Cerullo, U. Morgner, J.-A. Fenske, A. Bautista-Salvador, R. Lehnert, S. Ulmer, C. Ospelkaus(参考訳) 単一(反)プロトンを用いた現在の精密実験は、CPT対称性の進行を高速で試験するが、亜熱エネルギーに粒子を冷却する必要があるため複雑である。 単一(アンチ)プロトンとレーザー冷却原子イオンを結合して交感神経冷却と量子論理分光法を行うために設計された^9$be$^+$イオンの低温ペニングトラップ構成について述べる。 雲のトラップとレーザー冷却と1つの$^9$Be$^+$イオンについて報告する。 単一(アンチ)プロトンをレーザー冷却した^9$be$^+$イオンとmsタイムスケールのサブmk温度との結合を可能にするマイクロファブリケーショントラップの展望について検討する。

Current precision experiments with single (anti)protons to test CPT symmetry progress at a rapid pace, but are complicated by the need to cool particles to sub-thermal energies. We describe a cryogenic Penning-trap setup for $^9$Be$^+$ ions designed to allow coupling of single (anti)protons to laser-cooled atomic ions for sympathetic cooling and quantum logic spectroscopy. We report on trapping and laser cooling of clouds and single $^9$Be$^+$ ions. We discuss prospects for a microfabricated trap to allow coupling of single (anti)protons to laser-cooled $^9$Be$^+$ ions for sympathetic laser cooling to sub-mK temperatures on ms time scales.
翻訳日:2023-03-21 23:18:00 公開日:2021-07-18
# 種選択調和トラップにおけるボースポーラロンの呼吸動態

Breathing dynamics of the Bose polaron in a species-selective harmonic trap ( http://arxiv.org/abs/2107.08427v1 )

ライセンス: Link先を確認
Maxim Pyzh and Peter Schmelcher(参考訳) 1次元の種選択型ハーモニックトラップにおける数体のボースポラロン配置の呼吸ダイナミクスに関する広範囲な数値的研究を行った。 動力学は不純物トラップのクエンチによって引き起こされる。 背景の多数原子の励起は、多数不純物相互作用によって媒介される。 呼吸スペクトルは, 多数粒子数, 多数成分相互作用強度, トラップ比の様々な値に対して得られる。 さらに、粒子バランスの小さいBose-Bose混合物の呼吸スペクトルと比較される。 特に、同じポストクエンチトラップの場合、使用済みプロトコルは、種対称トラップクエンチとは対照的に、質量中心の異なる状態を結合することができる。 参加する固有状態のうち、奇数の質量中心パリティ、さらには大域的パリティを持つものを特定する。 この状態によって引き起こされる呼吸周波数は結合パラメータの単調に減少する関数である。 重要なのは、観察可能であるためには、種間の絡み合いを考慮する必要があることである。 本研究では,多層多層マルチコンフィグレーション時間依存型ハーツリー法を用いて得られた数値的結果と,種平均場アンサッツ法との比較を行った。 エンタングルメント感受性呼吸周波数は、質量中心が分離できない不平等なポストクエンチトラップにおいても持続する。 最後に, 異常大域的パリティ状態の初期化により, 呼吸ダイナミクスに対するパリティ対称性の影響を解析した。 我々は基底状態の呼吸力学に顕著な類似性を証明している。

We perform an extensive numerical study on the breathing dynamics of a few-body Bose polaron setup in a one-dimensional species-selective harmonic trap. The dynamics is triggered by a quench of the impurity trap. The excitation of the background majority atoms is mediated via the majority-impurity interaction. The breathing spectrum is obtained for different numbers of majority particles, several values of the majority-component interaction strengths and trap ratios. It is further compared to the breathing spectrum of a particle-balanced few-body Bose-Bose mixture. In particular, for equal post-quench traps the employed protocol allows to couple states of different center-of-mass parity in contrast to species-symmetric trap quenches. Among the participating eigenstates we identify one having odd center-of-mass parity and even global parity. The breathing frequency induced by this state is a monotonically decreasing function of the coupling parameter. Importantly, in order to be observable it requires the entanglement between the species to be taken into account. We demonstrate this by comparing the numerically exact results obtained by means of the Multi-Layer Multi-Configuration Time-Dependent Hartree Method for Mixtures to the ones of a species mean-field ansatz. The entanglement-sensitive breathing frequency persists also for unequal post-quench traps where the center-of-mass cannot be decoupled. Finally, we analyze the impact of parity symmetry on the breathing dynamics by initializing a state of odd global parity. We evidence a striking resemblance to the ground state breathing dynamics.
翻訳日:2023-03-21 23:17:50 公開日:2021-07-18
# 保険ドメインにおける説明可能なAIのチェックリスト

A Checklist for Explainable AI in the Insurance Domain ( http://arxiv.org/abs/2107.14039v1 )

ライセンス: Link先を確認
Olivier Koster and Ruud Kosman and Joost Visser(参考訳) 人工知能(AI)は、多くのタスクを達成するための強力なツールです。 このエキサイティングなテクノロジー分野は、保険分野を含む様々な分野に広く採用されている。 その力はいくつかの合併症を引き起こす。 その1つは、専門家や非専門家のためのアルゴリズムの透明性と説明性の欠如である。 これにより、アルゴリズムの有用性と精度の両方に疑問が呈され、データやモデル内の潜在的なバイアスを評価することの難しさが加わった。 本稿では、オランダの保険業界におけるAIアルゴリズムの利用状況と、説明可能な人工知能(XAI)技術の導入について検討する。 この知識を生かして、私たちは、XAIに関する品質基準の保証と、組織間の協力のためのしっかりとした基盤を保証するための保険会社のチェックリストを設計します。 このチェックリストは、オランダの保険におけるデジタル協力と革新のための標準化機関であるSIVIの既存のチェックリストを拡張している。

Artificial intelligence (AI) is a powerful tool to accomplish a great many tasks. This exciting branch of technology is being adopted increasingly across varying sectors, including the insurance domain. With that power arise several complications. One of which is a lack of transparency and explainability of an algorithm for experts and non-experts alike. This brings into question both the usefulness as well as the accuracy of the algorithm, coupled with an added difficulty to assess potential biases within the data or the model. In this paper, we investigate the current usage of AI algorithms in the Dutch insurance industry and the adoption of explainable artificial intelligence (XAI) techniques. Armed with this knowledge we design a checklist for insurance companies that should help assure quality standards regarding XAI and a solid foundation for cooperation between organisations. This checklist extends an existing checklist of SIVI, the standardisation institute for digital cooperation and innovation in Dutch insurance.
翻訳日:2023-03-21 23:11:03 公開日:2021-07-18
# 付加的絡み合い測度の漸近連続性

Asymptotic continuity of additive entanglement measures ( http://arxiv.org/abs/2107.08537v1 )

ライセンス: Link先を確認
P\'eter Vrana(参考訳) 局所操作による絡み合った状態と古典的通信と量子通信のサブリニア量の間の変換速度を漸近的に研究した。 付加的漸近連続的絡み合い測度は漸近的に消滅する誤差で達成可能な率の上界を与えることが知られている。 純粋状態間の変換に対して、任意の状態間の最適速度は、完全加法的漸近的連続絡み合い測度によって提供される上限の無限大として特徴づけられることを示す。

We study rates asymptotic of transformations between entangled states by local operations and classical communication and a sublinear amount of quantum communication. It is known that additive asymptotically continuous entanglement measures provide upper bounds on the rates that are achievable with asymptotically vanishing error. We show that for transformations between pure states, the optimal rate between any pair of states can be characterized as the infimum of such upper bounds provided by fully additive asymptotically continuous entanglement measures.
翻訳日:2023-03-21 23:10:09 公開日:2021-07-18
# ホッピング障害を有する1-D鎖に対する普遍ダイソン特異点の超越

Beyond the universal Dyson singularity for 1-D chains with hopping disorder ( http://arxiv.org/abs/2107.08518v1 )

ライセンス: Link先を確認
Akshay Krishna and R. N. Bhatt(参考訳) ホッピング項がランダムに選択される一次元の障害を持つ単純な非相互作用近傍の密結合モデルについて検討した。 このモデルは、状態密度と局在長の両方において、バンド中心でよく知られた特異性を示す。 ホッピング項の確率分布が良好であれば、特異点は普遍的な振る舞いを示し、その関数形式は古典調和振動子の連鎖の文脈でフリーマン・ダイソンによって初めて発見された。 ここでは、ホッピング要素が発散確率分布から選択された場合、この普遍形式を可変的に破ることができることを示す。 また, この量子問題における普遍性の崩壊と, 古典的領域における類似のシナリオ, ランダムウォークと異常指数による拡散との関係を示す。

We study a simple non-interacting nearest neighbor tight-binding model in one dimension with disorder, where the hopping terms are chosen randomly. This model exhibits a well-known singularity at the band center both in the density of states and localization length. If the probability distribution of the hopping terms is well-behaved, then the singularities exhibit universal behavior, the functional form of which was first discovered by Freeman Dyson in the context of a chain of classical harmonic oscillators. We show here that this universal form can be violated in a tunable manner if the hopping elements are chosen from a divergent probability distribution. We also demonstrate a connection between a breakdown of universality in this quantum problem and an analogous scenario in the classical domain - that of random walks and diffusion with anomalous exponents.
翻訳日:2023-03-21 23:10:00 公開日:2021-07-18
# ハニカム格子の分散擬ランダウ準位に対するコヒーレント状態

Coherent states for dispersive pseudo-Landau-levels in strained honeycomb lattices ( http://arxiv.org/abs/2107.08487v1 )

ライセンス: Link先を確認
Erik D\'iaz-Bautista and Maurice Oliva-Leyva(参考訳) グラフェン中のディラックフェルミオンは、均質な擬磁性場とひずみによって引き起こされる位置依存フェルミ速度による分散擬ランダウ準位を実験できる。 本稿では,このような物理的文脈下での粒子の(半古典的)ダイナミクスをコヒーレント状態のアプローチから研究する。 この目的のためにランダウ型ゲージを用いてペレロモフコヒーレントな状態を構築し、システムの基本的な状態に対する非単位変位作用素 $D(\alpha)$ の作用によって構成する。 確率密度と一般化された不確実性原理の時間発展とコヒーレント状態に対するウィグナー関数を解析する。 x$-momentum依存性が位相空間の運動周期性とウィグナー関数形状にどのように影響するかを示す。

Dirac fermions in graphene may experiment dispersive pseudo-Landau levels due to a homogeneous pseudomagnetic field and a position-dependent Fermi velocity induced by strain. In this paper, we study the (semi-classical) dynamics of these particles under such a physical context from an approach of coherent states. For this purpose we use a Landau-like gauge to built Perelomov coherent states by the action of a non-unitary displacement operator $D(\alpha)$ on the fundamental state of the system. We analyze the time evolution of the probability density and the generalized uncertainty principle as well as the Wigner function for the coherent states. Our results show how $x$-momentum dependency affects the motion periodicity and the Wigner function shape in phase space.
翻訳日:2023-03-21 23:09:29 公開日:2021-07-18
# 交差ビーム分子動力学における量子絡み合いとスピン軌道結合の統計的相関

Statistical correlation between quantum entanglement and spin-orbit coupling in crossed beam molecular dynamics ( http://arxiv.org/abs/2107.08483v1 )

ライセンス: Link先を確認
Junxu Li, Manas Sajjan, Sumit Suresh Kale, and Sabre Kais(参考訳) 干渉のような非古典的特徴はすでに化学反応の出力を制御するために利用されている。 しかし、等しく謎めいた多体量子相関である量子絡み合いは強力な資源としても利用できるが、明示的な注意を引いている。 本稿では,F+HD反応を用いたクロスビーム分子動力学装置による実験手法を提案し,反応対内の絡み合いが生成物分布の角形状に与える影響について検討する。 aforesaid反応は、近年、スピンと軌道の自由度が結合していることから、生成物(hf)分布の異常なホースホウ形状パターンとして注目されている。 本研究では, 絡み合いとスピン軌道相互作用が同時に検出できる状況下で, 絡み合いがスピン軌道特性を包含する必要性に与える影響について検討する実験手法を提案する。 さらに、様々な可能性に対応する特定のパターンを強調する達成可能な結果を数値的にシミュレートする。 拡張された場合の研究は、量子情報のレンズからもアナログ反応の予期せぬ力学的な洞察を与えることができる。

Non-classical features like interference is already being harnessed to control the output of chemical reactions. However quantum entanglement which is an equally enigmatic many-body quantum correlation can also be used as a powerful resource yet have eluded explicit attention. In this report, we propose an experimental scheme under the crossed beam molecular dynamical setup, with the F+HD reaction, aiming to study the possible influence of entanglement within reactant pairs on the angular features of the product distribution. The aforesaid reaction has garnered interest recently as an unusual horseshoe shape pattern in the product (HF) distribution was observed, which has been attributed to the coupling of spin and orbital degrees of freedom. We propose an experimental scheme aiming to study the possible influence of entanglement on the necessity for the inclusion of such spin-orbit characteristics, under circumstances wherein the existence of entanglement and spin-orbit interaction is simultaneously detectable. We further numerically simulate the attainable results highlighting specific patterns corresponding to various possibilities. Such studies if extended can provide unforeseen mechanistic insight in analogous reactions too from the lens of quantum information.
翻訳日:2023-03-21 23:09:18 公開日:2021-07-18
# ナノワイヤクーパーペアトランジスタにおける超電流パリティメータ

Supercurrent parity-meter in a nanowire Cooper-pair transistor ( http://arxiv.org/abs/2107.08466v1 )

ライセンス: Link先を確認
Ji-Yin Wang, Constantin Schrade, Vukan Levajac, David van Driel, Kongyi Li, Sasa Gazibegovic, Ghada Badawy, Roy L.M. Op het Veld, Joon Sue Lee, Mihir Pendharkar, Connor P. Dempsey, Chris J. Palmstr{\o}m, Erik P.A.M. Bakkers, Liang Fu, Leo P. Kouwenhoven, and Jie Shen(参考訳) insb-alハイブリッドナノワイヤ内の超伝導島を囲む2つのジョセフソン弱リンクにより実現されるクーパーペアトランジスタについて検討した。 ナノワイヤが磁場を受けると、超伝導島で孤立したサブギャップレベルが発生し、クーロンの遮断によりクーパー対のコヒーレントな共振によって超電流を中間化する。 このような共トンネル現象によって生じる超電流は、低磁場から中程度の磁場では、超伝導島で偶数と奇な電荷の基底状態とを区別する位相オフセットを示す。 特に、この位相オフセットは、サブギャップ状態がゼロエネルギーに近づくと持続し、理論的考察に基づいて超電流干渉法によるサブギャップ状態のパリティ測定を可能にする。 このような超電流パリティ測定は、新しい一連の実験において、超伝導アイランドの孤立したサブギャップレベルに保存された量子情報を操作し、保護するための代替アプローチを提供する可能性がある。

We study a Cooper-pair transistor realized by two Josephson weak links that enclose a superconducting island in an InSb-Al hybrid nanowire. When the nanowire is subject to a magnetic field, isolated subgap levels arise in the superconducting island and, due to the Coulomb blockade,mediate a supercurrent by coherent co-tunneling of Cooper pairs. We show that the supercurrent resulting from such co-tunneling events exhibits, for low to moderate magnetic fields, a phase offset that discriminates even and odd charge ground states on the superconducting island. Notably,this phase offset persists when a subgap state approaches zero energy and, based on theoretical considerations, permits parity measurements of subgap states by supercurrent interferometry. Such supercurrent parity measurements could, in a new series of experiments, provide an alternative approach for manipulating and protecting quantum information stored in the isolated subgap levels of superconducting islands.
翻訳日:2023-03-21 23:09:02 公開日:2021-07-18
# 深層学習における内部不確かさ推定と組込みの落とし穴

Pitfalls of In-Domain Uncertainty Estimation and Ensembling in Deep Learning ( http://arxiv.org/abs/2002.06470v4 )

ライセンス: Link先を確認
Arsenii Ashukha, Alexander Lyzhov, Dmitry Molchanov, Dmitry Vetrov(参考訳) 不確実性推定とアンサンブル手法は相反する。 不確実性推定は、センシング性能を評価するための主要なベンチマークの1つである。 同時に、ディープラーニングアンサンブルは、不確実性推定において最先端の結果を提供する。 本研究では,画像分類における領域内不確実性に着目した。 その定量化の基準を探り、既存のメトリクスの落とし穴を指摘します。 これらの落とし穴を回避し,様々なセンシング手法を幅広く研究する。 そこで本研究では,ディープアンサンブル等価スコア (DEE) を導入し,多くの高度なアンサンブル技術が,テスト性能の点で独立に訓練された少数のネットワークのアンサンブルと等価であることを示す。

Uncertainty estimation and ensembling methods go hand-in-hand. Uncertainty estimation is one of the main benchmarks for assessment of ensembling performance. At the same time, deep learning ensembles have provided state-of-the-art results in uncertainty estimation. In this work, we focus on in-domain uncertainty for image classification. We explore the standards for its quantification and point out pitfalls of existing metrics. Avoiding these pitfalls, we perform a broad study of different ensembling techniques. To provide more insight in this study, we introduce the deep ensemble equivalent score (DEE) and show that many sophisticated ensembling techniques are equivalent to an ensemble of only few independently trained networks in terms of test performance.
翻訳日:2022-12-31 23:02:52 公開日:2021-07-18
# 野生生物拡散ビデオの時空間的イベントセグメンテーションと局所化

Spatio-Temporal Event Segmentation and Localization for Wildlife Extended Videos ( http://arxiv.org/abs/2005.02463v4 )

ライセンス: Link先を確認
Ramy Mounir, Roman Gula, J\"orn Theuerkauf, Sudeep Sarkar(参考訳) オフラインのトレーニングスキームを使用して、手動のアノテートラベルや自己監督型エポックベースのトレーニングを通じて、完全なまたは弱いスーパービジョンを提供することによって、イベントセグメンテーションの問題に取り組んでいる。 ほとんどの作品は、少なくとも10分の動画を考慮に入れています。 本稿では,オブジェクトの安定表現を時間とともに構築することで,時間的イベントセグメンテーションが可能な自己教師付き知覚予測フレームワークを提案する。 アプローチは極めてシンプルですが、非常に効果的です。 私たちは、標準的なディープラーニングバックボーンで計算されるハイレベルな機能の予測に依存しています。 予測には、アテンション機構を付加したLSTMを使用し、予測誤差を用いて自己教師付きで訓練する。 自己学習型アテンションマップは、各フレーム内のイベント関連オブジェクトを効果的にローカライズし、追跡する。 提案手法はラベルを必要としない。 動画を1回のパスで通すだけで、個別のトレーニングセットは必要ない。 非常に長いビデオのデータセットが欠如していることを踏まえ、我々は必要な許可を得て収集した野生生物モニタリングデータの10日間 (254時間) のビデオを実演した。 このアプローチは、昼夜条件、雨、鋭い影、風などの様々な環境条件に対して堅牢であることがわかった。 事象の時間的位置決め作業では,フレームレベルのセグメンテーションに対して80%のリコール率で20%の偽陽性率を示した。 活動レベルでは,50分毎に1回の偽活動検出で80%の活動リコール率を示した。 この種の最初のデータセットと、研究コミュニティが利用できるコードを作成します。

Using offline training schemes, researchers have tackled the event segmentation problem by providing full or weak-supervision through manually annotated labels or self-supervised epoch-based training. Most works consider videos that are at most 10's of minutes long. We present a self-supervised perceptual prediction framework capable of temporal event segmentation by building stable representations of objects over time and demonstrate it on long videos, spanning several days. The approach is deceptively simple but quite effective. We rely on predictions of high-level features computed by a standard deep learning backbone. For prediction, we use an LSTM, augmented with an attention mechanism, trained in a self-supervised manner using the prediction error. The self-learned attention maps effectively localize and track the event-related objects in each frame. The proposed approach does not require labels. It requires only a single pass through the video, with no separate training set. Given the lack of datasets of very long videos, we demonstrate our method on video from 10 days (254 hours) of continuous wildlife monitoring data that we had collected with required permissions. We find that the approach is robust to various environmental conditions such as day/night conditions, rain, sharp shadows, and windy conditions. For the task of temporally locating events, we had an 80% recall rate at 20% false-positive rate for frame-level segmentation. At the activity level, we had an 80% activity recall rate for one false activity detection every 50 minutes. We will make the dataset, which is the first of its kind, and the code available to the research community.
翻訳日:2022-12-06 14:00:23 公開日:2021-07-18
# ムンフォード・シャー色および多相画像分割における異方性および等方性全変動の重み付き差分

A Weighted Difference of Anisotropic and Isotropic Total Variation for Relaxed Mumford-Shah Color and Multiphase Image Segmentation ( http://arxiv.org/abs/2005.04401v6 )

ライセンス: Link先を確認
Kevin Bui, Fredrick Park, Yifei Lou, Jack Xin(参考訳) 本稿では,画像の分割境界を正則化するために,異方性および等方性全変動(aitv)の重み付き差分を組み込んだ画像分割モデルを提案する。 特に,Chan-Veseセグメンテーションモデルとファジィ領域競合モデルにおける全変分正規化をAITVによって置き換える。 AITVの非凸性に対処するため、線形探索を用いた原始二重ハイブリッド勾配法によりサブプロブレムを最小化できる差分凸アルゴリズム(DCA)を適用した。 DCAスキームの収束を解析する。 また,カラー画像分割への一般化についても論じる。 数値実験では,提案したモデルと古典凸法および様々な画像上の2段階分割法(平滑化およびしきい値化)を比較し,このモデルがインパルスノイズに対して画像分割および頑健化に有効であることを示す。

In a class of piecewise-constant image segmentation models, we propose to incorporate a weighted difference of anisotropic and isotropic total variation (AITV) to regularize the partition boundaries in an image. In particular, we replace the total variation regularization in the Chan-Vese segmentation model and a fuzzy region competition model by the proposed AITV. To deal with the nonconvex nature of AITV, we apply the difference-of-convex algorithm (DCA), in which the subproblems can be minimized by the primal-dual hybrid gradient method with linesearch. The convergence of the DCA scheme is analyzed. In addition, a generalization to color image segmentation is discussed. In the numerical experiments, we compare the proposed models with the classic convex approaches and the two-stage segmentation methods (smoothing and then thresholding) on various images, showing that our models are effective in image segmentation and robust with respect to impulsive noises.
翻訳日:2022-12-05 07:01:19 公開日:2021-07-18
# 条件フェアネスによるアルゴリズム決定

Algorithmic Decision Making with Conditional Fairness ( http://arxiv.org/abs/2006.10483v5 )

ライセンス: Link先を確認
Renzhe Xu, Peng Cui, Kun Kuang, Bo Li, Linjun Zhou, Zheyan Shen, Wei Cui(参考訳) 今日では公平性の問題が意思決定システムに大きな懸念を巻き起こしている。 アルゴリズムが不公平である程度を測定するために、様々な公平性の概念が提案されている。 実際、私たちがフェア変数と呼ぶ特定の変数セットは、ユーザーの選択のような事前決定共変量であることが多い。 公平変数の効果は、決定支援アルゴリズムの公平性を評価する上で無関係である。 したがって条件付きフェアネスを、フェアネス変数の条件付けによりより健全なフェアネスメトリックと定義する。 公正変数の事前知識が異なることから、人口的パーティや等化奇数といった伝統的な公正表記は、条件付き公正表記の特別な場合であることを示す。 さらに,任意の意思決定モデルに統合可能な導出条件公正規則化器(DCFR)を提案し,アルゴリズムによる意思決定の精度と公平性のトレードオフを追跡する。 具体的には,不公平さの程度を測定するために,条件付き独立損失に基づく敵意表現を提案する。 3つの実世界のデータセットに関する広範な実験により、条件付きフェアネス表記法とdcfrの利点を実証する。

Nowadays fairness issues have raised great concerns in decision-making systems. Various fairness notions have been proposed to measure the degree to which an algorithm is unfair. In practice, there frequently exist a certain set of variables we term as fair variables, which are pre-decision covariates such as users' choices. The effects of fair variables are irrelevant in assessing the fairness of the decision support algorithm. We thus define conditional fairness as a more sound fairness metric by conditioning on the fairness variables. Given different prior knowledge of fair variables, we demonstrate that traditional fairness notations, such as demographic parity and equalized odds, are special cases of our conditional fairness notations. Moreover, we propose a Derivable Conditional Fairness Regularizer (DCFR), which can be integrated into any decision-making model, to track the trade-off between precision and fairness of algorithmic decision making. Specifically, an adversarial representation based conditional independence loss is proposed in our DCFR to measure the degree of unfairness. With extensive experiments on three real-world datasets, we demonstrate the advantages of our conditional fairness notation and DCFR.
翻訳日:2022-11-19 12:37:23 公開日:2021-07-18
# PSIGAN : 非対向モード適応MRI分割のための関節確率分割と画像分布マッチング

PSIGAN: Joint probabilistic segmentation and image distribution matching for unpaired cross-modality adaptation based MRI segmentation ( http://arxiv.org/abs/2007.09465v2 )

ライセンス: Link先を確認
Jue Jiang, Yu Chi Hu, Neelam Tyagi, Andreas Rimner, Nancy Lee, Joseph O. Deasy, Sean Berry, Harini Veeraraghavan(参考訳) 我々は,非教師付き領域適応(UDA)と磁気共鳴(MRI)画像からの多臓器分割のための新しい関節確率分割と画像分布マッチング法(PSIGAN)を開発した。 udaアプローチは,画像とセグメンテーションの相互依存性を,新しい構造判別器を用いた共同確率分布としてモデル化する。 この構造判別器は、生成した擬似MRIと、同時に訓練されたセグメンテーションサブネットワークによって生成された確率的セグメンテーションを組み合わせることにより、関心に焦点を合わせた対向損失の構造を算出する。 セグメント化サブネットワークは、ジェネレータサブネットワークによって生成された擬似MRIを用いて訓練される。 これにより、エンド・ツー・エンドネットワークの一部として共同で訓練されたジェネレータとセグメンテーション・サブネットワークの両方を周期的に最適化する。 多臓器と腫瘍の分節生成のための計257スキャンを4つのMRIシークエンスで行った実験と比較を行った。 実験には a)20t1重み付き(t1w)イン相mdixon及び b)20T2強調(T2w)腹部MRIによる肝,脾,左腎,右腎の分画 (c)耳下腺分節に対する頭頸部MRI(T2wFS)とT2T2強調脂肪(T2wFS) (d)肺腫瘍分節に対する75 T2w MRI。 腹部臓器ではT1w0.87,T2w0.90,耳下腺ではT2wFS0.82,肺腫瘍ではT2wMRI0.77であった。

We developed a new joint probabilistic segmentation and image distribution matching generative adversarial network (PSIGAN) for unsupervised domain adaptation (UDA) and multi-organ segmentation from magnetic resonance (MRI) images. Our UDA approach models the co-dependency between images and their segmentation as a joint probability distribution using a new structure discriminator. The structure discriminator computes structure of interest focused adversarial loss by combining the generated pseudo MRI with probabilistic segmentations produced by a simultaneously trained segmentation sub-network. The segmentation sub-network is trained using the pseudo MRI produced by the generator sub-network. This leads to a cyclical optimization of both the generator and segmentation sub-networks that are jointly trained as part of an end-to-end network. Extensive experiments and comparisons against multiple state-of-the-art methods were done on four different MRI sequences totalling 257 scans for generating multi-organ and tumor segmentation. The experiments included, (a) 20 T1-weighted (T1w) in-phase mdixon and (b) 20 T2-weighted (T2w) abdominal MRI for segmenting liver, spleen, left and right kidneys, (c) 162 T2-weighted fat suppressed head and neck MRI (T2wFS) for parotid gland segmentation, and (d) 75 T2w MRI for lung tumor segmentation. Our method achieved an overall average DSC of 0.87 on T1w and 0.90 on T2w for the abdominal organs, 0.82 on T2wFS for the parotid glands, and 0.77 on T2w MRI for lung tumors.
翻訳日:2022-11-09 05:59:43 公開日:2021-07-18
# ドキュメント ビジュアル質問応答チャレンジ2020

Document Visual Question Answering Challenge 2020 ( http://arxiv.org/abs/2008.08899v2 )

ライセンス: Link先を確認
Minesh Mathew, Ruben Tito, Dimosthenis Karatzas, R. Manmatha, C.V. Jawahar(参考訳) 本稿では,CVPR 2020における「深層学習時代のテキストと文書」ワークショップの一環として組織された文書ビジュアル質問回答チャレンジの結果について述べる。 この課題は、文書画像に対する視覚的質問応答という新しい問題をもたらす。 挑戦は2つの課題で構成された。 最初のタスクは、単一のドキュメントイメージに関する質問に関するものです。 一方、第2のタスクは、画像の集合の上に質問が出される検索タスクとして設定される。 タスク1では、12,767以上の文書イメージで定義された5万の質問・回答ペアからなる新しいデータセットが導入される。 タスク2では、同じドキュメントテンプレートを共有する14,362のドキュメントイメージに20の質問を含む別のデータセットが作成されている。

This paper presents results of Document Visual Question Answering Challenge organized as part of "Text and Documents in the Deep Learning Era" workshop, in CVPR 2020. The challenge introduces a new problem - Visual Question Answering on document images. The challenge comprised two tasks. The first task concerns with asking questions on a single document image. On the other hand, the second task is set as a retrieval task where the question is posed over a collection of images. For the task 1 a new dataset is introduced comprising 50,000 questions-answer(s) pairs defined over 12,767 document images. For task 2 another dataset has been created comprising 20 questions over 14,362 document images which share the same document template.
翻訳日:2022-10-27 04:10:26 公開日:2021-07-18
# 生成した特許テキストの先行技術検索と再ランク付け

Prior Art Search and Reranking for Generated Patent Text ( http://arxiv.org/abs/2009.09132v2 )

ライセンス: Link先を確認
Jieh-Sheng Lee and Jieh Hsiang(参考訳) GPT-2のような生成モデルは、最近顕著な結果を示している。 私たちが解決したい基本的な質問は、 生成されたテキストはどこから来たのか? 本研究は,先行検索を用いて質問に答えるための最初の取り組みである。 先行技術検索の目的は、gpt-2のトレーニングデータに最も類似した先行テキストを見つけることである。 我々は再格付けのアプローチを取り、それを特許ドメインに適用する。 具体的には,USPTOの特許データを用いて,GPT-2モデルをゼロから事前訓練する。 先行技術検索の入力は、GPT-2モデルによって生成された特許文書である。 また、特許文書を埋め込みに変換するために、スクラッチからBERTモデルを事前訓練しました。 再分類の手順は,(1)語句ランキングアプローチ(BM25)を用いてGPT-2のトレーニングデータにおいて最も類似したテキストを検索し,(2)検索結果をBERT埋め込みに変換し,(3)GPT-2で生成された特許テキストと類似性に基づいてBERT埋め込みをランク付けして最終結果を提供する。 この実験は、埋め込みだけでランク付けするよりも、そのようなランク付けの方が優れていることを示している。 しかし,本研究の結果から,長文間の意味的類似性を計算することは依然として困難であることが示唆された。 我々の知る限り、この研究は初めて、その出力に基づいてGPTモデルに最もよく似た入力を振り返りに識別するリグレードシステムを実装する。

Generative models, such as GPT-2, have demonstrated impressive results recently. A fundamental question we'd like to address is: where did the generated text come from? This work is our initial effort toward answering the question by using prior art search. The purpose of the prior art search is to find the most similar prior text in the training data of GPT-2. We take a reranking approach and apply it to the patent domain. Specifically, we pre-train GPT-2 models from scratch by using the patent data from the USPTO. The input for the prior art search is the patent text generated by the GPT-2 model. We also pre-trained BERT models from scratch for converting patent text to embeddings. The steps of reranking are: (1) search the most similar text in the training data of GPT-2 by taking a bag-of-word ranking approach (BM25), (2) convert the search results in text format to BERT embeddings, and (3) provide the final result by ranking the BERT embeddings based on their similarities with the patent text generated by GPT-2. The experiments in this work show that such reranking is better than ranking with embeddings alone. However, our mixed results also indicate that calculating the semantic similarities among long text spans is still challenging. To our knowledge, this work is the first to implement a reranking system to identify retrospectively the most similar inputs to a GPT model based on its output.
翻訳日:2022-10-16 21:09:45 公開日:2021-07-18
# 動的共分散回復のための非凸フレームワーク

A Nonconvex Framework for Structured Dynamic Covariance Recovery ( http://arxiv.org/abs/2011.05601v3 )

ライセンス: Link先を確認
Katherine Tsai, Mladen Kolar, Oluwasanmi Koyejo(参考訳) 本稿では,高次元データに対する時間変化2次統計を用いたフレキシブルかつ解釈可能なモデルを提案する。 神経科学の文献に動機づけられ,共分散を空間的,滑らかな時間的成分に分解した。 この分解はパシモニーとドメインの解釈性の両方をもたらすが、結果として生じる推定問題は非凸である。 この目的のために, スペクトル初期化を注意深く調整した2段階最適化スキームを, 逐次改良された交互投影勾配勾配勾配と組み合わせて設計する。 提案手法では, 線形収束率を非自明な統計的誤差まで証明し, 推定器の複雑さを保証する。 さらに,多変量ガウスの場合の統計誤差を定量化する。 シミュレーションおよび実際の脳画像データを用いた実験結果から,本手法が既存のベースラインよりも優れていることが分かる。

We propose a flexible yet interpretable model for high-dimensional data with time-varying second order statistics, motivated and applied to functional neuroimaging data. Motivated by the neuroscience literature, we factorize the covariances into sparse spatial and smooth temporal components. While this factorization results in both parsimony and domain interpretability, the resulting estimation problem is nonconvex. To this end, we design a two-stage optimization scheme with a carefully tailored spectral initialization, combined with iteratively refined alternating projected gradient descent. We prove a linear convergence rate up to a nontrivial statistical error for the proposed descent scheme and establish sample complexity guarantees for the estimator. We further quantify the statistical error for the multivariate Gaussian case. Empirical results using simulated and real brain imaging data illustrate that our approach outperforms existing baselines.
翻訳日:2022-09-26 23:40:00 公開日:2021-07-18
# (参考訳) 脳はコンピュータであり、脳である:神経科学の内部的議論と計算的メタファーの社会的意義

The brain is a computer is a brain: neuroscience's internal debate and the social significance of the Computational Metaphor ( http://arxiv.org/abs/2107.14042v1 )

ライセンス: CC BY 4.0
Alexis T. Baria (1) and Keith Cross (2) ((1) Society of Spoken Art, New York, USA, (2) University of Hawai`i at Manoa, Honolulu, USA)(参考訳) 計算メタファー(Computational Metaphor)は、脳をコンピュータと比較し、その逆も、神経科学と人工知能(AI)において最も顕著なメタファーである。 その適切性は、科学と技術の進歩に有用かどうかに関して、どちらの分野でも議論されている。 しかし、おそらくあまり注目されていないのは、計算メタファーが研究室の外でどのように使われているか、特に社会のAIとの相互作用をどう形作るかである。 このように、AIが人種差別、性差別、能力主義に果たした役割について最近公表された懸念は、「人工知性」という用語は誤りであり、これらの計算システムを記述するために新しい語彙が必要であることを示唆している。 したがって、神経科学者から滅多に聞かれる計算メタファーには、重要な疑問がある:それは誰を助けるのか、誰に害を与えるのか? このエッセイは、神経科学のコミュニティに、この分野で最も議論を呼んでいるメタファーの社会的意味を考えるよう呼びかけている。

The Computational Metaphor, comparing the brain to the computer and vice versa, is the most prominent metaphor in neuroscience and artificial intelligence (AI). Its appropriateness is highly debated in both fields, particularly with regards to whether it is useful for the advancement of science and technology. Considerably less attention, however, has been devoted to how the Computational Metaphor is used outside of the lab, and particularly how it may shape society's interactions with AI. As such, recently publicized concerns over AI's role in perpetuating racism, genderism, and ableism suggest that the term "artificial intelligence" is misplaced, and that a new lexicon is needed to describe these computational systems. Thus, there is an essential question about the Computational Metaphor that is rarely asked by neuroscientists: whom does it help and whom does it harm? This essay invites the neuroscience community to consider the social implications of the field's most controversial metaphor.
翻訳日:2021-08-01 13:16:44 公開日:2021-07-18
# ヘテロジニアス組込みデバイスにおけるフェデレーション動作認識

Federated Action Recognition on Heterogeneous Embedded Devices ( http://arxiv.org/abs/2107.12147v1 )

ライセンス: Link先を確認
Pranjal Jain, Shreyas Goenka, Saurabh Bagchi, Biplab Banerjee, Somali Chaterji(参考訳) フェデレーション学習は、データを共有することなく、多数のデバイスが共同でモデルを学ぶことを可能にする。 本研究では,限られた計算能力を持つクライアントが行動認識を行うことを可能にする。 まず,大規模データセット上で知識蒸留を行い,中央サーバでモデル圧縮を行う。 これにより、モデルは複雑な特徴を学習し、モデル微調整の初期化として機能する。 より小さなデータセットに存在する限られたデータは、アクション認識モデルが複雑な時空間的特徴を学ぶのに十分ではないため、微調整が必要である。 既存のクライアントは、コンピューティングリソースに不均一なことが多いため、非同期フェデレーション最適化を使用して、さらに収束境界を示します。 中央サーバでの微調整(クライアントなし)と同期フェデレーション平均化を用いた(ヘテロジェンスな)クライアントの微調整の2つのベースラインアプローチと比較した。 非同期学習戦略は、同期学習と比較してトレーニング時間を40%削減する一方、上述の2つのベースラインに匹敵する精度で動作認識を行うことができる異種組み込みデバイスのテストベッドを実証的に示す。

Federated learning allows a large number of devices to jointly learn a model without sharing data. In this work, we enable clients with limited computing power to perform action recognition, a computationally heavy task. We first perform model compression at the central server through knowledge distillation on a large dataset. This allows the model to learn complex features and serves as an initialization for model fine-tuning. The fine-tuning is required because the limited data present in smaller datasets is not adequate for action recognition models to learn complex spatio-temporal features. Because the clients present are often heterogeneous in their computing resources, we use an asynchronous federated optimization and we further show a convergence bound. We compare our approach to two baseline approaches: fine-tuning at the central server (no clients) and fine-tuning using (heterogeneous) clients using synchronous federated averaging. We empirically show on a testbed of heterogeneous embedded devices that we can perform action recognition with comparable accuracy to the two baselines above, while our asynchronous learning strategy reduces the training time by 40%, relative to synchronous learning.
翻訳日:2021-08-01 11:04:46 公開日:2021-07-18
# 透磁率予測のための多孔質媒体のポイントクラウド深層学習

Point-Cloud Deep Learning of Porous Media for Permeability Prediction ( http://arxiv.org/abs/2107.14038v1 )

ライセンス: Link先を確認
Ali Kashefi and Tapan Mukerji(参考訳) デジタル画像から多孔質媒体の透過性を予測するための新しいディープラーニングフレームワークを提案する。 畳み込みニューラルネットワークとは異なり、画像の体積全体を入力としてネットワークに供給するのではなく、固体行列と細孔空間の境界を点雲としてモデル化し、ポイントネットアーキテクチャに基づいたニューラルネットワークに入力として供給する。 このアプローチは、グラフィックス処理ユニットのメモリ制限の課題と、バッチサイズとコンバージェンスの選択による影響を克服する。 畳み込みニューラルネットワークと比較して、提案したディープラーニング手法は、ネットワーク入力のサイズを大幅に削減するため、より大きなバッチサイズを選択する自由を提供する。 具体的には、pointnetの分類ブランチを使用して、回帰タスクに調整します。 テストケースとして、2次元および3次元の合成デジタルロック画像を考える。 ニューラルネットワークのさまざまなコンポーネントが性能に与える影響について検討する。 当社のディープラーニング戦略と,さまざまな観点からの畳み込みニューラルネットワーク,特に最大バッチサイズを比較した。 本研究は,実世界の岩石試料の透水性と,トレーニングで使用した試料と統計的に異なる合成デジタル岩石の透過性を予測することにより,ネットワークの一般化性を検証した。 このネットワークは、高い予測精度を持つ格子ボルツマンソルバよりも数千倍の速度でデジタル岩の透過性を予測している。

We propose a novel deep learning framework for predicting permeability of porous media from their digital images. Unlike convolutional neural networks, instead of feeding the whole image volume as inputs to the network, we model the boundary between solid matrix and pore spaces as point clouds and feed them as inputs to a neural network based on the PointNet architecture. This approach overcomes the challenge of memory restriction of graphics processing units and its consequences on the choice of batch size, and convergence. Compared to convolutional neural networks, the proposed deep learning methodology provides freedom to select larger batch sizes, due to reducing significantly the size of network inputs. Specifically, we use the classification branch of PointNet and adjust it for a regression task. As a test case, two and three dimensional synthetic digital rock images are considered. We investigate the effect of different components of our neural network on its performance. We compare our deep learning strategy with a convolutional neural network from various perspectives, specifically for maximum possible batch size. We inspect the generalizability of our network by predicting the permeability of real-world rock samples as well as synthetic digital rocks that are statistically different from the samples used during training. The network predicts the permeability of digital rocks a few thousand times faster than a Lattice Boltzmann solver with a high level of prediction accuracy.
翻訳日:2021-08-01 11:03:40 公開日:2021-07-18
# (参考訳) 解釈可能なsincnetベースのディープラーニングによる脳波脳活動からの感情認識

Interpretable SincNet-based Deep Learning for Emotion Recognition from EEG brain activity ( http://arxiv.org/abs/2107.10790v1 )

ライセンス: CC BY 4.0
Juan Manuel Mayor-Torres, Mirco Ravanelli, Sara E. Medina-DeVilliers, Matthew D. Lerner and Giuseppe Riccardi(参考訳) ディープラーニングのような機械学習手法は、医療領域において有望な結果を示す。 しかし、これらのアルゴリズムの解釈可能性の欠如は、医療的意思決定支援システムの適用を阻害する可能性がある。 本稿では,SincNetと呼ばれる解釈可能な深層学習手法について検討する。 SincNetは、トレーニング可能なシンク関数を通じて、カスタマイズされたバンドパスフィルタを効率的に学習する畳み込みニューラルネットワークである。 本研究では、SincNetを用いて自閉症スペクトラム障害(ASD)患者の神経活動を分析し、神経振動活動の特徴的差異を経験する。 特に,脳波信号を用いたASD患者の感情を検出する新しいSincNetベースのニューラルネットワークを提案する。 学習したフィルタは容易に検査でき、脳波スペクトルのどの部分が感情予測に使われているかを検出することができる。 当社のシステムは, ASD患者によく見られる高額な$\alpha$ (9-13 Hz) と$\beta$ (13-30 Hz) の帯域抑制を自動的に学習することがわかった。 この結果は感情認識に関する最近の神経科学研究と一致しており、これらのバンド抑圧とasd患者の行動障害との関連性を見出した。 SincNetの解釈性の向上は、感情認識の性能を犠牲にすることなく達成される。

Machine learning methods, such as deep learning, show promising results in the medical domain. However, the lack of interpretability of these algorithms may hinder their applicability to medical decision support systems. This paper studies an interpretable deep learning technique, called SincNet. SincNet is a convolutional neural network that efficiently learns customized band-pass filters through trainable sinc-functions. In this study, we use SincNet to analyze the neural activity of individuals with Autism Spectrum Disorder (ASD), who experience characteristic differences in neural oscillatory activity. In particular, we propose a novel SincNet-based neural network for detecting emotions in ASD patients using EEG signals. The learned filters can be easily inspected to detect which part of the EEG spectrum is used for predicting emotions. We found that our system automatically learns the high-$\alpha$ (9-13 Hz) and $\beta$ (13-30 Hz) band suppression often present in individuals with ASD. This result is consistent with recent neuroscience studies on emotion recognition, which found an association between these band suppressions and the behavioral deficits observed in individuals with ASD. The improved interpretability of SincNet is achieved without sacrificing performance in emotion recognition.
翻訳日:2021-07-24 01:33:37 公開日:2021-07-18
# (参考訳) BERTとGANを用いた株価予測

Stock price prediction using BERT and GAN ( http://arxiv.org/abs/2107.09055v1 )

ライセンス: CC BY 4.0
Priyank Sonkiya, Vikas Bajpai and Anukriti Bansal(参考訳) 株式市場は近年、人気の高い話題となっている。 インフレ率の上昇により、人々は貯蓄よりも株式や商品市場や他の分野に投資せざるを得なくなった。 さらに、時系列データに基づいて予測を行うディープラーニングモデルの能力は、何度も証明されてきた。 技術指標による株式市場の技術分析は、トレーダーや投資家の間では最も一般的な実践である。 もうひとつの側面は、投資意欲を示す投資家の感情分析である。 さまざまなテクニックが、基本的な機械学習とニューラルネットワークを含む世界中の人々によって使用されている。 基本的な線形回帰から高度なニューラルネットワークまで、人々は株式市場を予測するためのあらゆる可能なテクニックを実験してきた。 最近の出来事から、ニュースや見出しが株式市場や仮想通貨に与える影響は明らかです。 本稿では,株価予測のための最先端手法の提案を行う。 まず、ニュースの感情分析と、NASDAQに掲載されているApple Inc.の見出しは、Google for Natural Language Processing (NLP)による事前訓練されたトランスフォーマーモデルであるBERTのバージョンを使用して実行される。 その後、GAN(Generative Adversarial Network)は、Apple Inc.の株価を、技術指標、さまざまな国の株価指数、いくつかの商品、歴史的価格と評価スコアを用いて予測する。 比較は、Long Short Term Memory (LSTM)、Gated Recurrent Units (GRU)、vanilla GAN、Auto-Regressive Integrated Average (ARIMA)モデルといったベースラインモデルで行う。

The stock market has been a popular topic of interest in the recent past. The growth in the inflation rate has compelled people to invest in the stock and commodity markets and other areas rather than saving. Further, the ability of Deep Learning models to make predictions on the time series data has been proven time and again. Technical analysis on the stock market with the help of technical indicators has been the most common practice among traders and investors. One more aspect is the sentiment analysis - the emotion of the investors that shows the willingness to invest. A variety of techniques have been used by people around the globe involving basic Machine Learning and Neural Networks. Ranging from the basic linear regression to the advanced neural networks people have experimented with all possible techniques to predict the stock market. It's evident from recent events how news and headlines affect the stock markets and cryptocurrencies. This paper proposes an ensemble of state-of-the-art methods for predicting stock prices. Firstly sentiment analysis of the news and the headlines for the company Apple Inc, listed on the NASDAQ is performed using a version of BERT, which is a pre-trained transformer model by Google for Natural Language Processing (NLP). Afterward, a Generative Adversarial Network (GAN) predicts the stock price for Apple Inc using the technical indicators, stock indexes of various countries, some commodities, and historical prices along with the sentiment scores. Comparison is done with baseline models like - Long Short Term Memory (LSTM), Gated Recurrent Units (GRU), vanilla GAN, and Auto-Regressive Integrated Moving Average (ARIMA) model.
翻訳日:2021-07-22 02:56:45 公開日:2021-07-18
# エゴセントリックビデオにおける行動予測のためのマルチモーダル時間畳み込みネットワーク

Multi-Modal Temporal Convolutional Network for Anticipating Actions in Egocentric Videos ( http://arxiv.org/abs/2107.09504v1 )

ライセンス: Link先を確認
Olga Zatsarynna, Yazan Abu Farha and Juergen Gall(参考訳) 人間の行動を予測することは、自動運転車やロボットアシスタントのような信頼性の高いインテリジェントエージェントの開発に対処する必要がある重要なタスクである。 予測手法の設計には高い精度で将来の予測を行う能力が不可欠であるが、推論を行う速度はそれほど重要ではない。 正確だが十分な速度ではないメソッドは、決定プロセスに高いレイテンシをもたらす。 これにより、基礎となるシステムの反応時間が増加する。 これは、反応時間が重要である自律運転のようなドメインに問題を引き起こす。 本研究では,時間的畳み込みに基づく簡易かつ効果的なマルチモーダルアーキテクチャを提案する。 我々のアプローチは、時間的畳み込み層の階層を積み重ね、高速な予測を保証するために繰り返しの層に依存しない。 さらに,rgb,フロー,オブジェクト間の対相互作用をキャプチャするマルチモーダル融合機構についても紹介する。 EPIC-Kitchens-55 と EPIC-Kitchens-100 の2つの大規模なエゴセントリックビデオデータセットの結果から,本手法は最先端のアプローチに匹敵する性能を示しながら,より高速であることを示す。

Anticipating human actions is an important task that needs to be addressed for the development of reliable intelligent agents, such as self-driving cars or robot assistants. While the ability to make future predictions with high accuracy is crucial for designing the anticipation approaches, the speed at which the inference is performed is not less important. Methods that are accurate but not sufficiently fast would introduce a high latency into the decision process. Thus, this will increase the reaction time of the underlying system. This poses a problem for domains such as autonomous driving, where the reaction time is crucial. In this work, we propose a simple and effective multi-modal architecture based on temporal convolutions. Our approach stacks a hierarchy of temporal convolutional layers and does not rely on recurrent layers to ensure a fast prediction. We further introduce a multi-modal fusion mechanism that captures the pairwise interactions between RGB, flow, and object modalities. Results on two large-scale datasets of egocentric videos, EPIC-Kitchens-55 and EPIC-Kitchens-100, show that our approach achieves comparable performance to the state-of-the-art approaches while being significantly faster.
翻訳日:2021-07-21 14:57:58 公開日:2021-07-18
# (参考訳) 雑音による理解誤りの軽減に向けた語彙パラフレーズの可能性の検討

Exploring the Potential of Lexical Paraphrases for Mitigating Noise-Induced Comprehension Errors ( http://arxiv.org/abs/2107.08337v1 )

ライセンス: CC BY 4.0
Anupama Chingacham, Vera Demberg, Dietrich Klakow(参考訳) ノイズの多い環境での聴くことは、通常の聴覚閾値を持つ個人でも難しい。 音声信号はノイズによって隠蔽することができ、これは聞き手の側で単語の誤認識を招き、メッセージを理解するのが全体的な困難である。 補聴器の難聴を軽減するため,Lombard音声のような音声変調手法を用いてノイズロバスト発話を生成し,音声合成システムに類似したソリューションを開発した。 本研究では,意図する意味を表現するために,ノイズロバストな語彙パラフレーズを選択する代替解を提案する。 以上の結果から,語彙的パラフレーズは雑音の知覚性が異なることが明らかとなった。 文脈における同義語の理解性を評価し,その同義語よりも誤聴しにくい語彙単位を選択することで,snr -5 dbでは37%,babble noiseではsnr 0 dbでは21%の理解率を得た。

Listening in noisy environments can be difficult even for individuals with a normal hearing thresholds. The speech signal can be masked by noise, which may lead to word misperceptions on the side of the listener, and overall difficulty to understand the message. To mitigate hearing difficulties on listeners, a co-operative speaker utilizes voice modulation strategies like Lombard speech to generate noise-robust utterances, and similar solutions have been developed for speech synthesis systems. In this work, we propose an alternate solution of choosing noise-robust lexical paraphrases to represent an intended meaning. Our results show that lexical paraphrases differ in their intelligibility in noise. We evaluate the intelligibility of synonyms in context and find that choosing a lexical unit that is less risky to be misheard than its synonym introduced an average gain in comprehension of 37% at SNR -5 dB and 21% at SNR 0 dB for babble noise.
翻訳日:2021-07-21 05:12:37 公開日:2021-07-18
# (参考訳) 敵対的mdpにおける政策最適化:拡張ボーナスによる探索の改善

Policy Optimization in Adversarial MDPs: Improved Exploration via Dilated Bonuses ( http://arxiv.org/abs/2107.08346v1 )

ライセンス: CC0 1.0
Haipeng Luo, Chen-Yu Wei, Chung-Wei Lee(参考訳) 政策最適化は強化学習において広く使われている手法である。 しかし、その局所探索の性質から、大域的最適性に関する理論的保証は、大域的探索の難しさを克服するマルコフ決定過程(MDP)の余分な仮定に依存することが多い。 このような仮定の必要性をなくすため,本研究では,グローバル探索を容易にするために,政策更新に拡張ボーナスを追加する汎用ソリューションを開発した。 本手法のパワーと汎用性を示すために,敵対的損失と包帯的フィードバックを伴い,最先端技術の改善と一般化を図った複数のエピソードMDP設定に適用する。 特に表の場合、$\widetilde{\mathcal{O}}(\sqrt{T})$ regret where $T$ is the number of episodes, improve the $\widetilde{\mathcal{O}}({T}^{2/3})$ regret bound by Shani et al。 (2020). 状態の数が無限であるとき、状態-作用値がいくつかの低次元特徴において線型であるという仮定の下で、シミュレータの助けを借りて$\widetilde{\mathcal{O}}({T}^{2/3})$ regretを取得し、Neu と Olkhovskaya (2020) の結果と一致する。 シミュレータが利用できない場合、さらに線形 MDP の設定を考え、$\widetilde{\mathcal{O}}({T}^{14/15})$ regret を得る。

Policy optimization is a widely-used method in reinforcement learning. Due to its local-search nature, however, theoretical guarantees on global optimality often rely on extra assumptions on the Markov Decision Processes (MDPs) that bypass the challenge of global exploration. To eliminate the need of such assumptions, in this work, we develop a general solution that adds dilated bonuses to the policy update to facilitate global exploration. To showcase the power and generality of this technique, we apply it to several episodic MDP settings with adversarial losses and bandit feedback, improving and generalizing the state-of-the-art. Specifically, in the tabular case, we obtain $\widetilde{\mathcal{O}}(\sqrt{T})$ regret where $T$ is the number of episodes, improving the $\widetilde{\mathcal{O}}({T}^{2/3})$ regret bound by Shani et al. (2020). When the number of states is infinite, under the assumption that the state-action values are linear in some low-dimensional features, we obtain $\widetilde{\mathcal{O}}({T}^{2/3})$ regret with the help of a simulator, matching the result of Neu and Olkhovskaya (2020) while importantly removing the need of an exploratory policy that their algorithm requires. When a simulator is unavailable, we further consider a linear MDP setting and obtain $\widetilde{\mathcal{O}}({T}^{14/15})$ regret, which is the first result for linear MDPs with adversarial losses and bandit feedback.
翻訳日:2021-07-21 05:00:38 公開日:2021-07-18
# (参考訳) データ駆動型ソフトウェア脆弱性評価と優先順位付けに関する調査

A Survey on Data-driven Software Vulnerability Assessment and Prioritization ( http://arxiv.org/abs/2107.08364v1 )

ライセンス: CC BY 4.0
Triet H. M. Le, Huaming Chen, M. Ali Babar(参考訳) ソフトウェア脆弱性(svs)は複雑さと規模が増大し、多くのソフトウェアシステムにとって大きなセキュリティリスクとなっている。 SV評価と優先順位付けは,実践者が様々なSV特性に基づいて最適なSV緩和計画を策定する上で有効である。 SVデータソースの急増と機械学習やディープラーニングのようなデータ駆動技術は、SVの評価と優先順位付けを次のレベルに引き上げた。 本調査は過去の研究成果を分類し,データ駆動型SV評価と優先順位付けのベストプラクティスを強調した。 また、現在の制限についても議論し、この問題に対処するための潜在的な解決策を提案する。

Software Vulnerabilities (SVs) are increasing in complexity and scale, posing great security risks to many software systems. Given the limited resources in practice, SV assessment and prioritization help practitioners devise optimal SV mitigation plans based on various SV characteristics. The surge in SV data sources and data-driven techniques such as Machine Learning and Deep Learning have taken SV assessment and prioritization to the next level. Our survey provides a taxonomy of the past research efforts and highlights the best practices for data-driven SV assessment and prioritization. We also discuss the current limitations and propose potential solutions to address such issues.
翻訳日:2021-07-21 04:59:17 公開日:2021-07-18
# (参考訳) HVACとマイクログリッドの協調設計による知的制御

Co-designing Intelligent Control of Building HVACs and Microgrids ( http://arxiv.org/abs/2107.08378v1 )

ライセンス: CC BY 4.0
Rumia Masburah and Sayan Sinha and Rajib Lochan Jana, Soumyajit Dey, Qi Zhu(参考訳) 建設負荷は先進国で生産されるエネルギーの約40%を消費し、その大部分は温度制御インフラの構築に費やされている。 再生可能資源ベースのマイクログリッドは、よりグリーンで安価な代替手段を提供する。 このコミュニケーションは, 運用コストの最小化による有効温度制御を目的とし, HVAC(暖房, 換気, 空調システム)の動作とマイクログリッドの同時設計の可能性を探るものである。 そこで我々は,Deep Reinforcement Learning (DRL) 技術を用いて,マイクログリッドおよびHVACシステムモデルに関する情報に基づいて,様々な抽象化レベルの制御設計を試みる。 完全に決定されたシステムモデルから、完全に未知のパラメータ設定を持つシステムまで、モデル情報を考慮した制御アーキテクチャを提供し、設計基準に対するDRLの利点を示す。

Building loads consume roughly 40% of the energy produced in developed countries, a significant part of which is invested towards building temperature-control infrastructure. Therein, renewable resource-based microgrids offer a greener and cheaper alternative. This communication explores the possible co-design of microgrid power dispatch and building HVAC (heating, ventilation and air conditioning system) actuations with the objective of effective temperature control under minimised operating cost. For this, we attempt control designs with various levels of abstractions based on information available about microgrid and HVAC system models using the Deep Reinforcement Learning (DRL) technique. We provide control architectures that consider model information ranging from completely determined system models to systems with fully unknown parameter settings and illustrate the advantages of DRL for the design prescriptions.
翻訳日:2021-07-21 04:58:25 公開日:2021-07-18
# (参考訳) GuideBoot: 深いコンテキストバンドのためのガイド付きブートストラップ

GuideBoot: Guided Bootstrap for Deep Contextual Bandits ( http://arxiv.org/abs/2107.08383v1 )

ライセンス: CC BY 4.0
Feiyang Pan, Haoming Li, Xiang Ao, Wei Wang, Yanrong Kang, Ao Tan and Qing He(参考訳) 探索・探索(E&E)ジレンマは、文脈的帯域幅アルゴリズムが提案されているオンライン広告のようなインタラクティブシステムの中核にある。 ベイズ的アプローチは原則的不確実性推定を伴うガイド付き探索を提供するが、適用性は過度に単純化された仮定のために制限されることが多い。 一方、非ベイジアンブートストラップ法は、深い報酬モデルを用いて複雑な問題に適用できるが、探索行動への明確なガイダンスは欠如している。 複雑な深層バンディットの実用的な方法を開発することは、いまだにほとんど解決されていない。 本稿では,両世界のベストを結合したガイド付きブートストラップ(guideboot)を提案する。 guidebootは、予測の不確実性に応じてノイズが追加される偽のラベルで、実際のサンプルとノイズサンプルの両方で複数のモデルをトレーニングすることで、探索行動に対する明確なガイダンスを提供する。 提案手法は, ランダムに選択された1つのモデルのみを利用することで, 決定をオンザフライで行うことができるが, トンプソンサンプリングの非ベイズ近似とみなすことができ, 有効である。 さらに、実際のアプリケーションで好まれるストリーミングデータからのみ学習可能なオンラインバージョンにも拡張しています。 総合的タスクと大規模広告環境の両方に対する大規模な実験により, GuideBootは従来の最先端手法に対して大幅な改善が達成された。

The exploration/exploitation (E&E) dilemma lies at the core of interactive systems such as online advertising, for which contextual bandit algorithms have been proposed. Bayesian approaches provide guided exploration with principled uncertainty estimation, but the applicability is often limited due to over-simplified assumptions. Non-Bayesian bootstrap methods, on the other hand, can apply to complex problems by using deep reward models, but lacks clear guidance to the exploration behavior. It still remains largely unsolved to develop a practical method for complex deep contextual bandits. In this paper, we introduce Guided Bootstrap (GuideBoot for short), combining the best of both worlds. GuideBoot provides explicit guidance to the exploration behavior by training multiple models over both real samples and noisy samples with fake labels, where the noise is added according to the predictive uncertainty. The proposed method is efficient as it can make decisions on-the-fly by utilizing only one randomly chosen model, but is also effective as we show that it can be viewed as a non-Bayesian approximation of Thompson sampling. Moreover, we extend it to an online version that can learn solely from streaming data, which is favored in real applications. Extensive experiments on both synthetic task and large-scale advertising environments show that GuideBoot achieves significant improvements against previous state-of-the-art methods.
翻訳日:2021-07-21 04:46:49 公開日:2021-07-18
# (参考訳) RobustFed:ロバストなフェデレーションラーニングのための真理推論アプローチ

RobustFed: A Truth Inference Approach for Robust Federated Learning ( http://arxiv.org/abs/2107.08402v1 )

ライセンス: CC BY 4.0
Farnaz Tahmasebian, Jian Lou, and Li Xiong(参考訳) フェデレーション学習(federated learning)は、ローカルトレーニングデータセットのプライバシを維持しながら、中央サーバのオーケストレーションの下で、クライアント(モバイルデバイスや組織など)が協調的にグローバルモデルをトレーニングすることを可能にする、著名なフレームワークである。 しかし、連合学習における集約ステップは、中央サーバがクライアントの振る舞いを管理できないため、敵の攻撃に対して脆弱である。 そこで,グローバルモデルの性能とトレーニングプロセスの収束性は,このような攻撃の影響を受ける。この脆弱性を緩和するために,作業者の信頼性を集約に組み込むことにより,クラウドソーシングにおける真理推論手法に触発された,新しい堅牢な集約アルゴリズムを提案する。 様々な機械学習モデルを用いた3つの実世界のデータセットでソリューションを評価した。 実験結果から,本ソリューションは堅牢なフェデレーション学習を保証し,ノイズの多いデータ攻撃,ビザンチン攻撃,ラベルフリップ攻撃など,さまざまな種類の攻撃に耐性があることが示唆された。

Federated learning is a prominent framework that enables clients (e.g., mobile devices or organizations) to train a collaboratively global model under a central server's orchestration while keeping local training datasets' privacy. However, the aggregation step in federated learning is vulnerable to adversarial attacks as the central server cannot manage clients' behavior. Therefore, the global model's performance and convergence of the training process will be affected under such attacks.To mitigate this vulnerability issue, we propose a novel robust aggregation algorithm inspired by the truth inference methods in crowdsourcing via incorporating the worker's reliability into aggregation. We evaluate our solution on three real-world datasets with a variety of machine learning models. Experimental results show that our solution ensures robust federated learning and is resilient to various types of attacks, including noisy data attacks, Byzantine attacks, and label flipping attacks.
翻訳日:2021-07-21 04:29:08 公開日:2021-07-18
# (参考訳) 小ターゲット検出のための小型生体用イーグルアイビジョンシステム

A Miniature Biological Eagle-Eye Vision System for Small Target Detection ( http://arxiv.org/abs/2107.08406v1 )

ライセンス: CC BY 4.0
Shutai Wang, Qiang Fu, Yinhao Hu, Chunhua Zhang, Wei He(参考訳) 小さなターゲット検出は難しい問題であることが知られている。 本稿では,eagle-eyeの構造的特徴と生理的メカニズムに着想を得て,小型ターゲット検出のためのミニチュアビジョンシステムを提案する。 まず、ハードウェアプラットフォームが確立され、パンティルト、ショートフォーカスカメラ、ロングフォーカスカメラで構成される。 そして、ワシ眼の視覚的注意機構に基づき、焦点距離の異なるカメラを協調的に制御し、小さな目標検出を実現する。 実験結果から,設計した生体用ワシ目視システムは,適応能力の強い小型目標を正確に検出できることがわかった。

Small target detection is known to be a challenging problem. Inspired by the structural characteristics and physiological mechanism of eagle-eye, a miniature vision system is designed for small target detection in this paper. First, a hardware platform is established, which consists of a pan-tilt, a short-focus camera and a long-focus camera. Then, based on the visual attention mechanism of eagle-eye, the cameras with different focal lengths are controlled cooperatively to achieve small target detection. Experimental results show that the designed biological eagle-eye vision system can accurately detect small targets, which has a strong adaptive ability.
翻訳日:2021-07-21 04:15:13 公開日:2021-07-18
# (参考訳) 異種環境間の転送のための新しい後継機能表現

A New Representation of Successor Features for Transfer across Dissimilar Environments ( http://arxiv.org/abs/2107.08426v1 )

ライセンス: CC BY 4.0
Majid Abdolshah, Hung Le, Thommen Karimpanal George, Sunil Gupta, Santu Rana, Svetha Venkatesh(参考訳) 強化学習の移動は通常、タスク間の一般化によって達成される。 多くの研究が報酬関数が変化したときの知識の伝達を研究しているが、彼らは環境のダイナミクスは一貫していると仮定している。 多くの実世界のRL問題は、異なるダイナミクスを持つ環境間の移動を必要とする。 この問題に対処するために,ガウス過程を用いた後継特徴関数をモデル化し,対象の後継特徴関数のノイズ測定としてソース後継特徴関数を扱えるようにする手法を提案する。 我々の理論的解析は、異なるダイナミクスと報酬を持つ環境におけるガウス過程を用いた後続特徴関数のモデル化における有界誤差と同様に、このアプローチの収束を証明している。 本手法をベンチマークデータセットで実証し,現在のベースラインよりも優れていることを示す。

Transfer in reinforcement learning is usually achieved through generalisation across tasks. Whilst many studies have investigated transferring knowledge when the reward function changes, they have assumed that the dynamics of the environments remain consistent. Many real-world RL problems require transfer among environments with different dynamics. To address this problem, we propose an approach based on successor features in which we model successor feature functions with Gaussian Processes permitting the source successor features to be treated as noisy measurements of the target successor feature function. Our theoretical analysis proves the convergence of this approach as well as the bounded error on modelling successor feature functions with Gaussian Processes in environments with both different dynamics and rewards. We demonstrate our method on benchmark datasets and show that it outperforms current baselines.
翻訳日:2021-07-21 04:07:11 公開日:2021-07-18
# (参考訳) ANFIC:Augmented Normalizing Flowsを用いた画像圧縮

ANFIC: Image Compression Using Augmented Normalizing Flows ( http://arxiv.org/abs/2107.08470v1 )

ライセンス: CC BY 4.0
Yung-Han Ho, Chih-Chun Chan, Wen-Hsiao Peng, Hsueh-Ming Hang, Marek Domanski(参考訳) 本稿では、ANF(Augmented Normalizing Flows)に基づく、エンドツーエンドの学習画像圧縮システムANFICを紹介する。 ANFは複数の変分オートエンコーダ(VAE)を積み重ねてモデル表現性を高める新しいタイプのフローモデルである。 VAEベースの画像圧縮は主流となり、有望な圧縮性能を示している。 我々の研究は、フローベースのフレームワークでVAEベースの圧縮を活用する最初の試みである。 ANFICは階層的に複数のVAEを積み重ねて拡張することで、さらなる圧縮効率を向上させる。 トレーニング戦略とともにANFの可逆性により、ANFICはエンコーディングやデコードネットワークを変更することなく、幅広い品質レベルをサポートすることができる。 広汎な実験結果から,PSNR-RGBでは,ANFICは最先端の学習画像圧縮と同等以上の性能を示した。 さらに、低レート圧縮からほぼロスレス圧縮まで、vvcイントラコーディングに近い性能を発揮する。 特に、ANFICは1つのモデルで可変レート圧縮の条件付き畳み込みで拡張した場合、最先端の性能を達成する。

This paper introduces an end-to-end learned image compression system, termed ANFIC, based on Augmented Normalizing Flows (ANF). ANF is a new type of flow model, which stacks multiple variational autoencoders (VAE) for greater model expressiveness. The VAE-based image compression has gone mainstream, showing promising compression performance. Our work presents the first attempt to leverage VAE-based compression in a flow-based framework. ANFIC advances further compression efficiency by stacking and extending hierarchically multiple VAE's. The invertibility of ANF, together with our training strategies, enables ANFIC to support a wide range of quality levels without changing the encoding and decoding networks. Extensive experimental results show that in terms of PSNR-RGB, ANFIC performs comparably to or better than the state-of-the-art learned image compression. Moreover, it performs close to VVC intra coding, from low-rate compression up to nearly-lossless compression. In particular, ANFIC achieves the state-of-the-art performance, when extended with conditional convolution for variable rate compression with a single model.
翻訳日:2021-07-21 02:38:34 公開日:2021-07-18
# (参考訳) 大規模状態空間でのMDP解決のための分光特性の爆発について」特集号によせて

A note on the article "On Exploiting Spectral Properties for Solving MDP with Large State Space" ( http://arxiv.org/abs/2107.08488v1 )

ライセンス: CC BY 4.0
D. Maran(参考訳) 我々は,「大規模状態空間でMDPを解くための分光特性の爆発」という論文の理論的結果を改善し,非現実的な仮定の下で収束することが証明されたアルゴリズムが,実際に常に収束することが保証されていることを示す。

We improve a theoretical result of the article "On Exploiting Spectral Properties for Solving MDP with Large State Space" showing that their algorithm, which was proved to converge under some unrealistic assumptions, is actually guaranteed to converge always.
翻訳日:2021-07-21 02:17:12 公開日:2021-07-18
# (参考訳) ICA解析を用いた機械学習を用いた脳波信号からの上腕運動の分類

Classification of Upper Arm Movements from EEG signals using Machine Learning with ICA Analysis ( http://arxiv.org/abs/2107.08514v1 )

ライセンス: CC BY 4.0
Pranali Kokate, Sidharth Pancholi, Amit M. Joshi(参考訳) Brain-Computer Interface Systemは、認知活動の復号に重要な役割を果たす運動活動の実験領域として、大きく発展している。 脳波信号からの認知運動画像活動の分類は重要な課題である。 そこで,多層パーセプトロンニューラルネットワークを用いて左右動作を分類する一意アルゴリズムを提案した。 手作り統計時間領域とパワースペクトル密度周波数領域の特徴を抽出し、96.02%の精度を得た。 結果はディープラーニングフレームワークと比較された。 精度に加えて、精度、F1スコア、リコールがパフォーマンス指標とされた。 望ましくない信号の干渉は、アルゴリズムの性能に影響を与える脳波信号を汚染する。 そこで, 独立成分分析を駆使して成果物を除去する新しい手法が提案され, 性能が向上した。 適切な特徴ベクトルの選択に従えば、許容できる精度が得られる。 同じ手法が全9科目で使用された。 その結果,9被験者94.72%に対して物体内精度が得られた。 その結果,提案手法は上肢運動を正確に分類するのに有用であることが示唆された。

The Brain-Computer Interface system is a profoundly developing area of experimentation for Motor activities which plays vital role in decoding cognitive activities. Classification of Cognitive-Motor Imagery activities from EEG signals is a critical task. Hence proposed a unique algorithm for classifying left/right-hand movements by utilizing Multi-layer Perceptron Neural Network. Handcrafted statistical Time domain and Power spectral density frequency domain features were extracted and obtained a combined accuracy of 96.02%. Results were compared with the deep learning framework. In addition to accuracy, Precision, F1-Score, and recall was considered as the performance metrics. The intervention of unwanted signals contaminates the EEG signals which influence the performance of the algorithm. Therefore, a novel approach was approached to remove the artifacts using Independent Components Analysis which boosted the performance. Following the selection of appropriate feature vectors that provided acceptable accuracy. The same method was used on all nine subjects. As a result, intra-subject accuracy was obtained for 9 subjects 94.72%. The results show that the proposed approach would be useful to classify the upper limb movements accurately.
翻訳日:2021-07-21 02:14:56 公開日:2021-07-18
# (参考訳) 非iidデータを用いたディープニューラルネットワークの分散連合学習

Decentralized federated learning of deep neural networks on non-iid data ( http://arxiv.org/abs/2107.08517v1 )

ライセンス: CC BY-SA 4.0
Noa Onoszko, Gustav Karlsson, Olof Mogren, Edvin Listo Zec(参考訳) 分散環境でパーソナライズされたディープラーニングモデルを学習する非凸問題に対処する。 より具体的には、分散化されたフェデレーション学習、多くのクライアント間でデータが分散され、トレーニングを編成する中央サーバーがないピアツーピア環境について研究する。 実世界のシナリオでは、データ分散はしばしばクライアント間で異質である。 そこで本研究では,非iidクライアントデータを用いたピアツーピアシステムにおいて,モデルを効率的に学習する方法について検討する。 本稿では,類似したデータ分布を持つクライアントが相互に検出し,相互に学習損失を評価し,局所的データ分布に適したモデルを学ぶ,パフォーマンスベースの隣人選択(pens)という手法を提案する。 ベンチマークデータセットを用いた実験により,提案手法は強いベースラインに比べて高い精度を実現できることを示した。

We tackle the non-convex problem of learning a personalized deep learning model in a decentralized setting. More specifically, we study decentralized federated learning, a peer-to-peer setting where data is distributed among many clients and where there is no central server to orchestrate the training. In real world scenarios, the data distributions are often heterogeneous between clients. Therefore, in this work we study the problem of how to efficiently learn a model in a peer-to-peer system with non-iid client data. We propose a method named Performance-Based Neighbor Selection (PENS) where clients with similar data distributions detect each other and cooperate by evaluating their training losses on each other's data to learn a model suitable for the local data distribution. Our experiments on benchmark datasets show that our proposed method is able to achieve higher accuracies as compared to strong baselines.
翻訳日:2021-07-21 02:14:01 公開日:2021-07-18
# (参考訳) 議論のリンク:調査と予測

Argument Linking: A Survey and Forecast ( http://arxiv.org/abs/2107.08523v1 )

ライセンス: CC BY 4.0
William Gantt(参考訳) 意味的役割ラベリング(srl) -- 述語と他の文の構成要素間の意味的関係を識別する -- は、自然言語理解(nlu)においてよく研究されているタスクである。 しかしながら、これらの関係の多くは文書のレベルでのみ明らかであり、ある文における述語の役割は、しばしば別の文における議論によって満たされる。 このより一般的なタスクは暗黙的な意味的役割ラベリングや引数リンクとして知られるが、近年、研究者が情報抽出とnluへの中心性を認識しているため、注目を集めている。 本稿では,議論のリンクに関する文献を調査し,今後の研究に最も利益が期待できる道筋を示す既存アプローチのいくつかの顕著な欠点を明らかにする。

Semantic role labeling (SRL) -- identifying the semantic relationships between a predicate and other constituents in the same sentence -- is a well-studied task in natural language understanding (NLU). However, many of these relationships are evident only at the level of the document, as a role for a predicate in one sentence may often be filled by an argument in a different one. This more general task, known as implicit semantic role labeling or argument linking, has received increased attention in recent years, as researchers have recognized its centrality to information extraction and NLU. This paper surveys the literature on argument linking and identifies several notable shortcomings of existing approaches that indicate the paths along which future research effort could most profitably be spent.
翻訳日:2021-07-21 02:04:04 公開日:2021-07-18
# トップラベル校正

Top-label calibration ( http://arxiv.org/abs/2107.08353v1 )

ライセンス: Link先を確認
Chirag Gupta and Aaditya K. Ramdas(参考訳) マルチクラス分類におけるポストホックキャリブレーションの問題点について検討し,ヒストグラム・バイニングに着目した。 複数の作品は、予測されたクラス(または「トップラベル」)の信頼性に関して校正に焦点を当てている。 信頼度校正(Guo et al., 2017)という一般的な概念は十分に強くない。有意義な方法で校正されていないが、完全に信頼度校正されている予測器が存在する。 本研究では,信頼度校正の直観と単純さを正確に捉えながら,その欠点を解決するトップラベル校正という密接な関連(しかし微妙に異なる)概念を提案する。 我々は,トップラベルのマルチクラスキャリブレーションをバイナリケースに還元するヒストグラムビンニング(HB)アルゴリズムを定式化し,分布仮定なしで理論上の保証をクリーンにし,その実用性について方法論的な研究を行う。 いくつかの予測タスクは、クラス毎や標準キャリブレーションのような、より厳密なマルチクラスキャリブレーションの概念を必要とする。 それぞれの目標に対応する適切なHBアルゴリズムを定式化する。 ディープニューラルネットを用いた実験では、トップラベルとクラスワイズキャリブレーションの両方において、hbの原則付きバージョンが温度スケーリングよりも優れていることが分かりました。 この作業のコードはhttps://github.com/aigen/df-posthoc-calibrationで公開される。

We study the problem of post-hoc calibration for multiclass classification, with an emphasis on histogram binning. Multiple works have focused on calibration with respect to the confidence of just the predicted class (or 'top-label'). We find that the popular notion of confidence calibration [Guo et al., 2017] is not sufficiently strong -- there exist predictors that are not calibrated in any meaningful way but are perfectly confidence calibrated. We propose a closely related (but subtly different) notion, top-label calibration, that accurately captures the intuition and simplicity of confidence calibration, but addresses its drawbacks. We formalize a histogram binning (HB) algorithm that reduces top-label multiclass calibration to the binary case, prove that it has clean theoretical guarantees without distributional assumptions, and perform a methodical study of its practical performance. Some prediction tasks require stricter notions of multiclass calibration such as class-wise or canonical calibration. We formalize appropriate HB algorithms corresponding to each of these goals. In experiments with deep neural nets, we find that our principled versions of HB are often better than temperature scaling, for both top-label and class-wise calibration. Code for this work will be made publicly available at https://github.com/aigen/df-posthoc-calibration.
翻訳日:2021-07-20 15:21:37 公開日:2021-07-18
# 半教師付き学習によるSentinel-1 SAR画像のフラッドセグメンテーション

Flood Segmentation on Sentinel-1 SAR Imagery with Semi-Supervised Learning ( http://arxiv.org/abs/2107.08369v1 )

ライセンス: Link先を確認
Sayak Paul and Siddha Ganju(参考訳) 洪水は世界中に波及し、数十億ドルの損害を与え、地域社会、生態系、経済を先導した。 開放的な洪水地域を直線化し、洪水レベルを特定することを含む正確な洪水検出は、災害の応答と緩和に役立つ。 しかし,浸水地域への物理的アクセスが制限され,潜在的な浸水地帯に機器を配備する能力が危険になるため,遠隔地での浸水レベル推定は極めて重要である。 局所地形による洪水範囲マッピングの調整は、災害対応チームが考慮できる行動計画を提供することができる。 したがって、センチネル-1のような衛星による遠隔での洪水レベルの推定は修復可能である。 The Emerging Techniques in Computational Intelligence (ETCI) competition on Flood Detectionの参加者は、監視された環境で合成開口レーダ(SAR)画像をトレーニングした後、浸水したピクセルを予測した。 我々は,(1)高信頼ラベル付きデータを利用可能な複数のUNetアーキテクチャのアンサンブルモデルをトレーニングし,(2)ラベル付きテストデータセット上で擬似ラベルや低信頼ラベルを生成し,次いで,生成したラベルと従来利用可能な高信頼ラベル付きデータセットを組み合わせる,という2つの段階を含む循環的アプローチを用いる。 この同化データセットは、次のトレーニングアンサンブルモデルで使用される。 この循環過程は、性能改善が高まるまで繰り返される。 さらに,条件付き確率場を用いて結果の処理を行う。 弊社のアプローチは、ETCIコンペティションのリーダーボードのスコアが0.7654 IoUと高い。 トレーニングされたモデルを含むすべてのコードとともにリリースするこのメソッドは、githubのsentinel-1リリースデータセットのオープンサイエンスベンチマークとしても使用できます。

Floods wreak havoc throughout the world, causing billions of dollars in damages, and uprooting communities, ecosystems and economies. Accurate and robust flood detection including delineating open water flood areas and identifying flood levels can aid in disaster response and mitigation. However, estimating flood levels remotely is of essence as physical access to flooded areas is limited and the ability to deploy instruments in potential flood zones can be dangerous. Aligning flood extent mapping with local topography can provide a plan-of-action that the disaster response team can consider. Thus, remote flood level estimation via satellites like Sentinel-1 can prove to be remedial. The Emerging Techniques in Computational Intelligence (ETCI) competition on Flood Detection tasked participants with predicting flooded pixels after training with synthetic aperture radar (SAR) images in a supervised setting. We use a cyclical approach involving two stages (1) training an ensemble model of multiple UNet architectures with available high and low confidence labeled data and, (2) generating pseudo labels or low confidence labels on the unlabeled test dataset, and then, combining the generated labels with the previously available high confidence labeled dataset. This assimilated dataset is used for the next round of training ensemble models. This cyclical process is repeated until the performance improvement plateaus. Additionally, we post process our results with Conditional Random Fields. Our approach sets a high score on the public leaderboard for the ETCI competition with 0.7654 IoU. Our method, which we release with all the code including trained models, can also be used as an open science benchmark for the Sentinel-1 released dataset on GitHub.
翻訳日:2021-07-20 15:20:21 公開日:2021-07-18
# 医用画像のフェデレーション学習におけるデータ不均一性に関する実験的研究

An Experimental Study of Data Heterogeneity in Federated Learning Methods for Medical Imaging ( http://arxiv.org/abs/2107.08371v1 )

ライセンス: Link先を確認
Liangqiong Qu, Niranjan Balachandar and Daniel L Rubin(参考訳) フェデレーション学習は、複数の機関が、プライバシー保護の方法で、ローカルデータ上で機械学習モデルを協調的にトレーニングすることを可能にする。 しかし、その分散性は、しばしば組織間のデータ分散の著しい不均一性をもたらす。 本稿では,データ不均一性体制の分類が,量スキュー,ラベル分布スキュー,画像取得スキューなどのフェデレーション学習方法に与える影響について検討する。 データの不均一度の増加に伴い,性能が低下することを示す。 本稿では,データ量スキューの重み付き平均値,重み付き損失量,ラベル分布スキューのバッチ正規化平均値など,データの不均一性による性能低下を克服するための緩和策を提案する。 フェデレーション学習手法の最適化により,機関間の不均一性を扱う能力が向上し,実際の臨床応用におけるフェデレーション学習の展開に関する貴重なガイダンスが提供される。

Federated learning enables multiple institutions to collaboratively train machine learning models on their local data in a privacy-preserving way. However, its distributed nature often leads to significant heterogeneity in data distributions across institutions. In this paper, we investigate the deleterious impact of a taxonomy of data heterogeneity regimes on federated learning methods, including quantity skew, label distribution skew, and imaging acquisition skew. We show that the performance degrades with the increasing degrees of data heterogeneity. We present several mitigation strategies to overcome performance drops from data heterogeneity, including weighted average for data quantity skew, weighted loss and batch normalization averaging for label distribution skew. The proposed optimizations to federated learning methods improve their capability of handling heterogeneity across institutions, which provides valuable guidance for the deployment of federated learning in real clinical applications.
翻訳日:2021-07-20 15:19:51 公開日:2021-07-18
# 部分概念クラスにおけるPAC学習可能性の理論

A Theory of PAC Learnability of Partial Concept Classes ( http://arxiv.org/abs/2107.08444v1 )

ライセンス: Link先を確認
Noga Alon and Steve Hanneke and Ron Holzman and Shay Moran(参考訳) 我々は、PAC学習の理論を拡張して、学習プロセスを容易にする特別な特性をデータが満たすような、多様な学習タスクをモデル化する。 例えば、決定境界からのデータの距離がゼロから離れたタスクである。 基本的で単純な考え方は部分的概念を考えることである: これらは空間の特定の部分で定義できない関数である。 部分的概念を学習する際には、部分的概念が定義される点のみにソース分布がサポートされると仮定する。 このようにして、より低い次元の表面やマージン条件に横たわるようなデータ上の仮定を自然に表現することができる。 対照的に、そのような仮定が伝統的なpac理論によって表現できるかどうかは明確ではない。 実際、従来のPAC理論では達成できないような、容易に学習できる部分概念クラスを提示する。 これはまた、Attias、Kontorovich、Mansour 2019によって提起された問題も解決する。 部分概念クラスのPAC学習性を特徴付け,従来のものと根本的に異なるアルゴリズム的景観を明らかにする。 例えば、古典的なPACモデルでは、学習は経験的リスク最小化(Empirical Risk Minimization、ERM)へと導かれる。 対照的に、ERMの原理は部分概念クラスの学習可能性を説明するのに失敗する。 実際、非常に簡単に学習できるクラスを実証するが、それらを学ぶアルゴリズムは、無界なVC次元の仮説空間を使わなければならない。 また、この設定では、サンプル圧縮予想が失敗する。 したがって、この理論は従来の方法では表現できない問題や解決できない問題を特徴としている。 我々はこれを、古典理論が説明できない現実的なシナリオにおける学習可能性の性質に関する洞察を提供する証拠として捉えている。

We extend the theory of PAC learning in a way which allows to model a rich variety of learning tasks where the data satisfy special properties that ease the learning process. For example, tasks where the distance of the data from the decision boundary is bounded away from zero. The basic and simple idea is to consider partial concepts: these are functions that can be undefined on certain parts of the space. When learning a partial concept, we assume that the source distribution is supported only on points where the partial concept is defined. This way, one can naturally express assumptions on the data such as lying on a lower dimensional surface or margin conditions. In contrast, it is not at all clear that such assumptions can be expressed by the traditional PAC theory. In fact we exhibit easy-to-learn partial concept classes which provably cannot be captured by the traditional PAC theory. This also resolves a question posed by Attias, Kontorovich, and Mansour 2019. We characterize PAC learnability of partial concept classes and reveal an algorithmic landscape which is fundamentally different than the classical one. For example, in the classical PAC model, learning boils down to Empirical Risk Minimization (ERM). In stark contrast, we show that the ERM principle fails in explaining learnability of partial concept classes. In fact, we demonstrate classes that are incredibly easy to learn, but such that any algorithm that learns them must use an hypothesis space with unbounded VC dimension. We also find that the sample compression conjecture fails in this setting. Thus, this theory features problems that cannot be represented nor solved in the traditional way. We view this as evidence that it might provide insights on the nature of learnability in realistic scenarios which the classical theory fails to explain.
翻訳日:2021-07-20 15:19:21 公開日:2021-07-18
# GoTube: 継続的深さモデルのスケーラブルな確率的検証

GoTube: Scalable Stochastic Verification of Continuous-Depth Models ( http://arxiv.org/abs/2107.08467v1 )

ライセンス: Link先を確認
Sophie Gruenbacher, Mathias Lechner, Ramin Hasani, Daniela Rus, Thomas A. Henzinger, Scott Smolka, Radu Grosu(参考訳) 本稿では,連続深度モデルとして定式化された時間連続プロセスの挙動ロバスト性を正式に定量化する,新しい確率的検証アルゴリズムを提案する。 このアルゴリズムは、与えられた時間的地平線上でのグローバル最適化(Go)問題の集合を解き、初期状態の球から始まる全てのプロセス実行の集合の密閉(Tube)を構築する。 アルゴリズムをゴチューブと呼んでいます 建設を通じて、GoTubeは境界管が望ましい確率まで保守的であることを保証している。 GoTubeはJAXで実装されており、複雑な継続的深度モデルにスケールするために最適化されている。 時間連続ニューラルネットワークの高度な到達性解析ツールと比較すると、GoTubeは時間ステップ間の過度な近似誤差を確実に蓄積せず、象徴的なテクニックに固有の悪名高いラッピング効果を避けることができる。 我々は,GoTubeが実験の大規模なセットにおいて,初期球の大きさ,速度,時間水平,タスク完了,スケーラビリティにおいて,最先端の検証ツールを大幅に上回ることを示す。 GoTubeは安定しており、これまで可能だった以上の時間的地平線までスケールアップする能力の最先端を設定できる。

We introduce a new stochastic verification algorithm that formally quantifies the behavioral robustness of any time-continuous process formulated as a continuous-depth model. The algorithm solves a set of global optimization (Go) problems over a given time horizon to construct a tight enclosure (Tube) of the set of all process executions starting from a ball of initial states. We call our algorithm GoTube. Through its construction, GoTube ensures that the bounding tube is conservative up to a desired probability. GoTube is implemented in JAX and optimized to scale to complex continuous-depth models. Compared to advanced reachability analysis tools for time-continuous neural networks, GoTube provably does not accumulate over-approximation errors between time steps and avoids the infamous wrapping effect inherent in symbolic techniques. We show that GoTube substantially outperforms state-of-the-art verification tools in terms of the size of the initial ball, speed, time-horizon, task completion, and scalability, on a large set of experiments. GoTube is stable and sets the state-of-the-art for its ability to scale up to time horizons well beyond what has been possible before.
翻訳日:2021-07-20 15:18:56 公開日:2021-07-18
# テキストベースゲームの事前知識としての事前学習言語モデル

Pre-trained Language Models as Prior Knowledge for Playing Text-based Games ( http://arxiv.org/abs/2107.08408v1 )

ライセンス: Link先を確認
Ishika Singh and Gargi Singh and Ashutosh Modi(参考訳) 近年, 人工エージェントが現実世界のシナリオを理解し, 推論できるように, テキストワールドゲームが提案されている。 これらのテキストベースのゲームは、部分的に観察可能な環境で自然言語による理解と相互作用を必要とするため、人工エージェントにとって難しい。 本稿では,Deep RLモデルを用いたトランスフォーマーベース言語モデルを用いて,シンプルなRLをLMフレームワークで提案することにより,エージェントの意味的理解を改善する。 我々は、我々のモデルが人気ゲームであるzork1の既存のエージェントを上回って44.7という最新モデルよりも1.6高いスコアを得る方法を示すために、フレームワークの詳細な研究を行います。 提案手法は,他のテキストゲームにおける最先端モデルと同等に機能する。

Recently, text world games have been proposed to enable artificial agents to understand and reason about real-world scenarios. These text-based games are challenging for artificial agents, as it requires understanding and interaction using natural language in a partially observable environment. In this paper, we improve the semantic understanding of the agent by proposing a simple RL with LM framework where we use transformer-based language models with Deep RL models. We perform a detailed study of our framework to demonstrate how our model outperforms all existing agents on the popular game, Zork1, to achieve a score of 44.7, which is 1.6 higher than the state-of-the-art model. Our proposed approach also performs comparably to the state-of-the-art models on the other set of text games.
翻訳日:2021-07-20 15:18:09 公開日:2021-07-18
# 小規模なトレーニングと大規模プレイ - alphazeroとgnnによるボードゲームをスケールアップ

Train on Small, Play the Large: Scaling Up Board Games with AlphaZero and GNN ( http://arxiv.org/abs/2107.08387v1 )

ライセンス: Link先を確認
Shai Ben-Assayag, Ran El-Yaniv(参考訳) ボードゲームをするのは、人間とAI研究者の両方にとって大きな課題だと考えられている。 複雑なボードゲームは学ぶのは非常に難しいため、人間は通常、小さなボードでプレーすることから始まり、より大きなボード戦略を徐々に習得する。 現在ボードゲームをしているほとんどのニューラルネットワークフレームワークは、このような漸進的な学習も、自動スケールアップ機能を持たない。 この研究では、ボードをグラフとして見て、AlphaZeroフレームワーク内のグラフニューラルネットワークアーキテクチャと、その他の革新的な改善点を組み合わせる。 scalablealphazeroは小さなボード上でインクリメンタルにプレイすることを学び、大きなボードでプレイすることを進めることができます。 私たちのモデルは、ドメイン知識を使わずに、複数のボードサイズで異なる挑戦的なボードゲームをプレイするように、迅速にトレーニングすることができます。 scalablealphazeroの有効性を実証し、例えば、小さなothelloボード上でわずか3日間トレーニングすることで、大きなボード上でalphazeroモデルを破ることができることを示した。

Playing board games is considered a major challenge for both humans and AI researchers. Because some complicated board games are quite hard to learn, humans usually begin with playing on smaller boards and incrementally advance to master larger board strategies. Most neural network frameworks that are currently tasked with playing board games neither perform such incremental learning nor possess capabilities to automatically scale up. In this work, we look at the board as a graph and combine a graph neural network architecture inside the AlphaZero framework, along with some other innovative improvements. Our ScalableAlphaZero is capable of learning to play incrementally on small boards, and advancing to play on large ones. Our model can be trained quickly to play different challenging board games on multiple board sizes, without using any domain knowledge. We demonstrate the effectiveness of ScalableAlphaZero and show, for example, that by training it for only three days on small Othello boards, it can defeat the AlphaZero model on a large board, which was trained to play the large board for $30$ days.
翻訳日:2021-07-20 15:17:31 公開日:2021-07-18
# minecraftにおける教師なしスキル発見とスキル学習

Unsupervised Skill-Discovery and Skill-Learning in Minecraft ( http://arxiv.org/abs/2107.08398v1 )

ライセンス: Link先を確認
Juan Jos\'e Nieto, Roger Creus and Xavier Giro-i-Nieto(参考訳) プレトレーニング強化学習エージェントは,タスク非依存の方法で,有望な結果を示した。 しかし、以前の作品は、ピクセル空間のような高次元状態空間における有意義なスキルの習得や発見に苦慮している。 我々は,教師なしスキル発見と自己教師なし状態表現学習を用いてこの問題にアプローチする。 本研究では,変動的およびコントラスト的手法を用いて,コンパクトな潜在表現を学習する。 情報理論の目的を最大化することにより,RLエージェントが基本的なナビゲーションスキルを習得できることを実証する。 複雑度が異なるMinecraft 3D ピクセルマップで本手法を評価する。 以上の結果から,画素から学習した表現や条件付きポリシーはおもちゃの例では十分だが,現実的で複雑な地図には拡張できないことがわかった。 これらの限界を克服するために,エージェントの相対位置や生のピクセルといった別の入力観測を探索する。

Pre-training Reinforcement Learning agents in a task-agnostic manner has shown promising results. However, previous works still struggle in learning and discovering meaningful skills in high-dimensional state-spaces, such as pixel-spaces. We approach the problem by leveraging unsupervised skill discovery and self-supervised learning of state representations. In our work, we learn a compact latent representation by making use of variational and contrastive techniques. We demonstrate that both enable RL agents to learn a set of basic navigation skills by maximizing an information theoretic objective. We assess our method in Minecraft 3D pixel maps with different complexities. Our results show that representations and conditioned policies learned from pixels are enough for toy examples, but do not scale to realistic and complex maps. To overcome these limitations, we explore alternative input observations such as the relative position of the agent along with the raw pixels.
翻訳日:2021-07-20 15:17:12 公開日:2021-07-18
# 高価なモデルのための圧縮粒子法と天文学・リモートセンシングへの応用

Compressed particle methods for expensive models with application in Astronomy and Remote Sensing ( http://arxiv.org/abs/2107.08465v1 )

ライセンス: Link先を確認
Luca Martino, V\'ictor Elvira, Javier L\'opez-Santiago, Gustau Camps-Valls(参考訳) 多くの推論問題では、複雑でコストのかかるモデルの評価がしばしば必要となる。 この文脈において、ベイズ法はパラメータの逆転、モデル選択、不確かさの定量化を得るために、過去数年間にいくつかの分野で非常に人気がある。 ベイズ推論は(しばしばコストのかかる)後続分布を含む複雑な積分の近似を必要とする。 一般に、この近似はモンテカルロ法(mc法)によって得られる。 対応する手法の計算コストを削減するために、サロゲートモデル(エミュレータとも呼ばれる)がしばしば用いられる。 もう1つのアプローチは、いわゆる近似ベイズ計算(ABC)方式である。 ABCは高価なモデルの評価を必要とせず、そのモデルに従って人工データをシミュレートすることができる。 さらに、ABCでは、実データと人工データの間の適切な距離の選択も必要である。 そこで本研究では,高コストモデルを評価するための新しい手法を提案する。 これらのノードの選択は、いわゆる圧縮モンテカルロ(CMC)方式に基づいている。 提案手法は,いくつかの数値実験において,提案手法の性能に関する実証的な証拠を与える。 2つは天文学と衛星リモートセンシングにおける実世界の応用である。

In many inference problems, the evaluation of complex and costly models is often required. In this context, Bayesian methods have become very popular in several fields over the last years, in order to obtain parameter inversion, model selection or uncertainty quantification. Bayesian inference requires the approximation of complicated integrals involving (often costly) posterior distributions. Generally, this approximation is obtained by means of Monte Carlo (MC) methods. In order to reduce the computational cost of the corresponding technique, surrogate models (also called emulators) are often employed. Another alternative approach is the so-called Approximate Bayesian Computation (ABC) scheme. ABC does not require the evaluation of the costly model but the ability to simulate artificial data according to that model. Moreover, in ABC, the choice of a suitable distance between real and artificial data is also required. In this work, we introduce a novel approach where the expensive model is evaluated only in some well-chosen samples. The selection of these nodes is based on the so-called compressed Monte Carlo (CMC) scheme. We provide theoretical results supporting the novel algorithms and give empirical evidence of the performance of the proposed method in several numerical experiments. Two of them are real-world applications in astronomy and satellite remote sensing.
翻訳日:2021-07-20 15:13:04 公開日:2021-07-18
# エッジCNNアプリケーションのための高性能適応量子化手法

A High-Performance Adaptive Quantization Approach for Edge CNN Applications ( http://arxiv.org/abs/2107.08382v1 )

ライセンス: Link先を確認
Hsu-Hsun Chin, Ren-Song Tsay, Hsin-I Wu(参考訳) 最近の畳み込みニューラルネットワーク(CNN)開発は、様々なアプリケーションに対する最先端モデル精度を推し進めている。 しかしながら、精度の強化は、メモリ帯域幅とストレージ要件のかなりのコストと計算リソースの要求によって実現される。 これまで、量子化手法はエッジデバイスの展開コストを効果的に削減してきたが、現代のcnnの偏りのあるアクティベーションを処理する場合、かなりの情報損失を被っている。 そこで本稿では,タスク損失に基づくスケーリングとシフト係数を動的に調整することにより,バイアス付アクティベーションの問題を解決するための適応型高性能量子化手法を提案する。 提案手法は,イメージネットデータセットを用いた画像分類モデル(ResNet-18/34/50,MobileNet-V2,EfficientNet-B0),COCOデータセットを用いたオブジェクト検出モデル(YOLO-V4),TBデータセットを用いた言語モデルで広く評価されている。 その結果、我々の4ビット整数量子化モデル(INT4)は最先端の4ビットモデルよりも精度が良く、場合によっては黄金の完全精度モデルを超えていることがわかった。 最終的な設計は、多くの実用用途のために非常にリソースに制約されたエッジデバイスにうまく展開されている。

Recent convolutional neural network (CNN) development continues to advance the state-of-the-art model accuracy for various applications. However, the enhanced accuracy comes at the cost of substantial memory bandwidth and storage requirements and demanding computational resources. Although in the past the quantization methods have effectively reduced the deployment cost for edge devices, it suffers from significant information loss when processing the biased activations of contemporary CNNs. In this paper, we hence introduce an adaptive high-performance quantization method to resolve the issue of biased activation by dynamically adjusting the scaling and shifting factors based on the task loss. Our proposed method has been extensively evaluated on image classification models (ResNet-18/34/50, MobileNet-V2, EfficientNet-B0) with ImageNet dataset, object detection model (YOLO-V4) with COCO dataset, and language models with PTB dataset. The results show that our 4-bit integer (INT4) quantization models achieve better accuracy than the state-of-the-art 4-bit models, and in some cases, even surpass the golden full-precision models. The final designs have been successfully deployed onto extremely resource-constrained edge devices for many practical applications.
翻訳日:2021-07-20 15:12:50 公開日:2021-07-18
# LSTMを用いたビデオ検出のためのステップサンプリング法

A stepped sampling method for video detection using LSTM ( http://arxiv.org/abs/2107.08471v1 )

ライセンス: Link先を確認
Dengshan Li, Rujing Wang, Chengjun Xie(参考訳) 人間をシミュレートする人工ニューラルネットワークは大きな成功を収める。 人間の記憶のシミュレーションの観点から「繰り返し入力」に基づく段階的なサンプリング手法を提案する。 我々はLSTMモデルにデータを段階的にバッチで繰り返し入力した。 ステップサンプリング器は、LSTM内の時間情報を融合する能力を強化するために使用される。 PyTorchのLSTMビルトインでステップサンプルをテストした。 逐次サンプリング器,バッチサンプリング器などの従来のPyTorchサンプル器と比較して,提案した段差サンプル器のトレーニング損失はモデルのトレーニングにおいてより早く収束し,収束後のトレーニング損失はより安定である。 一方、高いテスト精度を維持することができる。 ステップサンプリングのアルゴリズムを定量化した。

Artificial neural networks that simulate human achieves great successes. From the perspective of simulating human memory method, we propose a stepped sampler based on the "repeated input". We repeatedly inputted data to the LSTM model stepwise in a batch. The stepped sampler is used to strengthen the ability of fusing the temporal information in LSTM. We tested the stepped sampler on the LSTM built-in in PyTorch. Compared with the traditional sampler of PyTorch, such as sequential sampler, batch sampler, the training loss of the proposed stepped sampler converges faster in the training of the model, and the training loss after convergence is more stable. Meanwhile, it can maintain a higher test accuracy. We quantified the algorithm of the stepped sampler.
翻訳日:2021-07-20 15:12:26 公開日:2021-07-18
# DeHumor: Humorを分解するビジュアルアナリティクス

DeHumor: Visual Analytics for Decomposing Humor ( http://arxiv.org/abs/2107.08356v1 )

ライセンス: Link先を確認
Xingbo Wang, Yao Ming, Tongshuang Wu, Haipeng Zeng, Yong Wang, Huamin Qu(参考訳) 重要なコミュニケーションスキルであるにもかかわらず、ユーモアの把握は難しい -- ユーモアをうまく活用するには、エンゲージメントなコンテンツ構築と適切な発声(例えば、一時停止)の混合が必要である。 計算ユーモアに関する以前の研究は、パンチラインのすぐ隣にあるテキストとオーディオの特徴を強調したが、長期的なコンテキスト設定は見落としている。 さらに、理論は通常、個々の具体的なユーモアスニペットを理解するには抽象的すぎる。 このギャップを埋めるために,公言におけるユーモラスな行動を分析する視覚分析システムであるDeHumorを開発した。 具体例のビルディングブロックを直感的に明らかにするために、dehumorは各ユーモラスなビデオをマルチモーダルな特徴に分解し、そのインラインアノテーションをビデオスクリプトに提供する。 具体的には,コンテントの反復を,計算ユーモア理論に導入された機能の補足として導入し,それらをコンテキストリンクグラフで可視化する。 ユーザが学習すべき機能を持つパンチラインを見つけるのを助けるために、コンテンツ(キーワード付き)とユーモアの特徴統計を拡張時間行列に要約する。 スタンドアップコメディ番組やTEDトークのケーススタディでは、DeHumorがユーモアのユーモアのユーモアの様々な構成要素を強調できることを示す。 さらに、コミュニケーションコーチやユーモア研究者との専門家インタビューは、音声コンテンツと発声のマルチモーダルなユーモア分析におけるDeHumorの有効性を示した。

Despite being a critical communication skill, grasping humor is challenging -- a successful use of humor requires a mixture of both engaging content build-up and an appropriate vocal delivery (e.g., pause). Prior studies on computational humor emphasize the textual and audio features immediately next to the punchline, yet overlooking longer-term context setup. Moreover, the theories are usually too abstract for understanding each concrete humor snippet. To fill in the gap, we develop DeHumor, a visual analytical system for analyzing humorous behaviors in public speaking. To intuitively reveal the building blocks of each concrete example, DeHumor decomposes each humorous video into multimodal features and provides inline annotations of them on the video script. In particular, to better capture the build-ups, we introduce content repetition as a complement to features introduced in theories of computational humor and visualize them in a context linking graph. To help users locate the punchlines that have the desired features to learn, we summarize the content (with keywords) and humor feature statistics on an augmented time matrix. With case studies on stand-up comedy shows and TED talks, we show that DeHumor is able to highlight various building blocks of humor examples. In addition, expert interviews with communication coaches and humor researchers demonstrate the effectiveness of DeHumor for multimodal humor analysis of speech content and vocal delivery.
翻訳日:2021-07-20 15:11:08 公開日:2021-07-18
# 欧州中央銀行の統計生産システムにおける説明可能なaiのデシデラタ

Desiderata for Explainable AI in statistical production systems of the European Central Bank ( http://arxiv.org/abs/2107.08045v1 )

ライセンス: Link先を確認
Carlos Mougan Navarro, Georgios Kanellos, Thomas Gottron(参考訳) 説明可能なAIは、アルゴリズムによる意思決定において公正性を確立し、バイアスに対処するための基本的なステップである。 このトピックに関する多くの研究にもかかわらず、ソリューションの利点は概念的あるいは理論的観点から評価され、現実世界のユースケースの有用性は依然として不明である。 本研究では,欧州中央銀行の統計生産システムで経験される一般的な説明可能性の必要性を反映した,説明可能なAIのための明確なユーザ中心のデシラタについて述べる。 我々は,desiderata とarchetypical user role をリンクし,ユーザニーズに対応するためのテクニックや手法の例を示す。 この目的のために、中央銀行における統計データ生産の領域から、中央証券データベースにおける外れ値の検出と、監督銀行データシステムにおけるデータ品質チェックのデータ駆動識別という2つの具体的なユースケースを提供する。

Explainable AI constitutes a fundamental step towards establishing fairness and addressing bias in algorithmic decision-making. Despite the large body of work on the topic, the benefit of solutions is mostly evaluated from a conceptual or theoretical point of view and the usefulness for real-world use cases remains uncertain. In this work, we aim to state clear user-centric desiderata for explainable AI reflecting common explainability needs experienced in statistical production systems of the European Central Bank. We link the desiderata to archetypical user roles and give examples of techniques and methods which can be used to address the user's needs. To this end, we provide two concrete use cases from the domain of statistical data production in central banks: the detection of outliers in the Centralised Securities Database and the data-driven identification of data quality checks for the Supervisory Banking data system.
翻訳日:2021-07-20 15:09:42 公開日:2021-07-18
# グループフェアネスに対するニューラルネットワークの確率的検証

Probabilistic Verification of Neural Networks Against Group Fairness ( http://arxiv.org/abs/2107.08362v1 )

ライセンス: Link先を確認
Bing Sun, Jun Sun, Ting Dai, Lijun Zhang(参考訳) フェアネスは、重要な社会的意味を持つアプリケーションで使用されるニューラルネットワークにとって重要である。 近年、ニューラルネットワークの公正性を改善するための複数の試みがあり、公正性テスト(例えば、個々の識別インスタンスの生成)と公正性トレーニング(例えば、強化トレーニングによる公正性の向上)に焦点を当てている。 本研究では,グループフェアネスのような独立性に基づく公平性に着目し,公平性に対するニューラルネットワークの形式的検証手法を提案する。 提案手法は,音声解析を容易にするために保証される,ユーザが提供するニューラルネットワーク(フィードフォワードニューラルネットワークやリカレントニューラルネットワーク)からマルコフ連鎖を学習するためのアプローチに基づいている。 学習したMarkov Chainは、ニューラルネットワークが公正かどうかの検証(おそらく近似正当性を保証する)を可能にするだけでなく、公正性に違反する理由を理解するための施設感度分析も可能にする。 分析結果から,神経重みは公平性を改善するために最適化できることを実証する。 ベンチマークデータセットでトレーニングされた複数のモデルを用いて評価を行い,実験結果から,本手法は効率的かつ効率的であることが判明した。

Fairness is crucial for neural networks which are used in applications with important societal implication. Recently, there have been multiple attempts on improving fairness of neural networks, with a focus on fairness testing (e.g., generating individual discriminatory instances) and fairness training (e.g., enhancing fairness through augmented training). In this work, we propose an approach to formally verify neural networks against fairness, with a focus on independence-based fairness such as group fairness. Our method is built upon an approach for learning Markov Chains from a user-provided neural network (i.e., a feed-forward neural network or a recurrent neural network) which is guaranteed to facilitate sound analysis. The learned Markov Chain not only allows us to verify (with Probably Approximate Correctness guarantee) whether the neural network is fair or not, but also facilities sensitivity analysis which helps to understand why fairness is violated. We demonstrate that with our analysis results, the neural weights can be optimized to improve fairness. Our approach has been evaluated with multiple models trained on benchmark datasets and the experiment results show that our approach is effective and efficient.
翻訳日:2021-07-20 15:08:37 公開日:2021-07-18
# 因果推論に関する位相的視点

A Topological Perspective on Causal Inference ( http://arxiv.org/abs/2107.08558v1 )

ライセンス: Link先を確認
Duligur Ibeling, Thomas Icard(参考訳) 本稿では、構造因果モデル(SCM)の一般空間上で定義された一連のトポロジを導入することにより、因果推論に関するトポロジ的学習論的視点を示す。 フレームワークの例示として、我々は位相的因果階層定理を証明し、仮定なし因果推論は単純なscmのセットでのみ可能であることを示した。 弱トポロジーにおける開集合と統計的に検証可能な仮説との既知の対応により、有効な因果推論をライセンスするのに十分な帰納的仮定は、原理的に統計的に検証不可能であることを示す。 統計的推論のための無自由ルンチ定理と同様に, 因果推論に対する実質的な仮定の必然性を明らかにする。 我々のトポロジカルアプローチのさらなる利点は、無限個の変数を持つSCMを容易に対応できることである。 最後に、このフレームワークは、代替因果的仮定を探求し、評価するポジティブなプロジェクトに役立つかもしれないと提案する。

This paper presents a topological learning-theoretic perspective on causal inference by introducing a series of topologies defined on general spaces of structural causal models (SCMs). As an illustration of the framework we prove a topological causal hierarchy theorem, showing that substantive assumption-free causal inference is possible only in a meager set of SCMs. Thanks to a known correspondence between open sets in the weak topology and statistically verifiable hypotheses, our results show that inductive assumptions sufficient to license valid causal inferences are statistically unverifiable in principle. Similar to no-free-lunch theorems for statistical inference, the present results clarify the inevitability of substantial assumptions for causal inference. An additional benefit of our topological approach is that it easily accommodates SCMs with infinitely many variables. We finally suggest that the framework may be helpful for the positive project of exploring and assessing alternative causal-inductive assumptions.
翻訳日:2021-07-20 15:08:19 公開日:2021-07-18
# 精度、プライバシ、信頼性に関する差分プライベートベイズニューラルネットワーク

Differentially Private Bayesian Neural Networks on Accuracy, Privacy and Reliability ( http://arxiv.org/abs/2107.08461v1 )

ライセンス: Link先を確認
Qiyiwen Zhang, Zhiqi Bu, Kan Chen, Qi Long(参考訳) ベイジアンニューラルネットワーク(BNN)は、予測における不確実な定量化を可能にし、差分プライバシ(DP)フレームワークで検討されていない通常のニューラルネットワークよりも有利である。 ベイジアンディープラーニングとプライバシ会計の最近の発展を活用して、BNNのプライバシーと精度のトレードオフをより正確に分析することで、この重要なギャップを埋める。 本稿では,同一ネットワークアーキテクチャの重み不確かさを異なる方法で特徴付ける3つのDP-BNN,すなわち,DP-SGLD(雑音勾配法),DP-BBP(利害パラメータの変更),DP-MC Dropout(モデルアーキテクチャ)を提案する。 興味深いことに,dp-sgd と dp-sgld の新たな等価性を示し,非ベイズ型 dp トレーニングが自然に不確実性定量化を可能にすることを示唆する。 しかし、学習速度やバッチサイズなどのハイパーパラメータは、DP-SGDとDP-SGLDでは異なる、あるいは反対の効果を持つ。 プライバシ保証,予測精度,不確実性定量化,キャリブレーション,計算速度,ネットワークアーキテクチャへの一般化性の観点から,dp-bnnの比較を行った。 その結果,プライバシと信頼性の新たなトレードオフが観察された。 非DPおよび非ベイズ的アプローチと比較して、DP-SGLDは強力なプライバシー保証の下で極めて正確であり、現実のタスクにおけるDP-BNNの大きな可能性を示している。

Bayesian neural network (BNN) allows for uncertainty quantification in prediction, offering an advantage over regular neural networks that has not been explored in the differential privacy (DP) framework. We fill this important gap by leveraging recent development in Bayesian deep learning and privacy accounting to offer a more precise analysis of the trade-off between privacy and accuracy in BNN. We propose three DP-BNNs that characterize the weight uncertainty for the same network architecture in distinct ways, namely DP-SGLD (via the noisy gradient method), DP-BBP (via changing the parameters of interest) and DP-MC Dropout (via the model architecture). Interestingly, we show a new equivalence between DP-SGD and DP-SGLD, implying that some non-Bayesian DP training naturally allows for uncertainty quantification. However, the hyperparameters such as learning rate and batch size, can have different or even opposite effects in DP-SGD and DP-SGLD. Extensive experiments are conducted to compare DP-BNNs, in terms of privacy guarantee, prediction accuracy, uncertainty quantification, calibration, computation speed, and generalizability to network architecture. As a result, we observe a new tradeoff between the privacy and the reliability. When compared to non-DP and non-Bayesian approaches, DP-SGLD is remarkably accurate under strong privacy guarantee, demonstrating the great potential of DP-BNN in real-world tasks.
翻訳日:2021-07-20 15:07:21 公開日:2021-07-18
# 関連知識と目標に基づく確率的検索型チャットボット

Proactive Retrieval-based Chatbots based on Relevant Knowledge and Goals ( http://arxiv.org/abs/2107.08329v1 )

ライセンス: Link先を確認
Yutao Zhu, Jian-Yun Nie, Kun Zhou, Pan Du, Hao Jiang, Zhicheng Dou(参考訳) プロアクティブ対話システムは、会話を積極的にリードする能力を有する。 ユーザにのみ反応する一般的なチャットボットとは異なり、プロアクティブな対話システムは、例えば、ユーザーにいくつかのアイテムを推奨するために、いくつかの目標を達成するために使用できる。 背景知識は対話において滑らかで自然な遷移を可能にするために不可欠である。 本稿では,検索型知識接地プロアクティブ対話のためのマルチタスク学習フレームワークを提案する。 使用すべき知識を決定するために,知識予測を補完的なタスクとし,学習を監督するために明示的な信号を使用する。 最終的な応答は、予測された知識、達成の目標、コンテキストに応じて選択される。 実験の結果,知識予測と目標選択の明示的なモデル化は最終応答選択を大幅に改善できることがわかった。 私たちのコードはhttps://github.com/DaoD/KPN/で利用可能です。

A proactive dialogue system has the ability to proactively lead the conversation. Different from the general chatbots which only react to the user, proactive dialogue systems can be used to achieve some goals, e.g., to recommend some items to the user. Background knowledge is essential to enable smooth and natural transitions in dialogue. In this paper, we propose a new multi-task learning framework for retrieval-based knowledge-grounded proactive dialogue. To determine the relevant knowledge to be used, we frame knowledge prediction as a complementary task and use explicit signals to supervise its learning. The final response is selected according to the predicted knowledge, the goal to achieve, and the context. Experimental results show that explicit modeling of knowledge prediction and goal selection can greatly improve the final response selection. Our code is available at https://github.com/DaoD/KPN/.
翻訳日:2021-07-20 15:04:10 公開日:2021-07-18
# 時間応答集合を持つELオントロジーによる行動の推論

Reasoning about actions with EL ontologies with temporal answer sets ( http://arxiv.org/abs/2107.08403v1 )

ライセンス: Link先を確認
Laura Giordano, Alberto Martelli, and Daniele Theseider Dupr\'e(参考訳) 本稿では,軽量な記述論理 EL^\bot で表される存在論的知識を含むドメイン記述による行動の推論のためのアンサーセットプログラミングに基づくアプローチを提案する。 我々は,非決定論的行動と因果規則が分岐に対処し,その拡張が時間的応答集合によって定義される時間的行動理論を考える。 EL^\botナレッジベース(正規形)で拡張されたアクション理論の多項式符号化を時間的アクション理論にすることで、オントロジーに関してアクション一貫性を保証できる条件を提供する。

We propose an approach based on Answer Set Programming for reasoning about actions with domain descriptions including ontological knowledge, expressed in the lightweight description logic EL^\bot. We consider a temporal action theory, which allows for non-deterministic actions and causal rules to deal with ramifications, and whose extensions are defined by temporal answer sets. We provide conditions under which action consistency can be guaranteed with respect to an ontology, by a polynomial encoding of an action theory extended with an EL^\bot knowledge base (in normal form) into a temporal action theory.
翻訳日:2021-07-20 15:02:38 公開日:2021-07-18
# AS-MLP: ビジョンのための軸シフト型MLPアーキテクチャ

AS-MLP: An Axial Shifted MLP Architecture for Vision ( http://arxiv.org/abs/2107.08391v1 )

ライセンス: Link先を確認
Dongze Lian, Zehao Yu, Xing Sun, Shenghua Gao(参考訳) 本稿では,Axial Shifted MLPアーキテクチャ(AS-MLP)を提案する。 MLP-Mixerとは違い,グローバルな空間的特徴が行列変換と1つのトークンミキシングによる情報フローに符号化されているため,局所的な特徴通信に注意が払われる。 特徴写像のチャネルを軸方向にシフトすることで、AS-MLPは異なる軸方向から情報の流れを得ることができ、局所的な依存関係を捉えることができる。 このような操作により、純粋なMLPアーキテクチャを使用して、CNN的なアーキテクチャと同じ局所受容場を実現することができる。 また、畳み込みカーネルの設計と同じように、AS-MLPなどのブロックの受容的フィールドサイズや拡張を設計することもできる。 提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。 このような単純で効果的なアーキテクチャは全てのMLPベースのアーキテクチャより優れており、少し低いFLOPでもトランスフォーマーベースのアーキテクチャ(Swin Transformerなど)と比較して競争性能が優れている。 さらに、AS-MLPは下流タスク(オブジェクト検出やセマンティックセグメンテーションなど)に適用される最初のMLPベースのアーキテクチャである。 実験結果も印象的だ。 提案したAS-MLPは,COCO検証セットで51.5 mAP,ADE20Kデータセットで49.5 MS mIoUを得る。 コードはhttps://github.com/svip-lab/AS-MLP.comで入手できる。

An Axial Shifted MLP architecture (AS-MLP) is proposed in this paper. Different from MLP-Mixer, where the global spatial feature is encoded for the information flow through matrix transposition and one token-mixing MLP, we pay more attention to the local features communication. By axially shifting channels of the feature map, AS-MLP is able to obtain the information flow from different axial directions, which captures the local dependencies. Such an operation enables us to utilize a pure MLP architecture to achieve the same local receptive field as CNN-like architecture. We can also design the receptive field size and dilation of blocks of AS-MLP, etc, just like designing those of convolution kernels. With the proposed AS-MLP architecture, our model obtains 83.3% Top-1 accuracy with 88M parameters and 15.2 GFLOPs on the ImageNet-1K dataset. Such a simple yet effective architecture outperforms all MLP-based architectures and achieves competitive performance compared to the transformer-based architectures (e.g., Swin Transformer) even with slightly lower FLOPs. In addition, AS-MLP is also the first MLP-based architecture to be applied to the downstream tasks (e.g., object detection and semantic segmentation). The experimental results are also impressive. Our proposed AS-MLP obtains 51.5 mAP on the COCO validation set and 49.5 MS mIoU on the ADE20K dataset, which is competitive compared to the transformer-based architectures. Code is available at https://github.com/svip-lab/AS-MLP.
翻訳日:2021-07-20 15:00:27 公開日:2021-07-18
# 3次元クラウドインスタンスセグメンテーションのための動的畳み込み

Dynamic Convolution for 3D Point Cloud Instance Segmentation ( http://arxiv.org/abs/2107.08392v1 )

ライセンス: Link先を確認
Tong He, Chunhua Shen, Anton van den Hengel(参考訳) 動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。 これにより、推論において、さまざまな機能やオブジェクトスケールに適応することができる。 例えば、ハイパーパラメータチューニングやヒューリスティックな後処理パイプラインに依存して、単一のシーン内であっても、オブジェクトサイズの避けられない変動を補償する、という方法だ。 ネットワークの表現能力は、同じ意味圏を持つ均質な点を収集し、幾何中心体に対する近接投票を行うことで大幅に向上する。 インスタンスはいくつかの単純な畳み込みレイヤを通じてデコードされ、そこでパラメータは入力に条件付きで生成される。 提案手法は提案なしであり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。 ボトルネック層上に構築された軽量トランスフォーマーにより、計算オーバーヘッドが制限された長い範囲の依存関係をキャプチャできる。 その結果、ScanNetV2、S3DIS、PartNetといったさまざまなデータセット上で、シンプルで効率的で堅牢なアプローチが実現した。 ボクセルおよび点ベースアーキテクチャにおける一貫した改良により,提案手法の有効性が示唆された。 https://git.io/dyco3d

We propose an approach to instance segmentation from 3D point clouds based on dynamic convolution. This enables it to adapt, at inference, to varying feature and object scales. Doing so avoids some pitfalls of bottom up approaches, including a dependence on hyper-parameter tuning and heuristic post-processing pipelines to compensate for the inevitable variability in object sizes, even within a single scene. The representation capability of the network is greatly improved by gathering homogeneous points that have identical semantic categories and close votes for the geometric centroids. Instances are then decoded via several simple convolution layers, where the parameters are generated conditioned on the input. The proposed approach is proposal-free, and instead exploits a convolution process that adapts to the spatial and semantic characteristics of each instance. A light-weight transformer, built on the bottleneck layer, allows the model to capture long-range dependencies, with limited computational overhead. The result is a simple, efficient, and robust approach that yields strong performance on various datasets: ScanNetV2, S3DIS, and PartNet. The consistent improvements on both voxel- and point-based architectures imply the effectiveness of the proposed method. Code is available at: https://git.io/DyCo3D
翻訳日:2021-07-20 14:59:58 公開日:2021-07-18
# ポイントワイズ・スーパービジョンを用いた医用シークエンスセグメンテーションのための正・負のアプローチ

A Positive/Unlabeled Approach for the Segmentation of Medical Sequences using Point-Wise Supervision ( http://arxiv.org/abs/2107.08394v1 )

ライセンス: Link先を確認
Laurent Lejeune, Raphael Sznitman(参考訳) 医用画像データを素早くアノテートする能力は、セグメンテーションのためのディープラーニングフレームワークの訓練において重要な役割を果たす。 画像のボリュームやビデオのシーケンスは、それらに注釈を付けると、さらに重荷になる。 そこで本研究では, 医用画像のボリュームや映像をポイントワイズアノテーションのみを用いて効率的に分割する手法を提案する。 これにより、アノテーションを非常に迅速に収集でき、多くのセグメンテーションタスクに適用できる。 提案手法は,スパースポイントワイドアノテーションを用いて,適切なポジティブ/アンラベル対象関数を用いてディープラーニングモデルを訓練する。 本手法では,データ中の正のサンプルの割合をa-prioriと仮定することが多いが,ベイズ推定フレームワークと新たな停止基準を組み合わせることにより,事前推定を効率的に行うための新しい自己教師あり手法を提案する。 本手法は,適切なクラスプリエントを反復的に推定し,様々なオブジェクトタイプやイメージングモダリティに対して高いセグメンテーション品質を与える。 さらに,時空間追跡フレームワークを活用することで,全データ量を活用することで予測を定式化する。 我々は,本手法が同じ問題に適した最先端手法より優れていることを示す。

The ability to quickly annotate medical imaging data plays a critical role in training deep learning frameworks for segmentation. Doing so for image volumes or video sequences is even more pressing as annotating these is particularly burdensome. To alleviate this problem, this work proposes a new method to efficiently segment medical imaging volumes or videos using point-wise annotations only. This allows annotations to be collected extremely quickly and remains applicable to numerous segmentation tasks. Our approach trains a deep learning model using an appropriate Positive/Unlabeled objective function using sparse point-wise annotations. While most methods of this kind assume that the proportion of positive samples in the data is known a-priori, we introduce a novel self-supervised method to estimate this prior efficiently by combining a Bayesian estimation framework and new stopping criteria. Our method iteratively estimates appropriate class priors and yields high segmentation quality for a variety of object types and imaging modalities. In addition, by leveraging a spatio-temporal tracking framework, we regularize our predictions by leveraging the complete data volume. We show experimentally that our approach outperforms state-of-the-art methods tailored to the same problem.
翻訳日:2021-07-20 14:59:38 公開日:2021-07-18
# 機能マイニング:畳み込みニューラルネットワークのための新しいトレーニング戦略

Feature Mining: A Novel Training Strategy for Convolutional Neural Network ( http://arxiv.org/abs/2107.08421v1 )

ライセンス: Link先を確認
Tianshu Xie, Xuan Cheng, Xiaomin Wang, Minghui Liu, Jiali Deng, Ming Liu(参考訳) 本稿では,局所的特徴に対するネットワークの学習を強化することを目的とした,畳み込みニューラルネットワーク(CNN)の新たなトレーニング戦略であるFeature Miningを提案する。 実験により、特徴の異なる部分に含まれる意味は異なるが、ネットワークはフィードフォワードの伝搬中に必然的にローカル情報を失うことが判明した。 局所的特徴の学習を強化するため,特徴マイニングでは,完全特徴を2つの補完的部分に分け,これらの分割特徴を再利用して,より局所的情報をネットワークに提供し,特徴分割と特徴再利用と呼ぶ。 特徴マイニングはパラメータフリーな手法であり、プラグアンドプレイの性質を持ち、任意のcnnモデルに適用することができる。 広範な実験により,本手法の適用性,汎用性,互換性が実証された。

In this paper, we propose a novel training strategy for convolutional neural network(CNN) named Feature Mining, that aims to strengthen the network's learning of the local feature. Through experiments, we find that semantic contained in different parts of the feature is different, while the network will inevitably lose the local information during feedforward propagation. In order to enhance the learning of local feature, Feature Mining divides the complete feature into two complementary parts and reuse these divided feature to make the network learn more local information, we call the two steps as feature segmentation and feature reusing. Feature Mining is a parameter-free method and has plug-and-play nature, and can be applied to any CNN models. Extensive experiments demonstrate the wide applicability, versatility, and compatibility of our method.
翻訳日:2021-07-20 14:59:20 公開日:2021-07-18
# YOLOX:2021年にYOLOシリーズを発売

YOLOX: Exceeding YOLO Series in 2021 ( http://arxiv.org/abs/2107.08430v1 )

ライセンス: Link先を確認
Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun(参考訳) 本報告では、YOLOシリーズの改良を経験し、新しい高性能検出器YOLOXを作成した。 We switch the YOLO detector to an anchor-free manner and conduct other advanced detection techniques, i.e., a decoupled head and the leading label assignment strategy SimOTA to achieve state-of-the-art results across a large scale range of models: For YOLO-Nano with only 0.91M parameters and 1.08G FLOPs, we get 25.3% AP on COCO, surpassing NanoDet by 1.8% AP; for YOLOv3, one of the most widely used detectors in industry, we boost it to 47.3% AP on COCO, outperforming the current best practice by 3.0% AP; for YOLOX-L with roughly the same amount of parameters as YOLOv4-CSP, YOLOv5-L, we achieve 50.0% AP on COCO at a speed of 68.9 FPS on Tesla V100, exceeding YOLOv5-L by 1.8% AP. さらに,単一YOLOX-Lモデルを用いて,第1回ストリーミング知覚チャレンジ(CVPR 2021における自律運転ワークショップ)を受賞した。 このレポートは、実践的な場面で開発者や研究者に有用なエクスペリエンスを提供し、ONNX、TensorRT、NCNN、Openvinoをサポートするデプロイバージョンも提供することを期待しています。 ソースコードはhttps://github.com/Megvii-BaseDetection/YOLOXにある。

In this report, we present some experienced improvements to YOLO series, forming a new high-performance detector -- YOLOX. We switch the YOLO detector to an anchor-free manner and conduct other advanced detection techniques, i.e., a decoupled head and the leading label assignment strategy SimOTA to achieve state-of-the-art results across a large scale range of models: For YOLO-Nano with only 0.91M parameters and 1.08G FLOPs, we get 25.3% AP on COCO, surpassing NanoDet by 1.8% AP; for YOLOv3, one of the most widely used detectors in industry, we boost it to 47.3% AP on COCO, outperforming the current best practice by 3.0% AP; for YOLOX-L with roughly the same amount of parameters as YOLOv4-CSP, YOLOv5-L, we achieve 50.0% AP on COCO at a speed of 68.9 FPS on Tesla V100, exceeding YOLOv5-L by 1.8% AP. Further, we won the 1st Place on Streaming Perception Challenge (Workshop on Autonomous Driving at CVPR 2021) using a single YOLOX-L model. We hope this report can provide useful experience for developers and researchers in practical scenes, and we also provide deploy versions with ONNX, TensorRT, NCNN, and Openvino supported. Source code is at https://github.com/Megvii-BaseDetection/YOLOX.
翻訳日:2021-07-20 14:59:05 公開日:2021-07-18
# 心エコー分離のための完全自動機械学習パイプライン

Fully Automated Machine Learning Pipeline for Echocardiogram Segmentation ( http://arxiv.org/abs/2107.08440v1 )

ライセンス: Link先を確認
Hang Duong Thi Thuy, Tuan Nguyen Minh, Phi Nguyen Van, Long Tran Quoc(参考訳) 現在、心臓診断は左室機能評価に大きく依存している。 セグメンテーション深層学習モデルの助けを借りると、左室の評価はよりアクセスしやすく正確になる。 しかし、ディープラーニング技術は依然として2つの大きな障害に直面している。十分なトレーニングデータを取得することの困難さと、品質モデルの開発に費やす時間だ。 通常のデータ取得プロセスでは、ラベルのない画像の大きなプールからランダムにデータセットが選択され、それらの画像に注釈をつけるのに膨大な労力がかかる。 それに加えて、手作りのモデル開発は精力的でコストもかかる。 本稿では,ラベリング作業を容易にするために,アクティブな学習に依存するパイプラインを導入し,ニューラルネットワーク検索のアイデアを活用し,適切なディープラーニングモデルを自動的に設計する。 私たちはこの完全自動機械学習パイプラインをエコー心電図セグメンテーションと呼んでいる。 実験の結果,本手法はトレーニングデータセットの2/5の精度でiou精度が得られ,同じトレーニングデータセットが与えられた場合,手設計モデルと同等の精度が得られた。

Nowadays, cardiac diagnosis largely depends on left ventricular function assessment. With the help of the segmentation deep learning model, the assessment of the left ventricle becomes more accessible and accurate. However, deep learning technique still faces two main obstacles: the difficulty in acquiring sufficient training data and time-consuming in developing quality models. In the ordinary data acquisition process, the dataset was selected randomly from a large pool of unlabeled images for labeling, leading to massive labor time to annotate those images. Besides that, hand-designed model development is laborious and also costly. This paper introduces a pipeline that relies on Active Learning to ease the labeling work and utilizes Neural Architecture Search's idea to design the adequate deep learning model automatically. We called this Fully automated machine learning pipeline for echocardiogram segmentation. The experiment results show that our method obtained the same IOU accuracy with only two-fifths of the original training dataset, and the searched model got the same accuracy as the hand-designed model given the same training dataset.
翻訳日:2021-07-20 14:58:44 公開日:2021-07-18
# 人種差別的(非)ツイートのバイナリーを超えて:covid-19初期のtwitterにおける人種差別的、異性嫌悪的意見の4次元的検出と分析

Beyond a binary of (non)racist tweets: A four-dimensional categorical detection and analysis of racist and xenophobic opinions on Twitter in early Covid-19 ( http://arxiv.org/abs/2107.08347v1 )

ライセンス: Link先を確認
Xin Pei, Deval Mehta(参考訳) この研究は、人種差別論とキセノフォニックテキストの二項分類を超越し、社会科学理論から、人種差別とキセノフォビア検出のための4次元カテゴリー、すなわち、スティグマティゼーション、攻撃性、非難、排除へと導かれる。 ディープラーニング技術を利用することで、このカテゴリー検出は、twitter上の人種差別的および異性嫌悪的表現に反映される創発的トピックのニュアンスに対する洞察を可能にする。 さらに、国内流行から国際公衆衛生緊急事態、そして後に世界的なパンデミックまで、Covid-19の早期発達の段階におけるトピックの動的変化を捉えるために、段階的賢明な分析を適用した。 本研究の主な貢献は,まず方法論の進歩である。 この研究は、社会科学の観点から最先端の計算手法をブリッジすることで、デジタルプラットフォームにおける人種差別的・異端的な議論の根底にある微妙さに関する洞察を得るための、将来の研究に有意義なアプローチを提供する。 第2に、より正確な理解と世論や行動の予測を可能にすることにより、コビッド19の下での人種差別犯罪や社会的排除に対抗する効果的な介入政策の実施の道を開く。

Transcending the binary categorization of racist and xenophobic texts, this research takes cues from social science theories to develop a four dimensional category for racism and xenophobia detection, namely stigmatization, offensiveness, blame, and exclusion. With the aid of deep learning techniques, this categorical detection enables insights into the nuances of emergent topics reflected in racist and xenophobic expression on Twitter. Moreover, a stage wise analysis is applied to capture the dynamic changes of the topics across the stages of early development of Covid-19 from a domestic epidemic to an international public health emergency, and later to a global pandemic. The main contributions of this research include, first the methodological advancement. By bridging the state-of-the-art computational methods with social science perspective, this research provides a meaningful approach for future research to gain insight into the underlying subtlety of racist and xenophobic discussion on digital platforms. Second, by enabling a more accurate comprehension and even prediction of public opinions and actions, this research paves the way for the enactment of effective intervention policies to combat racist crimes and social exclusion under Covid-19.
翻訳日:2021-07-20 14:52:58 公開日:2021-07-18
# 1, 2, 3: 数値翻訳のためのNMTシステムの挙動試験

As Easy as 1, 2, 3: Behavioural Testing of NMT Systems for Numerical Translation ( http://arxiv.org/abs/2107.08357v1 )

ライセンス: Link先を確認
Jun Wang, Chang Xu, Francisco Guzman, Ahmed El-Kishky, Benjamin I. P. Rubinstein, Trevor Cohn(参考訳) 誤訳された数字は、金銭的損失や医療的誤報などの深刻な影響を引き起こす可能性がある。 本研究では,ニューラルマシン翻訳システムの動作テストによる数値テキストへの堅牢性に関する包括的評価を開発する。 システムの性能低下を露呈する効果的なテスト例を提示し,設計することが期待される数値翻訳の多種多様な機能について検討する。 主要な商用システムと最先端の研究モデルは、ハイソース言語やローソース言語など、多くのテスト例で失敗しています。 これまでのNTTシステムでは報告されていない新たなエラーを,我々の知る限りで確認した。 最後に,数値的誤訳を緩和するための戦略について考察する。

Mistranslated numbers have the potential to cause serious effects, such as financial loss or medical misinformation. In this work we develop comprehensive assessments of the robustness of neural machine translation systems to numerical text via behavioural testing. We explore a variety of numerical translation capabilities a system is expected to exhibit and design effective test examples to expose system underperformance. We find that numerical mistranslation is a general issue: major commercial systems and state-of-the-art research models fail on many of our test examples, for high- and low-resource languages. Our tests reveal novel errors that have not previously been reported in NMT systems, to the best of our knowledge. Lastly, we discuss strategies to mitigate numerical mistranslation.
翻訳日:2021-07-20 14:52:32 公開日:2021-07-18
# 散文と詩の区別のためのパターン認識手法

A pattern recognition approach for distinguishing between prose and poetry ( http://arxiv.org/abs/2107.08512v1 )

ライセンス: Link先を確認
Henrique F. de Arruda, Sandro M. Reia, Filipi N. Silva, Diego R. Amancio and Luciano da F. Costa(参考訳) 詩と散文は私たちが生きている現実を理解するのに役立つ芸術的な表現である。 これらのスタイルはそれぞれ、ライムやリズムといった独自の主観的な特性を持ち、人間の目や耳で容易に捉えられる。 人工知能の最近の進歩により、人間と機械の間のギャップは減少し、現在では、かつて人間だけによって行われたタスクをマスターするアルゴリズムが観察されている。 本稿では,音韻特性とリズム特性のみに基づいて詩と散文を区別する自動手法を提案する。 韻律と詩のリズムを比較することに加えて、韻律と電話を時間的シーケンスとして表現し、これらのシーケンスからリズムの特徴を抽出する手順を提案する。 抽出された特徴のセットを用いた検討されたテキストの分類は、ニューラルネットワークを用いて得られた最大精度0.78となった。 興味深いことに、複雑なネットワークに基づくアプローチを用いて、異なるテキスト間の類似性を可視化することにより、詩のパターンが散文よりはるかに多様であることが判明した。 その結果、より豊かで複雑なリズミカルな可能性のセットは、そのモダリティの中に見出される傾向がある。

Poetry and prose are written artistic expressions that help us to appreciate the reality we live. Each of these styles has its own set of subjective properties, such as rhyme and rhythm, which are easily caught by a human reader's eye and ear. With the recent advances in artificial intelligence, the gap between humans and machines may have decreased, and today we observe algorithms mastering tasks that were once exclusively performed by humans. In this paper, we propose an automated method to distinguish between poetry and prose based solely on aural and rhythmic properties. In other to compare prose and poetry rhythms, we represent the rhymes and phones as temporal sequences and thus we propose a procedure for extracting rhythmic features from these sequences. The classification of the considered texts using the set of features extracted resulted in a best accuracy of 0.78, obtained with a neural network. Interestingly, by using an approach based on complex networks to visualize the similarities between the different texts considered, we found that the patterns of poetry vary much more than prose. Consequently, a much richer and complex set of rhythmic possibilities tends to be found in that modality.
翻訳日:2021-07-20 14:52:20 公開日:2021-07-18
# GraphGen-Redux:ラベル付きグラフ生成のための高速で軽量なリカレントモデル

GraphGen-Redux: a Fast and Lightweight Recurrent Model for labeled Graph Generation ( http://arxiv.org/abs/2107.08396v1 )

ライセンス: Link先を確認
Marco Podda and Davide Bacciu(参考訳) ラベル付きグラフ生成の問題は、Deep Learningコミュニティで注目を集めている。 このタスクは、グラフ空間のスパースで離散的な性質のため、難しい。 文献ではいくつかのアプローチが提案されており、そのほとんどがグラフを構造とラベルをエンコードする配列に変換し、それらの配列の分布を自己回帰生成モデルを通じて学ぶ必要がある。 このようなアプローチのファミリの中で、私たちはGraphGenモデルに注目しています。 GraphGenの前処理フェーズは、グラフをDepth-First Search (DFS)コードと呼ばれる独自のエッジシーケンスに変換し、2つの同型グラフが同じDFSコードに割り当てられるようにしている。 DFSコードの各要素はグラフエッジに関連付けられており、具体的には2つのエンドポイント、それぞれのノードラベル、エッジラベルのそれぞれに1つのノード識別子を含むクインタプルである。 GraphGenはこのようなシーケンスを自動回帰的に生成することを学び、各コンポーネントの確率を独立してモデル化する。 有効ではあるが、モデルによってなされた独立性の仮定は、現実のグラフの複雑なラベル依存性を正確に捉えるにはゆるい。 新たなグラフ前処理手法を導入することで,ノードとエッジのラベル付け情報を共同で処理することができる。 GraphGen-Reduxと呼ばれる対応するモデルは、化学および社会グラフの幅広いデータセットにおけるGraphGenの生成性能を改善する。 さらに、バニラ型に比べて約78%のパラメータを使用し、平均で50%のエポックのトレーニングを必要とする。

The problem of labeled graph generation is gaining attention in the Deep Learning community. The task is challenging due to the sparse and discrete nature of graph spaces. Several approaches have been proposed in the literature, most of which require to transform the graphs into sequences that encode their structure and labels and to learn the distribution of such sequences through an auto-regressive generative model. Among this family of approaches, we focus on the GraphGen model. The preprocessing phase of GraphGen transforms graphs into unique edge sequences called Depth-First Search (DFS) codes, such that two isomorphic graphs are assigned the same DFS code. Each element of a DFS code is associated with a graph edge: specifically, it is a quintuple comprising one node identifier for each of the two endpoints, their node labels, and the edge label. GraphGen learns to generate such sequences auto-regressively and models the probability of each component of the quintuple independently. While effective, the independence assumption made by the model is too loose to capture the complex label dependencies of real-world graphs precisely. By introducing a novel graph preprocessing approach, we are able to process the labeling information of both nodes and edges jointly. The corresponding model, which we term GraphGen-Redux, improves upon the generative performances of GraphGen in a wide range of datasets of chemical and social graphs. In addition, it uses approximately 78% fewer parameters than the vanilla variant and requires 50% fewer epochs of training on average.
翻訳日:2021-07-20 14:51:09 公開日:2021-07-18
# 役割指向型ネットワーク埋め込みに関する調査

A Survey on Role-Oriented Network Embedding ( http://arxiv.org/abs/2107.08379v1 )

ライセンス: Link先を確認
Pengfei Jiao, Xuan Guo, Ting Pan, Wang Zhang, Yulong Pei(参考訳) 最近、Network Embedding (NE)は機械学習とデータマイニングにおいて最も魅力的な研究トピックの1つになっている。 NEアプローチは,リンク予測やノードクラスタリング,分類など,さまざまなグラフマイニングタスクにおいて,有望なパフォーマンスを実現している。 様々なNE手法がネットワークの近接に重点を置いている。 それぞれのノードに対するコミュニティ指向の埋め込みを学習し、ネットワーク内の2つのノードが互いに近い場合、対応する表現は類似する。 一方、他のタイプの構造的類似性、すなわち役割に基づく類似性があり、これは概して相補的であり、近接とは全く異なる。 役割に基づく構造的類似性を維持するために、役割指向NEの問題を提起する。 しかし、コミュニティ指向のne問題と比較すると、最近提案されている役割指向の組み込みアプローチはごくわずかである。 ネットワーク解析における役割の重要性や、役割指向NEが光を当てることができる多くのアプリケーションを考えると、既存の役割指向NEメソッドの包括的な概要を提供する必要がある。 本稿ではまず,コミュニティ指向とロール指向のネットワーク埋め込みの違いを明らかにする。 その後、役割指向NEを理解するための一般的なフレームワークと、既存のメソッドをよりよく分類するための2段階分類を提案する。 そこで,提案した分類に従って代表的手法を選定し,その動機,展開,相違点について論じて紹介する。 さらに、これらの手法を、ノード分類やクラスタリング(ロール発見)、トップク類似性探索、可視化など、様々な役割関連タスクにおいて、広く使われている合成および実世界のデータセットを用いて実験的に評価する。

Recently, Network Embedding (NE) has become one of the most attractive research topics in machine learning and data mining. NE approaches have achieved promising performance in various of graph mining tasks including link prediction and node clustering and classification. A wide variety of NE methods focus on the proximity of networks. They learn community-oriented embedding for each node, where the corresponding representations are similar if two nodes are closer to each other in the network. Meanwhile, there is another type of structural similarity, i.e., role-based similarity, which is usually complementary and completely different from the proximity. In order to preserve the role-based structural similarity, the problem of role-oriented NE is raised. However, compared to community-oriented NE problem, there are only a few role-oriented embedding approaches proposed recently. Although less explored, considering the importance of roles in analyzing networks and many applications that role-oriented NE can shed light on, it is necessary and timely to provide a comprehensive overview of existing role-oriented NE methods. In this review, we first clarify the differences between community-oriented and role-oriented network embedding. Afterwards, we propose a general framework for understanding role-oriented NE and a two-level categorization to better classify existing methods. Then, we select some representative methods according to the proposed categorization and briefly introduce them by discussing their motivation, development and differences. Moreover, we conduct comprehensive experiments to empirically evaluate these methods on a variety of role-related tasks including node classification and clustering (role discovery), top-k similarity search and visualization using some widely used synthetic and real-world datasets...
翻訳日:2021-07-20 14:48:22 公開日:2021-07-18
# ベイズ量子回帰における収縮と選択の分離

Decoupling Shrinkage and Selection for the Bayesian Quantile Regression ( http://arxiv.org/abs/2107.08498v1 )

ライセンス: Link先を確認
David Kohns and Tibor Szendrei(参考訳) 本稿では,ベイジアン量子回帰(BQR)に先行して,縮退と縮退を連続的に行うという考え方を拡張した。 手順は次の2つのステップである: 第1ステップでは、アート連続前駆の状態を通じて分位回帰を縮小し、第2ステップでは、適応lassoアルゴリズムの効率的な変種であるsignal adaptive variable selection (savs)アルゴリズムによって後段を分離する。 本稿では,高次元で有効な量的損失関数によってペナルティ化を自動選択するsavsの新しい変種を提案する。 大規模シミュレーションでは,データ内の真のスパーシティの程度に関わらず,非分離回帰の後方よりもバイアスが減少することを示した。 高次元成長リスク運動(GaR)に2段階のアプローチを適用した。 解釈可能な量子特異変数選択結果を出力しながら、未分離後部の予測精度を保持する。 我々の手続きは、変数がマクロ経済に下方リスクをもたらす政策立案者とのコミュニケーションに利用できる。

This paper extends the idea of decoupling shrinkage and sparsity for continuous priors to Bayesian Quantile Regression (BQR). The procedure follows two steps: In the first step, we shrink the quantile regression posterior through state of the art continuous priors and in the second step, we sparsify the posterior through an efficient variant of the adaptive lasso, the signal adaptive variable selection (SAVS) algorithm. We propose a new variant of the SAVS which automates the choice of penalisation through quantile specific loss-functions that are valid in high dimensions. We show in large scale simulations that our selection procedure decreases bias irrespective of the true underlying degree of sparsity in the data, compared to the un-sparsified regression posterior. We apply our two-step approach to a high dimensional growth-at-risk (GaR) exercise. The prediction accuracy of the un-sparsified posterior is retained while yielding interpretable quantile specific variable selection results. Our procedure can be used to communicate to policymakers which variables drive downside risk to the macro economy.
翻訳日:2021-07-20 14:47:42 公開日:2021-07-18
# 新型コロナウイルスの進行予測のための新しい相関損失を持つ注意型マルチスケールゲートリカレントエンコーダ

Attention-based Multi-scale Gated Recurrent Encoder with Novel Correlation Loss for COVID-19 Progression Prediction ( http://arxiv.org/abs/2107.08330v1 )

ライセンス: Link先を確認
Aishik Konwer, Joseph Bae, Gagandeep Singh, Rishabh Gattu, Syed Ali, Jeremy Green, Tej Phatak, Prateek Prasanna(参考訳) 新型コロナウイルス(covid-19)の画像分析は、主に病気の提示や入院時に取得した単一のタイムポイントスキャンによる診断タスクに焦点を当てている。 本研究は,CXRから肺浸潤の進展を予測するための深層学習に基づくアプローチを提案する。 本手法では,まず畳み込みニューラルネットワーク(cnns)を用いて肺領域内および隣接領域および遠隔領域のパッチから特徴抽出を行う。 このフレームワークはさらに、効果的な予測のための相関モジュールを備えたマルチスケールゲートリカレントユニット(gru)を組み込んでいる。 GRUは3つの異なる領域からCNN特徴ベクトルを入力として受け入れ、融合表現を生成する。 相関モジュールは、関連領域と隣接領域の特徴ベクトルの隠れ表現間の相関損失を最小限に抑えつつ、関連領域と遠隔領域との損失を最大化しようとする。 さらに,各エンコーダタイムポイントの出力隠れ状態に対して注意モジュールを用いてコンテキストベクトルを生成する。 このベクトルはデコーダモジュールへの入力として使われ、将来の時刻におけるパッチ重大度グレードを予測する。 最後に,パッチ分類スコアをアンサンブルし,患者毎の成績を算出した。 具体的には,前回の側頭葉cxrからの表現を学習することにより,当日の患者に対するゾーンワイズ疾患の重症度を予測する。 N=93症例の連続CXRスキャンから得られた多施設間データセットについて検討した。 本手法は,このデータセット上での移動学習と放射能特徴に基づくベースラインアプローチより優れている。

COVID-19 image analysis has mostly focused on diagnostic tasks using single timepoint scans acquired upon disease presentation or admission. We present a deep learning-based approach to predict lung infiltrate progression from serial chest radiographs (CXRs) of COVID-19 patients. Our method first utilizes convolutional neural networks (CNNs) for feature extraction from patches within the concerned lung zone, and also from neighboring and remote boundary regions. The framework further incorporates a multi-scale Gated Recurrent Unit (GRU) with a correlation module for effective predictions. The GRU accepts CNN feature vectors from three different areas as input and generates a fused representation. The correlation module attempts to minimize the correlation loss between hidden representations of concerned and neighboring area feature vectors, while maximizing the loss between the same from concerned and remote regions. Further, we employ an attention module over the output hidden states of each encoder timepoint to generate a context vector. This vector is used as an input to a decoder module to predict patch severity grades at a future timepoint. Finally, we ensemble the patch classification scores to calculate patient-wise grades. Specifically, our framework predicts zone-wise disease severity for a patient on a given day by learning representations from the previous temporal CXRs. Our novel multi-institutional dataset comprises sequential CXR scans from N=93 patients. Our approach outperforms transfer learning and radiomic feature-based baseline approaches on this dataset.
翻訳日:2021-07-20 14:45:48 公開日:2021-07-18
# 完全偏光SARと単磁化SAR画像融合ネットワーク

Fully Polarimetric SAR and Single-Polarization SAR Image Fusion Network ( http://arxiv.org/abs/2107.08355v1 )

ライセンス: Link先を確認
Liupeng Lin, Jie Li, Huanfeng Shen, Lingli Zhao, Qiangqiang Yuan, Xinghua Li(参考訳) データ融合技術は、異なるデータの特徴を集約し、複数のデータ利点を持つ製品を得ることを目的としている。 システム制限によるPolSAR画像の分解能の低下を解決するため,高分解能PolSAR(HR-PolSAR)画像を生成するために,完全偏光合成開口レーダ(PolSAR)画像と単偏光合成開口レーダ(SinSAR)画像融合ネットワークを提案する。 低分解能PolSAR(LR-PolSAR)画像の偏光情報と高分解能単一偏光SAR(HR-SinSAR)画像の空間情報を利用するため、関節型LR-PolSAR画像とHR-SinSAR画像の融合フレームワークを提案し、関節型入力データから特徴を抽出するクロスアテンション機構を設計する。 また,この物理イメージング機構に基づいて,制約付きネットワークトレーニングのためのPolSAR偏光損失関数を設計した。 実験の結果,従来のアルゴリズムよりも核融合ネットワークが優れていることが確認された。 平均PSNRは3.6db以上増加し、平均MAEは0.07以下に低下する。 偏光分解と偏光シグネチャの実験は、偏光情報がよく維持されていることを示している。

The data fusion technology aims to aggregate the characteristics of different data and obtain products with multiple data advantages. To solves the problem of reduced resolution of PolSAR images due to system limitations, we propose a fully polarimetric synthetic aperture radar (PolSAR) images and single-polarization synthetic aperture radar SAR (SinSAR) images fusion network to generate high-resolution PolSAR (HR-PolSAR) images. To take advantage of the polarimetric information of the low-resolution PolSAR (LR-PolSAR) image and the spatial information of the high-resolution single-polarization SAR (HR-SinSAR) image, we propose a fusion framework for joint LR-PolSAR image and HR-SinSAR image and design a cross-attention mechanism to extract features from the joint input data. Besides, based on the physical imaging mechanism, we designed the PolSAR polarimetric loss function for constrained network training. The experimental results confirm the superiority of fusion network over traditional algorithms. The average PSNR is increased by more than 3.6db, and the average MAE is reduced to less than 0.07. Experiments on polarimetric decomposition and polarimetric signature show that it maintains polarimetric information well.
翻訳日:2021-07-20 14:45:27 公開日:2021-07-18
# フィルタバックプロジェクション拡張によるCTセグメントのゼロショット領域適応

Zero-Shot Domain Adaptation in CT Segmentation by Filtered Back Projection Augmentation ( http://arxiv.org/abs/2107.08543v1 )

ライセンス: Link先を確認
Talgat Saparov, Anvar Kurmukov, Boris Shirokih, Mikhail Belyaev(参考訳) ドメインシフトは、医療コンピュータビジョンにおける最も健全な課題の1つです。 スキャナーのパラメータやイメージングプロトコルに大きなばらつきがあるため、同一人物と同一スキャナーから取得した画像でさえ大きく異なる可能性がある。 我々は,CTにおける重要な領域シフト因子である再構成過程において,異なる畳み込みカーネルによって引き起こされるCT画像のばらつきに対処する。 畳み込みカーネルの選択はピクセルの粒度、画像の滑らかさ、ノイズレベルに影響を与える。 異なるカーネルを持つ同一のシンノグラムから,滑らかでシャープな画像が再構成され,同一の解剖学的構造を提供するペアct画像のデータセットを解析した。 同一の予測が望ましいが、ペア上の予測間の平均サイスとして測定される一貫性は、わずか 0.54 である。 異なるカーネルによる再構成を模擬したシングラム空間におけるCT画像の簡易かつ驚くほど効率的な拡張手法であるフィルタバックプロジェクション拡張(FBPAug)を提案する。 提案手法をゼロショット領域適応設定に適用し,一貫性が0.54から0.92に向上することを示した。 ソースドメインデータとターゲットドメインデータの特別な準備は必要とせず、公にリリースされたfbpaugは、任意のctベースのタスクにおいてゼロショットドメイン適応のためのプラグイン・アンド・プレイモジュールとして使用できる。

Domain shift is one of the most salient challenges in medical computer vision. Due to immense variability in scanners' parameters and imaging protocols, even images obtained from the same person and the same scanner could differ significantly. We address variability in computed tomography (CT) images caused by different convolution kernels used in the reconstruction process, the critical domain shift factor in CT. The choice of a convolution kernel affects pixels' granularity, image smoothness, and noise level. We analyze a dataset of paired CT images, where smooth and sharp images were reconstructed from the same sinograms with different kernels, thus providing identical anatomy but different style. Though identical predictions are desired, we show that the consistency, measured as the average Dice between predictions on pairs, is just 0.54. We propose Filtered Back-Projection Augmentation (FBPAug), a simple and surprisingly efficient approach to augment CT images in sinogram space emulating reconstruction with different kernels. We apply the proposed method in a zero-shot domain adaptation setup and show that the consistency boosts from 0.54 to 0.92 outperforming other augmentation approaches. Neither specific preparation of source domain data nor target domain data is required, so our publicly released FBPAug can be used as a plug-and-play module for zero-shot domain adaptation in any CT-based task.
翻訳日:2021-07-20 14:45:04 公開日:2021-07-18
# ディープイミティティブ強化学習を用いたビジョンベース自律走行レース

Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement Learning ( http://arxiv.org/abs/2107.08325v1 )

ライセンス: Link先を確認
Peide Cai, Hengli Wang, Huaiyang Huang, Yuxuan Liu, Ming Liu(参考訳) 自動運転車のレースは、ロボット制御領域では難しい課題だ。 従来のモジュラー手法は正確なマッピング、ローカライゼーション、計画を必要とするため、計算的に非効率で環境変化に敏感である。 近年、ディープラーニングに基づくエンドツーエンドシステムは、自動運転/ラッシングの有望な結果を示している。 しかし、これらは分布ミスマッチ問題に苦しむ教師付き模倣学習(IL)や、大量のリスクのある相互作用データを必要とする強化学習(RL)によって一般的に実装されている。 本研究では,視覚入力を用いた自律走行のアジャイル化に成功している,汎用的な深層模倣強化学習手法を提案する。 運転知識はILとモデルベースRLの両方から取得され、エージェントは人間の教師から学び、オフラインの世界モデルと安全に対話することで自己改善を行うことができる。 本アルゴリズムを高信頼運転シミュレーションと実世界の1/20スケールrc-carの両方で検証し,オンボード計算を制限した。 評価の結果,本手法は従来のilおよびrl法よりも,サンプル効率とタスク性能の点で優れていた。 デモビデオはhttps://caipeide.github.io/autorace-dirl/で見ることができる。

Autonomous car racing is a challenging task in the robotic control area. Traditional modular methods require accurate mapping, localization and planning, which makes them computationally inefficient and sensitive to environmental changes. Recently, deep-learning-based end-to-end systems have shown promising results for autonomous driving/racing. However, they are commonly implemented by supervised imitation learning (IL), which suffers from the distribution mismatch problem, or by reinforcement learning (RL), which requires a huge amount of risky interaction data. In this work, we present a general deep imitative reinforcement learning approach (DIRL), which successfully achieves agile autonomous racing using visual inputs. The driving knowledge is acquired from both IL and model-based RL, where the agent can learn from human teachers as well as perform self-improvement by safely interacting with an offline world model. We validate our algorithm both in a high-fidelity driving simulation and on a real-world 1/20-scale RC-car with limited onboard computation. The evaluation results demonstrate that our method outperforms previous IL and RL methods in terms of sample efficiency and task performance. Demonstration videos are available at https://caipeide.github.io/autorace-dirl/
翻訳日:2021-07-20 14:43:25 公開日:2021-07-18
# 感情音声変換のための改良されたStarGAN:声質向上とデータ拡張

An Improved StarGAN for Emotional Voice Conversion: Enhancing Voice Quality and Data Augmentation ( http://arxiv.org/abs/2107.08361v1 )

ライセンス: Link先を確認
Xiangheng He, Junjie Chen, Georgios Rizos, Bj\"orn W. Schuller(参考訳) Emotional Voice Conversion (EVC) は、その内容と話者識別情報を保存しながら、ソース音声信号の感情スタイルをターゲットスタイルに変換することを目的としている。 これまでの感情変換研究は、保存すべき感情に依存しない情報から感情情報を歪めないため、これらすべてをモノリシックな方法で変換し、低品質の音声を言語的な歪みで生成する。 この歪み問題に対処するために,2つのエンコーダを持つオートエンコーダをGAN(Generative Adversarial Network)のジェネレータとして使用することにより,感情から独立した感情特徴を分離する2段階のトレーニングプロセスとともに,新たなStarGANフレームワークを提案する。 提案モデルは, 客観的評価と主観的評価の両方において, 歪みの観点から好適な結果が得られるため, 提案モデルが歪みを効果的に低減できることを示す。 さらに、エンドツーエンドの音声感情認識のためのデータ拡張実験において、提案したStarGANモデルは、ベースラインのStarGANモデルと比較して、Micro-F1では2%、Macro-F1では5%の増加を達成する。

Emotional Voice Conversion (EVC) aims to convert the emotional style of a source speech signal to a target style while preserving its content and speaker identity information. Previous emotional conversion studies do not disentangle emotional information from emotion-independent information that should be preserved, thus transforming it all in a monolithic manner and generating audio of low quality, with linguistic distortions. To address this distortion problem, we propose a novel StarGAN framework along with a two-stage training process that separates emotional features from those independent of emotion by using an autoencoder with two encoders as the generator of the Generative Adversarial Network (GAN). The proposed model achieves favourable results in both the objective evaluation and the subjective evaluation in terms of distortion, which reveals that the proposed model can effectively reduce distortion. Furthermore, in data augmentation experiments for end-to-end speech emotion recognition, the proposed StarGAN model achieves an increase of 2% in Micro-F1 and 5% in Macro-F1 compared to the baseline StarGAN model, which indicates that the proposed model is more valuable for data augmentation.
翻訳日:2021-07-20 14:43:07 公開日:2021-07-18
# 圧縮モンテカルロと粒子フィルタリングへの応用

Compressed Monte Carlo with application in particle filtering ( http://arxiv.org/abs/2107.08459v1 )

ライセンス: Link先を確認
Luca Martino, V\'ictor Elvira(参考訳) ベイズモデルはこの数年間、信号処理、統計、機械学習などいくつかの分野で非常に人気がある。 ベイズ予想は後続分布を含む複雑な積分の近似を必要とする。 この目的のために、マルコフ・チェイン・モンテカルロや重要サンプリングアルゴリズムのようなモンテカルロ法がよく用いられる。 本研究では,一連のランダムサンプルに含まれる統計情報を圧縮する圧縮MC(C-MC)方式の理論と実践を紹介する。 基本バージョンでは、C-MCは分散還元目的に用いられるよく知られた手法である成層法と厳密に関係している。 決定論的C-MCスキームも提示され、非常に優れた性能を提供する。 圧縮問題は、異なるフィルタリング手法で適用されるモーメントマッチングの手法(通常はガウス二次規則またはシグマ点法)と厳密に関係している。 C-MCは、中央プロセッサとの安価で高速な通信が必要な場合、分散ベイズ推論フレームワークで使用できる。 さらに、C-MCは、この研究で導入された3つの新しいスキームで示されるように、粒子フィルタリングおよび適応ISアルゴリズムにおいて有用である。 6つの数値結果から,提案方式の利点が確認され,対応するベンチマーク手法よりも優れていた。 関連コードも用意されている。

Bayesian models have become very popular over the last years in several fields such as signal processing, statistics, and machine learning. Bayesian inference requires the approximation of complicated integrals involving posterior distributions. For this purpose, Monte Carlo (MC) methods, such as Markov Chain Monte Carlo and importance sampling algorithms, are often employed. In this work, we introduce the theory and practice of a Compressed MC (C-MC) scheme to compress the statistical information contained in a set of random samples. In its basic version, C-MC is strictly related to the stratification technique, a well-known method used for variance reduction purposes. Deterministic C-MC schemes are also presented, which provide very good performance. The compression problem is strictly related to the moment matching approach applied in different filtering techniques, usually called as Gaussian quadrature rules or sigma-point methods. C-MC can be employed in a distributed Bayesian inference framework when cheap and fast communications with a central processor are required. Furthermore, C-MC is useful within particle filtering and adaptive IS algorithms, as shown by three novel schemes introduced in this work. Six numerical results confirm the benefits of the introduced schemes, outperforming the corresponding benchmark methods. A related code is also provided.
翻訳日:2021-07-20 14:41:52 公開日:2021-07-18
# Otimizacao de Redes Neurais atraves de Algoritmos Geneticos Celulares

Otimizacao de Redes Neurais atraves de Algoritmos Geneticos Celulares ( http://arxiv.org/abs/2107.08326v1 )

ライセンス: Link先を確認
Anderson da Silva, Teresa Ludermir(参考訳) 本研究では,セルラー遺伝的アルゴリズム(CGA)を用いて,自動ニューラルネットワーク(ANN)の探索手法を提案する。 この手法の目標は、分類問題に対して優れた性能を持つコンパクトネットワークを見つけることである。 この作業を開発した主な理由は、パフォーマンス評価の高いコンパクトなANNの設定が難しいことを中心にしている。 CGAの使用は、共通の遺伝的アルゴリズム(GA)と同様にRNAの構成要素を求めることを目的としているが、GA個体の位置を与えるために細胞オートマトン(CA)を組み込むことの相違がある。 CAが課している場所は、長期にわたって遺伝的多様性を維持するために、集団内の溶液の拡散を制御することを目的としている。 この遺伝的多様性は、GAの良好な結果を得るために重要である。

This works proposes a methodology to searching for automatically Artificial Neural Networks (ANN) by using Cellular Genetic Algorithm (CGA). The goal of this methodology is to find compact networks whit good performance for classification problems. The main reason for developing this work is centered at the difficulties of configuring compact ANNs with good performance rating. The use of CGAs aims at seeking the components of the RNA in the same way that a common Genetic Algorithm (GA), but it has the differential of incorporating a Cellular Automaton (CA) to give location for the GA individuals. The location imposed by the CA aims to control the spread of solutions in the populations to maintain the genetic diversity for longer time. This genetic diversity is important for obtain good results with the GAs.
翻訳日:2021-07-20 14:39:42 公開日:2021-07-18
# 勾配分解を用いた新しい適応勾配法

A New Adaptive Gradient Method with Gradient Decomposition ( http://arxiv.org/abs/2107.08377v1 )

ライセンス: Link先を確認
Zhou Shao and Tong Lin(参考訳) 適応勾配法、特にアダム型法(Adam, AMSGrad, AdaBound など)は、学習率の要素的スケーリング項で学習プロセスを高速化するために提案されている。 しかし、それらは確率勾配降下(SGD)や運動量を持つSGD(SGDM)のような加速スキームと比較すると、よく一般化される。 本稿では,SGDMのような優れた一般化を同時に達成し,Adam型手法のような高速収束を実現するDecGDという新しい適応手法を提案する。 特に、decgdは現在の勾配をサーロゲート勾配と損失に基づくベクトルを含む2つの項の積に分解する。 本手法は,Adam方式の2乗勾配に代えて,電流損失に基づくベクトルに応じて学習率を適応的に調整する。 decgdの適応学習率の直観は、良い最適化器は、一般的には、損失が減少するにつれて学習率を下げる必要があり、これは学習率減衰スケジューリング技術に似ている。 したがって、DecGDは訓練の初期段階において急速に収束し、損失ベースベクトルに従って効果的な学習率を制御し、より良い一般化につながる。 収束解析は凸と非凸の両方の状況で議論される。 最後に、広く使われているタスクやモデルに対する実験結果から、DECGDはSGDMよりも優れた一般化性能を示し、Adam-type法のような高速収束を示した。

Adaptive gradient methods, especially Adam-type methods (such as Adam, AMSGrad, and AdaBound), have been proposed to speed up the training process with an element-wise scaling term on learning rates. However, they often generalize poorly compared with stochastic gradient descent (SGD) and its accelerated schemes such as SGD with momentum (SGDM). In this paper, we propose a new adaptive method called DecGD, which simultaneously achieves good generalization like SGDM and obtain rapid convergence like Adam-type methods. In particular, DecGD decomposes the current gradient into the product of two terms including a surrogate gradient and a loss based vector. Our method adjusts the learning rates adaptively according to the current loss based vector instead of the squared gradients used in Adam-type methods. The intuition for adaptive learning rates of DecGD is that a good optimizer, in general cases, needs to decrease the learning rates as the loss decreases, which is similar to the learning rates decay scheduling technique. Therefore, DecGD gets a rapid convergence in the early phases of training and controls the effective learning rates according to the loss based vectors which help lead to a better generalization. Convergence analysis is discussed in both convex and non-convex situations. Finally, empirical results on widely-used tasks and models demonstrate that DecGD shows better generalization performance than SGDM and rapid convergence like Adam-type methods.
翻訳日:2021-07-20 14:39:27 公開日:2021-07-18
# 連続的2重注意ネットワークに基づく睡眠ステージング

Sleep Staging Based on Serialized Dual Attention Network ( http://arxiv.org/abs/2107.08442v1 )

ライセンス: Link先を確認
Huafeng Wang (1), Chonggang Lu (1), Qi Zhang (1), Zhimin Hu (1), Xiaodong Yuan (2), Pingshu Zhang (2), Wanquan Liu (3) ((1) School of Information, North China University of Technology,(2) Department of Neurology, Kailuan General Hospital, Tangshan,(3) School of Intelligent Systems Engineering, Sun Yat-sen University)(参考訳) 睡眠ステージングは睡眠障害の診断において重要な役割を担っている。 一般的に、専門家は睡眠段階をPSG(polysomnography)に基づいて手動で分類する。 一方、複数の信号の取得は複雑であり、被験者の睡眠に影響を与える可能性がある。 そのため、自動睡眠ステージングにおける単一チャンネル脳波(EEG)の使用が主流となっている。 文献では,単チャンネル脳波に基づく睡眠ステージリング法が多数提案されており,睡眠ステージングの予備的自動化を実現している。 しかしながら、N1段階におけるこれらの手法のほとんどの性能は一般的には高くない。 本稿では,生の脳波に基づく深層学習モデルSDANを提案する。 1次元畳み込みニューラルネットワーク(CNN)を利用して、生の脳波から特徴を自動的に抽出する。 チャンネルアテンションと空間アテンションを連続的に組み合わせ、キー情報をフィルタリングしてハイライトし、ソフトしきい値を使って冗長な情報を排除する。 さらに,ネットワークの深化に伴う劣化問題を回避するために,残差ネットワークを導入する。 5倍のクロスバリデーションとホールドアウト検証の2つのデータセットを用いて実験を行った。 最終的な平均精度、総合精度、マクロF1スコア、コーエンのカッパ係数は、Sleep-EDFデータセットで96.74%、91.86%、82.64%、0.8742、95.98%、89.96%、79.08%、0.8216に達した。 有意な成績を示したのは,2つのデータセットでそれぞれ54.08%,52.49%のf1スコアを示したn1ステージであった。 その結果,既存手法に比べてネットワークの優位性が向上し,新たな最先端技術がもたらされた。 特に,n1睡眠段階において他の方法と比較して優れた結果を得た。

Sleep staging assumes an important role in the diagnosis of sleep disorders. In general, experts classify sleep stages manually based on polysomnography (PSG), which is quite time-consuming. Meanwhile, the acquisition of multiple signals is complex, which can affect the subject's sleep. Therefore, the use of single-channel electroencephalogram (EEG) for automatic sleep staging has become mainstream. In the literature, a large number of sleep staging methods based on single-channel EEG have been proposed with good results and realize the preliminary automation of sleep staging. However, the performance for most of these methods in the N1 stage is generally not high. In this paper, we propose a deep learning model SDAN based on raw EEG. The method utilises a one-dimensional convolutional neural network (CNN) to automatically extract features from raw EEG. It serially combines the channel attention and spatial attention mechanisms to filter and highlight key information and then uses soft threshold to eliminate redundant information. Additionally, we introduce a residual network to avoid degradation problems caused by network deepening. Experiments were conducted using two datasets with 5-fold cross-validation and hold-out validation method. The final average accuracy, overall accuracy, macro F1 score and Cohen's Kappa coefficient of the model reach 96.74%, 91.86%, 82.64% and 0.8742 on the Sleep-EDF dataset, and 95.98%, 89.96%, 79.08% and 0.8216 on the Sleep-EDFx dataset. Significantly, our model performed superiorly in the N1 stage, with F1 scores of 54.08% and 52.49% on the two datasets respectively. The results show the superiority of our network over the best existing methods, reaching a new state-of-the-art. In particular, the present method achieves excellent results in the N1 sleep stage compared to other methods.
翻訳日:2021-07-20 14:39:03 公開日:2021-07-18
# 階層型ニューラルネットワーク探索のための新しい進化アルゴリズム

A Novel Evolutionary Algorithm for Hierarchical Neural Architecture Search ( http://arxiv.org/abs/2107.08484v1 )

ライセンス: Link先を確認
Aristeidis Chrostoforidis, George Kyriakides, Konstantinos Margaritis(参考訳) 本研究では,グローバルな探索空間に適用可能なニューラルアーキテクチャ探索のための新しい進化的アルゴリズムを提案する。 アルゴリズムのアーキテクチャ表現は、複数の階層的なモジュールでトポロジを整理し、設計プロセスはこの表現を利用して探索空間を探索する。 また,良好なサブ構造の利用を後世に促進するキュレーションシステムも採用している。 本手法をファッション・マンニストとnas-bench101に適用し,比較的少ない世代でそれぞれ93.2\%$と94.8\%$の確率を達成した。

In this work, we propose a novel evolutionary algorithm for neural architecture search, applicable to global search spaces. The algorithm's architectural representation organizes the topology in multiple hierarchical modules, while the design process exploits this representation, in order to explore the search space. We also employ a curation system, which promotes the utilization of well performing sub-structures to subsequent generations. We apply our method to Fashion-MNIST and NAS-Bench101, achieving accuracies of $93.2\%$ and $94.8\%$ respectively in a relatively small number of generations.
翻訳日:2021-07-20 14:38:35 公開日:2021-07-18
# リアクティブ島を学習するためのサポートベクターマシン

Support vector machines for learning reactive islands ( http://arxiv.org/abs/2107.08429v1 )

ライセンス: Link先を確認
Shibabrat Naik, Vladim\'ir Kraj\v{n}\'ak, Stephen Wiggins(参考訳) ハミルトン方程式の軌跡から得られたデータセットに適用可能な機械学習フレームワークを開発した。 目標は、特定の用途に関連する相空間輸送の制御的役割を担う相空間構造を学ぶことである。 我々の焦点は2自由度ハミルトン系の反応島を学習することである。 反応性島は不安定周期軌道の安定かつ不安定な多様体から構成され、遷移ダイナミクスを定量化する役割を担っている。 本稿では,SVM(Support vector Machine)が,位相空間輸送フレームワークの精神である定性的に異なる動的挙動の境界を見つけるためのアプローチを提供するため,この目的のために適切な機械学習フレームワークであることを示す。 不安定な周期軌道とその安定かつ不安定な多様体を最初に計算する必要がなくなるという意味で、我々の方法が反応性のある島を直接発見できることを示す。 我々は動的システムコミュニティにおけるベンチマークシステムであるH'enon-Heiles Hamiltonianシステムにアプローチを適用する。 異なるサンプリングと学習アプローチとその利点と欠点について論じる。

We develop a machine learning framework that can be applied to data sets derived from the trajectories of Hamilton's equations. The goal is to learn the phase space structures that play the governing role for phase space transport relevant to particular applications. Our focus is on learning reactive islands in two degrees-of-freedom Hamiltonian systems. Reactive islands are constructed from the stable and unstable manifolds of unstable periodic orbits and play the role of quantifying transition dynamics. We show that support vector machines (SVM) is an appropriate machine learning framework for this purpose as it provides an approach for finding the boundaries between qualitatively distinct dynamical behaviors, which is in the spirit of the phase space transport framework. We show how our method allows us to find reactive islands directly in the sense that we do not have to first compute unstable periodic orbits and their stable and unstable manifolds. We apply our approach to the H\'enon-Heiles Hamiltonian system, which is a benchmark system in the dynamical systems community. We discuss different sampling and learning approaches and their advantages and disadvantages.
翻訳日:2021-07-20 14:36:43 公開日:2021-07-18
# ニューラルネットワークを用いた時系列エントロピー推定法

A method for estimating the entropy of time series using artificial neural network ( http://arxiv.org/abs/2107.08399v1 )

ライセンス: Link先を確認
Andrei Velichko and Hanif Heidari(参考訳) 時系列の予測可能性と複雑性を測定することは、非線形システムの設計と制御に不可欠なツールである。 時系列の予測可能性と複雑性を分析するために、文献には異なるエントロピー測度が存在する。 しかし、これらの措置は特に短命連続においていくつかの欠点がある。 そこで本研究では,LogNNet 784:25:10ニューラルネットワークモデルを用いて時系列のエントロピーを推定する手法を提案する。 LogNNet貯水池マトリックスは19625個の元素から構成され、時系列要素で満たされている。 その後、MNIST-10データセットに基づいてネットワークをトレーニングし、分類精度を算出する。 精度はエントロピー測度と見なされ、NNetEnで表される。 貯留層内の時系列による入力情報のより複雑な変換は、より高いNNetEn値をもたらす。 多くの実用的な時系列データは19625要素未満である。 この難しさを克服するために, 重複法や伸張法について検討し, 実用化に最も成功した手法を同定した。 入力パラメータとしてLogNNetのトレーニングプロセスにおけるエポック数を考慮する。 ニューラルネットワークの効率性におけるエポック数の影響を調べるために,時系列学習慣性と呼ばれる新しい時系列特性を導入する。 提案手法のロバスト性と効率性を示すために, カオス, 周期, ランダム, バイナリ, 定数時系列に適用した。 NNetEnは既存のエントロピー測度と比較される。 その結果,提案手法は既存手法よりも頑健で精度が高いことがわかった。

Measuring the predictability and complexity of time series is an essential tool in designing and controlling the nonlinear system. There exist different entropy measures in the literature to analyze the predictability and complexity of time series. However, these measures have some drawbacks especially in short time series. To overcome the difficulties, this paper proposes a new method for estimating the entropy of a time series using the LogNNet 784:25:10 neural network model. The LogNNet reservoir matrix consists of 19625 elements which is filled with the time series elements. After that, the network is trained on MNIST-10 dataset and the classification accuracy is calculated. The accuracy is considered as the entropy measure and denoted by NNetEn. A more complex transformation of the input information by the time series in the reservoir leads to higher NNetEn values. Many practical time series data have less than 19625 elements. Some duplicating or stretching methods are investigated to overcome this difficulty and the most successful method is identified for practical applications. The epochs number in the training process of LogNNet is considered as the input parameter. A new time series characteristic called time series learning inertia is introduced to investigate the effect of epochs number in the efficiency of neural network. To show the robustness and efficiency of the proposed method, it is applied on some chaotic, periodic, random, binary and constant time series. The NNetEn is compared with some existing entropy measures. The results show that the proposed method is more robust and accurate than existing methods.
翻訳日:2021-07-20 14:35:25 公開日:2021-07-18
# 壁画: 結果駆動強化学習のためのメタラーニング不確実性認識報酬

MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning ( http://arxiv.org/abs/2107.07184v2 )

ライセンス: Link先を確認
Kevin Li, Abhishek Gupta, Ashwin Reddy, Vitchyr Pong, Aurick Zhou, Justin Yu, Sergey Levine(参考訳) 強化学習における探索は難しい問題であり、最悪の場合、エージェントは州空間のどこにでも隠れる可能性のある高次状態を探す必要がある。 エージェントが成功した結果の例を提示する、より難解なRL問題のクラスを定義できるだろうか? この問題設定では、分類器を訓練して状態が成功するか否かを分類することにより、報酬関数を自動的に得ることができる。 適切に訓練された場合、このような分類器は、良好な状態への進行を促進し、校正された探索ボーナスを提供する、よく形をした客観的な景観を提供することができる。 本研究では,探索を奨励し,肯定的な結果への指示を与えることにより,不確かさを意識した分類器が,強化学習の課題を解決することができることを示す。 そこで本研究では,正規化最大度(NML)分布の計算手法に基づく,これらの校正された不確実性認識分類器の獲得機構を提案する。 そこで本研究では,メタラーニングを用いてnml分布を計算する新しい手法を提案する。 得られたアルゴリズムは,報奨関数を学習するためのカウントベース探索法と先行アルゴリズムの両方に多くの興味深い関係を持ち,目標に対するより効果的なガイダンスを提供する。 我々は,従来の手法では困難あるいは不可能であったナビゲーションやロボット操作の課題を,アルゴリズムが解決できることを実証した。

Exploration in reinforcement learning is a challenging problem: in the worst case, the agent must search for high-reward states that could be hidden anywhere in the state space. Can we define a more tractable class of RL problems, where the agent is provided with examples of successful outcomes? In this problem setting, the reward function can be obtained automatically by training a classifier to categorize states as successful or not. If trained properly, such a classifier can provide a well-shaped objective landscape that both promotes progress toward good states and provides a calibrated exploration bonus. In this work, we show that an uncertainty aware classifier can solve challenging reinforcement learning problems by both encouraging exploration and provided directed guidance towards positive outcomes. We propose a novel mechanism for obtaining these calibrated, uncertainty-aware classifiers based on an amortized technique for computing the normalized maximum likelihood (NML) distribution. To make this tractable, we propose a novel method for computing the NML distribution by using meta-learning. We show that the resulting algorithm has a number of intriguing connections to both count-based exploration methods and prior algorithms for learning reward functions, while also providing more effective guidance towards the goal. We demonstrate that our algorithm solves a number of challenging navigation and robotic manipulation tasks which prove difficult or impossible for prior methods.
翻訳日:2021-07-20 10:46:34 公開日:2021-07-18