このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210323となっている論文です。

PDF登録状況(公開日: 20210323)

TitleAuthorsAbstract論文公表日・翻訳日
# あちこちで繰り返し:回路抽出の話

There and back again: A circuit extraction tale ( http://arxiv.org/abs/2003.01664v3 )

ライセンス: Link先を確認
Miriam Backens, Hector Miller-Bakewell, Giovanni de Felice, Leo Lobski, John van de Wetering(参考訳) 量子回路モデルと測定に基づく一方向モデルの変換は、量子計算の検証と最適化に有用である。 それらはgflowと呼ばれるプロパティを重要利用します。 gflowはブロッホ球の3つの異なる平面での測定を可能にする一方的な計算に定義されているが、これまでのほとんどの研究はXY平面での測定のみを含む計算に焦点を当てている。 本稿では,3面すべてで計測値とgflowを有する一方向計算のための最初の回路抽出アルゴリズムを提案する。 アルゴリズムは効率的であり、結果として生じる回路はアンシラを含まない。 一方向計算はZX計算を用いて表現されるため、アルゴリズムはZX図から回路を抽出する最も一般的な手順でもある。 このアルゴリズムの開発において、XY平面計測のみを含む計算でこれまで知られていたいくつかの概念と結果を一般化する。 測定パターンに対するいくつかの既知の書き換え規則をまとめ、zx計算を用いた統一表記法で定式化する。 これらのルールは、セマンティクスとgflowの存在の両方を保存しながら、キュービット数を減らし、測定パターンを単純化するために使用される。 その結果、回路をパターンに変換し、再び戻すことにより、回路最適化に適用できる。

Translations between the quantum circuit model and the measurement-based one-way model are useful for verification and optimisation of quantum computations. They make crucial use of a property known as gflow. While gflow is defined for one-way computations allowing measurements in three different planes of the Bloch sphere, most research so far has focused on computations containing only measurements in the XY-plane. Here, we give the first circuit-extraction algorithm to work for one-way computations containing measurements in all three planes and having gflow. The algorithm is efficient and the resulting circuits do not contain ancillae. One-way computations are represented using the ZX-calculus, hence the algorithm also represents the most general known procedure for extracting circuits from ZX-diagrams. In developing this algorithm, we generalise several concepts and results previously known for computations containing only XY-plane measurements. We bring together several known rewrite rules for measurement patterns and formalise them in a unified notation using the ZX-calculus. These rules are used to simplify measurement patterns by reducing the number of qubits while preserving both the semantics and the existence of gflow. The results can be applied to circuit optimisation by translating circuits to patterns and back again.
翻訳日:2023-05-31 07:29:44 公開日:2021-03-23
# 小型フォトニック凝縮体のファジィ相の学習

Learning the Fuzzy Phases of Small Photonic Condensates ( http://arxiv.org/abs/2006.12298v3 )

ライセンス: Link先を確認
Jo\~ao D. Rodrigues, Himadri S. Dhar, Benjamin T. Walker, Jason M. Smith, Rupert F. Oulton, Florian Mintert, Robert A. Nyman(参考訳) 相転移は集団行動の究極の表象であり、通常多粒子系のみの特徴である。 本稿では,数個の光子からなる小光子凝縮体における集合挙動の実験的観察について述べる。 さらに、ボース・アインシュタイン凝縮やレーザーのような放出を含む、平衡状態と非平衡状態の両方が同定される。 しかし、小さな光子数と大きな相対ゆらぎの存在は、異なる相と相転移を識別する上で大きな困難をもたらす。 この制限を克服するために,教師なし学習とファジィクラスタリングアルゴリズムを用いて,小型フォトニック凝縮体のファジィ位相図を体系的に構築する。 その結果、小さな光子集合のリッチで複雑な位相構造が示され、少数の粒子レベルで平衡と非平衡物理学を研究するのに理想的なプラットフォームとなった。

Phase transitions, being the ultimate manifestation of collective behaviour, are typically features of many-particle systems only. Here, we describe the experimental observation of collective behaviour in small photonic condensates made up of only a few photons. Moreover, a wide range of both equilibrium and non-equilibrium regimes, including Bose-Einstein condensation or laser-like emission are identified. However, the small photon number and the presence of large relative fluctuations places major difficulties in identifying different phases and phase transitions. We overcome this limitation by employing unsupervised learning and fuzzy clustering algorithms to systematically construct the fuzzy phase diagram of our small photonic condensate. Our results thus demonstrate the rich and complex phase structure of even small collections of photons, making them an ideal platform to investigate equilibrium and non-equilibrium physics at the few particle level.
翻訳日:2023-05-13 09:14:54 公開日:2021-03-23
# ボソニック脱落流路の量子容量

Quantum capacity of bosonic dephasing channel ( http://arxiv.org/abs/2007.03897v4 )

ライセンス: Link先を確認
Amir Arqand, Laleh Memarzadeh, Stefano Mancini(参考訳) 非ガウス量子チャネルの顕著な例である連続変数デファスメントチャネルの量子容量について検討する。 単字式が当てはまることを証明します。 次に、入力エネルギー制限を検討し、それを増加させることで、容量が有限値に飽和することを示す。 最適入力状態は、フォック基底およびガウスの離散バージョンである分布において対角的であることが分かる。 平均/分散と復調率/入力エネルギーの関係を推し進める。 また、デファスレートの大きな値に対して量子容量が指数関数的に減衰することを示す。

We study the quantum capacity of continuous variable dephasing channel, which is a notable example of non-Gaussian quantum channel. We prove that a single letter formula applies. We then consider input energy restriction and show that by increasing it, the capacity saturates to a finite value. The optimal input state is found to be diagonal in the Fock basis and with a distribution that is a discrete version of a Gaussian. Relations between its mean/variance and dephasing rate/input energy are put forward. We also show that quantum capacity decays exponentially for large values of dephasing rates.
翻訳日:2023-05-10 23:47:08 公開日:2021-03-23
# コミュニケーション, 動的資源理論, 熱力学

Communication, Dynamical Resource Theory, and Thermodynamics ( http://arxiv.org/abs/2008.00186v4 )

ライセンス: Link先を確認
Chung-Yun Hsieh(参考訳) 近年,コミュニケーションと資源理論を共同で研究することで新たな知見が得られた。 この相互作用は、学際研究の潜在的なプラットフォームとして機能する。 この線を継続するために,通信環境における動的資源の役割を解析し,さらに熱力学に適用する。 まず、情報処理チャネルが追加のリソースを供給できないという意味で、与えられたリソースによって制約された古典的な通信シナリオについて検討する。 本稿では, 資源保存能力の指標である資源保存性により, 古典的な一発容量が上限値であることを示す。 リソースが非対称性である場合、下限はさらに得ることができる。 その結果,gibbsが保存するコヒーレンス消滅チャネルの出力をすべて熱分解する最小の浴槽サイズが,その1ショットの古典容量の上限となることがわかった。 チャネルがコヒーレンス非生成の場合、上部境界は、コヒーレンス保存性の和と、チャネルの不コヒーレントバージョンのバスサイズによって与えられる。 この意味では、浴槽のサイズは古典的情報を伝達する熱力学的コストと解釈できる。 この発見はランダウアーの原理を動的に類似させ、したがって古典的なコミュニケーションと熱力学を橋渡しする。 また,両局所系が完全に熱化されても,古典的に相関した局所浴は古典的なコミュニケーションを許容できることを示す。 したがって、熱化は古典的相関のみをリソースとしてアクセスすることで情報を伝達することができる。 本研究では,動的資源理論による学際的応用を実証した。

Recently, new insights have been obtained by jointly studying communication and resource theory. This interplay consequently serves as a potential platform for interdisciplinary studies. To continue this line, we analyze the role of dynamical resources in a communication setup, and further apply our analysis to thermodynamics. To start with, we study classical communication scenarios constrained by a given resource, in the sense that the information processing channel is unable to supply additional amounts of the resource. We show that the one-shot classical capacity is upper bounded by resource preservability, which is a measure of the ability to preserve the resource. A lower bound can be further obtained when the resource is asymmetry. As an application, unexpectedly, under a recently-studied thermalization model, we found that the smallest bath size needed to thermalize all outputs of a Gibbs-preserving coherence-annihilating channel upper bounds its one-shot classical capacity. When the channel is coherence non-generating, the upper bound is given by a sum of coherence preservability and the bath size of the channel's incoherent version. In this sense, bath sizes can be interpreted as the thermodynamic cost of transmitting classical information. This finding provides a dynamical analogue of Landauer's principle, and therefore bridges classical communication and thermodynamics. As another implication, we show that, in bipartite settings, classically correlated local baths can admit classical communication even when both local systems are completely thermalized. Hence, thermalizations can transmit information by accessing only classical correlation as a resource. Our results demonstrate interdisciplinary applications enabled by dynamical resource theory.
翻訳日:2023-05-07 10:37:05 公開日:2021-03-23
# 捕捉イオン中のロバストスピンスピンスピンダイナミクスに対する位相適応動的分離法

Phase-adaptive dynamical decoupling methods for robust spin-spin dynamics in trapped ions ( http://arxiv.org/abs/2008.10933v2 )

ライセンス: Link先を確認
Lijuan Dong, I\~nigo Arrazola, Xi Chen, Jorge Casanova(参考訳) 閉じ込められたイオンに基づく量子プラットフォームは、従来のデバイスを大きく上回る計算能力を持つ量子ハードウェアを構築する主な候補である。 これらの設定で利用可能な制御技術のうち、パルス動的デカップリング(パルスdd)は、イオンレジスタにエンコードされた情報を処理し、その上で環境ノイズを最小限に抑える有用な方法であることが明らかとなった。 本研究では,ランダムパルス位相,あるいは相関パルス位相を用いたパルスDD法を用いて,閉じ込められたイオン中のスピンスピンダイナミクスの強靭性を著しく向上する。 この手順は、元々核スピン検出目的の核磁気共鳴の文脈で考案され、ここでは、トラップイオン設定におけるロバスト量子情報処理にも同様の原理が適用されることを示す。

Quantum platforms based on trapped ions are main candidates to build a quantum hardware with computational capacities that largely surpass those of classical devices. Among the available control techniques in these setups, pulsed dynamical decoupling (pulsed DD) revealed as a useful method to process the information encoded in ion registers, whilst minimising the environmental noise over them. In this work, we incorporate a pulsed DD technique that uses random pulse phases, or correlated pulse phases, to significantly enhance the robustness of entangling spin-spin dynamics in trapped ions. This procedure was originally conceived in the context of nuclear magnetic resonance for nuclear spin detection purposes, and here we demonstrate that the same principles apply for robust quantum information processing in trapped-ion settings.
翻訳日:2023-05-05 00:00:57 公開日:2021-03-23
# 六方晶窒化ホウ素におけるスピン欠陥の系間交差とエキシトン欠陥カップリング

Intersystem Crossing and Exciton-Defect Coupling of Spin Defects in Hexagonal Boron Nitride ( http://arxiv.org/abs/2009.02830v2 )

ライセンス: Link先を確認
Tyler J. Smart, Kejun Li, Junqing Xu, and Yuan Ping(参考訳) 2次元(2D)システムは、単一光子エミッタやスピン量子ビットの新規でスケーラブルなホスト材料として認識されているにもかかわらず、これらの量子欠陥の制御されていない化学的性質は、さらなる発展の障害となっている。 極端な欠陥の設計を活用することで、これらの永続的な問題を回避し、究極の解決策を提供することができる。 そこで我々は,広帯域2Dシステムにおける量子欠陥を正確に,体系的に設計するための完全な理論的枠組みを構築した。 このアプローチでは、スピン量子ビット発見に必須な静的および動的性質が等しく考慮される。 特に、欠陥エクシトンカップリングのような多体相互作用は、超薄型2Dシステムにおける欠陥の励起状態特性を記述するのに不可欠である。 一方、フォノン支援崩壊や系間交差率のような非放射過程は、放射過程と競合する注意深い評価を必要とする。 第一原理計算に基づく欠陥の徹底的なスクリーニングから、六方晶窒化ホウ素中のSiVVやTiVV、MoVVのようなスピン量子ビットのような有望な単一光子放出体を同定する。 この研究は、2次元材料における欠陥設計のための完全な第一原理理論フレームワークを提供した。

Despite the recognition of two-dimensional (2D) systems as emerging and scalable host materials of single photon emitters or spin qubits, uncontrolled and undetermined chemical nature of these quantum defects has been a roadblock to further development. Leveraging the design of extrinsic defects can circumvent these persistent issues and provide an ultimate solution. Here we established a complete theoretical framework to accurately and systematically design quantum defects in wide-bandgap 2D systems. With this approach, essential static and dynamical properties are equally considered for spin qubit discovery. In particular, many-body interactions such as defect-exciton couplings are vital for describing excited state properties of defects in ultrathin 2D systems. Meanwhile, nonradiative processes such as phonon-assisted decay and intersystem crossing rates require careful evaluation, which compete together with radiative processes. From a thorough screening of defects based on first-principles calculations, we identify promising single photon emitters such as SiVV and spin qubits such as TiVV and MoVV in hexagonal boron nitride. This work provided a complete first-principles theoretical framework for defect design in 2D materials.
翻訳日:2023-05-03 11:20:47 公開日:2021-03-23
# 二元系ボース・アインシュタイン凝縮体の成分間絡み合いエントロピーとスペクトル

Intercomponent entanglement entropy and spectrum in binary Bose-Einstein condensates ( http://arxiv.org/abs/2009.02949v2 )

ライセンス: Link先を確認
Takumi Yoshino, Shunsuke Furukawa, Masahito Ueda(参考訳) 二元系ボース・アインシュタイン凝縮中の成分間の絡み合いエントロピーとスペクトルを空間次元d$で研究した。 実効場理論を用いて, エンタングルメントスペクトルは, 相互結合トンネル(Rabiカップリング)の存在下では異常な平方根分散関係を示し, その存在下ではギャップ分散関係を示すことを示す。 これらのスペクトル特徴は、ハミルトニアンの超流動速度と粒子密度の観点からの長距離相互作用の出現と関連している。 本研究は,短距離相互作用のみを有する多成分BECのサブシステムにおいて,異常な長距離相互作用をエミュレート可能であることを示す。 また,有限ラビ結合の場合,エントロピーのエントロピーは,ナムブ・ゴールドストーンモードおよび有限体積の対称性回復から生じるサブリーディング対数補正を伴うボリュームロースケーリングを示す。

We study the entanglement entropy and spectrum between components in binary Bose-Einstein condensates in $d$ spatial dimensions. We employ effective field theory to show that the entanglement spectrum exhibits an anomalous square-root dispersion relation in the presence of an intercomponent tunneling (a Rabi coupling) and a gapped dispersion relation in its absence. These spectral features are associated with the emergence of long-range interactions in terms of the superfluid velocity and the particle density in the entanglement Hamiltonian. Our results demonstrate that unusual long-range interactions can be emulated in a subsystem of multicomponent BECs that have only short-range interactions. We also find that for a finite Rabi coupling the entanglement entropy exhibits a volume-law scaling with subleading logarithmic corrections originating from the Nambu-Goldstone mode and the symmetry restoration for a finite volume.
翻訳日:2023-05-03 07:32:29 公開日:2021-03-23
# 誘導多体量子系におけるバス誘起ゼノ局在

Bath-induced Zeno localization in driven many-body quantum systems ( http://arxiv.org/abs/2009.11784v2 )

ライセンス: Link先を確認
Thibaud Maimbourg, Denis M. Basko, Markus Holzmann, Alberto Rosso(参考訳) 本研究では、外部駆動を受ける量子相互作用スピン系を、空間的局所化振動モードの熱浴に結合させ、動的核偏光のモデルとして機能させる。 系の多体固有状態がエルゴードである場合でも、電子常磁性共鳴スペクトルのホールバーニング形状によって表される多体量子ゼノ効果により、浴への十分に強い結合が効果的にスピンを局在させることが示されている。 その結果,4~5ケルビン以上で実験的に観察された熱混合状態の崩壊が説明できた。

We study a quantum interacting spin system subject to an external drive and coupled to a thermal bath of spatially localized vibrational modes, serving as a model of Dynamic Nuclear Polarization. We show that even when the many-body eigenstates of the system are ergodic, a sufficiently strong coupling to the bath may effectively localize the spins due to many-body quantum Zeno effect, as manifested by the hole-burning shape of the electron paramagnetic resonance spectrum. Our results provide an explanation of the breakdown of the thermal mixing regime experimentally observed above 4 - 5 Kelvin.
翻訳日:2023-05-01 02:34:37 公開日:2021-03-23
# 量子状態表現によるボルツマン制限機械の対称性回復支援

Helping restricted Boltzmann machines with quantum-state representation by restoring symmetry ( http://arxiv.org/abs/2009.14777v3 )

ライセンス: Link先を確認
Yusuke Nomura(参考訳) ニューラルネットワークに基づく変動波関数は、量子多体状態を正確に表現する強力なアンサッツとして認識され始めた。 本手法の有効性を示すため, 正確な解が得られない多体問題に挑戦する際の性能について検討することが重要である。 ここでは、最も単純なニューラルネットワークの1つである制限ボルツマン機械(rbm)を用いて変分波動関数を構築し、平方格子上の2次元$j_1$-$j_2$ハイゼンベルクモデルである基本だが未解な量子スピンハミルトンモデルに適用する。 我々は、RBM波動関数を量子数投影で補足し、波動関数の対称性を復元し、励起状態の計算を可能にする。 次に,RBMの性能を体系的に調査する。 その結果,RBM波動関数は基底状態と励起状態の計算の両方において最先端の精度を実現することがわかった。 本研究は,制御された方法で精度を達成するための実践的なガイドラインを示す。

The variational wave functions based on neural networks have recently started to be recognized as a powerful ansatz to represent quantum many-body states accurately. In order to show the usefulness of the method among all available numerical methods, it is imperative to investigate the performance in challenging many-body problems for which the exact solutions are not available. Here, we construct a variational wave function with one of the simplest neural networks, the restricted Boltzmann machine (RBM), and apply it to a fundamental but unsolved quantum spin Hamiltonian, the two-dimensional $J_1$-$J_2$ Heisenberg model on the square lattice. We supplement the RBM wave function with quantum-number projections, which restores the symmetry of the wave function and makes it possible to calculate excited states. Then, we perform a systematic investigation of the performance of the RBM. We show that, with the help of the symmetry, the RBM wave function achieves state-of-the-art accuracy both in ground-state and excited-state calculations. The study shows a practical guideline on how we achieve accuracy in a controlled manner.
翻訳日:2023-04-30 14:19:58 公開日:2021-03-23
# デコヒーレンスフリー部分空間における固体スピンの単発読み出し

Single-shot readout of a solid-state spin in a decoherence-free subspace ( http://arxiv.org/abs/2010.12140v4 )

ライセンス: Link先を確認
D. Farfurnik, R. M. Pettit, Z. Luo and E. Waks(参考訳) 量子ドット分子の効率的な単一光子放出能力は、それらを量子情報処理の有望なプラットフォームと位置づけている。 さらに、量子ドット分子は、長いコヒーレンス時間でスピン量子ビットを可能にする「脱コヒーレンスのない」部分空間を持つ。 この部分空間内のスピン状態の効率よく読み取るには、量子ドット分子内の三重項多様体に由来する孤立遷移を光学的にサイクリングする必要がある。 本稿では,このデコヒーレンスフリー部分空間内の2段階のスピン読み出しプロトコルを提案し,理論的に検討する。 このプロセスはマイクロ波の$\pi$-pulseを内蔵し、孤立した遷移を光学的にサイクリングし、初期スピン状態の特定を可能にする蛍光を誘導する。 このプロトコルは、複数の基底状態に強く減衰するか、遅く、光学的に禁止された遷移を介して長い初期化を必要とする遷移の励起に依存する以前のスキームと比較して、読み出し忠実性が向上している。 プロトコルの性能をシミュレーションすることにより,光子収集効率を0.12%に抑えるために,最適なスピン読み出し精度97%,シングルショット読み出し性能が達成可能であることを示す。 デコヒーレンスフリー部分空間内のそのような現実的なフォトン収集条件に対する高い読み出し性能は、量子ドット分子のポテンシャルを量子ネットワークの構成要素として拡張する。

The efficient single photon emission capabilities of quantum dot molecules position them as promising platforms for quantum information processing. Furthermore, quantum dot molecules feature a "decoherence-free" subspace that enables spin qubits with long coherence time. To efficiently read out the spin state within this subspace requires optically cycling isolated transitions that originate from a triplet manifold within the quantum dot molecule. We propose and theoretically study a two-stage spin readout protocol within this decoherence-free subspace that allows single-shot readout performance. The process incorporates a microwave $\pi$-pulse and optically cycling the isolated transitions, which induces fluorescence that allows us to identify the initial spin state. This protocol offers enhanced readout fidelity compared to previous schemes that rely on the excitation of transitions that strongly decay to multiple ground states or require long initialization via slow, optically forbidden transitions. By simulating the performance of the protocol, we show that an optimal spin readout fidelity of over 97% and single-shot readout performance are achievable for a photon collection efficiency of just 0.12%. This high readout performance for such realistic photon collection conditions within the decoherence-free subspace expands the potential of quantum dot molecules as building blocks for quantum networks.
翻訳日:2023-04-27 22:53:56 公開日:2021-03-23
# 時間依存電場による真空対生成の厳密なWKB解析

Exact WKB analysis of the vacuum pair production by time-dependent electric fields ( http://arxiv.org/abs/2010.16080v3 )

ライセンス: Link先を確認
Hidetoshi Taya, Toshiaki Fujimori, Tatsuhiro Misumi, Muneto Nitta, Norisuke Sakai(参考訳) 正確なWKB解析に基づいて,時間依存性の強い電場による真空対生成について検討した。 真空対生成系に対するストークスグラフの一般的な構造を特定し、生成したペアの数は、一対の回転点を接続するストークスセグメントの接続行列の積によって与えられることを示す。 半古典極限を仮定して、生成する対の数の明示的な公式を導出する。 得られた公式は、ベリーによる発散漸近級数法の一般化として理解することができ、ワールドライン・インスタントン法や、ブレジンとイジクソンによるボゴリューボフ係数の最も急降下評価のような他の半古典的手法と一致する。 また、この式を用いて、摂動多光子対生成と非摂動シュウィンガー機構と動的支援シュウィンガー機構との相互作用を含む、印加された強電界の時間依存性の効果を議論する。

We study the vacuum pair production by a time-dependent strong electric field based on the exact WKB analysis. We identify the generic structure of a Stokes graph for systems with the vacuum pair production and show that the number of produced pairs is given by a product of connection matrices for Stokes segments connecting pairs of turning points. We derive an explicit formula for the number of produced pairs, assuming the semi-classical limit. The obtained formula can be understood as a generalization of the divergent asymptotic series method by Berry, and is consistent with other semi-classical methods such as the worldline instanton method and the steepest descent evaluation of the Bogoliubov coefficients done by Brezin and Izykson. We also use the formula to discuss effects of time-dependence of the applied strong electric field including the interplay between the perturbative multi-photon pair production and non-peturbative Schwinger mechanism, and the dynamically assisted Schwinger mechanism.
翻訳日:2023-04-26 07:48:26 公開日:2021-03-23
# 量子ターゲットランキングにおけるエネルギー的考察

Energetic Considerations in Quantum Target Ranging ( http://arxiv.org/abs/2011.03637v3 )

ライセンス: Link先を確認
Athena Karsa and Stefano Pirandola(参考訳) 量子照明(QI)は、目標検出における量子エンハンスメントを提供するが、目標測度を実行する可能性はまだ不明である。 返却信号と保持アイドルとのジョイント測定能力により、未知の返却時間がqiベースのプロトコルを実現するのが困難となる。 本稿では、複数の量子仮説テストと量子強化チャネル位置検出(CPF)の最近の発展に基づいて、量子ターゲットに対する潜在的QIベースのアプローチの概要を述べる。 CPFを時間ビンに適用すると、量子目標範囲の誤差確率の上限を求める。 しかし、エネルギー的考察を用いて、そのようなスキームでは量子アドバンテージが物理的に実現されないことを示す。

While quantum illumination (QI) can offer a quantum-enhancement in target detection, its potential for performing target ranging remains unclear. With its capabilities hinging on a joint-measurement between a returning signal and its retained idler, an unknown return time makes a QI-based protocol difficult to realise. This paper outlines a potential QI-based approach to quantum target ranging based on recent developments in multiple quantum hypothesis testing and quantum-enhanced channel position finding (CPF). Applying CPF to time bins, one finds an upper-bound on the error probability for quantum target ranging. However, using energetic considerations, we show that for such a scheme a quantum advantage may not physically be realised.
翻訳日:2023-04-25 03:07:05 公開日:2021-03-23
# 2成分Bose-Bose液滴のゼロエネルギーモード

Zero-energy modes of two-component Bose-Bose droplets ( http://arxiv.org/abs/2011.05135v3 )

ライセンス: Link先を確認
Pawe{\l} Zin, Maciej Pylak, and Mariusz Gajda(参考訳) ボース・ボース・ドロップレット(英: Bose-Bose droplet)は、2つの相互作用するボース・アインシュタインの混合物から生じる自己結合性物体である。 液滴形成の間、ハミルトニアン系の3つの連続対称性(翻訳対称性と2つのu1対称性)が破られ、2つの成分を記述する平均場波動関数の位相を任意に選択できる。 これらの対称性を破るには、崩壊した対称性を回復する系のエネルギースペクトルにゼロエネルギー励起が現れる必要がある。 これらの励起に対応する正規モードはゼロエネルギーモードである。 ここで、これらのモードの解析式を見つけ、時間発展を生成するハミトニアン -- 液滴の質量中心のダイナミクスと2つの液滴の波動関数の位相のダイナミクスを紹介します。 内部励起(量子粒子)が無視されるとき、量子滴の非常に複雑な系はわずかな「大域的」自由度(液滴の質量中心の位置と2つの波動関数の2つの位相)を用いて記述される。 これにより、衝突のようなこれらの量子液滴の相互作用の比較的簡単な過程を記述することができる。

Bose-Bose droplets are self-bound objects emerging from a mixture of two interacting Bose-Einstein condensates when their interactions are appropriately tuned. During droplet formation three continuous symmetries of the system's Hamiltonian are broken: translational symmetry and two U1 symmetries, allowing for arbitrary choice of phases of the mean-field wavefunctions describing the two components. Breaking of these symmetries must be accompanied by appearance of zero-energy excitations in the energy spectrum of the system recovering the broken symmetries. Normal modes corresponding to these excitations are the zero-energy modes. Here we find analytic expressions for these modes and introduce Hamitonians generating their time evolution -- dynamics of the droplet's centers of mass as well as dynamics of the phases of the two droplet's wavefunctions. When internal types of excitations (quasiparticles) are neglected then the very complex system of a quantum droplet is described using only few "global" degrees of freedom - the position of the center of mass of the droplet and two phases of two wave-functions, all these being quantum operators. This gives the possibility of describing in a relatively easy way processes of interaction of these quantum droplets, such as collisions.
翻訳日:2023-04-24 21:10:24 公開日:2021-03-23
# コロラド州 : コロラド州における議会の再分権と公正基準の競合

Colorado in Context: Congressional Redistricting and Competing Fairness Criteria in Colorado ( http://arxiv.org/abs/2011.06049v2 )

ライセンス: Link先を確認
Jeanne Clelland, Haley Colgate, Daryl DeFord, Beth Malmskog, Flavia Sancier-Barbosa(参考訳) 本稿では,コロラド州における議会代表の政治基盤を理解するために,アンサンブル分析手法を適用した。 我々は、合理的な再分権計画の大きなランダムなサンプルを作成し、2018年の州全体の選挙でのリターンを用いて各地区の党派バランスを決定する。 コロラド州は最近、地域境界を描くための独立した委員会を創設し、党派的偏見と既存の考慮を禁止し、政治的境界(郡など)をできるだけ保存し、地図製作者が競争地区の数を最大化することを要求した。 我々は,党派的な成果,分割される郡数,計画における競争地区数の関係について検討する。 本論文は, 必要なサンプルサイズを理解するためのより厳密な統計的枠組みと, ほぼ数郡を分断したランダム計画を生成する重み付きグラフ法という, 方法論における2つの新しい改良点を述べる。

In this paper, we apply techniques of ensemble analysis to understand the political baseline for Congressional representation in Colorado. We generate a large random sample of reasonable redistricting plans and determine the partisan balance of each district using returns from state-wide elections in 2018, and analyze the 2011/2012 enacted districts in this context. Colorado recently adopted a new framework for redistricting, creating an independent commission to draw district boundaries, prohibiting partisan bias and incumbency considerations, requiring that political boundaries (such as counties) be preserved as much as possible, and also requiring that mapmakers maximize the number of competitive districts. We investigate the relationships between partisan outcomes, number of counties which are split, and number of competitive districts in a plan. This paper also features two novel improvements in methodology--a more rigorous statistical framework for understanding necessary sample size, and a weighted-graph method for generating random plans which split approximately as few counties as acceptable human-drawn maps.
翻訳日:2023-04-24 11:32:23 公開日:2021-03-23
# 制約量子鎖におけるエクササイズ多体傷とその安定性

Exact many-body scars and their stability in constrained quantum chains ( http://arxiv.org/abs/2011.08218v2 )

ライセンス: Link先を確認
Federica Maria Surace, Matteo Votto, Eduardo Gonzalez Lazo, Alessandro Silva, Marcello Dalmonte, Giuliano Giudici(参考訳) 量子傷は低エンタングルメントエントロピーを特徴とする非熱的固有状態であり、最初は隣り合うリュードベルク封鎖の系で検出され、いわゆるPXPモデルと呼ばれる。 これらの特別な固有状態の多くは分析的な記述を省略し、近隣の熱固有状態と大きな系でハイブリッド化しているように見えるが、そのいくつかはサイズに依存しない結合次元を持つ行列積状態(MPS)として記述できる。 これらの量子傷の摂動に対する反応を,システムサイズに対する忠実度感受性のスケーリングを解析し検討した。 これらのいくつかは摂動理論において、固有状態熱化仮説とは対照的に一階に不規則に安定である。 しかし、この安定性は全ての注文を考慮に入れば崩壊するようである。 さらに、より大きいブロック半径を持つモデルを調べ、解析的に書き下ろし、PXPの正確な固有状態と比較する、新しい正確な量子傷のセットを見つける。 一順に摂動に対して同じ堅牢性を示すことを示す。

Quantum scars are non-thermal eigenstates characterized by low entanglement entropy, initially detected in systems subject to nearest-neighbor Rydberg blockade, the so called PXP model. While most of these special eigenstates elude an analytical description and seem to hybridize with nearby thermal eigenstates for large systems, some of them can be written as matrix product states (MPS) with size-independent bond dimension. We study the response of these exact quantum scars to perturbations by analysing the scaling of the fidelity susceptibility with system size. We find that some of them are anomalously stable at first order in perturbation theory, in sharp contrast to the eigenstate thermalization hypothesis. However, this stability seems to breakdown when all orders are taken into account. We further investigate models with larger blockade radius and find a novel set of exact quantum scars, that we write down analytically and compare with the PXP exact eigenstates. We show that they exhibit the same robustness against perturbations at first order.
翻訳日:2023-04-23 23:22:18 公開日:2021-03-23
# 完全可変スピン軌道結合を有するSi FinFETのホールスピン量子ビットと電荷雑音に対するスイートスポット

Hole spin qubits in Si FinFETs with fully tunable spin-orbit coupling and sweet spots for charge noise ( http://arxiv.org/abs/2011.09417v2 )

ライセンス: Link先を確認
Stefano Bosco and Bence Het\'enyi and Daniel Loss(参考訳) ホールスピンキュービットの強いスピン軌道結合は、高速かつ電気的に調整可能なゲートを可能にするが、同時に、クォービットのノイズに対する感受性を高める。 このノイズを抑制することは、半導体量子コンピューティングにおいて重要な課題である。 ここでは、Si FinFETのホールは現代のCMOS技術とあまり互換性がないだけでなく、電荷ノイズを完全に除去する操作可能なスイートスポットを提示する。 これらのスイートスポットの存在は、材料の異方性とフィンフェット断面の三角形形状との間の相互作用の結果であり、装置の静電気を極端に微調整する必要がない。 異なる結晶軸に沿って生育するフィンセットに甘味点がどのように出現するかを示し,断面面積とアスペクト比が変化すると装置の挙動がどう変化するか詳細に検討した。 我々は、量子ビット性能を最大化する設計を特定し、スケーラブルなスピンベースの量子コンピュータへの道を開くことができる。

The strong spin-orbit coupling in hole spin qubits enables fast and electrically tunable gates, but at the same time enhances the susceptibility of the qubit to charge noise. Suppressing this noise is a significant challenge in semiconductor quantum computing. Here, we show theoretically that hole Si FinFETs are not only very compatible with modern CMOS technology, but they present operational sweet spots where the charge noise is completely removed. The presence of these sweet spots is a result of the interplay between the anisotropy of the material and the triangular shape of the FinFET cross-section, and it does not require an extreme fine-tuning of the electrostatics of the device. We present how the sweet spots appear in FinFETs grown along different crystallographic axes and we study in detail how the behaviour of these devices change when the cross-section area and aspect ratio are varied. We identify designs that maximize the qubit performance and could pave the way towards a scalable spin-based quantum computer.
翻訳日:2023-04-23 19:18:27 公開日:2021-03-23
# BCS超伝導体の動的相の空洞QED量子シミュレータ

A cavity-QED quantum simulator of dynamical phases of a BCS superconductor ( http://arxiv.org/abs/2011.13007v2 )

ライセンス: Link先を確認
Robert J. Lewis-Swan, Diego Barberena, Julia R. K. Cline, Dylan J. Young, James K. Thompson and Ana Maria Rey(参考訳) 我々は,光キャビティに閉じ込められた冷却原子のアンサンブルを用いたbcs超伝導体の動的位相シミュレーションを提案する。 効果的なクーパー対は原子の内部状態を通じて符号化され、共通のキャビティモードに結合した原子間の仮想光子の交換によって魅力的な相互作用が実現される。 効果的なクーパー対のチューナブル分散関係と組み合わせた相互作用強度の制御は、システムパラメータと準備された初期状態の関数として、BCSモデルの完全な動的位相図を探索することができる。 提案手法は, 低温原子ガス中の原子-光相互作用を利用して, 量子磁性と超伝導の非平衡特性を研究する方法である。

We propose to simulate dynamical phases of a BCS superconductor using an ensemble of cold atoms trapped in an optical cavity. Effective Cooper pairs are encoded via internal states of the atoms and attractive interactions are realized via the exchange of virtual photons between atoms coupled to a common cavity mode. Control of the interaction strength combined with a tunable dispersion relation of the effective Cooper pairs allows exploration of the full dynamical phase diagram of the BCS model, as a function of system parameters and the prepared initial state. Our proposal paves the way for the study of non-equilibrium features of quantum magnetism and superconductivity by harnessing atom-light interactions in cold atomic gases.
翻訳日:2023-04-23 00:37:01 公開日:2021-03-23
# 原始摂動の量子回路複雑性

Quantum Circuit Complexity of Primordial Perturbations ( http://arxiv.org/abs/2012.04911v2 )

ライセンス: Link先を確認
Jean-Luc Lehners and Jerome Quintin(参考訳) 初期宇宙の異なるモデルにおける宇宙論的摂動の量子回路複雑性について検討する。 宇宙摂動の複雑性の自然な尺度はシンプレクティック群に基づいており、双曲平面における測地線との複雑性を識別することができる。 モード関数と物理的摂動の両方の複雑さについて検討し、後者が関係する物理学のより洞察に富んだ説明を与えることが多いと主張した。 すべてのモデルにおいて、到達した総複雑性はかなり大きい。 インフレ摂動は比較的単純な量子回路で表されるが、物質が支配する収縮相の摂動は複雑さの最も急激な成長を示す。 エクリロティック摂動は中央に存在し、地平線離脱前の複雑さの最小成長によって区別される。 我々の分析は、異なる宇宙モデルが異なる経路による摂動に対して同じ結果を得る方法と、全てのモデルが初期条件に対する顕著な感度を示す方法を明らかにするのに役立つ。

We study the quantum circuit complexity of cosmological perturbations in different models of the early universe. A natural measure for the complexity of cosmological perturbations is based on the symplectic group, allowing us to identify complexity with geodesics in the hyperbolic plane. We investigate the complexity of both the mode functions and the physical perturbations, arguing that the latter often provides a more insightful description of the physics involved. In all models the total complexity reached is rather large. Inflationary perturbations may be represented by a comparatively simple quantum circuit, while the perturbations during a matter-dominated contracting phase present the most rapid growth in complexity. Ekpyrotic perturbations reside in the middle and are distinguished by the smallest growth of complexity before horizon exit. Our analysis serves to highlight how different cosmological models achieve the same end result for the perturbations via different routes and how all models show a pronounced sensitivity to initial conditions.
翻訳日:2023-04-21 08:17:08 公開日:2021-03-23
# 中立原子系のリドベルク・ブロッキング系における$W$からGreenberger-Horne-Zeilinger状態への変換:動的対称性に基づくアプローチ

Conversion from $W$ to Greenberger-Horne-Zeilinger states in the Rydberg-blockade regime of neutral-atom systems: Dynamical-symmetry-based approach ( http://arxiv.org/abs/2012.15169v2 )

ライセンス: Link先を確認
Thorsten Haase, Gernot Alber, and Vladimir M. Stojanovic(参考訳) 我々は,原子が4つの外レーザーパルスを受ける中性原子系のリドベルク・ブロッキング状態において,最大絡み合った2つの重要な多ビット状態,すなわち$W$とGreenberger-Horne-Zeilinger状態間の決定論的変換の可能性を検討する。 W$状態とそれらのGHZ状態の間のそのような相互変換は、近ごろ、ルイス=リースフェルト不変量 [R] に基づくより正確に、断熱的なショートカット法を用いて解決されている。 -h。 Zheng et al. (英語) とPhys。 rev. a {\bf 101}, 012345 (2020)]。 この研究の動機の一部は、システムの動的対称性と許容される進化のリー代数的パラメトリゼーションに基づく、根本的に異なるアプローチを用いて、w$からghzの状態変換問題を再検討することにある。 外部レーザーの強い時間依存のラビ周波数を特徴とする状態変換プロトコルを先進的に用いた不変なアプローチとは対照的に、我々は時間非依存のラビ周波数を生成できる。 この特徴により、我々のプロトコルはより実験的に適用しやすくなり、さらに、所望の状態変換を、使用した全レーザーパルスエネルギーで大幅に短い時間で行うことができるという利点が加わった。

We investigate the possibilities for a deterministic conversion between two important types of maximally entangled multiqubit states, namely, $W$ and Greenberger-Horne-Zeilinger (GHZ) states, in the Rydberg-blockade regime of a neutral-atom system where each atom is subject to four external laser pulses. Such interconversions between $W$ states and their GHZ counterparts have quite recently been addressed using the method of shortcuts to adiabaticity, more precisely techniques based on Lewis-Riesenfeld invariants [R.-H. Zheng {\em et al.}, Phys. Rev. A {\bf 101}, 012345 (2020)]. Motivated in part by this recent work, we revisit the $W$ to GHZ state-conversion problem using a fundamentally different approach, which is based on the dynamical symmetries of the system and a Lie-algebraic parametrization of its permissible evolutions. In contrast to the previously used invariant-based approach, which leads to a state-conversion protocol characterized by strongly time-dependent Rabi frequencies of external lasers, ours can also yield one with time-independent Rabi frequencies. This feature makes our protocol more easily applicable experimentally, with the added advantage that it allows the desired state conversion to be carried out in a significantly shorter time with the same total laser pulse energy used.
翻訳日:2023-04-18 07:57:33 公開日:2021-03-23
# サイバー物理システムのデータ駆動テスト

Data Driven Testing of Cyber Physical Systems ( http://arxiv.org/abs/2102.11491v2 )

ライセンス: Link先を確認
Dmytro Humeniuk, Giuliano Antoniol, Foutse Khomh(参考訳) 消費者レベルのサイバー物理システム(CPS)は私たちの生活の不可欠な部分となり、日々のタスクを自動化し、単純化しています。 実際、ハードウェア、ネットワーク、ソフトウェア間の複雑な相互作用のため、そのようなシステムの開発とテストは難しい課題であることが知られている。 様々な品質保証とテスト戦略が提案されている。 デプロイ前テストの最も一般的なアプローチは、システムをモデル化し、ループ内のモデルやソフトウェアでシミュレーションを実行することです。 実際には、多くの場合、少数のシミュレーションのためにテストが実行され、エンジニアのドメイン知識と経験に基づいて選択される。 本稿では,CPSの故障防止テストケースを自動生成する手法を提案する。 私たちはPythonにアプローチを実装し、標準的なフレームワークを使用して、IoTテストベッドの一部として実装されたスマートサーモスタットの温度制約を違反するシナリオを生成しました。 スマートビルを管理するアプリケーションから収集されたデータは、常に変化する状況下で環境のモデルを学ぶために使われています。 提案したアプローチでは,システムに期待通りに振る舞うことのないいくつかの落とし穴,シナリオ(環境条件,入力など)を特定できた。

Consumer grade cyber-physical systems (CPS) are becoming an integral part of our life, automatizing and simplifying everyday tasks. Indeed, due to complex interactions between hardware, networking and software, developing and testing such systems is known to be a challenging task. Various quality assurance and testing strategies have been proposed. The most common approach for pre-deployment testing is to model the system and run simulations with models or software in the loop. In practice, most often, tests are run for a small number of simulations, which are selected based on the engineers' domain knowledge and experience. In this paper we propose an approach to automatically generate fault-revealing test cases for CPS. We have implemented our approach in Python, using standard frameworks and used it to generate scenarios violating temperature constraints for a smart thermostat implemented as a part of our IoT testbed. Data collected from an application managing a smart building have been used to learn models of the environment under ever changing conditions. The suggested approach allowed us to identify several pit-fails, scenarios (i.e., environment conditions and inputs), where the system behaves not as expected.
翻訳日:2023-04-10 03:42:22 公開日:2021-03-23
# 円錐環のフェルミオン凝縮に対するカシミール効果

Casimir effect for fermion condensate in conical rings ( http://arxiv.org/abs/2102.12155v2 )

ライセンス: Link先を確認
A. A. Saharian, T. A. Petrosyan, A. A. Hovhannisyan(参考訳) フェルミオン凝縮体 (FC) は, (2+1) 次元の巨大なフェルミオン場を任意の平面角の欠損を有する円錐上に閉じ込め, 磁束でスレッディングする。 境界条件の異なる組み合わせがコーンの端に課される。 特殊なケースとしてバッグ境界条件を含む。 放射状量子数の固有値上の級数に対する一般化されたアベル・プランタ型和公式を用いて、fcにおけるエッジ誘起寄与を明示的に抽出する。 FCは磁束の偶周期関数であり、周期は磁束量子と等しい。 境界条件によっては、凝縮体は正あるいは負のいずれかである。 質量のない体の場合、境界自由円錐幾何学におけるFCは消滅し、非ゼロ寄与は純粋にエッジ誘起効果である。 これは磁場がない場合に時間反転対称性を破るメカニズムを提供する。 クリフォード代数の2つの非同値な既約表現に対応する場の結果を組み合わせることで、fc はパリティおよび時間反転対称フェルミオンモデルで研究され、グラファイト錐への応用が議論された。

The fermion condensate (FC) is investigated for a (2+1)-dimensional massive fermionic field confined on a truncated cone with an arbitrary planar angle deficit and threaded by a magnetic flux. Different combinations of the boundary conditions are imposed on the edges of the cone. They include the bag boundary condition as a special case. By using the generalized Abel-Plana-type summation formula for the series over the eigenvalues of the radial quantum number, the edge-induced contributions in the FC are explicitly extracted. The FC is an even periodic function of the magnetic flux with the period equal to the flux quantum. Depending on the boundary conditions, the condensate can be either positive or negative. For a massless field the FC in the boundary-free conical geometry vanishes and the nonzero contributions are purely edge-induced effects. This provides a mechanism for time-reversal symmetry breaking in the absence of magnetic fields. Combining the results for the fields corresponding to two inequivalent irreducible representations of the Clifford algebra, the FC is investigated in the parity and time-reversal symmetric fermionic models and applications are discussed for graphitic cones.
翻訳日:2023-04-10 01:16:18 公開日:2021-03-23
# 量子接続モーメント展開の精度と効率の向上

Improving the accuracy and efficiency of quantum connected moments expansions ( http://arxiv.org/abs/2103.09124v2 )

ライセンス: Link先を確認
Daniel Claudino, Bo Peng, Nicholas P. Bauman, Karol Kowalski and Travis S. Humble(参考訳) 未だ整合性のある中間スケール量子(NISQ)技術は、効率的に実装できるアルゴリズムに厳しい制限に直面している。 量子化学において、変分量子固有解法 (VQE) アルゴリズムは、アンザッツの関数形式を自由度としてユビキタス化され、そのパラメータは量子プロセッサと従来との間にあるフィードバックループで変動的に見つかる。 あるいは、ハミルトニアンのモーメントの展開に基づく量子的不変性によって、有望な新しい道が発見されている: 連結モーメント展開 (CMX) [Phys. Rev. 58, 53 (1987)] とピーターズ=デヴリース=ソルダトフ (PDS) 汎函数 [J. Phys. A 17, 625 (1984); Int. J. Mod. Phys. B 9, 2899] であり、後者は標準モーメント <$H^k$> に基づいている。 VQEベースの手法と対照的に、量子回路が真の基底状態と非消滅的に重なり合う状態を準備し、CMXはしばしば基底状態エネルギーに収束し、PSDは変動によって収束することが保証される。 しかし、有限cmx/pdsオーダーの場合、回路はエネルギーの精度に大きな影響を与える可能性がある。 ここでは、ADAPT-VQEアルゴリズムを用いて、計算された基底状態エネルギーの大幅な精度向上を図りながら、現在の量子ハードウェアにおける実装を妨げることが期待できない浅層回路構築戦略をテストする。 また、接続モーメントの項が異なるパワーで非常に繰り返されており、必要な測定回数が大幅に減少しているという事実を活用できることも示している。 この測定キャッシングを、そのスカラー係数に基づいて所定の項が測定されるか否かを判定するしきい値と結合することにより、回路実装のさらなる減少を観測し、調整可能な精度を実現する。

The still-maturing noisy intermediate-scale quantum (NISQ) technology faces strict limitations on the algorithms that can be implemented efficiently. In quantum chemistry, the variational quantum eigensolver (VQE) algorithm has become ubiquitous, using the functional form of the ansatz as a degree of freedom, whose parameters are found variationally in a feedback loop between the quantum processor and its conventional counterpart. Alternatively, a promising new avenue has been unraveled by the quantum variants of techniques grounded on expansions of the moments of the Hamiltonian, among which two stand out: the connected moments expansion (CMX) [Phys. Rev. Lett. 58, 53 (1987)] and the Peeters-Devreese-Soldatov (PDS) functional [J. Phys. A 17, 625 (1984); Int. J. Mod. Phys. B 9, 2899], the latter based on the standard moments <$H^k$>. Contrasting with VQE-based methods and provided the quantum circuit prepares a state with non-vanishing overlap with the true ground state, CMX often converges to the ground state energy, while PDS is guaranteed to converge by virtue of being variational. However, for a finite CMX/PDS order, the circuit may significantly impact the energy accuracy. Here we use the ADAPT-VQE algorithm to test shallow circuit construction strategies that are not expected to impede their implementation in the present quantum hardware while granting sizable accuracy improvement in the computed ground state energies. We also show that we can take advantage of the fact that the terms in the connected moments are highly recurring in different powers, incurring a sizable reduction in the number of necessary measurements. By coupling this measurement caching with a threshold that determines whether a given term is to be measured based on its associated scalar coefficient, we observe a further reduction in the number of circuit implementations while allowing for tunable accuracy.
翻訳日:2023-04-07 23:32:23 公開日:2021-03-23
# z$-control のみを用いた低オーバーヘッド普遍性と量子超越性

Low overhead universality and quantum supremacy using only $Z$-control ( http://arxiv.org/abs/2103.09753v2 )

ライセンス: Link先を確認
Brian Barch, Razieh Mohseninia, Daniel Lidar(参考訳) varying-$z$" (v$z$) とよばれる量子計算のモデルを考え、一様で定数な外部の$x$-フィールドの存在下で制御可能な$z$-対角ハミルトニアンを適用して定義し、それが1dにおいても普遍的であることを証明する。 普遍性は、$o(1)$の深さを持つユニバーサルゲート集合の構築によって証明される。 次に、この構成を用いて、多項式階層が崩壊しない限り出力分布を古典的にシミュレートできない回路を記述する。 V$Z$モデルは$O(n)$の深さで量子超越性を達成でき、高次均一性にもかかわらずランダム回路サンプリングモデルと等価である。

We consider a model of quantum computation we call "Varying-$Z$" (V$Z$), defined by applying controllable $Z$-diagonal Hamiltonians in the presence of a uniform and constant external $X$-field, and prove that it is universal, even in 1D. Universality is demonstrated by construction of a universal gate set with $O(1)$ depth overhead. We then use this construction to describe a circuit whose output distribution cannot be classically simulated unless the polynomial hierarchy collapses, with the goal of providing a low-resource method of demonstrating quantum supremacy. The V$Z$ model can achieve quantum supremacy in $O(n)$ depth, equivalent to the random circuit sampling models despite a higher degree of homogeneity: it requires no individually addressed $X$-control.
翻訳日:2023-04-07 21:09:59 公開日:2021-03-23
# 閉じ込められたイオン中の光ツイーザーとの工学的スピンスピン相互作用

Engineering spin-spin interactions with optical tweezers in trapped ions ( http://arxiv.org/abs/2103.10425v3 )

ライセンス: Link先を確認
Juan Diego Arias Espinoza, Matteo Mazzanti, Katya Fouka, Rima X. Sch\"ussler, Zhenlin Wu, Philippe Corboz, Rene Gerritsma, Arghavan Safavi-Naini(参考訳) 本稿では,1次元および2次元の捕捉イオン量子シミュレータにおけるプログラム可能な相互作用を生成する新しい手法を提案する。 ここでは, 閉じ込められたイオン結晶の音波スペクトルを光学トワイザを用いて設計する。 このアプローチにより、現在のセットアップでアクセス可能なパワー-ロー相互作用以外のイオン量子ビットの相互作用と接続を調整できることを示す。 本研究では, 現実的なツイーザー設定と, 関連するトラップパラメータを用いて, 最適ツイーザーパターンを生成し, 1次元結晶と2次元結晶の両方でターゲットスピンスピン相互作用パターンを作成する実験を行った。 我々のアプローチは、量子スピンハミルトニアンのより広範なファミリーを実現するために、閉じ込められたイオンプラットフォームにおける量子シミュレーションを進める。

We propose a new method for generating programmable interactions in one- and two-dimensional trapped-ion quantum simulators. Here we consider the use of optical tweezers to engineer the sound-wave spectrum of trapped ion crystals. We show that this approach allows us to tune the interactions and connectivity of the ion qubits beyond the power-law interactions accessible in current setups. We demonstrate the experimental feasibility of our proposal using realistic tweezer settings and experimentally relevant trap parameters to generate the optimal tweezer patterns to create target spin-spin interaction patterns in both one- and two-dimensional crystals. Our approach will advance quantum simulation in trapped-ion platforms as it allows them to realize a broader family of quantum spin Hamiltonians.
翻訳日:2023-04-07 18:38:20 公開日:2021-03-23
# 真空中におけるすべり粒子の量子摩擦の検出

Detectable Signature of Quantum Friction on a Sliding Particle in Vacuum ( http://arxiv.org/abs/2103.11979v2 )

ライセンス: Link先を確認
Fernando C. Lombardo, Ricardo S. Decca, Ludmila Viotti, and Paula I. Villar(参考訳) 真空を通した相対運動中の空間的に分離された物体は、量子摩擦と呼ばれる小さな摩擦力を経験する。 この力は、その小ささと短距離のため、これまで実験的な検出を免れた。 粒子の量子コヒーレンス分解における量子摩擦の痕跡を定量的に明らかにした。 誘電体シート上を滑り落ちる粒子の環境誘起脱コヒーレンスは、誘電体の存在下で電磁真空によってのみ誘起されるものと、運動によって誘起されるものとに分解することができる。 幾何相は量子系の特徴を推測する実りある研究の場であることが証明されているので、粒子が獲得した累積幾何相を量子摩擦センサとして用いることを提案する。 さらに, 幾何位相とコヒーレンスに対する補正の速度依存性を計測し, 量子摩擦跡を追跡する革新的な実験を行った。 実験的に実現可能なスキームは、この非平衡現象をすぐに測定できることを期待して、非接触摩擦の検出に新たな最適化を引き起こす可能性がある。

Spatially separated bodies in relative motion through vacuum experience a tiny friction force known as quantum friction. This force has so far eluded experimental detection due to its small magnitude and short range. Quantitative details revealing traces of the quantum friction in the degradation of the quantum coherence of a particle are presented. Environmentally induced decoherence for a particle sliding over a dielectric sheet can be decomposed into contributions of different signatures: one solely induced by the electromagnetic vacuum in presence of the dielectric and another induced by motion. As the geometric phase has been proved to be a fruitful venue of investigation to infer features of the quantum systems, herein we propose to use the accumulated geometric phase acquired by a particle as a quantum friction sensor. Furthermore, an innovative experiment designed to track traces of quantum friction by measuring the velocity dependence of corrections to the geometric phase and coherence is proposed. The experimentally viable scheme presented can spark renewed optimism for the detection of non-contact friction, with the hope that this non-equilibrium phenomenon can be readily measured soon.
翻訳日:2023-04-07 04:26:58 公開日:2021-03-23
# 認証付きマルチパーティ量子鍵合意プロトコル

Multi-party quantum key agreement protocol with authentication ( http://arxiv.org/abs/2103.12252v1 )

ライセンス: Link先を確認
Yiting Wu, Hong Chang, Gongde Guo, and Song Lin(参考訳) 量子エンタングルメントスワッピングの利点を生かして,認証を用いたマルチパーティ量子鍵アグリーメントプロトコルを提案する。 このプロトコルでは、半信頼の第三者がベル状態を作成し、それぞれ1つの粒子を複数の参加者に送る。 その後、参加者はエンタングルメントスワップによってグリーンベルガー・ホーネ・ザイリンガー状態を共有することができる。 最後に、これらの参加者は手の粒子を測定し、合意鍵を得る。 ここでは、古典的なハッシュ関数とアダマール演算を用いて参加者の身元を認証する。 GHZ状態の相関は提案プロトコルの安全性を保証する。 このプロトコルの共通攻撃に対する安全性を詳細に説明するために,提案プロトコルが理論的に安全であることを示す。

Utilizing the advantage of quantum entanglement swapping, a multi-party quantum key agreement protocol with authentication is proposed. In this protocol, a semi-trusted third party is introduced, who prepares Bell states, and sends one particle to multiple participants respectively. After that the participants can share a Greenberger-Horne-Zeilinger state by entanglement swapping. Finally, these participants measure the particles in their hands and obtain an agreement key. Here, classical hash function and Hadamard operation are utilized to authenticate the identity of participants. The correlations of GHZ states ensure the security of the proposed protocol. To illustrated it detailly, the security of this protocol against common attacks is analyzed, which shows that the proposed protocol is secure in theory.
翻訳日:2023-04-07 02:29:31 公開日:2021-03-23
# 非エルミートSSHモデルの位相的対応

The topological counterparts of non-Hermitian SSH models ( http://arxiv.org/abs/2103.12397v1 )

ライセンス: Link先を確認
Y. Z. Han, J. S. Liu, C. S. Liu(参考訳) 非ヘルミタンスキン効果による従来のバルク境界対応の分解は、一般化されたブリルアンゾーンにおける非ブロックバルク境界対応をもたらす。 非相互ホッピングと虚ゲージ場との同値性から着想を得て、類似性変換を持つ非エルミート二量体格子の位相的等価モデルを構築する方法を提案する。 構成の考え方は、想像上の磁束が開境界条件下で消滅し、周期境界スペクトルが開境界スペクトルによってよく近似できるからである。 この手法をいくつかの代表的非エルミートSSHモデルに適用し、従来のブロッホ帯域で定義された解析形式における位相不変量を得る。 この方法は、非エルミート系の位相的性質を研究する別の方法を与える。

The breakdown of the conventional bulk-boundary correspondence due to non-Hermitian skin effect leads to the non-Bloch bulk-boundary correspondence in the generalized Brillouin zone. Inspired by the case of the equivalence between the non-reciprocal hopping and imaginary gauge field, we propose a method to construct the topological equivalent models of the non-Hermitian dimerized lattices with the similarity transformations. The idea of the constructions is from that the imaginary magnetic flux vanishes under the open boundary condition and the period boundary spectra can be well approximated by open boundary spectra. As an illustration, we apply this approach to several representative non-Hermitian SSH models, efficiently obtaining topological invariants in analytic form defined in the conventional Bloch bands. The method gives an alternative way to study the topological properties of non-Hermitian system.
翻訳日:2023-04-07 02:26:27 公開日:2021-03-23
# 低光子検出による光メトロロジーの精度向上

Improving the Precision of Optical Metrology by Detecting Fewer Photons ( http://arxiv.org/abs/2103.12373v1 )

ライセンス: Link先を確認
Peng Yin, Wen-Hao Zhang, Liang Xu, Ze-Gang Liu, Wei-Feng Zhuang, Lei Chen, Ming Gong, Yu Ma, Xing-Xiang Peng, Gong-Chu Li, Jin-Shi Xu, Zong-Quan Zhou, Lijian Zhang, Geng Chen, Chuan-Feng Li, and Guang-Can Guo(参考訳) 物理量を測定するための光メロジカルプロトコルでは、原理上、測定精度を向上させるために光子数を増加させることが常に有益である。 しかし、実際的な制約は、特に検出器応答が飽和効果に支配されている場合、実用検出器の不完全性によるnの任意の増加を防ぐ。 本研究では,修正弱測定プロトコル,すなわち偏弱測定が飽和効果の存在下での光学計測の精度を大幅に向上させることを示す。 この方法は、相当量の気象情報を保持しながら、超微量の光子を検出する。 バイアス付きプリカップリングは、ポストセレクションにおける光子のさらなる減少につながり、スペクトル分布における消滅点を生成し、これは推定パラメータに非常に敏感であり、飽和しにくい。 これにより、光子数を増大させることでフィッシャー情報を持続的に増強することができる。 磁気センシング実験では, 偏差弱測定により, 従来手法よりも精度が約1桁向上した。 提案手法は, 低コスト装置による検出器飽和効果を回避するため, 様々な光学計測手法に応用できる。

In optical metrological protocols to measure physical quantities, it is, in principle, always beneficial to increase photon number to improve measurement precision. However, practical constraints prevent arbitrary increase of n due to the imperfections of a practical detector, especially when the detector response is dominated by saturation effect. In this work, we show that a modified weak measurement protocol, namely, biased weak measurement significantly improves the precision of optical metrology in the presence of saturation effect. This method detects an ultra-small fraction of photons while maintains considerable amount of metrological information. The biased pre-coupling leads to an additional reduction of photons in the post-selection and generates an extinction point in the spectrum distribution, which is extremely sensitive to the estimated parameter and difficult to be saturated. Therefore, the Fisher information can be persistently enhanced by increasing the photon number. In our magnetic-sensing experiment, biased weak measurement achieves precision approximately one order of magnitude better than those of previously used methods. The proposed method can be applied in various optical measurement schemes to circumvent detector saturation effect with low-cost apparatuses.
翻訳日:2023-04-07 02:26:12 公開日:2021-03-23
# D波量子アニールを用いたブラックボックス最適化のベンチマークテスト

Benchmark test of Black-box optimization using D-Wave quantum annealer ( http://arxiv.org/abs/2103.12320v1 )

ライセンス: Link先を確認
Ami S. Koshikawa, Masayuki Ohzeki, Tadashi Kadowaki, Kazuyuki Tanaka(参考訳) 最適化問題を解決する際、目的関数は一般に最小化または最大化する必要がある。 しかし、目的関数は複雑な問題の設定のために数学的形式で明示的に定式化することはできない。 いくつかの回帰手法は、目的関数の近似形式を推測するが、評価する費用は高くつく。 ブラックボックス」目的関数の最適点をこのようなシナリオで計算し、少数の手がかりを効果的に利用する。 近年,バイナリ変数を持つブラックボックス目的関数に対して,スパースによる推論を用いた効率的な手法が提案されている。 本手法では,二元最適化問題 (qubo) という二元最適化問題を用いてサロゲートモデルを提案し,ブラックボックス目的関数の最適解を得るために反復的に解いた。 本研究では,量子ゆらぎによる2変数の駆動によりQUBOを解くことができるD-Wave 2000Q量子アニールを用いた。 D-Wave 2000Q量子アニールは、プロセス中の凍結効果のため、プロトコルの終了時の基底状態を必ずしも出力しない。 ブラックボックス最適化におけるD波量子アニールの出力特性について検討する。 ブラックボックス目的関数としてスパースシェリントン・カークパトリック (SK) モデルを用いて, 相互作用係数のスパース性を制御するパラメータを導入することで, ベンチマークテストを示す。 シミュレーションアニール (SA) と半定値プログラミング (SDP) の結果と比較すると, D-Wave 量子アニール (SA) は, SDP を用いたブラックボックス最適化において優れている。 一方、シミュレーションアニールよりもD波量子アニールの利点は見つからなかった。 我々の場合、量子揺らぎによるどんな影響も見出されていない。

In solving optimization problems, objective functions generally need to be minimized or maximized. However, objective functions cannot always be formulated explicitly in a mathematical form for complicated problem settings. Although several regression techniques infer the approximate forms of objective functions, they are at times expensive to evaluate. Optimal points of "black-box" objective functions are computed in such scenarios, while effectively using a small number of clues. Recently, an efficient method by use of inference by sparse prior for a black-box objective function with binary variables has been proposed. In this method, a surrogate model was proposed in the form of a quadratic unconstrained binary optimization (QUBO) problem, and was iteratively solved to obtain the optimal solution of the black-box objective function. In the present study, we employ the D-Wave 2000Q quantum annealer, which can solve QUBO by driving the binary variables by quantum fluctuations. The D-Wave 2000Q quantum annealer does not necessarily output the ground state at the end of the protocol due to freezing effect during the process. We investigate effects from the output of the D-Wave quantum annealer in performing black-box optimization. We demonstrate a benchmark test by employing the sparse Sherrington-Kirkpatrick (SK) model as the black-box objective function, by introducing a parameter controlling the sparseness of the interaction coefficients. Comparing the results of the D-Wave quantum annealer to those of the simulated annealing (SA) and semidefinite programming (SDP), our results by the D-Wave quantum annealer and SA exhibit superiority in black-box optimization with SDP. On the other hand, we did not find any advantage of the D-Wave quantum annealer over the simulated annealing. As far as in our case, any effects by quantum fluctuation are not found.
翻訳日:2023-04-07 02:25:30 公開日:2021-03-23
# 強いZZ相互作用を持つトランモン量子ビットに対する普遍量子ゲート集合

A universal quantum gate set for transmon qubits with strong ZZ interactions ( http://arxiv.org/abs/2103.12305v1 )

ライセンス: Link先を確認
Junling Long, Tongyu Zhao, Mustafa Bal, Ruichen Zhao, George S. Barron, Hsiang-sheng Ku, Joel A. Howard, Xian Wu, Corey Rae H. McRae, Xiu-Hao Deng, Guilhem J. Ribeill, Meenakshi Singh, Thomas A. Ohki, Edwin Barnes, Sophia E. Economou and David P. Pappas(参考訳) 高忠実度単一および2量子ビットゲートは、フォールトトレラント量子コンピュータにとって必須のビルディングブロックである。 超伝導量子ビットシステムでは単一量子ビットゲートエラーの抑制に多くの進展があったが、2量子ビットゲートは依然として桁違いに高いエラーレートに苦しんでいる。 1つの制限因子は残差zz相互作用であり、計算状態と高エネルギー状態の結合に由来する。 通常、この相互作用は迷惑と見なされるが、ここでは、結合したトランスモンキュービットシステムにおいて、高速で単一で2キュービットのゲートが絡み合う普遍的な集合を作ることができることを実験的に証明する。 任意の単一ビット回転を実現するために,三部複合パルスに基づく2軸ゲートと呼ばれる新しいプロトコルを設計する。 強いzz結合にもかかわらず、他のキュービットの状態とは独立に単一のキュービットを回転させる。 ランダムなベンチマーク測定により,単一量子ゲートの忠実度を99.1%まで向上させる。 次に、CZゲートとCNOTゲートの両方を示します。 システムはZZ相互作用が強いため、CZゲートはゲート時間$t_g=53.8$ nsで自由に進化させることができる。 CNOTゲートの設計には、SWIPHTプロトコルに基づくマイクロ波パルス形状解析を用い、高速で低遅延なゲートを実現する。 量子プログレッシブトモグラフィにより,cnotゲートとczゲートそれぞれ94.6%と97.8%のフィダリティを得た。

High-fidelity single- and two-qubit gates are essential building blocks for a fault-tolerant quantum computer. While there has been much progress in suppressing single-qubit gate errors in superconducting qubit systems, two-qubit gates still suffer from error rates that are orders of magnitude higher. One limiting factor is the residual ZZ-interaction, which originates from a coupling between computational states and higher-energy states. While this interaction is usually viewed as a nuisance, here we experimentally demonstrate that it can be exploited to produce a universal set of fast single- and two-qubit entangling gates in a coupled transmon qubit system. To implement arbitrary single-qubit rotations, we design a new protocol called the two-axis gate that is based on a three-part composite pulse. It rotates a single qubit independently of the state of the other qubit despite the strong ZZ-coupling. We achieve single-qubit gate fidelities as high as 99.1% from randomized benchmarking measurements. We then demonstrate both a CZ gate and a CNOT gate. Because the system has a strong ZZ-interaction, a CZ gate can be achieved by letting the system freely evolve for a gate time $t_g=53.8$ ns. To design the CNOT gate, we utilize an analytical microwave pulse shape based on the SWIPHT protocol for realizing fast, low-leakage gates. We obtain fidelities of 94.6% and 97.8% for the CNOT and CZ gates respectively from quantum progress tomography.
翻訳日:2023-04-07 02:24:34 公開日:2021-03-23
# quditsにおけるスワップの普遍性:表現論的アプローチ

Universality of swap for qudits: a representation theory approach ( http://arxiv.org/abs/2103.12303v1 )

ライセンス: Link先を確認
James R. van Meter(参考訳) 量子情報理論のオープンな問題は、$d$-state システムで$d>2$ で符号化された qudits に対して、ユニバーサル交換のみの計算が可能かどうかという条件の下で決定することであった。 この問題は、交換-相互作用によって生成されるそれぞれの量子力学的スワップが対称群の転置と同一視でき、各$d$状態系は$SU(d)$の基本的な表現と同一視でき、各符号化されたquditは転置によって生成されるリー代数の既約表現と同一視できるので、表現論の観点で表すことができる。 この目的に向かって、我々はまず交換のみ普遍性の数学的定義を、クウディッツの積上の特殊ユニタリ代数から転置によって生成されるリー代数の表現への写像の項で与える。 この定義は量子コンピューティングの要件と一致していることを示す。 次に、交換のみの普遍性を認める符号化クイディットの族であるクイディットの普遍的な族を特徴づけるタスクを進める。 この試みは、クォーディットに対応する既約表現が分割によって列挙されるという事実に助けられている。 特に、関連する分割上の単純な算術条件の観点から、1つまたは2つのqudit上の普遍性に必要な十分条件を導出する。 我々はまた、リトルウッド-リチャードソン係数の観点で、任意の数のquditに対する普遍性に必要な十分条件を導出する。 以上の結果から,複数のクディット族の普遍族は上向きに閉ざされ,普遍性は十分多くのクディットに対して保証され,普遍性を持たない任意の族は,少なくとも5つのアンシラエを加えるだけで得られることが証明された。 また, 特別事例として2状態系の結果も得られた。

An open problem of quantum information theory has been to determine under what conditions universal exchange-only computation is possible for qudits encoded on $d$-state systems for $d>2$. This problem can be posed in terms of representation theory by recognizing that each quantum mechanical swap, generated by exchange-interaction, can be identified with a transposition in a symmetric group, each $d$-state system can be identified with the fundamental representation of $SU(d)$, and each encoded qudit can be identified with an irreducible representation of a Lie algebra generated by transpositions. Towards this end we first give a mathematical definition of exchange-only universality in terms of a map from the special unitary algebra on the product of qudits into a representation of a Lie algebra generated by transpositions. We show that this definition is consistent with quantum computing requirements. We then proceed with the task of characterizing universal families of qudits, that is families of encoded qudits admitting exchange-only universality. This endeavor is aided by the fact that the irreducible representations corresponding to qudits are canonically labeled by partitions. In particular we derive necessary and sufficient conditions for universality on one or two such qudits, in terms of simple arithmetic conditions on the associated partitions. We also derive necessary and sufficient conditions for universality on arbitrarily many such qudits, in terms of Littlewood--Richardson coefficients. Among other results, we prove that universal families of multiple qudits are upward closed, that universality is guaranteed for sufficiently many qudits, and that any family that is not universal can be made so by simply adding at most five ancillae. We also obtain results for 2-state systems as a special case.
翻訳日:2023-04-07 02:24:10 公開日:2021-03-23
# 単一光子検出による異常弱値

Anomalous weak values via a single photon detection ( http://arxiv.org/abs/2103.12602v1 )

ライセンス: Link先を確認
E. Rebufello, F. Piacentini, A. Avella, M. A. de Souza, M. Gramegna, J. Dziewior, E. Cohen, L. Vaidman, I. P. Degiovanni, M. Genovese(参考訳) スピン1/2粒子のスピン成分の測定値が100になる可能性はあるのか? 1988年、アハロノフ、アルベルト、ヴァイドマンは、特定のスピン状態の事前および後選において、標準測定手順の結合を弱めることは、このパラドックス的結果を保証すると主張した。 弱い値と呼ばれるこの理論的な予測は多くの実験で実現されたが、その「異常な」性質、すなわち固有値の範囲を超える可能性、および「量子性」が議論されているため、その意味は非常に議論を呼んでいる。 本研究では,1クリックで異常な弱値を測定する実験を,統計学を使わずに行った。 測定の不確実性は、測定された弱い値と最も近い固有値とのギャップよりも著しく小さい。 弱い値の意味を明確にする以外に、この結果は量子計測の基礎を理解するブレークスルーであり、弱い値の量子フォトニクスへのさらなる応用への道を開いた。

Is it possible that a measurement of a spin component of a spin-1/2 particle yields the value 100? In 1988 Aharonov, Albert and Vaidman argued that upon pre- and postselection of particular spin states, weakening the coupling of a standard measurement procedure ensures this paradoxical result. This theoretical prediction, called weak value, was realized in numerous experiments, but its meaning remains very controversial, since its "anomalous" nature, i.e. the possibility to exceed the eigenvalues range, as well as its "quantumness" are debated. We address these questions by presenting the first experiment measuring anomalous weak values with just a single click, without any statistics. The measurement uncertainty is significantly smaller than the gap between the measured weak value and the nearest eigenvalue. Beyond clarifying the meaning of weak values, this result represents a breakthrough in understanding quantum measurement foundations, paving the way to further applications of weak values to quantum photonics.
翻訳日:2023-04-07 02:18:02 公開日:2021-03-23
# 変動量子固有解法と部分空間探索量子固有解法における制約項とタブサーチ項の影響

Effect of constraint and Tabu Search term on Variational Quantum Eigensolver and Subspace-Search Variational Quantum Eigensolver ( http://arxiv.org/abs/2103.12574v1 )

ライセンス: Link先を確認
(1) Hikaru Wakaura and (2) Takao Tomono ((1) QuantScape (2) Toppan printing)(参考訳) Subspace-Search Variational Quantum Eigensolvr (SSVQE) は複数の状態の探索法であり、複数の状態に対する出力状態の直交性を保証するために変換のユニタリ性に依存する。 したがって、通常の変分量子固有解法(VQE)は、変分量子デフレ(VQD)に基づいて基底状態から段階的に励起状態を計算することができるため、量子化学にとって有望な方法であると考えられている。 我々は,VQE,SSVQE,および制約項および/またはタブ探索項の利点を比較し,所望のエネルギーレベルを計算するためにラグランジュ乗算器法で加算される。 それぞれH2とHHのレベルを算出し,その利点を評価した。 シミュレーションの結果,制約付きVQEとタブサーチで算出した精度は,H2の解析において,他のアルゴリズムよりも高い精度を示している。 制約付きSSVQEにより算出された精度は、タブ探索による制約付きVQEよりも高いことを示す。 また, コンバージェンス時間を減少させる制約項を用いて, 分子の性質に応じて, タブサーチ項を用いることが有用であることがわかった。 制約項とタブ探索項が量子化学計算の精度と収束時間に寄与することを示す。

Subspace-Search Variational Quantum Eigen solver (SSVQE) is a searching method of multiple states and relies on the unitarity of transformations to ensure the orthogonality of output states for multiple states. Therefore, this method is thought to be a promising method for quantum chemistry because ordinary Variational Quantum Eigen solver (VQE) can only calculate the excited states step by step from the ground state based on Variational Quantum deflation (VQD). We compare the advantage of VQE, SSVQE with/without the constraint term and/or Tabu search term, which is added by the Lagrange multiplier method so as to calculate the desired energy levels. We evaluated the advantage by calculating each level of H2 and HeH, respectively. As there simulation results, the accuracy calculated by constrained VQE with Tabu search indicates higher accuracy than that of our other algorithm, for analysis on H2. The accuracy calculated by constrained SSVQE indicates higher that of the constrained VQE with Tabu search. We found it is beneficial for enhancing the accuracy to use constraint terms decreasing convergence times to use Tabu search terms according to the nature of molecules. We demonstrate that constraint and Tabu search terms contribute to the accuracy and convergence time on quantum chemical calculating.
翻訳日:2023-04-07 02:17:44 公開日:2021-03-23
# CubeFlow:結合テンソルによるマネー洗浄検出

CubeFlow: Money Laundering Detection with Coupled Tensors ( http://arxiv.org/abs/2103.12411v1 )

ライセンス: Link先を確認
Xiaobing Sun, Jiabao Zhang, Qiming Zhao, Shenghua Liu, Jinglei Chen, Ruoyu Zhuang, Huawei Shen, Xueqi Cheng(参考訳) マネーロンダリング(ML)とは、不正な活動によって達成された資金源を隠蔽する行為であり、常に頻繁で連鎖的な取引を伴う高速なプロセスである。 大規模属性トランザクションデータ(つまりテンソル)におけるMLと不正行為をどうやって検出できるのか? 既存のほとんどの手法はグラフやテンソルの密度の高いブロックを検知するが、これは貨幣がしばしば中間口座を通じて転送されるという事実を考慮しない。 本論文で提案するCubeFlowは,トランザクションを2つの結合テンソルとしてモデル化し,転送チェーンを正確に示す新しいマルチ属性メトリックを適用することにより,大量のトランザクションから不正を識別するスケーラブルなフローベースアプローチである。 広範な実験により、合成データと実データの両方におけるml行動検出においてcubeflowは最先端のベースラインよりも優れています。

Money laundering (ML) is the behavior to conceal the source of money achieved by illegitimate activities, and always be a fast process involving frequent and chained transactions. How can we detect ML and fraudulent activity in large scale attributed transaction data (i.e.~tensors)? Most existing methods detect dense blocks in a graph or a tensor, which do not consider the fact that money are frequently transferred through middle accounts. CubeFlow proposed in this paper is a scalable, flow-based approach to spot fraud from a mass of transactions by modeling them as two coupled tensors and applying a novel multi-attribute metric which can reveal the transfer chains accurately. Extensive experiments show CubeFlow outperforms state-of-the-art baselines in ML behavior detection in both synthetic and real data.
翻訳日:2023-04-07 02:14:50 公開日:2021-03-23
# Dijkgraaf-Witten理論における円との交差と物質の位相相への応用

Crossing with the circle in Dijkgraaf-Witten theory and applications to topological phases of matter ( http://arxiv.org/abs/2103.12717v1 )

ライセンス: Link先を確認
Alex Bullivant, Clement Delcamp(参考訳) 完全に拡張された位相的量子場理論が与えられたとき、'円との交差'条件は、閉じた$k$-多様体 $\sigma$ に割り当てられた量子不変量の次元、あるいはその分類が、(k$+1)-次元多様体 $\sigma \times \mathbb s^1$ に割り当てられるものと等価である。 4-3-2-1 Dijkgraaf-Witten理論のこれらの条件をこの写本で計算する。 この理論の格子ハミルトン実現の文脈において、円とトーラスに割り当てられた量子不変量は、それぞれ開弦やバルクループのような励起を符号化する。 対応する「円との交差」条件により、ループ状励起が弦状励起から形成される過程が定式化される。 この結果を利用してループ状励起がループブレイド群と同様に線形ネックレス群の表現を定義するという主張を再検討する。

Given a fully extended topological quantum field theory, the 'crossing with the circle' conditions establish that the dimension, or categorification thereof, of the quantum invariant assigned to a closed $k$-manifold $\Sigma$ is equivalent to that assigned to the ($k$+1)-manifold $\Sigma \times \mathbb S^1$. We compute in this manuscript these conditions for the 4-3-2-1 Dijkgraaf-Witten theory. In the context of the lattice Hamiltonian realisation of the theory, the quantum invariants assigned to the circle and the torus encode the defect open string-like and bulk loop-like excitations, respectively. The corresponding 'crossing with the circle' condition thus formalises the process by which loop-like excitations are formed out of string-like ones. Exploiting this result, we revisit the statement that loop-like excitations define representations of the linear necklace group as well as the loop braid group.
翻訳日:2023-04-07 02:07:06 公開日:2021-03-23
# 深層ニューラルネットワークのための学習速度最適化手法の進化

Evolving Learning Rate Optimizers for Deep Neural Networks ( http://arxiv.org/abs/2103.12623v1 )

ライセンス: Link先を確認
Pedro Carvalho, Nuno Louren\c{c}o, Penousal Machado(参考訳) ニューラルネットワーク(anns)は、画像や音声認識といった応用が難しい問題に成功し、普及した。 しかしながら、実践者がANNを設計したい場合、パラメータとトポロジのセットを選択するという面倒なプロセスを実行する必要があります。 現在、これらのいくつかの側面を自動選択できる最先端の手法がいくつかある。 学習率オプティマイザは、学習率の優れた値を求める一連のテクニックである。 これらの手法は有効であり、長年にわたって良い結果をもたらしてきたが、それらは一般的な解であり、特定のネットワークの特性を考慮しない。 学習率オプティマイザを自動設計するautolrというフレームワークを提案する。 システムの詳細は2種類ある。 最初のDynamic AutoLRは、現在のエポックと以前の学習率に基づいて、静的および動的学習率最適化器を進化させる。 2番目のバージョンであるadaptive autolrは、各ネットワークeeightの学習率を微調整できる適応オプティマイザを進化させ、より効果的にする。 結果は、アートメソッドの最良の状態と競合し、いくつかのシナリオでそれらを上回っています。 さらに,本システムは,技術手法の状況と異なる構造を持つため,新奇で革新的と思われる分類器 ades を進化させた。

Artificial Neural Networks (ANNs) became popular due to their successful application difficult problems such image and speech recognition. However, when practitioners want to design an ANN they need to undergo laborious process of selecting a set of parameters and topology. Currently, there are several state-of-the art methods that allow for the automatic selection of some of these aspects. Learning Rate optimizers are a set of such techniques that search for good values of learning rates. Whilst these techniques are effective and have yielded good results over the years, they are general solution i.e. they do not consider the characteristics of a specific network. We propose a framework called AutoLR to automatically design Learning Rate Optimizers. Two versions of the system are detailed. The first one, Dynamic AutoLR, evolves static and dynamic learning rate optimizers based on the current epoch and the previous learning rate. The second version, Adaptive AutoLR, evolves adaptive optimizers that can fine tune the learning rate for each network eeight which makes them generally more effective. The results are competitive with the best state of the art methods, even outperforming them in some scenarios. Furthermore, the system evolved a classifier, ADES, that appears to be novel and innovative since, to the best of our knowledge, it has a structure that differs from state of the art methods.
翻訳日:2023-04-07 02:05:27 公開日:2021-03-23
# 傾斜符号化方式による効率的な多重線形写像

Efficient Multilinear Map from Graded Encoding Scheme ( http://arxiv.org/abs/2103.12616v1 )

ライセンス: Link先を確認
Majid Salimi(参考訳) マルチリニアマップには多くの暗号アプリケーションがあるが、そのようなマップの安全かつ効率的な構築はオープンな問題である。 GGH、GGH15、CLT、CLT15のような多くの多重線型写像が提案されており、どちらも安全かつ効率的ではない。 幾らかの多重線型写像の構成はグレード・エンコーディング・スキーム(GES)に基づいており、ゼロ検定パラメータとゼロの符号化の必要性は多重線型写像のセキュリティを損なう。 要素を符号化する代わりに、ユーザは関連するが未知のランダムな要素を符号化することができる。 この新たな設定では、0と1のエンコーディングを公開する必要はない。 この新しいGESは、通常のGESの実際の機能を提供し、セキュアで効率的なマルチリニアマップとMP-NIKE(Multi-party non-interactive key exchange)スキームの構築に適用することができる。 また,<cite{Access20} の MP-NIKE スキームを改善し,それを ID ベースの MP-NIKE スキームに変換する。

Though the multilinear maps have many cryptographic applications, secure and efficient construction of such maps is an open problem. Many multilinear maps like GGH, GGH15, CLT, and CLT15 have been and are being proposed, while none of them is both secure and efficient. The construction of some multilinear maps is based on the Graded Encoding Scheme (GES), where, the necessity of announcing zero-testing parameter and encoding of zero has destroyed the security of the multilinear map. Attempt is made to propose a new GES, where, instead of encoding an element, the users can obtain the encoding of an associated but unknown random element. In this new setting, there is no need to publish the encodings of zero and one. This new GES provides the actual functionality of the usual GES and can be applied in constructing a secure and efficient multilinear map and a multi-party non-interactive key exchange (MP-NIKE) scheme. We also improve the MP-NIKE scheme of \cite{Access20} and turn it into an ID-based MP-NIKE scheme.
翻訳日:2023-04-07 02:05:07 公開日:2021-03-23
# 再構成可能な光干渉計プログラミングのためのアーキテクチャ非依存アルゴリズム

Architecture agnostic algorithm for reconfigurable optical interferometer programming ( http://arxiv.org/abs/2103.12844v1 )

ライセンス: Link先を確認
Sergei Kuzmin, Ivan Dyakonov and Sergei Kulik(参考訳) 再構成可能な光干渉計のアーキテクチャ非依存モデルを構築するための学習アルゴリズムを開発した。 干渉計の光学モード上のユニタリ変換のプログラミングは、位相シフトの集合が与えられたユニタリ行列を与える解析式に従うか、解析分解が存在しない場合に最適化ルーチンを必要とする。 本アルゴリズムでは, 干渉計のモデルと, 実験対象の装置が生成したサンプル集合とを一致させる教師付き学習戦略を採用する。 単純な最適化ルーチンは、訓練されたモデルを使用して、所望のユニタリ変換に対応する所定のアーキテクチャで干渉計の位相シフトを出力する。 その結果,厳密な解析的記述がなくても干渉計を効率的にチューニングする手法が提供され,干渉計回路の新しいアーキテクチャを探求する機会が開かれた。

We develop the learning algorithm to build the architecture agnostic model of the reconfigurable optical interferometer. Programming the unitary transformation on the optical modes of the interferometer either follows the analytical expression yielding the unitary matrix given the set of phaseshifts or requires the optimization routine if the analytic decomposition does not exist. Our algorithm adopts the supervised learning strategy which matches the model of the interferometer to the training set populated by the samples produced by the device under study. The simple optimization routine uses the trained model to output the phaseshifts of the interferometer with the given architecture corresponding to the desired unitary transformation. Our result provides the recipe for efficient tuning of the interferometers even without rigorous analytical description which opens opportunity to explore new architectures of the interferometric circuits.
翻訳日:2023-04-07 01:59:09 公開日:2021-03-23
# 過激化はソーシャルメディアの検閲によって強化されるか?

Is radicalization reinforced by social media censorship? ( http://arxiv.org/abs/2103.12842v1 )

ライセンス: Link先を確認
Justin E. Lane, Kevin McCaffree, F. LeRon Shults(参考訳) カノン、ロシアゲート、その他の政治陰謀論と結びついた過激な信念は、近年証明されているように、一部の個人や集団が暴力的な行動を起こす可能性がある。 このような信念が受け入れられ、広まり、強化されるメカニズムを理解することは、過激化を緩和し、政治的分極の増大を避けるために重要である。 本稿では,検閲がエージェントが露出する情報量および過激化見解の確実性に及ぼす影響について,検閲の影響を調査できるソーシャルメディアネットワークのエージェントベースモデルを提案する。 そのモデルは検閲の2つの形態を探求する。 1 個人が、対立する信条を伝達する他者とのオンラインソーシャルネットワークの結びつき(非友人又は未フォロー)を断ち切ることができる分散型検閲 2 一つの機関が、特定の種類の信念を広めるために、ソーシャルメディアネットワークから個人を追放することができる中央集権的検閲。 このモデルでは、両形態の検閲は、エージェントが露出する反感の量を減らし、急進的視点において確実性を高めるが、個人の集中的な「禁止」は過激化に最も強い影響を与えることを示唆している。

Radicalized beliefs, such as those tied to QAnon, Russiagate, and other political conspiracy theories, can lead some individuals and groups to engage in violent behavior, as evidenced in recent months. Understanding the mechanisms by which such beliefs are accepted, spread, and intensified is critical for any attempt to mitigate radicalization and avoid increased political polarization. This article presents and agent-based model of a social media network that enables investigation of the effects of censorship on the amount of dissenting information to which agents become exposed and the certainty of their radicalized views. The model explores two forms of censorship: 1) decentralized censorship-in which individuals can choose to break an online social network tie (unfriend or unfollow) with another individual who transmits conflicting beliefs and 2) centralized censorship-in which a single authority can ban an individual from the social media network for spreading a certain type of belief. This model suggests that both forms of censorship increase certainty in radicalized views by decreasing the amount of dissent to which an agent is exposed, but centralized "banning" of individuals has the strongest effect on radicalization.
翻訳日:2023-04-07 01:58:56 公開日:2021-03-23
# 磁場支援によるダイヤモンド中のnv中心電荷状態のスペクトル分解とイメージング

Magnetic field-assisted spectral decomposition and imaging of charge states of NV centers in diamond ( http://arxiv.org/abs/2103.12807v1 )

ライセンス: Link先を確認
T. Chakraborty, R. Bhattacharya, V. S. Anjusha, M. Nesladek, D. Suter and T. S. Mahesh(参考訳) 量子技術の出現により、ダイヤモンド中の窒素空孔(NV$)中心は、量子計算、通信、センシングアプリケーションのための効率的なプラットフォームを提供するフロンティアであることが判明した。 NV$系のスピンチャージダイナミクスが結合しているため、$NV$の電荷状態ダイナミクスに関する知識は、効率的なスピン制御シーケンスを戦略的に定式化するのに役立つ。 本稿では,ダイヤモンド中のnv$中心のアンサンブルの電荷状態マッピング画像を作成するため,分光に基づく2つのデコンボリューション法について報告する。 第一に、オフ軸外磁場が電子スピンを混合し、NV^-$のフォトルミネッセンス(PL)を選択的に調整するという事実に頼って、$NV^-$と$NV^0$のアンサンブルに対する光学スペクトルの分解を行い、$NV^-$と$NV^0$のスペクトルを抽出する。 次に、光学フィルタに基づく分解プロトコルを導入し、$NV^-$と$NV^0$のPLイメージングを行う。 先に得られた$NV^-$および$NV^0$状態のスペクトルを用いて、長い通過光フィルタを用いてそれらの透過率を計算する。 これらの結果は、ダイヤモンド試料中のNV$電荷状態の空間分布を決定するのに役立つ。

With the advent of quantum technology, nitrogen vacancy ($NV$) centers in diamond turn out to be a frontier which provides an efficient platform for quantum computation, communication and sensing applications. Due to the coupled spin-charge dynamics of the $NV$ system, knowledge about $NV$ charge state dynamics can help to formulate efficient spin control sequences strategically. Through this paper we report two spectroscopy-based deconvolution methods to create charge state mapping images of ensembles of $NV$ centers in diamond. First, relying on the fact that an off axis external magnetic field mixes the electronic spins and selectively modifies the photoluminescence (PL) of $NV^-$, we perform decomposition of the optical spectrum for an ensemble of $NV$s and extract the spectra for $NV^-$ and $NV^0$ states. Next, we introduce an optical filter based decomposition protocol and perform PL imaging for $NV^-$ and $NV^0$. Earlier obtained spectra for $NV^-$ and $NV^0$ states are used to calculate their transmissivities through a long pass optical filter. These results help us to determine the spatial distribution of the $NV$ charge states in a diamond sample.
翻訳日:2023-04-07 01:58:34 公開日:2021-03-23
# He+照射によるナノ結晶ダイヤモンド中のXeVおよびGeV中心濃度の増強

Enhancement of concentration of XeV and GeV centers in nanocrystalline diamond through He+ irradiation ( http://arxiv.org/abs/2103.12800v1 )

ライセンス: Link先を確認
T. Chakraborty, K. J. Sankaran, K. Srinivasu, R. Nongjai, K. Asokan, C. H. Chen, H. Niu, K. Haenen(参考訳) ダイヤモンドの原子欠陥中心は、量子情報、センシング、量子フォトニクスなどの多くの量子応用で広く利用されている。 この文脈では、制御された方法で欠陥センターを生成するための準備手順を改善し、最適化し、現在の技術的課題を克服できる可能性のある新しい欠陥センターを探索する必要がある。 本報告では, ナノ結晶ダイヤモンド(NCD)中のGeおよびXe空孔濃度をHe+照射により高めることについて報告する。 CVD (Chemical vapor deposition) とGeおよびXeイオンのCVD-Gown試料への注入により, NCDの制御された成長を実証した。 ncdにhe+イオンを照射し,光学分光測定を行った。 記録光ルミネッセンスの結果,NCDにおけるXe関連およびGe空孔の増強の明確な徴候が認められた。

Atomic defect centers in diamond have been widely exploited in numerous quantum applications like quantum information, sensing, quantum photonics and so on. In this context, there is always a requirement to improve and optimize the preparation procedure to generate the defect centers in controlled fashion, and to explore new defect centers which can have the potential to overcome the current technological challenges. Through this letter we report enhancing the concentration of Ge and Xe vacancy centers in nanocrystalline diamond (NCD) by means of He+ irradiation. We have demonstrated controlled growth of NCD by chemical vapor deposition (CVD) and implantation of Ge and Xe ions into the CVD-grown samples. NCDs were irradiated with He+ ions and characterized through optical spectroscopy measurements. Recorded photoluminescence results revealed a clear signature of enhancement of the Xe-related and Ge vacancies in NCDs.
翻訳日:2023-04-07 01:58:08 公開日:2021-03-23
# 量子近似最適化アルゴリズムの解析

An Analysis of the Quantum Approximation Optimisation Algorithm ( http://arxiv.org/abs/2103.12791v1 )

ライセンス: Link先を確認
Behzad Mansouri(参考訳) 本稿では、量子近似最適化アルゴリズム(QAOA)の簡単な導入について述べる。 カオアの数学的構造とその基本的な性質について述べる。 MaxCut問題に対するQAOAの実装、二次的制約のない2値最適化問題(QUBO)、Ising型ハミルトン問題(英語版)が詳細に検討されている。

This article consists of a short introduction to the quantum approximation optimisation algorithm (QAOA). The mathematical structure of the QAOA, as well as its basic properties, are described. The implementation of the QAOA on MaxCut problems, quadratic unconstrained binary optimisation problems (QUBOs), and Ising-type Hamiltonians is considered in detail.
翻訳日:2023-04-07 01:57:26 公開日:2021-03-23
# 単一量子センサを用いたダイヤモンド表面のスピンダイナミクスの探索

Probing spin dynamics on diamond surfaces using a single quantum sensor ( http://arxiv.org/abs/2103.12757v1 )

ライセンス: Link先を確認
Bo L. Dwyer, Lila V. H. Rodgers, Elana K. Urbach, Dolev Bluvstein, Sorawis Sangtawesin, Hengyun Zhou, Yahia Nassab, Mattias Fitzpatrick, Zhiyang Yuan, Kristiaan De Greve, Eric L. Peterson, Jyh-Pin Chou, Adam Gali, V. V. Dobrovitski, Mikhail D. Lukin, Nathalie P. de Leon(参考訳) 量子ビット環境の力学を理解することは、量子情報処理と気象学のための実用的なシステムの実現に不可欠である。 ダイヤモンド表面における無秩序スピンアンサンブルのダイナミクスを研究するために, 単一窒素空孔 (nv) 中心を用いた。 具体的には、「ダーク」表面スピンの密度を調整し、浅いNV中心スピン量子ビットのデコヒーレンスへの寄与を疑う。 平均表面スピン間隔がNV中心深度を超えると、NV中心のフリー誘導崩壊に対する表面スピン寄与は、可変パワー n を持つ伸張指数によって記述できる。 これらの観測は, 表面スピンの空間的位置が各測定値に固定されているモデルと一致しているが, その一部は測定値間で再構成されている。 特に、ガウス (n=2) の崩壊から n=2/3 への動的遷移に付随する深さ依存臨界時間を観察し、この遷移は、多くの遠方スピンの小さな崩壊寄与と表面のいくつかの近位スピンへの強い結合との競合から生じることを示す。 これらの観察は、複雑なシステムを理解し、表面のスピン量子ビットを改善し制御するための経路を解明するための局所センサーの可能性を示している。

Understanding the dynamics of a quantum bit's environment is essential for the realization of practical systems for quantum information processing and metrology. We use single nitrogen-vacancy (NV) centers in diamond to study the dynamics of a disordered spin ensemble at the diamond surface. Specifically, we tune the density of "dark" surface spins to interrogate their contribution to the decoherence of shallow NV center spin qubits. When the average surface spin spacing exceeds the NV center depth, we find that the surface spin contribution to the NV center free induction decay can be described by a stretched exponential with variable power n. We show that these observations are consistent with a model in which the spatial positions of the surface spins are fixed for each measurement, but some of them reconfigure between measurements. In particular, we observe a depth-dependent critical time associated with a dynamical transition from Gaussian (n=2) decay to n=2/3, and show that this transition arises from the competition between the small decay contributions of many distant spins and strong coupling to a few proximal spins at the surface. These observations demonstrate the potential of a local sensor for understanding complex systems and elucidate pathways for improving and controlling spin qubits at the surface.
翻訳日:2023-04-07 01:57:01 公開日:2021-03-23
# 宇宙量子通信の進歩

Advances in Space Quantum Communications ( http://arxiv.org/abs/2103.12749v1 )

ライセンス: Link先を確認
Jasminder S. Sidhu, Siddarth K. Joshi, Mustafa Gundogan, Thomas Brougham, David Lowndes, Luca Mazzarella, Markus Krutzik, Sonali Mohapatra, Daniele Dequal, Giuseppe Vallone, Paolo Villoresi, Alexander Ling, Thomas Jennewein, Makan Mohageg, John Rarity, Ivette Fuentes, Stefano Pirandola, and Daniel K. L. Oi(参考訳) グローバルな量子インターネットが量子テクノロジーのスペクトルを実現するための基盤を確立するための共同作業が進行中である。 これにより、より正確なセンサー、安全な通信、高速なデータ処理が可能になる。 量子通信は、すでにいくつかの大都市で量子ネットワークが実装されているフロントランナーである。 最近の多くの提案は、純粋に地上ネットワークの範囲制限を克服するためにスペースセグメントの使用をモデル化している。 量子デバイスの設計の急速な進歩により、軌道上でのデモンストレーションのために宇宙空間への展開が可能となった。 我々は、この宇宙ベースの量子技術の新興分野の発展をレビューし、完全なグローバル量子ネットワークランドスケープに向けた重要なマイルストーンのロードマップを提供する。 小型衛星は、量子インターネットの実現に必要な費用対効果を提供するという約束を掲げている。 我々は、小型衛星ミッションにおける技術の現状を概観し、量子暗号の最も最近のフィールドでの実証と照合する。 我々は、克服しなければならない宇宙量子技術における重要な課題と、その効果を緩和するための最近の取り組みを要約する。 宇宙の量子通信の性能を向上させるための将来の開発についての展望が含まれている。 我々は、グローバルな宇宙ベースの量子ネットワークを活用可能な基礎物理学実験に関する議論で締めくくった。

Concerted efforts are underway to establish an infrastructure for a global quantum internet to realise a spectrum of quantum technologies. This will enable more precise sensors, secure communications, and faster data processing. Quantum communications are a front-runner with quantum networks already implemented in several metropolitan areas. A number of recent proposals have modelled the use of space segments to overcome range limitations of purely terrestrial networks. Rapid progress in the design of quantum devices have enabled their deployment in space for in-orbit demonstrations. We review developments in this emerging area of space-based quantum technologies and provide a roadmap of key milestones towards a complete, global quantum networked landscape. Small satellites hold increasing promise to provide a cost effective coverage required to realised the quantum internet. We review the state of art in small satellite missions and collate the most current in-field demonstrations of quantum cryptography. We summarise important challenges in space quantum technologies that must be overcome and recent efforts to mitigate their effects. A perspective on future developments that would improve the performance of space quantum communications is included. We conclude with a discussion on fundamental physics experiments that could take advantage of a global, space-based quantum network.
翻訳日:2023-04-07 01:56:37 公開日:2021-03-23
# 円Rydberg原子を用いた量子コンピューティング

Quantum Computing with Circular Rydberg Atoms ( http://arxiv.org/abs/2103.12744v1 )

ライセンス: Link先を確認
Sam R. Cohen, Jeff D. Thompson(参考訳) Rydberg atom arrays は量子コンピューティングとシミュレーションの先駆的なプラットフォームであり、強い相互作用と高いコヒーレントな演算と柔軟なジオメトリーを組み合わせたものである。 しかし、達成可能な忠実度は、リドベルク状態の有限寿命と原子運動のような技術的不完全性によって制限される。 本稿では,光トラップにおける長寿命円形リドバーグ状態を用いたリドバーグ原子配列の新しいアプローチを提案する。 これらの状態の非常に長い寿命と、放射性遷移を抑制する極低温マイクロ波キャビティ、有限原子温度に頑健なゲートプロトコルの数秒を超えることに基づいて、現在の技術を用いて、数百個の円形リドバーグ原子の配列に10〜5ドル程度の2ビットゲート誤差が生じることを予測した。 このアプローチでは、円リドバーグ状態の量子非退化検出技術、集束光ビームの重心的ポテンシャルを用いた局所操作、量子ビットをエンコードするために複数の円形レベルを用いるゲートプロトコル、不必要な相互作用や原子運動からのエラーを抑制するロバストな動的デカップリングシーケンスなど、いくつかの重要な要素を組み合わせる。 これは、量子コンピューティングと中性原子によるシミュレーションにおける現在の最先端の進歩を示している。

Rydberg atom arrays are a leading platform for quantum computing and simulation, combining strong interactions with highly coherent operations and flexible geometries. However, the achievable fidelities are limited by the finite lifetime of the Rydberg states, as well as technical imperfections such as atomic motion. In this work, we propose a novel approach to Rydberg atom arrays using long-lived circular Rydberg states in optical traps. Based on the extremely long lifetime of these states, exceeding seconds in cryogenic microwave cavities that suppress radiative transitions, and gate protocols that are robust to finite atomic temperature, we project that arrays of hundreds of circular Rydberg atoms with two-qubit gate errors around $10^{-5}$ can be realized using current technology. This approach combines several key elements, including a quantum nondemolition detection technique for circular Rydberg states, local manipulation using the ponderomotive potential of focused optical beams, a gate protocol using multiple circular levels to encode qubits, and robust dynamical decoupling sequences to suppress unwanted interactions and errors from atomic motion. This represents a significant improvement on the current state-of-the-art in quantum computing and simulation with neutral atoms.
翻訳日:2023-04-07 01:56:21 公開日:2021-03-23
# コンピュータサイエンスとソフトウェア工学の学生の指数関数能力

Exponential Competence of Computer Science and Software Engineering Undergraduate Students ( http://arxiv.org/abs/2104.12538v1 )

ライセンス: Link先を確認
Orit Hazzan(参考訳) 我々は、世界がパンデミックの急激な拡散を目撃している異例の時代に生きており、新しい心と行動の習慣を採用する必要がある。 本稿では,これらの認知的・社会的スキルを包含する指数的能力という用語を紹介し,指数的能力を重視したコンピュータ科学・ソフトウェア工学の学生のためのコースについて述べる。 私は、指数的能力はコンピュータサイエンスとソフトウェア工学の学生にとって特に重要であると論じています。

We live in exceptional times in which the entire world is witnessing the exponential spread of a pandemic, which requires to adopt new habits of mind and behaviors. In this paper, I introduce the term exponential competence, which encompasses these cognitive and social skills, and describe a course for computer science and software engineering students in which emphasis is placed on exponential competence. I argue that exponential competence is especially important for computer science and software engineering students, since many of them will, most likely, be required to deal with exponential phenomena in their future professional development.
翻訳日:2023-04-07 01:48:15 公開日:2021-03-23
# 絵文字と単語の埋め込みは、オンラインメッセージング中に感情的な変化を浮かび上がらせる

How emoji and word embedding helps to unveil emotional transitions during online messaging ( http://arxiv.org/abs/2104.11032v1 )

ライセンス: Link先を確認
Moeen Mostafavi and Michael D. Porter(参考訳) オンラインチャットでは、ボディランゲージとボーカルの特徴はコミュニケーションメカニズムの一部ではなく、感情、感情、態度の正確な解釈を促進することが困難である。 感情的な感情を表現するために絵文字を使うことは、このようなコミュニケーションにおける代替のアプローチである。 本プロジェクトでは,チャットボットを用いたオンラインメッセージングセッションにおいて,顧客の感情をモデル化することに焦点を当てる。 我々は、インタラクション中の感情の変化を予測するために、Affect Control Theory(ACT)を使用する。 顧客が絵文字を使えるようにするため、ACTが使用する感情的な辞書も拡張します。 そこで我々はEmoji2vecの埋め込みを感情空間にマッピングした。 私たちのフレームワークは、メッセージング中の感情的な変化と、それに応じて顧客の反応がどのように変化するかを見つけることができます。

During online chats, body-language and vocal characteristics are not part of the communication mechanism making it challenging to facilitate an accurate interpretation of feelings, emotions, and attitudes. The use of emojis to express emotional feeling is an alternative approach in these types of communication. In this project, we focus on modeling a customer's emotion in an online messaging session with a chatbot. We use Affect Control Theory (ACT) to predict emotional change during the interaction. To let the customer use emojis, we also extend the affective dictionaries used by ACT. For this purpose, we mapped Emoji2vec embedding to the affective space. Our framework can find emotional change during messaging and how a customer's reaction is changed accordingly.
翻訳日:2023-04-07 01:48:04 公開日:2021-03-23
# 音声のみを用いた認知低下の検出:ADReSSo Challenge

Detecting cognitive decline using speech only: The ADReSSo Challenge ( http://arxiv.org/abs/2104.09356v1 )

ライセンス: Link先を確認
Saturnino Luz, Fasih Haider, Sofia de la Fuente, Davida Fromm, Brian MacWhinney(参考訳) 世界中の34チームが参加するinterspeech 2020でのadress challengeの成功を踏まえて、adresso challengeは、アルツハイマー型認知症の検出、認知テストスコアの推測、認知的低下の予測という3つの難しい社会的および医学的関連性の予測問題をターゲットにしている。 本稿では,これらの予測タスクを詳細に述べ,使用するデータセットを説明し,各タスクで開発したベースライン分類と回帰モデルの結果を報告する。 音声記録から直接抽出された音響的特徴と言語的特徴の組み合わせは、AD分類タスクでは78.87%、MMSE予測ルート平均二乗(RMSE)誤差は5.28、認知低下予測タスクでは68.75%の精度を得た。

Building on the success of the ADReSS Challenge at Interspeech 2020, which attracted the participation of 34 teams from across the world, the ADReSSo Challenge targets three difficult automatic prediction problems of societal and medical relevance, namely: detection of Alzheimer's Dementia, inference of cognitive testing scores, and prediction of cognitive decline. This paper presents these prediction tasks in detail, describes the datasets used, and reports the results of the baseline classification and regression models we developed for each task. A combination of acoustic and linguistic features extracted directly from audio recordings, without human intervention, yielded a baseline accuracy of 78.87% for the AD classification task, an MMSE prediction root mean squared (RMSE) error of 5.28, and 68.75% accuracy for the cognitive decline prediction task.
翻訳日:2023-04-07 01:47:29 公開日:2021-03-23
# ナイジェリア南部第三次研究所におけるICT女性参加の抑制要因

Female ICT participation in South-Eastern Nigerian Tertiary Institutions: Inhibiting Factors ( http://arxiv.org/abs/2103.13391v1 )

ライセンス: Link先を確認
Chinyere A. Nwajiuba and Elochukwu Ukwandu(参考訳) 本研究は,情報通信技術(ICT)におけるナイジェリア南部第三次機関の女性学生の参加について検討した。 本研究は,ICTにおける女性参加率の低下,ICTへの女性参加率の低下,女性参加率の低下,ICTへの女性参加率の低下などについて考察した。 構造化されたアンケートを用いて回答を得た。 調査対象者の選定には多段階ランダムサンプリング手法が用いられた。 ナイジェリア南東部の第三次機関の女子大学生1,306名(136名)が本研究を行った。 収集したデータは記述統計を用いて分析された。 調査の結果,ICT の高コスト化と男性支配の高水準化が,ICT が男性にとって有益であると考える女性にとって,ICT への女性参加の低さの主な要因であることが示唆された。 情報通信技術への女性の参加を促すため,情報技術のコスト削減と,子どもの学習選択への親の関与が示唆された。

The study examined the participation of female students of South Eastern Nigerian tertiary institutions in Information and Communication Technologies (ICTs). The study discussed the attendant gender divide in ICTs participation, reasons for low female participation in ICT, consequences of not bridging the divide and ways of encouraging female participation in ICT. A structured questionnaire was used to elicit information from respondents. A multi stage random sampling technique was used in the selection of respondents. One hundred and thirty six (136) undergraduate female students of tertiary institutions in South Eastern Nigeria constituted the study sample. Data collected was analysed using descriptive statistics. Findings suggest that high cost of ICT and high level of male dominance, which made females think that ICT is for males were the major reasons for low female participation in ICT. Reducing the cost of Information Technology, and parental involvement in their children selection choice of study were suggested to encourage female participation in Information and Communication Technologies.
翻訳日:2023-04-07 01:46:36 公開日:2021-03-23
# ダイヤモンド中のフッ化物結晶および色中心における希土類イオンの光周波数の高速量子化

Fast qubits of optical frequencies on the rare-earth ions in fluoride crystals and color centers in diamond ( http://arxiv.org/abs/2103.13319v1 )

ライセンス: Link先を確認
Vladimir Hizhnyakov, Vadim Boltrushko, Aleksander Shelkan, Yurii Orlovskii(参考訳) 希土類イオン (REI) をドープしたフッ化物結晶とダイヤモンド中のペア中心を高速(10^{-9}\rm{s}$)量子コンピュータ (FQC) として提案する。 REIドーピングの特定の系として、$Ca_{1-x}Sr_{x}F_{2}$結晶とその類似体を提案する。 これらのイオンの総軌道角モーメントの異なる$^{4}f$状態は、2つの準位系 (qubits) として機能する。 適切なREIも提案されている。 ダイヤモンド中の$siv$と$gev$の2つの中心は、高温で動作する高速光量子コンピュータにとって有望なシステムである。

Fluoride crystals doped with rare-earth ions (REI) and pair centers in diamond for fast ($10^{-9}\rm{s}$) quantum computers (FQC) are proposed. As specific systems for REI doping, we propose $Ca_{1-x}Sr_{x}F_{2}$ crystals and their analogues. The $^{4}f$-states with different total orbital angular moments of these ions serve as two-level systems (qubits). Suitable REIs are proposed as well. It is established that the pair $SiV$ and $GeV$ centers in diamond are promising systems for fast optical quantum computers operating at elevated temperatures.
翻訳日:2023-04-07 01:46:22 公開日:2021-03-23
# 散逸結合非線形系における超低閾値ビスタビリティと長寿命モードの生成:マグノニクスへの応用

Ultralow threshold bistability and generation of long-lived mode in a dissipatively coupled nonlinear system: application to magnonics ( http://arxiv.org/abs/2103.12861v1 )

ライセンス: Link先を確認
Jayakrishnan M. P. Nair, Debsuvra Mukhopadhyay, Girish S. Agarwal(参考訳) 所定の励起状態に対して2つ以上の安定状態を持つシステムの見通しは、情報処理ネットワークにおける応用に話題として興味を持つ。 本研究では,分散結合型2モードシステムにおいて,非線形資源からのビスタビリティのリモート転送を確立する。 コヒーレントに結合した設定よりも明らかな優位性として、相互作用の散逸性は双安定信号に対する低い励起閾値を支持する。 同等のパラメータでは、散逸的に結合されたシステムの安定性閾値は、約5倍に低下する。 得られたヒステリシスは、導波路にプローブフィールドを印加し、送信されたフィールドのポラリトン特性を調べることで分光学的に研究することができる。 我々のモデルは、広範囲にわたる量子系のアプロポであり、実験的な関心が最近盛んになったマグノニクスの文脈でその結果を実証する。 消散結合と非線形性の結果、長寿命モードが出現し、このモードは伝送レベルを高くし、ファイバを介して信号伝達の感度を高める。

The prospect of a system possessing two or more stable states for a given excitation condition is of topical interest with applications in information processing networks. In this work, we establish the remote transfer of bistability from a nonlinear resource in a dissipatively coupled two-mode system. As a clear advantage over coherently coupled settings, the dissipative nature of interaction is found to support a lower pumping threshold for bistable signals. For comparable parameters, the bistability threshold for dissipatively coupled systems is lower by a factor of about five. The resulting hysteresis can be studied spectroscopically by applying a probe field through the waveguide and examining the polariton character of the transmitted field. Our model is generic, apropos of an extensive set of quantum systems, and we demonstrate our results in the context of magnonics where experimental interest has flourished of late. As a consequence of dissipative coupling and the nonlinearity, a long-lived mode emerges, which is responsible for heightened transmission levels and pronounced sensitivity in signal propagation through the fiber.
翻訳日:2023-04-07 01:45:56 公開日:2021-03-23
# 深層ニューラルネットワークのためのスケーラブルな定量的検証

Scalable Quantitative Verification For Deep Neural Networks ( http://arxiv.org/abs/2002.06864v2 )

ライセンス: Link先を確認
Teodora Baluta, Zheng Leong Chua, Kuldeep S. Meel and Prateek Saxena(参考訳) ディープニューラルネットワーク(DNN)の機能的な成功にもかかわらず、信頼性は依然として重要なオープンチャレンジである。 この課題に対処するため、テストと検証の両方の手法が提案されている。 しかし、これらの既存の技術は、大規模ネットワークへのスケーラビリティまたは形式的保証を提供する。 本稿では,ディープニューラルネットワークのためのスケーラブルな定量的検証フレームワーク,すなわち,所望の確率的特性が満たされる形式的保証を伴うテスト駆動アプローチを提案する。 本手法は,形式的確率特性の健全性を証明するまで十分な試験を行う。 決定論的およびランダム化されたDNNの特性の証明に使用できる。 本稿では,この手法をProperVEROというツールに実装し,DNNの対角的堅牢性を証明する文脈に適用する。 この文脈で、我々はまず、現在報告されているロバスト性を評価する純粋にアタックベースの方法論の代替となる、ロバストネスのアタック非依存な新しい尺度を示す。 第二に、PRVEROは大規模なDNNに対して堅牢性の証明書を提供する。 我々の研究は、実世界のディープニューラルネットワークが捉えた分布の特性を検証し、証明可能な保証とともに、テスト担当者がニューラルネットワークへのブラックボックスアクセスしか持たない状況でも検証する道のりを拓いている。

Despite the functional success of deep neural networks (DNNs), their trustworthiness remains a crucial open challenge. To address this challenge, both testing and verification techniques have been proposed. But these existing techniques provide either scalability to large networks or formal guarantees, not both. In this paper, we propose a scalable quantitative verification framework for deep neural networks, i.e., a test-driven approach that comes with formal guarantees that a desired probabilistic property is satisfied. Our technique performs enough tests until soundness of a formal probabilistic property can be proven. It can be used to certify properties of both deterministic and randomized DNNs. We implement our approach in a tool called PROVERO and apply it in the context of certifying adversarial robustness of DNNs. In this context, we first show a new attack-agnostic measure of robustness which offers an alternative to purely attack-based methodology of evaluating robustness being reported today. Second, PROVERO provides certificates of robustness for large DNNs, where existing state-of-the-art verification tools fail to produce conclusive results. Our work paves the way forward for verifying properties of distributions captured by real-world deep neural networks, with provable guarantees, even where testers only have black-box access to the neural network.
翻訳日:2022-12-31 11:58:07 公開日:2021-03-23
# 二元化ニューラルネットワークにおけるシナプス的メタ塑性

Synaptic Metaplasticity in Binarized Neural Networks ( http://arxiv.org/abs/2003.03533v2 )

ライセンス: Link先を確認
Axel Laborieux, Maxence Ernoult, Tifenn Hirtzlin and Damien Querlioz(参考訳) ディープニューラルネットワークは、複数の状況で人間のパフォーマンスを上回ってきたが、それらは破滅的な忘れ物になりがちだ。 理想的なタスクに基づく神経科学の研究は、脳内でシナプスが過去の歴史に応じて可塑性を調整することでこの問題を克服することを示唆している。 しかし、このような「メタ可塑性」な振る舞いは、ディープニューラルネットワークにおける破滅的な忘れを緩和するために直接伝達されない。 本研究では,深層ニューラルネットワークの低精度版である二元化ニューラルネットワークが使用する隠れ重みをメタ可塑性変数として解釈し,その学習技法を改良して忘れを緩和する。 このアイデアに基づいて,マルチタスクとストリーム学習の状況において,事前に提示されたデータやデータセット間の形式的境界を必要とせず,タスク境界を伴うより主流なテクニックに近づくパフォーマンスを伴って,破滅的な忘れを低減させるトレーニング手法を提案する。 抽出可能なタスクに関する理論的分析により,我々のアプローチを支援する。 この研究は計算神経科学とディープラーニングを橋渡しし、特にメタ可塑性に類似した物理を特徴とする新しいナノデバイスを使用する場合、将来の組み込みおよびニューロモルフィックシステムの重要な資産を提示する。

While deep neural networks have surpassed human performance in multiple situations, they are prone to catastrophic forgetting: upon training a new task, they rapidly forget previously learned ones. Neuroscience studies, based on idealized tasks, suggest that in the brain, synapses overcome this issue by adjusting their plasticity depending on their past history. However, such "metaplastic" behaviours do not transfer directly to mitigate catastrophic forgetting in deep neural networks. In this work, we interpret the hidden weights used by binarized neural networks, a low-precision version of deep neural networks, as metaplastic variables, and modify their training technique to alleviate forgetting. Building on this idea, we propose and demonstrate experimentally, in situations of multitask and stream learning, a training technique that reduces catastrophic forgetting without needing previously presented data, nor formal boundaries between datasets and with performance approaching more mainstream techniques with task boundaries. We support our approach with a theoretical analysis on a tractable task. This work bridges computational neuroscience and deep learning, and presents significant assets for future embedded and neuromorphic systems, especially when using novel nanodevices featuring physics analogous to metaplasticity.
翻訳日:2022-12-25 19:05:03 公開日:2021-03-23
# 適応グラフ学習による教師なしグラフ埋め込み

Unsupervised Graph Embedding via Adaptive Graph Learning ( http://arxiv.org/abs/2003.04508v3 )

ライセンス: Link先を確認
Rui Zhang, Yunxing Zhang, Xuelong Li(参考訳) グラフオートエンコーダ(GAE)はグラフ埋め込みの表現学習において強力なツールである。 しかし、GAEsの性能はグラフ構造、すなわち隣接行列の品質に大きく依存している。 言い換えれば、GAEは、隣接行列が不完全であったり、邪魔されたりすると、性能が悪くなる。 本稿では,2つの新しい教師なしグラフ埋め込み法,適応グラフ学習(BAGE)による教師なしグラフ埋め込み,変分適応グラフ学習(VBAGE)による教師なしグラフ埋め込みを提案する。 提案手法はグラフ埋め込み,すなわちグラフ構造を持たない一般的なデータセットに対するGAEの応用範囲を拡大する。 一方、適応学習機構はパラメータの影響を受けずに隣接行列を初期化することができる。 さらに、潜在表現は、ベクトル空間におけるグラフの位相構造を保存するためにラプラシアングラフ構造に埋め込まれる。 さらに、元のグラフ構造が不完全である場合には、隣接行列を自己学習して埋め込み性能を向上させることもできる。 適応学習では,提案手法はグラフ構造に対してはるかに頑健である。 いくつかのデータセットに関する実験的研究により、我々の手法がノードクラスタリング、ノード分類、グラフ可視化タスクにおいて、ベースラインよりも優れていることが示された。

Graph autoencoders (GAEs) are powerful tools in representation learning for graph embedding. However, the performance of GAEs is very dependent on the quality of the graph structure, i.e., of the adjacency matrix. In other words, GAEs would perform poorly when the adjacency matrix is incomplete or be disturbed. In this paper, two novel unsupervised graph embedding methods, unsupervised graph embedding via adaptive graph learning (BAGE) and unsupervised graph embedding via variational adaptive graph learning (VBAGE) are proposed. The proposed methods expand the application range of GAEs on graph embedding, i.e, on the general datasets without graph structure. Meanwhile, the adaptive learning mechanism can initialize the adjacency matrix without be affected by the parameter. Besides that, the latent representations are embedded in the laplacian graph structure to preserve the topology structure of the graph in the vector space. Moreover, the adjacency matrix can be self-learned for better embedding performance when the original graph structure is incomplete. With adaptive learning, the proposed method is much more robust to the graph structure. Experimental studies on several datasets validate our design and demonstrate that our methods outperform baselines by a wide margin in node clustering, node classification, and graph visualization tasks.
翻訳日:2022-12-24 20:36:22 公開日:2021-03-23
# 粒子に基づくエネルギー変動推論

Particle-based Energetic Variational Inference ( http://arxiv.org/abs/2004.06443v4 )

ライセンス: Link先を確認
Yiwei Wang, Jiuhai Chen, Chun Liu, Lulu Kang(参考訳) エネルギー変動推論(EVI)と呼ばれる新しい変動推論(VI)フレームワークを導入する。 所定のエネルギー散逸則に基づいてvi目的関数を最小化する。 EVIフレームワークを用いることで、人気のあるStein Variational Gradient Descent(SVGD)アプローチを含む、多くの既存のParticle-based Variational Inference(ParVI)手法を導出できる。 さらに重要なのは、このフレームワークで多くの新しいParVIスキームを作成できることだ。 本稿では,まず粒子に基づく密度近似を行い,その近似密度を変分法で用いた新しいパーティクルベースEVI法,あるいは略して「近似-then-Variation」を提案する。 この近似と変動の順序により、新しいスキームは粒子レベルでの変分構造を維持でき、各イテレーションにおけるKL偏差を著しく減少させることができる。 数値実験により,提案手法は対象分布に対する忠実度の観点から既存のParVI法よりも優れていた。

We introduce a new variational inference (VI) framework, called energetic variational inference (EVI). It minimizes the VI objective function based on a prescribed energy-dissipation law. Using the EVI framework, we can derive many existing Particle-based Variational Inference (ParVI) methods, including the popular Stein Variational Gradient Descent (SVGD) approach. More importantly, many new ParVI schemes can be created under this framework. For illustration, we propose a new particle-based EVI scheme, which performs the particle-based approximation of the density first and then uses the approximated density in the variational procedure, or "Approximation-then-Variation" for short. Thanks to this order of approximation and variation, the new scheme can maintain the variational structure at the particle level, and can significantly decrease the KL-divergence in each iteration. Numerical experiments show the proposed method outperforms some existing ParVI methods in terms of fidelity to the target distribution.
翻訳日:2022-12-13 08:55:09 公開日:2021-03-23
# オンラインシーケンス学習を用いたFPGAによるオンデバイス強化学習手法

An FPGA-Based On-Device Reinforcement Learning Approach using Online Sequential Learning ( http://arxiv.org/abs/2005.04646v3 )

ライセンス: Link先を確認
Hirohisa Watanabe, Mineto Tsukada and Hiroki Matsutani(参考訳) DQN(Deep Q-Network)は、ディープニューラルネットワークを用いた強化学習のためのQラーニングを実行する方法である。 DQNは、経験再生のために大きなバッファとバッチ処理を必要とし、バックプロパゲーションベースの反復最適化に依存しているため、リソース制限されたエッジデバイスに実装するのは困難である。 本稿では,低コストFPGAデバイスのための軽量デバイス強化学習手法を提案する。 バックプロパゲーション手法に頼るのではなく、OS-ELM(Online Sequential Extreme Learning Machine)ベースのトレーニングアルゴリズムを使用している。 さらに,デバイス上での強化学習におけるl2正規化とスペクトル正規化の組み合わせを提案し,ニューラルネットワークの出力値を一定の範囲に適合させ,強化学習を安定させる。 提案手法は低コストFPGAプラットフォームとしてPYNQ-Z1ボード用に設計されている。 openai gymを用いた評価結果から,提案アルゴリズムとそのfpga実装は,隠れ層ノード数64の場合,従来のdqnベースアプローチよりも29.77xおよび89.40倍高速であることが分かった。

DQN (Deep Q-Network) is a method to perform Q-learning for reinforcement learning using deep neural networks. DQNs require a large buffer and batch processing for an experience replay and rely on a backpropagation based iterative optimization, making them difficult to be implemented on resource-limited edge devices. In this paper, we propose a lightweight on-device reinforcement learning approach for low-cost FPGA devices. It exploits a recently proposed neural-network based on-device learning approach that does not rely on the backpropagation method but uses OS-ELM (Online Sequential Extreme Learning Machine) based training algorithm. In addition, we propose a combination of L2 regularization and spectral normalization for the on-device reinforcement learning so that output values of the neural network can be fit into a certain range and the reinforcement learning becomes stable. The proposed reinforcement learning approach is designed for PYNQ-Z1 board as a low-cost FPGA platform. The evaluation results using OpenAI Gym demonstrate that the proposed algorithm and its FPGA implementation complete a CartPole-v0 task 29.77x and 89.40x faster than a conventional DQN-based approach when the number of hidden-layer nodes is 64.
翻訳日:2022-12-05 01:29:13 公開日:2021-03-23
# RV-FuseNet: 距離ビューに基づく時系列LiDARデータの融合による3次元物体検出と動き予測

RV-FuseNet: Range View Based Fusion of Time-Series LiDAR Data for Joint 3D Object Detection and Motion Forecasting ( http://arxiv.org/abs/2005.10863v3 )

ライセンス: Link先を確認
Ankit Laddha, Shivam Gautam, Gregory P. Meyer, Carlos Vallespi-Gonzalez, Carl K. Wellington(参考訳) 自動運転車が都市環境を安全にナビゲートするには,交通参加者のロバストなリアルタイム検出と移動予測が必要である。 本稿では,時系列LiDARデータから直接共同検出と軌道推定を行う新しいエンドツーエンドアプローチであるRV-FuseNetを提案する。 広範に使用されている鳥眼ビュー(BEV)表現の代わりに,LiDARデータのネイティブレンジビュー(RV)表現を利用する。 RVは、BEVで使用されるボキセル化を回避することにより、センサの全解像度を保存する。 さらに、そのコンパクト性により、RVを効率的に処理することができる。 前者はプロジェクト時系列データを時間融合の共通の視点にアプローチし、多くの場合、この視点は捕獲された場所と異なる。 これはBEV法には十分だが、RV法では、性能に悪影響を及ぼす情報やデータの歪みが失われる可能性がある。 この課題に対処するため,本稿では,各RVを次回のスイープの視点に順次投影することで,情報損失を最小限に抑える,シンプルで効果的な新しいアーキテクチャである‘textit{Incremental Fusion’を提案する。 提案手法は,既存の最先端技術よりも動作予測性能を著しく向上することを示す。 さらに,本手法は,複数のデータセット上でのrvベースの融合手法よりも優れていることを示す。

Robust real-time detection and motion forecasting of traffic participants is necessary for autonomous vehicles to safely navigate urban environments. In this paper, we present RV-FuseNet, a novel end-to-end approach for joint detection and trajectory estimation directly from time-series LiDAR data. Instead of the widely used bird's eye view (BEV) representation, we utilize the native range view (RV) representation of LiDAR data. The RV preserves the full resolution of the sensor by avoiding the voxelization used in the BEV. Furthermore, RV can be processed efficiently due to its compactness. Previous approaches project time-series data to a common viewpoint for temporal fusion, and often this viewpoint is different from where it was captured. This is sufficient for BEV methods, but for RV methods, this can lead to loss of information and data distortion which has an adverse impact on performance. To address this challenge we propose a simple yet effective novel architecture, \textit{Incremental Fusion}, that minimizes the information loss by sequentially projecting each RV sweep into the viewpoint of the next sweep in time. We show that our approach significantly improves motion forecasting performance over the existing state-of-the-art. Furthermore, we demonstrate that our sequential fusion approach is superior to alternative RV based fusion methods on multiple datasets.
翻訳日:2022-11-30 23:55:16 公開日:2021-03-23
# OT-Flow: 最適輸送による高速かつ高精度な連続正規化フロー

OT-Flow: Fast and Accurate Continuous Normalizing Flows via Optimal Transport ( http://arxiv.org/abs/2006.00104v5 )

ライセンス: Link先を確認
Derek Onken, Samy Wu Fung, Xingjian Li, Lars Ruthotto(参考訳) 正規化フローは任意の確率分布と標準正規分布の間の可逆写像であり、密度推定や統計的推測に使うことができる。 流れの計算は変数の式の変化に従うため、写像の可逆性とヤコビ行列式を計算する効率的な方法を必要とする。 これらの要件を満たすため、フローの正規化は通常、慎重に選択されたコンポーネントから構成される。 連続正規化フロー (Continuous normalizing Flow, CNF) は、ニューラル常微分方程式(ODE)を解くことによって得られる写像である。 ニューラルODEのダイナミクスは、ほぼ任意に選択でき、可逆性を保証する。 さらに、フローのジャコビアンの対数決定式は、フローに沿ってダイナミクスのジャコビアンのトレースを積分することで得られる。 提案するOT-Flowアプローチは,より広範なCNFの使用を制限する2つの重要な計算課題に対処する。 まず、OT-Flowは最適輸送(OT)理論を利用してCNFを正規化し、統合しやすい直線軌道を強制する。 第2に、OT-Flowは、既存のCNFで使用されているトレース推定値に匹敵する時間複雑性を持つ正確なトレース計算を特徴としている。 5つの高次元密度推定および生成モデリングタスクにおいて、OT-Flowは最先端のCNFと競合し、平均して8倍のスピードアップと24倍の速度アップを必要とする。

A normalizing flow is an invertible mapping between an arbitrary probability distribution and a standard normal distribution; it can be used for density estimation and statistical inference. Computing the flow follows the change of variables formula and thus requires invertibility of the mapping and an efficient way to compute the determinant of its Jacobian. To satisfy these requirements, normalizing flows typically consist of carefully chosen components. Continuous normalizing flows (CNFs) are mappings obtained by solving a neural ordinary differential equation (ODE). The neural ODE's dynamics can be chosen almost arbitrarily while ensuring invertibility. Moreover, the log-determinant of the flow's Jacobian can be obtained by integrating the trace of the dynamics' Jacobian along the flow. Our proposed OT-Flow approach tackles two critical computational challenges that limit a more widespread use of CNFs. First, OT-Flow leverages optimal transport (OT) theory to regularize the CNF and enforce straight trajectories that are easier to integrate. Second, OT-Flow features exact trace computation with time complexity equal to trace estimators used in existing CNFs. On five high-dimensional density estimation and generative modeling tasks, OT-Flow performs competitively to state-of-the-art CNFs while on average requiring one-fourth of the number of weights with an 8x speedup in training time and 24x speedup in inference.
翻訳日:2022-11-26 22:54:56 公開日:2021-03-23
# 格子セルによるダイレクトアクションの予測と一般化

Prediction and Generalisation over Directed Actions by Grid Cells ( http://arxiv.org/abs/2006.03355v2 )

ライセンス: Link先を確認
Changmin Yu, Timothy E.J. Behrens and Neil Burgess(参考訳) 指示行動の効果が新しい状況(例えば北、南、東、西、左、右など)にどのように一般化するかを知ることは、新しい状況にまたがる急速な一般化の鍵となる。 マルコフ的タスクは状態空間と遷移行列によって特徴づけられ、近年の研究では、遷移行列の固有ベクトルが状態間の拡散を反映し、将来の状態分布の効率的な予測を可能にするものとして、ニューラルネットワークコードによって状態空間の効率的な表現が提案されている。 ここでは、フーリエ解析から任意の変換不変有向遷移構造(すなわち変位と拡散)上の予測へツールを利用する固有ベイシ予測モデルを拡張し、単一の固有ベクトルのセットが、アクション固有の固有値を介して任意の有向作用を予測できることを示した。 目的の状態に到達するためのアクションを組み合わせるための「方向感覚」を定義する方法(翻訳・不変性からタスク固有の逸脱を無視する)を示し、深いQネットワークにフーリエ表現を追加することで、継続的な制御タスクにおけるポリシー学習を支援することを示す。 一般化予測フレームワークと従来のグリッドセル点火モデルとの等価性を示し,経路統合を行うための自己運動駆動型グリッドセル点火モデルについて,(フーリエ成分を速度制御振動子として)振動干渉や,(更新ダイナミクスの解析により)連続的アトラクタネットワークを用いて検討した。 そこで我々は,予測計画,方向感覚,経路統合におけるグリッドシステムの役割を統一したフレームワークを提案する。

Knowing how the effects of directed actions generalise to new situations (e.g. moving North, South, East and West, or turning left, right, etc.) is key to rapid generalisation across new situations. Markovian tasks can be characterised by a state space and a transition matrix and recent work has proposed that neural grid codes provide an efficient representation of the state space, as eigenvectors of a transition matrix reflecting diffusion across states, that allows efficient prediction of future state distributions. Here we extend the eigenbasis prediction model, utilising tools from Fourier analysis, to prediction over arbitrary translation-invariant directed transition structures (i.e. displacement and diffusion), showing that a single set of eigenvectors can support predictions over arbitrary directed actions via action-specific eigenvalues. We show how to define a "sense of direction" to combine actions to reach a target state (ignoring task-specific deviations from translation-invariance), and demonstrate that adding the Fourier representations to a deep Q network aids policy learning in continuous control tasks. We show the equivalence between the generalised prediction framework and traditional models of grid cell firing driven by self-motion to perform path integration, either using oscillatory interference (via Fourier components as velocity-controlled oscillators) or continuous attractor networks (via analysis of the update dynamics). We thus provide a unifying framework for the role of the grid system in predictive planning, sense of direction and path integration: supporting generalisable inference over directed actions across different tasks.
翻訳日:2022-11-25 04:29:27 公開日:2021-03-23
# クロスリンガル埋め込みアライメントのためのフィルタ内積投影

Filtered Inner Product Projection for Crosslingual Embedding Alignment ( http://arxiv.org/abs/2006.03652v2 )

ライセンス: Link先を確認
Vin Sachidananda, Ziyi Yang, Chenguang Zhu(参考訳) 機械翻訳と転送学習に広く関心があるため、複数の埋め込みを共有表現空間にマッピングする多くのアルゴリズムがある。 近年、これらのアルゴリズムは、ソースの埋め込みと翻訳語対が共通の表現空間内に存在するように対象言語を整合させようとするバイリンガル辞書誘導(英語版)の設定において研究されている。 本稿では,埋め込みを共通表現空間にマッピングし,バイリンガル辞書誘導の文脈でfippを評価するためのフィルタ付き内積投影法(fipp)を提案する。 意味的シフトは言語や領域にまたがって広まるので、fippはまず埋め込みの両方において共通の幾何学的構造を特定し、それからそれらの埋め込みのグラム行列を整列する。 従来のアプローチとは異なり、fippはソースとターゲットの埋め込みが異なる次元である場合でも適用できる。 提案手法は,museデータセットの既存手法を各種言語対で上回っていることを示す。 さらに、FIPPは実装の容易さとスケーラビリティの両方で計算上の利点を提供します。

Due to widespread interest in machine translation and transfer learning, there are numerous algorithms for mapping multiple embeddings to a shared representation space. Recently, these algorithms have been studied in the setting of bilingual dictionary induction where one seeks to align the embeddings of a source and a target language such that translated word pairs lie close to one another in a common representation space. In this paper, we propose a method, Filtered Inner Product Projection (FIPP), for mapping embeddings to a common representation space and evaluate FIPP in the context of bilingual dictionary induction. As semantic shifts are pervasive across languages and domains, FIPP first identifies the common geometric structure in both embeddings and then, only on the common structure, aligns the Gram matrices of these embeddings. Unlike previous approaches, FIPP is applicable even when the source and target embeddings are of differing dimensionalities. We show that our approach outperforms existing methods on the MUSE dataset for various language pairs. Furthermore, FIPP provides computational benefits both in ease of implementation and scalability.
翻訳日:2022-11-25 02:40:45 公開日:2021-03-23
# MMA規則化:最小角度の最大化によるニューラルネットワークの重みの減少

MMA Regularization: Decorrelating Weights of Neural Networks by Maximizing the Minimal Angles ( http://arxiv.org/abs/2006.06527v2 )

ライセンス: Link先を確認
Zhennan Wang, Canqun Xiang, Wenbin Zou, Chen Xu(参考訳) ニューロンやフィルタ間の強い相関は、ニューラルネットワークの一般化能力を著しく弱める。 タムズ問題に着想を得て, 極小対角(MMA)を最大化することにより, 極大球上に分布するニューロンやフィルタの正規化重みベクトルを可能な限り均一化する, この問題に対処する新しい多様性正規化法を提案する。 この方法は、MMA正規化項を無視可能な計算オーバーヘッドで損失関数にプラグインすることで、容易にその効果を発揮できる。 MMA正則化は単純で効率的で効果的である。 したがって、ニューラルネットワークトレーニングの基本的な正規化手法として使用できる。 大規模な実験により、MMA正則化は様々な近代モデルの一般化能力を向上し、CIFAR100とTinyImageNetデータセットでかなりの性能向上を達成できることが示された。 さらに,顔認証実験により,MMA正則化は特徴学習にも有効であることが示された。 コードはhttps://github.com/wznpub/mma_regularization。

The strong correlation between neurons or filters can significantly weaken the generalization ability of neural networks. Inspired by the well-known Tammes problem, we propose a novel diversity regularization method to address this issue, which makes the normalized weight vectors of neurons or filters distributed on a hypersphere as uniformly as possible, through maximizing the minimal pairwise angles (MMA). This method can easily exert its effect by plugging the MMA regularization term into the loss function with negligible computational overhead. The MMA regularization is simple, efficient, and effective. Therefore, it can be used as a basic regularization method in neural network training. Extensive experiments demonstrate that MMA regularization is able to enhance the generalization ability of various modern models and achieves considerable performance improvements on CIFAR100 and TinyImageNet datasets. In addition, experiments on face verification show that MMA regularization is also effective for feature learning. Code is available at: https://github.com/wznpub/MMA_Regularization.
翻訳日:2022-11-24 21:13:30 公開日:2021-03-23
# ディープニューラルネットワークを用いた確率的マルチケロン在庫最適化のための同時意思決定

Simultaneous Decision Making for Stochastic Multi-echelon Inventory Optimization with Deep Neural Networks as Decision Makers ( http://arxiv.org/abs/2006.05608v2 )

ライセンス: Link先を確認
Mohammad Pirhooshyaran, Lawrence V. Snyder(参考訳) 本稿では、ディープニューラルネットワーク(DNN)を用いて、複雑なマルチエケロンサプライチェーンの在庫決定を最適化するフレームワークを提案する。 まず,smeio(general stochastic multi-echelon inventory optimization)のペアワイズモデルを提案する。 次に,dnnエージェントを用いて,サプライチェーン内の隣接ノード間のオーダーアップツーレベルを直接決定するフレームワークを提案する。 我々のモデルは有限の地平線を考慮し,初期在庫条件を考慮に入れる。 本手法は,組立ノードと分散ノードの両方を含む一般的なトポロジや非線形コスト構造を持つシステムなど,多種多様なサプライチェーンネットワークに適している。 まず,本手法の有効性について,その解法が単一ノードおよびシリアルサプライチェーンネットワークの最適解に近く,正確な方法が利用できることを示す。 そこで我々は,より一般的なサプライチェーンネットワークについて検討し,提案手法の目的関数値と環境との相互作用回数の両面において,代替手法と比較して優れた性能を示した。

We propose a framework that uses deep neural networks (DNN) to optimize inventory decisions in complex multi-echelon supply chains. We first introduce pairwise modeling of general stochastic multi-echelon inventory optimization (SMEIO). Then, we present a framework which uses DNN agents to directly determine order-up-to levels between any adjacent pair of nodes in the supply chain. Our model considers a finite horizon and accounts for the initial inventory conditions. Our method is suitable for a wide variety of supply chain networks, including general topologies that may contain both assembly and distribution nodes, and systems with nonlinear cost structures. We first numerically demonstrate the effectiveness of the method by showing that its solutions are close to the optimal solutions for single-node and serial supply chain networks, for which exact methods are available. Then, we investigate more general supply chain networks and find that the proposed method performs better in terms of both objective function values and the number of interactions with the environment compared to alternate methods.
翻訳日:2022-11-23 04:58:48 公開日:2021-03-23
# IDF++: ロスレス圧縮のための整数離散フローの解析と改善

IDF++: Analyzing and Improving Integer Discrete Flows for Lossless Compression ( http://arxiv.org/abs/2006.12459v2 )

ライセンス: Link先を確認
Rianne van den Berg, Alexey A. Gritsenko, Mostafa Dehghani, Casper Kaae S{\o}nderby, Tim Salimans(参考訳) 本稿では、無損失圧縮のための整数離散フローの解析と改善を行う。 整数離散フローは、最近提案された整数値確率変数の可逆変換を学習するモデルのクラスである。 その離散的な性質は、エントロピー符号化スキームによるロスレス圧縮に特に適している。 離散確率変数に対する可逆フローは、連続する変数よりも柔軟性が低いという最近の理論的な主張を考察することから始める。 有限サポートを持つデータの可算無限整数格子への埋め込みにより、この主張が整数離散フローに対して成立しないことを示す。 さらに,整数離散流れにおけるストレートスルー推定子による勾配バイアスの影響をズームインし,その影響がアーキテクチャの選択に大きく依存し,従来考えられていたよりも顕著ではないことを示す。 最後に、異なるアーキテクチャの変更が、ロスレス圧縮のためのこのモデルクラスのパフォーマンスをどのように改善するかを示し、より効率的な圧縮を可能にするかを示す:フロー層の半分のモデルが、元の整数離散フローモデルと同等かそれ以上の性能を発揮する。

In this paper we analyse and improve integer discrete flows for lossless compression. Integer discrete flows are a recently proposed class of models that learn invertible transformations for integer-valued random variables. Their discrete nature makes them particularly suitable for lossless compression with entropy coding schemes. We start by investigating a recent theoretical claim that states that invertible flows for discrete random variables are less flexible than their continuous counterparts. We demonstrate with a proof that this claim does not hold for integer discrete flows due to the embedding of data with finite support into the countably infinite integer lattice. Furthermore, we zoom in on the effect of gradient bias due to the straight-through estimator in integer discrete flows, and demonstrate that its influence is highly dependent on architecture choices and less prominent than previously thought. Finally, we show how different architecture modifications improve the performance of this model class for lossless compression, and that they also enable more efficient compression: a model with half the number of flow layers performs on par with or better than the original integer discrete flow model.
翻訳日:2022-11-18 05:12:57 公開日:2021-03-23
# 畳み込みニューラルネットワークのロバスト性と伝達性について

On Robustness and Transferability of Convolutional Neural Networks ( http://arxiv.org/abs/2007.08558v2 )

ライセンス: Link先を確認
Josip Djolonga, Jessica Yung, Michael Tschannen, Rob Romijnders, Lucas Beyer, Alexander Kolesnikov, Joan Puigcerver, Matthias Minderer, Alexander D'Amour, Dan Moldovan, Sylvain Gelly, Neil Houlsby, Xiaohua Zhai, Mario Lucic(参考訳) 現代の深層畳み込みネットワーク(cnns)は分布シフトの下で一般化していないとしばしば批判される。 しかし、転送学習における最近のいくつかのブレークスルーは、これらのネットワークが厳しい分散シフトに対応し、いくつかのトレーニング例から新しいタスクにうまく適応できることを示唆している。 本研究では,最新の画像分類cnnの配信外と転送性能の相互作用を初めて検討し,事前学習データサイズ,モデルスケール,データ前処理パイプラインの影響について検討した。 トレーニングセットとモデルサイズの増加は、分散シフトの堅牢性を大幅に向上させる。 さらに,画像解像度の修正など前処理の簡単な変更は,場合によってはロバスト性の問題を大幅に軽減する可能性がある。 最後に、既存のロバスト性評価データセットの欠点を概説し、オブジェクトのサイズや位置などの視覚データに共通する要因の体系的分析に使用する合成データセットSI-Scoreを導入する。

Modern deep convolutional networks (CNNs) are often criticized for not generalizing under distributional shifts. However, several recent breakthroughs in transfer learning suggest that these networks can cope with severe distribution shifts and successfully adapt to new tasks from a few training examples. In this work we study the interplay between out-of-distribution and transfer performance of modern image classification CNNs for the first time and investigate the impact of the pre-training data size, the model scale, and the data preprocessing pipeline. We find that increasing both the training set and model sizes significantly improve the distributional shift robustness. Furthermore, we show that, perhaps surprisingly, simple changes in the preprocessing such as modifying the image resolution can significantly mitigate robustness issues in some cases. Finally, we outline the shortcomings of existing robustness evaluation datasets and introduce a synthetic dataset SI-Score we use for a systematic analysis across factors of variation common in visual data such as object size and position.
翻訳日:2022-11-09 22:30:46 公開日:2021-03-23
# 映像からの3次元物体の無監督発見

Unsupervised Discovery of 3D Physical Objects from Video ( http://arxiv.org/abs/2007.12348v3 )

ライセンス: Link先を確認
Yilun Du, Kevin Smith, Tomer Ulman, Joshua Tenenbaum, Jiajun Wu(参考訳) 我々は、教師なし物体発見の問題を研究する。 既存のフレームワークは、各オブジェクトの外観に基づいてシーンを2dセグメントに分解することを目指しているが、物理学、特にオブジェクトインタラクションは、ビデオからの3d幾何学とオブジェクトの位置の分離を、教師なしの方法で促進する。 発達心理学からインスピレーションを得た私たちの物理オブジェクト発見ネットワーク(POD-Net)は、マルチスケールの画素キューと物理モーションキューの両方を使用して、様々なサイズの観測可能な、あるいは部分的に隠されたオブジェクトを正確に分割し、それらのオブジェクトの特性を推測する。 私たちのモデルは、合成シーンと実シーンの両方で確実にオブジェクトを分割します。 検出されたオブジェクトプロパティは、物理イベントの推論にも使用できる。

We study the problem of unsupervised physical object discovery. While existing frameworks aim to decompose scenes into 2D segments based off each object's appearance, we explore how physics, especially object interactions, facilitates disentangling of 3D geometry and position of objects from video, in an unsupervised manner. Drawing inspiration from developmental psychology, our Physical Object Discovery Network (POD-Net) uses both multi-scale pixel cues and physical motion cues to accurately segment observable and partially occluded objects of varying sizes, and infer properties of those objects. Our model reliably segments objects on both synthetic and real scenes. The discovered object properties can also be used to reason about physical events.
翻訳日:2022-11-07 06:14:20 公開日:2021-03-23
# PDE駆動時空間歪み

PDE-Driven Spatiotemporal Disentanglement ( http://arxiv.org/abs/2008.01352v3 )

ライセンス: Link先を確認
J\'er\'emie Don\`a (MLIA), Jean-Yves Franceschi (MLIA), Sylvain Lamprier (MLIA), Patrick Gallinari (MLIA)(参考訳) 機械学習コミュニティにおける最近の研究は、微分方程式理論から特定のツールを活用することで高次元時空間現象を予測する問題に対処している。 本稿では, 偏微分方程式の解法, 変数の分離に基づく新しい, 一般パラダイムを提案する。 このインスピレーションにより、時空間的ゆがみの動的解釈を導入することができる。 現象の空間的および時空間的表現を学習し、将来の観測を正確に予測する原理モデルを生成する。 物理および合成ビデオデータセット上での先行技術モデルに対する提案手法の性能と適用性について実験的に検証した。

A recent line of work in the machine learning community addresses the problem of predicting high-dimensional spatiotemporal phenomena by leveraging specific tools from the differential equations theory. Following this direction, we propose in this article a novel and general paradigm for this task based on a resolution method for partial differential equations: the separation of variables. This inspiration allows us to introduce a dynamical interpretation of spatiotemporal disentanglement. It induces a principled model based on learning disentangled spatial and temporal representations of a phenomenon to accurately predict future observations. We experimentally demonstrate the performance and broad applicability of our method against prior state-of-the-art models on physical and synthetic video datasets.
翻訳日:2022-11-02 23:12:24 公開日:2021-03-23
# midas: 都市自律ナビゲーションのための適応戦略を用いたマルチエージェントインタラクションアウェア意思決定

MIDAS: Multi-agent Interaction-aware Decision-making with Adaptive Strategies for Urban Autonomous Navigation ( http://arxiv.org/abs/2008.07081v2 )

ライセンス: Link先を確認
Xiaoyi Chen, Pratik Chaudhari(参考訳) 混雑した複雑な都市環境における自律的なナビゲーションには、道路上の他のエージェントと対話する必要がある。 この問題の一般的な解決策は、他のエージェントの将来の行動を予測するために予測モデルを使用することである。 これは合理的ではあるが、相互作用するエージェントの作用の相互影響を明示的にモデル化しないため、過度に保守的な計画につながる。 本稿では,都市走行シナリオにおいて,エゴエージェントが他の車両の制御行動に影響を与えることを学習するmidaという強化学習ベース手法を構築する。 MIDASは、他のエージェントの任意の数の処理に注意機構を使用し、異なる計画目標にまたがる単一のポリシーを学ぶために"ドライバタイプ"パラメータを含む。 車両の安全性,効率,インタラクションを定量的に研究するための,多数のエージェントや手法との多様なインタラクション実験を可能にするシミュレーション環境を構築した。 MIDASは広範囲な実験により検証され,その有効性を示す。 (i)異なる道路ジオメトリをまたぐことができる。 (ii)アグレッシブ運転や慎重運転などの性能基準を満たすために容易に調整できる適応的自我政策となる。 (iii)外部エージェントの運転方針の変化に頑健であり、 (iv) 対話認識意思決定に対する既存のアプローチよりも効率的かつ安全である。

Autonomous navigation in crowded, complex urban environments requires interacting with other agents on the road. A common solution to this problem is to use a prediction model to guess the likely future actions of other agents. While this is reasonable, it leads to overly conservative plans because it does not explicitly model the mutual influence of the actions of interacting agents. This paper builds a reinforcement learning-based method named MIDAS where an ego-agent learns to affect the control actions of other cars in urban driving scenarios. MIDAS uses an attention-mechanism to handle an arbitrary number of other agents and includes a "driver-type" parameter to learn a single policy that works across different planning objectives. We build a simulation environment that enables diverse interaction experiments with a large number of agents and methods for quantitatively studying the safety, efficiency, and interaction among vehicles. MIDAS is validated using extensive experiments and we show that it (i) can work across different road geometries, (ii) results in an adaptive ego policy that can be tuned easily to satisfy performance criteria such as aggressive or cautious driving, (iii) is robust to changes in the driving policies of external agents, and (iv) is more efficient and safer than existing approaches to interaction-aware decision-making.
翻訳日:2022-10-28 03:27:41 公開日:2021-03-23
# cde-gan: 協調的進化に基づく生成的逆ネットワーク

CDE-GAN: Cooperative Dual Evolution Based Generative Adversarial Network ( http://arxiv.org/abs/2008.09388v2 )

ライセンス: Link先を確認
Shiming Chen and Wenjie Wang and Beihao Xia and Xinge You and Zehong Cao and Weiping Ding(参考訳) GAN(Generative Adversarial Network)は、現実世界のアプリケーションにおいて一般的な深層生成モデルである。 GANに対する近年の取り組みにもかかわらず、GANのモード崩壊と不安定性は、その逆最適化困難に起因する未解決の問題である。 本稿では,協調的共進化的アルゴリズムを動機として,これらの欠点を回避するために協調的デュアル進化に基づくジェネレーティブ・アドバーサリアル・ネットワーク(CDE-GAN)を提案する。 本質的に、CDE-GANは、ジェネレータと識別器に関する二重進化を、効果的な対向多目的最適化を行うための統合された進化的対向フレームワークに組み入れている。 これにより、相補的特性を活用し、2つの突然変異多様性をトレーニングに注入し、推定密度を着実に多様化させ、生成性能を向上させる。 具体的には、CDE-GANは複雑な逆最適化問題を2つのサブプロブレムに分解し(生成と識別)、それぞれのサブプロブレムは分離されたサブポピュレーション(E-Generator}とE-Discriminator)で解かれる。 さらに,e-generators と e-discriminator のトレードオフをバランスさせ,cde-gan の定常的なトレーニングを行うソフトなメカニズムを提案する。 1つの合成データセットと3つの実世界のベンチマーク画像データセットに対する大規模な実験により、提案したCDE-GANは、ベースラインよりも高品質で多様なサンプルを生成する上で、競争力と優れた性能を達成できることを示した。 コードとより生成された結果は、プロジェクトのホームページ(https://shiming-chen.github.io/CDE-GAN-website/CDE-GAN.html)で公開されています。

Generative adversarial networks (GANs) have been a popular deep generative model for real-world applications. Despite many recent efforts on GANs that have been contributed, mode collapse and instability of GANs are still open problems caused by their adversarial optimization difficulties. In this paper, motivated by the cooperative co-evolutionary algorithm, we propose a Cooperative Dual Evolution based Generative Adversarial Network (CDE-GAN) to circumvent these drawbacks. In essence, CDE-GAN incorporates dual evolution with respect to the generator(s) and discriminators into a unified evolutionary adversarial framework to conduct effective adversarial multi-objective optimization. Thus it exploits the complementary properties and injects dual mutation diversity into training to steadily diversify the estimated density in capturing multi-modes and improve generative performance. Specifically, CDE-GAN decomposes the complex adversarial optimization problem into two subproblems (generation and discrimination), and each subproblem is solved with a separated subpopulation (E-Generator} and E-Discriminators), evolved by its own evolutionary algorithm. Additionally, we further propose a Soft Mechanism to balance the trade-off between E-Generators and E-Discriminators to conduct steady training for CDE-GAN. Extensive experiments on one synthetic dataset and three real-world benchmark image datasets demonstrate that the proposed CDE-GAN achieves a competitive and superior performance in generating good quality and diverse samples over baselines. The code and more generated results are available at our project homepage: https://shiming-chen.github.io/CDE-GAN-website/CDE-GAN.html.
翻訳日:2022-10-26 22:12:55 公開日:2021-03-23
# RangeRCNN:Range Image Representationによる高速かつ高精度な3Dオブジェクト検出を目指して

RangeRCNN: Towards Fast and Accurate 3D Object Detection with Range Image Representation ( http://arxiv.org/abs/2009.00206v2 )

ライセンス: Link先を確認
Zhidong Liang, Ming Zhang, Zehan Zhang, Xian Zhao, Shiliang Pu(参考訳) 本研究では,レンジ画像表現に基づく新しい3次元オブジェクト検出フレームワークであるRangeRCNNを提案する。 既存のメソッドのほとんどはvoxelベースまたはpointベースである。 スパーシティの問題を緩和し、実行時間を高速化するためにいくつかの最適化が導入されたが、この2つの表現は依然として計算効率に欠ける。 それと比較して、レンジ画像表現は密度が高くコンパクトであり、強力な2次元畳み込みを利用することができる。 それでも、スケールのばらつきや閉塞による3次元物体検出では、レンジ画像は好ましくない。 本稿では,拡張残差ブロック(DRB)を用いて,異なる物体スケールを適応させ,より柔軟な受容場を得る。 スケールの変動と閉塞を考慮したRV-PV-BEV (range view-point view-bird's eye view) モジュールを提案する。 アンカーはbevで定義され、スケールのばらつきや閉塞を避ける。 RVもBEVも高度推定に十分な情報を提供していないため,より優れた3次元検出性能を示す2段RCNNを提案する。 上記のポイントビューは、RVからBEVへのブリッジとして機能するだけでなく、RCNNのポイントワイズ機能も提供する。 実験の結果、RangeRCNNはKITTIデータセットとWaymo Openデータセットで最先端のパフォーマンスを実現しており、リアルタイム3Dオブジェクト検出の可能性がさらに高められている。 さらに,今後の範囲画像研究に非常に有用な範囲画像ベース手法のデータ拡張戦略についても紹介し,検討する。

We present RangeRCNN, a novel and effective 3D object detection framework based on the range image representation. Most existing methods are voxel-based or point-based. Though several optimizations have been introduced to ease the sparsity issue and speed up the running time, the two representations are still computationally inefficient. Compared to them, the range image representation is dense and compact which can exploit powerful 2D convolution. Even so, the range image is not preferred in 3D object detection due to scale variation and occlusion. In this paper, we utilize the dilated residual block (DRB) to better adapt different object scales and obtain a more flexible receptive field. Considering scale variation and occlusion, we propose the RV-PV-BEV (range view-point view-bird's eye view) module to transfer features from RV to BEV. The anchor is defined in BEV which avoids scale variation and occlusion. Neither RV nor BEV can provide enough information for height estimation; therefore, we propose a two-stage RCNN for better 3D detection performance. The aforementioned point view not only serves as a bridge from RV to BEV but also provides pointwise features for RCNN. Experiments show that RangeRCNN achieves state-of-the-art performance on the KITTI dataset and the Waymo Open dataset, and provides more possibilities for real-time 3D object detection. We further introduce and discuss the data augmentation strategy for the range image based method, which will be very valuable for future research on range image.
翻訳日:2022-10-23 01:20:35 公開日:2021-03-23
# 変化を探している? サイコロを巻いて注意を要求する

Looking for change? Roll the Dice and demand Attention ( http://arxiv.org/abs/2009.02062v2 )

ライセンス: Link先を確認
Foivos I. Diakogiannis, Fran\c{c}ois Waldner, Peter Caccetta(参考訳) リモートセンシングの分野では、変更検出(例えば、両時間同時登録画像の集合から興味のあるクラスへの変更1ピクセル当たりの識別)が基本的な課題である。 入力画像で異なる時間に現れる無関係な変化のため、依然として困難である。 本稿では,高分解能空中画像における意味変化検出タスクのための信頼性の高いディープラーニングフレームワークを提案する。 私たちのフレームワークは、新しい損失関数、新しいアテンションモジュール、新しい機能抽出ビルディングブロック、セマンティック変更検出タスク用に調整された新しいバックボーンアーキテクチャで構成されています。 具体的には、Dice係数の不変量の反復的評価に基づいて、集合類似性の新たな形式を定義する。 我々はこの類似度メトリクスを用いて新しい損失関数と新しい空間およびチャンネル畳み込み注意層(フラクタル)を定義する。 視覚タスク用に特別に設計された新しいアテンション層はメモリ効率が高く、ディープ畳み込みネットワークのあらゆるレベルでの使用に適している。 そこで本研究では,効率的な自己完結型特徴抽出ユニットを2つ導入する。 CIFAR10参照データを用いて,これらの特徴抽出ビルディングブロックの性能を検証し,標準ResNetモジュールと比較する。 さらに,新たなエンコーダ/デコーダスキームであるネットワークマクロトポロジを導入し,変更検出タスク用に調整した。 私たちのネットワークは、変化を特定するための機能レイヤのサブトラクションの概念から離れています。 LEVIRCD (F1: 0.918, IoU: 0.848) と WHU (F1: 0.938, IoU: 0.882) データセットの2つの構造変化検出データセットに対して,優れた性能と達成状況を示すことにより,我々のアプローチを検証する。

Change detection, i.e. identification per pixel of changes for some classes of interest from a set of bi-temporal co-registered images, is a fundamental task in the field of remote sensing. It remains challenging due to unrelated forms of change that appear at different times in input images. Here, we propose a reliable deep learning framework for the task of semantic change detection in very high-resolution aerial images. Our framework consists of a new loss function, new attention modules, new feature extraction building blocks, and a new backbone architecture that is tailored for the task of semantic change detection. Specifically, we define a new form of set similarity, that is based on an iterative evaluation of a variant of the Dice coefficient. We use this similarity metric to define a new loss function as well as a new spatial and channel convolution Attention layer (the FracTAL). The new attention layer, designed specifically for vision tasks, is memory efficient, thus suitable for use in all levels of deep convolutional networks. Based on these, we introduce two new efficient self-contained feature extraction convolution units. We validate the performance of these feature extraction building blocks on the CIFAR10 reference data and compare the results with standard ResNet modules. Further, we introduce a new encoder/decoder scheme, a network macro-topology, that is tailored for the task of change detection. Our network moves away from any notion of subtraction of feature layers for identifying change. We validate our approach by showing excellent performance and achieving state of the art score (F1 and Intersection over Union-hereafter IoU) on two building change detection datasets, namely, the LEVIRCD (F1: 0.918, IoU: 0.848) and the WHU (F1: 0.938, IoU: 0.882) datasets.
翻訳日:2022-10-22 02:08:57 公開日:2021-03-23
# 対向攻撃による反復的対向攻撃の検出

Detection of Iterative Adversarial Attacks via Counter Attack ( http://arxiv.org/abs/2009.11397v2 )

ライセンス: Link先を確認
Matthias Rottmann, Kira Maag, Mathis Peyron, Natasa Krejic and Hanno Gottschalk(参考訳) ディープニューラルネットワーク(DNN)は、非構造化データを処理する強力なツールであることが証明されている。 しかし、画像のような高次元データでは、本質的に敵の攻撃に弱い。 入力に追加されるほとんど見えない小さな摂動は、DNNを騙すのに使うことができる。 近年,様々な攻撃,硬化方法,検出方法が紹介されている。 歴史的に、カルリーニ・ワグナー(CW)型攻撃は反復最小化によって計算され、最も検出が難しい攻撃に属する。 本研究では,cw攻撃を検知器として使用できることを数学的に証明する。 すなわち、特定の仮定と攻撃反復の限界の下で、この検出器は漸近的に原画像と攻撃画像の分離を提供する。 数値実験では、このステートメントを実験的に検証し、さらにcifar10とimagenet上で最大99.73%のauroc値を得る。 これは、CW攻撃の現在の最先端検出率のスペクトルの上部にある。

Deep neural networks (DNNs) have proven to be powerful tools for processing unstructured data. However for high-dimensional data, like images, they are inherently vulnerable to adversarial attacks. Small almost invisible perturbations added to the input can be used to fool DNNs. Various attacks, hardening methods and detection methods have been introduced in recent years. Notoriously, Carlini-Wagner (CW) type attacks computed by iterative minimization belong to those that are most difficult to detect. In this work we outline a mathematical proof that the CW attack can be used as a detector itself. That is, under certain assumptions and in the limit of attack iterations this detector provides asymptotically optimal separation of original and attacked images. In numerical experiments, we experimentally validate this statement and furthermore obtain AUROC values up to 99.73% on CIFAR10 and ImageNet. This is in the upper part of the spectrum of current state-of-the-art detection rates for CW attacks.
翻訳日:2022-10-15 15:18:22 公開日:2021-03-23
# マルチモーダル電子健康記録データを用いたトランスフォーマーからの双方向表現学習による抑うつ予測

Bidirectional Representation Learning from Transformers using Multimodal Electronic Health Record Data to Predict Depression ( http://arxiv.org/abs/2009.12656v4 )

ライセンス: Link先を確認
Yiwen Meng, William Speier, Michael K. Ong and Corey W. Arnold(参考訳) 機械学習アルゴリズムの進歩は、電子健康記録(EHR)データを用いて構築された表現学習、分類、予測モデルに有益な影響を与えた。 特に意思決定プロセスに関して、モデルの全体的なパフォーマンス向上と解釈性の向上に努力が払われている。 本研究では,ehr系列上で双方向表現学習を行うための時間的深層学習モデルを提案し,うつ病の今後の診断を予測する。 このモデルは、ehrから5つの異種および高次元のデータソースを集約し、様々な予測ウィンドウで慢性疾患予測のための時間的手法で処理することができる。 本研究は,慢性疾患予測におけるEHRデータの事前トレーニングと微調整の現在の傾向を適用し,そのシーケンスにおけるEHRコード間の基盤的関係を示す。 このモデルは、曲線(prauc)下の精度再呼び出し面積を、最良ベースラインモデルと比較して、抑うつ予測の0.70から0.76に高めた。 さらに,各系列の自己付着重みは,各符号間の内的関係を定量的に示し,モデルの解釈性が向上した。 以上の結果から,ehrデータを利用して抑うつを予測し,高い精度と解釈性を実現し,慢性疾患スクリーニングと早期発見のための臨床判断支援システムの構築が容易になる可能性が示唆された。

Advancements in machine learning algorithms have had a beneficial impact on representation learning, classification, and prediction models built using electronic health record (EHR) data. Effort has been put both on increasing models' overall performance as well as improving their interpretability, particularly regarding the decision-making process. In this study, we present a temporal deep learning model to perform bidirectional representation learning on EHR sequences with a transformer architecture to predict future diagnosis of depression. This model is able to aggregate five heterogenous and high-dimensional data sources from the EHR and process them in a temporal manner for chronic disease prediction at various prediction windows. We applied the current trend of pretraining and fine-tuning on EHR data to outperform the current state-of-the-art in chronic disease prediction, and to demonstrate the underlying relation between EHR codes in the sequence. The model generated the highest increases of precision-recall area under the curve (PRAUC) from 0.70 to 0.76 in depression prediction compared to the best baseline model. Furthermore, the self-attention weights in each sequence quantitatively demonstrated the inner relationship between various codes, which improved the model's interpretability. These results demonstrate the model's ability to utilize heterogeneous EHR data to predict depression while achieving high accuracy and interpretability, which may facilitate constructing clinical decision support systems in the future for chronic disease screening and early detection.
翻訳日:2022-10-14 09:13:37 公開日:2021-03-23
# 生成モデルの深勾配前駆を用いた低用量ctの反復的再構成

Iterative Reconstruction for Low-Dose CT using Deep Gradient Priors of Generative Model ( http://arxiv.org/abs/2009.12760v2 )

ライセンス: Link先を確認
Zhuonan He, Yikun Zhang, Yu Guan, Shanzhou Niu, Yi Zhang, Yang Chen, Qiegen Liu(参考訳) CTの線量削減は臨床応用における放射線リスクの低減に不可欠である。 繰り返し再構成は、光子フラックスの減少によるノイズの増加を補償する最も有望な方法の1つである。 本研究では,手動で設計した事前関数や教師付き学習方式の恩恵を受ける既存の事前駆動アルゴリズムよりも,条件項としてのデータ一貫性を低用量CTの反復生成モデルに統合する。 先行学習の段階では, 従来のCT画像からデータ密度の勾配を直接学習する。 そして, 反復再建段階において, 漸近勾配降下法を用いて, 焼鈍および条件付きスキームを用いてトレーニング前を更新する。 再構成画像と多様体との間の距離は、再構成中のデータの忠実度とともに最小化される。 提案手法の騒音低減効果と細部保存効果を実験的に比較した。

Dose reduction in computed tomography (CT) is essential for decreasing radiation risk in clinical applications. Iterative reconstruction is one of the most promising ways to compensate for the increased noise due to reduction of photon flux. Rather than most existing prior-driven algorithms that benefit from manually designed prior functions or supervised learning schemes, in this work we integrate the data-consistency as a conditional term into the iterative generative model for low-dose CT. At the stage of prior learning, the gradient of data density is directly learned from normal-dose CT images as a prior. Then at the iterative reconstruction stage, the stochastic gradient descent is employed to update the trained prior with annealed and conditional schemes. The distance between the reconstructed image and the manifold is minimized along with data fidelity during reconstruction. Experimental comparisons demonstrated the noise reduction and detail preservation abilities of the proposed method.
翻訳日:2022-10-14 03:43:13 公開日:2021-03-23
# 意思決定マップと複数焦点画像融合の同時生成のためのエンドツーエンド学習

End-to-End Learning for Simultaneously Generating Decision Map and Multi-Focus Image Fusion Result ( http://arxiv.org/abs/2010.08751v3 )

ライセンス: Link先を確認
Boyuan Ma, Xiang Yin, Di Wu, Xiaojuan Ban(参考訳) 多焦点画像融合の一般的な目的は、異なる画像の集中領域を集め、ユニークな全焦点融合画像を生成することである。 深層学習に基づく手法はその強力な特徴表現能力によって画像融合の主流となる。 しかし、既存のディープラーニング構造のほとんどは、融合品質とエンドツーエンドの実装の利便性のバランスが取れなかった。 エンドツーエンドデコーダの設計はしばしば非現実的な結果をもたらす。 一方、中間決定マップの生成は、融合画像のより良い品質を達成するが、経験的後処理パラメータの選択による修正に依存する。 本研究では,出力画像品質の要求と構造実装の包括的単純さの両方を扱うため,エンドツーエンドのトレーニング手順で決定マップと融合結果を同時に生成するカスケードネットワークを提案する。 推論段階における経験的後処理メソッドへの依存を避ける。 融合品質を向上させるため,出力融合画像の勾配情報を保存するための勾配認識損失関数を導入する。 さらに,複数画像融合の応用における時間消費を削減するための決定校正戦略を設計する。 19種類の多焦点画像融合構造と6つの評価指標の比較実験を行った。 その結果,複数の画像融合において,実装効率が30\%以上向上するのに対し,設計した構造は一般的に画像品質を改善できることがわかった。

The general aim of multi-focus image fusion is to gather focused regions of different images to generate a unique all-in-focus fused image. Deep learning based methods become the mainstream of image fusion by virtue of its powerful feature representation ability. However, most of the existing deep learning structures failed to balance fusion quality and end-to-end implementation convenience. End-to-end decoder design often leads to unrealistic result because of its non-linear mapping mechanism. On the other hand, generating an intermediate decision map achieves better quality for the fused image, but relies on the rectification with empirical post-processing parameter choices. In this work, to handle the requirements of both output image quality and comprehensive simplicity of structure implementation, we propose a cascade network to simultaneously generate decision map and fused result with an end-to-end training procedure. It avoids the dependence on empirical post-processing methods in the inference stage. To improve the fusion quality, we introduce a gradient aware loss function to preserve gradient information in output fused image. In addition, we design a decision calibration strategy to decrease the time consumption in the application of multiple images fusion. Extensive experiments are conducted to compare with 19 different state-of-the-art multi-focus image fusion structures with 6 assessment metrics. The results prove that our designed structure can generally ameliorate the output fused image quality, while implementation efficiency increases over 30\% for multiple images fusion.
翻訳日:2022-10-06 11:55:53 公開日:2021-03-23
# secure: 深部画像再構成アルゴリズムの教師なし学習に対する一般的なアプローチ

ENSURE: A General Approach for Unsupervised Training of Deep Image Reconstruction Algorithms ( http://arxiv.org/abs/2010.10631v3 )

ライセンス: Link先を確認
Hemant Kumar Aggarwal, Aniket Pramanik, Mathews Jacob(参考訳) ディープラーニングアルゴリズムを用いた画像再構成は、従来の圧縮センシングやモデルベースアルゴリズムよりも、再構成品質と再構成時間を短縮する。 残念ながら、深層ネットワークを訓練するためにクリーンで完全にサンプリングされた地上データは、しばしばいくつかのアプリケーションでは利用できず、上記の方法の適用性が制限されている。 本研究は,アンサンブル・スタインのunbiased risk estimation(ensure)フレームワークを,完全なサンプル画像やノイズのない画像なしで深部画像再構成アルゴリズムをトレーニングするための一般的なアプローチとして導入する。 提案するフレームワークは,従来のSUREとGSUREの定式化を,画像がランダムに選択された異なる測定演算子によってサンプリングされる設定に一般化するものである。 測定データのみを用いた保証損失関数は,真の平均二乗誤差に対する偏りのない推定であることを示す。 この損失関数でトレーニングされたネットワークは、教師付き設定に匹敵する再構成を提供できることを示す。 MR画像回復の文脈でこのフレームワークを実証するが、ENSUREフレームワークは一般に任意の逆問題に適用できる。

Image reconstruction using deep learning algorithms offers improved reconstruction quality and lower reconstruction time than classical compressed sensing and model-based algorithms. Unfortunately, clean and fully sampled ground-truth data to train the deep networks is often not available in several applications, restricting the applicability of the above methods. This work introduces the ENsemble Stein's Unbiased Risk Estimate (ENSURE) framework as a general approach to train deep image reconstruction algorithms without fully sampled and noise-free images. The proposed framework is the generalization of the classical SURE and GSURE formulation to the setting where the images are sampled by different measurement operators, chosen randomly from a set. We show that the ENSURE loss function, which only uses the measurement data, is an unbiased estimate for the true mean-square error. Our experiments show that the networks trained with this loss function can offer reconstructions comparable to the supervised setting. While we demonstrate this framework in the context of MR image recovery, the ENSURE framework is generally applicable to arbitrary inverse problems.
翻訳日:2022-10-05 05:53:34 公開日:2021-03-23
# 機械学習を用いたベトナム語名に基づく性別予測

Gender Prediction Based on Vietnamese Names with Machine Learning Techniques ( http://arxiv.org/abs/2010.10852v4 )

ライセンス: Link先を確認
Huy Quoc To, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen, Anh Gia-Tuan Nguyen(参考訳) 生物学的ジェンダーは個々の人間を提示する側面の1つであり、人名に基づく性別分類について多くの研究がなされている。 英語と中国語の提案は非常に大きいが、ベトナム語のための作品はほとんど残っていない。 ベトナム語名に基づく性別予測のための新しいデータセットを提案する。 このデータセットは、性別で注釈付けされた26,000以上のフルネームで構成されている。 このデータセットは、我々のウェブサイトで研究目的で利用可能です。 さらに,本論文では,ベトナム語のジェンダー予測に高速テキスト単語を埋め込んだ6つの機械学習アルゴリズム(Support Vector Machine, Multinomial Naive Bayes, Bernoulli Naive Bayes, Decision Tree, Random Forrest and Logistic Regression)と深層学習モデル(LSTM)について述べる。 データセットを作成し、各名前成分が性別検出に与える影響を調査する。 その結果、私たちが達成した最高のF1スコアは、LSTMモデルで最大96%、トレーニングされたモデルに基づいてWeb APIを生成しました。

As biological gender is one of the aspects of presenting individual human, much work has been done on gender classification based on people names. The proposals for English and Chinese languages are tremendous; still, there have been few works done for Vietnamese so far. We propose a new dataset for gender prediction based on Vietnamese names. This dataset comprises over 26,000 full names annotated with genders. This dataset is available on our website for research purposes. In addition, this paper describes six machine learning algorithms (Support Vector Machine, Multinomial Naive Bayes, Bernoulli Naive Bayes, Decision Tree, Random Forrest and Logistic Regression) and a deep learning model (LSTM) with fastText word embedding for gender prediction on Vietnamese names. We create a dataset and investigate the impact of each name component on detecting gender. As a result, the best F1-score that we have achieved is up to 96% on LSTM model and we generate a web API based on our trained model.
翻訳日:2022-10-04 23:51:12 公開日:2021-03-23
# エンティティとリレーション抽出に対するイライラし易いアプローチ

A Frustratingly Easy Approach for Entity and Relation Extraction ( http://arxiv.org/abs/2010.12812v2 )

ライセンス: Link先を確認
Zexuan Zhong and Danqi Chen(参考訳) エンドツーエンドの関係抽出は、名前付きエンティティを特定し、それらの関係を抽出することを目的としている。 最近の作業モデルでは、これら2つのサブタスクを1つの構造化予測フレームワークにキャストするか、共有表現を通じてマルチタスク学習を行うことで共同でモデル化している。 本稿では、エンティティと関係抽出のための単純なパイプライン化アプローチを提案し、標準ベンチマーク(ace04、ace05、scierc)における新しい最先端の手法を確立し、同じプリトレーニングエンコーダを持つ以前のジョイントモデルに対して、関係f1を1.7%-2.8%絶対的に改善する。 このアプローチは基本的に2つの独立したエンコーダ上に構築され、単にエンティティモデルを使用して関係モデルの入力を構築する。 本研究では,エンティティと関係の異なる文脈表現を学習し,関係モデルの初期からエンティティ情報を活用し,グローバルコンテキストを取り入れることの重要性を検証する。 最後に,提案手法では,エンティティと関係エンコーダの一方のパスのみを推論時に必要とし,精度をわずかに下げて8-16$\times$の高速化を実現している。

End-to-end relation extraction aims to identify named entities and extract relations between them. Most recent work models these two subtasks jointly, either by casting them in one structured prediction framework, or performing multi-task learning through shared representations. In this work, we present a simple pipelined approach for entity and relation extraction, and establish the new state-of-the-art on standard benchmarks (ACE04, ACE05 and SciERC), obtaining a 1.7%-2.8% absolute improvement in relation F1 over previous joint models with the same pre-trained encoders. Our approach essentially builds on two independent encoders and merely uses the entity model to construct the input for the relation model. Through a series of careful examinations, we validate the importance of learning distinct contextual representations for entities and relations, fusing entity information early in the relation model, and incorporating global context. Finally, we also present an efficient approximation to our approach which requires only one pass of both entity and relation encoders at inference time, achieving an 8-16$\times$ speedup with a slight reduction in accuracy.
翻訳日:2022-10-03 13:03:34 公開日:2021-03-23
# out-of-distribution detectionのためのマルチスケールスコアマッチング

Multiscale Score Matching for Out-of-Distribution Detection ( http://arxiv.org/abs/2010.13132v3 )

ライセンス: Link先を確認
Ahsan Mahmood, Junier Oliva, Martin Styner(参考訳) 本稿では,複数の雑音尺度におけるスコア推定のノルムを利用して,分布外画像(OOD)の検出手法を提案する。 スコアは、入力データに対するログ密度の勾配として定義される。 我々の方法論は完全に教師なしであり、真っ直ぐ前進訓練スキームに従っています。 まず、ノイズレベルのスコアを推定するために、ディープネットワークをトレーニングする。 訓練後、N分布サンプルの雑音スコア推定値を算出し、入力次元をまたいでL2ノルムを(NxL行列で)取る。 そして、補助モデル(ガウス混合モデルなど)を訓練して、このL次元空間における分布内空間領域を学習する。 この補助モデルは、学習空間の外にある点を特定するのに利用できる。 この手法は,その単純さにもかかわらず,分布外画像の検出における最先端の手法よりも優れていることを示す。 例えば、この方法では、cifar-10 (inlier) とsvhn (ood) のイメージを効果的に分離することができる。

We present a new methodology for detecting out-of-distribution (OOD) images by utilizing norms of the score estimates at multiple noise scales. A score is defined to be the gradient of the log density with respect to the input data. Our methodology is completely unsupervised and follows a straight forward training scheme. First, we train a deep network to estimate scores for levels of noise. Once trained, we calculate the noisy score estimates for N in-distribution samples and take the L2-norms across the input dimensions (resulting in an NxL matrix). Then we train an auxiliary model (such as a Gaussian Mixture Model) to learn the in-distribution spatial regions in this L-dimensional space. This auxiliary model can now be used to identify points that reside outside the learned space. Despite its simplicity, our experiments show that this methodology significantly outperforms the state-of-the-art in detecting out-of-distribution images. For example, our method can effectively separate CIFAR-10 (inlier) and SVHN (OOD) images, a setting which has been previously shown to be difficult for deep likelihood models.
翻訳日:2022-10-03 04:59:18 公開日:2021-03-23
# 非線形二時間スケール確率近似:収束と有限時間性能

Nonlinear Two-Time-Scale Stochastic Approximation: Convergence and Finite-Time Performance ( http://arxiv.org/abs/2011.01868v3 )

ライセンス: Link先を確認
Thinh T. Doan(参考訳) 一般的な確率近似の一般化版である2-time-scale stochastic approximationは、確率制御、最適化、機械学習など、多くの分野で広く応用されている。 その人気にもかかわらず、この手法の理論的保証、特に有限時間性能は、線形の場合において主に達成されるが、非線形の場合の結果は非常に少ない。 特異摂動系の古典的な制御理論に動機づけられ,非線形2時間スケール確率近似の漸近収束と有限時間解析を行った。 いくつかのかなり標準的な仮定の下で、主イテレートの所望の解への収束率を特徴づける公式を提供する。 特に、この手法が期待値の収束を$\mathcal{O}(1/k^{2/3})$で達成することを示し、$k$は反復数である。 分析の鍵となるアイデアは、2つのステップサイズを適切に選択し、高速かつ遅い時間スケールのイテレート間の結合を特徴付けることです。

Two-time-scale stochastic approximation, a generalized version of the popular stochastic approximation, has found broad applications in many areas including stochastic control, optimization, and machine learning. Despite its popularity, theoretical guarantees of this method, especially its finite-time performance, are mostly achieved for the linear case while the results for the nonlinear counterpart are very sparse. Motivated by the classic control theory for singularly perturbed systems, we study in this paper the asymptotic convergence and finite-time analysis of the nonlinear two-time-scale stochastic approximation. Under some fairly standard assumptions, we provide a formula that characterizes the rate of convergence of the main iterates to the desired solutions. In particular, we show that the method achieves a convergence in expectation at a rate $\mathcal{O}(1/k^{2/3})$, where $k$ is the number of iterations. The key idea in our analysis is to properly choose the two step sizes to characterize the coupling between the fast and slow-time-scale iterates.
翻訳日:2022-09-30 06:29:31 公開日:2021-03-23
# 膵癌におけるボクセル内非コヒーレント運動モデリングのための非教師なし物理型深層学習の改良と評価

Improved unsupervised physics-informed deep learning for intravoxel incoherent motion modeling and evaluation in pancreatic cancer patients ( http://arxiv.org/abs/2011.01689v2 )

ライセンス: Link先を確認
Misha P.T. Kaandorp, Sebastiano Barbieri, Remy Klaassen, Hanneke W.M. van Laarhoven, Hans Crezee, Peter T. While, Aart J. Nederveen, Oliver J. Gurney-Champion(参考訳) ${\bf Purpose}$: 以前の研究は、教師なしの物理インフォームドディープニューラルネットワークであるIVIM-NET$_{orig}$が、DWIに適合する他の最先端のボクセルインコヒーレントモーション(IVIM)よりも正確であることを示した。 本研究は,IVIM-NET$_{optim}$を改良し,膵管腺癌(PDAC)患者において優れた成績を示した。 ${\bf method}$: シミュレーション (snr=20) において、ivim-net の精度、独立性、一貫性を、nrmse, spearman's $\rho$, and the coefficient of variation (cv$_{net}$) の計算により、ハイパーパラメータ (fit s0, constraints, network architecture, # hidden layers, dropout, batch normalization, learning rate) の組み合わせで評価した。 最高のパフォーマンスネットワークであるIVIM-NET$_{optim}$は、最小二乗(LS)とベイズ的アプローチを異なるSNRで比較した。 PDAC患者23名を対象にIVIM-NET$_{optim}$のパフォーマンスを評価した。 14例はシンクログラフィー療法を施行せず,9例は放射線療法を施行した。 介入型標準偏差(wSD)と治療誘発変化を評価した。 シミュレーションでは、ivim-net$_{optim}$がivim-net$_{orig}$ in accuracy (nrmse(d)=0.18 vs 0.20; nmrse(f)=0.22 vs 0.27; nmrse(d*)=0.39 vs 0.39; independence (\rho$(d*,f)=0.22 vs 0.74) and consistency (cv$_{net}$ (d)=0.01; cv$_{net}$ (f)=0.02 vs 0.05; cv$_{net}$ (d*)=0.04 vs 0.11)である。 IVIM-NET$_{optim}$はSNRs<50。 in vivo では、ivim-net$_{optim}$ sshow は d と f の wsd が d と f の値が低いほどノイズの少ないパラメータマップを示した。 治療コホートでは,IVIM-NET$_{optim}$が,日常の変動に比べて有意なパラメータ変化を示した。 ${\bf Conclusion}$: IVIM-NET$_{optim}$は、DWIデータに適合するIVIMに対して推奨される。

${\bf Purpose}$: Earlier work showed that IVIM-NET$_{orig}$, an unsupervised physics-informed deep neural network, was more accurate than other state-of-the-art intravoxel-incoherent motion (IVIM) fitting approaches to DWI. This study presents an improved version: IVIM-NET$_{optim}$, and characterizes its superior performance in pancreatic ductal adenocarcinoma (PDAC) patients. ${\bf Method}$: In simulations (SNR=20), the accuracy, independence and consistency of IVIM-NET were evaluated for combinations of hyperparameters (fit S0, constraints, network architecture, # hidden layers, dropout, batch normalization, learning rate), by calculating the NRMSE, Spearman's $\rho$, and the coefficient of variation (CV$_{NET}$), respectively. The best performing network, IVIM-NET$_{optim}$ was compared to least squares (LS) and a Bayesian approach at different SNRs. IVIM-NET$_{optim}$'s performance was evaluated in 23 PDAC patients. 14 of the patients received no treatment between scan sessions and 9 received chemoradiotherapy between sessions. Intersession within-subject standard deviations (wSD) and treatment-induced changes were assessed. ${\bf Results}$: In simulations, IVIM-NET$_{optim}$ outperformed IVIM-NET$_{orig}$ in accuracy (NRMSE(D)=0.18 vs 0.20; NMRSE(f)=0.22 vs 0.27; NMRSE(D*)=0.39 vs 0.39), independence ($\rho$(D*,f)=0.22 vs 0.74) and consistency (CV$_{NET}$ (D)=0.01 vs 0.10; CV$_{NET}$ (f)=0.02 vs 0.05; CV$_{NET}$ (D*)=0.04 vs 0.11). IVIM-NET$_{optim}$ showed superior performance to the LS and Bayesian approaches at SNRs<50. In vivo, IVIM-NET$_{optim}$ sshowed significantly less noisy parameter maps with lower wSD for D and f than the alternatives. In the treated cohort, IVIM-NET$_{optim}$ detected the most individual patients with significant parameter changes compared to day-to-day variations. ${\bf Conclusion}$: IVIM-NET$_{optim}$ is recommended for IVIM fitting to DWI data.
翻訳日:2022-09-30 06:23:36 公開日:2021-03-23
# ROBIN:不変量を用いたロバスト推定における外乱除去法

ROBIN: a Graph-Theoretic Approach to Reject Outliers in Robust Estimation using Invariants ( http://arxiv.org/abs/2011.03659v2 )

ライセンス: Link先を確認
Jingnan Shi, Heng Yang, Luca Carlone(参考訳) ロボット工学、コンピュータビジョン、学習における多くの推定問題は、外れ値の面において未知量の推定を必要とする。 外れ値は通常、不正確なデータアソシエーションや特徴マッチングの結果であり、見積もりに使用される測定値の90%以上が外れ値であるような問題が発生することが多い。 現在のロバストな見積もりのアプローチは、適度な量の外れ値に対処できるが、多くの外れ値が存在する場合に正確な見積もりを生成することができない。 本稿では,prune outliers へのアプローチについて述べる。 まず, 推定問題を明示的に解くことなく, 測定のサブセットが相互に互換性があるかどうかを迅速に確認できる不変性の理論を考案する。 第2に,測定値を頂点としてモデル化し,相互互換性をエッジで捉えるグラフ理論フレームワークを開発した。 既存の結果を一般化し、このグラフでイリアーがクランクを形成し、典型的には最大クランクに属することを示す。 また,互換性グラフの最大kコアは,大規模問題での計算が高速であると同時に,最大クランクの近似も可能であることを示す。 この2つのコントリビューションは、Invariantsに基づくReject OutliersアプローチであるRobINにつながります。 本研究では, 4 つの幾何学的知覚問題において ROBIN を実証し, 大きな問題においてミリ秒で実行しながら, 既存の解法の堅牢性を高めることを示す。

Many estimation problems in robotics, computer vision, and learning require estimating unknown quantities in the face of outliers. Outliers are typically the result of incorrect data association or feature matching, and it is common to have problems where more than 90% of the measurements used for estimation are outliers. While current approaches for robust estimation are able to deal with moderate amounts of outliers, they fail to produce accurate estimates in the presence of many outliers. This paper develops an approach to prune outliers. First, we develop a theory of invariance that allows us to quickly check if a subset of measurements are mutually compatible without explicitly solving the estimation problem. Second, we develop a graph-theoretic framework, where measurements are modeled as vertices and mutual compatibility is captured by edges. We generalize existing results showing that the inliers form a clique in this graph and typically belong to the maximum clique. We also show that in practice the maximum k-core of the compatibility graph provides an approximation of the maximum clique, while being faster to compute in large problems. These two contributions leads to ROBIN, our approach to Reject Outliers Based on INvariants, which allows us to quickly prune outliers in generic estimation problems. We demonstrate ROBIN in four geometric perception problems and show it boosts robustness of existing solvers while running in milliseconds in large problems.
翻訳日:2022-09-28 22:41:42 公開日:2021-03-23
# ガウス過程に基づく入力効果とダイナミクスの不確実性を有する制御アフィン系のミンノルム安定化制御

Gaussian Process-based Min-norm Stabilizing Controller for Control-Affine Systems with Uncertain Input Effects and Dynamics ( http://arxiv.org/abs/2011.07183v2 )

ライセンス: Link先を確認
Fernando Casta\~neda, Jason J. Choi, Bike Zhang, Claire J. Tomlin and Koushil Sreenath(参考訳) 本稿では,ガウス過程(GP)回帰を用いた制御アフィン系に対する最小制御リアプノフ関数(CLF)に基づく安定化制御系の設計法を提案する。 状態と入力依存モデルの両方の不確かさを推定するために,問題の制御-アフィン特性を捉えた新しい複合カーネルを提案する。 さらに、GP上信頼境界解析を用いることで、回帰誤差の確率的境界を提供し、最小ノルム最適化問題に組み込むことができるCLFベースの安定確率制約を定式化する。 この最適化問題は凸であり,ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム (GP-CLF-SOCP) と呼ぶ。 データ収集プロセスとGP回帰モデルのトレーニングは,エピソード学習方式で行う。 倒立振り子とキネマティックサイクリングモデルの数値シミュレーションにおいて,提案するアルゴリズムと制御器を検証し,実際のプラントダイナミクスを知っていれば得られるものと非常に類似した安定な軌道を導出する。

This paper presents a method to design a min-norm Control Lyapunov Function (CLF)-based stabilizing controller for a control-affine system with uncertain dynamics using Gaussian Process (GP) regression. In order to estimate both state and input-dependent model uncertainty, we propose a novel compound kernel that captures the control-affine nature of the problem. Furthermore, by the use of GP Upper Confidence Bound analysis, we provide probabilistic bounds of the regression error, leading to the formulation of a CLF-based stability chance constraint which can be incorporated in a min-norm optimization problem. We show that this resulting optimization problem is convex, and we call it Gaussian Process-based Control Lyapunov Function Second-Order Cone Program (GP-CLF-SOCP). The data-collection process and the training of the GP regression model are carried out in an episodic learning fashion. We validate the proposed algorithm and controller in numerical simulations of an inverted pendulum and a kinematic bicycle model, resulting in stable trajectories which are very similar to the ones obtained if we actually knew the true plant dynamics.
翻訳日:2022-09-25 14:08:47 公開日:2021-03-23
# ヒューマンインタラクション理解のための一貫性を意識したグラフネットワーク

Consistency-Aware Graph Network for Human Interaction Understanding ( http://arxiv.org/abs/2011.10250v3 )

ライセンス: Link先を確認
Zhenhua Wang, Jiajun Meng, Dongyan Guo, Jianhua Zhang, Javen Qinfeng Shi, Shengyong Chen(参考訳) ヒトの行動分類の進歩と比較すると、ヒトの相互作用理解(HIU)において成功ははるかに少ない。 後者のタスクは、はるかに難しいが、近年のアプローチでは、人間の相互作用をモデル化するのに不十分な浅いグラフィカルモデルを通して人間の対話関係を学習している。 本稿では,hiuタスクを容易にするために,グラフネットワークの代表的能力と一貫性を意識した推論を組み合わせる,一貫性を意識したグラフネットワークを提案する。 我々のネットワークは,画像の特徴を抽出するバックボーンCNN,参加者間の3階対話関係を学習する因子グラフネットワーク,ラベリングとグループ化を強制する一貫性を考慮した推論モジュールからなる。 我々の重要な観察は、HIUの整合性認識バイアスをエネルギー関数に埋め込むことができ、一貫した予測を最小化できるということである。 ネットワークの全てのモジュールをエンドツーエンドで協調的に訓練できるように,効率的な平均場推論アルゴリズムを提案する。 実験の結果,本手法は3つのベンチマークで有意な性能を得た。

Compared with the progress made on human activity classification, much less success has been achieved on human interaction understanding (HIU). Apart from the latter task is much more challenging, the main cause is that recent approaches learn human interactive relations via shallow graphical models, which is inadequate to model complicated human interactions. In this paper, we propose a consistency-aware graph network, which combines the representative ability of graph network and the consistency-aware reasoning to facilitate the HIU task. Our network consists of three components, a backbone CNN to extract image features, a factor graph network to learn third-order interactive relations among participants, and a consistency-aware reasoning module to enforce labeling and grouping consistencies. Our key observation is that the consistency-aware-reasoning bias for HIU can be embedded into an energy function, minimizing which delivers consistent predictions. An efficient mean-field inference algorithm is proposed, such that all modules of our network could be trained jointly in an end-to-end manner. Experimental results show that our approach achieves leading performance on three benchmarks.
翻訳日:2022-09-23 05:57:27 公開日:2021-03-23
# 視覚知覚における心の眼の選択性と競合

The Selectivity and Competition of the Mind's Eye in Visual Perception ( http://arxiv.org/abs/2011.11167v2 )

ライセンス: Link先を確認
Edward Kim, Maryam Daniali, Jocelyn Rego, Garrett T. Kenyon(参考訳) 研究によると、脳内のニューロンは特定の刺激に対して選択的である。 例えば、ファシフォーム・フェイス・エリア(FFA)は神経科学者によって、顔以外の物体で顔を見たときに選択的に活性化することが知られている。 しかし、一次視覚系が正しい脳の上位レベルに情報を誘導するメカニズムは現在不明である。 本研究では,階層的競争の形で横およびトップダウンのフィードバックを組み込んだ新しい計算モデルを構築し,複数の高レベルな知覚神経機構を模倣した。 これらの要素が脳内の高レベル領域の情報フローと選択性を説明するのに役立つだけでなく、これらの神経機構がコンピュータビジョンにおける従来の教師あり学習に匹敵する新しい分類枠組みの基礎となることも示している。 さらに, 定量的・定性的な結果から, 生成枠組みが神経学的テーマと一致し, 単純かつロバストな分類が可能となることを示す。

Research has shown that neurons within the brain are selective to certain stimuli. For example, the fusiform face area (FFA) region is known by neuroscientists to selectively activate when people see faces over non-face objects. However, the mechanisms by which the primary visual system directs information to the correct higher levels of the brain are currently unknown. In our work, we mimic several high-level neural mechanisms of perception by creating a novel computational model that incorporates lateral and top down feedback in the form of hierarchical competition. Not only do we show that these elements can help explain the information flow and selectivity of high level areas within the brain, we also demonstrate that these neural mechanisms provide the foundation of a novel classification framework that rivals traditional supervised learning in computer vision. Additionally, we present both quantitative and qualitative results that demonstrate that our generative framework is consistent with neurological themes and enables simple, yet robust category level classification.
翻訳日:2022-09-22 02:10:48 公開日:2021-03-23
# 座標に基づく神経表現の最適化のための学習初期化

Learned Initializations for Optimizing Coordinate-Based Neural Representations ( http://arxiv.org/abs/2012.02189v2 )

ライセンス: Link先を確認
Matthew Tancik, Ben Mildenhall, Terrance Wang, Divi Schmidt, Pratul P. Srinivasan, Jonathan T. Barron, Ren Ng(参考訳) 座標に基づく神経表現は、複雑な低次元信号に対する離散的な配列に基づく表現の代替として大きな期待が持たれている。 しかし、新しい信号ごとにランダムに初期化された重みから座標ネットワークを最適化するのは非効率である。 提案するメタラーニングアルゴリズムは,表現される信号の下位クラス(例えば,顔の画像や椅子の3次元モデル)に基づいて,これらの完全接続ネットワークの初期重みパラメータを学習する。 実装の小さな変更しか必要としないが、学習された初期重みを用いることで、最適化中により高速な収束が可能になり、モデル化される信号クラスよりも強力なプリエンスとして機能し、与えられた信号の部分的な観測のみが可能な場合の一般化が向上する。 2次元画像の表現、ctスキャンの再構成、および2次元画像からの3次元形状とシーンの復元など、さまざまなタスクでこれらの利点を探求する。

Coordinate-based neural representations have shown significant promise as an alternative to discrete, array-based representations for complex low dimensional signals. However, optimizing a coordinate-based network from randomly initialized weights for each new signal is inefficient. We propose applying standard meta-learning algorithms to learn the initial weight parameters for these fully-connected networks based on the underlying class of signals being represented (e.g., images of faces or 3D models of chairs). Despite requiring only a minor change in implementation, using these learned initial weights enables faster convergence during optimization and can serve as a strong prior over the signal class being modeled, resulting in better generalization when only partial observations of a given signal are available. We explore these benefits across a variety of tasks, including representing 2D images, reconstructing CT scans, and recovering 3D shapes and scenes from 2D image observations.
翻訳日:2021-05-23 14:51:44 公開日:2021-03-23
# 全スケールでのパノプティカルセグメンテーションの改善

Improving Panoptic Segmentation at All Scales ( http://arxiv.org/abs/2012.07717v2 )

ライセンス: Link先を確認
Lorenzo Porzi, Samuel Rota Bul\`o, Peter Kontschieder(参考訳) クロップベースのトレーニング戦略は、トレーニング解決をGPUメモリ消費から切り離し、マルチメガピクセルイメージに大容量の汎光学セグメントネットワークを使用できる。 しかし、作物を使うことは大きな物体の切り離しや欠落にバイアスをもたらす可能性がある。 そこで本研究では,作物の外側に延ばすために過剰にペナルティを与えることなく,切り取られた物体の目に見える部分と一致した予測を促進させる新しい作物認識バウンディングボックスレグレッションロス(cabbロス)を提案する。 さらに,オブジェクトサイズの不均衡な分布に対抗して,スケール全体の一般化を改善する新しいデータサンプリング・拡張戦略も導入する。 これら2つの貢献と、慎重に設計されたトップダウンのパンオプティカルセグメンテーションアーキテクチャを組み合わせることで、従来のmvdのアプローチを+4.5%pqと+5.2%のmapで上回る、挑戦的なmapillary vistas(mvd)、インドの運転および都市景観データセットに関する最新の結果が得られる。

Crop-based training strategies decouple training resolution from GPU memory consumption, allowing the use of large-capacity panoptic segmentation networks on multi-megapixel images. Using crops, however, can introduce a bias towards truncating or missing large objects. To address this, we propose a novel crop-aware bounding box regression loss (CABB loss), which promotes predictions to be consistent with the visible parts of the cropped objects, while not over-penalizing them for extending outside of the crop. We further introduce a novel data sampling and augmentation strategy which improves generalization across scales by counteracting the imbalanced distribution of object sizes. Combining these two contributions with a carefully designed, top-down panoptic segmentation architecture, we obtain new state-of-the-art results on the challenging Mapillary Vistas (MVD), Indian Driving and Cityscapes datasets, surpassing the previously best approach on MVD by +4.5% PQ and +5.2% mAP.
翻訳日:2021-05-08 14:28:19 公開日:2021-03-23
# (参考訳) CSKG: CommonSenseの知識グラフ

CSKG: The CommonSense Knowledge Graph ( http://arxiv.org/abs/2012.11490v2 )

ライセンス: CC BY 4.0
Filip Ilievski, Pedro Szekely, Bin Zhang(参考訳) 常識知識の源泉は、自然言語理解、コンピュータビジョン、知識グラフの応用を支援する。 相補性を考えると、統合が望まれる。 しかし、それらの異なる焦点、モデリングアプローチ、スパースオーバーラップは統合を困難にする。 本稿では,コモンセンス知識を5つの原則に従って統合し,第1統合コモンセンス知識グラフ(CSKG)に7つのキーソースを組み合わせる。 我々はCSKGとその各種テキストおよびグラフ埋め込みを分析し、CSKGが十分に接続されており、その埋め込みがグラフへの有用なエントリポイントを提供することを示す。 CSKGは、一般化可能な下流推論と言語モデルの事前学習のための証拠を提供する。 CSKGとその埋め込みは、コモンセンス知識の統合と推論に関するさらなる研究を支援するために公開されている。

Sources of commonsense knowledge support applications in natural language understanding, computer vision, and knowledge graphs. Given their complementarity, their integration is desired. Yet, their different foci, modeling approaches, and sparse overlap make integration difficult. In this paper, we consolidate commonsense knowledge by following five principles, which we apply to combine seven key sources into a first integrated CommonSense Knowledge Graph (CSKG). We analyze CSKG and its various text and graph embeddings, showing that CSKG is well-connected and that its embeddings provide a useful entry point to the graph. We demonstrate how CSKG can provide evidence for generalizable downstream reasoning and for pre-training of language models. CSKG and all its embeddings are made publicly available to support further research on commonsense knowledge integration and reasoning.
翻訳日:2021-04-27 11:38:53 公開日:2021-03-23
# 行動単位検出と特徴集約による目的クラスに基づくマイクロ圧縮認識

Objective Class-based Micro-Expression Recognition through Simultaneous Action Unit Detection and Feature Aggregation ( http://arxiv.org/abs/2012.13148v2 )

ライセンス: Link先を確認
Ling Zhou, Qirong Mao, Ming Dong(参考訳) 顔の異なる動作領域で微妙な変化が起こるため、マイクロ表現認識(mer)は難しい課題である。 顔のアクション領域の変化はアクションユニット(AU)として形成され、マイクロ表現におけるAUは協調グループ活動におけるアクターとして見ることができる。 本稿では,auレベルの特徴を同時に検出し,グラフ畳み込みネットワーク(gcn)によるマイクロ表現レベル表現に集約する,客観的クラスベースmerのための深層ニューラルネットワークモデルを提案する。 具体的には,より効果的なau特徴学習のためのau検出モジュールにおいて,注意機構とバランスド検出損失関数という2つの新しい戦略を提案する。 これら2つの戦略により、すべてのauを統一したモデルで学習し、エラー検出プロセスと各auに対する退屈な分離トレーニングを排除する。 さらに,本モデルでは,GCNがAUレベルの特徴をマイクロ圧縮レベルの特徴表現に集約しやすくする目的クラスベースAUナレッジグラフを組み込んでいる。 MEGC 2018における2つのタスクに関する大規模な実験は、我々のアプローチがMERの最先端技術よりも大幅に優れていることを示している。 さらに, 単一モデルによるau検出結果についても報告する。

Micro-Expression Recognition (MER) is a challenging task as the subtle changes occur over different action regions of a face. Changes in facial action regions are formed as Action Units (AUs), and AUs in micro-expressions can be seen as the actors in cooperative group activities. In this paper, we propose a novel deep neural network model for objective class-based MER, which simultaneously detects AUs and aggregates AU-level features into micro-expression-level representation through Graph Convolutional Networks (GCN). Specifically, we propose two new strategies in our AU detection module for more effective AU feature learning: the attention mechanism and the balanced detection loss function. With those two strategies, features are learned for all the AUs in a unified model, eliminating the error-prune landmark detection process and tedious separate training for each AU. Moreover, our model incorporates a tailored objective class-based AU knowledge-graph, which facilitates the GCN to aggregate the AU-level features into a micro-expression-level feature representation. Extensive experiments on two tasks in MEGC 2018 show that our approach significantly outperforms the current state-of-the-arts in MER. Additionally, we also report our single model-based micro-expression AU detection results.
翻訳日:2021-04-25 08:15:29 公開日:2021-03-23
# 多目的コンフリクトに基づくマルチエージェント経路探索

Multi-objective Conflict-based Search for Multi-agent Path Finding ( http://arxiv.org/abs/2101.03805v2 )

ライセンス: Link先を確認
Zhongqiang Ren, Sivakumar Rathinam and Howie Choset(参考訳) 従来のマルチエージェントパスプランナーは通常、経路長のような単一の目的を最適化しながら経路のアンサンブルを計算する。 しかし、多くのアプリケーションでは、燃料消費や完了時間といった複数の目的を計画中に同時に最適化する必要があり、これらの基準は容易に比較されず、時には互いに競合することもある。 既存の多目的探索アルゴリズムをマルチエージェントパス探索に適用することは、可能解の空間のサイズ、すなわちパレート最適集合がエージェントの数(探索空間の次元)とともに指数関数的に増加するため、非効率であることが証明される。 本稿では,多目的コンフリクトベースサーチ(mo-cbs)という手法を提案する。これは,先行的コンフリクトベースサーチ(cbs),単一目的マルチエージェントパス探索のためのよく知られたアルゴリズム,多目的最適化文献からの優位性の原則を利用して,このいわゆる次元の呪いを回避している。 我々はMO-CBSがパレート最適集合全体を計算できることを証明する。 以上の結果から,MO-CBS は標準多目的 A* アルゴリズムが有界時間内に見つからない数百のパレート最適解の問題を解くことができることがわかった。

Conventional multi-agent path planners typically compute an ensemble of paths while optimizing a single objective, such as path length. However, many applications may require multiple objectives, say fuel consumption and completion time, to be simultaneously optimized during planning and these criteria may not be readily compared and sometimes lie in competition with each other. Naively applying existing multi-objective search algorithms to multi-agent path finding may prove to be inefficient as the size of the space of possible solutions, i.e., the Pareto-optimal set, can grow exponentially with the number of agents (the dimension of the search space). This article presents an approach named Multi-objective Conflict-based Search (MO-CBS) that bypasses this so-called curse of dimensionality by leveraging prior Conflict-based Search (CBS), a well-known algorithm for single-objective multi-agent path finding, and principles of dominance from multi-objective optimization literature. We prove that MO-CBS is able to compute the entire Pareto-optimal set. Our results show that MO-CBS can solve problem instances with hundreds of Pareto-optimal solutions which the standard multi-objective A* algorithms could not find within a bounded time.
翻訳日:2021-04-04 14:34:00 公開日:2021-03-23
# 階層的幅型計画と学習

Hierarchical Width-Based Planning and Learning ( http://arxiv.org/abs/2101.06177v2 )

ライセンス: Link先を確認
Miquel Junyent, Vicen\c{c} G\'omez, Anders Jonsson(参考訳) 幅ベースの検索手法は、古典的な計画問題からatariゲームのようなイメージベースのシミュレータまで、幅広いテストベッドで最先端のパフォーマンスを示している。 これらの方法は状態空間の大きさとは独立にスケールするが、問題幅は指数関数的に大きくなる。 実際には、1より大きい幅でアルゴリズムを実行するのは計算が難しいため、iwは高い幅の問題を解決することができない。 本稿では,2段階の抽象化を計画する階層型アルゴリズムを提案する。 ハイレベルプランナーは、低レベルのプルーニング決定から徐々に発見される抽象的な機能を使用する。 我々は,このアルゴリズムを従来のプランニングpddlドメインとピクセルベースのシミュレータドメインで示す。 古典的な計画では、2つの抽象レベルでiw(1)がどのように幅2の問題を解決するかを示す。 画素ベースのドメインでは、学習ポリシーと学習価値関数を組み合わせることで、提案した階層型IWが、アタリゲームにおける現在のフラットIWベースのプランナーを、少ない報酬で上回ることを示す。

Width-based search methods have demonstrated state-of-the-art performance in a wide range of testbeds, from classical planning problems to image-based simulators such as Atari games. These methods scale independently of the size of the state-space, but exponentially in the problem width. In practice, running the algorithm with a width larger than 1 is computationally intractable, prohibiting IW from solving higher width problems. In this paper, we present a hierarchical algorithm that plans at two levels of abstraction. A high-level planner uses abstract features that are incrementally discovered from low-level pruning decisions. We illustrate this algorithm in classical planning PDDL domains as well as in pixel-based simulator domains. In classical planning, we show how IW(1) at two levels of abstraction can solve problems of width 2. For pixel-based domains, we show how in combination with a learned policy and a learned value function, the proposed hierarchical IW can outperform current flat IW-based planners in Atari games with sparse rewards.
翻訳日:2021-03-28 11:20:52 公開日:2021-03-23
# ベイジアンネットワーク構造学習のあらゆる部分

Any Part of Bayesian Network Structure Learning ( http://arxiv.org/abs/2103.13810v1 )

ライセンス: Link先を確認
Zhaolong Ling, Kui Yu, Hao Wang, Lin Liu, and Jiuyong Li(参考訳) ベイズネットワーク(BN)構造の一部を学習し、興味深く挑戦的な問題を研究する。 この課題では、既存のグローバルBN構造学習アルゴリズムを用いて、関心のあるBN構造の一部を達成するためにBN構造全体の探索を行う。 そして、ローカルBN構造学習アルゴリズムは、この課題に対処するために直接使用される際に、偽エッジ指向問題に遭遇する。 本稿では,まず,局所的なBN構造学習手法がなぜ疑似エッジ指向問題を持つのかを説明するために,拡張-バックトラックという新しい概念を提案し,その上で,効率よく正確なBN構造学習アルゴリズムであるAPSLを提案する。 具体的には、apslはv-構造をマーカフブランケット(mb)のv-構造と非コリダーv-構造に分割し、次にv-構造が興味のあるノードから始まり、衝突型v-構造と非コリダー型v-構造の両方を、我々が関心を持つbn構造の一部が向き付けられるまで再帰的に発見する。 我々はAPSLの効率を改善するために,特徴選択を用いたAPSL-FSアルゴリズム,APSL-FSを設計する。 6つのベンチマークBNを用いて,提案手法の有効性と精度を検証した。

We study an interesting and challenging problem, learning any part of a Bayesian network (BN) structure. In this challenge, it will be computationally inefficient using existing global BN structure learning algorithms to find an entire BN structure to achieve the part of a BN structure in which we are interested. And local BN structure learning algorithms encounter the false edge orientation problem when they are directly used to tackle this challenging problem. In this paper, we first present a new concept of Expand-Backtracking to explain why local BN structure learning methods have the false edge orientation problem, then propose APSL, an efficient and accurate Any Part of BN Structure Learning algorithm. Specifically, APSL divides the V-structures in a Markov blanket (MB) into two types: collider V-structure and non-collider V-structure, then it starts from a node of interest and recursively finds both collider V-structures and non-collider V-structures in the found MBs, until the part of a BN structure in which we are interested are oriented. To improve the efficiency of APSL, we further design the APSL-FS algorithm using Feature Selection, APSL-FS. Using six benchmark BNs, the extensive experiments have validated the efficiency and accuracy of our methods.
翻訳日:2021-03-26 13:57:31 公開日:2021-03-23
# 逆学習によるロバスト・高精度物体検出

Robust and Accurate Object Detection via Adversarial Learning ( http://arxiv.org/abs/2103.13886v1 )

ライセンス: Link先を確認
Xiangning Chen, Cihang Xie, Mingxing Tan, Li Zhang, Cho-Jui Hsieh, Boqing Gong(参考訳) データ拡張は、ハイパフォーマンスなディープイメージ分類器をトレーニングするためのデファクトコンポーネントになっているが、オブジェクト検出には未検討である。 多くの最先端のオブジェクト検出器は、事前訓練された分類器を微調整することで恩恵を受けることに注意し、まず、様々なデータ拡張転送からオブジェクト検出への分類器の利得について検討する。 結果は抑えられ、精度または堅牢性の観点から微調整すると利得は減少する。 この研究は、モデル依存のデータ拡張と見なすことができる敵の例を探索することで、オブジェクト検出器の微調整段階を補強する。 本手法は,検出器の分類と位置化枝から得られる強い対向画像を動的に選択し,検出器とともに進化させ,拡張ポリシーの現在および関連性を維持する。 このモデル依存の強化は、特定の検出器に基づいて探索されるモデル非依存の拡張ポリシーであるautoaugmentよりも、異なるオブジェクト検出器に一般化する。 提案手法は,COCOオブジェクト検出ベンチマークにおいて,最先端のEfficientDetsの性能を+1.1mAP向上させる。 また、検出器の自然な歪みに対する堅牢性は+3.8 mAP、ドメインシフトに対する+1.3 mAP向上する。

Data augmentation has become a de facto component for training high-performance deep image classifiers, but its potential is under-explored for object detection. Noting that most state-of-the-art object detectors benefit from fine-tuning a pre-trained classifier, we first study how the classifiers' gains from various data augmentations transfer to object detection. The results are discouraging; the gains diminish after fine-tuning in terms of either accuracy or robustness. This work instead augments the fine-tuning stage for object detectors by exploring adversarial examples, which can be viewed as a model-dependent data augmentation. Our method dynamically selects the stronger adversarial images sourced from a detector's classification and localization branches and evolves with the detector to ensure the augmentation policy stays current and relevant. This model-dependent augmentation generalizes to different object detectors better than AutoAugment, a model-agnostic augmentation policy searched based on one particular detector. Our approach boosts the performance of state-of-the-art EfficientDets by +1.1 mAP on the COCO object detection benchmark. It also improves the detectors' robustness against natural distortions by +3.8 mAP and against domain shift by +1.3 mAP.
翻訳日:2021-03-26 13:49:28 公開日:2021-03-23
# 進化的知識蒸留による学生ネットワーク学習

Student Network Learning via Evolutionary Knowledge Distillation ( http://arxiv.org/abs/2103.13811v1 )

ライセンス: Link先を確認
Kangkai Zhang, Chunhui Zhang, Shikun Li, Dan Zeng, Shiming Ge(参考訳) 知識蒸留は、教師-学生学習を通じて知識を伝達する効果的な方法を提供し、既存の蒸留アプローチのほとんどは、教師として一定の事前学習モデルを適用して学生ネットワークの学習を監督する。 この方法は通常、学習中に教師と学生のネットワークの間に大きなギャップをもたらす。 近年の研究では、教師と学生の能力格差が知識伝達を促進することが報告されている。 そこで我々は,教師の知識の伝達効率を向上させるために,進化的知識蒸留手法を提案する。 進化的教師は、固定された予習教師の代わりにオンラインで学習され、学生ネットワーク学習を監督するために、中間的知識を継続的に伝達する。 中間知識表現と模倣を強化するため、教師-学生ブロック間でいくつかの簡単なガイド付きモジュールが導入された。 このようにして、学生は豊富な内部知識を同時に獲得し、その成長過程を捉え、効果的なネットワーク学習につながる。 広汎な実験により、低解像度・少数サンプルの視覚認識シナリオにおいて、我々のアプローチの有効性と適応性が明らかとなった。

Knowledge distillation provides an effective way to transfer knowledge via teacher-student learning, where most existing distillation approaches apply a fixed pre-trained model as teacher to supervise the learning of student network. This manner usually brings in a big capability gap between teacher and student networks during learning. Recent researches have observed that a small teacher-student capability gap can facilitate knowledge transfer. Inspired by that, we propose an evolutionary knowledge distillation approach to improve the transfer effectiveness of teacher knowledge. Instead of a fixed pre-trained teacher, an evolutionary teacher is learned online and consistently transfers intermediate knowledge to supervise student network learning on-the-fly. To enhance intermediate knowledge representation and mimicking, several simple guided modules are introduced between corresponding teacher-student blocks. In this way, the student can simultaneously obtain rich internal knowledge and capture its growth process, leading to effective student network learning. Extensive experiments clearly demonstrate the effectiveness of our approach as well as good adaptability in the low-resolution and few-sample visual recognition scenarios.
翻訳日:2021-03-26 13:32:33 公開日:2021-03-23
# リフレーミング需要予測--間欠需要と間欠需要の2倍のアプローチ

Reframing demand forecasting: a two-fold approach for lumpy and intermittent demand ( http://arxiv.org/abs/2103.13812v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec, Dunja Mladeni\'c(参考訳) 需要予測は需要管理の重要な要素である。 予測の地平線を短くすることで、より最近のデータと不確実性が少なくなりますが、これはしばしば、データ集約レベルを低くし、より重要なデータスパリティを意味します。 スパース需要データは通常、スパースと不規則な需要間隔を持つ欠如または断続的な需要パターンをもたらす。 統計モデルと機械学習モデルでは、このようなシナリオでは良い予測が得られない。 本研究は,需要発生予測と需要規模推定の2つのモデルにより,競争需要予測が得られることを示す。 本研究では,局所的およびグローバルな機械学習モデルの利用状況を分析し,ベースライン手法と比較する。 最後に,塊状および間欠的な需要予測モデルの性能評価基準を提案する。 本研究は,需要イベントの発生予測において,グローバル分類モデルが最善の選択であることを示す。 需要規模を予測する際には, 簡易指数平滑化予測を用いて最適な結果を得た。 我々は,ヨーロッパの自動車機器メーカーの日常需要に対応する3年連続時系列516を用いて,実世界のデータに対するアプローチを検証した。

Demand forecasting is a crucial component of demand management. While shortening the forecasting horizon allows for more recent data and less uncertainty, this frequently means lower data aggregation levels and a more significant data sparsity. Sparse demand data usually results in lumpy or intermittent demand patterns, which have sparse and irregular demand intervals. Usual statistical and machine learning models fail to provide good forecasts in such scenarios. Our research shows that competitive demand forecasts can be obtained through two models: predicting the demand occurrence and estimating the demand size. We analyze the usage of local and global machine learning models for both cases and compare results against baseline methods. Finally, we propose a novel evaluation criterion of lumpy and intermittent demand forecasting models' performance. Our research shows that global classification models are the best choice when predicting demand event occurrence. When predicting demand sizes, we achieved the best results using Simple Exponential Smoothing forecast. We tested our approach on real-world data consisting of 516 three-year-long time series corresponding to European automotive original equipment manufacturers' daily demand.
翻訳日:2021-03-26 13:32:17 公開日:2021-03-23
# 電子イオン化質量分析のための自動フラグメント同定:ハロカーボンの大気計測への応用

Automated fragment identification for electron ionisation mass spectrometry: application to atmospheric measurements of halocarbons ( http://arxiv.org/abs/2103.13807v1 )

ライセンス: Link先を確認
Myriam Guillevic (EMPA), Aurore Guillevic (CARAMBA), Martin Vollmer (EMPA), Paul Schlauri (EMPA), Matthias Hill (EMPA), Lukas Emmenegger (EMPA), Stefan Reimann (EMPA)(参考訳) 背景: 標的でないスクリーニングは、疑わしい、あるいは未知のすべての現在の物質のサンプルを探索することであり、サンプルに関する事前知識はほとんどない。 このアプローチは10年以上前に水分析の分野で導入されたが、大気の微量ガス組成をよりよく理解する必要性はあるものの、室内および大気中の微量ガス測定にはまだ不足している。 大気中に出現する微量ガスを系統的に検出するために、新しい強力な分析法は、高濃度試料のガスクロマトグラフィー(GC)、続いて電子イオン化、高分解能質量分析法(EI-HRMS)である。 本研究では,gc-ei-hrmsによる未知化合物の自動同定を可能にするデータ解析ツールを提案する。 結果: 質量/電荷の破片を共同計算し, 効率的なコンビネータとグラフ理論を用いて, 破片の化学式を確実に再構築する革新的なデータ解析法を開発した。 i) 分子イオンの存在を必要とせず、EIスペクトルの40パーセントに満たないため、(ii) より高精度に測定された質量/電荷比により多くの重みを与えながら、すべての測定データを使用することができる。 本手法は, 30-330 g mol-1 のモル質量を持つ50のハロカーボンおよび炭化水素に対して, 質量分解能のアポックスで測定した。 3500. 90%以上の化合物では、再構成された信号の90%以上が正しい。 誤認例は、検出された1化合物あたりの破片の不足(質量/電荷が6つ未満)や、同位体制限の欠如(稀な同位体が検出されない)に起因する。 結論: 本手法は, スペクトルデータベースから独立して, 最も可能性の高い化学式を再構成できる。 したがって、非ターゲット分析のためのEI-HRMSデータの適合性を実証し、EI質量スペクトルがデータベースに登録されていない物質を識別する方法を舗装する。 本手法は,大気微量ガスに対する性能を示し,他の多くの試料にも適している可能性が示唆された。

Background: Non-target screening consists in searching a sample for all present substances, suspected or unknown, with very little prior knowledge about the sample. This approach has been introduced more than a decade ago in the field of water analysis, but is still very scarce for indoor and atmospheric trace gas measurements, despite the clear need for a better understanding of the atmospheric trace gas composition. For a systematic detection of emerging trace gases in the atmosphere, a new and powerful analytical method is gas chromatography (GC) of preconcentrated samples, followed by electron ionisation, high resolution mass spectrometry (EI-HRMS). In this work, we present data analysis tools to enable automated identification of unknown compounds measured by GC-EI-HRMS. Results: Based on co-eluting mass/charge fragments, we developed an innovative data analysis method to reliably reconstruct the chemical formulae of the fragments, using efficient combinatorics and graph theory. The method (i) does not to require the presence of the molecular ion, which is absent in $\sim$40% of EI spectra, and (ii) permits to use all measured data while giving more weight to mass/charge ratios measured with better precision. Our method has been trained and validated on >50 halocarbons and hydrocarbons with a molar masses of 30-330 g mol-1 , measured with a mass resolution of approx. 3500. For >90% of the compounds, more than 90% of the reconstructed signal is correct. Cases of wrong identification can be attributed to the scarcity of detected fragments per compound (less than six measured mass/charge) or the lack of isotopic constrain (no rare isotopocule detected). Conclusions: Our method enables to reconstruct most probable chemical formulae independently from spectral databases. Therefore, it demonstrates the suitability of EI-HRMS data for non-target analysis and paves the way for the identification of substances for which no EI mass spectrum is registered in databases. We illustrate the performances of our method for atmospheric trace gases and suggest that it may be well suited for many other types of samples.
翻訳日:2021-03-26 13:29:57 公開日:2021-03-23
# (参考訳) 実環境における結核検診の自動カフ分類

Automatic Cough Classification for Tuberculosis Screening in a Real-World Environment ( http://arxiv.org/abs/2103.13300v1 )

ライセンス: CC BY 4.0
Madhurananda Pahar, Marisa Klopper, Byron Reeve, Grant Theron, Rob Warren, Thomas Niesler(参考訳) 本研究は,結核患者(tb)の発声音と,他の肺疾患患者が発する発声音とを,実環境の騒音環境下で自動的に判別できることを示す第1報である。 本実験は, TB患者16名, 呼吸器疾患患者33名, TB以外の患者33名を対象に, 実世界の診療所で得られたコークス記録のデータセットに基づいて行った。 我々は,nexted k-fold cross-validation内で,ロジスティック回帰(LR),サポートベクタマシン(SVM),k-nearest neighbor(KNN),多層パーセプトロン(MLP),畳み込みニューラルネットワーク(CNN)などの機械学習分類器を訓練・評価し,すべての場合において分類が可能であるが,最高の性能をLR分類器を用いて達成することを発見した。 逐次フォワードサーチ(SFS)による特徴選択と組み合わせて、最高のLRシステムは78個の高分解能メル周波数ケプストラム係数(MFCC)から選択された23個の特徴を用いて、OC曲線(AUC)の0.94以下の領域を達成する。 このシステムは95%の特異度で93%の感度を達成し、コミュニティベースのtbトリアージテストの最小要件としてwhoが考慮している70%の特異度仕様で90\%の感度を超える。 以上の結果から, 音素の自動分類は, TBの低コストで展開可能なフロントラインスクリーニングの手段として有望であり, 開発途上国のTB負荷に大きく貢献すると考えられる。

We present first results showing that it is possible to automatically discriminate between the coughing sounds produced by patients with tuberculosis (TB) and those produced by patients with other lung ailments in a real-world noisy environment. Our experiments are based on a dataset of cough recordings obtained in a real-world clinic setting from 16 patients confirmed to be suffering from TB and 33 patients that are suffering from respiratory conditions, confirmed as other than TB. We have trained and evaluated several machine learning classifiers, including logistic regression (LR), support vector machines (SVM), k-nearest neighbour (KNN), multilayer perceptrons (MLP) and convolutional neural networks (CNN) inside a nested k-fold cross-validation and find that, although classification is possible in all cases, the best performance is achieved using the LR classifier. In combination with feature selection by sequential forward search (SFS), our best LR system achieves an area under the ROC curve (AUC) of 0.94 using 23 features selected from a set of 78 high-resolution mel-frequency cepstral coefficients (MFCCs). This system achieves a sensitivity of 93% at a specificity of 95% and thus exceeds the 90\% sensitivity at 70% specificity specification considered by the WHO as minimal requirements for community-based TB triage test. We conclude that automatic classification of cough audio sounds is promising as a viable means of low-cost easily-deployable front-line screening for TB, which will greatly benefit developing countries with a heavy TB burden.
翻訳日:2021-03-26 02:39:13 公開日:2021-03-23
# (参考訳) フィッシングサイトの検出 - 概要

Detecting Phishing Sites -- An Overview ( http://arxiv.org/abs/2103.12739v1 )

ライセンス: CC BY 4.0
P.Kalaharsha (1, 2), B.M.Mehtre (1) ((1) Center of excellence in cyber security, Institute for Development and Research in Banking Technology (IDRBT), Hyderabad, India, (2) School of Computer Science and Information Sciences (SCIS), University of Hyderabad, Hyderabad, India)(参考訳) フィッシングは、研究者が解決策を見つけようとする最も厳しいサイバー攻撃の1つだ。 フィッシングでは、攻撃者はエンドユーザを誘惑し、個人情報を盗む。 フィッシングによるダメージを最小限に抑えるためには、できるだけ早く検出する必要がある。 フィッシング攻撃には、槍のフィッシング、捕鯨、バイシング、スミッシング、ファムリングなどがある。 ホワイトリスト、ブラックリスト、コンテンツベース、URLベース、ビジュアル類似性、機械学習に基づくさまざまなフィッシング検出技術がある。 本稿では,フィッシングサイト検出のためのフィッシング攻撃,攻撃ベクトル,検出技術について論じる。 18の異なるモデルと9つの異なるデータセットのパフォーマンス比較が与えられる。 フィッシング検出技術の課題もあげられる。

Phishing is one of the most severe cyber-attacks where researchers are interested to find a solution. In phishing, attackers lure end-users and steal their personal in-formation. To minimize the damage caused by phishing must be detected as early as possible. There are various phishing attacks like spear phishing, whaling, vishing, smishing, pharming and so on. There are various phishing detection techniques based on white-list, black-list, content-based, URL-based, visual-similarity and machine-learning. In this paper, we discuss various kinds of phishing attacks, attack vectors and detection techniques for detecting the phishing sites. Performance comparison of 18 different models along with nine different sources of datasets are given. Challenges in phishing detection techniques are also given.
翻訳日:2021-03-26 02:19:40 公開日:2021-03-23
# (参考訳) 固定点ネットワーク:ジャコビアンフリーバックプロップを用いた入射深さモデル

Fixed Point Networks: Implicit Depth Models with Jacobian-Free Backprop ( http://arxiv.org/abs/2103.12803v1 )

ライセンス: CC BY 4.0
Samy Wu Fung, Howard Heaton, Qiuwei Li, Daniel McKenzie, Stanley Osher, Wotao Yin(参考訳) 深層学習のトレンドは、ネットワーク深度が無限に近づくにつれて、限界の近似によって固定深度モデルを置き換える。 このアプローチでは、ネットワークウェイトの一部を制限条件の定義によって振る舞いを規定する。 これにより、提供されるデータとエラー耐性に基づいて、ネットワークの深さが暗黙的に変化する。 さらに、既存の暗黙のモデルは、追加の計算コストと引き換えに、固定メモリコストで実装および訓練することができる。 特に、暗黙の深さモデルによるバックプロパゲーションは、暗黙の関数定理から生じるヤコビアン方程式を解く必要がある。 ネットワーク重みと入力データによって定義された一意の極限への前方伝播の収束を保証する暗黙深度学習のための単純なセットアップである固定点ネットワーク(FPN)を提案する。 我々の重要な貢献は、固定メモリコストを維持しながら、ヤコビ方程式を解く必要性を回避する新しいヤコビ自由バックプロパゲーション(JFB)方式を提供することである。 これにより、FPNはトレーニングがずっと安く、実装が簡単になる。 数値例は,暗黙の奥行きモデルとそれに対応する明示的なモデルに対して,芸術分類結果の状態を導出する。

A growing trend in deep learning replaces fixed depth models by approximations of the limit as network depth approaches infinity. This approach uses a portion of network weights to prescribe behavior by defining a limit condition. This makes network depth implicit, varying based on the provided data and an error tolerance. Moreover, existing implicit models can be implemented and trained with fixed memory costs in exchange for additional computational costs. In particular, backpropagation through implicit depth models requires solving a Jacobian-based equation arising from the implicit function theorem. We propose fixed point networks (FPNs), a simple setup for implicit depth learning that guarantees convergence of forward propagation to a unique limit defined by network weights and input data. Our key contribution is to provide a new Jacobian-free backpropagation (JFB) scheme that circumvents the need to solve Jacobian-based equations while maintaining fixed memory costs. This makes FPNs much cheaper to train and easy to implement. Our numerical examples yield state of the art classification results for implicit depth models and outperform corresponding explicit models.
翻訳日:2021-03-26 02:02:27 公開日:2021-03-23
# (参考訳) 対話型動的モデルを用いた信念伝播を用いたマルチパススラム

Multipath-based SLAM using Belief Propagation with Interacting Multiple Dynamic Models ( http://arxiv.org/abs/2103.12809v1 )

ライセンス: CC BY 4.0
Erik Leitinger and Stefan Grebien and Klaus Witrisal(参考訳) 本稿では,複数モデル(IMM)パラメータを連続的に適用し,移動エージェント状態のダイナミクスを記述したベイズ型マルチパス同時局所化マッピング(SLAM)アルゴリズムを提案する。 IMMパラメータの時間進化はマルコフ連鎖によって記述され、パラメータはSLAM問題の統計構造を表す因子グラフ構造に組み込まれる。 提案した信念伝達アルゴリズムは,エージェントとマップの特徴状態とともにモデルパラメータを共同で推定することにより,時間変化のシステムモデルにオンライン的に適応する。 提案アルゴリズムの性能をシミュレーションシナリオで評価する。 数値シミュレーションの結果,提案アルゴリズムはエージェント状態の強い変化に対処できることがわかった。

In this paper, we present a Bayesian multipath-based simultaneous localization and mapping (SLAM) algorithm that continuously adapts interacting multiple models (IMM) parameters to describe the mobile agent state dynamics. The time-evolution of the IMM parameters is described by a Markov chain and the parameters are incorporated into the factor graph structure that represents the statistical structure of the SLAM problem. The proposed belief propagation (BP)-based algorithm adapts, in an online manner, to time-varying system models by jointly inferring the model parameters along with the agent and map feature states. The performance of the proposed algorithm is finally evaluating with a simulated scenario. Our numerical simulation results show that the proposed multipath-based SLAM algorithm is able to cope with strongly changing agent state dynamics.
翻訳日:2021-03-26 01:26:03 公開日:2021-03-23
# (参考訳) MSLマストカム操作と新規検出機能の統合によるデータ解析

Integrating Novelty Detection Capabilities with MSL Mastcam Operations to Enhance Data Analysis ( http://arxiv.org/abs/2103.12815v1 )

ライセンス: CC BY 4.0
Paul Horton, Hannah R. Kerner, Samantha Jacob, Ernest Cisneros, Kiri L. Wagstaff, James Bell(参考訳) 科学機器の革新によって火星探査機のミッション能力の境界が押し上げられたが、データ複雑さの増大により、火星科学研究所(MSL)と将来の火星探査機運用スタッフは複雑なデータセットを迅速に分析し、戦術的および戦略的な計画スケジュールを徐々に短縮した。 mslwebは、オペレーションスタッフがマストカメラマストカメラで撮影された一連の製品であるmsl画像シーケンスのファーストパス分析を行うために使用する内部データ追跡ツールである。 Mastcamのマルチバンドマルチスペクトル画像シーケンスは、標準の3バンドRGB画像よりも複雑な解析を必要とする。 通常、これらは従来の方法で分析され、シーケンス内のユニークな特徴を識別する。 ダウンリンクされた画像を(次のアップリンクの5~10時間前に)分析する必要がある戦術計画の短い時間枠を考えると、シーケンスの最も重要なシーケンスと部分に焦点を当てるために分析時間をトリアージする必要がある。 撮影シーン内で検出された新規または非定型的な組成や鉱物学を診断する可能性のある異常なデータを運用スタッフが識別するのに役立つ。 1)画像中の新しい領域を特定するために各シーケンス用の製品を作成し,2)マルチスペクトルシーケンスをソート可能なノベルティスコアに割り当てることで,2つの方法で達成した。 これらの新製品は、運用スタッフが迅速にダウンリンクデータをレビューし、新しいタイプの診断マルチスペクトルシグネチャの分析に集中するために使用できる、推測されたノベルティのカラー化ヒートマップを提供する。 このアプローチは、単純な色の複合材料では検出できない微妙な変化に素早く注意を向けることで、科学者を新たな発見へと導く可能性を秘めている。

While innovations in scientific instrumentation have pushed the boundaries of Mars rover mission capabilities, the increase in data complexity has pressured Mars Science Laboratory (MSL) and future Mars rover operations staff to quickly analyze complex data sets to meet progressively shorter tactical and strategic planning timelines. MSLWEB is an internal data tracking tool used by operations staff to perform first pass analysis on MSL image sequences, a series of products taken by the Mast camera, Mastcam. Mastcam's multiband multispectral image sequences require more complex analysis compared to standard 3-band RGB images. Typically, these are analyzed using traditional methods to identify unique features within the sequence. Given the short time frame of tactical planning in which downlinked images might need to be analyzed (within 5-10 hours before the next uplink), there exists a need to triage analysis time to focus on the most important sequences and parts of a sequence. We address this need by creating products for MSLWEB that use novelty detection to help operations staff identify unusual data that might be diagnostic of new or atypical compositions or mineralogies detected within an imaging scene. This was achieved in two ways: 1) by creating products for each sequence to identify novel regions in the image, and 2) by assigning multispectral sequences a sortable novelty score. These new products provide colorized heat maps of inferred novelty that operations staff can use to rapidly review downlinked data and focus their efforts on analyzing potentially new kinds of diagnostic multispectral signatures. This approach has the potential to guide scientists to new discoveries by quickly drawing their attention to often subtle variations not detectable with simple color composites.
翻訳日:2021-03-26 01:10:30 公開日:2021-03-23
# (参考訳) Fr'echetタスク距離によるニューラルアーキテクチャ検索

Neural Architecture Search From Fr\'echet Task Distance ( http://arxiv.org/abs/2103.12827v1 )

ライセンス: CC BY 4.0
Cat P. Le, Mohammadreza Soltani, Robert Ravier, Trevor Standley, Silvio Savarese, Vahid Tarokh(参考訳) 我々はFr'echet型非対称距離をフィッシャー情報行列に基づいて定式化する。 対象タスクと与えられたベースラインタスクの集合における各タスク間の距離が、対象タスクのニューラルアーキテクチャ探索スペースを減らすためにどのように使用できるかを示す。 タスク固有のアーキテクチャに対する検索空間の複雑さの低減は、このサイド情報を用いることなく完全な検索を行う代わりに、類似したタスクのために最適化されたアーキテクチャ上に構築することで達成される。 実験の結果,提案手法の有効性と最新手法の改善が示された。

We formulate a Fr\'echet-type asymmetric distance between tasks based on Fisher Information Matrices. We show how the distance between a target task and each task in a given set of baseline tasks can be used to reduce the neural architecture search space for the target task. The complexity reduction in search space for task-specific architectures is achieved by building on the optimized architectures for similar tasks instead of doing a full search without using this side information. Experimental results demonstrate the efficacy of the proposed approach and its improvements over the state-of-the-art methods.
翻訳日:2021-03-26 00:58:10 公開日:2021-03-23
# (参考訳) 不均一医療データにおける不調和の受容

Embracing the Disharmony in Heterogeneous Medical Data ( http://arxiv.org/abs/2103.12857v1 )

ライセンス: CC BY 4.0
Rongguang Wang, Pratik Chaudhari, Christos Davatzikos(参考訳) 医用画像データの不均一性は、機械学習の文脈において、ドメイン不変性、すなわち、しばしば取り組まれる。 ドメインシフトに対して堅牢なモデル(例:ドメイン内の両方)を導出する。 人口統計)、およびドメイン全体(例えば、) スキャナー/プロトコール特性)。 しかし、この手法は、クラス内およびドメイン間の一般化を改善するために、クラス内変数の平均化を必要とし、学習モデルの識別力を低下させるため、パフォーマンスに有害である。 本稿では,この不均一性を取り込んでマルチタスク学習問題として扱い,訓練された分類器をサイト間およびサイト内不均一性の両方に明示的に適応させる。 本研究は,脳磁場共鳴画像(MRI)データセットに対するベース分類器の誤差を,患者の特定の人口動態や異なる取得プロトコルに適応することにより,特定のタスクにおいて2~3倍に低減できることを実証する。 ドメインシフトの特徴の学習は、一般的に利用可能なデータと変数、例えば、補助的な学習タスクによって達成される。 人口統計 実験では,ソースサイト上でトレーニングされたネットワーク重みが対象サイトのデータに適応するのを支援する補助タスクとして,性別分類と年齢回帰を用いて,主な分類タスク上のデータセット間での分類精度を5~30%向上することを示した。 病気の分類。

Heterogeneity in medical imaging data is often tackled, in the context of machine learning, using domain invariance, i.e. deriving models that are robust to domain shifts, which can be both within domain (e.g. demographics) and across domains (e.g. scanner/protocol characteristics). However this approach can be detrimental to performance because it necessitates averaging across intra-class variability and reduces discriminatory power of learned models, in order to achieve better intra- and inter-domain generalization. This paper instead embraces the heterogeneity and treats it as a multi-task learning problem to explicitly adapt trained classifiers to both inter-site and intra-site heterogeneity. We demonstrate that the error of a base classifier on challenging 3D brain magnetic resonance imaging (MRI) datasets can be reduced by 2-3 times, in certain tasks, by adapting to the specific demographics of the patients, and different acquisition protocols. Learning the characteristics of domain shifts is achieved via auxiliary learning tasks leveraging commonly available data and variables, e.g. demographics. In our experiments, we use gender classification and age regression as auxiliary tasks helping the network weights trained on a source site adapt to data from a target site; we show that this approach improves classification accuracy by 5-30 % across different datasets on the main classification tasks, e.g. disease classification.
翻訳日:2021-03-26 00:34:43 公開日:2021-03-23
# (参考訳) 確率的LTI系に対するPAC-ベイズ理論

PAC-Bayesian theory for stochastic LTI systems ( http://arxiv.org/abs/2103.12866v1 )

ライセンス: CC BY 4.0
Deividas Eringis and John Leth and Zheng-Hua Tan and Rafal Wisniewski and Mihaly Petreczky(参考訳) 本稿では,自律確率 LTI 状態空間モデルに対する PAC-Bayesian 誤差を導出する。 このような誤差境界を導出する動機は、リカレントニューラルネットワークを含むより一般的な力学系で同様の誤差境界を導出できることである。 PACBayesの誤差境界は、機械学習アルゴリズムの分析や新しいアルゴリズムの導出に有用であることが知られている。

In this paper we derive a PAC-Bayesian error bound for autonomous stochastic LTI state-space models. The motivation for deriving such error bounds is that they will allow deriving similar error bounds for more general dynamical systems, including recurrent neural networks. In turn, PACBayesian error bounds are known to be useful for analyzing machine learning algorithms and for deriving new ones.
翻訳日:2021-03-26 00:26:29 公開日:2021-03-23
# (参考訳) 加速学習と制御のための高次チューナー

A High-order Tuner for Accelerated Learning and Control ( http://arxiv.org/abs/2103.12868v1 )

ライセンス: CC BY 4.0
Spencer McDonald, Yingnan Cui, Joseph E. Gaudio and Anuradha M. Annaswamy(参考訳) 勾配拡散型反復アルゴリズムは、推定、予測、学習、制御、最適化といった様々な問題にまたがる。 近年,高次情報に基づく反復的アルゴリズムが,学習を高速化するために研究されている。 本稿では,線形パラメタライズドシステムにおける時間変化レグレシタの安定性と,一定の回帰器による収束の促進を図った高次チューナについて検討する。 このチューナーは,雑音により勾配が劣化しても境界パラメータ推定を継続することを示す。 さらに,パラメータ推定値は,ノイズの統計量に依存するコンパクト集合に指数関数的に収束することを示した。 HTアルゴリズムは、推定、フィルタリング、制御、機械学習の幅広い問題に適用できるため、本論文で得られた結果は、リアルタイムおよび高速な意思決定のトピックに対する重要な拡張である。

Gradient-descent based iterative algorithms pervade a variety of problems in estimation, prediction, learning, control, and optimization. Recently iterative algorithms based on higher-order information have been explored in an attempt to lead to accelerated learning. In this paper, we explore a specific a high-order tuner that has been shown to result in stability with time-varying regressors in linearly parametrized systems, and accelerated convergence with constant regressors. We show that this tuner continues to provide bounded parameter estimates even if the gradients are corrupted by noise. Additionally, we also show that the parameter estimates converge exponentially to a compact set whose size is dependent on noise statistics. As the HT algorithms can be applied to a wide range of problems in estimation, filtering, control, and machine learning, the result obtained in this paper represents an important extension to the topic of real-time and fast decision making.
翻訳日:2021-03-25 23:50:38 公開日:2021-03-23
# (参考訳) フライングアドホックネットワークにおける擬似アニーリング推論を用いた完全音声Qルーチン

Fully-echoed Q-routing with Simulated Annealing Inference for Flying Adhoc Networks ( http://arxiv.org/abs/2103.12870v1 )

ライセンス: CC BY 4.0
Arnau Rovira-Sugranes, Fatemeh Afghah, Junsuo Qu, Abolfazl Razi(参考訳) 現在のネットワークプロトコルは、無人航空機(uav)ネットワークの2つの重要な課題、すなわちネットワーク接続損失とエネルギー制限を満たさないと考えている。 これらの問題を解決するアプローチの1つは、学習ベースのルーティングプロトコルを使用して、ネットワークノードによる最適なローカル決定を行い、Q-routingはそのようなプロトコルの大胆な例である。 しかし、Qルーティングアルゴリズムの現在の実装の性能は、主に継続的なトポロジー変化への適応性の欠如のために、まだ満足できない。 本稿では,シミュレーションアニーリング(SA)最適化を用いた自己適応学習率を用いたQ-routingアルゴリズムを提案し,温度低下率を用いてアルゴリズムの探索率を制御し,Q-値の経験的変動率によって制御する。 提案手法は,遷移点における手動再初期化を必要とせず,ネットワークの動的性に適応することを示す。 提案手法は,Qルーティングプロトコルの現状と比較して,7%から82%までのエネルギー消費を削減し,パケット送出率を2.6倍に向上させる。

Current networking protocols deem inefficient in accommodating the two key challenges of Unmanned Aerial Vehicle (UAV) networks, namely the network connectivity loss and energy limitations. One approach to solve these issues is using learning-based routing protocols to make close-to-optimal local decisions by the network nodes, and Q-routing is a bold example of such protocols. However, the performance of the current implementations of Q-routing algorithms is not yet satisfactory, mainly due to the lack of adaptability to continued topology changes. In this paper, we propose a full-echo Q-routing algorithm with a self-adaptive learning rate that utilizes Simulated Annealing (SA) optimization to control the exploration rate of the algorithm through the temperature decline rate, which in turn is regulated by the experienced variation rate of the Q-values. Our results show that our method adapts to the network dynamicity without the need for manual re-initialization at transition points (abrupt network topology changes). Our method exhibits a reduction in the energy consumption ranging from 7% up to 82%, as well as a 2.6 fold gain in successful packet delivery rate}, compared to the state of the art Q-routing protocols
翻訳日:2021-03-25 23:49:30 公開日:2021-03-23
# (参考訳) 物語の形式モデルに向けて

Towards a Formal Model of Narratives ( http://arxiv.org/abs/2103.12872v1 )

ライセンス: CC BY 4.0
Louis Castricato and Stella Biderman and Rogelio E. Cardona-Rivera and David Thue(参考訳) 本稿では,物語をモデル化するための形式的枠組みの始まりを提案する。 我々のフレームワークは、ナレーターから読者への情報の流れ、時間とともに読者のストーリーモデルの進化、そして読者の不確実性など、ストーリーとそのコミュニケーションの重要な品質について議論する能力を提供する。 本稿では,情報伝達精度を計測するための明示的なアルゴリズムと2つの新しいストーリーコヒーレンス測定を行うことにより,計算ナラトロジーへの適用性を実証する。

In this paper, we propose the beginnings of a formal framework for modeling narrative \textit{qua} narrative. Our framework affords the ability to discuss key qualities of stories and their communication, including the flow of information from a Narrator to a Reader, the evolution of a Reader's story model over time, and Reader uncertainty. We demonstrate its applicability to computational narratology by giving explicit algorithms for measuring the accuracy with which information was conveyed to the Reader and two novel measurements of story coherence.
翻訳日:2021-03-25 23:25:42 公開日:2021-03-23
# (参考訳) メタラーニングによるプロセス発見手法の提案

Using Meta-learning to Recommend Process Discovery Methods ( http://arxiv.org/abs/2103.12874v1 )

ライセンス: CC BY 4.0
Sylvio Barbon Jr, Paolo Ceravolo, Ernesto Damiani, Gabriel Marques Tavares(参考訳) プロセス発見手法はプロセスマイニングにおいて顕著な成果を上げ、管理能力を高めるために理解可能なプロセスモデルを提供する。 しかし、特定のイベントログに適した方法の選択は、人間の専門知識に大きく依存し、幅広い応用を妨げる。 メタラーニング(mtl)に基づくソリューションは、人的支援を減らすシステムの構築に有望である。 本論文では,モデル品質を相補次元に応じて最大化するプロセス発見手法を提案する。 mtlパイプラインのおかげで、イベントログを記述する軽量機能を使用して、92%の精度で発見方法を推奨することができた。 我々の実験分析は、発見アルゴリズムをより深く理解するために、レコメンデーションの生成におけるログ機能の重要性に関する重要な洞察も提供した。

Process discovery methods have obtained remarkable achievements in Process Mining, delivering comprehensible process models to enhance management capabilities. However, selecting the suitable method for a specific event log highly relies on human expertise, hindering its broad application. Solutions based on Meta-learning (MtL) have been promising for creating systems with reduced human assistance. This paper presents a MtL solution for recommending process discovery methods that maximize model quality according to complementary dimensions. Thanks to our MtL pipeline, it was possible to recommend a discovery method with 92% of accuracy using light-weight features that describe the event log. Our experimental analysis also provided significant insights on the importance of log features in generating recommendations, paving the way to a deeper understanding of the discovery algorithms.
翻訳日:2021-03-25 23:12:21 公開日:2021-03-23
# (参考訳) 自由テキスト知識グラフを用いた複雑なファクトイド質問応答

Complex Factoid Question Answering with a Free-Text Knowledge Graph ( http://arxiv.org/abs/2103.12876v1 )

ライセンス: CC BY 4.0
Chen Zhao, Chenyan Xiong, Xin Qian and Jordan Boyd-Graber(参考訳) DELFTは,知識グラフ質問応答アプローチのニュアンスと深さを,自由文の広範なカバレッジと組み合わせたファクトイド質問応答システムである。 DELFTはウィキペディアから自由テキスト知識グラフを構築し、エンティティをノードとして、エンティティをエッジとして共起する文として提供する。 各質問に対して、DELFTは、テキストをエッジとして使用する候補に質問エンティティノードをリンクするサブグラフを見つけ、密度の高い高カバレッジセマンティックグラフを作成する。 新しいグラフニューラルネットワークは、エッジ文に関する情報を介して、ノード上の自由テキストグラフのエビデンスを合成し、最終回答を選択する。 3つの質問応答データセットの実験では、DELFTは、マシン読み取りベースのモデル、bertベースの回答ランキング、メモリネットワークよりも、エンティティリッチな質問に答えることができる。 DELFTの利点は、その自由テキスト知識グラフ(dbpediaリレーションシップの倍以上)の高カバレッジと、リッチだがノイズの多い自由テキストエビデンスに基づく新しいグラフニューラルネットワークの両方にある。

We introduce DELFT, a factoid question answering system which combines the nuance and depth of knowledge graph question answering approaches with the broader coverage of free-text. DELFT builds a free-text knowledge graph from Wikipedia, with entities as nodes and sentences in which entities co-occur as edges. For each question, DELFT finds the subgraph linking question entity nodes to candidates using text sentences as edges, creating a dense and high coverage semantic graph. A novel graph neural network reasons over the free-text graph-combining evidence on the nodes via information along edge sentences-to select a final answer. Experiments on three question answering datasets show DELFT can answer entity-rich questions better than machine reading based models, bert-based answer ranking and memory networks. DELFT's advantage comes from both the high coverage of its free-text knowledge graph-more than double that of dbpedia relations-and the novel graph neural network which reasons on the rich but noisy free-text evidence.
翻訳日:2021-03-25 22:57:58 公開日:2021-03-23
# (参考訳) SETGAN:モバイルプラットフォームにおける画像アプリケーションのためのスケールとエネルギーのトレードオフGAN

SETGAN: Scale and Energy Trade-off GANs for Image Applications on Mobile Platforms ( http://arxiv.org/abs/2103.12896v1 )

ライセンス: CC BY 4.0
Nitthilan Kannappan Jayakodi, Janardhan Rao Doppa, Partha Pratim Pande(参考訳) 本稿では,画像生成ネットワーク(gans)を用いて,モバイルプラットフォーム上での非条件画像生成(高品質で多彩なサンプル生成)の課題について考察する。 本稿では,SETGAN(Scale-Energy Tradeoff GAN)と呼ばれる,リアルタイムに消費されるエネルギー(コンピュテーション)に対するGANのトレードオフ画像生成精度の新たなアプローチを提案する。 ganは通常、トレーニングと巨大なメモリ消費に長い時間がかかるため、エッジデバイスでの実行が難しくなる。 画像生成タスクにおけるSETGANの鍵となるアイデアは、与えられた入力画像に対して、リモートサーバ上でGANをトレーニングし、エッジデバイス上でトレーニングされたモデルを使用することである。 我々は、画像の異なるスケールでパッチ分布を学習する責任を負う、完全な畳み込みGANのピラミッドを含む単一の画像非条件生成モデルであるSinGANを使用する。 トレーニング過程において,与えられた入力画像に対する最適スケール数と目標エッジ装置からのエネルギー制約を決定する。 その結果、SETGANのユニークなクライアントサーバベースのアーキテクチャでは、3%から12%のSSIM精度を失うことで、エネルギーの56%のアップを実現できた。 また、並列マルチスケールトレーニングでは、サーバ上でのトレーニング時間の約4倍のゲインが得られる。

We consider the task of photo-realistic unconditional image generation (generate high quality, diverse samples that carry the same visual content as the image) on mobile platforms using Generative Adversarial Networks (GANs). In this paper, we propose a novel approach to trade-off image generation accuracy of a GAN for the energy consumed (compute) at run-time called Scale-Energy Tradeoff GAN (SETGAN). GANs usually take a long time to train and consume a huge memory hence making it difficult to run on edge devices. The key idea behind SETGAN for an image generation task is for a given input image, we train a GAN on a remote server and use the trained model on edge devices. We use SinGAN, a single image unconditional generative model, that contains a pyramid of fully convolutional GANs, each responsible for learning the patch distribution at a different scale of the image. During the training process, we determine the optimal number of scales for a given input image and the energy constraint from the target edge device. Results show that with SETGAN's unique client-server-based architecture, we were able to achieve a 56% gain in energy for a loss of 3% to 12% SSIM accuracy. Also, with the parallel multi-scale training, we obtain around 4x gain in training time on the server.
翻訳日:2021-03-25 22:49:11 公開日:2021-03-23
# 語彙制御と強化学習を用いた教師なし文脈パラフレーズ生成

Unsupervised Contextual Paraphrase Generation using Lexical Control and Reinforcement Learning ( http://arxiv.org/abs/2103.12777v1 )

ライセンス: Link先を確認
Sonal Garg, Sumanth Prabhu, Hemant Misra, and G. Srinivasaraghavan(参考訳) チャットによるカスタマーサポートには、最低待ち時間と顧客満足度で顧客クエリを解決する必要がある。 エージェントと顧客の両方がさまざまなレベルのリテラシーを持つことができるため、エージェントが提供した反応の質は、事前に定義されていないと貧弱になる傾向がある。 しかし、静的レスポンスのみを使用すると、顧客はもはや人間と対話していないと感じやすいため、顧客の減退につながる可能性がある。 したがって、応答の単調さを減らすために静的応答のバリエーションを持つことが不可欠である。 しかし、そのようなバリエーションのリストを維持することはコストがかかる。 会話コンテキストとエージェント応答を考慮し,自己回帰モデルを用いて文脈パラフレーズを生成するための教師なしフレームワークを提案する。 また,文脈パラフレーズの質を評価するために,意味的類似性,テキスト的包含性,表現の多様性,フラレンシに基づく自動計測法を提案し,自動計測を報酬関数として用いた強化学習(rl)による性能改善を実証する。

Customer support via chat requires agents to resolve customer queries with minimum wait time and maximum customer satisfaction. Given that the agents as well as the customers can have varying levels of literacy, the overall quality of responses provided by the agents tend to be poor if they are not predefined. But using only static responses can lead to customer detraction as the customers tend to feel that they are no longer interacting with a human. Hence, it is vital to have variations of the static responses to reduce monotonicity of the responses. However, maintaining a list of such variations can be expensive. Given the conversation context and the agent response, we propose an unsupervised frame-work to generate contextual paraphrases using autoregressive models. We also propose an automated metric based on Semantic Similarity, Textual Entailment, Expression Diversity and Fluency to evaluate the quality of contextual paraphrases and demonstrate performance improvement with Reinforcement Learning (RL) fine-tuning using the automated metric as the reward function.
翻訳日:2021-03-25 14:14:52 公開日:2021-03-23
# 教師探索学習:オープンセット認識のための新しい学習方法

Teacher-Explorer-Student Learning: A Novel Learning Method for Open Set Recognition ( http://arxiv.org/abs/2103.12871v1 )

ライセンス: Link先を確認
Jaeyeon Jang and Chang Ouk Kim(参考訳) 訓練中に見当たらない未知の例が現れると、ほとんどの認識システムは一般に一般化された結果を生成し、その例が既知のクラスの1つに属すると判断する。 そこで本研究では,未知のサンプルを拒否することを目的としたオープンセット認識(osr)の概念を取り入れ,既知のサンプルの分類性能の損失を最小限に抑える教師・研究者・学生(t/e/s)学習を提案する。 本手法では、未知の様々な可能性を探ることにより、深層学習分類器の一般化を著しく削減する。 ここで,教師ネットワークは,未学習の知識を蒸留して未知のヒントを抽出し,その知識を学生に提供する。 蒸留知識を学習した後、学生ネットワークは学習情報をエクスプローラネットワークと共有する。 そして、未知のサンプルを生成し、そのサンプルを学生ネットワークに供給することで、探索結果を共有する。 この交互学習プロセスを繰り返して、学生ネットワークは様々な合成未知を経験し、過剰一般化を減らす。 広範な実験を行い,本論文で提案する各コンポーネントがosrの性能向上に大きく寄与することを示した。 その結果,提案手法は現在の最先端手法よりも優れていた。

If an unknown example that is not seen during training appears, most recognition systems usually produce overgeneralized results and determine that the example belongs to one of the known classes. To address this problem, teacher-explorer-student (T/E/S) learning, which adopts the concept of open set recognition (OSR) that aims to reject unknown samples while minimizing the loss of classification performance on known samples, is proposed in this study. In this novel learning method, overgeneralization of deep learning classifiers is significantly reduced by exploring various possibilities of unknowns. Here, the teacher network extracts some hints about unknowns by distilling the pretrained knowledge about knowns and delivers this distilled knowledge to the student. After learning the distilled knowledge, the student network shares the learned information with the explorer network. Then, the explorer network shares its exploration results by generating unknown-like samples and feeding the samples to the student network. By repeating this alternating learning process, the student network experiences a variety of synthetic unknowns, reducing overgeneralization. Extensive experiments were conducted, and the experimental results showed that each component proposed in this paper significantly contributes to the improvement in OSR performance. As a result, the proposed T/E/S learning method outperformed current state-of-the-art methods.
翻訳日:2021-03-25 14:13:46 公開日:2021-03-23
# Co-matching: Augmentation Anchoringによるノイズラベルの圧縮

Co-matching: Combating Noisy Labels by Augmentation Anchoring ( http://arxiv.org/abs/2103.12814v1 )

ライセンス: Link先を確認
Yangdi Lu, Yang Bo, Wenbo He(参考訳) ノイズラベルによるディープラーニングは、ディープニューラルネットワークがノイズラベルを記憶する能力が高いため、難しい。 本稿では,拡張アンカーによる2つのネットワーク間の一貫性と発散のバランスをとる,コマッチングと呼ばれる学習アルゴリズムを提案する。 具体的には,弱い画像に対する予測からアンカーラベルを生成するネットワークがある。 一方、我々はピアネットワークを強制し、入力と同じ画像の強化されたバージョンを入力として、アンカーラベルに近い予測を生成する。 次に,非教師付きマッチング損失(すなわち,2つのネットワークの一貫性を測定する)と教師付き分類損失(すなわち)の両方を最小化するために,小損失インスタンスを選択することで,同時に2つのネットワークを更新する。 分類性能を測定する)。 また,教師なしのマッチング損失はノイズラベルに大きく依存せず,ノイズラベルの記憶を阻害する。 3つのベンチマークデータセットの実験は、コマッチングが最先端の手法に匹敵する結果を達成することを示した。

Deep learning with noisy labels is challenging as deep neural networks have the high capacity to memorize the noisy labels. In this paper, we propose a learning algorithm called Co-matching, which balances the consistency and divergence between two networks by augmentation anchoring. Specifically, we have one network generate anchoring label from its prediction on a weakly-augmented image. Meanwhile, we force its peer network, taking the strongly-augmented version of the same image as input, to generate prediction close to the anchoring label. We then update two networks simultaneously by selecting small-loss instances to minimize both unsupervised matching loss (i.e., measure the consistency of the two networks) and supervised classification loss (i.e. measure the classification performance). Besides, the unsupervised matching loss makes our method not heavily rely on noisy labels, which prevents memorization of noisy labels. Experiments on three benchmark datasets demonstrate that Co-matching achieves results comparable to the state-of-the-art methods.
翻訳日:2021-03-25 14:11:40 公開日:2021-03-23
# 制約付きマスク言語モデリングを用いたデコンパイルバイナリコードの変数名復元

Variable Name Recovery in Decompiled Binary Code using Constrained Masked Language Modeling ( http://arxiv.org/abs/2103.12801v1 )

ライセンス: Link先を確認
Pratyay Banerjee, Kuntal Kumar Pal, Fish Wang, Chitta Baral(参考訳) 逆コンパイル(英: Decompilation)とは、バイナリプログラムをソースコードなどのハイレベルな表現に変換する手順である。 現代の逆コンパイラは、コンパイル中に破棄される多くの情報を再構築し、復元することができるが、変数名の推論は依然として極めて困難である。 近年の自然言語処理の進歩に触発されて,Masked Language Modeling,Byte-Pair Encoding, Transformers, BERTなどのニューラルアーキテクチャに基づく,非コンパイルコードの変数名を推論する新しい手法を提案する。 提案手法は,提案手法である制約付きマスケッド言語モデリング(Constrained Masked Language Modeling)を用いて,意味論的に意味のある少ないコードをインプットとして利用する。 制約付きマスク言語モデリングを使用すると、元の変数名のマスクトークン数を予測するという課題が発生する。 この \textit{count of token prediction} 課題を処理後アルゴリズムで解決します。 最先端のアプローチと比較して、トレーニング済みのVarBERTモデルはよりシンプルで、はるかに優れたパフォーマンスを実現しています。 164,632のバイナリを持つ既存の大規模データセット上でモデルを評価し,84.15\%までの確率で元のソースコードに存在する変数名と同一の変数名を予測できることを示した。

Decompilation is the procedure of transforming binary programs into a high-level representation, such as source code, for human analysts to examine. While modern decompilers can reconstruct and recover much information that is discarded during compilation, inferring variable names is still extremely difficult. Inspired by recent advances in natural language processing, we propose a novel solution to infer variable names in decompiled code based on Masked Language Modeling, Byte-Pair Encoding, and neural architectures such as Transformers and BERT. Our solution takes \textit{raw} decompiler output, the less semantically meaningful code, as input, and enriches it using our proposed \textit{finetuning} technique, Constrained Masked Language Modeling. Using Constrained Masked Language Modeling introduces the challenge of predicting the number of masked tokens for the original variable name. We address this \textit{count of token prediction} challenge with our post-processing algorithm. Compared to the state-of-the-art approaches, our trained VarBERT model is simpler and of much better performance. We evaluated our model on an existing large-scale data set with 164,632 binaries and showed that it can predict variable names identical to the ones present in the original source code up to 84.15\% of the time.
翻訳日:2021-03-25 14:10:45 公開日:2021-03-23
# 最適化を学ぶ:プライマーとベンチマーク

Learning to Optimize: A Primer and A Benchmark ( http://arxiv.org/abs/2103.12828v1 )

ライセンス: Link先を確認
Tianlong Chen, Xiaohan Chen, Wuyang Chen, Howard Heaton, Jialin Liu, Zhangyang Wang, Wotao Yin(参考訳) 学習の最適化(L2O)は、機械学習を活用して最適化手法を開発する、新たなアプローチである。 一連のトレーニング問題に基づく最適化手法の設計を,その性能に基づいて自動化する。 このデータ駆動プロシージャは、トレーニングと同じような問題を効率的に解決できる方法を生成する。 対照的に、最適化手法の典型的および伝統的な設計は理論駆動であり、理論によって指定された問題のクラスに対する性能保証が得られる。 この違いにより、L2Oは特定のデータ分布に対するある種の最適化問題を繰り返し解決するのに適しているが、通常は分布外問題で失敗する。 l2oの実用性は、目標最適化の種類、学習する方法の選択したアーキテクチャ、訓練手順に依存する。 この新しいパラダイムは、研究者のコミュニティにL2Oを探索し、研究結果を報告する動機となった。 この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。 分類学を設定し、既存の研究と研究の方向性を分類し、洞察を示し、オープンな課題を特定する。 また、いくつかの一般的な最適化問題に対して、既存のL2Oアプローチをベンチマークした。 再現可能な研究と公正なベンチマークの目的のために、私たちはソフトウェア実装とデータを https://github.com/VITA-Group/Open-L2O.com のパッケージに公開しました。

Learning to optimize (L2O) is an emerging approach that leverages machine learning to develop optimization methods, aiming at reducing the laborious iterations of hand engineering. It automates the design of an optimization method based on its performance on a set of training problems. This data-driven procedure generates methods that can efficiently solve problems similar to those in the training. In sharp contrast, the typical and traditional designs of optimization methods are theory-driven, so they obtain performance guarantees over the classes of problems specified by the theory. The difference makes L2O suitable for repeatedly solving a certain type of optimization problems over a specific distribution of data, while it typically fails on out-of-distribution problems. The practicality of L2O depends on the type of target optimization, the chosen architecture of the method to learn, and the training procedure. This new paradigm has motivated a community of researchers to explore L2O and report their findings. This article is poised to be the first comprehensive survey and benchmark of L2O for continuous optimization. We set up taxonomies, categorize existing works and research directions, present insights, and identify open challenges. We also benchmarked many existing L2O approaches on a few but representative optimization problems. For reproducible research and fair benchmarking purposes, we released our software implementation and data in the package Open-L2O at https://github.com/VITA-Group/Open-L2O.
翻訳日:2021-03-25 14:09:40 公開日:2021-03-23
# BERT-based Post-Editing による代名詞の修復

Repairing Pronouns in Translation with BERT-Based Post-Editing ( http://arxiv.org/abs/2103.12838v1 )

ライセンス: Link先を確認
Reid Pryzant, Melvin Johnson, Hideto Kazawa(参考訳) 名詞はテキストの意味の重要な決定要因であるが、翻訳が難しい。 これは、代名詞の選択が前の文で記述されたエンティティに依存することができ、一部の言語では、参照が文脈から推測できないときに代名詞をドロップできるためである。 これらの問題は、神経機械翻訳(NMT)システムに、不明瞭さを損なうこと、さらには性バイアスを補強する代名詞に重大なエラーを与える可能性がある。 本稿では,(1)一部の領域において,代名詞選択がnmtシステムの誤差の半分以上を占めること,(2)代名詞が認識される翻訳品質に不釣り合いに大きな影響を与えること,など,代名詞問題の重大性について検討する。 提案手法は,情報源側文のチャンクを用いて代名詞予測タスクを微調整し,その結果の分類器を用いて既存のNMTモデルの翻訳を修復する。 日本語と英語のペアに対して,この手法の最初の事例研究を行い,人間の評価値によって少数の翻訳が著しく改善されていることを観察した。

Pronouns are important determinants of a text's meaning but difficult to translate. This is because pronoun choice can depend on entities described in previous sentences, and in some languages pronouns may be dropped when the referent is inferrable from the context. These issues can lead Neural Machine Translation (NMT) systems to make critical errors on pronouns that impair intelligibility and even reinforce gender bias. We investigate the severity of this pronoun issue, showing that (1) in some domains, pronoun choice can account for more than half of a NMT systems' errors, and (2) pronouns have a disproportionately large impact on perceived translation quality. We then investigate a possible solution: fine-tuning BERT on a pronoun prediction task using chunks of source-side sentences, then using the resulting classifier to repair the translations of an existing NMT model. We offer an initial case study of this approach for the Japanese-English language pair, observing that a small number of translations are significantly improved according to human evaluators.
翻訳日:2021-03-25 14:08:13 公開日:2021-03-23
# TeCoMiner: 短期的コミュニティ検出によるトピック発見

TeCoMiner: Topic Discovery Through Term Community Detection ( http://arxiv.org/abs/2103.12882v1 )

ライセンス: Link先を確認
Andreas Hamm, Jana Thelen, Rasmus Beckmann, Simon Odrowski (German Aerospace Center DLR)(参考訳) このメモは、テキストコレクションのトピック内容を探索するインタラクティブツールであるTeCoMinerの短い説明である。 他のトピックモデリングツールとは異なり、TeCoMinerは生成確率モデルではなく、用語の共起ネットワークに関するトポロジ的考察に基づいている。 我々は,過去10年間に欧州委員会が公表した環境問題に関する政策関連科学ニュースのコーパスを用いて,トピックの識別,ツールの特徴の説明,アプリケーションのスケッチに使用される手法の概要を述べる。

This note is a short description of TeCoMiner, an interactive tool for exploring the topic content of text collections. Unlike other topic modeling tools, TeCoMiner is not based on some generative probabilistic model but on topological considerations about co-occurrence networks of terms. We outline the methods used for identifying topics, describe the features of the tool, and sketch an application, using a corpus of policy related scientific news on environmental issues published by the European Commission over the last decade.
翻訳日:2021-03-25 14:07:55 公開日:2021-03-23
# 生産における意思決定のための行動可能な認知双生児

Actionable Cognitive Twins for Decision Making in Manufacturing ( http://arxiv.org/abs/2103.12854v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec, Jinzhi Lu, Jan Rupnik, Maja \v{S}krjanc, Dunja Mladeni\'c, Bla\v{z} Fortuna, Xiaochen Zheng, Dimitris Kiritsis(参考訳) Actionable Cognitive Twinsは、知識グラフと人工知能モデルを通じて認知能力に強化された次世代のDigital Twinsで、ユーザに洞察と意思決定オプションを提供する。 知識グラフは、製造環境に関連するエンティティと相互関係に関するドメイン固有の知識を記述する。 また、プランナーやロジスティックスのような意思決定者を支援する可能性のある意思決定オプションの情報も含まれている。 本稿では,生産プラントにおける需要予測と生産計画に関する特定の知識を捉えるための,行動可能な認知双生児構築のための知識グラフモデリング手法を提案する。 ナレッジグラフは、データ識別やシミュレーション、人工知能アルゴリズムやそれらをサポートするための予測など、生産ラインとプロセスのセマンティック記述とコンテキスト化を提供する。 このようなセマンティクスは、創造的、誘惑的、定義的、帰納的といった異なる知識タイプを推論するための基盤を提供する。 ユースケースを完全に記述する知識グラフモデルを開発するために,オントロジーを設計,検証し,知識グラフを開発し,行動可能な認知双生児を構築するシステム思考手法を提案する。 最後に,欧州水平2020プロジェクトFACTLOGの一環として,欧州の自動車関連機器メーカーが開発する2つのユースケースについて検討を行った。

Actionable Cognitive Twins are the next generation Digital Twins enhanced with cognitive capabilities through a knowledge graph and artificial intelligence models that provide insights and decision-making options to the users. The knowledge graph describes the domain-specific knowledge regarding entities and interrelationships related to a manufacturing setting. It also contains information on possible decision-making options that can assist decision-makers, such as planners or logisticians. In this paper, we propose a knowledge graph modeling approach to construct actionable cognitive twins for capturing specific knowledge related to demand forecasting and production planning in a manufacturing plant. The knowledge graph provides semantic descriptions and contextualization of the production lines and processes, including data identification and simulation or artificial intelligence algorithms and forecasts used to support them. Such semantics provide ground for inferencing, relating different knowledge types: creative, deductive, definitional, and inductive. To develop the knowledge graph models for describing the use case completely, systems thinking approach is proposed to design and verify the ontology, develop a knowledge graph and build an actionable cognitive twin. Finally, we evaluate our approach in two use cases developed for a European original equipment manufacturer related to the automotive industry as part of the European Horizon 2020 project FACTLOG.
翻訳日:2021-03-25 14:06:37 公開日:2021-03-23
# DA4Event:ドメイン適応を用いたイベントカメラのSim-to-Realギャップのブリッジ化

DA4Event: towards bridging the Sim-to-Real Gap for Event Cameras using Domain Adaptation ( http://arxiv.org/abs/2103.12768v1 )

ライセンス: Link先を確認
Mirco Planamente and Chiara Plizzari and Marco Cannici and Marco Ciccone and Francesco Strada and Andrea Bottino and Matteo Matteucci and Barbara Caputo(参考訳) イベントカメラは、バイオインスパイアされた新しいセンサーであり、"イベント"の形でピクセルレベルの強度変化を非同期に捉える。 データを取得する革新的な方法は、標準デバイス、特に低照度と高速な動作条件において、いくつかの利点を示す。 しかし、これらのセンサーの新規性により、その潜在能力を完全に解き放つことのできる大量のトレーニングデータが欠如している。 この問題に対処するために研究者が実施する最も一般的なアプローチは、シミュレーションされたイベントデータを活用することである。 しかし、このアプローチにはオープンな研究の質問が伴っている。 そこで我々は,従来のコンピュータビジョンにおける近年のドメイン適応(da)の進歩を生かして,イベントデータに適用したda技術がsim対現実のギャップの低減に寄与することを示す。 そこで本稿では,多視点DA4E(Multi-View DA4E)と呼ばれる新しいアーキテクチャを提案する。 N-Caltech101に対するDA法とMV-DA4Eの有効性を実験的に検証した。 さらに,RGB-D Object Dataset (ROD) のクロスドメイン解析により実世界のシナリオにおける音質を検証し,イベントモダリティ(RGB-E)まで拡張した。

Event cameras are novel bio-inspired sensors, which asynchronously capture pixel-level intensity changes in the form of "events". The innovative way they acquire data presents several advantages over standard devices, especially in poor lighting and high-speed motion conditions. However, the novelty of these sensors results in the lack of a large amount of training data capable of fully unlocking their potential. The most common approach implemented by researchers to address this issue is to leverage simulated event data. Yet, this approach comes with an open research question: how well simulated data generalize to real data? To answer this, we propose to exploit, in the event-based context, recent Domain Adaptation (DA) advances in traditional computer vision, showing that DA techniques applied to event data help reduce the sim-to-real gap. To this purpose, we propose a novel architecture, which we call Multi-View DA4E (MV-DA4E), that better exploits the peculiarities of frame-based event representations while also promoting domain invariant characteristics in features. Through extensive experiments, we prove the effectiveness of DA methods and MV-DA4E on N-Caltech101. Moreover, we validate their soundness in a real-world scenario through a cross-domain analysis on the popular RGB-D Object Dataset (ROD), which we extended to the event modality (RGB-E).
翻訳日:2021-03-25 14:06:19 公開日:2021-03-23
# 時間的マスク一貫性を有するビデオに対する弱教師付きインスタンスセグメンテーション

Weakly Supervised Instance Segmentation for Videos with Temporal Mask Consistency ( http://arxiv.org/abs/2103.12886v1 )

ライセンス: Link先を確認
Qing Liu, Vignesh Ramanathan, Dhruv Mahajan, Alan Yuille, Zhenheng Yang(参考訳) 弱い教師付きインスタンスセグメンテーションは、モデルのトレーニングに必要なアノテーションのコストを削減します。 しかしながら、画像レベルのクラスラベルにのみ依存する既存のアプローチは、(a)オブジェクトの部分的なセグメンテーションと(b)オブジェクトの不足によるエラーが主な原因である。 画像ではなく弱いラベル付きビデオでトレーニングすることで,これらの問題に対処できることを示す。 ビデオでは、フレーム間の予測の運動と時間的一貫性は、セグメンテーションに役立つ補完的な信号を提供する。 私たちは、弱い教師付きインスタンスセグメンテーションに取り組むために、これらのビデオ信号の使用を初めて調査しました。 我々はこの情報をモデルに活用する方法を2つ提案する。 まず、画素間関係ネットワーク(IRN)を適用し、トレーニング中の動作情報を効果的に活用する。 第二に、トレーニング中に隣接するフレーム間で安定した予測を転送することで、オブジェクトインスタンスの欠落の問題に対処する新しいMaskConsistモジュールを導入する。 2つのデータセット(Youtube-VIS)とCityscapes(Cityscapes)の動画フレーム上でのインスタンスセグメンテーションの指標である$AP_{50}$をそれぞれ5\%、$3\%改善することが実証された。

Weakly supervised instance segmentation reduces the cost of annotations required to train models. However, existing approaches which rely only on image-level class labels predominantly suffer from errors due to (a) partial segmentation of objects and (b) missing object predictions. We show that these issues can be better addressed by training with weakly labeled videos instead of images. In videos, motion and temporal consistency of predictions across frames provide complementary signals which can help segmentation. We are the first to explore the use of these video signals to tackle weakly supervised instance segmentation. We propose two ways to leverage this information in our model. First, we adapt inter-pixel relation network (IRN) to effectively incorporate motion information during training. Second, we introduce a new MaskConsist module, which addresses the problem of missing object instances by transferring stable predictions between neighboring frames during training. We demonstrate that both approaches together improve the instance segmentation metric $AP_{50}$ on video frames of two datasets: Youtube-VIS and Cityscapes by $5\%$ and $3\%$ respectively.
翻訳日:2021-03-25 14:05:56 公開日:2021-03-23
# 人文科学の基盤的真実

Ground Truths for the Humanities ( http://arxiv.org/abs/2103.12841v1 )

ライセンス: Link先を確認
Yvette Oortwijn, Hein van den Berg, and Arianna Betti(参考訳) データとの忠実な相互作用と人文科学の表現を保証することは、専門家によって構成された基礎的真理に依存するべきである。

Ensuring a faithful interaction with data and its representation for humanities can and should depend on expert-constructed ground truths.
翻訳日:2021-03-25 13:53:54 公開日:2021-03-23
# 路線上の施設移転

Facility Reallocation on the Line ( http://arxiv.org/abs/2103.12894v1 )

ライセンス: Link先を確認
Bart de Keijzer and Dominik Wojtczak(参考訳) 実線上では,n$エージェントが報告した場所に基づいて,施設が時間間隔で移動している,多段階的な施設配置問題を考える。 再配置アルゴリズムの目的は、社会コストを最小化することであり、すなわち、施設と全てのエージェントのあらゆる段階の合計距離の合計と、施設を移動させるコストを最小化することである。 オフライン設定とオンライン設定の両方でこの問題を研究する。 オフラインの場合、アルゴリズムは全ての将来の段階におけるエージェントの位置の完全な知識を持ち、オンライン設定では、アルゴリズムはこれらの将来の位置を知らないので、ステージごとに施設の位置を決定する必要がある。 どちらの場合にも最適アルゴリズムを導出する。 オンライン環境では、その競合比は$(n+2)/(n+1)$である。 いずれのアルゴリズムも戦略防御機構は得られないため、奇数$n$に対して$(n+3)/(n+1)$、偶数$(n+4)/n$が$(n+4)/n$という競合比を持つ別の戦略防御機構を提案する。 また,複数の施設と重み付きエージェントによる一般化についても検討し,一定数の施設で最適値を多項式時間で計算できることを示した。

We consider a multi-stage facility reallocation problems on the real line, where a facility is being moved between time stages based on the locations reported by $n$ agents. The aim of the reallocation algorithm is to minimise the social cost, i.e., the sum over the total distance between the facility and all agents at all stages, plus the cost incurred for moving the facility. We study this problem both in the offline setting and online setting. In the offline case the algorithm has full knowledge of the agent locations in all future stages, and in the online setting the algorithm does not know these future locations and must decide the location of the facility on a stage-per-stage basis. We derive the optimal algorithm in both cases. For the online setting we show that its competitive ratio is $(n+2)/(n+1)$. As neither of these algorithms turns out to yield a strategy-proof mechanism, we propose another strategy-proof mechanism which has a competitive ratio of $(n+3)/(n+1)$ for odd $n$ and $(n+4)/n$ for even $n$, which we conjecture to be the best possible. We also consider a generalisation with multiple facilities and weighted agents, for which we show that the optimum can be computed in polynomial time for a fixed number of facilities.
翻訳日:2021-03-25 13:51:50 公開日:2021-03-23
# 分散ビジュアル・慣性協調ローカライズ

Distributed Visual-Inertial Cooperative Localization ( http://arxiv.org/abs/2103.12770v1 )

ライセンス: Link先を確認
Pengxiang Zhu, Patrick Geneva, Wei Ren, and Guoquan Huang(参考訳) 本稿では,時間とロボットにまたがる環境特性とループクロージャ制約を効率的に融合するマルチロボット協調ローカライゼーション(cl)のための一貫性と分散状態推定器を提案する。 特に,共分散交叉(covariance intersection,ci)を利用して,各ロボットが自己状態と自己共分散のみを追跡し,ロボット間の未知の相関を補償する。 一般的な環境SLAMの特徴を利用するための2つの新しい手法を導入し、精度と効率の点で評価した。 さらに,計算コストを大幅に増加させることなく,ループクロージャ測定制約を他のロボットの歴史的なポーズに適用することにより,ドリフトフリーな推定を可能にする。 提案した分散CL推定器は,シミュレーションと実世界の実験の両方において,非実時間集中型に対して有効である。

In this paper we present a consistent and distributed state estimator for multi-robot cooperative localization (CL) which efficiently fuses environmental features and loop-closure constraints across time and robots. In particular, we leverage covariance intersection (CI) to allow each robot to only track its own state and autocovariance and compensate for the unknown correlations between robots. Two novel different methods for utilizing common environmental temporal SLAM features are introduced and evaluated in terms of accuracy and efficiency. Moreover, we adapt CI to enable drift-free estimation through the use of loop-closure measurement constraints to other robots' historical poses without a significant increase in computational cost. The proposed distributed CL estimator is validated against its naive non-realtime centralized counterpart extensively in both simulations and real-world experiments.
翻訳日:2021-03-25 13:51:26 公開日:2021-03-23
# psiminer:コードからリッチな抽象構文木をマイニングするツール

PSIMiner: A Tool for Mining Rich Abstract Syntax Trees from Code ( http://arxiv.org/abs/2103.12778v1 )

ライセンス: Link先を確認
Egor Spirin, Egor Bogomolov, Vladimir Kovalenko, Timofey Bryksin(参考訳) 機械学習アルゴリズムのソースコードへの適用は、ここ数年で増えている。 これらのアルゴリズムは入力データに非常に敏感であるため、研究者が入力表現を試すことは驚くべきことではない。 現在、コードを表現するための一般的な出発点は抽象構文木(AST)である。 抽象構文木は、様々なソフトウェアエンジニアリングドメイン、特にIDEで長い間使われてきた。 現代的なIDEのAPIはASTの操作やトラバース、コード要素間の参照の解決などを可能にします。 このようなアルゴリズムはASTを新しいデータで豊かにすることができるため、MLベースのコード解析に有用である。 この作業では、IntelliJ PlatformからPSIツリーを処理するツールであるPSIMinerを紹介します。 PSIツリーはコード構文木とそれらを扱う関数を含んでいるため、現代のIDEの静的解析アルゴリズムを使ってコード表現を豊かにするために使うことができる。 このアイデアを実証するために、我々のツールはJava ASTの型識別子を推論し、メソッド名予測問題に対するcode2seqモデルを拡張します。

The application of machine learning algorithms to source code has grown in the past years. Since these algorithms are quite sensitive to input data, it is not surprising that researchers experiment with input representations. Nowadays, a popular starting point to represent code is abstract syntax trees (ASTs). Abstract syntax trees have been used for a long time in various software engineering domains, and in particular in IDEs. The API of modern IDEs allows to manipulate and traverse ASTs, resolve references between code elements, etc. Such algorithms can enrich ASTs with new data and therefore may be useful in ML-based code analysis. In this work, we present PSIMiner - a tool for processing PSI trees from the IntelliJ Platform. PSI trees contain code syntax trees as well as functions to work with them, and therefore can be used to enrich code representation using static analysis algorithms of modern IDEs. To showcase this idea, we use our tool to infer types of identifiers in Java ASTs and extend the code2seq model for the method name prediction problem.
翻訳日:2021-03-25 13:49:38 公開日:2021-03-23
# X線CTによる微小骨折の検出

Detecting micro fractures with X-ray computed tomography ( http://arxiv.org/abs/2103.12821v1 )

ライセンス: Link先を確認
Dongwon Lee, Nikolaos Karadimitriou, Matthias Ruf and Holger Steeb(参考訳) X-ray Computed Tomography (XRCT) を用いた多孔質岩体の研究は不透明多孔質媒質の非破壊的可視化の標準手法として確立されている。 xrctの分野における最近の進歩にもかかわらず、生み出したデータに固有のノイズや画像のアーティファクトがあるため、いくつかの課題は残る。 これらの問題は、骨折や骨折ネットワークの同定が目的であれば、さらに深刻になる。 課題は、関心のある地域と近隣地域の間の限定的なコントラストである。 この限られたコントラストは、主に骨折の微小開口によるものである。 この課題を克服するために、フィルタリングなどのデジタル画像処理を適用して、信号対雑音比を高めるというアプローチが一般的である。 さらに、閾値/形態素スキームに基づくセグメンテーション手法を用いて、興味のある特徴から強化された情報を得ることができる。 しかし、このワークフローには入力パラメータを微調整する熟練したオペレータが必要であり、利用可能なメソッドの複雑さとデータセットの大量さにより、必要な計算時間は大幅に増加する。 本研究では,XRCTを用いたカララ大理石のフラクチャーネットワークの可視化に成功したデータに基づいて,多くのセグメント化手法によるセグメント化結果を示す。 従来の3つの手法と2つの機械学習に基づく手法を評価した。 セグメンテーション品質と時間効率の観点から、5つの方法すべてから得られたセグメンテーション結果を比較した。 メモリ制限のため、公平な比較を達成するために、すべてのメソッドが2Dスキームで使用される。 機械学習に基づくセグメンテーション手法の1つである2次元U-netモデルの出力は、セグメンテーションの品質と必要な処理時間に関して最高の性能を示す。

Studying porous rock materials with X-Ray Computed Tomography (XRCT) has been established as a standard procedure for the non-destructive visualization of flow and transport in opaque porous media. Despite the recent advances in the field of XRCT, some challenges still remain due to the inherent noise and imaging artefacts in the produced data. These issues become even more profound when the objective is the identification of fractures, and/or fracture networks. The challenge is the limited contrast between the regions of interest and the neighboring areas. This limited contrast can mostly be attributed to the minute aperture of the fractures. In order to overcome this challenge, it has been a common approach to apply digital image processing, such as filtering, to enhance the signal-to-noise ratio. Additionally, segmentation methods based on threshold-/morphology schemes can be employed to obtain enhanced information from the features of interest. However, this workflow needs a skillful operator to fine-tune its input parameters, and the required computation time significantly increases due to the complexity of the available methods, and the large volume of the data-set. In this study, based on a data-set produced by the successful visualization of a fracture network in Carrara marble with XRCT, we present the segmentation results from a number of segmentation methods. Three conventional and two machine-learning-based methods are evaluated. The segmentation results from all five methods are compared to each other in terms of segmentation quality and time efficiency. Due to memory limitations, and in order to accomplish a fair comparison, all the methods are employed in a 2D scheme. The output of the 2D U-net model, which is one of the adopted machine-learning-based segmentation methods, shows the best performance regarding the quality of segmentation and the required processing time.
翻訳日:2021-03-25 13:49:23 公開日:2021-03-23
# 予算制約付き動的ブロットーゲームのためのバンディット学習

Bandit Learning for Dynamic Colonel Blotto Game with a Budget Constraint ( http://arxiv.org/abs/2103.12833v1 )

ライセンス: Link先を確認
Vincent Leon, S. Rasoul Etesami(参考訳) プレイヤーの1人が学習者であり、有限時間地平線上で割り当てる限られた兵力(予算)を有する動的大佐ブロットーゲーム(CBG)を考える。 各段階において、学習者は、過去の観測に基づいて戦場間で割り当てる予算とその配分を戦略的に決定する。 他のプレイヤーは敵であり、一定のが未知の分布からランダムに予算配分戦略を選択する。 学習者の目的は後悔を最小限に抑えることであり、これは学習アルゴリズムに従えば、最良のダイナミックポリシーの観点で最適のペイオフと実現されたペイオフとの差として定義される。 動的CBGは,クナプサックと組み合わせバンドイットおよびバンドイットの枠組みの下で解析される。 まず,動的cbgを予算制約付きでグラフ上の経路計画問題に変換する。 次に、経路計画グラフ上のEdgeを別のアルゴリズムであるLagrangeBwKのサブルーチンとして使用する学習者に対して効率的な動的ポリシーを考案する。 提案方針の下では,予算制約のない繰り返しCBGの動的CBGとの一致(対数係数まで)に対する学習者の後悔が,予算制約を伴わないことを示す。

We consider a dynamic Colonel Blotto game (CBG) in which one of the players is the learner and has limited troops (budget) to allocate over a finite time horizon. At each stage, the learner strategically determines the budget and its distribution to allocate among the battlefields based on past observations. The other player is the adversary, who chooses its budget allocation strategies randomly from some fixed but unknown distribution. The learner's objective is to minimize the regret, which is defined as the difference between the optimal payoff in terms of the best dynamic policy and the realized payoff by following a learning algorithm. The dynamic CBG is analyzed under the framework of combinatorial bandit and bandit with knapsacks. We first convert the dynamic CBG with the budget constraint to a path planning problem on a graph. We then devise an efficient dynamic policy for the learner that uses a combinatorial bandit algorithm Edge on the path planning graph as a subroutine for another algorithm LagrangeBwK. A high-probability regret bound is derived, and it is shown that under the proposed policy, the learner's regret in the budget-constrained dynamic CBG matches (up to a logarithmic factor) that of the repeated CBG without budget constraints.
翻訳日:2021-03-25 13:44:29 公開日:2021-03-23
# (参考訳) CMMNとDCRの有効性と有用性の評価

Evaluating Perceived Usefulness and Ease of Use of CMMN and DCR ( http://arxiv.org/abs/2103.11218v2 )

ライセンス: CC BY 4.0
Amin Jalali(参考訳) ケース管理は徐々に進化し、知識集約型ビジネスプロセス管理をサポートし、宣言、動的条件応答(dcr)、ケース管理モデルと表記法(cmmn)といった異なるモデリング言語を開発してきた。 ユーザが受け入れて使用しなければ、言語は死にます – 絶滅した人間の言語と同じように。 したがって、ユーザーがいかに言語を知覚し、改善の必要性を判断するかを評価することが重要である。 プロセスデザイナがDeclareとDCRをどのように認識しているかを調査する研究もあるが、CMMNをどのように知覚するかは研究されていない。 そこで本研究では,プロセスデザイナがCMMNとDCRの有用性と使いやすさを技術アクセプタンスモデルに基づいて認識する方法について検討した。 DCRは、研究結果を以前のものと比較するために含まれている。 この研究は、これらの言語を8週間にわたってマスターレベルの学生に教育することで行われ、バイアスを減らすために課題に対するフィードバックを与える。 学生の知覚は、試験の最終練習に対するフィードバックの前後のアンケートによって収集される。 結果として、十分に訓練されたにもかかわらず、参加者の知覚がフィードバックを受けてどのように変化するかが示される。 応答の信頼性は cronbach の alpha を用いてテストされ、両言語は有用性と使いやすさの両方において許容できるレベルであることが示された。

Case Management has been gradually evolving to support Knowledge-intensive business process management, which resulted in developing different modeling languages, e.g., Declare, Dynamic Condition Response (DCR), and Case Management Model and Notation (CMMN). A language will die if users do not accept and use it in practice - similar to extinct human languages. Thus, it is important to evaluate how users perceive languages to determine if there is a need for improvement. Although some studies have investigated how the process designers perceived Declare and DCR, there is a lack of research on how they perceive CMMN. Therefore, this study investigates how the process designers perceive the usefulness and ease of use of CMMN and DCR based on the Technology Acceptance Model. DCR is included to enable comparing the study result with previous ones. The study is performed by educating master level students with these languages over eight weeks by giving feedback on their assignments to reduce perceptions biases. The students' perceptions are collected through questionnaires before and after sending feedback on their final practice in the exam. Thus, the result shows how the perception of participants can change by receiving feedback - despite being well trained. The reliability of responses is tested using Cronbach's alpha, and the result indicates that both languages have an acceptable level for both perceived usefulness and ease of use.
翻訳日:2021-03-25 12:47:48 公開日:2021-03-23
# (参考訳) 記号解析を用いた時系列データのマルコフモデリング

Markov Modeling of Time-Series Data using Symbolic Analysis ( http://arxiv.org/abs/2103.11238v2 )

ライセンス: CC BY 4.0
Devesh K. Jha(参考訳) マルコフモデルは、統計学習アプリケーションのためのシーケンシャルデータの時間パターンを捉えるためにしばしば用いられる。 隠れマルコフモデリングに基づく学習メカニズムは文献でよく研究されているが、記号力学にインスパイアされたアプローチを解析する。 この傘の下では、マルコフの時系列データのモデリングは2つの主要なステップから成り、連続的な属性の離散化と、離散化されたシーケンスの時間記憶の大きさを推定する。 これら2つのステップは、離散空間における時系列データの正確かつ簡潔な表現に不可欠である。 離散化は、結果の離散化シーケンスの情報内容を管理する。 一方、シンボルシーケンスのメモリ推定は、離散化されたデータの予測パターンを抽出するのに役立ちます。 離散マルコフ過程としての信号表現の有効性はどちらのステップにも依存する。 本稿では,離散確率過程における離散化とメモリ推定の異なる手法について概説する。 特に、離散確率過程における離散化と順序推定の個々の問題に焦点を当てる。 本稿では,情報理論と統計学習の概念を用いた力学系理論の分割と順序推定に関する文献からの結果を紹介する。 また,データ解析のシンボリックフレームワークを用いて,機械学習や統計学習に有用な,関連する問題定式化についても述べる。 提案手法を用いたジェットタービンエンジンのリーン予混合燃焼における複素熱音響不安定現象の統計的解析結果について述べる。

Markov models are often used to capture the temporal patterns of sequential data for statistical learning applications. While the Hidden Markov modeling-based learning mechanisms are well studied in literature, we analyze a symbolic-dynamics inspired approach. Under this umbrella, Markov modeling of time-series data consists of two major steps -- discretization of continuous attributes followed by estimating the size of temporal memory of the discretized sequence. These two steps are critical for the accurate and concise representation of time-series data in the discrete space. Discretization governs the information content of the resultant discretized sequence. On the other hand, memory estimation of the symbolic sequence helps to extract the predictive patterns in the discretized data. Clearly, the effectiveness of signal representation as a discrete Markov process depends on both these steps. In this paper, we will review the different techniques for discretization and memory estimation for discrete stochastic processes. In particular, we will focus on the individual problems of discretization and order estimation for discrete stochastic process. We will present some results from literature on partitioning from dynamical systems theory and order estimation using concepts of information theory and statistical learning. The paper also presents some related problem formulations which will be useful for machine learning and statistical learning application using the symbolic framework of data analysis. We present some results of statistical analysis of a complex thermoacoustic instability phenomenon during lean-premixed combustion in jet-turbine engines using the proposed Markov modeling method.
翻訳日:2021-03-25 12:35:47 公開日:2021-03-23
# (参考訳) オープンドメイン質問応答における補完的証拠同定

Complementary Evidence Identification in Open-Domain Question Answering ( http://arxiv.org/abs/2103.11643v2 )

ライセンス: CC BY 4.0
Xiangyang Mou, Mo Yu, Shiyu Chang, Yufei Feng, Li Zhang and Hui Su(参考訳) 本稿では,オープンドメイン質問応答(qa)に対する補完的証拠同定の新たな問題を提案する。 この問題は、複雑な問題に答えるために、複数の側面から完全な証拠を網羅する小節を効率的に見つけることを目的としている。 そこで本研究では,選択された集合のベクトル表現を学習し,選択された集合内の十分性と多様性をモデル化する手法を提案する。 実験により,本手法は支持するエビデンス内の依存性を考慮し,qa領域における補完的証拠選択の精度を著しく向上することを示した。

This paper proposes a new problem of complementary evidence identification for open-domain question answering (QA). The problem aims to efficiently find a small set of passages that covers full evidence from multiple aspects as to answer a complex question. To this end, we proposes a method that learns vector representations of passages and models the sufficiency and diversity within the selected set, in addition to the relevance between the question and passages. Our experiments demonstrate that our method considers the dependence within the supporting evidence and significantly improves the accuracy of complementary evidence selection in QA domain.
翻訳日:2021-03-25 05:41:09 公開日:2021-03-23
# (参考訳) F-SIOL-310:Few-Shot Incremental Object Learningのためのロボットデータセットとベンチマーク

F-SIOL-310: A Robotic Dataset and Benchmark for Few-Shot Incremental Object Learning ( http://arxiv.org/abs/2103.12242v1 )

ライセンス: CC BY 4.0
Ali Ayub, Alan R. Wagner(参考訳) ディープラーニングは、imagenetのような大規模データセットを利用可能にすることで、オブジェクト認識タスクで著しく成功した。 しかし、ディープラーニングシステムは、古いデータを再生せずにインクリメンタルに学習するときに壊滅的な忘れに苦しむ。 現実世界のアプリケーションでは、ロボットは新しいオブジェクトを漸進的に学習する必要がある。 さらに、ロボットは人的支援が限られているため、いくつかの例から学ぶ必要がある。 しかし、ロボットビジョンのインクリメンタル学習能力をテストするために、オブジェクト認識データセットやベンチマークはごくわずかである。 さらに、いくつかの例からインクリメンタルなオブジェクト学習用に特別に設計されたデータセットやベンチマークはありません。 このギャップを埋めるために,ロボットビジョンのためのマイナショットインクリメンタルオブジェクト学習機能をテストするために,f-siol-310(few-shot incremental object learning)と呼ばれる新しいデータセットを提案する。 また,F-SIOL-310における8つのインクリメンタル学習アルゴリズムのベンチマークと評価を行った。 以上の結果から,ロボットビジョンにおけるインクリメンタルな物体学習問題の解決には程遠いことが示唆された。

Deep learning has achieved remarkable success in object recognition tasks through the availability of large scale datasets like ImageNet. However, deep learning systems suffer from catastrophic forgetting when learning incrementally without replaying old data. For real-world applications, robots also need to incrementally learn new objects. Further, since robots have limited human assistance available, they must learn from only a few examples. However, very few object recognition datasets and benchmarks exist to test incremental learning capability for robotic vision. Further, there is no dataset or benchmark specifically designed for incremental object learning from a few examples. To fill this gap, we present a new dataset termed F-SIOL-310 (Few-Shot Incremental Object Learning) which is specifically captured for testing few-shot incremental object learning capability for robotic vision. We also provide benchmarks and evaluations of 8 incremental learning algorithms on F-SIOL-310 for future comparisons. Our results demonstrate that the few-shot incremental object learning problem for robotic vision is far from being solved.
翻訳日:2021-03-25 02:55:13 公開日:2021-03-23
# (参考訳) セマンティックセグメンテーションのためのDilated SpineNet

Dilated SpineNet for Semantic Segmentation ( http://arxiv.org/abs/2103.12270v1 )

ライセンス: CC BY 4.0
Abdullah Rashwan and Xianzhi Du and Xiaoqi Yin and Jing Li(参考訳) スケール置換されたネットワークは、オブジェクト境界ボックスの検出とインスタンスセグメンテーションに有望な結果を示している。 スケールの置換とクロススケールな機能の融合により、ネットワークは空間解像度を維持しながらマルチスケールのセマンティクスをキャプチャできる。 本稿では,セマンティックセグメンテーションにおけるメタアーキテクチャ設計について評価する。ネットワークの異なる段階において,高い空間分解能とマルチスケール機能融合の利点を享受するもう1つのビジョンタスクである。 拡張畳み込み処理のさらなる活用により,DeepLabv3システムからNASによって発見されたネットワークであるSpineNet-Segを提案する。 spinenet-segは、セマンティックセグメンテーションタスクでブロック毎の拡張比をカスタマイズした、スケール順に変化するネットワークトポロジーで設計されている。 SpineNet-Segモデルは、DeepLabv3/v3+のベースラインを、スピードと精度で複数の人気のあるベンチマークで上回っている。 特に,私たちのSpineNet-S143+モデルは,人気の高いCityscapesベンチマークの83.04% mIoUでの最先端性を達成し,PASCAL VOC2012ベンチマークの85.56% mIoUでの強いパフォーマンスを達成した。 SpineNet-Segモデルは、挑戦的なストリートビューセグメンテーションデータセットで有望な結果を示す。 コードとチェックポイントはオープンソースになる。

Scale-permuted networks have shown promising results on object bounding box detection and instance segmentation. Scale permutation and cross-scale fusion of features enable the network to capture multi-scale semantics while preserving spatial resolution. In this work, we evaluate this meta-architecture design on semantic segmentation - another vision task that benefits from high spatial resolution and multi-scale feature fusion at different network stages. By further leveraging dilated convolution operations, we propose SpineNet-Seg, a network discovered by NAS that is searched from the DeepLabv3 system. SpineNet-Seg is designed with a better scale-permuted network topology with customized dilation ratios per block on a semantic segmentation task. SpineNet-Seg models outperform the DeepLabv3/v3+ baselines at all model scales on multiple popular benchmarks in speed and accuracy. In particular, our SpineNet-S143+ model achieves the new state-of-the-art on the popular Cityscapes benchmark at 83.04% mIoU and attained strong performance on the PASCAL VOC2012 benchmark at 85.56% mIoU. SpineNet-Seg models also show promising results on a challenging Street View segmentation dataset. Code and checkpoints will be open-sourced.
翻訳日:2021-03-25 02:42:30 公開日:2021-03-23
# (参考訳) 中国の述語頭と関連要素の注釈

Annotation of Chinese Predicate Heads and Relevant Elements ( http://arxiv.org/abs/2103.12280v1 )

ライセンス: CC BY 4.0
Yanping Chen and Yongbin Qin and Ruizhang Huang and Qinghua Zheng and Ping Chen(参考訳) 述語頭(predicate head)は、文の構造的中心としての役割を果たす言語表現である。 述語首の特定は文を理解するのに不可欠である。 主語要素、副詞要素などを含む文中の関連する統語要素を整理する上で、主要な役割を担っている。 英語など一部の言語では、単語形態学は述語頭を特定するのに有用である。 しかし、中国語は文法的な役割を示す形態的な情報を提供していない。 中国語の文には複数の動詞表現が含まれており、述語頭の役割を担う表現を特定することは容易ではない。 また、漢文は構造に不注意であり、語間関係は生じない。 したがって、中国の述語頭の識別には大きな困難が伴う。 中国語情報抽出では,述語頭部認識における研究はほとんど行われていない。 一般的に受け入れられる評価データセットは、この重要な領域での作業をサポートしません。 本稿では,中国の述語頭とその構文要素に対する注釈ガイドラインを開発するための最初の試みについて述べる。 この注釈ガイドラインは文の構造中心としての述語の役割を強調している。 関連する構文要素アノテーションの設計もこの原則に従う。 この目的を達成するために、例えば述語頭部のパターン、平らなアノテーション構造、より単純な構文単位型など、多くの考察がなされている。 提案した注釈ガイドラインに基づいて1500以上の文書が手作業で注釈付けされた。 コーパスはオンラインで公開されている。 このガイドラインと注釈付きコーパスにより、中国情報抽出分野の研究を広範囲に影響を与え、推進し、長い間欠落していた重要な資源を研究コミュニティに提供することが目的である。

A predicate head is a verbal expression that plays a role as the structural center of a sentence. Identifying predicate heads is critical to understanding a sentence. It plays the leading role in organizing the relevant syntactic elements in a sentence, including subject elements, adverbial elements, etc. For some languages, such as English, word morphologies are valuable for identifying predicate heads. However, Chinese offers no morphological information to indicate words` grammatical roles. A Chinese sentence often contains several verbal expressions; identifying the expression that plays the role of the predicate head is not an easy task. Furthermore, Chinese sentences are inattentive to structure and provide no delimitation between words. Therefore, identifying Chinese predicate heads involves significant challenges. In Chinese information extraction, little work has been performed in predicate head recognition. No generally accepted evaluation dataset supports work in this important area. This paper presents the first attempt to develop an annotation guideline for Chinese predicate heads and their relevant syntactic elements. This annotation guideline emphasizes the role of the predicate as the structural center of a sentence. The design of relevant syntactic element annotation also follows this principle. Many considerations are proposed to achieve this goal, e.g., patterns of predicate heads, a flattened annotation structure, and a simpler syntactic unit type. Based on the proposed annotation guideline, more than 1,500 documents were manually annotated. The corpus will be available online for public access. With this guideline and annotated corpus, our goal is to broadly impact and advance the research in the area of Chinese information extraction and to provide the research community with a critical resource that has been lacking for a long time.
翻訳日:2021-03-25 02:27:00 公開日:2021-03-23
# (参考訳) ndt-transformer:正規分布変換表現を用いた大規模3dポイントクラウドローカライズ

NDT-Transformer: Large-Scale 3D Point Cloud Localisation using the Normal Distribution Transform Representation ( http://arxiv.org/abs/2103.12292v1 )

ライセンス: CC BY 4.0
Zhicheng Zhou, Cheng Zhao, Daniel Adolfsson, Songzhi Su, Yang Gao, and Tom Duckett, Li Sun(参考訳) 3Dポイントのクラウドベースの位置認識は、GPSで照らされた環境での自律運転によって非常に要求され、必須のコンポーネント(つまり)として機能する。 lidarベースのslamシステムにおけるループクロージャ検出) 本稿では,3次元点雲を用いたリアルタイム・大規模位置認識のための新しい手法 NDT-Transformer を提案する。 具体的には、3D正規分布変換(NDT)表現を用いて、生で密度の高い3D点雲を確率分布(NDTセル)として凝縮させ、幾何学的形状記述を提供する。 そして、新しいNDT-Transformerネットワークは、3次元NDTセル表現の集合からグローバルディスクリプタを学習する。 NDT表現とNDT-Transformerネットワークの利点により、学習したグローバルディスクリプタは幾何学的情報と文脈的情報の両方に富んでいる。 最後に、位置認識のためのクエリデータベースを用いて記述子検索を行う。 最先端の手法と比較して、提案手法は平均トップ1リコールで7.52%、オックスフォード・ロボカーベンチマークで平均トップ1%リコールで2.73%の改善を達成している。

3D point cloud-based place recognition is highly demanded by autonomous driving in GPS-challenged environments and serves as an essential component (i.e. loop-closure detection) in lidar-based SLAM systems. This paper proposes a novel approach, named NDT-Transformer, for realtime and large-scale place recognition using 3D point clouds. Specifically, a 3D Normal Distribution Transform (NDT) representation is employed to condense the raw, dense 3D point cloud as probabilistic distributions (NDT cells) to provide the geometrical shape description. Then a novel NDT-Transformer network learns a global descriptor from a set of 3D NDT cell representations. Benefiting from the NDT representation and NDT-Transformer network, the learned global descriptors are enriched with both geometrical and contextual information. Finally, descriptor retrieval is achieved using a query-database for place recognition. Compared to the state-of-the-art methods, the proposed approach achieves an improvement of 7.52% on average top 1 recall and 2.73% on average top 1% recall on the Oxford Robotcar benchmark.
翻訳日:2021-03-25 02:25:58 公開日:2021-03-23
# (参考訳) SuctionNet-1Billion: Suction Grasping用の大規模ベンチマーク

SuctionNet-1Billion: A Large-Scale Benchmark for Suction Grasping ( http://arxiv.org/abs/2103.12311v1 )

ライセンス: CC BY 4.0
Hanwen Cao, Hao-Shu Fang, Wenhai Liu, Cewu Lu(参考訳) 吸引は長年にわたるロボットの把握問題にとって重要な解決法である。 他の種類の把持と比較すると、吸引把持は表現が容易であり、しばしば実用上より信頼性が高い。 多くのシナリオで好まれるが、十分に調査されておらず、十分なトレーニングデータや評価ベンチマークが欠けている。 そこで本研究では, まず, 吸引把持のシール形成とレンチ抵抗を解析的に評価するための新しい物理モデルを提案する。 第2に,実世界の雑然としたシナリオで収集された大規模データセット上でアノテーションを生成するために,2段階の手法が採用されている。 第3に, 連続操作空間における吸入ポーズを評価するための標準オンライン評価システムを提案し, 徹底的なラベル付けを必要とせずに, 異なるアルゴリズムを公平にベンチマークできる。 実ロボット実験により,アノテーションが実世界とよく一致していることを示す。 一方,散らばったシーンのRGB-D画像から多数の吸引ポーズを予測し,従来手法に対する優位性を実証する手法を提案する。 結果分析は、読者がこの分野の課題をより深く理解するのに役立ちます。 データとソースコードはwww.graspnet.netで公開されている。

Suction is an important solution for the longstanding robotic grasping problem. Compared with other kinds of grasping, suction grasping is easier to represent and often more reliable in practice. Though preferred in many scenarios, it is not fully investigated and lacks sufficient training data and evaluation benchmarks. To address that, firstly, we propose a new physical model to analytically evaluate seal formation and wrench resistance of a suction grasping, which are two key aspects of grasp success. Secondly, a two-step methodology is adopted to generate annotations on a large-scale dataset collected in real-world cluttered scenarios. Thirdly, a standard online evaluation system is proposed to evaluate suction poses in continuous operation space, which can benchmark different algorithms fairly without the need of exhaustive labeling. Real-robot experiments are conducted to show that our annotations align well with real world. Meanwhile, we propose a method to predict numerous suction poses from an RGB-D image of a cluttered scene and demonstrate our superiority against several previous methods. Result analyses are further provided to help readers better understand the challenges in this area. Data and source code are publicly available at www.graspnet.net.
翻訳日:2021-03-25 02:11:02 公開日:2021-03-23
# (参考訳) 人間の知覚原理を用いた異常検出

Anomaly detection using principles of human perception ( http://arxiv.org/abs/2103.12323v1 )

ライセンス: CC BY 4.0
Nassir Mohammad(参考訳) 統計学と教師なし機械学習の分野において、基本的なよく研究された問題は異常検出である。 異常は定義が難しいが、多くのアルゴリズムが提案されている。 アプローチの根底にあるのは、異常はまれであり、異常であり、データの大半と矛盾しているという誤った理解である。 本研究は, ユーザの介入を最小限に抑えて, 異常を明確に定義し, 効率的な検出アルゴリズムを開発するための哲学的アプローチを提供する。 Gestalt School of PsychologyとHelmholtzの人間の知覚原理に触発されたこの考え方は、異常がデータの大部分によって作られた特定のグループ化に関して予期しない観察であると仮定することである。 したがって、適切な確率変数モデリング異常は、観測を構成する要素の分布を一様かつ独立的に仮定した一連のデータに直接見出され、あるビューにおける要素の発生の期待が$<1$であるような観測に対応する。 人間の知覚の基本原理から、単純でリアルタイムでパラメータフリーな教師なし異常検出アルゴリズムを開発した。 実験結果から,多変量データのグローバル異常検出における有望な性能を示す。

In the fields of statistics and unsupervised machine learning a fundamental and well-studied problem is anomaly detection. Although anomalies are difficult to define, many algorithms have been proposed. Underlying the approaches is the nebulous understanding that anomalies are rare, unusual or inconsistent with the majority of data. The present work gives a philosophical approach to clearly define anomalies and to develop an algorithm for their efficient detection with minimal user intervention. Inspired by the Gestalt School of Psychology and the Helmholtz principle of human perception, the idea is to assume anomalies are observations that are unexpected to occur with respect to certain groupings made by the majority of the data. Thus, under appropriate random variable modelling anomalies are directly found in a set of data under a uniform and independent random assumption of the distribution of constituent elements of the observations; anomalies correspond to those observations where the expectation of occurrence of the elements in a given view is $<1$. Starting from fundamental principles of human perception an unsupervised anomaly detection algorithm is developed that is simple, real-time and parameter-free. Experiments suggest it as the prime choice for univariate data and it shows promising performance on the detection of global anomalies in multivariate data.
翻訳日:2021-03-25 01:56:09 公開日:2021-03-23
# (参考訳) 忠実な画像マッチング

Salient Image Matting ( http://arxiv.org/abs/2103.12337v1 )

ライセンス: CC BY 4.0
Rahul Deora, Rishab Sharma and Dinesh Samuel Sathia Raj(参考訳) 本稿では,画像中の最も鮮やかな前景の画素あたりの不透明度値を推定する,Salient Image Mattingという画像マッチングフレームワークを提案する。 画像における大量の意味的多様性に対処するには、オブジェクトの意味論に関する重要なガイダンスをマットニングプロセスに提供するために、従来はトリマップが必要である。 しかし、良いトリマップを作ることは、しばしば高価で時間を要する。 SIMフレームワークは、完全に自動化され、エンド・ツー・エンドの方法で広範囲のセマンティクスと健全なオブジェクトタイプを学ぶという課題を同時に扱う。 特に,本フレームワークは,RGB入力から直接の列車データとはまったく異なる文脈で,前景オブジェクトや人などの前景クラスが出現するケースに対して,高精度なアルファマットを生成することができる。 これは、高レベルのオブジェクトセマンティクスに関するマットングモデルを導くために、画像内の最もサルエントなオブジェクトのトリマップを生成するためにサルエントオブジェクト検出モデルを使用することによって行われる。 我々のフレームワークは、大量の粗いアノテーションとヒューリスティックなトリマップ生成スキームを併用してトリマップ予測ネットワークをトレーニングし、任意のフォアグラウンドに対してトリマップを生成する。 さらに,より微細で低レベルな不透明なセマンティクスを捉えるために,マルチスケールの融合アーキテクチャを導入する。 trimapネットワークによって提供される高レベルなガイダンスにより、我々のフレームワークは、様々な入力に対してアルファマットを作成できる一方で、他の自動メソッドと比較して、ほんの少しの高価なマットングデータしか必要としません。 我々は,多種多様な画像のフレームワークを実演し,このフレームワークがトリマップを必要とせず,テクストマッチング手法の状態を好適に比較した。

In this paper, we propose an image matting framework called Salient Image Matting to estimate the per-pixel opacity value of the most salient foreground in an image. To deal with a large amount of semantic diversity in images, a trimap is conventionally required as it provides important guidance about object semantics to the matting process. However, creating a good trimap is often expensive and timeconsuming. The SIM framework simultaneously deals with the challenge of learning a wide range of semantics and salient object types in a fully automatic and an end to end manner. Specifically, our framework is able to produce accurate alpha mattes for a wide range of foreground objects and cases where the foreground class, such as human, appears in a very different context than the train data directly from an RGB input. This is done by employing a salient object detection model to produce a trimap of the most salient object in the image in order to guide the matting model about higher-level object semantics. Our framework leverages large amounts of coarse annotations coupled with a heuristic trimap generation scheme to train the trimap prediction network so it can produce trimaps for arbitrary foregrounds. Moreover, we introduce a multi-scale fusion architecture for the task of matting to better capture finer, low-level opacity semantics. With high-level guidance provided by the trimap network, our framework requires only a fraction of expensive matting data as compared to other automatic methods while being able to produce alpha mattes for a diverse range of inputs. We demonstrate our framework on a range of diverse images and experimental results show our framework compares favourably against state of art matting methods without the need for a trimap
翻訳日:2021-03-25 01:55:08 公開日:2021-03-23
# (参考訳) 重なり合うBiLayerを用いた深部閉塞型インスタンスセグメンテーション

Deep Occlusion-Aware Instance Segmentation with Overlapping BiLayers ( http://arxiv.org/abs/2103.12340v1 )

ライセンス: CC BY 4.0
Lei Ke, Yu-Wing Tai and Chi-Keung Tang(参考訳) 高い重なり合うオブジェクトのセグメンテーションは、通常、実際のオブジェクトの輪郭と閉塞境界の間に区別はなされないため、難しい。 従来の2段階のインスタンス分割法とは異なり,画像形成を重なり合う2層の合成としてモデル化し,上層gcn層がoccluder(occluder)を検出し,下層gcn層がoccluded instance(occludee)を推定するbilayer convolutional network(bcnet)を提案する。 二重層構造との咬合関係の明示的なモデリングは、隠蔽と隠蔽の双方の境界を自然に分離し、マスク回帰中の相互作用を考察する。 バックボーンとネットワーク層の選択が異なる1段と2段の物体検出器の2層分離の有効性を検証する。 その単純さにもかかわらず、COCOとKINSに関する広範な実験により、BCNetは特に重閉塞の場合において、大規模かつ一貫したパフォーマンス向上を実現している。 コードはhttps://github.com/lkeab/BCNetで入手できる。

Segmenting highly-overlapping objects is challenging, because typically no distinction is made between real object contours and occlusion boundaries. Unlike previous two-stage instance segmentation methods, we model image formation as composition of two overlapping layers, and propose Bilayer Convolutional Network (BCNet), where the top GCN layer detects the occluding objects (occluder) and the bottom GCN layer infers partially occluded instance (occludee). The explicit modeling of occlusion relationship with bilayer structure naturally decouples the boundaries of both the occluding and occluded instances, and considers the interaction between them during mask regression. We validate the efficacy of bilayer decoupling on both one-stage and two-stage object detectors with different backbones and network layer choices. Despite its simplicity, extensive experiments on COCO and KINS show that our occlusion-aware BCNet achieves large and consistent performance gain especially for heavy occlusion cases. Code is available at https://github.com/lkeab/BCNet.
翻訳日:2021-03-25 01:39:30 公開日:2021-03-23
# (参考訳) 分布外検出のための表現空間間のジョイント分布

Joint Distribution across Representation Space for Out-of-Distribution Detection ( http://arxiv.org/abs/2103.12344v1 )

ライセンス: CC BY 4.0
JingWei Xu, Siyuan Zhu, Zenan Li, Chang Xu(参考訳) ディープニューラルネットワーク(DNN)は多くの現代のソフトウェアアプリケーションにおいて重要な部分となっている。 トレーニングと検証の後、DNNは無効なコンポーネントとしてデプロイされ、現実世界のシナリオに適用される。 ほとんどのDNNは、大量のトレーニングデータで慎重に構築されているが、実際のデータはDNNモデルにはまだ知られておらず、実行時アウトオブディストリビューション(OOD)検出の重要な要件となっている。 しかし、1) 分類器のトレーニングやパラメータチューニングのために ood データを必要とする、2) 隠された各層のスコアを ood 検出のための特徴のアンサンブルとして結合する、といった多くの既存のアプローチがある。 本稿では,各隠れ層から生成した潜在特徴を表現空間をまたいだジョイント分布として,分散データに対する新しい展望を提案する。 分布内潜在特徴のみを表現空間で包括的に理解するため、OODデータの介入なしに、分布内データとOODデータの内部差を自然に明らかにすることができる。 具体的には,Latent Sequential Gaussian Mixture (LSGM) と呼ばれる生成モデルを構築し,DNN推論のトレースから分布しない潜在特徴がどのように生成されるかを記述する。 まず,隠れ層ごとに分布しない潜在特性に基づいてガウス混合モデル(GMM)を構築し,その後,推定トレースの遷移確率を介してGMMを接続する。 一般的なベンチマークOODデータセットとモデルを用いた実験により,OOD検出における最先端手法よりも提案手法の優位性を検証した。

Deep neural networks (DNNs) have become a key part of many modern software applications. After training and validating, the DNN is deployed as an irrevocable component and applied in real-world scenarios. Although most DNNs are built meticulously with huge volumes of training data, data in real-world still remain unknown to the DNN model, which leads to the crucial requirement of runtime out-of-distribution (OOD) detection. However, many existing approaches 1) need OOD data for classifier training or parameter tuning, or 2) simply combine the scores of each hidden layer as an ensemble of features for OOD detection. In this paper, we present a novel outlook on in-distribution data in a generative manner, which takes their latent features generated from each hidden layer as a joint distribution across representation spaces. Since only the in-distribution latent features are comprehensively understood in representation space, the internal difference between in-distribution and OOD data can be naturally revealed without the intervention of any OOD data. Specifically, We construct a generative model, called Latent Sequential Gaussian Mixture (LSGM), to depict how the in-distribution latent features are generated in terms of the trace of DNN inference across representation spaces. We first construct the Gaussian Mixture Model (GMM) based on in-distribution latent features for each hidden layer, and then connect GMMs via the transition probabilities of the inference traces. Experimental evaluations on popular benchmark OOD datasets and models validate the superiority of the proposed method over the state-of-the-art methods in OOD detection.
翻訳日:2021-03-25 01:22:20 公開日:2021-03-23
# (参考訳) フォント形状と印象の共有潜在空間

Shared Latent Space of Font Shapes and Impressions ( http://arxiv.org/abs/2103.12347v1 )

ライセンス: CC BY 4.0
Jihun Kang, Daichi Haraguchi, Akisato Kimura, Seiichi Uchida(参考訳) フォントのスタイル(font)から特定の印象があり、フォントの形状と印象の間に相関があることを示唆している。 この仮説に基づいて,フォント形状画像とその印象語がクロスモーダルな方法で埋め込まれた共有潜在空間を実現する。 この潜在空間は、スタイル印象相関を理解し、複数の印象語を指定してフォント画像を生成するのに有用である。 大きなスタイルインプレッションデータセットを用いた実験結果は、特に形状関連印象語において、共有潜在空間を正確に認識することができ、その空間を用いて様々な印象を持つフォント画像を生成することができることを証明している。

We have specific impressions from the style of a typeface (font), suggesting that there are correlations between font shape and its impressions. Based on this hypothesis, we realize a shared latent space where a font shape image and its impression words are embedded in a cross-modal manner. This latent space is useful to understand the style-impression correlation and generate font images by specifying several impression words. Experimental results with a large style-impression dataset prove that it is possible to accurately realize the shared latent space, especially for shape-relevant impression words, and then use the space to generate font images with various impressions.
翻訳日:2021-03-25 01:09:26 公開日:2021-03-23
# (参考訳) 表情認識のための階層型階層型ピラミッドニューラルアーキテクチャ

A Sub-Layered Hierarchical Pyramidal Neural Architecture for Facial Expression Recognition ( http://arxiv.org/abs/2103.12362v1 )

ライセンス: CC BY 4.0
Henrique Siqueira, Pablo Barros, Sven Magg, Cornelius Weber and Stefan Wermter(参考訳) ロボット工学のような計算資源やラベル付きデータに制限がある領域では、数百万の重みを持つディープネットワークが最適解ではないかもしれない。 本稿では,ピラミッド型アーキテクチャの学習能力を向上させるための接続方式を提案する。 視覚障害者の表情認識実験は, 一般化性能と計算コストの低さから, 資源制限によるアプリケーションへのアプローチが潜在的な候補であることを示す。 この手法は畳み込み型アーキテクチャと同様に一般化するが、学習可能なパラメータは少なく、低解像度の顔ではより堅牢である。

In domains where computational resources and labeled data are limited, such as in robotics, deep networks with millions of weights might not be the optimal solution. In this paper, we introduce a connectivity scheme for pyramidal architectures to increase their capacity for learning features. Experiments on facial expression recognition of unseen people demonstrate that our approach is a potential candidate for applications with restricted resources, due to good generalization performance and low computational cost. We show that our approach generalizes as well as convolutional architectures in this task but uses fewer trainable parameters and is more robust for low-resolution faces.
翻訳日:2021-03-25 00:57:14 公開日:2021-03-23
# (参考訳) ドメイン適応型人物再識別のためのグループ認識ラベル転送

Group-aware Label Transfer for Domain Adaptive Person Re-identification ( http://arxiv.org/abs/2103.12366v1 )

ライセンス: CC BY 4.0
Kecheng Zheng, Wu Liu, Lingxiao He, Tao Mei, Jiebo Luo, Zheng-Jun Zha(参考訳) Unsupervised Domain Adaptive (UDA) person re-identification (ReID) は、ラベル付きソースドメインデータセットでトレーニングされたモデルを、追加アノテーションなしでターゲットドメインデータセットに適応させることを目的としている。 最も成功したUDA-ReIDアプローチは、クラスタリングに基づく擬似ラベル予測と表現学習を組み合わせて、2つのステップを交互に実行する。 しかし、これらの2つのステップ間のオフライン相互作用は、ノイズの多い擬似ラベルがモデルの能力を著しく阻害する可能性がある。 本稿では,擬似ラベル予測と表現学習のオンラインインタラクションと相互促進を可能にするグループ対応ラベル転送(GLT)アルゴリズムを提案する。 具体的には、ラベル転送アルゴリズムは擬似ラベルを同時に使用し、擬似ラベルをオンラインクラスタリングアルゴリズムとして精錬する。 オンラインラベル精製問題を最適な輸送問題として扱い、MサンプルをN個の擬似ラベルに割り当てる際の最小コストを検討する。 さらに重要なことは、暗黙的な属性グループIDをサンプルに割り当てるグループ認識戦略を導入することである。 オンラインラベル精錬アルゴリズムとグループウェア戦略の組み合わせは、ノイズの多い疑似ラベルをオンラインのやり方で修正し、ターゲットのアイデンティティの検索スペースを狭めることができる。 提案したGLTの有効性は, Market1501$\to$DukeMTMC (82.0\%) と DukeMTMC$\to$Market1501 (92.2\%) の実験結果(Rank-1の精度)により実証された。

Unsupervised Domain Adaptive (UDA) person re-identification (ReID) aims at adapting the model trained on a labeled source-domain dataset to a target-domain dataset without any further annotations. Most successful UDA-ReID approaches combine clustering-based pseudo-label prediction with representation learning and perform the two steps in an alternating fashion. However, offline interaction between these two steps may allow noisy pseudo labels to substantially hinder the capability of the model. In this paper, we propose a Group-aware Label Transfer (GLT) algorithm, which enables the online interaction and mutual promotion of pseudo-label prediction and representation learning. Specifically, a label transfer algorithm simultaneously uses pseudo labels to train the data while refining the pseudo labels as an online clustering algorithm. It treats the online label refinery problem as an optimal transport problem, which explores the minimum cost for assigning M samples to N pseudo labels. More importantly, we introduce a group-aware strategy to assign implicit attribute group IDs to samples. The combination of the online label refining algorithm and the group-aware strategy can better correct the noisy pseudo label in an online fashion and narrow down the search space of the target identity. The effectiveness of the proposed GLT is demonstrated by the experimental results (Rank-1 accuracy) for Market1501$\to$DukeMTMC (82.0\%) and DukeMTMC$\to$Market1501 (92.2\%), remarkably closing the gap between unsupervised and supervised performance on person re-identification.
翻訳日:2021-03-25 00:51:56 公開日:2021-03-23
# (参考訳) 感性分析を用いたテキスト分類の新しいアプローチ

A New Approach To Text Rating Classification Using Sentiment Analysis ( http://arxiv.org/abs/2103.12368v1 )

ライセンス: CC BY 4.0
Thomas Konstantinovsky(参考訳) 感情分析の典型的なユースケースは、ある感情に属するテキストの確率を評価し、それに関する洞察を導出することを中心に展開される。 本稿では,三角構造構築ブロックとしての感情比の値を再定義し,製品レビューの形式で与えられたテキストを高評価群と低評価群に分類する新しい公式の変数を導出し,感情と評価との間に依存性があることを実証する。

Typical use cases of sentiment analysis usually revolve around assessing the probability of a text belonging to a certain sentiment and deriving insight concerning it; little work has been done to explore further use cases derived using those probabilities in the context of rating. In this paper, we redefine the sentiment proportion values as building blocks for a triangle structure, allowing us to derive variables for a new formula for classifying text given in the form of product reviews into a group of higher and a group of lower ratings and prove a dependence exists between the sentiments and the ratings.
翻訳日:2021-03-25 00:37:54 公開日:2021-03-23
# (参考訳) ReCU: バイナリニューラルネットワークのデッドウェイトを復活させる

ReCU: Reviving the Dead Weights in Binary Neural Networks ( http://arxiv.org/abs/2103.12369v1 )

ライセンス: CC BY 4.0
Zihan Xu, Mingbao Lin, Jianzhuang Liu, Jie Chen, Ling Shao, Yue Gao, Yonghong Tian, Rongrong Ji(参考訳) バイナリニューラルネットワーク(BNN)は、計算とメモリの大幅な削減により注目を集めている。 既存のほとんどの研究は、完全精度の重みと双項化の間のギャップを最小化することによる量子化誤差の低減、あるいは勾配のミスマッチを軽減するために勾配近似を設計することに焦点を当てている。 これにより、BNNのトレーニング時の収束が遅くなる。 本稿では,BNNのトレーニング中にほとんど更新されていない重み群に対する「死重み」の影響を初めて検討し,更新のための「死重み」を復活させるために修正クランプユニット(ReCU)を導入する。 ReCUによる「死重み」の復活は、量子化誤差が小さくなることを示す。 さらに、重みの情報エントロピーも考慮し、重みの標準化がBNNにとって有益である理由を数学的に分析する。 量子化誤差の最小化と情報エントロピーの最大化との間に本質的な矛盾を示すとともに,「死重み」の範囲を同定するための適応型指数型スケジューラを提案する。 CIFAR-10 や ImageNet 上での高速な BNN 訓練だけでなく,近年の手法と比較して最先端のパフォーマンスも実現している。 コードは[このhttps URL](https://github.com/z-hXu/ReCU)で入手できる。

Binary neural networks (BNNs) have received increasing attention due to their superior reductions of computation and memory. Most existing works focus on either lessening the quantization error by minimizing the gap between the full-precision weights and their binarization or designing a gradient approximation to mitigate the gradient mismatch, while leaving the "dead weights" untouched. This leads to slow convergence when training BNNs. In this paper, for the first time, we explore the influence of "dead weights" which refer to a group of weights that are barely updated during the training of BNNs, and then introduce rectified clamp unit (ReCU) to revive the "dead weights" for updating. We prove that reviving the "dead weights" by ReCU can result in a smaller quantization error. Besides, we also take into account the information entropy of the weights, and then mathematically analyze why the weight standardization can benefit BNNs. We demonstrate the inherent contradiction between minimizing the quantization error and maximizing the information entropy, and then propose an adaptive exponential scheduler to identify the range of the "dead weights". By considering the "dead weights", our method offers not only faster BNN training, but also state-of-the-art performance on CIFAR-10 and ImageNet, compared with recent methods. Code can be available at [this https URL](https://github.com/z-hXu/ReCU).
翻訳日:2021-03-25 00:31:53 公開日:2021-03-23
# (参考訳) 高周波特徴を用いた顔偽造検出の一般化

Generalizing Face Forgery Detection with High-frequency Features ( http://arxiv.org/abs/2103.12376v1 )

ライセンス: CC BY 4.0
Yuchen Luo, Yong Zhang, Junchi Yan, Wei Liu(参考訳) 現在の顔偽造検出法は、同じアルゴリズムでトレーニングとテストの偽造を合成するデータベース内シナリオにおいて高い精度を達成する。 しかし、トレーニングとテストの偽造を異なるアルゴリズムで合成するクロスデータベースシナリオでは、パフォーマンスを満足できるものはほとんどない。 本稿では,現在のCNNベースの検出器は,手法固有の色彩テクスチャに過度に適合し,一般化に失敗する傾向にあることを示す。 画像ノイズが色のテクスチャを除去し,真偽領域と改ざん領域の相違を露呈するのを見て,その高周波ノイズを顔偽造検出に用いることを提案する。 高周波機能を完全に活用するために、3つの機能モジュールを慎重に設計する。 1つは、複数のスケールで高周波ノイズを抽出し、新しいモダリティを構成するマルチスケールの高周波特徴抽出モジュールである。 2つ目は、低レベルのRGB特徴抽出器を誘導し、新しい視点から偽の痕跡に集中させる残留誘導型空間アテンションモジュールである。 最後に、2つの補完的モダリティ間の相関を利用して互いに機能学習を促進するクロスモダリティアテンションモジュールがある。 いくつかのベンチマークデータベースにおける総合評価は,提案手法の優れた一般化性能を裏付けるものである。

Current face forgery detection methods achieve high accuracy under the within-database scenario where training and testing forgeries are synthesized by the same algorithm. However, few of them gain satisfying performance under the cross-database scenario where training and testing forgeries are synthesized by different algorithms. In this paper, we find that current CNN-based detectors tend to overfit to method-specific color textures and thus fail to generalize. Observing that image noises remove color textures and expose discrepancies between authentic and tampered regions, we propose to utilize the high-frequency noises for face forgery detection. We carefully devise three functional modules to take full advantage of the high-frequency features. The first is the multi-scale high-frequency feature extraction module that extracts high-frequency noises at multiple scales and composes a novel modality. The second is the residual-guided spatial attention module that guides the low-level RGB feature extractor to concentrate more on forgery traces from a new perspective. The last is the cross-modality attention module that leverages the correlation between the two complementary modalities to promote feature learning for each other. Comprehensive evaluations on several benchmark databases corroborate the superior generalization performance of our proposed method.
翻訳日:2021-03-25 00:15:12 公開日:2021-03-23
# (参考訳) GPT-3によるヘイトスピーチの検出

Detecting Hate Speech with GPT-3 ( http://arxiv.org/abs/2103.12407v1 )

ライセンス: CC BY 4.0
Ke-Li Chiu and Rohan Alexander(参考訳) OpenAIのGPT-3のような洗練された言語モデルは、疎外グループをターゲットにしたヘイトフルテキストを生成することができる。 この能力を考えると、大きな言語モデルを使ってヘイトスピーチを識別し、テキストをセクシストや人種差別主義者に分類できるかに興味があります。 gpt-3を用いて、ゼロ、ワン、マイショットの学習でセクシストや人種差別的な文章を識別する。 ゼロ・ワンショットの学習では、GPT-3は性別や人種差別のテキストを48%から69%の精度で識別できる。 プロンプトに少量の学習とインストラクションが組み込まれており、モデルの精度は最大で78パーセントである。 我々は,大規模言語モデルがヘイトスピーチの検出において果たす役割と,ヘイトスピーチや自己警察に対抗するためにさらなる開発言語モデルを使用することを結論した。

Sophisticated language models such as OpenAI's GPT-3 can generate hateful text that targets marginalized groups. Given this capacity, we are interested in whether large language models can be used to identify hate speech and classify text as sexist or racist? We use GPT-3 to identify sexist and racist text passages with zero-, one-, and few-shot learning. We find that with zero- and one-shot learning, GPT-3 is able to identify sexist or racist text with an accuracy between 48 per cent and 69 per cent. With few-shot learning and an instruction included in the prompt, the model's accuracy can be as high as 78 per cent. We conclude that large language models have a role to play in hate speech detection, and that with further development language models could be used to counter hate speech and even self-police.
翻訳日:2021-03-25 00:01:19 公開日:2021-03-23
# (参考訳) 連続バイオマーカー分布のテールクォンタイルを用いた二元性疾患予測

Binary disease prediction using tail quantiles of the distribution of continuous biomarkers ( http://arxiv.org/abs/2103.12409v1 )

ライセンス: CC BY 4.0
Michiel H.J. Paus, Edwin R. van den Heuvel, Marc J.M. Meddens(参考訳) 二元性疾患分類では, 単一バイオマーカーは有意な識別力を持たず, 多数のバイオマーカーから複数のバイオマーカーを選択すべきである。 多くのアプローチが存在するが、それはケースとコントロールの間のバイオマーカーの平均的な違いに対してのみうまく機能する。 しかし、生物学的プロセスはより異質であり、他の分布特性(例えば、)にも相違が生じる可能性がある。 ばらつき、歪み)。 多くの機械学習技術は、高次分布差を利用して、時には説明可能性の犠牲になる。 本研究では,複数の連続バイオマーカーの選択に基づく2値分類法であるqbp(quanttile based prediction)を提案する。 QBPは、ケースとコントロールのバイオマーカー分布の尾を使って単一のスコアを生成する。 この単一スコアはROC分析によって評価され、予測力を調べることができる。 QBPの性能は、広範囲なシミュレーション研究による教師あり学習法と比較され、主要なうつ病障害とトリソミーの2つのケーススタディである。 同時に、既存のテクニックの分類性能を相互に評価する。 QBPの重要な強みは、関連するバイオマーカーを選択する機会と、バイオマーカーが主にケースとコントロールの違いを示す場合における優れた分類性能である。 バイオマーカーに平均シフトのみが存在する場合、QBPは劣った性能を得た。 最後に,QBPは病原性バイオマーカーが欠如している場合には非バイアスであり,MDD症例では他の方法よりも優れていた。 性能改善の機会がいくつかあるため、QBPをさらに最適化するにはさらなる研究が必要である。 ここで、qbpの原理を紹介し、その可能性を示す。

In the analysis of binary disease classification, single biomarkers might not have significant discriminating power and multiple biomarkers from a large set of biomarkers should be selected. Numerous approaches exist, but they merely work well for mean differences in biomarkers between cases and controls. Biological processes are however much more heterogeneous, and differences could also occur in other distributional characteristics (e.g. variances, skewness). Many machine learning techniques are better capable of utilizing these higher order distributional differences, sometimes at cost of explainability. In this study we propose quantile based prediction (QBP), a binary classification method that is based on the selection of multiple continuous biomarkers. QBP generates a single score using the tails of the biomarker distributions for cases and controls. This single score can then be evaluated by ROC analysis to investigate its predictive power. The performance of QBP is compared to supervised learning methods using extensive simulation studies, and two case studies: major depression disorder and trisomy. Simultaneously, the classification performance of the existing techniques in relation to each other is assessed. The key strengths of QBP are the opportunity to select relevant biomarkers and the outstanding classification performance in the case biomarkers predominantly show variance differences between cases and controls. When only shifts in means were present in the biomarkers, QBP obtained an inferior performance. Lastly, QBP proved to be unbiased in case of absence of disease relevant biomarkers and outperformed the other methods on the MDD case study. More research is needed to further optimize QBP, since it has several opportunities to improve its performance. Here we wanted to introduce the principle of QBP and show its potential.
翻訳日:2021-03-24 23:51:19 公開日:2021-03-23
# (参考訳) ディープマルチタスク学習を用いたヘイトスピーチ検出のための多領域異種データ活用

Leveraging Multi-domain, Heterogeneous Data using Deep Multitask Learning for Hate Speech Detection ( http://arxiv.org/abs/2103.12412v1 )

ライセンス: CC BY 4.0
Prashant Kapil, Asif Ekbal(参考訳) ソーシャルメディア上のユーザ生成webコンテンツの指数関数的な増加に伴い、インターネットのさまざまなセクションにわたる個人やグループへの乱用言語の普及も急速に増加している。 人間のモデレーターが攻撃内容を特定し、それらをフィルタリングするのは非常に難しい。 ディープニューラルネットワークは、ヘイトスピーチ検出とアライアンスアプリケーションに適切な精度で保証されている。 しかし、分類器はトレーニングデータのサイズと品質に大きく依存している。 このような高品質の大規模データセットは入手が容易ではない。 また、近年出現した既存のデータセットは、同じアノテーションガイドラインに従って作成されておらず、憎悪に関連する異なるタイプやサブタイプに関心を持つことが多い。 このデータの分散化問題を解決するため,CNNに基づくマルチタスク学習モデル(MTLs)\footnote{codeはhttps://github.com/imprasshant/STL-MTL}で利用可能であり,複数の情報源からの情報を活用する。 3つのベンチマークデータセットで行った実証分析では、既存のシステムに対して最先端のパフォーマンスを得るための精度とf-scoreの大幅な改善が提案手法の有効性を示している。

With the exponential rise in user-generated web content on social media, the proliferation of abusive languages towards an individual or a group across the different sections of the internet is also rapidly increasing. It is very challenging for human moderators to identify the offensive contents and filter those out. Deep neural networks have shown promise with reasonable accuracy for hate speech detection and allied applications. However, the classifiers are heavily dependent on the size and quality of the training data. Such a high-quality large data set is not easy to obtain. Moreover, the existing data sets that have emerged in recent times are not created following the same annotation guidelines and are often concerned with different types and sub-types related to hate. To solve this data sparsity problem, and to obtain more global representative features, we propose a Convolution Neural Network (CNN) based multi-task learning models (MTLs)\footnote{code is available at https://github.com/imprasshant/STL-MTL} to leverage information from multiple sources. Empirical analysis performed on three benchmark datasets shows the efficacy of the proposed approach with the significant improvement in accuracy and F-score to obtain state-of-the-art performance with respect to the existing systems.
翻訳日:2021-03-24 23:25:39 公開日:2021-03-23
# (参考訳) スイスの山岳湖における最近の氷の傾向:MODIS画像の20年間の解析

Recent Ice Trends in Swiss Mountain Lakes: 20-year Analysis of MODIS Imagery ( http://arxiv.org/abs/2103.12434v1 )

ライセンス: CC BY 4.0
Manu Tom and Tianyu Wu and Emmanuel Baltsavias and Konrad Schindler(参考訳) 湖氷の枯渇は、海面上昇や氷河の後退と同様に、気候変動の指標となる。 いくつかの湖氷現象(LIP)は、地域や地球規模の気候変動を理解するためにセンチネルとして機能している。 したがって、長期の湖氷と融解パターンのモニタリングは非常に有用である。 本稿では,20年(2000年~2020年)の光学衛星画像から,スイス・オーバーエンガディン地域には,小規模・中規模の山岳湖が複数存在し,口唇現象の観察に焦点をあてた。 我々は、これらのアルパイン湖の氷の空間分解マップを教師付き機械学習で推定することにより、MODIS画像の時系列(およびVIIRSデータとのクロスチェック)を分析した。 分類器の訓練には、公開されているWebカメラ画像に基づいて手動で注釈付けされた参照データを利用する。 氷の地図から長期のLIP傾向を導き出す。 Webカメラのデータは2つの冬にしか利用できないため、運用用MODISおよびVIIRS雪氷製品に対しても検証を行う。 シルス湖とシルバプラナ湖では,総凍結期間 (CFD) が-0.76日と-0.89日 (d/a) に変化した。 さらに,湖の凍結・解凍傾向を,近くの気象観測所で観測された気温,日照,降水,風などの気候データと比較した。

Depleting lake ice can serve as an indicator for climate change, just like sea level rise or glacial retreat. Several Lake Ice Phenological (LIP) events serve as sentinels to understand the regional and global climate change. Hence, monitoring the long-term lake freezing and thawing patterns can prove very useful. In this paper, we focus on observing the LIP events such as freeze-up, break-up and temporal freeze extent in the Oberengadin region of Switzerland, where there are several small- and medium-sized mountain lakes, across two decades (2000-2020) from optical satellite images. We analyse time-series of MODIS imagery (and additionally cross-check with VIIRS data when available), by estimating spatially resolved maps of lake ice for these Alpine lakes with supervised machine learning. To train the classifier we rely on reference data annotated manually based on publicly available webcam images. From the ice maps we derive long-term LIP trends. Since the webcam data is only available for two winters, we also validate our results against the operational MODIS and VIIRS snow products. We find a change in Complete Freeze Duration (CFD) of -0.76 and -0.89 days per annum (d/a) for lakes Sils and Silvaplana respectively. Furthermore, we correlate the lake freezing and thawing trends with climate data such as temperature, sunshine, precipitation and wind measured at nearby meteorological stations.
翻訳日:2021-03-24 23:15:14 公開日:2021-03-23
# (参考訳) 多様体空間における部分マッチング

Partial Matching in the Space of Varifolds ( http://arxiv.org/abs/2103.12441v1 )

ライセンス: CC BY 4.0
Pierre-Louis Antonsanti, Joan Glaun\`es, Thomas Benseghir, Vincent Jugnon, Ir\`ene Kaltenmark(参考訳) コンピュータビジョンと医用画像において、マッチング構造の問題は自動アノテーションからデータ再構成への多くの応用を見出す。 しかし、同じ解剖学に対応するデータは、しばしば位相や形状において大きく異なり、部分的に一致するだけである。 曲線や曲面などの様々な幾何学的形状に対する非対称データ不同性項を導入する。 この用語は多様体の形状表現に基づいており、点間の対応に頼らずに別の図形への埋め込みを評価する。 大変形拡散型計量マッピング(LDDMM)フレームワーク用のデータアタッチメントとして設計されており、一方の形状を他方のサブセットに有意な変形を計算することができる。 CT (Computed Tomography) とCBCT (Cone Beam Computed Tomography) の2つの異なるモードから合成3D曲線, 実血管木, 肝表面の登録を図示した。 すべての実験は、このデータ差分項が位相的差にもかかわらずコヒーレントな部分マッチングをもたらすことを示した。

In computer vision and medical imaging, the problem of matching structures finds numerous applications from automatic annotation to data reconstruction. The data however, while corresponding to the same anatomy, are often very different in topology or shape and might only partially match each other. We introduce a new asymmetric data dissimilarity term for various geometric shapes like sets of curves or surfaces. This term is based on the Varifold shape representation and assesses the embedding of a shape into another one without relying on correspondences between points. It is designed as data attachment for the Large Deformation Diffeomorphic Metric Mapping (LDDMM) framework, allowing to compute meaningful deformation of one shape onto a subset of the other. Registrations are illustrated on sets of synthetic 3D curves, real vascular trees and livers' surfaces from two different modalities: Computed Tomography (CT) and Cone Beam Computed Tomography (CBCT). All experiments show that this data dissimilarity term leads to coherent partial matching despite the topological differences.
翻訳日:2021-03-24 22:34:39 公開日:2021-03-23
# (参考訳) ニューラルネットワークモデルは優れたプラジャリストか? ニューラルパラフレーズ検出のためのベンチマーク

Are Neural Language Models Good Plagiarists? A Benchmark for Neural Paraphrase Detection ( http://arxiv.org/abs/2103.12450v1 )

ライセンス: CC BY-SA 4.0
Jan Philip Wahle, Terry Ruas, Norman Meuschke, Bela Gipp(参考訳) BERTのような言語モデルの台頭は、高品質なテキストパラフレーズを可能にする。 これは、オリジナルコンテンツとマシン生成コンテンツの区別が難しいため、学術的整合性の問題である。 本稿では,Transformerアーキテクチャに依存する最近の言語モデルを用いて,パラフレーズ付き記事からなるベンチマークを提案する。 本研究は,従来の文書とパラフレーズの集合,その構造,最先端システムを用いた分類実験,そしてその成果を公開することによって,パラフレーズ検出システムの将来的な研究を促進するものである。

The rise of language models such as BERT allows for high-quality text paraphrasing. This is a problem to academic integrity, as it is difficult to differentiate between original and machine-generated content. We propose a benchmark consisting of paraphrased articles using recent language models relying on the Transformer architecture. Our contribution fosters future research of paraphrase detection systems as it offers a large collection of aligned original and paraphrased documents, a study regarding its structure, classification experiments with state-of-the-art systems, and we make our findings publicly available.
翻訳日:2021-03-24 22:19:53 公開日:2021-03-23
# (参考訳) 多くの最適な腕を持つバンディット

Bandits with many optimal arms ( http://arxiv.org/abs/2103.12452v1 )

ライセンス: CC BY 4.0
Rianne de Heide and James Cheshire and Pierre M\'enard and Alexandra Carpentier(参考訳) 我々は、おそらく無限の腕を持つ確率的バンディット問題を考える。 最適アームの比率は$p^*$ であり、最適アームと準最適アームの間の最小平均ガップは$\delta$ である。 我々は、累積的な後悔の設定と、問題のパラメータである$t$(予算)、$p^*$、$\delta$という観点で、最適学習率を特徴付ける。 累積的後悔を最小限に抑えるため、位数$\Omega(\log(T)/(p^*\Delta))$と、上限値が$\log(1/\Delta)$に一致するUPBスタイルのアルゴリズムを提供する。 我々のアルゴリズムはパラメータを校正するために$p^*$を必要とし、この設定で$p^*$に適応することは不可能であるため、この知識が必要であることを証明します。 最良アームの識別には、$c>0$ が絶対定数である部分最適アームを出力する確率について、$\omega(\exp(-ct\delta^2p^*))$ という順序の下限も与える。 また、指数関数において下界が$\log(1/\Delta)$の係数に一致する上限を持つ除去アルゴリズムを提供し、パラメータとして$p^*$や$\Delta$を必要としない。

We consider a stochastic bandit problem with a possibly infinite number of arms. We write $p^*$ for the proportion of optimal arms and $\Delta$ for the minimal mean-gap between optimal and sub-optimal arms. We characterize the optimal learning rates both in the cumulative regret setting, and in the best-arm identification setting in terms of the problem parameters $T$ (the budget), $p^*$ and $\Delta$. For the objective of minimizing the cumulative regret, we provide a lower bound of order $\Omega(\log(T)/(p^*\Delta))$ and a UCB-style algorithm with matching upper bound up to a factor of $\log(1/\Delta)$. Our algorithm needs $p^*$ to calibrate its parameters, and we prove that this knowledge is necessary, since adapting to $p^*$ in this setting is impossible. For best-arm identification we also provide a lower bound of order $\Omega(\exp(-cT\Delta^2p^*))$ on the probability of outputting a sub-optimal arm where $c>0$ is an absolute constant. We also provide an elimination algorithm with an upper bound matching the lower bound up to a factor of order $\log(1/\Delta)$ in the exponential, and that does not need $p^*$ or $\Delta$ as parameter.
翻訳日:2021-03-24 22:11:17 公開日:2021-03-23
# (参考訳) DualConv: 形状対応のためのデュアルメッシュ畳み込みネットワーク

DualConv: Dual Mesh Convolutional Networks for Shape Correspondence ( http://arxiv.org/abs/2103.12459v1 )

ライセンス: CC BY 4.0
Nitika Verma, Adnane Boukhayma, Jakob Verbeek, Edmond Boyer(参考訳) 畳み込みニューラルネットワークは2d画像で非常に成功し、3dボクセルデータを扱うために容易に拡張されている。 メッシュはより一般的な3次元形状表現であり、ボクセルのように周囲空間ではなく形状表面を定量化し、通常の形状や外観のような表面の性質にアクセスできる。 しかし、メッシュ上のディープニューラルネットワークの定式化は、近隣のノードの数が異なる不規則なデータ構造であるため、より複雑である。 グラフ畳み込みネットワークは従来,メッシュ頂点データ上で提案されてきたが,本論文では,ノードが頂点の代わりに三角形の面を表す三角メッシュの二重面表現にどのように拡張できるかを考察する。 原始頂点メッシュと比較して、その顔双対はいくつかの利点があり、重要なことに、各三角形の面がちょうど3つの隣り合わせを持つという意味では、二重メッシュは正規である。 さらに、デュアルメッシュは、表面正規値や顔領域など、顔上で自然に定義される多くの入力機能の使用を示唆している。 FAUSTの人体形状データセットにおける形状対応タスクに対する2つのアプローチをメッシュトポロジによって評価した。 While applying generic graph convolutions to the dual mesh shows already improvements over primal mesh inputs, our experiments demonstrate that building additionally convolutional models that explicitly leverage the neighborhood size regularity of dual meshes enables learning shape representations that perform on par or better than previous approaches in terms of correspondence accuracy and mean geodesic error, while being more robust to topological changes in the meshes between training and testing shapes.

Convolutional neural networks have been extremely successful for 2D images and are readily extended to handle 3D voxel data. Meshes are a more common 3D shape representation that quantize the shape surface instead of the ambient space as with voxels, hence giving access to surface properties such as normals or appearances. The formulation of deep neural networks on meshes is, however, more complex since they are irregular data structures where the number of neighbors varies across vertices. While graph convolutional networks have previously been proposed over mesh vertex data, in this paper we explore how these networks can be extended to the dual face-based representation of triangular meshes, where nodes represent triangular faces in place of vertices. In comparison to the primal vertex mesh, its face dual offers several advantages, including, importantly, that the dual mesh is regular in the sense that each triangular face has exactly three neighbors. Moreover, the dual mesh suggests the use of a number of input features that are naturally defined over faces, such as surface normals and face areas. We evaluate the dual approach on the shape correspondence task on the FAUST human shape dataset and other versions of it with varying mesh topology. While applying generic graph convolutions to the dual mesh shows already improvements over primal mesh inputs, our experiments demonstrate that building additionally convolutional models that explicitly leverage the neighborhood size regularity of dual meshes enables learning shape representations that perform on par or better than previous approaches in terms of correspondence accuracy and mean geodesic error, while being more robust to topological changes in the meshes between training and testing shapes.
翻訳日:2021-03-24 22:10:09 公開日:2021-03-23
# (参考訳) RPATTACK: 汎用オブジェクト検出器に対するパッチ攻撃の修正

RPATTACK: Refined Patch Attack on General Object Detectors ( http://arxiv.org/abs/2103.12469v1 )

ライセンス: CC0 1.0
Hao Huang, Yongtao Wang, Zhaoyu Chen, Zhi Tang, Wenqiang Zhang and Kai-Kuang Ma(参考訳) 今日では、YOLOやFaster R-CNNのような一般的な物体検出器やその変種は、多くのアプリケーションで広く利用されている。 多くの研究により、これらの検出器は敵対的なパッチ攻撃に対して極めて脆弱であることが判明した。 以前のパッチベースの物体検出装置に対する攻撃によって生じる摂動領域は非常に大きく、人間の目にとって攻撃には必要ない。 より少ないがより効率的な摂動を生成するために,汎用物体検出器を攻撃するためのパッチベース手法を提案する。 まず,不連続な摂動を徐々に取り除き,攻撃に最も重要となる画素を見つけるためのパッチ選択と精細化手法を提案する。 安定なアンサンブル攻撃では、検知器の勾配のバランスを保ち、トレーニングフェーズ中に過度に最適化されるのを避ける。 我々のRPAttackは、2007年のVOCテストセットで0.32%のピクセルだけを修正しながら、Yolo v4とFaster R-CNNの両方で100%の見逃し検出率を達成することができる。 私たちのコードはhttps://github.com/VDIGPKU/RPAttack.comで公開されています。

Nowadays, general object detectors like YOLO and Faster R-CNN as well as their variants are widely exploited in many applications. Many works have revealed that these detectors are extremely vulnerable to adversarial patch attacks. The perturbed regions generated by previous patch-based attack works on object detectors are very large which are not necessary for attacking and perceptible for human eyes. To generate much less but more efficient perturbation, we propose a novel patch-based method for attacking general object detectors. Firstly, we propose a patch selection and refining scheme to find the pixels which have the greatest importance for attack and remove the inconsequential perturbations gradually. Then, for a stable ensemble attack, we balance the gradients of detectors to avoid over-optimizing one of them during the training phase. Our RPAttack can achieve an amazing missed detection rate of 100% for both Yolo v4 and Faster R-CNN while only modifies 0.32% pixels on VOC 2007 test set. Our code is available at https://github.com/VDIGPKU/RPAttack.
翻訳日:2021-03-24 21:50:39 公開日:2021-03-23
# (参考訳) 交通アクターの将来予測における長尺道路の設置について

On Exposing the Challenging Long Tail in Future Prediction of Traffic Actors ( http://arxiv.org/abs/2103.12474v1 )

ライセンス: CC BY-SA 4.0
Osama Makansi, \"Ozg\"un Cicek, Yassine Marrakchi, and Thomas Brox(参考訳) 自律システムにとって、動的交通アクターの状態をフューチャーに予測することは、安全かつ効率的に運用することが重要である。 驚くべきことに、最も重要なシナリオは、非クリティカルシナリオよりもあまり頻繁で複雑ではない。 そこで,本論文では,データセット分布のロングテールにおける難解なsce-nariosについて述べる。 以上より,共通損失は埋込み空間に準最適にchalleng-ing caseを配置する傾向を示した。 この結果から,従来の損失を補うために,難解な事例が互いに近づき合うような余暇を補うことを提案する。 このトリガーは、困難なケース間で情報を共有し、特定の予測機能を学ぶ。 4つのpub-licデータセットで、全体的なパフォーマンスが安定しながら、カオスシナリオのパフォーマンスが向上することを示した。 アプローチは agnostic w.r.t. である。 使用されるネットワークアーキテクチャ、入力モダリティまたは視点は、既存のソリューションに容易に分類できる。

Predicting the states of dynamic traffic actors into the fu-ture is important for autonomous systems to operate safelyand efficiently. Remarkably, the most critical scenarios aremuch less frequent and more complex than the uncriticalones. Therefore, uncritical cases dominate the prediction.In this paper, we address specifically the challenging sce-narios at the long tail of the dataset distribution. Our anal-ysis shows that the common losses tend to place challeng-ing cases sub-optimally in the embedding space. As a con-sequence, we propose to supplement the usual loss with aloss that places challenging cases closer to each other. Thistriggers sharing information among challenging cases andlearning specific predictive features. We show on four pub-lic datasets that this leads to improved performance on thechallenging scenarios while the overall performance staysstable. The approach is agnostic w.r.t. the used networkarchitecture, input modality or viewpoint, and can be inte-grated into existing solutions easily.
翻訳日:2021-03-24 21:39:44 公開日:2021-03-23
# (参考訳) 旅行推薦における次の都市への意識に基づくニューラルリランクアプローチ

Attention-based neural re-ranking approach for next city in trip recommendations ( http://arxiv.org/abs/2103.12475v1 )

ライセンス: CC BY 4.0
Aleksandr Petrov, Yuriy Makarov(参考訳) 本稿では,旅行予約システムにおける次の目的地都市レコメンデーション問題を解決するためのアプローチについて述べる。 本研究では,候補選択のためのヒューリスティックアプローチと,候補再選のための注意ニューラルネットワークモデルを提案する。 提案手法は,自然言語処理,特にトランスフォーマーアーキテクチャにおけるリストワイズ学習と最近の発展に着想を得たものである。 このアプローチを使ってbooking.comのレコメンデーションチャレンジを解いたのですが、この方法では、データセットのクローズド部分に0.555 accuracy@4値の5位を獲得しました。

This paper describes an approach to solving the next destination city recommendation problem for a travel reservation system. We propose a two stages approach: a heuristic approach for candidates selection and an attention neural network model for candidates re-ranking. Our method was inspired by listwise learning-to-rank methods and recent developments in natural language processing and the transformer architecture in particular. We used this approach to solve the Booking.com recommendations challenge Our team achieved 5th place on the challenge using this method, with 0.555 accuracy@4 value on the closed part of the dataset.
翻訳日:2021-03-24 21:21:00 公開日:2021-03-23
# (参考訳) ゼロショットグラフ埋め込みのための意味知識の拡張

Expanding Semantic Knowledge for Zero-shot Graph Embedding ( http://arxiv.org/abs/2103.12491v1 )

ライセンス: CC BY 4.0
Zheng Wang, Ruihang Shao, Changping Wang, Changjun Hu, Chaokun Wang, Zhiguo Gong(参考訳) ゼロショットグラフ埋め込みは教師付きグラフ学習の大きな課題である。 RECTの最近の手法は有望な性能を示しているが、その動作メカニズムは明確ではなく、まだ多くのトレーニングデータが必要である。 本稿では、RECTに関する深い洞察を与え、その基本的な限界に対処する。 その核となる部分はgnnの原型モデルであり、クラスプロトタイプはその平均特徴ベクトルによって記述される。 そのため、RECTは生のインプット特徴空間から中間レベルのセマンティック空間にノードをマッピングし、生のインプット特徴を見えるクラスと見えないクラスの両方に接続する。 このメカニズムにより、RECTは目に見えるクラスと目に見えないクラスの両方でうまく機能する。 その全可能性を実現するために,ラベル拡張戦略を2つ提案する。 具体的には、目に見えないクラスのラベル付きノードセットを拡張することに加えて、目に見えないクラスの拡張も可能です。 実世界のデータセットの実験は、我々の方法の優越性を検証する。

Zero-shot graph embedding is a major challenge for supervised graph learning. Although a recent method RECT has shown promising performance, its working mechanisms are not clear and still needs lots of training data. In this paper, we give deep insights into RECT, and address its fundamental limits. We show that its core part is a GNN prototypical model in which a class prototype is described by its mean feature vector. As such, RECT maps nodes from the raw-input feature space into an intermediate-level semantic space that connects the raw-input features to both seen and unseen classes. This mechanism makes RECT work well on both seen and unseen classes, which however also reduces the discrimination. To realize its full potentials, we propose two label expansion strategies. Specifically, besides expanding the labeled node set of seen classes, we can also expand that of unseen classes. Experiments on real-world datasets validate the superiority of our methods.
翻訳日:2021-03-24 21:13:24 公開日:2021-03-23
# (参考訳) グローバル相関ネットワーク:エンドツーエンドの複数物体検出と追跡

Global Correlation Network: End-to-End Joint Multi-Object Detection and Tracking ( http://arxiv.org/abs/2103.12511v1 )

ライセンス: CC BY 4.0
Xuewu Lin, Yu-ang Guo, Jianqiang Wang(参考訳) 近年、マルチオブジェクトトラッキング(mot)は大きな進歩を遂げているが、まだいくつか問題がある。 ほとんどのMOTアルゴリズムは、検出と追跡を2つの独立した部分に分離するトラッキング・バイ・検出フレームワークに従う。 早期追跡検出アルゴリズムは、検出と追跡のために2つの特徴抽出を行う必要がある。 近年,特定のネットワークに特徴抽出を行うアルゴリズムもあるが,追跡部はデータアソシエーションに依存しており,ライフサイクル管理に複雑な後処理が必要である。 これらの手法は検出と追跡をうまく組み合わせていない。 本稿では,GCNet(Global correlation Network)と呼ばれる,複数物体の同時検出と追跡をエンドツーエンドで実現する新しいネットワークを提案する。 多くのオブジェクト検出方法とは異なり、GCNetはオフセット予測の代わりに絶対サイズの回帰とバウンディングボックスの座標のグローバル相関層を導入している。 GCNetによる検出と追跡のパイプラインは概念的にはシンプルで、非最大抑制、データアソシエーション、その他の複雑な追跡戦略を必要としない。 GCNetはマルチサイクルトラッキングデータセットであるUA-DETRACで評価され、最先端の検出器やトラッカーと比較して有望な性能を示す。

Multi-object tracking (MOT) has made great progress in recent years, but there are still some problems. Most MOT algorithms follow tracking-by-detection framework, which separates detection and tracking into two independent parts. Early tracking-by-detection algorithms need to do two feature extractions for detection and tracking. Recently, some algorithms make the feature extraction into one network, but the tracking part still relies on data association and needs complex post-processing for life cycle management. Those methods do not combine detection and tracking well. In this paper, we present a novel network to realize joint multi-object detection and tracking in an end-to-end way, called Global Correlation Network (GCNet). Different from most object detection methods, GCNet introduces the global correlation layer for regression of absolute size and coordinates of bounding boxes instead of offsets prediction. The pipeline of detection and tracking by GCNet is conceptually simple, which does not need non-maximum suppression, data association, and other complicated tracking strategies. GCNet was evaluated on a multi-vehicle tracking dataset, UA-DETRAC, and demonstrates promising performance compared to the state-of-the-art detectors and trackers.
翻訳日:2021-03-24 21:06:34 公開日:2021-03-23
# (参考訳) マルチソース特徴に基づく短期電力負荷予測における支配的特徴の発見

Uncovering Dominant Features in Short-term Power Load Forecasting Based on Multi-source Feature ( http://arxiv.org/abs/2103.12534v1 )

ライセンス: CC BY 4.0
Pan Zeng, Md Fazla Elahe, Junlin Xu, Min Jin(参考訳) データ可用性の限界により、従来の電力負荷予測手法は、負荷変動パターンの研究と、負荷変動の内部メカニズムを明らかにすることができない温度やホリデーなど、少数の要因の影響に重点を置いている。 本論文は, 電力負荷変動と影響要因の複雑な関係を研究するため, 天文学, 地理学, 社会から80の潜在的特徴を抽出し, 短時間電力負荷予測法を提案する。 ケーススタディでは,最先端手法と比較して,予測精度を33.0%から34.7%向上した。 その結果, 地理的特徴が負荷予測精度の向上に最も大きな影響を与えていることが明らかとなった。 天文学的な特徴は社会的な特徴よりも大きな影響を及ぼし、太陽に関連する特徴が重要な役割を果たす。 土曜日と月曜日が最も重要な社会的特徴である。 温度、太陽のゼニス角、トワイライト持続時間、ラグした空グローバル水平放射光は、電力負荷とv字型の関係を持ち、それらのバランスポイントが存在することを示している。 グローバル水平照射は電力負荷に負の関係がある。

Due to the limitation of data availability, traditional power load forecasting methods focus more on studying the load variation pattern and the influence of only a few factors such as temperature and holidays, which fail to reveal the inner mechanism of load variation. This paper breaks the limitation and collects 80 potential features from astronomy, geography, and society to study the complex nexus between power load variation and influence factors, based on which a short-term power load forecasting method is proposed. Case studies show that, compared with the state-of-the-art methods, the proposed method improves the forecasting accuracy by 33.0% to 34.7%. The forecasting result reveals that geographical features have the most significant impact on improving the load forecasting accuracy, in which temperature is the dominant feature. Astronomical features have more significant influence than social features and features related to the sun play an important role, which are obviously ignored in previous research. Saturday and Monday are the most important social features. Temperature, solar zenith angle, civil twilight duration, and lagged clear sky global horizontal irradiance have a V-shape relationship with power load, indicating that there exist balance points for them. Global horizontal irradiance is negatively related to power load.
翻訳日:2021-03-24 20:54:16 公開日:2021-03-23
# (参考訳) 時間的ダイナミクスと多様性を考慮したニュースレコメンダシステム

A News Recommender System Considering Temporal Dynamics and Diversity ( http://arxiv.org/abs/2103.12537v1 )

ライセンス: CC BY 4.0
Shaina Raza(参考訳) ニュースレコメンデーションシステムでは、読者の好みは時間とともに変化する。 いくつかの嗜好は突然に(短期的な嗜好)漂うが、一方で長い期間(長期的な嗜好)で変化する。 既存のニュースレコメンダシステムは読者の全履歴を考慮しているが、読者の行動のダイナミクスを無視することが多い。 したがって、ニュース読者の時間によって異なる嗜好に対する要求を満たすことはできない。 さらに、最先端のニュースレコメンデーションモデルは、従来のレコメンデーションシナリオでうまく機能する正確な予測を提供することにしばしば重点を置いている。 しかし、ニュースレコメンデーションシステムでは、多様性はニュース読者の関与を維持するだけでなく、民主主義社会において重要な役割を果たすためにも不可欠である。 この博士論文の目標は、これらの2つの課題に対処するニュースレコメンデーションシステムを構築することです。 本システムでは, 読者行動のダイナミクスに適応し, (i) 推薦モデルの設計において, 精度と多様性の両方を考慮すべきである。 ニュースレコメンダシステムは、ニュースアイテムの豊富なサイド情報を活用し、私たちのモデルに暗黙的なフィードバックを含めることで、非プロファイル、匿名、短期の読者にも機能します。 提案手法の有効性を実証するため,複数の評価尺度(精度と多様性指向指標の両方)を用いて評価を行った。

In a news recommender system, a reader's preferences change over time. Some preferences drift quite abruptly (short-term preferences), while others change over a longer period of time (long-term preferences). Although the existing news recommender systems consider the reader's full history, they often ignore the dynamics in the reader's behavior. Thus, they cannot meet the demand of the news readers for their time-varying preferences. In addition, the state-of-the-art news recommendation models are often focused on providing accurate predictions, which can work well in traditional recommendation scenarios. However, in a news recommender system, diversity is essential, not only to keep news readers engaged, but also to play a key role in a democratic society. In this PhD dissertation, our goal is to build a news recommender system to address these two challenges. Our system should be able to: (i) accommodate the dynamics in reader behavior; and (ii) consider both accuracy and diversity in the design of the recommendation model. Our news recommender system can also work for unprofiled, anonymous and short-term readers, by leveraging the rich side information of the news items and by including the implicit feedback in our model. We evaluate our model with multiple evaluation measures (both accuracy and diversity-oriented metrics) to demonstrate the effectiveness of our methods.
翻訳日:2021-03-24 20:43:16 公開日:2021-03-23
# (参考訳) BoXHED 2.0:生存分析における関数データのスケーラビリティ向上

BoXHED 2.0: Scalable boosting of functional data in survival analysis ( http://arxiv.org/abs/2103.12591v1 )

ライセンス: CC BY 4.0
Arash Pakbin, Xiaochen Wang, Bobak J. Mortazavi, Donald K.K. Lee(参考訳) 生存分析の現代的応用は、関数データの形式を構成する時間依存の共変体をますます含んでいる。 関数データからの学習は通常、数値的に高価である時間積分の繰り返し評価を伴う。 本研究では,機能データを非機能データに変換する軽量データ前処理ステップを提案する。 非機能データの実装を加速することで、トレーニングフェーズの一部として必要な数値統合が無償で可能になる。 この手法を用いて、木組みのハザードパッケージであるBoXHED 1.0に対する量子飛躍であるBoXHED 2.0を開発した。 BoXHED 2.0はBoXHED 1.0をAalenの乗算強度モデルに拡張する。 また、前処理やXGBoostのコアコンポーネントから借用されているため、非常にスケーラブルである。 BoXHED 2.0はGPUとマルチコアCPUの使用をサポートし、GitHubから入手できる。

Modern applications of survival analysis increasingly involve time-dependent covariates, which constitute a form of functional data. Learning from functional data generally involves repeated evaluations of time integrals which is numerically expensive. In this work we propose a lightweight data preprocessing step that transforms functional data into nonfunctional data. Boosting implementations for nonfunctional data can then be used, whereby the required numerical integration comes for free as part of the training phase. We use this to develop BoXHED 2.0, a quantum leap over the tree-boosted hazard package BoXHED 1.0. BoXHED 2.0 extends BoXHED 1.0 to Aalen's multiplicative intensity model, which covers censoring schemes far beyond right-censoring and also supports recurrent events data. It is also massively scalable because of preprocessing and also because it borrows from the core components of XGBoost. BoXHED 2.0 supports the use of GPUs and multicore CPUs, and is available from GitHub: www.github.com/BoXHED.
翻訳日:2021-03-24 20:32:45 公開日:2021-03-23
# (参考訳) MRIにおけるマルチスキャナ変動を模倣する拡張戦略

An augmentation strategy to mimic multi-scanner variability in MRI ( http://arxiv.org/abs/2103.12595v1 )

ライセンス: CC BY 4.0
Maria Ines Meyer, Ezequiel de la Rosa, Nuno Barros, Roberto Paolella, Koen Van Leemput and Diana M. Sima(参考訳) 一般に公開されているほとんどの脳MRIデータセットは、スキャナーとプロトコルの観点から非常に均一であり、そのようなデータから学習したモデルがマルチセンターおよびマルチスキャナーデータに一般化することは困難である。 本研究では,実世界の臨床データにみられる強度とコントラストの差分を近似するために,新しいデータ拡張手法を提案する。 ガウス混合モデルを用いて組織強度を個別に変化させ,解剖学的情報を保存しながら新たなコントラストを生成する。 我々は、単一のスキャナーデータセットでディープラーニングモデルをトレーニングし、マルチセンターおよびマルチスキャナーデータセットで評価する。 提案手法は,トレーニングデータに存在しない他のスキャナへのモデルの一般化能力を向上させる。

Most publicly available brain MRI datasets are very homogeneous in terms of scanner and protocols, and it is difficult for models that learn from such data to generalize to multi-center and multi-scanner data. We propose a novel data augmentation approach with the aim of approximating the variability in terms of intensities and contrasts present in real world clinical data. We use a Gaussian Mixture Model based approach to change tissue intensities individually, producing new contrasts while preserving anatomical information. We train a deep learning model on a single scanner dataset and evaluate it on a multi-center and multi-scanner dataset. The proposed approach improves the generalization capability of the model to other scanners not present in the training data.
翻訳日:2021-03-24 20:22:02 公開日:2021-03-23
# (参考訳) ラップ歌詞の韻律強調表現学習のための一般的なフレームワーク

A General Framework for Learning Prosodic-Enhanced Representation of Rap Lyrics ( http://arxiv.org/abs/2103.12615v1 )

ライセンス: CC BY 4.0
Hongru Liang, Haozheng Wang, Qian Li, Jun Wang, Guandong Xu, Jiawei Chen, Jin-Mao Wei, Zhenglu Yang(参考訳) ラップ歌詞の学習と分析は、World Wide Webにおけるデジタル音楽の豊富な供給源のため、音楽推薦、自動分類、音楽情報検索など、多くのウェブアプリケーションにとって重要な基盤となっている。 多くの研究がこの話題を探求しているが、韻律情報やその効果的な表現といった重要な問題や様々な特徴の適切な統合は無視されるため、この分野の知識は十分ではない。 本稿では,rap歌詞表現学習における意味的特徴と韻律的特徴を同時に考慮した階層的注意変動オートエンコーダフレームワーク(havae)を提案する。 具体的には、韻律的特徴の表現は、新しい効果的な戦略(すなわちrhyme2vec)を持つ音韻的転写によって符号化される。 さらに,様々な特徴を適切に統合し,韻律強調表現を生成する特徴集約戦略を提案する。 包括的実証的評価により,提案フレームワークはラップ歌詞学習タスクにおいて,様々な指標で最先端のアプローチを上回っていることが示された。

Learning and analyzing rap lyrics is a significant basis for many web applications, such as music recommendation, automatic music categorization, and music information retrieval, due to the abundant source of digital music in the World Wide Web. Although numerous studies have explored the topic, knowledge in this field is far from satisfactory, because critical issues, such as prosodic information and its effective representation, as well as appropriate integration of various features, are usually ignored. In this paper, we propose a hierarchical attention variational autoencoder framework (HAVAE), which simultaneously consider semantic and prosodic features for rap lyrics representation learning. Specifically, the representation of the prosodic features is encoded by phonetic transcriptions with a novel and effective strategy~(i.e., rhyme2vec). Moreover, a feature aggregation strategy is proposed to appropriately integrate various features and generate prosodic-enhanced representation. A comprehensive empirical evaluation demonstrates that the proposed framework outperforms the state-of-the-art approaches under various metrics in different rap lyrics learning tasks.
翻訳日:2021-03-24 20:14:00 公開日:2021-03-23
# (参考訳) 遺伝的列生成:多次元最適輸送問題の高速計算

Genetic column generation: Fast computation of high-dimensional multi-marginal optimal transport problems ( http://arxiv.org/abs/2103.12624v1 )

ライセンス: CC BY-SA 4.0
Gero Friesecke, Andreas S. Schulz, and Daniela V\"ogler(参考訳) 本稿では, 密度汎関数理論によるMMOT(Multi-marginal optimal transport)問題を数値的に解くための, 単純, 正確, 極めて効率的な手法を提案する。 この方法は、(i)最適計画のスパース性(それぞれ$\ell$ gridpoints で区別された$n$ marginals に対して、一般のカントロヴィチ計画では $\ell^n$ gridpoints を必要とするが、オプティマイザのサポートは $o(\ell\cdot n)$ [fv18]]、(ii)我々の知識が mmot で使われていない離散最適化によるカラム生成(cg)の方法、(iii)機械学習からのアイデアに依存する。 CGにおけるよく知られたボトルネックは、新しい候補列を効率的に生成することであり、我々の文脈では、最良の新しい列を見つけることはNP完全問題であることを示す。 このボトルネックを克服するために、我々は、CG内の二重状態がWasserstein GANsと緩やかな類似性において「逆境」の役割を果たすMMOT用に作られた遺伝的学習法を用いている。 最大120のグリッドポイントと最大30のマージンを持つベンチマーク問題に対して,本手法は常に最適化器を見出した。 さらに、それらを見つけるのに必要な計算ステップの数は、N$と$\ell$が同時に増加するときのみ多項式的にスケールするように見える(粒子系の熱力学限界を模倣するためにそれらの比率を固定している)。

We introduce a simple, accurate, and extremely efficient method for numerically solving the multi-marginal optimal transport (MMOT) problems arising in density functional theory. The method relies on (i) the sparsity of optimal plans [for $N$ marginals discretized by $\ell$ gridpoints each, general Kantorovich plans require $\ell^N$ gridpoints but the support of optimizers is of size $O(\ell\cdot N)$ [FV18]], (ii) the method of column generation (CG) from discrete optimization which to our knowledge has not hitherto been used in MMOT, and (iii) ideas from machine learning. The well-known bottleneck in CG consists in generating new candidate columns efficiently; we prove that in our context, finding the best new column is an NP-complete problem. To overcome this bottleneck we use a genetic learning method tailormade for MMOT in which the dual state within CG plays the role of an "adversary", in loose similarity to Wasserstein GANs. On a sequence of benchmark problems with up to 120 gridpoints and up to 30 marginals, our method always found the exact optimizers. Moreover, empirically the number of computational steps needed to find them appears to scale only polynomially when both $N$ and $\ell$ are simultaneously increased (while keeping their ratio fixed to mimic a thermodynamic limit of the particle system).
翻訳日:2021-03-24 19:52:54 公開日:2021-03-23
# (参考訳) 外れ値はすべて同じですか? OOD検出における外乱の多様性の理解について

Are all outliers alike? On Understanding the Diversity of Outliers for Detecting OODs ( http://arxiv.org/abs/2103.12628v1 )

ライセンス: CC BY 4.0
Ramneet Kaur, Susmit Jha, Anirban Roy, Oleg Sokolsky, Insup Lee(参考訳) ディープニューラルネットワーク(DNN)は、オフ・オブ・ディストリビューション(OOD)の入力に非常に高い信頼性を持つ誤った予測を生成することが知られている。 この制限は、自律運転、航空交通管理、医療診断などの高信頼システムにおけるディープラーニングモデルの採用における重要な課題の1つである。 この課題は最近大きな注目を集めており、モデルの予測が信頼できない入力を検出する技術がいくつか開発されている。 これらの技法は異なる統計学的、幾何学的、位相的特徴を用いる。 本稿では,OOD外乱入力の出自と不確実性の性質に基づく分類法を提案する。 既存の検出アプローチが、ある種の外れ値の検出に失敗する様子を実証する。 これらの知見を応用して、異なるタイプの外れ値に対応する複数の属性を利用する新しい統合検出手法を開発する。 CIFAR10, SVHN, MNISTをin-distriionとして, Imagenet, LSUN, SVHN (for CIFAR10), CIFAR10 (for SVHN), KMNIST, F-MNISTを, ResNet34, WideResNet, DenseNet, LeNet5などの異なるDNNアーキテクチャのOODデータとして実験した。

Deep neural networks (DNNs) are known to produce incorrect predictions with very high confidence on out-of-distribution (OOD) inputs. This limitation is one of the key challenges in the adoption of deep learning models in high-assurance systems such as autonomous driving, air traffic management, and medical diagnosis. This challenge has received significant attention recently, and several techniques have been developed to detect inputs where the model's prediction cannot be trusted. These techniques use different statistical, geometric, or topological signatures. This paper presents a taxonomy of OOD outlier inputs based on their source and nature of uncertainty. We demonstrate how different existing detection approaches fail to detect certain types of outliers. We utilize these insights to develop a novel integrated detection approach that uses multiple attributes corresponding to different types of outliers. Our results include experiments on CIFAR10, SVHN and MNIST as in-distribution data and Imagenet, LSUN, SVHN (for CIFAR10), CIFAR10 (for SVHN), KMNIST, and F-MNIST as OOD data across different DNN architectures such as ResNet34, WideResNet, DenseNet, and LeNet5.
翻訳日:2021-03-24 19:30:34 公開日:2021-03-23
# (参考訳) Pairwise Adjusted Mutual Information

Pairwise Adjusted Mutual Information ( http://arxiv.org/abs/2103.12641v1 )

ライセンス: CC BY 4.0
Denys Lazarenko, Thomas Bonald(参考訳) 2つのクラスタリング間の類似性を定量化するためのよく知られた計量は、調整された相互情報である。 相互情報と比較し、ラベルのランダムな置換に基づく補正項を導入し、2つのクラスタリングが偶然に類似することを防止する。 残念ながら、この調整は計量を計算的に高価にする。 本稿では,ラベルの完全置換ではなく, {pairwise} ラベルの置換に基づく新しい調整を提案する。 具体的には、ランダムに選択された2つのサンプルだけがラベルを交換する置換を考える。 提案手法では,クラスタの質を評価するための標準調整相互情報と同様に,時間的複雑性をはるかに低減しつつ,対応する調整されたメトリックが振る舞うことを示す。 両方のメトリクスは、合成データと実データに基づく実験における品質と性能の点で比較される。

A well-known metric for quantifying the similarity between two clusterings is the adjusted mutual information. Compared to mutual information, a corrective term based on random permutations of the labels is introduced, preventing two clusterings being similar by chance. Unfortunately, this adjustment makes the metric computationally expensive. In this paper, we propose a novel adjustment based on {pairwise} label permutations instead of full label permutations. Specifically, we consider permutations where only two samples, selected uniformly at random, exchange their labels. We show that the corresponding adjusted metric, which can be expressed explicitly, behaves similarly to the standard adjusted mutual information for assessing the quality of a clustering, while having a much lower time complexity. Both metrics are compared in terms of quality and performance on experiments based on synthetic and real data.
翻訳日:2021-03-24 19:13:40 公開日:2021-03-23
# (参考訳) 世界で何人のオンラインワーカーがいますか。 データ駆動評価

How Many Online Workers are there in the World? A Data-Driven Assessment ( http://arxiv.org/abs/2103.12648v1 )

ライセンス: CC BY-SA 4.0
Otto K\"assi, Vili Lehdonvirta, Fabian Stephany(参考訳) 世界中の未知の人々が、UpworkやAmazon Mechanical Turkといったオンライン労働プラットフォームを通じて収入を得ている。 さまざまなソースから収集されたデータを組み合わせて、世界中のオンラインワーカー(オンラインフリーランサーとしても知られる)の数をデータ駆動で評価します。 オンライン労働プラットフォームには1億6300万のフリーランサーのプロフィールが登録されている。 約1900万人が少なくとも1度はプラットフォームを通じて作業を受けており、500万人が少なくとも10のプロジェクトを完成させたか、1,000ドル以上を稼いだ。 これらの数字は、2015年以降の登録労働者数の増加を示しているが、労働者が完了した作業量の増加ははるかに少ない。 この結果から、オンラインフリーランシングは、現在、非自明な労働の一部でありながら、国やセクターに分散していることを示している。

An unknown number of people around the world are earning income by working through online labour platforms such as Upwork and Amazon Mechanical Turk. We combine data collected from various sources to build a data-driven assessment of the number of such online workers (also known as online freelancers) globally. Our headline estimate is that there are 163 million freelancer profiles registered on online labour platforms globally. Approximately 19 million of them have obtained work through the platform at least once, and 5 million have completed at least 10 projects or earned at least $1000. These numbers suggest a substantial growth from 2015 in registered worker accounts, but much less growth in amount of work completed by workers. Our results indicate that online freelancing represents a non-trivial segment of labour today, but one that is spread thinly across countries and sectors.
翻訳日:2021-03-24 19:04:39 公開日:2021-03-23
# (参考訳) マルチパラメトリック磁気共鳴画像における前立腺癌の完全自動検出, 分節, グリーソングレード推定のためのディープラーニング

Deep Learning for fully automatic detection, segmentation, and Gleason Grade estimation of prostate cancer in multiparametric Magnetic Resonance Images ( http://arxiv.org/abs/2103.12650v1 )

ライセンス: CC BY 4.0
Oscar J. Pellicer-Valero, Jos\'e L. Marenco Jim\'enez, Victor Gonzalez-Perez, Juan Luis Casanova Ram\'on-Borja, Isabel Mart\'in Garc\'ia, Mar\'ia Barrios Benito, Paula Pelechano G\'omez, Jos\'e Rubio-Briones, Mar\'ia Jos\'e Rup\'erez, Jos\'e D. Mart\'in-Guerrero(参考訳) 多核磁気共鳴画像(MPMRI)の出現は前立腺癌(PCa)の診断に大きな影響を与えており、これは西欧の男性において最も多い悪性腫瘍である。 しかし,これらの画像解析は専門家にとっても複雑であり,コンピュータ支援診断システムによる把握の機会が開けることになる。 本稿では,PCa-suspect 患者から前立腺 mpMRI を抽出し,網膜 U-Net 検出フレームワークを活用することにより,PCa 病変の特定とセグメント化を行い,最も可能性の高い Gleason グレードグループ (GGG) を予測する,Deep Learning に基づく完全自動システムを提案する。 トレーニング/バリデーションには490mpMRIを使用し、ProstateXとIVO(Valencia Oncology Institute Foundation)という2つの異なるデータセットから75人の患者を検査する。 テストセットでは、GGG$\geq$2の重要基準であるProstateXデータセットは0.96/1.00/0.79、IVOデータセットは0.95/1.00/0.80に優れた病変レベルAUC/感度/特異性を達成している。 患者レベルでの評価では、ProstateXは0.87/1.00/0.375、IVOは0.91/1.00/0.762である。 さらに、オンラインのprostatex grand challengeにおいて、モデルは0.85(prostatexデータのみに基づいてトレーニングされた場合0.87)のaucを取得した。 IVO放射線技師のPI-RADS 4の感度/特異性は病変レベル0.88/0.56、患者レベル0.85/0.58であった。 自動前立腺領域分割とmpMRIの非剛性配列登録のための追加サブシステムも、最終完全自動システムを生成するために使用された。 ProstateXでトレーニングされたシステムのコードはhttps://github.com/OscarPellicer/prostate_lesion_detectionで公開されている。 これは将来の研究が利用し、比較し、改善するためのランドマークになることを期待しています。

The emergence of multi-parametric magnetic resonance imaging (mpMRI) has had a profound impact on the diagnosis of prostate cancers (PCa), which is the most prevalent malignancy in males in the western world, enabling a better selection of patients for confirmation biopsy. However, analyzing these images is complex even for experts, hence opening an opportunity for computer-aided diagnosis systems to seize. This paper proposes a fully automatic system based on Deep Learning that takes a prostate mpMRI from a PCa-suspect patient and, by leveraging the Retina U-Net detection framework, locates PCa lesions, segments them, and predicts their most likely Gleason grade group (GGG). It uses 490 mpMRIs for training/validation, and 75 patients for testing from two different datasets: ProstateX and IVO (Valencia Oncology Institute Foundation). In the test set, it achieves an excellent lesion-level AUC/sensitivity/specificity for the GGG$\geq$2 significance criterion of 0.96/1.00/0.79 for the ProstateX dataset, and 0.95/1.00/0.80 for the IVO dataset. Evaluated at a patient level, the results are 0.87/1.00/0.375 in ProstateX, and 0.91/1.00/0.762 in IVO. Furthermore, on the online ProstateX grand challenge, the model obtained an AUC of 0.85 (0.87 when trained only on the ProstateX data, tying up with the original winner of the challenge). For expert comparison, IVO radiologist's PI-RADS 4 sensitivity/specificity were 0.88/0.56 at a lesion level, and 0.85/0.58 at a patient level. Additional subsystems for automatic prostate zonal segmentation and mpMRI non-rigid sequence registration were also employed to produce the final fully automated system. The code for the ProstateX-trained system has been made openly available at https://github.com/OscarPellicer/prostate_lesion_detection. We hope that this will represent a landmark for future research to use, compare and improve upon.
翻訳日:2021-03-24 18:56:24 公開日:2021-03-23
# (参考訳) 解けるか? OSSタスクの完了に必要なAPIの特定

Can I Solve It? Identifying APIs Required to Complete OSS Task ( http://arxiv.org/abs/2103.12653v1 )

ライセンス: CC BY 4.0
Fabio Santos, Igor Wiese, Bianca Trinkenreich, Igor Steinmacher, Anita Sarma and Marco Gerosa(参考訳) オープンソースソフトウェアプロジェクトは、コントリビュータがタスクを選択するのを助けるために、オープンイシューにラベルを追加する。 しかし、手動でラベル付けするのは時間がかかり、エラーが発生しやすい。 ラベルを作成するための現在の自動アプローチは、主にバグ/非バグの分類に限られている。 本稿では,タスク完了に必要なAPIのドメインによるラベル付け問題の実現可能性と妥当性について検討する。 問題の記述とプロジェクト履歴を利用して予測モデルを構築し,精度を最大82%まで向上させ,最大97.8%をリコールした。 また,これらのラベルの潜在的貢献者との関連性を評価するために,ユーザ調査(n=74)を実施した。 その結果、ラベルはタスク選択の参加者にとって有用であり、apiドメインラベルは既存のアーキテクチャベースのラベルよりも多く選択された。 私たちの結果は、問題を自動的にラベル付けするツールの作成を刺激し、開発者がスキルに合致するタスクを見つけるのに役立ちます。

Open Source Software projects add labels to open issues to help contributors choose tasks. However, manually labeling issues is time-consuming and error-prone. Current automatic approaches for creating labels are mostly limited to classifying issues as a bug/non-bug. In this paper, we investigate the feasibility and relevance of labeling issues with the domain of the APIs required to complete the tasks. We leverage the issues' description and the project history to build prediction models, which resulted in precision up to 82% and recall up to 97.8%. We also ran a user study (n=74) to assess these labels' relevancy to potential contributors. The results show that the labels were useful to participants in choosing tasks, and the API-domain labels were selected more often than the existing architecture-based labels. Our results can inspire the creation of tools to automatically label issues, helping developers to find tasks that better match their skills.
翻訳日:2021-03-24 18:22:39 公開日:2021-03-23
# (参考訳) Replacing Rewards with Examples: Example-based Policy Search via Recursive Classification

Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification ( http://arxiv.org/abs/2103.12656v1 )

ライセンス: CC BY 4.0
Benjamin Eysenbach, Sergey Levine, and Ruslan Salakhutdinov(参考訳) 標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。 しかし、多くのシナリオでは、ユーザーは単語や数字でタスクを記述できないが、タスクが解決された場合、世界がどのように見えるかを簡単に示すことができる。 この観察によって動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的とした第一原理から導かれる。 2段階のプロセスで同様の問題設定にアプローチし、まず補助報酬関数を学習し、次に別の強化学習アルゴリズムを用いて報酬関数を最適化する。 対照的に,補助報酬関数を回避し,その代わりに遷移や成功から価値関数を直接学習する再帰的分類に基づく手法を導出する。 したがって、チューニングするハイパーパラメータとデバッグするコードの行数が少なくなる。 本手法は,従来の報酬関数の代用として,新しいデータ駆動ベルマン方程式を満たしていることを示す。 実験の結果,提案手法は明示的な報酬関数を学習する先行手法よりも優れていた。

In the standard Markov decision process formalism, users specify tasks by writing down a reward function. However, in many scenarios, the user is unable to describe the task in words or numbers, but can readily provide examples of what the world would look like if the task were solved. Motivated by this observation, we derive a control algorithm from first principles that aims to visit states that have a high probability of leading to successful outcomes, given only examples of successful outcome states. Prior work has approached similar problem settings in a two-stage process, first learning an auxiliary reward function and then optimizing this reward function using another reinforcement learning algorithm. In contrast, we derive a method based on recursive classification that eschews auxiliary reward functions and instead directly learns a value function from transitions and successful outcomes. Our method therefore requires fewer hyperparameters to tune and lines of code to debug. We show that our method satisfies a new data-driven Bellman equation, where examples take the place of the typical reward function term. Experiments show that our approach outperforms prior methods that learn explicit reward functions.
翻訳日:2021-03-24 18:00:44 公開日:2021-03-23
# (参考訳) HRIの成功への道 - AI, Trust, ethicS-TRAITS

The Road to a Successful HRI: AI, Trust and ethicS-TRAITS ( http://arxiv.org/abs/2103.12679v1 )

ライセンス: CC BY 4.0
Antonio Andriella, Alessandra Rossi, Silvia Rossi, Anouk van Maris(参考訳) 本ワークショップの目的は,学界や産業の研究者に対して,人間とロボットの関係の相互・複数学際的性質を効果的かつ長期にわたるコラボレーションに向けて議論する機会を提供することである。 このワークショップは、HRIとロボットコミュニティのためのフォーラムを提供し、人間とロボットのインタラクション(HRI)の成功を探求し、その成功に影響を及ぼすさまざまな側面を分析する。 特に焦点は、自律的なインタラクションを実装するために必要なAIアルゴリズムと、ロボットに対する人間の信頼を高め、弱体化させ、回復させる要因である。 最後に、潜在的な倫理的および法的懸念、そしてそれらの対処方法を検討する。 ウェブサイト: https://sites.com google。 com/view/traits-hri

The aim of this workshop is to give researchers from academia and industry the possibility to discuss the inter-and multi-disciplinary nature of the relationships between people and robots towards effective and long-lasting collaborations. This workshop will provide a forum for the HRI and robotics communities to explore successful human-robot interaction (HRI) to analyse the different aspects of HRI that impact its success. Particular focus are the AI algorithms required to implement autonomous interactions, and the factors that enhance, undermine, or recover humans' trust in robots. Finally, potential ethical and legal concerns, and how they can be addressed will be considered. Website: https://sites. google. com/view/traits-hri
翻訳日:2021-03-24 17:32:56 公開日:2021-03-23
# (参考訳) 生成最小化ネットワーク:競争のないGANのトレーニング

Generative Minimization Networks: Training GANs Without Competition ( http://arxiv.org/abs/2103.12685v1 )

ライセンス: CC BY 4.0
Paulina Grnarova, Yannic Kilcher, Kfir Y. Levy, Aurelien Lucchi, Thomas Hofmann(参考訳) 機械学習の多くの応用は最小化問題としてフレーム化でき、勾配に基づく手法で効率的に解ける。 しかし、生成モデル、特にGANの最近の応用は、標準最適化技術が適さないようなmin-maxゲームへの関心を喚起している。 実践者が経験する既知の問題の1つは、収束保証の欠如や非最適サイクルへの収束である。 これらの問題の核心は、プレイヤー間の非自明な依存関係を生成するGAN目標のmin-max構造である。 ゲーム理論との双対性ギャップの概念を用いて、min-max構造を回避できる異なる目的を最適化することにより、この問題に対処することを提案する。 この目的に対して新たな収束保証を提供し,得られた極限点が既知技術よりも優れた解法であることを実証する。

Many applications in machine learning can be framed as minimization problems and solved efficiently using gradient-based techniques. However, recent applications of generative models, particularly GANs, have triggered interest in solving min-max games for which standard optimization techniques are often not suitable. Among known problems experienced by practitioners is the lack of convergence guarantees or convergence to a non-optimum cycle. At the heart of these problems is the min-max structure of the GAN objective which creates non-trivial dependencies between the players. We propose to address this problem by optimizing a different objective that circumvents the min-max structure using the notion of duality gap from game theory. We provide novel convergence guarantees on this objective and demonstrate why the obtained limit point solves the problem better than known techniques.
翻訳日:2021-03-24 17:32:06 公開日:2021-03-23
# (参考訳) チューリングマシンの回路およびニューラルネットワークによるPAC学習ゲイン

PAC-learning gains of Turing machines over circuits and neural networks ( http://arxiv.org/abs/2103.12686v1 )

ライセンス: CC BY 4.0
Brieuc Pinon and Jean-Charles Delvenne and Rapha\"el Jungers(参考訳) 現在のDeep Learningアプローチの多くのアプリケーションに注意すべき点は、大規模なデータが必要であることだ。 コルモゴロフの複雑性の結果から示唆される改善の1つは、最小記述長原理を計算的普遍モデルに適用することである。 このアプローチが原則としてもたらすことのできるサンプル効率の潜在的な向上について検討する。 多項式時間チューリングマシンを用いて計算の普遍的モデルとブール回路を表現し,有限精度桁に作用する人工ニューラルネットワーク(anns)を表現する。 我々の分析は、質問と計算複雑性の直接的な関係を解明する。 ANNの代わりにチューリングマシンで適用したMDL間のサンプル効率の潜在利得について, 下位および上位境界を提供する。 私たちの境界は、学習すべきブール関数の入力のビットサイズに依存する。 さらに,回路の複雑度における古典的オープン問題の密接な関係を浮き彫りにする。

A caveat to many applications of the current Deep Learning approach is the need for large-scale data. One improvement suggested by Kolmogorov Complexity results is to apply the minimum description length principle with computationally universal models. We study the potential gains in sample efficiency that this approach can bring in principle. We use polynomial-time Turing machines to represent computationally universal models and Boolean circuits to represent Artificial Neural Networks (ANNs) acting on finite-precision digits. Our analysis unravels direct links between our question and Computational Complexity results. We provide lower and upper bounds on the potential gains in sample efficiency between the MDL applied with Turing machines instead of ANNs. Our bounds depend on the bit-size of the input of the Boolean function to be learned. Furthermore, we highlight close relationships between classical open problems in Circuit Complexity and the tightness of these.
翻訳日:2021-03-24 17:05:17 公開日:2021-03-23
# (参考訳) 意思決定課題に対するメタ逆逆強化学習による適応的政策の学習

Learning Adaptable Policy via Meta-Adversarial Inverse Reinforcement Learning for Decision-making Tasks ( http://arxiv.org/abs/2103.12694v1 )

ライセンス: CC BY 4.0
Pin Wang, Hanhan Li, Ching-Yao Chan(参考訳) デモから学ぶことは、ここ数年で大きな進歩を遂げた。 しかし、一般的には空腹でタスク固有のデータである。 言い換えれば、特定のタスクで適切なモデルをトレーニングするためには大量のデータが必要である。 実際には、新しいタスクからのデモンストレーションは継続的に観察され、データはラベル付けされないか、部分的にラベル付けされるだけである。 したがって、トレーニングされたモデルは、データサンプルが限られている新しいタスクに適応することが望ましい。 本研究ではメタラーニングと逆逆強化学習(Meta-AIRL)を統合した適応可能な模倣学習モデルを構築する。 対戦型学習と逆強化学習のメカニズムを利用して、利用可能なトレーニングタスクからポリシーと関数を同時に学習し、メタ学習フレームワークでそれらを新しいタスクに適応させる。 シミュレーションの結果,Meta-AIRLでトレーニングした適応型ポリシは,限られた数のデモンストレーションから効果的に学習でき,未確認タスクの専門家に匹敵するパフォーマンスに素早く到達できることがわかった。

Learning from demonstrations has made great progress over the past few years. However, it is generally data hungry and task specific. In other words, it requires a large amount of data to train a decent model on a particular task, and the model often fails to generalize to new tasks that have a different distribution. In practice, demonstrations from new tasks will be continuously observed and the data might be unlabeled or only partially labeled. Therefore, it is desirable for the trained model to adapt to new tasks that have limited data samples available. In this work, we build an adaptable imitation learning model based on the integration of Meta-learning and Adversarial Inverse Reinforcement Learning (Meta-AIRL). We exploit the adversarial learning and inverse reinforcement learning mechanisms to learn policies and reward functions simultaneously from available training tasks and then adapt them to new tasks with the meta-learning framework. Simulation results show that the adapted policy trained with Meta-AIRL can effectively learn from limited number of demonstrations, and quickly reach the performance comparable to that of the experts on unseen tasks.
翻訳日:2021-03-24 17:04:23 公開日:2021-03-23
# (参考訳) パラメータ効率の良い視覚バックボーンのための局所自己注意のスケーリング

Scaling Local Self-Attention For Parameter Efficient Visual Backbones ( http://arxiv.org/abs/2103.12731v1 )

ライセンス: CC BY 4.0
Ashish Vaswani, Prajit Ramachandran, Aravind Srinivas, Niki Parmar, Blake Hechtman, Jonathon Shlens(参考訳) セルフアテンションは、コンボリューションのパラメータ依存スケーリングやコンボリューションのコンボリューション依存相互作用とは対照的に、レセプティブフィールドのパラメータ非依存スケーリングとコンボリューション依存相互作用によるコンピュータビジョンシステムの改善を約束する。 セルフアテンションモデルは最近、resnet-50のようなベースライン畳み込みモデルと比較して、精度パラメータトレードオフの改善を奨励していることが示されている。 本研究は,標準ベースラインモデルだけでなく,高パフォーマンス畳み込みモデルにも勝る自己着想モデルを開発することを目的としている。 我々は,より効率的なセルフアテンションの実装とともに,これらのモデルの速度,メモリ使用量,精度を向上させる2つの自己アテンション拡張を提案する。 我々はこれらの改良を活用し、ImageNet分類ベンチマークのパラメータ制限設定で最先端の精度に達する新しい自己注意モデルファミリである \emph{HaloNets} を開発する。 予備的な転送学習実験では、HaloNetモデルの方がはるかに大きなモデルより優れ、推論性能が良いことが判明した。 オブジェクト検出やインスタンスセグメンテーションといった難しいタスクでは、単純なローカルなセルフアテンションと畳み込みのハイブリッドが、非常に強力なベースラインに対して改善を示しています。 これらの結果は、伝統的に畳み込みモデルによって支配される設定における自己注意モデルの有効性を示す別のステップである。

Self-attention has the promise of improving computer vision systems due to parameter-independent scaling of receptive fields and content-dependent interactions, in contrast to parameter-dependent scaling and content-independent interactions of convolutions. Self-attention models have recently been shown to have encouraging improvements on accuracy-parameter trade-offs compared to baseline convolutional models such as ResNet-50. In this work, we aim to develop self-attention models that can outperform not just the canonical baseline models, but even the high-performing convolutional models. We propose two extensions to self-attention that, in conjunction with a more efficient implementation of self-attention, improve the speed, memory usage, and accuracy of these models. We leverage these improvements to develop a new self-attention model family, \emph{HaloNets}, which reach state-of-the-art accuracies on the parameter-limited setting of the ImageNet classification benchmark. In preliminary transfer learning experiments, we find that HaloNet models outperform much larger models and have better inference performance. On harder tasks such as object detection and instance segmentation, our simple local self-attention and convolutional hybrids show improvements over very strong baselines. These results mark another step in demonstrating the efficacy of self-attention models on settings traditionally dominated by convolutional models.
翻訳日:2021-03-24 16:53:13 公開日:2021-03-23
# (参考訳) PanGEA: Panoramic Graph Environment Annotation Toolkit

PanGEA: The Panoramic Graph Environment Annotation Toolkit ( http://arxiv.org/abs/2103.12703v1 )

ライセンス: CC BY 4.0
Alexander Ku and Peter Anderson and Jordi Pont-Tuset and Jason Baldridge(参考訳) PanGEAはパノラマグラフ環境アノテーションツールキットであり、フォトリアリスティックな3D環境で音声やテキストのアノテーションを収集するための軽量ツールキットである。 PanGEAはアノテータをウェブベースのシミュレーションに没入させ、話すときや聞くときに簡単に動き回れるようにする。 データベースとクラウドストレージの統合に加えて、記録された音声と手書きの書き起こしとアノテータの仮想ポーズを自動的に調整するユーティリティが含まれている。 PanGEAは、ナビゲーション指示とナビゲーション指示の収集という2つのタスクをサポートしており、ウォーキングツアーのアノテート、ランドマークやオブジェクトの発見とラベル付け、同様のタスクに容易に適応できる。 私たちは、Room-Across-Roomデータセット収集のために20,000時間のアノテーションでPanGEAを使用して学んだベストプラクティスを共有します。 当社のオープンソースアノテーションツールキットとインサイトが,将来のデータ収集活動の迅速化と,環境がサポート可能な基盤的言語タスクのイノベーションの促進の両方を期待しています。

PanGEA, the Panoramic Graph Environment Annotation toolkit, is a lightweight toolkit for collecting speech and text annotations in photo-realistic 3D environments. PanGEA immerses annotators in a web-based simulation and allows them to move around easily as they speak and/or listen. It includes database and cloud storage integration, plus utilities for automatically aligning recorded speech with manual transcriptions and the virtual pose of the annotators. Out of the box, PanGEA supports two tasks -- collecting navigation instructions and navigation instruction following -- and it could be easily adapted for annotating walking tours, finding and labeling landmarks or objects, and similar tasks. We share best practices learned from using PanGEA in a 20,000 hour annotation effort to collect the Room-Across-Room dataset. We hope that our open-source annotation toolkit and insights will both expedite future data collection efforts and spur innovation on the kinds of grounded language tasks such environments can support.
翻訳日:2021-03-24 16:31:14 公開日:2021-03-23
# (参考訳) 確率分布間の深さに基づく擬似計量

Depth-based pseudo-metrics between probability distributions ( http://arxiv.org/abs/2103.12711v1 )

ライセンス: CC BY 4.0
Guillaume Staerman, Pavlo Mozharovskyi, St\'ephan Cl\'emen\c{c}on and Florence d'Alch\'e-Buc(参考訳) データ深度は、(w.r.t) に関する任意の元 $x\in\mathbb{R}^d$ の集中度を測定する非パラメトリック統計ツールである。 確率分布またはデータセット。 これは多変数の場合への累積分布関数(cdf)の自然な中央値指向拡張である。 その結果、その上層集合、すなわち深さトリミングされた領域は、多変量体の定義をもたらす。 本研究では,データ深度に基づく連続確率測度と関連する中心領域の2つの新しい擬似測度を提案する。 1つ目はデータ深度w.r.t間のlp距離として構築される。 それぞれの分布は、第2の分布は、その分位域の間のハウスドルフ距離に依存する。 これはさらに、分位数とcdfを含むワッサースタイン距離の1次元公式を多変量空間に拡張する元の方法と見なすことができる。 これらの擬計量の性質を議論し、距離を定義する条件を与えると、ワッサーシュタイン距離との類似性が強調される。 興味深いことに、導出された非漸近的境界は、ワッサーシュタイン距離とは対照的に、提案された擬計量は次元の呪いを伴わないことを示している。 さらに,凸体の支持関数に基づいて,線形時間複雑性 w.r.t を持つ効率的な近似を提案する。 データセットのサイズとその次元です この近似の質と提案手法の性能は実験で示される。 さらに、構成により、領域ベースの擬計量はロバスト w.r.t であるように見える。 アウトリアーとヘビーテールの両方が数値実験で見られた挙動である。

Data depth is a non parametric statistical tool that measures centrality of any element $x\in\mathbb{R}^d$ with respect to (w.r.t.) a probability distribution or a data set. It is a natural median-oriented extension of the cumulative distribution function (cdf) to the multivariate case. Consequently, its upper level sets -- the depth-trimmed regions -- give rise to a definition of multivariate quantiles. In this work, we propose two new pseudo-metrics between continuous probability measures based on data depth and its associated central regions. The first one is constructed as the Lp-distance between data depth w.r.t. each distribution while the second one relies on the Hausdorff distance between their quantile regions. It can further be seen as an original way to extend the one-dimensional formulae of the Wasserstein distance, which involves quantiles and cdfs, to the multivariate space. After discussing the properties of these pseudo-metrics and providing conditions under which they define a distance, we highlight similarities with the Wasserstein distance. Interestingly, the derived non-asymptotic bounds show that in contrast to the Wasserstein distance, the proposed pseudo-metrics do not suffer from the curse of dimensionality. Moreover, based on the support function of a convex body, we propose an efficient approximation possessing linear time complexity w.r.t. the size of the data set and its dimension. The quality of this approximation as well as the performance of the proposed approach are illustrated in experiments. Furthermore, by construction the regions-based pseudo-metric appears to be robust w.r.t. both outliers and heavy tails, a behavior witnessed in the numerical experiments.
翻訳日:2021-03-24 16:23:51 公開日:2021-03-23
# (参考訳) セルフ・スーパーバイザード・プレトレーニングは自己スーパーバイザード・プレトレーニングを改善する

Self-Supervised Pretraining Improves Self-Supervised Pretraining ( http://arxiv.org/abs/2103.12718v1 )

ライセンス: CC BY 4.0
Colorado J. Reed and Xiangyu Yue and Ani Nrusimha and Sayna Ebrahimi and Vivek Vijaykumar and Richard Mao and Bo Li and Shanghang Zhang and Devin Guillory and Sean Metzger and Kurt Keutzer and Trevor Darrell(参考訳) 自己教師付き事前訓練は多くのコンピュータビジョンタスクに有益であることが証明されているが、高価で長い計算と大量のデータを必要とし、データ拡張に敏感である。 以前の研究では、imagenetでトレーニングされた胸部x線モデルやスクラッチからトレーニングされたアンダーパーフォームモデルなど、ターゲットデータと異なるデータセットで事前トレーニングされたモデルが示されている。 事前トレーニングするリソースを持たないユーザは、パフォーマンスの低い既存のモデルを使用する必要がある。 本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。 16種類の視覚データセットを実験することにより、HPTは最大80倍の速度で収束し、タスク間の精度を向上し、自己教師付き事前学習プロセスの堅牢性を改善し、画像強化ポリシーや事前学習データの量を変更する。 HPTは計算資源の少ないより優れた事前訓練された表現を得るためのシンプルなフレームワークを提供する。

While self-supervised pretraining has proven beneficial for many computer vision tasks, it requires expensive and lengthy computation, large amounts of data, and is sensitive to data augmentation. Prior work demonstrates that models pretrained on datasets dissimilar to their target data, such as chest X-ray models trained on ImageNet, underperform models trained from scratch. Users that lack the resources to pretrain must use existing models with lower performance. This paper explores Hierarchical PreTraining (HPT), which decreases convergence time and improves accuracy by initializing the pretraining process with an existing pretrained model. Through experimentation on 16 diverse vision datasets, we show HPT converges up to 80x faster, improves accuracy across tasks, and improves the robustness of the self-supervised pretraining process to changes in the image augmentation policy or amount of pretraining data. Taken together, HPT provides a simple framework for obtaining better pretrained representations with less computational resources.
翻訳日:2021-03-24 15:52:21 公開日:2021-03-23
# (参考訳) 政策情報能力:深層強化学習における課題複雑度に関する情報理論尺度

Policy Information Capacity: Information-Theoretic Measure for Task Complexity in Deep Reinforcement Learning ( http://arxiv.org/abs/2103.12726v1 )

ライセンス: CC BY 4.0
Hiroki Furuta, Tatsuya Matsushima, Tadashi Kozuno, Yutaka Matsuo, Sergey Levine, Ofir Nachum, Shixiang Shane Gu(参考訳) 深層強化学習(RL)研究の進歩は、主にベンチマークタスク環境によって実現されている。 しかし、これらの環境の性質を分析することはしばしば見過ごされる。 特に、各タスクが基本的に異なるアクション、観察、ダイナミクス、報酬を持ち、多様なRLアルゴリズムに対処できることを考えると、タスクの難易度や解決可能性を測定するための合意可能な方法がない。 本研究では,政策パラメータと政策最適情報容量 (poic) の相互情報である政策情報容量 (pic) と政策パラメータと政策最適情報容量 (poic) を,課題難易度に対する環境非依存でアルゴリズム非依存な2つの定量的指標として提案する。 OpenAI GymとDeepMind Control Suiteの連続制御ベンチマークタスクだけでなく、おもちゃ環境のメトリクスを評価することで、これらの情報理論メトリクスが、さまざまな代替手段よりも正常化タスクの可解性スコアと高い相関関係があることを実証的に実証します。 最後に、これらの指標は、報酬形成やポリシーアーキテクチャ、MDPプロパティといった重要な設計パラメータの高速かつ効率的な最適化にも利用でき、完全なRL実験を行なわずにRLアルゴリズムによる解法性を向上させることができることを示す。

Progress in deep reinforcement learning (RL) research is largely enabled by benchmark task environments. However, analyzing the nature of those environments is often overlooked. In particular, we still do not have agreeable ways to measure the difficulty or solvability of a task, given that each has fundamentally different actions, observations, dynamics, rewards, and can be tackled with diverse RL algorithms. In this work, we propose policy information capacity (PIC) -- the mutual information between policy parameters and episodic return -- and policy-optimal information capacity (POIC) -- between policy parameters and episodic optimality -- as two environment-agnostic, algorithm-agnostic quantitative metrics for task difficulty. Evaluating our metrics across toy environments as well as continuous control benchmark tasks from OpenAI Gym and DeepMind Control Suite, we empirically demonstrate that these information-theoretic metrics have higher correlations with normalized task solvability scores than a variety of alternatives. Lastly, we show that these metrics can also be used for fast and compute-efficient optimizations of key design parameters such as reward shaping, policy architectures, and MDP properties for better solvability by RL algorithms without ever running full RL experiments.
翻訳日:2021-03-24 14:17:03 公開日:2021-03-23
# 多言語自動回帰エンティティリンク

Multilingual Autoregressive Entity Linking ( http://arxiv.org/abs/2103.12528v1 )

ライセンス: Link先を確認
Nicola De Cao, Ledell Wu, Kashyap Popat, Mikel Artetxe, Naman Goyal, Mikhail Plekhanov, Luke Zettlemoyer, Nicola Cancedda, Sebastian Riedel, Fabio Petroni(参考訳) 本稿では,多言語エンティティリンク(mel)問題に対して,多言語知識ベース(kb)への言語固有の言及を解決するタスクであるmgenreを提案する。 与えられた言語に言及するために、mGENREは自己回帰的な方法でターゲットエンティティの名前を予測する。 自己回帰的定式化(autoregressive formula)により、参照ベクトルとエンティティベクトルの間の標準ドット積よりも多くのインタラクションを効果的にエンコードできる。 また、参照テーブルに表示されず、大規模なベクトルインデックスを必要とせずに、大きなKB内で高速な検索を可能にする。 以前のMELでは、各エンティティに1つの表現を使用していたが、できるだけ多くの言語のエンティティ名と一致し、ソース入力とターゲット名の間の言語接続を活用できる。 さらに、トレーニングデータを全く持たない言語上のゼロショット設定では、mGENREは、ターゲット言語を予測時に辺縁化される潜在変数として扱う。 これにより平均精度が50%以上向上する。 提案手法の有効性を,mGENREが新しい最先端結果を確立する3つのMELベンチマーク実験を含む広範囲な評価により示す。 code and pre-trained model at https://github.com/facebookresearch/GENRE

We present mGENRE, a sequence-to-sequence system for the Multilingual Entity Linking (MEL) problem -- the task of resolving language-specific mentions to a multilingual Knowledge Base (KB). For a mention in a given language, mGENRE predicts the name of the target entity left-to-right, token-by-token in an autoregressive fashion. The autoregressive formulation allows us to effectively cross-encode mention string and entity names to capture more interactions than the standard dot product between mention and entity vectors. It also enables fast search within a large KB even for mentions that do not appear in mention tables and with no need for large-scale vector indices. While prior MEL works use a single representation for each entity, we match against entity names of as many languages as possible, which allows exploiting language connections between source input and target name. Moreover, in a zero-shot setting on languages with no training data at all, mGENRE treats the target language as a latent variable that is marginalized at prediction time. This leads to over 50% improvements in average accuracy. We show the efficacy of our approach through extensive evaluation including experiments on three popular MEL benchmarks where mGENRE establishes new state-of-the-art results. Code and pre-trained models at https://github.com/facebookresearch/GENRE.
翻訳日:2021-03-24 14:15:07 公開日:2021-03-23
# 定数準最適ギャップを持つ線形実現mdpに対する指数下限

An Exponential Lower Bound for Linearly-Realizable MDPs with Constant Suboptimality Gap ( http://arxiv.org/abs/2103.12690v1 )

ライセンス: Link先を確認
Yuanhao Wang, Ruosong Wang, Sham M. Kakade(参考訳) 強化学習の理論における基本的な質問は、 最適な$q$-関数が与えられた$d$ 次元特徴マッピングの線形スパンにあると仮定すると、標本効率強化学習(rl)は可能か? Weiszらによる最近の顕著な成果。 (2020)はこの問題を負で解決し、指数関数的な($d$)サンプルサイズ下限を提供し、たとえエージェントが環境の生成モデルにアクセスしたとしても保持する。 RL のこの情報理論的障壁は、さらに好ましい仮定を仮定することで回避できると期待できるかもしれない: 最良のアクションの最適な$Q$-値と第2のアクション(すべての状態)の間に \emph{constant suboptimality gap} が存在する。 大きめの最適性ギャップを持つことで、最適な行動の同定がより容易になるので、問題を抽出できる。実際に、エージェントが生成モデルにアクセスできれば、このより好ましい仮定を追加することで、サンプル効率のよいRLが実際に可能である。 私たちのハードネスの結果は、線形に実現可能な最適な$q$-関数を持つことに加えて、一定な準最適性ギャップが仮定されたとしても、指数的サンプル複雑性の下限が依然として保持されていることを示している。 おそらく驚くことに、これはオンラインrl設定と生成モデル設定の指数関数的な分離を意味する。 負の硬さの結果を補うために、サンプル効率の良いrlは、追加の低分散仮定でも、新しいハイパーコントラクティビティ仮定でも実現可能であることを示す2つのポジティブな結果を与える(どちらも、基礎となるダイナミクスモデルに暗黙的に強い条件を与える)。

A fundamental question in the theory of reinforcement learning is: suppose the optimal $Q$-function lies in the linear span of a given $d$ dimensional feature mapping, is sample-efficient reinforcement learning (RL) possible? The recent and remarkable result of Weisz et al. (2020) resolved this question in the negative, providing an exponential (in $d$) sample size lower bound, which holds even if the agent has access to a generative model of the environment. One may hope that this information theoretic barrier for RL can be circumvented by further supposing an even more favorable assumption: there exists a \emph{constant suboptimality gap} between the optimal $Q$-value of the best action and that of the second-best action (for all states). The hope is that having a large suboptimality gap would permit easier identification of optimal actions themselves, thus making the problem tractable; indeed, provided the agent has access to a generative model, sample-efficient RL is in fact possible with the addition of this more favorable assumption. This work focuses on this question in the standard online reinforcement learning setting, where our main result resolves this question in the negative: our hardness result shows that an exponential sample complexity lower bound still holds even if a constant suboptimality gap is assumed in addition to having a linearly realizable optimal $Q$-function. Perhaps surprisingly, this implies an exponential separation between the online RL setting and the generative model setting. Complementing our negative hardness result, we give two positive results showing that provably sample-efficient RL is possible either under an additional low-variance assumption or under a novel hypercontractivity assumption (both implicitly place stronger conditions on the underlying dynamics model).
翻訳日:2021-03-24 14:14:24 公開日:2021-03-23
# IAIA-BL:デジタルマンモグラフィにおける大量病変分類のためのケースベース解釈型深層学習モデル

IAIA-BL: A Case-based Interpretable Deep Learning Model for Classification of Mass Lesions in Digital Mammography ( http://arxiv.org/abs/2103.12308v1 )

ライセンス: Link先を確認
Alina Jade Barnett, Fides Regina Schwartz, Chaofan Tao, Chaofan Chen, Yinhao Ren, Joseph Y. Lo and Cynthia Rudin(参考訳) 機械学習モデルの解釈性は、マンモグラフィ検査に基づいて生検を注文するかどうかなど、ハイステイクの決定において重要である。 マンモグラフィは、他のコンピュータビジョンタスクには存在しない重要な課題を提起する: データセットは小さく、情報が共有されており、放射線科医がマンモグラムのみに基づいて、注意深い待機と生検のどちらを選ぶかを決めることは困難である。 本稿では,機械学習に基づくマンモグラフィのためのフレームワークを提案する。 病変が悪性か良性かの予測に加えて,各画像の臨床的意味的特徴(質量マージンの特徴など)を検出するための放射線科医の推論プロセスにも追従することを目的としている。 このフレームワークは、マンモグラフィーにケースベースの推論を使用する、新しい解釈可能なニューラルネットワークアルゴリズムを含んでいる。 本アルゴリズムは,画像のラベル付きデータと画素別アノテーション付きデータの組み合わせを組み込むことで,少ない画像でも精度と解釈性が向上する。 我々の解釈可能なモデルは画像の分類関連部分を強調することができるが、他の方法では健全な組織と結合した情報を強調する。 私たちのモデルは、意思決定者ではなく、人間と機械のコラボレーションをより良くするための意思決定支援です。 同じデータに基づいてトレーニングされたブラックボックスニューラルネットワークでは,マスマージン分類精度の低下は観測できない。

Interpretability in machine learning models is important in high-stakes decisions, such as whether to order a biopsy based on a mammographic exam. Mammography poses important challenges that are not present in other computer vision tasks: datasets are small, confounding information is present, and it can be difficult even for a radiologist to decide between watchful waiting and biopsy based on a mammogram alone. In this work, we present a framework for interpretable machine learning-based mammography. In addition to predicting whether a lesion is malignant or benign, our work aims to follow the reasoning processes of radiologists in detecting clinically relevant semantic features of each image, such as the characteristics of the mass margins. The framework includes a novel interpretable neural network algorithm that uses case-based reasoning for mammography. Our algorithm can incorporate a combination of data with whole image labelling and data with pixel-wise annotations, leading to better accuracy and interpretability even with a small number of images. Our interpretable models are able to highlight the classification-relevant parts of the image, whereas other methods highlight healthy tissue and confounding information. Our models are decision aids, rather than decision makers, aimed at better overall human-machine collaboration. We do not observe a loss in mass margin classification accuracy over a black box neural network trained on the same data.
翻訳日:2021-03-24 14:12:58 公開日:2021-03-23
# ニューラルネットワークにおける対比推論

Contrastive Reasoning in Neural Networks ( http://arxiv.org/abs/2103.12329v1 )

ライセンス: Link先を確認
Mohit Prabhushankar and Ghassan AlRegib(参考訳) ニューラルネットワークは、データを高次元多様体内の訓練された重みの投影として表現する。 トレーニングされた重みは、因果クラスの依存関係からなる知識ベースとして機能する。 これらの依存関係を特定する機能に基づいて構築された推論は、フィードフォワード推論と呼ばれる。 このような推論機構は古典的因果推論モデルに基づいて正当化される。 帰納的推論に基づくフィードフォワード推論はその数学的単純さと操作容易さのために広く使われている。 それにもかかわらず、フィードフォワードモデルは訓練されていない状況にうまく一般化しない。 この一般化の課題を軽減するため,帰納的な推論モデルを提案する。 ここでは、特定の効果が与えられた既存の重み依存からの変化を表す。 この変化をコントラストと呼び、それに続く推論機構をコントラスト推論と呼ぶ。 本稿では,コントラスト推論の構造を形式化し,ニューラルネットワークのコントラスト概念を抽出する手法を提案する。 ニューラルネットワークの推論パイプラインの2段階において、対照的な推論の価値を実証する。 提案するcifar-10c,stl-10,visdaデータセットにおける平均精度の3.47%,2.56%,5.48%の改善を報告し,歪み下の画像のコントラスト認識の価値を示す。

Neural networks represent data as projections on trained weights in a high dimensional manifold. The trained weights act as a knowledge base consisting of causal class dependencies. Inference built on features that identify these dependencies is termed as feed-forward inference. Such inference mechanisms are justified based on classical cause-to-effect inductive reasoning models. Inductive reasoning based feed-forward inference is widely used due to its mathematical simplicity and operational ease. Nevertheless, feed-forward models do not generalize well to untrained situations. To alleviate this generalization challenge, we propose using an effect-to-cause inference model that reasons abductively. Here, the features represent the change from existing weight dependencies given a certain effect. We term this change as contrast and the ensuing reasoning mechanism as contrastive reasoning. In this paper, we formalize the structure of contrastive reasoning and propose a methodology to extract a neural network's notion of contrast. We demonstrate the value of contrastive reasoning in two stages of a neural network's reasoning pipeline : in inferring and visually explaining decisions for the application of object recognition. We illustrate the value of contrastively recognizing images under distortions by reporting an improvement of 3.47%, 2.56%, and 5.48% in average accuracy under the proposed contrastive framework on CIFAR-10C, noisy STL-10, and VisDA datasets respectively.
翻訳日:2021-03-24 14:12:36 公開日:2021-03-23
# Watermark Faker:デジタル画像透かしの偽造を目指して

Watermark Faker: Towards Forgery of Digital Image Watermarking ( http://arxiv.org/abs/2103.12489v1 )

ライセンス: Link先を確認
Ruowei Wang, Chenguo Lin, Qijun Zhao, Feiyu Zhu(参考訳) デジタル透かしはマルチメディアデータの著作権と完全性を保護するために広く使われている。 従来の研究は主に、埋め込まれた透かしを破壊する攻撃に対して頑健な透かし技術の設計に重点を置いている。 しかし、深層学習に基づく画像生成技術は、回避のために偽の透かし画像を生成することができるかどうかという新たなオープンな問題を提起している。 本稿では,生成的対角学習を用いて,デジタル画像透かし偽造物の開発を初めて試みる。 対象の透かしによって生成されたオリジナル画像と透かし画像のペア画像が利用可能であると仮定し、入力が元の画像であるバックボーンとしてU-Netで透かしフェイカーを訓練し、ドメイン固有の前処理の後、偽の透かし画像を出力する。 実験の結果,提案手法は空間領域と周波数領域のデジタル画像透かしを効果的に解読し,そのような偽造攻撃の危険性を示唆している。

Digital watermarking has been widely used to protect the copyright and integrity of multimedia data. Previous studies mainly focus on designing watermarking techniques that are robust to attacks of destroying the embedded watermarks. However, the emerging deep learning based image generation technology raises new open issues that whether it is possible to generate fake watermarked images for circumvention. In this paper, we make the first attempt to develop digital image watermark fakers by using generative adversarial learning. Suppose that a set of paired images of original and watermarked images generated by the targeted watermarker are available, we use them to train a watermark faker with U-Net as the backbone, whose input is an original image, and after a domain-specific preprocessing, it outputs a fake watermarked image. Our experiments show that the proposed watermark faker can effectively crack digital image watermarkers in both spatial and frequency domains, suggesting the risk of such forgery attacks.
翻訳日:2021-03-24 14:12:19 公開日:2021-03-23
# マルチエージェント移動操作のための空間意図マップ

Spatial Intention Maps for Multi-Agent Mobile Manipulation ( http://arxiv.org/abs/2103.12710v1 )

ライセンス: Link先を確認
Jimmy Wu, Xingyuan Sun, Andy Zeng, Shuran Song, Szymon Rusinkiewicz, Thomas Funkhouser(参考訳) 意図を伝える能力により、分散されたマルチエージェントロボットは、物理的タスクを実行しながら協調することができる。 本研究では,分散移動マニピュレータ間の協調性を改善する多エージェント視覚に基づく深層強化学習のための空間意図マップを提案する。 この表現では、各エージェントの意図は他のエージェントに提供され、視覚的な観察と一致したオーバーヘッド2Dマップに描画される。 これは、状態と行動表現が空間的に整合している、最近提案された空間的行動マップフレームワークと相乗効果があり、物体を互いに渡したり衝突を避けたりといった空間的協調を必要とする創発的協調行動を促進する誘導バイアスを与える。 多様な能力を持つ異種ロボットチーム(リフティング、プッシュ、投球)を含む様々なマルチエージェント環境における実験により、空間意図マップを組み込むことで、異なる移動操作タスクのパフォーマンスが向上し、協調行動が著しく向上することが示された。

The ability to communicate intention enables decentralized multi-agent robots to collaborate while performing physical tasks. In this work, we present spatial intention maps, a new intention representation for multi-agent vision-based deep reinforcement learning that improves coordination between decentralized mobile manipulators. In this representation, each agent's intention is provided to other agents, and rendered into an overhead 2D map aligned with visual observations. This synergizes with the recently proposed spatial action maps framework, in which state and action representations are spatially aligned, providing inductive biases that encourage emergent cooperative behaviors requiring spatial coordination, such as passing objects to each other or avoiding collisions. Experiments across a variety of multi-agent environments, including heterogeneous robot teams with different abilities (lifting, pushing, or throwing), show that incorporating spatial intention maps improves performance for different mobile manipulation tasks while significantly enhancing cooperative behaviors.
翻訳日:2021-03-24 14:11:43 公開日:2021-03-23
# TMR: タフ・メンションのNERリコールの評価

TMR: Evaluating NER Recall on Tough Mentions ( http://arxiv.org/abs/2103.12312v1 )

ライセンス: Link先を確認
Jingxuan Tu and Constantine Lignos(参考訳) 従来の名前付きエンティティ認識(ner)の評価を補完するために、tmr(t tough mentions recall)メトリクスを提案し、"tough"参照の特定のサブセットのリコールを調べる。 本稿では,最近の5つのニューラルアーキテクチャを用いて,英語,スペイン語,オランダ語のコーパスを評価することにより,これらの指標の有用性を示す。 2つの英語NERコーパスにおけるBERTとFrairの性能の微妙な差異を同定し、スペイン語の現行モデルの性能の弱点を同定する。 結論として,tmrメトリクスは,類似するスコーリングシステム間の差別化と,全体的な精度,リコール,f1から注目されないパフォーマンスパターンの識別を可能にする。

We propose the Tough Mentions Recall (TMR) metrics to supplement traditional named entity recognition (NER) evaluation by examining recall on specific subsets of "tough" mentions: unseen mentions, those whose tokens or token/type combination were not observed in training, and type-confusable mentions, token sequences with multiple entity types in the test data. We demonstrate the usefulness of these metrics by evaluating corpora of English, Spanish, and Dutch using five recent neural architectures. We identify subtle differences between the performance of BERT and Flair on two English NER corpora and identify a weak spot in the performance of current models in Spanish. We conclude that the TMR metrics enable differentiation between otherwise similar-scoring systems and identification of patterns in performance that would go unnoticed from overall precision, recall, and F1.
翻訳日:2021-03-24 14:11:26 公開日:2021-03-23
# 知識に基づくVQAのためのマルチモーダル回答検証

Multi-Modal Answer Validation for Knowledge-Based VQA ( http://arxiv.org/abs/2103.12248v1 )

ライセンス: Link先を確認
Jialin Wu, Jiasen Lu, Ashish Sabharwal, Roozbeh Mottaghi(参考訳) 知識に基づく視覚的質問応答の問題は、画像の内容に加えて外部知識を必要とする質問に答えることである。 このような知識は通常、視覚的、テキスト的、常識的な知識を含む様々な形態で提供される。 しかし、より多くの知識ソースを使用することで、より無関係または騒がしい事実を検索する可能性も高まり、事実を理解して答えを見つけるのが難しくなる。 この課題を解決するために,外部知識を用いたマルチモーダル回答検証(MAVEx)を提案する。 これは、しばしば無関係な事実を大量に集めて答えを求める既存のアプローチとは対照的である。 我々のアプローチは、回答候補ごとにどの知識ソースを信頼すべきか、そのソースを使って候補を検証する方法を学ぶことを目的としています。 我々は、Googleで検索した画像、Wikipediaの記事の文、ConceptNetのコンセプトなど、テキストと視覚の両方の知識リソースに依存したマルチモーダルな設定を考える。 難解な知識に基づくVQAデータセットであるOK-VQAを用いた実験により、MAVExが新しい最先端の結果を得ることを示す。

The problem of knowledge-based visual question answering involves answering questions that require external knowledge in addition to the content of the image. Such knowledge typically comes in a variety of forms, including visual, textual, and commonsense knowledge. The use of more knowledge sources, however, also increases the chance of retrieving more irrelevant or noisy facts, making it difficult to comprehend the facts and find the answer. To address this challenge, we propose Multi-modal Answer Validation using External knowledge (MAVEx), where the idea is to validate a set of promising answer candidates based on answer-specific knowledge retrieval. This is in contrast to existing approaches that search for the answer in a vast collection of often irrelevant facts. Our approach aims to learn which knowledge source should be trusted for each answer candidate and how to validate the candidate using that source. We consider a multi-modal setting, relying on both textual and visual knowledge resources, including images searched using Google, sentences from Wikipedia articles, and concepts from ConceptNet. Our experiments with OK-VQA, a challenging knowledge-based VQA dataset, demonstrate that MAVEx achieves new state-of-the-art results.
翻訳日:2021-03-24 14:11:10 公開日:2021-03-23
# ユニバーサル病変検出のための境界マップを用いた条件付きトレーニング

Conditional Training with Bounding Map for Universal Lesion Detection ( http://arxiv.org/abs/2103.12277v1 )

ライセンス: Link先を確認
Han Li, Long Chen, Hu Han, S. Kevin Zhou(参考訳) コンピュータ断層撮影におけるユニバーサル病変検出(ULD)は,コンピュータ支援診断において重要な役割を担っている。 ULDの結果は粗大な2段階検出法によって報告されているが、これらの2段階検出法は正の対価の不均衡などの問題に悩まされている。 対象提案中の負のアンカーと、ローカライゼーション回帰および関心領域(RoI)提案の分類における不十分な監督問題。 有界マップ(BM)のような擬似セグメンテーションマスクを利用することで、上記の問題をある程度低減することができるが、UDDの多様な病変形状や大きさを効果的に扱うことは未解決の問題である。 本稿では,従来のiouに基づく規則に代えてアンカーサンプリングを行うbm-based conditioning (bmc) 機構を用いて,負のアンカー不均衡を低減できる2段階uddに対するbm-based conditional trainingを提案する。 最新の4つの手法を用いた実験により,提案手法は,病変マスクのアノテーションを必要とせず,ほぼ無償で検出精度を向上できることが示された。

Universal Lesion Detection (ULD) in computed tomography plays an essential role in computer-aided diagnosis. Promising ULD results have been reported by coarse-to-fine two-stage detection approaches, but such two-stage ULD methods still suffer from issues like imbalance of positive v.s. negative anchors during object proposal and insufficient supervision problem during localization regression and classification of the region of interest (RoI) proposals. While leveraging pseudo segmentation masks such as bounding map (BM) can reduce the above issues to some degree, it is still an open problem to effectively handle the diverse lesion shapes and sizes in ULD. In this paper, we propose a BM-based conditional training for two-stage ULD, which can (i) reduce positive vs. negative anchor imbalance via BM-based conditioning (BMC) mechanism for anchor sampling instead of traditional IoU-based rule; and (ii) adaptively compute size-adaptive BM (ABM) from lesion bounding box, which is used for improving lesion localization accuracy via ABMsupervised segmentation. Experiments with four state-of-the-art methods show that the proposed approach can bring an almost free detection accuracy improvement without requiring expensive lesion mask annotations.
翻訳日:2021-03-24 14:10:49 公開日:2021-03-23
# 自己指導型コントラスト学習における意味集中を促す背景強化の活用

Leveraging background augmentations to encourage semantic focus in self-supervised contrastive learning ( http://arxiv.org/abs/2103.12719v1 )

ライセンス: Link先を確認
Chaitanya K. Ryali, David J. Schwab, Ari S. Morcos(参考訳) 教師なし表現学習(unsupervised representation learning)は、コンピュータビジョンにおいて重要な課題である。 高性能な自己監督手法において重要な要素は、埋め込み空間に同じ画像の異なる拡張ビューを配置するためのトレーニングモデルによるデータ拡張の利用である。 しかし、一般的に使用される拡張パイプラインは、画像の一部の意味的関連性を無視して、画像を階層的に扱う。 主題と背景は、散発的な相関の学習につながる可能性がある。 本研究は,画像の背景に焦点を合わせないようにすることで,モデルが意味的に関連のあるコンテンツに焦点を合わせることを奨励する,シンプルで効果的な"背景拡張"のクラスを調査することによって,この問題に対処する。 背景拡張により、さまざまなタスクにおける最先端の自己監督メソッド(MoCov2、BYOL、SwaV)のスペクトルにわたるパフォーマンスが大幅に改善され(ImageNet-1kでは+1-2%)、教師付きパフォーマンスの0.3%以内に到達できます。 また,背景の強化により,自然敵の例,背景の課題,敵の攻撃,ReaL ImageNetなど,多数の配布設定の堅牢性が向上することを示す。

Unsupervised representation learning is an important challenge in computer vision, with self-supervised learning methods recently closing the gap to supervised representation learning. An important ingredient in high-performing self-supervised methods is the use of data augmentation by training models to place different augmented views of the same image nearby in embedding space. However, commonly used augmentation pipelines treat images holistically, disregarding the semantic relevance of parts of an image-e.g. a subject vs. a background-which can lead to the learning of spurious correlations. Our work addresses this problem by investigating a class of simple, yet highly effective "background augmentations", which encourage models to focus on semantically-relevant content by discouraging them from focusing on image backgrounds. Background augmentations lead to substantial improvements (+1-2% on ImageNet-1k) in performance across a spectrum of state-of-the art self-supervised methods (MoCov2, BYOL, SwAV) on a variety of tasks, allowing us to reach within 0.3% of supervised performance. We also demonstrate that background augmentations improve robustness to a number of out of distribution settings, including natural adversarial examples, the backgrounds challenge, adversarial attacks, and ReaL ImageNet.
翻訳日:2021-03-24 14:10:24 公開日:2021-03-23
# シーケンス学習による音声認識誤りの幻覚

Hallucination of speech recognition errors with sequence to sequence learning ( http://arxiv.org/abs/2103.12258v1 )

ライセンス: Link先を確認
Prashant Serai and Vishal Sunder and Eric Fosler-Lussier(参考訳) 自動音声認識 (Automatic Speech Recognition, ASR) は、プレーンテキストや文字起こしと比較して、ASR出力テキストのミスマッチを生じる不完全なプロセスである。 平易なテキストデータが音声言語理解システム(ASR)の訓練に使用される場合、そのミスマッチを減らし劣化を防ぐための実証された戦略は、ASRの出力に金の転写を与えることを幻覚させることである。 このドメインでの以前の作業は、音韻レベルでのエラーのモデル化に重点を置いており、レキシコンを使用して携帯電話を単語に変換する。 本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。 これにより、ドメイン内ASRシステムの未確認データの書き起こしによるエラーのリコールや、非関連タスクからのドメイン外ASRシステムのオーディオの書き起こしから、さらにテストASRシステムからの限られた特徴データが取得可能な場合の中間シナリオを探索する。 また,本手法の非本質的妥当性を検証するため,音声質問分類器の訓練に幻覚的ASR誤りを用いることで,列車時間帯にタスク固有の音声が不足あるいはゼロであった場合に,下流タスクにおける実際のASR誤りに対してロバスト性を実現することを確認した。

Automatic Speech Recognition (ASR) is an imperfect process that results in certain mismatches in ASR output text when compared to plain written text or transcriptions. When plain text data is to be used to train systems for spoken language understanding or ASR, a proven strategy to reduce said mismatch and prevent degradations, is to hallucinate what the ASR outputs would be given a gold transcription. Prior work in this domain has focused on modeling errors at the phonetic level, while using a lexicon to convert the phones to words, usually accompanied by an FST Language model. We present novel end-to-end models to directly predict hallucinated ASR word sequence outputs, conditioning on an input word sequence as well as a corresponding phoneme sequence. This improves prior published results for recall of errors from an in-domain ASR system's transcription of unseen data, as well as an out-of-domain ASR system's transcriptions of audio from an unrelated task, while additionally exploring an in-between scenario when limited characterization data from the test ASR system is obtainable. To verify the extrinsic validity of the method, we also use our hallucinated ASR errors to augment training for a spoken question classifier, finding that they enable robustness to real ASR errors in a downstream task, when scarce or even zero task-specific audio was available at train-time.
翻訳日:2021-03-24 14:10:00 公開日:2021-03-23
# 汎用ロバストグラフ畳み込みネットワークのための時空間スペーシング

Spatio-Temporal Sparsification for General Robust Graph Convolution Networks ( http://arxiv.org/abs/2103.12256v1 )

ライセンス: Link先を確認
Mingming Lu, Ya Zhang(参考訳) グラフニューラルネットワーク(GNN)は、様々なグラフ構造データへの応用の成功により、注目を集めている。 しかし、近年の研究では、敵対的攻撃がGNNの機能を脅かしていることが示されている。 様々な視点から敵攻撃を守るために多くの研究が提案されているが、そのほとんどは特定のシナリオでのみ攻撃に対して堅牢である。 このようなロバストな一般化の欠如に対処するために,GNN隠れノード表現に時空間スペーサー化(ST-Sparse)を適用することにより,GNNに対する敵攻撃を防御することを提案する。 st-sparse は spirit の dropout regularization に似ている。 Through intensive experiment evaluation with GCN as the target GNN model, we identify the benefits of ST-Sparse as follows: (1) ST-Sparse shows the defense performance improvement in most cases, as it can effectively increase the robust accuracy by up to 6\% improvement; (2) ST-Sparse illustrates its robust generalization capability by integrating with the existing defense methods, similar to the integration of Dropout into various deep learning models as a standard regularization technique; (3) ST-Sparse also shows its ordinary generalization capability on clean datasets, in that ST-SparseGCN (the integration of ST-Sparse and the original GCN) even outperform the original GCN, while the other three representative defense methods are inferior to the original GCN.

Graph Neural Networks (GNNs) have attracted increasing attention due to its successful applications on various graph-structure data. However, recent studies have shown that adversarial attacks are threatening the functionality of GNNs. Although numerous works have been proposed to defend adversarial attacks from various perspectives, most of them can be robust against the attacks only on specific scenarios. To address this shortage of robust generalization, we propose to defend the adversarial attacks on GNN through applying the Spatio-Temporal sparsification (called ST-Sparse) on the GNN hidden node representation. ST-Sparse is similar to the Dropout regularization in spirit. Through intensive experiment evaluation with GCN as the target GNN model, we identify the benefits of ST-Sparse as follows: (1) ST-Sparse shows the defense performance improvement in most cases, as it can effectively increase the robust accuracy by up to 6\% improvement; (2) ST-Sparse illustrates its robust generalization capability by integrating with the existing defense methods, similar to the integration of Dropout into various deep learning models as a standard regularization technique; (3) ST-Sparse also shows its ordinary generalization capability on clean datasets, in that ST-SparseGCN (the integration of ST-Sparse and the original GCN) even outperform the original GCN, while the other three representative defense methods are inferior to the original GCN.
翻訳日:2021-03-24 14:09:02 公開日:2021-03-23
# drop-bottleneck: ノイズロバスト探索のための離散圧縮表現の学習

Drop-Bottleneck: Learning Discrete Compressed Representation for Noise-Robust Exploration ( http://arxiv.org/abs/2103.12300v1 )

ライセンス: Link先を確認
Jaekyeom Kim, Minjung Kim, Dongyeon Woo, Gunhee Kim(参考訳) 本稿では,ターゲット変数と無関係な特徴を離散的にドロップする,drop-bottleneckという新しい情報ボトルネック法を提案する。 Drop-Bottleneckは単純な圧縮目的だけでなく、一貫した表現を必要とする推論タスクに有用な入力変数の決定論的圧縮表現も提供する。 さらに、特徴抽出器を共同で学習し、目的タスクに対する各特徴次元の関連性を考慮した特徴を選択できるが、ほとんどのニューラルネットワークベースのIB手法では達成できない。 強化学習タスクのためのDrop-Bottleneckに基づく探索手法を提案する。 VizDoom (Kempka et al., 2016) と DMLab (Beattie et al., 2016) の多数のノイズおよび報奨迷路ナビゲーションタスクにおいて, この探索手法は最先端の性能を達成する。 In a new IB framework, we demonstrate that Drop-Bottleneck are outperforms variational Information Bottleneck (VIB) (Alemi et al., 2017) in multiple aspects including adversarial robustness and dimensionality reduction。

We propose a novel information bottleneck (IB) method named Drop-Bottleneck, which discretely drops features that are irrelevant to the target variable. Drop-Bottleneck not only enjoys a simple and tractable compression objective but also additionally provides a deterministic compressed representation of the input variable, which is useful for inference tasks that require consistent representation. Moreover, it can jointly learn a feature extractor and select features considering each feature dimension's relevance to the target task, which is unattainable by most neural network-based IB methods. We propose an exploration method based on Drop-Bottleneck for reinforcement learning tasks. In a multitude of noisy and reward sparse maze navigation tasks in VizDoom (Kempka et al., 2016) and DMLab (Beattie et al., 2016), our exploration method achieves state-of-the-art performance. As a new IB framework, we demonstrate that Drop-Bottleneck outperforms Variational Information Bottleneck (VIB) (Alemi et al., 2017) in multiple aspects including adversarial robustness and dimensionality reduction.
翻訳日:2021-03-24 14:08:43 公開日:2021-03-23
# NNrepair: ニューラルネットワーク分類器の制約に基づく修復

NNrepair: Constraint-based Repair of Neural Network Classifiers ( http://arxiv.org/abs/2103.12535v1 )

ライセンス: Link先を確認
Muhammad Usman, Divya Gopinath, Youcheng Sun, Yannic Noller and Corina Pasareanu(参考訳) 本稿では,ニューラルネットワーク分類器の修復手法であるNNrepairを提案する。 この技術は、中間層または最終層でネットワークのロジックを修正することを目的としている。 NNrepairはまず障害のローカライゼーションを使用して、潜在的な障害のあるネットワークパラメータ(重み付けなど)を見つけ、続いて制約解決を使用して修復を行い、パラメータに小さな修正を加えて欠陥を修復する。 本稿では,中間層修復のオーラクルとして機能する正当性仕様の推測や,各クラスの専門家の生成など,正確かつ効率的な修復を可能にする新しい手法を提案する。 本手法は,(1)モデルの全体的な精度の向上,(2)訓練データの汚染によるセキュリティ上の脆弱性の修正,(3)敵攻撃に対するネットワークの堅牢性の向上,の3つのシナリオで実証されている。 MNIST と CIFAR-10 モデルによる評価の結果,NNrepair は毒データでは 45.56 ポイント,敵対データでは 10.40 ポイント の精度を向上できることがわかった。 NNrepairはまた、新しいデータや再トレーニングを必要とせずに、モデルの全体的な精度をわずかに改善する。

We present NNrepair, a constraint-based technique for repairing neural network classifiers. The technique aims to fix the logic of the network at an intermediate layer or at the last layer. NNrepair first uses fault localization to find potentially faulty network parameters (such as the weights) and then performs repair using constraint solving to apply small modifications to the parameters to remedy the defects. We present novel strategies to enable precise yet efficient repair such as inferring correctness specifications to act as oracles for intermediate layer repair, and generation of experts for each class. We demonstrate the technique in the context of three different scenarios: (1) Improving the overall accuracy of a model, (2) Fixing security vulnerabilities caused by poisoning of training data and (3) Improving the robustness of the network against adversarial attacks. Our evaluation on MNIST and CIFAR-10 models shows that NNrepair can improve the accuracy by 45.56 percentage points on poisoned data and 10.40 percentage points on adversarial data. NNrepair also provides small improvement in the overall accuracy of models, without requiring new data or re-training.
翻訳日:2021-03-24 14:08:26 公開日:2021-03-23
# 隠れマルコフモデルの混合の解釈可能性に向けて

Towards interpretability of Mixtures of Hidden Markov Models ( http://arxiv.org/abs/2103.12576v1 )

ライセンス: Link先を確認
Negar Safinianaini and Henrik Bostr\"om(参考訳) 隠れマルコフモデル(MHMM)の混合は、シーケンシャルデータのクラスタリングに頻繁に使用される。 クラスタリングアプローチにおけるMHMMの重要な側面は、それらが解釈可能であり、データから新たな洞察を得ることができることである。 しかし、解釈可能性の適切な測定方法がなければ、新規貢献の評価は困難であり、この特性を直接最適化する手法を考案することは事実上不可能である。 本研究では,MHMMの解釈可能性に対する情報理論測度(エントロピー)を提案し,それに基づいてモデル解釈可能性を改善する新しい手法,すなわちエントロピー規則化期待最大化(EM)アルゴリズムを提案する。 この新しいアプローチは、MHMM内のマルコフ連鎖(状態遷移行列を含む)のエントロピーを低減すること、すなわちクラスタリング中に共通状態遷移により高い重みを割り当てることを目的としている。 このエントロピーの低減は一般に、クラスタの最も影響力があり重要な状態遷移をより容易に特定できるため、解釈可能性の向上につながると論じられている。 実験的な研究により, クラスタリング性能と計算コストを犠牲にすることなく, エントロピーによって測定されたMHMMの解釈可能性を向上させることが可能であることが確認された。

Mixtures of Hidden Markov Models (MHMMs) are frequently used for clustering of sequential data. An important aspect of MHMMs, as of any clustering approach, is that they can be interpretable, allowing for novel insights to be gained from the data. However, without a proper way of measuring interpretability, the evaluation of novel contributions is difficult and it becomes practically impossible to devise techniques that directly optimize this property. In this work, an information-theoretic measure (entropy) is proposed for interpretability of MHMMs, and based on that, a novel approach to improve model interpretability is proposed, i.e., an entropy-regularized Expectation Maximization (EM) algorithm. The new approach aims for reducing the entropy of the Markov chains (involving state transition matrices) within an MHMM, i.e., assigning higher weights to common state transitions during clustering. It is argued that this entropy reduction, in general, leads to improved interpretability since the most influential and important state transitions of the clusters can be more easily identified. An empirical investigation shows that it is possible to improve the interpretability of MHMMs, as measured by entropy, without sacrificing (but rather improving) clustering performance and computational costs, as measured by the v-measure and number of EM iterations, respectively.
翻訳日:2021-03-24 14:08:06 公開日:2021-03-23
# ハイパーパラメータ最適化による公平性向上

Promoting Fairness through Hyperparameter Optimization ( http://arxiv.org/abs/2103.12715v1 )

ライセンス: Link先を確認
Andr\'e F. Cruz, Pedro Saleiro, Catarina Bel\'em, Carlos Soares, Pedro Bizarro(参考訳) 考慮すべき研究努力はアルゴリズムの公正性に向けて導かれてきたが、実際のバイアス低減技術の採用はいまだに少ない。 既存のメソッドはメトリックまたはモデル固有であり、推論時に機密属性へのアクセスを必要とするか、開発とデプロイメントのコストが高い。 この研究は、現実世界の不正検出アプリケーション、従来のmlモデル開発から生じる不公平さ、そして、シンプルでデプロイが容易な介入(フェアネス・アウェア・ハイパーパラメータ最適化(ho))によってどのように緩和するか、という文脈で探求する。 本稿では,一般的な3つのhoアルゴリズム,fair random search,fair tpe,fairbandの提案と評価を行う。 本手法により,既存の業務の運用を,非摩擦的かつ制御可能な公正なトレードオフを伴うフェアネス目標に適応させることができる。 さらに、既存のバイアス低減技術と組み合わせて、ハイパーパラメータを調整することもできる。 我々は、現実の銀行口座の不正使用事例のオープニングと、フェアネス文献からの3つのデータセットに対するアプローチを検証する。 その結果, トレーニングコストを余分に抑えると, 平均フェアネスが111%増加し, 予測精度が6%低下するモデルが, 標準フェアネスブラインドHOと比較して見いだせることがわかった。

Considerable research effort has been guided towards algorithmic fairness but real-world adoption of bias reduction techniques is still scarce. Existing methods are either metric- or model-specific, require access to sensitive attributes at inference time, or carry high development and deployment costs. This work explores, in the context of a real-world fraud detection application, the unfairness that emerges from traditional ML model development, and how to mitigate it with a simple and easily deployed intervention: fairness-aware hyperparameter optimization (HO). We propose and evaluate fairness-aware variants of three popular HO algorithms: Fair Random Search, Fair TPE, and Fairband. Our method enables practitioners to adapt pre-existing business operations to accommodate fairness objectives in a frictionless way and with controllable fairness-accuracy trade-offs. Additionally, it can be coupled with existing bias reduction techniques to tune their hyperparameters. We validate our approach on a real-world bank account opening fraud use case, as well as on three datasets from the fairness literature. Results show that, without extra training cost, it is feasible to find models with 111% average fairness increase and just 6% decrease in predictive accuracy, when compared to standard fairness-blind HO.
翻訳日:2021-03-24 14:07:45 公開日:2021-03-23
# Tsallis-INFアルゴリズムの確率的マルチアームバンドの逆転破壊に対するロバスト性の改善

Improved Analysis of Robustness of the Tsallis-INF Algorithm to Adversarial Corruptions in Stochastic Multiarmed Bandits ( http://arxiv.org/abs/2103.12487v1 )

ライセンス: Link先を確認
Saeed Masoudian, Yevgeny Seldin(参考訳) 我々は、Zimmert and Seldin (2021) の Tsallis-INF アルゴリズムの後悔境界を改善した。 自制的な制約のある敵対体制と、敵対的腐敗を伴う確率的体制において、我々は腐敗のマグニチュード$c$ の依存性を改善する。 特に、$C = \Theta\left(\frac{T}{\log T}\right)$の場合、$T$は時間地平線であり、Zimmert と Seldin (2021) の境界に対して$\sqrt{\frac{\log T}{\log\log T}}$の乗法係数によって改善される。 また、時間軸に束縛された後悔の依存性を、$\log t$ から $\log \frac{(k-1)t}{(\sum_{i\neq i^*}\frac{1}{\delta_i})^2}$ まで改善する。 さらに,Tsallis-INFを多腕包帯以外の設定に一般化する上で,同様の改良を実現するための一般解析も提供する。

We derive improved regret bounds for the Tsallis-INF algorithm of Zimmert and Seldin (2021). In the adversarial regime with a self-bounding constraint and the stochastic regime with adversarial corruptions as its special case we improve the dependence on corruption magnitude $C$. In particular, for $C = \Theta\left(\frac{T}{\log T}\right)$, where $T$ is the time horizon, we achieve an improvement by a multiplicative factor of $\sqrt{\frac{\log T}{\log\log T}}$ relative to the bound of Zimmert and Seldin (2021). We also improve the dependence of the regret bound on time horizon from $\log T$ to $\log \frac{(K-1)T}{(\sum_{i\neq i^*}\frac{1}{\Delta_i})^2}$, where $K$ is the number of arms, $\Delta_i$ are suboptimality gaps for suboptimal arms $i$, and $i^*$ is the optimal arm. Additionally, we provide a general analysis, which allows to achieve the same kind of improvement for generalizations of Tsallis-INF to other settings beyond multiarmed bandits.
翻訳日:2021-03-24 14:07:09 公開日:2021-03-23
# 限定ラベル分類のための因果視覚特徴抽出

Extracting Causal Visual Features for Limited label Classification ( http://arxiv.org/abs/2103.12322v1 )

ライセンス: Link先を確認
Mohit Prabhushankar and Ghassan AlRegib(参考訳) 画像を分類するために訓練されたニューラルネットワークは、クラスを区別できる特徴を識別する。 これらの特徴セットは因果関係または文脈依存である。 Grad-CAMは両方の機能を視覚化する一般的な方法である。 本稿では,この特徴分割を形式化し,Grad-CAMから因果的特徴を抽出する手法を提案する。 私たちは、予測されたクラスと任意のコントラストクラスのコントラストを可能にする機能としてコンテキスト機能を定義します。 次に、covid-19 ctスキャンのコントラスト特徴と因果関係を分離するために、セット理論的アプローチを適用した。 提案する因果的特徴を持つ画像領域は,Grad-CAMに比べて平均3%の分類精度で,Huffman符号化を用いて符号化する場合,平均15%少ないビットを必要とすることを示す。 さらに,ネットワーク間の因果的特徴の伝達可能性を検証するとともに,現在のネットワークの非人間的解釈可能な因果的性質についてコメントする。

Neural networks trained to classify images do so by identifying features that allow them to distinguish between classes. These sets of features are either causal or context dependent. Grad-CAM is a popular method of visualizing both sets of features. In this paper, we formalize this feature divide and provide a methodology to extract causal features from Grad-CAM. We do so by defining context features as those features that allow contrast between predicted class and any contrast class. We then apply a set theoretic approach to separate causal from contrast features for COVID-19 CT scans. We show that on average, the image regions with the proposed causal features require 15% less bits when encoded using Huffman encoding, compared to Grad-CAM, for an average increase of 3% classification accuracy, over Grad-CAM. Moreover, we validate the transfer-ability of causal features between networks and comment on the non-human interpretable causal nature of current networks.
翻訳日:2021-03-24 14:05:50 公開日:2021-03-23
# bossnas:block-wisely self-supervised neural architectureによるハイブリッドcnn-transformerの探索

BossNAS: Exploring Hybrid CNN-transformers with Block-wisely Self-supervised Neural Architecture Search ( http://arxiv.org/abs/2103.12424v1 )

ライセンス: Link先を確認
Changlin Li, Tao Tang, Guangrun Wang, Jiefeng Peng, Bing Wang, Xiaodan Liang and Xiaojun Chang(参考訳) 視覚認識のための手作りのニューラルアーキテクチャのブレークスルーは、多様化したビルディングブロックで構成されるハイブリッドアーキテクチャを調査する緊急の必要性を強調している。 一方、ニューラルアーキテクチャーの探索手法は、人間の努力を減らすことを期待して急増している。 しかし、NAS法が異なる候補を持つ多種多様な検索空間を効率的に効果的に扱えるかどうか(例えば、等)。 CNNとトランスフォーマー)はまだオープンな質問だ。 本研究では,大重量共有空間による不正確なアーキテクチャ評価の問題に対処し,従来の手法における偏りのある監視手法であるBlock-wise Self-supervised Neural Architecture Search (BossNAS)を提案する。 より具体的には、探索空間をブロックに分類し、アンサンブルブートストラッピング(enmble bootstrapping)と呼ばれる新しい自己教師型トレーニングスキームを用いて、各ブロックを集団中心に向けて検索する前に個別に訓練する。 また,ファブリックのようなハイブリッドCNN変換器検索空間であるHyTra検索空間について述べる。 この挑戦的な検索空間において、我々の検索モデルであるBossNet-Tは、ImageNet上で82.2%の精度を達成し、EfficientNetを2.1%上回った。 さらに,imagenet を用いた正準 mbconv 探索空間と cifar-100 による nats-bench サイズ探索空間では 0.78 と 0.76 のスピアマン相関が,最先端の nas 法を上回っている。 コードと事前トレーニングされたモデルはhttps://github.com/changlin31/BossNAS で入手できる。

A myriad of recent breakthroughs in hand-crafted neural architectures for visual recognition have highlighted the urgent need to explore hybrid architectures consisting of diversified building blocks. Meanwhile, neural architecture search methods are surging with an expectation to reduce human efforts. However, whether NAS methods can efficiently and effectively handle diversified search spaces with disparate candidates (e.g. CNNs and transformers) is still an open question. In this work, we present Block-wisely Self-supervised Neural Architecture Search (BossNAS), an unsupervised NAS method that addresses the problem of inaccurate architecture rating caused by large weight-sharing space and biased supervision in previous methods. More specifically, we factorize the search space into blocks and utilize a novel self-supervised training scheme, named ensemble bootstrapping, to train each block separately before searching them as a whole towards the population center. Additionally, we present HyTra search space, a fabric-like hybrid CNN-transformer search space with searchable down-sampling positions. On this challenging search space, our searched model, BossNet-T, achieves up to 82.2% accuracy on ImageNet, surpassing EfficientNet by 2.1% with comparable compute time. Moreover, our method achieves superior architecture rating accuracy with 0.78 and 0.76 Spearman correlation on the canonical MBConv search space with ImageNet and on NATS-Bench size search space with CIFAR-100, respectively, surpassing state-of-the-art NAS methods. Code and pretrained models are available at https://github.com/changlin31/BossNAS .
翻訳日:2021-03-24 14:05:35 公開日:2021-03-23
# インクリメンタル学習のためのバランスのとれたソフトマックスクロスエントロピー

Balanced Softmax Cross-Entropy for Incremental Learning ( http://arxiv.org/abs/2103.12532v1 )

ライセンス: Link先を確認
Quentin Jodelet, Xin Liu and Tsuyoshi Murata(参考訳) ディープニューラルネットワークは、新しいデータへの適応として新しいクラスや新しいタスクを漸進的にトレーニングした場合に壊滅的な忘れがちになり、古いクラスやタスクのパフォーマンスが大幅に低下する。 リハーサルと知識の蒸留に小さなメモリを使用することで、破滅的な忘れを軽減できることが証明されている。 しかし、メモリサイズが限られているため、古いクラスと新しいクラスで利用可能なデータ量との間に大きな不均衡が残っているため、モデルの全体的な精度は低下する。 この問題に対処するために,バランスド・ソフトマックス・クロス・エントロピー・ロス(英語版)を用いることを提案し,段階的学習の終了法と組み合わせて性能を向上させるとともに,訓練手順の計算コストを低減できることを示す。 競合するImageNet、subImageNet、CIFAR100データセットに関する完全な実験は、最先端の結果を示している。

Deep neural networks are prone to catastrophic forgetting when incrementally trained on new classes or new tasks as adaptation to the new data leads to a drastic decrease of the performance on the old classes and tasks. By using a small memory for rehearsal and knowledge distillation, recent methods has proven to be effective to mitigate catastrophic forgetting. However due to the limited size of the memory, large imbalance between the amount of data available for the old and new classes still remains which results in a deterioration of the overall accuracy of the model. To address this problem, we propose the use of the Balanced Softmax Cross-Entropy loss and show that it can be combined with exiting methods for incremental learning to improve their performances while also decreasing the computational cost of the training procedure in some cases. Complete experiments on the competitive ImageNet, subImageNet and CIFAR100 datasets show states-of-the-art results.
翻訳日:2021-03-24 14:05:06 公開日:2021-03-23
# 自己監督型単眼深度推定の再検討

Revisiting Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2103.12496v1 )

ライセンス: Link先を確認
Ue-Hwan Kim, Jong-Hwan Kim(参考訳) ロボット工学や自動運転車における幅広いタスクを実現するため、深度マップの予測と単眼ビデオシーケンスからのモーション推定の自己監督的な学習が重要である。 多くの研究が照明の変動、咬合、ダイナミックな物体に取り組み、いくつかの名前をつけることで性能を高めている。 しかし、これらの取り組みは個別の目標を目標とし、個別の作業として耐えられる。 さらに、以前の作品のほとんどが同じCNNアーキテクチャを採用しており、アーキテクチャ上のメリットを享受していない。 そのため, 従来の手法の相互依存性と, 建築要因の影響について検討する必要がある。 これらの目的を達成するために,これまでに提案してきた,深度と運動の合同学習のための自己教師あり手法,総合的な実験研究を行い,複数の重要な知見を提示する。 さらに,本研究の結果,従来の最先端性能よりも性能が著しく向上した。

Self-supervised learning of depth map prediction and motion estimation from monocular video sequences is of vital importance -- since it realizes a broad range of tasks in robotics and autonomous vehicles. A large number of research efforts have enhanced the performance by tackling illumination variation, occlusions, and dynamic objects, to name a few. However, each of those efforts targets individual goals and endures as separate works. Moreover, most of previous works have adopted the same CNN architecture, not reaping architectural benefits. Therefore, the need to investigate the inter-dependency of the previous methods and the effect of architectural factors remains. To achieve these objectives, we revisit numerous previously proposed self-supervised methods for joint learning of depth and motion, perform a comprehensive empirical study, and unveil multiple crucial insights. Furthermore, we remarkably enhance the performance as a result of our study -- outperforming previous state-of-the-art performance.
翻訳日:2021-03-24 14:04:50 公開日:2021-03-23
# ハマーとナット: ポゾン線形分類器にバイレベル最適化は本当に必要か?

The Hammer and the Nut: Is Bilevel Optimization Really Needed to Poison Linear Classifiers? ( http://arxiv.org/abs/2103.12399v1 )

ライセンス: Link先を確認
Antonio Emanuele Cin\`a, Sebastiano Vascon, Ambra Demontis, Battista Biggio, Fabio Roli, Marcello Pelillo(参考訳) 現代のaiシステムの最も懸念されている脅威の1つはデータ中毒であり、攻撃者は悪意ある訓練データを注入してシステムの動作をテスト時に台無しにする。 アベイラビリティー中毒(Availability poisoning)は、攻撃者がDoS攻撃を起こそうとする、特に厄介な毒攻撃のサブセットである。 しかし、最先端のアルゴリズムは複雑な二値最適化問題(「ハンマー」)を解こうとするので計算コストが高い。 我々は,特に,対象モデルが線形である場合(ナット)において,計算コストのかかる手順の使用を回避できることを観察した。 対象システムの性能が極めて損なわれるようにトレーニングセットを汚染することを可能にする,直観的かつ効率的なヒューリスティックを提案する。 さらに、最適化する変数の数を減少させる再パラメータ化手法を提案する。 最後に、検討された設定の下で、我々のフレームワークは攻撃者の目的に匹敵するパフォーマンスを達成し、計算効率は著しく向上することを示した。

One of the most concerning threats for modern AI systems is data poisoning, where the attacker injects maliciously crafted training data to corrupt the system's behavior at test time. Availability poisoning is a particularly worrisome subset of poisoning attacks where the attacker aims to cause a Denial-of-Service (DoS) attack. However, the state-of-the-art algorithms are computationally expensive because they try to solve a complex bi-level optimization problem (the "hammer"). We observed that in particular conditions, namely, where the target model is linear (the "nut"), the usage of computationally costly procedures can be avoided. We propose a counter-intuitive but efficient heuristic that allows contaminating the training set such that the target system's performance is highly compromised. We further suggest a re-parameterization trick to decrease the number of variables to be optimized. Finally, we demonstrate that, under the considered settings, our framework achieves comparable, or even better, performances in terms of the attacker's objective while being significantly more computationally efficient.
翻訳日:2021-03-24 14:03:58 公開日:2021-03-23
# 自動取引パターン抽出のための解釈可能なML駆動戦略

Interpretable ML-driven Strategy for Automated Trading Pattern Extraction ( http://arxiv.org/abs/2103.12419v1 )

ライセンス: Link先を確認
Artur Sokolovsky, Luca Arnaboldi, Jaume Bacardit, Thomas Gross(参考訳) 金融市場は非定常多次元時系列の源であり、数十年間注目されてきた。 それぞれの金融機器は、時間的特性に応じて変化し、分析が複雑なタスクとなる。 金融時系列分析手法の理解と開発の改善は、金融市場における運用成功に不可欠である。 本研究では,金融時系列を機械学習パイプラインに適したものにするためのボリュームベースデータ前処理手法を提案する。 本手法の性能評価には統計的手法を用いる。 すなわち、仮説を正式に表明し、関連する分類タスクをセットアップし、信頼区間で効果サイズを計算し、仮説を検証する統計的テストを実行する。 また,提案手法のトレーディング性能を過去のデータから評価し,以前に公表した手法と比較する。 提案手法は,金融時系列パターンの分類を成功させるとともに,より流動的な金融商品に特有な価格行動に基づく手法よりも優れた分類性能をもたらすことを示す。 最後に,CatBoost推定器の例を例に,木質モデルから直接特徴的相互作用を求める手法を提案するとともに,提案手法とSHAP特徴的相互作用と肯定的な結果との相関性を正式に評価する。

Financial markets are a source of non-stationary multidimensional time series which has been drawing attention for decades. Each financial instrument has its specific changing over time properties, making their analysis a complex task. Improvement of understanding and development of methods for financial time series analysis is essential for successful operation on financial markets. In this study we propose a volume-based data pre-processing method for making financial time series more suitable for machine learning pipelines. We use a statistical approach for assessing the performance of the method. Namely, we formally state the hypotheses, set up associated classification tasks, compute effect sizes with confidence intervals, and run statistical tests to validate the hypotheses. We additionally assess the trading performance of the proposed method on historical data and compare it to a previously published approach. Our analysis shows that the proposed volume-based method allows successful classification of the financial time series patterns, and also leads to better classification performance than a price action-based method, excelling specifically on more liquid financial instruments. Finally, we propose an approach for obtaining feature interactions directly from tree-based models on example of CatBoost estimator, as well as formally assess the relatedness of the proposed approach and SHAP feature interactions with a positive outcome.
翻訳日:2021-03-24 14:03:41 公開日:2021-03-23
# 学習可能な自律性を保証するメタ認知強化学習フレームワーク

Assured Learning-enabled Autonomy: A Metacognitive Reinforcement Learning Framework ( http://arxiv.org/abs/2103.12558v1 )

ライセンス: Link先を確認
Aquib Mustafa, Majid Mazouchi, Subramanya Nageshrao, Hamidreza Modares(参考訳) 所定の報酬関数を持つ強化学習(RL)エージェントは、不確実なシステムが遭遇する可能性のあるさまざまな状況において、保証された安全を提供することはできない。 各種状況における安全制約の満足度を確保しつつ,性能を保証するため,メタ認知学習機能を備えたRLアルゴリズムを応用し,自律制御フレームワークを提案する。 より具体的には、RLエージェントの報酬関数パラメータをメタ認知的意思決定層に適応させ、RLエージェントの実現性を保証する。 すなわち、RLエージェントによる学習ポリシーは、信号時間論理によって規定された安全制約を満たすとともに、可能な限り多くの性能を達成する。 メタ認知層は、RLエージェントの作用の下で将来の安全違反を監視し、上位層のベイズRLアルゴリズムを用いて、下位層のRLエージェントに対する報酬関数を積極的に適応させる。 高層ベイズRLの介入を最小限に抑えるために、メタ認知層により適合機能を利用し、安全性と生活性に満足して低層RLエージェントの成功を評価するとともに、低層ベイズRL故障のリスクがある場合にのみ、高層ベイズRLが介入する。 最後に,提案手法の有効性を検証するためのシミュレーション例を示す。

Reinforcement learning (RL) agents with pre-specified reward functions cannot provide guaranteed safety across variety of circumstances that an uncertain system might encounter. To guarantee performance while assuring satisfaction of safety constraints across variety of circumstances, an assured autonomous control framework is presented in this paper by empowering RL algorithms with metacognitive learning capabilities. More specifically, adapting the reward function parameters of the RL agent is performed in a metacognitive decision-making layer to assure the feasibility of RL agent. That is, to assure that the learned policy by the RL agent satisfies safety constraints specified by signal temporal logic while achieving as much performance as possible. The metacognitive layer monitors any possible future safety violation under the actions of the RL agent and employs a higher-layer Bayesian RL algorithm to proactively adapt the reward function for the lower-layer RL agent. To minimize the higher-layer Bayesian RL intervention, a fitness function is leveraged by the metacognitive layer as a metric to evaluate success of the lower-layer RL agent in satisfaction of safety and liveness specifications, and the higher-layer Bayesian RL intervenes only if there is a risk of lower-layer RL failure. Finally, a simulation example is provided to validate the effectiveness of the proposed approach.
翻訳日:2021-03-24 14:03:23 公開日:2021-03-23
# ステップサイズ削減による有限サム最適化とサンプリングのための適応的重要度サンプリング

Adaptive Importance Sampling for Finite-Sum Optimization and Sampling with Decreasing Step-Sizes ( http://arxiv.org/abs/2103.12243v1 )

ライセンス: Link先を確認
Ayoub El Hanchi, David A. Stephens(参考訳) 勾配推定器の分散を減少させることは、確率的勾配に基づく最適化およびサンプリングアルゴリズムの収束率を改善することが知られている。 分散還元を達成する一つの方法は、重要なサンプリング戦略を設計することである。 近年,このようなスキームの設計問題は,バンディットフィードバックを伴うオンライン学習問題として定式化され,サブリニアな静的後悔を伴うアルゴリズムが設計されている。 そこで本研究では,有限サム最適化のための適応的重要度サンプリングアルゴリズムであるAvareを提案し,ステップサイズを小さくしたサンプリングを行う。 標準的な技術的条件下では、Avare は $\mathcal{O}(T^{2/3})$ と $\mathcal{O}(T^{5/6})$ を、それぞれ $\mathcal{O}(1/t)$ のステップサイズで実行するときに、SGD と SGLD の動的後悔を達成する。 我々は,アルゴリズムが定義する力学の知識を活用し,オンライン学習と分散還元確率最適化のアイデアを組み合わせることで,この動的後悔を克服する。 我々は,アルゴリズムの性能を実証的に検証し,それが大きな改善をもたらす設定を特定する。

Reducing the variance of the gradient estimator is known to improve the convergence rate of stochastic gradient-based optimization and sampling algorithms. One way of achieving variance reduction is to design importance sampling strategies. Recently, the problem of designing such schemes was formulated as an online learning problem with bandit feedback, and algorithms with sub-linear static regret were designed. In this work, we build on this framework and propose Avare, a simple and efficient algorithm for adaptive importance sampling for finite-sum optimization and sampling with decreasing step-sizes. Under standard technical conditions, we show that Avare achieves $\mathcal{O}(T^{2/3})$ and $\mathcal{O}(T^{5/6})$ dynamic regret for SGD and SGLD respectively when run with $\mathcal{O}(1/t)$ step sizes. We achieve this dynamic regret bound by leveraging our knowledge of the dynamics defined by the algorithm, and combining ideas from online learning and variance-reduced stochastic optimization. We validate empirically the performance of our algorithm and identify settings in which it leads to significant improvements.
翻訳日:2021-03-24 14:02:52 公開日:2021-03-23
# 確率的再重み付け勾配降下

Stochastic Reweighted Gradient Descent ( http://arxiv.org/abs/2103.12293v1 )

ライセンス: Link先を確認
Ayoub El Hanchi, David A. Stephens(参考訳) 分散削減された有限サム最適化アルゴリズムが楽しめるという強い理論的保証にもかかわらず、その適用性は、導入するメモリオーバーヘッド(sag/saga)や必要な周期フルグラデーション計算(svrg/sarah)に制限されている。 これらの欠点を避けながら分散削減を実現するための有望なアプローチは、制御変数の代わりに重要サンプリングを使用することである。 このような手法は文献に多く提案されているが、結果の最適化アルゴリズムの収束性を改善することが直接証明されている。 本研究では,srg(stochastic reweighted gradient)と呼ばれる重要サンプリングに基づくアルゴリズムを提案する。 強凸の場合におけるsrgの収束を解析し, 制御変数の線形率を回復しないが, sgdよりも優れていることを示す。 我々は,提案手法の時間とメモリオーバーヘッドに特に注意を払い,その効率的な実装を可能にする特別な赤黒木を設計する。 最後に,本研究の成果を裏付ける実証的結果を示す。

Despite the strong theoretical guarantees that variance-reduced finite-sum optimization algorithms enjoy, their applicability remains limited to cases where the memory overhead they introduce (SAG/SAGA), or the periodic full gradient computation they require (SVRG/SARAH) are manageable. A promising approach to achieving variance reduction while avoiding these drawbacks is the use of importance sampling instead of control variates. While many such methods have been proposed in the literature, directly proving that they improve the convergence of the resulting optimization algorithm has remained elusive. In this work, we propose an importance-sampling-based algorithm we call SRG (stochastic reweighted gradient). We analyze the convergence of SRG in the strongly-convex case and show that, while it does not recover the linear rate of control variates methods, it provably outperforms SGD. We pay particular attention to the time and memory overhead of our proposed method, and design a specialized red-black tree allowing its efficient implementation. Finally, we present empirical results to support our findings.
翻訳日:2021-03-24 14:02:28 公開日:2021-03-23
# AdaBoostの成功とポートフォリオ管理への応用

The Success of AdaBoost and Its Application in Portfolio Management ( http://arxiv.org/abs/2103.12345v1 )

ライセンス: Link先を確認
Yijian Chuan, Chaoyi Zhao, Zhenrui He, and Lan Wu(参考訳) AdaBoostが成功した分類器である理由を説明するための新しいアプローチを開発する。 2値分類問題に対するトレーニングデータにノイズポイント(ION)の影響の尺度を導入することにより、イオンとテストエラーとの間には強い関係があることを証明した。 さらに,基本学習者の反復数や複雑性が増加するにつれて,AdaBoostのIONが減少することを確認した。 我々は,AdaBoostの基礎学習者が複雑な状況下で,深い木を含まない一貫した分類器を入手することは不可能であることを確認した。 adaboostを中国市場における実証研究を通じてポートフォリオ管理に適用し,理論的な提案を裏付ける。

We develop a novel approach to explain why AdaBoost is a successful classifier. By introducing a measure of the influence of the noise points (ION) in the training data for the binary classification problem, we prove that there is a strong connection between the ION and the test error. We further identify that the ION of AdaBoost decreases as the iteration number or the complexity of the base learners increases. We confirm that it is impossible to obtain a consistent classifier without deep trees as the base learners of AdaBoost in some complicated situations. We apply AdaBoost in portfolio management via empirical studies in the Chinese market, which corroborates our theoretical propositions.
翻訳日:2021-03-24 14:02:12 公開日:2021-03-23
# clip: ニューラルネットワークの安価なリプシッツトレーニング

CLIP: Cheap Lipschitz Training of Neural Networks ( http://arxiv.org/abs/2103.12531v1 )

ライセンス: Link先を確認
Leon Bungert, Ren\'e Raab, Tim Roith, Leo Schwinn, Daniel Tenbrinck(参考訳) 近年のディープニューラルネットワーク(DNN)の成功にもかかわらず、ほとんどのニューラルネットワークは安定性の点で数学的保証を欠いている。 例えば、DNNは、小さな、あるいは知覚不能な入力摂動に対して脆弱であり、いわゆる逆例と呼ばれ、誤った予測を引き起こす可能性がある。 この不安定性は、人間の健康と安全に影響を与える応用、例えば、バイオメディカルイメージングや自律運転に深刻な影響を及ぼす可能性がある。 ニューラルネットワークのリプシッツ定数のバウンディングは安定性を向上させるが、ほとんどの方法は各層のリプシッツ定数の制限に依存しており、実際のリプシッツ定数のバウンドが貧弱である。 本稿では,ニューラルネットワークのリプシッツ定数を制御するためのCLIPという変分正規化手法について検討する。 提案モデルを数学的に解析し,特にネットワークの出力に対する選択正規化パラメータの影響について考察した。 最後に,非線形回帰問題とMNIST分類データベースとFashion-MNIST分類データベースの両方について数値評価を行い,重み付け正規化手法との比較を行った。

Despite the large success of deep neural networks (DNN) in recent years, most neural networks still lack mathematical guarantees in terms of stability. For instance, DNNs are vulnerable to small or even imperceptible input perturbations, so called adversarial examples, that can cause false predictions. This instability can have severe consequences in applications which influence the health and safety of humans, e.g., biomedical imaging or autonomous driving. While bounding the Lipschitz constant of a neural network improves stability, most methods rely on restricting the Lipschitz constants of each layer which gives a poor bound for the actual Lipschitz constant. In this paper we investigate a variational regularization method named CLIP for controlling the Lipschitz constant of a neural network, which can easily be integrated into the training procedure. We mathematically analyze the proposed model, in particular discussing the impact of the chosen regularization parameter on the output of the network. Finally, we numerically evaluate our method on both a nonlinear regression problem and the MNIST and Fashion-MNIST classification databases, and compare our results with a weight regularization approach.
翻訳日:2021-03-24 14:02:00 公開日:2021-03-23
# 12誘導心電図データからの自己教師あり表現学習

Self-supervised representation learning from 12-lead ECG data ( http://arxiv.org/abs/2103.12676v1 )

ライセンス: Link先を確認
Temesgen Mehari, Nils Strodthoff(参考訳) 臨床12誘導心電図(ECG)データの短い部分からの自己監督的表現学習の包括的評価を行った。 そこで本研究では,コンピュータビジョン(SimCLR, BYOL, SwAV)と音声(CPC)による最先端の自己教師型学習アルゴリズムの適応について検討する。 第1段階では,コントラスト表現を学習し,下流分類タスクにおける線形評価性能に基づいてその品質を評価する。 最適性能評価手法であるCPCでは、線形評価性能は教師付き性能よりわずか0.8%低い。 第2のステップでは,自己教師付きプリトレーニングが心電図分類器に与える影響を,純粋に教師付きパフォーマンスと比較して分析し,下流性能が1%以上向上し,ラベル効率が向上し,生理的ノイズに対するロバスト性が向上した。 すべての実験は、ecgデータからの自己教師あり表現学習に使われる、過去最大のコレクションである公開データセットのみで行われ、ecg表現学習の分野における再現可能な研究を促進する。

We put forward a comprehensive assessment of self-supervised representation learning from short segments of clinical 12-lead electrocardiography (ECG) data. To this end, we explore adaptations of state-of-the-art self-supervised learning algorithms from computer vision (SimCLR, BYOL, SwAV) and speech (CPC). In a first step, we learn contrastive representations and evaluate their quality based on linear evaluation performance on a downstream classification task. For the best-performing method, CPC, we find linear evaluation performances only 0.8% below supervised performance. In a second step, we analyze the impact of self-supervised pretraining on finetuned ECG classifiers as compared to purely supervised performance and find improvements in downstream performance of more than 1%, label efficiency, as well as an increased robustness against physiological noise. All experiments are carried out exclusively on publicly available datasets, the to-date largest collection used for self-supervised representation learning from ECG data, to foster reproducible research in the field of ECG representation learning.
翻訳日:2021-03-24 14:01:40 公開日:2021-03-23
# 線形回帰のための定数ステップサイズSGDの良性オーバーフィッティング

Benign Overfitting of Constant-Stepsize SGD for Linear Regression ( http://arxiv.org/abs/2103.12692v1 )

ライセンス: Link先を確認
Difan Zou and Jingfeng Wu and Vladimir Braverman and Quanquan Gu and Sham M. Kakade(参考訳) 経験的には、確率勾配降下(SGD)のような自然学習アルゴリズムの過度なパラメータ設定において、明示的な正規化がほとんど、あるいは全く行われていない良性過剰適合現象がしばしば見られる。 この研究は、この問題をおそらく最も基本的な設定で考える: 過度にパラメータ化されたレジームにおける線形回帰のための定数ステップサイズsgd(反復平均化を伴う)。 我々の主な結果は、データ共分散行列の完全な固有スペクトル(英語版)の言葉で述べたシャープな過剰なリスク境界(英語版)を提供し、これは、一般化可能時に特徴付けるバイアス-分散分解(英語版)を明らかにする: (i) 分散境界は、有効次元(SGD特有の)の言葉で特徴づけられ、 (ii) バイアス境界は、初期イテレートの位置(およびデータ共分散行列との整合性)で鋭い幾何学的特徴を与える。 正規化SGDのアルゴリズム正則化と最小二乗法(最小ノルム補間)とリッジ回帰の相違点について考察した。

There is an increasing realization that algorithmic inductive biases are central in preventing overfitting; empirically, we often see a benign overfitting phenomenon in overparameterized settings for natural learning algorithms, such as stochastic gradient descent (SGD), where little to no explicit regularization has been employed. This work considers this issue in arguably the most basic setting: constant-stepsize SGD (with iterate averaging) for linear regression in the overparameterized regime. Our main result provides a sharp excess risk bound, stated in terms of the full eigenspectrum of the data covariance matrix, that reveals a bias-variance decomposition characterizing when generalization is possible: (i) the variance bound is characterized in terms of an effective dimension (specific for SGD) and (ii) the bias bound provides a sharp geometric characterization in terms of the location of the initial iterate (and how it aligns with the data covariance matrix). We reflect on a number of notable differences between the algorithmic regularization afforded by (unregularized) SGD in comparison to ordinary least squares (minimum-norm interpolation) and ridge regression.
翻訳日:2021-03-24 14:01:22 公開日:2021-03-23
# SLOE:高次元ロジスティック回帰における統計的推論の高速化

SLOE: A Faster Method for Statistical Inference in High-Dimensional Logistic Regression ( http://arxiv.org/abs/2103.12725v1 )

ライセンス: Link先を確認
Steve Yadlowsky, Taedong Yun, Cory McLean, Alexander D'Amour(参考訳) ロジスティック回帰は、応用統計、機械学習、データサイエンスにおいて最も広く使われているツールの1つである。 実際のデータセットには、サンプルサイズに対して$d$というかなりの数の機能があることが多い。 これらの場合、ロジスティック回帰最大確率推定器(mle)は偏りがあり、標準の大型サンプル近似は貧弱である。 本稿では,予測の偏りを低減し,そのようなデータセットに対する頻繁な不確実性を推定する手法を開発した。 我々は,MLEの漸近的統計的挙動を特徴付ける最近の研究の上に構築されている。例えば,$d/n$のアスペクト比が,$d$の個数ではなく,$n$が大きくなるにつれて固定される。 原理的には、この近似はバイアスと不確実性補正を促進するが、実際にはこれらの補正は予測器の信号強度を推定する必要がある。 我々の主な貢献はSLOEであり、信号強度をコンバージェンス保証で推定し、等級による推定と推定の計算時間を短縮する。 バイアス補正は予測のばらつきを減少させ、真の基礎となる確率とパラメータのより高い(有意な)カバレッジでより狭い信頼区間をもたらす。 本手法のオープンソースパッケージはhttps://github.com/google-research/sloe-logistic.comで公開しています。

Logistic regression remains one of the most widely used tools in applied statistics, machine learning and data science. Practical datasets often have a substantial number of features $d$ relative to the sample size $n$. In these cases, the logistic regression maximum likelihood estimator (MLE) is biased, and its standard large-sample approximation is poor. In this paper, we develop an improved method for debiasing predictions and estimating frequentist uncertainty for such datasets. We build on recent work characterizing the asymptotic statistical behavior of the MLE in the regime where the aspect ratio $d / n$, instead of the number of features $d$, remains fixed as $n$ grows. In principle, this approximation facilitates bias and uncertainty corrections, but in practice, these corrections require an estimate of the signal strength of the predictors. Our main contribution is SLOE, an estimator of the signal strength with convergence guarantees that reduces the computation time of estimation and inference by orders of magnitude. The bias correction that this facilitates also reduces the variance of the predictions, yielding narrower confidence intervals with higher (valid) coverage of the true underlying probabilities and parameters. We provide an open source package for this method, available at https://github.com/google-research/sloe-logistic.
翻訳日:2021-03-24 14:00:58 公開日:2021-03-23
# SelfExplain: ニューラルネットワーク分類のための自己説明型アーキテクチャ

SelfExplain: A Self-Explaining Architecture for Neural Text Classifiers ( http://arxiv.org/abs/2103.12279v1 )

ライセンス: Link先を確認
Dheeraj Rajagopal, Vidhisha Balachandran, Eduard Hovy, Yulia Tsvetkov(参考訳) 我々は,句に基づく概念を用いてテキスト分類器の予測を説明する,新しい自己説明フレームワークであるselfexplainを紹介する。 自己説明は、(1)与えられたサンプルのトレーニングセットにおいて最も影響力のある概念を識別するグローバル解釈可能な層と、(2)予測されたラベルに対する関連性スコアを計算して各局所入力概念の寄与を定量化する局所解釈可能な層を付加することにより、既存の神経分類器を増強する。 5つのテキスト分類データセットの実験から、SelfExplainはパフォーマンスを犠牲にすることなく解釈しやすくしている。 最も重要なのは、自己説明による説明は、既存の広く使われている基準よりも、より理解しやすく、適切に正当化され、信頼できるものと認識されていることである。

We introduce SelfExplain, a novel self-explaining framework that explains a text classifier's predictions using phrase-based concepts. SelfExplain augments existing neural classifiers by adding (1) a globally interpretable layer that identifies the most influential concepts in the training set for a given sample and (2) a locally interpretable layer that quantifies the contribution of each local input concept by computing a relevance score relative to the predicted label. Experiments across five text-classification datasets show that SelfExplain facilitates interpretability without sacrificing performance. Most importantly, explanations from SelfExplain are perceived as more understandable, adequately justifying and trustworthy by human judges compared to existing widely-used baselines.
翻訳日:2021-03-24 14:00:19 公開日:2021-03-23
# Masked Memory Network と Transformer を用いた多人数会話における感情の発見とフリップの推論

Discovering Emotion and Reasoning its Flip in Multi-Party Conversations using Masked Memory Network and Transformer ( http://arxiv.org/abs/2103.12360v1 )

ライセンス: Link先を確認
Shivani Kumar, Anubhav Shrimal, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) 多人数会話における話者の感情状態の効率的な発見は、人間のような会話エージェントを設計する上で非常に重要である。 会話中、話者の認知状態はしばしば過去の発話によって変化し、それが彼女の感情状態のフリップにつながる可能性がある。 したがって、会話中の感情のフリップの背後にある理由(トリガー)を発見することは、個々の発話の感情ラベルを説明する上で重要である。 本稿では,会話における感情認識(ERC)の課題に対処すると共に,感情状態が一定時間反転した過去の発話を識別することを目的とした,感情フリップ推論(EFR)という新たなタスクを導入する。 本稿では,前者に対応するマスク付きメモリネットワークと後者のタスクのためのトランスフォーマーベースネットワークを提案する。 この目的のために,マルチパーティ会話における感情認識のベンチマークデータセットであるMELDについて検討し,ERFのための新たな基盤構造ラベルを付加した。 4つの最先端モデルとの比較により,両タスクのモデルの性能改善が示唆された。 さらに,ベースラインと比較してモデルの優越性を支持するために,逸話的証拠と定性的および定量的な誤り解析を提示する。

Efficient discovery of emotion states of speakers in a multi-party conversation is highly important to design human-like conversational agents. During the conversation, the cognitive state of a speaker often alters due to certain past utterances, which may lead to a flip in her emotion state. Therefore, discovering the reasons (triggers) behind one's emotion flip during conversation is important to explain the emotion labels of individual utterances. In this paper, along with addressing the task of emotion recognition in conversations (ERC), we introduce a novel task -- Emotion Flip Reasoning (EFR) that aims to identify past utterances which have triggered one's emotion state to flip at a certain time. We propose a masked memory network to address the former and a Transformer-based network for the latter task. To this end, we consider MELD, a benchmark emotion recognition dataset in multi-party conversations for the task of ERC and augment it with new ground-truth labels for EFR. An extensive comparison with four state-of-the-art models suggests improved performances of our models for both the tasks. We further present anecdotal evidences and both qualitative and quantitative error analyses to support the superiority of our models compared to the baselines.
翻訳日:2021-03-24 14:00:05 公開日:2021-03-23
# 運動? あなたは「過激なフライドポテト」だと思った: 文の分割とマルチホップの注意をミームの影響分析に活用する

Exercise? I thought you said 'Extra Fries': Leveraging Sentence Demarcations and Multi-hop Attention for Meme Affect Analysis ( http://arxiv.org/abs/2103.12377v1 )

ライセンス: Link先を確認
Shraman Pramanick, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) 今日のインターネットは、ユーモラスで風刺的、皮肉で人々を笑わせるため、ミームに溢れています。 調査によれば、年齢層(13~35歳)のソーシャルメディアユーザーの33%が毎日ミームを送信しており、50%以上が毎週送信している。 これらのミームのいくつかは、非常に短い時間枠内で急速に広まり、そのバイラル性は、その(テキストと視覚)コンテンツの新規性に依存する。 何人かは面白い言葉やモチベーション的な引用などポジティブなメッセージを伝え、他は皮肉や不快なメッセージを通じて誰かの感情をモックしたり傷つけたりすることを目的としている。 ミームの魅力やソーシャルメディア上での急速な出現にもかかわらず、ミームの効果的な分析は十分に試みられていない。 本稿では,SemEval'20-Memotion Analysisコンペティションで提案されている課題の集合を解く。 視覚的モダリティ(画像)と様々なテキストセグメント間の空間領域対応を利用して、分類のためのきめ細かい特徴表現を抽出することを目的として,MHA-MEMEと呼ばれるマルチホップ注目に基づくディープニューラルネットワークフレームワークを提案する。 MHA-MEMEを3つのサブタスク(感情分類、影響分類、クラス定量化)すべてに対して'Memotion Analysis'データセット上で評価する。 コンペに参加した上位システムと比較して,MHA-MEMEの3つのタスクごとのソタパフォーマンスを比較検討した。 MHA-MEMEは3つのタスクすべてで矛盾なく実行されるベースラインとは異なり、平均して全てのタスクにおいてベースラインより優れている。 さらに,mha-memeの他の手作業によるテストサンプルの一般化を検証し,その一貫性を確認した。 最後に,MHA-MEMEの解釈可能性を確立する。

Today's Internet is awash in memes as they are humorous, satirical, or ironic which make people laugh. According to a survey, 33% of social media users in age bracket [13-35] send memes every day, whereas more than 50% send every week. Some of these memes spread rapidly within a very short time-frame, and their virality depends on the novelty of their (textual and visual) content. A few of them convey positive messages, such as funny or motivational quotes; while others are meant to mock/hurt someone's feelings through sarcastic or offensive messages. Despite the appealing nature of memes and their rapid emergence on social media, effective analysis of memes has not been adequately attempted to the extent it deserves. In this paper, we attempt to solve the same set of tasks suggested in the SemEval'20-Memotion Analysis competition. We propose a multi-hop attention-based deep neural network framework, called MHA-MEME, whose prime objective is to leverage the spatial-domain correspondence between the visual modality (an image) and various textual segments to extract fine-grained feature representations for classification. We evaluate MHA-MEME on the 'Memotion Analysis' dataset for all three sub-tasks - sentiment classification, affect classification, and affect class quantification. Our comparative study shows sota performances of MHA-MEME for all three tasks compared to the top systems that participated in the competition. Unlike all the baselines which perform inconsistently across all three tasks, MHA-MEME outperforms baselines in all the tasks on average. Moreover, we validate the generalization of MHA-MEME on another set of manually annotated test samples and observe it to be consistent. Finally, we establish the interpretability of MHA-MEME.
翻訳日:2021-03-24 13:59:44 公開日:2021-03-23
# ソーシャルメディアにおける苦情の重大さのモデル化

Modeling the Severity of Complaints in Social Media ( http://arxiv.org/abs/2103.12428v1 )

ライセンス: Link先を確認
Mali Jin and Nikolaos Aletras(参考訳) 不平を言う言動は、人間が不利な状況に対する反応として現実と期待の間の負のミスマッチを伝えるために用いられる。 プラグマティクスの言語理論は、苦情を、苦情者が受け取ろうとする顔の脅威に基づいて、様々な深刻度レベルに分類する。 これは、不満者の意図や人間が適切な謝罪戦略をどのように展開するかを理解するのに特に有用である。 本稿では,計算機言語学において初めて苦情の重大度レベルについて検討する。 これを容易にするために,4つの重大カテゴリを持つ苦情集合を公開し,言語情報と55.7マクロF1を併用したトランスフォーマーネットワークを訓練する。 また, 88.2マクロf1まで到達した2次苦情検出において, 新たな最先端結果を達成するマルチタスク環境において, バイナリ苦情分類と苦情重大度を共同でモデル化した。 最後に、苦情の重大度を予測するためのモデルの振る舞いを定性的に分析する。

The speech act of complaining is used by humans to communicate a negative mismatch between reality and expectations as a reaction to an unfavorable situation. Linguistic theory of pragmatics categorizes complaints into various severity levels based on the face-threat that the complainer is willing to undertake. This is particularly useful for understanding the intent of complainers and how humans develop suitable apology strategies. In this paper, we study the severity level of complaints for the first time in computational linguistics. To facilitate this, we enrich a publicly available data set of complaints with four severity categories and train different transformer-based networks combined with linguistic information achieving 55.7 macro F1. We also jointly model binary complaint classification and complaint severity in a multi-task setting achieving new state-of-the-art results on binary complaint detection reaching up to 88.2 macro F1. Finally, we present a qualitative analysis of the behavior of our models in predicting complaint severity levels.
翻訳日:2021-03-24 13:59:11 公開日:2021-03-23
# safeval: 事実に基づく評価を求める要約

SAFEval: Summarization Asks for Fact-based Evaluation ( http://arxiv.org/abs/2103.12693v1 )

ライセンス: Link先を確認
Thomas Scialom, Paul-Alexis Dray, Patrick Gallinari, Sylvain Lamprier, Benjamin Piwowarski, Jacopo Staiano, Alex Wang(参考訳) ROUGEのような現在の指標は限定的であり、人間の判断と相関しにくいことが知られている。 この問題を軽減するため、最近の研究では、サマリがソースドキュメントにすべての関連情報を含んでいるかどうかを評価するために、質問応答モデルに依存する評価メトリクスを提案している。 将来性はあるものの、提案されたアプローチは人間の判断とROUGEよりは相関しない。 本稿では,従来のアプローチを拡張し,safevalという統一フレームワークを提案する。 ROUGEやBERTScoreのような確立したメトリクスとは対照的に、SAFEvalは基盤真実参照を必要としない。 しかしながら,SAFEvalは,4つの評価次元(一貫性,コヒーレンス,流布性,関連性)において,人間の判断との相関性を大幅に改善する。

Summarization evaluation remains an open research problem: current metrics such as ROUGE are known to be limited and to correlate poorly with human judgments. To alleviate this issue, recent work has proposed evaluation metrics which rely on question answering models to assess whether a summary contains all the relevant information in its source document. Though promising, the proposed approaches have so far failed to correlate better than ROUGE with human judgments. In this paper, we extend previous approaches and propose a unified framework, named SAFEval. In contrast to established metrics such as ROUGE or BERTScore, SAFEval does not require any ground-truth reference. Nonetheless, SAFEval substantially improves the correlation with human judgments over four evaluation dimensions (consistency, coherence, fluency, and relevance), as shown in the extensive experiments we report.
翻訳日:2021-03-24 13:58:56 公開日:2021-03-23
# A*+BFHS:ハイブリッドヒューリスティック検索アルゴリズム

A*+BFHS: A Hybrid Heuristic Search Algorithm ( http://arxiv.org/abs/2103.12701v1 )

ライセンス: Link先を確認
Zhaoxing Bu and Richard E. Korf(参考訳) 本稿では,A* と IDA* がメモリ制限や多くの短周期の存在により失敗する難題を解くためのアルゴリズム A*+BFHS を提案する。 a*+bfhsは、a*および幅優先ヒューリスティック探索(bfhs)に基づいている。 A*+BFHSは、A*のノードオーダリング、BFHSのメモリセーブ、および両方のアルゴリズムの重複検出という、両方のアルゴリズムの利点を組み合わせる。 簡単な問題では、A*+BFHS は A* と同じ振る舞いをする。 難しい問題では、A*よりも遅いが、大量のメモリを節約する。 BFIDA*と比較すると、A*+BFHSは様々な計画領域において検索時間やメモリ要求を数回削減する。

We present a new algorithm A*+BFHS for solving hard problems where A* and IDA* fail due to memory limitations and/or the existence of many short cycles. A*+BFHS is based on A* and breadth-first heuristic search (BFHS). A*+BFHS combines advantages from both algorithms, namely A*'s node ordering, BFHS's memory savings, and both algorithms' duplicate detection. On easy problems, A*+BFHS behaves the same as A*. On hard problems, it is slower than A* but saves a large amount of memory. Compared to BFIDA*, A*+BFHS reduces the search time and/or memory requirement by several times on a variety of planning domains.
翻訳日:2021-03-24 13:58:43 公開日:2021-03-23
# 行動認識のための総合的動作表現の学習

Learning Comprehensive Motion Representation for Action Recognition ( http://arxiv.org/abs/2103.12278v1 )

ライセンス: Link先を確認
Mingyu Wu, Boyuan Jiang, Donghao Luo, Junchi Yan, Yabiao Wang, Ying Tai, Chengjie Wang, Jilin Li, Feiyue Huang, Xiaokang Yang(参考訳) 動作認識学習では、2次元cnnベースの手法は効率的であるが、各フレームに同じ2次元畳み込みカーネルを適用することで冗長な特徴が得られる。 最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。 さらに、特徴増強は、しばしば、行動認識においてチャネルまたは空間次元によってのみ実行される。 これらの問題に対処するため,我々はまずチャネルワイド・ゲートベクトルを用いて動的情報に関連するチャネルを適応的に強調するチャネルワイド・モーション・エンハンスメント(CME)モジュールを考案した。 CMEが生成したチャネルゲートには、ビデオ内の他のすべてのフレームの情報が含まれている。 さらに,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に注目する空間的運動強調(SME)モジュールを提案する。 直感的には、背景の変化は典型的には運動領域よりも遅い。 CMEもSMEも、アクションの手がかりを捉える際に明確な物理的意味を持っている。 2つのモジュールをオフザシェルフ2Dネットワークに統合することにより,動作認識のための包括的動作表現(CMR)学習法が最終的に得られ,Something V1 & V2 と Kinetics-400 の競合性能を実現する。 時間的推論データセットでは,16フレームを入力として使用する場合,現在の最先端値を2.3%,1.9%上回っている。

For action recognition learning, 2D CNN-based methods are efficient but may yield redundant features due to applying the same 2D convolution kernel to each frame. Recent efforts attempt to capture motion information by establishing inter-frame connections while still suffering the limited temporal receptive field or high latency. Moreover, the feature enhancement is often only performed by channel or space dimension in action recognition. To address these issues, we first devise a Channel-wise Motion Enhancement (CME) module to adaptively emphasize the channels related to dynamic information with a channel-wise gate vector. The channel gates generated by CME incorporate the information from all the other frames in the video. We further propose a Spatial-wise Motion Enhancement (SME) module to focus on the regions with the critical target in motion, according to the point-to-point similarity between adjacent feature maps. The intuition is that the change of background is typically slower than the motion area. Both CME and SME have clear physical meaning in capturing action clues. By integrating the two modules into the off-the-shelf 2D network, we finally obtain a Comprehensive Motion Representation (CMR) learning method for action recognition, which achieves competitive performance on Something-Something V1 & V2 and Kinetics-400. On the temporal reasoning datasets Something-Something V1 and V2, our method outperforms the current state-of-the-art by 2.3% and 1.9% when using 16 frames as input, respectively.
翻訳日:2021-03-24 13:56:03 公開日:2021-03-23
# 連続領域適応のための勾配正規化コントラスト学習

Gradient Regularized Contrastive Learning for Continual Domain Adaptation ( http://arxiv.org/abs/2103.12294v1 )

ライセンス: Link先を確認
Shixiang Tang, Peng Su, Dapeng Chen and Wanli Ouyang(参考訳) 人間は学習経験を生かして環境変化に迅速に適応することができる。 しかし、機械学習アルゴリズムによるディープニューラルネットワークの動的環境への適応は依然として課題である。 この問題をより深く理解するために,モデルはラベル付きソースドメインとラベルなしターゲットドメインのシーケンスで表現される,連続的ドメイン適応の問題について検討する。 この問題の障害は、ドメインシフトと破滅的な忘れ物の両方である。 障害を解決するため,グラディエント正規化コントラスト学習(GRCL)を提案する。 本手法のコアとなるのは,(1)対象領域に対するモデルの適応性を向上できるソース特徴の識別能力を損なうことなく勾配を強制すること,(2)対象ドメインに対する分類損失を増大させないよう勾配を拘束すること,という2つの重要な役割を担っている。 Digits、DomainNet、Office-Caltechベンチマークの実験は、他の最先端の手法と比較して、我々のアプローチの強いパフォーマンスを示している。

Human beings can quickly adapt to environmental changes by leveraging learning experience. However, adapting deep neural networks to dynamic environments by machine learning algorithms remains a challenge. To better understand this issue, we study the problem of continual domain adaptation, where the model is presented with a labelled source domain and a sequence of unlabelled target domains. The obstacles in this problem are both domain shift and catastrophic forgetting. We propose Gradient Regularized Contrastive Learning (GRCL) to solve the obstacles. At the core of our method, gradient regularization plays two key roles: (1) enforcing the gradient not to harm the discriminative ability of source features which can, in turn, benefit the adaptation ability of the model to target domains; (2) constraining the gradient not to increase the classification loss on old target domains, which enables the model to preserve the performance on old target domains when adapting to an in-coming target domain. Experiments on Digits, DomainNet and Office-Caltech benchmarks demonstrate the strong performance of our approach when compared to the other state-of-the-art methods.
翻訳日:2021-03-24 13:55:35 公開日:2021-03-23
# 深層学習を用いた適応照明に基づく深度センシング

Adaptive Illumination based Depth Sensing using Deep Learning ( http://arxiv.org/abs/2103.12297v1 )

ライセンス: Link先を確認
Qiqin Dai, Fengqiang Li, Oliver Cossairt, and Aggelos K Katsaggelos(参考訳) 密度深度マップキャプチャは、LiDARのような既存のアクティブスパース照明に基づく深度取得技術において困難である。 RGB画像とスパース深度マップの融合に基づく深度マップを推定する様々な手法が提案されている。 ハードウェアの最近の進歩により、適応的な深度測定が可能となり、深度マップ推定がさらに改善された。 本稿では,深部サンプリングによる深部密集度の推定について検討する。 適応スパース深度サンプリングネットワークは、RGB画像とスパース深度との融合ネットワークで共同で訓練され、最適な適応サンプリングマスクを生成する。 このような適応的なサンプリングマスクは、様々なサンプリングレート($0.0625\%$)の下で、多くのrgbおよびスパース深度融合アルゴリズムにうまく一般化できることを示す。 提案する適応サンプリング法は完全に微分可能であり、上流知覚アルゴリズムを用いてエンドツーエンドで訓練できる柔軟性がある。

Dense depth map capture is challenging in existing active sparse illumination based depth acquisition techniques, such as LiDAR. Various techniques have been proposed to estimate a dense depth map based on fusion of the sparse depth map measurement with the RGB image. Recent advances in hardware enable adaptive depth measurements resulting in further improvement of the dense depth map estimation. In this paper, we study the topic of estimating dense depth from depth sampling. The adaptive sparse depth sampling network is jointly trained with a fusion network of an RGB image and sparse depth, to generate optimal adaptive sampling masks. We show that such adaptive sampling masks can generalize well to many RGB and sparse depth fusion algorithms under a variety of sampling rates (as low as $0.0625\%$). The proposed adaptive sampling method is fully differentiable and flexible to be trained end-to-end with upstream perception algorithms.
翻訳日:2021-03-24 13:55:16 公開日:2021-03-23
# ビデオレイニングのための時空間インタラクション学習の強化 - より高速で優れたフレームワーク

Enhanced Spatio-Temporal Interaction Learning for Video Deraining: A Faster and Better Framework ( http://arxiv.org/abs/2103.12318v1 )

ライセンス: Link先を確認
Kaihao Zhang, Dongxu Li, Wenhan Luo, Wen-Yan Lin, Fang Zhao, Wenqi Ren, Wei Liu, Hongdong Li(参考訳) ビデオデライニングは、望ましくない雨がビデオの可視性を妨げ、ほとんどの屋外視覚システムの堅牢性を損なうため、コンピュータビジョンにおいて重要なタスクである。 近年, ビデオデライニングにおいて大きな成功を収めたにもかかわらず, 1) 空間領域と時間領域の両方にわたる強力な時空間特徴を抽出するために, 連続フレーム間の膨大な情報を利用する方法, 2) 高品質なデライニング映像を高速に復元する方法の2つの大きな課題が残っている。 本稿では,現在最先端のビデオデライニングの品質と速度を大幅に向上させる,ESTINet(Enhanced Spatio-Temporal Interaction Network)という,エンドツーエンドのビデオデライニングフレームワークを提案する。 エスティネットは、深い残留ネットワークと畳み込み型長期記憶の利点を生かしており、計算源の少ないコストで継続フレーム間の空間的特徴と時間的相関を捉えることができる。 3つの公開データセットに対する大規模な実験は、提案されたESTINetが競合他社よりも高速に動作でき、最先端の手法よりも優れたパフォーマンスを維持していることを示している。

Video deraining is an important task in computer vision as the unwanted rain hampers the visibility of videos and deteriorates the robustness of most outdoor vision systems. Despite the significant success which has been achieved for video deraining recently, two major challenges remain: 1) how to exploit the vast information among continuous frames to extract powerful spatio-temporal features across both the spatial and temporal domains, and 2) how to restore high-quality derained videos with a high-speed approach. In this paper, we present a new end-to-end video deraining framework, named Enhanced Spatio-Temporal Interaction Network (ESTINet), which considerably boosts current state-of-the-art video deraining quality and speed. The ESTINet takes the advantage of deep residual networks and convolutional long short-term memory, which can capture the spatial features and temporal correlations among continuing frames at the cost of very little computational source. Extensive experiments on three public datasets show that the proposed ESTINet can achieve faster speed than the competitors, while maintaining better performance than the state-of-the-art methods.
翻訳日:2021-03-24 13:55:03 公開日:2021-03-23
# コンテンツベース画像検索のための離散潜在コードへの医用画像の正規および異常特徴の分解

Decomposing Normal and Abnormal Features of Medical Images into Discrete Latent Codes for Content-Based Image Retrieval ( http://arxiv.org/abs/2103.12328v1 )

ライセンス: Link先を確認
Kazuma Kobayashi, Ryuichiro Hataya, Yusuke Kurose, Mototaka Miyake, Masamichi Takahashi, Akiko Nakagawa, Tatsuya Harada, Ryuji Hamamoto(参考訳) 画像診断では、疾患の純粋由来の特徴は、異常所見が正常な特徴から逸脱する程度を反映しるべきである。 実際、医師は興味のある異常な所見のない対応する画像や、逆に正常な解剖学的文脈に関わらず同様の異常な所見を含む画像を必要とすることが多い。 これは、医療画像の比較診断読取と呼ばれ、正しい診断に必須である。 医用画像の正常な特徴と異常な特徴を2つの分離可能な意味成分として選択的に活用できるコンテンツベース画像検索(CBIR)が有用である。 そこで我々は,医用画像の意味成分を,正常な解剖コードと異常な解剖コードという2つの潜在コードに分解するニューラルネットワークアーキテクチャを提案する。 正常な解剖コードは、サンプルが正常であれば存在したはずの正常な解剖であり、異常な解剖コードは、正常な基準線からの逸脱を反映した異常な変化である。 これらの潜在コードはベクトル量子化によって離散化され、バイナリハッシュ化が可能となり、類似性探索時の計算負荷を軽減できる。 グリオーマの脳磁気共鳴画像からなるデータセットから、正常または異常な解剖符号と2つの符号の組み合わせに基づいて類似性を計算することにより、選択した意味成分に従って画像を取得することができる。 我々のcbirシステムは定性的かつ定量的に優れた結果を得る。

In medical imaging, the characteristics purely derived from a disease should reflect the extent to which abnormal findings deviate from the normal features. Indeed, physicians often need corresponding images without abnormal findings of interest or, conversely, images that contain similar abnormal findings regardless of normal anatomical context. This is called comparative diagnostic reading of medical images, which is essential for a correct diagnosis. To support comparative diagnostic reading, content-based image retrieval (CBIR), which can selectively utilize normal and abnormal features in medical images as two separable semantic components, will be useful. Therefore, we propose a neural network architecture to decompose the semantic components of medical images into two latent codes: normal anatomy code and abnormal anatomy code. The normal anatomy code represents normal anatomies that should have existed if the sample is healthy, whereas the abnormal anatomy code attributes to abnormal changes that reflect deviation from the normal baseline. These latent codes are discretized through vector quantization to enable binary hashing, which can reduce the computational burden at the time of similarity search. By calculating the similarity based on either normal or abnormal anatomy codes or the combination of the two codes, our algorithm can retrieve images according to the selected semantic component from a dataset consisting of brain magnetic resonance images of gliomas. Our CBIR system qualitatively and quantitatively achieves remarkable results.
翻訳日:2021-03-24 13:54:41 公開日:2021-03-23
# 一般化ドメイン条件適応ネットワーク

Generalized Domain Conditioned Adaptation Network ( http://arxiv.org/abs/2103.12339v1 )

ライセンス: Link先を確認
Shuang Li, Binhui Xie, Qiuxia Lin, Chi Harold Liu, Gao Huang and Guoren Wang(参考訳) ドメイン適応(da)は、ラベル付きソースドメインで学習された知識を、大量のターゲット監視を必要とせずにラベル付きだが関連するターゲットドメインに転送しようとする。 DAの最近の進歩は、主にソースとターゲットの分布を調整することで進んでいる。 大幅な成功にもかかわらず、ソースとターゲットドメインが大きな分散不一致に直面したとき、適応性能は依然として低下する。 なぜなら、ほとんどの研究は単にタスク固有のレイヤにおけるドメイン一般の機能学習に集中し、完全に共有された畳み込みネットワーク(convnets)を統合して両方のドメインで共通の特徴を生成するためである。 本稿では,従来のDA手法で採用されていた完全共有共振器の仮定を緩和し,複数の経路構造を持つドメイン条件付きチャネルアテンションモジュールを導入し,各ドメインのチャネルアクティベーションを個別に励起するドメイン条件付き適応ネットワーク(DCAN)を提案する。 このような部分共有共振器モジュールは、低レベルのドメイン特化特徴を適切に探索することができる。 さらに、畳み込み層とともに変化する知識伝達可能性を考慮して、各注目モジュールでドメインチャネルアクティベーションを個別にモデル化すべきかどうかを自動決定する一般化ドメイン条件適応ネットワーク(GDCAN)を開発した。 その後、クリティカルドメイン特化知識は、ドメイン統計ギャップに応じて適応的に抽出することができる。 私たちが知る限りでは、深いDAネットワークのためにドメインワイドの畳み込みチャネルアクティベーションを別々に検討するのはこれが初めてです。 さらに、ドメイン間の高レベルな特徴分布を効果的に一致させるために、タスク固有のレイヤの後に特徴適応ブロックを配置することを検討する。

Domain Adaptation (DA) attempts to transfer knowledge learned in the labeled source domain to the unlabeled but related target domain without requiring large amounts of target supervision. Recent advances in DA mainly proceed by aligning the source and target distributions. Despite the significant success, the adaptation performance still degrades accordingly when the source and target domains encounter a large distribution discrepancy. We consider this limitation may attribute to the insufficient exploration of domain-specialized features because most studies merely concentrate on domain-general feature learning in task-specific layers and integrate totally-shared convolutional networks (convnets) to generate common features for both domains. In this paper, we relax the completely-shared convnets assumption adopted by previous DA methods and propose Domain Conditioned Adaptation Network (DCAN), which introduces domain conditioned channel attention module with a multi-path structure to separately excite channel activation for each domain. Such a partially-shared convnets module allows domain-specialized features in low-level to be explored appropriately. Further, given the knowledge transferability varying along with convolutional layers, we develop Generalized Domain Conditioned Adaptation Network (GDCAN) to automatically determine whether domain channel activations should be separately modeled in each attention module. Afterward, the critical domain-specialized knowledge could be adaptively extracted according to the domain statistic gaps. As far as we know, this is the first work to explore the domain-wise convolutional channel activations separately for deep DA networks. Additionally, to effectively match high-level feature distributions across domains, we consider deploying feature adaptation blocks after task-specific layers, which can explicitly mitigate the domain discrepancy.
翻訳日:2021-03-24 13:54:20 公開日:2021-03-23
# 映像における表現理解に意味的注意を向けた共同グラウンドネットワーク

Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos ( http://arxiv.org/abs/2103.12346v1 )

ライセンス: Link先を確認
Sijie Song, Xudong Lin, Jiaying Liu, Zongming Guo and Shih-Fu Chang(参考訳) 本稿では,複雑な表現やシーンのダイナミクスのため,ビデオにおける表現理解の参照の問題に対処する。 複数の段階(すなわち追跡、提案に基づくマッチング)でこの問題を解決する従来の方法とは異なり、私たちは新しい視点から、エレガントな一段階フレームワークである \textbf{co-grounding} という問題に取り組む。 本稿では,意味的注意学習による単一フレーム接地精度の向上と,共同接地機能学習によるクロスフレーム接地一貫性の向上を図る。 意味的注意学習は、異なる属性で参照する手がかりを明示的に解析し、複雑な表現の曖昧さを減少させる。 コグラウンド機能学習は、時間的相関を統合して視覚的特徴表現を高め、シーンダイナミクスによるあいまいさを低減する。 実験結果から,ビデオグラウンドデータセットのVIDとLiOTBにおいて,フレーム間の正確かつ安定した結果を生成する上で,我々のフレームワークが優れていることを示す。 また、RefCOCOデータセットの性能向上により、画像中の表現理解を参照することも可能である。 私たちのプロジェクトはhttps://sijiesong.github.io/コグラウンドで利用可能です。

In this paper, we address the problem of referring expression comprehension in videos, which is challenging due to complex expression and scene dynamics. Unlike previous methods which solve the problem in multiple stages (i.e., tracking, proposal-based matching), we tackle the problem from a novel perspective, \textbf{co-grounding}, with an elegant one-stage framework. We enhance the single-frame grounding accuracy by semantic attention learning and improve the cross-frame grounding consistency with co-grounding feature learning. Semantic attention learning explicitly parses referring cues in different attributes to reduce the ambiguity in the complex expression. Co-grounding feature learning boosts visual feature representations by integrating temporal correlation to reduce the ambiguity caused by scene dynamics. Experiment results demonstrate the superiority of our framework on the video grounding datasets VID and LiOTB in generating accurate and stable results across frames. Our model is also applicable to referring expression comprehension in images, illustrated by the improved performance on the RefCOCO dataset. Our project is available at https://sijiesong.github.io/co-grounding.
翻訳日:2021-03-24 13:53:53 公開日:2021-03-23
# iMAP:リアルタイムの入射マッピングと位置決め

iMAP: Implicit Mapping and Positioning in Real-Time ( http://arxiv.org/abs/2103.12352v1 )

ライセンス: Link先を確認
Edgar Sucar, Shikun Liu, Joseph Ortiz, Andrew J. Davison(参考訳) ハンドヘルドRGB-DカメラのリアルタイムSLAMシステムにおいて,マルチ層パーセプトロン(MLP)が唯一のシーン表現として機能することを示す。 われわれのネットワークは、事前のデータを使わずに、ライブ操作で訓練され、集中した、シーン固有の暗黙の3dモデルを構築します。 ライブ画像ストリームに対するニューラルネットワークの継続的なトレーニングによるリアルタイムslamの実現には,大幅なイノベーションが必要だ。 我々のiMAPアルゴリズムはキーフレーム構造とマルチプロセスの計算フローを使い、動的情報誘導ピクセルサンプリングにより速度を10Hzで追跡し、グローバルマップを2Hzで更新する。 標準的な高密度SLAM技術よりも暗黙的なMLPの利点は、自動細部制御による効率的な幾何表現と、物体の裏面のような観測されていない領域の滑らかで可視な埋め込みである。

We show for the first time that a multilayer perceptron (MLP) can serve as the only scene representation in a real-time SLAM system for a handheld RGB-D camera. Our network is trained in live operation without prior data, building a dense, scene-specific implicit 3D model of occupancy and colour which is also immediately used for tracking. Achieving real-time SLAM via continual training of a neural network against a live image stream requires significant innovation. Our iMAP algorithm uses a keyframe structure and multi-processing computation flow, with dynamic information-guided pixel sampling for speed, with tracking at 10 Hz and global map updating at 2 Hz. The advantages of an implicit MLP over standard dense SLAM techniques include efficient geometry representation with automatic detail control and smooth, plausible filling-in of unobserved regions such as the back surfaces of objects.
翻訳日:2021-03-24 13:53:35 公開日:2021-03-23
# コントラスト学習を用いた粗い特徴アライメント法による教師なし領域適応

Unsupervised domain adaptation via coarse-to-fine feature alignment method using contrastive learning ( http://arxiv.org/abs/2103.12371v1 )

ライセンス: Link先を確認
Shiyu Tang, Peijun Tang, Yanxiang Gong, Zheng Ma, Mei Xie(参考訳) 非教師付きドメイン適応(UDA)における以前の機能アライメント手法は、クラスワイド機能間のミスマッチを考慮せずに、大域的機能のみをアライメントする。 そこで本研究では,CFContraと呼ばれるコントラスト学習を用いた特徴アライメント手法を提案する。 これは、粗い機能アライメントやクラスワイド機能アライメントよりもクラスワイドの機能を引き出すため、モデルの性能を大幅に改善する。 エントロピー最小化(Entropy minimization)と呼ばれる,UDAの最も効果的な手法の1つである。 特に,セマンティクスセグメンテーションに対比的損失を適用する場合の過大なメモリ占有を防止するために,メモリバンクを構築し更新する新しい方法を提案する。 このようにして、限られたメモリでアルゴリズムをより効率的かつ有効にする。 GTA5からCityscapesのデータセットでトレーニングした手法とモデルの有効性は、MinEntアルゴリズムと比較して3.5倍に向上した。 私たちのコードは公開されます。

Previous feature alignment methods in Unsupervised domain adaptation(UDA) mostly only align global features without considering the mismatch between class-wise features. In this work, we propose a new coarse-to-fine feature alignment method using contrastive learning called CFContra. It draws class-wise features closer than coarse feature alignment or class-wise feature alignment only, therefore improves the model's performance to a great extent. We build it upon one of the most effective methods of UDA called entropy minimization to further improve performance. In particular, to prevent excessive memory occupation when applying contrastive loss in semantic segmentation, we devise a new way to build and update the memory bank. In this way, we make the algorithm more efficient and viable with limited memory. Extensive experiments show the effectiveness of our method and model trained on the GTA5 to Cityscapes dataset has boost mIOU by 3.5 compared to the MinEnt algorithm. Our code will be publicly available.
翻訳日:2021-03-24 13:53:22 公開日:2021-03-23
# 見知らぬままの学習:オープンゼロショット学習を目指して

Learning without Seeing nor Knowing: Towards Open Zero-Shot Learning ( http://arxiv.org/abs/2103.12437v1 )

ライセンス: Link先を確認
Federico Marmoreo, Julio Ivan Davila Carrazco, Vittorio Murino, Jacopo Cavazza(参考訳) Generalized Zero-Shot Learning (GZSL)では、クラス埋め込み(例えば、それらを記述する属性のリスト)と補完的なクラスのプール(ビジュアルデータとクラス埋め込みの両方でペアリングされる)を活用することで、目に見えないカテゴリ(トレーニング時に視覚データを利用できない)を予測することができる。 GZSLは間違いなく難しいが、クラス埋め込み、特に目に見えないカテゴリについて事前に知ることは、現実のシナリオに対するGZSLの適用性の実際の限界である、と仮定する。 この仮定を緩和するため、オープンワールド設定に向けてGZSLを拡張するためにOpen Zero-Shot Learning (OZSL)を提案する。 我々はOZSLを(GZSLのように)見知らぬクラスを認識する問題として定式化し、未知のカテゴリからのインスタンスを拒否するが、視覚データやクラス埋め込みは提供されない。 我々は、評価プロトコル、エラーメトリクス、ベンチマークデータセットを導入したOZSL問題を定式化する。 また,未知の特徴生成(GZSLで行われているような未確認特徴生成のみではなく)を行うことにより,OZSL問題に取り組むことを提案する。 未知のクラス埋め込みのサンプル化のために生成プロセスを最適化し、見当たらないものや見当たらないものを補完する。 我々は,これらの成果が今後の研究を促進する基盤となることを目指しており,新しいオープンワールド学習(OZSL)と標準クローズドワールドゼロショット学習(GZSL)を拡張している。

In Generalized Zero-Shot Learning (GZSL), unseen categories (for which no visual data are available at training time) can be predicted by leveraging their class embeddings (e.g., a list of attributes describing them) together with a complementary pool of seen classes (paired with both visual data and class embeddings). Despite GZSL is arguably challenging, we posit that knowing in advance the class embeddings, especially for unseen categories, is an actual limit of the applicability of GZSL towards real-world scenarios. To relax this assumption, we propose Open Zero-Shot Learning (OZSL) to extend GZSL towards the open-world settings. We formalize OZSL as the problem of recognizing seen and unseen classes (as in GZSL) while also rejecting instances from unknown categories, for which neither visual data nor class embeddings are provided. We formalize the OZSL problem introducing evaluation protocols, error metrics and benchmark datasets. We also suggest to tackle the OZSL problem by proposing the idea of performing unknown feature generation (instead of only unseen features generation as done in GZSL). We achieve this by optimizing a generative process to sample unknown class embeddings as complementary to the seen and the unseen. We intend these results to be the ground to foster future research, extending the standard closed-world zero-shot learning (GZSL) with the novel open-world counterpart (OZSL).
翻訳日:2021-03-24 13:53:07 公開日:2021-03-23
# 適応的知識蓄積による生涯人物再同定

Lifelong Person Re-Identification via Adaptive Knowledge Accumulation ( http://arxiv.org/abs/2103.12462v1 )

ライセンス: Link先を確認
Nan Pu, Wei Chen, Yu Liu, Erwin M. Bakker and Michael S. Lew(参考訳) Person ReIDメソッドは、常に所定のデータセットの選択によって固定された固定ドメインを通して学習する。 多くのコンテキスト(例えば生涯学習)において、これらのメソッドは、複数のドメインにわたるインクリメンタルな学習が潜在的に必要となる場合において、ドメインが継続的に変化するため、非効率である。 本研究では,複数の領域にまたがって継続的に学習し,新たな領域や未知領域を一般化することを可能にする,lreid(lifelong person re-identification)という,新たな挑戦的なreidタスクについて検討する。 人間の脳における認知過程に従って、知識表現と知識操作という2つの重要な能力を持つ適応的知識蓄積(Aka)フレームワークを設計する。 本手法は見かけのドメインの破滅的な忘れることを軽減し,未知のドメインに一般化する能力を示す。 また,LReIDの新しい大規模ベンチマークも提供する。 大規模な実験により,本手法は他の競技者よりも5.8% mAPのマージンで優れ,評価が一般化された。

Person ReID methods always learn through a stationary domain that is fixed by the choice of a given dataset. In many contexts (e.g., lifelong learning), those methods are ineffective because the domain is continually changing in which case incremental learning over multiple domains is required potentially. In this work we explore a new and challenging ReID task, namely lifelong person re-identification (LReID), which enables to learn continuously across multiple domains and even generalise on new and unseen domains. Following the cognitive processes in the human brain, we design an Adaptive Knowledge Accumulation (AKA) framework that is endowed with two crucial abilities: knowledge representation and knowledge operation. Our method alleviates catastrophic forgetting on seen domains and demonstrates the ability to generalize to unseen domains. Correspondingly, we also provide a new and large-scale benchmark for LReID. Extensive experiments demonstrate our method outperforms other competitors by a margin of 5.8% mAP in generalising evaluation.
翻訳日:2021-03-24 13:52:39 公開日:2021-03-23
# ステレオオブジェクトマッチングネットワーク

Stereo Object Matching Network ( http://arxiv.org/abs/2103.12498v1 )

ライセンス: Link先を確認
Jaesung Choe, Kyungdon Joo, Francois Rameau, In So Kweon(参考訳) 本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。 ボリューム空間内のステレオ画像間のピクセルレベルの対応(すなわちコストボリューム)のみに焦点を当てた既存のステレオマッチング手法とは異なり、このボリューム構造を異なる方法で活用する。 コストボリュームはその相違軸に沿って3D情報を明示的に包含するので、オブジェクトから3Dコンテキスト情報をカプセル化できる特権構造である。 しかし、不均一値が3次元距離空間を非線形にマッピングするので、それは簡単ではない。 そこで我々は,3次元オブジェクトレベルの情報をシームレスに統合し,オブジェクト境界領域付近で正確な深度性能を実現するために,選択サンプリング(RoISelect)と2D-3D融合(fusion-by-occupancy)の2つの新しい手法を提案する。 我々の深度推定は、KITTIデータセットとVirtual-KITTI 2.0データセットの競合性能を達成する。

This paper presents a stereo object matching method that exploits both 2D contextual information from images as well as 3D object-level information. Unlike existing stereo matching methods that exclusively focus on the pixel-level correspondence between stereo images within a volumetric space (i.e., cost volume), we exploit this volumetric structure in a different manner. The cost volume explicitly encompasses 3D information along its disparity axis, therefore it is a privileged structure that can encapsulate the 3D contextual information from objects. However, it is not straightforward since the disparity values map the 3D metric space in a non-linear fashion. Thus, we present two novel strategies to handle 3D objectness in the cost volume space: selective sampling (RoISelect) and 2D-3D fusion (fusion-by-occupancy), which allow us to seamlessly incorporate 3D object-level information and achieve accurate depth performance near the object boundary regions. Our depth estimation achieves competitive performance in the KITTI dataset and the Virtual-KITTI 2.0 dataset.
翻訳日:2021-03-24 13:52:22 公開日:2021-03-23
# 深層学習を用いたタバコ使用分類のための領域抽出法

Region extraction based approach for cigarette usage classification using deep learning ( http://arxiv.org/abs/2103.12523v1 )

ライセンス: Link先を確認
Anshul Pundhir, Deepak Verma, Puneet Kumar, Balasubramanian Raman(参考訳) 本稿では,深層学習を用いた画像から関連する領域を抽出し,被験者の喫煙行動の分類方法を提案する。 分類後,yolo-v3に基づく条件検出モジュールを提案し,モデルの性能を向上し,その複雑さを低減した。 私たちの知る限りでは、このデータセットに取り組むのは当社が初めてです。 このデータセットには、様々な環境条件下で喫煙者や非喫煙者を含む合計2,400の画像が含まれている。 提案手法の有効性を定量的かつ定性的な尺度を用いて評価し,その妥当性を確認した。 提案手法は,このデータセット上で96.74%の分類精度を達成している。

This paper has proposed a novel approach to classify the subjects' smoking behavior by extracting relevant regions from a given image using deep learning. After the classification, we have proposed a conditional detection module based on Yolo-v3, which improves model's performance and reduces its complexity. As per the best of our knowledge, we are the first to work on this dataset. This dataset contains a total of 2,400 images that include smokers and non-smokers equally in various environmental settings. We have evaluated the proposed approach's performance using quantitative and qualitative measures, which confirms its effectiveness in challenging situations. The proposed approach has achieved a classification accuracy of 96.74% on this dataset.
翻訳日:2021-03-24 13:52:04 公開日:2021-03-23
# 微分可能アーキテクチャ探索のための拡張勾配

Enhanced Gradient for Differentiable Architecture Search ( http://arxiv.org/abs/2103.12529v1 )

ライセンス: Link先を確認
Haichao Zhang, Kuangrong Hao, Lei Gao, Xuesong Tang, and Bing Wei(参考訳) 近年,画像分類におけるタスク指向ネットワークアーキテクチャの自動生成のためのニューラルアーキテクチャ探索(nas)手法が提案されている。 しかし、既存のNASアプローチで得られたアーキテクチャは分類性能にのみ最適化されており、限られた計算資源を持つデバイスに適応しない。 そこで本研究では,ネットワーク性能の向上(分類精度など)とネットワーク複雑性の低減を目的としたニューラルネットワークアーキテクチャ探索アルゴリズムを提案する。 提案フレームワークは,ブロックレベルの検索とネットワークレベルの検索という2段階のネットワークアーキテクチャを自動構築する。 ブロックレベル探索の段階では、高機能かつ低複雑さなブロックを設計するための拡張勾配を用いて勾配に基づく緩和法を提案する。 ネットワークレベル探索の段階では、ブロックから対象ネットワークへの自動設計を完了させるために進化的多目的アルゴリズムを適用する。 提案手法は,CIFAR10の誤差率とCIFAR100の誤差率で,画像分類において評価されたすべての手作りネットワークより優れており,どちらも1メガビット未満のネットワークパラメータサイズである。 さらに,他のニューラルアーキテクチャ探索法と比較して,設計したネットワークアーキテクチャパラメータが大幅に削減される。

In recent years, neural architecture search (NAS) methods have been proposed for the automatic generation of task-oriented network architecture in image classification. However, the architectures obtained by existing NAS approaches are optimized only for classification performance and do not adapt to devices with limited computational resources. To address this challenge, we propose a neural network architecture search algorithm aiming to simultaneously improve network performance (e.g., classification accuracy) and reduce network complexity. The proposed framework automatically builds the network architecture at two stages: block-level search and network-level search. At the stage of block-level search, a relaxation method based on the gradient is proposed, using an enhanced gradient to design high-performance and low-complexity blocks. At the stage of network-level search, we apply an evolutionary multi-objective algorithm to complete the automatic design from blocks to the target network. The experiment results demonstrate that our method outperforms all evaluated hand-crafted networks in image classification, with an error rate of on CIFAR10 and an error rate of on CIFAR100, both at network parameter size less than one megabit. Moreover, compared with other neural architecture search methods, our method offers a tremendous reduction in designed network architecture parameters.
翻訳日:2021-03-24 13:51:54 公開日:2021-03-23
# ドメイン適応のための転送可能意味拡張

Transferable Semantic Augmentation for Domain Adaptation ( http://arxiv.org/abs/2103.12562v1 )

ライセンス: Link先を確認
Shuang Li, Mixue Xie, Kaixiong Gong, Chi Harold Liu, Yulin Wang, Wei Li(参考訳) ドメイン適応はラベル豊富なソースドメインから関連するがラベルのないターゲットドメインに知識を移すことで広く研究されている。 既存のほとんどのドメイン適応アルゴリズムは、2つのドメインにまたがる特徴表現を、共有ソース管理分類器のガイダンスで適用する。 しかし、そのような分類器はラベルなしの標的認識への一般化能力を制限する。 そこで本研究では,対象意味論に対して暗黙的にソース特徴を生成させることで分類器適応能力を向上させるためのtsa(transportable semantic augmentation)手法を提案する。 特に、TSAは、ある方向への深い特徴変換が、元の入力空間において意味のある意味変化として表せるという事実に着想を得ている。 したがって、ソース機能は、より転送可能な分類器をトレーニングするために、ターゲットセマンティクスに効果的に装備するように拡張することができる。 これを実現するために、まず、ドメイン間特徴平均差と対象クラス内特徴共分散を用いて、多変量正規分布を構築する。 次に,分布から無作為な方向をクラスワイズに拡張する。 興味深いことに、そのようなソース拡張は、期待される損失の上限が導出され最小化され、計算オーバーヘッドが無視できる、拡張されたソース分布上の転送可能なクロスエントロピー損失によって暗黙的に実装される。 軽量で汎用的な技術として、TSAは様々な領域適応手法に簡単に接続でき、顕著な改善をもたらす。 tsaの有効性を検証するクロスドメインベンチマークに関する包括的な実験。

Domain adaptation has been widely explored by transferring the knowledge from a label-rich source domain to a related but unlabeled target domain. Most existing domain adaptation algorithms attend to adapting feature representations across two domains with the guidance of a shared source-supervised classifier. However, such classifier limits the generalization ability towards unlabeled target recognition. To remedy this, we propose a Transferable Semantic Augmentation (TSA) approach to enhance the classifier adaptation ability through implicitly generating source features towards target semantics. Specifically, TSA is inspired by the fact that deep feature transformation towards a certain direction can be represented as meaningful semantic altering in the original input space. Thus, source features can be augmented to effectively equip with target semantics to train a more transferable classifier. To achieve this, for each class, we first use the inter-domain feature mean difference and target intra-class feature covariance to construct a multivariate normal distribution. Then we augment source features with random directions sampled from the distribution class-wisely. Interestingly, such source augmentation is implicitly implemented through an expected transferable cross-entropy loss over the augmented source distribution, where an upper bound of the expected loss is derived and minimized, introducing negligible computational overhead. As a light-weight and general technique, TSA can be easily plugged into various domain adaptation methods, bringing remarkable improvements. Comprehensive experiments on cross-domain benchmarks validate the efficacy of TSA.
翻訳日:2021-03-24 13:51:37 公開日:2021-03-23
# MetaSAug: 長期視覚認識のためのメタセマンティック拡張

MetaSAug: Meta Semantic Augmentation for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2103.12579v1 )

ライセンス: Link先を確認
Shuang Li, Kaixiong Gong, Chi Harold Liu, Yulin Wang, Feng Qiao, Xinjing Cheng(参考訳) 実世界のトレーニングデータは、通常、多くのクラスが残りのマイノリティクラスよりもかなり多くのサンプルを持つロングテール分布を示す。 この不均衡は、バランスの取れたトレーニングセット用に設計された典型的な教師付き学習アルゴリズムの性能を劣化させる。 本稿では,最近提案された暗黙的意味データ拡張 (ISDA) アルゴリズムを用いてマイノリティクラスを拡大することでこの問題に対処する。 さらに,isdaが意味的指示を得るためにクラス条件統計を推定していることを考えると,訓練データ不足のためマイノリティクラスでこれを行うのに効果がないことがわかった。 そこで本稿では,メタ学習で意味の変換を自動学習する手法を提案する。 具体的には、トレーニング中の強化戦略を動的に最適化し、メタ更新ステップによって近似される小さなバランスの取れた検証セットの損失を最小限に抑える。 CIFAR-LT-10/100, ImageNet-LT, iNaturalist 2017/2018の広範な実験結果から, 本手法の有効性が検証された。

Real-world training data usually exhibits long-tailed distribution, where several majority classes have a significantly larger number of samples than the remaining minority classes. This imbalance degrades the performance of typical supervised learning algorithms designed for balanced training sets. In this paper, we address this issue by augmenting minority classes with a recently proposed implicit semantic data augmentation (ISDA) algorithm, which produces diversified augmented samples by translating deep features along many semantically meaningful directions. Importantly, given that ISDA estimates the class-conditional statistics to obtain semantic directions, we find it ineffective to do this on minority classes due to the insufficient training data. To this end, we propose a novel approach to learn transformed semantic directions with meta-learning automatically. In specific, the augmentation strategy during training is dynamically optimized, aiming to minimize the loss on a small balanced validation set, which is approximated via a meta update step. Extensive empirical results on CIFAR-LT-10/100, ImageNet-LT, and iNaturalist 2017/2018 validate the effectiveness of our method.
翻訳日:2021-03-24 13:51:11 公開日:2021-03-23
# MonoRUn:自己監督的再構成と不確実性伝播による単眼3次元物体検出

MonoRUn: Monocular 3D Object Detection by Self-Supervised Reconstruction and Uncertainty Propagation ( http://arxiv.org/abs/2103.12605v1 )

ライセンス: Link先を確認
Hansheng Chen, Yuyao Huang, Wei Tian, Zhong Gao, Lu Xiong(参考訳) 3次元空間における物体の局在化は、単眼的3次元物体検出において難しい側面である。 6dofポーズ推定の最近の進歩は、画像と物体の3dモデル間の密接な2d-3d対応マップの予測と、遠近法(pnp)アルゴリズムによる物体ポーズの推定により、顕著な位置推定精度が得られることを示している。 しかし、これらの手法は、実際の屋外シーンでは取得が難しいオブジェクト幾何の基底的真理を用いたトレーニングに依存している。 この問題に対処するために,単純な3次元バウンディングボックスアノテーションを用いて,高密度対応と幾何を自己教師付きで学習する新しい検出フレームワークMonoRUnを提案する。 画素関連3Dオブジェクト座標の回帰には,不確実性を考慮した地域再構成ネットワークを用いる。 自己監督訓練では、予測された3D座標が画像平面に投影される。 不確実性重み付き再射誤差を最小限に抑えるためにロバストKL損失を提案する。 テストフェーズでは、ネットワークの不確実性を利用して、すべての下流モジュールを伝播する。 具体的には、不確実性駆動型PnPアルゴリズムを利用して、オブジェクトのポーズとその共分散を推定する。 広範な実験により,提案手法がkittiベンチマークの最先端手法を上回ることを実証した。

Object localization in 3D space is a challenging aspect in monocular 3D object detection. Recent advances in 6DoF pose estimation have shown that predicting dense 2D-3D correspondence maps between image and object 3D model and then estimating object pose via Perspective-n-Point (PnP) algorithm can achieve remarkable localization accuracy. Yet these methods rely on training with ground truth of object geometry, which is difficult to acquire in real outdoor scenes. To address this issue, we propose MonoRUn, a novel detection framework that learns dense correspondences and geometry in a self-supervised manner, with simple 3D bounding box annotations. To regress the pixel-related 3D object coordinates, we employ a regional reconstruction network with uncertainty awareness. For self-supervised training, the predicted 3D coordinates are projected back to the image plane. A Robust KL loss is proposed to minimize the uncertainty-weighted reprojection error. During testing phase, we exploit the network uncertainty by propagating it through all downstream modules. More specifically, the uncertainty-driven PnP algorithm is leveraged to estimate object pose and its covariance. Extensive experiments demonstrate that our proposed approach outperforms current state-of-the-art methods on KITTI benchmark.
翻訳日:2021-03-24 13:50:51 公開日:2021-03-23
# 極値解析器によるインクリメンタルゼロショット検出

Incrementally Zero-Shot Detection by an Extreme Value Analyzer ( http://arxiv.org/abs/2103.12609v1 )

ライセンス: Link先を確認
Zheng Sixiao and Fu Yanwei and Hou Yanxi(参考訳) 人間は、新しい未知のクラスを認識できるだけでなく、新しいクラスを既存の知識に段階的に組み込むこともできる。 しかし、ゼロショット学習モデルは、すべてのクラスを事前に知っておくべきだと仮定する一方で、漸進学習モデルは目に見えないクラスを認識できない。 本稿では、実世界の物体検出におけるゼロショット学習とクラスインクリメンタル学習の両方のための実践的戦略であるインクリメンタルゼロショット検出(IZSD)の新規かつ挑戦的な課題を紹介する。 革新的なエンドツーエンドモデル -- IZSD-EVer は、新しいクラスを段階的に検出し、今まで見たことのないクラスを検出する必要があるこのタスクに取り組むために提案された。 具体的には、新しい極値解析器を提案し、古い見え方、新しい見え方、見えないクラスからオブジェクトを同時に検出する。 さらに,画像の背景と前景の極端な不均衡を緩和する背景-前景平均二乗誤差損失と,古い目に見えるクラスの視覚空間と意味空間を整合する投影距離損失の2つの革新的損失を提案する。 実験では, 対象物の検出におけるモデルの有効性を実証し, Pascal VOCおよびMSCOCOデータセット上での代替モデルよりも優れた性能を示した。

Human beings not only have the ability to recognize novel unseen classes, but also can incrementally incorporate the new classes to existing knowledge preserved. However, zero-shot learning models assume that all seen classes should be known beforehand, while incremental learning models cannot recognize unseen classes. This paper introduces a novel and challenging task of Incrementally Zero-Shot Detection (IZSD), a practical strategy for both zero-shot learning and class-incremental learning in real-world object detection. An innovative end-to-end model -- IZSD-EVer was proposed to tackle this task that requires incrementally detecting new classes and detecting the classes that have never been seen. Specifically, we propose a novel extreme value analyzer to detect objects from old seen, new seen, and unseen classes, simultaneously. Additionally and technically, we propose two innovative losses, i.e., background-foreground mean squared error loss alleviating the extreme imbalance of the background and foreground of images, and projection distance loss aligning the visual space and semantic spaces of old seen classes. Experiments demonstrate the efficacy of our model in detecting objects from both the seen and unseen classes, outperforming the alternative models on Pascal VOC and MSCOCO datasets.
翻訳日:2021-03-24 13:50:31 公開日:2021-03-23
# 正規化流を用いた黒色腫の分布外検出

Out-of-Distribution Detection of Melanoma using Normalizing Flows ( http://arxiv.org/abs/2103.12672v1 )

ライセンス: Link先を確認
M.M.A. Valiuddin, C.G.A. Viviers(参考訳) 生成的モデリングは、機械学習研究の最前線でかなりの時間にわたって話題になっている。 機械学習の分野、特にディープラーニングにおける最近の成功により、説明可能で解釈可能な機械学習への関心が高まっている。 分布をモデル化し、密度推定と正確なデータ度に関する洞察を提供する能力は、そのような特徴の例である。 比較的新しい生成モデルの研究分野である正規化フロー(NFs)は、競争力のある生成結果を実現しつつ、比較的低コストでこれを正確に行うことができるため、かなりの注目を集めている。 典型的にはNFの生成能力について検討するが、アウト・オブ・ディストリビューション(OOD)検出のためのデータ分散モデルの検討に注力する。 最先端のNFモデルであるGLOWを用いて,ISICデータセットにおけるOODサンプルの検出を試みる。 このモデルが関連する研究に適合していることに気付く。 OOD検出を改善するために,結合層の共適応を抑制するマスキング法を検討したが,大きな改善は得られなかった。 さらに、特定の周波数成分をフィルタリングできるウェーブレットを用いたウェーブレットフローを用いて、完全な画像の代わりにデータ駆動の条件付きウェーブレット係数へのモデリングプロセスを単純化する。 これにより、OODのより関連性の高い特徴を捉えることを期待して、より大きな解像度画像を効率的にモデル化できる。 Wavelet Flowを導入した論文は、主に高解像度画像のサンプリング機能に焦点を当てており、OOD検出は扱わなかった。 本稿では、周波数成分の制御、異なるウェーブレットの使用、その他の最先端NFアーキテクチャの活用など、いくつかの改善案を提案する。

Generative modelling has been a topic at the forefront of machine learning research for a substantial amount of time. With the recent success in the field of machine learning, especially in deep learning, there has been an increased interest in explainable and interpretable machine learning. The ability to model distributions and provide insight in the density estimation and exact data likelihood is an example of such a feature. Normalizing Flows (NFs), a relatively new research field of generative modelling, has received substantial attention since it is able to do exactly this at a relatively low cost whilst enabling competitive generative results. While the generative abilities of NFs are typically explored, we focus on exploring the data distribution modelling for Out-of-Distribution (OOD) detection. Using one of the state-of-the-art NF models, GLOW, we attempt to detect OOD examples in the ISIC dataset. We notice that this model under performs in conform related research. To improve the OOD detection, we explore the masking methods to inhibit co-adaptation of the coupling layers however find no substantial improvement. Furthermore, we utilize Wavelet Flow which uses wavelets that can filter particular frequency components, thus simplifying the modeling process to data-driven conditional wavelet coefficients instead of complete images. This enables us to efficiently model larger resolution images in the hopes that it would capture more relevant features for OOD. The paper that introduced Wavelet Flow mainly focuses on its ability of sampling high resolution images and did not treat OOD detection. We present the results and propose several ideas for improvement such as controlling frequency components, using different wavelets and using other state-of-the-art NF architectures.
翻訳日:2021-03-24 13:50:07 公開日:2021-03-23
# UltraSR:空間エンコーディングは、画像機能に基づく任意スケール超解法に欠かせない鍵

UltraSR: Spatial Encoding is a Missing Key for Implicit Image Function-based Arbitrary-Scale Super-Resolution ( http://arxiv.org/abs/2103.12716v1 )

ライセンス: Link先を確認
Xingqian Xu, Zhangyang Wang, Humphrey Shi(参考訳) nerfや他の関連する暗黙的ニューラルネットワークの手法の成功により、ピクセル値が格納された離散的な2d配列から参照される必要はなくなったが、連続的な空間領域上のニューラルネットワークモデルから推測できる、連続的な画像表現のための新しい経路が開かれた。 LIIFによる最近の研究は、任意のスケールの超解像処理において、そのような新しい手法が優れた性能を発揮することを示したが、高頻度テクスチャの欠陥予測による構造歪みがしばしば現れる。 本研究では,空間座標と周期符号化を暗黙のニューラル表現と深く統合した暗黙のイメージ関数に基づく,シンプルで効果的な新しいネットワーク設計であるUltraSRを提案する。 空間符号化は,広汎な実験とアブレーション研究を通じて,次世代の高精度暗黙的画像機能への欠落鍵であることを示す。 我々のUltraSRは、従来の最先端手法と比較して、すべての超高解像度スケールでDIV2Kベンチマークに新しい最先端性能を設定します。 UltraSRは、他の標準ベンチマークデータセットよりも優れたパフォーマンスを実現している。 私たちのコードはhttps://github.com/SHI-Labs/UltraSR-Arbitrary-Scale-Super-Resolutionでリリースされます。

The recent success of NeRF and other related implicit neural representation methods has opened a new path for continuous image representation, where pixel values no longer need to be looked up from stored discrete 2D arrays but can be inferred from neural network models on a continuous spatial domain. Although the recent work LIIF has demonstrated that such novel approach can achieve good performance on the arbitrary-scale super-resolution task, their upscaled images frequently show structural distortion due to the faulty prediction on high-frequency textures. In this work, we propose UltraSR, a simple yet effective new network design based on implicit image functions in which spatial coordinates and periodic encoding are deeply integrated with the implicit neural representation. We show that spatial encoding is indeed a missing key towards the next-stage high-accuracy implicit image function through extensive experiments and ablation studies. Our UltraSR sets new state-of-the-art performance on the DIV2K benchmark under all super-resolution scales comparing to previous state-of-the-art methods. UltraSR also achieves superior performance on other standard benchmark datasets in which it outperforms prior works in almost all experiments. Our code will be released at https://github.com/SHI-Labs/UltraSR-Arbitrary-Scale-Super-Resolution.
翻訳日:2021-03-24 13:49:41 公開日:2021-03-23
# DeFLOCNet:フレキシブル低レベル制御による深層画像編集

DeFLOCNet: Deep Image Editing via Flexible Low-level Controls ( http://arxiv.org/abs/2103.12723v1 )

ライセンス: Link先を確認
Hongyu Liu, Ziyu Wan, Wei Huang, Yibing Song, Xintong Han, Jing Liao, Bing Jiang, Wei Liu(参考訳) ユーザ意図の視覚コンテンツは、画像編集シナリオにおいて入力画像の穴領域を埋める。 粗い低レベルの入力は、通常、スパーススケッチラインとカラードットで構成され、コンテンツ作成のためのユーザの意図を伝える(自由形式の編集)。 既存の手法では入力画像とcnn入力の低レベル制御を組み合わせるが、対応する特徴表現はユーザの意図を伝えるのに十分ではなく、不適切なコンテンツを生成する。 本稿では,DeFLOCNetを提案する。DeFLOCNetはディープエンコーダデコーダCNNを利用して,これらの制御のガイダンスを深層特徴表現に保持する。 各スキップ接続層では、構造生成ブロックを設計する。 入力画像に低レベル制御を付加する代わりに、これらの制御を各構造生成ブロックに直接注入し、cnn特徴空間におけるスケッチラインの洗練とカラー伝搬を行う。 次に、構造生成のために変調された特徴とオリジナルのデコーダの特徴を結合する。 一方、DeFLOCNetはテクスチャ生成と詳細拡張のための別のデコーダブランチを含んでいる。 構造とテクスチャはデコーダでレンダリングされ、ユーザが意図した編集結果につながる。 ベンチマークの実験では、DeFLOCNetは視覚的に喜ばしいコンテンツを作成するために、様々なユーザの意図を効果的に変換している。

User-intended visual content fills the hole regions of an input image in the image editing scenario. The coarse low-level inputs, which typically consist of sparse sketch lines and color dots, convey user intentions for content creation (\ie, free-form editing). While existing methods combine an input image and these low-level controls for CNN inputs, the corresponding feature representations are not sufficient to convey user intentions, leading to unfaithfully generated content. In this paper, we propose DeFLOCNet which relies on a deep encoder-decoder CNN to retain the guidance of these controls in the deep feature representations. In each skip-connection layer, we design a structure generation block. Instead of attaching low-level controls to an input image, we inject these controls directly into each structure generation block for sketch line refinement and color propagation in the CNN feature space. We then concatenate the modulated features with the original decoder features for structure generation. Meanwhile, DeFLOCNet involves another decoder branch for texture generation and detail enhancement. Both structures and textures are rendered in the decoder, leading to user-intended editing results. Experiments on benchmarks demonstrate that DeFLOCNet effectively transforms different user intentions to create visually pleasing content.
翻訳日:2021-03-24 13:49:21 公開日:2021-03-23
# 欠失キーフレーズの再定義と検索効果への影響

Redefining Absent Keyphrases and their Effect on Retrieval Effectiveness ( http://arxiv.org/abs/2103.12440v1 )

ライセンス: Link先を確認
Florian Boudin and Ygor Gallina(参考訳) ニューラルキーフレーズ生成モデルは、最近、欠落キーフレーズ、すなわち、ソーステキストに現れないキーフレーズを出力する能力により、多くの関心を集めている。 本稿では,情報検索(ir)の観点から,欠落キーフレーズの有用性を考察し,現在キーフレーズと欠落キーフレーズの区別が十分に明確化されていないことを示す。 本稿では,キーフレーズの欠落が科学文書検索に与える影響について,より詳細に分類する手法を提案する。 この方式では,キーフレーズを構成する単語の約20%のみが実際に文書拡張の役割を果たすが,検索効果で観察される多くの成果の背後には,このわずかな単語が隠れていることがわかった。 また,提案手法がニューラルキーフレーズ生成モデルの出力を評価する新しい角度を提供する方法についても論じる。

Neural keyphrase generation models have recently attracted much interest due to their ability to output absent keyphrases, that is, keyphrases that do not appear in the source text. In this paper, we discuss the usefulness of absent keyphrases from an Information Retrieval (IR) perspective, and show that the commonly drawn distinction between present and absent keyphrases is not made explicit enough. We introduce a finer-grained categorization scheme that sheds more light on the impact of absent keyphrases on scientific document retrieval. Under this scheme, we find that only a fraction (around 20%) of the words that make up keyphrases actually serves as document expansion, but that this small fraction of words is behind much of the gains observed in retrieval effectiveness. We also discuss how the proposed scheme can offer a new angle to evaluate the output of neural keyphrase generation models.
翻訳日:2021-03-24 13:49:02 公開日:2021-03-23
# 高次元関数近似のための勾配強調多忠実ニューラルネットワーク

Gradient-enhanced multifidelity neural networks for high-dimensional function approximation ( http://arxiv.org/abs/2103.12247v1 )

ライセンス: Link先を確認
Jethro Nagawkar and Leifur Leifsson(参考訳) 本研究では,グラデーション強調型マルチフィデリティニューラルネットワーク(gemfnns)という,新しいマルチフィデリティ機械学習(ml)モデルを提案する。 このモデルはグラデーションエンハンスドニューラルネットワーク(genns)のマルチフィデリティバージョンであり、複数のレベルのフィデリティで利用可能な機能情報と勾配情報の両方を使用して関数近似を行う。 その構成は、multifidelity neural networks (mfnns) に似ている。 このモデルは,3つの解析関数,1,2,20変数関数で検証される。 また、ニューラルネットワーク(NN)、GENN(英語版)、MFNN(英語版)と比較され、世界的精度0.99の判定係数(R^2)に達するために必要なサンプル数を測定する。 gemfnnは18, 120, 600の高忠実度サンプルを必要とし、それぞれ1, 2, 20次元のケースで目標の精度を満たした。 NNは1つの変数の場合で最善を尽くし、10つのサンプルしか必要とせず、GENNは2つの変数の場合で最善を尽くし、120のサンプルを必要とした。 GEMFNNは20の可変ケースで最もうまく機能し、最も近い競合であるGENNの8倍近いサンプルを必要とする。 この場合、nnsとmfnnは1万個の高忠実度サンプルを使用しても目標のグローバル精度に達しなかった。 本研究は,高次元問題に対するNNにおける勾配と多忠実性情報の利用の利点を示す。

In this work, a novel multifidelity machine learning (ML) model, the gradient-enhanced multifidelity neural networks (GEMFNNs), is proposed. This model is a multifidelity version of gradient-enhanced neural networks (GENNs) as it uses both function and gradient information available at multiple levels of fidelity to make function approximations. Its construction is similar to multifidelity neural networks (MFNNs). This model is tested on three analytical function, a one, two, and a 20 variable function. It is also compared to neural networks (NNs), GENNs, and MFNNs, and the number of samples required to reach a global accuracy of 0.99 coefficient of determination (R^2) is measured. GEMFNNs required 18, 120, and 600 high-fidelity samples for the one, two, and 20 dimensional cases, respectively, to meet the target accuracy. NNs performed best on the one variable case, requiring only ten samples, while GENNs worked best on the two variable case, requiring 120 samples. GEMFNNs worked best for the 20 variable case, while requiring nearly eight times fewer samples than its nearest competitor, GENNs. For this case, NNs and MFNNs did not reach the target global accuracy even after using 10,000 high-fidelity samples. This work demonstrates the benefits of using gradient as well as multifidelity information in NNs for high-dimensional problems.
翻訳日:2021-03-24 13:48:30 公開日:2021-03-23
# ニューラルODEプロセス

Neural ODE Processes ( http://arxiv.org/abs/2103.12413v1 )

ライセンス: Link先を確認
Alexander Norcliffe, Cristian Bodnar, Ben Day, Jacob Moss, Pietro Li\`o(参考訳) ニューラル正規微分方程式 (Neural Ordinary Differential Equations, NODE) は、システムの状態の即時変化率をモデル化するためにニューラルネットワークを使用する。 しかしながら、動的にグラデーションされた時系列に対して明らかな適合性にもかかわらず、NODEはいくつかの欠点を提示する。 まず、自然の方向によって課されるリアルタイムアプリケーションの基本要件である、入ってくるデータポイントに適応できない。 第二に、時系列は多くの場合、多くの考えられる力学によって説明できる、ばらばらな測定値からなる。 ノードはこの不確かさを捉えない。 対照的に、ニューラル・プロセス(英語版)(nps)は不確実性推定と高速なデータ適応を提供するモデル群であるが、時間の流れを明示的に処理しない。 これらの問題に対処するために、ニューラルODE上の分布によって決定される新しい確率過程であるNeural ODE Processs (NDP)を導入する。 基礎となる ode 上の適応的データ依存分布を維持することで, 少数のデータポイントから低次元システムのダイナミクスをうまく捉えることができることを示す。 同時に、NDPは、回転するMNIST桁などの未知の潜在ダイナミクスを持つ高次元時系列にスケールアップすることを示した。

Neural Ordinary Differential Equations (NODEs) use a neural network to model the instantaneous rate of change in the state of a system. However, despite their apparent suitability for dynamics-governed time-series, NODEs present a few disadvantages. First, they are unable to adapt to incoming data-points, a fundamental requirement for real-time applications imposed by the natural direction of time. Second, time-series are often composed of a sparse set of measurements that could be explained by many possible underlying dynamics. NODEs do not capture this uncertainty. In contrast, Neural Processes (NPs) are a family of models providing uncertainty estimation and fast data-adaptation, but lack an explicit treatment of the flow of time. To address these problems, we introduce Neural ODE Processes (NDPs), a new class of stochastic processes determined by a distribution over Neural ODEs. By maintaining an adaptive data-dependent distribution over the underlying ODE, we show that our model can successfully capture the dynamics of low-dimensional systems from just a few data-points. At the same time, we demonstrate that NDPs scale up to challenging high-dimensional time-series with unknown latent dynamics such as rotating MNIST digits.
翻訳日:2021-03-24 13:48:07 公開日:2021-03-23
# 植物設計情報の再利用性向上のためのグラフマッチング手法の適用

Applying graph matching techniques to enhance reuse of plant design information ( http://arxiv.org/abs/2103.12466v1 )

ライセンス: Link先を確認
Miia Rantala, Hannu Niemist\"o, Tommi Karhela, Seppo Sierla, Valeriy Vyatkin(参考訳) 本稿では,前設計の再利用を支援するため,プラント設計データにグラフマッチングを適用する方法について検討する。 既存のグラフマッチングアルゴリズムの文献レビューを行い、さらなるテストのためにアルゴリズムのグループを選択する。 初期のプラント設計のユースケースを紹介する。 既存のグラフマッチングアルゴリズムをプロセスプラントドメインに適用できるように,グラフ単純化アルゴリズムとノード類似度測定を含む,ユースケースに対処する手法を提案する。 提案手法は,いくつかのパルプおよび紙工場の設計データからなる工業事例で実証的に評価した。

This article investigates how graph matching can be applied to process plant design data in order to support the reuse of previous designs. A literature review of existing graph matching algorithms is performed, and a group of algorithms is chosen for further testing. A use case from early phase plant design is presented. A methodology for addressing the use case is proposed, including graph simplification algorithms and node similarity measures, so that existing graph matching algorithms can be applied in the process plant domain. The proposed methodology is evaluated empirically on an industrial case consisting of design data from several pulp and paper plants.
翻訳日:2021-03-24 13:47:48 公開日:2021-03-23
# DIG:グラフ深層学習研究のためのターンキーライブラリ

DIG: A Turnkey Library for Diving into Graph Deep Learning Research ( http://arxiv.org/abs/2103.12608v1 )

ライセンス: Link先を確認
Meng Liu, Youzhi Luo, Limei Wang, Yaochen Xie, Hao Yuan, Shurui Gui, Zhao Xu, Haiyang Yu, Jingtun Zhang, Yi Liu, Keqiang Yan, Bora Oztekin, Haoran Liu, Xuan Zhang, Cong Fu, Shuiwang Ji(参考訳) グラフの深層学習のためのライブラリはいくつか存在するが、グラフの深層学習のための基本的な操作の実装を目指している。 リサーチコミュニティでは、さまざまな高度なタスクの実装とベンチマークは、既存のライブラリでは依然として苦痛と時間を要する。 グラフ深層学習の研究を容易にするために、DIG: Dive into Graphsは、いくつかの高度なタスクに対して共通のグラフ深層学習アルゴリズムの統一的で拡張可能な実装を統合する研究指向のライブラリである。 現在、グラフ生成、グラフの自己教師型学習、グラフニューラルネットワークの説明可能性、および3Dグラフの深層学習について検討している。 それぞれの方向に対して、データインターフェース、共通アルゴリズム、評価メトリクスの統合実装を提供します。 さらに、DIGは、研究者が新しいメソッドを開発し、広く使われているデータセットと評価メトリクスを使用して共通のベースラインと比較するための拡張性、オープンソース、ターンキーライブラリである。 ソースコードとドキュメントはhttps://github.com/divelab/DIG/で入手できる。

Although there exist several libraries for deep learning on graphs, they are aiming at implementing basic operations for graph deep learning. In the research community, implementing and benchmarking various advanced tasks are still painful and time-consuming with existing libraries. To facilitate graph deep learning research, we introduce DIG: Dive into Graphs, a research-oriented library that integrates unified and extensible implementations of common graph deep learning algorithms for several advanced tasks. Currently, we consider graph generation, self-supervised learning on graphs, explainability of graph neural networks, and deep learning on 3D graphs. For each direction, we provide unified implementations of data interfaces, common algorithms, and evaluation metrics. Altogether, DIG is an extensible, open-source, and turnkey library for researchers to develop new methods and effortlessly compare with common baselines using widely used datasets and evaluation metrics. Source code and documentations are available at https://github.com/divelab/DIG/.
翻訳日:2021-03-24 13:47:40 公開日:2021-03-23
# 学習率を低下させる方法

How to decay your learning rate ( http://arxiv.org/abs/2103.12682v1 )

ライセンス: Link先を確認
Aitor Lewkowycz(参考訳) 複雑な学習率のスケジュールは、ディープラーニングの不可欠な部分となっている。 一般的な微調整スケジュールは、ウェイトノルムのバウンス後に学習率を低下させる。 これにより、abel: 重みの規範を追跡することで学習率を低下させる自動スケジューラが提案される。 ABELのパフォーマンスは調整されたスケジュールと一致し、パラメータに関してより堅牢である。 視覚、nlp、rlにおける広範囲な実験を通じて、重量規範が跳ね返らない場合、パフォーマンスの損失を伴わずにさらにスケジュールを単純化できることを示した。 このような場合、複雑なスケジュールは、訓練終了時の減衰を伴う一定の学習率に類似する性能を有する。

Complex learning rate schedules have become an integral part of deep learning. We find empirically that common fine-tuned schedules decay the learning rate after the weight norm bounces. This leads to the proposal of ABEL: an automatic scheduler which decays the learning rate by keeping track of the weight norm. ABEL's performance matches that of tuned schedules and is more robust with respect to its parameters. Through extensive experiments in vision, NLP, and RL, we show that if the weight norm does not bounce, we can simplify schedules even further with no loss in performance. In such cases, a complex schedule has similar performance to a constant learning rate with a decay at the end of training.
翻訳日:2021-03-24 13:47:24 公開日:2021-03-23
# マルチロボットタスク割り当て -- 複雑さと近似

Multi-Robot Task Allocation -- Complexity and Approximation ( http://arxiv.org/abs/2103.12370v1 )

ライセンス: Link先を確認
Haris Aziz, Hau Chan, \'Agnes Cseh, Bo Li, Fahimeh Ramezani, Chenhao Wang(参考訳) マルチロボットタスクアロケーションは、ロボット工学における最も基本的な問題の1つであり、探索、救助、地域探索といった様々な現実世界のロボットアプリケーションに不可欠である。 単一タスクロボットとマルチロボットタスク 即時アサインメント(ST-MR-IA)では、各タスクが少なくとも1つのロボットを必要とし、各ロボットは1つのタスクで作業でき、各タスクに対して運用コストがかかる。 本研究の目的は,予算制約に係わるタスクの最大数をロボットに割り当てる自然計算問題を検討することである。 本研究では,(1)総予算,(2)タスク予算,(3)ロボット予算の3種類の予算制約について考察する。 一般設定と重要な制限設定のための多項式時間アルゴリズムと同様に近似結果を含む詳細な複雑性解析を提供する。

Multi-robot task allocation is one of the most fundamental classes of problems in robotics and is crucial for various real-world robotic applications such as search, rescue and area exploration. We consider the Single-Task robots and Multi-Robot tasks Instantaneous Assignment (ST-MR-IA) setting where each task requires at least a certain number of robots and each robot can work on at most one task and incurs an operational cost for each task. Our aim is to consider a natural computational problem of allocating robots to complete the maximum number of tasks subject to budget constraints. We consider budget constraints of three different kinds: (1) total budget, (2) task budget, and (3) robot budget. We provide a detailed complexity analysis including results on approximations as well as polynomial-time algorithms for the general setting and important restricted settings.
翻訳日:2021-03-24 13:47:13 公開日:2021-03-23
# フレキテストの語彙は何か? 拡張された複製

What is the Vocabulary of Flaky Tests? An Extended Replication ( http://arxiv.org/abs/2103.12670v1 )

ライセンス: Link先を確認
B. H. P. Camara, M. A. G. Silva, A. T. Endo, S. R. Vergilio(参考訳) 自動テストの普及により、ソフトウェアシステムは継続的に進化し、高品質で提供されてきた。 このシナリオを傷つける繰り返しの問題は、非決定的に通過または失敗する可能性のあるテストケースである、不安定なテストの存在である。 有望だが、より実証的な証拠が欠けているアプローチは、自動テストの静的データを収集し、それらのフレキネスを予測することである。 本稿では,テストフラキネスの予測にコード識別子を用いた場合について,実験的検討を行った。 そのため、我々はPinto~et~al.~(MSR~2020)の以前の研究の大部分をまず複製する。 このレプリケーションは、異なるML Pythonプラットフォーム(Scikit-learn)を使用して、分析に異なる学習アルゴリズムを追加することで拡張された。 そして、他の不安定なテストと異なるプロジェクトによるデータセットを使用して、トレーニングされたモデルのパフォーマンスを検証する。 我々は、pinto~et~al.~(2020)の結果の再現に成功し、scikit-learnと若干の違いがあった。 検証に関して、トレーニングされたモデルのリコールは小さく、分類器は様々な範囲の減少を示した。 これはプロジェクト内およびプロジェクト間テストのフラキネス予測の両方で観察された。

Software systems have been continuously evolved and delivered with high quality due to the widespread adoption of automated tests. A recurring issue hurting this scenario is the presence of flaky tests, a test case that may pass or fail non-deterministically. A promising, but yet lacking more empirical evidence, approach is to collect static data of automated tests and use them to predict their flakiness. In this paper, we conducted an empirical study to assess the use of code identifiers to predict test flakiness. To do so, we first replicate most parts of the previous study of Pinto~et~al.~(MSR~2020). This replication was extended by using a different ML Python platform (Scikit-learn) and adding different learning algorithms in the analyses. Then, we validated the performance of trained models using datasets with other flaky tests and from different projects. We successfully replicated the results of Pinto~et~al.~(2020), with minor differences using Scikit-learn; different algorithms had performance similar to the ones used previously. Concerning the validation, we noticed that the recall of the trained models was smaller, and classifiers presented a varying range of decreases. This was observed in both intra-project and inter-projects test flakiness prediction.
翻訳日:2021-03-24 13:46:59 公開日:2021-03-23
# 深層学習を用いた胎児心エコー図におけるマルチビュー・マルチクラス画像分割

Multiview and Multiclass Image Segmentation using Deep Learning in Fetal Echocardiography ( http://arxiv.org/abs/2103.12245v1 )

ライセンス: Link先を確認
Ken C. L. Wong, Elena S. Sinkovskaya, Alfred Z. Abuhamad, Tanveer Syeda-Mahmood(参考訳) 先天性心疾患(英: congenital heart disease、chd)は、アメリカ合衆国で最も多い先天性疾患である。 過去数年間の超音波の訓練と進歩にもかかわらず、CHDは出生前超音波検査でしばしば見逃される異常である。 したがって, chdのコンピュータ支援検出は, スクリーニングと診断を改善することにより, 出生前ケアにおいて重要な役割を果たすことができる。 多くのchdは構造異常を伴うため、解剖学的構造の自動分割は胎児心エコー解析の重要なステップである。 既存の手法は主に4室ビューに焦点を絞っているが,3室トラチーアと4室ビューの両方で14の解剖学的構造をカバーするより包括的なディープラーニングセグメンテーションフレームワークを提案する。 具体的には,V-Netを空間的ドロップアウト,グループ正規化,深い監督によって強化し,異常に関わらず両ビューに適用可能なセグメンテーションモデルをトレーニングする。 いくつかの画像でラベルが使用できない場合のサイコロロスの使用の落とし穴を特定することにより、このフレームワークは複数のビューからの情報を統合し、解剖学的異常による欠損構造に頑健であり、平均サイコロスコアは79%となる。

Congenital heart disease (CHD) is the most common congenital abnormality associated with birth defects in the United States. Despite training efforts and substantial advancement in ultrasound technology over the past years, CHD remains an abnormality that is frequently missed during prenatal ultrasonography. Therefore, computer-aided detection of CHD can play a critical role in prenatal care by improving screening and diagnosis. Since many CHDs involve structural abnormalities, automatic segmentation of anatomical structures is an important step in the analysis of fetal echocardiograms. While existing methods mainly focus on the four-chamber view with a small number of structures, here we present a more comprehensive deep learning segmentation framework covering 14 anatomical structures in both three-vessel trachea and four-chamber views. Specifically, our framework enhances the V-Net with spatial dropout, group normalization, and deep supervision to train a segmentation model that can be applied on both views regardless of abnormalities. By identifying the pitfall of using the Dice loss when some labels are unavailable in some images, this framework integrates information from multiple views and is robust to missing structures due to anatomical anomalies, achieving an average Dice score of 79%.
翻訳日:2021-03-24 13:46:40 公開日:2021-03-23
# 深部陰影移動最小二乗関数による3次元再構成

Deep Implicit Moving Least-Squares Functions for 3D Reconstruction ( http://arxiv.org/abs/2103.12266v1 )

ライセンス: Link先を確認
Shi-Lin Liu, Hao-Xiang Guo, Hao Pan, Peng-Shuai Wang, Xin Tong, Yang Liu(参考訳) point setは3dディープラーニングに広く使われている柔軟で軽量な表現である。 しかし、それらの離散的な性質は、連続的かつ微細な幾何学を表現するのを妨げ、学習に基づく形状生成の大きな問題を引き起こす。 本研究では,点集合上の局所的暗黙的関数を自然に定義するよく知られた暗黙的移動最小二乗(imls)曲面定式化を導入することにより,離散点集合を滑らかな曲面に変換する。 IMLS表面生成を深層ニューラルネットワークに組み込んで、点集合の柔軟性と暗黙曲面の高品質の両方を継承する。 imlsnetはoctree構造を,必要であればmlsポイントを生成するための足場として予測し,学習した局所的優先度で形状形状を特徴付ける。 さらに,mls点が予測された時点では,暗黙的関数評価はニューラルネットワークとは独立であり,実行時の高速評価を可能にする。 3次元オブジェクト再構成実験により、IMLSNetは、再構築品質と計算効率の点で最先端の学習手法より優れていることが示された。 広範なアブレーションテストもネットワーク設計と損失関数を検証する。

Point set is a flexible and lightweight representation widely used for 3D deep learning. However, their discrete nature prevents them from representing continuous and fine geometry, posing a major issue for learning-based shape generation. In this work, we turn the discrete point sets into smooth surfaces by introducing the well-known implicit moving least-squares (IMLS) surface formulation, which naturally defines locally implicit functions on point sets. We incorporate IMLS surface generation into deep neural networks for inheriting both the flexibility of point sets and the high quality of implicit surfaces. Our IMLSNet predicts an octree structure as a scaffold for generating MLS points where needed and characterizes shape geometry with learned local priors. Furthermore, our implicit function evaluation is independent of the neural network once the MLS points are predicted, thus enabling fast runtime evaluation. Our experiments on 3D object reconstruction demonstrate that IMLSNets outperform state-of-the-art learning-based methods in terms of reconstruction quality and computational efficiency. Extensive ablation tests also validate our network design and loss functions.
翻訳日:2021-03-24 13:46:20 公開日:2021-03-23
# ロバストlidarカメラキャリブレーションのためのサンプル選択の最適化

Optimising the selection of samples for robust lidar camera calibration ( http://arxiv.org/abs/2103.12287v1 )

ライセンス: Link先を確認
Darren Tsai, Stewart Worrall, Mao Shan, Anton Lohr, Eduardo Nebot(参考訳) シーン全体に適したキャリブレーションパラメータを推定するためのキャリブレーションサンプルの選択を最適化する,ロバストなキャリブレーションパイプラインを提案する。 本稿では,データ選択プロセスの自動化によるユーザエラーの最小化を,サンプルのキャリブレーションセット毎にスコアを与える“variability of quality(voq)”と呼ばれるメトリクスによって行う。 このVOQスコアは,推定キャリブレーションパラメータがシーン全体に対して適切に一般化する能力と相関し,既存のキャリブレーションアルゴリズムのオーバーフィット問題を克服することを示す。 本手法は, キャリブレーションの専門知識レベルの実践者に対して, キャリブレーションプロセスの簡易化と, キャリブレーションパイプラインの入出力データの品質を客観的に測定することによる。 さらに,キャリブレーションパラメータの精度を評価する新しい手法を提案する。 シーン全体の再プロジェクションエラーを計算し、パラメータがシーン内のすべての機能に適切に適合するようにします。 提案するキャリブレーションパイプラインは90秒で1-1.2cm,標準偏差0.4-0.5cmで46のシーンに均等に分布する。 このプロセスは、高解像度、ソフトウェア定義可能なライダーBaraja Spectrum-Scan、低解像度のVelodyne VLP-16の実験によって検証されている。 ライダー技術に大きな違いがあるにも関わらず,提案手法は両者のロバストなキャリブレーションパラメータを推定できることを示した。 この論文に使用するコードとデータセットは、オープンソースとして利用可能です。

We propose a robust calibration pipeline that optimises the selection of calibration samples for the estimation of calibration parameters that fit the entire scene. We minimise user error by automating the data selection process according to a metric, called Variability of Quality (VOQ) that gives a score to each calibration set of samples. We show that this VOQ score is correlated with the estimated calibration parameter's ability to generalise well to the entire scene, thereby overcoming the overfitting problems of existing calibration algorithms. Our approach has the benefits of simplifying the calibration process for practitioners of any calibration expertise level and providing an objective measure of the quality for our calibration pipeline's input and output data. We additionally use a novel method of assessing the accuracy of the calibration parameters. It involves computing reprojection errors for the entire scene to ensure that the parameters are well fitted to all features in the scene. Our proposed calibration pipeline takes 90s, and obtains an average reprojection error of 1-1.2cm, with standard deviation of 0.4-0.5cm over 46 poses evenly distributed in a scene. This process has been validated by experimentation on a high resolution, software definable lidar, Baraja Spectrum-Scan; and a low, fixed resolution lidar, Velodyne VLP-16. We have shown that despite the vast differences in lidar technologies, our proposed approach manages to estimate robust calibration parameters for both. Our code and data set used for this paper are made available as open-source.
翻訳日:2021-03-24 13:46:01 公開日:2021-03-23
# 医用セグメンテーション評価のための粗さ指標と粗さ距離

Roughness Index and Roughness Distance for Benchmarking Medical Segmentation ( http://arxiv.org/abs/2103.12350v1 )

ライセンス: Link先を確認
Vidhiwar Singh Rathour, Kashu Yamakazi and T. Hoang Ngan Le(参考訳) 医用画像分割は医用画像解析において最も困難な課題の一つであり、多くの臨床応用において広く開発されてきた。 既存の測定基準のほとんどは、まず自然画像用に設計され、その後医療画像に拡張された。 対象表面は医学的セグメンテーションや定量的分析において重要な役割を果たす。 脳腫瘍表面の分析、灰白質容積の測定、既存の測定のほとんどは、物体表面の分析、特に与えられた体積物の表面の滑らかさや粗さ、あるいはトポロジカルエラーの分析に関して制限されている。 本稿では,既存の医用画像セグメンテーション指標の長所と短所,特にボリュームデータについて分析を行った。 次に、医用画像分割分析および評価のための適切な粗さ指数と粗さ距離を提案する。 提案手法は,2種類のセグメンテーションエラー(つまり)に対処する。 (i)境界/表面上の位相誤差と境界/表面上の(ii)不規則性 本研究の貢献は, (i) 表面上の不規則なスパイク/ホールを検出し, (ii) 所定の物体の表面粗さを測定する粗さ指数を提案し, (iii) 提案した粗さ指数を利用して2つの境界/表面の距離を測定する粗さ距離を提案し, (iv) 不規則なスパイク/ホールを除去して表面を滑らかにするアルゴリズムを提案する。 提案する粗さ指数と粗さ距離は,土木工学でうまく開発された固体表面粗さパラメータに基づいている。

Medical image segmentation is one of the most challenging tasks in medical image analysis and has been widely developed for many clinical applications. Most of the existing metrics have been first designed for natural images and then extended to medical images. While object surface plays an important role in medical segmentation and quantitative analysis i.e. analyze brain tumor surface, measure gray matter volume, most of the existing metrics are limited when it comes to analyzing the object surface, especially to tell about surface smoothness or roughness of a given volumetric object or to analyze the topological errors. In this paper, we first analysis both pros and cons of all existing medical image segmentation metrics, specially on volumetric data. We then propose an appropriate roughness index and roughness distance for medical image segmentation analysis and evaluation. Our proposed method addresses two kinds of segmentation errors, i.e. (i)topological errors on boundary/surface and (ii)irregularities on the boundary/surface. The contribution of this work is four-fold: (i) detect irregular spikes/holes on a surface, (ii) propose roughness index to measure surface roughness of a given object, (iii) propose a roughness distance to measure the distance of two boundaries/surfaces by utilizing the proposed roughness index and (iv) suggest an algorithm which helps to remove the irregular spikes/holes to smooth the surface. Our proposed roughness index and roughness distance are built upon the solid surface roughness parameter which has been successfully developed in the civil engineering.
翻訳日:2021-03-24 13:45:32 公開日:2021-03-23
# OFFSEG:オフロード運転のためのセマンティックセグメンテーションフレームワーク

OFFSEG: A Semantic Segmentation Framework For Off-Road Driving ( http://arxiv.org/abs/2103.12417v1 )

ライセンス: Link先を確認
Kasi Viswanath, Kartikeya Singh, Peng Jiang, Sujit P.B. and Srikanth Saripalli(参考訳) オフロード画像セマンティックセグメンテーションは、不均一な地形、非構造的なクラス境界、不規則な特徴、強いテクスチャが存在するため、困難である。 これらの側面は、情報が経路計画に使用される車両の知覚に影響を与える。 現在のオフロードデータセットは、クラス不均衡や様々な環境地形の理解のような困難を示す。 これらの問題を克服するために,我々は,オフセグメンテーションと呼ばれる,オフセグメンテーションの枠組みを提案する。 (i) 特定のサブクラス(草,水たまり,土,砂利など)を区分するカラーセグメンテーション方法論 (ii) 最先端のディープラーニングアーキテクチャを用いた,4つのクラス(スキー,トラバーサブル領域,非トラバーサブル領域,障害)のプールクラスセグメンテーション (プールドクラスセグメンテーション) を含む。 より良いシーン理解のために トラバーサブル地域から このフレームワークの評価は、RELLIS-3DとRUGDの2つのオフロード駆動データセット上で行われる。 また,IISERBキャンパスフレームにおける提案フレームワークの検証を行った。 以上の結果から,OFFSEGは良好な性能を示し,またトラバース可能な領域に関する詳細な情報も提供する。

Off-road image semantic segmentation is challenging due to the presence of uneven terrains, unstructured class boundaries, irregular features and strong textures. These aspects affect the perception of the vehicle from which the information is used for path planning. Current off-road datasets exhibit difficulties like class imbalance and understanding of varying environmental topography. To overcome these issues we propose a framework for off-road semantic segmentation called as OFFSEG that involves (i) a pooled class semantic segmentation with four classes (sky, traversable region, non-traversable region and obstacle) using state-of-the-art deep learning architectures (ii) a colour segmentation methodology to segment out specific sub-classes (grass, puddle, dirt, gravel, etc.) from the traversable region for better scene understanding. The evaluation of the framework is carried out on two off-road driving datasets, namely, RELLIS-3D and RUGD. We have also tested proposed framework in IISERB campus frames. The results show that OFFSEG achieves good performance and also provides detailed information on the traversable region.
翻訳日:2021-03-24 13:45:06 公開日:2021-03-23
# 非視線イメージングのための仮想光輸送行列

Virtual light transport matrices for non-line-of-sight imaging ( http://arxiv.org/abs/2103.12622v1 )

ライセンス: Link先を確認
Julio Marco, Adrian Jarabo, Ji Hyun Nam, Xiaochun Liu, Miguel \'Angel Cosculluela, Andreas Velten, Diego Gutierrez(参考訳) 光移動マトリックス(light transport matrix, ltm)は、光がシーンとどのように相互作用するかを説明し、照明部品の照明や分離といった応用を可能にする、視線(los)イメージングのインストゥルメンタルツールである。 我々は,NLOS画像のための最近の仮想フォワード光伝搬モデルとLOS光伝達方程式を結合して,NLOSシナリオのLTMを推定するフレームワークを提案する。 計算プロジェクタ・カメラのセットアップを設計し,これらの仮想イメージングシステムを用いて隠れシーンの移動行列を推定する。 行列の異なる要素を計算するための特定の照明関数を導入し、NLOSセットアップの挑戦的な広開口条件を克服する。 私たちのnlos light transport matrixは、隠れたシーンの特定の場所を(再)照らし、既存のlos技術に似た、複雑な散らかった隠れたシーンの直接、一階、高階の間接照明を分離できます。

The light transport matrix (LTM) is an instrumental tool in line-of-sight (LOS) imaging, describing how light interacts with the scene and enabling applications such as relighting or separation of illumination components. We introduce a framework to estimate the LTM of non-line-of-sight (NLOS) scenarios, coupling recent virtual forward light propagation models for NLOS imaging with the LOS light transport equation. We design computational projector-camera setups, and use these virtual imaging systems to estimate the transport matrix of hidden scenes. We introduce the specific illumination functions to compute the different elements of the matrix, overcoming the challenging wide-aperture conditions of NLOS setups. Our NLOS light transport matrix allows us to (re)illuminate specific locations of a hidden scene, and separate direct, first-order indirect, and higher-order indirect illumination of complex cluttered hidden scenes, similar to existing LOS techniques.
翻訳日:2021-03-24 13:44:36 公開日:2021-03-23
# Reward-Consistent Demonstration を用いた 6DoF Grasping の学習

Learning 6DoF Grasping Using Reward-Consistent Demonstration ( http://arxiv.org/abs/2103.12321v1 )

ライセンス: Link先を確認
Daichi Kawakami, Ryoichi Ishikawa, Menandro Roxas, Yoshihiro Sato, Takeshi Oishi(参考訳) ロボットの自由度が増加するにつれて、ロボットの動きの実装はより複雑で困難になる。 本研究では,6DOF-grasping動作の学習に着目し,把握動作を複数のタスクに分割することを検討する。 目的の動作をより効率的に学習するために,模倣と強化学習を組み合わせることを提案する。 模倣学習のための教師データとして実演データを集めるために,ロボットを直感的に操作できるバーチャルリアリティ(vr)インタフェースを開発した。 さらに,より単純なタスクに動作を分割することにより,強化学習のための報酬関数の設計を簡素化し,把持動作の学習に必要なステップの短縮を実験で示す。

As the number of the robot's degrees of freedom increases, the implementation of robot motion becomes more complex and difficult. In this study, we focus on learning 6DOF-grasping motion and consider dividing the grasping motion into multiple tasks. We propose to combine imitation and reinforcement learning in order to facilitate a more efficient learning of the desired motion. In order to collect demonstration data as teacher data for the imitation learning, we created a virtual reality (VR) interface that allows humans to operate the robot intuitively. Moreover, by dividing the motion into simpler tasks, we simplify the design of reward functions for reinforcement learning and show in our experiments a reduction in the steps required to learn the grasping motion.
翻訳日:2021-03-24 13:43:49 公開日:2021-03-23
# リコメンダシステムの多様性規則化利子モデリング

Diversity Regularized Interests Modeling for Recommender Systems ( http://arxiv.org/abs/2103.12404v1 )

ライセンス: Link先を確認
Junmei Hao, Jingcheng Shi, Qing Da, Anxiang Zeng, Yujie Dun, Xueming Qian, Qianying Lin(参考訳) eコマースの急速な発展とアイテムの量の増加により、ユーザーはより多くのアイテムを提示されるため、興味が広がる。 単一のユーザベクトルとアイテムベクトルを組み合わせることで,ユーザの好みをモデル化する従来の手法によるユーザ意図のモデル化がますます困難になっている。 近年,複数のユーザ関心ベクトルを生成し,従来の手法よりも優れた性能を実現する手法が提案されている。 しかし、実証的な研究により、これらの多利子法から生成されるベクトルは時として同質であり、それが準最適性能をもたらすことが示されている。 本稿では,レコメンダシステムのための新しい多様性正規化関心モデリング(drim)手法を提案する。 複数のユーザ興味ベクトルを生成するために,カプセルネットワークを多目的抽出器に適用する。 ユーザの興味はある程度の差異を持つべきであり,複数のユーザ関心ベクトルを分離する多様性正規化セパレータとして3つの戦略を導入する。 パブリックデータセットと産業データセットに関する実験結果から,利用者の興味の相違と,提案手法の優れた性能を把握できるモデルの有効性が示された。

With the rapid development of E-commerce and the increase in the quantity of items, users are presented with more items hence their interests broaden. It is increasingly difficult to model user intentions with traditional methods, which model the user's preference for an item by combining a single user vector and an item vector. Recently, some methods are proposed to generate multiple user interest vectors and achieve better performance compared to traditional methods. However, empirical studies demonstrate that vectors generated from these multi-interests methods are sometimes homogeneous, which may lead to sub-optimal performance. In this paper, we propose a novel method of Diversity Regularized Interests Modeling (DRIM) for Recommender Systems. We apply a capsule network in a multi-interest extractor to generate multiple user interest vectors. Each interest of the user should have a certain degree of distinction, thus we introduce three strategies as the diversity regularized separator to separate multiple user interest vectors. Experimental results on public and industrial data sets demonstrate the ability of the model to capture different interests of a user and the superior performance of the proposed approach.
翻訳日:2021-03-24 13:43:37 公開日:2021-03-23
# 局所的異種行動グラフを用いた健康状態予測

Health Status Prediction with Local-Global Heterogeneous Behavior Graph ( http://arxiv.org/abs/2103.12456v1 )

ライセンス: Link先を確認
Xuan Ma, Xiaoshan Yang, Junyu Gao, and Changsheng Xu(参考訳) 健康管理は世界中で注目を集めています。 しかし、既存の健康管理は主に、複雑で不定期な病院の診察と治療に依存している。 モバイルデバイスの出現は、人々の健康状態を便利かつ即時的に管理することを可能にする。 ウェアラブルセンサから継続的に収集されるさまざまなデータストリームを用いて、健康状態の推定を行うことができる。 しかし、これらのデータストリームは多ソースで異種であり、局所的な文脈とグローバルな時間的側面を持つ複雑な時間構造を含んでいるため、特徴学習とデータ共同利用は困難である。 本研究では,複数の局所コンテキストサブグラフを含む行動関連多元データストリームをモデル化し,ヘテロジニアスグラフニューラルネットワークを用いた短期的局所コンテキスト情報学習と,自己接続ネットワークを用いた長期依存学習のためのグローバル時間サブグラフを提案する。 そして、ローカル・グローバル行動グラフから学習した構造認識表現に基づいて、健康状態を予測する。 学生生活データセットを用いて実験を行い,提案モデルの有効性を実証した。

Health management is getting increasing attention all over the world. However, existing health management mainly relies on hospital examination and treatment, which are complicated and untimely. The emerging of mobile devices provides the possibility to manage people's health status in a convenient and instant way. Estimation of health status can be achieved with various kinds of data streams continuously collected from wearable sensors. However, these data streams are multi-source and heterogeneous, containing complex temporal structures with local contextual and global temporal aspects, which makes the feature learning and data joint utilization challenging. We propose to model the behavior-related multi-source data streams with a local-global graph, which contains multiple local context sub-graphs to learn short term local context information with heterogeneous graph neural networks and a global temporal sub-graph to learn long term dependency with self-attention networks. Then health status is predicted based on the structure-aware representation learned from the local-global behavior graph. We take experiments on StudentLife dataset, and extensive results demonstrate the effectiveness of our proposed model.
翻訳日:2021-03-24 13:43:19 公開日:2021-03-23
# 大規模クエリ負荷の正確なコスト推定のための効率的なディープラーニングパイプライン

Efficient Deep Learning Pipelines for Accurate Cost Estimations Over Large Scale Query Workload ( http://arxiv.org/abs/2103.12465v1 )

ライセンス: Link先を確認
Johan Kok Zhi Kang, Gaurav, Sien Yi Tan, Feng Cheng, Shixuan Sun, Bingsheng He(参考訳) SQLクエリのリソース消費パターンを予測するためのディープラーニングモデルの使用は、最近よく研究されている分野である。 多くの企業がデータレイクを大規模分析のためにクラウドプラットフォームを使用しているため、これらのモデルはクラウドリソースのプロビジョニングを管理するパイプラインの重要な部分を形成している。 これらのモデルは有望な正確性を示しているが、大規模産業ワークロードでのトレーニングは高価である。 大量のクエリと多種多様なクエリプランにまたがるシェイプ一貫性を強制するために使用される過剰なパディングに対するエンコーディング技術の非効率性は、1) モデルトレーニング時間が長く、2) バッチトレーニングをサポートするための高価なスケールアップインフラストラクチャの必要性を暗示している。 そこで我々は,クエリトレースのリソース消費パターンを正確に予測する木畳み込みに基づくデータサイエンスパイプラインであるPrestroidを開発した。 我々は20pb以上のデータを持つデータレイク上で,grabによる1k以上のpresto olapクエリを評価した。 実験結果は、パイプラインが予測精度のベンチマークを上回り、大規模ワークロードのリソース予測をより正確にすると同時に、バッチ毎のメモリフットプリントを13.5倍、エピック毎のトレーニング時間を3.45倍削減することを示している。 Microsoft Azure VM上での大規模なバッチモデルトレーニングでは,最大13.2倍のコスト削減を実演する。

The use of deep learning models for forecasting the resource consumption patterns of SQL queries have recently been a popular area of study. With many companies using cloud platforms to power their data lakes for large scale analytic demands, these models form a critical part of the pipeline in managing cloud resource provisioning. While these models have demonstrated promising accuracy, training them over large scale industry workloads are expensive. Space inefficiencies of encoding techniques over large numbers of queries and excessive padding used to enforce shape consistency across diverse query plans implies 1) longer model training time and 2) the need for expensive, scaled up infrastructure to support batched training. In turn, we developed Prestroid, a tree convolution based data science pipeline that accurately predicts resource consumption patterns of query traces, but at a much lower cost. We evaluated our pipeline over 19K Presto OLAP queries from Grab, on a data lake of more than 20PB of data. Experimental results imply that our pipeline outperforms benchmarks on predictive accuracy, contributing to more precise resource prediction for large-scale workloads, yet also reduces per-batch memory footprint by 13.5x and per-epoch training time by 3.45x. We demonstrate direct cost savings of up to 13.2x for large batched model training over Microsoft Azure VMs.
翻訳日:2021-03-24 13:43:02 公開日:2021-03-23
# ESCORT:Deep Neural NetworkとTransfer Learningを用いたEthereum Smart COntRacTs脆弱性検出

ESCORT: Ethereum Smart COntRacTs Vulnerability Detection using Deep Neural Network and Transfer Learning ( http://arxiv.org/abs/2103.12607v1 )

ライセンス: Link先を確認
Oliver Lutz and Huili Chen and Hossein Fereidooni and Christoph Sendner and Alexandra Dmitrienko and Ahmad Reza Sadeghi and Farinaz Koushanfar(参考訳) Ethereumスマートコントラクトは、買い手と売り手の合意条件を記述したブロックチェーン上の自動分散アプリケーションであり、信頼できる仲介者や仲裁の必要性を減らす。 しかし、smart contractsの展開は、暗号通貨システムに新しい攻撃ベクターを導入する。 特に、スマートコントラクトにおけるプログラミングの欠陥は、巨額の財政的利益を得るためにすでに悪用されている。 したがって、コントラクト内の異なるクラスの脆弱性を効率的に検出する上で、新興かつ重要な問題である。 既存の機械学習ベースの脆弱性検出方法は限定的であり、スマートコントラクトが脆弱かどうかを検査するか、特定の脆弱性ごとに個別の分類器をトレーニングするか、拡張性を考慮することなくマルチクラス脆弱性検出を示すだけである。 既存の作業のスケーラビリティと一般化の限界を克服するために、私たちは、ethereumスマートコントラクトのための最初のディープニューラルネットワーク(dnn)ベースの脆弱性検出フレームワークであるaweelを提案します。 escortは2つの部分からなるマルチアウトプットnnアーキテクチャを活用している: (i) 入力コントラクトのセマンティクスを学ぶ共通機能抽出器; (ii) 各ブランチが特徴抽出器から得られた特徴に基づいて特定の脆弱性タイプを学習する複数のブランチ構造。 実験の結果, ESCORTは6種類の脆弱性に対して平均95%のF1スコアを達成し, 検出時間は約0.02秒であった。 新しい脆弱性タイプに拡張すると、平均F1スコアは93%になる。 私たちの知る限りでは、ESCORTはDNNモデルアーキテクチャの変更を最小限に抑え、オーバーヘッドを再トレーニングする新しい脆弱性タイプでのトランスファー学習を可能にする最初のフレームワークです。

Ethereum smart contracts are automated decentralized applications on the blockchain that describe the terms of the agreement between buyers and sellers, reducing the need for trusted intermediaries and arbitration. However, the deployment of smart contracts introduces new attack vectors into the cryptocurrency systems. In particular, programming flaws in smart contracts can be and have already been exploited to gain enormous financial profits. It is thus an emerging yet crucial issue to detect vulnerabilities of different classes in contracts in an efficient manner. Existing machine learning-based vulnerability detection methods are limited and only inspect whether the smart contract is vulnerable, or train individual classifiers for each specific vulnerability, or demonstrate multi-class vulnerability detection without extensibility consideration. To overcome the scalability and generalization limitations of existing works, we propose ESCORT, the first Deep Neural Network (DNN)-based vulnerability detection framework for Ethereum smart contracts that support lightweight transfer learning on unseen security vulnerabilities, thus is extensible and generalizable. ESCORT leverages a multi-output NN architecture that consists of two parts: (i) A common feature extractor that learns the semantics of the input contract; (ii) Multiple branch structures where each branch learns a specific vulnerability type based on features obtained from the feature extractor. Experimental results show that ESCORT achieves an average F1-score of 95% on six vulnerability types and the detection time is 0.02 seconds per contract. When extended to new vulnerability types, ESCORT yields an average F1-score of 93%. To the best of our knowledge, ESCORT is the first framework that enables transfer learning on new vulnerability types with minimal modification of the DNN model architecture and re-training overhead.
翻訳日:2021-03-24 13:42:37 公開日:2021-03-23
# ヘロイン消費リスク評価のためのGA-SVM

GA-SVM for Evaluating Heroin Consumption Risk ( http://arxiv.org/abs/2103.12633v1 )

ライセンス: Link先を確認
Sean-Kelly Palicki, R. Muhammad Atif Azad(参考訳) 2017年には米国で7万人以上の薬物過剰摂取が死亡している。 約半数はヘロインのようなオピオイドの使用であった。 この研究は、ヘロイン消費につながる要因をさらに理解することで、オピオイドの流行と戦う取り組みを支援している。 以前の研究では、ヘロイン依存の原因を議論しており、この現象は処方用オピオイドからの遷移であると説明する者や、様々な精神社会的要因を指摘する者もいる。 本研究は、ヘロイン消費量を予測するために、人格、人口動態、薬物摂取行動に関する自己報告情報を用いた。 遺伝的アルゴリズム (GA-SVM Hybrid) に最適化されたサポートベクトルマシンアルゴリズムを適用して, 予測特徴とモデルパラメータを同時に同定することにより, ヘロインの使用率を従来研究よりも正確に予測できるモデルを開発した。 すべての要因が予測力を持っていたが、これらの結果は、他の薬物(処方薬と違法の両方)の摂取が、精神社会的要因よりもヘロインの使用の予測因子が強いことを示した。 ヘロイン使用の強力な予測因子としての処方薬の使用は、発見を邪魔するが、ヘロイン使用と戦うのに役立つ。

There were over 70,000 drug overdose deaths in the USA in 2017. Almost half of those involved the use of Opioids such as Heroin. This research supports efforts to combat the Opioid Epidemic by further understanding factors that lead to Heroin consumption. Previous research has debated the cause of Heroin addiction, with some explaining the phenomenon as a transition from prescription Opioids, and others pointing to various psycho-social factors. This research used self-reported information about personality, demographics and drug consumption behavior to predict Heroin consumption. By applying a Support Vector Machine algorithm optimized with a Genetic Algorithm (GA-SVM Hybrid) to simultaneously identify predictive features and model parameters, this research produced several models that were more accurate in predicting Heroin use than those produced in previous studies. Although all factors had predictive power, these results showed that consumption of other drugs (both prescription and illicit) were stronger predictors of Heroin use than psycho-social factors. The use of prescription drugs as a strong predictor of Heroin use is an important though disturbing discovery but that can help combat Heroin use.
翻訳日:2021-03-24 13:42:06 公開日:2021-03-23
# スマートフォンを用いたマルチモーダル個人耳認証

Multimodal Personal Ear Authentication Using Smartphones ( http://arxiv.org/abs/2103.12575v1 )

ライセンス: Link先を確認
S. Itani, S. Kita and Y. Kajikawa(参考訳) 近年,指紋認証や顔認識が主流となって,スマートフォンの生体認証技術が普及している。 しかし、手が濡れている場合は指紋認証が使用できず、マスクを着用している場合には顔認識が使用できない。 そこで,スマートフォンにおける生体認証の新しいアプローチとしてピンナを用いた個人認証システムを提案する。 ピンナの音響伝達関数(PRTF: Pinna Related Transfer Function)に基づく認証システムについて検討した。 しかし,各測定値における位置変動により認証精度が低下する。 本稿では,PRTFを用いたスマートフォン上でのマルチモーダル個人認証を提案する。 PRTFでは、ピンナ画像と位置センサ情報を使用し、認証方法の有効性を検討した。 提案する認証システムは,各測定における位置変化を補償し,ロバスト性を向上させる。

In recent years, biometric authentication technology for smartphones has become widespread, with the mainstream methods being fingerprint authentication and face recognition. However, fingerprint authentication cannot be used when hands are wet, and face recognition cannot be used when a person is wearing a mask. Therefore, we examine a personal authentication system using the pinna as a new approach for biometric authentication on smartphones. Authentication systems based on the acoustic transfer function of the pinna (PRTF: Pinna Related Transfer Function) have been investigated. However, the authentication accuracy decreases due to the positional fluctuation across each measurement. In this paper, we propose multimodal personal authentication on smartphones using PRTF. The pinna image and positional sensor information are used with the PRTF, and the effectiveness of the authentication method is examined. We demonstrate that the proposed authentication system can compensate for the positional changes in each measurement and improve robustness.
翻訳日:2021-03-24 13:41:46 公開日:2021-03-23
# 自律載荷修正のためのニューラルネットワーク制御

Neural Network Controller for Autonomous Pile Loading Revised ( http://arxiv.org/abs/2103.12379v1 )

ライセンス: Link先を確認
Wenyan Yang, Nataliya Strokina, Nikolay Serbenyuk, Joni Pajarinen, Reza Ghabcheloo, Juho Vihonen, Mohammad M. Aref and Joni-Kristian K\"am\"ar\"ainen(参考訳) 我々は最近,人間の実演から学ぶ2つの積み荷制御器を提案した。ニューラルネットワーク(nnet)[1]とランダムフォレスト(rf)コントローラ[2]である。 フィールド実験では、RFコントローラは明らかにより良い成功率を得た。 本研究は,冬期における夏期訓練コントローラの実験により,前報を大幅に改善した。 冬の実験では、センサーの追加、トレーニングデータの追加、そしてこれらを活用できるコントローラーの必要性が明らかになった。 そこで本研究では,より表現力のある構造を有し,センサの重要な部分と制御信号に焦点を当てたニューラルアテンション機構を用いた改良ニューラルコントローラ(nnetv2)を提案する。 同じデータとセンサーを使って3つのコントローラーを訓練しテストし、NNetV2は劇的に変化する条件に対する堅牢性と、より優れた成功率を達成する。 私たちの知る限りでは、これは、屋外の状況が大幅に変化し、冬に高い成功率を達成して、夏にトレーニングされる、ヘビーデューティマシンの学習ベースのコントローラをテストする最初の作業です。

We have recently proposed two pile loading controllers that learn from human demonstrations: a neural network (NNet) [1] and a random forest (RF) controller [2]. In the field experiments the RF controller obtained clearly better success rates. In this work, the previous findings are drastically revised by experimenting summer time trained controllers in winter conditions. The winter experiments revealed a need for additional sensors, more training data, and a controller that can take advantage of these. Therefore, we propose a revised neural controller (NNetV2) which has a more expressive structure and uses a neural attention mechanism to focus on important parts of the sensor and control signals. Using the same data and sensors to train and test the three controllers, NNetV2 achieves better robustness against drastically changing conditions and superior success rate. To the best of our knowledge, this is the first work testing a learning-based controller for a heavy-duty machine in drastically varying outdoor conditions and delivering high success rate in winter, being trained in summer.
翻訳日:2021-03-24 13:41:03 公開日:2021-03-23
# Deep KKL: 非線形システムのデータ駆動出力予測

Deep KKL: Data-driven Output Prediction for Non-Linear Systems ( http://arxiv.org/abs/2103.12443v1 )

ライセンス: Link先を確認
Steeven Janny, Vincent Andrieu, Madiha Nadri, Christian Wolf(参考訳) 我々は出力予測の問題に対処します。 将来の観測を予測できる 自律非線形システムのモデルの設計 まず,このような出力予測器の開発に必要な特性をまとめる汎用フレームワークを定義する。 特に、制御理論とデータ駆動技術(機械学習)という2つの異なる視点からこの問題を考察し、一貫した方法で定式化し、2つの分野間のギャップを減らそうとする。 この定式化と問題定義に基づいて、Kazantzis-Kravaris/Luenberger(KKL)オブザーバに基づく予測構造を提案し、KKLが我々の一般的なフレームワークに適していることを示す。 最後に, この予測器に対して, システムから測定した軌道の小さな集合のみに依存する構成的解を提案する。 実験の結果,観測空間のサブセット上で効率的な予測器が得られることがわかった。

We address the problem of output prediction, ie. designing a model for autonomous nonlinear systems capable of forecasting their future observations. We first define a general framework bringing together the necessary properties for the development of such an output predictor. In particular, we look at this problem from two different viewpoints, control theory and data-driven techniques (machine learning), and try to formulate it in a consistent way, reducing the gap between the two fields. Building on this formulation and problem definition, we propose a predictor structure based on the Kazantzis-Kravaris/Luenberger (KKL) observer and we show that KKL fits well into our general framework. Finally, we propose a constructive solution for this predictor that solely relies on a small set of trajectories measured from the system. Our experiments show that our solution allows to obtain an efficient predictor over a subset of the observation space.
翻訳日:2021-03-24 13:40:46 公開日:2021-03-23
# 重みの表現的部分空間におけるreluネットワークの初期化

Initializing ReLU networks in an expressive subspace of weights ( http://arxiv.org/abs/2103.12499v1 )

ライセンス: Link先を確認
Dayal Singh and Sreejith G J(参考訳) 信号伝搬の平均場理論を用いて、相関重み付きReLUネットワークを介して伝播する2つの信号間の相関の進化を解析する。 信号は非相関重みを持つ深いReLUネットワークにおいて高い相関関係を持つ。 反相関重みを持つReLUネットワークは、この運命を回避でき、相関関係がユニタリ以下に飽和するカオス相を持つことを示す。 この分析と一致して,反相関重み付きネットワークは,カオス相における表現力の増大を生かして,より速く(教師と学生の環境で)訓練できることがわかった。 これを非対称初期化を用いてデッドルル確率を減少させる戦略と組み合わせることで、最もよく知られた方法よりも高速なトレーニングと学習を可能にする初期化スキームを提案する。

Using a mean-field theory of signal propagation, we analyze the evolution of correlations between two signals propagating through a ReLU network with correlated weights. Signals become highly correlated in deep ReLU networks with uncorrelated weights. We show that ReLU networks with anti-correlated weights can avoid this fate and have a chaotic phase where the correlations saturate below unity. Consistent with this analysis, we find that networks initialized with anti-correlated weights can train faster (in a teacher-student setting) by taking advantage of the increased expressivity in the chaotic phase. Combining this with a previously proposed strategy of using an asymmetric initialization to reduce dead ReLU probability, we propose an initialization scheme that allows faster training and learning than the best-known methods.
翻訳日:2021-03-24 13:40:32 公開日:2021-03-23
# 仮想フロー計測のためのグレーボックスモデリングについて

On gray-box modeling for virtual flow metering ( http://arxiv.org/abs/2103.12513v1 )

ライセンス: Link先を確認
Mathilde Hotvedt, Bjarne Grimstad, Dag Ljungquist, Lars Imsland(参考訳) 石油生産システムにおける流量の連続予測を可能にする仮想流量計(vfm)。 予測された流量は石油資産の日々の制御と最適化に役立つ可能性がある。 グレイボックスモデリングは、力学とデータ駆動モデリングを組み合わせたアプローチである。 目的は、機械的VFMよりも高精度で、データ駆動型VFMよりも科学的一貫性の高いVFMを作成することである。 本稿では,10個の石油井における5種類のグレーボックスモデルについて検討する。 この研究は、物理学とデータからの学習のバランスをとるという非自明なタスクに光を当てている。 その結果, 機械モデルにデータ駆動要素を組み込むことにより, モデル予測性能が向上し, 科学的一貫性が向上することが示唆された。 しかし、結果は利用可能なデータに影響される。 この発見は、オンライン学習といくつかの井戸のデータを取り入れた方法の利用に関する今後の研究を奨励するものである。

A virtual flow meter (VFM) enables continuous prediction of flow rates in petroleum production systems. The predicted flow rates may aid the daily control and optimization of a petroleum asset. Gray-box modeling is an approach that combines mechanistic and data-driven modeling. The objective is to create a VFM with higher accuracy than a mechanistic VFM, and with a higher scientific consistency than a data-driven VFM. This article investigates five different gray-box model types in an industrial case study on 10 petroleum wells. The study casts light upon the nontrivial task of balancing learning from physics and data. The results indicate that the inclusion of data-driven elements in a mechanistic model improves the predictive performance of the model while insignificantly influencing the scientific consistency. However, the results are influenced by the available data. The findings encourage future research into online learning and the utilization of methods that incorporate data from several wells.
翻訳日:2021-03-24 13:40:17 公開日:2021-03-23
# 微分可能なエージェントベースシミュレーションによる勾配誘導シミュレーションに基づく最適化

Differentiable Agent-Based Simulation for Gradient-Guided Simulation-Based Optimization ( http://arxiv.org/abs/2103.12476v1 )

ライセンス: Link先を確認
Philipp Andelfinger(参考訳) エージェントベースモデルを用いたシミュレーションに基づく最適化は、入力に対するシミュレーション出力の感度を記述する勾配を直接評価できないという仮定の下で行われる。 局所最適への最適化を効率的に行うグラデーションベース最適化法を引き続き適用し、グラデーション推定法を適用できるようにする。 しかし、入力次元が大きい場合の正確な推定を得るためには、多くのシミュレーション実行が必要である。 自動微分(automatic differentiation, aad)は、一般プログラムの勾配を直接計算する手法である。 本稿では、時間駆動エージェントベースシミュレーションにおけるADの利用について検討する。 条件分岐などの一般的な離散モデル要素をスムーズな近似で置換することにより、モデル論理における不連続性にまたがる勾配情報を得る。 微視的交通モデルと疫病モデルの例において、微分可能なモデルの忠実度とオーバーヘッド、勾配に基づく最適化による収束速度と解の質を、勾配のない手法と比較して検討する。 高入力次元の信号タイミング最適化問題では、勾配に基づく手法の方がかなり優れた性能を示す。 最後に,モデル論理に埋め込まれたニューラルネットワーク制御シミュレーションエンティティの勾配に基づくトレーニングを可能にすることを実証する。

Simulation-based optimization using agent-based models is typically carried out under the assumption that the gradient describing the sensitivity of the simulation output to the input cannot be evaluated directly. To still apply gradient-based optimization methods, which efficiently steer the optimization towards a local optimum, gradient estimation methods can be employed. However, many simulation runs are needed to obtain accurate estimates if the input dimension is large. Automatic differentiation (AD) is a family of techniques to compute gradients of general programs directly. Here, we explore the use of AD in the context of time-driven agent-based simulations. By substituting common discrete model elements such as conditional branching with smooth approximations, we obtain gradient information across discontinuities in the model logic. On the example of microscopic traffic models and an epidemics model, we study the fidelity and overhead of the differentiable models, as well as the convergence speed and solution quality achieved by gradient-based optimization compared to gradient-free methods. In traffic signal timing optimization problems with high input dimension, the gradient-based methods exhibit substantially superior performance. Finally, we demonstrate that the approach enables gradient-based training of neural network-controlled simulation entities embedded in the model logic.
翻訳日:2021-03-24 13:40:07 公開日:2021-03-23
# 単純錯体に対する有限インパルス応答フィルタ

Finite Impulse Response Filters for Simplicial Complexes ( http://arxiv.org/abs/2103.12587v1 )

ライセンス: Link先を確認
Maosheng Yang and Elvin Isufi and Michael T. Schaub and Geert Leus(参考訳) 本稿では,ノード,エッジ,三角形など,単純複素数上で定義された信号を処理する線形フィルタについて検討する。 単純なコンプレックスで、グラフ信号のフィルタリング操作を一般化します。 ホッジラプラシアンに基づく有限インパルス応答フィルタを提案し、このフィルタが単純化された信号のスペクトル成分の増幅や減衰にどのように役立つかを実証する。 具体的には、ノード信号とは異なり、エッジ信号の文脈におけるフーリエ変換が、ホッジ分解から生じる勾配-フロー信号とカール-フロー信号に対応する2つの直交部分空間でどのように理解できるかについて議論する。 ホッジラプラシアンの関連項に異なるフィルタ係数を割り当てることで、これらの信号タイプをよりニュアンスに制御できる部分空間可変フィルタを開発する。 サブコンポーネント抽出, 復調, モデル近似のための簡易フィルタの可能性を示す数値実験を行った。

In this paper, we study linear filters to process signals defined on simplicial complexes, i.e., signals defined on nodes, edges, triangles, etc. of a simplicial complex, thereby generalizing filtering operations for graph signals. We propose a finite impulse response filter based on the Hodge Laplacian, and demonstrate how this filter can be designed to amplify or attenuate certain spectral components of simplicial signals. Specifically, we discuss how, unlike in the case of node signals, the Fourier transform in the context of edge signals can be understood in terms of two orthogonal subspaces corresponding to the gradient-flow signals and curl-flow signals arising from the Hodge decomposition. By assigning different filter coefficients to the associated terms of the Hodge Laplacian, we develop a subspace-varying filter which enables more nuanced control over these signal types. Numerical experiments are conducted to show the potential of simplicial filters for sub-component extraction, denoising and model approximation.
翻訳日:2021-03-24 13:39:49 公開日:2021-03-23
# (参考訳) 強化学習と実証による産業会議のロバストなマルチモーダル政策--大規模研究

Robust Multi-Modal Policies for Industrial Assembly via Reinforcement Learning and Demonstrations: A Large-Scale Study ( http://arxiv.org/abs/2103.11512v2 )

ライセンス: CC BY 4.0
Jianlan Luo, Oleg Sushkov, Rugile Pevceviciute, Wenzhao Lian, Chang Su, Mel Vecerik, Ning Ye, Stefan Schaal, Jon Scholz(参考訳) 過去数年間、産業集合体への学習に基づくアプローチにかなりの研究投資がなされてきたが、大きな進歩にもかかわらず、これらの技術はまだ産業に採用されていない。 私たちは、この採用の欠如に対して真に責任を負うのは、アルゴリズム上の制限ではなく、深層強化学習(drl)のための、非常に大きな設計空間であると主張する。 これらのテクニックを産業の主流に押し込むには、学術的な考え方と大きく異なる産業指向のパラダイムが必要です。 本稿では,産業指向drlの基準を定義し,これら1つの学習手法であるdrlを,最近確立したnistアセンブリベンチマークにおいて,プロの産業インテグレータに対して徹底的に比較する。 設計の選択肢を説明し、数年にわたる調査を表現し、drlシステムは、速度と信頼性の両面で、インテグレータベースラインを一貫して上回ることを可能にしました。 最後に、DRLシステムと人間との競合を、ランダムに動くターゲットに挿入するチャレンジタスクで結論付ける。 この研究は、DRLが確立された技術アプローチだけでなく、人間のモーターシステムにも優れており、改善の余地が依然として大きいことを示唆している。 ビデオはプロジェクトのWebサイトで見ることができる。

Over the past several years there has been a considerable research investment into learning-based approaches to industrial assembly, but despite significant progress these techniques have yet to be adopted by industry. We argue that it is the prohibitively large design space for Deep Reinforcement Learning (DRL), rather than algorithmic limitations per se, that are truly responsible for this lack of adoption. Pushing these techniques into the industrial mainstream requires an industry-oriented paradigm which differs significantly from the academic mindset. In this paper we define criteria for industry-oriented DRL, and perform a thorough comparison according to these criteria of one family of learning approaches, DRL from demonstration, against a professional industrial integrator on the recently established NIST assembly benchmark. We explain the design choices, representing several years of investigation, which enabled our DRL system to consistently outperform the integrator baseline in terms of both speed and reliability. Finally, we conclude with a competition between our DRL system and a human on a challenge task of insertion into a randomly moving target. This study suggests that DRL is capable of outperforming not only established engineered approaches, but the human motor system as well, and that there remains significant room for improvement. Videos can be found on our project website: https://sites.google.com/view/shield-nist.
翻訳日:2021-03-24 12:10:22 公開日:2021-03-23
# (参考訳) 深層学習による酵母顕微鏡画像の生成とシミュレーション

Generation and Simulation of Yeast Microscopy Imagery with Deep Learning ( http://arxiv.org/abs/2103.11834v2 )

ライセンス: CC BY-SA 4.0
Christoph Reich(参考訳) 時間経過蛍光顕微鏡(tlfm)は、合成生物学研究において重要かつ強力なツールである。 実データに基づくtlfm実験のモデリングにより、研究者はわずかな労力で実験を繰り返すことができる。 この論文は、画像レベルでのTLFM実験の深層学習に基づくモデリングに関する研究である。 TLFM実験のモデル化は、酵母細胞を捕獲した例によって、2つのタスクに分けられる。 最初の課題は、実画像データに基づいて合成画像データを生成することである。 この問題を解決するために,条件付きおよび無条件画像生成のための新しい生成型逆ネットワークを提案する。 第2の課題は、複数の離散時間ステップにおけるブライトフィールド顕微鏡画像のシミュレーションである。 このシミュレーションタスクに取り組むために、高度な将来のフレーム予測モデルが導入される。 提案したモデルは、この論文で提示された新しいデータセットでトレーニングされ、テストされる。 その結果,深層学習によるtlfm実験のモデル化は適切なアプローチであるが,実世界の実験を効果的にモデル化するには今後の研究が必要であることがわかった。

Time-lapse fluorescence microscopy (TLFM) is an important and powerful tool in synthetic biological research. Modeling TLFM experiments based on real data may enable researchers to repeat certain experiments with minor effort. This thesis is a study towards deep learning-based modeling of TLFM experiments on the image level. The modeling of TLFM experiments, by way of the example of trapped yeast cells, is split into two tasks. The first task is to generate synthetic image data based on real image data. To approach this problem, a novel generative adversarial network, for conditionalized and unconditionalized image generation, is proposed. The second task is the simulation of brightfield microscopy images over multiple discrete time-steps. To tackle this simulation task an advanced future frame prediction model is introduced. The proposed models are trained and tested on a novel dataset that is presented in this thesis. The obtained results showed that the modeling of TLFM experiments, with deep learning, is a proper approach, but requires future research to effectively model real-world experiments.
翻訳日:2021-03-24 11:40:49 公開日:2021-03-23
# 教師なしアクションセグメンテーションのための時間重み付き階層クラスタリング

Temporally-Weighted Hierarchical Clustering for Unsupervised Action Segmentation ( http://arxiv.org/abs/2103.11264v2 )

ライセンス: Link先を確認
M. Saquib Sarfraz, Naila Murray, Vivek Sharma, Ali Diba, Luc Van Gool, Rainer Stiefelhagen(参考訳) アクションセグメンテーション(action segmentation)とは、ビデオにおける意味的に一貫した視覚概念の境界を推測することであり、多くのビデオ理解タスクにおいて重要な要件である。 これと他のビデオ理解タスクのために、監督されたアプローチはパフォーマンスを奨励するが、フレームレベルの詳細なアノテーションを必要とする。 ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。 提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。 我々の主な発見は、時間進行を考慮し、1-nearestの隣のグラフでビデオを表現することで、各クラスタがビデオ内の何らかのアクションを表現できる、意味的かつ時間的に一貫したフレームのクラスタを形成するのに十分であるということです。 さらに、アクションセグメンテーションのための強力な教師なしベースラインを確立し、5つの挑戦的アクションセグメンテーションデータセット上の教師なしメソッドよりも優れたパフォーマンス改善を示す。 また,これら4つのデータセットにおいて,弱教師付きメソッドを大きなマージンで上回る手法を提案する。 興味深いことに、これらのデータセットで結果を報告した多くの完全教師付き手法よりも優れた結果が得られる。 私たちのコードはhttps://github.com/ssarfraz/FINCH-Clustering/tree/master/TW-FINCHで利用可能です。

Action segmentation refers to inferring boundaries of semantically consistent visual concepts in videos and is an important requirement for many video understanding tasks. For this and other video understanding tasks, supervised approaches have achieved encouraging performance but require a high volume of detailed frame-level annotations. We present a fully automatic and unsupervised approach for segmenting actions in a video that does not require any training. Our proposal is an effective temporally-weighted hierarchical clustering algorithm that can group semantically consistent frames of the video. Our main finding is that representing a video with a 1-nearest neighbor graph by taking into account the time progression is sufficient to form semantically and temporally consistent clusters of frames where each cluster may represent some action in the video. Additionally, we establish strong unsupervised baselines for action segmentation and show significant performance improvements over published unsupervised methods on five challenging action segmentation datasets. Our approach also outperforms weakly-supervised methods by large margins on 4 of these datasets. Interestingly, we also achieve better results than many fully-supervised methods that have reported results on these datasets. Our code is available at https://github.com/ssarfraz/FINCH-Clustering/tree/master/TW-FINCH
翻訳日:2021-03-24 11:38:20 公開日:2021-03-23
# NameRec*: 高精度できめ細かい人物名認識

NameRec*: Highly Accurate and Fine-grained Person Name Recognition ( http://arxiv.org/abs/2103.11360v2 )

ライセンス: Link先を確認
Rui Zhang, Yimeng Dai, Shijie Liu(参考訳) 本稿では,高精度できめ細かい人物名認識を目的としたNameRec*タスクを提案する。 従来の名前付きエンティティ認識モデルは、ニュース記事のような一貫性のある完全な構文を持つテキストから、よくできた人名を認識するのに優れたパフォーマンスを持つ。 しかし, 文が不完全な構文であり, ユーザ生成コンテンツや学術ホームページなど, 名称が多様であるケースが急速に増えている。 この文脈で人名認識に対処するために,人類学に基づく微粒なアノテーションスキームを提案する。 粒度の細かいアノテーションを最大限に活用するために,人名認識のためのコグナーニューラルネットワーク(CogNN)を提案する。 CogNNは、名前形式の文内コンテキストと豊富な訓練信号を完全に探求している。 長期文書における人物の認識に極めて不可欠である文間コンテキストと暗黙の関係をよりよく活用するために,文間BERTモデル(IsBERT)を提案する。 IsBERTは重なり合う入力プロセッサと、双方向重なり合うコンテキスト埋め込み学習とマルチホップ推論機構を備えた文間エンコーダを備えている。 多様な文脈を持つ異なる文書から利益を得るため、異なる文書に対する相互関係重なり比を動的に調整する高度な適応的相互関係bertモデル(ada-isbert)を提案する。 学術ホームページとニュース記事の両方において,提案手法の優越性を示すため,広範な実験を行った。

In this paper, we introduce the NameRec* task, which aims to do highly accurate and fine-grained person name recognition. Traditional Named Entity Recognition models have good performance in recognising well-formed person names from text with consistent and complete syntax, such as news articles. However, there are rapidly growing scenarios where sentences are of incomplete syntax and names are in various forms such as user-generated contents and academic homepages. To address person name recognition in this context, we propose a fine-grained annotation scheme based on anthroponymy. To take full advantage of the fine-grained annotations, we propose a Co-guided Neural Network (CogNN) for person name recognition. CogNN fully explores the intra-sentence context and rich training signals of name forms. To better utilize the inter-sentence context and implicit relations, which are extremely essential for recognizing person names in long documents, we further propose an Inter-sentence BERT Model (IsBERT). IsBERT has an overlapped input processor, and an inter-sentence encoder with bidirectional overlapped contextual embedding learning and multi-hop inference mechanisms. To derive benefit from different documents with a diverse abundance of context, we propose an advanced Adaptive Inter-sentence BERT Model (Ada-IsBERT) to dynamically adjust the inter-sentence overlapping ratio to different documents. We conduct extensive experiments to demonstrate the superiority of the proposed methods on both academic homepages and news articles.
翻訳日:2021-03-24 11:38:02 公開日:2021-03-23
# TDIOT:ディープビデオオブジェクト追跡のためのターゲット駆動推論

TDIOT: Target-driven Inference for Deep Video Object Tracking ( http://arxiv.org/abs/2103.11017v2 )

ライセンス: Link先を確認
Filiz Gurkan, Llukman Cerkezi, Ozgun Cirakman, Bilge Gunsel(参考訳) 最近のトラッキングバイ検出アプローチでは、静止画像で高い性能を発揮するため、深部物体検出をターゲット検出ベースラインとして使用している。 効果的なビデオオブジェクト追跡のために、オブジェクト検出は、カスタムデザイン推論アーキテクチャまたはトラッキング目的のためのエンドツーエンドのジョイントトレーニングによって実行されるデータ関連ステップと統合される。 本研究では,従来のアプローチを採用し,トレーニング済みのMask R-CNNディープオブジェクト検出器をベースラインとして利用する。 マスクr-cnnのfpn-resnet101バックボーン上に配置した新しい推論アーキテクチャを導入し,追跡目的のための追加のトレーニングを必要とせず,検出と追跡を共同で行う。 提案する単一オブジェクトトラッカであるtdiotは、データアソシエーションに外観類似性に基づく時間マッチングを適用する。 追跡不連続性に対処するため,短期追跡のためにSiamFCを利用する推論ヘッド層に局所探索およびマッチングモジュールを組み込む。 さらに,スケール変化に対するロバスト性を向上させるために,ターゲットのトレースによって指定された適応的に拡大した空間近傍でターゲットを探索できるスケール適応領域提案ネットワークを提案する。 長期追跡要件を満たすために、lbpヒストグラムモデルに基づいてターゲットの存在を監視するために、低コスト検証層を推論アーキテクチャに組み込む。 VOT2016、VOT2018、VOT-LT2018データセットのビデオのパフォーマンス評価では、TDIOTは最先端の短期トラッカーに比べて精度が高く、長期追跡では同等のパフォーマンスを提供する。

Recent tracking-by-detection approaches use deep object detectors as target detection baseline, because of their high performance on still images. For effective video object tracking, object detection is integrated with a data association step performed by either a custom design inference architecture or an end-to-end joint training for tracking purpose. In this work, we adopt the former approach and use the pre-trained Mask R-CNN deep object detector as the baseline. We introduce a novel inference architecture placed on top of FPN-ResNet101 backbone of Mask R-CNN to jointly perform detection and tracking, without requiring additional training for tracking purpose. The proposed single object tracker, TDIOT, applies an appearance similarity-based temporal matching for data association. In order to tackle tracking discontinuities, we incorporate a local search and matching module into the inference head layer that exploits SiamFC for short term tracking. Moreover, in order to improve robustness to scale changes, we introduce a scale adaptive region proposal network that enables to search the target at an adaptively enlarged spatial neighborhood specified by the trace of the target. In order to meet long term tracking requirements, a low cost verification layer is incorporated into the inference architecture to monitor presence of the target based on its LBP histogram model. Performance evaluation on videos from VOT2016, VOT2018 and VOT-LT2018 datasets demonstrate that TDIOT achieves higher accuracy compared to the state-of-the-art short-term trackers while it provides comparable performance in long term tracking.
翻訳日:2021-03-24 11:37:38 公開日:2021-03-23
# TICaM: 飛行中の車載キャビンモニタリングデータセット

TICaM: A Time-of-flight In-car Cabin Monitoring Dataset ( http://arxiv.org/abs/2103.11719v2 )

ライセンス: Link先を確認
Jigyasa Singh Katrolia, Bruno Mirbach, Ahmed El-Sherif, Hartmut Feld, Jason Rambach, Didier Stricker(参考訳) 広角深度カメラを用いた車両内監視のための飛行時間内キャビン監視データセットであるTICaMを提案する。 当社のデータセットは,ラベル付きクラスや記録されたシナリオ,アノテーションなど,現在利用可能な車内データセットの不足に対処しています。 運転中の動作の徹底したリストを記録し,マルチモーダルラベル付き画像(深度,rgb,ir)に対して,2dおよび3dオブジェクト検出,インスタンスおよび意味セグメンテーション,rgbフレームのアクティビティアノテーションの完全なアノテーションを提供する。 実写に加えて,同種の画像とアノテーションを用いた車室内画像の合成データセットも提供し,車室内監視システムを効果的に訓練し,ドメイン適応アプローチを評価するために,合成データと実データを組み合わせたユニークな,極めて有益な組み合わせを提供する。 データセットはhttps://vizta-tof.kl.dfki.de/で入手できる。

We present TICaM, a Time-of-flight In-car Cabin Monitoring dataset for vehicle interior monitoring using a single wide-angle depth camera. Our dataset addresses the deficiencies of currently available in-car cabin datasets in terms of the ambit of labeled classes, recorded scenarios and provided annotations; all at the same time. We record an exhaustive list of actions performed while driving and provide for them multi-modal labeled images (depth, RGB and IR), with complete annotations for 2D and 3D object detection, instance and semantic segmentation as well as activity annotations for RGB frames. Additional to real recordings, we provide a synthetic dataset of in-car cabin images with same multi-modality of images and annotations, providing a unique and extremely beneficial combination of synthetic and real data for effectively training cabin monitoring systems and evaluating domain adaptation approaches. The dataset is available at https://vizta-tof.kl.dfki.de/.
翻訳日:2021-03-24 11:37:17 公開日:2021-03-23
# DeepViT:より深いビジョントランスを目指して

DeepViT: Towards Deeper Vision Transformer ( http://arxiv.org/abs/2103.11886v2 )

ライセンス: Link先を確認
Daquan Zhou, Bingyi Kang, Xiaojie Jin, Linjie Yang, Xiaochen Lian, Qibin Hou, Jiashi Feng(参考訳) 近年,視覚変換器 (ViT) が画像分類タスクに応用されている。 本稿では、より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深くスケールすると急速に飽和することを示す。 より具体的には、このようなスケーリングの難しさは注意の崩壊の問題によって引き起こされていると経験的に観察する。 言い換えれば、機能マップは深いViTモデルの上位層で同一である傾向がある。 この事実は、ViTの深い層では、自己認識メカニズムが表現学習の効果的な概念を学習できず、期待されるパフォーマンス向上を妨げていることを示している。 上記の観察に基づいて,注意マップを再生成し,異なる層におけるその多様性を無視できる計算量とメモリコストで高めるための,単純かつ効果的な手法であるre-attentionを提案する。 提案手法により、既存のViTモデルに小さな修正を加えることで、より深いViTモデルを一貫した性能で訓練することが可能となる。 特に、32個のトランスブロックを持つ深部ViTモデルのトレーニングでは、ImageNet上でTop-1の分類精度が1.6%向上する。 コードは公開されます

Vision transformers (ViTs) have been successfully applied in image classification tasks recently. In this paper, we show that, unlike convolution neural networks (CNNs)that can be improved by stacking more convolutional layers, the performance of ViTs saturate fast when scaled to be deeper. More specifically, we empirically observe that such scaling difficulty is caused by the attention collapse issue: as the transformer goes deeper, the attention maps gradually become similar and even much the same after certain layers. In other words, the feature maps tend to be identical in the top layers of deep ViT models. This fact demonstrates that in deeper layers of ViTs, the self-attention mechanism fails to learn effective concepts for representation learning and hinders the model from getting expected performance gain. Based on above observation, we propose a simple yet effective method, named Re-attention, to re-generate the attention maps to increase their diversity at different layers with negligible computation and memory cost. The pro-posed method makes it feasible to train deeper ViT models with consistent performance improvements via minor modification to existing ViT models. Notably, when training a deep ViT model with 32 transformer blocks, the Top-1 classification accuracy can be improved by 1.6% on ImageNet. Code will be made publicly available
翻訳日:2021-03-24 11:37:00 公開日:2021-03-23
# ベイズ分布政策の勾配

Bayesian Distributional Policy Gradients ( http://arxiv.org/abs/2103.11265v2 )

ライセンス: Link先を確認
Luchen Li, A. Aldo Faisal(参考訳) distributional reinforcement learning (rl) は報酬から解放までの確率分布全体を維持している。 このリターンは、政策パフォーマンスに関連する不確実性を考慮したより多くの学習シグナルを提供することで、探索や搾取、政策学習全般の取引に有益である可能性がある。 分散RLにおける従来の研究は、状態-作用-復帰分布の計算を中心に、状態-復帰分布をモデル化する。 これにより、状態値に基づく従来のRLアルゴリズムを分散RLに変換することができる。 分布ベルマン演算を,ターゲット/モデルリターン分布間のwassersteinメトリックを最小化する推論に基づく自動エンコーディングプロセスとして定式化する。 提案アルゴリズムであるBDPG (Bayesian Distributional Policy Gradients) は,共用コントラスト学習における逆方向学習を用いて回帰から変動後部を推定する。 さらに, 回帰予測の不確かさを情報ゲインとして解釈し, bdpgの探索を活発かつ効率的に支援する新たな好奇心の指標を得ることができた。 我々は,Atari 2600 ゲームと MuJoCo タスクのスイートにおいて,BDPG が参照分布 RL アルゴリズムよりも一般に速く,漸近的な性能で学習する方法を実証する。

Distributional Reinforcement Learning (RL) maintains the entire probability distribution of the reward-to-go, i.e. the return, providing more learning signals that account for the uncertainty associated with policy performance, which may be beneficial for trading off exploration and exploitation and policy learning in general. Previous works in distributional RL focused mainly on computing the state-action-return distributions, here we model the state-return distributions. This enables us to translate successful conventional RL algorithms that are based on state values into distributional RL. We formulate the distributional Bellman operation as an inference-based auto-encoding process that minimises Wasserstein metrics between target/model return distributions. The proposed algorithm, BDPG (Bayesian Distributional Policy Gradients), uses adversarial training in joint-contrastive learning to estimate a variational posterior from the returns. Moreover, we can now interpret the return prediction uncertainty as an information gain, which allows to obtain a new curiosity measure that helps BDPG steer exploration actively and efficiently. We demonstrate in a suite of Atari 2600 games and MuJoCo tasks, including well known hard-exploration challenges, how BDPG learns generally faster and with higher asymptotic performance than reference distributional RL algorithms.
翻訳日:2021-03-24 11:36:37 公開日:2021-03-23
# Deep Hedging: リスクニュートラルによるボラティリティダイナミクスの学習

Deep Hedging: Learning Risk-Neutral Implied Volatility Dynamics ( http://arxiv.org/abs/2103.11948v2 )

ライセンス: Link先を確認
Hans Buehler, Phillip Murray, Mikko S. Pakkanen, Ben Wood(参考訳) 本研究では, コンベックス取引コストと凸取引制約下での有限地平線まで, 模擬スポットとオプション価格の経路に対するリスク中立度を数値的に効率よく学習する手法を提案する。 このアプローチは、次の2ステップで確率的含意ボラティリティモデルを実装するのに使うことができる。 最近議論したように、オプション価格の市場シミュレータをトレーニングする。 リスク・ニュートラル密度、特に極小エントロピー・マーティンゲール測度を見つける。 結果として得られるモデルは、リスク中立的な価格設定や、トランザクションコストやトレーディング制約の場合にDeep Hedgingに使用できる。 提案手法を動機付けるために,市場ダイナミクスがリスク中立的手法に従う場合に限り,取引コストの欠如による「統計的仲裁」を免れることを示した。 さらに、凸取引コストや取引制約が存在する場合のより一般的な特徴も提供します。 これらの結果は、取引摩擦下での統計的仲裁のための資産価格の基本的な定理の類似と見なされ、独立した関心を持つ。

We present a numerically efficient approach for learning a risk-neutral measure for paths of simulated spot and option prices up to a finite horizon under convex transaction costs and convex trading constraints. This approach can then be used to implement a stochastic implied volatility model in the following two steps: 1. Train a market simulator for option prices, as discussed for example in our recent; 2. Find a risk-neutral density, specifically the minimal entropy martingale measure. The resulting model can be used for risk-neutral pricing, or for Deep Hedging in the case of transaction costs or trading constraints. To motivate the proposed approach, we also show that market dynamics are free from "statistical arbitrage" in the absence of transaction costs if and only if they follow a risk-neutral measure. We additionally provide a more general characterization in the presence of convex transaction costs and trading constraints. These results can be seen as an analogue of the fundamental theorem of asset pricing for statistical arbitrage under trading frictions and are of independent interest.
翻訳日:2021-03-24 11:36:16 公開日:2021-03-23
# リチウムイオン電池の電気化学モデリングと機械学習の統合

Integrating Electrochemical Modeling with Machine Learning for Lithium-Ion Batteries ( http://arxiv.org/abs/2103.11580v2 )

ライセンス: Link先を確認
Hao Tu, Scott Moura, Huazhen Fang(参考訳) リチウムイオン電池(LiBs)の数学的モデリングは、高度な電池管理において重要な課題である。 本稿では,LiBの高精度モデリングを実現するために,物理モデルと機械学習を統合する新しい手法を提案する。 このアプローチは、物理モデルの動的状態を機械学習モデルに通知することを提案し、物理と機械学習の深い統合を可能にする。 本稿では,1粒子モデルと熱力学(SPMT)をフィードフォワードニューラルネットワーク(FNN)とを混合して,LiBの動的挙動の物理インフォームド学習を行うアプローチに基づく2つのハイブリッド物理機械学習モデルを提案する。 提案したモデルは構造的に比較的類似しており、広範囲なシミュレーションで示されるように、高いCレートでもかなりの予測精度が得られる。

Mathematical modeling of lithium-ion batteries (LiBs) is a central challenge in advanced battery management. This paper presents a new approach to integrate a physics-based model with machine learning to achieve high-precision modeling for LiBs. This approach uniquely proposes to inform the machine learning model of the dynamic state of the physical model, enabling a deep integration between physics and machine learning. We propose two hybrid physics-machine learning models based on the approach, which blend a single particle model with thermal dynamics (SPMT) with a feedforward neural network (FNN) to perform physics-informed learning of a LiB's dynamic behavior. The proposed models are relatively parsimonious in structure and can provide considerable predictive accuracy even at high C-rates, as shown by extensive simulations.
翻訳日:2021-03-24 11:35:59 公開日:2021-03-23
# 境界属性は正規(ベクトル)説明を与える

Boundary Attributions Provide Normal (Vector) Explanations ( http://arxiv.org/abs/2103.11257v2 )

ライセンス: Link先を確認
Zifan Wang, Matt Fredrikson, Anupam Datta(参考訳) 近年、Deep Neural Networks (DNN) の説明研究は、入力機能に対するモデルの出力スコアの寄与に焦点を当てている。 しかし、分類問題に関して、より根本的な問題は、各機能がモデルの入力インスタンスを特定のクラスに分類する決定にどの程度貢献しているかである。 最初のコントリビューションは境界属性(Boundary Attribution)です。 BAは活性化領域の幾何学的理解を利用する。 具体的には、ターゲット入力に対する局所的な決定境界の正規ベクトルを計算(および集約)する。 第2の貢献は,ネットワークの対向的ロバスト性と勾配に基づく説明の質を結びつけた分析結果のセットである。 具体的には、2つの定理をReLUネットワークに対して証明する: ランダム化されたスムーズなネットワークのBAや頑健に訓練されたネットワークは、標準ネットワークよりも非有界帰属法に近い。 これらの分析は、高品質な説明のためのモデルロバスト性を改善することをユーザに促している。 最後に,imagenetにおける提案手法を評価し,basが非境界画像に比べてより集中的かつシャープな可視化を実現することを示す。 さらに,本手法は,必要であればベースライン入力に対する帰属感度の低減にも寄与することを示す。

Recent work on explaining Deep Neural Networks (DNNs) focuses on attributing the model's output scores to input features. However, when it comes to classification problems, a more fundamental question is how much does each feature contributes to the model's decision to classify an input instance into a specific class. Our first contribution is Boundary Attribution, a new explanation method to address this question. BA leverages an understanding of the geometry of activation regions. Specifically, they involve computing (and aggregating) normal vectors of the local decision boundaries for the target input. Our second contribution is a set of analytical results connecting the adversarial robustness of the network and the quality of gradient-based explanations. Specifically, we prove two theorems for ReLU networks: BA of randomized smoothed networks or robustly trained networks is much closer to non-boundary attribution methods than that in standard networks. These analytics encourage users to improve model robustness for high-quality explanations. Finally, we evaluate the proposed methods on ImageNet and show BAs produce more concentrated and sharper visualizations compared with non-boundary ones. We further demonstrate that our method also helps to reduce the sensitivity of attributions to the baseline input if one is required.
翻訳日:2021-03-24 11:35:46 公開日:2021-03-23