このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210312となっている論文です。

PDF登録状況(公開日: 20210312)

TitleAuthorsAbstract論文公表日・翻訳日
# 境界付きカラーコードのためのデコーダ

A Decoder for the Color Code with Boundaries ( http://arxiv.org/abs/2003.11602v3 )

ライセンス: Link先を確認
Skylar Turner, Josey Hanish, Eion Blanchard, Noah Davis, Brian La Cour(参考訳) 本稿では,kubicka と delfosse が導入した制限デコーダの変種である境界付き3次元カラーコードのためのデコーダを提案する。 具体的には、境界に隣接する量子ビットの補正を効率的に見つけるためにリフト手順を適用する。 我々は、Pauli $X$エラーに対して4\%8\%の閾値と、Pauli $Z$エラーに対して0.7\% -0.8\%の閾値を数値的に推定する。 我々の研究は、Bomb\'{i}nが最近提案した「カラーフル量子コンピューティング」の性能を特徴づける最初のステップである。

We introduce a decoder for the 3D color code with boundaries, which is a variation of the restriction decoder introduced by Kubicka and Delfosse. Specifically, we adapt the lift procedure to efficiently find a correction on qubits adjacent to a boundary. We numerically estimate a threshold of $4\% - 8\%$ for Pauli $X$ errors and a threshold of $0.7\% - 0.8\%$ for Pauli $Z$ errors. Our work is a first step towards characterizing the performance of Bomb\'{i}n's recently proposed "colorful quantum computing."
翻訳日:2023-05-27 22:36:59 公開日:2021-03-12
# Sachdev-Ye-Kitaevモデルにおけるカオス不変遷移

Comment on "Chaotic-Integrable Transition in the Sachdev-Ye-Kitaev Model" ( http://arxiv.org/abs/2004.05313v4 )

ライセンス: Link先を確認
Jaewon Kim and Xiangyu Cao(参考訳) arXiv:1707.02197において、著者らは2次摂動(質量変形SYKとしても知られる)を持つサハデフ-イェ-キタエフモデルを考え、量子リャプノフ指数は低温と小さなクォート結合の状態で消滅すると主張した。 我々は、その体制における指数を正確に計算し、それがゼロでないことを示す。

In arXiv:1707.02197, the authors considered the Sachdev-Ye-Kitaev model with quadratic perturbation (also known as mass-deformed SYK), and claimed that the quantum Lyapunov exponent would vanish in the regime of low temperature and small quartic coupling. We calculate the exponent exactly in that regime and show that it is nonzero.
翻訳日:2023-05-25 04:26:42 公開日:2021-03-12
# 相互作用誘起非相反的3レベル量子輸送

Interaction induced non-reciprocal three-level quantum transport ( http://arxiv.org/abs/2004.05826v2 )

ライセンス: Link先を確認
Sai Li, Tao Chen, Jia Liu, Zheng-Yuan Xue(参考訳) その基本的な重要性に加えて、非相互性は量子技術に多くの潜在的な応用を見出した。 近年、多くの量子系が非相互性を実現するために提案されているが、安定な非相互過程は一般には実験的に困難である。 本稿では,従来のSTIRAP設定に基づく新たな相互作用誘導非相互操作を提案する。これは循環的相互作用を必要とする実験的困難を解消し,様々な量子システムで直接実装可能である。 さらに,本提案では,従来のスキームや実装のようにリング結合構成を必要とせず,高い忠実度を持つ非相反循環器に繋がる3つの超伝導トランスモンの連鎖についても述べる。 したがって、本プロトコルは、基本的非相互量子物理学を探求し、非相互量子デバイスを実現するための有望な方法を提供する。

Besides its fundamental importance, non-reciprocity has also found many potential applications in quantum technology. Recently, many quantum systems have been proposed to realize non-reciprocity, but stable non-reciprocal process is still experimentally difficult in general, due to the needed cyclical interactions in artificial systems or operational difficulties in solid state materials. Here, we propose a new kind of interaction induced non-reciprocal operation, based on the conventional STIRAP setup, which removes the experimental difficulty of requiring cyclical interaction, and thus it is directly implementable in various quantum systems. Furthermore, we also illustrate our proposal on a chain of three coupled superconducting transmons, which can lead to a non-reciprocal circulator with high fidelity without a ring coupling configuration as in the previous schemes or implementations. Therefore, our protocol provides a promising way to explore fundamental non-reciprocal quantum physics as well as realize non-reciprocal quantum device.
翻訳日:2023-05-24 11:38:23 公開日:2021-03-12
# ローレンツ違反シナリオにおける相互作用量子気体の熱的側面

Thermal aspects of interacting quantum gases in Lorentz-violating scenarios ( http://arxiv.org/abs/2005.11453v2 )

ライセンス: Link先を確認
A. A. Ara\'ujo Filho, J. A. A. S. Reis(参考訳) 本研究では,ボーソンセクターとフェルミオンセクターの両方を考慮したローレンツ違反シナリオにおける量子ガスの相互作用について検討する。 後者の場合,スカラー,ベクトル,擬ベクトル,テンソル演算子によって支配される系の結果について検討する。 さらに、bosonの場合の$\left( \hat{k}_{a}\right) ^{\kappa }$ と $\left( \hat{k}_{c}\right) ^{\kappa \xi }$ の作用素についても検討する。 そこで本研究では, 粒子数, エントロピー, 平均総エネルギー, 圧力など, 興味の計算を解析的に行うため, いわゆる分配関数を求めるグランド・カノニカル・アンサンブルについて考察する。 さらに、低温条件下では、そのような量は高温条件で示されるものと対照的に同様の挙動に達するまで収束し、それらの効果の分化をもたらす。 加えて、粒子数、エントロピー、エネルギーはローレンツ違反の存在下でも広範な特性を示す。 最後に、ペセドベクターとテンソル作用素に対しては、スピン縮退過程の破れによって注目すべき特徴に気付く: 系はスピンダウン粒子に対してスピンアップ粒子に比べて大きなエネルギーと粒子数を持つことが判明した。

In this work, we study the interaction of quantum gases in Lorentz-violating scenarios considering both boson and fermion sectors. In the latter case, we investigate the consequences of a system governed by scalar, vector, pseudovector and tensor operators. Besides, we examine the implications of $\left( \hat{k}_{a}\right) ^{\kappa }$ and $\left( \hat{k}_{c}\right) ^{\kappa \xi }$ operators for the boson case as well. For doing so, we regard the grand canonical ensemble seeking the so-called partition function, which suffices to provide analytically the calculations of interest, i.e., mean particle number, entropy, mean total energy and pressure. Furthermore, in low temperature regime, such quantities converge until reaching a similar behavior being in contrast with what is shown in high temperature regime, which brings out the differentiation of their effects. In addition, particle number, entropy and energy exhibit an extensive characteristic even in the presence of Lorentz violation. Finally, for peseudovector and tensor operators, we notice a remarkable feature due to the breaking process of spin degeneracy: the system turns out to have greater energy and particle number for the spin-down particles in comparison with spin-up ones.
翻訳日:2023-05-18 23:36:50 公開日:2021-03-12
# モジュール政治 - オンラインコミュニティのガバナンス層を目指して

Modular Politics: Toward a Governance Layer for Online Communities ( http://arxiv.org/abs/2005.13701v3 )

ライセンス: Link先を確認
Nathan Schneider, Primavera De Filippi, Seth Frey, Joshua Z. Tan, and Amy X. Zhang(参考訳) オンラインコミュニティにおけるガバナンスはますます大きな課題となっているが、オフラインガバナンスのレジデンス(陪審、政党、任期制限、正式な議論)の基本的な機能の多くは、ほとんどのコミュニティプラットフォームが使用しているソフトウェアの機能セットには含まれていない。 本稿では, 制度分析・開発パラダイムを基礎として, モジュール政治と呼ばれるオンラインガバナンスの一般化可能なパラダイムの基本的特徴を定め, この問題に対処する戦略を提案する。 古典的なガバナンスのタイポロジーは民主主義やオリガルシーのような完全なイデオロギーの中で選択を提示する傾向があるが、モジュラー政治はプラットフォームオペレータとそのユーザが、モジュラーで構成可能で表現力に富む計算コンポーネントからボトムアップのガバナンスプロセスを構築できる。 この種のアプローチは、デジタル前のガバナンスシステムを実装し、ユニークなデジタル技術におけるイノベーションを加速することができる。 多様なコミュニティがコンポーネントとデータを共有、接続しているため、ガバナンスはユビキタスネットワーク層を通じて起こりうる。 そこで本稿では,ネットワークガバナンスのためのオープン標準の開発を提案する。

Governance in online communities is an increasingly high-stakes challenge, and yet many basic features of offline governance legacies--juries, political parties, term limits, and formal debates, to name a few--are not in the feature-sets of the software most community platforms use. Drawing on the paradigm of Institutional Analysis and Development, this paper proposes a strategy for addressing this lapse by specifying basic features of a generalizable paradigm for online governance called Modular Politics. Whereas classical governance typologies tend to present a choice among wholesale ideologies, such as democracy or oligarchy, Modular Politics would enable platform operators and their users to build bottom-up governance processes from computational components that are modular and composable, highly versatile in their expressiveness, portable from one context to another, and interoperable across platforms. This kind of approach could implement pre-digital governance systems as well as accelerate innovation in uniquely digital techniques. As diverse communities share and connect their components and data, governance could occur through a ubiquitous network layer. To that end, this paper proposes the development of an open standard for networked governance.
翻訳日:2023-05-18 04:55:57 公開日:2021-03-12
# 半導体量子ドットスピン鎖における断熱量子状態転移

Adiabatic quantum state transfer in a semiconductor quantum-dot spin chain ( http://arxiv.org/abs/2007.03869v2 )

ライセンス: Link先を確認
Yadav P. Kandel, Haifeng Qiao, Saeed Fallahi, Geoffrey C. Gardner, Michael J. Manfra, John M. Nichol(参考訳) 半導体量子ドットスピン量子ビットは、スケーラブルで長いコヒーレンス時間を持つため、量子計算の有望なプラットフォームである。 しかし、この完全なポテンシャルを実現するためには、量子誤り訂正と効率的なアルゴリズムのために高忠実度情報伝達機構が必要である。 ここでは、半導体量子ドット電子スピンの連鎖における断熱量子状態転移の証拠を示す。 交換カップリングを相互に修正することで、127 ns未満の離れた電子間で1スピンと2スピンの状態を移動させる。 また、この手法は長いスピン鎖のスピン状態移動に応用できることを示した。 シミュレーションにより, 単スピン固有状態と二スピン一重項状態とを正確に転送する確率は, 実験パラメータの0.95を超えうると推定した。 将来、状態およびプロセストモグラフィーは、古典的境界を超える忠実度を持つ任意の単一量子ビット状態の移動を検証するために必要となる。 断熱量子状態遷移はノイズやパルスタイティングの誤差に対して頑健である。 この方法はゲートベースの量子コンピューティングのための大きなスピン量子ビットアレイの初期化、状態分布、読み出しに有用である。 また、半導体量子ドットスピン量子ビットにおける普遍的断熱量子コンピューティングの可能性も開ける。

Semiconductor quantum-dot spin qubits are a promising platform for quantum computation, because they are scalable and possess long coherence times. In order to realize this full potential, however, high-fidelity information transfer mechanisms are required for quantum error correction and efficient algorithms. Here, we present evidence of adiabatic quantum-state transfer in a chain of semiconductor quantum-dot electron spins. By adiabatically modifying exchange couplings, we transfer single- and two-spin states between distant electrons in less than 127 ns. We also show that this method can be cascaded for spin-state transfer in long spin chains. Based on simulations, we estimate that the probability to correctly transfer single-spin eigenstates and two-spin singlet states can exceed 0.95 for the experimental parameters studied here. In the future, state and process tomography will be required to verify the transfer of arbitrary single qubit states with a fidelity exceeding the classical bound. Adiabatic quantum-state transfer is robust to noise and pulse-timing errors. This method will be useful for initialization, state distribution, and readout in large spin-qubit arrays for gate-based quantum computing. It also opens up the possibility of universal adiabatic quantum computing in semiconductor quantum-dot spin qubits.
翻訳日:2023-05-10 23:46:56 公開日:2021-03-12
# 非理想的初期状態からの超放射-量子軌道アプローチ

Superradiance from non-ideal initial states -- a quantum trajectory approach ( http://arxiv.org/abs/2007.12220v3 )

ライセンス: Link先を確認
Sebastian Fuchs, Andr\'as Vukics and Stefan Yoshi Buhmann(参考訳) 集団放出挙動は、通常、完全に対称なディッケ状態の崩壊ダイナミクスによって記述される。 より現実的なシナリオを研究するために、より複雑な時間進化を引き起こす代替初期状態について検討する。 完全に反転したディック状態と不均一な相互重みを持つディック基底状態の重畳状態と、複数の波長で分離されたクラスター中の原子から生じる超放射能について研究した。 モンテカルロ波動関数法は、一方の量子ジャンプと他方の連続進化ダイナミクスによって決定される量子状態のダイナミクスを研究するための枠組みとして機能する。 本手法を,密度行列の対角成分に対して記述されたレート方程式系の古典図と比較する。

Collective emission behavior is usually described by the decay dynamics of the completely symmetric Dicke states. To study a more realistic scenario, we investigate alternative initial states inducing a more complex time evolution. Superposition states of the fully inverted Dicke state and the Dicke ground state with unequal mutual weights are studied as examples as well as superradiance stemming from atoms in clusters separated by more than one wavelength. The Monte Carlo wave function method serves as framework to study the dynamics of quantum states, which is determined by quantum jumps on the one hand and continuous evolution dynamics on the other hand. We compare this method with the classical picture of a system of rate equations written for the diagonal components of the density matrix.
翻訳日:2023-05-08 10:51:19 公開日:2021-03-12
# 2つのキュービットゲートにおけるZZ自由度

ZZ freedom in two qubit gates ( http://arxiv.org/abs/2009.00485v2 )

ライセンス: Link先を確認
Xuexin Xu and M.H. Ansari(参考訳) 回路上の超伝導量子ビットは、常にオン状態依存の位相誤差を示す。 この誤差は、計算レベルを非計算値から再現するサブMHz寄生的相互作用に起因する。 本研究では, 一見アイドルな量子ビット間の'静的'反発と, エンタングル量子ビット間の'動的'反発をマイクロ波駆動ゲート下で評価する一般理論について検討した。 同じまたは反対の不調和な符号の量子ビットを組み合わせることで、静的および動的ZZ自由度の特徴を見出す。 後者は寄生虫駆除を普遍的に排除し,高忠実度ゲート操作を緩和する。 我々の理論は、量子技術に非常に有用な完全絡み合い状態と非絡み合い状態を作る新しい機会を導入する。

Superconducting qubits on a circuit exhibit an always-on state-dependent phase error. This error is due to sub-MHz parasitic interaction that repels computational levels from non-computational ones. We study a general theory to evaluate the `static' repulsion between seemingly idle qubits as well as the `dynamical' repulsion between entangled qubits under microwave driving gate. By combining qubits of either the same or opposite anharmonicity signs we find the characteristics of static and dynamical ZZ freedoms. The latter universally eliminate the parasitic repulsion, leading us to mitigate high fidelity gate operation. Our theory introduces new opportunities for making perfect entangled and unentangled states which is extremely useful for quantum technology.
翻訳日:2023-05-04 03:23:58 公開日:2021-03-12
# 量子ビット振幅減衰チャネルの識別

Discriminating qubit amplitude damping channels ( http://arxiv.org/abs/2009.01000v3 )

ライセンス: Link先を確認
Milajiguli Rexiti and Stefano Mancini(参考訳) 本稿では,2ビット振幅減衰チャネルの識別の問題点を,いくつかの戦略を探求することによって解決する。 シングルショットの場合、励起状態は必ずしも最適な入力を与えておらず、その側絡み合い支援は限定的な利点を有することを示す。 反対に、環境からのフィードバックの支援の方が有益です。 2枚目では、絡み合った入力の実用性を証明する。 そして、個別の(局所的な)測定に焦点を合わせ、最適な適応戦略を見つける。

We address the issue of the discrimination between two-qubit amplitude damping channels by exploring several strategies. For the single-shot, we show that the excited state does not always give the optimal input, and that side entanglement assistance has limited benefit. On the contrary, feedback assistance from the environment is more beneficial. For the two-shot, we prove the in-utility of entangled inputs. Then focusing on individual (local) measurements, we find the optimal adaptive strategy.
翻訳日:2023-05-04 01:12:24 公開日:2021-03-12
# 結合電荷量子ビットによるGHZ状態の動的生成

Dynamic generation of GHZ states with coupled charge qubits ( http://arxiv.org/abs/2009.04569v2 )

ライセンス: Link先を確認
J. Nogueira, P. A. Oliveira, F. M. Souza and L. Sanz(参考訳) 本稿では、荷電量子ドットの実験的な文脈において、グリーンベルガー・ホルン・ザイリンガー類から純最大絡み合った状態の形成の証明を示す。 各量子ビットは1対の量子ドットとして識別され、余剰電子を共有し、トンネル化によって結合される。 電子-電子相互作用が説明され、量子ビット間のカップリングの原因となる。 コヒーレントなトンネルイベントと多体相互作用の相互作用は、非常に絡み合った状態を形成する。 まず、3組の量子ドットを持つシステムにおける3量子ビットの符号化の問題と、GHZ状態の生成条件を見つけるための正確な量子力学の数値解析から始める。 効果的な2段階のモデルは、ダイナミクスの背後にある高次トンネルプロセスの役割に光を当てる。 主デコヒーレンス過程の作用である電荷デフォーカスは、その過程で定量化される。 次に、GHZ状態の動的生成の物理的要件を$N$ qubitのシナリオで評価し、その課題について述べる。

In this paper, we present a proof-of-principle of the formation of pure maximally entangled states from the Greenberger-Horne-Zeilinger class, in the experimental context of charged quantum dots. Each qubit must be identified as a pair of quantum dots, sharing an excess electron, coupled by tunneling. The electron-electron interaction is accounted for and is responsible for the coupling between the qubits. The interplay between coherent tunneling events and many-body interaction gives rise to the formation of highly entangled states. We begin by treating the problem of encoding three-qubits in a system with three pairs of quantum dots, and the numerical analysis of the exact quantum dynamics to find the conditions for the generation of the GHZ states. An effective two-level model sheds light on the role of a high-order tunneling process behind the dynamics. The action of the main decoherence process, the charge dephasing, is quantified in the process. We then evaluate the physical requirements for the dynamical generation of GHZ states in a $N$ qubit scenario, and its challenges.
翻訳日:2023-05-03 02:44:03 公開日:2021-03-12
# 合成磁場における光-物質相互作用:ランドウ-光子ポーラリトン

Light-matter interactions in synthetic magnetic fields: Landau-photon polaritons ( http://arxiv.org/abs/2009.05952v2 )

ライセンス: Link先を確認
Daniele De Bernardis, Ze-Pei Cian, Iacopo Carusotto, Mohammad Hafezi, Peter Rabl(参考訳) 光に対する空間的に均質な合成磁場の存在下で、2次元フォトニック系の光-物質相互作用を研究する。 具体的には、格子のバルク領域に位置する1つ以上の2レベルエミッタについて検討し、磁場を増加させるために、フォトニックモードは拡大平面波から循環するランダウレベルに変化する。 この変化は結果として生じるエミッター-場力学に劇的な影響を与え、本質的に非マルコフおよびキラルとなり、強く結合したランダウ-光子分極を形成する。 これらの準粒子の特異な動的およびスペクトル的性質は、光学およびマイクロ波領域における最先端のフォトニック格子で探索することができ、強く相互作用するトポロジカルモデルの量子シミュレーションに様々な応用を見出すことができる。

We study light-matter interactions in two dimensional photonic systems in the presence of a spatially homogeneous synthetic magnetic field for light. Specifically, we consider one or more two-level emitters located in the bulk region of the lattice, where for increasing magnetic field the photonic modes change from extended plane waves to circulating Landau levels. This change has a drastic effect on the resulting emitter-field dynamics, which becomes intrinsically non-Markovian and chiral, leading to the formation of strongly coupled Landau-photon polaritons. The peculiar dynamical and spectral properties of these quasi-particles can be probed with state-of-the-art photonic lattices in the optical and the microwave domain and may find various applications for the quantum simulation of strongly interacting topological models.
翻訳日:2023-05-02 08:31:30 公開日:2021-03-12
# フェルミオン媒介相互作用のサインについて

On the Sign of Fermion-Mediated Interactions ( http://arxiv.org/abs/2009.08095v3 )

ライセンス: Link先を確認
Qing-Dong Jiang(参考訳) 我々はグリーン関数の対称性分類を利用してフェルミオンを介する相互作用のサインを理解する統一的な枠組みを開発する。 特に、キラル対称性を持つ系におけるフェルミオンを媒介とする相互作用のサインに関する定理を確立する。 定理の強さは、材料中の電子媒介相互作用に重点を置いた複数の例で示される。

We develop a unified framework for understanding the sign of fermion-mediated interactions by exploiting the symmetry classification of Green's functions. In particular, we establish a theorem regarding the sign of fermion-mediated interactions in systems with chiral symmetry. The strength of the theorem is demonstrated within multiple examples with an emphasis on electron-mediated interactions in materials.
翻訳日:2023-05-02 00:25:23 公開日:2021-03-12
# 量子ランダムエネルギーモデルにおける平衡相図の出力

Out of equilibrium Phase Diagram of the Quantum Random Energy Model ( http://arxiv.org/abs/2009.09817v2 )

ライセンス: Link先を確認
Giulio Biroli, Davide Facoetti, Marco Schir\'o, Marco Tarzia, Pierpaolo Vivo(参考訳) 本稿では,平均場スピングラスの最も単純なモデルであるDerrida's Random Energy Modelの量子バージョンの平衡外位相図について検討する。 フォック空間における対応する量子力学を超高次元の1粒子問題として解釈し、高次元格子に合わせた異なる理論手法(前方散乱近似、ローゼンツヴァイク・ポーターモデルへの写像、キャビティ法)を適用する。 以上の結果から,低エネルギーでの完全多体局在相,高エネルギーでの完全エルゴード相,中間エネルギーでの多結晶「バッドメタル」相の2つの遷移線と3つの異なる動的相の存在が示唆された。 後者では、固有函数は発散体積を占有するが、ヒルベルト空間全体の指数関数的に消失する分数を占める。 近似の限界とこれまでの研究との関係について考察する。

In this paper we study the out-of-equilibrium phase diagram of the quantum version of Derrida's Random Energy Model, which is the simplest model of mean-field spin glasses. We interpret its corresponding quantum dynamics in Fock space as a one-particle problem in very high dimension to which we apply different theoretical methods tailored for high-dimensional lattices: the Forward-Scattering Approximation, a mapping to the Rosenzweig-Porter model, and the cavity method. Our results indicate the existence of two transition lines and three distinct dynamical phases: a completely many-body localized phase at low energy, a fully ergodic phase at high energy, and a multifractal "bad metal" phase at intermediate energy. In the latter, eigenfunctions occupy a diverging volume, yet an exponentially vanishing fraction of the total Hilbert space. We discuss the limitations of our approximations and the relationship with previous studies.
翻訳日:2023-05-01 11:20:18 公開日:2021-03-12
# 時間領域で生成される情報完全POVMを用いた量子状態トモグラフィ

Quantum state tomography with informationally complete POVMs generated in the time domain ( http://arxiv.org/abs/2010.13777v2 )

ライセンス: Link先を確認
Artur Czerwinski(参考訳) 本稿では,量子状態トモグラフィにおける情報完全POVMの動的生成のための枠組みを確立する。 量子系の進化がクラウス表現の力学写像によって与えられると仮定すると、ハイゼンベルク像に切り替えて時間領域における測定値を定義することができる。 したがって、正の作用素の不完全集合から始めて、複数の測定によって量子状態再構成のための十分な情報を得ることができる。 このフレームワークはqubitsとqutritsで実証されている。 ある種の動的写像の場合、最初は1つの測度演算子を持つのに十分である。 その結果, 量子状態トモグラフィーは, 限られた測定ポテンシャルでも実現可能であることが示された。

The article establishes a framework for dynamic generation of informationally complete POVMs in quantum state tomography. Assuming that the evolution of a quantum system is given by a dynamical map in the Kraus representation, one can switch to the Heisenberg picture and define the measurements in the time domain. Consequently, starting with an incomplete set of positive operators, one can obtain sufficient information for quantum state reconstruction by multiple measurements. The framework has been demonstrated on qubits and qutrits. For some types of dynamical maps, it suffices to initially have one measurement operator. The results demonstrate that quantum state tomography is feasible even with limited measurement potential.
翻訳日:2023-04-27 22:35:50 公開日:2021-03-12
# 新型コロナウイルスとソーシャルディスタンシング : 所得集団間のモビリティ適応の相違

COVID-19 and Social Distancing: Disparities in Mobility Adaptation between Income Groups ( http://arxiv.org/abs/2011.12510v3 )

ライセンス: Link先を確認
Kentaro Iio, Xiaoyu Guo, Xiaoqiang "Jack" Kong, Kelly Rees and Xiubin Bruce Wang(参考訳) 新型コロナウイルス(covid-19)のパンデミックを受けて、政府は市民に対し、特に自宅で働き、勉強することで、ソーシャルディスタンシングを行うことを奨励し、指示している。 直感的には、リモートワークを実践できるのは一部の人々だけです。 しかし、パンデミック期間中の米国の都市における異なる所得集団間のモビリティ適応の格差についてはほとんど研究されていない。 著者らは、テキサス州グレーター・ヒューストンの収入によって、パンデミックが人間の移動に与える影響を定量化し、このギャップを埋めようと努力した。 本稿では,空間的に分散した携帯電話位置情報データを用いて,移動度を判定した。 推定所得層を対象に,2020年4月の総旅行距離,ジャイレーション半径,訪問場所数,移動距離をベースラインのデータと比較し,縦断調査を行った。 推定所得層間での移動性の明らかな差がみられた。 特に,4月の旅行者の推定収入と旅行距離との間には,強い負の相関(-0.90)があった。 また,高所得層における移動適応率の差は,低所得層に比べて,ジレーション半径と訪問場所の異なる割合の低下がみられたため,さらに示された。 本研究の成果は、パンデミック時の低所得者の移動性不柔軟性の背景にある理由を理解する必要があることを示唆している。 この研究は、疫病の流行を受けて、政策立案者や研究者が関心を持つかもしれない株式問題に光を当てている。

In response to the coronavirus disease 2019 (COVID-19) pandemic, governments have encouraged and ordered citizens to practice social distancing, particularly by working and studying at home. Intuitively, only a subset of people have the ability to practice remote work. However, there has been little research on the disparity of mobility adaptation across different income groups in US cities during the pandemic. The authors worked to fill this gap by quantifying the impacts of the pandemic on human mobility by income in Greater Houston, Texas. In this paper, we determined human mobility using pseudonymized, spatially disaggregated cell phone location data. A longitudinal study across estimated income groups was conducted by measuring the total travel distance, radius of gyration, number of visited locations, and per-trip distance in April 2020 compared to the data in a baseline. An apparent disparity in mobility was found across estimated income groups. In particular, there was a strong negative correlation ($\rho$ = -0.90) between a traveler's estimated income and travel distance in April. Disparities in mobility adaptability were further shown since those in higher income brackets experienced larger percentage drops in the radius of gyration and the number of distinct visited locations than did those in lower income brackets. The findings of this study suggest a need to understand the reasons behind the mobility inflexibility among low-income populations during the pandemic. The study illuminates an equity issue which may be of interest to policy makers and researchers alike in the wake of an epidemic.
翻訳日:2023-04-23 01:05:52 公開日:2021-03-12
# 大きなz距離を持つ非対称量子結合およびテンソル積符号

Asymmetric Quantum Concatenated and Tensor Product Codes with Large Z-Distances ( http://arxiv.org/abs/2012.00226v2 )

ライセンス: Link先を確認
Jihao Fan, Jun Li, Jianxin Wang, Zhihui Wei and Min-Hsiu Hsieh(参考訳) 本稿では,古典的連結コード (CC) とテンソル積コード (TPC) を組み合わせた非対称量子コード (AQCTPC) を新たに構築し,以下の3つの利点を有する非対称量子コード (AQCTPC) について述べる。 第一に、AQCTPCの外部符号のみが量子符号の直交制約を満たす必要があり、古典的線形符号は内部で使用することができるため、AQCTPCの構築は非常に容易である。 第二に、ほとんどのAQCTPCは高度に縮退しているため、従来のTPCよりも多くのエラーを修正できる。 その結果,文献上の既知の結果よりもパラメータのよいいくつかのaqcsファミリーを構築した。 第3に、aqctpcは、内部符号と外部符号が効率的にデコーダ可能であれば、縮退するが効率的にデコードすることができる。 特に、エラーデジェネラシーを考慮して、tpcの内部デコーディングの複雑さを$\omega(n_2a^{n_1})(a>1)$から$o(n_2)$に著しく低減する。 さらに,一般化ccsとtpcを用いて連結スキームを一般化する。

In this paper, we present a new construction of asymmetric quantum codes (AQCs) by combining classical concatenated codes (CCs) with tensor product codes (TPCs), called asymmetric quantum concatenated and tensor product codes (AQCTPCs) which have the following three advantages. First, only the outer codes in AQCTPCs need to satisfy the orthogonal constraint in quantum codes, and any classical linear code can be used for the inner, which makes AQCTPCs very easy to construct. Second, most AQCTPCs are highly degenerate, which means they can correct many more errors than their classical TPC counterparts. Consequently, we construct several families of AQCs with better parameters than known results in the literature. Third, AQCTPCs can be efficiently decoded although they are degenerate, provided that the inner and outer codes are efficiently decodable. In particular, we significantly reduce the inner decoding complexity of TPCs from $\Omega(n_2a^{n_1})(a>1)$ to $O(n_2)$ by considering error degeneracy, where $n_1$ and $n_2$ are the block length of the inner code and the outer code, respectively. Furthermore, we generalize our concatenation scheme by using the generalized CCs and TPCs correspondingly.
翻訳日:2023-04-22 12:16:52 公開日:2021-03-12
# 渦電子のsmith-purcell放射

Smith-Purcell radiation of a vortex electron ( http://arxiv.org/abs/2102.00278v2 )

ライセンス: Link先を確認
Andrey Pupasov-Maksimov and Dmitry Karlovets(参考訳) 固有磁気双極子モーメントと電気四極子モーメントを有する一般化Laguerre-Gaussianパケットとして記述された、軌道角運動量$\ell \hbar$の渦電子による導電格子からのSmith-Purcell放射について検討した。 このような電子の電磁界の多極展開を用いて、広い範囲のパラメータに適用可能な一般化された表面電流法を用いる。 放射されたエネルギーは電荷、磁気モーメント、電気四極子モーメント、およびそれらの干渉からの寄与を含んでいる。 パケットが伝播するにつれて四極子の寄与は増大し、大きな$\ell$ で拡張される。 電荷からの放射強度がn$の帯状帯で直線的に増加するのとは対照的に、四重極の寄与はn^3$依存性を示し、放射損失が小さい最大格子長に限界を与える。 我々はSmith-Purcell放射のスペクトル-角分布を解析的にも数値的にも研究し、電子の渦性が非相対論的かつ適度な相対論的電子に対する検出可能な効果をもたらすことを示した。 現実的には、入射電子の状態は、渦電子、エアリービーム、シュル=オディンガー猫状態などの四極子モーメントを持つ非ガウシアンパケットの形で準備され、古典的な線形状態と比較して放射能の量子的な向上を達成することができる。 このような拡張は、パケットの非ガウシアン性が量子反動よりも強い放射特性に影響を及ぼす、これまで未調査だった放射の量子構造の特徴である。

We study Smith-Purcell radiation from a conducting grating generated by a vortex electron with an orbital angular momentum $\ell \hbar$, described as a generalized Laguerre-Gaussian packet, which has an intrinsic magnetic dipole moment and an electric quadrupole moment. By using a multipole expansion of the electromagnetic field of such an electron, we employ a generalized surface-current method, applicable for a wide range of parameters. The radiated energy contains contributions from the charge, from the magnetic moment, and from the electric quadrupole moment, as well as from their interference. The quadrupole contribution grows as the packet spreads while propagating, and it is enhanced for large $\ell$. In contrast to the linear growth of the radiation intensity from the charge with a number of strips $N$, the quadrupole contribution reveals an $N^3$ dependence, which puts a limit on the maximal grating length for which the radiation losses stay small. We study spectral-angular distributions of the Smith-Purcell radiation both analytically and numerically and demonstrate that the electron's vorticity can give rise to detectable effects for non-relativistic and moderately relativistic electrons. On a practical side, preparing the incoming electron's state in a form of a non-Gaussian packet with a quadrupole moment -- such as the vortex electron, an Airy beam, a Schr\"odinger cat state, and so on -- one can achieve quantum enhancement of the radiation power compared to the classical linear regime. Such an enhancement would be a hallmark of a previously unexplored quantum regime of radiation, in which non-Gaussianity of the packet influences the radiation properties much stronger than the quantum recoil.
翻訳日:2023-04-13 06:54:40 公開日:2021-03-12
# 量子力学と情報熱力学

A short story of quantum and information thermodynamics ( http://arxiv.org/abs/2102.00920v2 )

ライセンス: Link先を確認
Alexia Auff\`eves(参考訳) このコロキウムは、仕事、熱、不可逆性といった重要な熱力学の概念の積み上げと、それらが情報とどのように関連しているかを素早く旅する。 産業革命のとき、熱資源の活用を最適化するために生まれたこれらの概念は、熱揺らぎが優勢な小さなシステムに適応されてきた。 フレームワークを量子揺らぎに拡張することは、量子熱力学の大きな挑戦であり、測定エンジンや駆動散逸系の熱力学など、エキサイティングな研究ラインを開く。 より応用的な面では、将来の量子コンピュータのエネルギー消費を最適化するツールを提供する。

This Colloquium is a fast journey through the build-up of key thermodynamical concepts, i.e. work, heat and irreversibility -- and how they relate to information. Born at the time of industrial revolution to optimize the exploitation of thermal resources, these concepts have been adapted to small systems where thermal fluctuations are predominant. Extending the framework to quantum fluctuations is a great challenge of quantum thermodynamics, that opens exciting research lines e.g. measurement fueled engines or thermodynamics of driven-dissipative systems. On a more applied side, it provides the tools to optimize the energetic consumption of future quantum computers.
翻訳日:2023-04-13 02:56:05 公開日:2021-03-12
# 前・後選択系における量子測定における分散の複素対応

Complex counterpart of variance in quantum measurements for pre- and post-selected systems ( http://arxiv.org/abs/2102.06561v2 )

ライセンス: Link先を確認
Kazuhisa Ogawa, Natsuki Abe, Hirokazu Kobayashi, Akihisa Tomita(参考訳) 予め選択された量子系における可観測物のばらつきは、常に実かつ非負であり、間接的な測定においてプローブ波のパケット幅の増加として現れる。 このフレームワークを事前および後選択されたシステムへ拡張し、"weak variance"と呼ばれる複雑な値の分散を定式化する。 この定式化では、弱分散の実部と虚部は、それぞれ2次位相平面上の垂直-水平方向と対角-対角方向のプローブ波パケット幅の変化として現れる。 光学系を用いて、実際の負と純虚の弱い分散に起因するプローブ波パケット幅の変化を実験的に示す。 さらに, 弱分散を前・後選択系における弱値確率分布の分散として表現できることを示した。 これらの操作的および統計的解釈は、弱分散を事前選択された系と後選択された系の分散の複雑な相似として定式化する合理性を支持する。

The variance of an observable in a pre-selected quantum system, which is always real and non-negative, appears as an increase in the probe wave packet width in indirect measurements. Extending this framework to pre- and post-selected systems, we formulate a complex-valued counterpart of the variance called "weak variance." In our formulation, the real and imaginary parts of the weak variance appear as changes in the probe wave packet width in the vertical-horizontal and diagonal-antidiagonal directions, respectively, on the quadrature phase plane. Using an optical system, we experimentally demonstrate these changes in the probe wave packet width caused by the real negative and purely imaginary weak variances. Furthermore, we show that the weak variance can be expressed as the variance of the weak-valued probability distribution in pre- and post-selected systems. These operational and statistical interpretations support the rationality of formulating the weak variance as a complex counterpart of the variance in pre- and post-selected systems.
翻訳日:2023-04-11 08:08:17 公開日:2021-03-12
# 振動波動関数の計算のための深層学習法

Deep learning methods for the computation of vibrational wavefunctions ( http://arxiv.org/abs/2103.00202v2 )

ライセンス: Link先を確認
Laia Domingo and Florentino Borondo(参考訳) 本稿では、2つのDeep Learningモデルを用いて、分子系の振動の研究に適した異なるハミルトンの基底および励起波動関数を設計・利用する。 生成されたニューラルネットワークは解析解を持つハミルトニアンで訓練され、より複雑なハミルトニアン関数にこれらの解を一般化するようネットワークに求める。 このアプローチは、異なる分子ポテンシャルの励起振動波動関数を再現することができる。 ここで使用される方法論はすべてデータ駆動であり、システムの基盤となる物理モデルに関する情報を前提としない。 これによりこのアプローチは多用可能となり、量子化学における複数の系の研究に使用できる。

In this paper we design and use two Deep Learning models to generate the ground and excited wavefunctions of different Hamiltonians suitable for the study the vibrations of molecular systems. The generated neural networks are trained with Hamiltonians that have analytical solutions, and ask the network to generalize these solutions to more complex Hamiltonian functions. This approach allows to reproduce the excited vibrational wavefunctions of different molecular potentials. All methodologies used here are data-driven, therefore they do not assume any information about the underlying physical model of the system. This makes this approach versatile, and can be used in the study of multiple systems in quantum chemistry.
翻訳日:2023-04-09 18:32:07 公開日:2021-03-12
# 炭化ケイ素中のスピン活性エミッタの狭い不均一分布

Narrow inhomogeneous distribution of spin-active emitters in silicon carbide ( http://arxiv.org/abs/2103.06101v2 )

ライセンス: Link先を確認
Roland Nagy, Durga Bhaktavatsala Rao Dasari, Charles Babin, Di Liu, Vadim Vorobyov, Matthias Niethammer, Matthias Widmann, Tobias Linkewitz, Rainer St\"ohr, Heiko B. Weber, Takeshi Ohshima, Misagh Ghezellou, Nguyen Tien Son, Jawad Ul-Hassan, Florian Kaiser, J\"org Wrachtrup(参考訳) 光的に活性な固体スピンレジスタは、量子コンピューティング、通信、センシングにおいてそのユニークなポテンシャルを実証している。 スケーラビリティの実現とアプリケーションの複雑さの増大には、光ネットワークにおける光子干渉など、複数の個々のシステムを絡み合わせる必要がある。 しかし、ほとんどの固体エミッタは比較的広いスペクトル分布を示し、光干渉実験を妨げる。 ここでは, 半導体炭化ケイ素(sic)中のシリコン空隙中心が, 0.43\,\rm \mu m^{-3}$ の欠陥濃度の上昇にもかかわらず, 光学吸収・放出線の極めて小さな自然分布を示すことを実証する。 特に,外部チューニング機構がなければ,少なくとも2本の光線がライフタイム制限線幅内で重なり合うまで,13個の欠陥のみを調べる必要がある。 さらに,回折制限励起点内に重なり合う励起プロファイルを持つエミッタを同定し,計算関連であるGreenberger-Horne-Zeilinger(GHZ)とクラスタ状態を生成するための簡易なスキームを導入する。 本結果は、CMOS互換SiCプラットフォームが、ネットワーク量子技術アプリケーションを実現する可能性を示すものである。

Optically active solid-state spin registers have demonstrated their unique potential in quantum computing, communication and sensing. Realizing scalability and increasing application complexity requires entangling multiple individual systems, e.g. via photon interference in an optical network. However, most solid-state emitters show relatively broad spectral distributions, which hinders optical interference experiments. Here, we demonstrate that silicon vacancy centres in semiconductor silicon carbide (SiC) provide a remarkably small natural distribution of their optical absorption/emission lines despite an elevated defect concentration of $\approx 0.43\,\rm \mu m^{-3}$. In particular, without any external tuning mechanism, we show that only 13 defects have to be investigated until at least two optical lines overlap within the lifetime-limited linewidth. Moreover, we identify emitters with overlapping emission profiles within diffraction limited excitation spots, for which we introduce simplified schemes for generation of computationally-relevant Greenberger-Horne-Zeilinger (GHZ) and cluster states. Our results underline the potential of the CMOS-compatible SiC platform toward realizing networked quantum technology applications.
翻訳日:2023-04-08 13:43:50 公開日:2021-03-12
# 量子拡散によるほぼ一様1次元凝縮体の特異性

Singularities in nearly-uniform 1D condensates due to quantum diffusion ( http://arxiv.org/abs/2103.06293v2 )

ライセンス: Link先を確認
C. L. Baldwin, P. Bienias, A. V. Gorshkov, M. J. Gullans, M. Maghrebi(参考訳) 散逸系はしばしば波長依存性の損失率を示す。 ライドバーグ偏光子(rydberg polaritons)は、相互作用する光子の物理を研究する主要な候補であり、量子情報のプラットフォームとしても期待されている。 この系では、散逸は量子拡散の形で、すなわち、$k^2$(k$は波動ベクトル)に比例し、長い波長で$k\to 0$として消滅する。 そこで本研究では, この損失を受ける1次元凝縮物が, 長波長の密度ゆらぎに対して不安定であり, 凝縮物が均一な状態に緩和されるような長い期間を経て, 局所的な枯渇した領域がすぐに形成され, 弾道的に系全体に拡がることを示した。 我々は、この振る舞いを、有限時間で特異点を発達させる、ほぼ一様凝縮式(KPZ方程式の分散類似式)の先頭階方程式に接続する。 さらに, 枯渇領域の波面は, 損失のない凝縮物には対応しない一対の流体力学方程式の中で, 純粋に散逸するソリトンによって記述されることを示した。 このような特異点と結果として生じるソリトンが物理的に実現できる条件を議論することで閉じる。

Dissipative systems can often exhibit wavelength-dependent loss rates. One prominent example is Rydberg polaritons formed by electromagnetically-induced transparency, which have long been a leading candidate for studying the physics of interacting photons and also hold promise as a platform for quantum information. In this system, dissipation is in the form of quantum diffusion, i.e., proportional to $k^2$ ($k$ being the wavevector) and vanishing at long wavelengths as $k\to 0$. Here, we show that one-dimensional condensates subject to this type of loss are unstable to long-wavelength density fluctuations in an unusual manner: after a prolonged period in which the condensate appears to relax to a uniform state, local depleted regions quickly form and spread ballistically throughout the system. We connect this behavior to the leading-order equation for the nearly-uniform condensate -- a dispersive analogue to the Kardar-Parisi-Zhang (KPZ) equation -- which develops singularities in finite time. Furthermore, we show that the wavefronts of the depleted regions are described by purely dissipative solitons within a pair of hydrodynamic equations, with no counterpart in lossless condensates. We close by discussing conditions under which such singularities and the resulting solitons can be physically realized.
翻訳日:2023-04-08 13:35:00 公開日:2021-03-12
# 平均場系における古典および量子短距離ダイナミクスの絡み合い

Entanglement of Classical and Quantum Short-Range Dynamics in Mean-Field Systems ( http://arxiv.org/abs/2103.06731v2 )

ライセンス: Link先を確認
J.-B. Bru and W. de Siqueira Pedra(参考訳) 古典力学と量子力学の関係は通常、極限$\hbar \rightarrow 0$で理解される。 これは古典的対象の量子化の背後にある考え方である。 一般相対性理論と量子力学と量子場理論との明らかな不整合は、この基本的なアイデアに何十年もの間挑戦してきた。 我々は最近,超一般量子格子系に対する古典力学の出現を,その量子的特徴の(完全)抑制を伴わずに無限体積極限で示した。 これにより、古典世界と量子世界が絡み合う理論的な枠組みが導かれる。 このような絡み合いは注目すべきものであり、平均場相互作用の非常に非局所的な性質の結果である。 したがって、この現象は平均場相互作用しか持たないシステムに限らず、量子場理論のヒッグス機構の精神において、十分に長距離で有効な古典的背景場をもたらす相互作用の存在にも現れるべきである。 原版より抽象的でない方法で結果を提示するために、本論文を具体的、物理的に関連のある例に適用し、この方法で、我々の一般的なアプローチの様々な重要な側面について議論する。 我々が考えるモデルは正確には解けず、得られた特定の結果は新しいものである。

The relationship between classical and quantum mechanics is usually understood via the limit $\hbar \rightarrow 0$. This is the underlying idea behind the quantization of classical objects. The apparent incompatibility of general relativity with quantum mechanics and quantum field theory has challenged for many decades this basic idea. We recently showed the emergence of classical dynamics for very general quantum lattice systems with mean-field interactions, without (complete) supression of its quantum features, in the infinite volume limit. This leads to a theoretical framework in which the classical and quantum worlds are entangled. Such an entanglement is noteworthy and is a consequence of the highly non-local character of mean-field interactions. Therefore, this phenomenon should not be restricted to systems with mean-field interactions only, but should also appear in presence of interactions that are sufficiently long-range, yielding effective, classical background fields, in the spirit of the Higgs mechanism of quantum field theory. In order to present the result in a less abstract way than in its original version, here we apply it to a concrete, physically relevant, example and discuss, by this means, various important aspects of our general approach. The model we consider is not exactly solvable and the particular results obtained are new.
翻訳日:2023-04-08 11:15:29 公開日:2021-03-12
# エルマイトポリノミアルによる光のスクイーズ状態の構築

Constructing Squeezed States of Light with Associated Hermite Polynomials ( http://arxiv.org/abs/2103.07082v1 )

ライセンス: Link先を確認
Kevin Zelaya, V\'eronique Hussin, and Oscar Rosas-Ortiz(参考訳) 有名な絞り込み状態と相補的な新しい種類の光状態が導入された。 この構成は、単一モードの量子化電磁場の二次体に対するシュリンガー不等式の飽和から生じる3項の反復関係の一般解に基づいている。 新しい圧縮状態は、関連するエルミート多項式によって係数が決定される光子数状態の線型重ね合わせであることが分かる。 これらの結果は、文献で以前には見つからなかったようである。 例えば、新しいスクリュッド状態のクラスは奇光子数状態のみによって特徴づけられる重ね合わせを含むため、偶光子数状態からなる原典型的なスクリュッド真空状態の対を表す。

A new class of states of light is introduced that is complementary to the well-known squeezed states. The construction is based on the general solution of the three-term recurrence relation that arises from the saturation of the Schr\"odinger inequality for the quadratures of a single-mode quantized electromagnetic field. The new squeezed states are found to be linear superpositions of the photon-number states whose coefficients are determined by the associated Hermite polynomials. These results do not seem to have been noticed before in the literature. As an example, the new class of squeezed states includes superpositions characterized by odd-photon number states only, so they represent the counterpart of the prototypical squeezed-vacuum state which consists entirely of even-photon number states.
翻訳日:2023-04-08 08:59:18 公開日:2021-03-12
# 有限温度におけるフェルミ・ディラック状態の陽電子保存密度行列最小化

Positivity Preserving Density Matrix Minimization for Fermi-Dirac States at Finite Temperatures ( http://arxiv.org/abs/2103.07078v1 )

ライセンス: Link先を確認
Jacob M. Leamer and Denys I. Bondar (Department of Physics and Engineering Physics, Tulane Univeristy)(参考訳) 本稿では,有限温度における電子構造問題に対するフェルミ・ディラック密度行列の計算法を提案する。 これらの方法は、最初に無限温度から所望の有限温度までの状態の冷却をモデル化する。 我々は、大標準アンサンブル(定数化学ポテンシャル)と、以前の研究で見落とされた標準アンサンブル(定数電子数)の扱いに関わる微妙な点の両方を考察する。 本稿では,密度行列最小化手法への関心を再活性化させることを期待する。

We present methods for calculating the Fermi-Dirac density matrix for electronic structure problems at finite temperature while preserving physicality by construction. These methods model cooling a state initially at infinite temperature down to the desired finite temperature. We consider both the grand canonical ensemble (constant chemical potential) and highlight subtleties involved with treating the canonical ensemble (constant number of electrons) that have been overlooked in previous works. We hope that the discussion and results presented in this article reinvigorates interest in density matrix minimization methods.
翻訳日:2023-04-08 08:58:35 公開日:2021-03-12
# 光信号の非コヒーレント制御; 量子熱エンジンアプローチ

Incoherent control of optical signals; quantum heat engine approach ( http://arxiv.org/abs/2103.07070v1 )

ライセンス: Link先を確認
Md Qutubuddin and Konstantin E. Dorfman(参考訳) 光ポンププローブ信号は、2つのコヒーレントな浴槽(ポンプからプローブ)の間でエネルギーを伝達しながら、物質が行う作業と見なすことができる。 熱力学では、レーザーのような熱エンジンは、2つの熱浴の間を動作しながら同様の作用を行う装置である。 本稿では, 量子熱機関の物理を用いた光信号の「非コヒーレント」制御手法を提案する。 分子の電子励起状態のコヒーレントレーザー励起と熱緩和を組み合わせることにより、熱エンジンによる作業としてプローブ光子の励起を効果的に処理する熱浴を導入する。 ポンプレーザの制御パラメータを用いてポンププローブ信号の出力と効率を最適化し, 熱機関の熱力学サイクルと等価性を示す4レベル分子モデルと弱い結合状態における4レベル分子モデルを用いた。

Optical pump-probe signals can be viewed as work done by the matter while transferring the energy between two coherent baths (from pump to probe). In thermodynamics a heat engine, such as laser, is a device which performs similar work but operating between two thermal baths. We propose an "incoherent" control procedure for the optical signals using the physics of quantum heat engine. By combining a coherent laser excitation of electronic excited state of molecule with thermal relaxation we introduce an effective thermal bath treating stimulated emission of probe photons as work performed by the heat engine. We optimize power and efficiency for the pump-probe signal using control parameters of the pump laser utilizing four level molecular model in strong and weak coupling regime illustrating its equivalence with the thermodynamic cycle of the heat engine.
翻訳日:2023-04-08 08:58:26 公開日:2021-03-12
# 1対の利得損失ポテンシャルを持つキタエフ連鎖における$\mathcal{pt}$-symmetry breaking

$\mathcal{PT}$-symmetry breaking in a Kitaev chain with one pair of gain-loss potentials ( http://arxiv.org/abs/2103.07058v1 )

ライセンス: Link先を確認
Kaustubh S. Agarwal and Yogesh N. Joglekar(参考訳) parity-time (\mathcal{pt}$) 対称系は古典的な利得損失系であり、その力学は例外点 (ep) の縮退を持つ非エルミートハミルトン系によって支配される。 $\mathcal{PT}$-対称ハミルトニアン変換の固有値は、$\mathcal{PT}$ 破壊しきい値と呼ばれるゲインロス強度の臨界値において実から複素共役となる。 ここでは,1次元有限キタエフ鎖 -- p波超伝導体のプロトタイプ -- に対して,超伝導次数パラメータ,オンサイト電位,利得と損失点の距離の関数として,1対の利得と損失ポテンシャルの存在下で,$\mathcal{pt}$-thresholdを求める。 強固で非局所的なしきい値に加えて、エルミート・キタエフ・モデルのバンド構造の観点から定性的に理解できるしきい値のリッチな位相図を見出す。 特に、オンサイトポテンシャルがゼロの偶数鎖に対しては、2階のEP輪郭で有界な$\mathcal{PT}$対称位相が再入射する。 この数値計算は,小型システムにおける解析計算によって補足される。

Parity-time ($\mathcal{PT}$) symmetric systems are classical, gain-loss systems whose dynamics are governed by non-Hermitian Hamiltonians with exceptional-point (EP) degeneracies. The eigenvalues of a $\mathcal{PT}$-symmetric Hamiltonian change from real to complex conjugates at a critical value of gain-loss strength that is called the $\mathcal{PT}$ breaking threshold. Here, we obtain the $\mathcal{PT}$-threshold for a one-dimensional, finite Kitaev chain -- a prototype for a p-wave superconductor -- in the presence of a single pair of gain and loss potentials as a function of the superconducting order parameter, on-site potential, and the distance between the gain and loss sites. In addition to a robust, non-local threshold, we find a rich phase diagram for the threshold that can be qualitatively understood in terms of the band-structure of the Hermitian Kitaev mo del. In particular, for an even chain with zero on-site potential, we find a re-entrant $\mathcal{PT}$-symmetric phase bounded by second-order EP contours. Our numerical results are supplemented by analytical calculations for small system sizes.
翻訳日:2023-04-08 08:58:12 公開日:2021-03-12
# ナイジェリア大学における同期オンライン学習のための評価基準の開発

Development of An Assessment Benchmark for Synchronous Online Learning for Nigerian Universities ( http://arxiv.org/abs/2103.07215v1 )

ライセンス: Link先を確認
Modesta Ezema, Boniface Nworgu, Deborah Ebem, Stephenson Echezona, Celestine Ugwu, Assumpta Ezugwu, Asogwa Chika, Ekene Ozioko, Elochukwu Ukwandu(参考訳) 近年、新型コロナウイルス(COVID-19)のパンデミックの結果、ナイジェリアの高等教育機関は閉鎖され、ASUU(Academic Staff Union of University)の指導層は、ナイジェリアの大学は、インフラ、能力、スキルセットが不足しているため、ナイジェリアでこのような学習システムを単独で行うことは不可能であると述べた。 これを踏まえて、この研究は、ナイジェリア大学のnsukka (unn) を用いたオンライン調査を実施し、どのようなオンライン学習システム asuu リーダーシップが話している - 非同期か同期か? ASUUはどのようにして彼らの事実を思いついたのか? ASUUは事実を根拠に、もしYESならベンチマークとは何か? したがって、この研究プロジェクトは、ナイジェリアの大学が同期オンライン学習を実行するのに必要なものを持っているかどうかを評価するベンチマークを提供することに重点を置いている。 必要なインフラストラクチャ(ハードウェア、ソフトウェア、ネットワーク接続)、スタッフからのスキルセット(コンピュータリテラシーレベル)が含まれている。 これを実現するため,UCNの遠隔教育センターの職員に対してオンライン調査を実施し,その40人中32人が回答を得た。 調査では、UNNが必要なインフラと、同期オンライン学習のスキルセットを持っているかどうかを調査している。 この研究の結果、unnは、同期オンライン学習をマウントするための必要なインフラとスキルセットの両方に不足していることが分かりました。

In recent times, as a result of COVID-19 pandemic, higher institutions in Nigeria have been shutdown and the leadership of Academic Staff Union of University (ASUU) said that Nigerian universities cannot afford to mount Online learning platforms let alone conduct such learning system in Nigeria due to lack of infrastructure, capacity and skill sets in the face of COVID-19 pandemic. In the light of this, this research undertook an online survey using University of Nigeria, Nsukka (UNN) as a case study to know which type of online learning system ASUU leadership is talking about - Asynchronous or Synchronous? How did ASUU come about their facts? Did ASUU base their assertion on facts, if YES, what are the benchmarks? Therefore, this research project is focused on providing benchmarks to assess if a Nigerian University has what it takes to run a synchronous Online Learning. It includes Infrastructure needed (Hardware, Software, Network connectivity), Skill sets from staff (Computer literacy level). In a bid to do this, an online survey was administered to the staff of Centre for Distance and E-learning of UNN and out of the 40 members of that section of the University, we had 32 respondents. The survey seeks to find whether UNN has the requisite infrastructure and the skill sets to mount synchronous online learning. The available results of the study reveal that UNN is deficit in both the requisite infrastructure and Skills sets to mount synchronous online learning.
翻訳日:2023-04-08 08:51:04 公開日:2021-03-12
# ソーシャルメディアが学生の気分・時間管理・学業活動に及ぼす影響と学業成績との関連性

Determining the Impacts of Social Media on Mood, Time Management and Academic Activities of Students and the Relationship with their Academic Performance ( http://arxiv.org/abs/2103.07205v1 )

ライセンス: Link先を確認
Comfort Olebara, Obianuju Ezugwu, Adaora Obayi, Deborah Ebem, Ujunwa Mbgoh, Elochukwu Ukwandu(参考訳) ソーシャルメディアサイトの数は指数関数的に増加し、古いサイトや、無検閲コンテンツを提供することでコミュニティガイドラインを超えて行くサイトの弱さに乗じている。 これらのプラットフォームのベンダーは、より広い範囲にリーチするために、視聴年齢を制限せず、若者の名声を約束するほか、若者をサイト中毒にさせるような魅力的なオファーを約束している。 ユーザーのアカウントをハックして詐欺に使ったりすることは、ナイジェリアの若者の間でも、手軽な富を欲しがっている。 データやスマートフォン、関連するデジタル機器の価格の急落により、可用性とアクセスが向上し、デジタル分割は閉鎖され、若者のモラルや学術的追求に悪影響を及ぼす。 ナイジェリア政府は、政府が所有する機関の学生が課題に対処するための政策やインフラを整備する際の性能の低下に寄与する要因を理解することが重要である。 本研究では,ソーシャルメディアが学生の学習活動,気分,時間管理能力に及ぼす影響について検討した。 その結果,ソーシャルメディアと学術活動の関係は統計的に有意であった。 しかし、それらの間には否定的な関係があり、ソーシャルメディア活動のレベルが高いほど、学術活動の参加が低下することを意味する。 同様の関連が,ソーシャルメディアが学生の時間管理能力に与える影響について考察した。

The number of social media sites have increased exponentially with new ones cashing in on the weaknesses of older ones and others going beyond community guidelines by offering uncensored content. The vendors of these platforms in order to have a wider reach do not place restrictions on viewing age, promises young people with fame, and other such attractive offers that make the youths addicted to the site. The possibility of hacking into accounts of users and using same for fraud is another rave among Nigerian youths with desire for quick riches. The crash in prices of data, smart phones, and related digital devices have increased availability and access thereby closing digital divide and widening its adverse effects on the youths morals and academic pursuits. It is important that the Nigerian government understand factors that contribute to the dwindling performance level of students in government owned institutions to put in place policies and infrastructure that would help combat the challenges. This study investigated the effects of social media on students academic activities, mood and time management abilities. The result indicated that association between social media and academic activities is statistically significant. However, a negative association exists between them which implies that the high the level of social media activity, the lower academic activities participation. Similar association was observed on the effects of social media on students time management ability.
翻訳日:2023-04-08 08:50:35 公開日:2021-03-12
# 量子フィッシャー情報による多粒子絡みの検出

Detection of multipartite entanglement via quantum Fisher information ( http://arxiv.org/abs/2103.07141v1 )

ライセンス: Link先を確認
Yan Hong, Xianfei Qi, Ting Gao, Fengli Yan(参考訳) 本稿では,2種類の多部相関,$k$非分離性と$k$非分離性に着目し,どちらも多部交絡の本質的特徴を記述できる。 我々は,量子フィッシャー情報を用いて,k$-nonseparability と $k$-partite の絡み目を検出する効果的な方法を提案する。 結果の意義を説明し,いくつかの具体例では既知の基準では識別できない,k$非分離性とk$-partite の絡み合いを同定した。

In this paper, we focus on two different kinds of multipartite correlation, $k$-nonseparability and $k$-partite entanglement, both of which can describe the essential characteristics of multipartite entanglement. We propose effective methods to detect $k$-nonseparability and $k$-partite entanglement in terms of quantum Fisher information. We illustrate the significance of our results and show that they identify some $k$-nonseparability and $k$-partite entanglement that cannot be identified by known criteria by several concrete examples.
翻訳日:2023-04-08 08:49:56 公開日:2021-03-12
# 通常順序付けられたノイズ演算子による四角形スクイーズ

Quadrature Squeezing with Normally Ordered Noise Operators ( http://arxiv.org/abs/2103.07124v1 )

ライセンス: Link先を確認
Merid Tufa, Fesseha Kassahun(参考訳) 我々は,真空貯留層に結合した閉鎖空洞内の3レベル原子とサブハーモニック光モードの相互作用を検討した。 真空貯水池ノイズ演算子を正常に順序付けして解析を行う。 そのため、一定の条件下では完全な四次スキューズが存在する。

We have considered the interaction of subharmonic light modes with a three-level atom in a closed cavity coupled to a vacuum reservoir. We carry out analysis by normally ordering the vacuum reservoir noise operators. It so happens that there is perfect quadrature squeezing under certain conditions.
翻訳日:2023-04-08 08:49:46 公開日:2021-03-12
# 非エルミート系を用いたCram\'er-Rao境界と量子パラメータ推定

Cram\'er-Rao bound and quantum parameter estimation with non-Hermitian systems ( http://arxiv.org/abs/2103.07099v1 )

ライセンス: Link先を確認
Jianning Li, Haodi Liu, Zhihai Wang, Xuexi Yi(参考訳) 量子フィッシャー情報(quantum fisher information)は、量子クレーア・ラオ境界(quantum cram\'er-rao bound)によるパラメータ推定の達成可能な精度を制限している。 しかしながら、非エルミート系には注意が払われていない。 このレターでは、異なる対数演算子を用いて、これまで知られていなかった2つの量子フィッシャー情報表現と、よく知られた2つのクラム・ラーオ境界が非エルミート系で見られる。 これらの下界は非エルミート可観測性の利点によるもので、最適化の体系が拡張された結果として理解することができる。 実験的に実現可能な2つの例を示し、これらの境界の飽和とハイゼンベルク極限を超える推定精度を予測し、議論する。 非エルミート可観測性を測定するセットアップも提案されている。

The quantum Fisher information constrains the achievable precision in parameter estimation via the quantum Cram\'er-Rao bound, which has attracted much attention in Hermitian systems since the 60s of the last century. However, less attention has been paid to non-Hermitian systems. In this Letter, working with different logarithmic operators, we derive two previously unknown expressions for quantum Fisher information, and two Cram\'er-Rao bounds lower than the well-known one are found for non-Hermitian systems. These lower bounds are due to the merit of non-Hermitian observable and it can be understood as a result of extended regimes of optimization. Two experimentally feasible examples are presented to illustrate the theory, saturation of these bounds and estimation precisions beyond the Heisenberg limit are predicted and discussed. A setup to measure non-Hermitian observable is also proposed.
翻訳日:2023-04-08 08:49:14 公開日:2021-03-12
# qfast:スケーラブル量子回路合成のための畳み込み探索と数値最適化

QFAST: Conflating Search and Numerical Optimization for Scalable Quantum Circuit Synthesis ( http://arxiv.org/abs/2103.07093v1 )

ライセンス: Link先を確認
Ed Younis, Koushik Sen, Katherine Yelick, Costin Iancu(参考訳) 本稿では,短絡回路を作製し,実際にスケールする量子合成アルゴリズムを提案する。 主な貢献は、一般的な「ゲート」を用いて配置とトポロジーをエンコードできる回路の新しい表現であり、qfastアルゴリズムは回路構造上の高価な検索を数ステップの数値最適化で置き換えることができる。 最適深度、検索に基づく最先端技術と比較すると、QFASTは1.19倍の長い回路を4キュービットにし、コンパイル速度は3.6倍に向上する。 さらに、QFASTは7キュービットまでスケールする。 QFASTは、Qiskitの最先端の「ルール」ベースの分解技術と比較すると、5.6倍遅いものの、最大2桁まで短い回路を生成する。 また,回路深度や走行時間の観点から,他の手法とのコンポーザビリティや定式化のチューニング性も示す。

We present a quantum synthesis algorithm designed to produce short circuits and to scale well in practice. The main contribution is a novel representation of circuits able to encode placement and topology using generic "gates", which allows the QFAST algorithm to replace expensive searches over circuit structures with few steps of numerical optimization. When compared against optimal depth, search based state-of-the-art techniques, QFAST produces comparable results: 1.19x longer circuits up to four qubits, with an increase in compilation speed of 3.6x. In addition, QFAST scales up to seven qubits. When compared with the state-of-the-art "rule" based decomposition techniques in Qiskit, QFAST produces circuits shorter by up to two orders of magnitude (331x), albeit 5.6x slower. We also demonstrate the composability with other techniques and the tunability of our formulation in terms of circuit depth and running time.
翻訳日:2023-04-08 08:48:44 公開日:2021-03-12
# 一部盲目の証人による証拠と創発的多党的絡み合い

Convicting emergent multipartite entanglement with evidence from a partially blind witness ( http://arxiv.org/abs/2103.07327v1 )

ライセンス: Link先を確認
Viktor Nordgren (1), Olga Leskovjanov\'a (2), Jan Provazn\'ik (2), Natalia Korolkova (1), Ladislav Mi\v{s}ta Jr. (2) ((1) University of St Andrews, (2) Palack\'y University)(参考訳) Genuine multipartite entanglement(英語版)は、量子力学を裏付ける相関実験を基礎としている。 真の多部的絡み合いの多くの反直観的な面の1つは、創発的性格を示す能力、すなわち、ある多部的状態におけるその存在を、その分離可能な辺縁の集合からのみ推測することができることである。 ここでは、ボソニック系のガウス状態の文脈でもこの効果が認められることを示す。 具体的には、真の多部交絡を持つ多モードガウス状態の例を構築し、これは分離可能な近傍の2モード境界からのみ検証できる。 我々の構築の鍵となるツールは、半定値プログラムの数値解によって見つかる大域的共分散行列の2モード還元にのみ作用する真の多部絡み目の証人である。 また,2本のビームスプリッターに3本の相関的に変位したスクイーズビームを干渉させることにより,最も単純な3モード状態を作成するための実験手法を提案する。 ガウス的シナリオにおける創発的真の多成分絡み合いの概念を明らかにし, 実験的に検証可能な形式に近づけるとともに, 完全トモグラフィを伴わない多成分状態のグローバル特性の効果的な診断法への道を開く。

Genuine multipartite entanglement underlies correlation experiments corroborating quantum mechanics and it is an expedient empowering many quantum technologies. One of many counterintuitive facets of genuine multipartite entanglement is its ability to exhibit an emergent character, that is, one can infer its presence in some multipartite states merely from a set of its separable marginals. Here, we show that the effect can be found also in the context of Gaussian states of bosonic systems. Specifically, we construct examples of multimode Gaussian states carrying genuine multipartite entanglement which can be verified solely from separable nearest-neighbour two-mode marginals. The key tool of our construction is a genuine multipartite entanglement witness acting only on some two-mode reductions of the global covariance matrix, which we find by a numerical solution of a semi-definite programme. We also propose an experimental scheme for preparation of the simplest three-mode state, which requires interference of three correlatively displaced squeezed beams on two beam splitters. Besides revealing the concept of emergent genuine multipartite entanglement in the Gaussian scenario and bringing it closer to experimentally testable form, our results pave the way to effective diagnostics methods of global properties of multipartite states without complete tomography.
翻訳日:2023-04-08 08:41:10 公開日:2021-03-12
# 最大$k-1$非絡み合い粒子を含む量子状態の検出

Detection of the quantum states containing at most $k-1$ unentangled particles ( http://arxiv.org/abs/2103.07313v1 )

ライセンス: Link先を確認
Yan Hong, Xianfei Qi, Ting Gao, Fengli Yan(参考訳) 多部量子系の絡み合いには様々な分類があり、そのうちの1つは非絡み合い粒子の数に基づいている。 本稿では,k-1$非エンタングル粒子を含む量子状態について主に研究し,k-1$非エンタングル粒子を含む量子状態を識別可能な異なる不等式に基づく複数のエンタングルメント基準を提供する。 具体例により,これらの基準がいくつかの状態に対してより有効であることを示す。

There are many different classifications of entanglement for multipartite quantum systems, one of which is based on the number of unentangled particles. In this paper, we mainly study the quantum states containing at most $k-1$ unentangled particles and provide several entanglement criteria based on different forms of inequalities which can both identify quantum states containing at most $k-1$ unentangled particles. We show that these criteria are more effective for some states by concrete examples.
翻訳日:2023-04-08 08:40:43 公開日:2021-03-12
# 共形量子力学による平時空間における真空熱効果

Vacuum thermal effects in flat space-time from conformal quantum mechanics ( http://arxiv.org/abs/2103.07228v1 )

ライセンス: Link先を確認
Michele Arzano(参考訳) ミンコフスキー時空における放射状共形対称性の生成元は、共形量子力学における時間発展の生成元にマッピングすることができる。 この対応の中で、コンホメーション量子力学において、ミンコフスキー時空における慣性真空に関連する状態が熱場二重構造を持つことを示す。 そのような状態は二成分の「真空状態」から成り、時間領域の一部のみをカバーする双曲的時間発展の生成元の基底状態である。 時間進化が有限時間領域に制限されると、ミンコフスキー真空中の静的ダイヤモンド観測者によって知覚される温度を得る。 時間進化が時間線の半分しかカバーしていない拡張によって決定されるとき、熱場の温度は、ミンコフスキー時空の将来の円錐(ミルヌ宇宙)に限られるミルヌ観測者によって認識される非消滅温度に対応する。 2枚の写真は実線上の共形変換によって関連付けられる。 この結果はミルンとダイヤモンドの温度を純粋に群論的に導出し、真空熱効果の基本成分は加速度ではなく地平線の存在であることを示した。

The generators of radial conformal symmetries in Minkowski space-time can be mapped to the generators of time evolution in conformal quantum mechanics. Within this correspondence we show that in conformal quantum mechanics the state associated to the inertial vacuum in Minkowski space-time has the structure of a thermofield double. Such state is built from a bipartite "vacuum state", the ground state of the generators of hyperbolic time evolution, which cover only part of the time domain. When time evolution is restricted to a finite time domain one obtains the temperature perceived by static diamond observers in the Minkowski vacuum. When time evolution is determined by dilations, covering only half of the time line, the temperature of the thermofield double corresponds to the non-vanishing temperature perceived by Milne observers whose proper time evolution is confined to the future cone (Milne universe) of Minkowski space-time. The two pictures are related by a conformal transformation on the real line. Our result provides a purely group theoretical derivation of the Milne and diamond temperature and shows that the fundamental ingredient for vacuum thermal effects is the presence of a horizon rather than acceleration.
翻訳日:2023-04-08 08:40:10 公開日:2021-03-12
# 極限探索:部分コヒーレンスによる超高分解能化

Exploring the ultimate limits: Super-resolution enhanced by partial coherence ( http://arxiv.org/abs/2103.07225v1 )

ライセンス: Link先を確認
Zden\v{e}k Hradil, Dominik Koutn\'y, Jaroslav \v{R}eh\'a\v{c}ek(参考訳) 量子フィッシャー情報によって定義され、検出確率に関して正規化された部分的コヒーレント重ね合わせを形成する2つの基本信号の分離の解決は、常に非コヒーレント混合の分解によって制限される。 しかし、部分的にコヒーレントな重ね合わせが制御された方法で準備された場合、この限界を超える数桁の精度を向上することができる。 コヒーレンスはまた、反相重畳と連結された分離パラメータと、同相重畳と連結されたセントロイド位置によって示されるように、様々なパラメータに関する情報を異なるチャネルに分類することができる。

The resolution of separation of two elementary signals forming a partially coherent superposition, defined by quantum Fisher information and normalised with respect to detection probabilities, is always limited by the resolution of incoherent mixtures. However, when the partially coherent superpositions are prepared in a controlled way the precision can be enhanced by up to several orders of magnitude above this limit. Coherence also allows the sorting of information about various parameters into distinct channels as demonstrated by parameter of separation linked with the anti-phase superposition and the centroid position linked with the in-phase superposition.
翻訳日:2023-04-08 08:39:51 公開日:2021-03-12
# フェシュバッハ共鳴管理下におけるボース・アインシュタイン凝縮体の生成と不可逆性

Onset and Irreversibility of Granulation of Bose-Einstein condensates under Feshbach Resonance Management ( http://arxiv.org/abs/2103.07479v1 )

ライセンス: Link先を確認
A. U. J. Lode, M. C. Tsatsos, P. G. Kevrekidis, G. D. Telles, D. Luo, R. G. Hulet, V. S. Bagnato(参考訳) 量子物質の顆粒化は、周期的に変調された相互作用によって引き起こされる準1次元ボース・アインシュタイン凝縮の像で実現される。 平均場近似の解析により, 粒状化は, 段階的な位相変動から密度変動に起因していることが示唆された。 これは適度に大きな変調周波数で達成されるが、十分に低い周波数では準断熱状態を示す。 顆粒化の持続性は不可逆過程を表す波動関数の位相の不規則な進化の結果であることを示す。 我々のモデル予測はシュリンガー方程式と実験観測の数値解と一致する。 数値計算により、ボソン(MCTDHB)に対する多重構成時間依存ハートリー理論により、これらの現象の背後にある創発的な多体相関が明らかとなる。

Granulation of quantum matter -- the formation of persistent small-scale patterns -- is realized in the images of quasi-one-dimensional Bose-Einstein condensates perturbed by a periodically modulated interaction. Our present analysis of a mean-field approximation suggests that granulation is caused by the gradual transformation of phase undulations into density undulations. This is achieved by a suitably large modulation frequency, while for low enough frequencies the system exhibits a quasi-adiabatic regime. We show that the persistence of granulation is a result of the irregular evolution of the phase of the wavefunction representing an irreversible process. Our model predictions agree with numerical solutions of the Schr\"odinger equation and experimental observations. The numerical computations reveal the emergent many-body correlations behind these phenomena via the multi-configurational time-dependent Hartree theory for bosons (MCTDHB).
翻訳日:2023-04-08 08:33:16 公開日:2021-03-12
# 境界と欠陥を有する量子場の絡み合い再正規化

Entanglement renormalization for quantum fields with boundaries and defects ( http://arxiv.org/abs/2103.07463v1 )

ライセンス: Link先を確認
Adri\'an Franco-Rubio(参考訳) 連続的マルチスケールエンタングルメント再正規化アンサッツ (cMERA) [Haegeman et al., Phys. Lett. 110, 100402 (2013)] は、量子場理論ハミルトンの基底状態に対して変動波関数を与える。 cMERAは、準局所作用素である絡み合い子によって生成されるユニタリ進化を基準アンタングル状態に適用した結果として定義される。 これにより、境界や欠陥が非自明である場合に形式化が拡張される。 ここでは、この一般化がどのように機能するかを示し、1+1d自由ボソン cMERA を実例とし、共形境界と欠陥に制限する。 我々の処方において、境界または欠陥の存在は、格子テンソルネットワーク mera の最小更新の原則と類似して、その近傍のみに局所化されたエンタングルの修正を引き起こす。

The continuous Multiscale Entanglement Renormalization Ansatz (cMERA) [Haegeman et al., Phys. Rev. Lett. 110, 100402 (2013)] gives a variational wavefunctional for ground states of quantum field theoretic Hamiltonians. A cMERA is defined as the result of applying to a reference unentangled state a unitary evolution generated by a quasilocal operator, the entangler. This makes the extension of the formalism to the case where boundaries and defects are present nontrivial. Here we show how this generalization works, using the 1+1d free boson cMERA as a proof-of-principle example, and restricting ourselves to conformal boundaries and defects. In our prescription, the presence of a boundary or defect induces a modification of the entangler localized only to its vicinity, in analogy with the so-called principle of minimal updates for the lattice tensor network MERA.
翻訳日:2023-04-08 08:32:50 公開日:2021-03-12
# 部分転置モーメントを用いた対称性解消型絡み合い検出

Symmetry-resolved entanglement detection using partial transpose moments ( http://arxiv.org/abs/2103.07443v1 )

ライセンス: Link先を確認
Antoine Neven, Jose Carrasco, Vittorio Vitale, Christian Kokail, Andreas Elben, Marcello Dalmonte, Pasquale Calabrese, Peter Zoller, Beno\^it Vermersch, Richard Kueng, Barbara Kraus(参考訳) 混合状態における絡み合いを検出するための実験可能な条件セットを提案する。 k$-th条件は、部分的に変換された密度演算子のモーメントを最大で$k$まで比較する。 驚くべきことに、全てのモーメントの不等式の組み合わせは、絡み合いを検出するためのペレス・ホロデキ基準を再現する。 我々の実験では、最初の4つの条件が様々な量子アーキテクチャで確実に混合状態の絡み合いを検出することを強調する。 対称性の利用は、検出能力をさらに向上させるのに役立つ。 また,単一状態コピー(古典的影)の局所的ランダムな測定に基づいてモーメント不等式を推定する方法を示し,実測値数の関数として統計的に健全な信頼区間を導出する。 我々の分析は、ドリフト源、すなわち非同一性であるが独立性のある状態コピーの実験的に関連する状況を含む。

We propose an ordered set of experimentally accessible conditions for detecting entanglement in mixed states. The $k$-th condition involves comparing moments of the partially transposed density operator up to order $k$. Remarkably, the union of all moment inequalities reproduces the Peres-Horodecki criterion for detecting entanglement. Our empirical studies highlight that the first four conditions already detect mixed state entanglement reliably in a variety of quantum architectures. Exploiting symmetries can help to further improve their detection capabilities. We also show how to estimate moment inequalities based on local random measurements of single state copies (classical shadows) and derive statistically sound confidence intervals as a function of the number of performed measurements. Our analysis includes the experimentally relevant situation of drifting sources, i.e. non-identical, but independent, state copies.
翻訳日:2023-04-08 08:32:29 公開日:2021-03-12
# 遅延耐性ネットワークのためのルーティングプロトコルの遺伝的改良

Genetic Improvement of Routing Protocols for Delay Tolerant Networks ( http://arxiv.org/abs/2103.07428v1 )

ライセンス: Link先を確認
Michela Lorandi, Leonardo Lucio Custode, Giovanni Iacca(参考訳) ルーティングはネットワークアプリケーションにおいて基本的な役割を果たすが、特にDTN(Delay Tolerant Networks)では難しい。 これらは例えば(おそらく無人の)車両と人間で作られたモバイルアドホックネットワークの一種であり、連続接続の欠如にもかかわらず、ノードの移動性によってネットワークの状態が変化する間にデータが送信されなければならない。 これらの文脈では、ルーティングはNPハードであり、通常はヒューリスティックな「ストアアンドフォワード」レプリケーションベースのアプローチによって解決される。 それでも、既存のルーティングプロトコルは、比較的低いデリバリ確率を生み出す。 本稿では,DTNにおいて広く採用されている2つのルーティングプロトコル,すなわち Epidemic と PRoPHET を遺伝的に改良した。 まず、ノードがデータを転送できるかチェックしたり、すべてのコネクションにメッセージを送信したりする機能など、基本的なコンポーネントに分類します。 そして,これらの成分を進化樹の終端ノードとして操作するために遺伝的改良(GI)を適用した。 我々は,この手法を,数百のノードからなる都市ネットワークの6つのテストケースに適用し,GIが4つのケースで一貫した納入確率の向上をもたらすことを発見した。 そして、この改善によってレイテンシやバッファタイムなどの他の関連するネットワークメトリクスが悪化するかどうかを検証する。 最後に、最良の進化プロトコルの論理をベースラインプロトコルの論理と比較し、テストケースにおける結果の一般化可能性について論じる。

Routing plays a fundamental role in network applications, but it is especially challenging in Delay Tolerant Networks (DTNs). These are a kind of mobile ad hoc networks made of e.g. (possibly, unmanned) vehicles and humans where, despite a lack of continuous connectivity, data must be transmitted while the network conditions change due to the nodes' mobility. In these contexts, routing is NP-hard and is usually solved by heuristic "store and forward" replication-based approaches, where multiple copies of the same message are moved and stored across nodes in the hope that at least one will reach its destination. Still, the existing routing protocols produce relatively low delivery probabilities. Here, we genetically improve two routing protocols widely adopted in DTNs, namely Epidemic and PRoPHET, in the attempt to optimize their delivery probability. First, we dissect them into their fundamental components, i.e., functionalities such as checking if a node can transfer data, or sending messages to all connections. Then, we apply Genetic Improvement (GI) to manipulate these components as terminal nodes of evolving trees. We apply this methodology, in silico, to six test cases of urban networks made of hundreds of nodes, and find that GI produces consistent gains in delivery probability in four cases. We then verify if this improvement entails a worsening of other relevant network metrics, such as latency and buffer time. Finally, we compare the logics of the best evolved protocols with those of the baseline protocols, and we discuss the generalizability of the results across test cases.
翻訳日:2023-04-08 08:31:52 公開日:2021-03-12
# バッドキャビティレーザーにおけるサブラジアント-サブラジアント相転移

Subradiant-to-Subradiant Phase Transition in the Bad Cavity Laser ( http://arxiv.org/abs/2103.07402v1 )

ライセンス: Link先を確認
Athreya Shankar, Jarrod T. Reilly, Simon B. J\"ager and Murray J. Holland(参考訳) バッドキャビティレーザーにおける定常超放射の開始は、定常超放射の2つの異なる位相間の散逸相転移が先行することを示している。 この遷移は、キャビティ出力パワーと平均原子反転の非解析的挙動と、集合原子反転の分散の不連続性によって特徴づけられる。 特に、臨界値以下のリポンプレートでは、キャビティ出力電力は強く抑制され、原子数で増加しないが、この値以上の原子数で線形にスケールする。 注目すべきことに、原子は臨界領域付近でマクロな絡み合った定常状態にあり、大きな原子数制限で無絡みの原子が消滅する。

We show that the onset of steady-state superradiance in a bad cavity laser is preceded by a dissipative phase transition between two distinct phases of steady-state subradiance. The transition is marked by a non-analytic behavior of the cavity output power and the mean atomic inversion, as well as a discontinuity in the variance of the collective atomic inversion. In particular, for repump rates below a critical value, the cavity output power is strongly suppressed and does not increase with the atom number, while it scales linearly with atom number above this value. Remarkably, we find that the atoms are in a macroscopic entangled steady state near the critical region with a vanishing fraction of unentangled atoms in the large atom number limit.
翻訳日:2023-04-08 08:30:34 公開日:2021-03-12
# 量子アニーラー上のブール階層タッカーネットワーク

Boolean Hierarchical Tucker Networks on Quantum Annealers ( http://arxiv.org/abs/2103.07399v1 )

ライセンス: Link先を確認
Elijah Pelofske, Georg Hahn, Daniel O'Malley, Hristo N. Djidjev, Boian S. Alexandrov(参考訳) 量子アニーリング(quantum annealing)は、ムーアの法則を超えて時代が近づくにつれて未解決のままの計算課題を解決する可能性を持つ新興技術である。 本研究では, ブール階層タッカーネットワーク (BHTN) と呼ばれるある種のブールテンソル分解を計算するためのD-Wave Systems, Inc. の量子異方体の性能について検討する。 ブールテンソル分解問題(boolean tensor decomposition problem)は、より小さなブールコアテンソルの積として、カテゴリー、[true, false]の値を持つ高次元テンソルの分解を求める。 BHTN分解は通常正確ではないので、入力された高次元テンソルを低次元テンソルの積によって近似し、両者の差をあるノルムで最小化する。 D-Wave 2000Q量子アニールに適した最適化問題の列としてBHTNを計算することができる。 現在の技術は、対処できる問題ではまだかなり制限されているが、bhtnのような複雑な問題を効率的に正確に解くことができることを示す。

Quantum annealing is an emerging technology with the potential to solve some of the computational challenges that remain unresolved as we approach an era beyond Moore's Law. In this work, we investigate the capabilities of the quantum annealers of D-Wave Systems, Inc., for computing a certain type of Boolean tensor decomposition called Boolean Hierarchical Tucker Network (BHTN). Boolean tensor decomposition problems ask for finding a decomposition of a high-dimensional tensor with categorical, [true, false], values, as a product of smaller Boolean core tensors. As the BHTN decompositions are usually not exact, we aim to approximate an input high-dimensional tensor by a product of lower-dimensional tensors such that the difference between both is minimized in some norm. We show that BHTN can be calculated as a sequence of optimization problems suitable for the D-Wave 2000Q quantum annealer. Although current technology is still fairly restricted in the problems they can address, we show that a complex problem such as BHTN can be solved efficiently and accurately.
翻訳日:2023-04-08 08:30:23 公開日:2021-03-12
# supermeshing: 注意機構と知覚的特徴を備えた金属成形応力場のメッシュ密度を高めるための新しいディープラーニングアーキテクチャ

SuperMeshing: A New Deep Learning Architecture for Increasing the Mesh Density of Metal Forming Stress Field with Attention Mechanism and Perceptual Features ( http://arxiv.org/abs/2104.09276v1 )

ライセンス: Link先を確認
Qingfeng Xu, Zhenguo Nie, Handing Xu, Haosu Zhou, Xinjun Liu(参考訳) 応力場解析において、有限要素解析は、メッシュ密度が結果に重大な影響を与える重要なアプローチである。 高いメッシュ密度はシミュレーション結果の信頼性に寄与するが、計算リソースのコストが高くなるため、設計プロセスにおける効率が低下する。 この欠点を解消するために、res-unetアーキテクチャからなるディープラーニングモデルへの入力として、メッシュ密度の低い有限要素解析(fea)の利点を強化し、高密度応力場を瞬時に取得し、計算時間とコストを自動的に短縮するsupermeshingnetという新しいデータ駆動型メッシュ密度促進モデルを提案する。 さらに、注意機構と知覚的特徴を活用し、SuperMeshingNetの性能を向上させる。 線形補間法を適用したベースラインと比較して, SuperMeshingNetは, 未確認ケースを含むテストデータに対する平均二乗誤差 (MSE) と平均絶対誤差 (MAE) の顕著な低減を実現している。 金属成形のデータセットに基づいて, モデルにより生成された再構成結果の高品質かつ優れた精度を示す実験を行った。 このよく訓練されたモデルは、複数のスケールされたメッシュ密度のベースラインや他の方法よりも優れたパフォーマンスを示すことができる。 メッシュ密度の広範化と高精度化を両立させることにより,feaプロセスは計算資源のコストをほとんど必要とせずに高速化することができる。 実装の詳細はhttps://github.com/zhenguonie/2021_SuperMeshing_2D_Metal_Formingで公開しています。

In stress field analysis, the finite element analysis is a crucial approach, in which the mesh-density has a significant impact on the results. High mesh density usually contributes authentic to simulation results but costs more computing resources, leading to curtailing efficiency during the design process. To eliminate this drawback, we propose a new data-driven mesh-density boost model named SuperMeshingNet that strengthens the advantages of finite element analysis (FEA) with low mesh-density as inputs to the deep learning model, which consisting of Res-UNet architecture, to acquire high-density stress field instantaneously, shortening computing time and cost automatically. Moreover, the attention mechanism and the perceptual features are utilized, enhancing the performance of SuperMeshingNet. Compared to the baseline that applied the linear interpolation method, SuperMeshingNet achieves a prominent reduction in the mean squared error (MSE) and mean absolute error (MAE) on test data, which contains prior unseen cases. Based on the data set of metal forming, the comparable experiments are proceeded to demonstrate the high quality and superior precision of the reconstructed results generated by our model. The well-trained model can successfully show more excellent performance than the baseline and other methods on the multiple scaled mesh-density, including $2\times$, $4\times$, and $8\times$. With the refined result owning broaden scaling of mesh density and high precision, the FEA process can be accelerated with seldom cost on computation resources. We publicly share our work with full detail of implementation at https://github.com/zhenguonie/2021_SuperMeshing_2D_Metal_Forming
翻訳日:2023-04-08 08:24:24 公開日:2021-03-12
# 変形性膝関節症に対するジオデシックBスコアの有用性

Geodesic B-Score for Improved Assessment of Knee Osteoarthritis ( http://arxiv.org/abs/2104.01107v1 )

ライセンス: Link先を確認
Felix Ambellan, Stefan Zachow, Christoph von Tycowicz(参考訳) 三次元医用画像は変形性関節症の構造状態の詳細な理解を可能にする。 しかし, 患者固有の臨床結果の信頼性を評価するための読解者非依存的手法は, 依然として大きなニーズが残っている。 この目的のために、最近提案されたBスコアのリーマン形状空間への一貫した一般化を導出する。 さらに, 単純かつ効率的な計算を行い, 数千のサンプルを用いて大規模形状の集団を解析できるアルゴリズム処理を提案する。 以上より,本研究はeuclideanに対する識別能力の向上を示し,全膝置換術のリスク評価における予測的妥当性を示す。 この結果は、ジオデシックBスコアの可能性を強調し、介入に対するパーソナライズドアセスメントと階層化の改善を可能にする。

Three-dimensional medical imaging enables detailed understanding of osteoarthritis structural status. However, there remains a vast need for automatic, thus, reader-independent measures that provide reliable assessment of subject-specific clinical outcomes. To this end, we derive a consistent generalization of the recently proposed B-score to Riemannian shape spaces. We further present an algorithmic treatment yielding simple, yet efficient computations allowing for analysis of large shape populations with several thousand samples. Our intrinsic formulation exhibits improved discrimination ability over its Euclidean counterpart, which we demonstrate for predictive validity on assessing risks of total knee replacement. This result highlights the potential of the geodesic B-score to enable improved personalized assessment and stratification for interventions.
翻訳日:2023-04-08 08:23:51 公開日:2021-03-12
# 量子カスケードレーザーの点火におけるカオス挙動

Chaotic Behavior of Quantum Cascade Lasers at Ignition ( http://arxiv.org/abs/2103.08337v1 )

ライセンス: Link先を確認
D. E. \"Onder, A. A. S. Kalaee, D. O. Winge, and A. Wacker(参考訳) 量子カスケードレーザーの点火は、fie ld領域の振動状態から生じる。 ここで、発振と進行するdom ain境界の運動の相互作用は複雑な振動シナリオをもたらす。 テラヘルツ周波数で動作する装置の数値解析を行い, 正のリアプノフ指数によるカオス進化を示す。 これは、これらのインポート型tデバイスが周期的な駆動なしにもカオス的な挙動を示すことを示し、その設計にsを考慮に入れる必要があることを示している。

The ignition of Quantum Cascade Lasers can occur from a state of oscillating fie ld domains. Here, the interplay between lasing and the kinetics of traveling dom ain boundaries provides complex oscillation scenarios. We analyze our numerical findings in detail for a device operating at terahertz frequencies and manifest chaotic evolution by positive Lyapunov exponents. This shows that these importan t devices can exhibit chaotic behavior even without periodic driving, which need s to be taken into account in their design.
翻訳日:2023-04-08 08:23:39 公開日:2021-03-12
# 服装ベースにおけるjaynes-cummings相互作用の正確な$k$-body表現:光を用いた多体現象の考察

Exact $k$-body representation of the Jaynes-Cummings interaction in the dressed basis: Insight into many-body phenomena with light ( http://arxiv.org/abs/2103.07571v1 )

ライセンス: Link先を確認
Kevin C. Smith, Aniruddha Bhattacharya, David J. Masiello(参考訳) アナログ量子シミュレーション - 実験的によく制御された物理系を使って別の振る舞いを模倣する手法 - は、強相関量子多体系の研究に最も有望な近距離戦略の1つとして急速に現れている。 特に、固体キャビティや回路qedフレームワークで実現可能な相互作用する光子系は、局所的に光子を生成して破壊する能力があるため、非平衡多体現象の研究に多大な期待を持っている。 これらのシステムは通常、Bose-Hubbard (BH)モデルと類似性から命名されたJaynes-Cummings-Hubbard (JCH) Hamiltonianを用いてモデル化される。 ここでは、jcハミルトニアンを着飾った作用素表現に変換する非摂動的手順を示し、最も一般的な形式では、ボソニックの$k$-体項の無限和を認め、ここでは$k$ は系の励起数によってのみ束縛される。 我々は、この結果が分散結合と共振結合の双方でよく調べ、前者の急速な収束と後者の$k\gg1$からの貢献を見出した。 2サイトJCHシステムの拡張を通じて、本手法はJCHモデルとBHモデル間の類似点の綿密な検査と、共振光-マター結合の分解を促進することを実証する。 最後に、本フレームワークを用いて、一般的なシステムパラメータに対する2サイトJCHの多体特性を調査し、4つのユニークな量子位相とそれらが実現されるパラメータ状態を特定し、BHモデルを超えた有限のJCHベースの量子シミュレータで実現可能な現象を強調する。 より広範に、この研究はJC型系の基盤となるボソニック多体相互作用の明確な数学的表現として機能することを目的としており、ケーラー型非線形感受性の類似や、適切な固有値スペクトルを得るための一致係数によってしばしば仮定される。

Analog quantum simulation - the technique of using one experimentally well-controlled physical system to mimic the behavior of another - has quickly emerged as one of the most promising near term strategies for studying strongly correlated quantum many-body systems. In particular, systems of interacting photons, realizable in solid-state cavity and circuit QED frameworks, for example, hold tremendous promise for the study of nonequilibrium many-body phenomena due to the capability to locally create and destroy photons. These systems are typically modeled using a Jaynes-Cummings-Hubbard (JCH) Hamiltonian, named due to similarities with the Bose-Hubbard (BH) model. Here, we present a non-perturbative procedure for transforming the JC Hamiltonian into a dressed operator representation that, in its most general form, admits an infinite sum of bosonic $k$-body terms where $k$ is bound only by the number of excitations in the system. We closely examine this result in both the dispersive and resonant coupling regimes, finding rapid convergence in the former and contributions from $k\gg1$ in the latter. Through extension to a two-site JCH system, we demonstrate that this approach facilitates close inspection of the analogy between the JCH and BH models and its breakdown for resonant light-matter coupling. Finally, we use this framework to survey the many-body character of a two-site JCH for general system parameters, identifying four unique quantum phases and the parameter regimes in which they are realized, thus highlighting phenomena realizable with finite JCH-based quantum simulators beyond the BH model. More broadly, this work is intended to serve as a clear mathematical exposition of bosonic many-body interactions underlying JC-type systems, often postulated through analogy to Kerr-like nonlinear susceptibilities or by matching coefficients to obtain the appropriate eigenvalue spectrum.
翻訳日:2023-04-08 08:23:31 公開日:2021-03-12
# eQE 2.0: GGA機能を超えたサブシステムDFT

eQE 2.0: Subsystem DFT Beyond GGA Functionals ( http://arxiv.org/abs/2103.07556v1 )

ライセンス: Link先を確認
Wenhui Mi, Xuecheng Shao, Alessandro Genova, Davide Ceresoli, Michele Pavanello(参考訳) 分割・分散戦略を採用することで、サブシステムDFT(sDFT)は大規模電子構造計算の計算コストを劇的に削減することができる。 sDFTの重要な要素は、非付加的な運動エネルギーと、その精度を支配する交換相関関数である。 半局所非加法的汎函数は幅広い応用を見出すことができるが、その精度は特に一方の交換-相関相互作用と他方の非加法的運動エネルギーのバランスが達成されるような系ではある程度制限されている。 eqe 2.0では,(1)lmgpファミリーに基づく非局所非加法的運動エネルギー汎関数の実装,(2)量子エスプレッソによるrvv10およびvdw-df非局所交換相関関数の実装をsdftシミュレーションに適用すること,(3)「脱軌道化」メタgga関数(例えばscan-l)を実装することで,sdftシミュレーションの精度を劇的に向上する。 S22-5テストセットで新たに実装したツールの性能を慎重に評価する。 eQE 2.0 は従来のコーンシャム DFT や CCSD(T) と比較して優れた相互作用エネルギーを提供する。 改善された性能は、計算効率を損なうことはない。 非局所非付加関数を持つeQE 2.0は、半局所非付加関数を持つeQE 1.0で達成されたのと同じ線形スケーリング挙動を保っていることを示す。

By adopting a divide-and-conquer strategy, subsystem-DFT (sDFT) can dramatically reduce the computational cost of large-scale electronic structure calculations. The key ingredients of sDFT are the nonadditive kinetic energy and exchange-correlation functionals which dominate it's accuracy. Even though, semilocal nonadditive functionals find a broad range of applications, their accuracy is somewhat limited especially for those systems where achieving balance between exchange-correlation interactions on one side and nonadditive kinetic energy on the other is crucial. In eQE 2.0, we improve dramatically the accuracy of sDFT simulations by (1) implementing nonlocal nonadditive kinetic energy functionals based on the LMGP family of functionals; (2) adapting Quantum ESPRESSO's implementation of rVV10 and vdW-DF nonlocal exchange-correlation functionals to be employed in sDFT simulations; (3) implementing "deorbitalized" meta GGA functionals (e.g., SCAN-L). We carefully assess the performance of the newly implemented tools on the S22-5 test set. eQE 2.0 delivers excellent interaction energies compared to conventional Kohn-Sham DFT and CCSD(T). The improved performance does not come at a loss of computational efficiency. We show that eQE 2.0 with nonlocal nonadditive functionals retains the same linear scaling behavior achieved in eQE 1.0 with semilocal nonadditive functionals.
翻訳日:2023-04-08 08:22:54 公開日:2021-03-12
# デランドマイズ法によるパウリ観測値の効率的な推定

Efficient estimation of Pauli observables by derandomization ( http://arxiv.org/abs/2103.07510v1 )

ライセンス: Link先を確認
Hsin-Yuan Huang, Richard Kueng, John Preskill(参考訳) 我々は,変分量子アルゴリズムにおいて重要なサブルーチンである多くのpauliオブザーバブルの期待値を共同で推定する問題を考える。 ランダム化測定から始めて,ランダムな単一量子ビット計測を固定されたパウリ計測に反復的に置き換える効率的な非ランダム化手法を提案する。 特に、任意の l$ 低重量のpauli observables を推定するために、量子状態のコピーである $\log(l)$ だけの決定論的測定を行う。 例えば、ポーリの観測器のいくつかが重量が高い場合、ランダム化された手順はランダム化された手順よりもかなり良い。 特に, 数値実験では, 小分子の基底状態エネルギーを推定する様々な手法に対して, 分散プロトコルの利点を浮き彫りにした。

We consider the problem of jointly estimating expectation values of many Pauli observables, a crucial subroutine in variational quantum algorithms. Starting with randomized measurements, we propose an efficient derandomization procedure that iteratively replaces random single-qubit measurements with fixed Pauli measurements; the resulting deterministic measurement procedure is guaranteed to perform at least as well as the randomized one. In particular, for estimating any $L$ low-weight Pauli observables, a deterministic measurement on only of order $\log(L)$ copies of a quantum state suffices. In some cases, for example when some of the Pauli observables have a high weight, the derandomized procedure is substantially better than the randomized one. Specifically, numerical experiments highlight the advantages of our derandomized protocol over various previous methods for estimating the ground-state energies of small molecules.
翻訳日:2023-04-08 08:22:11 公開日:2021-03-12
# 周期駆動量子系の流れ再正規化と創発的予熱レジーム

Flow Renormalization and Emergent Prethermal Regimes of Periodically-Driven Quantum Systems ( http://arxiv.org/abs/2103.07485v1 )

ライセンス: Link先を確認
Martin Claassen(参考訳) 本研究では, 周期駆動型量子系の流れ再正規化手法を開発し, 実時間と流れ時間との直接対応を通して, 予熱力学系と関連する時間スケールを明らかにする。 この形式論において、力学問題は、熱フロケ・ハミルトニアンを長時間に表す魅力的な固定点に向かって流れる理論のカップリング定数の観点から再キャストされるが、中間時間において異なる前熱状態を決定する一連の不安定な固定点を狭く回避する。 加熱・熱化の開始を誘発する関連する摂動のクラスについて検討し, 再正規化フローが行列積演算子のフローにおいてエレガントな表現を持つことを示す。 本研究により, 熱力学的限界において, 異なる動的状態の出現を直接効率的に計算し, 駆動非平衡系の新しい計算ツールを構築した。

We develop a flow renormalization approach for periodically-driven quantum systems, which reveals prethermal dynamical regimes and associated timescales via direct correspondence between real time and flow time behavior. In this formalism, the dynamical problem is recast in terms of coupling constants of the theory flowing towards an attractive fixed point that represents the thermal Floquet Hamiltonian at long times, while narrowly avoiding a series of unstable fixed points which determine distinct prethermal regimes at intermediate times. We study a class of relevant perturbations that trigger the onset of heating and thermalization, and demonstrate that the renormalization flow has an elegant representation in terms of a flow of matrix product operators. Our results permit microscopic calculations of the emergence of distinct dynamical regimes directly in the thermodynamic limit in an efficient manner, establishing a new computational tool for driven non-equilibrium systems.
翻訳日:2023-04-08 08:21:54 公開日:2021-03-12
# ショー、リコール、およびTell:リコール機構による画像キャプション

Show, Recall, and Tell: Image Captioning with Recall Mechanism ( http://arxiv.org/abs/2001.05876v3 )

ライセンス: Link先を確認
Li Wang, Zechen Bai, Yonghua Zhang, Hongtao Lu(参考訳) 画像キャプションにおいて、自然かつ正確な記述を生成することは、常に困難である。 本稿では,人間のコンダクトキャプションを模倣する新しいリコール機構を提案する。 リコール単位(recall unit)、セマンティックガイド(SG)、リコールワードスロット(recalled-wordslot)の3つの部分がある。 recall unitは、画像のリコールワードを取得するために設計されたテキストリトライモジュールである。 SGとRWSは、リコールされた単語のベストプラクティスのためにデサインされる。 SGブランチはリコールされたコンテキストを生成でき、キャプションの生成プロセスを導くことができる。 RWSブランチは、リコールされた単語をキャプションにコピーする責任がある。 テキスト要約におけるmecha-nismの指摘に触発されて,sgとrwsの単語生成確率のバランスをとるソフトスイッチを採用した。 CIDEr最適化のステップでは、トレーニングを促進するために個別の単語報酬(WR)も導入する。 提案手法(sg+rws+wr)はクロスエントロピー損失36.6 / 116.9 / 21.3のbleu-4 / cider / spicescoresをmscoco karpathytestスプリットで38.7 / 129.1 / 22.4で実現する。

Generating natural and accurate descriptions in image cap-tioning has always been a challenge. In this paper, we pro-pose a novel recall mechanism to imitate the way human con-duct captioning. There are three parts in our recall mecha-nism : recall unit, semantic guide (SG) and recalled-wordslot (RWS). Recall unit is a text-retrieval module designedto retrieve recalled words for images. SG and RWS are de-signed for the best use of recalled words. SG branch cangenerate a recalled context, which can guide the process ofgenerating caption. RWS branch is responsible for copyingrecalled words to the caption. Inspired by pointing mecha-nism in text summarization, we adopt a soft switch to balancethe generated-word probabilities between SG and RWS. Inthe CIDEr optimization step, we also introduce an individualrecalled-word reward (WR) to boost training. Our proposedmethods (SG+RWS+WR) achieve BLEU-4 / CIDEr / SPICEscores of 36.6 / 116.9 / 21.3 with cross-entropy loss and 38.7 /129.1 / 22.4 with CIDEr optimization on MSCOCO Karpathytest split, which surpass the results of other state-of-the-artmethods.
翻訳日:2023-01-11 05:40:16 公開日:2021-03-12
# デジタル量子シミュレーションのための用語群と旅行販売者

Term Grouping and Travelling Salesperson for Digital Quantum Simulation ( http://arxiv.org/abs/2001.05983v3 )

ライセンス: Link先を確認
Kaiwen Gui, Teague Tomesh, Pranav Gokhale, Yunong Shi, Frederic T. Chong, Margaret Martonosi, Martin Suchara(参考訳) ハミルトニアンの時間発展の評価による量子力学のデジタルシミュレーションは、量子コンピューティングの最初に提案された応用である。 しかし、ハミルトニアンの完全な第2量子化形式をエミュレートするために必要な多数の量子ゲートは、そのようなアプローチは、高い物理誤差を引き起こす限られたゲート忠実性を持つ近距離デバイスには適さない。 さらに、非可換項によるトロッター誤差は、全体の回路忠実度を蓄積し、損傷し、アルゴリズムエラーを引き起こす。 本稿では,アルゴリズムと物理の誤りを同時に軽減する新しい項順序付け戦略であるmax-commute-tsp(MCTSP)を提案する。 まず,前述した最適化に比べてトローターの忠実性が向上し,パウリ項を再順序付けし,可換族に分割した。 本研究では,分子ハミルトニアンをシミュレートする量子回路を構築し,評価することにより,本手法の実用性を実証すると共に,項群法からの忠実度向上の理論的説明を行う。 第2に,ゲートキャンセル問題をトラベリングセールスマン問題として,ベンチマーク実験とともに定式化し,ゲート数を削減する新しいゲートキャンセル手法について述べる。 最後に,現実的な雑音モデル下での量子回路シミュレーションにより,物理およびアルゴリズムの誤差を軽減するために,最大計算tspの利点を併用したベンチマーク結果も提供する。

Digital simulation of quantum dynamics by evaluating the time evolution of a Hamiltonian is the initially proposed application of quantum computing. The large number of quantum gates required for emulating the complete second quantization form of the Hamiltonian, however, makes such an approach unsuitable for near-term devices with limited gate fidelities that cause high physical errors. In addition, Trotter error caused by noncommuting terms can accumulate and harm the overall circuit fidelity, thus causing algorithmic errors. In this paper, we propose a new term ordering strategy, max-commute-tsp (MCTSP), that simultaneously mitigates both algorithmic and physical errors. First, we improve the Trotter fidelity compared with previously proposed optimization by reordering Pauli terms and partitioning them into commuting families. We demonstrate the practicality of this method by constructing and evaluating quantum circuits that simulate different molecular Hamiltonians, together with theoretical explanations for the fidelity improvements from our term grouping method. Second, we describe a new gate cancellation technique that reduces the high gate counts by formulating the gate cancellation problem as a travelling salesperson problem, together with benchmarking experiments. Finally, we also provide benchmarking results that demonstrate the combined advantage of max-commute-tsp to mitigate both physical and algorithmic errors via quantum circuit simulation under realistic noise models.
翻訳日:2023-01-11 00:39:34 公開日:2021-03-12
# ランダム化平滑化の隠れコスト

Hidden Cost of Randomized Smoothing ( http://arxiv.org/abs/2003.01249v2 )

ライセンス: Link先を確認
Jeet Mohapatra, Ching-Yun Ko, Tsui-Wei (Lily) Weng, Sijia Liu, Pin-Yu Chen, Luca Daniel(参考訳) 現代の機械学習モデルの脆弱さは、アカデミアと大衆の両方からかなりの注目を集めている。 ニューラルネットワークのロバスト性を測定する手段としての敵攻撃の開発や、保証付き最悪の分析ロバスト性検証の考案など、大きな関心を持っていたが、スケーラビリティとロバスト性保証の両方を同時に享受できる方法はほとんどなかった。 これらの試みの代替として、ランダム化平滑化は、統計ロバスト性引数を許容する別の予測規則を採用しており、大規模なネットワークに容易に拡張できる。 しかし,本稿では,現在のランダム化平滑化ワークフローの副作用を指摘する。 具体的には,2つの主要な点を明確にし,証明する。 1) 平滑化分類器の決定境界は縮小し, クラス単位での精度の差が生じる。 2) 学習過程における雑音増強の適用は, 学習目標の不整合による縮小問題を必ずしも解決しない。

The fragility of modern machine learning models has drawn a considerable amount of attention from both academia and the public. While immense interests were in either crafting adversarial attacks as a way to measure the robustness of neural networks or devising worst-case analytical robustness verification with guarantees, few methods could enjoy both scalability and robustness guarantees at the same time. As an alternative to these attempts, randomized smoothing adopts a different prediction rule that enables statistical robustness arguments which easily scale to large networks. However, in this paper, we point out the side effects of current randomized smoothing workflows. Specifically, we articulate and prove two major points: 1) the decision boundaries of smoothed classifiers will shrink, resulting in disparity in class-wise accuracy; 2) applying noise augmentation in the training process does not necessarily resolve the shrinking issue due to the inconsistent learning objectives.
翻訳日:2022-12-27 04:41:23 公開日:2021-03-12
# 地域保存損失:隣人が一緒に暮らし、一緒に暮らしている

Locality Preserving Loss: Neighbors that Live together, Align together ( http://arxiv.org/abs/2004.03734v2 )

ライセンス: Link先を確認
Ashwinkumar Ganesan, Francis Ferraro, Tim Oates(参考訳) 非相関表現を分離しながらベクトル空間埋め込み間のアライメントを改善する局所性保存損失(lpl)を提案する。 2つの事前訓練された埋め込み多様体が与えられたとき、LPLはモデルを最適化して埋め込みを投影し、ある多様体を別の多様体に整列させながらその局所近傍を維持する。 これにより、言語間単語アライメントなどのタスクで2つを整列させるために必要なデータセット全体のサイズが削減される。 入力ベクトル空間間のlplに基づくアライメントがレギュラライザとして作用し、特にトレーニングセットのサイズが小さい場合には、ベースラインよりも精度が良く一貫性があることを示す。 我々は,LPL最適化による意味的テキスト類似性(STS),自然言語推論(SNLI),多言語推論(MNLI),言語間単語アライメント(CLA)に対するアライメントの有効性を示した。

We present a locality preserving loss (LPL) that improves the alignment between vector space embeddings while separating uncorrelated representations. Given two pretrained embedding manifolds, LPL optimizes a model to project an embedding and maintain its local neighborhood while aligning one manifold to another. This reduces the overall size of the dataset required to align the two in tasks such as cross-lingual word alignment. We show that the LPL-based alignment between input vector spaces acts as a regularizer, leading to better and consistent accuracy than the baseline, especially when the size of the training set is small. We demonstrate the effectiveness of LPL optimized alignment on semantic text similarity (STS), natural language inference (SNLI), multi-genre language inference (MNLI) and cross-lingual word alignment(CLA) showing consistent improvements, finding up to 16% improvement over our baseline in lower resource settings.
翻訳日:2022-12-15 22:36:21 公開日:2021-03-12
# 大規模倉庫における生涯マルチエージェントパス

Lifelong Multi-Agent Path Finding in Large-Scale Warehouses ( http://arxiv.org/abs/2005.07371v2 )

ライセンス: Link先を確認
Jiaoyang Li, Andrew Tinka, Scott Kiesel, Joseph W. Durham, T. K. Satish Kumar and Sven Koenig(参考訳) MAPF(Multi-Agent Path Finding)は、エージェントのチームが衝突することなく目標地点に移動する問題である。 本稿では,大規模自動倉庫などにおいて,エージェントが常に新たな目標地点で作業を行うMAPFの寿命変動について検討する。 本稿では,この問題を窓付きmapfインスタンスの列に分解し,窓付きmapfソルバがエージェントの経路間の衝突を境界時間軸内でのみ解決し,それを超える衝突を無視する,生涯的mapf問題を解決するための新たなフレームワークであるローリング・ホライゾン衝突解決(rhcr)を提案する。 RHCRは、新しいゴール地点に継続的に到着する計画を作成するのに特に適している。 我々は,様々なmapfソルバを用いてrhcrを実証的に評価し,シミュレーションした倉庫インスタンスに対して,最大1,000エージェント(=38.9\%の空セル)に対して高品質なソリューションを作成できることを示した。

Multi-Agent Path Finding (MAPF) is the problem of moving a team of agents to their goal locations without collisions. In this paper, we study the lifelong variant of MAPF, where agents are constantly engaged with new goal locations, such as in large-scale automated warehouses. We propose a new framework Rolling-Horizon Collision Resolution (RHCR) for solving lifelong MAPF by decomposing the problem into a sequence of Windowed MAPF instances, where a Windowed MAPF solver resolves collisions among the paths of the agents only within a bounded time horizon and ignores collisions beyond it. RHCR is particularly well suited to generating pliable plans that adapt to continually arriving new goal locations. We empirically evaluate RHCR with a variety of MAPF solvers and show that it can produce high-quality solutions for up to 1,000 agents (= 38.9\% of the empty cells on the map) for simulated warehouse instances, significantly outperforming existing work.
翻訳日:2022-12-02 23:37:04 公開日:2021-03-12
# ネットワーク曲げ:深い生成モデルの表現的操作

Network Bending: Expressive Manipulation of Deep Generative Models ( http://arxiv.org/abs/2005.12420v2 )

ライセンス: Link先を確認
Terence Broad, Frederic Fol Leymarie, Mick Grierson(参考訳) 本稿では,ネットワーク曲げと呼ばれる深層生成モデルを操作するための新しいフレームワークを提案する。 本稿では,訓練された生成ニューラルネットワークの計算グラフに異なる層として挿入し,推論中に適用できる決定論的変換の包括的集合を提案する。 さらに,その空間活性化マップに基づいて,深層生成モデルとクラスタリング特徴を解析するための新しいアルゴリズムを提案する。 これにより、教師なしの方法で空間的類似性に基づいて特徴をまとめることができる。 これにより、生成された画像の意味的に重要な特徴の幅広い配列の生成に対応する特徴の集合を有意義に操作できる。 我々はこのフレームワークを概説し、いくつかの画像データセットでトレーニングされた最先端の深層生成モデルについて結果を示す。 生成過程において意味論的に意味のある側面を直接操作できるだけでなく、幅広い表現的な結果を得ることができるかを示す。

We introduce a new framework for manipulating and interacting with deep generative models that we call network bending. We present a comprehensive set of deterministic transformations that can be inserted as distinct layers into the computational graph of a trained generative neural network and applied during inference. In addition, we present a novel algorithm for analysing the deep generative model and clustering features based on their spatial activation maps. This allows features to be grouped together based on spatial similarity in an unsupervised fashion. This results in the meaningful manipulation of sets of features that correspond to the generation of a broad array of semantically significant features of the generated images. We outline this framework, demonstrating our results on state-of-the-art deep generative models trained on several image datasets. We show how it allows for the direct manipulation of semantically meaningful aspects of the generative process as well as allowing for a broad range of expressive outcomes.
翻訳日:2022-11-29 05:28:28 公開日:2021-03-12
# Nimble: モデル推論のための動的ニューラルネットワークの効率的なコンパイル

Nimble: Efficiently Compiling Dynamic Neural Networks for Model Inference ( http://arxiv.org/abs/2006.03031v2 )

ライセンス: Link先を確認
Haichen Shen, Jared Roesch, Zhi Chen, Wei Chen, Yong Wu, Mu Li, Vin Sharma, Zachary Tatlock, Yida Wang(参考訳) 現代のディープニューラルネットワークは、動的制御フロー、データ構造、動的テンソル形状などの特徴をますます活用している。 既存のディープラーニングシステムは、事前決定されたモデルアーキテクチャと入力データ形状を前提とした静的ニューラルネットワークの最適化と実行にフォーカスしている。 したがって、ディープラーニングシステムで動的モデルを実行することは、不可能ではないにせよ、現時点では柔軟性と準最適である。 動的ニューラルネットワークの最適化は静的ニューラルネットワークよりも難しい。 本稿では,複数のプラットフォーム上で動的ニューラルネットワークを最適化,コンパイル,実行するための高性能でフレキシブルなシステムであるnimbleを提案する。 nimbleは動的型システム、ダイナミズム指向最適化のセット、軽量仮想マシンランタイムを導入することで、モデルダイナミズムを処理する。 我々の評価では、Ninmbleは、Intel CPU、ARM CPU、Nvidia GPUを含むハードウェアプラットフォーム上で、動的ニューラルネットワークのための最先端のディープラーニングフレームワークとランタイムシステムよりも最大20倍の性能を発揮している。

Modern deep neural networks increasingly make use of features such as dynamic control flow, data structures and dynamic tensor shapes. Existing deep learning systems focus on optimizing and executing static neural networks which assume a pre-determined model architecture and input data shapes--assumptions which are violated by dynamic neural networks. Therefore, executing dynamic models with deep learning systems is currently both inflexible and sub-optimal, if not impossible. Optimizing dynamic neural networks is more challenging than static neural networks; optimizations must consider all possible execution paths and tensor shapes. This paper proposes Nimble, a high-performance and flexible system to optimize, compile, and execute dynamic neural networks on multiple platforms. Nimble handles model dynamism by introducing a dynamic type system, a set of dynamism-oriented optimizations, and a light-weight virtual machine runtime. Our evaluation demonstrates that Nimble outperforms state-of-the-art deep learning frameworks and runtime systems for dynamic neural networks by up to 20x on hardware platforms including Intel CPUs, ARM CPUs, and Nvidia GPUs.
翻訳日:2022-11-25 12:49:06 公開日:2021-03-12
# 大規模スマートフォンデータに対するフェデレーション学習における不均一性の影響

Characterizing Impacts of Heterogeneity in Federated Learning upon Large-Scale Smartphone Data ( http://arxiv.org/abs/2006.06983v4 )

ライセンス: Link先を確認
Chengxu Yang, Qipeng Wang, Mengwei Xu, Zhenpeng Chen, Kaigui Bian, Yunxin Liu, Xuanzhe Liu(参考訳) フェデレーテッド・ラーニング(FL)は、新しいプライバシー保護機械学習パラダイムであり、アカデミックと業界の両方で大きな注目を集めている。 FLのユニークな特徴は異質性であり、様々なハードウェア仕様と参加するデバイス全体の動的状態に存在する。 理論的には、不均一性はFLトレーニングプロセスに大きな影響を与える可能性がある。 残念ながら、これらの影響は既存のFL文献で体系的に研究され、定量化されることはなかった。 本稿では,flにおける不均一性の影響を特徴付ける最初の実験研究を行う。 現実世界の環境で不均一性を忠実に反映できる136kのスマートフォンから大規模なデータを収集する。 また、標準FLプロトコルに準拠するが不均一性を考慮したFLプラットフォームを構築する。 データとプラットフォームに基づいて、異種性認識および異種性認識設定下での最先端のFLアルゴリズムの性能を比較するための広範な実験を行う。 その結果,不均一性がflの非自明な性能低下を引き起こし,最大9.2%の精度低下,2.32倍のトレーニング時間,不公平さがみられた。 さらに、潜在的な影響要因を分析し、デバイス故障と受動バイアスが性能劣化の2つの要因であることを示す。 本研究は,fl実践者に対する洞察に富む示唆を与える。 一方, FLアルゴリズムの設計者は, 評価において必要な不均一性を考慮している。 一方,システムプロバイダは,異種性の影響を軽減するための特定のメカニズムを設計する必要がある。

Federated learning (FL) is an emerging, privacy-preserving machine learning paradigm, drawing tremendous attention in both academia and industry. A unique characteristic of FL is heterogeneity, which resides in the various hardware specifications and dynamic states across the participating devices. Theoretically, heterogeneity can exert a huge influence on the FL training process, e.g., causing a device unavailable for training or unable to upload its model updates. Unfortunately, these impacts have never been systematically studied and quantified in existing FL literature. In this paper, we carry out the first empirical study to characterize the impacts of heterogeneity in FL. We collect large-scale data from 136k smartphones that can faithfully reflect heterogeneity in real-world settings. We also build a heterogeneity-aware FL platform that complies with the standard FL protocol but with heterogeneity in consideration. Based on the data and the platform, we conduct extensive experiments to compare the performance of state-of-the-art FL algorithms under heterogeneity-aware and heterogeneity-unaware settings. Results show that heterogeneity causes non-trivial performance degradation in FL, including up to 9.2% accuracy drop, 2.32x lengthened training time, and undermined fairness. Furthermore, we analyze potential impact factors and find that device failure and participant bias are two potential factors for performance degradation. Our study provides insightful implications for FL practitioners. On the one hand, our findings suggest that FL algorithm designers consider necessary heterogeneity during the evaluation. On the other hand, our findings urge system providers to design specific mechanisms to mitigate the impacts of heterogeneity.
翻訳日:2022-11-22 03:35:20 公開日:2021-03-12
# 任意条件流による動的特徴獲得

Dynamic Feature Acquisition with Arbitrary Conditional Flows ( http://arxiv.org/abs/2006.07701v2 )

ライセンス: Link先を確認
Yang Li and Junier B. Oliva(参考訳) 多くの実世界の状況では、限定的または不確実なデータで評価を行う際に追加の関連情報を取得することができる。 しかし、従来のMLアプローチでは、事前に取得するすべての機能を必要とするか、あるいは取得できないデータの欠如と見なすかのどちらかである。 本研究では,新機能を動的に獲得し,予測評価をさらに改善するモデルを提案する。 買収コストと引き換えに,情報理論の指標,条件付き相互情報を活用し,獲得すべき最も情報性の高い特徴を選択する。 生成モデルである任意条件フロー(acflow)を利用して,情報メトリクスの推定に必要な任意の条件分布を学習する。 また、買収プロセスを加速するためにベイズネットワークも学んでいます。 複数の設定で評価されたベースラインよりも優れた性能を示す。

Many real-world situations allow for the acquisition of additional relevant information when making an assessment with limited or uncertain data. However, traditional ML approaches either require all features to be acquired beforehand or regard part of them as missing data that cannot be acquired. In this work, we propose models that dynamically acquire new features to further improve the prediction assessment. To trade off the improvement with the cost of acquisition, we leverage an information theoretic metric, conditional mutual information, to select the most informative feature to acquire. We leverage a generative model, arbitrary conditional flow (ACFlow), to learn the arbitrary conditional distributions required for estimating the information metric. We also learn a Bayesian network to accelerate the acquisition process. Our model demonstrates superior performance over baselines evaluated in multiple settings.
翻訳日:2022-11-21 20:52:15 公開日:2021-03-12
# 支配または削除:シリアルディクタトリーにおける分散競合バンド

Dominate or Delete: Decentralized Competing Bandits in Serial Dictatorship ( http://arxiv.org/abs/2006.15166v2 )

ライセンス: Link先を確認
Abishek Sankararaman, Soumya Basu, Karthik Abinav Sankararaman(参考訳) オンライン学習は、需要側のエージェントがサプライサイド(arms)と継続的に競合し、マッチングプラットフォーム(例えばupwork、taskrabbit)上の部分的な情報の下で複雑なインタラクションを抽象化する、双方向マッチング市場でのオンライン学習である。 本研究では,需要側エージェントが供給側(アーム)に対して未知で不均質な評価をしており,需要側(エイジェント)に対して武器が均一な選好を把握している二面的市場である分散型連続独裁制について検討する。 最初の分散アルゴリズム -- ucb with decentralized dominant-arm deletion (ucb-d3) をエージェント向けに設計する。 UCB-D3 は段階的に機能し、各段階においてエージェントが上位のエージェントに好まれる腕である \emph{dominated arms} を削除する。 フェーズの終わりに、エージェントは分散した方法で放送され、その推定された腕は『em pure exploitation』を通じて好まれる。 本稿では, 分散化直列独裁モデルに対する新たな後悔の低減と, UCB-D3 が最適であることを示す。

Online learning in a two-sided matching market, with demand side agents continuously competing to be matched with supply side (arms), abstracts the complex interactions under partial information on matching platforms (e.g. UpWork, TaskRabbit). We study the decentralized serial dictatorship setting, a two-sided matching market where the demand side agents have unknown and heterogeneous valuation over the supply side (arms), while the arms have known uniform preference over the demand side (agents). We design the first decentralized algorithm -- UCB with Decentralized Dominant-arm Deletion (UCB-D3), for the agents, that does not require any knowledge of reward gaps or time horizon. UCB-D3 works in phases, where in each phase, agents delete \emph{dominated arms} -- the arms preferred by higher ranked agents, and play only from the non-dominated arms according to the UCB. At the end of the phase, agents broadcast in a decentralized fashion, their estimated preferred arms through {\em pure exploitation}. We prove both, a new regret lower bound for the decentralized serial dictatorship model, and that UCB-D3 is order optimal.
翻訳日:2022-11-16 21:29:51 公開日:2021-03-12
# 拡散インタフェース法と高速行列ベクトル積を用いた集合多層グラフの半教師付き学習

Semi-supervised Learning for Aggregated Multilayer Graphs Using Diffuse Interface Methods and Fast Matrix Vector Products ( http://arxiv.org/abs/2007.05239v3 )

ライセンス: Link先を確認
Kai Bergermann, Martin Stoll, Toni Volkmer(参考訳) 本研究では,多層グラフへの拡散インターフェース法に基づくグラフベース半教師付き分類手法を一般化する。 低次元多層グラフ表現において高次元データを解釈する非常にフレキシブルなアプローチを提案する。 対応する微分グラフ作用素のスペクトル分解と非等間隔高速フーリエ変換(nfft)に基づく高速行列ベクトル積を含む高効率な数値解法により、大規模かつ高次元のデータセットの迅速な処理が可能になる。 画像分割に特化しながら,様々な数値実験を行う。 特に,1層あたり最大1000万ノード,最大104次元のデータセット上で,この手法の性能をテストした結果,52層までのグラフが得られた。 全ての数値実験は平均的なラップトップコンピュータ上で行うことができるが、我々のアルゴリズムの全ての段階におけるネットワークサイズにおける実行時毎の線形依存は、より大規模で高次元的な問題にスケーラビリティをもたらす。

We generalize a graph-based multiclass semi-supervised classification technique based on diffuse interface methods to multilayer graphs. Besides the treatment of various applications with an inherent multilayer structure, we present a very flexible approach that interprets high-dimensional data in a low-dimensional multilayer graph representation. Highly efficient numerical methods involving the spectral decomposition of the corresponding differential graph operators as well as fast matrix-vector products based on the nonequispaced fast Fourier transform (NFFT) enable the rapid treatment of large and high-dimensional data sets. We perform various numerical tests putting a special focus on image segmentation. In particular, we test the performance of our method on data sets with up to 10 million nodes per layer as well as up to 104 dimensions resulting in graphs with up to 52 layers. While all presented numerical experiments can be run on an average laptop computer, the linear dependence per iteration step of the runtime on the network size in all stages of our algorithm makes it scalable to even larger and higher-dimensional problems.
翻訳日:2022-11-11 21:32:37 公開日:2021-03-12
# 最小時空間探索による物体追跡

Object Tracking by Least Spatiotemporal Searches ( http://arxiv.org/abs/2007.09288v2 )

ライセンス: Link先を確認
Zhiyong Yu, Lei Han, Chao Chen, Wenzhong Guo, Zhiwen Yu(参考訳) 車や人を追跡することは、都市の安全管理に不可欠である。 大規模なカメラ記録からの時空間探索を最小限にすれば,どうやってタスクを完了できるのか? 本稿では,IHMs (Intermediate Searching at Heuristic Moments) という戦略を提案する。各ステップごとに,ヒューリスティックな指標によってどのモーメントが検索に最適かを判断し,その瞬間に出現する確率の下位順に1つずつ探索する。 5つの探索戦略を実験で比較し、IHMが最も効率的であることが検証され、最大1/3のコストを節約できる。 この結果は「中間時点の探索はコストを節約できる」という証拠を提供する。

Tracking a car or a person in a city is crucial for urban safety management. How can we complete the task with minimal number of spatiotemporal searches from massive camera records? This paper proposes a strategy named IHMs (Intermediate Searching at Heuristic Moments): each step we figure out which moment is the best to search according to a heuristic indicator, then at that moment search locations one by one in descending order of predicted appearing probabilities, until a search hits; iterate this step until we get the object's current location. Five searching strategies are compared in experiments, and IHMs is validated to be most efficient, which can save up to 1/3 total costs. This result provides an evidence that "searching at intermediate moments can save cost".
翻訳日:2022-11-09 05:34:53 公開日:2021-03-12
# dreaming: 潜在想像力によるモデルベース強化学習

Dreaming: Model-based Reinforcement Learning by Latent Imagination without Reconstruction ( http://arxiv.org/abs/2007.14535v2 )

ライセンス: Link先を確認
Masashi Okada, Tadahiro Taniguchi(参考訳) 本稿では,画素からのモデルベース強化学習(MBRL)手法であるDreamerのデコーダフリー拡張を提案する。 Dreamerはロボット学習のサンプルで費用効率のよいソリューションであり、変分オートエンコーダに基づく潜在状態空間モデルのトレーニングや、潜時軌道想像力によるポリシー最適化に使用される。 しかし、このオートエンコーディングに基づくアプローチは、しばしばオブジェクトの消失を引き起こし、オートエンコーダは制御タスクを解決するために重要なオブジェクトを認識できないため、ドリーマーのポテンシャルは著しく制限される。 この作業は、デコーダを削除することによって、このDreamerのボトルネックを緩和し、パフォーマンスを高めることを目的としている。 この目的のために、我々はまず、ドリーマーの限界の低い証拠から、コントラスト学習の確率自由かつInfoMax目標を導出する。 第2に,2つのコンポーネントを組み込む。 (i)独立線形動力学及び (ii)トレーニング性能を向上させるために、学習スキームにランダムな作物データ拡張を加えること。 近年のDreamerや他のモデルレス強化学習手法と比較して、Dreamer with InfoMax and without generative decoder (Dreaming) は、Dreamerがオブジェクトの消滅に苦しむ5つの困難なロボットタスクにおいて、最高のスコアを得る。

In the present paper, we propose a decoder-free extension of Dreamer, a leading model-based reinforcement learning (MBRL) method from pixels. Dreamer is a sample- and cost-efficient solution to robot learning, as it is used to train latent state-space models based on a variational autoencoder and to conduct policy optimization by latent trajectory imagination. However, this autoencoding based approach often causes object vanishing, in which the autoencoder fails to perceives key objects for solving control tasks, and thus significantly limiting Dreamer's potential. This work aims to relieve this Dreamer's bottleneck and enhance its performance by means of removing the decoder. For this purpose, we firstly derive a likelihood-free and InfoMax objective of contrastive learning from the evidence lower bound of Dreamer. Secondly, we incorporate two components, (i) independent linear dynamics and (ii) the random crop data augmentation, to the learning scheme so as to improve the training performance. In comparison to Dreamer and other recent model-free reinforcement learning methods, our newly devised Dreamer with InfoMax and without generative decoder (Dreaming) achieves the best scores on 5 difficult simulated robotics tasks, in which Dreamer suffers from object vanishing.
翻訳日:2022-11-05 19:36:05 公開日:2021-03-12
# マルチレゾリューションインスタンス識別による形状解析のための教師なし3次元学習

Unsupervised 3D Learning for Shape Analysis via Multiresolution Instance Discrimination ( http://arxiv.org/abs/2008.01068v2 )

ライセンス: Link先を確認
Peng-Shuai Wang, Yu-Qi Yang, Qian-Fang Zou, Zhirong Wu, Yang Liu, Xin Tong(参考訳) 教師なしの特徴学習は、多くの分野においてデータラベリングやネットワーク設計の作業負荷を減らすという利点を示しているが、教師なしの3D学習手法は、教師付き手法と競合する性能を持つ様々な形状解析タスクのための汎用的なネットワークを提供することはできない。 本稿では,異なる形状解析タスクのための汎用的で効率的な形状符号化ネットワークを学習するための教師なし手法を提案する。 この手法の重要なアイデアは,ラベルのない3dポイントクラウドから形状と点の特徴を共同でエンコードし,学習することである。 そこで本研究では, hr-netをoctreeベースの畳み込みニューラルネットワークに適用し, 形状と点の特徴を融合マルチレゾリューションサブネットワークで符号化し, 形状と点の特徴を協調的に学習するために, 単純イット効率の高いマルチレゾリューションインスタンス識別 (mid) 損失を設計する。 私たちのネットワークは3Dポイントクラウドを入力として、形状と点の特徴の両方を出力します。 トレーニング後、ネットワークは単純なタスク固有のバックエンド層に結合され、異なる形状分析タスクのために微調整される。 提案手法の有効性と汎用性を評価し, 形状分類, 意味的形状分割, 形状登録タスクを含む一連の形状解析タスクを用いて, ネットワークと損失設計の有効性を評価する。 単純なバックエンドで、ネットワークは教師なしのメソッドの中で最高のパフォーマンスを示し、特にラベル付きデータセットを持つタスクにおいて教師付きメソッドとの競合性能を達成する。 きめ細かな形状のセグメンテーションでは,既存の教師あり手法を大きなマージンで超えている。

Although unsupervised feature learning has demonstrated its advantages to reducing the workload of data labeling and network design in many fields, existing unsupervised 3D learning methods still cannot offer a generic network for various shape analysis tasks with competitive performance to supervised methods. In this paper, we propose an unsupervised method for learning a generic and efficient shape encoding network for different shape analysis tasks. The key idea of our method is to jointly encode and learn shape and point features from unlabeled 3D point clouds. For this purpose, we adapt HR-Net to octree-based convolutional neural networks for jointly encoding shape and point features with fused multiresolution subnetworks and design a simple-yet-efficient Multiresolution Instance Discrimination (MID) loss for jointly learning the shape and point features. Our network takes a 3D point cloud as input and output both shape and point features. After training, the network is concatenated with simple task-specific back-end layers and fine-tuned for different shape analysis tasks. We evaluate the efficacy and generality of our method and validate our network and loss design with a set of shape analysis tasks, including shape classification, semantic shape segmentation, as well as shape registration tasks. With simple back-ends, our network demonstrates the best performance among all unsupervised methods and achieves competitive performance to supervised methods, especially in tasks with a small labeled dataset. For fine-grained shape segmentation, our method even surpasses existing supervised methods by a large margin.
翻訳日:2022-11-03 07:07:47 公開日:2021-03-12
# 希少事象が支配する変分対象に対するアクティブな重要度サンプリング:最適化と一般化のための結果

Active Importance Sampling for Variational Objectives Dominated by Rare Events: Consequences for Optimization and Generalization ( http://arxiv.org/abs/2008.06334v2 )

ライセンス: Link先を確認
Grant M. Rotskoff and Andrew R. Mitchell and Eric Vanden-Eijnden(参考訳) ディープニューラルネットワークは、十分なデータで最適化された場合、高次元関数の正確な表現を提供する。 その結果,多くの高次元サンプリングおよび近似問題が,機械学習のレンズを通して再検討されている。 非並列精度の約束は、複雑なシステムのパラメータ化表現を必要とするアプリケーションのルネサンスを示唆するかもしれないが、そのような表現を開発するのに十分なデータを集める多くのアプリケーションでは、依然として大きな課題である。 本稿では,レアイベントサンプリング手法とニューラルネットワーク最適化を組み合わせて,レアイベントに支配される目的関数を最適化する手法を提案する。 重要度サンプリングは学習問題に対する解の漸近的分散を減少させ,一般化の利点を示唆する。 本研究では,システムの2つの状態間の動的遷移経路を学習する文脈において,統計物理学における応用問題と機械学習理論における意味について検討する。 数値実験により,高次元データと希少データの複合的難易度によっても良好な学習が可能となった。

Deep neural networks, when optimized with sufficient data, provide accurate representations of high-dimensional functions; in contrast, function approximation techniques that have predominated in scientific computing do not scale well with dimensionality. As a result, many high-dimensional sampling and approximation problems once thought intractable are being revisited through the lens of machine learning. While the promise of unparalleled accuracy may suggest a renaissance for applications that require parameterizing representations of complex systems, in many applications gathering sufficient data to develop such a representation remains a significant challenge. Here we introduce an approach that combines rare events sampling techniques with neural network optimization to optimize objective functions that are dominated by rare events. We show that importance sampling reduces the asymptotic variance of the solution to a learning problem, suggesting benefits for generalization. We study our algorithm in the context of learning dynamical transition pathways between two states of a system, a problem with applications in statistical physics and implications in machine learning theory. Our numerical experiments demonstrate that we can successfully learn even with the compounding difficulties of high-dimension and rare data.
翻訳日:2022-10-31 12:31:04 公開日:2021-03-12
# 単一光子画像分類

Single-Photon Image Classification ( http://arxiv.org/abs/2008.05859v2 )

ライセンス: Link先を確認
Thomas Fischbacher and Luciano Sbaiz(参考訳) 量子コンピューティングベースの機械学習は主に、極低温で動作する量子ゲートを必要とするため、実験的に実現が難しい量子コンピューティングハードウェアに焦点を当てている。 代わりに、室温光学で実験的にアクセス可能な精度-vs-qubitsグラフ上に、より低い性能とはるかに低い労力島の存在を実証する。 この高温の「量子コンピューティング玩具モデル」は、量子コンピューティングにおける重要な概念、特に干渉、絡み合い、測定プロセスについて、よりアクセスしやすい説明を可能にするため、研究は興味深い。 mnist と fashion-mnist のデータセットから例を分類する問題を特に検討し,例を示すコヒーレントに照らされたフィルタを通過した第1光子の検出後に予測しなければならないという制約について検討した。 28\times 28$の画像ピクセルの1つに落下した後に光子が検出される古典的なセットアップは、mnistが21.27\%、ファッションmnistが18.27\%、ファッションmnistが18.27\%の精度に制限されているが、光子の量子状態の光学的変換による推論を利用する場合の理論的に達成可能な精度はmnistが少なくとも41.27\%、ファッションmnistが36.14\%である。 我々は、TensorFlowで対応する変換をトレーニングする方法を詳しく説明するとともに、この例が量子力学における測定プロセスの教材となる方法を説明する。

Quantum computing-based machine learning mainly focuses on quantum computing hardware that is experimentally challenging to realize due to requiring quantum gates that operate at very low temperature. Instead, we demonstrate the existence of a lower performance and much lower effort island on the accuracy-vs-qubits graph that may well be experimentally accessible with room temperature optics. This high temperature "quantum computing toy model" is nevertheless interesting to study as it allows rather accessible explanations of key concepts in quantum computing, in particular interference, entanglement, and the measurement process. We specifically study the problem of classifying an example from the MNIST and Fashion-MNIST datasets, subject to the constraint that we have to make a prediction after the detection of the very first photon that passed a coherently illuminated filter showing the example. Whereas a classical set-up in which a photon is detected after falling on one of the $28\times 28$ image pixels is limited to a (maximum likelihood estimation) accuracy of $21.27\%$ for MNIST, respectively $18.27\%$ for Fashion-MNIST, we show that the theoretically achievable accuracy when exploiting inference by optically transforming the quantum state of the photon is at least $41.27\%$ for MNIST, respectively $36.14\%$ for Fashion-MNIST. We show in detail how to train the corresponding transformation with TensorFlow and also explain how this example can serve as a teaching tool for the measurement process in quantum mechanics.
翻訳日:2022-10-30 22:56:43 公開日:2021-03-12
# FLBench: フェデレーションラーニングのためのベンチマークスイート

FLBench: A Benchmark Suite for Federated Learning ( http://arxiv.org/abs/2008.07257v3 )

ライセンス: Link先を確認
Yuan Liang, Yange Guo, Yanxia Gong, Chunjie Luo, Jianfeng Zhan, Yunyou Huang(参考訳) フェデレーション学習は、新しい機械学習パラダイムである。 目標は、データを安全かつプライベートにしながら、いわゆる孤立したデータアイランドと呼ばれる複数のデバイスに分散されたデータセットから機械学習モデルを構築することだ。 既存のフェデレーション学習ベンチマークの多くは、一般的に使用される公開データセットをパーティションに分割することで、現実世界で分離されたデータアイランドシナリオをシミュレートする。 それでもこのシミュレーションは、実世界の孤立したデータ島固有の特性を捉えられなかった。 本稿では,FLBenchと呼ばれるFLベンチマークスイートを提案する。 FLBenchには、医療、金融、AIoTの3つのドメインが含まれている。 さまざまなドメインを設定することで、flbenchは、コミュニケーション、シナリオ変換、プライバシ保護、データ分散の不均一性、協調戦略など、連合学習システムとアルゴリズムを評価できる。 したがって、新しい連合学習アルゴリズムを開発するための有望なプラットフォームとなる。 現在、FLBenchはオープンソースであり、急速に進化している。 自動デプロイメントツールとしてパッケージ化しています。 ベンチマークスイートはhttps://www.benchcouncil.org/flbench.htmlから利用できる。

Federated learning is a new machine learning paradigm. The goal is to build a machine learning model from the data sets distributed on multiple devices so-called an isolated data island, while keeping their data secure and private. Most existing federated learning benchmarks work manually splits commonly used public datasets into partitions to simulate real world isolated data island scenarios. Still, this simulation fails to capture real world isolated data island intrinsic characteristics. This paper presents a federated learning (FL) benchmark suite named FLBench. FLBench contains three domains: medical, financial, and AIoT. By configuring various domains, FLBench is qualified to evaluate federated learning systems and algorithms essential aspects, like communication, scenario transformation, privacy-preserving, data distribution heterogeneity, and cooperation strategy. Hence, it becomes a promising platform for developing novel federated learning algorithms. Currently, FLBench is open sourced and in fast evolution. We package it as an automated deployment tool. The benchmark suite is available from https://www.benchcouncil.org/flbench.html.
翻訳日:2022-10-28 02:57:26 公開日:2021-03-12
# ディープラーニングに基づく音声強調と分離の概観

An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and Separation ( http://arxiv.org/abs/2008.09586v2 )

ライセンス: Link先を確認
Daniel Michelsanti, Zheng-Hua Tan, Shi-Xiong Zhang, Yong Xu, Meng Yu, Dong Yu, and Jesper Jensen(参考訳) 音声強調と音声分離は,複数の音源からそれぞれ1つ以上のターゲット音声信号を抽出することを目的とした2つの関連課題である。 従来、これらのタスクは、利用可能な音響信号に適用する信号処理と機械学習技術を用いて取り組まれてきた。 音声の視覚的側面は基本的に音響環境の影響を受けないため、唇の動きや表情などのターゲット話者からの視覚情報も音声強調や音声分離システムに利用されてきた。 音響情報と視覚情報を効率的に融合するために、研究者はデータ駆動アプローチ、特にディープラーニングの柔軟性を活用し、強力なパフォーマンスを実現している。 特徴を抽出し、マルチモーダル情報を融合する多数の手法の絶え間ない提案は、ディープラーニングに基づく音声・視覚音声の強調と分離を包括的に記述し議論する概要の必要性を強調している。 本稿では,本研究の主題について,音響的特徴,視覚的特徴,深層学習法,融合技術,訓練目標,目的関数など,文学におけるシステムの特徴を特徴付ける要素に着目した体系的な調査を行う。 さらに,非音声信号に対するサイレントビデオからの音声再構成と音声-視覚音源分離の深層学習に基づく手法について検討した。 最後に,データ駆動型アプローチの開発において中心的な役割を担っている音声・視覚音声データセットと評価手法について検討した。

Speech enhancement and speech separation are two related tasks, whose purpose is to extract either one or more target speech signals, respectively, from a mixture of sounds generated by several sources. Traditionally, these tasks have been tackled using signal processing and machine learning techniques applied to the available acoustic signals. Since the visual aspect of speech is essentially unaffected by the acoustic environment, visual information from the target speakers, such as lip movements and facial expressions, has also been used for speech enhancement and speech separation systems. In order to efficiently fuse acoustic and visual information, researchers have exploited the flexibility of data-driven approaches, specifically deep learning, achieving strong performance. The ceaseless proposal of a large number of techniques to extract features and fuse multimodal information has highlighted the need for an overview that comprehensively describes and discusses audio-visual speech enhancement and separation based on deep learning. In this paper, we provide a systematic survey of this research topic, focusing on the main elements that characterise the systems in the literature: acoustic features; visual features; deep learning methods; fusion techniques; training targets and objective functions. In addition, we review deep-learning-based methods for speech reconstruction from silent videos and audio-visual sound source separation for non-speech signals, since these methods can be more or less directly applied to audio-visual speech enhancement and separation. Finally, we survey commonly employed audio-visual speech datasets, given their central role in the development of data-driven approaches, and evaluation methods, because they are generally used to compare different systems and determine their performance.
翻訳日:2022-10-26 22:29:10 公開日:2021-03-12
# 正則化高密度接続型ピラミッドネットワーク

Regularized Densely-connected Pyramid Network for Salient Instance Segmentation ( http://arxiv.org/abs/2008.12416v2 )

ライセンス: Link先を確認
Yu-Huan Wu, Yun Liu, Le Zhang, Wang Gao, and Ming-Ming Cheng(参考訳) salient object detection (sod) に対する最近の取り組みの多くは、インスタンスラベルを意識せずに正確なサリエンシーマップを作成することに費やされてきた。 この目的のために,検出された各サルエントインスタンスに対して,クラス非依存のマスクを予測する,エンドツーエンドのサルエントインスタンスセグメンテーション(SIS)のための新しいパイプラインを提案する。 深層ネットワークにおけるリッチな特徴階層の活用と側面予測の強化を目的として,情報的特徴を積極的に促進し,すべての特徴ピラミッドから非情報的特徴を抑圧する正規化高密度接続を提案する。 マスク予測を改善するために,新しいマルチレベルRoIAlignベースのデコーダを導入し,多レベル特徴を適応的に集約する。 このような戦略は、Mask R-CNNパイプラインにカプセル化することができる。 一般的なベンチマーク実験では、既存の \sArt のコンペティターを 6.3 % (58.6 % 対 52.3 %) で大幅に上回っている。

Much of the recent efforts on salient object detection (SOD) have been devoted to producing accurate saliency maps without being aware of their instance labels. To this end, we propose a new pipeline for end-to-end salient instance segmentation (SIS) that predicts a class-agnostic mask for each detected salient instance. To better use the rich feature hierarchies in deep networks and enhance the side predictions, we propose the regularized dense connections, which attentively promote informative features and suppress non-informative ones from all feature pyramids. A novel multi-level RoIAlign based decoder is introduced to adaptively aggregate multi-level features for better mask predictions. Such strategies can be well-encapsulated into the Mask R-CNN pipeline. Extensive experiments on popular benchmarks demonstrate that our design significantly outperforms existing \sArt competitors by 6.3\% (58.6\% vs. 52.3\%) in terms of the AP metric.The code is available at https://github.com/yuhuan-wu/RDPNet.
翻訳日:2022-10-24 01:56:30 公開日:2021-03-12
# 肺ctにおけるcovid-19病変のラベルなしセグメンテーション

Label-Free Segmentation of COVID-19 Lesions in Lung CT ( http://arxiv.org/abs/2009.06456v3 )

ライセンス: Link先を確認
Qingsong Yao, Li Xiao, Peihang Liu and S. Kevin Zhou(参考訳) 注釈付き画像は、信頼性の高い新型コロナウイルスの診断とCTによる評価のための自動化ソリューションの構築を妨げている。 データアノテーションの負担を軽減するため、通常のCT肺スキャンから関連する知識を抽出するピクセルレベルの異常モデリングを用いて、CT内のCOVID-19病変を分類するためのラベルなしアプローチを提案する。 私たちのモデリングは、病変が属する高強度領域に分布する気管と血管の一部が強いパターンを示すという観察から着想を得たものです。 このようなパターンのピクセルレベルでの学習を容易にするため、驚くほど単純な操作を用いて「レシオン」を合成し、合成した「レシオン」を正常なCT肺スキャンに挿入してトレーニングペアを形成し、そこから「異常」画像を正常に戻す正規化変換ネットワーク(NormNet)を学習する。 3つの異なるデータセットに関する実験は、様々な教師なし異常検出(unsupervised anomaly detection, uad)法を明らかに上回るノームネットの有効性を検証する。

Scarcity of annotated images hampers the building of automated solution for reliable COVID-19 diagnosis and evaluation from CT. To alleviate the burden of data annotation, we herein present a label-free approach for segmenting COVID-19 lesions in CT via pixel-level anomaly modeling that mines out the relevant knowledge from normal CT lung scans. Our modeling is inspired by the observation that the parts of tracheae and vessels, which lay in the high-intensity range where lesions belong to, exhibit strong patterns. To facilitate the learning of such patterns at a pixel level, we synthesize `lesions' using a set of surprisingly simple operations and insert the synthesized `lesions' into normal CT lung scans to form training pairs, from which we learn a normalcy-converting network (NormNet) that turns an 'abnormal' image back to normal. Our experiments on three different datasets validate the effectiveness of NormNet, which conspicuously outperforms a variety of unsupervised anomaly detection (UAD) methods.
翻訳日:2022-10-20 21:02:14 公開日:2021-03-12
# 希少言語に対する教師なし機械翻訳における多言語性のハーネス化

Harnessing Multilinguality in Unsupervised Machine Translation for Rare Languages ( http://arxiv.org/abs/2009.11201v2 )

ライセンス: Link先を確認
Xavier Garcia, Aditya Siddhant, Orhan Firat, Ankur P. Parikh(参考訳) 教師なし翻訳は、英語とフランス語とドイツ語のような資源豊富な言語対において印象的なパフォーマンスを達成した。 しかし、初期の研究では、低リソースで希少な言語を含むより現実的な環境では、教師なし翻訳は性能が悪く、3.0BLEU以下であることが示されている。 本研究では,低リソース環境において教師なしシステムを実現する上で,多言語性が重要であることを示す。 特に,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)を英語方向から1つのモデルとして提示する。 我々はこれらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。 さらに,様々な言語ペアに対する教師付きwmt提案の膨大なコレクションと,ネパール・イングリッシュにおける現在最先端の教師付きモデルのパフォーマンスを上回っている。 我々は,データ品質の異なる条件下でモデルのロバスト性を確立するための一連のアブレーション研究を行い,従来の教師なしモデルよりも優れた性能をもたらす要因を分析した。

Unsupervised translation has reached impressive performance on resource-rich language pairs such as English-French and English-German. However, early studies have shown that in more realistic settings involving low-resource, rare languages, unsupervised translation performs poorly, achieving less than 3.0 BLEU. In this work, we show that multilinguality is critical to making unsupervised systems practical for low-resource settings. In particular, we present a single model for 5 low-resource languages (Gujarati, Kazakh, Nepali, Sinhala, and Turkish) to and from English directions, which leverages monolingual and auxiliary parallel data from other high-resource language pairs via a three-stage training scheme. We outperform all current state-of-the-art unsupervised baselines for these languages, achieving gains of up to 14.4 BLEU. Additionally, we outperform a large collection of supervised WMT submissions for various language pairs as well as match the performance of the current state-of-the-art supervised model for Nepali-English. We conduct a series of ablation studies to establish the robustness of our model under different degrees of data quality, as well as to analyze the factors which led to the superior performance of the proposed approach over traditional unsupervised models.
翻訳日:2022-10-15 16:01:17 公開日:2021-03-12
# EECBS:マルチエージェントパス探索のための境界下探索

EECBS: A Bounded-Suboptimal Search for Multi-Agent Path Finding ( http://arxiv.org/abs/2010.01367v2 )

ライセンス: Link先を確認
Jiaoyang Li, Wheeler Ruml, Sven Koenig(参考訳) 複数ロボットの衝突のない経路を見つけるマルチエージェントパス探索(mapf)は、amazonが操作する自動倉庫など、小さなランタイムを必要とする多くのアプリケーションにとって重要である。 CBSはMAPFを最適に解くための二段階探索アルゴリズムである。 CBSは、最適化性を犠牲にしてCBSを高速化するために焦点探索を使い、その代わりに、そのソリューションのコストが最適な要因の範囲内であることを保証している。 本稿では,不許容ヒューリスティックスを用いて,ランタイムをさらに削減する方法を検討する。 明示的推定探索 (EES) によって動機づけられたCBS (EECBS) は,オンライン学習を用いて各高レベルのノードの解のコストの不許容推定値を取得し,次にどの高レベルのノードを拡張すべきかを選択する。 また、最近のCBSの改善について検討し、それをEECBSに適用する。 改良されたEECBSは,さまざまなMAPFインスタンス上で,最先端の有界MAPFアルゴリズムであるECBS,BCP-7,eMDD-SATよりもはるかに高速であることがわかった。 EECBSのスケーラビリティにより、有界最適MAPFアルゴリズムのさらなる応用が期待できる。

Multi-Agent Path Finding (MAPF), i.e., finding collision-free paths for multiple robots, is important for many applications where small runtimes are necessary, including the kind of automated warehouses operated by Amazon. CBS is a leading two-level search algorithm for solving MAPF optimally. ECBS is a bounded-suboptimal variant of CBS that uses focal search to speed up CBS by sacrificing optimality and instead guaranteeing that the costs of its solutions are within a given factor of optimal. In this paper, we study how to decrease its runtime even further using inadmissible heuristics. Motivated by Explicit Estimation Search (EES), we propose Explicit Estimation CBS (EECBS), a new bounded-suboptimal variant of CBS, that uses online learning to obtain inadmissible estimates of the cost of the solution of each high-level node and uses EES to choose which high-level node to expand next. We also investigate recent improvements of CBS and adapt them to EECBS. We find that EECBS with the improvements runs significantly faster than the state-of-the-art bounded-suboptimal MAPF algorithms ECBS, BCP-7, and eMDD-SAT on a variety of MAPF instances. We hope that the scalability of EECBS enables additional applications for bounded-suboptimal MAPF algorithms.
翻訳日:2022-10-11 11:36:16 公開日:2021-03-12
# 視覚・触覚計測に基づく表面摩擦の確率的推定

Probabilistic Surface Friction Estimation Based on Visual and Haptic Measurements ( http://arxiv.org/abs/2010.08277v3 )

ライセンス: Link先を確認
Tran Nguyen Le and Francesco Verdoja and Fares J. Abu-Dakka and Ville Kyrki(参考訳) 物体の局所的表面特性を正確にモデル化することは、把持から物体認識まで、多くのロボットアプリケーションにとって不可欠である。 摩擦のような表面特性は、物体の視覚的な観察がこれらの特性に関する十分な情報を伝達しないため、推定は困難である。 対照的に、触覚探索は対象の探索された部分に関する情報のみを提供するため、時間を要する。 本研究では,ロボットアームによる限られた触覚探索とともに,視覚情報と触覚情報の相関を利用して,物体全体の表面摩擦係数を推定できる関節型粘性触覚物体モデルを提案する。 本研究では, 実多材料対象の摩擦係数の変動を推定する能力を示すことにより, 提案手法の有効性を示す。 さらに, 高い摩擦領域に向けて把握板を案内することにより, 推定摩擦係数が把持成功率を向上できることを示す。

Accurately modeling local surface properties of objects is crucial to many robotic applications, from grasping to material recognition. Surface properties like friction are however difficult to estimate, as visual observation of the object does not convey enough information over these properties. In contrast, haptic exploration is time consuming as it only provides information relevant to the explored parts of the object. In this work, we propose a joint visuo-haptic object model that enables the estimation of surface friction coefficient over an entire object by exploiting the correlation of visual and haptic information, together with a limited haptic exploration by a robotic arm. We demonstrate the validity of the proposed method by showing its ability to estimate varying friction coefficients on a range of real multi-material objects. Furthermore, we illustrate how the estimated friction coefficients can improve grasping success rate by guiding a grasp planner toward high friction areas.
翻訳日:2022-10-06 21:58:37 公開日:2021-03-12
# 2Dガンは3D形状を知っているか? 2次元画像GANによる教師なし3次元形状復元

Do 2D GANs Know 3D Shape? Unsupervised 3D shape reconstruction from 2D Image GANs ( http://arxiv.org/abs/2011.00844v4 )

ライセンス: Link先を確認
Xingang Pan, Bo Dai, Ziwei Liu, Chen Change Loy, Ping Luo(参考訳) 自然画像は2d画像平面上の3dオブジェクトの投影である。 GANのような最先端の2D生成モデルは、自然像多様体のモデリングにおいて前例のない品質を示しているが、それらが基礎となる3Dオブジェクト構造を暗黙的に捉えているかどうかは不明である。 もしそうなら、どのようにして画像の中の物体の3d形状を回復させるのか? そこで本研究では,RGB画像のみをトレーニングした市販の2D GANから3次元幾何学的手がかりを直接抽出する試みについて述べる。 本研究により, 事前学習したGANには, リッチな3次元知識が含まれており, 単一の2次元画像から教師なしで3次元形状を復元することができることがわかった。 我々のフレームワークの中核は、GAN画像多様体における様々な視点と照明のバリエーションを探索し、活用する反復戦略である。 このフレームワークは2Dキーポイントや3Dアノテーションやオブジェクトの形状に関する強い仮定(例えば、形状は対称)を必要としないが、人間の顔、猫、車、建物に対して高い精度で3D形状を復元することに成功した。 復元された3D形状は、リライティングやオブジェクト回転のような高品質な画像編集を可能にする。 本手法の有効性を従来の3次元形状復元法と顔の回転法に比較して定量的に検証した。 私たちのコードはhttps://github.com/xingangpan/gan2shapeで利用可能です。

Natural images are projections of 3D objects on a 2D image plane. While state-of-the-art 2D generative models like GANs show unprecedented quality in modeling the natural image manifold, it is unclear whether they implicitly capture the underlying 3D object structures. And if so, how could we exploit such knowledge to recover the 3D shapes of objects in the images? To answer these questions, in this work, we present the first attempt to directly mine 3D geometric cues from an off-the-shelf 2D GAN that is trained on RGB images only. Through our investigation, we found that such a pre-trained GAN indeed contains rich 3D knowledge and thus can be used to recover 3D shape from a single 2D image in an unsupervised manner. The core of our framework is an iterative strategy that explores and exploits diverse viewpoint and lighting variations in the GAN image manifold. The framework does not require 2D keypoint or 3D annotations, or strong assumptions on object shapes (e.g. shapes are symmetric), yet it successfully recovers 3D shapes with high precision for human faces, cats, cars, and buildings. The recovered 3D shapes immediately allow high-quality image editing like relighting and object rotation. We quantitatively demonstrate the effectiveness of our approach compared to previous methods in both 3D shape reconstruction and face rotation. Our code is available at https://github.com/XingangPan/GAN2Shape.
翻訳日:2022-09-30 12:14:19 公開日:2021-03-12
# 解説者による教育

Teaching with Commentaries ( http://arxiv.org/abs/2011.03037v2 )

ライセンス: Link先を確認
Aniruddh Raghu, Maithra Raghu, Simon Kornblith, David Duvenaud, Geoffrey Hinton(参考訳) ディープニューラルネットワークの効果的なトレーニングは困難であり、これらのモデルの最良の学習方法に関する多くの疑問が残っている。 近年、ニューラルネットワークトレーニングを改善するための手法が開発され、学習中に学習情報を提供し、下流モデルの性能を向上させる。 本稿では,教育範囲を拡大するためのステップを採る。 本稿では,特定のタスクの学習に役立つ注釈やメタ情報を用いたフレキシブルな教育フレームワークを提案する。 本稿では,拡張性に対する暗黙の差別化に関する最近の研究を活用し,注釈を学習するための勾配に基づく手法を提案する。 我々は、トレーニング例の重み付けからラベル依存データ拡張ポリシーのパラメータ化まで、様々なコメンテータの応用を探求し、注目すべき画像領域を強調するアテンションマスクを表現する。 コメントはトレーニングのスピードと/またはパフォーマンスを改善し、データセットとトレーニングプロセスに関する洞察を提供する。 新たなモデルのトレーニング時に再利用してパフォーマンス上のメリットを得ることが可能であり、データセットでコメンタを格納し、将来モデルトレーニングの改善に活用するユースケースを提案する。

Effective training of deep neural networks can be challenging, and there remain many open questions on how to best learn these models. Recently developed methods to improve neural network training examine teaching: providing learned information during the training process to improve downstream model performance. In this paper, we take steps towards extending the scope of teaching. We propose a flexible teaching framework using commentaries, learned meta-information helpful for training on a particular task. We present gradient-based methods to learn commentaries, leveraging recent work on implicit differentiation for scalability. We explore diverse applications of commentaries, from weighting training examples, to parameterising label-dependent data augmentation policies, to representing attention masks that highlight salient image regions. We find that commentaries can improve training speed and/or performance, and provide insights about the dataset and training process. We also observe that commentaries generalise: they can be reused when training new models to obtain performance benefits, suggesting a use-case where commentaries are stored with a dataset and leveraged in future for improved model training.
翻訳日:2022-09-29 12:35:23 公開日:2021-03-12
# ストリーム・エンド・エンド複数話者音声認識

Streaming end-to-end multi-talker speech recognition ( http://arxiv.org/abs/2011.13148v2 )

ライセンス: Link先を確認
Liang Lu, Naoyuki Kanda, Jinyu Li, Yifan Gong(参考訳) エンド・ツー・エンドのマルチトーカー音声認識は、会話や会議の書き起こしなどの応用において大きな可能性を秘めた、音声コミュニティにおける新たな研究トレンドである。 私たちの知る限りでは、既存の研究はすべてオフラインのシナリオに制限されています。 本研究では,エンドツーエンドの複数話者音声認識のためのストリーム・アンミックス・アンド・認識変換器(SURT)を提案する。 本モデルでは,様々なレイテンシ制約を満たすバックボーンとして,recurrent neural network transducer (rnn-t)を用いる。 本研究では,話者微分器エンコーダとマスクエンコーダの2つの異なるモデルアーキテクチャについて検討する。 このモデルを訓練するために,pit(permutation invariant training)アプローチとheat(heuristic error assignment training)アプローチについて検討した。 公開されているLibriSpeechMixデータセットの実験から、HEATはPITと比較して精度が良く、150ミリ秒のアルゴリズム遅延制約を持つSURTモデルは、精度の観点から、オフラインシーケンスからシーケンスベースのベースラインモデルと良好に比較できることを示した。

End-to-end multi-talker speech recognition is an emerging research trend in the speech community due to its vast potential in applications such as conversation and meeting transcriptions. To the best of our knowledge, all existing research works are constrained in the offline scenario. In this work, we propose the Streaming Unmixing and Recognition Transducer (SURT) for end-to-end multi-talker speech recognition. Our model employs the Recurrent Neural Network Transducer (RNN-T) as the backbone that can meet various latency constraints. We study two different model architectures that are based on a speaker-differentiator encoder and a mask encoder respectively. To train this model, we investigate the widely used Permutation Invariant Training (PIT) approach and the Heuristic Error Assignment Training (HEAT) approach. Based on experiments on the publicly available LibriSpeechMix dataset, we show that HEAT can achieve better accuracy compared with PIT, and the SURT model with 150 milliseconds algorithmic latency constraint compares favorably with the offline sequence-to-sequence based baseline model in terms of accuracy.
翻訳日:2022-09-20 12:17:21 公開日:2021-03-12
# (参考訳) テストのパスによる学習とニューラルアーキテクチャ探索への応用

Learning by Passing Tests, with Application to Neural Architecture Search ( http://arxiv.org/abs/2011.15102v2 )

ライセンス: CC BY 4.0
Xuefeng Du, Haochen Zhang, Pengtao Xie(参考訳) テストを通じて学ぶことは、ヒトの学習において広く使われる方法論であり、学習結果を改善する上で大きな効果を示す。 一連のテストは、難易度の増加によって行われる;学習者は、これらのテストを使って学習の弱点を特定し、これらの弱点に継続的に対処して、これらのテストに合格する。 この強力な学習技術が、機械の学習能力を向上させるために人間から借用できるかどうかを調べることに興味がある。 本稿では,パステスト(LPT)による学習という新しい学習手法を提案する。 我々のアプローチでは、テスタモデルは学習者モデルを評価するためにますますディファレントなテストを作成します。 学習者は、テスターが作成する難しいテストにうまく合格できるように、学習能力を継続的に改善しようとする。 我々は、lptを定式化するマルチレベル最適化フレームワークを提案し、テスト担当者は困難で有意義なテストを作成し、学習者はこれらのテストに合格することを学習する。 LPT問題を解決するための効率的なアルゴリズムを開発した。 本手法はニューラルネットワーク探索に適用され,CIFAR-100,CIFAR-10,ImageNetの最先端ベースラインよりも大幅に向上する。

Learning through tests is a broadly used methodology in human learning and shows great effectiveness in improving learning outcome: a sequence of tests are made with increasing levels of difficulty; the learner takes these tests to identify his/her weak points in learning and continuously addresses these weak points to successfully pass these tests. We are interested in investigating whether this powerful learning technique can be borrowed from humans to improve the learning abilities of machines. We propose a novel learning approach called learning by passing tests (LPT). In our approach, a tester model creates increasingly more-difficult tests to evaluate a learner model. The learner tries to continuously improve its learning ability so that it can successfully pass however difficult tests created by the tester. We propose a multi-level optimization framework to formulate LPT, where the tester learns to create difficult and meaningful tests and the learner learns to pass these tests. We develop an efficient algorithm to solve the LPT problem. Our method is applied for neural architecture search and achieves significant improvement over state-of-the-art baselines on CIFAR-100, CIFAR-10, and ImageNet.
翻訳日:2021-06-06 22:54:11 公開日:2021-03-12
# (参考訳) Skillearn: 人間の学習スキルに触発された機械学習

Skillearn: Machine Learning Inspired by Humans' Learning Skills ( http://arxiv.org/abs/2012.04863v2 )

ライセンス: CC BY 4.0
Pengtao Xie, Xuefeng Du, Hao Ban(参考訳) 人間は、地球上でもっとも強力な学習者として、テストによる学習、インターリーブ学習、自己説明、アクティブリコールなど、多くの学習スキルを蓄積しています。 これらの学習スキルと方法論により、人間は新しいトピックをより効率的に学習することができる。 私たちは、機械の学習を支援するために人間の学習スキルを借用できるかどうか調査することに興味を持っています。 具体的には、これらのスキルを形式化し、機械学習(ML)モデルのトレーニングに活用することを目指している。 この目標を達成するために、人間の学習スキルを数学的に表現し、形式的に表現されたスキルを用いてMLモデルのトレーニングを改善するための原則的な方法を提供する一般的なフレームワークであるSkillearnを開発する。 2つのケーススタディにおいて、skillearnを人間の2つの学習スキルの形式化に応用した。 さまざまなデータセットの実験では、Skillearnによって形式化されたスキルを使用してトレーニングされたMLモデルは、はるかに優れたパフォーマンスを実現している。

Humans, as the most powerful learners on the planet, have accumulated a lot of learning skills, such as learning through tests, interleaving learning, self-explanation, active recalling, to name a few. These learning skills and methodologies enable humans to learn new topics more effectively and efficiently. We are interested in investigating whether humans' learning skills can be borrowed to help machines to learn better. Specifically, we aim to formalize these skills and leverage them to train better machine learning (ML) models. To achieve this goal, we develop a general framework -- Skillearn, which provides a principled way to represent humans' learning skills mathematically and use the formally-represented skills to improve the training of ML models. In two case studies, we apply Skillearn to formalize two learning skills of humans: learning by passing tests and interleaving learning, and use the formalized skills to improve neural architecture search. Experiments on various datasets show that trained using the skills formalized by Skillearn, ML models achieve significantly better performance.
翻訳日:2021-05-16 12:40:17 公開日:2021-03-12
# ステレオ画像からの衝突のない空間検出の学習:ホモグラフィマトリクスによるデータの強化

Learning Collision-Free Space Detection from Stereo Images: Homography Matrix Brings Better Data Augmentation ( http://arxiv.org/abs/2012.07890v3 )

ライセンス: Link先を確認
Rui Fan, Hengli Wang, Peide Cai, Jin Wu, Mohammud Junaid Bocus, Lei Qiao and Ming Liu(参考訳) 衝突のない空間検出は、自動運転車の知覚の重要な要素である。 最先端のアルゴリズムは一般的に教師付き学習に基づいている。 このような手法の性能は常にラベル付きトレーニングデータの品質と量に依存する。 さらに、少量のトレーニングサンプルだけでディープ畳み込みニューラルネットワーク(DCNN)をトレーニングすることは、依然としてオープンな課題である。 そこで本稿では,異なる視点から得られた追加画像が利用可能である場合,DCNN全体の性能向上に有効なトレーニングデータ拡張手法を主に検討する。 異なる視点から撮影された2つの画像間の衝突のない空間(一般に平面面と見なされる)の画素がホモグラフィ行列によって関連付けられるため、対象画像のシナリオを参照ビューに変換することができる。 これは、追加のマルチビュー画像からトレーニングデータを生成する、シンプルだが効果的な方法を提供する。 3つのデータセット上で6つの最先端セマンティクスセグメンテーションdcnnを用いた大規模実験を行い,衝突のない空間検出性能向上のためのトレーニングデータ拡張アルゴリズムの有効性を実証した。 kitti roadベンチマークで検証すると、ステレオビジョンに基づく衝突のない空間検出に最適な結果が得られる。

Collision-free space detection is a critical component of autonomous vehicle perception. The state-of-the-art algorithms are typically based on supervised learning. The performance of such approaches is always dependent on the quality and amount of labeled training data. Additionally, it remains an open challenge to train deep convolutional neural networks (DCNNs) using only a small quantity of training samples. Therefore, this paper mainly explores an effective training data augmentation approach that can be employed to improve the overall DCNN performance, when additional images captured from different views are available. Due to the fact that the pixels of the collision-free space (generally regarded as a planar surface) between two images captured from different views can be associated by a homography matrix, the scenario of the target image can be transformed into the reference view. This provides a simple but effective way of generating training data from additional multi-view images. Extensive experimental results, conducted with six state-of-the-art semantic segmentation DCNNs on three datasets, demonstrate the effectiveness of our proposed training data augmentation algorithm for enhancing collision-free space detection performance. When validated on the KITTI road benchmark, our approach provides the best results for stereo vision-based collision-free space detection.
翻訳日:2021-05-08 14:19:06 公開日:2021-03-12
# 不確定モデリング

Indecision Modeling ( http://arxiv.org/abs/2012.08485v2 )

ライセンス: Link先を確認
Duncan C McElfresh, Lok Chan, Kenzie Doyle, Walter Sinnott-Armstrong, Vincent Conitzer, Jana Schaich Borg, John P Dickerson(参考訳) AIシステムは、刑事司法、雇用、医療など、幅広い分野で重要な決定を下す、または貢献するためにしばしば使用される。 これらの決定は人間の生活に影響を与えるため、AIシステムが人間の価値観と整合して行動することが重要である。 選好モデリングと社会的選好のテクニックは、aiの行動を導くために使用される人の選好を研究者が学び、集約するのに役立ちます。 これらのテクニックは、人々が選択肢よりも厳格な好みを表現しようとすると仮定することが多い。 人はしばしば非決定的であり、特に彼らの決定が道徳的な意味を持つときである。 哲学と心理学の文献は、不決定は測定可能でニュアンスのある行動であり、人々が不決定的な理由がいくつかあることを示している。 これは、多くの文献が不確定の意味について限定的な仮定をしているため、学習と選好の集約の両方のタスクを複雑にする。 このギャップは、哲学、心理学、経済学の理論に基づく数種類の数学的な「emph{indecision}」モデルを定式化することによって解決され、これらのモデルは、不確定性を表現することが許されたときとそうでないときの両方において、(決定不能な)エージェント決定を記述するのに使用できる。 これらのモデルをオンライン調査から収集したデータを用いてテストし,移植待ちの患者に対して臓器の割り当て方法を選択する。

AI systems are often used to make or contribute to important decisions in a growing range of applications, including criminal justice, hiring, and medicine. Since these decisions impact human lives, it is important that the AI systems act in ways which align with human values. Techniques for preference modeling and social choice help researchers learn and aggregate peoples' preferences, which are used to guide AI behavior; thus, it is imperative that these learned preferences are accurate. These techniques often assume that people are willing to express strict preferences over alternatives; which is not true in practice. People are often indecisive, and especially so when their decision has moral implications. The philosophy and psychology literature shows that indecision is a measurable and nuanced behavior -- and that there are several different reasons people are indecisive. This complicates the task of both learning and aggregating preferences, since most of the relevant literature makes restrictive assumptions on the meaning of indecision. We begin to close this gap by formalizing several mathematical \emph{indecision} models based on theories from philosophy, psychology, and economics; these models can be used to describe (indecisive) agent decisions, both when they are allowed to express indecision and when they are not. We test these models using data collected from an online survey where participants choose how to (hypothetically) allocate organs to patients waiting for a transplant.
翻訳日:2021-05-07 05:14:31 公開日:2021-03-12
# SWAオブジェクト検出

SWA Object Detection ( http://arxiv.org/abs/2012.12645v3 )

ライセンス: Link先を確認
Haoyang Zhang, Ying Wang, Feras Dayoub and Niko S\"underhauf(参考訳) オブジェクト検出器の1.0 APを、推論コストや検出器の変更なしに改善したいですか? そんなレシピを教えてあげよう。 循環学習率を使って12のエポックで検出器を訓練し、最終的な検出モデルとしてこれらの12のチェックポイントを平均化する。 この強力なレシピは、深いニューラルネットワークの一般化を改善するためにarXiv:1803.05407で提案されているSWA(Stochastic Weights Averaging)にインスパイアされている。 物体検出にも非常に有効であることがわかった。 本報告では,swaをオブジェクト検出やインスタンス分割に適用する効果について体系的に検討する。 大規模な実験を通じて、オブジェクト検出においてSWAを実行するための実行可能なポリシを発見し、Mask RCNN、Faster RCNN、RetinaNet、FCOS、YOLOv3、VFNetなど、さまざまな人気検出器に対する$\sim$1.0 APの改善を一貫して達成している。 この研究により、より多くの物体検出研究者がこの技術を知って、より優れた物体検出器の訓練に役立てることを願っている。 コードは、https://github.com/hyz-xmaster/swa_object_detection で入手できる。

Do you want to improve 1.0 AP for your object detector without any inference cost and any change to your detector? Let us tell you such a recipe. It is surprisingly simple: train your detector for an extra 12 epochs using cyclical learning rates and then average these 12 checkpoints as your final detection model}. This potent recipe is inspired by Stochastic Weights Averaging (SWA), which is proposed in arXiv:1803.05407 for improving generalization in deep neural networks. We found it also very effective in object detection. In this technique report, we systematically investigate the effects of applying SWA to object detection as well as instance segmentation. Through extensive experiments, we discover the aforementioned workable policy of performing SWA in object detection, and we consistently achieve $\sim$1.0 AP improvement over various popular detectors on the challenging COCO benchmark, including Mask RCNN, Faster RCNN, RetinaNet, FCOS, YOLOv3 and VFNet. We hope this work will make more researchers in object detection know this technique and help them train better object detectors. Code is available at: https://github.com/hyz-xmaster/swa_object_detection .
翻訳日:2021-04-25 18:08:15 公開日:2021-03-12
# 手続き生成によるエンドツーエンド運転の一般化の改善

Improving the Generalization of End-to-End Driving through Procedural Generation ( http://arxiv.org/abs/2012.13681v2 )

ライセンス: Link先を確認
Quanyi Li, Zhenghao Peng, Qihang Zhang, Chunxiao Liu, Bolei Zhou(参考訳) ここ数年、学習ベースの自動運転システムへの関心が高まっている。 安全性を確保するため、これらのシステムはまずシミュレータで開発、検証され、その後現実世界に配備される。 しかし、既存の運転シミュレータのほとんどは、固定されたシーンセットと限られた設定可能な設定しか含まない。 これは、学習ベースの運転システムに対する過剰な問題や、シナリオを認識できない一般化能力の欠如を容易に引き起こす可能性がある。 エンド・ツー・エンドの運転の一般化をよりよく評価・改善するために,プロシージャ生成の重要な特徴であるPGDriveと呼ばれるオープンエンドかつ高構成の運転シミュレータを導入する。 多様な道路網は, 基本道路ブロックからのサンプリングにより, 提案アルゴリズムによって生成される。 次に、現実的なキネマティクスを備えた近隣車両の交通の流れをレンダリングするインタラクティブなトレーニング環境へと変換される。 我々は,プロシージャ生成シーンの増加によるトレーニングが,交通密度や道路網の異なるシナリオにおけるエージェントの一般化を著しく改善することを検証する。 マルチエージェント交通シミュレーションや安全な運転ベンチマークなどの多くのアプリケーションがシミュレータ上に構築できる。 エンド・ツー・エンド・ドライブの共同研究を容易にするため、シミュレーターと事前訓練されたモデルをhttps://decisionforce.github.io/pgdriveでリリースする。

Over the past few years there is a growing interest in the learning-based self driving system. To ensure safety, such systems are first developed and validated in simulators before being deployed in the real world. However, most of the existing driving simulators only contain a fixed set of scenes and a limited number of configurable settings. That might easily cause the overfitting issue for the learning-based driving systems as well as the lack of their generalization ability to unseen scenarios. To better evaluate and improve the generalization of end-to-end driving, we introduce an open-ended and highly configurable driving simulator called PGDrive, following a key feature of procedural generation. Diverse road networks are first generated by the proposed generation algorithm via sampling from elementary road blocks. Then they are turned into interactive training environments where traffic flows of nearby vehicles with realistic kinematics are rendered. We validate that training with the increasing number of procedurally generated scenes significantly improves the generalization of the agent across scenarios of different traffic densities and road networks. Many applications such as multi-agent traffic simulation and safe driving benchmark can be further built upon the simulator. To facilitate the joint research effort of end-to-end driving, we release the simulator and pretrained models at https://decisionforce.github.io/pgdrive
翻訳日:2021-04-25 01:11:24 公開日:2021-03-12
# (参考訳) コーナーケースデータ記述と検出

Corner case data description and detection ( http://arxiv.org/abs/2101.02494v2 )

ライセンス: CC0 1.0
Tinghui Ouyang, Vicent Sant Marco, Yoshinao Isobe, Hideki Asoh, Yutaka Oiwa, Yoshiki Seo(参考訳) ディープラーニングモデルの安全性に影響を与える主要な要因として、コーナーケースと関連する検出は、安全およびセキュリティクリティカルなシステムを構築するためのAI品質保証に不可欠である。 一般的なコーナーケースの研究には2つの興味深いトピックがある。 1つは、DLモデルの堅牢性を高め、パラメータや構造を調整してケースデータを詰め込むことである。 もう1つは、モデルの再トレーニングと改善のための新しいコーナーケースを生成することです。 しかし、複雑なアーキテクチャと膨大なパラメータにより、DLモデルの堅牢な調整は容易ではなく、一方、DLトレーニングのための実世界のすべてのコーナーケースを生成することはできない。 そこで本稿では,特定指標によるコーナーケースデータ検出を目的とした簡易かつ新しい研究を提案する。 このメトリクスは、データの振る舞いをキャプチャする利点を持つサプライズアデクシー(SA)に基づいて開発されている。 さらに, コーナーケースデータの特徴をターゲットとして, 距離ベースSAを3つの改良を加えて分類を行った。 その結果、MNISTデータと産業データに関する実験分析により、コーナーケースデータ検出における提案手法の有効性と有用性を確認した。

As the major factors affecting the safety of deep learning models, corner cases and related detection are crucial in AI quality assurance for constructing safety- and security-critical systems. The generic corner case researches involve two interesting topics. One is to enhance DL models robustness to corner case data via the adjustment on parameters/structure. The other is to generate new corner cases for model retraining and improvement. However, the complex architecture and the huge amount of parameters make the robust adjustment of DL models not easy, meanwhile it is not possible to generate all real-world corner cases for DL training. Therefore, this paper proposes to a simple and novel study aiming at corner case data detection via a specific metric. This metric is developed on surprise adequacy (SA) which has advantages on capture data behaviors. Furthermore, targeting at characteristics of corner case data, three modifications on distanced-based SA are developed for classification applications in this paper. Consequently, through the experiment analysis on MNIST data and industrial data, the feasibility and usefulness of the proposed method on corner case data detection are verified.
翻訳日:2021-04-10 17:43:19 公開日:2021-03-12
# (参考訳) 適応スパイキングリカレントニューラルネットワークを用いた高精度かつ効率的な時間領域分類

Accurate and efficient time-domain classification with adaptive spiking recurrent neural networks ( http://arxiv.org/abs/2103.12593v1 )

ライセンス: CC0 1.0
Bojian Yin, Federico Corradi, Sander M. Bohte(参考訳) 生物学的ニューロンのより詳細なモデリングにインスパイアされたスパイキングニューラルネットワーク(SNN)は、神経計算のより生物学的に可塑性かつ潜在的に強力なモデルとして研究され、また生物学的ニューロンのエネルギー効率を抽出することを目的としている。 本稿では,音声やジェスチャ認識などの時間領域における難解なベンチマークにおいて,新たなサーロゲート勾配と,可変および適応的なスパイクニューロンの反復的ネットワークがsnsの最先端をもたらすことを示す。 これはまた、標準の古典的リカレントニューラルネットワーク(RNN)の性能を超え、最新のANNのそれにアプローチする。 これらのSNNはスパーススパイクを示すため、理論上は同等の性能を持つRNNに比べて1~3桁の計算効率が優れていることを示す。 これにより、SNNはAIハードウェア実装の魅力的なソリューションとして位置づけられる。

Inspired by more detailed modeling of biological neurons, Spiking neural networks (SNNs) have been investigated both as more biologically plausible and potentially more powerful models of neural computation, and also with the aim of extracting biological neurons' energy efficiency; the performance of such networks however has remained lacking compared to classical artificial neural networks (ANNs). Here, we demonstrate how a novel surrogate gradient combined with recurrent networks of tunable and adaptive spiking neurons yields state-of-the-art for SNNs on challenging benchmarks in the time-domain, like speech and gesture recognition. This also exceeds the performance of standard classical recurrent neural networks (RNNs) and approaches that of the best modern ANNs. As these SNNs exhibit sparse spiking, we show that they theoretically are one to three orders of magnitude more computationally efficient compared to RNNs with comparable performance. Together, this positions SNNs as an attractive solution for AI hardware implementations.
翻訳日:2021-04-05 03:51:54 公開日:2021-03-12
# (参考訳) 法律技術におけるNLPツールキットの性能と評価基準の比較

Comparing the Performance of NLP Toolkits and Evaluation measures in Legal Tech ( http://arxiv.org/abs/2103.11792v1 )

ライセンス: CC BY 4.0
Muhammad Zohaib Khan(参考訳) 近年の自然言語処理の発展は、さまざまな事前学習目的を用いて、教師なし転送可能な学習で実現される最先端のニューラルネットワークモデルの導入につながった。 これらのモデルは下流のnlpタスクで優れた結果を得るが、様々なドメイン適応技術はドメイン固有のタスクのパフォーマンスを向上させることができる。 我々は,事前訓練されたニューラルネットワークモデル,XLNet(autoregressive),BERT(autoencoder)を比較し,分析する。 その結果、XLNet Model は法的な意見分類のシーケンス分類タスクにおいて、BERT は NER タスクにおいて、より良い結果をもたらすことがわかった。 我々は、BERTモデルをさらに法律ドメインに適応させるために、ドメイン固有の事前訓練と追加の法的語彙を使用します。 BERTモデルの複数の変種を作成し,その組み合わせについて検討した。 法域に特化しているBERTモデルの変種を比較すると,新たな事前学習手法と語彙技術により,法オプション分類タスクにおけるBERTモデルの性能が向上することがわかった。 追加の法的語彙は、NERタスクにおけるBERTのパフォーマンスを改善する。 事前学習と語彙技法を組み合わせることで、最終的な結果がさらに向上する。 我々の法-Vocab-BERTモデルは、より大規模な事前訓練された汎用言語モデル、すなわちBERT-BaseとXLNet-Baseよりも優れた結果をもたらす。

Recent developments in Natural Language Processing have led to the introduction of state-of-the-art Neural Language Models, enabled with unsupervised transferable learning, using different pretraining objectives. While these models achieve excellent results on the downstream NLP tasks, various domain adaptation techniques can improve their performance on domain-specific tasks. We compare and analyze the pretrained Neural Language Models, XLNet (autoregressive), and BERT (autoencoder) on the Legal Tasks. Results show that XLNet Model performs better on our Sequence Classification task of Legal Opinions Classification, whereas BERT produces better results on the NER task. We use domain-specific pretraining and additional legal vocabulary to adapt BERT Model further to the Legal Domain. We prepared multiple variants of the BERT Model, using both methods and their combination. Comparing our variants of the BERT Model, specializing in the Legal Domain, we conclude that both additional pretraining and vocabulary techniques enhance the BERT model's performance on the Legal Opinions Classification task. Additional legal vocabulary improves BERT's performance on the NER task. Combining the pretraining and vocabulary techniques further improves the final results. Our Legal-Vocab-BERT Model gives the best results on the Legal Opinions Task, outperforming the larger pretrained general Language Models, i.e., BERT-Base and XLNet-Base.
翻訳日:2021-04-05 03:30:11 公開日:2021-03-12
# アスペクトレベルの知覚分類のための複数依存木を用いたグラフアンサンブル学習

Graph Ensemble Learning over Multiple Dependency Trees for Aspect-level Sentiment Classification ( http://arxiv.org/abs/2103.11794v1 )

ライセンス: Link先を確認
Xiaochen Hou, Peng Qi, Guangtao Wang, Rex Ying, Jing Huang, Xiaodong He, Bowen Zhou(参考訳) アスペクトレベルの感情分類に関する最近の研究は、依存木などの構文構造をグラフニューラルネットワーク(GNN)に組み込むことの有効性を実証している。 回避不能なエラーに直面した構文情報をよりよく活用するために,グラフアンサンブル手法であるGraphMergeを提案する。 各依存ツリーに1組のモデルパラメータを割り当てる代わりに、まず、結果のグラフにGNNを適用する前に、異なるパースから依存関係を結合する。 これにより、GNNモジュールは、余分な計算コストなしでエラーを解析しやすくなり、アンサンブルグラフにより多くの接続性を導入することで、GNNレイヤのオーバーパラメータ化やオーバーフィッティングを避けることができる。 SemEval 2014 Task 4とACL 14のTwitterデータセットの実験では、GraphMergeモデルは単一の依存ツリーでモデルを上回るだけでなく、モデルパラメータを追加せずに他のアンサンブルモジュールを上回ります。

Recent work on aspect-level sentiment classification has demonstrated the efficacy of incorporating syntactic structures such as dependency trees with graph neural networks(GNN), but these approaches are usually vulnerable to parsing errors. To better leverage syntactic information in the face of unavoidable errors, we propose a simple yet effective graph ensemble technique, GraphMerge, to make use of the predictions from differ-ent parsers. Instead of assigning one set of model parameters to each dependency tree, we first combine the dependency relations from different parses before applying GNNs over the resulting graph. This allows GNN mod-els to be robust to parse errors at no additional computational cost, and helps avoid overparameterization and overfitting from GNN layer stacking by introducing more connectivity into the ensemble graph. Our experiments on the SemEval 2014 Task 4 and ACL 14 Twitter datasets show that our GraphMerge model not only outperforms models with single dependency tree, but also beats other ensemble mod-els without adding model parameters.
翻訳日:2021-04-05 01:03:53 公開日:2021-03-12
# スティーフェルとその商多様体上のリーマン対数を計算する閉形式測地学と信頼領域法

Closed-form geodesics and trust-region method to calculate Riemannian logarithms on Stiefel and its quotient manifolds ( http://arxiv.org/abs/2103.13327v1 )

ライセンス: Link先を確認
Du Nguyen(参考訳) 2つの閉形式の測地線式をスティーフェル多様体上の計量の族に与え, 2つの正の数でパラメータ化し, 埋め込み計量と標準計量の両方を特別な場合とする。 閉形式公式は、低ランク多様体の縮小次元における行列指数による測地学の計算を可能にする。 多様体上の測地線終点から与えられた点への正方形のフロベニウス距離の勾配を計算するためにfr{\'e}chet微分を用いることで、多様体上の2つの端点の間の対数写像と測地線距離を、この平方距離を {\it 信頼領域解によって最小化することで計算できることを示した。 これにより、既知の測地線公式を持つが閉形式の対数写像を持たない多様体の測地線距離を計算する新しい枠組みが導かれる。 このアプローチは、Stiefel やフラッグ多様体にも有効であることを示す。 対数写像は、上記の計量を備えたこれらの多様体のリーマン中心の計算に使うことができる。 また、グラスマン多様体上のリーマン指数および対数写像に対する単純な三角公式を導出する。

We provide two closed-form geodesic formulas for a family of metrics on Stiefel manifold, parameterized by two positive numbers, having both the embedded and canonical metrics as special cases. The closed-form formulas allow us to compute geodesics by matrix exponential in reduced dimension for low-rank manifolds. Combining with the use of Fr{\'e}chet derivatives to compute the gradient of the square Frobenius distance between a geodesic ending point to a given point on the manifold, we show the logarithm map and geodesic distance between two endpoints on the manifold could be computed by {\it minimizing} this square distance by a {\it trust-region} solver. This leads to a new framework to compute the geodesic distance for manifolds with known geodesic formula but no closed-form logarithm map. We show the approach works well for Stiefel as well as flag manifolds. The logarithm map could be used to compute the Riemannian center of mass for these manifolds equipped with the above metrics. We also deduce simple trigonometric formulas for the Riemannian exponential and logarithm maps on the Grassmann manifold.
翻訳日:2021-04-05 00:59:49 公開日:2021-03-12
# LLA:Dense Pedestrian DetectionのためのLos-Aware Label Assignment

LLA: Loss-aware Label Assignment for Dense Pedestrian Detection ( http://arxiv.org/abs/2101.04307v3 )

ライセンス: Link先を確認
Zheng Ge, Jianfeng Wang, Xin Huang, Songtao Liu, Osamu Yoshie(参考訳) ラベル割り当ては検出器の性能に大きな影響を与えるため、一般的な物体検出において広く研究されている。 しかし、いずれも密集した歩行者検出におけるラベル割り当てに重点を置いていない。 本稿では,群衆シナリオにおける歩行者検知器の性能向上を図るため,Los-Aware Label Assignment (LLA) と呼ばれる簡易かつ効果的なアサイン方式を提案する。 LLAはまず、各アンカーとグラウンドトラス(GT)ペア間の分類(cl)と回帰(reg)損失を計算する。 次に、結合損失を割り当て指標としてclsとreg損失の重み付け和として定義する。 最後に、あるGTボックスに対するトップKの最小関節損失を持つアンカーを正のアンカーとして割り当てる。 GTボックスに割り当てられていないアンカーは負と見なされる。 ロスアウェアラベルの割り当ては、低い関節損失のアンカーは、通常よりリッチな意味情報を含むため、対応するGTボックスをよりよく表現できるという観察に基づいている。 CrowdHuman(英語版)とCityPersons(英語版)の実験では、これらの単純なラベル割り当て戦略は2つの有名な1段検出器であるRetinaNetとFCOSでMRを9.53%、そして5.47%向上させ、LLAの有効性を示す。

Label assignment has been widely studied in general object detection because of its great impact on detectors' performance. However, none of these works focus on label assignment in dense pedestrian detection. In this paper, we propose a simple yet effective assigning strategy called Loss-aware Label Assignment (LLA) to boost the performance of pedestrian detectors in crowd scenarios. LLA first calculates classification (cls) and regression (reg) losses between each anchor and ground-truth (GT) pair. A joint loss is then defined as the weighted summation of cls and reg losses as the assigning indicator. Finally, anchors with top K minimum joint losses for a certain GT box are assigned as its positive anchors. Anchors that are not assigned to any GT box are considered negative. Loss-aware label assignment is based on an observation that anchors with lower joint loss usually contain richer semantic information and thus can better represent their corresponding GT boxes. Experiments on CrowdHuman and CityPersons show that such a simple label assigning strategy can boost MR by 9.53% and 5.47% on two famous one-stage detectors - RetinaNet and FCOS, respectively, demonstrating the effectiveness of LLA.
翻訳日:2021-04-04 01:46:03 公開日:2021-03-12
# (参考訳) 深部物体検出器における回帰予測の不確かさの推定と評価

Estimating and Evaluating Regression Predictive Uncertainty in Deep Object Detectors ( http://arxiv.org/abs/2101.05036v3 )

ライセンス: CC BY 4.0
Ali Harakeh and Steven L. Waslander(参考訳) 予測的不確実性推定は、ディープオブジェクト検出器を安全クリティカルなタスクに確実に配置するための重要な次のステップである。 本研究では,分散ネットワークを用いた境界ボックス回帰出力の予測分布の推定に着目する。 オブジェクト検出の文脈では、負の対数確率(NLL)を持つトレーニング分散ネットワークは、出力平均の正確性に関わらず、高いエントロピー予測分布をもたらすことが示される。 エネルギースコアを非局所的適切なスコアリングルールとして使用し、トレーニングに使用する場合、エネルギースコアがnllよりも校正され、エントロピー予測分布が低くなることを示す。 また、適切なスコアリングルールに基づく代替評価手法を提案し、ディープオブジェクト検出器から予測分布を評価するために、非プロプライエタリなスコアリング指標が広く用いられていることに対処する。 提案する評価ツールを用いて,分散ネットワークは高品質な予測分布を生成するのに使用できるが,訓練中の回帰目標の選択に有意な対象検出器が使用するアドホックなアプローチは,信頼性の高い分散学習のための十分なデータサポートを提供していないことを示す。 我々の研究は、確率的オブジェクト検出における評価のシフトに役立ち、他の機械学習領域における予測の不確実性評価との整合性を高めることを願っている。 すべてのモデル、評価、データセットのコードは、https://github.com/asharakeh/probdet.git.comで入手できる。

Predictive uncertainty estimation is an essential next step for the reliable deployment of deep object detectors in safety-critical tasks. In this work, we focus on estimating predictive distributions for bounding box regression output with variance networks. We show that in the context of object detection, training variance networks with negative log likelihood (NLL) can lead to high entropy predictive distributions regardless of the correctness of the output mean. We propose to use the energy score as a non-local proper scoring rule and find that when used for training, the energy score leads to better calibrated and lower entropy predictive distributions than NLL. We also address the widespread use of non-proper scoring metrics for evaluating predictive distributions from deep object detectors by proposing an alternate evaluation approach founded on proper scoring rules. Using the proposed evaluation tools, we show that although variance networks can be used to produce high quality predictive distributions, ad-hoc approaches used by seminal object detectors for choosing regression targets during training do not provide wide enough data support for reliable variance learning. We hope that our work helps shift evaluation in probabilistic object detection to better align with predictive uncertainty evaluation in other machine learning domains. Code for all models, evaluation, and datasets is available at: https://github.com/asharakeh/probdet.git.
翻訳日:2021-03-30 14:05:34 公開日:2021-03-12
# ItNet: 正確なリアルタイム予測のための小さなグラフ付き反復ニューラルネットワーク

ItNet: iterative neural networks with small graphs for accurate and efficient anytime prediction ( http://arxiv.org/abs/2101.08685v2 )

ライセンス: Link先を確認
Thomas Pfeil(参考訳) ディープニューラルネットワークは通常、低消費電力での使用のために圧縮され、加速される。 モバイル、デバイス。 近年,メモリ内計算を利用して低消費電力で高スループット,低レイテンシを実現するハードウェアアクセラレータが開発されている。 しかし、これらの利点を利用するには、ニューラルネットワークの計算グラフは、通常サイズがかなり限られているこれらのハードウェアシステムの計算メモリに収まる必要がある。 本研究では,計算グラフの観点から,メモリフットプリントが小さいネットワークモデルについて紹介する。 この目的のために、グラフは単一のネットワークビルディングブロックを反復実行することでループを含むように設計されている。 さらに、トレーニングと推論の間に複数の中間出力を追加することにより、いわゆる反復ニューラルネットワークの精度とレイテンシのトレードオフが改善される。 計算資源の面で特に要求されるcamvidおよびcityscapesデータセットにおける意味セグメンテーションに関する最新の結果を示す。 アブレーション研究では,中間的ネットワーク出力によるネットワークトレーニングの改善と,反復による重み共有とネットワークサイズとのトレードオフについて検討した。

Deep neural networks have usually to be compressed and accelerated for their usage in low-power, e.g. mobile, devices. Recently, massively-parallel hardware accelerators were developed that offer high throughput and low latency at low power by utilizing in-memory computation. However, to exploit these benefits the computational graph of a neural network has to fit into the in-computation memory of these hardware systems that is usually rather limited in size. In this study, we introduce a class of network models that have a small memory footprint in terms of their computational graphs. To this end, the graph is designed to contain loops by iteratively executing a single network building block. Furthermore, the trade-off between accuracy and latency of these so-called iterative neural networks is improved by adding multiple intermediate outputs both during training and inference. We show state-of-the-art results for semantic segmentation on the CamVid and Cityscapes datasets that are especially demanding in terms of computational resources. In ablation studies, the improvement of network training by intermediate network outputs as well as the trade-off between weight sharing over iterations and the network size are investigated.
翻訳日:2021-03-21 08:07:37 公開日:2021-03-12
# (参考訳) オーバー・ザ・カウンタ社債市場におけるディーラーの行動予測

Predicting the Behavior of Dealers in Over-The-Counter Corporate Bond Markets ( http://arxiv.org/abs/2103.09098v1 )

ライセンス: CC BY 4.0
Yusen Lin, Jinming Xue, Louiqa Raschid(参考訳) オーバー・ザ・カウンタ(Over-The-Counter、OTC)市場での取引はブローカーディーラーによって促進され、ニューヨーク証券取引所(NYSE)のような公開取引所と比較される。 ディーラーは、otc市場で価格の安定化と流動性の提供に重要な役割を果たしている。 我々は、米国社債のotcディーラーの取引行動のモデル化と予測に機械学習手法を適用する。 我々は、米国の社債の語彙を巡って、ディーラーごとに毎日の歴史的取引報告のシーケンスを作成します。 このディーラー活動の歴史を利用して、ディーラーの将来的な取引決定を予測する。 ニューラルネットワークに基づく予測モデルについて検討する。 本稿では,PPRZ(Pointwise-Product ReZero) Transformerモデルの拡張を提案する。 個々の履歴が最もアクティブなディーラーにとって最良の予測モデルであることを示します。 アクティブなディーラーが少ない場合、集団モデルによってパフォーマンスが向上する。 さらに、類似性に基づくクラスタリングディーラーの性能を向上させることができる。 最後に、予測精度は、結合とディーラーの両方の活性レベルによって変化する。

Trading in Over-The-Counter (OTC) markets is facilitated by broker-dealers, in comparison to public exchanges, e.g., the New York Stock Exchange (NYSE). Dealers play an important role in stabilizing prices and providing liquidity in OTC markets. We apply machine learning methods to model and predict the trading behavior of OTC dealers for US corporate bonds. We create sequences of daily historical transaction reports for each dealer over a vocabulary of US corporate bonds. Using this history of dealer activity, we predict the future trading decisions of the dealer. We consider a range of neural network-based prediction models. We propose an extension, the Pointwise-Product ReZero (PPRZ) Transformer model, and demonstrate the improved performance of our model. We show that individual history provides the best predictive model for the most active dealers. For less active dealers, a collective model provides improved performance. Further, clustering dealers based on their similarity can improve performance. Finally, prediction accuracy varies based on the activity level of both the bond and the dealer.
翻訳日:2021-03-19 03:28:25 公開日:2021-03-12
# (参考訳) 都市交通インプテーション改善のための時空間テンソル補完

Spatiotemporal Tensor Completion for Improved Urban Traffic Imputation ( http://arxiv.org/abs/2103.08323v1 )

ライセンス: CC0 1.0
Ahmed Ben Said, Abdelkarim Erradi(参考訳) 都市交通の効果的な管理は、スマートシティイニシアチブにとって重要である。 したがって、感覚交通データの質は極めて重要である。 しかし、他のセンサデータと同様に、都市交通データは不完全であり、測定に欠けている。 本稿では,地域間トラフィックデータの補完に注目する。 本研究では,地域間トラフィックを時空間テンソルとしてモデル化する。 そこで本研究では,交通の都市的側面と時間的側面を考慮したCANDECOMP/PARAFAC(CP)補完手法を提案する。 都市特性を導出するために,研究領域を地域に分割する。 そして,各地域では,都市類似度行列の計算に使用される生物多様性から着想を得た都市特徴ベクトルを計算する。 時間的側面を掘り下げるために、まずエントロピー解析を行い、最も定期的な時系列を決定する。 そして,連成フーリエと相関解析を行い,その周期性を計算し,時間行列を構成する。 都市および時間行列は、修正CP補完目的関数に供給される。 この目的を達成するために,入力のベクトル化バージョンで動作する交互最小二乗法を提案する。 2つの評価シナリオで総合的な比較研究を行う。 まず、ランダムに欠落した値をシミュレートする。 第2のシナリオでは、特定の領域と時間における欠落値をシミュレートする。 提案手法は, 最先端CP手法に比べて26%, 最先端生成モデルを用いた手法に比べて35%, 有効回復性能が26%向上することを示した。

Effective management of urban traffic is important for any smart city initiative. Therefore, the quality of the sensory traffic data is of paramount importance. However, like any sensory data, urban traffic data are prone to imperfections leading to missing measurements. In this paper, we focus on inter-region traffic data completion. We model the inter-region traffic as a spatiotemporal tensor that suffers from missing measurements. To recover the missing data, we propose an enhanced CANDECOMP/PARAFAC (CP) completion approach that considers the urban and temporal aspects of the traffic. To derive the urban characteristics, we divide the area of study into regions. Then, for each region, we compute urban feature vectors inspired from biodiversity which are used to compute the urban similarity matrix. To mine the temporal aspect, we first conduct an entropy analysis to determine the most regular time-series. Then, we conduct a joint Fourier and correlation analysis to compute its periodicity and construct the temporal matrix. Both urban and temporal matrices are fed into a modified CP-completion objective function. To solve this objective, we propose an alternating least square approach that operates on the vectorized version of the inputs. We conduct comprehensive comparative study with two evaluation scenarios. In the first one, we simulate random missing values. In the second scenario, we simulate missing values at a given area and time duration. Our results demonstrate that our approach provides effective recovering performance reaching 26% improvement compared to state-of-art CP approaches and 35% compared to state-of-art generative model-based approaches.
翻訳日:2021-03-19 03:22:28 公開日:2021-03-12
# (参考訳) FES: 高速でスケーラブルなQoS予測フレームワーク

FES: A Fast Efficient Scalable QoS Prediction Framework ( http://arxiv.org/abs/2103.07494v1 )

ライセンス: CC BY 4.0
Soumi Chattopadhyay, Chandranath Adak, Ranjana Roy Chowdhury(参考訳) Webサービスのクオリティ・オブ・サービス予測は、サービス構成、サービス選択、サービスレコメンデーションなど、サービスライフサイクルのさまざまな側面における多様なアプリケーションのために、サービスコンピューティングの不可欠な部分です。 QoS予測アルゴリズムを設計する主な目的の1つは、良好な予測精度を達成することである。 しかし、QoS予測アルゴリズムを開発する際に満たすべき基準は精度だけではない。 アルゴリズムは、リアルタイムのレコメンデーションやコンポジションシステムに統合できるように、予測時間の観点からより高速でなければならない。 予測アルゴリズムを設計する際に考慮すべきもう1つの重要な要素は、予測アルゴリズムが大規模データセットに対処できるように拡張性である。 QoS予測の既存のアルゴリズムは、他のアルゴリズムを確実にしながら、ある目標に対して妥協することが多い。 本稿では,高い精度,高速な予測時間,スケーラビリティの3つの重要な目標を同時に達成する半オフラインQoS予測モデルを提案する。 ここでは,ユーザ間で異なるサービスのqos価値を予測することを目的とする。 本フレームワークは,前処理フェーズ予測,オンライン予測,事前学習モデルを用いた予測といった多相予測アルゴリズムからなる。 プリプロセッシングフェーズでは、まずデータセットにマルチレベルクラスタリングを適用し、相関のあるユーザとサービスを得る。 次に、協調フィルタリングを用いてクラスタを前処理し、与えられたQoS呼び出しログ行列の間隔を除去する。 最後に,ニューラルネットワークを用いた2段階の半オフライン回帰モデルを作成し,ユーザがリアルタイムに呼び出すサービスのqos値を予測する。 公開された4つのWS-DREAMデータセットの実験結果は、最先端の手法と比較して、フレームワークの正確性、スケーラビリティ、迅速な応答性の観点から効率性を示している。

Quality-of-Service prediction of web service is an integral part of services computing due to its diverse applications in the various facets of a service life cycle, such as service composition, service selection, service recommendation. One of the primary objectives of designing a QoS prediction algorithm is to achieve satisfactory prediction accuracy. However, accuracy is not the only criteria to meet while developing a QoS prediction algorithm. The algorithm has to be faster in terms of prediction time so that it can be integrated into a real-time recommendation or composition system. The other important factor to consider while designing the prediction algorithm is scalability to ensure that the prediction algorithm can tackle large-scale datasets. The existing algorithms on QoS prediction often compromise on one goal while ensuring the others. In this paper, we propose a semi-offline QoS prediction model to achieve three important goals simultaneously: higher accuracy, faster prediction time, scalability. Here, we aim to predict the QoS value of service that varies across users. Our framework consists of multi-phase prediction algorithms: preprocessing-phase prediction, online prediction, and prediction using the pre-trained model. In the preprocessing phase, we first apply multi-level clustering on the dataset to obtain correlated users and services. We then preprocess the clusters using collaborative filtering to remove the sparsity of the given QoS invocation log matrix. Finally, we create a two-staged, semi-offline regression model using neural networks to predict the QoS value of service to be invoked by a user in real-time. Our experimental results on four publicly available WS-DREAM datasets show the efficiency in terms of accuracy, scalability, fast responsiveness of our framework as compared to the state-of-the-art methods.
翻訳日:2021-03-19 01:40:54 公開日:2021-03-12
# (参考訳) 線形状態空間モデルマルコフ決定過程への予測の導入について

On Incorporating Forecasts into Linear State Space Model Markov Decision Processes ( http://arxiv.org/abs/2103.07533v1 )

ライセンス: CC BY 4.0
Jacques A. de Chalendar and Peter W. Glynn(参考訳) 天気予報情報は将来のエネルギーシステムの制御にますます応用される可能性が高い。 本稿では,線形力学を用いた拡張状態空間モデルの定式化について述べる。そこでは,基礎となる状態変数の進化とともに動的に表される予測情報を組み込むことができる。 我々は、予測進化(MMFE)にマーチンゲールモデルを用いて、予測と基礎状態の合同進化を管理するために必要な一貫性特性を強制する。 この定式化はまた、計算的に抽出可能なマルコフ決定過程(MDP)を生じさせる共同マルコフ力学を生成する。 本稿では, トラクタビリティを保った MDP の定式化において, MMFE の整合性要件を適用した最初の事例である。

Weather forecast information will very likely find increasing application in the control of future energy systems. In this paper, we introduce an augmented state space model formulation with linear dynamics, within which one can incorporate forecast information that is dynamically revealed alongside the evolution of the underlying state variable. We use the martingale model for forecast evolution (MMFE) to enforce the necessary consistency properties that must govern the joint evolution of forecasts with the underlying state. The formulation also generates jointly Markovian dynamics that give rise to Markov decision processes (MDPs) that remain computationally tractable. This paper is the first to enforce MMFE consistency requirements within an MDP formulation that preserves tractability.
翻訳日:2021-03-18 12:47:33 公開日:2021-03-12
# (参考訳) 廃止論者ネットワーク:19世紀アクティビスト新聞における言語変化のモデル化

Abolitionist Networks: Modeling Language Change in Nineteenth-Century Activist Newspapers ( http://arxiv.org/abs/2103.07538v1 )

ライセンス: CC BY 4.0
Sandeep Soni and Lauren Klein and Jacob Eisenstein(参考訳) 19世紀のアメリカ合衆国における奴隷制度廃止運動は、アメリカ合衆国史上最も重要な社会・政治運動である。 奴隷制度廃止運動の新聞は、情報の普及と、奴隷制度廃止に関する様々な問題に関する世論の形成に重要な役割を果たした。 これらの新聞は今日の学者たちの運動に関する主要な情報源となり、運動とその指導者に関する強力な新しい証言を生み出した。 本稿では,奴隷制度廃止運動の前衛として女性の役割に関する最近の定性的研究と,ブラックプレスの役割を定量的なテキスト・モデリングのアプローチで補足する。 ダイアクロニックな単語の埋め込みを使用して、どの新聞が語彙的セマンティックなイノベーション、すなわち特定の単語の新しい使用法を導入し、どの新聞がフォローする傾向があったかを特定する。 次に、何百もの変更の証拠を重み付けされたネットワークに集約し、新聞をノードとして表示する。 このネットワークの分析は、この期間に起こった意味の変化と区別されたリーダーとフォロワーを区別する語彙的意味的影響の経路を明らかにする。 より具体的には、女性によって編集された2つの新聞(ProviNCIAL FREEMANとThe LILY)が、私たちのコーパスに多くの意味的変化をもたらし、女性の多人種的連立が思考と行動の両方の観点から奴隷制度廃止運動を導いたという議論にさらなる信条を与えた。 また、奴隷制度廃止運動と女性参政権運動の関係と、その関係を特徴づける不平等な人種政治との関係を区別しようとする奨学金にも、さらに複雑さをもたらしている。

The abolitionist movement of the nineteenth-century United States remains among the most significant social and political movements in US history. Abolitionist newspapers played a crucial role in spreading information and shaping public opinion around a range of issues relating to the abolition of slavery. These newspapers also serve as a primary source of information about the movement for scholars today, resulting in powerful new accounts of the movement and its leaders. This paper supplements recent qualitative work on the role of women in abolition's vanguard, as well as the role of the Black press, with a quantitative text modeling approach. Using diachronic word embeddings, we identify which newspapers tended to lead lexical semantic innovations -- the introduction of new usages of specific words -- and which newspapers tended to follow. We then aggregate the evidence across hundreds of changes into a weighted network with the newspapers as nodes; directed edge weights represent the frequency with which each newspaper led the other in the adoption of a lexical semantic change. Analysis of this network reveals pathways of lexical semantic influence, distinguishing leaders from followers, as well as others who stood apart from the semantic changes that swept through this period. More specifically, we find that two newspapers edited by women -- THE PROVINCIAL FREEMAN and THE LILY -- led a large number of semantic changes in our corpus, lending additional credence to the argument that a multiracial coalition of women led the abolitionist movement in terms of both thought and action. It also contributes additional complexity to the scholarship that has sought to tease apart the relation of the abolitionist movement to the women's suffrage movement, and the vexed racial politics that characterized their relation.
翻訳日:2021-03-18 11:18:38 公開日:2021-03-12
# (参考訳) フレア予測モデルのトレーニング方法:レアイベントのロバストサンプリングを再検討

How to Train Your Flare Prediction Model: Revisiting Robust Sampling of Rare Events ( http://arxiv.org/abs/2103.07542v1 )

ライセンス: CC BY 4.0
Azim Ahmadzadeh, Berkay Aydin, Manolis K. Georgoulis, Dustin J. Kempton, Sushant S. Mahajan, and Rafal A. Angryk(参考訳) 本稿では,メタデータの特徴時系列による太陽フレア予測のケーススタディとして,顕著なクラス不均衡と時間的コヒーレントな問題として扱う。 太陽活動領域のプレフレア時系列をフルに活用することは、SDO (Space Weather Analytics for Solar Flares) ベンチマークデータセットによって可能であり、4075領域から9年間にわたる太陽ダイナミクス観測所 (Solar Dynamics Observatory) の運用期間の多変量時系列の分割されたコレクションである。 時系列予測における連続性の要求によって引き起こされる時間的コヒーレンスの概念を概観し、この効果の適切な理解の欠如がモデルの性能を飛躍的に向上させることを示した。 さらに,希少事象予測における新たな課題であるクラス不均衡問題にも対処する。 SWAN-SFは、GOES M級とX級のフレアに対する60:1の不均衡比と、フレアキートインスタンスに対するX級フレアに対する800:1である。 これらの課題に対する主要な改善策を再考し、これらの改善がパフォーマンスに与える影響を正確に示すいくつかの実験を示す。 さらに、データ正規化やクロスバリデーションといった基本的なデータ操作タスクがパフォーマンスにも影響を与える可能性があることを認めます。 このフレームワークでは、フレア予測タスクで広く使われている2つのパフォーマンス検証指標として、true skill statisticとheidke skill scoreを使用する主な利点と欠点をレビューする。 結論として,上記の課題が測定可能かつ定量的に解決されることを前提として,時系列とポイントインタイム予測の利点を提示し,提唱する。

We present a case study of solar flare forecasting by means of metadata feature time series, by treating it as a prominent class-imbalance and temporally coherent problem. Taking full advantage of pre-flare time series in solar active regions is made possible via the Space Weather Analytics for Solar Flares (SWAN-SF) benchmark dataset; a partitioned collection of multivariate time series of active region properties comprising 4075 regions and spanning over 9 years of the Solar Dynamics Observatory (SDO) period of operations. We showcase the general concept of temporal coherence triggered by the demand of continuity in time series forecasting and show that lack of proper understanding of this effect may spuriously enhance models' performance. We further address another well-known challenge in rare event prediction, namely, the class-imbalance issue. The SWAN-SF is an appropriate dataset for this, with a 60:1 imbalance ratio for GOES M- and X-class flares and a 800:1 for X-class flares against flare-quiet instances. We revisit the main remedies for these challenges and present several experiments to illustrate the exact impact that each of these remedies may have on performance. Moreover, we acknowledge that some basic data manipulation tasks such as data normalization and cross validation may also impact the performance -- we discuss these problems as well. In this framework we also review the primary advantages and disadvantages of using true skill statistic and Heidke skill score, as two widely used performance verification metrics for the flare forecasting task. In conclusion, we show and advocate for the benefits of time series vs. point-in-time forecasting, provided that the above challenges are measurably and quantitatively addressed.
翻訳日:2021-03-18 10:45:34 公開日:2021-03-12
# (参考訳) アセンブリのメタモデリングと修復計画

Meta-Modeling of Assembly Contingencies and Planning for Repair ( http://arxiv.org/abs/2103.07544v1 )

ライセンス: CC BY 4.0
Priyam Parashar, Aayush Naik, Jiaming Hu and Henrik I. Christensen(参考訳) 世界ロボティクスチャレンジ(2018年と2020年)は、新しいタスクに適応しやすいシステムの設計と、半構造化環境での堅牢な運用の確保にチームが挑戦するように設計されている。 ミッションをタスクやアクションに変換するための階層化された戦略を提案し、シンプルで複雑な障害に対処するための一連の戦略を提供します。 本稿では,本モデルを用いて故障を特徴付けるモデルを提案する。 単純な失敗は、我々のWRCシステムで最も一般的であり、またどのように修正したかを示します。

The World Robotics Challenge (2018 & 2020) was designed to challenge teams to design systems that are easy to adapt to new tasks and to ensure robust operation in a semi-structured environment. We present a layered strategy to transform missions into tasks and actions and provide a set of strategies to address simple and complex failures. We propose a model for characterizing failures using this model and discuss repairs. Simple failures are by far the most common in our WRC system and we also present how we repaired them.
翻訳日:2021-03-18 10:02:35 公開日:2021-03-12
# (参考訳) Triplet Networks, Data Augmentation, Curriculum Learning を用いたFew-Shotテキスト分類

Few-Shot Text Classification with Triplet Networks, Data Augmentation, and Curriculum Learning ( http://arxiv.org/abs/2103.07552v1 )

ライセンス: CC BY 4.0
Jason Wei, Chengyu Huang, Soroush Vosoughi, Yu Cheng, Shiqi Xu(参考訳) Few-shot テキスト分類は、モデルがテキストを多数のカテゴリに分類することを目的とした基本的な NLP タスクである。 本稿では、この数発の高マルチクラスのテキスト分類設定に対して、データ拡張(特に限られたデータによるトレーニングに適したテクニック)について検討する。 4つの多種多様なテキスト分類タスクにおいて,3重項ネットワークの性能を平均3.0%向上させることができることを示す。 そこで本研究では,カリキュラムデータ強化という簡単な学習戦略を提案する。この手法は,最初のサンプルのみをトレーニングし,トレーニングの進行とともに拡張データを導入することでカリキュラム学習を活用する。 2段階と段階的なスケジュールを調査し,標準の単段階トレーニングと比較して,カリキュラムデータ拡張トレーニングの高速化,パフォーマンスの向上,強化による高レベルのノイズに対して頑健なままであることを見いだした。

Few-shot text classification is a fundamental NLP task in which a model aims to classify text into a large number of categories, given only a few training examples per category. This paper explores data augmentation -- a technique particularly suitable for training with limited data -- for this few-shot, highly-multiclass text classification setting. On four diverse text classification tasks, we find that common data augmentation techniques can improve the performance of triplet networks by up to 3.0% on average. To further boost performance, we present a simple training strategy called curriculum data augmentation, which leverages curriculum learning by first training on only original examples and then introducing augmented data as training progresses. We explore a two-stage and a gradual schedule, and find that, compared with standard single-stage training, curriculum data augmentation trains faster, improves performance, and remains robust to high amounts of noising from augmentation.
翻訳日:2021-03-18 09:48:03 公開日:2021-03-12
# (参考訳) Causal Markov境界

Causal Markov Boundaries ( http://arxiv.org/abs/2103.07560v1 )

ライセンス: CC BY 4.0
Sofia Triantafillou and Fattaneh Jabbari and Greg Cooper(参考訳) 最適な予測モデルにつながる変数を選択することを目的とした機械学習では、機能選択が重要な問題である。 本稿では,介入前変数からの介入後結果予測のための特徴選択に着目する。 我々は、特定の患者の結果を最大化する治療を選択することを目標とする医療設定に動機付けられているが、条件付き治療効果を適切に識別する十分なランダム化制御試験データを持っていないことが多い。 a)因果グラフを知っているときに観測データを使用し、(b)因果グラフを知らないが、観察的かつ限定的な実験データを持っている場合である。 本稿では,マルコフ境界の概念を治療成果対に拡張する。 我々は導入する手法を理論的に保証する。 シミュレーションデータでは,観測データと実験データを組み合わせることで特徴選択と効果推定が向上することを示す。

Feature selection is an important problem in machine learning, which aims to select variables that lead to an optimal predictive model. In this paper, we focus on feature selection for post-intervention outcome prediction from pre-intervention variables. We are motivated by healthcare settings, where the goal is often to select the treatment that will maximize a specific patient's outcome; however, we often do not have sufficient randomized control trial data to identify well the conditional treatment effect. We show how we can use observational data to improve feature selection and effect estimation in two cases: (a) using observational data when we know the causal graph, and (b) when we do not know the causal graph but have observational and limited experimental data. Our paper extends the notion of Markov boundary to treatment-outcome pairs. We provide theoretical guarantees for the methods we introduce. In simulated data, we show that combining observational and experimental data improves feature selection and effect estimation.
翻訳日:2021-03-18 09:21:57 公開日:2021-03-12
# (参考訳) プライバシ規則化:言語モデルにおける統合プライバシ-ユーティリティ最適化

Privacy Regularization: Joint Privacy-Utility Optimization in Language Models ( http://arxiv.org/abs/2103.07567v1 )

ライセンス: CC BY 4.0
Fatemehsadat Mireshghallah, Huseyin A. Inan, Marcello Hasegawa, Victor R\"uhle, Taylor Berg-Kirkpatrick, Robert Sim(参考訳) ニューラルネットワークモデルは、トレーニングサンプルの記憶能力が高いことが知られている。 これは、電子メール通信のようなユーザーコンテンツのトレーニングモデルに深刻なプライバシーの影響をもたらす可能性がある。 プライバシ保証付きモデルをトレーニングする一般的な選択肢である差分プライバシー(DP)には,ユーティリティの劣化とユーザサブグループへの影響の相違という面で,大幅なコストが伴う。 本研究は,(1)判別器の使用,(2)三重項を含むことにより,ユーティリティとプライバシの協調最適化を可能にする言語モデルの学習のための2つのプライバシ保存正規化手法を提案する。 本手法をdpと比較し,広範な評価を行った。 本研究は,既存最適化手法を取り入れた学習の高速化,非表現サブグループの統一的処理の確保など,レギュラーライザの優位性を示す。

Neural language models are known to have a high capacity for memorization of training samples. This may have serious privacy implications when training models on user content such as email correspondence. Differential privacy (DP), a popular choice to train models with privacy guarantees, comes with significant costs in terms of utility degradation and disparate impact on subgroups of users. In this work, we introduce two privacy-preserving regularization methods for training language models that enable joint optimization of utility and privacy through (1) the use of a discriminator and (2) the inclusion of a triplet-loss term. We compare our methods with DP through extensive evaluation. We show the advantages of our regularizers with favorable utility-privacy trade-off, faster training with the ability to tap into existing optimization approaches, and ensuring uniform treatment of under-represented subgroups.
翻訳日:2021-03-18 08:25:09 公開日:2021-03-12
# (参考訳) 単一画像からの深度推定のための拡張完全畳み込みニューラルネットワーク

Dilated Fully Convolutional Neural Network for Depth Estimation from a Single Image ( http://arxiv.org/abs/2103.07570v1 )

ライセンス: CC BY 4.0
Binghan Li, Yindong Hua, Yifeng Liu, Mi Lu(参考訳) 深度予測は3Dシーンを理解する上で重要な役割を果たす。 畳み込みニューラルネットワーク(Convolutional Neural Network)は、最近、1つの画像から深度を推定する最先端のパフォーマンスを達成した。 しかし、従来のCNNはプール層に起因する解像度の低下と情報損失に悩まされている。 そして、完全に接続された層から生成される過大なパラメータは、しばしば爆発的なメモリ使用問題を引き起こす。 本稿では,その欠陥に対処する高度な拡張完全畳み込みニューラルネットワークを提案する。 拡張畳み込みにおける受容場の指数的拡大の利点を生かして、我々のモデルは分解能の喪失を最小限に抑えることができる。 また、完全連結層を完全畳み込み層に置き換えることでパラメータの量を大幅に削減する。 本研究では,nyu深部v2データセットを用いて,従来のcnns手法よりも奥行き予測が基礎的真理にかなり近いことを示す。

Depth prediction plays a key role in understanding a 3D scene. Several techniques have been developed throughout the years, among which Convolutional Neural Network has recently achieved state-of-the-art performance on estimating depth from a single image. However, traditional CNNs suffer from the lower resolution and information loss caused by the pooling layers. And oversized parameters generated from fully connected layers often lead to a exploded memory usage problem. In this paper, we present an advanced Dilated Fully Convolutional Neural Network to address the deficiencies. Taking advantages of the exponential expansion of the receptive field in dilated convolutions, our model can minimize the loss of resolution. It also reduces the amount of parameters significantly by replacing the fully connected layers with the fully convolutional layers. We show experimentally on NYU Depth V2 datasets that the depth prediction obtained from our model is considerably closer to ground truth than that from traditional CNNs techniques.
翻訳日:2021-03-18 08:11:45 公開日:2021-03-12
# (参考訳) 半教師付き関係抽出に関するレビュー

A Review on Semi-Supervised Relation Extraction ( http://arxiv.org/abs/2103.07575v1 )

ライセンス: CC BY 4.0
Yusen Lin(参考訳) 関係抽出(RE)は、構造化されていないテキストから知識を抽出する上で重要な役割を果たすが、大量のラベル付きコーパスを必要とする。 高価なアノテーションを減らすために、半教師付き学習はラベル付きデータとラベルなしデータの両方を活用することを目的としている。 本稿では,半教師型REと深層学習,メタラーニングの3つの典型的な手法をレビュー・比較する: 摂動下で一貫した力を持つが,監督が不十分な自己学習,擬似ラベルを反復的に生成し,拡張されたラベルセットで再学習する自己学習,予備的タスクと二重タスクを併用して相互フィードバックを行う二重学習。 平均教師 (Tarvainen と Valpola, 2017), LST (Li et al., 2019), DualRE (Lin et al., 2019) は, これら3つの手法の弱点を緩和する代表として, それぞれ詳しく説明されている。

Relation extraction (RE) plays an important role in extracting knowledge from unstructured text but requires a large amount of labeled corpus. To reduce the expensive annotation efforts, semisupervised learning aims to leverage both labeled and unlabeled data. In this paper, we review and compare three typical methods in semi-supervised RE with deep learning or meta-learning: self-ensembling, which forces consistent under perturbations but may confront insufficient supervision; self-training, which iteratively generates pseudo labels and retrain itself with the enlarged labeled set; dual learning, which leverages a primal task and a dual task to give mutual feedback. Mean-teacher (Tarvainen and Valpola, 2017), LST (Li et al., 2019), and DualRE (Lin et al., 2019) are elaborated as the representatives to alleviate the weakness of these three methods, respectively.
翻訳日:2021-03-18 07:56:35 公開日:2021-03-12
# ベイズゲームによるセキュリティのためのシステムコンポーネントレベル自己適応

System Component-Level Self-Adaptations for Security via Bayesian Games ( http://arxiv.org/abs/2103.08673v1 )

ライセンス: Link先を確認
Mingyue Zhang(参考訳) セキュリティ攻撃は、環境の敵対的性質により、自己適応型システム設計に特有の課題をもたらす。 しかし、セキュリティ領域における以前の作業でなされたように、システムを単一プレイヤーとしてモデル化することは、部分的に妥協されたシステムや、自律的なシステムの残りの部分が攻撃の影響を軽減するために協力できるきめ細かい防御戦略の設計には不十分である。 このような問題に対処するために,ベイズゲームとディフェンダー(システム)をシステムアーキテクチャのコンポーネントの粒度でモデル化した,新たな自己適応型フレームワークを提案する。 システムアーキテクチャモデルはベイジアンマルチプレイヤーゲームに変換され、各コンポーネントは独立したプレーヤとしてモデル化され、セキュリティアタックはコンポーネントの変種としてエンコードされる。 システムに対する防御戦略は、純粋な均衡を解いて最善のシステムユーティリティを達成することで動的に計算され、セキュリティ攻撃に対するシステムの弾力性が向上する。

Security attacks present unique challenges to self-adaptive system design due to the adversarial nature of the environment. However, modeling the system as a single player, as done in prior works in security domain, is insufficient for the system under partial compromise and for the design of fine-grained defensive strategies where the rest of the system with autonomy can cooperate to mitigate the impact of attacks. To deal with such issues, we propose a new self-adaptive framework incorporating Bayesian game and model the defender (i.e., the system) at the granularity of components in system architecture. The system architecture model is translated into a Bayesian multi-player game, where each component is modeled as an independent player while security attacks are encoded as variant types for the components. The defensive strategy for the system is dynamically computed by solving the pure equilibrium to achieve the best possible system utility, improving the resiliency of the system against security attacks.
翻訳日:2021-03-17 13:31:14 公開日:2021-03-12
# リカレントニューラルネットワークのための連続学習:レビューと経験的評価

Continual Learning for Recurrent Neural Networks: a Review and Empirical Evaluation ( http://arxiv.org/abs/2103.07492v1 )

ライセンス: Link先を確認
Andrea Cossu, Antonio Carta, Vincenzo Lomonaco, Davide Bacciu(参考訳) すべてのモデルのライフタイムで継続的に学習することは、データ分散のドリフトにロバストな機械学習ソリューションをデプロイする上で基本です。 繰り返しニューラルネットワークによる継続学習(CL)の進歩は、自然言語処理やロボティクスなど、入力データが定常的でない多くのアプリケーションへの道を開く可能性がある。 しかしながら、このトピックに関する既存の作業は、アプリケーション固有のアプローチと、異種学習プロトコルとデータセットに基づいた評価によって、いまだに断片化されている。 本稿では、コントリビューションの分類とベンチマークのレビューを提供することにより、逐次データ処理のためのCLに関する文献を整理する。 我々は既存のデータセットに基づくシーケンシャルデータを持つclの新しいベンチマークを2つ提案する。 また,クラスインクリメンタルシナリオにおけるclとリカレントニューラルネットワークの広範な経験的評価を行い,シーケンシャルなデータ処理に特化していない多くの異なる戦略で忘れを緩和する能力をテストする。 本結果は,シーケンス長が果たす重要な役割と,CLシナリオの明確な仕様の重要性を強調した。

Learning continuously during all model lifetime is fundamental to deploy machine learning solutions robust to drifts in the data distribution. Advances in Continual Learning (CL) with recurrent neural networks could pave the way to a large number of applications where incoming data is non stationary, like natural language processing and robotics. However, the existing body of work on the topic is still fragmented, with approaches which are application-specific and whose assessment is based on heterogeneous learning protocols and datasets. In this paper, we organize the literature on CL for sequential data processing by providing a categorization of the contributions and a review of the benchmarks. We propose two new benchmarks for CL with sequential data based on existing datasets, whose characteristics resemble real-world applications. We also provide a broad empirical evaluation of CL and Recurrent Neural Networks in class-incremental scenario, by testing their ability to mitigate forgetting with a number of different strategies which are not specific to sequential data processing. Our results highlight the key role played by the sequence length and the importance of a clear specification of the CL scenario.
翻訳日:2021-03-16 14:29:19 公開日:2021-03-12
# 一致する市場での分散バンディットに対する$\log^2(t)$の後悔

Beyond $\log^2(T)$ Regret for Decentralized Bandits in Matching Markets ( http://arxiv.org/abs/2103.07501v1 )

ライセンス: Link先を確認
Soumya Basu, Karthik Abinav Sankararaman, Abishek Sankararaman(参考訳) 両サイドマッチング市場における後悔の最小化のための分散アルゴリズムを,前作(Liu et al.)において有意に改善した片側バンディットフィードバックを用いて設計した。 2020a, 2020b, Sankararaman et al。 2020). まず、一般市場では、任意の $\varepsilon > 0$ に対して、$O(\log^{1+\varepsilon}(T))$ をエージェント最適安定マッチングに後悔するアルゴリズムを設計し、未知の時空 $T$ で、$O(\log^{2}(T))$ で達成された後悔(Liu et al)に改善します。 2020年)。 第二に、参加者が元の安定したマッチングを変更しない市場 - ユニークさの一貫性を満たす市場のために最適な$\Theta(\log(T))$エージェント最適の後悔を提供します。 以前は$\Theta(\log(T))$ regretは達成できた(Sankararaman et al)。 2020年、Luら。 2020b) はるかに制限された連続独裁設定において、すべての武器がエージェントに対して同じ好みを有する場合。 我々は,各フェーズにおいて,エージェントが頻繁に衝突する腕を局所的に除去する,グローバルに通信される支配的武器を除去するフェーズベースのアルゴリズムを提案する。 この局所的な削除は、腕間のエージェントのランクの不均一性から生じるデッドロックを壊す上で重要である。 さらにシミュレーションにより,既存の手法よりもアルゴリズムが優れていることを示す。

We design decentralized algorithms for regret minimization in the two-sided matching market with one-sided bandit feedback that significantly improves upon the prior works (Liu et al. 2020a, 2020b, Sankararaman et al. 2020). First, for general markets, for any $\varepsilon > 0$, we design an algorithm that achieves a $O(\log^{1+\varepsilon}(T))$ regret to the agent-optimal stable matching, with unknown time horizon $T$, improving upon the $O(\log^{2}(T))$ regret achieved in (Liu et al. 2020b). Second, we provide the optimal $\Theta(\log(T))$ agent-optimal regret for markets satisfying uniqueness consistency -- markets where leaving participants don't alter the original stable matching. Previously, $\Theta(\log(T))$ regret was achievable (Sankararaman et al. 2020, Liu et al. 2020b) in the much restricted serial dictatorship setting, when all arms have the same preference over the agents. We propose a phase-based algorithm, wherein each phase, besides deleting the globally communicated dominated arms the agents locally delete arms with which they collide often. This local deletion is pivotal in breaking deadlocks arising from rank heterogeneity of agents across arms. We further demonstrate the superiority of our algorithm over existing works through simulations.
翻訳日:2021-03-16 14:27:09 公開日:2021-03-12
# 見えない領域における顔認識のためのクロスドメイン類似度学習

Cross-Domain Similarity Learning for Face Recognition in Unseen Domains ( http://arxiv.org/abs/2103.07503v1 )

ライセンス: Link先を確認
Masoud Faraki, Xiang Yu, Yi-Hsuan Tsai, Yumin Suh, Manmohan Chandraker(参考訳) 同じ訓練とテスト分布の仮定の下で訓練された顔認識モデルは、テスト時間中に新しい民族や予測不可能な個々のメイクアップなどの未知のバリエーションに直面した場合、しばしば悪い一般化に苦しむ。 本稿では,cdt(cross-domain triplet, クロスドメイントリプレット)の損失をダビングし,未認識領域の顔認識を改善する新しいクロスドメインメトリック学習損失を提案する。 cdt損失は、異なる統計量を持つ別のトレーニングドメインに属する下位の類似度メトリクスによってコンパクトさを測定する、あるドメインからアイデンティティのコンパクトな特徴クラスタを強制することによって、意味的に意味のある特徴の学習を促進する。 直感的には、ネットワーク内で最小化される統一損失関数内の他のドメインからのトリプレットサンプルと、あるドメインに由来する明示的なメトリクスを識別的に関連付けることにより、トレーニングドメインのアライメントが向上する。 ネットワークパラメータは、モデルに依存しない学習パイプラインにおいて、ドメインシフト下で一般化された機能を学ぶためにさらに強化される。 最近のメタ顔認識とは異なり,本手法ではトレーニング中に注意深いハードペアサンプルマイニングやフィルタリング戦略を必要としない。 さまざまな顔認識ベンチマークに関する広範な実験は、ベースラインと最先端の方法と比較して、変化を処理する方法の優位性を示しています。

Face recognition models trained under the assumption of identical training and test distributions often suffer from poor generalization when faced with unknown variations, such as a novel ethnicity or unpredictable individual make-ups during test time. In this paper, we introduce a novel cross-domain metric learning loss, which we dub Cross-Domain Triplet (CDT) loss, to improve face recognition in unseen domains. The CDT loss encourages learning semantically meaningful features by enforcing compact feature clusters of identities from one domain, where the compactness is measured by underlying similarity metrics that belong to another training domain with different statistics. Intuitively, it discriminatively correlates explicit metrics derived from one domain, with triplet samples from another domain in a unified loss function to be minimized within a network, which leads to better alignment of the training domains. The network parameters are further enforced to learn generalized features under domain shift, in a model-agnostic learning pipeline. Unlike the recent work of Meta Face Recognition, our method does not require careful hard-pair sample mining and filtering strategy during training. Extensive experiments on various face recognition benchmarks show the superiority of our method in handling variations, compared to baseline and the state-of-the-art methods.
翻訳日:2021-03-16 14:25:10 公開日:2021-03-12
# 識別シーケンス学習のための自然勾配とヘッセンフリーを組み合わせた分散最適化フレームワーク

A Distributed Optimisation Framework Combining Natural Gradient with Hessian-Free for Discriminative Sequence Training ( http://arxiv.org/abs/2103.07554v1 )

ライセンス: Link先を確認
Adnan Haider and Chao Zhang and Florian L. Kreyssig and Philip C. Woodland(参考訳) 本論文では,ニューラルネットワークトレーニングのための自然勾配とヘッセンフリー(NGHF)最適化フレームワークを提案する。 これは、自然勾配(ng)法とヘッセンフリー(hf)や他の二次法からの局所曲率情報を組み合わせた線形共役勾配(cg)アルゴリズムに依存している。 CGにおける数値問題に対する解決策は、有効なパラメータ更新を、通常よりもはるかに少ないCGイテレーションで生成することができる(例)。 200の代わりに5-8)。 また,共有パラメータを持つモデルに対するcg個別イテレーションの進捗を改善するための新しい事前調整手法を提案する。 他のトレーニング損失やモデル構造にも適用できるが、標準リカレントニューラルネットワーク、長期短期記憶、出力確率計算のための時間遅延ニューラルネットワークモデルを用いたハイブリッド隠れマルコフモデル音響モデルの格子に基づく判別シーケンストレーニングについて検討する。 各種音響モデルを対象としたマルチジャンル放送データセットに音声認識実験を報告する。 これらの実験は、NGHFが標準の確率勾配降下やアダムよりも大きな単語誤り率の減少を達成し、パラメータ更新の順序を小さくすることを示した。

This paper presents a novel natural gradient and Hessian-free (NGHF) optimisation framework for neural network training that can operate efficiently in a distributed manner. It relies on the linear conjugate gradient (CG) algorithm to combine the natural gradient (NG) method with local curvature information from Hessian-free (HF) or other second-order methods. A solution to a numerical issue in CG allows effective parameter updates to be generated with far fewer CG iterations than usually used (e.g. 5-8 instead of 200). This work also presents a novel preconditioning approach to improve the progress made by individual CG iterations for models with shared parameters. Although applicable to other training losses and model structures, NGHF is investigated in this paper for lattice-based discriminative sequence training for hybrid hidden Markov model acoustic models using a standard recurrent neural network, long short-term memory, and time delay neural network models for output probability calculation. Automatic speech recognition experiments are reported on the multi-genre broadcast data set for a range of different acoustic model types. These experiments show that NGHF achieves larger word error rate reductions than standard stochastic gradient descent or Adam, while requiring orders of magnitude fewer parameter updates.
翻訳日:2021-03-16 14:22:27 公開日:2021-03-12
# ワクチンアドバースイベントメンション抽出のためのプライベートクロスサイロフェデレーション学習

Private Cross-Silo Federated Learning for Extracting Vaccine Adverse Event Mentions ( http://arxiv.org/abs/2103.07491v1 )

ライセンス: Link先を確認
Pallika Kanani, Virendra J. Marathe, Daniel Peterson, Rave Harpaz, Steve Bright(参考訳) フェデレーションラーニング(FL)は、データを物理的に共有することなく、グローバルモデルを共同でトレーニングするためのゴト分散トレーニングパラダイムになりつつある。 ユーザーは間接的にコントリビュートし、グローバルモデルのトレーニングに使用されるはるかに大きな集計データコーパスから直接利益を得ることができます。 しかし、現実世界の問題設定におけるFLの応用の成功に関する文献はやや乏しい。 本稿では,大規模ワクチン接種プログラムの文脈における有害事象検出アプリケーションに対して,名前付きエンティティ認識(NER)タスクにFLベースのソリューションを適用した経験について述べる。 FLベースのトレーニングで得られたさまざまな利点の次元の包括的な実証的分析を紹介します。 さらに、より密接な差分プライバシー(DP)制約の影響を、フェデレーションユーザーが厳重なプライバシー保証を確保するためにローカルDPを強制しなければならない高感度設定で調査します。 ローカルDPは,グローバルモデルの予測精度を著しく損なう可能性を示し,ユーザによるフェデレーションへの参加を阻害する。 これに対し,近年のパーソナライズ手法の革新が,失われた精度の回復に有効であることを実証した。 私たちはFederated Fine-Tuningアルゴリズム、FedFTに分析を集中し、PACIdentifiableではないことを証明し、FLベースのトレーニングにさらに魅力的にします。

Federated Learning (FL) is quickly becoming a goto distributed training paradigm for users to jointly train a global model without physically sharing their data. Users can indirectly contribute to, and directly benefit from a much larger aggregate data corpus used to train the global model. However, literature on successful application of FL in real-world problem settings is somewhat sparse. In this paper, we describe our experience applying a FL based solution to the Named Entity Recognition (NER) task for an adverse event detection application in the context of mass scale vaccination programs. We present a comprehensive empirical analysis of various dimensions of benefits gained with FL based training. Furthermore, we investigate effects of tighter Differential Privacy (DP) constraints in highly sensitive settings where federation users must enforce Local DP to ensure strict privacy guarantees. We show that local DP can severely cripple the global model's prediction accuracy, thus dis-incentivizing users from participating in the federation. In response, we demonstrate how recent innovation on personalization methods can help significantly recover the lost accuracy. We focus our analysis on the Federated Fine-Tuning algorithm, FedFT, and prove that it is not PAC Identifiable, thus making it even more attractive for FL-based training.
翻訳日:2021-03-16 14:21:42 公開日:2021-03-12
# TensorGP --TensorFlowの遺伝的プログラミングエンジン

TensorGP -- Genetic Programming Engine in TensorFlow ( http://arxiv.org/abs/2103.07512v1 )

ライセンス: Link先を確認
Francisco Baeta, Jo\~ao Correia, Tiago Martins and Penousal Machado(参考訳) 本稿では,データベクトル化と適合性キャッシング手法を遺伝的プログラミングにおけるドメイン評価に適用するメリットを検討するために,tensorflowフレームワークを利用する。 この目的のために、独立したエンジンであるTensorGPが開発され、異なるアーキテクチャと反復およびベクトル化の両方のアプローチで比較タイミングを抽出するテストスイートが開発された。 私たちのパフォーマンスベンチマークは、tensorflow eager実行モデルを活用することで、標準的な反復的アプローチと比較して、専用ハードウェア上で動作する並列アプローチで最大2桁のパフォーマンス向上が達成できることを示しています。

In this paper, we resort to the TensorFlow framework to investigate the benefits of applying data vectorization and fitness caching methods to domain evaluation in Genetic Programming. For this purpose, an independent engine was developed, TensorGP, along with a testing suite to extract comparative timing results across different architectures and amongst both iterative and vectorized approaches. Our performance benchmarks demonstrate that by exploiting the TensorFlow eager execution model, performance gains of up to two orders of magnitude can be achieved on a parallel approach running on dedicated hardware when compared to a standard iterative approach.
翻訳日:2021-03-16 14:14:38 公開日:2021-03-12
# 未確認領域に対する不確かさ誘導モデル一般化

Uncertainty-guided Model Generalization to Unseen Domains ( http://arxiv.org/abs/2103.07531v1 )

ライセンス: Link先を確認
Fengchun Qiao, Xi Peng(参考訳) 一般化における最悪のシナリオとして,単一ソースからの領域外一般化について検討する。 目標は、単一のソースから堅牢なモデルを学び、多くの未知のディストリビューションを一般化することである。 この困難な問題はほとんど調査されていないが、既存のソリューションには様々な制限がある。 本稿では,新しい解決法を提案する。 重要なアイデアは、入力スペースとラベルスペースの両方のソース容量を強化することですが、拡張は不確実性評価によって導かれます。 私たちの知る限りでは、(1)単一のソースから一般化の不確実性にアクセスし、(2)入力とラベルの強化をガイドして堅牢な一般化を行う最初の作業です。 モデルのトレーニングとデプロイは、ベイズメタラーニングフレームワークで効果的に構成される。 我々はアプローチを検証するために広範囲な比較とアブレーション研究を行っている。 その結果,画像分類,意味セグメンテーション,テキスト分類,音声認識など幅広いタスクで優れた性能が得られた。

We study a worst-case scenario in generalization: Out-of-domain generalization from a single source. The goal is to learn a robust model from a single source and expect it to generalize over many unknown distributions. This challenging problem has been seldom investigated while existing solutions suffer from various limitations. In this paper, we propose a new solution. The key idea is to augment the source capacity in both input and label spaces, while the augmentation is guided by uncertainty assessment. To the best of our knowledge, this is the first work to (1) access the generalization uncertainty from a single source and (2) leverage it to guide both input and label augmentation for robust generalization. The model training and deployment are effectively organized in a Bayesian meta-learning framework. We conduct extensive comparisons and ablation study to validate our approach. The results prove our superior performance in a wide scope of tasks including image classification, semantic segmentation, text classification, and speech recognition.
翻訳日:2021-03-16 14:12:59 公開日:2021-03-12
# クロスドメイン機能適応による単眼画像から食品移植の学習に向けて

Towards Learning Food Portion From Monocular Images With Cross-Domain Feature Adaptation ( http://arxiv.org/abs/2103.07562v1 )

ライセンス: Link先を確認
Zeman Shao, Shaobo Fang, Runyu Mao, Jiangpeng He, Janine Wright, Deborah Kerr, Carol Jo Boushey, Fengqing Zhu(参考訳) 実生活環境下における単一眼像から3次元空間における食品物の存在に強く関係する食品部分の大きさを推定することを目指しています。 具体的には、個人の健康管理の分野で大きな可能性を秘めた食品部分サイズのエンドツーエンド推定に興味があります。 大規模なクラウドソーシングによってアノテーションを得ることができる画像分割やオブジェクト認識とは異なり、人間が専門知識のない任意の2次元画像においてオブジェクトのサイズを正確に推定できないため、部分サイズ推定のためのデータセットを集めることははるかに困難である。 そこで本研究では、登録栄養士が栄養エネルギー(カロリー)を提供する栄養研究から収集した実生活用食品画像データセットについて紹介し、研究コミュニティに公開します。 本稿では,RGBと学習エネルギー分布領域の両方から推定される特徴を組み合わせることで,部分サイズ推定のための深回帰過程を提案する。 食品エネルギーの推計値は11.47%で、非専門家の推計を27.56%上回っている。

We aim to estimate food portion size, a property that is strongly related to the presence of food object in 3D space, from single monocular images under real life setting. Specifically, we are interested in end-to-end estimation of food portion size, which has great potential in the field of personal health management. Unlike image segmentation or object recognition where annotation can be obtained through large scale crowd sourcing, it is much more challenging to collect datasets for portion size estimation since human cannot accurately estimate the size of an object in an arbitrary 2D image without expert knowledge. To address such challenge, we introduce a real life food image dataset collected from a nutrition study where the groundtruth food energy (calorie) is provided by registered dietitians, and will be made available to the research community. We propose a deep regression process for portion size estimation by combining features estimated from both RGB and learned energy distribution domains. Our estimates of food energy achieved state-of-the-art with a MAPE of 11.47%, significantly outperforms non-expert human estimates by 27.56%.
翻訳日:2021-03-16 14:12:45 公開日:2021-03-12
# ベイジアン隠れ物理モデルによる物理の発見とデータからの微細構造のキャラクタリゼーション

Discovery of Physics and Characterization of Microstructure from Data with Bayesian Hidden Physics Models ( http://arxiv.org/abs/2103.07502v1 )

ライセンス: Link先を確認
Steven Atkinson and Yiming Zhang and Liping Wang(参考訳) 観察データを説明するための知識の定式化の科学的プロセスを支援するために機械学習技術を使用するという関心が高まっている。 本研究では, バイエルン隠れ物理モデルを用いて, プリスティーヌ試料から得られたデータを用いて, 金属試料中の音響インパルスの伝播を規定する物理を初めて解明する。 次に、学習した物理を用いて、表面破断欠陥のある別個の標本の微細構造を特徴づける。 興味深いことに、最初の標本から学んだ物理学は、物理学が推測された標本から完全に欠如している定性的な特徴である後者のサンプルで観察された後方散乱を理解することを可能にする。 後方散乱は、メディア内の音の速度として認識できる潜在空間場の非均質性によって説明される。

There has been a surge in the interest of using machine learning techniques to assist in the scientific process of formulating knowledge to explain observational data. We demonstrate the use of Bayesian Hidden Physics Models to first uncover the physics governing the propagation of acoustic impulses in metallic specimens using data obtained from a pristine sample. We then use the learned physics to characterize the microstructure of a separate specimen with a surface-breaking crack flaw. Remarkably, we find that the physics learned from the first specimen allows us to understand the backscattering observed in the latter sample, a qualitative feature that is wholly absent from the specimen from which the physics were inferred. The backscattering is explained through inhomogeneities of a latent spatial field that can be recognized as the speed of sound in the media.
翻訳日:2021-03-16 13:50:12 公開日:2021-03-12
# 菌糸体semマイクログラフの鉱業用アーティファクト

Mining Artifacts in Mycelium SEM Micrographs ( http://arxiv.org/abs/2103.07573v1 )

ライセンス: Link先を確認
Thaicia Stona de Almeida(参考訳) 菌糸体は菌糸体に基づく有望な生体材料であり、非常に多孔質なナノファイバー構造である。 走査型電子顕微鏡はネットワークの特徴付けに用いられているが、現在利用可能なナノ繊維マイクロ構造のためのツールは、生体材料の特異性を考慮していない。 菌糸体キャラクタリゼーションにおける人工ナノ繊維のソフトウェアの採用は、解析にイメージングアーティファクトの形成の不確実性をもたらす。 報告された研究は、ミセリウムのマッピングされた細孔内のアーティファクトの同定を自動化する、教師付きおよび教師なしの機械学習手法を組み合わせている。 キーワード:機械学習、教師なし学習、画像処理、菌糸体、組織情報学

Mycelium is a promising biomaterial based on fungal mycelium, a highly porous, nanofibrous structure. Scanning electron micrographs are used to characterize its network, but the currently available tools for nanofibrous microstructures do not contemplate the particularities of biomaterials. The adoption of a software for artificial nanofibrous in mycelium characterization adds the uncertainty of imaging artifact formation to the analysis. The reported work combines supervised and unsupervised machine learning methods to automate the identification of artifacts in the mapped pores of mycelium microstructure. Keywords: Machine learning; unsupervised learning; image processing; mycelium; microstructure informatics
翻訳日:2021-03-16 13:46:52 公開日:2021-03-12
# (参考訳) 観測予測のための時間グラフと静的グラフの等価性について

On the Equivalence Between Temporal and Static Graph Representations for Observational Predictions ( http://arxiv.org/abs/2103.07016v1 )

ライセンス: CC BY-SA 4.0
Jianfei Gao, Bruno Ribeiro(参考訳) 本研究では、時間グラフにおけるノード属性の進化を予測する(純粋な観測)タスクを定式化する。 We show that node representations of temporal graphs can be cast into two distinct frameworks: (a) The de-facto standard approach, which we denote {\em time-and-graph}, where equivariant graph (e.g., GNN) and sequence (e.g., RNN) representations are intertwined to represent the temporal evolution of the graph; and (b) an approach that we denote {\em time-then-graph}, where the sequences describing the node and edge dynamics are represented first (e.g., RNN), then fed as node and edge attributes into a (static) equivariant graph representation that comes after (e.g., GNN). 実世界のデータセットでは、我々の時間とグラフのフレームワークが、最先端の時間とグラフの手法と同じ予測性能を達成することを示す。 興味深いことに、1-Weisfeiler-Lehman GNN のように、最も表現力のない成分 GNN を使用する場合、時間とグラフの表現よりも表現性が有利である。 この表現力の利点により、state-of-the-art {\em-time-and-graph} メソッドが失敗する間に {\em time-then-graph} メソッドが成功するタスクを導入する。

In this work we formalize the (pure observational) task of predicting node attribute evolution in temporal graphs. We show that node representations of temporal graphs can be cast into two distinct frameworks: (a) The de-facto standard approach, which we denote {\em time-and-graph}, where equivariant graph (e.g., GNN) and sequence (e.g., RNN) representations are intertwined to represent the temporal evolution of the graph; and (b) an approach that we denote {\em time-then-graph}, where the sequences describing the node and edge dynamics are represented first (e.g., RNN), then fed as node and edge attributes into a (static) equivariant graph representation that comes after (e.g., GNN). In real-world datasets, we show that our {\em time-then-graph} framework achieves the same prediction performance as state-of-the-art {\em time-and-graph} methods. Interestingly, {\em time-then-graph} representations have an expressiveness advantage over {\em time-and-graph} representations when both use component GNNs that are not most-expressive (e.g., 1-Weisfeiler-Lehman GNNs). We introduce a task where this expressiveness advantage allows {\em time-then-graph} methods to succeed while state-of-the-art {\em time-and-graph} methods fail.
翻訳日:2021-03-15 23:28:54 公開日:2021-03-12
# (参考訳) インターリーブ学習とニューラルアーキテクチャ探索への応用

Interleaving Learning, with Application to Neural Architecture Search ( http://arxiv.org/abs/2103.07018v1 )

ライセンス: CC BY 4.0
Hao Ban, Pengtao Xie(参考訳) インターリーブ学習は、学習者が複数のトピックの研究をインターリーブする人間の学習技術であり、長期の保持を高め、学習した知識を伝達する能力を向上させます。 本稿では,人間の相互学習技術に着想を得て,この学習手法が機械学習モデルの性能向上にも有効であるかどうかを検討する。 本稿では、interleaving learning(il)と呼ばれる新しい機械学習フレームワークを提案する。 私たちのフレームワークでは、一連のモデルが共同でデータエンコーダをインターリーブ形式で学習します。エンコーダはしばらくモデル1によって訓練され、さらにトレーニングするためにモデル2に渡され、そしてモデル3に渡されます。すべてのモデルによって訓練された後、エンコーダはモデル1に戻り、再びトレーニングされ、モデル2、3などに移動します。 このプロセスは複数のラウンドで繰り返される。 このフレームワークは,複数の相互接続学習段階からなるマルチレベル最適化に基づいている。 マルチレベル最適化問題を解くために,効率的な勾配に基づくアルゴリズムを開発した。 CIFAR-10, CIFAR-100, ImageNetの画像分類にインターリービング学習を適用した。 実験結果により,本手法の有効性が実証された。

Interleaving learning is a human learning technique where a learner interleaves the studies of multiple topics, which increases long-term retention and improves ability to transfer learned knowledge. Inspired by the interleaving learning technique of humans, in this paper we explore whether this learning methodology is beneficial for improving the performance of machine learning models as well. We propose a novel machine learning framework referred to as interleaving learning (IL). In our framework, a set of models collaboratively learn a data encoder in an interleaving fashion: the encoder is trained by model 1 for a while, then passed to model 2 for further training, then model 3, and so on; after trained by all models, the encoder returns back to model 1 and is trained again, then moving to model 2, 3, etc. This process repeats for multiple rounds. Our framework is based on multi-level optimization consisting of multiple inter-connected learning stages. An efficient gradient-based algorithm is developed to solve the multi-level optimization problem. We apply interleaving learning to search neural architectures for image classification on CIFAR-10, CIFAR-100, and ImageNet. The effectiveness of our method is strongly demonstrated by the experimental results.
翻訳日:2021-03-15 23:27:26 公開日:2021-03-12
# (参考訳) ニューラルマシン翻訳のためのバイリンガル辞書に基づく言語モデル

Bilingual Dictionary-based Language Model Pretraining for Neural Machine Translation ( http://arxiv.org/abs/2103.07040v1 )

ライセンス: CC BY 4.0
Yusen Lin, Jiayong Lin, Shuaicheng Zhang, Haoying Dai(参考訳) 近年の研究では、言語間言語モデル事前学習(Lample and Conneau, 2019)、特に翻訳言語モデリング(TLM)の適用により、ニューラルネットワーク翻訳の性能が向上することが示されている。 本研究では、TLMによる高価な並列コーポラの必要性を軽減するために、辞書からの翻訳情報を事前学習プロセスに組み込み、新しいバイリンガル辞書ベース言語モデル(BDLM)を提案する。 BDLMを中国語、英語、ルーマニア語で評価します。 WMT-News19 (Tiedemann, 2012) では 55.0 BLEU、WMT20 では 24.3 BLEU を取得し、それぞれ 8.4 BLEU と 2.3 BLEU 以上で Vanilla Transformer (Vaswani et al., 2017) を上回った。 以上の結果から,BDLMは収束速度と稀な単語の予測にも利点があることがわかった。 WMT16ルーマニア英語のためのBLEUの増加は、低リソース言語翻訳にもその効果を示しています。

Recent studies have demonstrated a perceivable improvement on the performance of neural machine translation by applying cross-lingual language model pretraining (Lample and Conneau, 2019), especially the Translation Language Modeling (TLM). To alleviate the need for expensive parallel corpora by TLM, in this work, we incorporate the translation information from dictionaries into the pretraining process and propose a novel Bilingual Dictionary-based Language Model (BDLM). We evaluate our BDLM in Chinese, English, and Romanian. For Chinese-English, we obtained a 55.0 BLEU on WMT-News19 (Tiedemann, 2012) and a 24.3 BLEU on WMT20 news-commentary, outperforming the Vanilla Transformer (Vaswani et al., 2017) by more than 8.4 BLEU and 2.3 BLEU, respectively. According to our results, the BDLM also has advantages on convergence speed and predicting rare words. The increase in BLEU for WMT16 Romanian-English also shows its effectiveness in low-resources language translation.
翻訳日:2021-03-15 22:58:36 公開日:2021-03-12
# (参考訳) 単一雑音軌道からの$\ell_1$-regularized PDE同定の漸近理論

Asymptotic Theory of $\ell_1$-Regularized PDE Identification from a Single Noisy Trajectory ( http://arxiv.org/abs/2103.07045v1 )

ライセンス: CC BY 4.0
Yuchen He, Namjoon Suh, Xiaoming Huo, Sungha Kang, Yajun Mei(参考訳) 線形および非線形進化的偏微分方程式(PDE)の一般クラスに対するサポート回復を,$\ell_1$正規化Pseudo-Least Squaresモデル~($\ell_1$-PsLS)を用いて1つの雑音軌道から同定する。 未知の PDE 演算子を含む有限個の微分演算子によって生成される任意の連想 $\mathbb{R}$-代数において、$\ell_1$-PsLS を与えられたデータセットに適用すると、正規化重み $\lambda\geq 0$ によってパラメータ化された係数 $\mathbf{c}(\lambda)$ の候補モデルの族が得られる。 $\{\mathbf{c}(\lambda)\}_{\lambda\geq 0}$のトレースは、データノイズと有限差近似誤差のために高いばらつきに苦しんでいる。 ローカル-ポリノミカルフィルタでデノベートされた単一の軌道データから、$\mathbf{c}(\lambda)$ asymptotically のサポートは、十分に多くのデータと一定の範囲の$\lambda$に対して基礎となる PDE に関連する真の符号付きサポートに収束することを保証する十分な条件のセットを提供する。 また,理論を検証するために様々な数値実験を行う。

We prove the support recovery for a general class of linear and nonlinear evolutionary partial differential equation (PDE) identification from a single noisy trajectory using $\ell_1$ regularized Pseudo-Least Squares model~($\ell_1$-PsLS). In any associative $\mathbb{R}$-algebra generated by finitely many differentiation operators that contain the unknown PDE operator, applying $\ell_1$-PsLS to a given data set yields a family of candidate models with coefficients $\mathbf{c}(\lambda)$ parameterized by the regularization weight $\lambda\geq 0$. The trace of $\{\mathbf{c}(\lambda)\}_{\lambda\geq 0}$ suffers from high variance due to data noises and finite difference approximation errors. We provide a set of sufficient conditions which guarantee that, from a single trajectory data denoised by a Local-Polynomial filter, the support of $\mathbf{c}(\lambda)$ asymptotically converges to the true signed-support associated with the underlying PDE for sufficiently many data and a certain range of $\lambda$. We also show various numerical experiments to validate our theory.
翻訳日:2021-03-15 22:47:04 公開日:2021-03-12
# (参考訳) 言語発散を利用したオーサシップ検証の改善

Improving Authorship Verification using Linguistic Divergence ( http://arxiv.org/abs/2103.07052v1 )

ライセンス: CC BY 4.0
Yifan Zhang, Dainis Boumber, Marjan Hosseinia, Fan Yang, Arjun Mukherjee(参考訳) 本稿では,事前学習した深層言語モデルを用いてDV-Distanceと呼ばれる新しいメトリクスを演算するオーサシップ検証タスクの教師なし解を提案する。 提案するメトリクスは,事前学習した言語モデルと比較した2人の著者間の差異の尺度である。 著者検証における非互換性の問題に対処し,小領域やクロスドメインのコーパスで頻繁に発生する。 我々の知る限り、本論文は、間接的ではなく、ゼロから非互換性を念頭に置いて設計された手法を初めて導入するものである。 また、この設定でDeep Language Modelsを使った最初の例の1つです。 アプローチは直感的で、視覚化を通じて理解し、解釈するのは簡単です。 4つのデータセットの実験は、ほとんどのタスクで現在の最新かつ強力なベースラインと一致するか、上回る方法を示しています。

We propose an unsupervised solution to the Authorship Verification task that utilizes pre-trained deep language models to compute a new metric called DV-Distance. The proposed metric is a measure of the difference between the two authors comparing against pre-trained language models. Our design addresses the problem of non-comparability in authorship verification, frequently encountered in small or cross-domain corpora. To the best of our knowledge, this paper is the first one to introduce a method designed with non-comparability in mind from the ground up, rather than indirectly. It is also one of the first to use Deep Language Models in this setting. The approach is intuitive, and it is easy to understand and interpret through visualization. Experiments on four datasets show our methods matching or surpassing current state-of-the-art and strong baselines in most tasks.
翻訳日:2021-03-15 22:45:40 公開日:2021-03-12
# (参考訳) 分解画像と合成ヘイズ生成に先立って応用した高度多重線形回帰型ダークチャネル

Advanced Multiple Linear Regression Based Dark Channel Prior Applied on Dehazing Image and Generating Synthetic Haze ( http://arxiv.org/abs/2103.07065v1 )

ライセンス: CC BY 4.0
Binghan Li, Yindong Hua, Mi Lu(参考訳) ヘイズ除去は非常に困難な作業であり、近年、自動運転や交通監視の普及により、ヘイズ環境での物体検出が注目されています。 本研究では,Dark Channel Prior という,広く採用されているデハージングアルゴリズムに基づく複数の線形回帰ヘイズ除去モデルを提案する。 合成ハジーデータセットを用いてこのモデルを訓練することにより,暗チャネルプリエントにおける送信マップと大気光の粗さ推定から生じる予期せぬ偏差を低減できる。 ヘージー環境における物体検出精度を高めるために、著者らは、MS COCOトレーニングデータセットに人工ヘーゼを生成して合成ヘージーCOCOトレーニングデータセットを構築するアルゴリズムを提示した。 実験の結果,提案モデルは従来のピクセルベースデヘイジングアルゴリズムやニューラルネットワークによるヘイズ除去モデルよりも画質が高く,グラウンド真理画像との類似度が高いことがわかった。 また,提案モデルを用いてhazeを除去し,合成hazy cocoトレーニングデータセットと前処理テストhazyデータセットを用いてネットワークをトレーニングする場合,マスクr-cnnの平均精度を評価する。 どちらのアプローチも、オブジェクトの検出精度を大幅に向上させ、ヘイズ画像よりも既存のほとんどのオブジェクト検出モデルより優れています。

Haze removal is an extremely challenging task, and object detection in the hazy environment has recently gained much attention due to the popularity of autonomous driving and traffic surveillance. In this work, the authors propose a multiple linear regression haze removal model based on a widely adopted dehazing algorithm named Dark Channel Prior. Training this model with a synthetic hazy dataset, the proposed model can reduce the unanticipated deviations generated from the rough estimations of transmission map and atmospheric light in Dark Channel Prior. To increase object detection accuracy in the hazy environment, the authors further present an algorithm to build a synthetic hazy COCO training dataset by generating the artificial haze to the MS COCO training dataset. The experimental results demonstrate that the proposed model obtains higher image quality and shares more similarity with ground truth images than most conventional pixel-based dehazing algorithms and neural network based haze-removal models. The authors also evaluate the mean average precision of Mask R-CNN when training the network with synthetic hazy COCO training dataset and preprocessing test hazy dataset by removing the haze with the proposed dehazing model. It turns out that both approaches can increase the object detection accuracy significantly and outperform most existing object detection models over hazy images.
翻訳日:2021-03-15 22:28:54 公開日:2021-03-12
# (参考訳) Twitterの返信のスタンスを分類するアプローチ

A Weakly Supervised Approach for Classifying Stance in Twitter Replies ( http://arxiv.org/abs/2103.07098v1 )

ライセンス: CC BY 4.0
Sumeet Kumar, Ramon Villa Cox, Matthew Babcock, Kathleen M. Carley(参考訳) ソーシャルメディア(SM)に関する議論は、オンラインハラスメントや噂の拡散など、ウェブ上の社会問題の調査にますます利用されている。 このような問題に対して、共通の研究のスレッドは、例えば、噂の事実的不正確さを指摘する返信など、逆反応を使用する。 敵の反応はオンライン会話で広く見られるが、これらの不利な見解(あるいは姿勢)を回答中のテキストから推測することは困難であり、複雑な自然言語処理(nlp)モデルを必要とする。 さらに,従来のNLPモデルでは,教師あり学習のためのラベル付きデータが必要である。 ラベル付き会話は、どんなトピックでも会話ができるので、それ自体が困難であり、トピックは時間とともに変化する。 これらの課題は、姿勢の学習を困難なNLP問題にする。 本研究では,各トピックに対するユーザの意見(プロ/コンなど)と,他の投稿(好意的/好意的)に対するユーザのスタンスの両方をラベル付けして,3つの異なるトピックからなる新しいスタンスデータセットを作成する。 教師付きアプローチによる制限を見つけるため,Twitter応答の姿勢を予測する弱教師付きアプローチを提案する。 提案手法では,少数のハッシュタグを用いてTwitter応答の弱いラベルを生成することができる。 教師付き学習と比較して,トレーニングセットに手作業による例を使わずに,手作業によるデータセットの平均F1-macroを8\%改善する。 さらに,提案手法のtwitter上でのcovid-19関連会話への適用性を示す。

Conversations on social media (SM) are increasingly being used to investigate social issues on the web, such as online harassment and rumor spread. For such issues, a common thread of research uses adversarial reactions, e.g., replies pointing out factual inaccuracies in rumors. Though adversarial reactions are prevalent in online conversations, inferring those adverse views (or stance) from the text in replies is difficult and requires complex natural language processing (NLP) models. Moreover, conventional NLP models for stance mining need labeled data for supervised learning. Getting labeled conversations can itself be challenging as conversations can be on any topic, and topics change over time. These challenges make learning the stance a difficult NLP problem. In this research, we first create a new stance dataset comprised of three different topics by labeling both users' opinions on the topics (as in pro/con) and users' stance while replying to others' posts (as in favor/oppose). As we find limitations with supervised approaches, we propose a weakly-supervised approach to predict the stance in Twitter replies. Our novel method allows using a smaller number of hashtags to generate weak labels for Twitter replies. Compared to supervised learning, our method improves the mean F1-macro by 8\% on the hand-labeled dataset without using any hand-labeled examples in the training set. We further show the applicability of our proposed method on COVID 19 related conversations on Twitter.
翻訳日:2021-03-15 22:04:39 公開日:2021-03-12
# (参考訳) 説明可能なAIフレームワークを用いたネットワーク侵入検知システム

Explaining Network Intrusion Detection System Using Explainable AI Framework ( http://arxiv.org/abs/2103.07110v1 )

ライセンス: CC BY 4.0
Shraddha Mane, Dattaraj Rao(参考訳) サイバーセキュリティは、サイバーインフラを攻撃する新しいパターンを探求する攻撃者とのデータ分布が絶えず変化しているドメインです。 侵入検知システムは、今日の世界のサイバー安全の重要なレイヤーの1つです。 近年,機械学習によるネットワーク侵入検知システムが有効性を示した。 ディープラーニングモデルでは、ネットワーク侵入検知システムの検出率が改善される。 モデルがより正確になり、複雑さが増し、解釈性が低下する。 ディープニューラルネットワークは複雑で解釈が難しいため、意思決定の背後にある理由が分からないため、プロダクションで使用するのが難しい。 本稿では,ディープニューラルネットワークをネットワーク侵入検出に使用し,機械学習パイプラインのすべてのステージに透過性を加えるための説明可能なaiフレームワークを提案する。 これは、予測された理由に関する説明を提供することで、MLモデルをブラックボックスより少なくすることに焦点を当てた説明可能なAIアルゴリズムを活用することで実現される。 説明は、サイバー攻撃の予測にどのような特徴が影響するか、そしてどの程度まで測定可能な要因を提供します。 これらの説明は SHAP, LIME, Contrastive Explanations Method, ProtoDash, Boolean Decision Rules から列生成を介して生成される。 侵入検知システムのためのNSL KDDデータセットにこれらの手法を適用し,結果を実証する。

Cybersecurity is a domain where the data distribution is constantly changing with attackers exploring newer patterns to attack cyber infrastructure. Intrusion detection system is one of the important layers in cyber safety in today's world. Machine learning based network intrusion detection systems started showing effective results in recent years. With deep learning models, detection rates of network intrusion detection system are improved. More accurate the model, more the complexity and hence less the interpretability. Deep neural networks are complex and hard to interpret which makes difficult to use them in production as reasons behind their decisions are unknown. In this paper, we have used deep neural network for network intrusion detection and also proposed explainable AI framework to add transparency at every stage of machine learning pipeline. This is done by leveraging Explainable AI algorithms which focus on making ML models less of black boxes by providing explanations as to why a prediction is made. Explanations give us measurable factors as to what features influence the prediction of a cyberattack and to what degree. These explanations are generated from SHAP, LIME, Contrastive Explanations Method, ProtoDash and Boolean Decision Rules via Column Generation. We apply these approaches to NSL KDD dataset for intrusion detection system and demonstrate results.
翻訳日:2021-03-15 21:44:06 公開日:2021-03-12
# (参考訳) 脳波異種データの特徴選択のためのGA

GA for feature selection of EEG heterogeneous data ( http://arxiv.org/abs/2103.07117v1 )

ライセンス: CC BY 4.0
Aurora Saibene (1 and 2) and Francesca Gasparini (1 and 2) ((1) University of Milano-Bicocca, Department of Informatics, Systems and Communications, Multi Media Signal Processing Laboratory, (2) University of Milano-Bicocca, NeuroMI)(参考訳) 脳波信号(EEG)は、脳の活動と機能に関する高い情報を提供する。 しかし、その不均一性と高次元性は解釈の障害となるかもしれない。 先行知識の導入は、高次元問題を緩和する最善の選択肢と思われるが、データに存在する情報やパターンが失われる可能性がある一方で、データの均一性はしばしば一般化を難しくするオープンな問題である。 本研究では,教師なしあるいは教師なしのアプローチで利用可能な特徴選択のための遺伝的アルゴリズム(GA)を提案する。 専門家の知識に頼らず、3つのフィットネス機能を検討します。 認知作業負荷と運動/画像に関する2つの公開データセットから始めて、EEG信号は処理され、正規化され、その特徴が時間、周波数、時間周波数ドメインで計算される。 特徴ベクトルの選択は、GA提案を適用して、2つのベンチマーク手法と比較することで行う。 その結果,提案手法の異なる組み合わせは,全体的な性能と機能削減の観点から,ベンチマークよりも優れた結果が得られることがわかった。 さらに, 提案したGAは, 新たな適合度関数に基づいて, 検討した2つの異なるデータセットをマージした場合のベンチマークを上回り, 異種データに対する提案の有効性を示す。

The electroencephalographic (EEG) signals provide highly informative data on brain activities and functions. However, their heterogeneity and high dimensionality may represent an obstacle for their interpretation. The introduction of a priori knowledge seems the best option to mitigate high dimensionality problems, but could lose some information and patterns present in the data, while data heterogeneity remains an open issue that often makes generalization difficult. In this study, we propose a genetic algorithm (GA) for feature selection that can be used with a supervised or unsupervised approach. Our proposal considers three different fitness functions without relying on expert knowledge. Starting from two publicly available datasets on cognitive workload and motor movement/imagery, the EEG signals are processed, normalized and their features computed in the time, frequency and time-frequency domains. The feature vector selection is performed by applying our GA proposal and compared with two benchmarking techniques. The results show that different combinations of our proposal achieve better results in respect to the benchmark in terms of overall performance and feature reduction. Moreover, the proposed GA, based on a novel fitness function here presented, outperforms the benchmark when the two different datasets considered are merged together, showing the effectiveness of our proposal on heterogeneous data.
翻訳日:2021-03-15 21:36:36 公開日:2021-03-12
# (参考訳) パラメータ化ニューラルネットワークを用いた複素音のスペクトル時間表現の学習

Learning spectro-temporal representations of complex sounds with parameterized neural networks ( http://arxiv.org/abs/2103.07125v1 )

ライセンス: CC BY-SA 4.0
Rachid Riad and Julien Karadayi and Anne-Catherine Bachoud-L\'evi and Emmanuel Dupoux(参考訳) 深層学習モデルは、近年の様々な聴覚タスクの成功により、聴覚神経科学研究の候補となりつつある。 しかし、これらのモデルはしばしば、実行された正確な計算を完全に理解する解釈能力が欠けている。 そこで本研究では,Gaborカーネル(Learnable STRF)に基づく特定のスペクトル時間変調を算出し,完全に解釈可能なパラメータ化ニューラルネットワーク層を提案する。 音声活動検出,話者照合,都市音響分類,ゼブラフィンチ呼出タイプの分類において,この層の予測能力を評価した。 その結果、学習可能なSTRFに基づくモデルは、トポラインの異なる全てのタスクに対して同等であり、音声活動検出に最適な性能が得られることがわかった。 この層は完全に解釈可能であるので、学習した分光時間変調の分布を記述するために定量的な尺度を用いた。 各タスクに適応し、主に低時間およびスペクトル変調に焦点を当てたフィルタ。 分析の結果,ヒトの音声で学習したフィルタは,ヒトの聴覚野で直接測定されたフィルタとよく似たスペクトル時間パラメータを持つことがわかった。 最後に,人間の声化タスクが互いに近接し,鳥の声化タスクが人間の声化タスクや都市音化タスクから遠く離れた,有意義な方法で編成されたことを観察した。

Deep Learning models have become potential candidates for auditory neuroscience research, thanks to their recent successes on a variety of auditory tasks. Yet, these models often lack interpretability to fully understand the exact computations that have been performed. Here, we proposed a parametrized neural network layer, that computes specific spectro-temporal modulations based on Gabor kernels (Learnable STRFs) and that is fully interpretable. We evaluated predictive capabilities of this layer on Speech Activity Detection, Speaker Verification, Urban Sound Classification and Zebra Finch Call Type Classification. We found out that models based on Learnable STRFs are on par for all tasks with different toplines, and obtain the best performance for Speech Activity Detection. As this layer is fully interpretable, we used quantitative measures to describe the distribution of the learned spectro-temporal modulations. The filters adapted to each task and focused mostly on low temporal and spectral modulations. The analyses show that the filters learned on human speech have similar spectro-temporal parameters as the ones measured directly in the human auditory cortex. Finally, we observed that the tasks organized in a meaningful way: the human vocalizations tasks closer to each other and bird vocalizations far away from human vocalizations and urban sounds tasks.
翻訳日:2021-03-15 21:35:35 公開日:2021-03-12
# (参考訳) UIEC^2-Net:2色空間を用いたCNNによる水中画像強調

UIEC^2-Net: CNN-based Underwater Image Enhancement Using Two Color Space ( http://arxiv.org/abs/2103.07138v1 )

ライセンス: CC BY 4.0
Yudong Wang, Jichang Guo, Huan Gao, Huihui Yue(参考訳) 近年,海洋資源開発が盛んになり,水中画像の強調が注目されている。 Convolution Neural Networks(CNN)の強力な表現能力の利点は、CNNに基づく複数の水中画像強化アルゴリズムがここ数年で提案されています。 しかし、これらのアルゴリズムのほとんどがrgb色空間設定を採用しており、輝度や彩度などの画像特性に影響を受けない。 2色空間(UICE^2-Net)を用いた水中画像強調畳み込みニューラルネットワークを提案し、1つのCNNでRGB色空間とHSV色空間を効率的に効率的に統合した。 我々の知る限り、この手法は深層学習に基づく水中画像強調に初めてHSV色空間を用いたものである。 UIEC^2-Netは、RGBピクセルレベルのブロックは、カラーキャストの消色除去などの基本的な操作、新しいニューラルカーブ層を採用して水中の画像輝度、色、彩度をグローバルに調整するためのHSVグローバル調整ブロック、各ピクセルに重みを分散してRGBとHSVブロック出力画像の利点を組み合わせるための注意マップブロックの3つのブロックからなるエンドツーエンドのトレーニング可能なネットワークである。 合成および実世界の水中画像に対する実験結果から,提案手法の主観的比較と客観的評価の両方において良好な性能を示した。

Underwater image enhancement has attracted much attention due to the rise of marine resource development in recent years. Benefit from the powerful representation capabilities of Convolution Neural Networks(CNNs), multiple underwater image enhancement algorithms based on CNNs have been proposed in the last few years. However, almost all of these algorithms employ RGB color space setting, which is insensitive to image properties such as luminance and saturation. To address this problem, we proposed Underwater Image Enhancement Convolution Neural Network using 2 Color Space (UICE^2-Net) that efficiently and effectively integrate both RGB Color Space and HSV Color Space in one single CNN. To our best knowledge, this method is the first to use HSV color space for underwater image enhancement based on deep learning. UIEC^2-Net is an end-to-end trainable network, consisting of three blocks as follow: a RGB pixel-level block implements fundamental operations such as denoising and removing color cast, a HSV global-adjust block for globally adjusting underwater image luminance, color and saturation by adopting a novel neural curve layer, and an attention map block for combining the advantages of RGB and HSV block output images by distributing weight to each pixel. Experimental results on synthetic and real-world underwater images show the good performance of our proposed method in both subjective comparisons and objective metrics.
翻訳日:2021-03-15 21:31:52 公開日:2021-03-12
# (参考訳) スペクトル圧縮イメージングに先立つ深部ガウススケール混合物

Deep Gaussian Scale Mixture Prior for Spectral Compressive Imaging ( http://arxiv.org/abs/2103.07152v1 )

ライセンス: CC BY 4.0
Tao Huang, Weisheng Dong, Xin Yuan, Jinjian Wu, Guangming Shi(参考訳) 符号化開口分光画像(CASSI)システムでは、撮像された圧縮画像から実世界のハイパースペクトル画像(HSI)を再構成することができる。 モデルに基づくhsi再構成法では,手作りプリアーを用いて復元問題を解決するが,そのほとんどが,手作りプリアーの表現能力の低さにより限界的な成功を収めた。 深層学習に基づく圧縮画像とHSI間のマッピング学習手法は、はるかに優れた結果を得た。 しかし、満足な結果を得るために強力なディープ・ネットワークをヒューリスティックに設計するのは簡単ではない。 本稿では,学習型ガウススケール混合 (gsm) を用いた最大後方推定法(map)に基づく新しいhsi再構成法を提案する。 手作りのスケールプリエント(例えばjeffrey's prior)を用いた既存のgsmモデルとは異なり、我々はdeep convolutional neural network(dcnn)を通じてそのスケールを学習することを提案する。 さらに,DCNN による GSM モデルの局所的平均値の推定も提案する。 MAP推定アルゴリズムとDCNNパラメータの全てのパラメータは、エンドツーエンドのトレーニングによって共同最適化される。 合成データと実データの両方に関する広範な実験結果から,提案手法が既存の最先端手法よりも優れていることが分かる。 コードはhttps://see.xidian.edu.cn/faculty/wsdong/Projects/DGSM-SCI.htmで入手できる。

In coded aperture snapshot spectral imaging (CASSI) system, the real-world hyperspectral image (HSI) can be reconstructed from the captured compressive image in a snapshot. Model-based HSI reconstruction methods employed hand-crafted priors to solve the reconstruction problem, but most of which achieved limited success due to the poor representation capability of these hand-crafted priors. Deep learning based methods learning the mappings between the compressive images and the HSIs directly achieved much better results. Yet, it is nontrivial to design a powerful deep network heuristically for achieving satisfied results. In this paper, we propose a novel HSI reconstruction method based on the Maximum a Posterior (MAP) estimation framework using learned Gaussian Scale Mixture (GSM) prior. Different from existing GSM models using hand-crafted scale priors (e.g., the Jeffrey's prior), we propose to learn the scale prior through a deep convolutional neural network (DCNN). Furthermore, we also propose to estimate the local means of the GSM models by the DCNN. All the parameters of the MAP estimation algorithm and the DCNN parameters are jointly optimized through end-to-end training. Extensive experimental results on both synthetic and real datasets demonstrate that the proposed method outperforms existing state-of-the-art methods. The code is available at https://see.xidian.edu.cn/faculty/wsdong/Projects/DGSM-SCI.htm.
翻訳日:2021-03-15 21:07:17 公開日:2021-03-12
# (参考訳) BAPCによる説明可能なAI -- 修正パラメータの前後比較

Explainable AI by BAPC -- Before and After correction Parameter Comparison ( http://arxiv.org/abs/2103.07155v1 )

ライセンス: CC BY 4.0
Florian Sobieczky, Salma Mahmoud, Simon Neugebauer, Lukas Rippitsch, Manuela Gei{\ss}(参考訳) 局所的なサーロゲートアプローチによって、回帰モデルの枠組みにおけるai予測の説明を得る分析手法が定義される。 ベースモデルの予測に対する追加補正を生成するAIモデルの場合、AIモデル予測が厳密に定義された意味で小さい限り、その解釈可能なパラメータのシフトの形で説明が提供されます。 基準は、失われた精度とモデル忠実性の欠如の間に正確な関係を定式化する。 2つの応用は、基盤となるベースモデルの意味において、ニューラルネットワークとランダムフォレストモデルの動作を物理的または計量的パラメータを用いて解釈する方法を示している。 ISM 2020カンファレンスで発表された論文の拡張版で、新しいアプローチであるBAPCを最初に紹介しました。

By means of a local surrogate approach, an analytical method to yield explanations of AI-predictions in the framework of regression models is defined. In the case of the AI-model producing additive corrections to the predictions of a base model, the explanations are delivered in the form of a shift of its interpretable parameters as long as the AI- predictions are small in a rigorously defined sense. Criteria are formulated giving a precise relation between lost accuracy and lacking model fidelity. Two applications show how physical or econometric parameters may be used to interpret the action of neural network and random forest models in the sense of the underlying base model. This is an extended version of our paper presented at the ISM 2020 conference, where we first introduced our new approach BAPC.
翻訳日:2021-03-15 20:51:52 公開日:2021-03-12
# (参考訳) BERTはCross-Disciplinary Knowledge Learnerですか? 事前訓練されたモデルの伝達性に関する一考察

Is BERT a Cross-Disciplinary Knowledge Learner? A Surprising Finding of Pre-trained Models' Transferability ( http://arxiv.org/abs/2103.07162v1 )

ライセンス: CC BY 4.0
Wei-Tsung Kao, Hung-Yi Lee(参考訳) 本稿では,BERTなどのテキストデータに事前学習したモデルのパワーを,一般的なトークンシーケンス分類アプリケーションに転送できるかどうかを検討する。 学習済みモデルの転送性を検証するために,(1)トークンミスマッチの意味を持つテキスト分類タスク,(2)アミノ酸配列,DNA配列,音楽を含む実世界の非テキストトークン配列分類データについて,学習済みモデルの検証を行った。 非テキストデータでも、テキスト上で事前トレーニングされたモデルはランダムに初期化されたモデルよりも速く収束し、事前トレーニングされたモデルのテスト性能は特定のタスク用に設計されたモデルよりもわずかに悪いことが分かります。

In this paper, we investigate whether the power of the models pre-trained on text data, such as BERT, can be transferred to general token sequence classification applications. To verify pre-trained models' transferability, we test the pre-trained models on (1) text classification tasks with meanings of tokens mismatches, and (2) real-world non-text token sequence classification data, including amino acid sequence, DNA sequence, and music. We find that even on non-text data, the models pre-trained on text converge faster than the randomly initialized models, and the testing performance of the pre-trained models is merely slightly worse than the models designed for the specific tasks.
翻訳日:2021-03-15 20:25:33 公開日:2021-03-12
# (参考訳) オブジェクト中心プロセスキューブを用いたプロセス比較

Process Comparison Using Object-Centric Process Cubes ( http://arxiv.org/abs/2103.07184v1 )

ライセンス: CC BY 4.0
Anahita Farhang Ghahfarokhi, Alessandro Berti, Wil M.P. van der Aalst(参考訳) プロセスマイニングはビジネスプロセスを分析する方法を提供する。 一般的なプロセスマイニング技術は、プロセス全体を考慮します。 しかし、実生活のビジネスプロセスでは、プロセス全体を複雑に解釈しがちな振る舞いが存在します。 プロセス比較は、プロセスキューブを使用して、プロセスの異なる動作を互いに分離するプロセスマイニングのブランチです。 プロセスキューブはイベントデータを異なる次元で整理する。 各セルは、プロセスマイニング技術を適用するインプットとして使用できる一連のイベントを含んでいる。 プロセスキューブに関する既存の作業は、単一のケース概念を前提としている。 しかし、実際のプロセスでは、いくつかのケース概念(順序、アイテム、パッケージなど)がある。 絡み合っています オブジェクト中心のプロセスマイニングは、プロセス内の複数のケース概念に対処するプロセスマイニングの新しいブランチである。 オブジェクト中心のプロセスマイニングとプロセス比較を橋渡しするために、オブジェクト中心のイベントログ上でスライスやサイスのようなプロセスキューブ操作をサポートするプロセスキューブフレームワークを提案する。 比較を容易にするため、このフレームワークはいくつかのオブジェクト中心のプロセス発見アプローチと統合されている。

Process mining provides ways to analyze business processes. Common process mining techniques consider the process as a whole. However, in real-life business processes, different behaviors exist that make the overall process too complex to interpret. Process comparison is a branch of process mining that isolates different behaviors of the process from each other by using process cubes. Process cubes organize event data using different dimensions. Each cell contains a set of events that can be used as an input to apply process mining techniques. Existing work on process cubes assume single case notions. However, in real processes, several case notions (e.g., order, item, package, etc.) are intertwined. Object-centric process mining is a new branch of process mining addressing multiple case notions in a process. To make a bridge between object-centric process mining and process comparison, we propose a process cube framework, which supports process cube operations such as slice and dice on object-centric event logs. To facilitate the comparison, the framework is integrated with several object-centric process discovery approaches.
翻訳日:2021-03-15 20:22:17 公開日:2021-03-12
# (参考訳) DDSPを用いた歌声合成の潜時空間探索

Latent Space Explorations of Singing Voice Synthesis using DDSP ( http://arxiv.org/abs/2103.07197v1 )

ライセンス: CC BY-SA 4.0
Juan Alonso and Cumhur Erkut(参考訳) 機械学習ベースの歌声モデルは、大きなデータセットと長いトレーニング時間を必要とする。 本研究では,音高と振幅のみを条件とした音声を,12時間に及ぶ未処理音声の小さなデータセットを用いて出力することが可能な,微分可能ディジタル信号処理(DDSP)ライブラリに基づく軽量アーキテクチャを提案する。 メロディと歌手の声の両方が認識できるので、結果は有望である。 さらに,新しいモデルを訓練し,実験するためのゼロ設定ツールを2つ提示する。 現在、我々はDDSPライブラリに含まれるが、元のDDSPの例には含まれていない潜在空間表現を探っている。 以上の結果から,潜伏空間は歌唱者の識別と歌詞の理解の両方を改善することが示唆された。 私たちのコードは、ゼロコンフィグレーションノートブックへのリンク付きのhttps://github.com/juanalonso/ddsp-sing-experimentsで利用可能です。

Machine learning based singing voice models require large datasets and lengthy training times. In this work we present a lightweight architecture, based on the Differentiable Digital Signal Processing (DDSP) library, that is able to output song-like utterances conditioned only on pitch and amplitude, after twelve hours of training using small datasets of unprocessed audio. The results are promising, as both the melody and the singer's voice are recognizable. In addition, we present two zero-configuration tools to train new models and experiment with them. Currently we are exploring the latent space representation, which is included in the DDSP library, but not in the original DDSP examples. Our results indicate that the latent space improves both the identification of the singer as well as the comprehension of the lyrics. Our code is available at https://github.com/juanalonso/DDSP-singing-experiments with links to the zero-configuration notebooks, and our sound examples are at https://juanalonso.github.io/DDSP-singing-experiments/ .
翻訳日:2021-03-15 20:09:03 公開日:2021-03-12
# (参考訳) アラビア語書誌記録の自動ロマン化

Automatic Romanization of Arabic Bibliographic Records ( http://arxiv.org/abs/2103.07199v1 )

ライセンス: CC BY 4.0
Eryani Fadhl and Habash Nizar(参考訳) 国際図書館標準では、特定の言語知識を持たない図書館利用者の利益のために、カタログレコードのローマ字化を退屈に行う必要がある。 本稿では,未診断アラビア語書誌エントリの自動ロマン化に関する最初の報告結果について述べる。 この複雑な作業はアラビア音韻学、形態学、さらには意味論のモデリングを必要とする。 並列アラビア語とローマ字の書誌エントリからなる2.5Mワードコーパスを収集し、複雑さとリソース依存の点で異なるモデルをベンチマークした。 私達の最もよいシステムは盲目のテスト セットの89.3%の厳密な単語のロマン化に達します。 データとコードを公開しています。

International library standards require cataloguers to tediously input Romanization of their catalogue records for the benefit of library users without specific language expertise. In this paper, we present the first reported results on the task of automatic Romanization of undiacritized Arabic bibliographic entries. This complex task requires the modeling of Arabic phonology, morphology, and even semantics. We collected a 2.5M word corpus of parallel Arabic and Romanized bibliographic entries, and benchmarked a number of models that vary in terms of complexity and resource dependence. Our best system reaches 89.3% exact word Romanization on a blind test set. We make our data and code publicly available.
翻訳日:2021-03-15 19:55:51 公開日:2021-03-12
# (参考訳) 逐次変分オートエンコーダを用いた医用データラング

Medical data wrangling with sequential variational autoencoders ( http://arxiv.org/abs/2103.07206v1 )

ライセンス: CC BY 4.0
Daniel Barrej\'on, Pablo M. Olmos, Antonio Art\'es-Rodr\'iguez(参考訳) 医療データセットは通常、ノイズや欠落したデータによって破損する。 これらの欠落パターンは、一般的には完全にランダムであると仮定されるが、医学的なシナリオでは、このパターンは一定期間オフになっているセンサーや、不均一な方法で収集されたデータなどによってバーストで発生する。 本論文では,医用データレコードを不均一なデータ型とバースト的欠落データとでモデル化することを提案する。 特に,観測の欠如したデータストリームにvaesの機能を拡張する新しい手法であるshi-vaeを提案する。 我々は、集中治療単位データベース(ICU)と受動的人体監視データセットにおける最先端のソリューションと比較した。 さらに,rmseなどの標準誤差指標は,時間モデルを評価するのに十分な決定性を持たず,基礎的真理と含意的信号との相互相関を解析した。 本研究では,医療記録の最先端の手法であるGP-VAEモデルよりも計算の複雑性が低く,両指標の使い勝手が最良であることを示した。

Medical data sets are usually corrupted by noise and missing data. These missing patterns are commonly assumed to be completely random, but in medical scenarios, the reality is that these patterns occur in bursts due to sensors that are off for some time or data collected in a misaligned uneven fashion, among other causes. This paper proposes to model medical data records with heterogeneous data types and bursty missing data using sequential variational autoencoders (VAEs). In particular, we propose a new methodology, the Shi-VAE, which extends the capabilities of VAEs to sequential streams of data with missing observations. We compare our model against state-of-the-art solutions in an intensive care unit database (ICU) and a dataset of passive human monitoring. Furthermore, we find that standard error metrics such as RMSE are not conclusive enough to assess temporal models and include in our analysis the cross-correlation between the ground truth and the imputed signal. We show that Shi-VAE achieves the best performance in terms of using both metrics, with lower computational complexity than the GP-VAE model, which is the state-of-the-art method for medical records.
翻訳日:2021-03-15 19:42:53 公開日:2021-03-12
# (参考訳) 特徴分布に照らして:ニューラルスタイル転送のためのモーメントマッチング

In the light of feature distributions: moment matching for Neural Style Transfer ( http://arxiv.org/abs/2103.07208v1 )

ライセンス: CC BY 4.0
Nikolai Kalischek, Jan Dirk Wegner, Konrad Schindler(参考訳) スタイル転送は、ある画像のコンテンツを別の画像のグラフィカル/アーティスティックスタイルでレンダリングすることを目的としています。 NeuralStyle Transfer(NST)の基本コンセプトは、Convolutional Neural Networkの特徴空間における分布としてスタイルを解釈し、その特徴分布を一致させることで望ましいスタイルを実現できるようにすることである。 この概念の現在の実装のほとんどは、機能分布の部分的な整合性のため、重要な理論的および実践的な制限があることを示します。 本稿では,より正確に分布をマッチングし,計算効率を保ちつつ,より忠実に所望のスタイルを再現する手法を提案する。 具体的には、最近ドメイン適応のために提案されたCMD(Central Moment Discrepancy)の二重形式を適用し、出力画像の特徴分布とターゲットスタイルの違いを最小限に抑える。 この計量の双対解釈は、すべての高階集中モーメントと明示的に一致し、従って、第1モーメントと第2モーメントのみを考慮に入れた既存のNST法の自然な拡張である。 実験により,強い理論的特性は視覚的に優れたスタイル伝達とセマンティックな画像コンテンツからより良いアンタングルスタイルに変換されることが確認された。

Style transfer aims to render the content of a given image in the graphical/artistic style of another image. The fundamental concept underlying NeuralStyle Transfer (NST) is to interpret style as a distribution in the feature space of a Convolutional Neural Network, such that a desired style can be achieved by matching its feature distribution. We show that most current implementations of that concept have important theoretical and practical limitations, as they only partially align the feature distributions. We propose a novel approach that matches the distributions more precisely, thus reproducing the desired style more faithfully, while still being computationally efficient. Specifically, we adapt the dual form of Central Moment Discrepancy (CMD), as recently proposed for domain adaptation, to minimize the difference between the target style and the feature distribution of the output image. The dual interpretation of this metric explicitly matches all higher-order centralized moments and is therefore a natural extension of existing NST methods that only take into account the first and second moments. Our experiments confirm that the strong theoretical properties also translate to visually better style transfer, and better disentangle style from semantic image content.
翻訳日:2021-03-15 19:21:28 公開日:2021-03-12
# (参考訳) DDSPを用いたリアルタイムタイミング転送と音合成

Real-time Timbre Transfer and Sound Synthesis using DDSP ( http://arxiv.org/abs/2103.07220v1 )

ライセンス: CC BY-SA 4.0
Francesco Ganis, Erik Frej Knudesn, S{\o}ren V. K. Lyster, Robin Otterbein, David S\"udholt and Cumhur Erkut(参考訳) ニューラルオーディオ合成は積極的に研究されているトピックであり、機械学習アーキテクチャを活用した幅広い技術を生み出した。 google magenta氏は、ディープニューラルネットワークとプリコンディショニングされたデジタル信号処理技術を組み込んだ差分デジタル信号処理(ddsp)と呼ばれる新しいアプローチを詳しく説明した。 しかし、DDSPを含むこれらの技術の多くは、一般にリアルタイムの制約には適用されず、音楽のワークフローでは無視できる。 本稿では,デジタルオーディオワークステーションで使用可能なプラグインとして,仮想シンセサイザーに埋め込まれたDDSPライブラリのリアルタイム実装について述べる。 実楽器の学習表現から任意の音響入力への音色伝達とMIDIによるこれらのモデル制御に着目した。 さらに,ニューラルネットワークによって推定されるパラメータの処理や操作に使用可能な,直感的な高レベル制御のためのGUIを開発した。 7名の参加者によるユーザー体験テストをオンラインで実施しました。 その結果,ユーザインターフェースが魅力的で,理解しやすく,さらに探究する価値があることがわかった。 同時に、私たちは、音色転送の品質、実装していないいくつかのコンポーネント、プラグインのインストールと配布の問題を特定しました。 デザインの次のイテレーションでは、これらの問題に対処します。 リアルタイムMATLABとJUCEの実装は、https://github.com/SMC704/juce-ddspとhttps://github.com/SMC704/matlab-ddspで利用できます。

Neural audio synthesis is an actively researched topic, having yielded a wide range of techniques that leverages machine learning architectures. Google Magenta elaborated a novel approach called Differential Digital Signal Processing (DDSP) that incorporates deep neural networks with preconditioned digital signal processing techniques, reaching state-of-the-art results especially in timbre transfer applications. However, most of these techniques, including the DDSP, are generally not applicable in real-time constraints, making them ineligible in a musical workflow. In this paper, we present a real-time implementation of the DDSP library embedded in a virtual synthesizer as a plug-in that can be used in a Digital Audio Workstation. We focused on timbre transfer from learned representations of real instruments to arbitrary sound inputs as well as controlling these models by MIDI. Furthermore, we developed a GUI for intuitive high-level controls which can be used for post-processing and manipulating the parameters estimated by the neural network. We have conducted a user experience test with seven participants online. The results indicated that our users found the interface appealing, easy to understand, and worth exploring further. At the same time, we have identified issues in the timbre transfer quality, in some components we did not implement, and in installation and distribution of our plugin. The next iteration of our design will address these issues. Our real-time MATLAB and JUCE implementations are available at https://github.com/SMC704/juce-ddsp and https://github.com/SMC704/matlab-ddsp , respectively.
翻訳日:2021-03-15 19:04:52 公開日:2021-03-12
# (参考訳) きめ細かい画像分類のための逐次ランダムネットワーク

Sequential Random Network for Fine-grained Image Classification ( http://arxiv.org/abs/2103.07230v1 )

ライセンス: CC BY 4.0
Chaorong Li, Malu Zhang, Wei Huang, Fengqing Qin, Anping Zeng, Yuanyuan Huang(参考訳) Deep Convolutional Neural Network (DCNN)とTransformerは、画像認識において顕著な成功を収めている。 しかし, 画像認識におけるそれらの性能は, 実際の要求を満たすことは依然として困難である。 本稿では、DCNNの性能を高めるためにSRN(Sequence Random Network)を提案する。 DCNNの出力は1次元機能です。 この一次元特徴は抽象的に画像情報を表すが、画像の詳細な情報をうまく表現していない。 本稿では,BiLSTMといくつかのTanh-Dropoutブロック(BiLSTM-TDN)から構成されるSRNを用いて,DCNNの一次元特徴を処理し,画像の詳細情報を強調する。 BiLSTM-TDNによる特徴変換の後、認識性能が大幅に向上した。 6つの微細な画像データセットで実験を行った。 FGVC-Aircraftを除いて、他のデータセットに対する提案手法の精度は99%を超えた。 実験の結果, BiLSTM-TDNは既存の最先端手法よりもはるかに優れていることがわかった。 DCNNに加えて、BiLSTM-TDNはTransformerのような他のモデルにも拡張できます。

Deep Convolutional Neural Network (DCNN) and Transformer have achieved remarkable successes in image recognition. However, their performance in fine-grained image recognition is still difficult to meet the requirements of actual needs. This paper proposes a Sequence Random Network (SRN) to enhance the performance of DCNN. The output of DCNN is one-dimensional features. This one-dimensional feature abstractly represents image information, but it does not express well the detailed information of image. To address this issue, we use the proposed SRN which composed of BiLSTM and several Tanh-Dropout blocks (called BiLSTM-TDN), to further process DCNN one-dimensional features for highlighting the detail information of image. After the feature transform by BiLSTM-TDN, the recognition performance has been greatly improved. We conducted the experiments on six fine-grained image datasets. Except for FGVC-Aircraft, the accuracies of the proposed methods on the other datasets exceeded 99%. Experimental results show that BiLSTM-TDN is far superior to the existing state-of-the-art methods. In addition to DCNN, BiLSTM-TDN can also be extended to other models, such as Transformer.
翻訳日:2021-03-15 18:53:46 公開日:2021-03-12
# (参考訳) 行列の低ランク近似を効率的に計算するための投影型QLPアルゴリズム

Projection-based QLP Algorithm for Efficiently Computing Low-Rank Approximation of Matrices ( http://arxiv.org/abs/2103.07245v1 )

ライセンス: CC BY 4.0
Maboud F. Kaloorazi and Jie Chen(参考訳) 数値階級の低い行列は、多くの信号処理やデータ解析の応用において一様である。 ピボットQLP (p-QLP) アルゴリズムは入力された低ランク行列に対する高精度な近似を構築する。 しかし、大きな行列に対しては計算的に禁止される。 本稿では,プロジェクションベース部分QLP(PbP-QLP)と呼ばれる新しいアルゴリズムを導入し,p-QLPを高精度に近似する。 我々の研究の基本はランダム化の活用であり、p-QLPとは対照的に、PbP-QLPはピボット戦略を使わない。 したがって、pbp-qlpは、競合するランダム化アルゴリズムよりも、現代のコンピュータアーキテクチャを活用できる。 提案するPbP-QLPアルゴリズムの有効性を,合成および実世界のデータ行列の様々なクラスを用いて検討した。

Matrices with low numerical rank are omnipresent in many signal processing and data analysis applications. The pivoted QLP (p-QLP) algorithm constructs a highly accurate approximation to an input low-rank matrix. However, it is computationally prohibitive for large matrices. In this paper, we introduce a new algorithm termed Projection-based Partial QLP (PbP-QLP) that efficiently approximates the p-QLP with high accuracy. Fundamental in our work is the exploitation of randomization and in contrast to the p-QLP, PbP-QLP does not use the pivoting strategy. As such, PbP-QLP can harness modern computer architectures, even better than competing randomized algorithms. The efficiency and effectiveness of our proposed PbP-QLP algorithm are investigated through various classes of synthetic and real-world data matrices.
翻訳日:2021-03-15 18:36:24 公開日:2021-03-12
# (参考訳) ヒトポース推定のための深層二重連続ネットワーク

Deep Dual Consecutive Network for Human Pose Estimation ( http://arxiv.org/abs/2103.07254v1 )

ライセンス: CC BY 4.0
Zhenguang Liu, Haoming Chen, Runyang Feng, Shuang Wu, Shouling Ji, Bailin Yang, Xun Wang(参考訳) 複雑な状況下でのマルチフレーム人間のポーズ推定は困難です。 最先端のヒト関節検出器は静的画像に対して顕著な結果を示したが,これらのモデルをビデオシーケンスに適用した場合,その性能は短かった。 一般的な欠点は、モーションボケ、ビデオデフォーカス、またはビデオフレーム間の時間依存性をキャプチャできないことから生じる閉塞を処理できないことです。 一方、従来のリカレントニューラルネットワークを直接利用すると、特にポーズオクルージョンを扱う場合、空間コンテキストのモデリングにおいて経験的な困難が生じる。 本稿では,ビデオフレーム間の豊富な時間的手がかりを活用し,キーポイント検出を容易にするマルチフレームの人物ポーズ推定フレームワークを提案する。 3つのモジュールコンポーネントがフレームワークで設計されています。 ポーズ時間マージはキーポイント時空間を符号化して効果的な探索スコープを生成し、ポーズ残差融合モジュールは重み付きポーズ残差を2方向で計算する。 これらは、ポーズ推定の効率的な精錬のためにPose Correction Networkを介して処理されます。 提案手法は,大規模ベンチマークデータセットPoseTrack2017とPoseTrack2018において,多フレームPerson Pose Estimation Challengeの1位にランクインする。 将来の研究に刺激を与えることを期待して、コードをリリースしました。

Multi-frame human pose estimation in complicated situations is challenging. Although state-of-the-art human joints detectors have demonstrated remarkable results for static images, their performances come short when we apply these models to video sequences. Prevalent shortcomings include the failure to handle motion blur, video defocus, or pose occlusions, arising from the inability in capturing the temporal dependency among video frames. On the other hand, directly employing conventional recurrent neural networks incurs empirical difficulties in modeling spatial contexts, especially for dealing with pose occlusions. In this paper, we propose a novel multi-frame human pose estimation framework, leveraging abundant temporal cues between video frames to facilitate keypoint detection. Three modular components are designed in our framework. A Pose Temporal Merger encodes keypoint spatiotemporal context to generate effective searching scopes while a Pose Residual Fusion module computes weighted pose residuals in dual directions. These are then processed via our Pose Correction Network for efficient refining of pose estimations. Our method ranks No.1 in the Multi-frame Person Pose Estimation Challenge on the large-scale benchmark datasets PoseTrack2017 and PoseTrack2018. We have released our code, hoping to inspire future research.
翻訳日:2021-03-15 17:18:27 公開日:2021-03-12
# (参考訳) 語彙意味変化検出におけるbert性能の説明と改善

Explaining and Improving BERT Performance on Lexical Semantic Change Detection ( http://arxiv.org/abs/2103.07259v1 )

ライセンス: CC BY 4.0
Severin Laicher, Sinan Kurtyigit, Dominik Schlechtweg, Jonas Kuhn, Sabine Schulte im Walde(参考訳) 型およびトークンベースの埋め込みアーキテクチャは、いまだに語彙的セマンティックな変更検出に競合している。 最近のSemEval-2020 Task 1の型ベースのモデルの成功は、他のさまざまなNLPタスクにおけるトークンベースのモデルの成功がなぜ私たちのフィールドに翻訳されないのかという疑問を引き起こしました。 BERTベクトルのクラスタリングに対する変数の範囲の影響を調査し、その低パフォーマンスはターゲット語の正則情報によるものであり、BERT表現のより高い層でも符号化されていることを示した。 オーソグラフィの影響を低減することで、BERTの性能を大幅に向上させます。

Type- and token-based embedding architectures are still competing in lexical semantic change detection. The recent success of type-based models in SemEval-2020 Task 1 has raised the question why the success of token-based models on a variety of other NLP tasks does not translate to our field. We investigate the influence of a range of variables on clusterings of BERT vectors and show that its low performance is largely due to orthographic information on the target word, which is encoded even in the higher layers of BERT representations. By reducing the influence of orthography we considerably improve BERT's performance.
翻訳日:2021-03-15 16:55:50 公開日:2021-03-12
# (参考訳) 音響モニタリングと深層学習を用いた動物生物多様性のモデル化

Modelling Animal Biodiversity Using Acoustic Monitoring and Deep Learning ( http://arxiv.org/abs/2103.07276v1 )

ライセンス: CC BY 4.0
C. Chalmers, P.Fergus, S. Wich and S. N. Longmore(参考訳) 何世紀にもわたって、研究者は野生動物の監視と研究に音を使用しています。 伝統的に、保全主義者は種を耳で識別してきたが、現在では動物や生態系の音を監視するために音声記録技術を導入するのが一般的である。 動物は通信、交尾、航行、領土防衛に音を使う。 動物の音は貴重な情報を提供し、生物多様性の定量化に役立つ。 カメラトラップ、ポータブル音響センサー、受動的音響センサー、スマートフォンなど、多様なセンサータイプが利用可能になったことで、音響モニタリングの人気が高まっている。 受動的音響センサーは展開が容易で、環境や動物による音や違法な活動についての洞察を提供するため、長時間走行することができる。 この技術は大きなメリットをもたらしますが、生成されるデータ量によって、処理は保存主義者にとって時間がかかります。 その結果,生物多様性評価の迅速化を支援するために,音響データを自動処理することに関心がある。 これらの大きなデータソースを処理し、バックグラウンドノイズから関連する音を抽出することは、大きな課題です。 本稿では,機械学習の最先端技術を用いて,時系列音声信号から特徴を自動的に抽出し,深層学習モデルをモデル化し,音に基づいて異なる鳥種を分類する手法について概説する。 獲得した鳥の歌はメル周波数ケプストラム(mfc)を用いて処理され、後に多層パーセプトロン(mlp)によって分類される特徴を抽出する。 提案手法は感度0.74,特異度0.92,精度0.74で有望な結果を得た。

For centuries researchers have used sound to monitor and study wildlife. Traditionally, conservationists have identified species by ear; however, it is now common to deploy audio recording technology to monitor animal and ecosystem sounds. Animals use sound for communication, mating, navigation and territorial defence. Animal sounds provide valuable information and help conservationists to quantify biodiversity. Acoustic monitoring has grown in popularity due to the availability of diverse sensor types which include camera traps, portable acoustic sensors, passive acoustic sensors, and even smartphones. Passive acoustic sensors are easy to deploy and can be left running for long durations to provide insights on habitat and the sounds made by animals and illegal activity. While this technology brings enormous benefits, the amount of data that is generated makes processing a time-consuming process for conservationists. Consequently, there is interest among conservationists to automatically process acoustic data to help speed up biodiversity assessments. Processing these large data sources and extracting relevant sounds from background noise introduces significant challenges. In this paper we outline an approach for achieving this using state of the art in machine learning to automatically extract features from time-series audio signals and modelling deep learning models to classify different bird species based on the sounds they make. The acquired bird songs are processed using mel-frequency cepstrum (MFC) to extract features which are later classified using a multilayer perceptron (MLP). Our proposed method achieved promising results with 0.74 sensitivity, 0.92 specificity and an accuracy of 0.74.
翻訳日:2021-03-15 16:42:54 公開日:2021-03-12
# (参考訳) Word Mover 距離を用いたテキストの可読性評価のための簡単な後処理手法

A Simple Post-Processing Technique for Improving Readability Assessment of Texts using Word Mover's Distance ( http://arxiv.org/abs/2103.07277v1 )

ライセンス: CC BY 4.0
Joseph Marvin Imperial, Ethel Ong(参考訳) 資料やテキスト全般の適切な難易度を評価することは、効果的な理解と学習への第一歩である。 本研究では,分類されたテキストの単語移動距離(wmd)を,モデルによる難易度レベルをさらに高めるために追加後処理手法として組み込むことにより,従来の可読性評価手法を改善する。 フィリピン, ドイツ語, 英語の3つの多言語データセットに対する実験の結果, ポストプロセッシング手法は, SVMを用いた以前のバニラモデルやランキングベースモデルよりも優れていることが示された。

Assessing the proper difficulty levels of reading materials or texts in general is the first step towards effective comprehension and learning. In this study, we improve the conventional methodology of automatic readability assessment by incorporating the Word Mover's Distance (WMD) of ranked texts as an additional post-processing technique to further ground the difficulty level given by a model. Results of our experiments on three multilingual datasets in Filipino, German, and English show that the post-processing technique outperforms previous vanilla and ranking-based models using SVM.
翻訳日:2021-03-15 16:33:47 公開日:2021-03-12
# (参考訳) 生成による検索:アーキテクチャジェネレータによる柔軟で効率的なワンショットNAS

Searching by Generating: Flexible and Efficient One-Shot NAS with Architecture Generator ( http://arxiv.org/abs/2103.07289v1 )

ライセンス: CC BY 4.0
Sian-Yao Huang and Wei-Ta Chu(参考訳) ワンショットNASでは、異なるハードウェア制約を満たすために、サブネットワークをスーパーネットから検索する必要がある。 しかし、検索コストは高く、N$の異なる制約に対して、検索回数は$N$である。 本研究では,検索処理をより効率的かつ柔軟にするために,サブネットワークを生成させることで検索するアーキテクチャジェネレータと呼ばれる新しい検索戦略を提案する。 訓練されたアーキテクチャジェネレーターにより、ターゲットハードウェアの制約を入力として、$N$の優れたアーキテクチャは、再検索とスーパーネットの再トレーニングなしで1つのフォワードパスで$N$の制約で生成できます。 さらに,新たなシングルパススーパーネットであるUnified Supernetを提案し,検索効率の向上とアーキテクチャジェネレータのGPUメモリ消費の削減を図る。 アーキテクチャジェネレータと統一スーパーネットにより、柔軟で効率的なNASフレームワークであるSearching by Generating NAS(SGNAS)を提案します。 事前訓練されたスーパーントでは、ハードウェアの制約が異なる$ N$のSGNASの検索時間はわずか5 GPU時間であり、従来のSOTAシングルパスメソッドよりも4N$の速度です。 スクラッチからトレーニングした後、ImageNet上のSGNASのトップ1精度は77.1%であり、SOTAに匹敵する。 コードはhttps://github.com/eric8607242/sgnas。

In one-shot NAS, sub-networks need to be searched from the supernet to meet different hardware constraints. However, the search cost is high and $N$ times of searches are needed for $N$ different constraints. In this work, we propose a novel search strategy called architecture generator to search sub-networks by generating them, so that the search process can be much more efficient and flexible. With the trained architecture generator, given target hardware constraints as the input, $N$ good architectures can be generated for $N$ constraints by just one forward pass without re-searching and supernet retraining. Moreover, we propose a novel single-path supernet, called unified supernet, to further improve search efficiency and reduce GPU memory consumption of the architecture generator. With the architecture generator and the unified supernet, we propose a flexible and efficient one-shot NAS framework, called Searching by Generating NAS (SGNAS). With the pre-trained supernt, the search time of SGNAS for $N$ different hardware constraints is only 5 GPU hours, which is $4N$ times faster than previous SOTA single-path methods. After training from scratch, the top1-accuracy of SGNAS on ImageNet is 77.1%, which is comparable with the SOTAs. The code is available at: https://github.com/eric8607242/SGNAS.
翻訳日:2021-03-15 16:25:01 公開日:2021-03-12
# (参考訳) 逆グラフの解離

Adversarial Graph Disentanglement ( http://arxiv.org/abs/2103.07295v1 )

ライセンス: CC BY 4.0
Shuai Zheng, Zhenfeng Zhu, Zhizhe Liu, Shuiwang Ji, Yao Zhao(参考訳) 実世界グラフは複雑な位相構造を持ち、しばしば異なる潜在因子の相互作用によって形成される。 これらの潜在因子の分離は、グラフのノード表現の堅牢性と解釈性を効果的に改善することができる。 しかし、既存のほとんどの手法は、要因の絡み合いに起因するリンクの本質的な違いを考慮していない。 本稿では,不整合グラフ表現学習のためのadGCN(Adversarial Disentangled Graph Convolutional Network)を提案する。 特に、動的多成分畳み込み層は、ノード間のリンクを引き起こす潜在コンポーネントを推論することにより、マイクロ・ディエンタングル化を実現するように設計されている。 さらに, マイクロディスタングル化に基づいて, 成分分布の分離性を向上し, 成分間の相互依存を抑えるマクロディケンタングメント逆正則化器を提案する。 さらに,より不整合性のある表現とトポロジ構造を協調的に学習するために,グラフ構造の多様性保存ノードサンプリングに基づくプログレッシブリファインメントを提案する。 さまざまな実世界のグラフデータの実験結果は、ADGCNが現在利用可能な代替品よりも著しく有利なパフォーマンスを得ることを確認します。

A real-world graph has a complex topology structure, which is often formed by the interaction of different latent factors. Disentanglement of these latent factors can effectively improve the robustness and interpretability of node representation of the graph. However, most existing methods lack consideration of the intrinsic differences in links caused by factor entanglement. In this paper, we propose an Adversarial Disentangled Graph Convolutional Network (ADGCN) for disentangled graph representation learning. Specifically, a dynamic multi-component convolution layer is designed to achieve micro-disentanglement by inferring latent components that caused links between nodes. On the basis of micro-disentanglement, we further propose a macro-disentanglement adversarial regularizer that improves the separability between component distributions, thus restricting interdependence among components. Additionally, to learn collaboratively a better disentangled representation and topological structure, a diversity preserving node sampling-based progressive refinement of graph structure is proposed. The experimental results on various real-world graph data verify that our ADGCN obtains remarkably more favorable performance over currently available alternatives.
翻訳日:2021-03-15 16:06:23 公開日:2021-03-12
# (参考訳) Androidアプリケーションにおけるクロスボーダー個人データ転送に対するGDPRコンプライアンスアセスメントの自動化

Automating the GDPR Compliance Assessment for Cross-border Personal Data Transfers in Android Applications ( http://arxiv.org/abs/2103.07297v1 )

ライセンス: CC BY 4.0
Danny S. Guam\'an, Xavier Ferrer, Jose M. del Alamo, Jose Such(参考訳) 一般データ保護規則(GDPR)は、すべての個人データ処理活動がEU(EU)市民にとって公正で透明性のあるものであることを保証することを目的としています。 この目的のために、EU外で個人データを転送するための厳格な要件を設定します。 しかし、こうした要件のチェックは、監視当局にとって、特にモバイルアプリドメインにおいて、膨大な数のアプリとその動的な性質のために、大変なタスクである。 本稿では,国境を越えた個人データ転送のためのGDPR要件でモバイルアプリのコンプライアンスを評価するための,完全に自動化された手法を提案する。 われわれはこの方法をGoogle Play Storeのトップフリー10,080アプリに適用した。 その結果、アプリプロバイダーとサードパーティの受信者が実際に何をしているのか、GDPRが意図しているのか、まだ非常に大きなギャップがあることが明らかになった。 分析対象アプリの56%は、GDPRのクロスボーダー転送要件に準拠していない可能性がある。

The General Data Protection Regulation (GDPR) aims to ensure that all personal data processing activities are fair and transparent for the European Union (EU) citizens, regardless of whether these are carried out within the EU or anywhere else. To this end, it sets strict requirements to transfer personal data outside the EU. However, checking these requirements is a daunting task for supervisory authorities, particularly in the mobile app domain due to the huge number of apps available and their dynamic nature. In this paper, we propose a fully automated method to assess the compliance of mobile apps with the GDPR requirements for cross-border personal data transfers. We have applied the method to the top-free 10,080 apps from the Google Play Store. The results reveal that there is still a very significant gap between what app providers and third-party recipients do in practice and what is intended by the GDPR. A substantial 56% of analysed apps are potentially non-compliant with the GDPR cross-border transfer requirements.
翻訳日:2021-03-15 15:46:36 公開日:2021-03-12
# (参考訳) 半群のためのニューラルネットワーク

A Neural Network for Semigroups ( http://arxiv.org/abs/2103.07388v1 )

ライセンス: CC BY 4.0
Edouard Balzin, Boris Shminke(参考訳) コンピュータビジョンにおける画像再構築、レコメンダーシステムにおける行列補完、グラフ理論におけるリンク予測などのタスクは、機械学習文学においてよく研究されている。 本研究では,有限半群の部分乗算(cayley)テーブルを完備するタスクに,雑音化オートエンコーダに基づくニューラルネットワークアーキテクチャを適用する。 半群データの代数的性質に基づいて,そのタスクに対する新たな損失関数を提案する。 また,本研究で実施した実験と同じような実験を行うソフトウェアパッケージも提供する。 私たちの実験では、利用可能なデータの約10%しかなければ、全体のケイリーを約80%のケースで半分から再構築できるモデルを構築することが可能であることが示されました。

Tasks like image reconstruction in computer vision, matrix completion in recommender systems and link prediction in graph theory, are well studied in machine learning literature. In this work, we apply a denoising autoencoder-based neural network architecture to the task of completing partial multiplication (Cayley) tables of finite semigroups. We suggest a novel loss function for that task based on the algebraic nature of the semigroup data. We also provide a software package for conducting experiments similar to those carried out in this work. Our experiments showed that with only about 10% of the available data, it is possible to build a model capable of reconstructing a full Cayley from only half of it in about 80% of cases.
翻訳日:2021-03-15 15:17:13 公開日:2021-03-12
# (参考訳) 腫瘍野効果を特徴付けるr-depth (radiomic deformation and textural heterogeneity)ディスクリプタ:グリオブラスト腫における生存予測への応用

Radiomic Deformation and Textural Heterogeneity (R-DepTH) Descriptor to characterize Tumor Field Effect: Application to Survival Prediction in Glioblastoma ( http://arxiv.org/abs/2103.07423v1 )

ライセンス: CC BY 4.0
Marwa Ismail, Prateek Prasanna, Kaustav Bera, Volodymyr Statsevych, Virginia Hill, Gagandeep Singh, Sasan Partovi, Niha Beig, Sean McGarry, Peter Laviolette, Manmeet Ahluwalia, Anant Madabhushi, and Pallavi Tiwari(参考訳) 腫瘍野効果の概念は、がんが可視性腫瘍を超える影響を持つ全身疾患であることを意味する。 例えば、積極的な脳腫瘍であるGlioblastoma(GBM)では、腫瘍の負担による頭蓋内圧の増加は、しばしば脳のヘルニア化と貧弱な結果をもたらす。 本研究は,高侵襲性腫瘍が制御不能に増殖する傾向があるという理論的根拠に基づいて,正常頭葉における生体力学的組織の変化を識別し,mriスキャンで腫瘍の局所形態学的差異と組み合わせることで,腫瘍フィールド効果を包括的に把握する。 具体的には、統合MRIベースの記述子、放射線変形およびテクスチャ不均一性(r-DepTH)を提示する。 この記述子は、質量効果による周囲の正常発作全体の組織変形の微妙な摂動の測定を含む。 これは、異形登録を介してMRIスキャンを健康なアトラスに非厳格に整列させることを含む。 得られた逆写像は、通常のパレンキマにおける変形場の大きさを求めるために用いられる。 これらの測定は、3Dテクスチャ記述子(co-occurrence of Local Anisotropic Gradient Orientations (COLLAGE))と組み合わせられ、MRIスキャンで腫瘍の凹部における形態的不均一性を捉える。 R-DepTH, N = 207 GBM (トレーニングセット (St) = 128, テストセット (Sv) = 79) では, 患者を低生存(長期生存)群と高生存(St, p-value = 0.0000035, Svではp-value = 0.0024)群に分類し, 総合生存の予後を向上した。 R-DepTH記述子は、固形腫瘍における疾患のアグレッシブ性および生存の包括的なMRIベースの予後マーカーとして役立つ。

The concept of tumor field effect implies that cancer is a systemic disease with its impact way beyond the visible tumor confines. For instance, in Glioblastoma (GBM), an aggressive brain tumor, the increase in intracranial pressure due to tumor burden often leads to brain herniation and poor outcomes. Our work is based on the rationale that highly aggressive tumors tend to grow uncontrollably, leading to pronounced biomechanical tissue deformations in the normal parenchyma, which when combined with local morphological differences in the tumor confines on MRI scans, will comprehensively capture tumor field effect. Specifically, we present an integrated MRI-based descriptor, radiomic-Deformation and Textural Heterogeneity (r-DepTH). This descriptor comprises measurements of the subtle perturbations in tissue deformations throughout the surrounding normal parenchyma due to mass effect. This involves non-rigidly aligning the patients MRI scans to a healthy atlas via diffeomorphic registration. The resulting inverse mapping is used to obtain the deformation field magnitudes in the normal parenchyma. These measurements are then combined with a 3D texture descriptor, Co-occurrence of Local Anisotropic Gradient Orientations (COLLAGE), which captures the morphological heterogeneity within the tumor confines, on MRI scans. R-DepTH, on N = 207 GBM cases (training set (St) = 128, testing set (Sv) = 79), demonstrated improved prognosis of overall survival by categorizing patients into low- (prolonged survival) and high-risk (poor survival) groups (on St, p-value = 0.0000035, and on Sv, p-value = 0.0024). R-DepTH descriptor may serve as a comprehensive MRI-based prognostic marker of disease aggressiveness and survival in solid tumors.
翻訳日:2021-03-15 15:06:40 公開日:2021-03-12
# (参考訳) トップファンイン2を用いた深度3回路の高効率再構成

Efficient reconstruction of depth three circuits with top fan-in two ( http://arxiv.org/abs/2103.07445v1 )

ライセンス: CC BY 4.0
Gaurav Sinha(参考訳) 我々は,有限体上の多項式のブラックボックス再構成問題を,入出力ゲートが2次加算ゲートであるような加算/乗算ゲートを交互に有する深さ3個の演算回路で計算できる効率的なランダム化アルゴリズムを開発した。 これらの回路は $G\times(T_1 + T_2)$ の多項式を計算し、$G,T_1,T_2$ はアフィン形式の積であり、多項式 $T_1,T_2$ は共通の因子を持たない。 このような回路のランクは、$T_1$ と $T_2$ のすべてのアフィン因子によってまたがるベクトル空間の次元として定義される。 そのような回路で計算可能な多項式 $f$ に対して、$rank(f)$ はそのような回路の最小ランクとして定義される。 このような回路で計算可能な多項式$f$(有限フィールド$\mathbb{F}$)への入力ブラックボックスアクセスを行うランダム化再構成アルゴリズムを開発した。 以下は結果です。 1 [低ランク]: 5\leq rank(f) = o(\log^3d)$ の場合、時刻 $(nd^{\log^3d}\log |\mathbb{f}|)^{o(1)}$ で動作し、高い確率で深さ 3 の回路を f$ で計算し、最上位の加算ゲートは $\leq d^{rank(f)}$ となる。 2 [high rank]: $rank(f) = \omega(\log^3 d)$ の場合、時刻$(nd\log |\mathbb{f}|)^{o(1)}$ で動作し、高い確率で深さ3の回路をf$で計算し、最上位の加算ゲートは2度である。 この回路クラスに対する最初のブラックボックス再構成アルゴリズムであり、$\log |\mathbb{F}|$ の時間多項式で実行される。 この問題は[GKL12](STOC 2012)のオープンな問題として言及されています。

We develop efficient randomized algorithms to solve the black-box reconstruction problem for polynomials over finite fields, computable by depth three arithmetic circuits with alternating addition/multiplication gates, such that output gate is an addition gate with in-degree two. These circuits compute polynomials of form $G\times(T_1 + T_2)$, where $G,T_1,T_2$ are product of affine forms, and polynomials $T_1,T_2$ have no common factors. Rank of such a circuit is defined as dimension of vector space spanned by all affine factors of $T_1$ and $T_2$. For any polynomial $f$ computable by such a circuit, $rank(f)$ is defined to be the minimum rank of any such circuit computing it. Our work develops randomized reconstruction algorithms which take as input black-box access to a polynomial $f$ (over finite field $\mathbb{F}$), computable by such a circuit. Here are the results. 1 [Low rank]: When $5\leq rank(f) = O(\log^3 d)$, it runs in time $(nd^{\log^3d}\log |\mathbb{F}|)^{O(1)}$, and, with high probability, outputs a depth three circuit computing $f$, with top addition gate having in-degree $\leq d^{rank(f)}$. 2 [High rank]: When $rank(f) = \Omega(\log^3 d)$, it runs in time $(nd\log |\mathbb{F}|)^{O(1)}$, and, with high probability, outputs a depth three circuit computing $f$, with top addition gate having in-degree two. Ours is the first blackbox reconstruction algorithm for this circuit class, that runs in time polynomial in $\log |\mathbb{F}|$. This problem has been mentioned as an open problem in [GKL12] (STOC 2012)
翻訳日:2021-03-15 14:35:57 公開日:2021-03-12
# (参考訳) Zero-Shot Machine Reading Comprehensionの協調学習

Cooperative Learning of Zero-Shot Machine Reading Comprehension ( http://arxiv.org/abs/2103.07449v1 )

ライセンス: CC BY 4.0
Hongyin Luo, Seunghak Yu, James Glass(参考訳) 事前学習された言語モデルは、高品質のコンテキスト化された単語埋め込みを提供することで、抽出的質問応答などの下流タスクのパフォーマンスを大幅に向上させた。 しかし、質問応答モデルの学習には、特定の領域で大規模なデータアノテーションが必要である。 本研究では,質問生成と回答のための協調型自己学習モデルを提案する。 質問生成器と質問抽出器を含む対話型学習環境を備えたマスク付き回答エンティティ抽出タスクを実装した。 マスクを持つ通路を与えられた場合、質問生成器はマスクされた実体について質問する一方、抽出器は生成された質問と生のテキストでマスクされた実体を取り出すように訓練される。 この戦略により、注釈なしで任意のテキストコーポラの質問生成と回答モデルをトレーニングできます。 そこで本研究では,質問応答モデルの性能向上を図るために,生成した質問に報酬を与える強化学習手法を提案する。 実験結果から,本モデルは標準質問応答ベンチマークにおいて最先端言語モデルよりも優れており,ゼロショット学習環境下では最先端言語性能に到達した。

Pretrained language models have significantly improved the performance of down-stream tasks, for example extractive question answering, by providing high-quality contextualized word embeddings. However, learning question answering models still need large-scale data annotation in specific domains. In this work, we propose a cooperative, self-play learning model for question generation and answering. We implemented a masked answer entity extraction task with an interactive learning environment, containing a question generator and a question extractor. Given a passage with a mask, a question generator asks a question about the masked entity, meanwhile the extractor is trained to extract the masked entity with the generated question and raw texts. With this strategy, we can train question generation and answering models on any textual corpora without annotation. To further improve the performances of the question answering model, we propose a reinforcement learning method that rewards generated questions that improves the extraction learning. Experimental results showed that our model outperforms the state-of-the-art pretrained language models on standard question answering benchmarks, and reaches the state-of-the-art performance under the zero-shot learning setting.
翻訳日:2021-03-15 14:34:22 公開日:2021-03-12
# (参考訳) 関数型データ解析のための機械学習支援直交ベース選択

Machine Learning Assisted Orthonormal Basis Selection for Functional Data Analysis ( http://arxiv.org/abs/2103.07453v1 )

ライセンス: CC BY 4.0
Rani Basna, Hiba Nassar and Krzysztof Podg\'orski(参考訳) 関数型データメソッドの実装において、直交基底の初期の選択の効果は過去にはあまり注目されていない。 通常、フーリエ、ウェーブレット、スプラインなどいくつかの標準ベースがある。 観測された関数データを変換すると考えられており、データの関数への初期変換にどれが好ましいかを示す公式な基準なしで選択される。 そこで本研究では, 直交基底選択の厳密なデータ駆動手法を提案する。 b-スプラインの効率的な直交化により得られたスプラインと呼ばれる直交スプラインベースを用いる。 このアルゴリズムは機械学習スタイルのデータから学習し、効率的に結び目を配置する。 最適性基準は平均(機能的データ点あたり)二乗誤差に基づいており、学習アルゴリズムと比較研究の両方で利用されている。 後者は、疎関数的データに対して特に明らかな効率を示し、複雑な物理系に対する応答の分析において少ない程度を示す。

In implementations of the functional data methods, the effect of the initial choice of an orthonormal basis has not gained much attention in the past. Typically, several standard bases such as Fourier, wavelets, splines, etc. are considered to transform observed functional data and a choice is made without any formal criteria indicating which of the bases is preferable for the initial transformation of the data into functions. In an attempt to address this issue, we propose a strictly data-driven method of orthogonal basis selection. The method uses recently introduced orthogonal spline bases called the splinets obtained by efficient orthogonalization of the B-splines. The algorithm learns from the data in the machine learning style to efficiently place knots. The optimality criterion is based on the average (per functional data point) mean square error and is utilized both in the learning algorithms and in comparison studies. The latter indicates efficiency that is particularly evident for the sparse functional data and to a lesser degree in analyses of responses to complex physical systems.
翻訳日:2021-03-15 14:10:45 公開日:2021-03-12
# 深層強化学習における多様なソリューションの発見

Discovering Diverse Solutions in Deep Reinforcement Learning ( http://arxiv.org/abs/2103.07084v1 )

ライセンス: Link先を確認
Takayuki Osa, Voot Tangkaratt and Masashi Sugiyama(参考訳) 強化学習(rl)アルゴリズムは通常、特定のタスクに対する多様なソリューションが存在する場合が多いが、特定のタスクの単一のソリューションを学ぶことに限定される。 単一のソリューションを学習することに比べ、多様なソリューションのセットを学習することは有益である。 従来の研究では、潜伏変数に条件付きポリシーで多様な挙動をモデル化できることが示されているが、連続潜伏変数を持つ無限の多様な解をモデル化するためのアプローチは研究されていない。 本研究では,連続的あるいは離散的低次元潜在変数に基づくポリシー条件を訓練することにより無限に多くの解を学習できるrl法を提案する。 連続的な制御タスクを通じて,本手法がデータ効率のよい方法で多様な解を学習し,その解を無意味な課題の解決に使用できることを実証する。

Reinforcement learning (RL) algorithms are typically limited to learning a single solution of a specified task, even though there often exists diverse solutions to a given task. Compared with learning a single solution, learning a set of diverse solutions is beneficial because diverse solutions enable robust few-shot adaptation and allow the user to select a preferred solution. Although previous studies have showed that diverse behaviors can be modeled with a policy conditioned on latent variables, an approach for modeling an infinite set of diverse solutions with continuous latent variables has not been investigated. In this study, we propose an RL method that can learn infinitely many solutions by training a policy conditioned on a continuous or discrete low-dimensional latent variable. Through continuous control tasks, we demonstrate that our method can learn diverse solutions in a data-efficient manner and that the solutions can be used for few-shot adaptation to solve unseen tasks.
翻訳日:2021-03-15 13:33:48 公開日:2021-03-12
# 深部強化学習のための大規模バッチシミュレーション

Large Batch Simulation for Deep Reinforcement Learning ( http://arxiv.org/abs/2103.07013v1 )

ライセンス: Link先を確認
Brennan Shacklett, Erik Wijmans, Aleksei Petrenko, Manolis Savva, Dhruv Batra, Vladlen Koltun, Kayvon Fatahalian(参考訳) 我々は,視覚複雑な3d環境における深層強化学習に基づくトレーニングを,事前作業よりも2桁高速化し,単一のgpu上で19,000フレーム/秒,最大72,000フレーム/秒というエンドツーエンドのトレーニング速度を実現する。 このアプローチの鍵となる考え方は、"バッチシミュレーション"の原則に基づいて、3Dレンダラーと具体化されたナビゲーションシミュレータを設計することである。 バッチシミュレーションは、大量の作業を一度に公開するだけでなく、シーンアセットのインメモリストレージ、レンダリング作業、データローディング、同期コストを多くのシミュレーションリクエストで改善し、GPU当たりのシミュレーションエージェントの数と全体的なシミュレーションスループットを大幅に改善する。 DNN推論とトレーニングコストを高速なシミュレーションとバランスをとるために,タスク性能を向上する計算効率の高いポリシDNNを構築し,大規模なミニバッチでトレーニングする際のサンプル効率を維持するためのトレーニングアルゴリズムを修正した。 バッチシミュレーションとDNN性能最適化を組み合わせることで、ポイントゴールナビゲーションエージェントを1つのGPU上の複雑な3D環境で1.5日以内から97%の精度で3日間にわたって64-GPUクラスタを使用してトレーニングできることを示した。 バッチ3Dレンダラとシミュレータのオープンソースリファレンス実装を提供し、これらのアイデアをRLシステムに組み込むのを容易にする。

We accelerate deep reinforcement learning-based training in visually complex 3D environments by two orders of magnitude over prior work, realizing end-to-end training speeds of over 19,000 frames of experience per second on a single GPU and up to 72,000 frames per second on a single eight-GPU machine. The key idea of our approach is to design a 3D renderer and embodied navigation simulator around the principle of "batch simulation": accepting and executing large batches of requests simultaneously. Beyond exposing large amounts of work at once, batch simulation allows implementations to amortize in-memory storage of scene assets, rendering work, data loading, and synchronization costs across many simulation requests, dramatically improving the number of simulated agents per GPU and overall simulation throughput. To balance DNN inference and training costs with faster simulation, we also build a computationally efficient policy DNN that maintains high task performance, and modify training algorithms to maintain sample efficiency when training with large mini-batches. By combining batch simulation and DNN performance optimizations, we demonstrate that PointGoal navigation agents can be trained in complex 3D environments on a single GPU in 1.5 days to 97% of the accuracy of agents trained on a prior state-of-the-art system using a 64-GPU cluster over three days. We provide open-source reference implementations of our batch 3D renderer and simulator to facilitate incorporation of these ideas into RL systems.
翻訳日:2021-03-15 13:33:33 公開日:2021-03-12
# 逆学習特徴のゲーム理論的理解

Game-theoretic Understanding of Adversarially Learned Features ( http://arxiv.org/abs/2103.07364v1 )

ライセンス: Link先を確認
Jie Ren, Die Zhang, Yisen Wang, Lu Chen, Zhanpeng Zhou, Xu Cheng, Xin Wang, Yiting Chen, Jie Shi, Quanshi Zhang(参考訳) 本論文は,DNNの信号処理挙動という,新たな種別からの敵対攻撃と防御を理解することを目的とする。 6つの性質を満たすゲーム理論における多階相互作用を新たに定義する。 マルチオーダーの相互作用では、敵対攻撃がDNNをだますために高階の相互作用に主に影響することを発見します。 さらに、敵対的に訓練されたDNNのロバスト性は、カテゴリー固有の低次相互作用によってもたらされる。 本研究は,敵意学習機能の形状バイアスに対する事前理解のさらなる考察と修正を行う。 さらに、多階相互作用は逆例の回復可能性も説明できる。

This paper aims to understand adversarial attacks and defense from a new perspecitve, i.e., the signal-processing behavior of DNNs. We novelly define the multi-order interaction in game theory, which satisfies six properties. With the multi-order interaction, we discover that adversarial attacks mainly affect high-order interactions to fool the DNN. Furthermore, we find that the robustness of adversarially trained DNNs comes from category-specific low-order interactions. Our findings provide more insights into and make a revision of previous understanding for the shape bias of adversarially learned features. Besides, the multi-order interaction can also explain the recoverability of adversarial examples.
翻訳日:2021-03-15 13:33:10 公開日:2021-03-12
# 精神状態遷移と人的有用性を持つ社会知的なエージェントを目指して

Towards Socially Intelligent Agents with Mental State Transition and Human Utility ( http://arxiv.org/abs/2103.07011v1 )

ライセンス: Link先を確認
Liang Qiu, Yizhou Zhao, Yuan Liang, Pan Lu, Weiyan Shi, Zhou Yu, Song-Chun Zhu(参考訳) 社会的にインテリジェントなエージェントの構築には多くの課題があり、その1つはエージェントの精神状態遷移を追跡し、エージェントに人間のようにそのユーティリティによって導かれる合理的な決定をするように教えることです。 そのために,対話エージェントに精神状態解析と実用性モデルを取り入れることを提案する。 複合精神状態解析装置は、対話とイベントの両方から情報を抽出し、エージェントの心のグラフィカルな表現を維持する。一方、ユーティリティモデルは、クラウドソースのソーシャルコモンセンスデータセットであるSocial IQAから人間の嗜好を学習するランキングモデルである。 実験結果から,提案手法は,ファンタジーテキストアドベンチャーゲームデータセットLIGHTにおける対話/行動/感情予測タスクにおいて,最先端のパフォーマンスを実現することを示す。 また,次の例を示す: (\textit{i}) 提案するメンタルステートパーサが,位置やオブジェクトなどのコンテキストを基盤としてエージェントの判断を支援する方法,および (\textit{ii}) ユーティリティモデルがエージェントがジレンマの中で合理的な決定を行うのにどのように役立つかを示す。 我々の知る限りでは、我々は、離散的なイベントと連続的な対話解析と人間のようなユーティリティモデリングの両方に、ハイブリッドなメンタルステートパーサーを組み込むことで、社会的にインテリジェントなエージェントを構築する最初の作品です。

Building a socially intelligent agent involves many challenges, one of which is to track the agent's mental state transition and teach the agent to make rational decisions guided by its utility like a human. Towards this end, we propose to incorporate a mental state parser and utility model into dialogue agents. The hybrid mental state parser extracts information from both the dialogue and event observations and maintains a graphical representation of the agent's mind; Meanwhile, the utility model is a ranking model that learns human preferences from a crowd-sourced social commonsense dataset, Social IQA. Empirical results show that the proposed model attains state-of-the-art performance on the dialogue/action/emotion prediction task in the fantasy text-adventure game dataset, LIGHT. We also show example cases to demonstrate: (\textit{i}) how the proposed mental state parser can assist agent's decision by grounding on the context like locations and objects, and (\textit{ii}) how the utility model can help the agent make reasonable decisions in a dilemma. To the best of our knowledge, we are the first work that builds a socially intelligent agent by incorporating a hybrid mental state parser for both discrete events and continuous dialogues parsing and human-like utility modeling.
翻訳日:2021-03-15 13:33:00 公開日:2021-03-12
# 動的ネットワークにおける予測課題に対するDynACPD埋め込みアルゴリズム

DynACPD Embedding Algorithm for Prediction Tasks in Dynamic Networks ( http://arxiv.org/abs/2103.07080v1 )

ライセンス: Link先を確認
Chris Connell and Yang Wang(参考訳) 古典的なネットワーク埋め込みは、ノード間の特徴間の学習された関係を低次元で表現する。 このような埋め込みは、リンク予測やノード分類などのタスクに重要です。 本稿では,ノード間の時間的および空間的リンク関係が存在する時間変化ネットワーク群である動的ネットワークの低次元埋め込みについて考察する。 本稿では,動的ネットワークのテンソル表現に対する高次テンソル分解に基づく動的ネットワークに対する新しい埋め込み手法を提案する。 ある意味では、我々の埋め込みは静的ネットワークのスペクトル埋め込みメソッドに似ている。 我々は、アルゴリズムの有効性の潜在的な理由を数学的に解析することで、アルゴリズムの理論的根拠を提供する。 最後に、リンク予測タスクにおけるアルゴリズムの性能を、3つの異なる実世界の動的ネットワークにわたる現在のベースライン手法の配列と比較することにより、我々のアプローチのパワーと効率を実証する。

Classical network embeddings create a low dimensional representation of the learned relationships between features across nodes. Such embeddings are important for tasks such as link prediction and node classification. In the current paper, we consider low dimensional embeddings of dynamic networks, that is a family of time varying networks where there exist both temporal and spatial link relationships between nodes. We present novel embedding methods for a dynamic network based on higher order tensor decompositions for tensorial representations of the dynamic network. In one sense, our embeddings are analogous to spectral embedding methods for static networks. We provide a rationale for our algorithms via a mathematical analysis of some potential reasons for their effectiveness. Finally, we demonstrate the power and efficiency of our approach by comparing our algorithms' performance on the link prediction task against an array of current baseline methods across three distinct real-world dynamic networks.
翻訳日:2021-03-15 13:32:36 公開日:2021-03-12
# モバイルエッジコンピューティングシステムにおけるオークションに基づくクラスタ化フェデレーション学習

Auction Based Clustered Federated Learning in Mobile Edge Computing System ( http://arxiv.org/abs/2103.07150v1 )

ライセンス: Link先を確認
Renhao Lu, Weizhe Zhang, Qiong Li, Xiaoxiong Zhong and Athanasios V. Vasilakos(参考訳) 近年、モバイルクライアントのコンピューティング能力とストレージ容量は大幅に改善され、ローカルでいくつかのアプリケーションを効率的に処理している。 Federated Learningは、ローカルコンピューティングとローカルデータを使用して人工知能(AI)モデルをトレーニングする有望な分散機械学習ソリューションです。 ローカルコンピューティングとフェデレーション学習を組み合わせることで、モバイルクライアントのリソースをフル活用しながら、ローカルデータのプライバシを保証するという前提の下で、強力なAIモデルをトレーニングすることができる。 しかし、ローカルデータの不均一性、すなわち非独立で同一の分布(非IID)とローカルデータサイズの不均衡は、モバイルエッジコンピューティング(MEC)システムにおけるフェデレーションラーニングの適用を妨げるボトルネックをもたらす可能性がある。 そこで本稿では,その影響を相殺するために,グローバル分布を満足するフェデレーション仮想データセットを生成するクラスタベースのクライアント選択手法を提案し,提案手法が近似最適解に収束できることを検証した。 クラスタリング手法に基づいて,各クラスタ内のオークションベースのクライアント選択方式を提案し,システムのエネルギー不均一性を十分に考慮し,エネルギー消費の均衡と収束率の向上を図り,提案手法のナッシュ平衡解を与える。 シミュレーションの結果,提案手法とオークションベースの連合学習により,異なるデータ分布下での畳み込みニューラルネットワークモデル(cnn)により,よりよい性能が得られることがわかった。

In recent years, mobile clients' computing ability and storage capacity have greatly improved, efficiently dealing with some applications locally. Federated learning is a promising distributed machine learning solution that uses local computing and local data to train the Artificial Intelligence (AI) model. Combining local computing and federated learning can train a powerful AI model under the premise of ensuring local data privacy while making full use of mobile clients' resources. However, the heterogeneity of local data, that is, Non-independent and identical distribution (Non-IID) and imbalance of local data size, may bring a bottleneck hindering the application of federated learning in mobile edge computing (MEC) system. Inspired by this, we propose a cluster-based clients selection method that can generate a federated virtual dataset that satisfies the global distribution to offset the impact of data heterogeneity and proved that the proposed scheme could converge to an approximate optimal solution. Based on the clustering method, we propose an auction-based clients selection scheme within each cluster that fully considers the system's energy heterogeneity and gives the Nash equilibrium solution of the proposed scheme for balance the energy consumption and improving the convergence rate. The simulation results show that our proposed selection methods and auction-based federated learning can achieve better performance with the Convolutional Neural Network model (CNN) under different data distributions.
翻訳日:2021-03-15 13:32:26 公開日:2021-03-12
# 6Gの対比機械学習セキュリティ問題:mm波ビーム予測利用ケース

Adversarial Machine Learning Security Problems for 6G: mmWave Beam Prediction Use-Case ( http://arxiv.org/abs/2103.07268v1 )

ライセンス: Link先を確認
Evren Catak, Ferhat Ozgur Catak, Arild Moldsvor(参考訳) 6Gは次世代の通信システムである。 近年、機械学習アルゴリズムは、健康、交通、自動運転車など、さまざまな分野で広く適用されています。 予測アルゴリズムは6G問題で使用されます。 深層学習技術の急速な発展に伴い,セキュリティ上の懸念を考慮に入れてアルゴリズムを適用することが重要である。 機械学習は6Gに大きな利点をもたらすが、AIモデルのセキュリティは無視される。 現実世界には多くのアプリケーションがあるので、セキュリティはアルゴリズムの重要な部分です。 本稿では,ミリ波(mmwave)ビーム予測のための6g機械学習モデルに対する,逆学習による逆攻撃の軽減法を提案する。 機械学習モデルに対する敵対的な攻撃の背後にある主なアイデアは、mmWaveビーム予測ユースケース用の6Gアプリケーション用の訓練されたディープラーニングモデルを操作することによって、欠陥のある結果を生成することです。 また,高速な勾配符号法攻撃を伴うミリ波ビーム予測アプリケーションにおいて,6gセキュリティのための逆学習緩和法の性能を示す。 防御モデルと無防御モデルの平均二乗誤差は非常に近いです。

6G is the next generation for the communication systems. In recent years, machine learning algorithms have been applied widely in various fields such as health, transportation, and the autonomous car. The predictive algorithms will be used in 6G problems. With the rapid developments of deep learning techniques, it is critical to take the security concern into account to apply the algorithms. While machine learning offers significant advantages for 6G, AI models' security is ignored. Since it has many applications in the real world, security is a vital part of the algorithms. This paper has proposed a mitigation method for adversarial attacks against proposed 6G machine learning models for the millimeter-wave (mmWave) beam prediction with adversarial learning. The main idea behind adversarial attacks against machine learning models is to produce faulty results by manipulating trained deep learning models for 6G applications for mmWave beam prediction use case. We have also presented the adversarial learning mitigation method's performance for 6G security in millimeter-wave beam prediction application with fast gradient sign method attack. The mean square errors of the defended model and undefended model are very close.
翻訳日:2021-03-15 13:32:05 公開日:2021-03-12
# 高精度低ビットニューラルネットワークのための学習型複合量子化

Learnable Companding Quantization for Accurate Low-bit Neural Networks ( http://arxiv.org/abs/2103.07156v1 )

ライセンス: Link先を確認
Kohei Yamamoto(参考訳) ディープニューラルネットワークの定量化は、メモリ消費の削減と推論速度の向上に有効な手法であり、リソース制約のあるデバイスの実装に有用である。 しかし、超低ビットモデルがフル精度モデルと同等の精度を達成することは依然として困難です。 そこで本研究では,2ビット,3ビット,4ビットモデルの非一様量子化手法として,LCQ(Learable Companding Quantization)を提案する。 LCQは、重みとアクティベーションの量子化レベルを柔軟かつ不均一に制御できるモデルウェイトと学習可能なコンパイル関数を共同で最適化する。 また,より安定した量子化訓練を可能にする新しい重み正規化手法を提案する。 実験の結果,LCQは従来の最先端手法よりも優れており,画像分類と物体検出タスクにおける定量化モデルと完全精度モデルとのギャップを狭めることがわかった。 特にImageNetの2ビットResNet-50モデルは、トップ1の精度75.1%を達成し、ギャップを1.7%に削減し、LCQは非均一量子化の可能性をさらに活用することができます。

Quantizing deep neural networks is an effective method for reducing memory consumption and improving inference speed, and is thus useful for implementation in resource-constrained devices. However, it is still hard for extremely low-bit models to achieve accuracy comparable with that of full-precision models. To address this issue, we propose learnable companding quantization (LCQ) as a novel non-uniform quantization method for 2-, 3-, and 4-bit models. LCQ jointly optimizes model weights and learnable companding functions that can flexibly and non-uniformly control the quantization levels of weights and activations. We also present a new weight normalization technique that allows more stable training for quantization. Experimental results show that LCQ outperforms conventional state-of-the-art methods and narrows the gap between quantized and full-precision models for image classification and object detection tasks. Notably, the 2-bit ResNet-50 model on ImageNet achieves top-1 accuracy of 75.1% and reduces the gap to 1.7%, allowing LCQ to further exploit the potential of non-uniform quantization.
翻訳日:2021-03-15 13:31:37 公開日:2021-03-12
# 人工知能とタイムラプス画像シーケンスに基づくロバストかつ一般化可能な胚選択

Robust and generalizable embryo selection based on artificial intelligence and time-lapse image sequences ( http://arxiv.org/abs/2103.07262v1 )

ライセンス: Link先を確認
J{\o}rgen Berntsen, Jens Rimestad, Jacob Theilgaard Lassen, Dang Tran, Mikkel Fly Kragh(参考訳) 移植に最も有効な胚の評価と選択は、in vitro fertilization (ivf) の重要な部分である。 近年,ai(artificial intelligence)とディープラーニング(deep learning)を用いて,手順の改善と自動化を行う手法がいくつか提案されている。 既知の移植データ(kid)を持つ胚の画像に基づいて、aiモデルは移植成功の確率に関連する胚を自動的にスコア付けするように訓練されている。 しかし、現在、新しい診療所への胚選抜モデルの適用方法や、様々な条件におけるサブグループ分析の実施方法を評価するための限定的な研究が実施されているのみである。 本稿では, 経時的画像列のみを用いた深層学習に基づく胚選択モデルが, 患者年齢や臨床状況によってどのように機能するか, 従来の形態動態パラメータとどのように相関するかを検討する。 このモデルは、115,832個の胚からなる18のIVFセンターからの大規模なデータセットに基づいて訓練および評価され、14,644個の胚がKID胚に転送された。 独立したテストセットでは、AIモデルは、0.67の受信機動作特性曲線の曲線下の領域(AUC)と、AUCの0.95のすべての胚のKID胚をソートした。 クリニックホールドアウトテストでは、KID胚に対するAUC範囲0.60-0.75の新しいクリニックに一般化された。 年齢、授精方法、インキュベーション時間、転送プロトコルの異なるサブグループで、AUCは0.63から0.69の範囲であった。 さらに, モデル予測はブラストシストグレーディングと正の相関を示し, 直接切断と負の相関を示した。 完全自動化されたiDAScore v1.0モデルは、少なくとも最先端の手動胚選択モデルと同じくらいの性能を示した。 さらに、胚スコアリングのフルオートマチック化は、手動評価を少なくし、サーバー間およびサーバー内変動によるバイアスを排除します。

Assessing and selecting the most viable embryos for transfer is an essential part of in vitro fertilization (IVF). In recent years, several approaches have been made to improve and automate the procedure using artificial intelligence (AI) and deep learning. Based on images of embryos with known implantation data (KID), AI models have been trained to automatically score embryos related to their chance of achieving a successful implantation. However, as of now, only limited research has been conducted to evaluate how embryo selection models generalize to new clinics and how they perform in subgroup analyses across various conditions. In this paper, we investigate how a deep learning-based embryo selection model using only time-lapse image sequences performs across different patient ages and clinical conditions, and how it correlates with traditional morphokinetic parameters. The model was trained and evaluated based on a large dataset from 18 IVF centers consisting of 115,832 embryos, of which 14,644 embryos were transferred KID embryos. In an independent test set, the AI model sorted KID embryos with an area under the curve (AUC) of a receiver operating characteristic curve of 0.67 and all embryos with an AUC of 0.95. A clinic hold-out test showed that the model generalized to new clinics with an AUC range of 0.60-0.75 for KID embryos. Across different subgroups of age, insemination method, incubation time, and transfer protocol, the AUC ranged between 0.63 and 0.69. Furthermore, model predictions correlated positively with blastocyst grading and negatively with direct cleavages. The fully automated iDAScore v1.0 model was shown to perform at least as good as a state-of-the-art manual embryo selection model. Moreover, full automatization of embryo scoring implies fewer manual evaluations and eliminates biases due to inter- and intraobserver variation.
翻訳日:2021-03-15 13:31:18 公開日:2021-03-12
# VDSM: 状態空間モデリングとエキスパートの深層混合による教師なしビデオディスタングル

VDSM: Unsupervised Video Disentanglement with State-Space Modeling and Deep Mixtures of Experts ( http://arxiv.org/abs/2103.07292v1 )

ライセンス: Link先を確認
Matthew J. Vowels, Necati Cihan Camgoz and Richard Bowden(参考訳) 絡み合った表現は、因果推論、生成モデリング、公平な機械学習など、下流タスクの範囲をサポートする。 残念なことに、混乱は監督や帰納的偏見を取り入れずには不可能であることが示されている。 監視は、しばしばコストがかかるか、取得できないことを考えると、構造的帰納バイアスを取り入れ、教師なしの深いビデオディスタングルのための状態空間モデル(VDSM)を提示する。 モデルは、動的先行とエキスパートデコーダの混合と階層構造を組み込むことによって、潜時変動と動的要因を解き放つ。 VDSMは、ビデオ中のオブジェクトまたは人のアイデンティティと、実行中のアクションに対する分離された不整合表現を学習する。 我々はvdsmを,アイデンティティやダイナミクスの伝達,シーケンス生成,fr\'echetインセプション距離,因子分類など,質的かつ定量的なタスクで評価する。 VDSMは最先端のパフォーマンスを提供し、メソッドが追加の監視を使用する場合でも、敵メソッドを超える。

Disentangled representations support a range of downstream tasks including causal reasoning, generative modeling, and fair machine learning. Unfortunately, disentanglement has been shown to be impossible without the incorporation of supervision or inductive bias. Given that supervision is often expensive or infeasible to acquire, we choose to incorporate structural inductive bias and present an unsupervised, deep State-Space-Model for Video Disentanglement (VDSM). The model disentangles latent time-varying and dynamic factors via the incorporation of hierarchical structure with a dynamic prior and a Mixture of Experts decoder. VDSM learns separate disentangled representations for the identity of the object or person in the video, and for the action being performed. We evaluate VDSM across a range of qualitative and quantitative tasks including identity and dynamics transfer, sequence generation, Fr\'echet Inception Distance, and factor classification. VDSM provides state-of-the-art performance and exceeds adversarial methods, even when the methods use additional supervision.
翻訳日:2021-03-15 13:30:44 公開日:2021-03-12
# 自己機能規則化:教師モデルのない自己機能蒸留

Self-Feature Regularization: Self-Feature Distillation Without Teacher Models ( http://arxiv.org/abs/2103.07350v1 )

ライセンス: Link先を確認
Wenxuan Fan, Zhenyan Hou(参考訳) 知識蒸留(英: knowledge distillation)は、知識を大きなモデルから小さなモデルに移す過程である。 この過程において、小モデルは、大模型の一般化能力を学び、大模型のそれに近い性能を維持する。 知識蒸留は、モデルの知識を移行し、モデルの展開を促進し、推論を高速化する訓練手段を提供する。 しかし、以前の蒸留法では、事前に訓練された教師モデルが必要です。 本稿では,深層の特徴を用いて浅層における特徴学習を監督し,より意味的な情報を保持する,セルフ・フィーチャー・レギュライゼーション(sfr)と呼ばれる新しい汎用学習フレームワークを提案する。 具体的には,まずEMD-l2損失を局所的な特徴に合わせるために利用し,チャネル次元においてより集中的に特徴を蒸留するための多対一のアプローチを提案する。 次に、出力層で動的ラベル平滑化を用い、よりよい性能を得る。 さらに,提案手法の有効性を示す実験を行った。

Knowledge distillation is the process of transferring the knowledge from a large model to a small model. In this process, the small model learns the generalization ability of the large model and retains the performance close to that of the large model. Knowledge distillation provides a training means to migrate the knowledge of models, facilitating model deployment and speeding up inference. However, previous distillation methods require pre-trained teacher models, which still bring computational and storage overheads. In this paper, a novel general training framework called Self-Feature Regularization~(SFR) is proposed, which uses features in the deep layers to supervise feature learning in the shallow layers, retains more semantic information. Specifically, we firstly use EMD-l2 loss to match local features and a many-to-one approach to distill features more intensively in the channel dimension. Then dynamic label smoothing is used in the output layer to achieve better performance. Experiments further show the effectiveness of our proposed framework.
翻訳日:2021-03-15 13:30:25 公開日:2021-03-12
# 低リソースエンドツーエンド音声認識のためのBPE-Dropoutによる動的音響ユニット拡張

Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource End-to-End Speech Recognition ( http://arxiv.org/abs/2103.07186v1 )

ライセンス: Link先を確認
Aleksandr Laptev, Andrei Andrusenko, Ivan Podluzhny, Anton Mitrofanov, Ivan Medennikov, Yuri Matveev(参考訳) 音声アシスタントの急速な発展に伴い、サーバーによる自動音声認識(ASR)ソリューションを直接デバイスに適応させることが重要です。 研究者や業界は、デバイス上の音声認識タスクにエンドツーエンドのASRシステムを使うことを好む。 これは、ハイブリッドシステムと比較して高い品質を維持しながら、エンドツーエンドシステムをリソース効率にすることができるためです。 しかし、エンドツーエンドモデルの構築には大量の音声データが必要である。 音声アシスタントに関連するもう1つの課題はパーソナライズであり、主に語彙外単語(OOV)を扱うことである。 本研究では,Babel Turk と Babel Georgian のタスクを具体化した,高OOV レートの低リソース構成で効率的なエンドツーエンド ASR システムを構築することを検討する。 そこで本研究では,BPE-dropout法を用いた動的音響ユニット増強法を提案する。 非決定論的に発話をトークン化して、トークンのコンテキストを拡張し、モデルの目に見えない単語認識のための分布を正規化します。 また、最適なサブワード語彙サイズ検索の必要性も減らす。 この手法は、正規およびパーソナライズされた(oov指向)音声認識タスク(少なくとも6%の相対werと25%の相対f-score)を計算コストなしで着実に改善する。 我々の単言語であるトルコ語コンフォーマーは、BPEドロップアウトの使用により、22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。

With the rapid development of speech assistants, adapting server-intended automatic speech recognition (ASR) solutions to a direct device has become crucial. Researchers and industry prefer to use end-to-end ASR systems for on-device speech recognition tasks. This is because end-to-end systems can be made resource-efficient while maintaining a higher quality compared to hybrid systems. However, building end-to-end models requires a significant amount of speech data. Another challenging task associated with speech assistants is personalization, which mainly lies in handling out-of-vocabulary (OOV) words. In this work, we consider building an effective end-to-end ASR system in low-resource setups with a high OOV rate, embodied in Babel Turkish and Babel Georgian tasks. To address the aforementioned problems, we propose a method of dynamic acoustic unit augmentation based on the BPE-dropout technique. It non-deterministically tokenizes utterances to extend the token's contexts and to regularize their distribution for the model's recognition of unseen words. It also reduces the need for optimal subword vocabulary size search. The technique provides a steady improvement in regular and personalized (OOV-oriented) speech recognition tasks (at least 6% relative WER and 25% relative F-score) at no additional computational cost. Owing to the use of BPE-dropout, our monolingual Turkish Conformer established a competitive result with 22.2% character error rate (CER) and 38.9% word error rate (WER), which is close to the best published multilingual system.
翻訳日:2021-03-15 13:30:09 公開日:2021-03-12
# BDD4BNN:バイナライズニューラルネットワークのためのBDDベースの定量的分析フレームワーク

BDD4BNN: A BDD-based Quantitative Analysis Framework for Binarized Neural Networks ( http://arxiv.org/abs/2103.07224v1 )

ライセンス: Link先を確認
Yedi Zhang and Zhe Zhao and Guangke Chen and Fu Song and Taolue Chen(参考訳) ニューラルネットワークの振る舞いの検証と説明は、特に安全クリティカルなアプリケーションにデプロイされている場合、ますます重要になっている。 本稿では,一般実数ニューラルネットワークの1ビット量子化手法であるBinarized Neural Networks(BNNs)の検証問題について検討する。 我々のアプローチは,BNNの内部構造を利用して,BNNをBDD(Bibinary Decision Diagram)にエンコードすることである。 特に,BNNにおけるブロックの入出力関係を,BDDで符号化された濃度制約に変換する。 符号化に基づいて,BNNの高精度かつ包括的分析が可能なBNNの定量的検証フレームワークを開発する。 BNNに定量的な堅牢性解析と解釈性を提供することで、フレームワークの適用を実証します。 BDD4BNNのプロトタイプツールを実装し、アプローチの有効性と効率を確認する広範な実験を実施します。

Verifying and explaining the behavior of neural networks is becoming increasingly important, especially when they are deployed in safety-critical applications. In this paper, we study verification problems for Binarized Neural Networks (BNNs), the 1-bit quantization of general real-numbered neural networks. Our approach is to encode BNNs into Binary Decision Diagrams (BDDs), which is done by exploiting the internal structure of the BNNs. In particular, we translate the input-output relation of blocks in BNNs to cardinality constraints which are then encoded by BDDs. Based on the encoding, we develop a quantitative verification framework for BNNs where precise and comprehensive analysis of BNNs can be performed. We demonstrate the application of our framework by providing quantitative robustness analysis and interpretability for BNNs. We implement a prototype tool BDD4BNN and carry out extensive experiments which confirm the effectiveness and efficiency of our approach.
翻訳日:2021-03-15 13:29:41 公開日:2021-03-12
# 証拠に基づく政策学習

Evidence-Based Policy Learning ( http://arxiv.org/abs/2103.07066v1 )

ライセンス: Link先を確認
Jann Spiess and Vasilis Syrgkanis(参考訳) 過去数年間、ランダム化比較試験からパーソナライズされた治療割り当てポリシーを推定する機械学習アルゴリズムの開発と展開が見られた。 しかし、そのような治療の割り当てのアルゴリズムは、通常、治療の割り当てがしばしば仮説テストの対象となることを考慮せずに、期待される結果を最適化する。 本稿では, 治療適応政策の効果を考慮に入れ, 統計的に有意な治療効果を有する個人のサブセットを見つける確率を最適化する課題について検討する。 本稿では, 決定木を用いた効率的な実装を提案し, 正(推定)処理効果に基づくサブセットの選択よりも有利であることを示す。 標準的な木ベースの回帰および分類ツールと比較して、このアプローチは肯定的な治療効果を有する部分群の検出において実質的に高いパワーをもたらす傾向にある。

The past years have seen seen the development and deployment of machine-learning algorithms to estimate personalized treatment-assignment policies from randomized controlled trials. Yet such algorithms for the assignment of treatment typically optimize expected outcomes without taking into account that treatment assignments are frequently subject to hypothesis testing. In this article, we explicitly take significance testing of the effect of treatment-assignment policies into account, and consider assignments that optimize the probability of finding a subset of individuals with a statistically significant positive treatment effect. We provide an efficient implementation using decision trees, and demonstrate its gain over selecting subsets based on positive (estimated) treatment effects. Compared to standard tree-based regression and classification tools, this approach tends to yield substantially higher power in detecting subgroups with positive treatment effects.
翻訳日:2021-03-15 13:29:20 公開日:2021-03-12
# 確率的デジタル双子を用いた最適逐次決定法

Optimal sequential decision making with probabilistic digital twins ( http://arxiv.org/abs/2103.07405v1 )

ライセンス: Link先を確認
Christian Agrell, Kristina Rognlien Dahl, Andreas Hafver(参考訳) デジタル双子は多くの業界で登場しており、典型的にはシミュレーションモデルと特定の物理システムに関連するデータで構成されている。 デジタル双生児を開発する主な理由の1つは、物理的なシステム自体に干渉することなく、与えられたアクションの結果のシミュレーションを可能にすることである。 興味のある物理的システムとそれらが操作する環境は、常に決定論的に振る舞うとは限らない。 さらに、システムとその環境に関する情報は通常不完全または不完全です。 したがって、システムと環境の確率的表現は、特にアクションが深刻な結果をもたらす可能性のあるアプリケーション領域における決定を支援するために要求される。 本稿では,確率論的ディジタルツイン(PDT)を紹介する。 まずは、$\sigma$-algebrasを介してててんかん情報をモデル化することにより、測定理論を用いてててんかんの不確実性をどのように扱うことができるかについて議論する。 これに基づいて、疫学の不確実性をPDTでどのように更新できるかを公式に定義します。 次に、最適な逐次意思決定の問題を研究する。 すなわち、各決定の結果が次の決定を知らせる可能性がある場合を考える。 PDTフレームワーク内ではこの最適化問題を定式化する。 この問題を(少なくとも理論上は)最大原理法や動的プログラミング原理によってどのように解決するかを議論する。 しかし、次元の呪いのために、これらの方法は実際には扱いにくいことが多い。 そこで本研究では,深層強化学習と集合上に定義されたニューラルネットワークを用いた汎用近似解を提案する。 本手法は,故障確率の推定に最適な情報収集を考慮し,実用的課題の解法を示す。

Digital twins are emerging in many industries, typically consisting of simulation models and data associated with a specific physical system. One of the main reasons for developing a digital twin, is to enable the simulation of possible consequences of a given action, without the need to interfere with the physical system itself. Physical systems of interest, and the environments they operate in, do not always behave deterministically. Moreover, information about the system and its environment is typically incomplete or imperfect. Probabilistic representations of systems and environments may therefore be called for, especially to support decisions in application areas where actions may have severe consequences. In this paper we introduce the probabilistic digital twin (PDT). We will start by discussing how epistemic uncertainty can be treated using measure theory, by modelling epistemic information via $\sigma$-algebras. Based on this, we give a formal definition of how epistemic uncertainty can be updated in a PDT. We then study the problem of optimal sequential decision making. That is, we consider the case where the outcome of each decision may inform the next. Within the PDT framework, we formulate this optimization problem. We discuss how this problem may be solved (at least in theory) via the maximum principle method or the dynamic programming principle. However, due to the curse of dimensionality, these methods are often not tractable in practice. To mend this, we propose a generic approximate solution using deep reinforcement learning together with neural networks defined on sets. We illustrate the method on a practical problem, considering optimal information gathering for the estimation of a failure probability.
翻訳日:2021-03-15 13:29:06 公開日:2021-03-12
# 胸部X線特徴コーパスを用いたCOVID-19 CXR診断用視覚変換器

Vision Transformer for COVID-19 CXR Diagnosis using Chest X-ray Feature Corpus ( http://arxiv.org/abs/2103.07055v1 )

ライセンス: Link先を確認
Sangjoon Park, Gwanghyun Kim, Yujin Oh, Joon Beom Seo, Sang Min Lee, Jin Hwan Kim, Sungjun Moon, Jae-Kwang Lim, Jong Chul Ye(参考訳) 世界的なCOVID-19危機下では、CXRを用いた新型コロナウイルスの堅牢な診断アルゴリズムの開発は、他の疾患を持つCXRデータが豊富であるにもかかわらず、よく集められたCOVID-19データセットの欠如によって妨げられている。 この状況は、事前トレーニングを使用して豊富なラベルのないデータを活用できるビジョントランスフォーマーアーキテクチャに適している。 しかし、ResNetによって生成されたコーパスを使用する既存の視覚変換器の直接使用は、正確な特徴埋め込みには最適ではない。 そこで本研究では, 異常cxr特徴を抽出した低レベルcxr特徴コーパスを用いて, 新たな視覚トランスフォーマを提案する。 具体的には、大規模な公開データセットを使用してバックボーンネットワークを訓練し、統合、ガラスグラス不透明度(GGO)などのルーチン診断における異常な特徴を得る。 次に、バックボーンネットワークからの埋め込み特徴を視覚トランスフォーマートレーニング用コーパスとして使用する。 全く異なる機関から取得した各種外部テストデータセットのモデルを検討し、一般化能力を評価する。 本実験は,本手法が最先端性能を達成し,より優れた一般化能力を有することを示すものである。

Under the global COVID-19 crisis, developing robust diagnosis algorithm for COVID-19 using CXR is hampered by the lack of the well-curated COVID-19 data set, although CXR data with other disease are abundant. This situation is suitable for vision transformer architecture that can exploit the abundant unlabeled data using pre-training. However, the direct use of existing vision transformer that uses the corpus generated by the ResNet is not optimal for correct feature embedding. To mitigate this problem, we propose a novel vision Transformer by using the low-level CXR feature corpus that are obtained to extract the abnormal CXR features. Specifically, the backbone network is trained using large public datasets to obtain the abnormal features in routine diagnosis such as consolidation, glass-grass opacity (GGO), etc. Then, the embedded features from the backbone network are used as corpus for vision transformer training. We examine our model on various external test datasets acquired from totally different institutions to assess the generalization ability. Our experiments demonstrate that our method achieved the state-of-art performance and has better generalization capability, which are crucial for a widespread deployment.
翻訳日:2021-03-15 13:28:42 公開日:2021-03-12
# ビジョントランスを用いたCXRにおけるCOVID-19の重症度定量と病変局在

Severity Quantification and Lesion Localization of COVID-19 on CXR using Vision Transformer ( http://arxiv.org/abs/2103.07062v1 )

ライセンス: Link先を確認
Gwanghyun Kim, Sangjoon Park, Yujin Oh, Joon Beom Seo, Sang Min Lee, Jin Hwan Kim, Sungjun Moon, Jae-Kwang Lim, Jong Chul Ye(参考訳) 新型コロナウイルスの世界的なパンデミック下では、covid-19の重症度を定量化し、胸部x線画像上の関連病変をローカライズする自動化フレームワークの構築がますます重要になっている。 ピクセルレベルの病変の重度ラベルは、例えば。 病変分割は、堅牢なモデルを構築するための最も優れたターゲットであり、そのようなラベルで十分なデータを収集することは、時間と労働集約的なアノテーションタスクのために困難です。 代わりに、6つの肺の分割に整数スコアを割り当てる配列ベースの重篤なラベル付けは、高速なラベル付けを可能にする代替選択肢となる。 いくつかのグループは、配列ベースのCOVID-19ラベルを使用してCOVID-19の重症度を定量化し、説明可能なマップで病変をローカライズするディープラーニングアルゴリズムを提案した。 さらに精度と解釈性を向上させるために、重症度の定量化と新型コロナウイルス関連病変の臨床的に適用可能な局在化の両方に適した新しいVision Transformerを提案します。 我々のモデルは、弱い配列に基づくラベルから全確率マップを生成するために、弱教師付きで訓練されている。 さらに、新しいプログレッシブな自己学習手法により、小さなラベル付きデータセットでモデルを構築することができる。 外部テストセットの定量的・定性的分析により,実世界のアプリケーションにおいて,両課題とも放射線科医と同等の性能を示すことが示された。

Under the global pandemic of COVID-19, building an automated framework that quantifies the severity of COVID-19 and localizes the relevant lesion on chest X-ray images has become increasingly important. Although pixel-level lesion severity labels, e.g. lesion segmentation, can be the most excellent target to build a robust model, collecting enough data with such labels is difficult due to time and labor-intensive annotation tasks. Instead, array-based severity labeling that assigns integer scores on six subdivisions of lungs can be an alternative choice enabling the quick labeling. Several groups proposed deep learning algorithms that quantify the severity of COVID-19 using the array-based COVID-19 labels and localize the lesions with explainability maps. To further improve the accuracy and interpretability, here we propose a novel Vision Transformer tailored for both quantification of the severity and clinically applicable localization of the COVID-19 related lesions. Our model is trained in a weakly-supervised manner to generate the full probability maps from weak array-based labels. Furthermore, a novel progressive self-training method enables us to build a model with a small labeled dataset. The quantitative and qualitative analysis on the external testset demonstrates that our method shows comparable performance with radiologists for both tasks with stability in a real-world application.
翻訳日:2021-03-15 13:28:22 公開日:2021-03-12
# 患者固有の仮想脊椎矯正と椎体塗布 : 骨形成計画のための自動的枠組み

Patient-specific virtual spine straightening and vertebra inpainting: An automatic framework for osteoplasty planning ( http://arxiv.org/abs/2103.07279v1 )

ライセンス: Link先を確認
Christina Bukas, Bailiang Jian, Luis F. Rodriguez Venegas, Francesca De Benetti, Sebastian Ruehling, Anjany Sekubojina, Jens Gempt, Jan S. Kirschke, Marie Piraud, Johannes Oberreuter, Nassir Navab and Thomas Wendler(参考訳) 症状性脊椎圧迫骨折(VCF)はしばしば骨形成術を必要とする。 骨にセメント様の材料を注入して骨折を安定させ、椎体の高さを回復し、痛みを軽減する。 漏れは一般的な合併症であり、過剰なセメントの注入によって生じることがある。 そこで本研究では, 医師が注射用セメントの上限を算出し, 骨形成術の最適成績を推定できる, 患者固有の自動フレームワークを提案する。 このフレームワークは、患者のCTスキャンと骨折した椎骨ラベルを使って、高レベルのアプローチで仮想的な健康な脊椎を構築する。 まず、骨折した脊椎は3段階の畳み込みニューラルネットワーク(CNN)アーキテクチャで分割される。 次に、健康な脊椎アトラスに対する椎間板リジッド登録は、その曲率を回復する。 最後に、GANベースの塗装アプローチは、骨折した椎骨を元の形状の推定に置き換えます。 この結果に基づいて、注入のための骨セメントの最大量を推定します。 10人の患者の仮想椎骨容積を健康な同値値と比較し,平均誤差を3.88$\pm$7.63\%と報告した。 提案するパイプラインは,osteoplasty手順を計画するためのパーソナライズされたハイレベルなフレームワークに対して,最初のアプローチを提供する。

Symptomatic spinal vertebral compression fractures (VCFs) often require osteoplasty treatment. A cement-like material is injected into the bone to stabilize the fracture, restore the vertebral body height and alleviate pain. Leakage is a common complication and may occur due to too much cement being injected. In this work, we propose an automated patient-specific framework that can allow physicians to calculate an upper bound of cement for the injection and estimate the optimal outcome of osteoplasty. The framework uses the patient CT scan and the fractured vertebra label to build a virtual healthy spine using a high-level approach. Firstly, the fractured spine is segmented with a three-step Convolution Neural Network (CNN) architecture. Next, a per-vertebra rigid registration to a healthy spine atlas restores its curvature. Finally, a GAN-based inpainting approach replaces the fractured vertebra with an estimation of its original shape. Based on this outcome, we then estimate the maximum amount of bone cement for injection. We evaluate our framework by comparing the virtual vertebrae volumes of ten patients to their healthy equivalent and report an average error of 3.88$\pm$7.63\%. The presented pipeline offers a first approach to a personalized automatic high-level framework for planning osteoplasty procedures.
翻訳日:2021-03-15 13:28:00 公開日:2021-03-12
# スケーラブルで保証された凸プログラミングによる最大線形回帰

Max-Linear Regression by Scalable and Guaranteed Convex Programming ( http://arxiv.org/abs/2103.07020v1 )

ライセンス: Link先を確認
Seonho Kim, Sohail Bahmani, and Kiryung Lee(参考訳) モデルパラメータ $\boldsymbol{\beta}_{1},\dotsc,\boldsymbol{\beta}_{k}\in\mathbb{R}^{p}$ が (ノイズの多い)観測 $y = \max_{1\leq j \leq k} \boldsymbol{\beta}_{j}^{\mathsf{T}} \boldsymbol{x} + \mathrm{noise}$ の独立したサンプルから推定される必要がある。 最大線形モデルは、従来の線形モデルを大幅に一般化し、線型モデルが十分に大きい場合、任意の凸関数を任意の精度に近似することができる。 しかし、マックス・リニアモデルの固有非線形性は計算上難しい回帰パラメータの推定を導出する。 特に、凸プログラミングに基づく推定器は文献で知られていない。 最大線形回帰問題の推定器としてスケーラブル凸プログラムを定式化し,解析する。 標準ガウス観測条件では、凸プログラムが高い確率でパラメータを回復することを示す非漸近的な性能保証を示す。 線形成分 $k$ が等しく最大値に達する可能性が高い場合、その結果、十分な数の観測が対数係数まで $k^{2}p$ としてスケールすることを示しています。 これは交代最小化(ghosh et al., 2019)に基づく類似の先行結果を大幅に改善する。 最後に,モンテカルロシミュレーションにより,理論結果が経験的挙動と一致していることを示し,最大線形回帰の凸推定器は,実際には交互最小化アルゴリズムと同等の競合性を示す。

We consider the multivariate max-linear regression problem where the model parameters $\boldsymbol{\beta}_{1},\dotsc,\boldsymbol{\beta}_{k}\in\mathbb{R}^{p}$ need to be estimated from $n$ independent samples of the (noisy) observations $y = \max_{1\leq j \leq k} \boldsymbol{\beta}_{j}^{\mathsf{T}} \boldsymbol{x} + \mathrm{noise}$. The max-linear model vastly generalizes the conventional linear model, and it can approximate any convex function to an arbitrary accuracy when the number of linear models $k$ is large enough. However, the inherent nonlinearity of the max-linear model renders the estimation of the regression parameters computationally challenging. Particularly, no estimator based on convex programming is known in the literature. We formulate and analyze a scalable convex program as the estimator for the max-linear regression problem. Under the standard Gaussian observation setting, we present a non-asymptotic performance guarantee showing that the convex program recovers the parameters with high probability. When the $k$ linear components are equally likely to achieve the maximum, our result shows that a sufficient number of observations scales as $k^{2}p$ up to a logarithmic factor. This significantly improves on the analogous prior result based on alternating minimization (Ghosh et al., 2019). Finally, through a set of Monte Carlo simulations, we illustrate that our theoretical result is consistent with empirical behavior, and the convex estimator for max-linear regression is as competitive as the alternating minimization algorithm in practice.
翻訳日:2021-03-15 13:27:40 公開日:2021-03-12
# 未知の順列を持つマルチビューセンシング:最適なトランスポートアプローチ

Multiview Sensing With Unknown Permutations: An Optimal Transport Approach ( http://arxiv.org/abs/2103.07458v1 )

ライセンス: Link先を確認
Yanting Ma, Petros T. Boufounos, Hassan Mansour, Shuchin Aeron(参考訳) 動作中の変形可能な物体の撮像、同時局在化とマッピング、ラベルなしセンシングなど、いくつかの応用において、未知の順列によって測定される信号の復元の問題に遭遇する。 本論文では、最適搬送(OT)のレンズを通して、この問題を新たな視点で検討する。 特に、ほとんどの実用的な応用において、未知の置換は任意ではないが、あるものは他のものよりも起こりやすいと認識している。 これを利用して、ソリューションのより可能性の高い置換を促進する正規化関数を導入しています。 一般的な問題は凸ではありませんが、結果として生じる正規化問題の適切な緩和は、OTのよく発達した機械を利用し、トラクタブルアルゴリズムを開発することを可能にします。

In several applications, including imaging of deformable objects while in motion, simultaneous localization and mapping, and unlabeled sensing, we encounter the problem of recovering a signal that is measured subject to unknown permutations. In this paper we take a fresh look at this problem through the lens of optimal transport (OT). In particular, we recognize that in most practical applications the unknown permutations are not arbitrary but some are more likely to occur than others. We exploit this by introducing a regularization function that promotes the more likely permutations in the solution. We show that, even though the general problem is not convex, an appropriate relaxation of the resulting regularized problem allows us to exploit the well-developed machinery of OT and develop a tractable algorithm.
翻訳日:2021-03-15 13:27:12 公開日:2021-03-12
# BERTによる誘導関係予測

Inductive Relation Prediction by BERT ( http://arxiv.org/abs/2103.07102v1 )

ライセンス: Link先を確認
Hanwen Zha, Zhiyu Chen and Xifeng Yan(参考訳) 知識グラフにおける関係予測は、主にトランスダクティブな設定に焦点を当てた埋め込みベース手法によって支配される。 残念なことに、彼らは見えない実体や関係が存在する帰納的学習を処理できず、事前の知識を活用できない。 さらに、推論プロセスは簡単に説明できない。 本研究では、事前学習した言語モデルを活用し、関係インスタンスとその可能な推論パスをトレーニングサンプルとして取得することにより、それを微調整する、BERTRL(BERT-based Relational Learning)と呼ばれるオールインワンソリューションを提案する。 BERTRLはインダクティブとトランスダクティブの両方の設定で18例中15例でSOTAを上回っています。 一方,単発学習では強力な一般化能力を示し,説明可能である。

Relation prediction in knowledge graphs is dominated by embedding based methods which mainly focus on the transductive setting. Unfortunately, they are not able to handle inductive learning where unseen entities and relations are present and cannot take advantage of prior knowledge. Furthermore, their inference process is not easily explainable. In this work, we propose an all-in-one solution, called BERTRL (BERT-based Relational Learning), which leverages pre-trained language model and fine-tunes it by taking relation instances and their possible reasoning paths as training samples. BERTRL outperforms the SOTAs in 15 out of 18 cases in both inductive and transductive settings. Meanwhile, it demonstrates strong generalization capability in few-shot learning and is explainable.
翻訳日:2021-03-15 13:26:28 公開日:2021-03-12
# グローバルガイダンスによる制約付きテキスト生成 -- CommonGen のケーススタディ

Constrained Text Generation with Global Guidance -- Case Study on CommonGen ( http://arxiv.org/abs/2103.07170v1 )

ライセンス: Link先を確認
Yixian Liu, Liwen Zhang, Wenjuan Han, Yue Zhang, Kewei Tu(参考訳) 本稿では,特定の前提条件下で文を生成する制約付きテキスト生成について検討する。 制約付きテキスト生成の代表的なタスクとして,概念セットに基づいたテキスト生成タスクであるCommonGenに注目した。 従来の手法は, 対象文の可能性を最大化するために指導的訓練を主眼とするが, 自己回帰的復号プロセスの潜在的目的には, 常識やカバレッジといったグローバルな制約が組み込まれない。 本稿では,強化学習の報奨となる総合的なスコアを用いて,フラレンシ,常識,概念カバレッジなど世界的な制約を測定することを目的とした強化学習について検討する。 さらに,単語,フラグメント,文レベルでのガイド付き復号法を設計する。 実験により,提案手法は概念カバレッジを著しく向上させ,既存のモデルを各種自動評価で上回ることを示した。

This paper studies constrained text generation, which is to generate sentences under certain pre-conditions. We focus on CommonGen, the task of generating text based on a set of concepts, as a representative task of constrained text generation. Traditional methods mainly rely on supervised training to maximize the likelihood of target sentences.However, global constraints such as common sense and coverage cannot be incorporated into the likelihood objective of the autoregressive decoding process. In this paper, we consider using reinforcement learning to address the limitation, measuring global constraints including fluency, common sense and concept coverage with a comprehensive score, which serves as the reward for reinforcement learning. Besides, we design a guided decoding method at the word, fragment and sentence levels. Experiments demonstrate that our method significantly increases the concept coverage and outperforms existing models in various automatic evaluations.
翻訳日:2021-03-15 13:26:16 公開日:2021-03-12
# NLPモデルは、単純な数学の単語問題を本当に解決できますか?

Are NLP Models really able to Solve Simple Math Word Problems? ( http://arxiv.org/abs/2103.07191v1 )

ライセンス: Link先を確認
Arkil Patel, Satwik Bhattamishra, Navin Goyal(参考訳) 数学語問題 (MWP) のためのNLPソルバを設計する問題は, 研究活動が継続し, 試験精度が着実に向上した。 既存の解法は1つの未知の算術語問題を含む初等レベルのMWPのベンチマークデータセットで高い性能を達成しているため、そのような問題はより複雑なMWPに注目が集まる中で「解決」されることが多い。 本論文では,4年生以下の英語MWPに注意を向ける。 既存のMWPソルバは、ベンチマークデータセット上で高い性能を達成するために、浅いヒューリスティックに依存しているという強い証拠を提供する。 この結果から,MWP で質問された質問にアクセスできない MWP の解法は,依然として少数の MWP を解くことができることを示す。 同様に、mwpを単語の袋として扱うモデルも驚くほど高い精度を達成できる。 さらに,既存のデータセットからサンプルしたサンプルに対して,慎重に選択したバリエーションを適用して作成するチャレンジデータセットsvampを紹介する。 最先端モデルによって達成される最高の精度はSVAMPよりも大幅に低いため、MWPの最も単純なモデルでも多くの処理が可能であることが示される。

The problem of designing NLP solvers for math word problems (MWP) has seen sustained research activity and steady gains in the test accuracy. Since existing solvers achieve high performance on the benchmark datasets for elementary level MWPs containing one-unknown arithmetic word problems, such problems are often considered "solved" with the bulk of research attention moving to more complex MWPs. In this paper, we restrict our attention to English MWPs taught in grades four and lower. We provide strong evidence that the existing MWP solvers rely on shallow heuristics to achieve high performance on the benchmark datasets. To this end, we show that MWP solvers that do not have access to the question asked in the MWP can still solve a large fraction of MWPs. Similarly, models that treat MWPs as bag-of-words can also achieve surprisingly high accuracy. Further, we introduce a challenge dataset, SVAMP, created by applying carefully chosen variations over examples sampled from existing datasets. The best accuracy achieved by state-of-the-art models is substantially lower on SVAMP, thus showing that much remains to be done even for the simplest of the MWPs.
翻訳日:2021-03-15 13:26:02 公開日:2021-03-12
# 視覚手がかりと誤り訂正による翻訳ロバスト性の向上

Improving Translation Robustness with Visual Cues and Error Correction ( http://arxiv.org/abs/2103.07352v1 )

ライセンス: Link先を確認
Zhenhao Li, Marek Rei, Lucia Specia(参考訳) ニューラルマシン翻訳モデルは入力ノイズに弱いです。 現在の堅牢性技術は、主に既存のノイズの多いテキストにモデルを適用しますが、これらのモデルは一般的に、見えないノイズに直面して、クリーンテキストのパフォーマンスが低下すると失敗します。 本稿では,ノイズの多いテキストに対する翻訳堅牢性を改善するための視覚的文脈の概念を紹介する。 さらに,誤り訂正を補助タスクとして扱うことで,ロバスト性をさらに向上させる新しい誤り訂正訓練手法を提案する。 英語とフランス語とドイツ語の翻訳実験では、マルチモーダリティと誤り訂正トレーニングの両方が、既知の新しいタイプのエラーに対するモデル堅牢性に有益であり、クリーンテキストの品質を維持している。

Neural Machine Translation models are brittle to input noise. Current robustness techniques mostly adapt models to existing noisy texts, but these models generally fail when faced with unseen noise and their performance degrades on clean texts. In this paper, we introduce the idea of visual context to improve translation robustness against noisy texts. In addition, we propose a novel error correction training regime by treating error correction as an auxiliary task to further improve robustness. Experiments on English-French and English-German translation show that both multimodality and error correction training are beneficial for model robustness to known and new types of errors, while keeping the quality on clean texts.
翻訳日:2021-03-15 13:25:42 公開日:2021-03-12
# CRFace:モデル診断顔検出リファインメントのための信頼ランキング

CRFace: Confidence Ranker for Model-Agnostic Face Detection Refinement ( http://arxiv.org/abs/2103.07017v1 )

ライセンス: Link先を確認
Noranart Vesdapunt, Baoyuan Wang(参考訳) 顔検出は多くの下流のアプリケーションにとって根本的な問題であり、より速く、より正確に、より高解像度な顔検出のサポートに対する需要が高まっている。 最近のスマートフォンは8k解像度でビデオを撮影できるが、既存の顔検出装置の多くはアンカーサイズとトレーニングデータのために失敗している。 故障事例を解析し,不正確な信頼度で多数の予測ボックスを観測する。 本研究では,これらの信頼度を測定するために,同一画像内で予測される信頼度を局所的に再ランクするペアワイズランキング損失を持つ信頼度ランキングネットワークを提案する。 当社の信頼ランキングはモデルに依存しないため、トレーニング中に複数の顔検出器からペアを選択し、テスト中に幅広い顔検出器に一般化することでデータを強化できます。 WiderFaceでは、単一スケールで最高のAPを達成することができ、我々のAPは従来のマルチスケールメソッドと競合すると同時に、はるかに高速である。 8k解像度では、gpuメモリの問題を解決し、8k上で間接的にトレーニングできる。 改善を示すために8K解像度テストセットを収集し、将来の研究のための新しいベンチマークとしてテストセットをリリースします。

Face detection is a fundamental problem for many downstream face applications, and there is a rising demand for faster, more accurate yet support for higher resolution face detectors. Recent smartphones can record a video in 8K resolution, but many of the existing face detectors still fail due to the anchor size and training data. We analyze the failure cases and observe a large number of correct predicted boxes with incorrect confidences. To calibrate these confidences, we propose a confidence ranking network with a pairwise ranking loss to re-rank the predicted confidences locally within the same image. Our confidence ranker is model-agnostic, so we can augment the data by choosing the pairs from multiple face detectors during the training, and generalize to a wide range of face detectors during the testing. On WiderFace, we achieve the highest AP on the single-scale, and our AP is competitive with the previous multi-scale methods while being significantly faster. On 8K resolution, our method solves the GPU memory issue and allows us to indirectly train on 8K. We collect 8K resolution test set to show the improvement, and we will release our test set as a new benchmark for future research.
翻訳日:2021-03-15 13:24:26 公開日:2021-03-12
# 降雨ストレークと雨滴除去の2重注意モデル

Dual Attention-in-Attention Model for Joint Rain Streak and Raindrop Removal ( http://arxiv.org/abs/2103.07051v1 )

ライセンス: Link先を確認
Kaihao Zhang, Dongxu Li, Wenhan Luo, Wenqi Ren, Lin Ma, Hongdong Li(参考訳) 雨滴と雨滴は2つの自然現象であり、異なる方法でイメージキャプチャーを劣化させる。 現在、ほとんどの既存の深層排水ネットワークは、それらを2つの異なる問題として捉え、個別に対処するため、両方を同時に処理することはできません。 そこで本研究では,降雨量と降雨量の両方を除去する2つのDAMを含むDual Attention-in-Attention Model (DAiAM)を提案する。 DAM内には、重雨地域と軽雨地帯にそれぞれ参列する2つの注意深い地図記があり、適用地域ごとに異なる導出過程を導出する。 さらに, ディファレンシャル駆動のデュアルアテンション・イン・アテンション・モデル (D-DAiAM) は, 不満足な降雨領域に対処して雨を除去する「軽量」方式で提案されている。 1つの公共雨害データセット,1つの公共雨害データセット,および2つの複合雨害・降雨雨害データセットに対する大規模な実験により,提案手法が同時に雨害・降雨害を除去できるだけでなく,両課題における最先端の性能も達成できることが実証された。

Rain streaks and rain drops are two natural phenomena, which degrade image capture in different ways. Currently, most existing deep deraining networks take them as two distinct problems and individually address one, and thus cannot deal adequately with both simultaneously. To address this, we propose a Dual Attention-in-Attention Model (DAiAM) which includes two DAMs for removing both rain streaks and raindrops. Inside the DAM, there are two attentive maps - each of which attends to the heavy and light rainy regions, respectively, to guide the deraining process differently for applicable regions. In addition, to further refine the result, a Differential-driven Dual Attention-in-Attention Model (D-DAiAM) is proposed with a "heavy-to-light" scheme to remove rain via addressing the unsatisfying deraining regions. Extensive experiments on one public raindrop dataset, one public rain streak and our synthesized joint rain streak and raindrop (JRSRD) dataset have demonstrated that the proposed method not only is capable of removing rain streaks and raindrops simultaneously, but also achieves the state-of-the-art performance on both tasks.
翻訳日:2021-03-15 13:24:07 公開日:2021-03-12
# FS-Net - Decoupled Rotation Mechanismを用いたカテゴリレベル6Dオブジェクトポース推定のための高速シェイプベースネットワーク

FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose Estimation with Decoupled Rotation Mechanism ( http://arxiv.org/abs/2103.07054v1 )

ライセンス: Link先を確認
Wei Chen, Xi Jia, Hyung Jin Chang, Jinming Duan, Linlin Shen, Ales Leonardis(参考訳) 本稿では,モノクロRGB-D画像からカテゴリレベルの6Dポーズとサイズ推定に焦点をあてる。 従来の手法は非効率なカテゴリレベルのポーズ特徴抽出に苦しむため、精度と推論速度が低下する。 そこで本研究では,6次元ポーズ推定のためのカテゴリレベルの特徴抽出を効率的に行う高速形状ネットワーク(FS-Net)を提案する。 まず, 3次元グラフ畳み込みを用いた指向性を考慮したオートエンコーダの設計を行った。 学習された潜在機能は、3Dグラフ畳み込みのシフトとスケール不変性のおかげで、点シフトやオブジェクトサイズに敏感である。 次に,潜在特徴からカテゴリレベルの回転情報を効率的にデコードするために,2つのデコーダを用いた新しいデカップリング回転機構を提案する。 一方,対象点の平均と接地真理変換の差である2つの残差による翻訳とサイズを推定し,各カテゴリーの平均サイズと接地真理変換の差を推定する。 最後に、FS-Netの一般化能力を高めるために、トレーニングデータを拡張するためのオンラインボックスケージベースの3次元変形機構を提案する。 2つのベンチマークデータセットの大規模な実験により、提案手法はカテゴリレベルとインスタンスレベルの6Dオブジェクトのポーズ推定の両方において最先端の性能を達成することが示された。 特にカテゴリレベルのポーズ推定では、余分な合成データなしで、この手法はNOCS-REALデータセット上の既存のメソッドを6.3%上回る。

In this paper, we focus on category-level 6D pose and size estimation from monocular RGB-D image. Previous methods suffer from inefficient category-level pose feature extraction which leads to low accuracy and inference speed. To tackle this problem, we propose a fast shape-based network (FS-Net) with efficient category-level feature extraction for 6D pose estimation. First, we design an orientation aware autoencoder with 3D graph convolution for latent feature extraction. The learned latent feature is insensitive to point shift and object size thanks to the shift and scale-invariance properties of the 3D graph convolution. Then, to efficiently decode category-level rotation information from the latent feature, we propose a novel decoupled rotation mechanism that employs two decoders to complementarily access the rotation information. Meanwhile, we estimate translation and size by two residuals, which are the difference between the mean of object points and ground truth translation, and the difference between the mean size of the category and ground truth size, respectively. Finally, to increase the generalization ability of FS-Net, we propose an online box-cage based 3D deformation mechanism to augment the training data. Extensive experiments on two benchmark datasets show that the proposed method achieves state-of-the-art performance in both category- and instance-level 6D object pose estimation. Especially in category-level pose estimation, without extra synthetic data, our method outperforms existing methods by 6.3% on the NOCS-REAL dataset.
翻訳日:2021-03-15 13:23:43 公開日:2021-03-12
# バイラテラル拡張と適応核融合による実点雲シーンのセマンティックセグメンテーション

Semantic Segmentation for Real Point Cloud Scenes via Bilateral Augmentation and Adaptive Fusion ( http://arxiv.org/abs/2103.07074v1 )

ライセンス: Link先を確認
Shi Qiu, Saeed Anwar and Nick Barnes(参考訳) 現在の3Dセンサーの優位性を考えると、基本的なクラウドデータのきめ細かい分析はさらなる調査に値する。 特に、現実のクラウドシーンは実世界の複雑な環境を直感的に捉えることができるが、3Dデータの生の特性のため、マシン認識は非常に困難である。 本研究では,現実に収集された大規模ポイントクラウドデータに対して,視覚的タスクであるセマンティックセグメンテーションに注目する。 一方,近接点の曖昧さを低減すべく,2つの構造における幾何学的特徴と意味的特徴を十分に活用することにより,局所的文脈を増強する。 一方,複数の解像度からの点の識別性を包括的に解釈し,正確な意味セグメンテーションのための点レベルで適応融合法に従って特徴マップを表現する。 さらに,重要なモジュールを検証するために,アブレーション研究と直感的な可視化を提供する。 3つのベンチマークで最先端のネットワークと比較することにより,ネットワークの有効性を実証する。

Given the prominence of current 3D sensors, a fine-grained analysis on the basic point cloud data is worthy of further investigation. Particularly, real point cloud scenes can intuitively capture complex surroundings in the real world, but due to 3D data's raw nature, it is very challenging for machine perception. In this work, we concentrate on the essential visual task, semantic segmentation, for large-scale point cloud data collected in reality. On the one hand, to reduce the ambiguity in nearby points, we augment their local context by fully utilizing both geometric and semantic features in a bilateral structure. On the other hand, we comprehensively interpret the distinctness of the points from multiple resolutions and represent the feature map following an adaptive fusion method at point-level for accurate semantic segmentation. Further, we provide specific ablation studies and intuitive visualizations to validate our key modules. By comparing with state-of-the-art networks on three different benchmarks, we demonstrate the effectiveness of our network.
翻訳日:2021-03-15 13:23:21 公開日:2021-03-12
# ニューラル再投影エラー:機能学習とカメラポース推定のマージ

Neural Reprojection Error: Merging Feature Learning and Camera Pose Estimation ( http://arxiv.org/abs/2103.07153v1 )

ライセンス: Link先を確認
Hugo Germain and Vincent Lepetit and Guillaume Bourmaud(参考訳) 絶対的なカメラポーズ推定は通常、2つの異なるサブプロブレムを逐次解決することで解決される: まず2D-3D対応を確立する特徴マッチング問題、次にカメラポーズに関して、いわゆるリジェクションエラー(RE)の和を最小化するパースペクティブ-n-Point問題である。 提案する2D-3D対応の生成は,ロバストな損失の選択とハイパーパラメータのチューニングを通じて,RE内において可能な限り補償が必要な重要な情報の損失を招き,その誤データをポーズ推定器に伝達するREにつながる可能性がある。 本稿では,REの代用としてNRE(Neural Reprojection Error)について紹介する。 NREは、カメラのポーズ推定問題を特徴学習問題と組み合わせることで再考し、2D-3D対応よりもリッチな情報を活用し、ロバストな損失とハイパーパラメータを選択する必要をなくす。 したがって、NREは、ポーズ推定に適した画像記述子を学ぶためのトレーニング損失として使用できる。 また,カメラのポーズに関して,NRE項の和を極めて効率的に最小化できる粗大な最適化手法を提案する。 カメラポーズ推定のロバスト性と精度が大幅に向上し,メモリ効率が向上し,reの代替としてnreが有効であることを実験的に実証した。 より広い視点から見ると、深層学習と3次元幾何学を融合させる新しい方法は、他のコンピュータビジョンアプリケーションに有用であると考える。

Absolute camera pose estimation is usually addressed by sequentially solving two distinct subproblems: First a feature matching problem that seeks to establish putative 2D-3D correspondences, and then a Perspective-n-Point problem that minimizes, with respect to the camera pose, the sum of so-called Reprojection Errors (RE). We argue that generating putative 2D-3D correspondences 1) leads to an important loss of information that needs to be compensated as far as possible, within RE, through the choice of a robust loss and the tuning of its hyperparameters and 2) may lead to an RE that conveys erroneous data to the pose estimator. In this paper, we introduce the Neural Reprojection Error (NRE) as a substitute for RE. NRE allows to rethink the camera pose estimation problem by merging it with the feature learning problem, hence leveraging richer information than 2D-3D correspondences and eliminating the need for choosing a robust loss and its hyperparameters. Thus NRE can be used as training loss to learn image descriptors tailored for pose estimation. We also propose a coarse-to-fine optimization method able to very efficiently minimize a sum of NRE terms with respect to the camera pose. We experimentally demonstrate that NRE is a good substitute for RE as it significantly improves both the robustness and the accuracy of the camera pose estimate while being computationally and memory highly efficient. From a broader point of view, we believe this new way of merging deep learning and 3D geometry may be useful in other computer vision applications.
翻訳日:2021-03-15 13:23:03 公開日:2021-03-12
# グラフカットによるSARトモグラフィの都市表面再構成

Urban Surface Reconstruction in SAR Tomography by Graph-Cuts ( http://arxiv.org/abs/2103.07202v1 )

ライセンス: Link先を確認
Cl\'ement Rambour, Lo\"ic Denis, Florence Tupin, H\'el\`ene Oriot, Yue Huang, Laurent Ferro-Famil(参考訳) SAR(Synthetic Aperture Radar)トモグラフィは,SAR画像のスタックから3次元ボリュームを再構成する。 TerraSAR-Xのような高解像度の衛星は、3Dモデルを作成するために組み合わせられる画像を提供する。 都市部では、所与のレーダー分解能セル内で見られる散乱器の位置を取得するために、トモグラフィ反転プロセス中にスパーシティ優先度が一般に強制される。 しかし、このような先例はしばしば都市表面の一部を見逃す。 欠落した部分は通常、地上や屋上などの平坦な地域である。 本稿では,フローネットワークにおける最適カットの計算に基づく表面分割アルゴリズムを提案する。 このセグメンテーションプロセスは、都市表面の回復を改善するために、3次元再構築フレームワークに含めることができる。 TerraSAR-Xトモグラフィデータセットのイラストレーションは、地上、fa\c{c}アーケード、屋上などの都市表面の3次元モデルを作成するアプローチの可能性を示しています。

SAR (Synthetic Aperture Radar) tomography reconstructs 3-D volumes from stacks of SAR images. High-resolution satellites such as TerraSAR-X provide images that can be combined to produce 3-D models. In urban areas, sparsity priors are generally enforced during the tomographic inversion process in order to retrieve the location of scatterers seen within a given radar resolution cell. However, such priors often miss parts of the urban surfaces. Those missing parts are typically regions of flat areas such as ground or rooftops. This paper introduces a surface segmentation algorithm based on the computation of the optimal cut in a flow network. This segmentation process can be included within the 3-D reconstruction framework in order to improve the recovery of urban surfaces. Illustrations on a TerraSAR-X tomographic dataset demonstrate the potential of the approach to produce a 3-D model of urban surfaces such as ground, fa\c{c}ades and rooftops.
翻訳日:2021-03-15 13:22:35 公開日:2021-03-12
# 弱教師付き意味セグメンテーションに対する識別領域抑圧

Discriminative Region Suppression for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2103.07246v1 )

ライセンス: Link先を確認
Beomyoung Kim, Sangeun Han. Junmo Kim(参考訳) 画像レベルラベルを用いたweakly-supervised semantic segmentation (wsss) はアノテーションコストの低減に多くの注目を集めている。 既存のWSSSメソッドは、分類ネットワークからのローカリゼーションマップを利用して擬似セグメンテーションラベルを生成する。 しかし,分類器から得られるローカライゼーションマップはスパース識別対象領域のみに焦点が当てられているため,高品質なセグメンテーションラベルを生成することは困難である。 この問題に対処するために,オブジェクトのアクティベーション領域を拡大するための簡易かつ効果的な方法である識別領域抑制 (DRS) モジュールを導入する。 DRSは識別領域への注意を抑制し、隣接する非差別領域に拡散し、密な局在地図を生成する。 DRSは追加のパラメータをほとんど必要とせず、任意のネットワークにプラグインできる。 さらに,ローカライズマップリファインメント学習という,ローカライズマップの自己強化を実現するための新たな学習戦略を提案する。 この改良学習を活かしたローカライゼーションマップは、欠落した部分の復元やノイズ自体の除去によって洗練・強化される。 その単純さと有効性から,画像レベルラベルのみを用いたPASCAL VOC 2012セグメンテーションベンチマークでmIoU 71.4%を達成した。 広範な実験が我々のアプローチの有効性を実証している。 コードはhttps://github.com/qjadud1994/DRSで入手できる。

Weakly-supervised semantic segmentation (WSSS) using image-level labels has recently attracted much attention for reducing annotation costs. Existing WSSS methods utilize localization maps from the classification network to generate pseudo segmentation labels. However, since localization maps obtained from the classifier focus only on sparse discriminative object regions, it is difficult to generate high-quality segmentation labels. To address this issue, we introduce discriminative region suppression (DRS) module that is a simple yet effective method to expand object activation regions. DRS suppresses the attention on discriminative regions and spreads it to adjacent non-discriminative regions, generating dense localization maps. DRS requires few or no additional parameters and can be plugged into any network. Furthermore, we introduce an additional learning strategy to give a self-enhancement of localization maps, named localization map refinement learning. Benefiting from this refinement learning, localization maps are refined and enhanced by recovering some missing parts or removing noise itself. Due to its simplicity and effectiveness, our approach achieves mIoU 71.4% on the PASCAL VOC 2012 segmentation benchmark using only image-level labels. Extensive experiments demonstrate the effectiveness of our approach. The code is available at https://github.com/qjadud1994/DRS.
翻訳日:2021-03-15 13:22:22 公開日:2021-03-12
# 長期保存型ブラインドビデオ一貫性の学習

Learning Long-Term Style-Preserving Blind Video Temporal Consistency ( http://arxiv.org/abs/2103.07278v1 )

ライセンス: Link先を確認
Hugo Thimonier, Julien Despois, Robin Kips, Matthieu Perrot(参考訳) ビデオの連続フレームに画像学習アルゴリズムを独立に適用しようとすると、有害なフリックが現れる傾向がある。 時間的一貫性を育み、他の時間的アーティファクトを生成し、ビデオのスタイルを視覚的に変えることを目的とした、最先端のポストプロセッシング技術。 ビデオに適用される変換に非依存な後処理モデルを提案する(例)。 スタイル転送、GANを用いた画像操作など。 ) 再帰的なニューラルネットワークの形で表される。 近年GANビデオ生成のために導入されたPing Pongプロシージャとそれに対応する損失と、知覚的損失を保存する新しいスタイルを用いてトレーニングを行った。 前者は長期的一貫性学習を改善し、後者はスタイル保存を促進する。 DAVISとvidevo.netデータセットのモデルを評価し、フリック除去に関する最先端の結果を提供し、従来の手法よりもビデオ全体のスタイルを良く維持していることを示す。

When trying to independently apply image-trained algorithms to successive frames in videos, noxious flickering tends to appear. State-of-the-art post-processing techniques that aim at fostering temporal consistency, generate other temporal artifacts and visually alter the style of videos. We propose a postprocessing model, agnostic to the transformation applied to videos (e.g. style transfer, image manipulation using GANs, etc.), in the form of a recurrent neural network. Our model is trained using a Ping Pong procedure and its corresponding loss, recently introduced for GAN video generation, as well as a novel style preserving perceptual loss. The former improves long-term temporal consistency learning, while the latter fosters style preservation. We evaluate our model on the DAVIS and videvo.net datasets and show that our approach offers state-of-the-art results concerning flicker removal, and better keeps the overall style of the videos than previous approaches.
翻訳日:2021-03-15 13:22:01 公開日:2021-03-12
# 音声の形状を求めて : 対人関係学習のための適応的枠組み

Seeking the Shape of Sound: An Adaptive Framework for Learning Voice-Face Association ( http://arxiv.org/abs/2103.07293v1 )

ライセンス: Link先を確認
Peisong Wen, Qianqian Xu, Yangbangyan Jiang, Zhiyong Yang, Yuan He and Qingming Huang(参考訳) 今日、私たちは音声と顔の関連を自動で学習する初期の進歩を目撃し、コンピュータビジョンコミュニティに新たな研究の波をもたらしました。 しかし、この線に沿った先行技術の大半(a)は、単に局所的な情報を用いてモダリティアライメントを行い、(b)異なる科目間での学習困難の多様性を無視する。 本稿では,上記の課題を共同で解決するための新しい枠組みを提案する。 a)を目標として,グローバル情報とローカル情報の両方を考慮する2段階のモダリティアライメント損失を提案する。 既存の手法と比較して、モーダリティアライメントプロセスにグローバルな損失を導入する。 損失のグローバルコンポーネントは、アイデンティティ分類によって駆動される。 理論的には、損失の最小化は、異なるアイデンティティにまたがる埋め込み間の距離を最大化し、同じアイデンティティに属する埋め込み間の距離を(ミニバッチではなく)大域的に最小化することができる。 b)を目標に、学習不能なアイデンティティを除外しながら、ハードだが価値のあるアイデンティティをよりよく探索するための動的再重み付けスキームを提案します。 実験の結果,提案手法は,音声照合,検証,検索など,複数の設定において従来の手法よりも優れていた。

Nowadays, we have witnessed the early progress on learning the association between voice and face automatically, which brings a new wave of studies to the computer vision community. However, most of the prior arts along this line (a) merely adopt local information to perform modality alignment and (b) ignore the diversity of learning difficulty across different subjects. In this paper, we propose a novel framework to jointly address the above-mentioned issues. Targeting at (a), we propose a two-level modality alignment loss where both global and local information are considered. Compared with the existing methods, we introduce a global loss into the modality alignment process. The global component of the loss is driven by the identity classification. Theoretically, we show that minimizing the loss could maximize the distance between embeddings across different identities while minimizing the distance between embeddings belonging to the same identity, in a global sense (instead of a mini-batch). Targeting at (b), we propose a dynamic reweighting scheme to better explore the hard but valuable identities while filtering out the unlearnable identities. Experiments show that the proposed method outperforms the previous methods in multiple settings, including voice-face matching, verification and retrieval.
翻訳日:2021-03-15 13:21:44 公開日:2021-03-12
# siamese infrared and visible light fusion network for rgb-t tracking

Siamese Infrared and Visible Light Fusion Network for RGB-T Tracking ( http://arxiv.org/abs/2103.07302v1 )

ライセンス: Link先を確認
Peng Jingchao, Zhao Haitao, Hu Zhengwei, Zhuang Yi, Wang Bofan(参考訳) 赤外線と可視光の感光性が異なるため、同じシーンで撮影されたrgb-t画像ペアは、非常に異なる特性を示す。 本稿では,RBG-T画像追跡のためのシアム赤外可視光融合ネットワーク(SiamIVFN)を提案する。 SiamIVFNは、補体核融合ネットワーク(CFFN)とコントリビューション集約ネットワーク(CAN)の2つの主要なサブネットワークを含んでいる。 CFFNは、赤外線画像と可視光画像から抽出した特徴を融合させるために、各層に対するフィルタを部分的に結合した2列多層畳み込み構造を用いる。 CFFNは機能レベルの融合ネットワークであり、RGB-Tイメージペアの誤配に対処することができる。 CFFNから得られる赤外および可視光特性の寄与を適応的に計算することにより、CANは様々な光条件下でロバストする。 2つのRGB-T追跡ベンチマークデータセットの実験は、提案されたSiamIVFNが最先端のパフォーマンスを達成したことを示している。 SiamIVFNの追跡速度は、現在の最速RGB-T融合トラッカーである147.6FPSである。

Due to the different photosensitive properties of infrared and visible light, the registered RGB-T image pairs shot in the same scene exhibit quite different characteristics. This paper proposes a siamese infrared and visible light fusion Network (SiamIVFN) for RBG-T image-based tracking. SiamIVFN contains two main subnetworks: a complementary-feature-fusion network (CFFN) and a contribution-aggregation network (CAN). CFFN utilizes a two-stream multilayer convolutional structure whose filters for each layer are partially coupled to fuse the features extracted from infrared images and visible light images. CFFN is a feature-level fusion network, which can cope with the misalignment of the RGB-T image pairs. Through adaptively calculating the contributions of infrared and visible light features obtained from CFFN, CAN makes the tracker robust under various light conditions. Experiments on two RGB-T tracking benchmark datasets demonstrate that the proposed SiamIVFN has achieved state-of-the-art performance. The tracking speed of SiamIVFN is 147.6FPS, the current fastest RGB-T fusion tracker.
翻訳日:2021-03-15 13:21:23 公開日:2021-03-12
# 表現とジャグリング:マルチモーダル意味論のための画像、点雲、メッシュ間の情報伝達について

Juggling With Representations: On the Information Transfer Between Imagery, Point Clouds, and Meshes for Multi-Modal Semantics ( http://arxiv.org/abs/2103.07348v1 )

ライセンス: Link先を確認
Dominik Laupheimer and Norbert Haala(参考訳) 膨大な量のリモートセンシングデータの自動セマンティックセグメンテーションは、過去10年で重要なタスクとなっています。 イメージとポイントクラウド(pcs)は、特に都市地図アプリケーションにおける基本的なデータ表現である。 テクスチャ化された3Dメッシュは、PCを配線し、利用可能な画像で表面要素をテクスチャすることで、両方のデータ表現を幾何学的に統合します。 我々は,画像,pc,メッシュの実体を明示的に統合するメッシュ中心の全体構造駆動手法を提案する。 その統合的な性格から、画像中の点の可視性問題を解決するのに役立つコア表現としてメッシュを選択します。 提案されたマルチモーダル融合をバックボーンとして利用し、確立されたエンティティ関係を考慮することで、モダリティイメージ、PC、メッシュ間の情報の共有を、(i)機能転送と(ii)ラベル転送の2つの方法で実現します。 これらの方法により,各表現に対する特徴ベクトルをマルチモーダル特徴ベクトルに拡張する。 同時に、すべての表現を一貫してラベル付けし、手動のラベルの労力を単一の表現に減らします。 その結果、機械学習アルゴリズムをトレーニングし、これらのデータ表現のいずれかをマルチモーダルとシングルモーダルの両方でセマンティックにセグメント化することができます。 本論文では,マルチモーダルシーン解析の基礎となるコネクティビティ機構とその後の情報伝達について述べる。 さらに,提案手法の前提条件と限界についても詳細に検討する。 ISPRS 3Dセマンティックラベリングコンテスト(Vaihingen 3D)および独自のデータセット(Hessigheim 3D)における方法論の有効性を実証します。

The automatic semantic segmentation of the huge amount of acquired remote sensing data has become an important task in the last decade. Images and Point Clouds (PCs) are fundamental data representations, particularly in urban mapping applications. Textured 3D meshes integrate both data representations geometrically by wiring the PC and texturing the surface elements with available imagery. We present a mesh-centered holistic geometry-driven methodology that explicitly integrates entities of imagery, PC and mesh. Due to its integrative character, we choose the mesh as the core representation that also helps to solve the visibility problem for points in imagery. Utilizing the proposed multi-modal fusion as the backbone and considering the established entity relationships, we enable the sharing of information across the modalities imagery, PC and mesh in a two-fold manner: (i) feature transfer and (ii) label transfer. By these means, we achieve to enrich feature vectors to multi-modal feature vectors for each representation. Concurrently, we achieve to label all representations consistently while reducing the manual label effort to a single representation. Consequently, we facilitate to train machine learning algorithms and to semantically segment any of these data representations - both in a multi-modal and single-modal sense. The paper presents the association mechanism and the subsequent information transfer, which we believe are cornerstones for multi-modal scene analysis. Furthermore, we discuss the preconditions and limitations of the presented approach in detail. We demonstrate the effectiveness of our methodology on the ISPRS 3D semantic labeling contest (Vaihingen 3D) and a proprietary data set (Hessigheim 3D).
翻訳日:2021-03-15 13:21:06 公開日:2021-03-12
# モノクロ擬似3次元物体追跡

Monocular Quasi-Dense 3D Object Tracking ( http://arxiv.org/abs/2103.07351v1 )

ライセンス: Link先を確認
Hou-Ning Hu, Yung-Hsu Yang, Tobias Fischer, Trevor Darrell, Fisher Yu, Min Sun(参考訳) 周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。 移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。 オブジェクトアソシエーションは、擬似密接な類似性学習を利用して、様々なポーズや視点のオブジェクトを識別する。 初期2Dアソシエーション後,ロバストなインスタンスアソシエーションと3次元軌跡予測に3Dバウンディングボックスの奥行きヒューリスティックスを利用する。 最後に、LSTMに基づく物体速度学習モジュールは、より正確な運動外挿のための長期軌跡情報を集約する。 提案するシミュレーションデータと,kitti,nuscenes,waymoデータセットを含む実世界のベンチマーク実験から,我々の追跡フレームワークがロバストなオブジェクト関連付けと都市走行シナリオの追跡を提供することが示された。 Waymo Openベンチマークでは、3Dトラッキングと3D検出の課題において、初めてカメラのみのベースラインを確立する。 当社の準強度3Dトラッキングパイプラインは、nuScenes 3Dトラッキングベンチマークの印象的な改善を達成し、公開されたすべての方法の中で最高のビジョンのみの提出の精度を5倍近く追跡します。 私たちのコード、データ、トレーニングされたモデルはhttps://github.com/syscv/qd-3dtで利用可能です。

A reliable and accurate 3D tracking framework is essential for predicting future locations of surrounding objects and planning the observer's actions in numerous applications such as autonomous driving. We propose a framework that can effectively associate moving objects over time and estimate their full 3D bounding box information from a sequence of 2D images captured on a moving platform. The object association leverages quasi-dense similarity learning to identify objects in various poses and viewpoints with appearance cues only. After initial 2D association, we further utilize 3D bounding boxes depth-ordering heuristics for robust instance association and motion-based 3D trajectory prediction for re-identification of occluded vehicles. In the end, an LSTM-based object velocity learning module aggregates the long-term trajectory information for more accurate motion extrapolation. Experiments on our proposed simulation data and real-world benchmarks, including KITTI, nuScenes, and Waymo datasets, show that our tracking framework offers robust object association and tracking on urban-driving scenarios. On the Waymo Open benchmark, we establish the first camera-only baseline in the 3D tracking and 3D detection challenges. Our quasi-dense 3D tracking pipeline achieves impressive improvements on the nuScenes 3D tracking benchmark with near five times tracking accuracy of the best vision-only submission among all published methods. Our code, data and trained models are available at https://github.com/SysCV/qd-3dt.
翻訳日:2021-03-15 13:20:36 公開日:2021-03-12
# PLADE-Net:Neural Positional Encoding と Distilled Matting Loss による自己監督単視深度推定のためのピクセルレベルの精度向上

PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View Depth Estimation with Neural Positional Encoding and Distilled Matting Loss ( http://arxiv.org/abs/2103.07362v1 )

ライセンス: Link先を確認
Juan Luis Gonzalez Bello, Munchurl Kim(参考訳) 本稿では,plade-netと呼ばれる,自己教師付き単視点画素レベル精度深度推定ネットワークを提案する。 PLADE-Netは、挑戦的なKITTIデータセットの$\delta^1$メトリックで95\%を超える、前例のない精度レベルを示す最初の作品です。 私たちのPLADE-Netは、ニューラルポジショナルエンコーディングを備えた新しいネットワークアーキテクチャと、マッティングラプラシアンのクローズドフォームソリューションを借りてステレオ画像からピクセルレベルの正確な深度推定を学ぶ新しい損失関数に基づいています。 ニューラル位置符号化により、PLADE-Netは、レンズや投射歪みなどの位置固有の画像特性に関するネットワーク推論を可能とし、より一貫した深度推定を可能にします。 新しい蒸留マッティングラプラシアン損失により,ネットワークは物体境界の鋭い深さとより均一な深さを,高度に均質な領域で予測できる。 提案手法は,従来の自己監視型シングルビュー深度推定法を,困難であるKITTIデータセットに対して,前例のない精度で大きなマージンで上回っている。 さらに, ステレオ入力に対してナレーション的に拡張されたPLADE-Netは, 1次元相関や3次元畳み込み, 空間ピラミッドプールなどの高度なブロックがなくても, 最新の自己教師型ステレオ手法よりも優れている。 本手法の有効性をKITTI、CityScapes、Make3Dデータセット上で支援する広範なアブレーション研究と実験を紹介します。

In this paper, we propose a self-supervised single-view pixel-level accurate depth estimation network, called PLADE-Net. The PLADE-Net is the first work that shows unprecedented accuracy levels, exceeding 95\% in terms of the $\delta^1$ metric on the challenging KITTI dataset. Our PLADE-Net is based on a new network architecture with neural positional encoding and a novel loss function that borrows from the closed-form solution of the matting Laplacian to learn pixel-level accurate depth estimation from stereo images. Neural positional encoding allows our PLADE-Net to obtain more consistent depth estimates by letting the network reason about location-specific image properties such as lens and projection distortions. Our novel distilled matting Laplacian loss allows our network to predict sharp depths at object boundaries and more consistent depths in highly homogeneous regions. Our proposed method outperforms all previous self-supervised single-view depth estimation methods by a large margin on the challenging KITTI dataset, with unprecedented levels of accuracy. Furthermore, our PLADE-Net, naively extended for stereo inputs, outperforms the most recent self-supervised stereo methods, even without any advanced blocks like 1D correlations, 3D convolutions, or spatial pyramid pooling. We present extensive ablation studies and experiments that support our method's effectiveness on the KITTI, CityScapes, and Make3D datasets.
翻訳日:2021-03-15 13:20:11 公開日:2021-03-12
# マルチビュー自己照合による情報最大化クラスタリング

Information Maximization Clustering via Multi-View Self-Labelling ( http://arxiv.org/abs/2103.07368v1 )

ライセンス: Link先を確認
Foivos Ntelemis, Yaochu Jin, Spencer A. Thomas(参考訳) 画像クラスタリングは、人間の監督なしにアノテーションを生成することを目的とした、特に難しいコンピュータビジョンタスクです。 近年の進歩は、イメージクラスタリングにおける自己教師付き学習戦略の利用に焦点を当て、まず価値あるセマンティクスを学習し、次にイメージ表現をクラスタリングする。 しかし、これらの多相アルゴリズムは計算時間を増加させ、最終的な性能は第1段階に依存します。 自己教師型アプローチを拡張して,意味のある表現を同時に学習し,対応するアノテーションを割り当てる単一フェーズクラスタリング手法を提案する。 これは、離散表現を分類器ネットを通じて自己監督パラダイムに統合することで達成される。 具体的には,提案手法は相互情報を用い,統合的離散表現と離散確率分布との依存性を最大化する。 離散確率分布は、学習した潜在表現と訓練可能なプロトタイプの集合を比較して自己教師過程を導出する。 分類器の学習性能を高めるために,複数ループビュー間で相互情報を共同で適用する。 本論文では,CIFAR-10およびCIFAR-100/20データセットの平均精度が89.1%と49.0%と最新技術を上回ることを実証した。 最後に,提案手法はパラメータ設定に対して魅力的なロバスト性を示し,他のデータセットに適用できることを示す。

Image clustering is a particularly challenging computer vision task, which aims to generate annotations without human supervision. Recent advances focus on the use of self-supervised learning strategies in image clustering, by first learning valuable semantics and then clustering the image representations. These multiple-phase algorithms, however, increase the computational time and their final performance is reliant on the first stage. By extending the self-supervised approach, we propose a novel single-phase clustering method that simultaneously learns meaningful representations and assigns the corresponding annotations. This is achieved by integrating a discrete representation into the self-supervised paradigm through a classifier net. Specifically, the proposed clustering objective employs mutual information, and maximizes the dependency between the integrated discrete representation and a discrete probability distribution. The discrete probability distribution is derived though the self-supervised process by comparing the learnt latent representation with a set of trainable prototypes. To enhance the learning performance of the classifier, we jointly apply the mutual information across multi-crop views. Our empirical results show that the proposed framework outperforms state-of-the-art techniques with the average accuracy of 89.1% and 49.0%, respectively, on CIFAR-10 and CIFAR-100/20 datasets. Finally, the proposed method also demonstrates attractive robustness to parameter settings, making it ready to be applicable to other datasets.
翻訳日:2021-03-15 13:19:41 公開日:2021-03-12
# 腹腔鏡画像のリアルタイム非剛性モザイク

Real-time Nonrigid Mosaicking of Laparoscopy Images ( http://arxiv.org/abs/2103.07414v1 )

ライセンス: Link先を確認
Haoyin Zhou, Jagadeesan Jayender(参考訳) 腹腔鏡検査画像の視野を広げる能力は、外科医が解剖学的コンテキストをよりよく理解するのに役立ちます。 しかし, 組織変形, 複雑なカメラ運動, 有意な3次元解剖学的表面のため, 画像画素は非剛性であり, 従来のモザイク法はリアルタイムでの腹腔鏡像に対して頑健に機能しない。 そこで本論文では, 画素の変形を補い, リアルタイムに画像モザイキングを行うことのできる, 新規な2次元(2次元)非リジッド同時局在化マッピング(SLAM)システムを提案する。 この2次元非剛性SLAMシステムの鍵となるアルゴリズムは期待最大化と2重四元数(EMDQ)アルゴリズムであり、スパース像とノイズ像の特徴マッチングから滑らかで密度の高い変形場をリアルタイムで生成することができる。 不確実性に基づくループ閉鎖法を提案し、累積誤差を低減した。 リアルタイム性能を達成するため、CPUおよびGPU並列計算技術は、すべてのピクセルの高密度モザイクに使用される。 合成データとtextit{in vivo} を用いた実験結果から, モザイク法の有効性と精度が示された。

The ability to extend the field of view of laparoscopy images can help the surgeons to obtain a better understanding of the anatomical context. However, due to tissue deformation, complex camera motion and significant three-dimensional (3D) anatomical surface, image pixels may have non-rigid deformation and traditional mosaicking methods cannot work robustly for laparoscopy images in real-time. To solve this problem, a novel two-dimensional (2D) non-rigid simultaneous localization and mapping (SLAM) system is proposed in this paper, which is able to compensate for the deformation of pixels and perform image mosaicking in real-time. The key algorithm of this 2D non-rigid SLAM system is the expectation maximization and dual quaternion (EMDQ) algorithm, which can generate smooth and dense deformation field from sparse and noisy image feature matches in real-time. An uncertainty-based loop closing method has been proposed to reduce the accumulative errors. To achieve real-time performance, both CPU and GPU parallel computation technologies are used for dense mosaicking of all pixels. Experimental results on \textit{in vivo} and synthetic data demonstrate the feasibility and accuracy of our non-rigid mosaicking method.
翻訳日:2021-03-15 13:18:53 公開日:2021-03-12
# 確率的二段階検出

Probabilistic two-stage detection ( http://arxiv.org/abs/2103.07461v1 )

ライセンス: Link先を確認
Xingyi Zhou, Vladlen Koltun, Philipp Kr\"ahenb\"uhl(参考訳) 2段階物体検出の確率的解釈を開発する。 この確率論的解釈が,多くの経験的実践を動機づけていることを示す。 また、2段階検出パイプラインの変更も示唆している。 具体的には、第一段階は適切なオブジェクト-vs-バックグラウンドの確率を推測し、検出器の全体的なスコアを知らせる。 標準領域提案ネットワーク(RPN)は、これを十分に推測することができないが、多くの1段検出器が可能である。 現状の1段階検出器から2段階の確率的検出器を構築する方法を示す。 その結果、検出器は1段と2段の両方の前駆体よりも高速で精度が高い。 当社の検出器は、単スケール試験でCOCO試験で56.4 mAPを達成し、公表されたすべての結果を上回る性能を発揮します。 当社の検出器は軽量バックボーンを使用して、Titan Xpの33 fpsでCOCOで49.2 mAPを達成し、人気のYOLOv4モデルよりも優れています。

We develop a probabilistic interpretation of two-stage object detection. We show that this probabilistic interpretation motivates a number of common empirical training practices. It also suggests changes to two-stage detection pipelines. Specifically, the first stage should infer proper object-vs-background likelihoods, which should then inform the overall score of the detector. A standard region proposal network (RPN) cannot infer this likelihood sufficiently well, but many one-stage detectors can. We show how to build a probabilistic two-stage detector from any state-of-the-art one-stage detector. The resulting detectors are faster and more accurate than both their one- and two-stage precursors. Our detector achieves 56.4 mAP on COCO test-dev with single-scale testing, outperforming all published results. Using a lightweight backbone, our detector achieves 49.2 mAP on COCO at 33 fps on a Titan Xp, outperforming the popular YOLOv4 model.
翻訳日:2021-03-15 13:18:29 公開日:2021-03-12
# 3Dセマンティックシーンの完成:調査

3D Semantic Scene Completion: a Survey ( http://arxiv.org/abs/2103.07466v1 )

ライセンス: Link先を確認
Luis Roldao, Raoul de Charette, Anne Verroust-Blondet(参考訳) Semantic Scene Completion(SSC)は、部分的なスパース入力を想定して、シーンの完全なジオメトリとセマンティクスを共同で推定することを目的とする。 大規模な3Dデータセットの乗算後、SSCは未解決の課題を抱えているため、研究コミュニティで大きな勢いを得ています。 具体的には、SSCは大きな未観測領域の曖昧な完備化と、地上の真実の弱い監視信号に関係している。 これにより、この問題に関する論文が大幅に増えた。 本調査は,SSC文献を手法とデータセットの両方で重要な分析を行う技術を特定し,比較し,分析することを目的としている。 本論文を通じて,著者が行ったすべての選択を網羅し,研究の残りの道筋を強調しながら,既存の作品の詳細な分析を行う。 最も人気のあるデータセット上のSoAのSSCパフォーマンスも評価され、分析されます。

Semantic Scene Completion (SSC) aims to jointly estimate the complete geometry and semantics of a scene, assuming partial sparse input. In the last years following the multiplication of large-scale 3D datasets, SSC has gained significant momentum in the research community because it holds unresolved challenges. Specifically, SSC lies in the ambiguous completion of large unobserved areas and the weak supervision signal of the ground truth. This led to a substantially increasing number of papers on the matter. This survey aims to identify, compare and analyze the techniques providing a critical analysis of the SSC literature on both methods and datasets. Throughout the paper, we provide an in-depth analysis of the existing works covering all choices made by the authors while highlighting the remaining avenues of research. SSC performance of the SoA on the most popular datasets is also evaluated and analyzed.
翻訳日:2021-03-15 13:18:14 公開日:2021-03-12
# 連続学習の共分散空間における訓練ネットワーク

Training Networks in Null Space of Covariance for Continual Learning ( http://arxiv.org/abs/2103.07113v1 )

ライセンス: Link先を確認
Shipeng Wang, Xiaorong Li, Jian Sun, Zongben Xu(参考訳) 連続学習の設定では、ネットワークは一連のタスクで訓練され、壊滅的な忘れに苦しんでいます。 連続学習におけるネットワークの可塑性と安定性のバランスをとるため,本論文では,ネットワークパラメータを逐次最適化するadam-nsclと呼ばれる新しいネットワーク学習アルゴリズムを提案する。 まず,連続学習におけるネットワーク安定性と可塑性を達成するための2つの数学的条件を提案する。 これらに基づいて、Adamにより候補パラメータ更新を生成するネットワークトレーニングプロセスにおいて、候補パラメータ更新をすべての前のタスクの近似ヌル空間に投影することで、シーケンシャルタスクのためのネットワークトレーニングが簡単に実現できる。 近似ヌル空間は、各線形層に対する前のタスクの全ての入力特徴の非中心共分散行列に特異値分解を適用することで導出することができる。 効率のために、各タスクを学習した後、非中心共分散行列を漸進的に計算することができる。 また,各線形層における近似ヌル空間の合理性を実験的に検証する。 我々は,CIFAR-100とTinyImageNetのベンチマークデータセットを用いた連続学習のためのトレーニングネットワークにアプローチを適用し,提案手法が最先端の連続学習手法よりも優れているか,あるいは適合しているかを示唆した。

In the setting of continual learning, a network is trained on a sequence of tasks, and suffers from catastrophic forgetting. To balance plasticity and stability of network in continual learning, in this paper, we propose a novel network training algorithm called Adam-NSCL, which sequentially optimizes network parameters in the null space of previous tasks. We first propose two mathematical conditions respectively for achieving network stability and plasticity in continual learning. Based on them, the network training for sequential tasks can be simply achieved by projecting the candidate parameter update into the approximate null space of all previous tasks in the network training process, where the candidate parameter update can be generated by Adam. The approximate null space can be derived by applying singular value decomposition to the uncentered covariance matrix of all input features of previous tasks for each linear layer. For efficiency, the uncentered covariance matrix can be incrementally computed after learning each task. We also empirically verify the rationality of the approximate null space at each linear layer. We apply our approach to training networks for continual learning on benchmark datasets of CIFAR-100 and TinyImageNet, and the results suggest that the proposed approach outperforms or matches the state-ot-the-art continual learning approaches.
翻訳日:2021-03-15 13:17:39 公開日:2021-03-12
# Deep Networkの時系列表現の可視化

Visualising Deep Network's Time-Series Representations ( http://arxiv.org/abs/2103.07176v1 )

ライセンス: Link先を確認
B{\l}a\.zej Leporowski and Alexandros Iosifidis(参考訳) 機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。 モデルが特定の予測をした理由を視覚化して説明できる方法はいくつかあります。 しかし、これらの方法はモデルの入力と出力の間の因果関係を、モデルがどのようにしてデータを表現するかを示さずに見ることができる。 本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。 高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。 大規模なデータセットを素早く1つのプロット上で視覚化することで、学習したデータ表現をユーザが簡単に比較できるようになる。 本手法は, 既知の手法と証明された手法を組み合わせて, 時系列分類器モデルの内部動作に関する新たな知見を提供する。

Despite the popularisation of the machine learning models, more often than not they still operate as black boxes with no insight into what is happening inside the model. There exist a few methods that allow to visualise and explain why the model has made a certain prediction. Those methods, however, allow viewing the causal link between the input and output of the model without presenting how the model learns to represent the data. In this paper, a method that addresses that issue is proposed, with a focus on visualising multi-dimensional time-series data. Experiments on a high-frequency stock market dataset show that the method provides fast and discernible visualisations. Large datasets can be visualised quickly and on one plot, which makes it easy for a user to compare the learned representations of the data. The developed method successfully combines known and proven techniques to provide novel insight into the inner workings of time-series classifier models.
翻訳日:2021-03-15 13:17:18 公開日:2021-03-12
# 多元経路探索のためのペアワイズ対称性推論

Pairwise Symmetry Reasoning for Multi-Agent Path Finding Search ( http://arxiv.org/abs/2103.07116v1 )

ライセンス: Link先を確認
Jiaoyang Li, Daniel Harabor, Peter J. Stuckey, Sven Koenig(参考訳) マルチエージェントパス探索(mapf)は,協調エージェントのチームに対して,衝突のないパスを計画することを求めるコンビネーション問題である。 本研究では, mapf が解くのが難しい理由の1つとして, 2 つのエージェントがそれぞれ異なる経路を持ち, それぞれが有望に見えるが, それらの組み合わせが衝突を生じさせる, ペアワイズ対称性と呼ばれる現象があげられる。 いくつかのペアワイズ対称性のクラスを同定し、各クラスが実際に一般的に発生することを示し、衝突解決の可能な空間において指数的爆発を引き起こすことを示し、現在の最先端(有界)MAPFアルゴリズムに対する受け入れがたいランタイムを生み出す。 単一分岐ステップにおける対衝突経路の全ての置換を排除すべく, 特殊制約を用いて, 対称性の発生を効率的に検出し, 解決する様々な推論手法を提案する。 私たちは、これらのアイデアを最先端のMAPFアルゴリズムCBSの文脈で実装し、対称性推論技術の追加は、その性能に劇的なプラスの効果をもたらすことができることを示しています - 我々は、最大4桁のノード拡張の減少と最大30倍のスケーラビリティの増加を報告します。 これらの利益により、これまでCBSに到達できなかった様々な挑戦的なMAPFインスタンスを最適に解決することができます。

Multi-Agent Path Finding (MAPF) is a challenging combinatorial problem that asks us to plan collision-free paths for a team of cooperative agents. In this work, we show that one of the reasons why MAPF is so hard to solve is due to a phenomenon called pairwise symmetry, which occurs when two agents have many different paths to their target locations, all of which appear promising, but every combination of them results in a collision. We identify several classes of pairwise symmetries and show that each one arises commonly in practice and can produce an exponential explosion in the space of possible collision resolutions, leading to unacceptable runtimes for current state-of-the-art (bounded-sub)optimal MAPF algorithms. We propose a variety of reasoning techniques that detect the symmetries efficiently as they arise and resolve them by using specialized constraints to eliminate all permutations of pairwise colliding paths in a single branching step. We implement these ideas in the context of the leading optimal MAPF algorithm CBS and show that the addition of the symmetry reasoning techniques can have a dramatic positive effect on its performance - we report a reduction in the number of node expansions by up to four orders of magnitude and an increase in scalability by up to thirty times. These gains allow us to solve to optimality a variety of challenging MAPF instances previously considered out of reach for CBS.
翻訳日:2021-03-15 13:17:06 公開日:2021-03-12
# Sentinel: ミュータント還元戦略の生成のためのハイパーヒューリスティック

Sentinel: A Hyper-Heuristic for the Generation of Mutant Reduction Strategies ( http://arxiv.org/abs/2103.07241v1 )

ライセンス: Link先を確認
Giovani Guizzo, Federica Sarro, Jens Krinke, Silvia Regina Vergilio(参考訳) 突然変異テストはソフトウェアテストスイートの評価と強化に有効なアプローチであるが、その採用はミュータントの実行計算コストによって制限されている。 このコストを削減するためのいくつかの戦略が提案されている。 しかし、テスト中のソフトウェア(SUT)に応じてアドホックな手動選択と構成を必要とすることが多いため、これらのいずれもすべてのシナリオに有効であることが証明されていません。 本稿では,新しいSUT毎に最適なコスト削減戦略を自動生成する,Sentinelと呼ばれる新しい多目的進化的ハイパーヒューリスティック手法を提案する。 我々はSentinelを、10のオープンソース実世界のソフトウェアシステムの40リリースと、ベースラインと最先端の戦略をベンチマークとして、徹底した実証研究によって評価する。 総計4,800の実験を行い,最近の文献のベストプラクティスに従って,質指標と統計的意義試験の両方を用いて結果を評価する。 その結果、Sentinelが生成した戦略は、95%のケースで常に大きな効果サイズでベースライン戦略を上回ります。 88%の症例で最先端の戦略よりも統計的に優れた結果が得られ、95%の症例で大きな効果が得られた。 また,本研究では,Sentinelが特定のソフトウェアバージョンに対して生成した突然変異戦略を,95%のケースにおいて,その後の開発バージョンの品質を損なうことなく利用できることを示した。 これらの結果から,Sentinelは変異検査コストを低減させる突然変異戦略を自動生成できることが示唆された。 したがって、テスターの肩から離陸すると、各SUTの戦略を手動で選択して設定する負担がかかります。

Mutation testing is an effective approach to evaluate and strengthen software test suites, but its adoption is currently limited by the mutants' execution computational cost. Several strategies have been proposed to reduce this cost (a.k.a. mutation cost reduction strategies), however none of them has proven to be effective for all scenarios since they often need an ad-hoc manual selection and configuration depending on the software under test (SUT). In this paper, we propose a novel multi-objective evolutionary hyper-heuristic approach, dubbed Sentinel, to automate the generation of optimal cost reduction strategies for every new SUT. We evaluate Sentinel by carrying out a thorough empirical study involving 40 releases of 10 open-source real-world software systems and both baseline and state-of-the-art strategies as a benchmark. We execute a total of 4,800 experiments, and evaluate their results with both quality indicators and statistical significance tests, following the most recent best practice in the literature. The results show that strategies generated by Sentinel outperform the baseline strategies in 95% of the cases always with large effect sizes. They also obtain statistically significantly better results than state-of-the-art strategies in 88% of the cases, with large effect sizes for 95% of them. Also, our study reveals that the mutation strategies generated by Sentinel for a given software version can be used without any loss in quality for subsequently developed versions in 95% of the cases. These results show that Sentinel is able to automatically generate mutation strategies that reduce mutation testing cost without affecting its testing effectiveness (i.e. mutation score), thus taking off from the tester's shoulders the burden of manually selecting and configuring strategies for each SUT.
翻訳日:2021-03-15 13:16:43 公開日:2021-03-12
# 友達: 近所のコヒーレンスを使って、Twitterで潜在的なイデオロギー機能を広める

Your most telling friends: Propagating latent ideological features on Twitter using neighborhood coherence ( http://arxiv.org/abs/2103.07250v1 )

ライセンス: Link先を確認
Pedro Ramaciotti Morales, Jean-Philippe Cointet and Julio Laborde(参考訳) ネットワークにおける多次元スケーリングにより、ある特徴空間にノードを埋め込むことで、その構造に関する潜伏情報を発見することができる。 twitterのようなソーシャルネットワークのユーザのためのイデオロギースケーリングもその例だが、同様の設定は、他のネットワークやメディアプラットフォームやeコマースでも多様なアプリケーションを含むことができる。 ソーシャルネットワークにおけるイデオロギースケーリング手法の文献は、機能空間の解釈性を提供するノードへのスケーリング手順を制限している。Twitterでは、議会派とそのフォロワーのサブネットワークを考慮することが一般的である。 これにより、潜在的な特徴を、議会議員の地位を検査するイデオロギー関連の概念の指標として解釈することができる。 有意義な特徴を推測するのに有効であるが、これは一般にこれらのサブネットワークに抑制され、国全体の偏光測定やその進化などの興味深いアプリケーションを制限する。 我々は,これらサブネットワークを超えてイデオロギー的特徴を広める2つの方法を提案する。1つはホモフィリー(リンクされた利用者は類似したイデオロギーを持つ)と、もう1つは構造的類似性(類似した近傍を持つノードは類似したイデオロギーを持つ)である。 提案手法では,近傍イデオロギーコヒーレンスの概念を伝播のパラメータとして活用する。 Twitterデータを用いて,370万ユーザを対象としたイデオロギースケーリングを作成し,人口650万ユーザを対象とした2種類の伝搬方法の解析を行った。 我々は、コヒーレンスが考慮されると、ユーザーのイデオロギーは、近隣の隣人よりも、類似の地区を持つ人々から推定される。

Multidimensional scaling in networks allows for the discovery of latent information about their structure by embedding nodes in some feature space. Ideological scaling for users in social networks such as Twitter is an example, but similar settings can include diverse applications in other networks and even media platforms or e-commerce. A growing literature of ideology scaling methods in social networks restricts the scaling procedure to nodes that provide interpretability of the feature space: on Twitter, it is common to consider the sub-network of parliamentarians and their followers. This allows to interpret inferred latent features as indices for ideology-related concepts inspecting the position of members of parliament. While effective in inferring meaningful features, this is generally restrained to these sub-networks, limiting interesting applications such as country-wide measurement of polarization and its evolution. We propose two methods to propagate ideological features beyond these sub-networks: one based on homophily (linked users have similar ideology), and the other on structural similarity (nodes with similar neighborhoods have similar ideologies). In our methods, we leverage the concept of neighborhood ideological coherence as a parameter for propagation. Using Twitter data, we produce an ideological scaling for 370K users, and analyze the two families of propagation methods on a population of 6.5M users. We find that, when coherence is considered, the ideology of a user is better estimated from those with similar neighborhoods, than from their immediate neighbors.
翻訳日:2021-03-15 13:16:15 公開日:2021-03-12
# 協調型AIのリスクモデリングに向けて

Towards Risk Modeling for Collaborative AI ( http://arxiv.org/abs/2103.07460v1 )

ライセンス: Link先を確認
Matteo Camilli, Michael Felderer, Andrea Giusti, Dominik T. Matt, Anna Perini, Barbara Russo, Angelo Susi(参考訳) コラボレーティブaiシステムは、共通の目標を達成するために、共有空間で人間と協力することを目指している。 この設定は、人間を傷つける可能性のある接触により、潜在的に危険な状況を引き起こす。 したがって、要求ドメイン固有の標準や規制に強く準拠したシステムを構築することが最重要となる。 このようなシステムがトップダウンルールベースのAIではなく、機械学習コンポーネントに依存している場合、この目標の達成に関連する課題はさらに深刻になります。 本稿では,協調型AIシステムに適したリスクモデリング手法を提案する。 リスクモデルは、人間を危険に晒す可能性のある目標、リスクイベント、ドメイン固有の指標を含む。 リスクモデルを利用して、実行時の証拠から抽出した洞察を通じてリスクモデルに供給する保証メソッドを駆動する。 提案手法は,ロボットアームに視覚知覚コンポーネントを組み込んだ産業用4.0の動作例を用いて記述し,人間の操作者と協力して生産関連タスクを行う。

Collaborative AI systems aim at working together with humans in a shared space to achieve a common goal. This setting imposes potentially hazardous circumstances due to contacts that could harm human beings. Thus, building such systems with strong assurances of compliance with requirements domain specific standards and regulations is of greatest importance. Challenges associated with the achievement of this goal become even more severe when such systems rely on machine learning components rather than such as top-down rule-based AI. In this paper, we introduce a risk modeling approach tailored to Collaborative AI systems. The risk model includes goals, risk events and domain specific indicators that potentially expose humans to hazards. The risk model is then leveraged to drive assurance methods that feed in turn the risk model through insights extracted from run-time evidence. Our envisioned approach is described by means of a running example in the domain of Industry 4.0, where a robotic arm endowed with a visual perception component, implemented with machine learning, collaborates with a human operator for a production-relevant task.
翻訳日:2021-03-15 13:15:49 公開日:2021-03-12
# マルチモーダルデータ解析のための直交統計推論

Orthogonal Statistical Inference for Multimodal Data Analysis ( http://arxiv.org/abs/2103.07088v1 )

ライセンス: Link先を確認
Xiaowu Dai and Lexin Li(参考訳) マルチモーダルイメージングは神経科学の研究を変えた。 前例のない機会を提供する一方で、深刻な課題も課している。 特に、単純な関連モデルに起因する解釈可能性の利点と、高度に適応的な非線形モデルによって達成される柔軟性を組み合わせることは困難です。 本稿では,マルチモーダルデータ解析のために,ニーマン直交性に基づく直交統計推論フレームワークと分解直交性の形式を提案する。 我々は、関心の主モダリティと追加の補助モダリティが存在するほとんどすべてのマルチモーダル研究において自然に発生する設定を目標とする。 推定一次パラメータのroot-$n$-consistencyと漸近正規性、半パラメトリック推定効率、予測された一次様相効果の信頼区間の漸近的正直性を確立することに成功した。 私たちの提案は、モデル解釈可能性とモデルの柔軟性の両方を十分に楽しんでいます。 また、マルチモーダルデータ統合のための既存の統計手法と、高次元推論のための直交性に基づく方法とは大きく異なる。 シミュレーションおよびアルツハイマー病のマルチモーダル・ニューロイメージング研究への応用により,本手法の有効性を実証する。

Multimodal imaging has transformed neuroscience research. While it presents unprecedented opportunities, it also imposes serious challenges. Particularly, it is difficult to combine the merits of interpretability attributed to a simple association model and flexibility achieved by a highly adaptive nonlinear model. In this article, we propose an orthogonal statistical inferential framework, built upon the Neyman orthogonality and a form of decomposition orthogonality, for multimodal data analysis. We target the setting that naturally arises in almost all multimodal studies, where there is a primary modality of interest, plus additional auxiliary modalities. We successfully establish the root-$N$-consistency and asymptotic normality of the estimated primary parameter, the semi-parametric estimation efficiency, and the asymptotic honesty of the confidence interval of the predicted primary modality effect. Our proposal enjoys, to a good extent, both model interpretability and model flexibility. It is also considerably different from the existing statistical methods for multimodal data integration, as well as the orthogonality-based methods for high-dimensional inferences. We demonstrate the efficacy of our method through both simulations and an application to a multimodal neuroimaging study of Alzheimer's disease.
翻訳日:2021-03-15 13:15:34 公開日:2021-03-12
# 海馬形成誘発確率生成モデル

Hippocampal formation-inspired probabilistic generative model ( http://arxiv.org/abs/2103.07356v1 )

ライセンス: Link先を確認
Akira Taniguchi, Ayako Fukawa, Hiroshi Yamakawa(参考訳) 構造拘束型界面分解法による海馬形成(HPF)誘導確率生成モデル(HPF-PGM)の構築を行った。 PGMで脳領域をモデル化することで、全脳PGMとして統合できるモジュールとして位置づけられています。 ロボット工学におけるSLAM(同時局在とマッピング)と神経科学におけるHPFの発見の関係について考察する。 さらに,脳にインスパイアされたSLAM,空間概念形成,深部生成モデルなど,HPFおよび各種計算モデルのモデル化について検討した。 HPF-PGMは、従来のSLAMモデルとは対照的に、HPFの解剖学的構造と機能に非常に整合性がある計算モデルである。 脳を参照することにより、脳内皮質から海馬への自己中心的/高度中心的情報の統合と離散イベントキューの使用の重要性を示唆する。

We constructed a hippocampal formation (HPF)-inspired probabilistic generative model (HPF-PGM) using the structure-constrained interface decomposition method. By modeling brain regions with PGMs, this model is positioned as a module that can be integrated as a whole-brain PGM. We discuss the relationship between simultaneous localization and mapping (SLAM) in robotics and the findings of HPF in neuroscience. Furthermore, we survey the modeling for HPF and various computational models, including brain-inspired SLAM, spatial concept formation, and deep generative models. The HPF-PGM is a computational model that is highly consistent with the anatomical structure and functions of the HPF, in contrast to typical conventional SLAM models. By referencing the brain, we suggest the importance of the integration of egocentric/allocentric information from the entorhinal cortex to the hippocampus and the use of discrete-event queues.
翻訳日:2021-03-15 13:15:16 公開日:2021-03-12
# 自動運転車の安全試験シナリオの生成と評価

Generating and Characterizing Scenarios for Safety Testing of Autonomous Vehicles ( http://arxiv.org/abs/2103.07403v1 )

ライセンス: Link先を確認
Zahra Ghodsi, Siva Kumar Sastry Hari, Iuri Frosio, Timothy Tsai, Alejandro Troccoli, Stephen W. Keckler, Siddharth Garg, Anima Anandkumar(参考訳) 現実世界のデータから興味深いシナリオを抽出し、障害ケースを生成することは、自律システムの開発とテストにとって重要です。 最先端運転シミュレータを用いて,テストシナリオのキャラクタリゼーションと生成の両方を行う効率的なメカニズムを提案する。 いずれのシナリオにおいても,本手法は可能な運転経路のセットを生成し,異なる時刻に開始可能な安全運転経路を識別し,シナリオの複雑さを定量化するメトリクスを計算する。 本手法を用いて、次世代シミュレーション(NGSIM)プロジェクトの実際の運転データとシミュレーションで生成された対比シナリオを特徴づけます。 事故回避の複雑さに基づいてメトリクスを定義してシナリオをランク付けし、事故発生の可能性を最小限に抑えるための洞察を提供します。 提案する指標と人間の直観との間に強い相関関係を示す。

Extracting interesting scenarios from real-world data as well as generating failure cases is important for the development and testing of autonomous systems. We propose efficient mechanisms to both characterize and generate testing scenarios using a state-of-the-art driving simulator. For any scenario, our method generates a set of possible driving paths and identifies all the possible safe driving trajectories that can be taken starting at different times, to compute metrics that quantify the complexity of the scenario. We use our method to characterize real driving data from the Next Generation Simulation (NGSIM) project, as well as adversarial scenarios generated in simulation. We rank the scenarios by defining metrics based on the complexity of avoiding accidents and provide insights into how the AV could have minimized the probability of incurring an accident. We demonstrate a strong correlation between the proposed metrics and human intuition.
翻訳日:2021-03-15 13:15:02 公開日:2021-03-12
# DP画像:特徴空間における画像データの差分プライバシー

DP-Image: Differential Privacy for Image Data in Feature Space ( http://arxiv.org/abs/2103.07073v1 )

ライセンス: Link先を確認
Bo Liu, Ming Ding, Hanyu Xue, Tianqing Zhu, Dayong Ye, Li Song, Wanlei Zhou(参考訳) ソーシャルネットワーク、政府データベース、産業アプリケーションにおける画像の過剰使用は、大きなプライバシーリスクをもたらし、国民からの深刻な懸念を引き起こした。 差分プライバシー(DP)は、証明可能なプライバシー保証を提供することができる広く受け入れられている基準ですが、画像などの非構造化データへのDPの適用は、任意の2つの画像間の有意義な違いの明確な資格の欠如のために自明ではありません。 本稿では,画像中のユーザの個人情報を人間とAIの双方の敵から保護する,DP-imageと呼ばれる新たな画像認識型差分プライバシーの概念を初めて紹介する。 DP-Image定義は、画像の特徴空間ベクトル間の距離測定を考慮して、従来の差分プライバシーの拡張版として定式化されている。 次に,画像特徴ベクトルに雑音を加えることでDP画像を実現する機構を提案する。 最後に,顔画像プライバシに関するケーススタディを用いて実験を行う。 提案手法は, 画像に対して優れたDP保護を提供し, 顔への歪みを制御可能であることを示す。

The excessive use of images in social networks, government databases, and industrial applications has posed great privacy risks and raised serious concerns from the public. Even though differential privacy (DP) is a widely accepted criterion that can provide a provable privacy guarantee, the application of DP on unstructured data such as images is not trivial due to the lack of a clear qualification on the meaningful difference between any two images. In this paper, for the first time, we introduce a novel notion of image-aware differential privacy, referred to as DP-image, that can protect user's personal information in images, from both human and AI adversaries. The DP-Image definition is formulated as an extended version of traditional differential privacy, considering the distance measurements between feature space vectors of images. Then we propose a mechanism to achieve DP-Image by adding noise to an image feature vector. Finally, we conduct experiments with a case study on face image privacy. Our results show that the proposed DP-Image method provides excellent DP protection on images, with a controllable distortion to faces.
翻訳日:2021-03-15 13:14:36 公開日:2021-03-12
# iToF2dToF:データ駆動飛行時間イメージングのためのロバストでフレキシブルな表現

iToF2dToF: A Robust and Flexible Representation for Data-Driven Time-of-Flight Imaging ( http://arxiv.org/abs/2103.07087v1 )

ライセンス: Link先を確認
Felipe Gutierrez-Barragan, Huaijin Chen, Mohit Gupta, Andreas Velten, Jinwei Gu(参考訳) 間接飛行時間(iToF)カメラは、有望な深度検出技術です。 しかし,マルチパス干渉 (MPI) と低信号対雑音比 (SNR) による誤差が生じる傾向にある。 従来の手法では、深さを符号化する過渡画像を推定することでmpiを緩和する。 近年,MPI を相乗分解・緩和するデータ駆動方式が,中間的過渡表現を使わずに最先端化している。 本稿では,過渡表現を再検討することを提案する。 データ駆動前処理を用いて、itof周波数を補間・補間し、過渡画像を推定する。 直接ToF(dToF)センサーが過渡画像をキャプチャすると、iToF2dToFと名付けられます。 一時的な表現は柔軟です。 低SNRに対して堅牢で、実際に発生するあいまいなシナリオ(例えば、スペクトルMPI、光クロストーク)に対処できる、ルールベースの異なる深度検出アルゴリズムと統合することができる。 我々は,iToF2dToFの従来手法に対する利点を実深度センシングのシナリオで示す。

Indirect Time-of-Flight (iToF) cameras are a promising depth sensing technology. However, they are prone to errors caused by multi-path interference (MPI) and low signal-to-noise ratio (SNR). Traditional methods, after denoising, mitigate MPI by estimating a transient image that encodes depths. Recently, data-driven methods that jointly denoise and mitigate MPI have become state-of-the-art without using the intermediate transient representation. In this paper, we propose to revisit the transient representation. Using data-driven priors, we interpolate/extrapolate iToF frequencies and use them to estimate the transient image. Given direct ToF (dToF) sensors capture transient images, we name our method iToF2dToF. The transient representation is flexible. It can be integrated with different rule-based depth sensing algorithms that are robust to low SNR and can deal with ambiguous scenarios that arise in practice (e.g., specular MPI, optical cross-talk). We demonstrate the benefits of iToF2dToF over previous methods in real depth sensing scenarios.
翻訳日:2021-03-15 13:14:17 公開日:2021-03-12
# PVStereo: エンドツーエンドのステレオマッチングのためのピラミッド投票モジュール

PVStereo: Pyramid Voting Module for End-to-End Self-Supervised Stereo Matching ( http://arxiv.org/abs/2103.07094v1 )

ライセンス: Link先を確認
Hengli Wang, Rui Fan, Peide Cai, Ming Liu(参考訳) 深層畳み込みニューラルネットワーク(DCNN)による教師付き学習はステレオマッチングに大きく採用されている。 しかし、十分にラベル付けされた基盤真理を持つ大規模データセットの取得は煩雑で労働集約的であり、教師付き学習ベースのアプローチを実践することはしばしば困難である。 この欠点を克服するため,我々は,ピラミッド投票モジュール(PVM)と新しいDCNNアーキテクチャ(OptStereo)からなる,堅牢で効果的な自己教師型ステレオマッチング手法を提案する。 具体的には、我々のopstereoは、まず、マルチスケールなコストボリュームを構築し、その後、反復的に、高解像度で異質な推定値を更新するために、recurrent unitを採用しています。 さらに,大規模合成ステレオデータセットであるHKUST-Driveデータセットを,異なる照明条件と気象条件で収集し,研究目的で公開する。 KITTI StereoベンチマークとHKUST-Driveデータセットを用いた自己教師型ステレオマッチング手法の有効性と有効性を示した。 当社のベストパフォーマンス実装であるPVStereoは、他の最先端の自己監視型ステレオマッチングアプローチを大幅に上回ります。 プロジェクトページはsites.google.com/view/pvstereoで閲覧できます。

Supervised learning with deep convolutional neural networks (DCNNs) has seen huge adoption in stereo matching. However, the acquisition of large-scale datasets with well-labeled ground truth is cumbersome and labor-intensive, making supervised learning-based approaches often hard to implement in practice. To overcome this drawback, we propose a robust and effective self-supervised stereo matching approach, consisting of a pyramid voting module (PVM) and a novel DCNN architecture, referred to as OptStereo. Specifically, our OptStereo first builds multi-scale cost volumes, and then adopts a recurrent unit to iteratively update disparity estimations at high resolution; while our PVM can generate reliable semi-dense disparity images, which can be employed to supervise OptStereo training. Furthermore, we publish the HKUST-Drive dataset, a large-scale synthetic stereo dataset, collected under different illumination and weather conditions for research purposes. Extensive experimental results demonstrate the effectiveness and efficiency of our self-supervised stereo matching approach on the KITTI Stereo benchmarks and our HKUST-Drive dataset. PVStereo, our best-performing implementation, greatly outperforms all other state-of-the-art self-supervised stereo matching approaches. Our project page is available at sites.google.com/view/pvstereo.
翻訳日:2021-03-15 13:14:01 公開日:2021-03-12
# 1000対1: 概念的コーディングのためのセマンティック事前モデリング

Thousand to One: Semantic Prior Modeling for Conceptual Coding ( http://arxiv.org/abs/2103.07131v1 )

ライセンス: Link先を確認
Jianhui Chang, Zhenghui Zhao, Lingbo Yang, Chuanmin Jia, Jian Zhang, Siwei Ma(参考訳) 概念符号化は近年,自然画像を圧縮のための非絡み合った概念表現に符号化する,新たな研究トピックとなっている。 しかし,速度制約や復元品質の総合的な考慮が欠如しているため,既存手法の圧縮性能は相変わらず最適である。 そこで本論文では,エントロピー推定とテクスチャ合成の統一化に先立ち,意味的に深い表現を応用した,極めて低ビットレートな画像圧縮に向けた概念符号化手法を提案する。 具体的には, 構造的ガイダンスとして意味セグメンテーションマップを用い, テクスチャの細粒度分布モデルを提供し, より詳細な構成と, 高レベルの視覚タスクの柔軟性を高める。 さらに、空間的に独立なセマンティック先行のチャネル間相関をさらに活用するために、チャネル間エントロピーモデルを提案し、より正確なエントロピー推定を行う。 提案手法は,視覚処理および解析タスクに対して高い視覚的再構成品質と汎用性を保ちながら,超高1000倍圧縮比を実現する。

Conceptual coding has been an emerging research topic recently, which encodes natural images into disentangled conceptual representations for compression. However, the compression performance of the existing methods is still sub-optimal due to the lack of comprehensive consideration of rate constraint and reconstruction quality. To this end, we propose a novel end-to-end semantic prior modeling-based conceptual coding scheme towards extremely low bitrate image compression, which leverages semantic-wise deep representations as a unified prior for entropy estimation and texture synthesis. Specifically, we employ semantic segmentation maps as structural guidance for extracting deep semantic prior, which provides fine-grained texture distribution modeling for better detail construction and higher flexibility in subsequent high-level vision tasks. Moreover, a cross-channel entropy model is proposed to further exploit the inter-channel correlation of the spatially independent semantic prior, leading to more accurate entropy estimation for rate-constrained training. The proposed scheme achieves an ultra-high 1000x compression ratio, while still enjoying high visual reconstruction quality and versatility towards visual processing and analysis tasks.
翻訳日:2021-03-15 13:13:40 公開日:2021-03-12
# 胸部CTによるCOVID-19感染進展の経時的評価

Longitudinal Quantitative Assessment of COVID-19 Infection Progression from Chest CTs ( http://arxiv.org/abs/2103.07240v1 )

ライセンス: Link先を確認
Seong Tae Kim, Leili Goli, Magdalini Paschali, Ashkan Khakzar, Matthias Keicher, Tobias Czempiel, Egon Burian, Rickmer Braren, Nassir Navab, Thomas Wendler(参考訳) 胸部CT(Chest Computed Tomography)は、グラウンドグラス不透明度やコンソリデーションなどの疾患特異的な画像特徴を示すことにより、COVID-19患者の診断に不可欠な役割を担っている。 画像分割方法は、病気の負担を定量化し、結果を予測するのに役立つことが証明されています。 縦型ctシリーズの有用性は、covid-19の進行、治癒過程の監視、治療戦略の異なる反応を確実に評価する効率的かつ効果的な方法をもたらす可能性がある。 本稿では, ボクセルレベル(健常肺の同定, 固形化, グラウンドグラスの透明度)での感染を同定し, 低用量非造影CTスキャンを用いて, COVID-19の進行を可視化する新しい枠組みを提案する。 特に,参照スキャン情報を利用した縦断セグメンテーションネットワークを考案し,疾患識別の性能を向上させる。 本施設で収集した臨床縦断データセットの実験結果から, 静的深部神経ネットワークを用いた疾患定量法との比較検討を行った。

Chest computed tomography (CT) has played an essential diagnostic role in assessing patients with COVID-19 by showing disease-specific image features such as ground-glass opacity and consolidation. Image segmentation methods have proven to help quantify the disease burden and even help predict the outcome. The availability of longitudinal CT series may also result in an efficient and effective method to reliably assess the progression of COVID-19, monitor the healing process and the response to different therapeutic strategies. In this paper, we propose a new framework to identify infection at a voxel level (identification of healthy lung, consolidation, and ground-glass opacity) and visualize the progression of COVID-19 using sequential low-dose non-contrast CT scans. In particular, we devise a longitudinal segmentation network that utilizes the reference scan information to improve the performance of disease identification. Experimental results on a clinical longitudinal dataset collected in our institution show the effectiveness of the proposed method compared to the static deep neural networks for disease quantification.
翻訳日:2021-03-15 13:13:18 公開日:2021-03-12
# 低ランクおよびスパース表現に基づくハイパースペクトル画像のノイズ化と異常検出

Hyperspectral Image Denoising and Anomaly Detection Based on Low-rank and Sparse Representations ( http://arxiv.org/abs/2103.07437v1 )

ライセンス: Link先を確認
Lina Zhuang, Lianru Gao, Bing Zhang, Xiyou Fu, Jose M. Bioucas-Dias(参考訳) ハイパースペクトルイメージングは、数百または数千のスペクトルチャネルで非常に高い分解能で、瞬間的な視野を越えて電磁エネルギーの量を測定します。 これにより、物体を検知し、それらの間に微妙な違いがある物質を識別することができる。 しかし、スペクトル分解能の増大は、各チャンネルで受信される光子数が減少することを意味することが多く、画像形成過程に関連付けられたノイズが大きくなることを意味する。 この劣化は抽出された情報の品質と潜在的な応用を制限する。 したがって、高スペクトル画像(HSI)処理におけるノイズ除去は根本的な問題である。 高相関スペクトルチャネルを持つ自然のシーンの画像として、HSIは高レベルの自己相似性によって特徴づけられ、低ランク表現によってよく近似できる。 これらの特徴は、HSI denoisingで使用される最先端の手法の根底にある。 しかし、稀に発生する画素タイプが存在する場合、これらの手法の劣化性能は最適ではなく、その後の検出が損なわれる可能性がある。 本稿では、RhyDe(Robust Hyperspectral Denoising)という強力なHSIデノイザーについて紹介します。これは、明示的な低ランク表現を実装し、自己相似性を促進し、協調的なスパーシティの形式を使用して、まれなピクセルを保存します。 提案するロバストhsiデノイザーの消音・検出効果を準実データと実データを用いて示す。

Hyperspectral imaging measures the amount of electromagnetic energy across the instantaneous field of view at a very high resolution in hundreds or thousands of spectral channels. This enables objects to be detected and the identification of materials that have subtle differences between them. However, the increase in spectral resolution often means that there is a decrease in the number of photons received in each channel, which means that the noise linked to the image formation process is greater. This degradation limits the quality of the extracted information and its potential applications. Thus, denoising is a fundamental problem in hyperspectral image (HSI) processing. As images of natural scenes with highly correlated spectral channels, HSIs are characterized by a high level of self-similarity and can be well approximated by low-rank representations. These characteristics underlie the state-of-the-art methods used in HSI denoising. However, where there are rarely occurring pixel types, the denoising performance of these methods is not optimal, and the subsequent detection of these pixels may be compromised. To address these hurdles, in this article, we introduce RhyDe (Robust hyperspectral Denoising), a powerful HSI denoiser, which implements explicit low-rank representation, promotes self-similarity, and, by using a form of collaborative sparsity, preserves rare pixels. The denoising and detection effectiveness of the proposed robust HSI denoiser is illustrated using semireal and real data.
翻訳日:2021-03-15 13:13:00 公開日:2021-03-12
# SCEI: IoTシステムのためのスマートコントラクト駆動エッジインテリジェンスフレームワーク

SCEI: A Smart-Contract Driven Edge Intelligence Framework for IoT Systems ( http://arxiv.org/abs/2103.07050v1 )

ライセンス: Link先を確認
Chenhao Xu, Yong Li, Yao Deng, Jiaqi Ge, Longxiang Gao, Mengshi Zhang, Yong Xiang, Xi Zheng(参考訳) federated learning (fl) はエッジコンピューティングデバイスを使用して共有モデルを協調的にトレーニングし、各デバイスはローカルデータアクセスを完全に制御できる。 一般的にFL技術では、独立および同一分散(iid)データセットの学習モデルに焦点を当てており、非iidデータセット(例えば)で満足できるパフォーマンスを達成できない。 マルチクラス分類器を学ぶが、各クライアントは単一のクラスデータセットしか持たない)。 非iid問題を緩和するためのパーソナライズドアプローチがいくつか提案されている。 しかし、そのようなアプローチは根底にあるデータ分散のシフト、すなわち実際のシナリオ(例えば、データ分散のスキュー)を扱うことができない。 レコメンデーションシステムは、時間とともに変化するユーザの行動を学ぶ)。 本研究では、スマートコントラクトとフェデレーション学習を活用して、最適化されたパーソナライズされたディープラーニングモデルを構築することで、課題に対する解決策を提供する。 具体的には,個別化モデルの最適重み付けについて,分散トレーナー間のコンセンサスを得るためにスマートコントラクトを利用する。 複数のモデル(CNNとMLP)と複数のデータセット(MNISTとCIFAR-10)で実験を行います。 実験の結果,従来のフェデレーションやパーソナライズドラーニングと比較して,パーソナライズドラーニングモデルの方が精度が高く,コンバージェンスも速いことがわかった。 ベースラインFedAvgアルゴリズムによって与えられたモデルと比較して、私たちのパーソナライズされた学習モデルの平均精度は2%から20%改善され、収束率は約2$\times$高速です。 さらに,本手法が分散学習に対する最近の攻撃に対して安全であることを示す。

Federated learning (FL) utilizes edge computing devices to collaboratively train a shared model while each device can fully control its local data access. Generally, FL techniques focus on learning model on independent and identically distributed (iid) dataset and cannot achieve satisfiable performance on non-iid datasets (e.g. learning a multi-class classifier but each client only has a single class dataset). Some personalized approaches have been proposed to mitigate non-iid issues. However, such approaches cannot handle underlying data distribution shift, namely data distribution skew, which is quite common in real scenarios (e.g. recommendation systems learn user behaviors which change over time). In this work, we provide a solution to the challenge by leveraging smart-contract with federated learning to build optimized, personalized deep learning models. Specifically, our approach utilizes smart contract to reach consensus among distributed trainers on the optimal weights of personalized models. We conduct experiments across multiple models (CNN and MLP) and multiple datasets (MNIST and CIFAR-10). The experimental results demonstrate that our personalized learning models can achieve better accuracy and faster convergence compared to classic federated and personalized learning. Compared with the model given by baseline FedAvg algorithm, the average accuracy of our personalized learning models is improved by 2% to 20%, and the convergence rate is about 2$\times$ faster. Moreover, we also illustrate that our approach is secure against recent attack on distributed learning.
翻訳日:2021-03-15 13:11:58 公開日:2021-03-12
# シングルシャッフルSGDはSGDとGDのリシャッフルより優れているか?

Can Single-Shuffle SGD be Better than Reshuffling SGD and GD? ( http://arxiv.org/abs/2103.07079v1 )

ライセンス: Link先を確認
Chulhee Yun, Suvrit Sra, Ali Jadbabaie(参考訳) 非可換 AM-GM の不等式上の Recht-R\'e (2012) 予想を拡張する行列ノルムの不等式を提案する。 一般の正の半定値行列の代わりに、SGDの分析で生じる行列とより関係のある十分な条件数を持つ正の定値行列に注意を限定する。 そのような行列に対して、SGDの非置換変種に対応する行列積の手段は、一連のスペクトルノルムの不等式を満たすことを予想する: 「単一シャッフルSGDはランダムリシャッフルSGDよりも早く収束し、非置換SGDよりも高速である」。 我々は、いくつかの特別な場合を証明し、予想を支持する定理を示す。

We propose matrix norm inequalities that extend the Recht-R\'e (2012) conjecture on a noncommutative AM-GM inequality by supplementing it with another inequality that accounts for single-shuffle, which is a widely used without-replacement sampling scheme that shuffles only once in the beginning and is overlooked in the Recht-R\'e conjecture. Instead of general positive semidefinite matrices, we restrict our attention to positive definite matrices with small enough condition numbers, which are more relevant to matrices that arise in the analysis of SGD. For such matrices, we conjecture that the means of matrix products corresponding to with- and without-replacement variants of SGD satisfy a series of spectral norm inequalities that can be summarized as: "single-shuffle SGD converges faster than random-reshuffle SGD, which is in turn faster than with-replacement SGD." We present theorems that support our conjecture by proving several special cases.
翻訳日:2021-03-15 13:11:29 公開日:2021-03-12
# マシンラーニングモデルにおける属性推論攻撃の(in)実現性について

On the (In)Feasibility of Attribute Inference Attacks on Machine Learning Models ( http://arxiv.org/abs/2103.07101v1 )

ライセンス: Link先を確認
Benjamin Zi Hao Zhao, Aviral Agrawal, Catisha Coburn, Hassan Jameel Asghar, Raghav Bhaskar, Mohamed Ali Kaafar, Darren Webb, and Peter Dickinson(参考訳) 低コストの機械学習APIの増加に伴い、高度な機械学習モデルはプライベートデータセットでトレーニングされ、サービスとして提供することで収益化される。 しかし、プライバシ研究者は、これらのモデルがメンバーシップ推論攻撃によってトレーニングデータセット内のレコードに関する情報を漏洩する可能性があることを実証した。 本稿では、属性推論と呼ばれる文献で報告されている別の推論攻撃について、機械学習モデルにAPIとしてアクセスすることで、トレーニングデータセットで使用される部分的に知られているレコードの欠落した属性を推論しようとする。 分類モデルがメンバーシップ推論攻撃に結びついたとしても、アトリビュート推論攻撃の影響を受けにくいことが示されています。 これは、会員推論攻撃がメンバーを近隣の非メンバーと区別できないためである。 我々は攻撃者が2つの(類似した)ベクトルを強いメンバーシップ推論として区別する能力と呼ぶ。 この強い設定では、メンバシップ推論攻撃はメンバーシップを推測できないため、属性の推測は不可能である。 しかし、近似属性推論と呼ばれる緩和された属性推論の概念の下では、真の属性に近い属性を推測することは可能であることを示す。 3つの公開データセット、5つのメンバーシップ、3つの属性推論攻撃の結果を文献で検証します。

With an increase in low-cost machine learning APIs, advanced machine learning models may be trained on private datasets and monetized by providing them as a service. However, privacy researchers have demonstrated that these models may leak information about records in the training dataset via membership inference attacks. In this paper, we take a closer look at another inference attack reported in literature, called attribute inference, whereby an attacker tries to infer missing attributes of a partially known record used in the training dataset by accessing the machine learning model as an API. We show that even if a classification model succumbs to membership inference attacks, it is unlikely to be susceptible to attribute inference attacks. We demonstrate that this is because membership inference attacks fail to distinguish a member from a nearby non-member. We call the ability of an attacker to distinguish the two (similar) vectors as strong membership inference. We show that membership inference attacks cannot infer membership in this strong setting, and hence inferring attributes is infeasible. However, under a relaxed notion of attribute inference, called approximate attribute inference, we show that it is possible to infer attributes close to the true attributes. We verify our results on three publicly available datasets, five membership, and three attribute inference attacks reported in literature.
翻訳日:2021-03-15 13:11:07 公開日:2021-03-12
# ドメイン好奇心: ドメイン適応のための効率的なデータ収集戦略の学習

Domain Curiosity: Learning Efficient Data Collection Strategies for Domain Adaptation ( http://arxiv.org/abs/2103.07223v1 )

ライセンス: Link先を確認
Karol Arndt, Oliver Struckmeier, Ville Kyrki(参考訳) ドメイン適応はロボット工学において一般的な問題であり、シミュレーションから実世界へのポリシー移行や生涯学習などの応用がある。 しかし、このような適応を行うには、適応中に利用可能な環境に関する情報が必要である。 本稿では,モデルが環境の未知の側面について学習できるように,データ提供のために明示的に最適化された探索ポリシーを訓練する手法であるドメイン好奇性について述べる。 ほとんどの好奇心の手法とは対照的に,本手法は学習に有意な報酬を与えるため,学習能力を犠牲にすることなく環境騒音に頑健である。 提案手法によって収集されたデータから,モデルが環境ダイナミクスについてどの程度学習できるかを,標準の好奇心とランダムな方針と比較して評価する。 この評価は,実世界の触覚探索作業において,玩具環境と2つの模擬ロボット設定を用いて行う。 提案手法は,データ効率,高精度な動的推定を可能にする。

Domain adaptation is a common problem in robotics, with applications such as transferring policies from simulation to real world and lifelong learning. Performing such adaptation, however, requires informative data about the environment to be available during the adaptation. In this paper, we present domain curiosity -- a method of training exploratory policies that are explicitly optimized to provide data that allows a model to learn about the unknown aspects of the environment. In contrast to most curiosity methods, our approach explicitly rewards learning, which makes it robust to environment noise without sacrificing its ability to learn. We evaluate the proposed method by comparing how much a model can learn about environment dynamics given data collected by the proposed approach, compared to standard curious and random policies. The evaluation is performed using a toy environment, two simulated robot setups, and on a real-world haptic exploration task. The results show that the proposed method allows data-efficient and accurate estimation of dynamics.
翻訳日:2021-03-15 13:10:47 公開日:2021-03-12
# グラフニューラルネットワークを用いたエネルギーシステムの知識とデータ駆動サービス

Knowledge- and Data-driven Services for Energy Systems using Graph Neural Networks ( http://arxiv.org/abs/2103.07248v1 )

ライセンス: Link先を確認
Francesco Fusco, Bradley Eck, Robert Gormally, Mark Purcell, Seshu Tirupathi(参考訳) 炭素系エネルギー源からの遷移は、配電システムの運用にいくつかの課題をもたらす。 分散型エネルギー資源のシェアの増加(例) 再生可能エネルギー発電機、電気自動車、およびインターネットに接続されたセンシングおよび制御装置(例えば。 スマートな暖房と冷却) 正確でデータ駆動の意思決定をサポートする新しいツールが必要です。 電力グリッドにおけるこのような複雑化の影響をモデル化することは、原則として最先端の電力フローモデルを用いて可能である。 実際には、これらの物理シミュレーションに必要な詳細な情報は未知あるいは違法に入手する費用がかかる可能性がある。 したがって、フィードフォワードニューラルネットワークやオートエンコーダなどのパワーシステムモデリングへのデータ駆動アプローチは、センサーデータの可用性の増大を活用すべく研究されているが、大規模問題に対する透明性の欠如と非効率性のために、実用的採用は限られている。 本研究では、グラフニューラルネットワーク(GNNs)の枠組みに基づくエネルギーシステムのためのデータ駆動と知識駆動の確率的グラフィカルモデルを提案することにより、このギャップに対処する。 このモデルは、グリッドトポロジや物理学の制約という形で、ドメイン知識を明示的に評価できるため、従来の機械学習モデルと同じような精度で比較すると、スパースアーキテクチャとより小さなパラメータの寸法性につながります。 実世界のスマートグリッド実証プロジェクトから得られた結果は、GNNがエネルギー柔軟性市場に参加する配電システム事業者のグリッド混雑予測および市場入札サービスにどのように使用されていたかを示しています。

The transition away from carbon-based energy sources poses several challenges for the operation of electricity distribution systems. Increasing shares of distributed energy resources (e.g. renewable energy generators, electric vehicles) and internet-connected sensing and control devices (e.g. smart heating and cooling) require new tools to support accurate, datadriven decision making. Modelling the effect of such growing complexity in the electrical grid is possible in principle using state-of-the-art power-power flow models. In practice, the detailed information needed for these physical simulations may be unknown or prohibitively expensive to obtain. Hence, datadriven approaches to power systems modelling, including feedforward neural networks and auto-encoders, have been studied to leverage the increasing availability of sensor data, but have seen limited practical adoption due to lack of transparency and inefficiencies on large-scale problems. Our work addresses this gap by proposing a data- and knowledge-driven probabilistic graphical model for energy systems based on the framework of graph neural networks (GNNs). The model can explicitly factor in domain knowledge, in the form of grid topology or physics constraints, thus resulting in sparser architectures and much smaller parameters dimensionality when compared with traditional machine-learning models with similar accuracy. Results obtained from a real-world smart-grid demonstration project show how the GNN was used to inform grid congestion predictions and market bidding services for a distribution system operator participating in an energy flexibility market.
翻訳日:2021-03-15 13:10:32 公開日:2021-03-12
# 故障検出のための二次成分分析

Second-Order Component Analysis for Fault Detection ( http://arxiv.org/abs/2103.07303v1 )

ライセンス: Link先を確認
Peng Jingchao, Zhao Haitao, Hu Zhengwei(参考訳) ニューラルネットワークに基づくプロセス監視は、ますます注目を集めています。 従来のニューラルネットワークと比較して、高階ニューラルネットワークは異種データを扱う上で自然な利点があります。 しかし、高次ニューラルネットワークは、元のデータやノイズ、異常から重要な情報をオーバーフィットし、学習するリスクをもたらす可能性がある。 直交制約は抽出された特徴間の相関を著しく減少させ、過度に適合するリスクを減少させる。 本稿では,2次成分分析(SCA)と呼ばれる新しい故障検出手法を提案する。 SCAは、直交制約のある2階自動エンコーダを最適化することで、プロシースデータのヘテロセシスティック性を排除します。 本稿では, この制約付き最適化問題に対処するため, シュティーフェル多様体とユークリッド多様体の組み合わせに対して幾何的最適化を行う幾何共役勾配アルゴリズムを適用した。 テネシー-イーストマンベンチマークプロケースに関する広範な実験は、SCAがPCA、KPCA、オートエンコーダをミス検出率(MDR)と誤報率(FAR)で上回っていることを示しています。

Process monitoring based on neural networks is getting more and more attention. Compared with classical neural networks, high-order neural networks have natural advantages in dealing with heteroscedastic data. However, high-order neural networks might bring the risk of overfitting and learning both the key information from original data and noises or anomalies. Orthogonal constraints can greatly reduce correlations between extracted features, thereby reducing the overfitting risk. This paper proposes a novel fault detection method called second-order component analysis (SCA). SCA rules out the heteroscedasticity of pro-cess data by optimizing a second-order autoencoder with orthogonal constraints. In order to deal with this constrained optimization problem, a geometric conjugate gradient algorithm is adopted in this paper, which performs geometric optimization on the combination of Stiefel manifold and Euclidean manifold. Extensive experiments on the Tennessee-Eastman benchmark pro-cess show that SCA outperforms PCA, KPCA, and autoencoder in missed detection rate (MDR) and false alarm rate (FAR).
翻訳日:2021-03-15 13:09:49 公開日:2021-03-12
# EventGraD: 並列機械学習におけるイベントトリガー通信

EventGraD: Event-Triggered Communication in Parallel Machine Learning ( http://arxiv.org/abs/2103.07454v1 )

ライセンス: Link先を確認
Soumyadip Ghosh, Bernardo Aquino, Vijay Gupta(参考訳) 並列システムにおける通信は、大きなオーバーヘッドを課し、しばしば並列機械学習のボトルネックとなる。 本稿では,このオーバーヘッドを解消するため,並列機械学習における確率勾配降下のためのイベントトリガー通信アルゴリズムであるEventGraDを提案する。 このアルゴリズムの主な考え方は、並列機械学習における確率勾配勾配の標準実装において、イテレーション毎に通信要求を変更することで、特定のイテレーションでのみ通信することである。 提案アルゴリズムの収束の理論的解析を行います。 また、cifar-10データセットのトレーニングに使用される一般的な残留ニューラルネットワークのデータ並列トレーニングアルゴリズムを実装し、同じレベルの精度を維持しながら、eventgradが通信負荷を最大60%削減できることを示した。

Communication in parallel systems imposes significant overhead which often turns out to be a bottleneck in parallel machine learning. To relieve some of this overhead, in this paper, we present EventGraD - an algorithm with event-triggered communication for stochastic gradient descent in parallel machine learning. The main idea of this algorithm is to modify the requirement of communication at every iteration in standard implementations of stochastic gradient descent in parallel machine learning to communicating only when necessary at certain iterations. We provide theoretical analysis of convergence of our proposed algorithm. We also implement the proposed algorithm for data-parallel training of a popular residual neural network used for training the CIFAR-10 dataset and show that EventGraD can reduce the communication load by up to 60% while retaining the same level of accuracy.
翻訳日:2021-03-15 13:08:53 公開日:2021-03-12
# (参考訳) 解釈可能な車両状態予測のためのハイブリッド物理とディープラーニングモデル

Hybrid Physics and Deep Learning Model for Interpretable Vehicle State Prediction ( http://arxiv.org/abs/2103.06727v2 )

ライセンス: CC BY 4.0
Alexandra Baier and Zeyd Boukhers and Steffen Staab(参考訳) 物理運動モデルは、車両の動きの解釈可能な予測を提供する。 しかし、空気力学や流体力学に関連するいくつかのモデルパラメータは測定に費用がかかり、予測精度を略して近似するだけである。 リカレントニューラルネットワークは、車両のルーチン操作中に収集された安価な測定値を使用することができるため、低コストで高い予測精度を達成するが、その結果は解釈が難しい。 物理パラメータの高価な測定をせずに車両の状態を正確に予測するために,新しい二相訓練法を含む深層学習モデルと物理運動モデルを組み合わせたハイブリッド手法を提案する。 ニューラルネットワークがもたらす不確実性を既知の量に制限するハイブリッドモデルの一部として、ディープニューラルネットワークの出力範囲を制限することにより、解釈可能性を実現します。 船舶とクアッドコプターの動作のユースケースに対するアプローチを評価しました。 その結果, ハイブリッドモデルでは, 既存のディープラーニング手法に比べて精度を低下させることなく, モデル解釈性が向上できることがわかった。

Physical motion models offer interpretable predictions for the motion of vehicles. However, some model parameters, such as those related to aero- and hydrodynamics, are expensive to measure and are often only roughly approximated reducing prediction accuracy. Recurrent neural networks achieve high prediction accuracy at low cost, as they can use cheap measurements collected during routine operation of the vehicle, but their results are hard to interpret. To precisely predict vehicle states without expensive measurements of physical parameters, we propose a hybrid approach combining deep learning and physical motion models including a novel two-phase training procedure. We achieve interpretability by restricting the output range of the deep neural network as part of the hybrid model, which limits the uncertainty introduced by the neural network to a known quantity. We have evaluated our approach for the use case of ship and quadcopter motion. The results show that our hybrid model can improve model interpretability with no decrease in accuracy compared to existing deep learning approaches.
翻訳日:2021-03-15 11:24:11 公開日:2021-03-12
# Bitext Retrievalのための双方向事前翻訳による多数投票

Majority Voting with Bidirectional Pre-translation For Bitext Retrieval ( http://arxiv.org/abs/2103.06369v2 )

ライセンス: Link先を確認
Alex Jones and Derry Tanti Wijaya(参考訳) 高品質の並列コーポラの取得は、NMTシステムのトレーニングに非常に重要です。 しかし、多くの言語ペアは十分な金本位制の訓練データを持っていないため、2つの言語でペアの文書からいわゆる"pseudo-parallel"文をマイニングする手法が一般的である。 本稿では,現在の手法の問題点を概説し,それらの問題に対する計算学的に経済的な解決策を提案し,タトエバ類似度検索ベンチマークと下流タスク,すなわちNMTでの新しい手法で成功を実証する。 資源関連要因(リソース関連因子)の効果を明らかにする。 バイテキストマイニングアプローチの最適選択に関する単言語/バイリンガルデータ(ある言語でどの程度)と、他の言語で観測されているbuccデータセットとのエコー問題。 実験に使用されるコードとデータは公開されています。

Obtaining high-quality parallel corpora is of paramount importance for training NMT systems. However, as many language pairs lack adequate gold-standard training data, a popular approach has been to mine so-called "pseudo-parallel" sentences from paired documents in two languages. In this paper, we outline some problems with current methods, propose computationally economical solutions to those problems, and demonstrate success with novel methods on the Tatoeba similarity search benchmark and on a downstream task, namely NMT. We uncover the effect of resource-related factors (i.e. how much monolingual/bilingual data is available for a given language) on the optimal choice of bitext mining approach, and echo problems with the oft-used BUCC dataset that have been observed by others. We make the code and data used for our experiments publicly available.
翻訳日:2021-03-15 11:01:43 公開日:2021-03-12
# MediaSum:対話要約のための大規模メディアインタビューデータセット

MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization ( http://arxiv.org/abs/2103.06410v2 )

ライセンス: Link先を確認
Chenguang Zhu, Yang Liu, Jie Mei, Michael Zeng(参考訳) MediaSumは463.6Kのトランスクリプトと抽象的な要約からなる大規模なメディアインタビューデータセットである。 このデータセットを作成するために,NPRとCNNからインタビュー書き起こしを収集し,概要とトピック記述を要約として利用する。 対話要約のための既存の公開コーパスと比較して、我々のデータセットは桁違いに大きく、複数のドメインからの複雑な多人数会話を含んでいる。 我々は,テレビインタビューやラジオインタビューの台本に現れるユニークな位置バイアスを統計的に分析する。 また,他の対話要約タスクにおけるモデルの性能向上のために,メディアサムが伝達学習に利用できることを示す。

MediaSum, a large-scale media interview dataset consisting of 463.6K transcripts with abstractive summaries. To create this dataset, we collect interview transcripts from NPR and CNN and employ the overview and topic descriptions as summaries. Compared with existing public corpora for dialogue summarization, our dataset is an order of magnitude larger and contains complex multi-party conversations from multiple domains. We conduct statistical analysis to demonstrate the unique positional bias exhibited in the transcripts of televised and radioed interviews. We also show that MediaSum can be used in transfer learning to improve a model's performance on other dialogue summarization tasks.
翻訳日:2021-03-15 11:01:27 公開日:2021-03-12
# ポリップセグメンテーションのための二重文脈関係ネットワーク

Duplex Contextual Relation Network for Polyp Segmentation ( http://arxiv.org/abs/2103.06725v2 )

ライセンス: Link先を確認
Zijin Yin, Kongming Liang, Zhanyu Ma, Jun Guo(参考訳) ポリープ分画は早期大腸癌の診断と治療において極めて重要である。 ポリプの形状、サイズ、色、テクスチャは様々であるため、正確なポリプのセグメンテーションは非常に難しい。 ポリプの多様性を緩和する1つの有望な方法は、アテンション機構などの各ピクセルのコンテキスト関係をモデル化することである。 しかし、従来の手法では、個々の画像内の位置間の依存関係を学習することのみに集中し、異なる画像間のコンテキスト関係を無視する。 本稿では,画像内のコンテキスト関係と画像間のコンテキスト関係の両方をキャプチャする二重文脈関係ネットワーク(dcrnet)を提案する。 具体的には、まず内部文脈関係モジュールを設計し、各位置と同一画像内のすべての位置との類似性を推定する。 次に、外部の文脈関連モジュールを組み込んで、異なる画像間の各位置と位置の類似度を推定する。 上記の2種類の類似性に基づき、画像内および画像間のコンテキスト領域埋め込みにより、1つの位置における特徴をさらに強化することができる。 すべての画像から埋め込まれた特徴領域を保存するため、メモリバンクはキューとして設計・運用される。 そこで,提案手法では,異なる画像からでも類似した特徴を関連付けることができる。 提案手法をEndoScene, Kvasir-SEG, 最近リリースされた大規模PICCOLOデータセット上で評価した。 実験の結果,提案したDCRNetは,広く利用されている評価指標で最先端の手法よりも優れていた。

Polyp segmentation is of great importance in the early diagnosis and treatment of colorectal cancer. Since polyps vary in their shape, size, color, and texture, accurate polyp segmentation is very challenging. One promising way to mitigate the diversity of polyps is to model the contextual relation for each pixel such as using attention mechanism. However, previous methods only focus on learning the dependencies between the position within an individual image and ignore the contextual relation across different images. In this paper, we propose Duplex Contextual Relation Network (DCRNet) to capture both within-image and cross-image contextual relations. Specifically, we first design Interior Contextual-Relation Module to estimate the similarity between each position and all the positions within the same image. Then Exterior Contextual-Relation Module is incorporated to estimate the similarity between each position and the positions across different images. Based on the above two types of similarity, the feature at one position can be further enhanced by the contextual region embedding within and across images. To store the characteristic region embedding from all the images, a memory bank is designed and operates as a queue. Therefore, the proposed method can relate similar features even though they come from different images. We evaluate the proposed method on the EndoScene, Kvasir-SEG and the recently released large-scale PICCOLO dataset. Experimental results show that the proposed DCRNet outperforms the state-of-the-art methods in terms of the widely-used evaluation metrics.
翻訳日:2021-03-15 11:01:16 公開日:2021-03-12
# U-Net Transformer: 医療画像セグメンテーションのための自己およびクロスアテンション

U-Net Transformer: Self and Cross Attention for Medical Image Segmentation ( http://arxiv.org/abs/2103.06104v2 )

ライセンス: Link先を確認
Olivier Petit, Nicolas Thome, Cl\'ement Rambour, Luc Soler(参考訳) 医療画像セグメンテーションは、複雑で低コントラストな解剖学的構造にとって特に困難です。 本稿では,イメージセグメンテーションのためのU字型アーキテクチャと,トランスフォーマーからの自己および相互アテンションを組み合わせたU-Transformerネットワークを提案する。 U-Transformerは、U-Netが長距離のコンテキスト相互作用と空間依存をモデル化できないことを克服している。 この目的のために、セルフアテンションモジュールはエンコーダ特徴間のグローバルな相互作用を活用する一方、スキップ接続におけるクロスアテンションは、非セマンティック特徴をフィルタリングすることでU-Netデコーダの空間的復元を可能にする。 2つの腹部CT画像データセットの実験は、U-NetおよびローカルアテンションU-Netと比較してU-Transformerがもたらした大きなパフォーマンス向上を示しています。 また,U-Transformerが生み出した自己認識と相互認識の両面の重要性を強調した。

Medical image segmentation remains particularly challenging for complex and low-contrast anatomical structures. In this paper, we introduce the U-Transformer network, which combines a U-shaped architecture for image segmentation with self- and cross-attention from Transformers. U-Transformer overcomes the inability of U-Nets to model long-range contextual interactions and spatial dependencies, which are arguably crucial for accurate segmentation in challenging contexts. To this end, attention mechanisms are incorporated at two main levels: a self-attention module leverages global interactions between encoder features, while cross-attention in the skip connections allows a fine spatial recovery in the U-Net decoder by filtering out non-semantic features. Experiments on two abdominal CT-image datasets show the large performance gain brought out by U-Transformer compared to U-Net and local Attention U-Nets. We also highlight the importance of using both self- and cross-attention, and the nice interpretability features brought out by U-Transformer.
翻訳日:2021-03-15 11:00:54 公開日:2021-03-12