このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211110となっている論文です。

PDF登録状況(公開日: 20211110)

TitleAuthorsAbstract論文公表日・翻訳日
# イメージングフォノンによるwte2の流体流動

Imaging phonon-mediated hydrodynamic flow in WTe2 ( http://arxiv.org/abs/2009.04477v2 )

ライセンス: Link先を確認
Uri Vool and Assaf Hamo and Georgios Varnavides and Yaxian Wang and Tony X. Zhou and Nitesh Kumar and Yuliya Dovzhenko and Ziwei Qiu and Christina A. C. Garcia and Andrew T. Pierce and Johannes Gooth and Polina Anikeeva and Claudia Felser and Prineha Narang and Amir Yacoby(参考訳) 相互作用の存在下では、凝縮マター系の電子は流体力学的に挙動し、渦やポワゼイユの流れのような古典的な流体に関連する現象を示す。 ほとんどの導体では、電子と電子の相互作用は遮蔽効果によって最小化され、流体力学物質の探索を妨げるが、近年、一群の半金属が顕著な相互作用を示すことが報告されている。 ここでは, ダイヤモンド中の窒素空隙欠陥を用いた局所磁場のイメージングにより, 層状半金属タングステンダイテルライド中の電流流の研究を行う。 3次元タングステン・ディテルリード内の空間電流プロファイルを撮像し,流体力学的流れを示す非一様電流密度を示すことを見出した。 我々はまた、電子-電子相互作用がクーロン相互作用だけで説明されるのではなく、主にフォノンによって媒介されることを示すアブ・イニシアト計算を報告した。 これは、高キャリア密度材料における流体流動と顕著な電子相互作用の探索において有望な道を提供する。

In the presence of interactions, electrons in condensed-matter systems can behave hydrodynamically, exhibiting phenomena associated with classical fluids, such as vortices and Poiseuille flow. In most conductors, electron-electron interactions are minimized by screening effects, hindering the search for hydrodynamic materials; however, recently, a class of semimetals has been reported to exhibit prominent interactions. Here we study the current flow in the layered semimetal tungsten ditelluride by imaging the local magnetic field using a nitrogen-vacancy defect in a diamond. We image the spatial current profile within three-dimensional tungsten ditelluride and find that it exhibits non-uniform current density, indicating hydrodynamic flow. Our temperature-resolve current profile measurements reveal a non-monotonic temperature dependence, with the strongest hydrodynamic effects at approximately 20 K. We also report ab initio calculations showing that electron-electron interactions are not explained by the Coulomb interaction alone, but are predominantly mediated by phonons. This provides a promising avenue in the search for hydrodynamic flow and prominent electron interactions in high-carrier-density materials.
翻訳日:2023-05-03 02:54:37 公開日:2021-11-10
# テンソル格子場理論と再正規化群と量子計算への応用

Tensor lattice field theory with applications to the renormalization group and quantum computing ( http://arxiv.org/abs/2010.06539v2 )

ライセンス: Link先を確認
Yannick Meurice, Ryo Sakai, Judah Unmuth-Yockey(参考訳) 格子QCDの文脈で研究されたモデル列に対する統計的サンプリングの成功と限界について議論し、有限密度およびリアルタイム進化を扱う新しい方法の必要性を強調した。 これらの格子モデルは、経路積分形式における場積分を離散和に置き換えるテンソル法を用いて再構成可能であることを示す。 これらの定式化は様々な種類の双対性を含み、ウィルソン再正規化群プログラムの実践的な実装を得るために、トランケーションと組み合わせることができる正確な粗粒化公式を提供する。 テンソル変換は自然に離散的であり、管理可能な転送行列を提供する。 停止と時間連続限界を組み合わせることで、例えば寒冷原子を用いた量子シミュレーション実験や、既存の量子コンピュータ上でプログラムされるのに適したハミルトニアンを導出する。 本稿では,非コンパクトスカラーモデル,超対称モデル,経済4次元アルゴリズム,ガウスの法則のノイズロバスト強制法,対称性保存法,位相的考察のテンソル場の理論処理に関する最近の進歩について述べる。 我々は他のテンソルネットワークアプローチとの接続について論じる。

We discuss the successes and limitations of statistical sampling for a sequence of models studied in the context of lattice QCD and emphasize the need for new methods to deal with finite-density and real-time evolution. We show that these lattice models can be reformulated using tensorial methods where the field integrations in the path-integral formalism are replaced by discrete sums. These formulations involve various types of duality and provide exact coarse-graining formulas which can be combined with truncations to obtain practical implementations of the Wilson renormalization group program. Tensor reformulations are naturally discrete and provide manageable transfer matrices. Combining truncations with the time continuum limit, we derive Hamiltonians suitable to perform quantum simulation experiments, for instance using cold atoms, or to be programmed on existing quantum computers. We review recent progress concerning the tensor field theory treatment of non-compact scalar models, supersymmetric models, economical four-dimensional algorithms, noise-robust enforcement of Gauss's law, symmetry preserving truncations and topological considerations. We discuss connections with other tensor network approaches.
翻訳日:2023-04-29 04:54:53 公開日:2021-11-10
# 準粒子励起の普遍R'enyiエントロピー

Universal R\'enyi Entropy of Quasiparticle Excitations ( http://arxiv.org/abs/2010.13973v3 )

ライセンス: Link先を確認
Jiaju Zhang, M. A. Rajabpour(参考訳) 多体ギャップ付き系における準粒子励起のR'enyiエントロピーは、半古典的議論と(不)区別可能性の量子効果を部分的に組み合わせることで部分的に理解できる驚くべき普遍的な図形を示している。 普遍 r\'enyi エントロピーはモデル、準粒子モーメント、サブシステムの連結性とは独立である。 この文字では、多体間隙フェルミオン、ボソン、XY鎖における準粒子励起の単一間隔および二重間隔R\enyiエントロピーを正確に計算する。 我々は、異なるモーメントの準粒子を持つ励起状態における普遍 r\'enyi エントロピーに対する追加の貢献を見つける。 付加項はフェルミオン鎖とボゾン鎖で異なり、準粒子の運動量差に依存し、単一間隔と二重間隔で異なる。 解析的なR'enyiエントロピーを極端にギャップのある極限で導き、モデルの内在的相関長や準粒子のデブロリー波長が小さい限り、完全に数値結果と一致する。 任意の異なる準粒子の対の運動量差が小さいとき、追加項は無視できない。 それとは対照的に、それぞれの異なる準粒子の対のモータの差が大きい場合、追加の項は無視できる。 xy鎖の局所的な自由度がパウリ行列であってスピンレスフェルミオンではないという事実から、xy鎖の普遍的単焦点エントロピーとその付加項はフェルミオン鎖のそれと同じであるのに対し、二重区間とその付加項の普遍的r\'enyエントロピーは異なる。 導出式は普遍的な性質を持ち、ここで議論された式よりも広い範囲のモデルに適用できると論じる。

The R\'enyi entropies of quasiparticle excitations in the many-body gapped systems show a remarkable universal picture which can be understood partially by combination of a semiclassical argument with the quantum effect of (in)distinguishability. The universal R\'enyi entropies are independent of the model, the quasiparticle momenta, and the connectedness of the subsystem. In this letter we calculate exactly the single-interval and double-interval R\'enyi entropies of quasiparticle excitations in the many-body gapped fermions, bosons, and XY chains. We find additional contributions to the universal R\'enyi entropy in the excited states with quasiparticles of different momenta. The additional terms are different in the fermionic and bosonic chains, depend on the momentum differences of the quasiparticles, and are different for the single interval and the double interval. We derive the analytical R\'enyi entropy in the extremely gapped limit, matching perfectly the numerical results as long as either the intrinsic correlation length of the model or all the de Broglie wavelengths of the quasiparticles are small. When the momentum difference of any pair of distinct quasiparticles is small, the additional terms are non-negligible. On the contrary, when the difference of the momenta of each pair of distinct quasiparticles is large, the additional terms could be neglected. The universal single-interval R\'enyi entropy and its additional terms in the XY chain are the same as those in the fermionic chain, while the universal R\'enyi entropy of the double intervals and its additional terms are different, due to the fact that the local degrees of freedom of the XY chain are the Pauli matrices not the spinless fermions. We argue that the derived formulas have universal properties and can be applied for a wider range of models than those discussed here.
翻訳日:2023-04-27 08:55:36 公開日:2021-11-10
# 分布的一般化量子力学による3次元ディラックデルタシュロディンガーポテンシャルの特異波動関数のエネルギー固有値

The Energy Eigenvalue for the Singular Wave Function of the Three Dimensional Dirac Delta Schrodinger Potential via Distributionally Generalized Quantum Mechanics ( http://arxiv.org/abs/2101.07876v5 )

ライセンス: Link先を確認
Michael Maroun(参考訳) Unlike the situation for the 1d Dirac delta derivative Schrodinger pseudo potential (SPP) and the 2d Dirac delta SPP, where the indeterminacy originates from a lack of scale in the first and both a lack of scale as well as the wave function not being well defined at the support of the generalized function SPP; the obstruction in 3d Euclidean space for the Schrodinger equation with the Dirac delta as a SPP only comes from the wave function (the $L^2$ bound sate solution) being singular at the compact point support of the Dirac delta function (measure). この問題は、再正規化や正規化を繰り返すことなく、完全に数学的に厳密に解かれる。 この方法は、著者によって開発されたシュロディンガー理論の分布一般化版を伴い、形式記号 "$H\psi$" を分布空間の要素として、コンパクトな支持を持つ滑らかな函数の空間への位相的双対ベクトル空間とみなす。 二つの主な事実が明らかになる。 第一は、そのような系の束縛状態エネルギーは、数学と理論物理学の両方の文献と一致する、よく考えられた文脈で計算できるということである。 二つ目は、ヘルマン=ファインマンの定理の厳密な分布バージョンが存在することである。

Unlike the situation for the 1d Dirac delta derivative Schrodinger pseudo potential (SPP) and the 2d Dirac delta SPP, where the indeterminacy originates from a lack of scale in the first and both a lack of scale as well as the wave function not being well defined at the support of the generalized function SPP; the obstruction in 3d Euclidean space for the Schrodinger equation with the Dirac delta as a SPP only comes from the wave function (the $L^2$ bound sate solution) being singular at the compact point support of the Dirac delta function (measure). The problem is solved here in a completely mathematically rigorous manner with no recourse to renormalization nor regularization. The method involves a distributionally generalized version of the Schrodinger theory as developed by the author, which regards the formal symbol "$H\psi$" as an element of the space of distributions, the topological dual vector space to the space of smooth functions with compact support. Two main facts come to light. The first is the bound state energy of such a system can be calculated in a well-posed context, the value of which agrees with both the mathematical and theoretical physics literature. The second is that there is then a rigorous distributional version of the Hellmann-Feynman theorem.
翻訳日:2023-04-14 21:01:44 公開日:2021-11-10
# サンプリングオーバーヘッド低減による準確率分解

Quasiprobability decompositions with reduced sampling overhead ( http://arxiv.org/abs/2101.09290v2 )

ライセンス: Link先を確認
Christophe Piveteau, David Sutter, Stefan Woerner(参考訳) 量子エラー軽減技術は、フォールトトレラントな量子エラー補正を必要とせずに、現在の量子ハードウェアのノイズを低減することができる。 例えば、準確率法はノイズのない量子コンピュータをノイズのないものを用いてシミュレートし、観測可能な値の正しい値しか生成しない。 この誤差軽減手法のコストは、補正ゲート数で指数関数的にスケールするサンプリングオーバーヘッドとして表される。 本研究では,疑似確率分解を雑音認識方式で選択することを目的とした,数理最適化に基づく新しいアルゴリズムを提案する。 これにより、既存のアプローチと比較してサンプリングオーバーヘッドが大幅に低減される。 このアルゴリズムの重要な要素は、近似誤差と半定値プログラミングによるサンプリングオーバーヘッドとのトレードオフを可能にする頑健な準確率法である。

Quantum error mitigation techniques can reduce noise on current quantum hardware without the need for fault-tolerant quantum error correction. For instance, the quasiprobability method simulates a noise-free quantum computer using a noisy one, with the caveat of only producing the correct expected values of observables. The cost of this error mitigation technique manifests as a sampling overhead which scales exponentially in the number of corrected gates. In this work, we present a new algorithm based on mathematical optimization that aims to choose the quasiprobability decomposition in a noise-aware manner. This directly leads to a significantly lower basis of the sampling overhead compared to existing approaches. A key element of the novel algorithm is a robust quasiprobability method that allows for a tradeoff between an approximation error and the sampling overhead via semidefinite programming.
翻訳日:2023-04-14 06:20:25 公開日:2021-11-10
# 非ガウス状態を用いたガウスランダム変位の推定

Estimation of Gaussian random displacement using non-Gaussian states ( http://arxiv.org/abs/2102.05276v4 )

ライセンス: Link先を確認
Fumiya Hanamura, Warit Asavanant, Kosuke Fukui, Shunya Konno, and Akira Furusawa(参考訳) 連続変数量子情報処理では、ガウス誤差の量子誤差補正は位相空間上の変位の2次成分の同時推定を必要とする。 しかし、二次作用素 $x$ と $p$ は非可換共役観測可能であり、その同時測定は不確かさ原理によって禁止される。 Gottesman-Kitaev-Preskill (GKP) 誤差補正はGKP状態と呼ばれる複雑な非ガウス状態を用いてこの問題を扱う。 一方, 実験的に実現可能な非ガウス状態を用いた変位の同時推定は十分に研究されていない。 本稿では,等方的ガウス分布を仮定した変位の多パラメータ推定問題を考察し,測定結果のポスト選択を可能にする。 ガウス演算のみを使用する場合の推定誤差に対する下限を導出し、単光子状態のような単純な非ガウス状態であってもこの境界を超えることができることを示す。 また、Ghoshのバウンドに基づいて、入力状態の最大光子数が与えられたときに、推定誤差の低いバウンドを求める。 その結果, 変位推定における非ガウス性の役割を明らかにし, 実験的に実現可能な非ガウス状態を用いたガウス誤差の誤差補正への道を開いた。

In continuous-variable quantum information processing, quantum error correction of Gaussian errors requires simultaneous estimation of both quadrature components of displacements on phase space. However, quadrature operators $x$ and $p$ are non-commutative conjugate observables, whose simultaneous measurement is prohibited by the uncertainty principle. Gottesman-Kitaev-Preskill (GKP) error correction deals with this problem using complex non-Gaussian states called GKP states. On the other hand, simultaneous estimation of displacement using experimentally feasible non-Gaussian states has not been well studied. In this paper, we consider a multi-parameter estimation problem of displacements assuming an isotropic Gaussian prior distribution and allowing post-selection of measurement outcomes. We derive a lower bound for the estimation error when only Gaussian operations are used, and show that even simple non-Gaussian states such as single-photon states can beat this bound. Based on Ghosh's bound, we also obtain a lower bound for the estimation error when the maximum photon number of the input state is given. Our results reveal the role of non-Gaussianity in the estimation of displacements, and pave the way toward the error correction of Gaussian errors using experimentally feasible non-Gaussian states.
翻訳日:2023-04-12 01:10:21 公開日:2021-11-10
# 相対論的理論の確率量子化

Stochastic Quantization of Relativistic Theories ( http://arxiv.org/abs/2103.02501v3 )

ライセンス: Link先を確認
Folkert Kuipers(参考訳) 近年, (pseudo-)riemann多様体上の確率量子化スキームは, 一般的に用いられる一階微分幾何学の拡張である二次微分幾何学を用いて, 十分に定義された量子化スキームにすることができることが示された。 本稿では、この理論から相対論的理論に対する制限が、確率的エネルギー-モーメント関係によって得られることを示す。 この過程で、スカラー粒子によって測定された線要素に対する非摂動量子補正を導出する。 さらに, 確率量子化の枠組みを無質量スカラー粒子にまで拡張した。

It was shown recently that stochastic quantization can be made into a well defined quantization scheme on (pseudo-)Riemannian manifolds using second order differential geometry, which is an extension of the commonly used first order differential geometry. In this letter, we show that restrictions to relativistic theories can be obtained from this theory by imposing a stochastic energy-momentum relation. In the process, we derive non-perturbative quantum corrections to the line element as measured by scalar particles. Furthermore, we extend the framework of stochastic quantization to massless scalar particles.
翻訳日:2023-04-09 08:02:31 公開日:2021-11-10
# 高次ワイル例外リング半金属

Higher-Order Weyl-Exceptional-Ring Semimetals ( http://arxiv.org/abs/2104.07335v3 )

ライセンス: Link先を確認
Tao Liu, James Jun He, Zhongmin Yang, Franco Nori(参考訳) 一階の位相半金属の場合、非エルミート摂動はワイルノードを複数の位相構造を持つワイル例外環へと押し上げることができる。 近年、高次ワイル半金属は、新しい高次トポロジカル相のクラスとして、共存する表面とヒンジフェルミ弧を独自に示すことが判明した。 しかしながら、非エルミート高次トポロジカル半金属はまだ研究されていない。 ここでは、新しいタイプの位相半金属、すなわちワイル例外環を持つ高次位相半金属を同定する。 このような半金属では、これらの環はスペクトル巻数とチャーン数の両方によって特徴づけられる。 さらに、高次ワイル例外環半金属は、それぞれ表面へのワイル例外環の射影とヒンジへのヒンジによって境界付けられた表面とヒンジフェルミ-arc状態の両方をサポートする。 散逸項は、トポロジカル位相遷移を誘導するために、反対のトポロジカル電荷を持つ2つの例外環のカップリングを引き起こす。 非エルミート系における新しい高次トポロジカル半金属の探索のための新しい道を開く。

For first-order topological semimetals, non-Hermitian perturbations can drive the Weyl nodes into Weyl exceptional rings having multiple topological structures and no Hermitian counterparts. Recently, it was discovered that higher-order Weyl semimetals, as a novel class of higher-order topological phases, can uniquely exhibit coexisting surface and hinge Fermi arcs. However, non-Hermitian higher-order topological semimetals have not yet been explored. Here, we identify a new type of topological semimetals, i.e, a higher-order topological semimetal with Weyl exceptional rings. In such a semimetal, these rings are characterized by both a spectral winding number and a Chern number. Moreover, the higher-order Weyl-exceptional-ring semimetal supports both surface and hinge Fermi-arc states, which are bounded by the projection of the Weyl exceptional rings onto the surface and hinge, respectively. Noticeably, the dissipative terms can cause the coupling of two exceptional rings with opposite topological charges, so as to induce topological phase transitions. Our studies open new avenues for exploring novel higher-order topological semimetals in non-Hermitian systems.
翻訳日:2023-04-03 18:23:36 公開日:2021-11-10
# 命令スケジューリングによる量子コンピュータの誤り軽減

Error Mitigation in Quantum Computers through Instruction Scheduling ( http://arxiv.org/abs/2105.01760v2 )

ライセンス: Link先を確認
Kaitlin N. Smith, Gokul Subramanian Ravi, Prakash Murali, Jonathan M. Baker, Nathan Earnest, Ali Javadi-Abhari, Frederic T. Chong(参考訳) 量子システムは、大きな計算上の利点を示す可能性があるが、現在の量子デバイスは、長い期間にわたって量子情報の保存を妨げるエラーの急速な蓄積に苦しむ。 量子ビットの環境への非意図的な結合は計算に重大なノイズを与え、実マシン上での量子アルゴリズムの性能を高めるためにデコヒーレンスと戦う方法の改善が必要である。 回路に余分なゲートを追加すること、新しいゲートを校正すること、あるいは回路のランタイムを拡張することなど、エラーを緩和するための既存の技術の多くは、回路長を延ばさずに量子プログラムにすでに存在するゲートを活用する。 アイドルウィンドウで発生する単一キュービットゲートの回路スラックを利用して、そのタイミングが何らかのエラーに対処できるようにゲートをスケジューリングする。 アイドリングキュービットのデコヒーレンスを軽減するスピンエコ補正は、この研究のインスピレーションとなる。 しかし理論的モデルは、nisqデバイスにおける全てのノイズ源を捉えることができず、量子マシンにおける予測不能なエラーの影響を最小化するための実用的な解決策が必要となる。 本稿では,量子回路内の単一量子ビットゲートの最適実行スケジュールをピンポイントする新しいフレームワークTimeStitchを提案する。 コンパイルパスとして実装されたtimestitchは、量子計算の可逆性を活用して、実際の量子マシンにおける回路の成功を促進する。

Quantum systems have potential to demonstrate significant computational advantage, but current quantum devices suffer from the rapid accumulation of error that prevents the storage of quantum information over extended periods. The unintentional coupling of qubits to their environment and each other adds significant noise to computation, and improved methods to combat decoherence are required to boost the performance of quantum algorithms on real machines. While many existing techniques for mitigating error rely on adding extra gates to the circuit, calibrating new gates, or extending a circuit's runtime, this paper's primary contribution leverages the gates already present in a quantum program without extending circuit duration. We exploit circuit slack for single-qubit gates that occur in idle windows, scheduling the gates such that their timing can counteract some errors. Spin-echo corrections that mitigate decoherence on idling qubits act as inspiration for this work. Theoretical models, however, fail to capture all sources of noise in NISQ devices, making practical solutions necessary that better minimize the impact of unpredictable errors in quantum machines. This paper presents TimeStitch: a novel framework that pinpoints the optimum execution schedules for single-qubit gates within quantum circuits. TimeStitch, implemented as a compilation pass, leverages the reversible nature of quantum computation to boost the success of circuits on real quantum machines.
翻訳日:2023-04-01 15:15:52 公開日:2021-11-10
# 捕捉イオンの運動状態における多レベルコヒーレンスの証明

Certifying Multilevel Coherence in the Motional State of a Trapped Ion ( http://arxiv.org/abs/2106.12939v2 )

ライセンス: Link先を確認
Ollie Corfield, Jake Lishman, Chungsun Lee, Jacopo Mosca Toba, George Porter, Johannes M. Heinrich, Simon C. Webster, Florian Mintert, Richard C. Thompson(参考訳) 量子コヒーレンス(quantum coherence)は古典物理学から最も明確な逸脱の1つで、系が異なる基底状態の重ね合わせにあるときに現れる。 ここで、単一捕捉イオンの3つの運動フォック状態のコヒーレント重ね合わせを実験的に証明し、不完全な操作に対して確実に堅牢な手順を示す。 動作状態は直接尋問できないため,結合量子状態の投影的測定により生成された干渉パターンを用いる。 干渉パターンの解析に基づいて、一連のしきい値からコヒーレントに重畳された状態の最小数を推定する。 このことは、ノイズの多い中間スケール量子デバイスに適した単純な非理想的制御手法を用いて、高レベルのコヒーレンスを検証し、検討できることを実証する。

Quantum coherence is one of the clearest departures from classical physics, exhibited when a system is in a superposition of different basis states. Here the coherent superposition of three motional Fock states of a single trapped ion is experimentally certified, with a procedure provably robust against imperfect operation. As the motional state cannot be directly interrogated, our scheme uses an interference pattern generated by projective measurement of the coupled qubit state. The minimum number of coherently superposed states is inferred from a series of threshold values based on analysis of the interference pattern. This demonstrates that high-level coherence can be verified and investigated with simple, nonideal control methods well-suited to noisy intermediate-scale quantum devices.
翻訳日:2023-03-25 16:21:26 公開日:2021-11-10
# 古典的チャネルとしての重力とその散逸一般化

Gravity as a classical channel and its dissipative generalization ( http://arxiv.org/abs/2106.13305v3 )

ライセンス: Link先を確認
Giovanni Di Bartolomeo and Matteo Carlesso and Angelo Bassi(参考訳) 最近のモデルはkafri、taylor、milburnによって定式化され、tiloyとdiosiは連続的な測定とフィードバックのプロトコルを通じて重力相互作用を記述する。 このようにして、重力は最終的に古典的扱いを受けるが、統計作用素のマスター方程式のレベルで適切な量子重力相互作用を再構築することができる。 この手続きの後、支払いの価格は、漸近的なエネルギーの分散につながる非コヒーレンス効果の存在である。 後者は独立したシステムでは期待できない。 本稿では,これらのモデルの散逸一般化を提案する。 これらの一般化において、長い時間的限界において、システムは有効有限温度まで熱化することを示す。

Recent models formulated by Kafri, Taylor, and Milburn and by Tilloy and Diosi describe the gravitational interaction through a continuous measurement and feedback protocol. In such a way, although gravity is ultimately treated as classical, they can reconstruct the proper quantum gravitational interaction at the level of the master equation for the statistical operator. Following this procedure, the price to pay is the presence of decoherence effects leading to an asymptotic energy divergence. One does not expect the latter in isolated systems. Here, we propose a dissipative generalization of these models. We show that, in these generalizations, in the long time limit, the system thermalizes to an effective finite temperature.
翻訳日:2023-03-25 16:00:25 公開日:2021-11-10
# 量子流体力学画像における誘起浸透渦性

Induced osmotic vorticity in the quantum hydrodynamical picture ( http://arxiv.org/abs/2106.13225v3 )

ライセンス: Link先を確認
C Dedes(参考訳) Schr\"{o} ディンガー方程式に仮想量子ポテンシャルを挿入することで非線形波動力学方程式を提案する。 その解に対する明示的な表現は、ある仮定の下で与えられ、非ユニタリ進化、非指数量子崩壊、エントロピー生成のような減衰関連効果が伴うことが示されている。 量子流体力学の定式化では、浸透速度場に対する循環効果が確立される。 最後に、確率密度の時間不変方程式が導出され、エアロ音響学におけるテンソル・ライトヒル方程式に類似し、遅延解と高度な解の両方が認められる。

A nonlinear wave mechanical equation is proposed by inserting an imaginary quantum potential into the Schr\"{o}dinger equation. An explicit expression for its solution is given under certain assumptions and it is shown that it entails attenuation related effects as non-unitary evolution, non-exponential quantum decay and entropy production. In the quantum hydrodynamical formulation the existence of circulation effects for the osmotic velocity field is established. Finally, a time-invariant equation for the probability density is derived, analogous to the tensor Lighthill equation in aeroacoustics, which admits both retarded and advanced solutions.
翻訳日:2023-03-25 15:59:13 公開日:2021-11-10
# レインボーカー:地域からボリューム法へ

Rainbow Scars: From Area to Volume Law ( http://arxiv.org/abs/2107.03416v3 )

ライセンス: Link先を確認
Christopher M. Langlett, Zhi-Cheng Yang, Julia Wildeboer, Alexey V. Gorshkov, Thomas Iadecola, Shenglong Xu(参考訳) 量子多体傷(Quantum many-body scars, QMBS)は、希少な「スカーレッド」固有状態が弱いエルゴード性破壊を媒介する新しい量子力学系を構成する。 一つのオープンな疑問は、これらの状態が生じる最も一般的な設定を理解することである。 本研究では,任意のハミルトニアンのスペクトルに新しいqmbのレインボースカーを組み込む汎用的な構成法を開発した。 QMBSの他の例とは異なり、虹の傷は、単純な絡み合い構造を維持しながら、広範な二部構造エントロピーを示す。 具体的には、絡み合いのスケーリングはランダムな二分割のボリューム法則であり、微調整された二分割のスケーリングはサブエクステンシブである。 内部対称性が存在すると、構造は複数の、そして、特異な非熱力学によって明らかな虹の傷の塔へとつながる。 顕著なことに、ある種の対称性は、翻訳不変のモデルで虹の傷を生じさせる可能性がある。 この目的のために,rydberg-atom量子シミュレータにおいて虹の傷の状態を実現するための実験的な道路地図を提供し,同一システムで既に実現されていた厳密なサブボリュームローqmbとは異なるコヒーレント振動を導出する。

Quantum many-body scars (QMBS) constitute a new quantum dynamical regime in which rare "scarred" eigenstates mediate weak ergodicity breaking. One open question is to understand the most general setting in which these states arise. In this work, we develop a generic construction that embeds a new class of QMBS, rainbow scars, into the spectrum of an arbitrary Hamiltonian. Unlike other examples of QMBS, rainbow scars display extensive bipartite entanglement entropy while retaining a simple entanglement structure. Specifically, the entanglement scaling is volume-law for a random bipartition, while scaling for a fine-tuned bipartition is sub-extensive. When internal symmetries are present, the construction leads to multiple, and even towers of rainbow scars revealed through distinctive non-thermal dynamics. Remarkably, certain symmetries can lead rainbow scars to arise in translation-invariant models. To this end, we provide an experimental road map for realizing rainbow scar states in a Rydberg-atom quantum simulator, leading to coherent oscillations distinct from the strictly sub-volume-law QMBS previously realized in the same system.
翻訳日:2023-03-23 04:15:54 公開日:2021-11-10
# 量子情報効果

Quantum Information Effects ( http://arxiv.org/abs/2107.12144v2 )

ライセンス: Link先を確認
Chris Heunen and Robin Kaarsgaard(参考訳) 量子計算における情報の量を操作する2つの双対量子情報効果(隠れと割り当て)について検討する。 結果の型と効果のシステムは、測定を含む不可逆的な量子コンピューティングに対して完全に表現可能である。 我々は、この矢印メタ言語を意味論的に選択的に解釈する普遍的な分類的構成を提供する。 量子計測のいくつかの性質は一般に従っており、量子フローチャート(ノンイテレーティブ)を言語に翻訳する。 意味的構成はヒルベルト空間の間のユニタリの圏を完全正のトレース保存写像の圏に変換し、有限集合間の単射の圏を選択されたガベージを持つ函数の圏に変換する。 したがって、トフォリとスタインスプリングの古典的および量子可逆計算の基本定理を捉えている。

We study the two dual quantum information effects to manipulate the amount of information in quantum computation: hiding and allocation. The resulting type-and-effect system is fully expressive for irreversible quantum computing, including measurement. We provide universal categorical constructions that semantically interpret this arrow metalanguage with choice, starting with any rig groupoid interpreting the reversible base language. Several properties of quantum measurement follow in general, and we translate (noniterative) quantum flow charts into our language. The semantic constructions turn the category of unitaries between Hilbert spaces into the category of completely positive trace-preserving maps, and they turn the category of bijections between finite sets into the category of functions with chosen garbage. Thus they capture the fundamental theorems of classical and quantum reversible computing of Toffoli and Stinespring.
翻訳日:2023-03-20 21:40:11 公開日:2021-11-10
# 背景電磁環境中を移動する原子の減衰と拡散

The damping and diffusion of atoms moving in the background electromagnetic environment ( http://arxiv.org/abs/2108.05590v3 )

ライセンス: Link先を確認
Li Ge(参考訳) 原子と量子化された電磁場の間の相互作用は原子の位置に依存する。 その後、原子はこの相互作用のマイナス勾配である力を経験する。 ハイゼンベルクの運動方程式とボルン・マルコフ近似を用いて、力の平均と相関を求め、原子の中心運動が減衰して拡散されることを示した。 このアプローチは、減衰力と拡散係数が、非有界な双極子要素を持つ全てのエネルギー準位からの寄与の重み付け平均である多レベル原子に容易に一般化することができる。 これらの結果はガリレオ変換の下で不変であり、原理的には背景放射に対する実験室の速度を決定するのに使うことができる。

The interaction between an atom and the quantized electromagnetic field depends on the position of the atom. Then the atom experiences a force which is the minus gradient of this interaction. Through the Heisenberg equations of motion and the Born-Markov approximation, the mean and correlation of the force are obtained, showing that the center-of-mass motion of the atom is damped and diffused. This approach can be easily generalized to multi-level atoms, where the damping force and diffusion coefficients are just the weighted average of the contributions from all pairs of energy levels that have nonvanishing dipole elements. It is shown that these results are invariant under Galilean transformation, and in principle can be used to determine the velocity of the lab relative to the background radiation.
翻訳日:2023-03-18 17:22:15 公開日:2021-11-10
# 量子アニーリングによるマルチカーペイントショップ最適化

Multi-car paint shop optimization with quantum annealing ( http://arxiv.org/abs/2109.07876v2 )

ライセンス: Link先を確認
Sheir Yarkoni, Alex Alekseyenko, Michael Streif, David Von Dollen, Florian Neukart, Thomas B\"ack(参考訳) 本稿では,自動車産業アプリケーション,マルチカーペンキショップ (MCPS) 問題に取り組むために,バイナリペイントショップ問題 (BPSP) の一般化を提案する。 この最適化の目的は、製造中のペイントショップキュー内の車両間のカラースイッチ数を最小化することであり、既知のNPハード問題である。 我々はペイントショップの様々なサブクラスを区別し、基本的なMCPS問題をIsingモデルとして定式化する方法を示す。 この研究で使用される問題は、ドイツのヴォルフスブルクにある工場の実際のデータを用いて生成される。 D-Wave 2000QとAdvantage量子プロセッサの性能を、他の古典的解法やD-Wave Systemsが提供するハイブリッド量子古典アルゴリズムと比較する。 量子プロセッサはより小さな問題には適しており、中間サイズにはハイブリッドアルゴリズムが適している。 しかし,これらのアルゴリズムの性能は,大規模に制限された単純な欲求的アルゴリズムに素早くアプローチできることが判明した。

We present a generalization of the binary paint shop problem (BPSP) to tackle an automotive industry application, the multi-car paint shop (MCPS) problem. The objective of the optimization is to minimize the number of color switches between cars in a paint shop queue during manufacturing, a known NP-hard problem. We distinguish between different sub-classes of paint shop problems, and show how to formulate the basic MCPS problem as an Ising model. The problem instances used in this study are generated using real-world data from a factory in Wolfsburg, Germany. We compare the performance of the D-Wave 2000Q and Advantage quantum processors to other classical solvers and a hybrid quantum-classical algorithm offered by D-Wave Systems. We observe that the quantum processors are well-suited for smaller problems, and the hybrid algorithm for intermediate sizes. However, we find that the performance of these algorithms quickly approaches that of a simple greedy algorithm in the large size limit.
翻訳日:2023-03-14 22:41:21 公開日:2021-11-10
# 反応座標法による非マルコフダイナミクスの捕捉

Capturing non-Markovian dynamics with the reaction coordinate method ( http://arxiv.org/abs/2110.02455v2 )

ライセンス: Link先を確認
Nicholas Anto-Sztrikacs and Dvira Segal(参考訳) 反応座標(RC)技術は、量子散逸動力学と量子熱力学の研究において重要なツールとして登場している。 このツールのさらなる確立を目的として, 開量子系の非マルコフ力学を如何に捉えることができるか検討する。 ケーススタディとして,高調波貯留層に結合したスピンの純粋デコヒーレンスモデルに着目した。 第2次量子マスター方程式のレベルでのrc法に基づくシミュレーションに対して, 厳密な解析解から非マルコフ性に対するスピンダイナミクスと測度を比較した。 RC法は強系バス結合および構造浴における非マルコフ効果を定量的に捉えることができる。 これは、システムの一部を構成する集合RC浴モードがシステムバス相関を維持しているという事実により合理的である。 最後に, RC法を適用し, 非マルコフ系におけるスピンボソンモデルについて検討する。

The reaction coordinate (RC) technique is emerging as a significant tool in the study of quantum dissipative dynamics and quantum thermodynamics. With the objective to further establish this tool, here we explore to what extent the method can capture non-Markovian dynamics of open quantum systems. As a case study, we focus on the pure decoherence model of a spin coupled to a harmonic reservoir. We compare the spin dynamics and measures for non-Markovianity from the exact analytical solution to simulations based on the RC method at the level of a second order quantum master equation. We find that the RC method can quantitatively capture non-Markovian effects at strong system-bath coupling and for structured baths. This is rationalized by the fact that the collective RC bath mode, which is made part of the system, maintains system-bath correlations. Lastly, we apply our RC method and study the spin-boson model in the non-Markovian regime.
翻訳日:2023-03-12 08:24:43 公開日:2021-11-10
# 変分量子固有解法上の反復量子位相推定による強相関効果のディジタル量子シミュレーション:円上の$\mathrm{h_4}$を事例として

Digital quantum simulation of strong correlation effects with iterative quantum phase estimation over the variational quantum eigensolver algorithm: $\mathrm{H_4}$ on a circle as a case study ( http://arxiv.org/abs/2110.02864v2 )

ライセンス: Link先を確認
Dipanjali Halder, Srinivasa Prasannaa V., Valay Agarawal, Rahul Maitra(参考訳) 反復的量子位相推定アルゴリズムは、量子化学系の基底状態エネルギーを計算するのに応用され、弱く強い相関関係を持つレジームを処理できるという広い範囲で理論的に魅力的である。 しかし、アルゴリズムへの入力として送られた初期状態の良さは、得られた結果の品質を強く決定することができる。 本研究では,ユニタリ結合型クラスタ ansatz を用いた古典量子量子変分量子固有解法を用いて初期状態を生成する。 本手法は, 異なる測地線における静的相関効果だけでなく, 動的相互作用を示すため, 円上のh4分子の基底状態エネルギーを得るための手法である。 さらに、参照行列式の構築における静的相関の重要性を議論し、最小パラメータ化されたユニタリ結合クラスタ ansatz を提案し、波動関数に静的相関効果を取り入れながら変動パラメータの数を劇的に削減する。 また, 固有位相推定におけるサンプリングによるノイズの影響を, 注意深く適切に設定した初期状態が大幅に低減できることを実証する。

The iterative quantum phase estimation algorithm, applied to calculating the ground state energies of quantum chemical systems, is theoretically appealing in its wide scope of being able to handle both weakly and strongly correlated regimes. However, the goodness of the initial state that is sent as an input to the algorithm could strongly decide the quality of the results obtained. In this work, we generate the initial state by using the classical-quantum hybrid variational quantum eigensolver algorithm with unitary coupled cluster ansatz. We apply the procedure to obtain the ground state energies of the H4 molecule on a circle, as the system exhibits an interplay of dynamic as well as static correlation effects at different geometries. Furthermore, we argue on the importance of static correlation in construction of the reference determinant, and propose a minimally parametrized unitary coupled cluster ansatz, which drastically reduces number of variational parameters while incorporating the static correlation effects in the wavefunction. We demonstrate that a carefully and appropriately prepared initial state can greatly reduce the effects of noise due to sampling in the estimation of the desired eigenphase.
翻訳日:2023-03-12 08:10:47 公開日:2021-11-10
# 偏極可観測および微分ジョーンズ行列代数のインターフェロメトリ弱値

Interferometric weak value of polarization observable and differential Jones matrix algebra ( http://arxiv.org/abs/2111.01642v2 )

ライセンス: Link先を確認
Niladri Modak, Sayantan Das, Priyanuj Bordoloi, Nirmalya Ghosh(参考訳) 弱偏光異方性効果の定量化は、偏光論とメトロロジーの観点からの実用的関心事である。 最近 physで A 103, 053518, 我々は光干渉計によるポストセレクト量子弱測定の古典的なアナログを実験的に証明し、全ての弱偏光異方性効果を個別に増幅した。 本稿では、偏光異方性効果を同時に提示するための干渉計フレームワークの拡張を提案する。 さらに、微分ジョーンズ行列アプローチと現在のスキームとの明確な対応を示す。 提案手法は, 特性ストークスベクトル要素による微分ジョーンズ行列の測定を可能にする。 提案手法は,非偏光異方性媒質のディファレンシャル・ジョーンズ行列を微量の同時多重偏光効果で検出するための新しい偏光計のクラスに導かれる。

The quantification of simultaneously present weak polarization anisotropy effects are of practical interest from polarimetric and metrological perspective. Recently, in Phys. Rev. A 103, 053518, we experimentally demonstrated a classical analog of post-selected quantum weak measurement through optical interferometry to amplify all possible weak polarization anisotropy effects individually. Here, we propose an extension of this interferometric framework to quantify simultaneously present polarization anisotropy effects. Moreover, a clear correspondence of differential Jones matrix approach with the present scheme is indicated. The proposed scheme enables the measurement of differential Jones matrices through characteristic Stokes vector elements. Our proposal leads to a new class of polarimeter for experimental detection of differential Jones matrix of non-depolarizing anisotropic medium exhibiting simultaneous multiple polarimetric effects of tiny magnitude.
翻訳日:2023-03-09 08:49:07 公開日:2021-11-10
# 量子支援型歪みなし音声信号センサ

Quantum-assisted Distortion-free audio signal sensing ( http://arxiv.org/abs/2111.04100v2 )

ライセンス: Link先を確認
Chen Zhang, Durga Dasari, Matthias Widmann, Jonas Meinel, Vadim Vorobyov, Polina Kapitanova, Elizaveta Nenasheva, Kazuo Nakamura, Hitoshi Sumiya, Shinobu Onoda, Junichi Isoya, J\"org Wrachtrup(参考訳) 量子センサーは、メトロロジーにおける最先端の感度を維持している。 しかし、任意の信号の高感度測定では、線形ダイナミックレンジの制限は未知信号の周波数、大きさ、位相を感知する際に歪みをもたらす可能性がある。 ここでは,量子位相検出とヘテロダイン読み出しを組み合わせた高度なセンシングプロトコルによって,これらの限界を克服する。 本研究では, ダイヤモンド中の窒素空孔中心を用いた理論的, 実験的研究を行い, 98dB線動域, 31pT/Hz$^{1/2}の感度, 任意の周波数分解能を有する電波信号を検出できることを示した。 さらに、量子アシスト型歪みのない音声信号(メロディ、音声)を高忠実度で検出する。 ここで開発された手法は、小型のセンシングボリューム内の複数の周波数帯域で高忠実で低歪みの電子通信への応用に向けて、量子センサの地平を広げることができる。

Quantum sensors are keeping the cutting-edge sensitivities in metrology. However, for high-sensitive measurements of arbitrary signals, limitations in linear dynamic range could introduce distortions when sensing the frequency, magnitude and phase of unknown signals. Here, we overcome these limitations with advanced sensing protocol that combines quantum phase-sensitive detection with heterodyne readout. We present theoretical and experimental investigations using nitrogen-vacancy centers in diamond, showing the ability to sense radio signals with a 98 dB linear dynamic range, a 31 pT/Hz$^{1/2}$ sensitivity, and arbitrary frequency resolution. Further, we perform the quantum-assisted distortion-free audio signal (melody, speech) sensing with high fidelity. The methods developed here could broaden the horizon for quantum sensors towards applications in telecommunication, where high-fidelity and low-distortion at multiple frequency bands within small sensing volumes are required.
翻訳日:2023-03-08 22:22:43 公開日:2021-11-10
# 極小ポート型テレポーテーション

Minimal Port-based Teleportation ( http://arxiv.org/abs/2111.05499v1 )

ライセンス: Link先を確認
Sergii Strelchuk, Micha{\l} Studzi\'nski(参考訳) ポートベースのテレポーテーション(PBT)プロトコルには2つの種類がある: 決定論的(Deterministic) - 状態が常に受信機に到着するが、不完全な送信と確率的(probabilistic) - 状態が高い確率で受信機に到達する場合。 p_{succ}=1-\frac{n+2}{2^{n+1}}$とfidelity $1-o(\frac{1}{n})$と$n$maxally entangled状態からなるリソース状態とをテレポートする。 このプロトコルは決定性または確率性のあるPBTプロトコルから再現できない。 我々は、より少ない最大エンタングル状態でより古典的なビットを送信する、対応する効率的なスーパーデンス符号化プロトコルを定義する。 さらに,異なるPBTプロトコルの比較と変換を行う厳密な手法を提案する。

There are two types of port-based teleportation (PBT) protocols: deterministic -- when the state always arrives to the receiver but is imperfectly transmitted and probabilistic -- when the state reaches the receiver intact with high probability. We introduce the minimal set of requirements that define a feasible PBT protocol and construct a simple PBT protocol that satisfies these requirements: it teleports an unknown state of a qubit with success probability $p_{succ}=1-\frac{N+2}{2^{N+1}}$ and fidelity $1-O(\frac{1}{N})$ with the resource state consisting of $N$ maximally entangled states. This protocol is not reducible from either the deterministic or probabilistic PBT protocol. We define the corresponding efficient superdense coding protocols which transmit more classical bits with fewer maximally entangled states. Furthermore, we introduce rigorous methods for comparing and converting between different PBT protocols.
翻訳日:2023-03-08 12:25:48 公開日:2021-11-10
# slocc操作による4量子ビット状態とそのスタビリザの分類

Classification of four qubit states and their stabilisers under SLOCC operations ( http://arxiv.org/abs/2111.05488v1 )

ライセンス: Link先を確認
Heiko Dietrich, Willem A. de Graaf, Alessio Marrani and Marcos Origlia(参考訳) SLOCC 演算の下では 4 つのキュービット状態、すなわち、ヒルベルト空間 $\mathcal{H}_4 = (\mathbb{C}^2)^{\otimes 4} 上の群 $\mathrm {\mathop{SL}}(2,\mathbb{C})^4$ の軌道を分類する。 我々は、この表現を極大階数の対称空間として実現することで分類にアプローチする。 まず、そのような空間の軌道を分類する一般的な方法を説明する。 次に、これらの手法を特別な場合の軌道を得るために適用し、その結果、$\mathcal{H}_4$ 上の $\mathrm {\mathop{SL}}(2,\mathbb{C})^4$-orbits の完全かつ無矛盾な分類となる。 これは、$(\mathbb{c}^2)^{\otimes 4}$ の元が、正確に87個の要素からなる元と共役であることが従う。 これらのクラスはそれぞれ1つの要素またはパラメトリッシュされた要素の族で構成され、同じクラスの要素はすべて、$\mathrm{\mathop{sl}}(2,\mathbb{c})^4$ で等しいスタビリザーを持つ。 さらに、${\rm Sym}_4\ltimes\mathrm {\mathop{SL}}(2,\mathbb{C})^4$ ここで、${\rm Sym}_4$は$(\mathbb{C}^2)^{\otimes 4}$の4つのテンソル因子を置換する。

We classify four qubit states under SLOCC operations, that is, we classify the orbits of the group $\mathrm{\mathop{SL}}(2,\mathbb{C})^4$ on the Hilbert space $\mathcal{H}_4 = (\mathbb{C}^2)^{\otimes 4}$. We approach the classification by realising this representation as a symmetric space of maximal rank. We first describe general methods for classifying the orbits of such a space. We then apply these methods to obtain the orbits in our special case, resulting in a complete and irredundant classification of $\mathrm{\mathop{SL}}(2,\mathbb{C})^4$-orbits on $\mathcal{H}_4$. It follows that an element of $(\mathbb{C}^2)^{\otimes 4}$ is conjugate to an element of precisely 87 classes of elements. Each of these classes either consists of one element or of a parametrised family of elements, and the elements in the same class all have equal stabiliser in $\mathrm{\mathop{SL}}(2,\mathbb{C})^4$. We also present a complete and irredundant classification of elements and stabilisers up to the action of ${\rm Sym}_4\ltimes\mathrm{\mathop{SL}}(2,\mathbb{C})^4$ where ${\rm Sym}_4$ permutes the four tensor factors of $(\mathbb{C}^2)^{\otimes 4}$.
翻訳日:2023-03-08 12:25:29 公開日:2021-11-10
# ダイヤモンド中の窒素空孔中心に基づくSARS-CoV-2量子センサ

SARS-CoV-2 quantum sensor based on nitrogen-vacancy centers in diamond ( http://arxiv.org/abs/2111.05472v1 )

ライセンス: Link先を確認
Changhao Li, Rouhollah Soleyman, Mohammad Kohandel and Paola Cappellaro(参考訳) 感染性の高いSARS-CoV-2を標的とした高感度で迅速なバイオセンシングツールの開発は、新型コロナウイルスのパンデミックに対処するために重要である。 量子センサーは、近年の感度向上と高速改善により、重要な役割を果たすことができる。 本稿では, ナノダイアモンド中の窒素空孔(NV)中心に対する分子トランスデューサを提案し, SARS-CoV-2 RNAの存在を光学的に読み取れる不明瞭な磁気ノイズ信号に変換する。 本研究では,その感度と偽陰性率を含むハイブリッドセンサの性能を評価し,広範な診断法と比較した。 提案手法は高速で、数百のRNAコピーの感度を1%未満の偽陰性率で達成することを約束する。 提案したハイブリッドセンサーは、異なる固体欠陥と基質でさらに実装することができ、他のRNAウイルスを診断するために一般化され、CRISPR技術と統合される。

The development of highly sensitive and rapid biosensing tools targeted to the highly contagious virus SARS-CoV-2 is critical to tackling the COVID-19 pandemic. Quantum sensors can play an important role, thanks to their superior sensitivity and fast improvements in recent years. Here we propose a molecular transducer designed for nitrogen-vacancy (NV) centers in nanodiamonds, translating the presence of SARS-CoV-2 RNA into an unambiguous magnetic noise signal that can be optically read out. We evaluate the performance of the hybrid sensor, including its sensitivity and false negative rate, and compare it to widespread diagnostic methods. The proposed method is fast and promises to reach a sensitivity down to a few hundreds of RNA copies with false negative rate less than 1%. The proposed hybrid sensor can be further implemented with different solid-state defects and substrates, generalized to diagnose other RNA viruses, and integrated with CRISPR technology.
翻訳日:2023-03-08 12:24:56 公開日:2021-11-10
# 反射型断熱製剤

Reflection-Based Adiabatic State Preparation ( http://arxiv.org/abs/2111.05461v1 )

ライセンス: Link先を確認
Jessica Lemieux, Artur Scherer and Pooya Ronagh(参考訳) 本稿では,Groverの探索と断熱量子計算の概念を組み合わせた固有パストラバースの回路モデル量子アルゴリズムを提案する。 本アルゴリズムは,対象問題であるハミルトンの基底状態を作成するために,アディアバティックスケジュールに沿って定義された瞬時ハミルトニアンの固有空間から決定される反射列をデプロイする。 組合せ探索問題に対して,我々のアルゴリズムはGroverの探索よりも高速に解を見つけることができることを示す数値的なエビデンスを提供する。 NP-hard MAX-2SAT問題の解法に両アルゴリズムを適用した。

We propose a circuit-model quantum algorithm for eigenpath traversal that is based on a combination of concepts from Grover's search and adiabatic quantum computation. Our algorithm deploys a sequence of reflections determined from eigenspaces of instantaneous Hamiltonians defined along an adiabatic schedule in order to prepare a ground state of a target problem Hamiltonian. We provide numerical evidence suggesting that, for combinatorial search problems, our algorithm can find a solution faster, on average, than Grover's search. We demonstrate our findings by applying both algorithms to solving the NP-hard MAX-2SAT problem.
翻訳日:2023-03-08 12:24:42 公開日:2021-11-10
# ボソニックおよびフェルミイオン誘起アンサンブルの絡み合い基準

Entanglement criteria for the bosonic and fermionic induced ensembles ( http://arxiv.org/abs/2111.05638v1 )

ライセンス: Link先を確認
Stephane Dartois, Ion Nechita and Adrian Tanasa(参考訳) 密度行列のボソニックおよびフェルミオンアンサンブルを導入し,その絡みについて検討する。 フェルミオンの場合、ランダムな二成分のフェルミオン密度行列は非正の部分転位を持つので、通常は絡み合っている。 ボソニックケースの同様の分析は、大きな正の外れ値を持つ固有値のため、より繊細である。 ランダムな二成分ボソニック密度行列がppt基準を満たさないような環境の大きさとシステムヒルベルト空間の大きさの漸近比を計算する。 また,テンソル対称確率行列のモーメント計算を,有向グラフに対する回路カウントとインターレースグラフ多項式の評価に関連付けた。

We introduce the bosonic and fermionic ensembles of density matrices and study their entanglement. In the fermionic case, we show that random bipartite fermionic density matrices have non-positive partial transposition, hence they are typically entangled. The similar analysis in the bosonic case is more delicate, due to a large positive outlier eigenvalue. We compute the asymptotic ratio between the size of the environment and the size of the system Hilbert space for which random bipartite bosonic density matrices fail the PPT criterion, being thus entangled. We also relate moment computations for tensor-symmetric random matrices to evaluations of the circuit-counting and interlace graph polynomials for directed graphs.
翻訳日:2023-03-08 12:18:31 公開日:2021-11-10
# 超伝導マルチ共振器量子メモリを用いたマイクロ波光子のオンデマンド保存と検索

On-Demand Storage and Retrieval of Microwave Photons Using a Superconducting Multiresonator Quantum Memory ( http://arxiv.org/abs/2111.05597v1 )

ライセンス: Link先を確認
Zenghui Bao, Zhiling Wang, Yukai Wu, Yan Li, Cheng Ma, Yipu Song, Hongyi Zhang, Luming Duan(参考訳) 量子状態を忠実に保存し、要求に応じて取り出す量子メモリは、量子情報科学に広く応用されている。 超伝導量子回路に基づく量子プロセッサと共に動作するマイクロ波系における効率的な量子メモリは、量子コンピュータの重要なアーキテクチャとして機能する。 ここでは,単一光子レベルでのコヒーレントなマイクロ波フォトンパルスのオンデマンド蓄積と回収を実現する。 我々は、周波数可変コプラナー伝送線路(CPW)共振器からなる超伝導多共振器量子メモリを実装した。 共振器の共振周波数を動的に調整することにより、10MHzから55MHzまでの可変メモリ帯域幅を実現し、保存効率は12%まで向上し、位相コヒーレンスも良好である。 我々はさらに,時間単位の飛行キュービットのオンデマンドストレージと検索を実証する。 この結果は、我々のチップベースの量子メモリを量子情報処理のための最先端の超伝導量子回路技術に統合する可能性を開く。

A quantum memory that can store quantum states faithfully and retrieve them on demand has wide applications in quantum information science. An efficient quantum memory in the microwave regime working alongside quantum processors based on superconducting quantum circuits may serve as an important architecture for quantum computers. Here we realize on-demand storage and retrieval of weak coherent microwave photon pulses at the single-photon level. We implement a superconducting multi-resonator quantum memory which is composed of a set of frequency-tunable coplanar transmission line (CPW) resonators. By dynamically tuning the resonant frequencies of the resonators, we achieve tunable memory bandwidth from 10 MHz to 55 MHz, with an overall storage efficiency up to 12 % with well preserved phase coherence. We further demonstrate on-demand storage and retrieval of a time-bin flying qubit. This result opens up a prospect to integrate our chip-based quantum memory with the state-of-the-art superconducting quantum circuit technology for quantum information processing.
翻訳日:2023-03-08 12:18:12 公開日:2021-11-10
# 2次元ヒルベルト空間における量子状態のマスキング条件

The masking condition for quantum state in two-dimensional Hilbert space ( http://arxiv.org/abs/2111.05574v1 )

ライセンス: Link先を確認
Mei-Yi Wang (1), Su-Juan Zhang (1), Chen-Ming Bai (1), Lu Liu (1) ((1) Department of Mathematics and Physics, Shijiazhuang Tiedao University, Shijiazhuang, China)(参考訳) 本稿では2次元ヒルベルト空間における量子状態の量子情報マスキングについて述べる。 本稿では,量子情報マスキングの条件として方程式システムを提案する。 量子状態の係数が与えられた方程式系を満たす場合に限り、単一の量子ビット状態に含まれる量子情報をマスキングできることが示されている。 非直交マスク可能な量子状態の特性を観察することにより、関連する結論を得る。すなわち、2つの非直交2量子ビット量子状態が1つの量子ビット状態を隠すことができれば、それらは同じ数の項と同じ基底を持つ。 最後に、マスク可能な直交量子状態について、2つの特別な例を分析し、それらの画像に直感的な記述を与える。

This paper focuses on quantum information masking for quantum state in two-dimensional Hilbert space. We present a system of equations as the condition of quantum information masking. It is shown that quantum information contained in a single qubit state can be masked, if and only if the coefficients of quantum state satisfy the given system of equations. By observing the characteristics of non-orthogonal maskable quantum states, we obtain a related conclusion, namely, if two non-orthogonal two-qubit quantum states can mask a single qubit state, they have the same number of terms and the same basis. Finally, for maskable orthogonal quantum states, we analyze two special examples and give their images for an intuitive description.
翻訳日:2023-03-08 12:17:20 公開日:2021-11-10
# VeSoNet:経路計画と深層強化学習に基づく車載ソーシャルネットワークのトラフィック対応コンテンツキャッシング

VeSoNet: Traffic-Aware Content Caching for Vehicular Social Networks based on Path Planning and Deep Reinforcement Learning ( http://arxiv.org/abs/2111.05567v1 )

ライセンス: Link先を確認
Nyothiri Aung, Sahraoui Dhelim, Liming Chen, Wenyin Zhang, Abderrahmane Lakas and Huansheng Ning(参考訳) 車両ソーシャルネットワーク(Vehicular social networking)は、車両ネットワークとソーシャルネットワークのシームレスな統合の実現を目的とした、有望なIoT(Internet of Vehicles)の新興アプリケーションである。 しかし,高モビリティや頻繁な通信中断といった車両ネットワークの特徴は,厳密な遅延制約下でのコンテンツ配信を極めて困難な課題にしている。 本稿では,ネットワーク内の車両のいくつかをエッジサーバとして使用し,人気コンテンツをエンドユーザに保存・ストリームすることで,コンテンツ配信問題を解決するソーシャルアウェアなエッジコンピューティングアーキテクチャを提案する。 提案されたアーキテクチャには3つのコンポーネントがある。 まず、最も関連性の高い車両コンテンツ提供者による最短経路を計算・割り当てするソーシャル・アウェア・グラフ・プルーニング検索アルゴリズムを提案する。 第2に、トラフィック対応コンテンツレコメンデーションスキームを用いて、その社会的文脈に応じて関連コンテンツを推薦する。 この方式では、車両を低次元ベクトル(vehicle2vec)の集合で表現したグラフ埋め込みを用いて、以前に消費されたコンテンツに関する情報を保存する。 最後に,ネットワーク全体にわたるコンテンツ提供者車両の分布を最適化するDeep Reinforcement Learning (DRL)手法を提案する。 実時間トラヒックシミュレーションの結果,最先端のベースラインと比較し,提案システムの有効性と頑健性を示した。

Vehicular social networking is an emerging application of the promising Internet of Vehicles (IoV) which aims to achieve the seamless integration of vehicular networks and social networks. However, the unique characteristics of vehicular networks such as high mobility and frequent communication interruptions make content delivery to end-users under strict delay constrains an extremely challenging task. In this paper, we propose a social-aware vehicular edge computing architecture that solves the content delivery problem by using some of the vehicles in the network as edge servers that can store and stream popular content to close-by end-users. The proposed architecture includes three components. First, we propose a social-aware graph pruning search algorithm that computes and assigns the vehicles to the shortest path with the most relevant vehicular content providers. Secondly, we use a traffic-aware content recommendation scheme to recommend relevant content according to their social context. This scheme uses graph embeddings in which the vehicles are represented by a set of low-dimension vectors (vehicle2vec) to store information about previously consumed content. Finally, we propose a Deep Reinforcement Learning (DRL) method to optimize the content provider vehicles distribution across the network. The results obtained from a realistic traffic simulation show the effectiveness and robustness of the proposed system when compared to the state-of-the-art baselines.
翻訳日:2023-03-08 12:17:08 公開日:2021-11-10
# 位相キュービットチェーンを介する任意の絡み合った状態伝達

Arbitrary entangled state transfer via a topological qubit chain ( http://arxiv.org/abs/2111.05561v1 )

ライセンス: Link先を確認
Chong Wang, Linhu Li, Jiangbin Gong and Yu-xi Liu(参考訳) 量子状態転送は、量子情報処理における基本的なタスクの1つである。 本稿では,拡張 su-schrieffer-heeger モデルのクラスであり,バルク状態から分離した複数の位相的エッジ状態に対応する qubit チェーンによる任意の絡み合った状態伝達を実現するための理論的アプローチを提案する。 任意のエンタングル状態($$-qubitから$\mathcal{n}$-qubit)を対応するエッジステートにエンコードし、チェーンの一方の端からもう一方端にアダイアバティックに転送できることを示す。 進化時間を適切に選択することにより、異なるエッジ状態の時間進化から生じる動的位相差を排除できる。 我々のアプローチは、qubit-qubit結合障害と進化時間障害の両方に対して堅牢である。 議論の具体性については, 実験可能な超伝導量子ビット系によって構築されていると仮定し, 提案手法は他のシステムにも適用可能である。

Quantum state transfer is one of the basic tasks in quantum information processing. We here propose a theoretical approach to realize arbitrary entangled state transfer through a qubit chain, which is a class of extended Su-Schrieffer-Heeger models and accommodates multiple topological edge states separated from the bulk states. We show that an arbitrary entangled state, from $2$-qubit to $\mathcal{N}$-qubit, can be encoded in the corresponding edge states, and then adiabatically transferred from one end to the other of the chain. The dynamical phase differences resulting from the time evolutions of different edge states can be eliminated by properly choosing evolution time. Our approach is robust against both the qubit-qubit coupling disorder and the evolution time disorder. For the concreteness of discussions, we assume that such a chain is constructed by an experimentally feasible superconducting qubit system, meanwhile, our proposal can also be applied to other systems.
翻訳日:2023-03-08 12:16:44 公開日:2021-11-10
# sars-cov-2伝送シミュレーションのための確率グラフモデル

A Stochastic Graph-based Model for the Simulation of SARS-CoV-2 Transmission ( http://arxiv.org/abs/2111.05802v1 )

ライセンス: Link先を確認
Christos Chondros, Stavros D. Nikolopoulos, Iosif Polenakis(参考訳) 本研究では,SARS-CoV-2伝送シミュレーションのための確率グラフモデルの設計原理を提案する。 提案手法は,sars-cov-2の拡散によって表される特性の研究のための現実的な環境を構築するために,空間モデル,モビリティモデル,伝播モデルという3つのサブモデルを取り入れたものである。 この空間モデルは、googleマップから取られた実際の都市の画像を、個人の移動のために次に使われる通りの空間配置をキャプチャする無向重み付きグラフに変換する。 モビリティモデルは、最も短い経路アルゴリズムを展開するために基礎となるグラフの重みを利用して、確率的プロセスを用いて市内を移動する個人に特定の経路を割り当てるために開発された確率的エージェントベースのアプローチを実装している。 伝搬モデルでは,SARS-CoV-2の伝達パラメータを考慮した空気感染ウイルスの疫学モデルと物理的物質の両方を実装している。 最後に,これらのサブモデルを統合し,sars-cov-2の伝達による流行動態の研究のための統合フレームワークを導出する。

In this work we propose the design principles of a stochastic graph-based model for the simulation of SARS-CoV-2 transmission. The proposed approach incorporates three sub-models, namely, the spatial model, the mobility model, and the propagation model, in order to develop a realistic environment for the study of the properties exhibited by the spread of SARS-CoV-2. The spatial model converts images of real cities taken from Google Maps into undirected weighted graphs that capture the spatial arrangement of the streets utilized next for the mobility of individuals. The mobility model implements a stochastic agent-based approach, developed in order to assign specific routes to individuals moving in the city, through the use of stochastic processes, utilizing the weights of the underlying graph to deploy shortest path algorithms. The propagation model implements both the epidemiological model and the physical substance of the transmission of an airborne virus considering the transmission parameters of SARS-CoV-2. Finally, we integrate these sub-models in order to derive an integrated framework for the study of the epidemic dynamics exhibited through the transmission of SARS-CoV-2.
翻訳日:2023-03-08 12:10:20 公開日:2021-11-10
# 反発粒子の確率的及び量子力学:ランダムマトリクス理論から閉じ込められたフェルミオンへ

Stochastic and Quantum Dynamics of Repulsive Particles: from Random Matrix Theory to Trapped Fermions ( http://arxiv.org/abs/2111.05737v1 )

ライセンス: Link先を確認
Tristan Gauti\'e(参考訳) この統計物理学論文は、ランダム行列の固有値、非交差ランダムウォーク、閉じ込められたフェルミオンの3種類の相互作用を示すシステムの研究に焦点を当てている。 これらのシステムは多数のリンクを共有しており、静的バージョンのレベルだけでなく、動的バージョンのレベルでも表示することができる。 本稿では,確率行列論と確率解析のツールと量子力学のツールを用いて,これらのシステムの組合せ解析を行い,その解法について述べる。 さらに、フィールドの詳細なプレゼンテーションと博士課程で得られた結果の報告から、論文の章で明らかになった異なるテーマは、関連する問題についての視点を与えることができる。 このように、第1章はランダム行列理論の紹介であり、その歴史的進化と多くの応用を詳述し、その基本的な概念、構成、結果を示す。 第2章では,非交差的ランダムウォークについて論じる。我々は,それらが共有する深いリンクをランダム行列固有値プロセスで記述し,境界問題の範囲で得られた結果を提示する。 確率行列過程に着目した第3章では、特にケステンランダム再帰に触発された過程を紹介し、逆ウィッシュアートアンサンブルとモースポテンシャルに閉じ込められたフェルミオンとの間の新たなリンクを強調する。 最後に,第4章は,橋梁の特定の場合を中心に,スカラーモデルと行列モデルの合同処理を可能にし,非交差スカラーブリッジに対するフェラーリ-スポン問題の一般化を開発し,開放として,無作為行列の他の側面との接続を示す。

This statistical physics thesis focuses on the study of three kinds of systems which display repulsive interactions: eigenvalues of random matrices, non-crossing random walks and trapped fermions. These systems share many links, which can be exhibited not only at the level of their static version, but also at the level of their dynamical version. We present a combined analysis of these systems, employing tools of random matrix theory and stochastic calculus as well as tools of quantum mechanics, in order to solve some original problems. Further from the detailed presentation of the field and the report of the results obtained during the PhD, the different themes exposed in the chapters of the thesis allow for perspectives on related issues. As such, the first chapter is an introduction to random matrix theory; we detail its historical evolution and numerous applications, and present its essential concepts, constructions and results. The second chapter discusses non-crossing random walks; we describe the deep links they share with random matrix eigenvalue processes and showcase the results obtained in the scope of boundary problems. In the third chapter, which focuses on stochastic matrix processes, we introduce in particular a process inspired from the Kesten random recursion, and highlight the new link it allows to draw between the inverse-Wishart ensemble and fermions trapped in the Morse potential. Lastly, the fourth chapter, centred on the particular case of bridge processes, allows for a joint treatment of scalar and matrix models; therein, we develop a generalization of the Ferrari-Spohn problem for non-crossing scalar bridges and, as an opening, we exhibit the connections of matrix bridges with other aspects of random matrices.
翻訳日:2023-03-08 12:09:24 公開日:2021-11-10
# 量子キックロータにおける時間反転不変性の破れの促進

Enhancement in Breaking of Time-reversal Invariance in the Quantum Kicked Rotor ( http://arxiv.org/abs/2111.05706v1 )

ライセンス: Link先を確認
Ramgopal Agrawal, Akhilesh Pandey, and Sanjay Puri(参考訳) Izrailevの有限次元モデルを用いて,量子キックロータ(QKR)の磁場印加による時間反転不変性(TRI)の破壊について検討した。 qkrのスペクトルゆらぎと固有ベクトルゆらぎには、triから時反転非不変性(trni)への連続的なクロスオーバーが存在する。 この TRI $\rightarrow$ TRNI 遷移の性質は $\alpha^2/N$ に依存し、$\alpha$ は QKR のカオスパラメータであり、$N$ は進化作用素行列の次元である。 alpha^2/n \gtrsim n$ の場合、遷移はランダム行列論のそれと一致する。 $\alpha^2/N < N$ の場合、遷移はランダム行列理論からの顕著な偏差を示す。 さらに、磁場の関数としてのこの遷移速度は、$\alpha^2/N$が減少するにつれて著しく向上する。

We study the breaking of time-reversal invariance (TRI) by the application of a magnetic field in the quantum kicked rotor (QKR), using Izrailev's finite-dimensional model. There is a continuous crossover from TRI to time-reversal non-invariance (TRNI) in the spectral and eigenvector fluctuations of the QKR. We show that the properties of this TRI $\rightarrow$ TRNI transition depend on $\alpha^2/N$, where $\alpha$ is the chaos parameter of the QKR and $N$ is the dimensionality of the evolution operator matrix. For $\alpha^2/N \gtrsim N$, the transition coincides with that in random matrix theory. For $\alpha^2/N < N$, the transition shows a marked deviation from random matrix theory. Further, the speed of this transition as a function of the magnetic field is significantly enhanced as $\alpha^2/N$ decreases.
翻訳日:2023-03-08 12:08:53 公開日:2021-11-10
# 2成分の絡み合いを引き起こす四元写像

A Quaternionic Map Causing Bipartite Entanglement ( http://arxiv.org/abs/2111.05640v1 )

ライセンス: Link先を確認
Lidia Obojska(参考訳) 以下の原稿では、1つの量子状態が2成分の絡み合いに変換される四元写像を提案する。 今までそのような変換は定義されていない。 そのような写像を定義するために、複素四元数の代数の中に1つの粒子状態を埋め込む。 次に、四元数の回転特性に基づいて、粒子状態を記述する四元数と組み合わせて4次元空間で特定の方向に分割する特殊四元数を選択する。 最後に,提案手法がいくつかの制約の下で常に2成分の絡み合いを引き起こすことを証明した。

In the following manuscript we propose a quaternionic map which transforms a single quantum state into a bipartite entanglement. Until now such a transformation has not been defined yet. To define such a map, we embed one particle state within the algebra of complex quaternions. Next, on the basis of rotational features of quaternions, we choose a special quaternion which in combination with a quaternion describing a particle state, causes its splitting in a specified direction in 4D space. Finally, we prove that the proposed operation, under several restrictions, always causes bipartite entanglement.
翻訳日:2023-03-08 12:07:12 公開日:2021-11-10
# 非線形PTPチャネルを用いた高速量子状態判別

Fast quantum state discrimination with nonlinear PTP channels ( http://arxiv.org/abs/2111.05977v1 )

ライセンス: Link先を確認
Michael R. Geller(参考訳) 決定論的正のトレース保存(PTP)チャネルと関連するマスター方程式に基づく非線形量子計算のモデルについて検討する。 モデルは任意の有限ヒルベルト空間で定義されるが、主な結果は次元$N = 2$である。 有界線型作用素 $X$ 上のすべての正規化可能線型あるいは非線形正写像 $\phi$ に対して、関連する正規化 PTP チャネル $ \phi(X) / {\rm tr}[\phi(X)]$ が存在する。 正規化されたPTPチャネルは、相互作用するボソンに対するグロス=ピタエフスキー方程式のようなユニタリ平均場理論や、線形および非線形散逸のモデルを含む。 それらは4つのタイプに分類され、計算力を探索する3種類の非線形性をもたらす。 クビットの場合、これらのチャネルは以前に研究されたブロッホ球のねじれやその他の歪みをサポートし、そのような非線形性は1対のクビット状態の分離を増大させ、状態判別の指数的なスピードアップをもたらすことが示されている。 この考え方に基づき、この操作は、一対の安定不動点が不規則にフォールトトレラントな非線形状態判別器を生成する位相に分岐を誘導するために散逸を用いることにより、雑音に対して頑健にすることができると主張する。

We investigate models of nonlinear quantum computation based on deterministic positive trace-preserving (PTP) channels and associated master equations. The models are defined in any finite Hilbert space, but the main results are for dimension $N = 2$. For every normalizable linear or nonlinear positive map $\phi$ on bounded linear operators $X$, there is an associated normalized PTP channel $ \phi(X) / {\rm tr}[\phi(X)]$. Normalized PTP channels include unitary mean field theories, such as the Gross-Pitaevskii equation for interacting bosons, as well as models of linear and nonlinear dissipation. They classify into 4 types, yielding 3 distinct forms of nonlinearity whose computational power we explore. In the qubit case these channels support Bloch ball torsion and other distortions studied previously, where it has been shown that such nonlinearity can be used to increase the separation between a pair of close qubit states, resulting in an exponential speedup for state discrimination. Building on this idea, we argue that this operation can be made robust to noise by using dissipation to induce a bifurcation to a phase where a pair of stable fixed points create an intrinisically fault-tolerant nonlinear state discriminator.
翻訳日:2023-03-08 12:01:05 公開日:2021-11-10
# 量子力学における固定点Few-Body Hamiltonian

Fixed-Point Few-Body Hamiltonians in Quantum Mechanics ( http://arxiv.org/abs/2111.05954v1 )

ライセンス: Link先を確認
Lauro Tomio, Tobias Frederico, Varese S. Tim\'oteo, Marcelo T. Yamashita(参考訳) 我々は、核物理学におけるワインバーグの考えが我々の研究にどのように影響し、量子力学の少数体問題における再正規化群不変のフレームワークに導いたかを再考し、短距離相互作用の限界における関連するスケールに関する議論を更新した。 この文脈では、減算散乱方程式の定式化と、元の相互作用がディラックデルタやその微分のような点的特異点を含む、少数体系に適用される固定点ハミルトニアンを改訂する。 このアプローチは特異な相互作用によって記述される2つの核子を考慮することで説明されている。 この改訂には、3体系への再正規化形式の拡張も含まれており、続いて4粒子への適用に関する最新の議論が続いている。

We revisited how Weinberg's ideas in Nuclear Physics influenced our own work and lead to a renormalization group invariant framework within the quantum mechanical few-body problem, and we also update the discussion on the relevant scales in the limit of short-range interactions. In this context, it is revised the formulation of the subtracted scattering equations and fixed-point Hamiltonians applied to few-body systems, in which the original interaction contains point-like singularities, such as Dirac-delta and/or its derivatives. The approach is being illustrated by considering two-nucleons described by singular interactions. This revision also includes an extension of the renormalization formalism to three-body systems, which is followed by an updated discussion on the applications to four particles.
翻訳日:2023-03-08 12:00:38 公開日:2021-11-10
# 分散結合超伝導体における単孔i-Toffoliゲート

Single Shot i-Toffoli Gate in Dispersively Coupled Superconducting Qubits ( http://arxiv.org/abs/2111.05938v1 )

ライセンス: Link先を確認
Aneirin J. Baker, Gerhard B. P. Huber, Niklas J. Glaser, Federico Roy, Ivan Tsitsilin, Stefan Filipp and Michael J. Hartmann(参考訳) 量子アルゴリズムは、しばしばマルチキュービット(>2)ゲートを実行する能力の恩恵を受ける。 現在までに、このようなマルチキュービットゲートは、特に超伝導キュービットアーキテクチャにおいて、通常、シングルキュービットゲートと2キュービットゲートに分解される。 単一のステップでマルチキュービット操作を実行する能力は、多くのアルゴリズムの忠実度と実行時間を大幅に改善する可能性がある。 本稿では,既存の超伝導ハードウェアを用いて,i-Toffoliゲートと2つの制御と1つのターゲット量子ビットを持つ3ビットゲートを実行する単一ショット方式を提案する。 98%以上のプロセス忠実度と500nsのゲート時間を持つ超伝導量子ビットがチューナブルカップラを介して相互作用することを示す数値的な証拠を示す。 提案手法は,2つ以上の制御量子ビットを持つゲートを実装するために,直進的に拡張することができる。

Quantum algorithms often benefit from the ability to execute multi-qubit (>2) gates. To date such multi-qubit gates are typically decomposed into single- and two-qubit gates, particularly in superconducting qubit architectures. The ability to perform multi-qubit operations in a single step could vastly improve the fidelity and execution time of many algorithms. Here, we propose a single shot method for executing an i-Toffoli gate, a three-qubit gate gate with two control and one target qubit, using currently existing superconducting hardware. We show numerical evidence for a process fidelity over 98% and a gate time of 500 ns for superconducting qubits interacting via tunable couplers. Our method can straight forwardly be extended to implement gates with more than two control qubits at similar fidelities.
翻訳日:2023-03-08 12:00:10 公開日:2021-11-10
# 量子情報モデルによる動的回折の一般化

Generalizing the Quantum Information Model for Dynamic Diffraction ( http://arxiv.org/abs/2111.05925v1 )

ライセンス: Link先を確認
O. Nahman-L\'evesque, D. Sarenac, D. G. Cory, B. Heacock, M. G. Huber, D. A. Pushin(参考訳) 完全結晶とナノスケールの特徴に頼った新しい中性子光学デバイスの開発は、基礎物理学から新しい量子物質の物質的特性まで、新しい世代の中性子科学実験の原動力となっている。 しかし、完全結晶による中性子の伝播を分析する動的回折(DD)の標準理論は、複雑なジオメトリー、変形、および/または欠陥を考慮していない。 本研究では、一元的量子ゲートの格子を通して粒子を伝播させることに基づくddの量子情報(qi)モデルを拡張する。 また, モデル出力は, 高木-タウピン方程式の球面波解に対して, 適切な極限条件下では数学的に等価であり, モデルがブラッグに拡張可能であること, 実験データと整合するローブラッグ幾何学であることが示されている。 提案する結果は,ddの標準理論の範囲を超えたqiモデルの普遍性と,そのモデリングシナリオの可能性を示すものである。

The development of novel neutron optics devices that rely on perfect crystals and nano-scale features are ushering a new generation of neutron science experiments, from fundamental physics to material characterization of emerging quantum materials. However, the standard theory of dynamical diffraction (DD) that analyzes neutron propagation through perfect crystals does not consider complex geometries, deformations, and/or imperfections which are now becoming a relevant systematic effect in high precision interferometric experiments. In this work, we expand upon a quantum information (QI) model of DD that is based on propagating a particle through a lattice of unitary quantum gates. We show that the model output is mathematically equivalent to the spherical wave solution of the Takagi-Taupin equations when in the appropriate limit, and that the model can be extended to the Bragg as well as the Laue-Bragg geometry where it is consistent with experimental data. The presented results demonstrate the universality of the QI model and its potential for modeling scenarios that are beyond the scope of the standard theory of DD.
翻訳日:2023-03-08 11:59:55 公開日:2021-11-10
# ファジィ球非可換幾何学の自然な証拠:超チャンドラセカール白色小星

Natural evidence for fuzzy sphere noncommutative geometry: super-Chandrasekhar white dwarfs ( http://arxiv.org/abs/2111.05878v1 )

ライセンス: Link先を確認
Surajit Kalita, T. R. Govindarajan and Banibrata Mukhopadhyay(参考訳) 非可換幾何学は量子重力理論の1つであり、様々な研究者が様々な物理系と天体物理学系を記述するために用いている。 しかし、今のところ直接観測ではその存在を正当化することができず、この理論は仮説のままである。 一方、過去20年間に10種類以上の超高光度ia型超新星が観測され、間接的に超チャンドラセカール質量2.1-2.8 \rm\,m_\odot$を持つ白色小星に由来すると予測されている。 本論では、非可換幾何学のクラスである正方形ファジィ球体として白色小星を考えることは、チャンドラセカール質量限界よりも多くの質量を蓄積するのに役立つことを論じる。 非可換性の影響が顕著になる超えの長さスケールは、白色小星の電子間分離にのみ依存する創発的な現象である。

Noncommutative geometry is one of the quantum gravity theories, which various researchers have been using to describe different physical and astrophysical systems. However, so far, no direct observations can justify its existence, and this theory remains a hypothesis. On the other hand, over the past two decades, more than a dozen over-luminous type Ia supernovae have been observed, which indirectly predict that they originate from white dwarfs with super-Chandrasekhar masses $2.1-2.8 \rm\,M_\odot$. In this article, we discuss that considering white dwarfs as squashed fuzzy spheres, a class of noncommutative geometry, helps in accumulating more mass than the Chandrasekhar mass-limit. The length-scale beyond which the effect of noncommutativity becomes prominent is an emergent phenomenon, which depends only on the inter-electron separations in the white dwarf.
翻訳日:2023-03-08 11:59:13 公開日:2021-11-10
# 光拡散磁気媒体における光伝搬とマグノン光子カップリング

Light propagation and magnon-photon coupling in optically dispersive magnetic media ( http://arxiv.org/abs/2111.05851v1 )

ライセンス: Link先を確認
V. A. S. V. Bittencourt and I. Liberal and S. Viola Kusminskiy(参考訳) ハイブリッドシステムにおける光と物質の励起の強い結合は、量子技術の実装のためのベンチマークである。 我々は,磁気光学効果を増強した磁化エプシロン-ニア-ゼロ (enz) 媒体において,マグノンと光の強い単粒子結合を実現することを提案した。 ここでは、縮退モードと非縮退モードの両方の分散媒体におけるマグノン光子結合ハミルトニアンの詳細な導出を行い、ENZ周波数付近での結合の増強を示す。 さらに, 平面波非退化フォイグトモードへのマグノンの結合は, 分散により調整された分極選択規則により, 特定の周波数で消失することを示した。 最後に,ローレンツ分散モデルを用いて具体的な結果を示す。 本研究は,ENZに基づくオポマグノーニクスシステムを記述するための一般的な理論的枠組みとして,分散オポマグノーニクスシステムの設計の道を開くものである。

Achieving strong coupling between light and matter excitations in hybrid systems is a benchmark for the implementation of quantum technologies. We recently proposed [arXiv:2110.02984] that strong single-particle coupling between magnons and light can be realized in a magnetized epsilon-near-zero (ENZ) medium, in which magneto-optical effects are enhanced. Here we present a detailed derivation of the magnon-photon coupling Hamiltonian in dispersive media both for degenerate and non-degenerate optical modes, and show the enhancement of the coupling near the ENZ frequency. Moreover, we show that the coupling of magnons to plane-wave non-degenerate Voigt modes vanishes at specific frequencies due to polarization selection rules tuned by dispersion. Finally, we present specific results using a Lorentz dispersion model. Our results pave the way for the design of dispersive optomagnonic systems, providing a general theoretical framework for describing engineering ENZ-based optomagnonic systems.
翻訳日:2023-03-08 11:58:33 公開日:2021-11-10
# アジャイル情報システム開発組織が大規模コラボレーションに移行

Agile Information System Development Organizations Transforming to Large-Scale Collaboration ( http://arxiv.org/abs/2111.06193v1 )

ライセンス: Link先を確認
Marius Mikalsen, Nils Brede Moe, Sut I Wong, Viktoria Stray(参考訳) 我々は,大規模なアジャイル情報システム開発(ISD)組織による,Covid-19パンデミックの状況下での分散デジタルワークへの突然の転換に関する事例研究の結果を報告する。 知識の創造と共有がどう変わるかを理解しようとしている。 調査結果は、導入されるさまざまな距離、デジタルツールの使用、タスク指向の向上、チーム間のバリエーションを示している。 調査結果を分析するために,大規模コラボレーションとソシビリティの概念を用いる。 大規模コラボレーションは、複数の疎結合なパートナの存在下で、分散知識共有と創造に取り組むための社会技術的視点を提供する。 社会性の概念を用いてデジタルツールに何ができるかを示す。 分散型デジタルプラクティスによってチームがよりタスク指向になると同時に,アジャイル isd 組織における知識共有の重要な問題である sociability の作成と維持には,ディジタルツールを用いた現実的な問題解決において,関係指向のコミュニケーションが必要である,という点について議論する。

We report findings from a case study of a large agile information systems development (ISD) organization`s sudden transformation to distributed, digital work in the context of the Covid-19 pandemic. It seeks to understand how knowledge creation and sharing changes. The findings show various forms of distance being introduced, digital tool usage, increased task orientation, and variations across teams. To analyze the findings, we use the concepts of large-scale collaborations and sociability. Large-scale collaboration offers a socio-technical perspective on tackling distributed knowledge sharing and creation in the presence of multiple, loosely coupled partners using digital tools for collaboration. We show what the digital tools afford using the concept of sociability. We discuss how distributed digital practices make teams more task-oriented and that creating and maintaining sociability, a key issue for knowledge sharing in agile ISD organizations, require relation oriented communication during practical problem solving using digital tools.
翻訳日:2023-03-08 11:49:31 公開日:2021-11-10
# 高等教育におけるデジタル技術の応用と世代zの学習特性

The Application of Digital Technology and the Learning Characteristics of Generation Z in Higher Education ( http://arxiv.org/abs/2111.05991v1 )

ライセンス: Link先を確認
Ali Alruthaya, Thanh-Thuy Nguyen and Sachithra Lokuge(参考訳) ジェネレーションZ(Gen Z)やデジタルネイティブはインターネットのない生活を経験したことがない。 さらに、ソーシャルメディア、スマートモバイル技術、クラウドコンピューティング、インターネットのようなデジタル技術の進歩は、個人が日々の活動を行う方法を変えました。 特にGen Zでは、デジタル技術の使用が日々の日常に欠かせない部分となり、その結果、この規範に挑戦している。 このように、Gen Zは前世代とは異なる独自の学習特性を示す。 この変更は、デジタル技術がGen Zの学習特性と高等教育環境への適用性に与える影響を探求する新たな道を開く。 本稿は,80研究の文献レビューを行い,デジタル技術が高等教育におけるGen Zの学習特性に与える影響を理解するための包括的枠組みを提案する。

The Generation Z (Gen Z), or the digital natives have never experienced a life without the internet. In addition, the advancement of digital technologies such as social media, smart mobile technologies, cloud computing, and the Internet-of-things has transformed how individuals perform their day-to-day activities. Especially for Gen Z, the use of digital technology has become an essential part of their daily routine, as a result, challenging the norm. As such, Gen Z displays unique learning characteristics which are different from previous generations. This change opens new avenues for exploring the impact of digital technology on the learning characteristics of Gen Z and possible applications to the higher education environment. By conducting a literature review of 80 studies, this paper presents a comprehensive framework for understanding the influence of digital technologies on the learning characteristics of Gen Z in higher education.
翻訳日:2023-03-08 11:49:15 公開日:2021-11-10
# 全部手に入れられますか。 ニューラルネットワークの空間的・敵対的ロバスト性のトレードオフについて

Can we have it all? On the Trade-off between Spatial and Adversarial Robustness of Neural Networks ( http://arxiv.org/abs/2002.11318v5 )

ライセンス: Link先を確認
Sandesh Kamath, Amit Deshpande, K V Subrahmanyam, Vineeth N Balasubramanian(参考訳) (Non-) ニューラルネットワークの小さな対向ピクセルの摂動への悪影響や、最近示されているように、ランダムな空間変換(例えば、翻訳、回転)さえも、理論的および経験的理解の両方を包含する。 ランダムな翻訳や回転に対する空間的堅牢性は、通常、同変モデル(例えば、StdCNN、GCNN)とトレーニング強化によって達成される。 本稿では,単純な統計的設定において,空間的・敵対的ロバスト性との定量的トレードオフを実証する。 私たちは経験的にこれを補完します (a)等変モデルの空間的ロバスト性は、漸進的に大きな変換で拡張を訓練することで向上し、その逆ロバスト性は徐々に悪化する。 (b)最先端のロバストモデルが、逆に大きなピクセル方向の摂動で訓練されると、空間的ロバスト性は徐々に低下する。 このトレードオフの中でパレート最適化を実現するために,より難しい摂動(空間的・敵対的)を徐々に訓練し,空間的・敵対的ロバスト性を同時に向上させるカリキュラム学習法を提案する。

(Non-)robustness of neural networks to small, adversarial pixel-wise perturbations, and as more recently shown, to even random spatial transformations (e.g., translations, rotations) entreats both theoretical and empirical understanding. Spatial robustness to random translations and rotations is commonly attained via equivariant models (e.g., StdCNNs, GCNNs) and training augmentation, whereas adversarial robustness is typically achieved by adversarial training. In this paper, we prove a quantitative trade-off between spatial and adversarial robustness in a simple statistical setting. We complement this empirically by showing that: (a) as the spatial robustness of equivariant models improves by training augmentation with progressively larger transformations, their adversarial robustness worsens progressively, and (b) as the state-of-the-art robust models are adversarially trained with progressively larger pixel-wise perturbations, their spatial robustness drops progressively. Towards achieving pareto-optimality in this trade-off, we propose a method based on curriculum learning that trains gradually on more difficult perturbations (both spatial and adversarial) to improve spatial and adversarial robustness simultaneously.
翻訳日:2022-12-28 13:50:51 公開日:2021-11-10
# bittensor:ピアツーピアのインテリジェンス市場

BitTensor: A Peer-to-Peer Intelligence Market ( http://arxiv.org/abs/2003.03917v3 )

ライセンス: Link先を確認
Yuma Rao, Jacob Steeves, Ala Shaabana, Daniel Attevelt, Matthew McAteer(参考訳) 他の商品と同様に、市場はマシンインテリジェンスを効率的に生産するのに役立ちます。 我々は、インターネット上の他のインテリジェンスシステムによって、インテリジェンスが価格設定される市場を提案する。 ピアは、隣人の価値を学ぶニューラルネットワークをトレーニングすることで、お互いをランク付けします。 スコアはデジタル台帳に蓄積され、上位のピアは、ネットワーク内で追加の重みで金銭的に報酬を受ける。 しかし、このようなピアランクの形式は衝突に抵抗せず、機構の精度を損なう可能性がある。 このソリューションは接続ベースの正規化であり、信頼された仲間に指数関数的に報酬を与え、システムは最大50%のネットワーク重みの結束に抵抗する。 その結果、新たにトレーニングされたモデルを継続的に生産し、情報理論の価値を生み出すコントリビュータに支払うインテリジェンス市場が生まれました。

As with other commodities, markets could help us efficiently produce machine intelligence. We propose a market where intelligence is priced by other intelligence systems peer-to-peer across the internet. Peers rank each other by training neural networks which learn the value of their neighbors. Scores accumulate on a digital ledger where high ranking peers are monetarily rewarded with additional weight in the network. However, this form of peer-ranking is not resistant to collusion, which could disrupt the accuracy of the mechanism. The solution is a connectivity-based regularization which exponentially rewards trusted peers, making the system resistant to collusion of up to 50 percent of the network weight. The result is a collectively run intelligence market which continual produces newly trained models and pays contributors who create information theoretic value.
翻訳日:2022-12-25 08:25:31 公開日:2021-11-10
# Comma Selectionは、ローカルオプティマイマでコープを助けるか?

Does Comma Selection Help To Cope With Local Optima ( http://arxiv.org/abs/2004.01274v3 )

ライセンス: Link先を確認
Benjamin Doerr(参考訳) 進化的計算に非エリートムを用いる場合の希望の一つは、現在の最良の解を放棄する能力が局所的なオプティマを離れる助けとなることである。 このメカニズムの理解を深めるために、我々は、局所最適なジャンプ関数を持つ最も基本的なベンチマーク関数の上に、基本的な非エリート進化アルゴリズム(ea)である$(\mu,\lambda)$ eaの厳密なランタイム解析を行う。 パラメータと問題のすべての妥当な値に対して、$(\mu,\lambda)$~EAの期待ランタイムは、少なくともそのエリート主義者が期待するランタイムである$(\mu+\lambda)$~EA(ジャンプ関数で最初のランタイム解析を行い、この比較を可能にする)の少なくとも大小の項を除いては、低次の項であることを示す。 したがって、$(\mu,\lambda)$~EAがローカル最適化を劣ったソリューションに委ねる能力は、実行時の優位性にはならない。 我々は、この下界を、パラメータの広い範囲において、下位次数項とは別個の下界と同一の上限で補う。 これは、低次項と密接な関係にあるマルチモーダル問題に対する非エリートアルゴリズムの最初の実行結果である。

One hope when using non-elitism in evolutionary computation is that the ability to abandon the current-best solution aids leaving local optima. To improve our understanding of this mechanism, we perform a rigorous runtime analysis of a basic non-elitist evolutionary algorithm (EA), the $(\mu,\lambda)$ EA, on the most basic benchmark function with a local optimum, the jump function. We prove that for all reasonable values of the parameters and the problem, the expected runtime of the $(\mu,\lambda)$~EA is, apart from lower order terms, at least as large as the expected runtime of its elitist counterpart, the $(\mu+\lambda)$~EA (for which we conduct the first runtime analysis on jump functions to allow this comparison). Consequently, the ability of the $(\mu,\lambda)$~EA to leave local optima to inferior solutions does not lead to a runtime advantage. We complement this lower bound with an upper bound that, for broad ranges of the parameters, is identical to our lower bound apart from lower order terms. This is the first runtime result for a non-elitist algorithm on a multi-modal problem that is tight apart from lower order terms.
翻訳日:2022-12-17 09:27:03 公開日:2021-11-10
# 人種差別はウイルスだ - 新型コロナウイルス危機下のソーシャルメディアにおける反アジア的憎悪と対抗

Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media during the COVID-19 Crisis ( http://arxiv.org/abs/2005.12423v2 )

ライセンス: Link先を確認
Bing He, Caleb Ziems, Sandeep Soni, Naren Ramakrishnan, Diyi Yang, Srijan Kumar(参考訳) 新型コロナウイルスの感染拡大は、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。 しかし、パンデミックの間に人種的憎悪がいかに広まるか、またこの拡散を緩和する反響の役割についてはほとんど分かっていない。 本研究では,反アジア的ヘイトスピーチの進化と普及をtwitterのレンズを通して研究する。 私たちは、約1億2600万のツイートと1億1700万のノードを持つソーシャルネットワークを含む14ヶ月にわたる、反アジア的憎悪と反音声のデータセットであるCOVID-HATEを作成します。 3,355ツイートの手書きデータセットを作成することで、テキスト分類器を訓練して、平均0.832のマクロf1スコアを達成するヘイトとカウンタースパイチツイートを識別します。 このデータセットを用いて,ツイートとユーザの縦断解析を行う。 ソーシャルネットワークの分析によると、憎悪と反音声のユーザは、孤立した分極化されたコミュニティに住まうのではなく、互いに対話し、広範囲に交流している。 ノードは、憎しみのあるコンテンツに晒された後、憎悪になる可能性が高い。 特に、反speechメッセージは、ユーザーが憎しみを和らげることを妨げ、ウェブやソーシャルメディアプラットフォームでの憎悪を抑える解決策を示唆する可能性がある。 データとコードはhttp://claws.cc.gatech.edu/covid。

The spread of COVID-19 has sparked racism and hate on social media targeted towards Asian communities. However, little is known about how racial hate spreads during a pandemic and the role of counterspeech in mitigating this spread. In this work, we study the evolution and spread of anti-Asian hate speech through the lens of Twitter. We create COVID-HATE, the largest dataset of anti-Asian hate and counterspeech spanning 14 months, containing over 206 million tweets, and a social network with over 127 million nodes. By creating a novel hand-labeled dataset of 3,355 tweets, we train a text classifier to identify hate and counterspeech tweets that achieves an average macro-F1 score of 0.832. Using this dataset, we conduct longitudinal analysis of tweets and users. Analysis of the social network reveals that hateful and counterspeech users interact and engage extensively with one another, instead of living in isolated polarized communities. We find that nodes were highly likely to become hateful after being exposed to hateful content. Notably, counterspeech messages may discourage users from turning hateful, potentially suggesting a solution to curb hate on web and social media platforms. Data and code is at http://claws.cc.gatech.edu/covid.
翻訳日:2022-11-29 06:32:50 公開日:2021-11-10
# スケール依存カーネルによる補間と学習

Interpolation and Learning with Scale Dependent Kernels ( http://arxiv.org/abs/2006.09984v3 )

ライセンス: Link先を確認
Nicol\`o Pagliana, Alessandro Rudi, Ernesto De Vito, Lorenzo Rosasco(参考訳) 非パラメトリックリッジレス最小二乗の学習特性について検討する。 特に、スケール依存カーネルによって定義される推定子の一般的なケースを検討し、スケールの役割に焦点を当てる。 これらの推定器はデータを補間し、そのスケールは条件数を通じてその安定性を制御することができる。 分析の結果、サンプルサイズ、寸法、問題の滑らかさの相互作用によって異なるレジームであることが判明した。 実際、データ次元においてサンプルサイズが指数関数以下であれば、学習誤差が減少するようにスケールを選択することができる。 サンプルサイズが大きくなると、全体のエラーが減少するが、興味深いことに、ノイズによるばらつきが境界のままであるような方法でスケールを選択することができる。 我々の分析は、確率的結果と補間理論からの多くの解析技術を組み合わせる。

We study the learning properties of nonparametric ridge-less least squares. In particular, we consider the common case of estimators defined by scale dependent kernels, and focus on the role of the scale. These estimators interpolate the data and the scale can be shown to control their stability through the condition number. Our analysis shows that are different regimes depending on the interplay between the sample size, its dimensions, and the smoothness of the problem. Indeed, when the sample size is less than exponential in the data dimension, then the scale can be chosen so that the learning error decreases. As the sample size becomes larger, the overall error stop decreasing but interestingly the scale can be chosen in such a way that the variance due to noise remains bounded. Our analysis combines, probabilistic results with a number of analytic techniques from interpolation theory.
翻訳日:2022-11-19 20:27:06 公開日:2021-11-10
# 対向損失による頑健な深層強化学習

Robust Deep Reinforcement Learning through Adversarial Loss ( http://arxiv.org/abs/2008.01976v2 )

ライセンス: Link先を確認
Tuomas Oikarinen, Wang Zhang, Alexandre Megretski, Luca Daniel, Tsui-Wei Weng(参考訳) 近年の研究では、深層強化学習エージェントは、エージェントの入力に対する小さな敵の摂動に弱いことが示されており、そのようなエージェントを現実世界に展開することを懸念している。 そこで本研究では,l_p$-norm境界境界攻撃に対するロバスト性が向上した強化学習エージェントを訓練するための基本フレームワークであるradial-rlを提案する。 我々のフレームワークは、一般的な深層強化学習アルゴリズムと互換性があり、深層学習、A3C、PPOでその性能を示す。 我々は,頑健なトレーニングアルゴリズムの有効性を示すために,3つの深いrlベンチマーク(atari,mujoco,procgen)を実験した。 我々のRADIAL-RLエージェントは、様々な強度の攻撃に対してテストした場合、常に先行手法より優れ、訓練の効率が良い。 さらに,深部RLエージェントの攻撃非依存的堅牢性を測定するため,Greedy Worst-Case Reward (GWC) と呼ばれる新しい評価手法を提案する。 我々は,GWCを効率よく評価できることを示すとともに,敵攻撃の最悪の頻度で報奨を評価できることを示す。 実験に使用するすべてのコードは、https://github.com/tuomaso/radial_rl_v2で利用できます。

Recent studies have shown that deep reinforcement learning agents are vulnerable to small adversarial perturbations on the agent's inputs, which raises concerns about deploying such agents in the real world. To address this issue, we propose RADIAL-RL, a principled framework to train reinforcement learning agents with improved robustness against $l_p$-norm bounded adversarial attacks. Our framework is compatible with popular deep reinforcement learning algorithms and we demonstrate its performance with deep Q-learning, A3C and PPO. We experiment on three deep RL benchmarks (Atari, MuJoCo and ProcGen) to show the effectiveness of our robust training algorithm. Our RADIAL-RL agents consistently outperform prior methods when tested against attacks of varying strength and are more computationally efficient to train. In addition, we propose a new evaluation method called Greedy Worst-Case Reward (GWC) to measure attack agnostic robustness of deep RL agents. We show that GWC can be evaluated efficiently and is a good estimate of the reward under the worst possible sequence of adversarial attacks. All code used for our experiments is available at https://github.com/tuomaso/radial_rl_v2.
翻訳日:2022-11-02 17:28:13 公開日:2021-11-10
# MICE: コンテキスト埋め込みによるイディオムのマイニング

MICE: Mining Idioms with Contextual Embeddings ( http://arxiv.org/abs/2008.05759v2 )

ライセンス: Link先を確認
Tadej \v{S}kvorc, Polona Gantar, Marko Robnik-\v{S}ikonja(参考訳) 慣用表現は、その構成語から意味を推測できないため、自然言語処理アプリケーションでは問題となることがある。 方法論的なアプローチと十分な大規模なデータセットの欠如は、特にトレーニングセットで発生しない表現に対して、イディオムを検出するための機械学習アプローチの開発を妨げる。 我々は、その目的のためにコンテキスト埋め込みを使用するMICEと呼ばれるアプローチを提案する。 本稿では,リテラルと慣用的な意味を持つ複数単語表現のデータセットを新たに提示し,その手法を用いて2つの文脈単語埋め込み(ELMoとBERT)に基づいて分類器を訓練する。 両埋め込みを用いたディープニューラルネットワークは,既存の手法よりも優れており,トレーニングセットに存在しない表現に対しても,慣用的な単語使用を検出することができる。 開発したモデルの言語間伝達を実証し,必要なデータセットのサイズを分析する。

Idiomatic expressions can be problematic for natural language processing applications as their meaning cannot be inferred from their constituting words. A lack of successful methodological approaches and sufficiently large datasets prevents the development of machine learning approaches for detecting idioms, especially for expressions that do not occur in the training set. We present an approach, called MICE, that uses contextual embeddings for that purpose. We present a new dataset of multi-word expressions with literal and idiomatic meanings and use it to train a classifier based on two state-of-the-art contextual word embeddings: ELMo and BERT. We show that deep neural networks using both embeddings perform much better than existing approaches, and are capable of detecting idiomatic word use, even for expressions that were not present in the training set. We demonstrate cross-lingual transfer of developed models and analyze the size of the required dataset.
翻訳日:2022-10-30 22:28:50 公開日:2021-11-10
# 中毒クラスタリングに対するブラックボックス逆行攻撃

A black-box adversarial attack for poisoning clustering ( http://arxiv.org/abs/2009.05474v4 )

ライセンス: Link先を確認
Antonio Emanuele Cin\`a, Alessandro Torcinovich, Marcello Pelillo(参考訳) クラスタリングアルゴリズムは、意思決定と適切な自動化プロセスにおけるツールとして、基本的な役割を果たす。 これらの応用が広範に行われているため、この対向雑音に対するアルゴリズム群に対するロバスト性解析が不可欠となっている。 しかし、私たちの知る限りでは、この問題に対処した作品はごくわずかです。 このギャップを埋めるために,本研究では,クラスタリングアルゴリズムの堅牢性をテストするために,対数サンプルを作成するブラックボックス対数攻撃を提案する。 制約最小化プログラムとして問題を定式化し、その構造を一般化し、その能力制約に応じて攻撃者がカスタマイズできる。 我々は、被害者クラスタリングアルゴリズムの内部構造に関する情報を仮定せず、攻撃者がそれをサービスとしてのみクエリできるようにする。 派生情報がない場合には、抽象遺伝的アルゴリズム(AGA)にインスパイアされたカスタムアプローチで最適化を行う。 実験では, 異なるシナリオにおいて, 製作した逆数サンプルに対して, 異なる単一およびアンサンブルクラスタリングアルゴリズムの感受性を示す。 さらに,我々のアルゴリズムと最先端の手法を比較して,その性能に到達したり,性能を上回ったりできることを示す。 最後に、生成したノイズの一般的な性質を強調するために、SVM、ランダムフォレスト、ニューラルネットワークなどの教師付きアルゴリズムに対しても攻撃は転送可能であることを示す。

Clustering algorithms play a fundamental role as tools in decision-making and sensible automation processes. Due to the widespread use of these applications, a robustness analysis of this family of algorithms against adversarial noise has become imperative. To the best of our knowledge, however, only a few works have currently addressed this problem. In an attempt to fill this gap, in this work, we propose a black-box adversarial attack for crafting adversarial samples to test the robustness of clustering algorithms. We formulate the problem as a constrained minimization program, general in its structure and customizable by the attacker according to her capability constraints. We do not assume any information about the internal structure of the victim clustering algorithm, and we allow the attacker to query it as a service only. In the absence of any derivative information, we perform the optimization with a custom approach inspired by the Abstract Genetic Algorithm (AGA). In the experimental part, we demonstrate the sensibility of different single and ensemble clustering algorithms against our crafted adversarial samples on different scenarios. Furthermore, we perform a comparison of our algorithm with a state-of-the-art approach showing that we are able to reach or even outperform its performance. Finally, to highlight the general nature of the generated noise, we show that our attacks are transferable even against supervised algorithms such as SVMs, random forests, and neural networks.
翻訳日:2022-10-20 08:55:10 公開日:2021-11-10
# 特徴フロー:ビデオ物体検出のためのネットワーク内特徴フロー推定

Feature Flow: In-network Feature Flow Estimation for Video Object Detection ( http://arxiv.org/abs/2009.09660v2 )

ライセンス: Link先を確認
Ruibing Jin, Guosheng Lin, Changyun Wen, Jianliang Wang and Fayao Liu(参考訳) 画素変位を表す光学フローは、多くのコンピュータビジョンタスクにおいて、ピクセルレベルの運動情報を提供するために広く使われている。 しかし,畳み込みニューラルネットワークの著しい進歩に伴い,特徴レベルで直接問題を解くための最新の手法が提案されている。 特徴ベクトルの変位は画素の変位と一致しないので、一般的なアプローチは:ニューラルネットワークへのフォワード光フローとタスクデータセット上のこのネットワークの微調整である。 この方法で、細調整されたネットワークが特徴レベルの動作情報をエンコードするテンソルを生成することを期待する。 本稿では,このデファクトパラダイムを再考し,その欠点をビデオオブジェクト検出タスクで分析する。 これらの問題を緩和するために、ビデオオブジェクト検出のための新しいネットワーク (IFF-Net) を提案し、そのネットワークは、ビデオオブジェクト検出のためのtextbf{I}n-network \textbf{F}eature \textbf{F}low Estimation module (IFF module) である。 追加データセットの事前トレーニングを使わずに、我々のIFFモジュールは、特徴変位を示す \textbf{feature flow} を直接生成できる。 我々のIFFモジュールは浅いモジュールで構成されており、検出ブランチと特徴を共有する。 このコンパクトな設計により、高速な推論速度を維持しながら、IFF-Netがオブジェクトを正確に検出できる。 さらに,<textit{self-supervision}に基づく変換残留損失(TRL)を提案し,IFF-Netの性能をさらに向上させる。 IFF-Netは既存の手法より優れ、ImageNet VID上で最先端のパフォーマンスを設定できる。

Optical flow, which expresses pixel displacement, is widely used in many computer vision tasks to provide pixel-level motion information. However, with the remarkable progress of the convolutional neural network, recent state-of-the-art approaches are proposed to solve problems directly on feature-level. Since the displacement of feature vector is not consistent to the pixel displacement, a common approach is to:forward optical flow to a neural network and fine-tune this network on the task dataset. With this method,they expect the fine-tuned network to produce tensors encoding feature-level motion information. In this paper, we rethink this de facto paradigm and analyze its drawbacks in the video object detection task. To mitigate these issues, we propose a novel network (IFF-Net) with an \textbf{I}n-network \textbf{F}eature \textbf{F}low estimation module (IFF module) for video object detection. Without resorting pre-training on any additional dataset, our IFF module is able to directly produce \textbf{feature flow} which indicates the feature displacement. Our IFF module consists of a shallow module, which shares the features with the detection branches. This compact design enables our IFF-Net to accurately detect objects, while maintaining a fast inference speed. Furthermore, we propose a transformation residual loss (TRL) based on \textit{self-supervision}, which further improves the performance of our IFF-Net. Our IFF-Net outperforms existing methods and sets a state-of-the-art performance on ImageNet VID.
翻訳日:2022-10-16 04:58:46 公開日:2021-11-10
# 逆操作に基づく算数語問題解決のためのデータ拡張

Reverse Operation based Data Augmentation for Solving Math Word Problems ( http://arxiv.org/abs/2010.01556v2 )

ライセンス: Link先を確認
Qianying Liu, Wenyu Guan, Sujian Li, Fei Cheng, Daisuke Kawahara and Sadao Kurohashi(参考訳) 自然言語処理の分野において,数学用語の自動解法は重要な課題である。 最近のモデルはパフォーマンスボトルネックに達し、トレーニングのためにより高品質なデータを必要としている。 本稿では,数学用語問題の数学的論理を逆転させ,新しい高品質な数学問題を生み出し,数学的推論論理の学習に役立つ新たな知識点を導入する新しいデータ拡張手法を提案する。 2つのSOTA数学単語問題解決モデルに拡張データを適用し、その結果を強力なデータ拡張ベースラインと比較する。 実験の結果,本手法の有効性が示された。 コードとデータはhttps://github.com/yiyunya/RODA.comで公開しています。

Automatically solving math word problems is a critical task in the field of natural language processing. Recent models have reached their performance bottleneck and require more high-quality data for training. We propose a novel data augmentation method that reverses the mathematical logic of math word problems to produce new high-quality math problems and introduce new knowledge points that can benefit learning the mathematical reasoning logic. We apply the augmented data on two SOTA math word problem solving models and compare our results with a strong data augmentation baseline. Experimental results show the effectiveness of our approach. We release our code and data at https://github.com/yiyunya/RODA.
翻訳日:2022-10-11 03:40:36 公開日:2021-11-10
# スクラッチからの低遅延ディープスパイクニューラルネットワークのトレーニングのためのバッチ正規化の再検討

Revisiting Batch Normalization for Training Low-latency Deep Spiking Neural Networks from Scratch ( http://arxiv.org/abs/2010.01729v5 )

ライセンス: Link先を確認
Youngeun Kim, Priyadarshini Panda(参考訳) Spiking Neural Networks (SNN)は、最近、疎度、非同期、バイナリイベント(またはスパイク)駆動処理によるディープラーニングの代替として登場し、ニューロモルフィックハードウェアに膨大なエネルギー効率の恩恵をもたらすことができる。 しかしながら、スクラッチから高い精度と低遅延SNNを訓練することは、スパイキングニューロンの非分化性の性質に悩まされる。 SNNにおけるこのトレーニング問題に対処するため,バッチ正規化を再検討し,時間的バッチ正規化(BNTT)手法を提案する。 それまでのSNNの作業のほとんどは、時間的SNNのトレーニングには効果がないと判断されたバッチ正規化を無視していた。 従来と異なり,提案したBNTTは,時間軸に沿ってBNTT層内のパラメータを分離し,スパイクの時間的ダイナミクスを捉える。 BNTTの時間的に進化する学習可能なパラメータにより、ニューロンは異なる時間ステップでスパイクレートを制御でき、低レイテンシと低エネルギーのトレーニングをスクラッチから行うことができる。 CIFAR-10, CIFAR-100, Tiny-ImageNetおよびイベント駆動型DVS-CIFAR10データセットについて実験を行った。 BNTTを使うことで、25~30のタイムステップで、初めて、複雑なデータセット上で、深いSNNアーキテクチャをスクラッチからトレーニングすることができます。 また, bnttのパラメータ分布を用いて, 推定時のレイテンシを低減し, エネルギー効率をさらに向上させる早期終了アルゴリズムを提案する。

Spiking Neural Networks (SNNs) have recently emerged as an alternative to deep learning owing to sparse, asynchronous and binary event (or spike) driven processing, that can yield huge energy efficiency benefits on neuromorphic hardware. However, training high-accuracy and low-latency SNNs from scratch suffers from non-differentiable nature of a spiking neuron. To address this training issue in SNNs, we revisit batch normalization and propose a temporal Batch Normalization Through Time (BNTT) technique. Most prior SNN works till now have disregarded batch normalization deeming it ineffective for training temporal SNNs. Different from previous works, our proposed BNTT decouples the parameters in a BNTT layer along the time axis to capture the temporal dynamics of spikes. The temporally evolving learnable parameters in BNTT allow a neuron to control its spike rate through different time-steps, enabling low-latency and low-energy training from scratch. We conduct experiments on CIFAR-10, CIFAR-100, Tiny-ImageNet and event-driven DVS-CIFAR10 datasets. BNTT allows us to train deep SNN architectures from scratch, for the first time, on complex datasets with just few 25-30 time-steps. We also propose an early exit algorithm using the distribution of parameters in BNTT to reduce the latency at inference, that further improves the energy-efficiency.
翻訳日:2022-10-10 19:36:43 公開日:2021-11-10
# 完全テンソル化リカレントニューラルネットワーク

A Fully Tensorized Recurrent Neural Network ( http://arxiv.org/abs/2010.04196v3 )

ライセンス: Link先を確認
Charles C. Onu, Jacob E. Miller, Doina Precup(参考訳) リカレントニューラルネットワーク(recurrent neural network, rnn)はシーケンシャルモデリングのための強力なツールだが、一般的に最適な性能を得るためには、かなりのオーバーパラメータと正規化を必要とする。 これにより、リソース制限された設定での大規模なRNNの展開が困難になると同時に、ハイパーパラメータの選択とトレーニングの複雑さも引き起こされる。 これらの問題に対処するために、軽量なテンソルトレイン(TT)係数化を用いて、各リカレントセル内の個別の重み行列を共同符号化する「完全にテンソル化」されたRNNアーキテクチャを導入する。 このアプローチは、モデルサイズを数桁削減し、標準のRNNと同等あるいは優れた性能を維持しながら、新しいウェイトシェアリングの形式を示している。 画像分類と話者検証タスクの実験は、推論時間を短縮し、モデルのトレーニングとハイパーパラメータの選択を安定化するさらなる利点を示す。

Recurrent neural networks (RNNs) are powerful tools for sequential modeling, but typically require significant overparameterization and regularization to achieve optimal performance. This leads to difficulties in the deployment of large RNNs in resource-limited settings, while also introducing complications in hyperparameter selection and training. To address these issues, we introduce a "fully tensorized" RNN architecture which jointly encodes the separate weight matrices within each recurrent cell using a lightweight tensor-train (TT) factorization. This approach represents a novel form of weight sharing which reduces model size by several orders of magnitude, while still maintaining similar or better performance compared to standard RNNs. Experiments on image classification and speaker verification tasks demonstrate further benefits for reducing inference times and stabilizing model training and hyperparameter selection.
翻訳日:2022-10-09 11:30:44 公開日:2021-11-10
# 有限ガウス混合系の分散学習

Distributed Learning of Finite Gaussian Mixtures ( http://arxiv.org/abs/2010.10412v3 )

ライセンス: Link先を確認
Qiong Zhang and Jiahua Chen(参考訳) 情報技術の進歩は、しばしば異なるストレージセンターに保存される非常に大きなデータセットにつながった。 既存の統計手法は、統計的妥当性と効率を保ちながら、結果の計算障害を克服するために適応する必要がある。 分数過程、回帰解析、主固有空間、指数族など、多くの領域でスプリット・アンド・コンカレントアプローチが適用されている。 有限ガウス混合系の分散学習における分割・対数アプローチについて検討する。 我々は,削減戦略を推奨し,効果的なmmアルゴリズムを開発した。 新しい推定器は整合性を示し、いくつかの一般的な条件下でルート-n整合性を保持する。 シミュレーションと実世界のデータに基づく実験では、もし後者が実現可能であれば、提案手法が全データセットに基づくグローバル推定器と同等の統計性能を持つことを示す。 モデル仮定が実世界データと一致しない場合、グローバル推定器をわずかに上回ることさえある。 また、既存の手法よりも統計や計算性能が優れている。

Advances in information technology have led to extremely large datasets that are often kept in different storage centers. Existing statistical methods must be adapted to overcome the resulting computational obstacles while retaining statistical validity and efficiency. Split-and-conquer approaches have been applied in many areas, including quantile processes, regression analysis, principal eigenspaces, and exponential families. We study split-and-conquer approaches for the distributed learning of finite Gaussian mixtures. We recommend a reduction strategy and develop an effective MM algorithm. The new estimator is shown to be consistent and retains root-n consistency under some general conditions. Experiments based on simulated and real-world data show that the proposed split-and-conquer approach has comparable statistical performance with the global estimator based on the full dataset, if the latter is feasible. It can even slightly outperform the global estimator if the model assumption does not match the real-world data. It also has better statistical and computational performance than some existing methods.
翻訳日:2022-10-05 07:41:43 公開日:2021-11-10
# ランキングアプリケーションのためのgansによる拡張欠落データインプテーション

Extended Missing Data Imputation via GANs for Ranking Applications ( http://arxiv.org/abs/2011.02089v3 )

ライセンス: Link先を確認
Grace Deng, Cuize Han, David S. Matteson(参考訳) 本稿では,GAN(Generative Adversarial Networks)に基づく拡張欠落データ計算手法であるConditional Imputation GANを提案する。 モチベーションのあるユースケースは、最新の検索、レコメンデーションシステム、および情報検索アプリケーションの基礎である学習からランクへの学習である。 経験的ランキングデータセットは、常に標準的なガウス分布や、古典的な欠落データ計算手法の標準的な仮定であるMCAR(Missing Completely At Random)メカニズムに従うとは限らない。 提案手法は,不備な機構の仮定を緩和し,難解な分布を近似して計算品質を向上しながら,整合性のある計算保証を提供する。 提案手法は,EMAR(Extended Always Missing At Random)とEMAR(Extended Always Missing At Random)のメカニズムに対して,単純なMCARを超えた最適GAN計算を実現する。 提案手法は,Microsoft Research Ranking (MSR) データセットと合成ランキングデータセットを,最先端のベンチマークと比較し,様々な特徴分布に対して高い計算精度を示す。 プロプライエタリなAmazon Searchランキングデータセットを使用して、GANインプットデータに基づいてトレーニングされたランキングモデルと、地上データとを比較した。

We propose Conditional Imputation GAN, an extended missing data imputation method based on Generative Adversarial Networks (GANs). The motivating use case is learning-to-rank, the cornerstone of modern search, recommendation system, and information retrieval applications. Empirical ranking datasets do not always follow standard Gaussian distributions or Missing Completely At Random (MCAR) mechanism, which are standard assumptions of classic missing data imputation methods. Our methodology provides a simple solution that offers compatible imputation guarantees while relaxing assumptions for missing mechanisms and sidesteps approximating intractable distributions to improve imputation quality. We prove that the optimal GAN imputation is achieved for Extended Missing At Random (EMAR) and Extended Always Missing At Random (EAMAR) mechanisms, beyond the naive MCAR. Our method demonstrates the highest imputation quality on the open-source Microsoft Research Ranking (MSR) Dataset and a synthetic ranking dataset compared to state-of-the-art benchmarks and across various feature distributions. Using a proprietary Amazon Search ranking dataset, we also demonstrate comparable ranking quality metrics for ranking models trained on GAN-imputed data compared to ground-truth data.
翻訳日:2022-09-29 21:46:41 公開日:2021-11-10
# マルコフ決定過程におけるロバストバッチ政策学習

Robust Batch Policy Learning in Markov Decision Processes ( http://arxiv.org/abs/2011.04185v4 )

ライセンス: Link先を確認
Zhengling Qi, Peng Liao(参考訳) 我々は,markov decision process (mdp) の枠組みを用いてオフラインデータ駆動逐次意思決定問題を検討する。 学習した政策の一般化性と適応性を高めるため,政策誘導定常分布を中心とした分布に対する平均報酬のセットを用いて各政策を評価することを提案する。 ある行動ポリシーによって生成される複数の軌跡の事前収集データセットを考えると、我々の目標は、このセットの最小値を最大化できる事前指定ポリシークラスで堅牢なポリシーを学ぶことである。 半パラメトリック統計理論を活用し,de nedロバスト最適政策推定のための統計的に効率的な政策学習法を開発した。 対数因子に束縛されたレート最適の後悔は、データセットの全決定点の観点で確立される。

We study the offline data-driven sequential decision making problem in the framework of Markov decision process (MDP). In order to enhance the generalizability and adaptivity of the learned policy, we propose to evaluate each policy by a set of the average rewards with respect to distributions centered at the policy induced stationary distribution. Given a pre-collected dataset of multiple trajectories generated by some behavior policy, our goal is to learn a robust policy in a pre-specified policy class that can maximize the smallest value of this set. Leveraging the theory of semi-parametric statistics, we develop a statistically efficient policy learning method for estimating the de ned robust optimal policy. A rate-optimal regret bound up to a logarithmic factor is established in terms of total decision points in the dataset.
翻訳日:2022-09-28 00:44:43 公開日:2021-11-10
# マルチエージェント制御のためのスケーラブル強化学習ポリシー

Scalable Reinforcement Learning Policies for Multi-Agent Control ( http://arxiv.org/abs/2011.08055v4 )

ライセンス: Link先を確認
Christopher D. Hsu, Heejin Jeong, George J. Pappas, and Pratik Chaudhari(参考訳) 目標追跡のためのスケーラブルな制御ポリシーを学習するためのマルチエージェント強化学習(MARL)手法を開発した。 この方法は任意の数の追尾者と目標を処理でき、1000の追尾者が1000の目標を追跡するタスクの結果を示す。 我々は,局所的かつ部分的観測可能なマルコフ決定過程の枠組みを用いて,固定された未知の方針を用いて移動する対象に関する部分的観察(範囲と軸受)を受けるエージェントとして追跡者をモデル化する。 エージェントの値関数をパラメータ化するためにアテンションメカニズムが使用され、このメカニズムにより任意の数のターゲットを処理できる。 エントロピー・レギュラライズド・オフ・ポリシーrl法を確率政策の訓練に利用し,完全分散制御実行に拘わらず,協力関係の弱体化につながる追従者間のヘッジ行動を可能にする方法について検討する。 さらにマスキングヒューリスティックを開発し,追跡対象の少ない小さな問題に対するトレーニングと,はるかに大きな問題に対する実行を可能にした。 種々のエージェントやターゲットに対するアプローチのスケーラビリティと性能の堅牢性を研究するために、詳細なシミュレーション実験、アブレーション研究、および技術アルゴリズムの状態との比較を行う。

We develop a Multi-Agent Reinforcement Learning (MARL) method to learn scalable control policies for target tracking. Our method can handle an arbitrary number of pursuers and targets; we show results for tasks consisting up to 1000 pursuers tracking 1000 targets. We use a decentralized, partially-observable Markov Decision Process framework to model pursuers as agents receiving partial observations (range and bearing) about targets which move using fixed, unknown policies. An attention mechanism is used to parameterize the value function of the agents; this mechanism allows us to handle an arbitrary number of targets. Entropy-regularized off-policy RL methods are used to train a stochastic policy, and we discuss how it enables a hedging behavior between pursuers that leads to a weak form of cooperation in spite of completely decentralized control execution. We further develop a masking heuristic that allows training on smaller problems with few pursuers-targets and execution on much larger problems. Thorough simulation experiments, ablation studies, and comparisons to state of the art algorithms are performed to study the scalability of the approach and robustness of performance to varying numbers of agents and targets.
翻訳日:2022-09-25 01:08:07 公開日:2021-11-10
# ドラッグデリバリーシステムにおけるナノベクトル合成のモデル化と最適化

Modelling and optimization of nanovector synthesis for applications in drug delivery systems ( http://arxiv.org/abs/2112.02002v1 )

ライセンス: Link先を確認
Felipe J. Villase\~nor-Cavazos, Daniel Torres-Valladares and Omar Lozano(参考訳) ナノ粒子(NP)のようなナノ構造物質に基づくナノベクター(NV)は、優れた薬物デリバリーシステムとして機能することが証明されている。 しかしながら、NPs物質やその機能化を含む潜在的なNVの多様さに加えて、輸送可能な分子の多量化により、この分野は、試行錯誤実験に大きく依存する粒子サイズや薬物の負荷といった最も最適な物理化学的性質を持つNVを見つけるための資源の面で大きな課題となる。 この点において、人工知能(AI)とメタヒューリスティックアルゴリズムは、それぞれ最先端のモデリングと最適化の効率化を提供する。 本稿では, 薬物デリバリーシステムにおけるナノ粒子合成における人工知能とメタヒューリスティックアルゴリズムの利用について, 体系的な探索を通じて考察する。 ニューラルネットワークは線形回帰アルゴリズムや応答表面法よりもNVs特性のモデル化に優れており、AIやメタヒューリスティックアルゴリズムと比較する研究は極めて限られており、サンプルサイズの計算の適切性については情報がない。 これらの結果から,NVデータセットを用いて,多層パーセプトロン人工ニューラルネットワークと適応型神経ファジィ推論システムを用いてモデリング性能を検証した。 メタヒューリスティックなアルゴリズムでは、ベンチマーク関数はcuckoo search、firefly algorithm、geneic algorithm、symbiotic organisms searchで最適化され、cuckoo searchとsymbiotic organisms searchが最良の性能で検索された。 最後に,AIアルゴリズムの適切なサンプルサイズを推定する方法について述べる。

Nanovectors (NVs), based on nanostructured matter such as nanoparticles (NPs), have proven to perform as excellent drug delivery systems. However, due to the great variety of potential NVs, including NPs materials and their functionalization, in addition to the plethora of molecules that could transport, this fields presents a great challenge in terms of resources to find NVs with the most optimal physicochemical properties such as particle size and drug loading, where most of efforts rely on trial and error experimentation. In this regard, Artificial intelligence (AI) and metaheuristic algorithms offer efficient of the state-of-the-art modelling and optimization, respectively. This review focuses, through a systematic search, on the use of artificial intelligence and metaheuristic algorithms for nanoparticle synthesis in drug delivery systems. The main findings are: neural networks are better at modelling NVs properties than linear regression algorithms and response surface methodology, there is a very limited number of studies comparing AI or metaheuristic algorithm, and there is no information regarding the appropriateness of calculations of the sample size. Based on these findings, multilayer perceptron artificial neural network and adaptive neuro fuzzy inference system were tested for their modelling performance with a NV dataset; finding the latter the better algorithm. For metaheuristic algorithms, benchmark functions were optimized with cuckoo search, firefly algorithm, genetic algorithm and symbiotic organism search; finding cuckoo search and symbiotic organism search with the best performance. Finally, methods to estimate appropriate sample size for AI algorithms are discussed.
翻訳日:2021-12-12 15:43:29 公開日:2021-11-10
# (参考訳) AIの国際化 - 距離要因の進化と影響

Internationalizing AI: Evolution and Impact of Distance Factors ( http://arxiv.org/abs/2112.01231v1 )

ライセンス: CC BY 4.0
Xuli Tang, Xin Li, Feicheng Ma(参考訳) AIの分野では、国際協力が不可欠になっている。 しかし、距離要因がAI研究における国際協力に与える影響についての研究はほとんどない。 本研究では,Microsoft Academic Graph (MAG)データセットから抽出した1,294,644個のAI関連共同論文を用いて,この問題を考察する。 5つの視点(地理的距離、経済的距離、文化的距離、学術的距離、産業的距離)から国間の距離因子を定量化する13の指標を含む枠組みを提案する。 関係は記述分析と回帰分析の手法によって検討された。 その結果、今日のAI分野における国際協力は一般的ではない(わずか15.7%)。 国際協力におけるすべての分離は、男性/女性間の文化的距離と産業距離を除いて、長年にわたって増大してきた。 地理的距離、経済距離、学術距離は、AI分野における国際協力の度合いと著しく負の関係を示している。 産業距離は、AI分野における国際協力の度合いと有意な関係を持つ。 また、米国と中国の参加によって、AI分野における国際協力が促進されていることも示している。 本研究は、地理、経済、文化、学術、産業におけるai研究の国際化に関する総合的な理解を提供する。

International collaboration has become imperative in the field of AI. However, few studies exist concerning how distance factors have affected the international collaboration in AI research. In this study, we investigate this problem by using 1,294,644 AI related collaborative papers harvested from the Microsoft Academic Graph (MAG) dataset. A framework including 13 indicators to quantify the distance factors between countries from 5 perspectives (i.e., geographic distance, economic distance, cultural distance, academic distance, and industrial distance) is proposed. The relationships were conducted by the methods of descriptive analysis and regression analysis. The results show that international collaboration in the field of AI today is not prevalent (only 15.7%). All the separations in international collaborations have increased over years, except for the cultural distance in masculinity/felinity dimension and the industrial distance. The geographic distance, economic distance and academic distances have shown significantly negative relationships with the degree of international collaborations in the field of AI. The industrial distance has a significant positive relationship with the degree of international collaboration in the field of AI. Also, the results demonstrate that the participation of the United States and China have promoted the international collaboration in the field of AI. This study provides a comprehensive understanding of internationalizing AI research in geographic, economic, cultural, academic, and industrial aspects.
翻訳日:2021-12-06 04:14:13 公開日:2021-11-10
# (参考訳) 単一波状および水中画像強調のための多スケールウェーブレットを用いた分数勾配異方拡散融合の解析

Analysis of Multiscale Wavelet-based Fractional Gradient-Anisotropic Diffusion Fusion for single hazy and underwater image enhancement ( http://arxiv.org/abs/2111.15479v1 )

ライセンス: CC BY 4.0
Uche A. Nnolim(参考訳) 本報告では, 単一画像デハージングと水中画像強調のためのマルチスケールウェーブレット方式の結果について述べる。 このスキームは高速かつ高度にローカライズされ、またハズイ画像のグローバルな拡張も行われている。 PDEベースの定式化は、反復性によって様々な種類の画像に対して柔軟性が増すため、さらなる汎用性を実現する。 実験の視覚的および客観的な結果は、提案されたアプローチが最先端のアプローチのほとんどと好ましく、あるいは勝っていることを示している。

This report presents the results of a multi-scale wavelet based scheme for single image de-hazing and underwater image enhancement. The scheme is fast and highly localized in addition to global enhancement of hazy images. A PDE-based formulation enables additional versatility as the iterative nature allows more flexibility for various types of images. Visual and objective results from experiments indicate that the proposed approach competes favourably or surpasses most of the state-of-the-art approaches.
翻訳日:2021-12-06 03:56:13 公開日:2021-11-10
# (参考訳) 前井学習コミュニティレポート

The MAIEI Learning Community Report ( http://arxiv.org/abs/2112.01531v1 )

ライセンス: CC BY 4.0
Brittany Wills, Christina Isaicu, Heather von Stackelberg, Lujain Ibrahim, Matthew Hutson, Mitchel Fleming, Nanditha Narayanamoorthy, Samuel Curtis, Shreyasha Paudel, Sofia Trejo, Tiziana Zevallos, Victoria Mart\'in del Campo, and Wilson Lee(参考訳) これは2021年冬にmaieiが招集した、ai倫理の分野における重要な研究課題を、多分野のレンズで議論するための学習コミュニティの協力による作業である。 コミュニティは、偏見、プライバシー、偽情報、説明責任といった問題のニュアンスを活発に議論し、特に産業、市民社会、アカデミック、政府の観点から調べるために、MAIEIスタッフのファシリテーターによって支援された。 これらの議論の結果は、あなたが今読んでいるレポートに反映されている。AIシステムの展開によって引き起こされる社会的課題に対処するために、何がされたのか、何がうまくいったのか、何がうまくいかなかったのか、そして、これから行うべきことについて、様々な問題を探究する。 Design and Techno-isolationism”, “Facebook and the Digital Divide: Perspectives from Myanmar, Mexico, and India”, “Future of Work”, “Media & Communications & Ethical Foresight” と題された章は,AI倫理の領域でカバーされる通常のトロープを越えて,この領域を探索するための新たなレンズを提供することを期待している。

This is a labor of the Learning Community cohort that was convened by MAIEI in Winter 2021 to work through and discuss important research issues in the field of AI ethics from a multidisciplinary lens. The community came together supported by facilitators from the MAIEI staff to vigorously debate and explore the nuances of issues like bias, privacy, disinformation, accountability, and more especially examining them from the perspective of industry, civil society, academia, and government. The outcome of these discussions is reflected in the report that you are reading now - an exploration of a variety of issues with deep-dive, critical commentary on what has been done, what worked and what didn't, and what remains to be done so that we can meaningfully move forward in addressing the societal challenges posed by the deployment of AI systems. The chapters titled "Design and Techno-isolationism", "Facebook and the Digital Divide: Perspectives from Myanmar, Mexico, and India", "Future of Work", and "Media & Communications & Ethical Foresight" will hopefully provide with you novel lenses to explore this domain beyond the usual tropes that are covered in the domain of AI ethics.
翻訳日:2021-12-06 03:51:26 公開日:2021-11-10
# 地域司法と社会資源のアルゴリズム的配分

Local Justice and the Algorithmic Allocation of Societal Resources ( http://arxiv.org/abs/2112.01236v1 )

ライセンス: Link先を確認
Sanmay Das(参考訳) AIは、ホームレスのための住宅、移植のための臓器、食品寄付など、社会的資源の不足に関する意思決定を支援するために、ますます利用されている。 近年, 公平性, 効率性, インセンティブの整合性, 利害関係者の嗜好の満足な集約性を実現しようとする, システムの目的を設計する方法が提案されている。 本稿では、この領域におけるAIの役割と機会を概説し、地域司法に関する政治哲学文献との密接な関わりについて論じる。 また、データのユビキタス性によって開放された機会とリスクをこのフレームワークにどのように統合できるか、将来の正確な予測にそれらを利用するアルゴリズムが利用できるかについても論じています。

AI is increasingly used to aid decision-making about the allocation of scarce societal resources, for example housing for homeless people, organs for transplantation, and food donations. Recently, there have been several proposals for how to design objectives for these systems that attempt to achieve some combination of fairness, efficiency, incentive compatibility, and satisfactory aggregation of stakeholder preferences. This paper lays out possible roles and opportunities for AI in this domain, arguing for a closer engagement with the political philosophy literature on local justice, which provides a framework for thinking about how societies have over time framed objectives for such allocation problems. It also discusses how we may be able to integrate into this framework the opportunities and risks opened up by the ubiquity of data and the availability of algorithms that can use them to make accurate predictions about the future.
翻訳日:2021-12-06 01:37:21 公開日:2021-11-10
# 単語埋め込みによる環境違反分析:ペンシルベニアの非伝統的石油・ガスコンプライアンスレポートからの証拠

Using word embedding for environmental violation analysis: Evidence from Pennsylvania unconventional oil and gas compliance reports ( http://arxiv.org/abs/2112.01224v1 )

ライセンス: Link先を確認
Dan Bi, Ju-e Guo, Erlong Zhao, Shaolong Sun, Shouyang Wang(参考訳) 異例の石油・ガス産業の興隆に伴い、環境と人間の健康に必然的な被害が大衆の注目を集めている。 我々は,2008年から2018年にかけてペンシルベニア州環境保護省が実施した環境衛生・安全コンプライアンス報告書を合計6057件にテキストマイニングを適用し,環境違反のインターン機構を解明した。

With the booming of the unconventional oil and gas industry, its inevitable damage to the environment and human health has attracted public attention. We applied text mining on a total 6057 the type of Environmental Health and Safety compliance reports from 2008 to 2018 lunched by the Department of Environmental Protection in Pennsylvania, USA, to discover the intern mechanism of environmental violations.
翻訳日:2021-12-06 01:37:06 公開日:2021-11-10
# (参考訳) CEHR-BERT:予測タスクを改善するための構造化ERHデータからの時間情報の導入

CEHR-BERT: Incorporating temporal information from structured EHR data to improve prediction tasks ( http://arxiv.org/abs/2111.08585v1 )

ライセンス: CC BY 4.0
Chao Pang (1), Xinzhuo Jiang (1), Krishna S Kalluri (1), Matthew Spotnitz (1), RuiJun Chen (2), Adler Perotte (1), Karthik Natarajan (1) ((1) Columbia University Irving Medical Center, (2) Geisinger)(参考訳) 埋め込みアルゴリズムは、臨床表現型付けや疾患予測のような機械学習タスクを改善するための医療における臨床概念を表現するためにますます使われている。 最近の研究は、最先端の双方向エンコーダ表現を変換器(BERT)アーキテクチャから構造化電子健康記録(EHR)データに適応させ、コンテキスト化された概念埋め込みを生成するが、複数の臨床領域にまたがる時間的データを完全に組み込むことはできない。 そこで我々は,人工時間トークンを用いてBERTへの入力を増強し,時間,年齢,概念の埋め込みを取り入れ,訪問型のための新たな第2次学習目標を導入することで,ハイブリッドアプローチを用いて時間情報を統合する新たなBERT適応CEHR-BERTを開発した。 CEHR-BERTはコロンビア大学アーヴィング医療センター(英語版)-ヨーク長老派病院(英語版)の臨床データの一部に基づいて訓練され、30年以上にわたる2.4万の患者を含み、入院、死亡、新しい心不全(HF)診断、HF寛解といった予測タスクで4倍のクロスバリデーションを用いてテストされた。 ROC-AUCおよびPR-AUCの4つの予測タスクにおいて,CEHR-BERTは既存の最先端臨床BERT適応およびベースラインモデルよりも優れていた。 CEHR-BERTはまた、データセット全体においてトレーニングされた比較モデルよりも、わずか5%のパフォーマンスでトレーニングされたデータに対して、強力な転送学習能力を示した。 各時間成分の寄与をよりよく理解するためのアブレーション研究は、CEHR-BERTの人工時間トークンの組み込み、概念埋め込みによる時間と年齢の埋め込み、そして第2学習目標の追加は、今後のBERTベースの臨床埋め込みにとって有望なアプローチであることを示唆している。

Embedding algorithms are increasingly used to represent clinical concepts in healthcare for improving machine learning tasks such as clinical phenotyping and disease prediction. Recent studies have adapted state-of-the-art bidirectional encoder representations from transformers (BERT) architecture to structured electronic health records (EHR) data for the generation of contextualized concept embeddings, yet do not fully incorporate temporal data across multiple clinical domains. Therefore we developed a new BERT adaptation, CEHR-BERT, to incorporate temporal information using a hybrid approach by augmenting the input to BERT using artificial time tokens, incorporating time, age, and concept embeddings, and introducing a new second learning objective for visit type. CEHR-BERT was trained on a subset of Columbia University Irving Medical Center-York Presbyterian Hospital's clinical data, which includes 2.4M patients, spanning over three decades, and tested using 4-fold cross-validation on the following prediction tasks: hospitalization, death, new heart failure (HF) diagnosis, and HF readmission. Our experiments show that CEHR-BERT outperformed existing state-of-the-art clinical BERT adaptations and baseline models across all 4 prediction tasks in both ROC-AUC and PR-AUC. CEHR-BERT also demonstrated strong transfer learning capability, as our model trained on only 5% of data outperformed comparison models trained on the entire data set. Ablation studies to better understand the contribution of each time component showed incremental gains with every element, suggesting that CEHR-BERT's incorporation of artificial time tokens, time and age embeddings with concept embeddings, and the addition of the second learning objective represents a promising approach for future BERT-based clinical embeddings.
翻訳日:2021-11-21 15:51:05 公開日:2021-11-10
# (参考訳) 高次モーメントに対するハーン多項式の高速計算

Fast Computation of Hahn Polynomials for High Order Moments ( http://arxiv.org/abs/2111.07749v1 )

ライセンス: CC BY 4.0
Basheera M. Mahmmod, Sadiq H. Abdulhussain, Tom\'a\v{s} Suk, and Abir Hussain(参考訳) 離散ハーン多項式(DHP)とそのモーメントは、効率的な直交モーメントの1つと考えられ、画像処理や特徴抽出といった様々な科学分野に適用されている。 一般に、dhpはオブジェクト表現として使われるが、モーメント順序が大きくなると数値不安定の問題に苦しんでいる。 本稿では,ハーン直交基底の効率的な計算法を提案し,高次数に対して適用する。 本稿では、DHPの初期値とDHPパラメータの異なる値($\alpha$と$\beta$)を計算するための新しい数学的モデルを開発した。 さらに,DHP係数の生成を安定化させるために,適応しきい値を持つ2つの再帰アルゴリズムからなる手法を提案する。 計算コストと正確な生成が可能な最大サイズの観点から、最先端のアルゴリズムと比較される。 実験の結果,提案アルゴリズムは,パラメータ値($\alpha$および$\beta$)と多項式サイズの両方において,より優れた性能を示すことがわかった。

Discrete Hahn polynomials (DHPs) and their moments are considered to be one of the efficient orthogonal moments and they are applied in various scientific areas such as image processing and feature extraction. Commonly, DHPs are used as object representation; however, they suffer from the problem of numerical instability when the moment order becomes large. In this paper, an efficient method for computation of Hahn orthogonal basis is proposed and applied to high orders. This paper developed a new mathematical model for computing the initial value of the DHP and for different values of DHP parameters ($\alpha$ and $\beta$). In addition, the proposed method is composed of two recurrence algorithms with an adaptive threshold to stabilize the generation of the DHP coefficients. It is compared with state-of-the-art algorithms in terms of computational cost and the maximum size that can be correctly generated. The experimental results show that the proposed algorithm performs better in both parameters for wide ranges of parameter values of ($\alpha$ and $\beta$) and polynomial sizes.
翻訳日:2021-11-21 15:32:49 公開日:2021-11-10
# ニューラルシンボリックシステムに関する調査

A Survey on Neural-symbolic Systems ( http://arxiv.org/abs/2111.08164v1 )

ライセンス: Link先を確認
Dongran Yu, Bo Yang, Dayou Liu and Hui Wang(参考訳) 近年、ニューラルネットワークは、非常に効果的な学習を通じて優れた知覚知性を示しているが、その推論能力は乏しいままである。 対照的に、シンボリックシステムは効率的な推論を通じて例外的な認知知性を持つが、その学習能力は乏しい。 この場合、強力な学習と推論能力を通じて、知覚的および認知的知能の高い理想的知能システム(ニューラルシンボリックシステム)が研究コミュニティへの関心を高めます。 ニューラルネットワークの高速計算能力とシンボリックシステムの強力な表現能力を組み合わせたニューラルシンボリックシステムは、多領域タスクにおいて効果的な学習と推論を実行し、インテリジェントシステムにおける同時知覚と認識能力を示すことができる。 本稿では,4次元のニューラルシンボリックシステム(組み合わせの必要性,技術的課題,方法,応用)に関する最新の研究について調査する。 本稿は, 研究者に総合的かつ総合的な視点を与え, 芸術の現状を強調し, 機会を特定することにより, 新たな研究分野の展開を支援することを目的とする。

In recent years, neural systems have demonstrated superior perceptual intelligence through highly effective learning, but their reasoning capabilities remain poor. In contrast, symbolic systems have exceptional cognitive intelligence through efficient reasoning, but their learning capabilities are poor. In this case, an ideal intelligent system--a neural-symbolic system--with high perceptual and cognitive intelligence through powerful learning and reasoning capabilities gains a growing interest in the research community. Combining the fast computation ability of neural systems and the powerful expression ability of symbolic systems, neural-symbolic systems can perform effective learning and reasoning in multi-domain tasks, demonstrating concurrent perception and cognition capabilities in intelligent systems. This paper surveys the latest research in neural-symbolic systems along four dimensions: the necessity of combination, technical challenges, methods, and applications. This paper aims to help advance this emerging area of research by providing researchers with a holistic and comprehensive view, highlighting the state of art and identifying the opportunities.
翻訳日:2021-11-21 14:56:31 公開日:2021-11-10
# 密度に基づく特徴クラスタリングを用いた混合型データの特徴選択法

A Supervised Feature Selection Method For Mixed-Type Data using Density-based Feature Clustering ( http://arxiv.org/abs/2111.08169v1 )

ライセンス: Link先を確認
Xuyang Yan, Mrinmoy Sarkar, Biniam Gebru, Shabnam Nazmi, and Abdollah Homaifar(参考訳) 特徴選択法は高次元データの分類における高い計算オーバーヘッドと次元性の呪いに広く用いられている。 従来の特徴選択法は均質な特徴を扱うことにフォーカスしているが、現実世界のデータセットは通常、連続的特徴と離散的特徴の混合を持つ。 最近の混合型特徴選択研究では、クラスラベルに関連性の高い特徴のみを選択し、特徴間の冗長性を無視している。 適切な機能サブセットの決定もまた課題である。 本稿では, 密度ベース特徴クラスタリング(SFSDFC)を用いた教師付き特徴選択手法を提案し, 混合型データに対して適切な最終特徴サブセットを求める。 SFSDFCは、新しい密度に基づくクラスタリング法を用いて、特徴空間を不連続な特徴クラスタの集合に分解する。 そして、これらの特徴クラスタから最小限の冗長性を持つ重要な特徴のサブセットを得るために、効果的な特徴選択戦略を採用する。 13個の実世界のベンチマークデータセットを用いてSFSDFCで5つの最先端手法との比較実験を行い,SFSDFC法の有効性を正当化した。

Feature selection methods are widely used to address the high computational overheads and curse of dimensionality in classifying high-dimensional data. Most conventional feature selection methods focus on handling homogeneous features, while real-world datasets usually have a mixture of continuous and discrete features. Some recent mixed-type feature selection studies only select features with high relevance to class labels and ignore the redundancy among features. The determination of an appropriate feature subset is also a challenge. In this paper, a supervised feature selection method using density-based feature clustering (SFSDFC) is proposed to obtain an appropriate final feature subset for mixed-type data. SFSDFC decomposes the feature space into a set of disjoint feature clusters using a novel density-based clustering method. Then, an effective feature selection strategy is employed to obtain a subset of important features with minimal redundancy from those feature clusters. Extensive experiments as well as comparison studies with five state-of-the-art methods are conducted on SFSDFC using thirteen real-world benchmark datasets and results justify the efficacy of the SFSDFC method.
翻訳日:2021-11-21 14:56:15 公開日:2021-11-10
# 多クラステキスト分類と生成のための転送学習に基づくエントロピー最適化半教師付きベクトル量子化変分オートエンコーダモデル

Entropy optimized semi-supervised decomposed vector-quantized variational autoencoder model based on transfer learning for multiclass text classification and generation ( http://arxiv.org/abs/2111.08453v1 )

ライセンス: Link先を確認
Shivani Malhotra, Vinay Kumar and Alpana Agarwal(参考訳) 半教師付きテキスト分類はここ数年、研究の主要な焦点となっている。 研究の大部分は教師付き学習に基づいているが、その主な欠点は、実践的な応用においてラベル付きデータサンプルが利用できないことである。 深い生成モデルを訓練し、監督なしで包括的な表現を学ぶことは依然として重要な課題である。 連続潜伏変数は主に深層潜伏変数モデルで使用されるが、離散潜伏変数は理解可能性の向上と圧縮表現の改善により、研究者によって効果的に使用される。 本稿では,マルチクラステキスト分類とテキスト生成のための半教師付き離散潜在変数モデルを提案する。 提案モデルでは,ラベル付きインスタンスを少なくして有能な学習が可能な量子化トランスフォーマーモデルをトレーニングするために,転送学習という概念を採用している。 このモデルは分解ベクトル量子化手法を適用し、後方崩壊や指数崩壊のような問題を克服する。 シャノンエントロピーは分割されたサブエンコーダに使われ、可変DropConnectが適用され、最大情報を保持する。 さらに、損失関数の勾配はデコーダからエンコーダへのバックプロパゲーション中に適応的に修正され、モデルの性能が向上する。 ラベル付きインスタンスの変数数で提案したモデルの検証には,従来の3つの多様化範囲データセットが使用されている。 実験結果は,提案モデルが最先端モデルを著しく上回っていることを示している。

Semisupervised text classification has become a major focus of research over the past few years. Hitherto, most of the research has been based on supervised learning, but its main drawback is the unavailability of labeled data samples in practical applications. It is still a key challenge to train the deep generative models and learn comprehensive representations without supervision. Even though continuous latent variables are employed primarily in deep latent variable models, discrete latent variables, with their enhanced understandability and better compressed representations, are effectively used by researchers. In this paper, we propose a semisupervised discrete latent variable model for multi-class text classification and text generation. The proposed model employs the concept of transfer learning for training a quantized transformer model, which is able to learn competently using fewer labeled instances. The model applies decomposed vector quantization technique to overcome problems like posterior collapse and index collapse. Shannon entropy is used for the decomposed sub-encoders, on which a variable DropConnect is applied, to retain maximum information. Moreover, gradients of the Loss function are adaptively modified during backpropagation from decoder to encoder to enhance the performance of the model. Three conventional datasets of diversified range have been used for validating the proposed model on a variable number of labeled instances. Experimental results indicate that the proposed model has surpassed the state-of-the-art models remarkably.
翻訳日:2021-11-21 14:52:46 公開日:2021-11-10
# マルチモーダル感情分析のためのユニモーダルとクロスモーダルのダイナミクスの変調

Which is Making the Contribution: Modulating Unimodal and Cross-modal Dynamics for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2111.08451v1 )

ライセンス: Link先を確認
Ying Zeng, Sijie Mai, Haifeng Hu(参考訳) マルチモーダル感情分析(MSA)は、マルチモーダルデータの利用により注目される。 MSAモデルの性能向上は、主に2つの問題によって妨げられている。 一方、近年のMSAはクロスモーダル力学の学習に重点を置いているが、MSAモデルの低限界を決定づけるユニモーダルネットワークの最適解の探索は無視されている。 一方で、各モダリティに隠されたノイズ情報は、正しいクロスモーダルダイナミクスの学習を妨げる。 上記の問題に対処するため, モダリティの寄与を識別し, ノイズ情報の影響を低減するために, モダリティとクロスモーダルのダイナミクスをよりよく学習するために, 新たな MSA フレームワーク \textbf{M}odulation \textbf{M}odel for \textbf{M}ultimodal \textbf{S}entiment \textbf{A}nalysis ({$ M^3SA $}) を提案する。 特に、変調損失は、各発話における個々のモダリティの信頼度に基づいて損失寄与を変調し、各ユニモーダルネットワークの最適な更新ソリューションを探索するように設計されている。 また,ノイズを明示的にフィルタリングしない既存の著作物とは異なり,モダリティフィルタモジュールを考案し,モダリティノイズを識別してフィルタし,正しいクロスモーダル埋め込みを学習する。 公開データセットに関する大規模な実験は、我々のアプローチが最先端のパフォーマンスを達成することを示す。

Multimodal sentiment analysis (MSA) draws increasing attention with the availability of multimodal data. The boost in performance of MSA models is mainly hindered by two problems. On the one hand, recent MSA works mostly focus on learning cross-modal dynamics, but neglect to explore an optimal solution for unimodal networks, which determines the lower limit of MSA models. On the other hand, noisy information hidden in each modality interferes the learning of correct cross-modal dynamics. To address the above-mentioned problems, we propose a novel MSA framework \textbf{M}odulation \textbf{M}odel for \textbf{M}ultimodal \textbf{S}entiment \textbf{A}nalysis ({$ M^3SA $}) to identify the contribution of modalities and reduce the impact of noisy information, so as to better learn unimodal and cross-modal dynamics. Specifically, modulation loss is designed to modulate the loss contribution based on the confidence of individual modalities in each utterance, so as to explore an optimal update solution for each unimodal network. Besides, contrary to most existing works which fail to explicitly filter out noisy information, we devise a modality filter module to identify and filter out modality noise for the learning of correct cross-modal embedding. Extensive experiments on publicly datasets demonstrate that our approach achieves state-of-the-art performance.
翻訳日:2021-11-21 14:31:15 公開日:2021-11-10
# 量子化ニューラルネットワークにおける信頼度とキャリブレーションの未熟なジレンマ

An Underexplored Dilemma between Confidence and Calibration in Quantized Neural Networks ( http://arxiv.org/abs/2111.08163v1 )

ライセンス: Link先を確認
Guoxuan Xia, Sangwon Ha, Tiago Azevedo, Partha Maji(参考訳) 現代の畳み込みニューラルネットワーク(CNN)は、目に見えない入力データのキャリブレーションに関して過信されていることが知られている。 つまり、彼らは正確さよりも自信を持っているのです。 予測される確率が下流の意思決定に使用される場合、これは望ましくない。 精度を考慮すると、CNNは計算とメモリコストの削減を目的とした量子化などの圧縮技術に対して驚くほど堅牢である。 このロバスト性は、現代CNNの校正行動によって部分的に説明でき、過信によって改善される可能性がある。 これは直感的な結果によるもので、信頼性の低い予測は、量子化後の変更が多いが、正確性は低い。 高い信頼性の予測はより正確だが、変更するのは難しいだろう。 これにより、量子化後の精度が最小限低下する。 これは、ニューラルネットワーク設計における潜在的な対立を示します。自信過剰によるキャリブレーションが悪化すると、量子化に対する堅牢性が向上します。 学習後の量子化をcifar-100およびimagenetデータセット上で様々なcnnに適用する実験を行う。

Modern convolutional neural networks (CNNs) are known to be overconfident in terms of their calibration on unseen input data. That is to say, they are more confident than they are accurate. This is undesirable if the probabilities predicted are to be used for downstream decision making. When considering accuracy, CNNs are also surprisingly robust to compression techniques, such as quantization, which aim to reduce computational and memory costs. We show that this robustness can be partially explained by the calibration behavior of modern CNNs, and may be improved with overconfidence. This is due to an intuitive result: low confidence predictions are more likely to change post-quantization, whilst being less accurate. High confidence predictions will be more accurate, but more difficult to change. Thus, a minimal drop in post-quantization accuracy is incurred. This presents a potential conflict in neural network design: worse calibration from overconfidence may lead to better robustness to quantization. We perform experiments applying post-training quantization to a variety of CNNs, on the CIFAR-100 and ImageNet datasets.
翻訳日:2021-11-21 14:29:46 公開日:2021-11-10
# (参考訳) 音楽知性に対する量子自然言語処理アプローチ

A Quantum Natural Language Processing Approach to Musical Intelligence ( http://arxiv.org/abs/2111.06741v1 )

ライセンス: CC BY 4.0
Eduardo Reck Miranda, Richie Yeung, Anna Pearson, Konstantinos Meichanetzidis, Bob Coecke(参考訳) 音楽の人工知能(AI)、特に音楽の作曲とインターネットによる商業化のための大規模データベースへのアクセスは、非常に進歩している。 我々は、この分野をさらに発展させ、構成に焦点をあてることに興味を持っている。 現在のブラックボックスAI手法とは対照的に、私たちは生成的音楽システムに関する解釈可能な構成的展望を擁護しています。 特に、音楽文法を動機とした自然言語処理(NLP)のための分散構成分類(DisCoCat)モデリングフレームワークからメソッドを輸入している。 量子コンピューティングは生まれたばかりの技術であり、将来音楽業界に影響を与える可能性が高い。 そこで我々は,新しい世代のインテリジェント音楽システムを開発するために,量子自然言語処理(QNLP)アプローチを開拓している。 この研究は、以前の量子ハードウェア上でのDisCoCat言語モデルの実験的実装に続くものである。 この章では、最初の概念実証であるQuanthovenを紹介します。 (a)異なる意味を伝達する音楽の分類を学ぶための量子コンピュータのプログラムが可能であることを示す。 (b)有意義な楽曲を作曲するシステムを開発するために、このような能力をどのように活用するかを示す。 音楽のコミュニケーションメディアとしての現在の理解と自然言語との関係に関する議論の後、その章は発展する技術に焦点を当てた。 (a)楽曲を量子回路としてエンコードし、 (b)量子分類器を設計する。 章はシステムで作成された構成のデモンストレーションで終わる。

There has been tremendous progress in Artificial Intelligence (AI) for music, in particular for musical composition and access to large databases for commercialisation through the Internet. We are interested in further advancing this field, focusing on composition. In contrast to current black-box AI methods, we are championing an interpretable compositional outlook on generative music systems. In particular, we are importing methods from the Distributional Compositional Categorical (DisCoCat) modelling framework for Natural Language Processing (NLP), motivated by musical grammars. Quantum computing is a nascent technology, which is very likely to impact the music industry in time to come. Thus, we are pioneering a Quantum Natural Language Processing (QNLP) approach to develop a new generation of intelligent musical systems. This work follows from previous experimental implementations of DisCoCat linguistic models on quantum hardware. In this chapter, we present Quanthoven, the first proof-of-concept ever built, which (a) demonstrates that it is possible to program a quantum computer to learn to classify music that conveys different meanings and (b) illustrates how such a capability might be leveraged to develop a system to compose meaningful pieces of music. After a discussion about our current understanding of music as a communication medium and its relationship to natural language, the chapter focuses on the techniques developed to (a) encode musical compositions as quantum circuits, and (b) design a quantum classifier. The chapter ends with demonstrations of compositions created with the system.
翻訳日:2021-11-16 01:21:25 公開日:2021-11-10
# (参考訳) 正規表現バイアスによる構造化テキスト認識の改善

Improving Structured Text Recognition with Regular Expression Biasing ( http://arxiv.org/abs/2111.06738v1 )

ライセンス: CC BY 4.0
Baoguang Shi, Wenfeng Cheng, Yijuan Lu, Cha Zhang, Dinei Florencio(参考訳) 本研究では,ある形式に従うテキストの認識の問題について検討し,偏見の正規表現(辞書)を指定することにより,構造化テキストの認識精度を向上させることを提案する。 バイアス付き認識器は、指定されたレジェクツにマッチするテキストを、他のテキストに対する一般的に小さな劣化のコストで、大幅に精度を向上する。 バイアスは、RegexをWFST(Weighted Finite-State Transducer)としてモデル化し、動的置換によってデコーダに注入することで実現される。 単一のハイパーパラメータがバイアス強度を制御する。 この方法は、既知のフォーマットやドメイン語彙からの単語を含むテキスト行を認識するのに有用である。 例えば、運転免許証番号、処方薬中の薬物名などである。 印刷および手書き構造化テキストのデータセットに対するレゲックスバイアスの有効性を実証し,その副作用を測定する。

We study the problem of recognizing structured text, i.e. text that follows certain formats, and propose to improve the recognition accuracy of structured text by specifying regular expressions (regexes) for biasing. A biased recognizer recognizes text that matches the specified regexes with significantly improved accuracy, at the cost of a generally small degradation on other text. The biasing is realized by modeling regexes as a Weighted Finite-State Transducer (WFST) and injecting it into the decoder via dynamic replacement. A single hyperparameter controls the biasing strength. The method is useful for recognizing text lines with known formats or containing words from a domain vocabulary. Examples include driver license numbers, drug names in prescriptions, etc. We demonstrate the efficacy of regex biasing on datasets of printed and handwritten structured text and measures its side effects.
翻訳日:2021-11-16 01:20:20 公開日:2021-11-10
# AnalogNets: ML-HW共設計によるノイズローバーなTinyMLモデルとアナログ・コンピュート・イン・メモリ・アクセラレータ

AnalogNets: ML-HW Co-Design of Noise-robust TinyML Models and Always-On Analog Compute-in-Memory Accelerator ( http://arxiv.org/abs/2111.06503v1 )

ライセンス: Link先を確認
Chuteng Zhou, Fernando Garcia Redondo, Julian B\"uchel, Irem Boybat, Xavier Timoneda Comas, S. R. Nandakumar, Shidhartha Das, Abu Sebastian, Manuel Le Gallo, Paul N. Whatmough(参考訳) IoTアプリケーションのTinyML認識タスクは、常に非常に高いエネルギー効率を必要とする。 非揮発性メモリ(NVM)を使用したアナログ・コンピュート・イン・メモリ(CiM)は高い効率を約束し、自己完結型のオンチップモデルストレージを提供する。 しかし、アナログCiMは、コンダクタンスドリフト、リード/ライトノイズ、固定アナログ-デジタルコンバータゲイン(ADC)など、新しい実践的考察を導入する。 これらの追加制約は、許容された精度の損失でアナログCiMにデプロイできるモデルを達成するために対処する必要がある。 この研究は、キーワードスポッティング(KWS)とビジュアルウェイクワード(VWW)の一般的な常時オンアプリケーションのための、$\textit{AnalogNets}$: TinyMLモデルを記述する。 モデルアーキテクチャはアナログCiMに特化して設計されており、アナログ非イデアリティや低精度データコンバータの予測時の精度を維持するための総合的なトレーニング手法を詳述する。 また,プログラム可能な最小領域位相変化メモリ(PCM)アナログCiMアクセラレータであるAON-CiMについて述べる。 実ハードウェアと同様に校正シミュレータ上でのアナログネットの評価を行い,kws/vwwの24時間ドリフト(8ビット)後の精度低下は0.8$\%$/1.2$$$$$$$であることを確認した。 14nmのAON-CiM加速器上で動作するアナログネットは、8ビットのアクティベーションを使用してKWS/VWWのワークロードに対して8.58/4.37 TOPS/Wを示し、57.39/25.69 TOPS/Wのアクティベーションは4ドルである。

Always-on TinyML perception tasks in IoT applications require very high energy efficiency. Analog compute-in-memory (CiM) using non-volatile memory (NVM) promises high efficiency and also provides self-contained on-chip model storage. However, analog CiM introduces new practical considerations, including conductance drift, read/write noise, fixed analog-to-digital (ADC) converter gain, etc. These additional constraints must be addressed to achieve models that can be deployed on analog CiM with acceptable accuracy loss. This work describes $\textit{AnalogNets}$: TinyML models for the popular always-on applications of keyword spotting (KWS) and visual wake words (VWW). The model architectures are specifically designed for analog CiM, and we detail a comprehensive training methodology, to retain accuracy in the face of analog non-idealities, and low-precision data converters at inference time. We also describe AON-CiM, a programmable, minimal-area phase-change memory (PCM) analog CiM accelerator, with a novel layer-serial approach to remove the cost of complex interconnects associated with a fully-pipelined design. We evaluate the AnalogNets on a calibrated simulator, as well as real hardware, and find that accuracy degradation is limited to 0.8$\%$/1.2$\%$ after 24 hours of PCM drift (8-bit) for KWS/VWW. AnalogNets running on the 14nm AON-CiM accelerator demonstrate 8.58/4.37 TOPS/W for KWS/VWW workloads using 8-bit activations, respectively, and increasing to 57.39/25.69 TOPS/W with $4$-bit activations.
翻訳日:2021-11-15 14:53:59 公開日:2021-11-10
# 病理画像合成のための多属性制御可能な生成モデル

A Multi-attribute Controllable Generative Model for Histopathology Image Synthesis ( http://arxiv.org/abs/2111.06398v1 )

ライセンス: Link先を確認
Jiarong Ye, Yuan Xue, Peter Liu, Richard Zaino, Keith Cheng, Xiaolei Huang(参考訳) 生成モデルは医用画像領域で様々な画像認識と合成タスクに応用されている。 しかし, 医用訓練支援などの重要な応用には, より制御可能な, 解釈可能な画像合成モデルが必要である。 本研究では,多属性入力に基づく高品質な病理画像を生成する属性認識画像合成モデルであるAttributeGANを実現するために,効率的な自己注意学習モジュールとコントラスト学習モジュールを活用して,最先端のジェネレーティブ・敵ネットワーク(GAN)を構築する。 既存の単一属性条件生成モデルと比較して,提案モデルは入力属性をよりよく反映し,属性値間のスムースな補間を可能にする。 尿路上皮癌の染色H&E画像を含む病理組織学的データセットについて実験を行い,本モデルと最先端モデルとの総合的定量的および定性的比較と,異なる変種との比較により,本モデルの有効性を実証した。 コードはhttps://github.com/karenyy/MICCAI2021AttributeGANで入手できる。

Generative models have been applied in the medical imaging domain for various image recognition and synthesis tasks. However, a more controllable and interpretable image synthesis model is still lacking yet necessary for important applications such as assisting in medical training. In this work, we leverage the efficient self-attention and contrastive learning modules and build upon state-of-the-art generative adversarial networks (GANs) to achieve an attribute-aware image synthesis model, termed AttributeGAN, which can generate high-quality histopathology images based on multi-attribute inputs. In comparison to existing single-attribute conditional generative models, our proposed model better reflects input attributes and enables smoother interpolation among attribute values. We conduct experiments on a histopathology dataset containing stained H&E images of urothelial carcinoma and demonstrate the effectiveness of our proposed model via comprehensive quantitative and qualitative comparisons with state-of-the-art models as well as different variants of our model. Code is available at https://github.com/karenyyy/MICCAI2021AttributeGAN.
翻訳日:2021-11-15 14:16:33 公開日:2021-11-10
# 組織病理画像分類におけるヒストガンの選択的合成増強

Selective Synthetic Augmentation with HistoGAN for Improved Histopathology Image Classification ( http://arxiv.org/abs/2111.06399v1 )

ライセンス: Link先を確認
Yuan Xue, Jiarong Ye, Qianying Zhou, Rodney Long, Sameer Antani, Zhiyun Xue, Carl Cornwell, Richard Zaino, Keith Cheng, Xiaolei Huang(参考訳) 病理組織学的解析は, 先天性病変の診断基準である。 デジタル画像からの病理組織学的自動分類の目標は、管理された訓練を必要とする。 一方,全スライディング画像から抽出した画像パッチの正確な分類は,標準スライディングウィンドウに基づく組織学的スライド分類法に不可欠である。 これらの問題を緩和するために, クラスラベルを条件とした現実的な病理組織像パッチを合成するために, 慎重に設計された条件付きganモデル, ヒストガンを提案する。 また,提案したHistoGANが生成する新たな合成画像パッチを選択的に追加する新たな合成拡張フレームワークについても検討した。 与えられたラベルの信頼性と実際のラベル画像との特徴の類似性に基づいて合成画像を選択することにより,合成拡張に対する品質保証を提供する。 対象は頸部組織病理画像データセットと転移性癌を伴うリンパ節病理画像データセットの2つである。 ここでは,HistoGAN生成画像の選択的増強により,頚部病理組織学および転移性癌データセットの分類性能(それぞれ6.7%と2.8%の精度)が有意に向上したことを示す。

Histopathological analysis is the present gold standard for precancerous lesion diagnosis. The goal of automated histopathological classification from digital images requires supervised training, which requires a large number of expert annotations that can be expensive and time-consuming to collect. Meanwhile, accurate classification of image patches cropped from whole-slide images is essential for standard sliding window based histopathology slide classification methods. To mitigate these issues, we propose a carefully designed conditional GAN model, namely HistoGAN, for synthesizing realistic histopathology image patches conditioned on class labels. We also investigate a novel synthetic augmentation framework that selectively adds new synthetic image patches generated by our proposed HistoGAN, rather than expanding directly the training set with synthetic images. By selecting synthetic images based on the confidence of their assigned labels and their feature similarity to real labeled images, our framework provides quality assurance to synthetic augmentation. Our models are evaluated on two datasets: a cervical histopathology image dataset with limited annotations, and another dataset of lymph node histopathology images with metastatic cancer. Here, we show that leveraging HistoGAN generated images with selective augmentation results in significant and consistent improvements of classification performance (6.7% and 2.8% higher accuracy, respectively) for cervical histopathology and metastatic cancer datasets.
翻訳日:2021-11-15 14:16:14 公開日:2021-11-10
# 移動予測が可能な時空間都市知識グラフ

Spatio-Temporal Urban Knowledge Graph Enabled Mobility Prediction ( http://arxiv.org/abs/2111.03465v2 )

ライセンス: Link先を確認
Huandong Wang, Qiaohong Yu, Yu Liu, Depeng Jin, Yong Li(参考訳) モバイル通信技術の急速な発展に伴い、インターネットサービスプロバイダ(ISP)とアプリケーションサービスプロバイダ(ASP)によって、人間の移動軌道が大量に収集される。 一方で、知識グラフの台頭パラダイム(kg)は、大規模軌道データから構造化された「知識」を抽出するための有望な解決策を提供する。 本稿では,知識グラフ手法に基づくユーザの時空間的モビリティパターンのモデル化と,複数の情報源から抽出された「知識」に基づくユーザの将来の動きのコヒーシブな予測に着目する。 具体的には,新たなタイプの知識グラフ,すなわち時空間都市知識グラフ(STKG)を提案する。 モビリティ予測問題はSTKGの知識グラフ補完問題に変換される。 さらに,詳細なスコアリング機能を備えた複合埋め込みモデルを提案し,移動パターンの時間的ダイナミクスを考慮し,poiカテゴリを補助情報と背景知識として利用する知識グラフ補完問題を解くために,stkgにおける事実の妥当性を測定した。 広範囲な評価により,ユーザのモビリティ予測におけるモデルの高精度性,すなわち最先端のアルゴリズムと比較して精度を5.04%向上することを確認した。 また、背景知識や補助情報としてのPoIカテゴリは、精度で3.85%向上することで有用であることを確認した。 さらに,提案手法は従来の手法と比較して計算時間を43.12%以上削減することで,時間効率が向上することを示した。

With the rapid development of the mobile communication technology, mobile trajectories of humans are massively collected by Internet service providers (ISPs) and application service providers (ASPs). On the other hand, the rising paradigm of knowledge graph (KG) provides us a promising solution to extract structured "knowledge" from massive trajectory data. In this paper, we focus on modeling users' spatio-temporal mobility patterns based on knowledge graph techniques, and predicting users' future movement based on the "knowledge'' extracted from multiple sources in a cohesive manner. Specifically, we propose a new type of knowledge graph, i.e., spatio-temporal urban knowledge graph (STKG), where mobility trajectories, category information of venues, and temporal information are jointly modeled by the facts with different relation types in STKG. The mobility prediction problem is converted to the knowledge graph completion problem in STKG. Further, a complex embedding model with elaborately designed scoring functions is proposed to measure the plausibility of facts in STKG to solve the knowledge graph completion problem, which considers temporal dynamics of the mobility patterns and utilizes PoI categories as the auxiliary information and background knowledge. Extensive evaluations confirm the high accuracy of our model in predicting users' mobility, i.e., improving the accuracy by 5.04% compared with the state-of-the-art algorithms. In addition, PoI categories as the background knowledge and auxiliary information are confirmed to be helpful by improving the performance by 3.85% in terms of accuracy. Additionally, experiments show that our proposed method is time-efficient by reducing the computational time by over 43.12% compared with existing methods.
翻訳日:2021-11-14 15:11:15 公開日:2021-11-10
# (参考訳) コントラスト型半監督学習と完全監督学習の比較による病理組織学的研究

A Histopathology Study Comparing Contrastive Semi-Supervised and Fully Supervised Learning ( http://arxiv.org/abs/2111.05882v1 )

ライセンス: CC BY 4.0
Lantian Zhang (1 and 2), Mohamed Amgad (2), Lee A.D. Cooper (2) ((1) North Shore Country Day, Winnetka, IL, USA, (2) Department of Pathology, Northwestern University, Chicago, IL, USA)(参考訳) データラベリングは、しばしば計算病理モデルを開発する際に最も難しいタスクである。 病理学者の参加は正確なラベルを生成するために必要であり、大きなラベル付きデータセットに対する病理学者の時間と需要の制限は、患者レベルラベルを用いた弱い教師付き学習、機械支援アノテーション、アクティブラーニングなどの分野の研究につながっている。 本稿では,計算病理学におけるラベル付け負担を軽減するための自己教師型学習について検討する。 barlow twinsアプローチによる乳癌組織分類の文脈でこれを検討し,低データシナリオにおける自己スーパービジョンと事前訓練されたネットワークなどの代替手段を比較した。 本稿では,画像ネットワークの事前学習が,Barlow Twins を用いた自己教師型表現よりも優れていることを示す。

Data labeling is often the most challenging task when developing computational pathology models. Pathologist participation is necessary to generate accurate labels, and the limitations on pathologist time and demand for large, labeled datasets has led to research in areas including weakly supervised learning using patient-level labels, machine assisted annotation and active learning. In this paper we explore self-supervised learning to reduce labeling burdens in computational pathology. We explore this in the context of classification of breast cancer tissue using the Barlow Twins approach, and we compare self-supervision with alternatives like pre-trained networks in low-data scenarios. For the task explored in this paper, we find that ImageNet pre-trained networks largely outperform the self-supervised representations obtained using Barlow Twins.
翻訳日:2021-11-13 06:05:13 公開日:2021-11-10
# (参考訳) 不完全な情報ゲームにおける検索

Search in Imperfect Information Games ( http://arxiv.org/abs/2111.05884v1 )

ライセンス: CC BY 4.0
Martin Schmid(参考訳) この分野の初期から、価値関数による探索はコンピュータゲーム研究の基本的な概念であった。 1950年のチューリングのチェスアルゴリズムは2つの前進を考えることができ、シャノンの1950ドルのチェスに関する研究には、探索で使われる評価関数に関する広範なセクションが含まれている。 1959年のsamuel's checkersプログラムは、セルフプレイとブートストラップによって学習される検索と値関数をすでに組み合わせている。 td-gammonはこれらのアイデアを改善し、ニューラルネットワークを使ってこれらの複雑な値関数を学習します。 DeepBlue for ChessやAlphaGo for Goといった長きにわたる挑戦的なゲームにおいて、コンピュータが人間に優越するという驚くべきマイルストーンに、意思決定時検索と価値関数の組み合わせが存在している。 最近まで、(学習された)値関数による検索の強力なフレームワークは、完全な情報ゲームに限定されてきた。 多くの興味深い問題がエージェントの完全な環境情報を提供していないため、これは不運な制限であった。 本論文では,不完全な情報ゲームの音声検索を読者に導入する。

From the very dawn of the field, search with value functions was a fundamental concept of computer games research. Turing's chess algorithm from 1950 was able to think two moves ahead, and Shannon's work on chess from $1950$ includes an extensive section on evaluation functions to be used within a search. Samuel's checkers program from 1959 already combines search and value functions that are learned through self-play and bootstrapping. TD-Gammon improves upon those ideas and uses neural networks to learn those complex value functions -- only to be again used within search. The combination of decision-time search and value functions has been present in the remarkable milestones where computers bested their human counterparts in long standing challenging games -- DeepBlue for Chess and AlphaGo for Go. Until recently, this powerful framework of search aided with (learned) value functions has been limited to perfect information games. As many interesting problems do not provide the agent perfect information of the environment, this was an unfortunate limitation. This thesis introduces the reader to sound search for imperfect information games.
翻訳日:2021-11-13 06:00:48 公開日:2021-11-10
# (参考訳) Persia: ディープラーニングベースのレコメンダを最大100トリリオンパラメータまでスケールアップするハイブリッドシステム

Persia: A Hybrid System Scaling Deep Learning Based Recommenders up to 100 Trillion Parameters ( http://arxiv.org/abs/2111.05897v1 )

ライセンス: CC0 1.0
Xiangru Lian, Binhang Yuan, Xuefeng Zhu, Yulong Wang, Yongjun He, Honghuan Wu, Lei Sun, Haodong Lyu, Chengjun Liu, Xing Dong, Yiqiao Liao, Mingnan Luo, Congfei Zhang, Jingru Xie, Haonan Li, Lei Chen, Renjie Huang, Jianying Lin, Chengchun Shu, Xuezhong Qiu, Zhishan Liu, Dongying Kong, Lei Yuan, Hai Yu, Sen Yang, Ce Zhang, Ji Liu(参考訳) ディープラーニングベースのモデルは、現在のプロダクションレコメンデータシステムのランドスケープを支配しています。 Furthermore, recent years have witnessed an exponential growth of the model scale--from Google's 2016 model with 1 billion parameters to the latest Facebook's model with 12 trillion parameters. Significant quality boost has come with each jump of the model capacity, which makes us believe the era of 100 trillion parameters is around the corner. However, the training of such models is challenging even within industrial scale data centers. This difficulty is inherited from the staggering heterogeneity of the training computation--the model's embedding layer could include more than 99.99% of the total model size, which is extremely memory-intensive; while the rest neural network is increasingly computation-intensive. このような巨大なモデルのトレーニングを支援するために、効率的な分散トレーニングシステムが必要である。 本稿では,最適化アルゴリズムと分散システムアーキテクチャの両方を慎重に設計することにより,この課題を解決する。 具体的には、トレーニング効率とトレーニング精度の両立を確保するために、埋め込み層と高密度ニューラルネットワークを異なる同期機構で処理するハイブリッドトレーニングアルゴリズムを設計し、このハイブリッドトレーニングアルゴリズムをサポートするために、persia(ハイブリッド加速度を用いた並列推奨トレーニングシステム)と呼ばれるシステムを構築する。 理論実証と100兆のパラメータに関する実証研究は、ペルシャのシステム設計と実装を正当化するために行われた。 私たちはpersiaを(https://github.com/persiaml/persiaで)公開し、誰でも100兆のパラメータのスケールで推奨モデルを簡単にトレーニングできるようにしています。

Deep learning based models have dominated the current landscape of production recommender systems. Furthermore, recent years have witnessed an exponential growth of the model scale--from Google's 2016 model with 1 billion parameters to the latest Facebook's model with 12 trillion parameters. Significant quality boost has come with each jump of the model capacity, which makes us believe the era of 100 trillion parameters is around the corner. However, the training of such models is challenging even within industrial scale data centers. This difficulty is inherited from the staggering heterogeneity of the training computation--the model's embedding layer could include more than 99.99% of the total model size, which is extremely memory-intensive; while the rest neural network is increasingly computation-intensive. To support the training of such huge models, an efficient distributed training system is in urgent need. In this paper, we resolve this challenge by careful co-design of both the optimization algorithm and the distributed system architecture. Specifically, in order to ensure both the training efficiency and the training accuracy, we design a novel hybrid training algorithm, where the embedding layer and the dense neural network are handled by different synchronization mechanisms; then we build a system called Persia (short for parallel recommendation training system with hybrid acceleration) to support this hybrid training algorithm. Both theoretical demonstration and empirical study up to 100 trillion parameters have conducted to justified the system design and implementation of Persia. We make Persia publicly available (at https://github.com/PersiaML/Persia) so that anyone would be able to easily train a recommender model at the scale of 100 trillion parameters.
翻訳日:2021-11-13 05:59:37 公開日:2021-11-10
# (参考訳) 重要度以上のスコア:特徴セマンティクスの可視化による表型mlの解釈

Beyond Importance Scores: Interpreting Tabular ML by Visualizing Feature Semantics ( http://arxiv.org/abs/2111.05898v1 )

ライセンス: CC BY 4.0
Amirata Ghorbani, Dina Berenbaum, Maor Ivgi, Yuval Dafna, James Zou(参考訳) 機械学習(ml)モデルは批判的な意思決定に広く使われているため、解釈性は活発な研究テーマになりつつある。 表データ(英: tabular data)は、医療や金融などの様々なアプリケーションにおいて最も一般的に使用されるデータモードの1つである。 表データで使用される既存の解釈可能性メソッドの多くは、機能インポータンススコア(ローカル(例)またはグローバル(モデル))のみを報告しているが、機能がどのように相互作用するかの解釈や可視化は提供していない。 表型データセット用に設計された新しいグローバル解釈手法であるfeature vectorsを導入することで,この制限に対処した。 機能の重要性に加えて、Feature Vectorsは直感的な機能可視化技術によって、機能間の固有のセマンティックな関係を発見する。 提案手法を実世界のデータセットに適用し,実験により実証的有用性を示す。 さらに,機能ベクタ用のpythonパッケージも提供しています。

Interpretability is becoming an active research topic as machine learning (ML) models are more widely used to make critical decisions. Tabular data is one of the most commonly used modes of data in diverse applications such as healthcare and finance. Much of the existing interpretability methods used for tabular data only report feature-importance scores -- either locally (per example) or globally (per model) -- but they do not provide interpretation or visualization of how the features interact. We address this limitation by introducing Feature Vectors, a new global interpretability method designed for tabular datasets. In addition to providing feature-importance, Feature Vectors discovers the inherent semantic relationship among features via an intuitive feature visualization technique. Our systematic experiments demonstrate the empirical utility of this new method by applying it to several real-world datasets. We further provide an easy-to-use Python package for Feature Vectors.
翻訳日:2021-11-13 05:19:06 公開日:2021-11-10
# (参考訳) 複数のデータセットにまたがる眼球運動によるユーザ識別に関する研究

An Extensive Study of User Identification via Eye Movements across Multiple Datasets ( http://arxiv.org/abs/2111.05901v1 )

ライセンス: CC BY 4.0
Sahar Mahdie Klim Al Zaidawi, Martin H.U. Prinzler, Jonas L\"uhrs and Sebastian Maneth(参考訳) いくつかの研究では、眼球運動特性に基づく生体認証が認証に利用できると報告されている。 本稿では,George と Routray が提案した手法の改良版に基づいて,複数のデータセットをまたいだ眼球運動によるユーザ識別について広範な研究を行う。 We analyzed our method with respect to several factors that affect the identification accuracy, such as the type of stimulus, the IVT parameters (used for segmenting the trajectories into fixation and saccades), adding new features such as higher-order derivatives of eye movements, the inclusion of blink information, template aging, age and gender.We find that three methods namely selecting optimal IVT parameters, adding higher-order derivatives features and including an additional blink classifier have a positive impact on the identification accuracy. 改善点は、いくつかのパーセンテージポイントから、データセットの1つで9パーセント向上しました。

Several studies have reported that biometric identification based on eye movement characteristics can be used for authentication. This paper provides an extensive study of user identification via eye movements across multiple datasets based on an improved version of method originally proposed by George and Routray. We analyzed our method with respect to several factors that affect the identification accuracy, such as the type of stimulus, the IVT parameters (used for segmenting the trajectories into fixation and saccades), adding new features such as higher-order derivatives of eye movements, the inclusion of blink information, template aging, age and gender.We find that three methods namely selecting optimal IVT parameters, adding higher-order derivatives features and including an additional blink classifier have a positive impact on the identification accuracy. The improvements range from a few percentage points, up to an impressive 9 % increase on one of the datasets.
翻訳日:2021-11-13 05:05:39 公開日:2021-11-10
# (参考訳) 野生でのダンス:ニューラルダイナミックな外観合成による単眼人間アニメーション

Dance In the Wild: Monocular Human Animation with Neural Dynamic Appearance Synthesis ( http://arxiv.org/abs/2111.05916v1 )

ライセンス: CC BY 4.0
Tuanfeng Y. Wang and Duygu Ceylan and Krishna Kumar Singh and Niloy J. Mitra(参考訳) 動作中の人間の動的外観の合成は、ar/vrやビデオ編集といったアプリケーションにおいて中心的な役割を果たす。 この問題に対処する多くの手法が提案されているが、複雑なテクスチャと高ダイナミックな動きによるゆるい衣服の扱いは依然として困難である。 本稿では、このような課題に対処し、これまで見せられていない映像の高品質な結果を示すビデオベース外観合成手法を提案する。 具体的には、個人固有の動画ベースのモーションリターゲティングのタスクに、StyleGANベースのアーキテクチャを採用する。 本研究では,時間的コヒーレンシを改善するために,動的外観変化を捉えるためにジェネレータの重みを変調する新しい動きシグネチャを導入し,単一のフレームに基づくポーズ推定を正規化する。 提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。

Synthesizing dynamic appearances of humans in motion plays a central role in applications such as AR/VR and video editing. While many recent methods have been proposed to tackle this problem, handling loose garments with complex textures and high dynamic motion still remains challenging. In this paper, we propose a video based appearance synthesis method that tackles such challenges and demonstrates high quality results for in-the-wild videos that have not been shown before. Specifically, we adopt a StyleGAN based architecture to the task of person specific video based motion retargeting. We introduce a novel motion signature that is used to modulate the generator weights to capture dynamic appearance changes as well as regularizing the single frame based pose estimates to improve temporal coherency. We evaluate our method on a set of challenging videos and show that our approach achieves state-of-the art performance both qualitatively and quantitatively.
翻訳日:2021-11-13 04:48:11 公開日:2021-11-10
# (参考訳) バイオメディカル領域における自動質問応答の最近の進歩

Recent Advances in Automated Question Answering In Biomedical Domain ( http://arxiv.org/abs/2111.05937v1 )

ライセンス: CC BY 4.0
Krishanu Das Baksi(参考訳) 自動質問回答システム(QA)の目的は,ユーザの質問に対する回答を,時間的に効率的に提供することである。 解答は通常、データベース(または知識ベース)または一般にコーパスと呼ばれる文書の集合に見出される。 過去数十年間、知識の獲得が急増しており、その結果、バイオメディシン分野における新しい科学論文が指数関数的に増加してきた。 そのため、ドメインの専門家であっても、ドメイン内のすべての情報を追跡することは困難になっている。 商用検索エンジンの改善により、ユーザはクエリを入力して、クエリに最も関連性の高いドキュメントの小さなセットと、いくつかのケースでドキュメントから関連するスニペットを取得することができる。 しかし、必要な情報や回答を手作業で探すのは、いまだに面倒で時間がかかります。 これにより、バイオメディシン領域におけるユーザが提供する自然言語質問に対する正確かつ正確な回答を見つけることを目的とした効率的なQAシステムの開発が必要となった。 本稿では,一般分野のQAシステム開発に使用される基本手法を紹介するとともに,ベンチマークデータセットや提案手法など,バイオメディカルQAシステムのさまざまな側面について,構造化データベースとテキストの収集の両方を用いて詳細に検討する。 また、現在のシステムの限界を探求し、さらなる進歩に向けた潜在的な道を探る。

The objective of automated Question Answering (QA) systems is to provide answers to user queries in a time efficient manner. The answers are usually found in either databases (or knowledge bases) or a collection of documents commonly referred to as the corpus. In the past few decades there has been a proliferation of acquisition of knowledge and consequently there has been an exponential growth in new scientific articles in the field of biomedicine. Therefore, it has become difficult to keep track of all the information in the domain, even for domain experts. With the improvements in commercial search engines, users can type in their queries and get a small set of documents most relevant for answering their query, as well as relevant snippets from the documents in some cases. However, it may be still tedious and time consuming to manually look for the required information or answers. This has necessitated the development of efficient QA systems which aim to find exact and precise answers to user provided natural language questions in the domain of biomedicine. In this paper, we introduce the basic methodologies used for developing general domain QA systems, followed by a thorough investigation of different aspects of biomedical QA systems, including benchmark datasets and several proposed approaches, both using structured databases and collection of texts. We also explore the limitations of current systems and explore potential avenues for further advancement.
翻訳日:2021-11-13 04:35:16 公開日:2021-11-10
# (参考訳) 人間とコンピュータにおける談話構造の新しいコーパス

A Novel Corpus of Discourse Structure in Humans and Computers ( http://arxiv.org/abs/2111.05940v1 )

ライセンス: CC BY 4.0
Babak Hemmatian, Sheridan Feucht, Rachel Avram, Alexander Wey, Muskaan Garg, Kate Spitalnic, Carsten Eickhoff, Ellie Pavlick, Bjorn Sandstede, Steven Sloman(参考訳) 本稿では,意味節タイプとコヒーレンス関係にアノテートされた約27,000節からなる,人間とコンピュータが生成した文書445のコーパスについて述べる。 コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2(Zellers et al., 2019)とGPT-3(Brown et al., 2020)を用いて生成された文書を含んでいる。 本コーパスはテキスト生成の詳細な談話分析に有用であり,コンピュータ生成物語や議論の質の低下に関連していることを示す予備的な証拠を提供することにより,文章生成の詳細な談話分析に有用であることを示す。

We present a novel corpus of 445 human- and computer-generated documents, comprising about 27,000 clauses, annotated for semantic clause types and coherence relations that allow for nuanced comparison of artificial and natural discourse modes. The corpus covers both formal and informal discourse, and contains documents generated using fine-tuned GPT-2 (Zellers et al., 2019) and GPT-3(Brown et al., 2020). We showcase the usefulness of this corpus for detailed discourse analysis of text generation by providing preliminary evidence that less numerous, shorter and more often incoherent clause relations are associated with lower perceived quality of computer-generated narratives and arguments.
翻訳日:2021-11-13 04:34:10 公開日:2021-11-10
# (参考訳) クロス入力一貫性を持つ自己教師付きマルチオブジェクトトラッキング

Self-Supervised Multi-Object Tracking with Cross-Input Consistency ( http://arxiv.org/abs/2111.05943v1 )

ライセンス: CC BY 4.0
Favyen Bastani, Songtao He, Sam Madden(参考訳) 本稿では,ラベルなしビデオのみを与えられたロバストマルチオブジェクトトラッキング(mot)モデルを学習するための自己教師あり学習手順を提案する。 色伝搬やサイクル整合性などの単一対象追跡に関する先行研究において、いくつかの自己超越学習信号が提案されているが、これらの信号は正確なMOTを達成するために必要なRNNモデルのトレーニングには直接適用できない。 そこで本研究では,同一映像列に対する2つの異なる入力を,各入力列の異なる情報を隠すことにより構築する,クロス入力一貫性と呼ばれる新しい自己スーパーバイザリー信号を提案する。 次に、各入力に対して独立してRNNモデルを適用することで、そのシーケンス内のトラックを計算し、2つの入力に対して一貫したトラックを生成するようにモデルを訓練する。 私たちはMOT17とKITTIで教師なしの手法を評価した -- 驚くべきことに、未ラベルのビデオのみをトレーニングしても、Tracktor++、FAMNet、GSM、mmMOTを含む過去1~2年で公表された4つの教師なしの手法よりも優れています。

In this paper, we propose a self-supervised learning procedure for training a robust multi-object tracking (MOT) model given only unlabeled video. While several self-supervisory learning signals have been proposed in prior work on single-object tracking, such as color propagation and cycle-consistency, these signals cannot be directly applied for training RNN models, which are needed to achieve accurate MOT: they yield degenerate models that, for instance, always match new detections to tracks with the closest initial detections. We propose a novel self-supervisory signal that we call cross-input consistency: we construct two distinct inputs for the same sequence of video, by hiding different information about the sequence in each input. We then compute tracks in that sequence by applying an RNN model independently on each input, and train the model to produce consistent tracks across the two inputs. We evaluate our unsupervised method on MOT17 and KITTI -- remarkably, we find that, despite training only on unlabeled video, our unsupervised approach outperforms four supervised methods published in the last 1--2 years, including Tracktor++, FAMNet, GSM, and mmMOT.
翻訳日:2021-11-13 04:27:48 公開日:2021-11-10
# (参考訳) ベイズニューラルネットワークにおける自己圧縮

Self-Compression in Bayesian Neural Networks ( http://arxiv.org/abs/2111.05950v1 )

ライセンス: CC BY 4.0
Giuseppina Carannante, Dimah Dera, Ghulam Rasool and Nidhal C. Bouaynaya(参考訳) 機械学習モデルは様々なタスクで人間レベルのパフォーマンスを達成している。 この成功は、計算とストレージのオーバヘッドのコストが高く、エッジデバイスへのデプロイを機械学習アルゴリズムが困難にする。 通常、メモリ使用量の削減とエネルギー消費の観点から定量化される性能の向上を優先して、部分的に精度を犠牲にしなければならない。 現在の方法は、パラメータの精度を下げたり、冗長なパラメータを排除してネットワークを圧縮する。 本稿では,ベイズフレームワークを用いたネットワーク圧縮に関する新たな知見を提案する。 ベイズ型ニューラルネットワークはモデルパラメータの冗長性を自動的に検出し,ネットワークの層間における不確かさの伝播と連動する自己圧縮を可能にする。 実験の結果,同一の精度を維持しつつ,ネットワーク自体が識別するパラメータを削除することで,ネットワークアーキテクチャを効果的に圧縮できることがわかった。

Machine learning models have achieved human-level performance on various tasks. This success comes at a high cost of computation and storage overhead, which makes machine learning algorithms difficult to deploy on edge devices. Typically, one has to partially sacrifice accuracy in favor of an increased performance quantified in terms of reduced memory usage and energy consumption. Current methods compress the networks by reducing the precision of the parameters or by eliminating redundant ones. In this paper, we propose a new insight into network compression through the Bayesian framework. We show that Bayesian neural networks automatically discover redundancy in model parameters, thus enabling self-compression, which is linked to the propagation of uncertainty through the layers of the network. Our experimental results show that the network architecture can be successfully compressed by deleting parameters identified by the network itself while retaining the same level of accuracy.
翻訳日:2021-11-13 04:11:37 公開日:2021-11-10
# (参考訳) 深部ニューラルネットワークにおけるエンサンブル密度伝播によるロバスト学習

Robust Learning via Ensemble Density Propagation in Deep Neural Networks ( http://arxiv.org/abs/2111.05953v1 )

ライセンス: CC BY 4.0
Giuseppina Carannante, Dimah Dera, Ghulam Rasool, Nidhal C. Bouaynaya, and Lyudmila Mihaylova(参考訳) 不確実、ノイズ、あるいは敵対的な環境での学習は、ディープニューラルネットワーク(DNN)にとって難しい課題である。 ベイズ推定と変分推論に基づく頑健な学習のための理論的基礎と効率的なアプローチを提案する。 本稿では,DNNの層内における密度伝搬の問題を定式化し,Ensemble Density Propagation (EnDP) 方式を用いて解決する。 EnDPアプローチによりベイズDNNの層にまたがる変動確率分布のモーメントを伝播することができ、モデルの出力における予測分布の平均と共分散を推定できる。 MNISTとCIFAR-10データセットを用いた実験は、ランダムノイズや対向攻撃に対するトレーニングモデルのロバスト性を大幅に改善したことを示す。

Learning in uncertain, noisy, or adversarial environments is a challenging task for deep neural networks (DNNs). We propose a new theoretically grounded and efficient approach for robust learning that builds upon Bayesian estimation and Variational Inference. We formulate the problem of density propagation through layers of a DNN and solve it using an Ensemble Density Propagation (EnDP) scheme. The EnDP approach allows us to propagate moments of the variational probability distribution across the layers of a Bayesian DNN, enabling the estimation of the mean and covariance of the predictive distribution at the output of the model. Our experiments using MNIST and CIFAR-10 datasets show a significant improvement in the robustness of the trained models to random noise and adversarial attacks.
翻訳日:2021-11-13 04:01:57 公開日:2021-11-10
# (参考訳) 長尾分類のための特徴生成

Feature Generation for Long-tail Classification ( http://arxiv.org/abs/2111.05956v1 )

ライセンス: CC BY 4.0
Rahul Vigneswaran and Marc T. Law and Vineeth N. Balasubramanian and Makarand Tapaswi(参考訳) 視覚の世界は自然にオブジェクトやシーンインスタンスの数に不均衡を示し、結果として \emph{long-tailed distribution} となる。 この不均衡は、ディープラーニングに基づく分類モデルに重大な課題をもたらす。 尾クラスのオーバーサンプリングは、この不均衡を解消しようとする。 しかし、限られた視覚的多様性は、表現能力の低いネットワークをもたらす。 これに対する単純なカウンターは、表現と分類器ネットワークを分離し、オーバーサンプリングを使用して分類器を訓練することである。 本稿では,同じ画像(と特徴)を繰り返しサンプリングするのではなく,テールカテゴリの分布を推定することで有意義な特徴を発生させる方向を探索する。 数ショット学習に関する最近の研究のアイデアに触発されて、分類器の訓練に使用される追加機能のサンプルを作成する。 CIFAR-100-LT(long-tail)データセットとmini-ImageNet-LT(long-tail)を用いたいくつかの実験により,本手法の有効性を示し,新しい最先端技術を確立する。 また,t-sneビジュアライゼーションを用いた生成特徴の定性解析を行い,テールクラス分布の校正に用いる最近傍の分析を行った。 私たちのコードはhttps://github.com/rahulvigneswaran/tailcalibxで利用可能です。

The visual world naturally exhibits an imbalance in the number of object or scene instances resulting in a \emph{long-tailed distribution}. This imbalance poses significant challenges for classification models based on deep learning. Oversampling instances of the tail classes attempts to solve this imbalance. However, the limited visual diversity results in a network with poor representation ability. A simple counter to this is decoupling the representation and classifier networks and using oversampling only to train the classifier. In this paper, instead of repeatedly re-sampling the same image (and thereby features), we explore a direction that attempts to generate meaningful features by estimating the tail category's distribution. Inspired by ideas from recent work on few-shot learning, we create calibrated distributions to sample additional features that are subsequently used to train the classifier. Through several experiments on the CIFAR-100-LT (long-tail) dataset with varying imbalance factors and on mini-ImageNet-LT (long-tail), we show the efficacy of our approach and establish a new state-of-the-art. We also present a qualitative analysis of generated features using t-SNE visualizations and analyze the nearest neighbors used to calibrate the tail class distributions. Our code is available at https://github.com/rahulvigneswaran/TailCalibX.
翻訳日:2021-11-13 03:51:24 公開日:2021-11-10
# (参考訳) 個人化協調学習における線形高速化

Linear Speedup in Personalized Collaborative Learning ( http://arxiv.org/abs/2111.05968v1 )

ライセンス: CC BY 4.0
El Mahdi Chayti, Sai Praneeth Karimireddy, Sebastian U. Stich, Nicolas Flammarion, and Martin Jaggi(参考訳) フェデレート学習におけるパーソナライゼーションは、モデルのバイアス(潜在的に異なる他のユーザのデータを使用することによって導入される)を、その分散(任意のユーザ上の限られた量のデータのため)から引き離すことによって、モデルの精度を向上させることができる。 このトレードオフを最適にバランスさせるトレーニングアルゴリズムを開発するためには、理論基盤を拡張する必要がある。 本研究では、ユーザの目的である$f_0(x)$の確率的最適化としてパーソナライズされた協調学習問題を定式化するとともに、他のユーザの目標である$\{f_1(x), \dots, f_N(x)\}$へのアクセスを付与する。 この設定では,2つのアルゴリズムの収束保証 – 一般的なパーソナライズ手法である 'emph{weighted gradient averaging} と,新しい 'emph{bias correct} 法 – が与えられ,分散の低減のためにバイアスを最適にトレードオフし,線形スピードアップを達成できる条件を探索する。 さらに,理論的な知見を裏付ける効果についても実験的に検討した。

Personalization in federated learning can improve the accuracy of a model for a user by trading off the model's bias (introduced by using data from other users who are potentially different) against its variance (due to the limited amount of data on any single user). In order to develop training algorithms that optimally balance this trade-off, it is necessary to extend our theoretical foundations. In this work, we formalize the personalized collaborative learning problem as stochastic optimization of a user's objective $f_0(x)$ while given access to $N$ related but different objectives of other users $\{f_1(x), \dots, f_N(x)\}$. We give convergence guarantees for two algorithms in this setting -- a popular personalization method known as \emph{weighted gradient averaging}, and a novel \emph{bias correction} method -- and explore conditions under which we can optimally trade-off their bias for a reduction in variance and achieve linear speedup w.r.t.\ the number of users $N$. Further, we also empirically study their performance confirming our theoretical insights.
翻訳日:2021-11-13 03:33:47 公開日:2021-11-10
# (参考訳) PowerGridworld: 電力システムにおけるマルチエージェント強化学習フレームワーク

PowerGridworld: A Framework for Multi-Agent Reinforcement Learning in Power Systems ( http://arxiv.org/abs/2111.05969v1 )

ライセンス: CC BY 4.0
David Biagioni, Xiangyu Zhang, Dylan Wald, Deepthi Vaidhynathan, Rohit Chintala, Jennifer King, Ahmed S. Zamzam(参考訳) 我々は,powergridworldソフトウェアパッケージをユーザに提供して,既存の強化学習(rl)のためのトレーニングフレームワークと容易に統合可能な,パワーシステムにフォーカスしたマルチエージェントジム環境を作成するための軽量でモジュール化されたカスタマイズ可能なフレームワークを提供する。 マルチエージェントRL (MARL) ポリシをトレーニングするためのフレームワークは数多く存在するが、特にグリッドレベルの変数とコストを定義するために電力フローソリューションを必要とする異種(複合型、マルチデバイス)のパワーシステムにおいて、環境自体を迅速にプロトタイプ化し開発することはできない。 PowerGridworldは、このギャップを埋めるためのオープンソースのソフトウェアパッケージだ。 PowerGridworld の重要な特徴を明らかにするために,OpenAI のマルチエージェント深層決定性ポリシー勾配 (MADDPG) と RLLib の近近性ポリシー最適化 (PPO) アルゴリズムの両方を用いて,MARL ポリシーの学習を行う。 どちらの場合でも、エージェントの少なくとも一部のサブセットは、報酬(負のコスト)構造の一部として各時間ステップのパワーフローソリューションの要素を組み込んでいる。

We present the PowerGridworld software package to provide users with a lightweight, modular, and customizable framework for creating power-systems-focused, multi-agent Gym environments that readily integrate with existing training frameworks for reinforcement learning (RL). Although many frameworks exist for training multi-agent RL (MARL) policies, none can rapidly prototype and develop the environments themselves, especially in the context of heterogeneous (composite, multi-device) power systems where power flow solutions are required to define grid-level variables and costs. PowerGridworld is an open-source software package that helps to fill this gap. To highlight PowerGridworld's key features, we present two case studies and demonstrate learning MARL policies using both OpenAI's multi-agent deep deterministic policy gradient (MADDPG) and RLLib's proximal policy optimization (PPO) algorithms. In both cases, at least some subset of agents incorporates elements of the power flow solution at each time step as part of their reward (negative cost) structures.
翻訳日:2021-11-13 02:47:03 公開日:2021-11-10
# (参考訳) Amazon SageMaker Model Parallelism - 大規模モデルトレーニングのための汎用的で柔軟なフレームワーク

Amazon SageMaker Model Parallelism: A General and Flexible Framework for Large Model Training ( http://arxiv.org/abs/2111.05972v1 )

ライセンス: CC BY 4.0
Can Karakus, Rahul Huilgol, Fei Wu, Anirudh Subramanian, Cade Daniel, Derya Cavdar, Teng Xu, Haohan Chen, Arash Rahnama, Luis Quintela(参考訳) ディープラーニングモデルのサイズが急速に大きくなると、大規模モデルのトレーニングのためのシステムレベルのソリューションが求められます。 我々は、PyTorchと統合したソフトウェアライブラリであるAmazon SageMakerモデル並列性を示し、モデル並列性やその他のメモリ節約機能を使用して、大規模モデルのトレーニングを容易にする。 既存のソリューションとは対照的に、SageMakerライブラリの実装はずっと汎用的で柔軟で、任意のモデルアーキテクチャ上でパイプラインの並列処理を分割し、最小限のコード変更で実行することができ、また、テンソル並列処理のための汎用的で拡張可能なフレームワークを提供し、幅広いユースケースをサポートし、新しいトレーニングスクリプトに簡単に適用できるモジュラーを提供する。 ライブラリはまた、ネイティブのPyTorchユーザエクスペリエンスをはるかに大きく保存し、モジュールの再使用と動的グラフをサポートしながら、トレーニングステップの詳細を完全にコントロールする。 GPT-3, RoBERTa, BERT, およびニューラルコラボレーティブフィルタリングの性能を評価し, 既存のソリューションに対する競合性能を示す。

With deep learning models rapidly growing in size, systems-level solutions for large-model training are required. We present Amazon SageMaker model parallelism, a software library that integrates with PyTorch, and enables easy training of large models using model parallelism and other memory-saving features. In contrast to existing solutions, the implementation of the SageMaker library is much more generic and flexible, in that it can automatically partition and run pipeline parallelism over arbitrary model architectures with minimal code change, and also offers a general and extensible framework for tensor parallelism, which supports a wider range of use cases, and is modular enough to be easily applied to new training scripts. The library also preserves the native PyTorch user experience to a much larger degree, supporting module re-use and dynamic graphs, while giving the user full control over the details of the training step. We evaluate performance over GPT-3, RoBERTa, BERT, and neural collaborative filtering, and demonstrate competitive performance over existing solutions.
翻訳日:2021-11-13 02:37:06 公開日:2021-11-10
# (参考訳) ロジスティック回帰、決定木、ニューラルネットワークを用いたチェスエンドゲーム問題の分類

Classification of the Chess Endgame problem using Logistic Regression, Decision Trees, and Neural Networks ( http://arxiv.org/abs/2111.05976v1 )

ライセンス: CC BY 4.0
Mahmoud S. Fayed(参考訳) 本研究では,ロジスティック回帰,決定木,ニューラルネットワークなどのアルゴリズムを用いて,チェスエンドゲーム問題の分類を行った。 実験の結果,ニューラルネットワークが最良精度(85%)で決定木(79%)を提供することがわかった。 これらの実験では、Microsoft Azure Machine Learningをケーススタディとして、分類にVisual Programmingを使用しました。 私たちの実験では、このツールが強力で多くの時間を節約できることが示されています。 我々はまた、Ringという新しいプログラミング言語を使ったデータセットの可視化アプリケーションを開発した。実験では、この言語はPythonのようなシンプルな設計であり、オープンソースのGUI開発に適したVisual BasicのようなRADツールを統合している。

In this study we worked on the classification of the Chess Endgame problem using different algorithms like logistic regression, decision trees and neural networks. Our experiments indicates that the Neural Networks provides the best accuracy (85%) then the decision trees (79%). We did these experiments using Microsoft Azure Machine Learning as a case-study on using Visual Programming in classification. Our experiments demonstrates that this tool is powerful and save a lot of time, also it could be improved with more features that increase the usability and reduce the learning curve. We also developed an application for dataset visualization using a new programming language called Ring, our experiments demonstrates that this language have simple design like Python while integrates RAD tools like Visual Basic which is good for GUI development in the open-source world
翻訳日:2021-11-13 02:03:07 公開日:2021-11-10
# (参考訳) 不確実性推定による信頼できる医用セグメンテーション

Trustworthy Medical Segmentation with Uncertainty Estimation ( http://arxiv.org/abs/2111.05978v1 )

ライセンス: CC BY 4.0
Giuseppina Carannante, Dimah Dera, Nidhal C.Bouaynaya, Rasool Ghulam, and Hassan M. Fathallah-Shaykh(参考訳) 深層学習(DL)は、正確さ、効率、客観性を考慮し、医療システムを再構築する上で大きな可能性を秘めている。 しかし, DLモデルのノイズやアウト・オブ・ディストリビューション入力に対する脆さは, 診療所への展開を妨げている。 ほとんどのシステムは、モデルの不確実性や信頼性に関するさらなる情報なしで点推定を生成する。 本稿では,セグメンテーションニューラルネットワーク,特にエンコーダ・デコーダアーキテクチャにおける不確実性定量化のための新しいベイズディープラーニングフレームワークを提案する。 提案フレームワークはテイラー級数近似を用いて、トレーニングデータから得られたモデルパラメータの分布の最初の2つのモーメント(平均と共分散)を伝播し学習する。 出力はセグメンテーションの画像とセグメンテーションの不確実性マップの2つのマップで構成される。 セグメンテーション決定の不確実性は予測分布の共分散行列によって把握される。 磁気共鳴画像とctスキャンから得られた医用画像分割データの枠組みについて検討した。 複数のベンチマークデータセットに対する実験により,提案手法は,最先端セグメンテーションモデルと比較して,ノイズや敵攻撃に対してより堅牢であることが示された。 さらに,提案フレームワークの不確実性マップは,ノイズやアーティファクト,敵の攻撃で破損したテスト入力画像のパッチと低信頼(あるいは同等に高い不確実性)を関連付ける。 これにより、不確実性マップに高い値を示すことによって、誤った予測を行う場合や、腫瘍などのセグメンテーション構造の一部を見逃す場合に、そのセグメンテーション決定を自己評価することができる。

Deep Learning (DL) holds great promise in reshaping the healthcare systems given its precision, efficiency, and objectivity. However, the brittleness of DL models to noisy and out-of-distribution inputs is ailing their deployment in the clinic. Most systems produce point estimates without further information about model uncertainty or confidence. This paper introduces a new Bayesian deep learning framework for uncertainty quantification in segmentation neural networks, specifically encoder-decoder architectures. The proposed framework uses the first-order Taylor series approximation to propagate and learn the first two moments (mean and covariance) of the distribution of the model parameters given the training data by maximizing the evidence lower bound. The output consists of two maps: the segmented image and the uncertainty map of the segmentation. The uncertainty in the segmentation decisions is captured by the covariance matrix of the predictive distribution. We evaluate the proposed framework on medical image segmentation data from Magnetic Resonances Imaging and Computed Tomography scans. Our experiments on multiple benchmark datasets demonstrate that the proposed framework is more robust to noise and adversarial attacks as compared to state-of-the-art segmentation models. Moreover, the uncertainty map of the proposed framework associates low confidence (or equivalently high uncertainty) to patches in the test input images that are corrupted with noise, artifacts or adversarial attacks. Thus, the model can self-assess its segmentation decisions when it makes an erroneous prediction or misses part of the segmentation structures, e.g., tumor, by presenting higher values in the uncertainty map.
翻訳日:2021-11-13 01:56:24 公開日:2021-11-10
# (参考訳) 自己監督型リアルタイムビデオ安定化

Self-Supervised Real-time Video Stabilization ( http://arxiv.org/abs/2111.05980v1 )

ライセンス: CC BY 4.0
Jinsoo Choi, Jaesik Park, In So Kweon(参考訳) ビデオは人気のメディア形式であり、最近オンラインビデオストリーミングが人気を集めている。 本研究では,リアルタイム映像安定化のための新しい手法を提案する。 私たちのフレームワークは自己監視的な方法でトレーニング可能で、特別なハードウェアセットアップ(ステレオリグ上の2つのカメラや、追加のモーションセンサー)でキャプチャされたデータを必要としない。 提案手法は,大域的安定性調整のための与えられたフレーム間の変換推定器と,空間的平滑化光フローによるシーンパララックス低減モジュールとからなる。 そして、マージン塗装モジュールは、安定化中に作成されたマージン領域を満たし、ポストクロッピングの量を減少させる。 これらの逐次ステップは、安定性を高めながら歪みとマージンの切り込みを最小にする。 したがって,最先端のリアルタイム映像安定化手法やカメラの軌道最適化を必要とするオフライン手法を上回っている。 提案手法は解像度によらず約24.3ミリ秒、41fps(例えば480pまたは1080p)である。

Videos are a popular media form, where online video streaming has recently gathered much popularity. In this work, we propose a novel method of real-time video stabilization - transforming a shaky video to a stabilized video as if it were stabilized via gimbals in real-time. Our framework is trainable in a self-supervised manner, which does not require data captured with special hardware setups (i.e., two cameras on a stereo rig or additional motion sensors). Our framework consists of a transformation estimator between given frames for global stability adjustments, followed by scene parallax reduction module via spatially smoothed optical flow for further stability. Then, a margin inpainting module fills in the missing margin regions created during stabilization to reduce the amount of post-cropping. These sequential steps reduce distortion and margin cropping to a minimum while enhancing stability. Hence, our approach outperforms state-of-the-art real-time video stabilization methods as well as offline methods that require camera trajectory optimization. Our method procedure takes approximately 24.3 ms yielding 41 fps regardless of resolution (e.g., 480p or 1080p).
翻訳日:2021-11-13 01:34:23 公開日:2021-11-10
# (参考訳) 言語間情報検索

Cross-language Information Retrieval ( http://arxiv.org/abs/2111.05988v1 )

ライセンス: CC BY-SA 4.0
Petra Galu\v{s}\v{c}\'akov\'a, Douglas W. Oard, Suraj Nair(参考訳) 2つの重要な仮定がランク付けされた検索の一般的な見方を形作っている:(1)検索者が見たい文書に現れる可能性のあるクエリの単語を選択できること、(2)検索した文書のランク付けは、検索者が検索したいものを認識できるので十分である。 検索対象の文書が、検索者が知らない言語に属する場合、どちらの仮定も真実ではない。 このような場合、CLIR(Cross-Language Information Retrieval)が必要である。 本章では,言語間情報検索技術の現状を概観し,いくつかのオープンな研究課題について概説する。

Two key assumptions shape the usual view of ranked retrieval: (1) that the searcher can choose words for their query that might appear in the documents that they wish to see, and (2) that ranking retrieved documents will suffice because the searcher will be able to recognize those which they wished to find. When the documents to be searched are in a language not known by the searcher, neither assumption is true. In such cases, Cross-Language Information Retrieval (CLIR) is needed. This chapter reviews the state of the art for cross-language information retrieval and outlines some open research questions.
翻訳日:2021-11-13 01:24:13 公開日:2021-11-10
# クロスモーダルアテンションを用いたマルチモーダルエンドツーエンドグループ感情認識

Multimodal End-to-End Group Emotion Recognition using Cross-Modal Attention ( http://arxiv.org/abs/2111.05890v1 )

ライセンス: Link先を確認
Lev Evtodienko(参考訳) グループレベルの感情を分類することは、映像の複雑さのために難しい課題であり、視覚だけでなく、音声情報も考慮すべきである。 既存のマルチモーダル感情認識の研究では、トレーニング済みのニューラルネットワークを特徴抽出器として使用し、抽出された特徴を融合させるという、バルクなアプローチを採用している。 しかし、このアプローチはマルチモーダルデータの属性を考慮せず、モデル全体の精度に不利な特定のタスクに対して特徴抽出器を微調整することはできない。 この結果、私たちの影響は2倍になります。 i) ニューラルネットワークの初期の層を、2つのモダリティの融合層を考慮に入れて適応させることができるモデルエンドツーエンドを訓練する。 (II) モデルの全層は感情認識の下流タスクのために微調整されていたため、ニューラルネットワークをゼロからトレーニングする必要はない。 我々のモデルは,VGAFデータセットベースラインよりも約8.5%高い60.37%の検証精度を達成し,既存の作業,オーディオ,ビデオのモダリティと競合する。

Classifying group-level emotions is a challenging task due to complexity of video, in which not only visual, but also audio information should be taken into consideration. Existing works on multimodal emotion recognition are using bulky approach, where pretrained neural networks are used as a feature extractors and then extracted features are being fused. However, this approach does not consider attributes of multimodal data and feature extractors cannot be fine-tuned for specific task which can be disadvantageous for overall model accuracy. To this end, our impact is twofold: (i) we train model end-to-end, which allows early layers of neural network to be adapted with taking into account later, fusion layers, of two modalities; (ii) all layers of our model was fine-tuned for downstream task of emotion recognition, so there were no need to train neural networks from scratch. Our model achieves best validation accuracy of 60.37% which is approximately 8.5% higher, than VGAF dataset baseline and is competitive with existing works, audio and video modalities.
翻訳日:2021-11-12 15:32:11 公開日:2021-11-10
# 臨床検体からの総合的深層学習に基づくCough解析システム : ポイント・オブ・ニード・コビッド・テストと重症度

A Generic Deep Learning Based Cough Analysis System from Clinically Validated Samples for Point-of-Need Covid-19 Test and Severity Levels ( http://arxiv.org/abs/2111.05895v1 )

ライセンス: Link先を確認
Javier Andreu-Perez, Humberto P\'erez-Espinosa, Eva Timonet, Mehrin Kiani, Manuel I. Gir\'on-P\'erez, Alma B. Benitez-Trinidad, Delaram Jarchi, Alejandro Rosales-P\'erez, Nick Gatzoulis, Orion F. Reyes-Galaviz, Alejandro Torres-Garc\'ia, Carlos A. Reyes-Garc\'ia, Zulfiqar Ali, Francisco Rivas(参考訳) 実験室分子検査8,380例(Covid-19陽性2,339例,Covid-19陰性6,041例)の臨床検査結果に基づいて,Covid-19の迅速スクリーニングツールの検出性能を評価する。 臨床検査では, 定量的RT-PCR(qRT-PCR)分析, サイクルしきい値, リンパ球数に基づいて臨床検査を行った。 提案手法は経験的モード分解(emd)に基づくアルゴリズムであり,それに続く音響特徴のテンソルに基づく分類と,deepcoughと呼ばれる畳み込み層を持つディープニューラルネットワーク分類器である。 DeepCoughの2つの異なるバージョン、すなわちDeepCough2DとDeepCough3Dのテンソル次元について検討した。 これらのメソッドは、匿名でこのテストを管理するために、マルチプラットフォームのWeb App CoughDetectにデプロイされている。 新型コロナウイルスの認識率は98.800.83%で、感度96.431.85%、特異性96.201.74%、重症度3つに81.08%5.05%であった。 新型ウイルスのロバストで高速かつポイント・オブ・ニーズな識別のためのwebツールと基盤アルゴリズムを提案することで,感染の迅速検出が容易になる。 われわれは、世界中の新型コロナウイルスのパンデミックを著しく阻害する可能性があると考えている。

We seek to evaluate the detection performance of a rapid primary screening tool of Covid-19 solely based on the cough sound from 8,380 clinically validated samples with laboratory molecular-test (2,339 Covid-19 positives and 6,041 Covid-19 negatives). Samples were clinically labeled according to the results and severity based on quantitative RT-PCR (qRT-PCR) analysis, cycle threshold, and lymphocytes count from the patients. Our proposed generic method is an algorithm based on Empirical Mode Decomposition (EMD) with subsequent classification based on a tensor of audio features and a deep artificial neural network classifier with convolutional layers called DeepCough'. Two different versions of DeepCough based on the number of tensor dimensions, i.e. DeepCough2D and DeepCough3D, have been investigated. These methods have been deployed in a multi-platform proof-of-concept Web App CoughDetect to administer this test anonymously. Covid-19 recognition results rates achieved a promising AUC (Area Under Curve) of 98.800.83%, sensitivity of 96.431.85%, and specificity of 96.201.74%, and 81.08%5.05% AUC for the recognition of three severity levels. Our proposed web tool and underpinning algorithm for the robust, fast, point-of-need identification of Covid-19 facilitates the rapid detection of the infection. We believe that it has the potential to significantly hamper the Covid-19 pandemic across the world.
翻訳日:2021-11-12 15:31:51 公開日:2021-11-10
# SPA-GCN:グラフ類似性計算のための効率よく柔軟なGCN加速器

SPA-GCN: Efficient and Flexible GCN Accelerator with an Application for Graph Similarity Computation ( http://arxiv.org/abs/2111.05936v1 )

ライセンス: Link先を確認
Atefeh Sohrabizadeh, Yuze Chi, Jason Cong(参考訳) 画像の深層学習のためのハードウェアアクセラレーションに関する研究は数多く行われているが、グラフを含む深層学習アプリケーションの高速化に焦点が当てられている。 不規則なメモリアクセスや動的並列性といったグラフのユニークな特徴は、アルゴリズムがcpuやgpuにマッピングされるときにいくつかの課題を課す。 これらの課題に対処するため,グラフ上のディープラーニングアルゴリズムのコア計算ユニットであるGraph Convolutional Networks (GCN) を高速化するための,SPA-GCNと呼ばれる柔軟なアーキテクチャを提案する。 アーキテクチャは、グラフのサイズが設計に重大な影響を与えるため、多くの小さなグラフを扱うために特化している。 この文脈では、ニューラルネットワークベースのグラフマッチングアルゴリズムであるSimGNNをケーススタディとして使用し、アーキテクチャの有効性を実証する。 実験により,SPA-GCNはマルチコアCPU実装やGPU実装と比較して高速に動作できることが示され,設計の効率性が示された。

While there have been many studies on hardware acceleration for deep learning on images, there has been a rather limited focus on accelerating deep learning applications involving graphs. The unique characteristics of graphs, such as the irregular memory access and dynamic parallelism, impose several challenges when the algorithm is mapped to a CPU or GPU. To address these challenges while exploiting all the available sparsity, we propose a flexible architecture called SPA-GCN for accelerating Graph Convolutional Networks (GCN), the core computation unit in deep learning algorithms on graphs. The architecture is specialized for dealing with many small graphs since the graph size has a significant impact on design considerations. In this context, we use SimGNN, a neural-network-based graph matching algorithm, as a case study to demonstrate the effectiveness of our architecture. The experimental results demonstrate that SPA-GCN can deliver a high speedup compared to a multi-core CPU implementation and a GPU implementation, showing the efficiency of our design.
翻訳日:2021-11-12 15:31:24 公開日:2021-11-10
# 解釈可能な機械学習によるメタマテリアルの隠れパターンの把握

How to See Hidden Patterns in Metamaterials with Interpretable Machine Learning ( http://arxiv.org/abs/2111.05949v1 )

ライセンス: Link先を確認
Zhi Chen, Alexander Ogren, Chiara Daraio, L. Catherine Brinson, Cynthia Rudin(参考訳) メタマテリアルは幾何学的ミクロ構造とメソ構造の複合材料であり、ポアソンの負の比や超低せん断抵抗など、珍しい物理的性質をもたらす。 周期的メタマテリアルは繰り返し単位セルで構成され、これらの単位セル内の幾何学的パターンは弾性波や音響波の伝播や制御分散に影響を与える。 本研究では,その動的特性を明らかにする材料単位セルのパターンを見つけるための,新しい解釈可能なマルチレゾリューション機械学習フレームワークを開発する。 具体的には、形状周波数特徴と単位セルテンプレートと呼ばれるメタマテリアルの2つの新しい解釈可能な表現を提案する。 これらの特徴クラスを使って構築された機械学習モデルは、動的材料特性を正確に予測することができる。 これらの特徴表現(特にユニットセルテンプレート)は、より高い解像度の設計で操作できる有用な特性を持っている。 形状周波数特徴や単位セルテンプレートを用いて,より微細な解像度設計空間に確実に移行可能な重要な粗いスケールパターンを学習することにより,粗いスケール物理を変えることなく,単位セルの微細な解像度特徴をほぼ自由に設計することができる。 このマルチレゾリューションアプローチにより、波の伝搬を許容または許容する周波数範囲(周波数帯域)を持つ材料を設計できる(周波数帯域ギャップ)。 1) 材料科学における一般的な機械学習アプローチとは異なり, モデルは解釈可能であること, (2) マルチレゾリューション特性を活用すること, (3) 設計柔軟性を提供すること, である。

Metamaterials are composite materials with engineered geometrical micro- and meso-structures that can lead to uncommon physical properties, like negative Poisson's ratio or ultra-low shear resistance. Periodic metamaterials are composed of repeating unit-cells, and geometrical patterns within these unit-cells influence the propagation of elastic or acoustic waves and control dispersion. In this work, we develop a new interpretable, multi-resolution machine learning framework for finding patterns in the unit-cells of materials that reveal their dynamic properties. Specifically, we propose two new interpretable representations of metamaterials, called shape-frequency features and unit-cell templates. Machine learning models built using these feature classes can accurately predict dynamic material properties. These feature representations (particularly the unit-cell templates) have a useful property: they can operate on designs of higher resolutions. By learning key coarse scale patterns that can be reliably transferred to finer resolution design space via the shape-frequency features or unit-cell templates, we can almost freely design the fine resolution features of the unit-cell without changing coarse scale physics. Through this multi-resolution approach, we are able to design materials that possess target frequency ranges in which waves are allowed or disallowed to propagate (frequency bandgaps). Our approach yields major benefits: (1) unlike typical machine learning approaches to materials science, our models are interpretable, (2) our approaches leverage multi-resolution properties, and (3) our approach provides design flexibility.
翻訳日:2021-11-12 15:31:06 公開日:2021-11-10
# レプリカ量子アドバンテージのための階層構造

A Hierarchy for Replica Quantum Advantage ( http://arxiv.org/abs/2111.05874v1 )

ライセンス: Link先を確認
Sitan Chen, Jordan Cotler, Hsin-Yuan Huang, Jerry Li(参考訳) 同時に$n$-qubit 状態 $\rho$ のレプリカを少なくとも$k$ で絡み合った測定を行うことができるとすれば、学習には少なくとも 2^n / k^2$ の測度を必要とする$\rho$ という性質が存在する。 しかし、同じ性質は、多くのレプリカ多項式を$k, n$で絡めて測定できるかどうかを知るために1つの測度しか必要としない。 上記各正の整数 $k$ に対して、より効率的に実行するために徐々に多くのレプリカを必要とするタスクの階層を得る。 我々は、この結果を確立するための強力な証明手法を導入し、量子状態の混合性をテストするための新しい境界を提供する。

We prove that given the ability to make entangled measurements on at most $k$ replicas of an $n$-qubit state $\rho$ simultaneously, there is a property of $\rho$ which requires at least order $2^n / k^2$ measurements to learn. However, the same property only requires one measurement to learn if we can make an entangled measurement over a number of replicas polynomial in $k, n$. Because the above holds for each positive integer $k$, we obtain a hierarchy of tasks necessitating progressively more replicas to be performed efficiently. We introduce a powerful proof technique to establish our results, and also use this to provide new bounds for testing the mixedness of a quantum state.
翻訳日:2021-11-12 15:28:25 公開日:2021-11-10
# 量子記憶の有無による学習の指数的分離

Exponential separations between learning with and without quantum memory ( http://arxiv.org/abs/2111.05881v1 )

ライセンス: Link先を確認
Sitan Chen, Jordan Cotler, Hsin-Yuan Huang, Jerry Li(参考訳) 量子記憶のパワーを量子系と力学の学習特性に応用し、物理学や化学において非常に重要である。 多くの最先端学習アルゴリズムは、追加の外部量子メモリへのアクセスを必要とする。 このような量子メモリは先入観を必要としないが、多くの場合、量子メモリを使わないアルゴリズムはそれよりもはるかに多くのデータを必要とする。 このトレードオフは、幅広い学習問題に固有のものであることを示す。 1) 量子ビット状態 rho に対して $m$ 可観測値を持つシャドウトモグラフィーを行うには, 量子メモリを持たないアルゴリズムでは, 最悪の場合には $\omega(\min(m, 2^n))$ の rho サンプルが必要となる。 対数的因子によると、これは[HKP20]の上界と一致し、[Aar18, AR19]の開問題を完全に解決する。 2) 物理力学の対称性を明らかにするとともに, 純粋性試験のための量子メモリと非量子メモリとの指数関数的分離を確立した。 我々の分離は[acq21]の以前の作業を改善し、一般化し、量子メモリなしでより広い種類のアルゴリズムを可能にする。 (3) 量子メモリとサンプルの複雑性のトレードオフについて述べる。 すべての$n$-qubit Pauliオブザーバブルの絶対値を推定するために、$k < n$ qubitsの量子メモリを持つアルゴリズムは少なくとも$\Omega(2^{(n-k)/3})$サンプルを必要とするが、$n$-qubitの量子メモリを用いるアルゴリズムは$O(n)$サンプルのみを必要とする。 私たちが示している分離は十分に大きく、例えば数十量子ビットで既に明らかである可能性がある。 これは量子メモリを用いた学習アルゴリズムの現実的な優位性を示すための具体的な道筋を提供する。

We study the power of quantum memory for learning properties of quantum systems and dynamics, which is of great importance in physics and chemistry. Many state-of-the-art learning algorithms require access to an additional external quantum memory. While such a quantum memory is not required a priori, in many cases, algorithms that do not utilize quantum memory require much more data than those which do. We show that this trade-off is inherent in a wide range of learning problems. Our results include the following: (1) We show that to perform shadow tomography on an $n$-qubit state rho with $M$ observables, any algorithm without quantum memory requires $\Omega(\min(M, 2^n))$ samples of rho in the worst case. Up to logarithmic factors, this matches the upper bound of [HKP20] and completely resolves an open question in [Aar18, AR19]. (2) We establish exponential separations between algorithms with and without quantum memory for purity testing, distinguishing scrambling and depolarizing evolutions, as well as uncovering symmetry in physical dynamics. Our separations improve and generalize prior work of [ACQ21] by allowing for a broader class of algorithms without quantum memory. (3) We give the first tradeoff between quantum memory and sample complexity. We prove that to estimate absolute values of all $n$-qubit Pauli observables, algorithms with $k < n$ qubits of quantum memory require at least $\Omega(2^{(n-k)/3})$ samples, but there is an algorithm using $n$-qubit quantum memory which only requires $O(n)$ samples. The separations we show are sufficiently large and could already be evident, for instance, with tens of qubits. This provides a concrete path towards demonstrating real-world advantage for learning algorithms with quantum memory.
翻訳日:2021-11-12 15:28:10 公開日:2021-11-10
# 適応戦略選択のための機械学習を用いたポートフォリオ管理のためのメタ手法

A Meta-Method for Portfolio Management Using Machine Learning for Adaptive Strategy Selection ( http://arxiv.org/abs/2111.05935v1 )

ライセンス: Link先を確認
Damian Kisiel and Denise Gorse(参考訳) 本研究は,バイオインフォマティクスなどの分野におけるメタアプローチの成功に触発された,新たなポートフォリオ管理手法であるMeta Portfolio Method (MPM)を提案する。 MPMはXGBoostを使用して、2つのリスクベースのポートフォリオ割り当て戦略、階層的リスクパリティ(HRP)とより古典的なナシブリスクパリティ(NRP)の切り替え方法を学ぶ。 MPMは、それぞれの戦略の最も優れた特徴(市場上昇時のNRPの急速な成長、市場混乱時の縮小に対するHRPの保護)をうまく活用できることが示されている。 その結果、MPMはシャープ比で測定されるように、優れたアウト・オブ・サンプルリスク・リワードプロファイルを持ち、さらに資産配分決定の高い解釈性を提供することが示された。

This work proposes a novel portfolio management technique, the Meta Portfolio Method (MPM), inspired by the successes of meta approaches in the field of bioinformatics and elsewhere. The MPM uses XGBoost to learn how to switch between two risk-based portfolio allocation strategies, the Hierarchical Risk Parity (HRP) and more classical Na\"ive Risk Parity (NRP). It is demonstrated that the MPM is able to successfully take advantage of the best characteristics of each strategy (the NRP's fast growth during market uptrends, and the HRP's protection against drawdowns during market turmoil). As a result, the MPM is shown to possess an excellent out-of-sample risk-reward profile, as measured by the Sharpe ratio, and in addition offers a high degree of interpretability of its asset allocation decisions.
翻訳日:2021-11-12 15:27:33 公開日:2021-11-10
# 価値感と持続可能なバスケットレコメンデーションのための多目的最適化

Multi-Objective Optimization for Value-Sensitive and Sustainable Basket Recommendations ( http://arxiv.org/abs/2111.05944v1 )

ライセンス: Link先を確認
Thomas Asikis(参考訳) 持続可能な消費は、サービスや製品の使用による環境および社会的影響を最小限にすることを目的としている。 サービスや製品の過剰消費は、商品やサービスへのアクセスがより困難になるにつれて、潜在的な天然資源の枯渇と社会的不平等につながる。 日常生活において、人はライフスタイルの選択を劇的に変え、個人の価値観や願望に逆らって、より持続可能な購入を達成することができる。 逆に、環境や個人の目標を達成しようとすると、潜在的なトレードオフが発生するため、個人価値を考慮しながら持続可能な消費を達成することがより複雑な作業である。 本稿では、消費者が個人的価値を尊重しながら購入の持続可能性を向上させることができるレコメンデーションシステムの価値感受性設計に焦点を当てる。 持続的消費に対する価値に敏感な推奨は、異なる持続可能性目標と個人的価値を表す多目的最適化問題として定式化されている。 新規かつ既存の多目的アルゴリズムはこの問題の解を計算する。 ソリューションは、消費者にパーソナライズされたサステナブルバスケットレコメンデーションとして提案されている。 これらの勧告は、関連する科学的および組織的なレポートから3つの確立された実世界のデータセットからなる合成データセットで評価される。 合成データセットは、製品価格、栄養価、温室効果ガスの排出や水のフットプリントなどの環境影響指標に関する定量的データを含む。 推奨されるバスケットは、消費者が購入したバスケットと非常によく似ており、持続可能性目標と健康、支出、味に関連する個人的価値の両方に対応している。 消費者がわずかな勧告を受諾しても、環境への影響は相当に減少する。

Sustainable consumption aims to minimize the environmental and societal impact of the use of services and products. Over-consumption of services and products leads to potential natural resource exhaustion and societal inequalities, as access to goods and services becomes more challenging. In everyday life, a person can simply achieve more sustainable purchases by drastically changing their lifestyle choices and potentially going against their personal values or wishes. Conversely, achieving sustainable consumption while accounting for personal values is a more complex task, as potential trade-offs arise when trying to satisfy environmental and personal goals. This article focuses on value-sensitive design of recommender systems, which enable consumers to improve the sustainability of their purchases while respecting their personal values. Value-sensitive recommendations for sustainable consumption are formalized as a multi-objective optimization problem, where each objective represents different sustainability goals and personal values. Novel and existing multi-objective algorithms calculate solutions to this problem. The solutions are proposed as personalized sustainable basket recommendations to consumers. These recommendations are evaluated on a synthetic dataset, which comprises three established real-world datasets from relevant scientific and organizational reports. The synthetic dataset contains quantitative data on product prices, nutritional values and environmental impact metrics, such as greenhouse gas emissions and water footprint. The recommended baskets are highly similar to consumer purchased baskets and aligned with both sustainability goals and personal values relevant to health, expenditure and taste. Even when consumers would accept only a fraction of recommendations, a considerable reduction of environmental impact is observed.
翻訳日:2021-11-12 15:06:55 公開日:2021-11-10
# Scaling ASRはゼロとほとんどショット学習を改善した

Scaling ASR Improves Zero and Few Shot Learning ( http://arxiv.org/abs/2111.05948v1 )

ライセンス: Link先を確認
Alex Xiao, Weiyi Zheng, Gil Keren, Duc Le, Frank Zhang, Christian Fuegen, Ozlem Kalinli, Yatharth Saraf, Abdelrahman Mohamed(参考訳) 120カ国の10の異なるソースから450万時間に及ぶ英語音声と、最大100億のパラメータのモデルを用いて、自動音声認識のためのスケールのフロンティアを探索する。 大規模データセットでもっとも有用なサンプルを見つけるために,トレーニングデータを効率的にスケールするためのデータ選択手法を提案する。 モデルサイズを効率的にスケールするために、スパーストランスデューサ損失やモデルシャーディングといった様々な最適化を利用する。 1-10Bパラメータのユニバーサル英語ASRモデルを訓練することにより、音声認識性能の限界を多くの領域に広げる。 さらに,本モデルでは,新しいドメインやスタイルの音声に対して,ゼロおよび少数ショットの能力を持つ強力な音声表現を学習し,複数の社内および公開ベンチマークで過去の結果を上回った。 脳損傷による障害のある話者に対して、私たちの最高のゼロショットモデルと少数ショットモデルはそれぞれ、AphasiaBankのテストセットで22%と60%の改善を実現し、パブリックなソーシャルメディアビデオで最高のパフォーマンスを実現しました。 さらに、同じユニバーサルモデルは、SPGISpeechファイナンシャルドメインデータセットの500倍少ないドメインデータで同等のパフォーマンスに達する。

With 4.5 million hours of English speech from 10 different sources across 120 countries and models of up to 10 billion parameters, we explore the frontiers of scale for automatic speech recognition. We propose data selection techniques to efficiently scale training data to find the most valuable samples in massive datasets. To efficiently scale model sizes, we leverage various optimizations such as sparse transducer loss and model sharding. By training 1-10B parameter universal English ASR models, we push the limits of speech recognition performance across many domains. Furthermore, our models learn powerful speech representations with zero and few-shot capabilities on novel domains and styles of speech, exceeding previous results across multiple in-house and public benchmarks. For speakers with disorders due to brain damage, our best zero-shot and few-shot models achieve 22% and 60% relative improvement on the AphasiaBank test set, respectively, while realizing the best performance on public social media videos. Furthermore, the same universal model reaches equivalent performance with 500x less in-domain data on the SPGISpeech financial-domain dataset.
翻訳日:2021-11-12 15:05:08 公開日:2021-11-10
# 雑音学習を用いたT1強調造影MRIにおける脳転移の検出

Advancing Brain Metastases Detection in T1-Weighted Contrast-Enhanced 3D MRI using Noisy Student-based Training ( http://arxiv.org/abs/2111.05959v1 )

ライセンス: Link先を確認
Engin Dikici, Xuan V. Nguyen, Matthew Bigelow, John. L. Ryu, and Luciano M. Prevedello(参考訳) 脳転移(BM)の早期発見は、がん患者の予後に肯定的な影響を及ぼす可能性がある。 本研究では,T1強調コントラスト強調3次元磁気共鳴画像(T1c)における小型BM(直径15mm未満)検出のためのフレームワークを開発した。 このフレームワークは、ラベル付きt1cデータを使用してトレーニングされた専用の畳み込みニューラルネットワーク(cnn)を使用しており、基底真理bmセグメンテーションは放射線学者によって提供された。 本研究の目的は,無ラベルのT1cデータ(BMセグメンテーションや検出のないデータ)の大量コーパスを利用するため,ノイズの多い学生による自己学習戦略でフレームワークを前進させることである。 その結果,(1)学生と教師のCNNアーキテクチャを記述し,(2)データとモデルノーミング機構を提示し,(3)学習したBM検出感度に影響を及ぼす新しい擬似ラベル戦略を導入する。 最後に,これらを利用した半教師付き学習戦略について述べる。 ラベル付き217とラベルなし1247のT1c試験を2倍のクロスバリデーションで行った。 ラベル付き試験のみを用いたフレームワークでは、90%のbm検出感度で9.23の偽陽性が得られたが、導入された学習戦略を用いたフレームワークでは、同じ感度で9%の偽検出率(すなわち8.44)が低下した。 さらに、ラベル付きデータセットの75%と50%を用いた実験はアルゴリズムの性能劣化(それぞれ12.19と13.89の偽陽性)をもたらしたが、ノイズの多い学生ベースのトレーニング戦略(それぞれ10.79と12.37の偽陽性)では影響は低かった。

The detection of brain metastases (BM) in their early stages could have a positive impact on the outcome of cancer patients. We previously developed a framework for detecting small BM (with diameters of less than 15mm) in T1-weighted Contrast-Enhanced 3D Magnetic Resonance images (T1c) to assist medical experts in this time-sensitive and high-stakes task. The framework utilizes a dedicated convolutional neural network (CNN) trained using labeled T1c data, where the ground truth BM segmentations were provided by a radiologist. This study aims to advance the framework with a noisy student-based self-training strategy to make use of a large corpus of unlabeled T1c data (i.e., data without BM segmentations or detections). Accordingly, the work (1) describes the student and teacher CNN architectures, (2) presents data and model noising mechanisms, and (3) introduces a novel pseudo-labeling strategy factoring in the learned BM detection sensitivity of the framework. Finally, it describes a semi-supervised learning strategy utilizing these components. We performed the validation using 217 labeled and 1247 unlabeled T1c exams via 2-fold cross-validation. The framework utilizing only the labeled exams produced 9.23 false positives for 90% BM detection sensitivity; whereas, the framework using the introduced learning strategy led to ~9% reduction in false detections (i.e., 8.44) for the same sensitivity level. Furthermore, while experiments utilizing 75% and 50% of the labeled datasets resulted in algorithm performance degradation (12.19 and 13.89 false positives respectively), the impact was less pronounced with the noisy student-based training strategy (10.79 and 12.37 false positives respectively).
翻訳日:2021-11-12 15:03:38 公開日:2021-11-10
# On-Drone Deeper-yet-Compatible Compressionを用いたライブビデオ分析

Towards Live Video Analytics with On-Drone Deeper-yet-Compatible Compression ( http://arxiv.org/abs/2111.06263v1 )

ライセンス: Link先を確認
Junpeng Guo and Chunyi Peng(参考訳) 本研究では,既存のコーデック上に構築されたリアルタイムドローンによるエッジ支援ビデオ解析を実現するDCC(Deeper-yet-Compatible Compression)を提案する。 dccは、ドローンからエッジにストリーミングされたビデオを圧縮する重要な技術的問題に取り組んでいる。 DCCは、ストリーミングされたビデオのすべてのビットがビデオ分析に等しく価値があるわけではないという事実にインスパイアされている。 ドローン特有のコンテキストとオブジェクト検出からの中間ヒントを利用して、分析品質を維持するために必要な適応的忠実度を追求する。 車両検出の実証的な応用としてDCCを試作し,その効率性を代表シナリオで検証した。 DCCは、ベースラインアプローチで9.5倍、最先端の精度で19-683%の伝送量を削減した。

In this work, we present DCC(Deeper-yet-Compatible Compression), one enabling technique for real-time drone-sourced edge-assisted video analytics built on top of the existing codec. DCC tackles an important technical problem to compress streamed video from the drone to the edge without scarifying accuracy and timeliness of video analytical tasks performed at the edge. DCC is inspired by the fact that not every bit in streamed video is equally valuable to video analytics, which opens new compression room over the conventional analytics-oblivious video codec technology. We exploit drone-specific context and intermediate hints from object detection to pursue adaptive fidelity needed to retain analytical quality. We have prototyped DCC in one showcase application of vehicle detection and validated its efficiency in representative scenarios. DCC has reduced transmission volume by 9.5-fold over the baseline approach and 19-683% over the state-of-the-art with comparable detection accuracy.
翻訳日:2021-11-12 15:02:17 公開日:2021-11-10
# ディープグラフニューラルネットワークを用いた格子フォノン振動周波数の予測

Predicting Lattice Phonon Vibrational Frequencies Using Deep Graph Neural Networks ( http://arxiv.org/abs/2111.05885v1 )

ライセンス: Link先を確認
Nghia Nguyen, Steph-Yves Louis, Lai Wei, Kamal Choudhary, Ming Hu, Jianjun Hu(参考訳) 格子振動周波数は超伝導と同様に熱伝導率や電気伝導率などの重要な材料特性と関係している。 しかし、密度汎関数理論(DFT)法による振動周波数の計算は、材料スクリーニングにおいて多数のサンプルを計算的に要求しすぎる。 本稿では,結晶構造からの結晶振動周波数を高精度に予測するディープグラフニューラルネットワークアルゴリズムを提案する。 このアルゴリズムはゼロパディング方式を用いて振動周波数スペクトルの可変次元に対処する。 15,000 と 35,552 のサンプルを持つ2 つのデータセットのベンチマーク研究により、予測の合計 R^2$ スコアはそれぞれ0.554 と 0.724 に達することが示された。 本研究は,結晶構造のフォノンスペクトル特性を,出力次元が一定であるフォノン密度(dos)と電子dosに加えて予測するディープグラフニューラルネットワークの能力を示す。

Lattice vibration frequencies are related to many important materials properties such as thermal and electrical conductivity as well as superconductivity. However, computational calculation of vibration frequencies using density functional theory (DFT) methods is too computationally demanding for a large number of samples in materials screening. Here we propose a deep graph neural network-based algorithm for predicting crystal vibration frequencies from crystal structures with high accuracy. Our algorithm addresses the variable dimension of vibration frequency spectrum using the zero padding scheme. Benchmark studies on two data sets with 15,000 and 35,552 samples show that the aggregated $R^2$ scores of the prediction reaches 0.554 and 0.724 respectively. Our work demonstrates the capability of deep graph neural networks to learn to predict phonon spectrum properties of crystal structures in addition to phonon density of states (DOS) and electronic DOS in which the output dimension is constant.
翻訳日:2021-11-12 15:00:02 公開日:2021-11-10
# Twitchにおけるチャンネル人気に関する研究

A study on Channel Popularity in Twitch ( http://arxiv.org/abs/2111.05939v1 )

ライセンス: Link先を確認
Ha Le, Junming Wu, Louis Yu, Melissa Lynn(参考訳) 過去数十年間、インターネットユーザーがリアルタイムイベントをオンラインでホストし、彼らの体験をライブでインタラクティブなオーディエンスと共有する必要性が高まってきた。 Twitchのようなオンラインストリーミングサービスは、何百万人ものユーザーを惹きつけている。 twitchでのストリーマーの人気予測についてはほとんど研究されていない。 本稿では,ストリーマーの人気に寄与する潜在的な要因について考察する。 ストリームデータは、twitchのapiを使って4週間にわたって一貫したトラッキングを通じて収集された。 ユーザの現在の視聴者数やフォロワー数、ストリームのジャンルなど、各ユーザのストリーミング情報が収集された。 その結果,ストリーミングセッションの頻度,コンテンツの種類,ストリームの長さが,セッション中に視聴者や購読者から得られる回数を決定する重要な要因であることが判明した。

In the past few decades, there has been an increasing need for Internet users to host real time events online and to share their experiences with live, interactive audiences. Online streaming services like Twitch have attracted millions of users to stream and to spectate. There have been few studies about the prediction of streamers' popularity on Twitch. In this paper, we look at potential factors that can contribute to the popularity of streamers. Streamer data was collected through consistent tracking using Twitch's API during a 4 weeks period. Each user's streaming information such as the number of current viewers and followers, the genre of the stream etc., were collected. From the results, we found that the frequency of streaming sessions, the types of content and the length of the streams are major factors in determining how much viewers and subscribers streamers can gain during sessions.
翻訳日:2021-11-12 14:59:48 公開日:2021-11-10
# データタイリングによるグラフニューラルネットワークトレーニング

Graph Neural Network Training with Data Tiering ( http://arxiv.org/abs/2111.05894v1 )

ライセンス: Link先を確認
Seung Won Min, Kun Wu, Mert Hidayeto\u{g}lu, Jinjun Xiong, Xiang Song, Wen-mei Hwu(参考訳) グラフニューラルネットワーク(gnns)は、グラフ構造化データから学ぶことに成功し、不正検出、推薦、ナレッジグラフ推論に応用されている。 しかし、GNNを効率的に訓練することは困難である。 1)GPUメモリ容量は限られており、大規模なデータセットには不十分である。 2) グラフベースのデータ構造は不規則なデータアクセスパターンを引き起こす。 本研究では,GNNトレーニングに先立って,より頻繁にアクセスされるデータを統計的に分析し,識別する手法を提案する。 我々のデータ階層化手法は,入力グラフの構造だけでなく,実際のGNNトレーニングプロセスから得られる洞察も活用し,より高い予測結果を得る。 また,データ階層化手法により,CPU-GPU通信のオーバーヘッドを最小化する新たなデータ配置とアクセス戦略も提供する。 また、マルチGPU GNNトレーニングも考慮し、マルチGPUシステムにおける戦略の有効性を実証する。 評価の結果,CPU-GPUのトラフィックを87~95%削減し,数十億のノードと数十億のエッジを持つグラフ上でGNNを1.6~2.1倍高速化した。

Graph Neural Networks (GNNs) have shown success in learning from graph-structured data, with applications to fraud detection, recommendation, and knowledge graph reasoning. However, training GNN efficiently is challenging because: 1) GPU memory capacity is limited and can be insufficient for large datasets, and 2) the graph-based data structure causes irregular data access patterns. In this work, we provide a method to statistical analyze and identify more frequently accessed data ahead of GNN training. Our data tiering method not only utilizes the structure of input graph, but also an insight gained from actual GNN training process to achieve a higher prediction result. With our data tiering method, we additionally provide a new data placement and access strategy to further minimize the CPU-GPU communication overhead. We also take into account of multi-GPU GNN training as well and we demonstrate the effectiveness of our strategy in a multi-GPU system. The evaluation results show that our work reduces CPU-GPU traffic by 87-95% and improves the training speed of GNN over the existing solutions by 1.6-2.1x on graphs with hundreds of millions of nodes and billions of edges.
翻訳日:2021-11-12 14:33:22 公開日:2021-11-10
# 正確な全周力知覚を有するソフトサムサイズ視覚センサ

A soft thumb-sized vision-based sensor with accurate all-round force perception ( http://arxiv.org/abs/2111.05934v1 )

ライセンス: Link先を確認
Huanbo Sun, Katherine J. Kuchenbecker, Georg Martius(参考訳) 視覚ベースの触覚センサーは、安価な高解像度カメラとコンピュータビジョン技術の成功により、ロボットタッチに有望なアプローチとして登場した。 しかし、それらの物理設計とそれらが提供する情報は、実際のアプリケーションの要件をまだ満たしていない。 我々は、堅牢で、ソフトで、低コストで、視覚ベースで、親指サイズの3D触覚センサーInsightを紹介した。 内部のモノクラーカメラの周りに構築されたセンサーは、感度、堅牢性、ソフトな接触を保証するために、堅いフレームに重畳されたエラストマーの1層のみをオーバーモールドする。 さらに、インサイトはコリメータを用いて測光ステレオと構造化光を組み合わせた最初のシステムであり、容易に交換できるフレキシブル外殻の3d変形を検出する。 力情報は、イメージを3次元接触力(通常およびせん断)の空間分布にマッピングするディープニューラルネットワークによって推測される。 insight の空間分解能は 0.4 mm で、力の大きさは 0.03 n 前後で、接触面積の異なる多数の接触に対して 0.03--2 n の範囲で5度前後の力方向精度を持つ。 提示されたハードウェアとソフトウェアの設計概念は、さまざまなロボット部品に移すことができる。

Vision-based haptic sensors have emerged as a promising approach to robotic touch due to affordable high-resolution cameras and successful computer-vision techniques. However, their physical design and the information they provide do not yet meet the requirements of real applications. We present a robust, soft, low-cost, vision-based, thumb-sized 3D haptic sensor named Insight: it continually provides a directional force-distribution map over its entire conical sensing surface. Constructed around an internal monocular camera, the sensor has only a single layer of elastomer over-molded on a stiff frame to guarantee sensitivity, robustness, and soft contact. Furthermore, Insight is the first system to combine photometric stereo and structured light using a collimator to detect the 3D deformation of its easily replaceable flexible outer shell. The force information is inferred by a deep neural network that maps images to the spatial distribution of 3D contact force (normal and shear). Insight has an overall spatial resolution of 0.4 mm, force magnitude accuracy around 0.03 N, and force direction accuracy around 5 degrees over a range of 0.03--2 N for numerous distinct contacts with varying contact area. The presented hardware and software design concepts can be transferred to a wide variety of robot parts.
翻訳日:2021-11-12 14:09:33 公開日:2021-11-10
# 雑音データの最小l1ノルム補間のためのタイト境界

Tight bounds for minimum l1-norm interpolation of noisy data ( http://arxiv.org/abs/2111.05987v1 )

ライセンス: Link先を確認
Guillaume Wang, Konstantin Donhauser, Fanny Yang(参考訳) 最小の$\ell_1$-norm補間器の予測誤差に対して、位数 $\sigma^2/\log(d/n)$ の上限と下限を一致させる。 我々の結果は、$d \gg n$ のときに無視できない項に密着しており、等方的特徴とスパース基底真理に対するノイズの最小ノルム補間の漸近的一貫性を暗示する最初の例である。 我々の研究は、少なくとも$\ell_2$-norm補間のための「良性過剰フィッティング」に関する文献を補完するものであり、その特徴が効果的に低次元である場合にのみ漸近的一貫性を達成することができる。

We provide matching upper and lower bounds of order $\sigma^2/\log(d/n)$ for the prediction error of the minimum $\ell_1$-norm interpolator, a.k.a. basis pursuit. Our result is tight up to negligible terms when $d \gg n$, and is the first to imply asymptotic consistency of noisy minimum-norm interpolation for isotropic features and sparse ground truths. Our work complements the literature on "benign overfitting" for minimum $\ell_2$-norm interpolation, where asymptotic consistency can be achieved only when the features are effectively low-dimensional.
翻訳日:2021-11-12 14:08:45 公開日:2021-11-10
# Traffic4cast -- 3DResNetとスパースUNetによる大規模交通予測

Traffic4cast -- Large-scale Traffic Prediction using 3DResNet and Sparse-UNet ( http://arxiv.org/abs/2111.05990v1 )

ライセンス: Link先を確認
Bo Wang, Reza Mohajerpoor, Chen Cai, Inhi Kim, Hai L. Vu(参考訳) IARAIコンペティションのTraffic4cast 2021は、以前得られた静的および動的トラフィック情報から、都市全体の短期的な高解像度トラフィック状態を予測することを目的としている。 その目的は、過去のデータポイントを用いて、複数の大都市のサブリージョンの平均交通速度と流れの正規化を予測する機械学習モデルを構築することである。 このモデルは、新しい都市に適用できるような方法で、汎用的なものになるはずである。 時空間的特徴学習とモデリング効率を考慮して,この競争における課題に対する3DResNetとスパースUNetのアプローチを検討する。 3DResNetベースのモデルは3D畳み込みを用いて時空間の特徴を学習し、逐次畳み込み層を適用して出力の時間的関係を強化する。 Sparse-UNetモデルは時空間特徴学習のバックボーンとしてスパース畳み込みを使用する。 後者のアルゴリズムは主に入力のゼロでないデータポイントにフォーカスするため、競合精度を維持しながら計算時間を劇的に短縮する。 この結果から,提案モデルがベースラインアルゴリズムよりもはるかに優れた性能を示した。 コードと事前トレーニングされたモデルはhttps://github.com/resuly/traffic4cast-2021で入手できる。

The IARAI competition Traffic4cast 2021 aims to predict short-term city-wide high-resolution traffic states given the static and dynamic traffic information obtained previously. The aim is to build a machine learning model for predicting the normalized average traffic speed and flow of the subregions of multiple large-scale cities using historical data points. The model is supposed to be generic, in a way that it can be applied to new cities. By considering spatiotemporal feature learning and modeling efficiency, we explore 3DResNet and Sparse-UNet approaches for the tasks in this competition. The 3DResNet based models use 3D convolution to learn the spatiotemporal features and apply sequential convolutional layers to enhance the temporal relationship of the outputs. The Sparse-UNet model uses sparse convolutions as the backbone for spatiotemporal feature learning. Since the latter algorithm mainly focuses on non-zero data points of the inputs, it dramatically reduces the computation time, while maintaining a competitive accuracy. Our results show that both of the proposed models achieve much better performance than the baseline algorithms. The codes and pretrained models are available at https://github.com/resuly/Traffic4Cast-2021.
翻訳日:2021-11-12 14:06:44 公開日:2021-11-10
# SyMetric: 視覚から推定される学習ハミルトンダイナミクスの質の測定

SyMetric: Measuring the Quality of Learnt Hamiltonian Dynamics Inferred from Vision ( http://arxiv.org/abs/2111.05986v1 )

ライセンス: Link先を確認
Irina Higgins, Peter Wirnsberger, Andrew Jaegle, Aleksandar Botev(参考訳) 最近提案されたモデルクラスでは、ハミルトニアン力学による事前情報を用いて、画像のような高次元の観測から潜在力学を学ぶことを試みている。 これらのモデルは、ロボティクスや自律運転のような分野において重要な可能性を持っているが、その性能を評価する良い方法はない。既存の手法は主に画像再構成の品質に依存しており、学習された潜伏するダイナミクスの質を常に反映しているわけではない。 本研究は,既存の尺度の問題点を実証的に強調し,基礎となるハミルトン力学が忠実に捕捉されたかどうかの2値指標を含む,一連の新しい尺度を開発し,Symphlecticity Metric または SyMetric と呼ぶ。 本手法は,ハミルトニアンダイナミクスの既知の特性を活かし,復元誤差よりも基礎となるダイナミクスを捉えるモデルの能力をより識別するものである。 我々は,SyMetricを用いて,画素から潜伏ダイナミクスを推定するための先行提案モデル(HGN)の性能を大幅に向上させるアーキテクチャ選択の集合を同定する。 オリジナルのHGNとは異なり、新しいHGN++は、いくつかのデータセットに物理的に意味のあるラテントを持つ解釈可能な位相空間を発見することができる。 さらに、13のデータセットのさまざまな範囲でかなり長いロールアウトに対して安定であり、データセットのサブセットの品質が低下することなく、本質的に無限の長さのロールアウトを生成する。

A recently proposed class of models attempts to learn latent dynamics from high-dimensional observations, like images, using priors informed by Hamiltonian mechanics. While these models have important potential applications in areas like robotics or autonomous driving, there is currently no good way to evaluate their performance: existing methods primarily rely on image reconstruction quality, which does not always reflect the quality of the learnt latent dynamics. In this work, we empirically highlight the problems with the existing measures and develop a set of new measures, including a binary indicator of whether the underlying Hamiltonian dynamics have been faithfully captured, which we call Symplecticity Metric or SyMetric. Our measures take advantage of the known properties of Hamiltonian dynamics and are more discriminative of the model's ability to capture the underlying dynamics than reconstruction error. Using SyMetric, we identify a set of architectural choices that significantly improve the performance of a previously proposed model for inferring latent dynamics from pixels, the Hamiltonian Generative Network (HGN). Unlike the original HGN, the new HGN++ is able to discover an interpretable phase space with physically meaningful latents on some datasets. Furthermore, it is stable for significantly longer rollouts on a diverse range of 13 datasets, producing rollouts of essentially infinite length both forward and backwards in time with no degradation in quality on a subset of the datasets.
翻訳日:2021-11-12 13:50:06 公開日:2021-11-10
# 残留スパイクニューラルネットワークを用いた高精度特徴抽出のための鍵

Keys to Accurate Feature Extraction Using Residual Spiking Neural Networks ( http://arxiv.org/abs/2111.05955v1 )

ライセンス: Link先を確認
Alex Vicente-Sola (1), Davide L. Manna (1), Paul Kirkland (1), Gaetano Di Caterina (1), Trevor Bihl (2) ((1) University of Strathclyde, (2) Air Force Research Laboratory)(参考訳) スパイキングニューラルネットワーク(snn)は、その時間的処理能力と低スワップ(サイズ、重量、パワー)、およびニューロモルフィックハードウェアにおけるエネルギー効率の高い実装により、従来のニューラルネットワーク(ann)に代わる興味深い選択肢となっている。 しかし、snsの訓練にかかわる課題は、その正確性と応用の観点から、その性能を制限している。 したがって、より正確な特徴抽出のための学習アルゴリズムとニューラルネットワークの改善は、SNN研究における現在の優先事項の1つである。 本稿では,現代のスパイク建築の鍵となる構成要素について述べる。 ベストパフォーマンスネットワークから抽出した画像分類データセットの異なる手法を実証的に比較する。 我々は、成功しているresnet(resnet)アーキテクチャのスパイクバージョンを設計し、さまざまなコンポーネントとトレーニング戦略をテストする。 本研究は,SNN設計の最先端技術を提供し,最適な視覚特徴抽出器を構築する際の情報選択を可能にした。 最後に、我々のネットワークはCIFAR-10(94.1%)とCIFAR-100(74.5%)のデータセットで以前のSNNアーキテクチャよりも優れており、DVS-CIFAR10(71.3%)の最先端と一致する。 コードはhttps://github.com/VicenteAlex/Spiking_ResNetで公開されている。

Spiking neural networks (SNNs) have become an interesting alternative to conventional artificial neural networks (ANN) thanks to their temporal processing capabilities and their low-SWaP (Size, Weight, and Power) and energy efficient implementations in neuromorphic hardware. However the challenges involved in training SNNs have limited their performance in terms of accuracy and thus their applications. Improving learning algorithms and neural architectures for a more accurate feature extraction is therefore one of the current priorities in SNN research. In this paper we present a study on the key components of modern spiking architectures. We empirically compare different techniques in image classification datasets taken from the best performing networks. We design a spiking version of the successful residual network (ResNet) architecture and test different components and training strategies on it. Our results provide a state of the art guide to SNN design, which allows to make informed choices when trying to build the optimal visual feature extractor. Finally, our network outperforms previous SNN architectures in CIFAR-10 (94.1%) and CIFAR-100 (74.5%) datasets and matches the state of the art in DVS-CIFAR10 (71.3%), with less parameters than the previous state of the art and without the need for ANN-SNN conversion. Code available at https://github.com/VicenteAlex/Spiking_ResNet.
翻訳日:2021-11-12 13:49:05 公開日:2021-11-10
# 生体信号処理と深層学習を用いた睡眠関連障害患者群の認識

Recognition of Patient Groups with Sleep Related Disorders using Bio-signal Processing and Deep Learning ( http://arxiv.org/abs/2111.05917v1 )

ライセンス: Link先を確認
Delaram Jarchi, Javier Andreu-Perez, Mehrin Kiani, Oldrich Vysata, Jiri Kuchynka, Ales Prochazka, Saeid Sane(参考訳) 睡眠障害の正確な診断は臨床評価や治療に不可欠である。 ポリソムノグラフィ (psg) は様々な睡眠障害の検出に長い間用いられてきた。 本研究では,心電図(ecg)と心電図(emg)を用いて呼吸・運動関連睡眠障害の診断を行った。 生体信号処理は、エントロピーと統計モーメントを利用したEMG特徴を抽出し、心電図から心拍数と呼吸関連特徴を確実に抽出するための同期ウェーブレット変換(SSWT)を用いた反復パルスピーク検出アルゴリズムを開発した。 ディープラーニングフレームワークは、EMGとECG機能を組み込むように設計されている。 この枠組みは、健常者、閉塞性睡眠時無呼吸症(OSA)患者、レスレス脚症候群(RLS)患者、およびOSAおよびRSS患者の4つのグループに分類されている。 提案したDeep Learning frameworkは平均精度72%,重み付きF1スコア0.57を定式化4クラス問題に適用した。

Accurately diagnosing sleep disorders is essential for clinical assessments and treatments. Polysomnography (PSG) has long been used for detection of various sleep disorders. In this research, electrocardiography (ECG) and electromayography (EMG) have been used for recognition of breathing and movement-related sleep disorders. Bio-signal processing has been performed by extracting EMG features exploiting entropy and statistical moments, in addition to developing an iterative pulse peak detection algorithm using synchrosqueezed wavelet transform (SSWT) for reliable extraction of heart rate and breathing-related features from ECG. A deep learning framework has been designed to incorporate EMG and ECG features. The framework has been used to classify four groups: healthy subjects, patients with obstructive sleep apnea (OSA), patients with restless leg syndrome (RLS) and patients with both OSA and RLS. The proposed deep learning framework produced a mean accuracy of 72% and weighted F1 score of 0.57 across subjects for our formulated four-class problem.
翻訳日:2021-11-12 13:46:25 公開日:2021-11-10
# GNNによる混雑予測のための一般化可能なクロスグラフ埋め込み

Generalizable Cross-Graph Embedding for GNN-based Congestion Prediction ( http://arxiv.org/abs/2111.05941v1 )

ライセンス: Link先を確認
Amur Ghose, Vincent Zhang, Yingxue Zhang, Dong Li, Wulong Liu, Mark Coates(参考訳) 現在、技術ノードのスケーリングにより、設計初期段階の正確な予測モデルは設計サイクルを大幅に削減することができる。 特に論理合成において,不適切な論理結合によるセル混雑の予測は,その後の物理実装の負担を軽減することができる。 論理合成段階における混雑予測にグラフニューラルネットワーク(GNN)を用いた手法が試みられている。 しかし、GNNのコアアイデアはメッセージパッシングフレームワーク上に構築されており、初期のロジック合成段階では実用的ではないため、適切なパフォーマンスを達成するには情報的なセル機能が必要である。 この制限に対処するために、ノード機能の品質を高めるために、与えられたネットリストへの埋め込みを直接学習できるフレームワークを提案する。 node2vec、line、deepwalkといった一般的なランダムウォークベースの埋め込みメソッドは、クロスグラフアライメントの問題と、見えないnetlistグラフへの貧弱な一般化に苦しんでいる。 このフレームワークでは,行列分解法を用いてネットリストグラフをまたいで一般化できるノード埋め込みを得るための優れた選択肢を提案する。 本稿では,並列トレーニングを保証し,大規模ネットリストのメモリ制限を満たすサブグラフレベルでの効率的なミニバッチトレーニング手法を提案する。 DREAMPLACE や OPENROAD などのオープンソース EDA ツールを,様々な利用可能な回路上で利用した。 ネットリスト上に学習した埋め込みとGNNを組み合わせることで、予測性能を改善し、新しい回路ラインに一般化し、トレーニングの効率化を実現し、実行時に90ドル以上節約できる可能性がある。

Presently with technology node scaling, an accurate prediction model at early design stages can significantly reduce the design cycle. Especially during logic synthesis, predicting cell congestion due to improper logic combination can reduce the burden of subsequent physical implementations. There have been attempts using Graph Neural Network (GNN) techniques to tackle congestion prediction during the logic synthesis stage. However, they require informative cell features to achieve reasonable performance since the core idea of GNNs is built on the message passing framework, which would be impractical at the early logic synthesis stage. To address this limitation, we propose a framework that can directly learn embeddings for the given netlist to enhance the quality of our node features. Popular random-walk based embedding methods such as Node2vec, LINE, and DeepWalk suffer from the issue of cross-graph alignment and poor generalization to unseen netlist graphs, yielding inferior performance and costing significant runtime. In our framework, we introduce a superior alternative to obtain node embeddings that can generalize across netlist graphs using matrix factorization methods. We propose an efficient mini-batch training method at the sub-graph level that can guarantee parallel training and satisfy the memory restriction for large-scale netlists. We present results utilizing open-source EDA tools such as DREAMPLACE and OPENROAD frameworks on a variety of openly available circuits. By combining the learned embedding on top of the netlist with the GNNs, our method improves prediction performance, generalizes to new circuit lines, and is efficient in training, potentially saving over $90 \%$ of runtime.
翻訳日:2021-11-12 13:33:00 公開日:2021-11-10
# ソフトセンシングトランスフォーマー:何百ものセンサーに1語の価値はある

Soft Sensing Transformer: Hundreds of Sensors are Worth a Single Word ( http://arxiv.org/abs/2111.05973v1 )

ライセンス: Link先を確認
Chao Zhang, Jaswanth Yella, Yu Huang, Xiaoye Qian, Sergei Petrov, Andrey Rzhetsky, Sthitie Bom(参考訳) 近年,AI技術の急速な発展に伴い,ソフトセンシング領域における深層学習モデルの研究が盛んに行われている。 研究者は数百のデータサンプルを100万パラメータモデルに適合させており、これらのモデルの有効性を行使するには不十分であり、産業アプリケーションで実装された場合、しばしば実行に失敗する。 この長期的課題を解決するため,我々はシーゲート技術を用いた大規模かつ高次元の時系列製造センサデータを提供する。 これらのデータセット上でのソフトセンシングトランスモデルによる産業用ビッグデータモデリングの課題と効果を実証する。 トランスフォーマーは、自然言語処理における最先端技術よりも優れており、それ以来、画像固有の帰納バイアスを導入することなくコンピュータビジョンへの直接適用でもうまく機能している。 文構造とセンサ読み取りの類似性を観察し、自然言語における文の類似性を用いて時系列で多変量センサ読み取りを行う。 高次元時系列データは、埋め込み文の同じ形状にフォーマットされ、トランスモデルに入力される。 その結果、トランスモデルは、自動エンコーダと長短期メモリ(LSTM)モデルに基づいて、ソフトセンシング分野のベンチマークモデルよりも優れていた。 私たちの知る限りでは、大規模な数値ソフトセンシングデータを用いて、オリジナルのトランスフォーマーモデルのパフォーマンスをベンチマークしたアカデミアや業界初のチームです。

With the rapid development of AI technology in recent years, there have been many studies with deep learning models in soft sensing area. However, the models have become more complex, yet, the data sets remain limited: researchers are fitting million-parameter models with hundreds of data samples, which is insufficient to exercise the effectiveness of their models and thus often fail to perform when implemented in industrial applications. To solve this long-lasting problem, we are providing large scale, high dimensional time series manufacturing sensor data from Seagate Technology to the public. We demonstrate the challenges and effectiveness of modeling industrial big data by a Soft Sensing Transformer model on these data sets. Transformer is used because, it has outperformed state-of-the-art techniques in Natural Language Processing, and since then has also performed well in the direct application to computer vision without introduction of image-specific inductive biases. We observe the similarity of a sentence structure to the sensor readings and process the multi-variable sensor readings in a time series in a similar manner of sentences in natural language. The high-dimensional time-series data is formatted into the same shape of embedded sentences and fed into the transformer model. The results show that transformer model outperforms the benchmark models in soft sensing field based on auto-encoder and long short-term memory (LSTM) models. To the best of our knowledge, we are the first team in academia or industry to benchmark the performance of original transformer model with large-scale numerical soft sensing data.
翻訳日:2021-11-12 13:32:32 公開日:2021-11-10
# マルチエージェント強化学習における吸収状態の利用と誤用について

On the Use and Misuse of Absorbing States in Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2111.05992v1 )

ライセンス: Link先を確認
Andrew Cohen and Ervin Teng and Vincent-Pierre Berges and Ruo-Ping Dong and Hunter Henry and Marwan Mattar and Alexander Zook and Sujoy Ganguly(参考訳) 協調型マルチエージェント強化学習(MARL)におけるエージェントの生成と破壊は、重要な研究分野である。 現在のMARLアルゴリズムは、実験を通してグループ内のエージェントの数が固定されていると仮定することが多い。 しかし、多くの実用的な問題において、エージェントはチームメイトの前に終了することができる。 停止したエージェントは、自身の存在を超えて起こるグループの成功や失敗から学ぶ必要がある。 我々は、死後のクレジット割り当て問題として、残りのチームメイトが得た報酬からターミネートエージェントへの価値の伝達について言及する。 現在のMARL法は、エージェント群全体が終了状態に達するまでこれらのエージェントを吸収状態に配置することでこの問題に対処する。 吸収状態は、既存のアルゴリズムやAPIで修正することなく終了エージェントを処理できるが、実際の訓練効率とリソース使用の問題が存在する。 本研究は,完全連結ネットワークにおける玩具教師あり学習課題における吸収状態の量によって,サンプルの複雑さが増大するのに対して,注意は可変サイズ入力に対してより堅牢であることを示す。 そこで本研究では,吸収状態を持つ完全連結層ではなく,注意を用いた既存の最先端MARLアルゴリズムのアーキテクチャを提案する。 最後に,この新たなアーキテクチャは,エージェントがエピソード内で生成あるいは破棄されるタスクや,標準的なマルチエージェント・コーディネーションタスクにおいて,標準的なアーキテクチャを大幅に上回っていることを実証する。

The creation and destruction of agents in cooperative multi-agent reinforcement learning (MARL) is a critically under-explored area of research. Current MARL algorithms often assume that the number of agents within a group remains fixed throughout an experiment. However, in many practical problems, an agent may terminate before their teammates. This early termination issue presents a challenge: the terminated agent must learn from the group's success or failure which occurs beyond its own existence. We refer to propagating value from rewards earned by remaining teammates to terminated agents as the Posthumous Credit Assignment problem. Current MARL methods handle this problem by placing these agents in an absorbing state until the entire group of agents reaches a termination condition. Although absorbing states enable existing algorithms and APIs to handle terminated agents without modification, practical training efficiency and resource use problems exist. In this work, we first demonstrate that sample complexity increases with the quantity of absorbing states in a toy supervised learning task for a fully connected network, while attention is more robust to variable size input. Then, we present a novel architecture for an existing state-of-the-art MARL algorithm which uses attention instead of a fully connected layer with absorbing states. Finally, we demonstrate that this novel architecture significantly outperforms the standard architecture on tasks in which agents are created or destroyed within episodes as well as standard multi-agent coordination tasks.
翻訳日:2021-11-12 13:30:30 公開日:2021-11-10
# (参考訳) ニューラルネットワークを用いたCTスキャンにおけるユニバーサル病変検出

Universal Lesion Detection in CT Scans using Neural Network Ensembles ( http://arxiv.org/abs/2111.04886v2 )

ライセンス: CC BY 4.0
Tarun Mattikalli, Tejas Sudharshan Mathai, and Ronald M. Summers(参考訳) 臨床において、放射線科医は転移性病変と非転移性病変を区別する場合の病変の大きさに依存する。 病変サイズ測定の前提条件は、腫瘍の拡がりの下流評価を促進するため、その検出である。 しかし、ctスキャンでは病変の大きさや外観が異なり、放射線科医は多忙な臨床日に小さな病変を見逃すことが多い。 これらの課題を克服するために,NIH DeepLesionデータセットに存在する疑わしい病変を分類するために,最先端検出ニューラルネットワークを用いることを提案する。 さらに,False positives (FP) の最小化と検出精度の向上のために,バウンディングボックス融合技術を導入する。 最後に, 臨床用法と類似した臨床用法として, 65.17%, 感度91.67%の精度で画像4FPで, 病変の局在化に最適な検出モデルのアンサンブルを構築した。 本研究は,CT検査における病変検出法の現状を改善または維持するものである。

In clinical practice, radiologists are reliant on the lesion size when distinguishing metastatic from non-metastatic lesions. A prerequisite for lesion sizing is their detection, as it promotes the downstream assessment of tumor spread. However, lesions vary in their size and appearance in CT scans, and radiologists often miss small lesions during a busy clinical day. To overcome these challenges, we propose the use of state-of-the-art detection neural networks to flag suspicious lesions present in the NIH DeepLesion dataset for sizing. Additionally, we incorporate a bounding box fusion technique to minimize false positives (FP) and improve detection accuracy. Finally, to resemble clinical usage, we constructed an ensemble of the best detection models to localize lesions for sizing with a precision of 65.17% and sensitivity of 91.67% at 4 FP per image. Our results improve upon or maintain the performance of current state-of-the-art methods for lesion detection in challenging CT scans.
翻訳日:2021-11-12 12:12:33 公開日:2021-11-10
# (参考訳) 集中型Webクローリングのための新しいアウトリンクの予測

Prediction of new outlinks for focused Web crawling ( http://arxiv.org/abs/2111.05062v2 )

ライセンス: CC BY 4.0
Thi Kim Nhung Dang (1), Doina Bucur (1), Berk Atil (2), Guillaume Pitel (3), Frank Ruis (1), Hamidreza Kadkhodaei (1), and Nelly Litvak (1 and 4) ((1) University of Twente, The Netherlands, (2) Bogazici University, Turkey, (3) Exensa, France, (4) Eindhoven University of Technology, The Netherlands)(参考訳) 新しいハイパーリンクを発見することで、Webクローラーはインデックス化されていない新しいページを見つけることができる。 これは集中型クローラーにとって特に重要である。ウェブの特定の部分の包括的な分析を提供し、コンテンツの変更の発見よりも新しいページの発見を優先するためである。 文献では、ハイパーリンクとコンテンツの変化は、通常同時に考慮されている。 しかしながら、これらの2つのタイプの変更が必ずしも関連しているわけではないことを示す証拠もある。 さらに、変更の予測に関する多くの研究は、ページの長い履歴が利用可能であると仮定している。 本研究の目的は,新しいリンクを短時間の履歴を用いて効果的に検出する手法を提供することである。 この目的のために、私たちは1週間の間隔で10クロールのデータセットを使用します。 私たちの研究は3つの部分からなる。 まず,新しいアウトリンク数の実験的特性を解析することにより,データに対する洞察を得る。 これらの特性は、平均して時間とともに安定しているが、対象ページ(内部リンクと外部リンク)のドメイン内外へのハイパーリンクの出現には大きな差がある。 次に、リンク変更率、新しいリンクの存在、新しいリンクの数という3つのターゲットに対する統計モデルを提供する。 これらのモデルには、文献で以前に使われた機能と、本書で導入された新機能が含まれている。 特徴間の相関を解析し,その情報性について検討する。 注目すべき発見は、ターゲットページの履歴が利用できない場合、我々の新機能は、関連するページの履歴を表すもので、ターゲットページの新規リンクに対して最も予測的であることである。 最後に,集中型クローラのガイドラインとしてランク付け手法を提案し,新しいページを効率よく発見し,対応するターゲットに対して優れた性能を実現する。

Discovering new hyperlinks enables Web crawlers to find new pages that have not yet been indexed. This is especially important for focused crawlers because they strive to provide a comprehensive analysis of specific parts of the Web, thus prioritizing discovery of new pages over discovery of changes in content. In the literature, changes in hyperlinks and content have been usually considered simultaneously. However, there is also evidence suggesting that these two types of changes are not necessarily related. Moreover, many studies about predicting changes assume that long history of a page is available, which is unattainable in practice. The aim of this work is to provide a methodology for detecting new links effectively using a short history. To this end, we use a dataset of ten crawls at intervals of one week. Our study consists of three parts. First, we obtain insight in the data by analyzing empirical properties of the number of new outlinks. We observe that these properties are, on average, stable over time, but there is a large difference between emergence of hyperlinks towards pages within and outside the domain of a target page (internal and external outlinks, respectively). Next, we provide statistical models for three targets: the link change rate, the presence of new links, and the number of new links. These models include the features used earlier in the literature, as well as new features introduced in this work. We analyze correlation between the features, and investigate their informativeness. A notable finding is that, if the history of the target page is not available, then our new features, that represent the history of related pages, are most predictive for new links in the target page. Finally, we propose ranking methods as guidelines for focused crawlers to efficiently discover new pages, which achieve excellent performance with respect to the corresponding targets.
翻訳日:2021-11-12 12:07:37 公開日:2021-11-10
# (参考訳) スマートグリッドサイバーフィジカルセキュリティ強化のためのクロスレイヤ分散データ駆動フレームワーク

Cross-Layered Distributed Data-driven Framework For Enhanced Smart Grid Cyber-Physical Security ( http://arxiv.org/abs/2111.05460v1 )

ライセンス: CC BY 4.0
Allen Starke, Keerthiraj Nagaraj, Cody Ruben, Nader Aljohani, Sheng Zou, Arturo Bretas, Janise McNair, Alina Zare(参考訳) スマートグリッド(sg)の研究と開発は、社会、経済、環境に大きな影響を与えるため、学界、産業、政府から多くの注目を集めてきた。 SGのセキュリティは、物理的プロセス制御を支援するための通信ネットワークへの依存が増加し、様々なサイバー脅威にさらされているため、非常に大きな課題である。 False Data Injection (FDI) 技術を用いて測定値を変更する攻撃に加えて、通信ネットワークに対する攻撃は、メッセージの傍受や不要なデータによる通信チャネルの浸水によって、電力システムのリアルタイム操作を妨害する可能性がある。 これらの攻撃に対処するには、クロスレイヤアプローチが必要だ。 本稿では,誤りsg測定データの検出と不整合なネットワーク間通信時間と伝送遅延を統合し,より信頼性が高く正確な異常検出と攻撃解釈を行うクロスレイヤーアンサンブルコルデット(cecd-as)というクロスレイヤー戦略を提案する。 数値計算の結果,cecd-asは,従来の物理ベースの状態推定や適応統計戦略を用いたアンサンブルコルデット,その他の機械学習分類に基づく検出手法など,sg計測データのみを使用する現在の手法と比較して,高いf1-scoreで複数の偽データインジェクション,dos(denial of service)およびman in the middle(mitm)攻撃を検出できることがわかった。

Smart Grid (SG) research and development has drawn much attention from academia, industry and government due to the great impact it will have on society, economics and the environment. Securing the SG is a considerably significant challenge due the increased dependency on communication networks to assist in physical process control, exposing them to various cyber-threats. In addition to attacks that change measurement values using False Data Injection (FDI) techniques, attacks on the communication network may disrupt the power system's real-time operation by intercepting messages, or by flooding the communication channels with unnecessary data. Addressing these attacks requires a cross-layer approach. In this paper a cross-layered strategy is presented, called Cross-Layer Ensemble CorrDet with Adaptive Statistics(CECD-AS), which integrates the detection of faulty SG measurement data as well as inconsistent network inter-arrival times and transmission delays for more reliable and accurate anomaly detection and attack interpretation. Numerical results show that CECD-AS can detect multiple False Data Injections, Denial of Service (DoS) and Man In The Middle (MITM) attacks with a high F1-score compared to current approaches that only use SG measurement data for detection such as the traditional physics-based State Estimation, Ensemble CorrDet with Adaptive Statistics strategy and other machine learning classification-based detection schemes.
翻訳日:2021-11-11 23:25:39 公開日:2021-11-10
# (参考訳) 劣化文書画像に対するPDEに基づくバイナライゼーションモデルの解析

Analysis of PDE-based binarization model for degraded document images ( http://arxiv.org/abs/2111.05471v1 )

ライセンス: CC BY 4.0
Uche A. Nnolim(参考訳) 本稿では,劣化文書画像に対するPDEに基づくバイナライゼーションモデルの結果について述べる。 このモデルは、その定式化においてエッジとバイナリソースの項を利用する。 以上の結果から,鮮やかなテキストや染みの少ない文書画像の有効性が示唆された。

This report presents the results of a PDE-based binarization model for degraded document images. The model utilizes an edge and binary source term in its formulation. Results indicate effectiveness for document images with bleed-through and faded text and stains to a lesser extent.
翻訳日:2021-11-11 23:00:35 公開日:2021-11-10
# (参考訳) 分散メモリの分散化に注意

Attention Approximates Sparse Distributed Memory ( http://arxiv.org/abs/2111.05498v1 )

ライセンス: CC BY 4.0
Trenton Bricken, Cengiz Pehlevan(参考訳) ディープラーニングでは注意が重要なメカニズムになっているが、なぜそんなにうまく機能するのかという直観は限られている。 そこで本研究では,Transformer Attentionが,生物学的に検証可能な連想記憶モデルであるKanerva's Sparse Distributed Memory (SDM)と密接に関連していることを示す。 我々は,これらの条件が事前学習した GPT2 Transformer モデルで満たされていることを確認した。 注意-sdmマップの意義について考察し,注意の計算と生物学的解釈について述べる。

While Attention has come to be an important mechanism in deep learning, there remains limited intuition for why it works so well. Here, we show that Transformer Attention can be closely related under certain data conditions to Kanerva's Sparse Distributed Memory (SDM), a biologically plausible associative memory model. We confirm that these conditions are satisfied in pre-trained GPT2 Transformer models. We discuss the implications of the Attention-SDM map and provide new computational and biological interpretations of Attention.
翻訳日:2021-11-11 22:56:32 公開日:2021-11-10
# (参考訳) 適応しきい値を用いた包括的話者検証

Inclusive Speaker Verification with Adaptive thresholding ( http://arxiv.org/abs/2111.05501v1 )

ライセンス: CC BY 4.0
Navdeep Jain, Hongcheng Wang(参考訳) 商業アプリケーションにおいて話者検証(SV)に基づくシステムを利用することは,性別,年齢,民族に関係なく,包括的体験を顧客に提供することが重要である。 本稿では、性別と年齢がsvに与える影響を分析し、性別と年齢の異なるグループにまたがる所望の共通誤受率(far)については、性別と年齢の異なるグループでは偽拒絶率(frr)が異なることを見出した。 希望する範囲で全ユーザに対してfrrを最適化するために,svのためのコンテキスト(性別,年齢)適応しきい値設定フレームワークを提案する。 コンテキストは、多くの実用的なアプリケーションのための事前情報として利用できる。 また,このような事前情報のない文脈をアルゴリズム的に導出する,結合性/年齢検出モデルを提案する。 提案手法は,より効率的な包摂的SVシステム構築に有効であることを示す。 具体的には, 性別別しきい値を用いて, Voxceleb1テストセットにおいて, 所望のFARに対して, FRRを低減できることを示す。 OGI児の音声コーパスの類似分析は、年齢別閾値を用いて、所望のFARに対する特定の年齢群に対するFRRを大幅に削減できることを示している。

While using a speaker verification (SV) based system in a commercial application, it is important that customers have an inclusive experience irrespective of their gender, age, or ethnicity. In this paper, we analyze the impact of gender and age on SV and find that for a desired common False Acceptance Rate (FAR) across different gender and age groups, the False Rejection Rate (FRR) is different for different gender and age groups. To optimize FRR for all users for a desired FAR, we propose a context (e.g. gender, age) adaptive thresholding framework for SV. The context can be available as prior information for many practical applications. We also propose a concatenated gender/age detection model to algorithmically derive the context in absence of such prior information. We experimentally show that our context-adaptive thresholding method is effective in building a more efficient inclusive SV system. Specifically, we show that we can reduce FRR for specific gender for a desired FAR on the voxceleb1 test set by using gender-specific thresholds. Similar analysis on OGI kids' speech corpus shows that by using an age-specific threshold, we can significantly reduce FRR for certain age groups for desired FAR.
翻訳日:2021-11-11 22:55:34 公開日:2021-11-10
# (参考訳) dacfl: 分散トポロジにおける動的平均コンセンサスに基づく連合学習

DACFL: Dynamic Average Consensus Based Federated Learning in Decentralized Topology ( http://arxiv.org/abs/2111.05505v1 )

ライセンス: CC BY 4.0
Zhikun Chen, Daofeng Li, Jinkang Zhu and Sihai Zhang(参考訳) Federated Learning(FL)は、中央パラメータサーバ(PS)が多くのローカルユーザをコーディネートして、グローバルに一貫したモデルをトレーニングする、急成長中の分散機械学習フレームワークである。 従来の連合学習は必然的にPSによる集中トポロジーに依存している。 結果としてPSが故障すると麻痺する。 このような単一障害、特にPSにおいて緩和するために、いくつかの既存の研究は、分散トポロジにおいてFLを促進するためにCDSGDやD-PSGDのような分散FL(DFL)の実装を提供してきた。 しかし、CDSGDにおけるユーザの最終モデルとD-PSGDにおけるネットワーク全体のモデル平均値との相違など、これらの手法にはまだいくつかの問題がある。 そこで本研究では,DACFLと呼ばれる新しいDFL実装を考案し,各ユーザが自身のトレーニングデータを用いてモデルをトレーニングし,その中間モデルを対称的かつ2倍の確率行列で隣人と交換する。 dacflは、各ユーザのローカルトレーニングの進捗を離散時間プロセスとして扱い、psがないときに \textit{average model} を追跡するために、first order dynamic average consensus (fodac) メソッドを使用する。 本稿では,DACFLの合理性を高めるために,i.dデータに基づく理論的収束解析も提供する。 mnist,fashion-mnist,cifar-10の実験結果は,時間不変および時間変動ネットワークトポロジーにおける解の実現可能性を検証するとともに,ほとんどの場合においてd-psgdおよびcdsgdよりもdacflの方が優れていることを宣言した。

Federated learning (FL) is a burgeoning distributed machine learning framework where a central parameter server (PS) coordinates many local users to train a globally consistent model. Conventional federated learning inevitably relies on a centralized topology with a PS. As a result, it will paralyze once the PS fails. To alleviate such a single point failure, especially on the PS, some existing work has provided decentralized FL (DFL) implementations like CDSGD and D-PSGD to facilitate FL in a decentralized topology. However, there are still some problems with these methods, e.g., significant divergence between users' final models in CDSGD and a network-wide model average necessity in D-PSGD. In order to solve these deficiency, this paper devises a new DFL implementation coined as DACFL, where each user trains its model using its own training data and exchanges the intermediate models with its neighbors through a symmetric and doubly stochastic matrix. The DACFL treats the progress of each user's local training as a discrete-time process and employs a first order dynamic average consensus (FODAC) method to track the \textit{average model} in the absence of the PS. In this paper, we also provide a theoretical convergence analysis of DACFL on the premise of i.i.d data to strengthen its rationality. The experimental results on MNIST, Fashion-MNIST and CIFAR-10 validate the feasibility of our solution in both time-invariant and time-varying network topologies, and declare that DACFL outperforms D-PSGD and CDSGD in most cases.
翻訳日:2021-11-11 22:46:31 公開日:2021-11-10
# (参考訳) 適応型複合勾配をもつ生成型逆ネットワークの訓練

Training Generative Adversarial Networks with Adaptive Composite Gradient ( http://arxiv.org/abs/2111.05508v1 )

ライセンス: CC BY 4.0
Huiqing Qi, Fang Li, Shengli Tan, Xiangyun Zhang(参考訳) 生成的敵ネットワークの幅広い応用は、訓練方法の成功の恩恵を受け、対象関数が局所的ミニマに収束することを保証する。 それでも、勾配に基づく手法の循環的挙動と、ヘッセン行列に基づくこれらの手法の高価な計算コストにより、効率的かつ競争的な訓練方法の設計は依然として難しい課題である。 本稿では,適切な条件下でのバイリニアゲームに線形収束する適応型コンポジットグラディエント(ACG)法を提案する。 理論と玩具関数実験は,提案手法が最近提案されているアルゴリズムよりも巡回動作を緩和し,収束を早めることを示唆する。 重要なことに、ACG法は双線型ゲームや一般ゲームにおいて安定な固定点を見つけるためにのみ用いられる。 ACG法は、各ステップの勾配を計算する必要がなく、将来のイテレーションで予測情報を利用することで勾配とヘッセンの計算コストを削減するため、新しい半勾配自由アルゴリズムである。 ACGと既存のアルゴリズムを線形GANと組み合わせて2種類のガウス実験を行った。 その結果, acgは従来のアルゴリズムと競合することがわかった。 DCGANを用いた4つの定値データセット(MNIST, Fashion-MNIST, CIFAR-10, CelebA)の実測実験により, ACG法はいくつかのベースラインより優れており, 本手法の優位性と有効性を示している。

The wide applications of Generative adversarial networks benefit from the successful training methods, guaranteeing that an object function converges to the local minima. Nevertheless, designing an efficient and competitive training method is still a challenging task due to the cyclic behaviors of some gradient-based ways and the expensive computational cost of these methods based on the Hessian matrix. This paper proposed the adaptive Composite Gradients (ACG) method, linearly convergent in bilinear games under suitable settings. Theory and toy-function experiments suggest that our approach can alleviate the cyclic behaviors and converge faster than recently proposed algorithms. Significantly, the ACG method is not only used to find stable fixed points in bilinear games as well as in general games. The ACG method is a novel semi-gradient-free algorithm since it does not need to calculate the gradient of each step, reducing the computational cost of gradient and Hessian by utilizing the predictive information in future iterations. We conducted two mixture of Gaussians experiments by integrating ACG to existing algorithms with Linear GANs. Results show ACG is competitive with the previous algorithms. Realistic experiments on four prevalent data sets (MNIST, Fashion-MNIST, CIFAR-10, and CelebA) with DCGANs show that our ACG method outperforms several baselines, which illustrates the superiority and efficacy of our method.
翻訳日:2021-11-11 21:54:14 公開日:2021-11-10
# (参考訳) 相互作用系における関係の潜在表現の発見

Discovering Latent Representations of Relations for Interacting Systems ( http://arxiv.org/abs/2111.05514v1 )

ライセンス: CC BY 4.0
Dohae Lee, Young Jin Oh, and In-Kwon Lee(参考訳) 実体が互いに相互作用するシステムは一般的である。 多くの相互作用するシステムでは、システムを解析するための重要な情報であるエンティティ間の関係を観察することは困難である。 近年,グラフニューラルネットワークを用いたエンティティ間の関係の発見への関心が高まっている。 しかし、関係の数が不明である場合や関係が複雑である場合、既存のアプローチを適用するのは難しい。 本稿では,関係の数が不明であるか,多種類の関係が存在する場合でも柔軟に適用可能なDiScovering Latent Relation (DSLR)モデルを提案する。 DSLRモデルの柔軟性は、離散変数ではなく潜在空間内のエンティティと、多くの種類の関係を扱うことができるデコーダの関係を表すエンコーダの設計概念から来ています。 実体間の様々な関係を持つ合成および実世界のグラフデータについて実験を行い、定性的および定量的な結果と他のアプローチとの比較を行った。 実験の結果,提案手法は未知数の複素関係を持つ動的グラフの解析に適していることがわかった。

Systems whose entities interact with each other are common. In many interacting systems, it is difficult to observe the relations between entities which is the key information for analyzing the system. In recent years, there has been increasing interest in discovering the relationships between entities using graph neural networks. However, existing approaches are difficult to apply if the number of relations is unknown or if the relations are complex. We propose the DiScovering Latent Relation (DSLR) model, which is flexibly applicable even if the number of relations is unknown or many types of relations exist. The flexibility of our DSLR model comes from the design concept of our encoder that represents the relation between entities in a latent space rather than a discrete variable and a decoder that can handle many types of relations. We performed the experiments on synthetic and real-world graph data with various relationships between entities, and compared the qualitative and quantitative results with other approaches. The experiments show that the proposed method is suitable for analyzing dynamic graphs with an unknown number of complex relations.
翻訳日:2021-11-11 21:24:17 公開日:2021-11-10
# (参考訳) 映像中の物体位置推定のための時空間メモリネットワーク

Space-Time Memory Network for Sounding Object Localization in Videos ( http://arxiv.org/abs/2111.05526v1 )

ライセンス: CC BY 4.0
Sizhe Li, Yapeng Tian, Chenliang Xu(参考訳) 時間的同期と視覚と音の関連を活用することは、聴覚オブジェクトのロバストなローカライズに向けた重要なステップである。 そこで本研究では,映像中の物体位置を計測する時空間メモリネットワークを提案する。 音声と視覚のモダリティから、一様および横モードの両方の表現に対して時空間的注意を同時に学習することができる。 音声視覚オブジェクトの局所化に時空間学習を組み込むことの有効性を定量的かつ質的に示す。 本手法は,様々な複雑な視聴覚シーンを一般化し,最新の最先端手法を上回っていることを示す。

Leveraging temporal synchronization and association within sight and sound is an essential step towards robust localization of sounding objects. To this end, we propose a space-time memory network for sounding object localization in videos. It can simultaneously learn spatio-temporal attention over both uni-modal and cross-modal representations from audio and visual modalities. We show and analyze both quantitatively and qualitatively the effectiveness of incorporating spatio-temporal learning in localizing audio-visual objects. We demonstrate that our approach generalizes over various complex audio-visual scenes and outperforms recent state-of-the-art methods.
翻訳日:2021-11-11 21:06:06 公開日:2021-11-10
# (参考訳) ニューラルネットワークにおける軽量マシンアンラーニング

Lightweight machine unlearning in neural network ( http://arxiv.org/abs/2111.05528v1 )

ライセンス: CC BY 4.0
Kongyang Chen, Yiwen Wang, Yao Huang(参考訳) 近年,機械学習ニューラルネットワークが人々の生活に深く浸透している。 コンビニエンスの価格としては、個人の個人情報も開示されるリスクがある。 忘れられる権利」は、個人が自分の同意に基づいて個人情報処理活動から同意を取り消す権利を有することを規定して、タイムリーに導入された。 この問題を解決するために、モデルが全てのプライベート情報のメモリを消去できる機械学習が提案されている。 モデル更新のためのリトレーニングや漸進的な学習を含む過去の研究は、しばしば余分なストレージスペースを取り込むか、ニューラルネットワークに適用するのが困難である。 本手法では, モデルへの無学習データの寄与が完全に排除されるまで, 対象モデルの重みの小さな摂動と, 残りのデータサブセットで訓練されたモデルの方向の反復を行うだけでよい。 本稿では,5つのデータセットを用いた実験により,機械学習における本手法の有効性が証明され,本手法は再学習よりも15倍高速である。

In recent years, machine learning neural network has penetrated deeply into people's life. As the price of convenience, people's private information also has the risk of disclosure. The "right to be forgotten" was introduced in a timely manner, stipulating that individuals have the right to withdraw their consent from personal information processing activities based on their consent. To solve this problem, machine unlearning is proposed, which allows the model to erase all memory of private information. Previous studies, including retraining and incremental learning to update models, often take up extra storage space or are difficult to apply to neural networks. Our method only needs to make a small perturbation of the weight of the target model and make it iterate in the direction of the model trained with the remaining data subset until the contribution of the unlearning data to the model is completely eliminated. In this paper, experiments on five datasets prove the effectiveness of our method for machine unlearning, and our method is 15 times faster than retraining.
翻訳日:2021-11-11 20:54:38 公開日:2021-11-10
# (参考訳) icdar 2021 文書視覚質問応答に関するコンペティション

ICDAR 2021 Competition on Document VisualQuestion Answering ( http://arxiv.org/abs/2111.05547v1 )

ライセンス: CC BY 4.0
Rub\`en Tito, Minesh Mathew, C.V. Jawahar, Ernest Valveny, and Dimosthenis Karatzas(参考訳) 本報告では,ICDAR 2021版ドキュメント・ビジュアル・イシュー・チャレンジの結果について述べる。 このエディションは、Single Document VQAとDocument Collection VQAの以前のタスクを補完し、新たに導入されたInfographics VQAを補完する。 Infographics VQAは5000以上のインフォグラフィックイメージと30,000の質問応答ペアからなる新しいデータセットに基づいている。 Infographics VQAタスクで0.6120 ANLS、Document Collection VQAタスクで0.7743 ANLSL、Single Document VQAで0.8705 ANLSを獲得した。 本稿では,各タスクに使用するデータセットの要約,提案した各メソッドの説明,結果と性能分析について述べる。 DocVQA 2020チャレンジの第1版以降のSingle Document VQAの進捗状況も紹介されている。

In this report we present results of the ICDAR 2021 edition of the Document Visual Question Challenges. This edition complements the previous tasks on Single Document VQA and Document Collection VQA with a newly introduced on Infographics VQA. Infographics VQA is based on a new dataset of more than 5,000 infographics images and 30,000 question-answer pairs. The winner methods have scored 0.6120 ANLS in Infographics VQA task, 0.7743 ANLSL in Document Collection VQA task and 0.8705 ANLS in Single Document VQA. We present a summary of the datasets used for each task, description of each of the submitted methods and the results and analysis of their performance. A summary of the progress made on Single Document VQA since the first edition of the DocVQA 2020 challenge is also presented.
翻訳日:2021-11-11 20:34:05 公開日:2021-11-10
# (参考訳) dual self-supervision を用いた深い注意誘導グラフクラスタリング

Deep Attention-guided Graph Clustering with Dual Self-supervision ( http://arxiv.org/abs/2111.05548v1 )

ライセンス: CC BY 4.0
Zhihao Peng and Hui Liu and Yuheng Jia and Junhui Hou(参考訳) 既存のディープ埋め込みクラスタリングは、機能埋め込みを学ぶための最も深いレイヤのみを考慮し、クラスタ割り当てから利用可能な識別情報をうまく利用できないため、パフォーマンスの制限が生じる。 そこで本研究では,DAGC(Double Self-supervision)を用いたディープアテンション誘導グラフクラスタリング手法を提案する。 具体的には、dagcはまず、各層におけるオートエンコーダとグラフ畳み込みネットワークの特徴を適応的に統合するためにヘテロゲニティ・アズ・アズ・フュージョンモジュールを使用し、その後、スケール・アズ・フュージョンモジュールを使用して異なる層にマルチスケールな特徴を動的に結合する。 このようなモジュールは、注意に基づくメカニズムを介して識別的特徴埋め込みを学習することができる。 さらに,クラスタ割り当てを利用してクラスタリング結果を直接取得する分散型融合モジュールを設計した。 クラスタ割り当てから識別情報を明らかにするために,三重項カルバックリーバ分岐損失を伴うソフトな自己スーパービジョン戦略と疑似スーパービジョン損失を伴うハード自己スーパービジョン戦略からなるデュアルセルフスーパービジョンソリューションを開発した。 広範な実験により,本手法が6つのベンチマークデータセットにおける最先端メソッドを一貫して上回っていることを確認した。 特に本手法は,最高のベースラインに対して18.14%以上改善する。

Existing deep embedding clustering works only consider the deepest layer to learn a feature embedding and thus fail to well utilize the available discriminative information from cluster assignments, resulting performance limitation. To this end, we propose a novel method, namely deep attention-guided graph clustering with dual self-supervision (DAGC). Specifically, DAGC first utilizes a heterogeneity-wise fusion module to adaptively integrate the features of an auto-encoder and a graph convolutional network in each layer and then uses a scale-wise fusion module to dynamically concatenate the multi-scale features in different layers. Such modules are capable of learning a discriminative feature embedding via an attention-based mechanism. In addition, we design a distribution-wise fusion module that leverages cluster assignments to acquire clustering results directly. To better explore the discriminative information from the cluster assignments, we develop a dual self-supervision solution consisting of a soft self-supervision strategy with a triplet Kullback-Leibler divergence loss and a hard self-supervision strategy with a pseudo supervision loss. Extensive experiments validate that our method consistently outperforms state-of-the-art methods on six benchmark datasets. Especially, our method improves the ARI by more than 18.14% over the best baseline.
翻訳日:2021-11-11 20:21:37 公開日:2021-11-10
# (参考訳) TomoSLAM:マイクロトモグラフィーにおける回転角補正のための因子グラフ最適化

TomoSLAM: factor graph optimization for rotation angle refinement in microtomography ( http://arxiv.org/abs/2111.05562v1 )

ライセンス: CC BY 4.0
Mark Griguletskii, Mikhail Chekanov, Oleg Shipitko(参考訳) CT(Computerd tomography)では、試料、検出器、信号源の相対軌道は、装置部品の意図的な事前プログラム運動によって引き起こされるため、伝統的に知られている。 しかし, メカニカルバックラッシュ, 回転センサ測定誤差により, 熱変形は所望の軌道と異なる。 これは断層再構成の結果の質に悪影響を及ぼす。 装置の校正や調整は、軌道の不正確さを完全に排除するものではないが、機器のメンテナンスコストを大幅に向上させる。 この問題に対する多くのアプローチは、復元過程における各プロジェクション(各時間ステップ)のサンプルに対するソースとセンサの位置の推定を自動的に改良することに基づいている。 異なる角度から物体の異なる画像を観察しながら位置修正を行う同様の問題は、ロボット工学(特に移動ロボットや自動運転車)でよく知られており、同時局在とマッピング(SLAM)と呼ばれている。 本研究の科学的新規性は、マイクロトモグラフィーにおける軌道改善の問題をSLAM問題として考察することである。 これは、X線プロジェクションからSURF(Speeded Up Robust Features)特徴を抽出し、ランダムサンプルコンセンサス(RANSAC)とのフィルタマッチングを行い、プロジェクション間の角度を計算し、ステッパーモータ制御信号と組み合わせて、回転角を改良することで実現される。

In computed tomography (CT), the relative trajectories of a sample, a detector, and a signal source are traditionally considered to be known, since they are caused by the intentional preprogrammed movement of the instrument parts. However, due to the mechanical backlashes, rotation sensor measurement errors, thermal deformations real trajectory differs from desired ones. This negatively affects the resulting quality of tomographic reconstruction. Neither the calibration nor preliminary adjustments of the device completely eliminates the inaccuracy of the trajectory but significantly increase the cost of instrument maintenance. A number of approaches to this problem are based on an automatic refinement of the source and sensor position estimate relative to the sample for each projection (at each time step) during the reconstruction process. A similar problem of position refinement while observing different images of an object from different angles is well known in robotics (particularly, in mobile robots and self-driving vehicles) and is called Simultaneous Localization And Mapping (SLAM). The scientific novelty of this work is to consider the problem of trajectory refinement in microtomography as a SLAM problem. This is achieved by extracting Speeded Up Robust Features (SURF) features from X-ray projections, filtering matches with Random Sample Consensus (RANSAC), calculating angles between projections, and using them in factor graph in combination with stepper motor control signals in order to refine rotation angles.
翻訳日:2021-11-11 20:01:53 公開日:2021-11-10
# (参考訳) 会話勧告:理論モデルと複雑度解析

Conversational Recommendation:Theoretical Model and Complexity Analysis ( http://arxiv.org/abs/2111.05578v1 )

ライセンス: CC BY 4.0
Tommaso Di Noia, Francesco Donini, Dietmar Jannach, FedelucioNarducci, Claudio Pomo(参考訳) リコメンダシステム(Recommender system)は、個々のユーザのニーズや嗜好に関する知識を用いて、パーソナライズされた方法で情報過負荷の状況に対する関心項目を見つけるのに役立つソフトウェアアプリケーションである。 対話型レコメンデーションアプローチでは、これらのニーズと嗜好は対話型マルチターンダイアログでシステムによって獲得される。 このようなダイアログを駆動する文献における一般的なアプローチは、望まれない項目の特徴や個々の項目に関する好みについて、徐々にユーザーに尋ねることである。 この文脈における中心的な研究目標は効率であり、満足のいく項目が見つかるまで必要な相互作用の数について評価される。 これは通常、ユーザに尋ねる最も良い質問について推測することで達成される。 現在、ダイアログ効率の研究はほとんど経験的であり、例えば、あるアプリケーションにおいて、質問を選択する1つの戦略が他の方法よりも優れていることを示すことを目的としている。 本研究は、理論的にドメインに依存しない会話レコメンデーションモデルを用いて実証的研究を補完する。 このモデルは、様々なアプリケーションシナリオをカバーするように設計されており、対話的アプローチの効率を形式的に、特に最適な相互作用戦略を考案する計算の複雑さに関して調査することができる。 このような理論的分析により、効率的な会話戦略を見つけることはNPハードであり、一般にはPSPACEであるが、特定の種類のカタログでは、上界はPolyLOGSPACEとなる。 実践的な観点からは、カタログ特性は個々の会話戦略の効率に強く影響を与えうるため、新しい戦略を設計する際に考慮すべきである。 実世界のデータセットから得られたデータセットに関する予備的な実証分析は、我々の発見と一致している。

Recommender systems are software applications that help users find items of interest in situations of information overload in a personalized way, using knowledge about the needs and preferences of individual users. In conversational recommendation approaches, these needs and preferences are acquired by the system in an interactive, multi-turn dialog. A common approach in the literature to drive such dialogs is to incrementally ask users about their preferences regarding desired and undesired item features or regarding individual items. A central research goal in this context is efficiency, evaluated with respect to the number of required interactions until a satisfying item is found. This is usually accomplished by making inferences about the best next question to ask to the user. Today, research on dialog efficiency is almost entirely empirical, aiming to demonstrate, for example, that one strategy for selecting questions is better than another one in a given application. With this work, we complement empirical research with a theoretical, domain-independent model of conversational recommendation. This model, which is designed to cover a range of application scenarios, allows us to investigate the efficiency of conversational approaches in a formal way, in particular with respect to the computational complexity of devising optimal interaction strategies. Through such a theoretical analysis we show that finding an efficient conversational strategy is NP-hard, and in PSPACE in general, but for particular kinds of catalogs the upper bound lowers to POLYLOGSPACE. From a practical point of view, this result implies that catalog characteristics can strongly influence the efficiency of individual conversational strategies and should therefore be considered when designing new strategies. A preliminary empirical analysis on datasets derived from a real-world one aligns with our findings.
翻訳日:2021-11-11 19:49:17 公開日:2021-11-10
# (参考訳) マルチフィデリティガウスプロセスを用いた安全なリアルタイム最適化

Safe Real-Time Optimization using Multi-Fidelity Gaussian Processes ( http://arxiv.org/abs/2111.05589v1 )

ライセンス: CC BY 4.0
Panagiotis Petsagkourakis, Benoit Chachuat, Ehecatl Antonio del Rio-Chanona(参考訳) 本稿では,不確実なプロセスのシステムモデルミスマッチを克服するリアルタイム最適化手法を提案する。 この研究の新規性は、微分自由最適化スキームと多忠実ガウス過程をベイズ最適化フレームワークに統合することにある。 提案されたスキームは、(既知の)過程モデルをエミュレートする2つのガウス過程と、測定による真の体系を用いる。 このように、低忠実度サンプルはモデルによって得られるが、高忠実度サンプルはシステムの測定によって得られる。 このフレームワークは、取得機能による探索を駆動しながら、非パラメトリックな方法でシステムの振舞いをキャプチャする。 システムの表現にガウス過程を使うことの利点は、不確実性定量化をリアルタイムで行う能力と、高い信頼性でチャンス制約を満たす能力である。 この結果は、半バッチフォトバイオリアクター最適化問題を含む数値ケーススタディで示される実用的なアプローチとなる。

This paper proposes a new class of real-time optimization schemes to overcome system-model mismatch of uncertain processes. This work's novelty lies in integrating derivative-free optimization schemes and multi-fidelity Gaussian processes within a Bayesian optimization framework. The proposed scheme uses two Gaussian processes for the stochastic system, one emulates the (known) process model, and another, the true system through measurements. In this way, low fidelity samples can be obtained via a model, while high fidelity samples are obtained through measurements of the system. This framework captures the system's behavior in a non-parametric fashion while driving exploration through acquisition functions. The benefit of using a Gaussian process to represent the system is the ability to perform uncertainty quantification in real-time and allow for chance constraints to be satisfied with high confidence. This results in a practical approach that is illustrated in numerical case studies, including a semi-batch photobioreactor optimization problem.
翻訳日:2021-11-11 19:48:08 公開日:2021-11-10
# (参考訳) 帆の風: 再利用可能な維持可能なオランダ海洋史知識グラフの開発

The Wind in Our Sails: Developing a Reusable and Maintainable Dutch Maritime History Knowledge Graph ( http://arxiv.org/abs/2111.05605v1 )

ライセンス: CC BY 4.0
Stijn Schouten, Victor de Boer, Lodewijk Petram, Marieke van Erp(参考訳) デジタルソースはかつてないほど普及しているが、効果的に利用するのは難しい。 デジタル化されたソースは、しばしば分散されるため、研究者は異なるソースの収集、解釈、調整に時間を費やすことになる。 知識グラフは、人間と機械がクエリできる唯一の接続された真実の情報源を提供することによって研究を加速することができる。 2つの設計テストサイクルの間に、歴史的海洋ドメインから4つのデータセットを知識グラフに変換する。 これらのサイクルの焦点は、他のlinked data conversionの取り組みで採用可能な、持続可能で使いやすいアプローチを作ることである。 さらに、我々のナレッジグラフは、海洋史家や他の興味のあるユーザーがオランダ東インド会社の日々の業務を統一ポータルを通じて調査できる。

Digital sources are more prevalent than ever but effectively using them can be challenging. One core challenge is that digitized sources are often distributed, thus forcing researchers to spend time collecting, interpreting, and aligning different sources. A knowledge graph can accelerate research by providing a single connected source of truth that humans and machines can query. During two design-test cycles, we convert four data sets from the historical maritime domain into a knowledge graph. The focus during these cycles is on creating a sustainable and usable approach that can be adopted in other linked data conversion efforts. Furthermore, our knowledge graph is available for maritime historians and other interested users to investigate the daily business of the Dutch East India Company through a unified portal.
翻訳日:2021-11-11 19:31:29 公開日:2021-11-10
# (参考訳) CLIP2TV:ビデオテキスト検索のためのトランスフォーマー方式に関する実証的研究

CLIP2TV: An Empirical Study on Transformer-based Methods for Video-Text Retrieval ( http://arxiv.org/abs/2111.05610v1 )

ライセンス: CC BY 4.0
Zijian Gao, Jingyu Liu, Sheng Chen, Dedan Chang, Hao Zhang, Jinwei Yuan(参考訳) 現代のビデオテキスト検索フレームワークは、ビデオエンコーダ、テキストエンコーダ、類似性ヘッドの3つの部分から構成されている。 視覚的およびテキスト的表現学習の成功により、ビデオテキスト検索の分野でもトランスフォーマーベースのエンコーダと融合法が採用されている。 本稿では,トランスフォーマー方式において重要な要素がどこにあるのかを検討するために,clip2tvを提案する。 これを実現するために,我々はまず,マルチモーダル学習に関する最近の研究を再検討し,その後,ビデオテキスト検索にいくつかの技術を導入する。 特に、CLIP2TVは、MSR-VTTデータセット上で52.9@R1を達成し、以前のSOTAよりも4.1%向上した。

Modern video-text retrieval frameworks basically consist of three parts: video encoder, text encoder and the similarity head. With the success on both visual and textual representation learning, transformer based encoders and fusion methods have also been adopted in the field of video-text retrieval. In this report, we present CLIP2TV, aiming at exploring where the critical elements lie in transformer based methods. To achieve this, We first revisit some recent works on multi-modal learning, then introduce some techniques into video-text retrieval, finally evaluate them through extensive experiments in different configurations. Notably, CLIP2TV achieves 52.9@R1 on MSR-VTT dataset, outperforming the previous SOTA result by 4.1%.
翻訳日:2021-11-11 19:19:04 公開日:2021-11-10
# (参考訳) 単一RGB画像からの形状推定のためのレバレッジ幾何学

Leveraging Geometry for Shape Estimation from a Single RGB Image ( http://arxiv.org/abs/2111.05615v1 )

ライセンス: CC BY 4.0
Florian Langer, Ignas Budvytis, Roberto Cipolla(参考訳) 単一のRGB画像から静的物体の3次元形状とポーズを予測することは、現代のコンピュータビジョンにおいて重要な研究領域である。 応用範囲は拡張現実からロボティクス、デジタルコンテンツ制作まで多岐にわたる。 通常、このタスクは直接オブジェクトの形状と不正確な予測によって実行される。 有望な研究方向は、大規模データベースからCADモデルを抽出し、画像に観察されたオブジェクトにアライメントすることで、意味のある形状予測を保証する。 しかし、既存の研究はオブジェクトの幾何学を考慮に入れておらず、特に目に見えないオブジェクトに対する不正確なオブジェクトポーズの予測に繋がる。 本稿では、rgb画像からレンダリングされたcadモデルへのクロスドメインキーポイントのマッチングが、直接予測によって得られたものと比較して、より正確なオブジェクトポーズ予測を可能にすることを示す。 さらに、キーポイントマッチングは、オブジェクトのポーズを推定するだけでなく、オブジェクト自体の形状を変更するためにも使用できることを示した。 オブジェクト検索だけで達成できる精度は、基本的に利用可能なCADモデルに限られているため、これは重要である。 形状適応は, 得られたCADモデルと観察された形状とのギャップを橋渡しする。 Pix3Dデータセットに挑戦するアプローチを示します。 提案する幾何形状予測は,実物では33.2から37.8に,見えない物では8.2から17.1に改善する。 さらに,提案する形状適応の際,cadモデルと密接に一致することなく,より正確な形状予測を行う。 コードはhttps://github.com/florianlanger/leveraging_geometry_for_shape_estimationで公開されている。

Predicting 3D shapes and poses of static objects from a single RGB image is an important research area in modern computer vision. Its applications range from augmented reality to robotics and digital content creation. Typically this task is performed through direct object shape and pose predictions which is inaccurate. A promising research direction ensures meaningful shape predictions by retrieving CAD models from large scale databases and aligning them to the objects observed in the image. However, existing work does not take the object geometry into account, leading to inaccurate object pose predictions, especially for unseen objects. In this work we demonstrate how cross-domain keypoint matches from an RGB image to a rendered CAD model allow for more precise object pose predictions compared to ones obtained through direct predictions. We further show that keypoint matches can not only be used to estimate the pose of an object, but also to modify the shape of the object itself. This is important as the accuracy that can be achieved with object retrieval alone is inherently limited to the available CAD models. Allowing shape adaptation bridges the gap between the retrieved CAD model and the observed shape. We demonstrate our approach on the challenging Pix3D dataset. The proposed geometric shape prediction improves the AP mesh over the state-of-the-art from 33.2 to 37.8 on seen objects and from 8.2 to 17.1 on unseen objects. Furthermore, we demonstrate more accurate shape predictions without closely matching CAD models when following the proposed shape adaptation. Code is publicly available at https://github.com/florianlanger/leveraging_geometry_for_shape_estimation .
翻訳日:2021-11-11 19:12:08 公開日:2021-11-10
# (参考訳) FabricFlowNet:フローベースのポリシーによる双方向の布操作

FabricFlowNet: Bimanual Cloth Manipulation with a Flow-based Policy ( http://arxiv.org/abs/2111.05623v1 )

ライセンス: CC BY 4.0
Thomas Weng, Sujay Bajracharya, Yufei Wang, Khush Agrawal, David Held(参考訳) 布の変形性に起因した課題である,目標指向の布操作の問題に対処する。 ビデオの動作推定に通常使用される手法である光フローは、観察とゴール画像間で対応する布のポーズを効果的に表現することもできます。 fabricflownet(ffn)は、フローを入力とアクション表現の両方として活用し、パフォーマンスを向上させる布の操作ポリシである。 FabricFlowNetはまた、望ましい目標に基づいて、双方向とシングルアームのアクションをエレガントに切り替える。 fabricflownetは、画像入力を行う最先端のモデルフリーおよびモデルベース布地操作ポリシーを著しく上回っている。 また,実世界における実世界実験を行い,実世界への効率的なシミュレートを実証した。 最後に,1枚の正方形の布をtシャツや長方形の布など他の布形に訓練する場合に一般化することを示す。 ビデオや他の補足資料はhttps://sites.google.com/view/fabricflownet.com/で入手できる。

We address the problem of goal-directed cloth manipulation, a challenging task due to the deformability of cloth. Our insight is that optical flow, a technique normally used for motion estimation in video, can also provide an effective representation for corresponding cloth poses across observation and goal images. We introduce FabricFlowNet (FFN), a cloth manipulation policy that leverages flow as both an input and as an action representation to improve performance. FabricFlowNet also elegantly switches between bimanual and single-arm actions based on the desired goal. We show that FabricFlowNet significantly outperforms state-of-the-art model-free and model-based cloth manipulation policies that take image input. We also present real-world experiments on a bimanual system, demonstrating effective sim-to-real transfer. Finally, we show that our method generalizes when trained on a single square cloth to other cloth shapes, such as T-shirts and rectangular cloths. Video and other supplementary materials are available at: https://sites.google.com/view/fabricflownet.
翻訳日:2021-11-11 19:02:30 公開日:2021-11-10
# (参考訳) 信頼できる研究環境(tre)と課題と機会からの機械学習モデル開示

Machine Learning Models Disclosure from Trusted Research Environments (TRE), Challenges and Opportunities ( http://arxiv.org/abs/2111.05628v1 )

ライセンス: CC BY 4.0
Esma Mansouri-Benssassi (1), Simon Rogers (2), Jim Smith (3), Felix Ritchie (3), Emily Jefferson (1) (1) University of Dundee (2) NHS National Services Scotland (3) University of the West of England(参考訳) trusted research environment (tre)は、研究者が機密データにアクセスできる安全で安全な環境である。 電子健康記録(EHR)、医用画像、ゲノムデータなどの医療データの成長と多様性により、一般の人工知能(AI)の利用が増加し、特に医療領域における機械学習(ML)のサブフィールドが拡大する。 これにより、トレーニングされた機械学習モデルなど、TREからの新しいタイプのアウトプットを開示したいという願望が生まれます。 TREの統計開示制御のための具体的なガイドラインやポリシーは存在するが、これらの新しいタイプの出力要求を十分にカバーしていない。 本稿では,TREにおける医療分野における機械学習の適用と公開に関する課題について述べる。 AIの導入がTREにもたらすさまざまな脆弱性について説明する。 また、トレーニングされたMLモデルの開示に関連するさまざまなタイプやリスクレベルについても紹介する。 最終的に、TREから機械学習出力を安全に開示するためのポリシーとツールを開発し、適応する新たな研究機会について説明する。

Trusted Research environments (TRE)s are safe and secure environments in which researchers can access sensitive data. With the growth and diversity of medical data such as Electronic Health Records (EHR), Medical Imaging and Genomic data, there is an increase in the use of Artificial Intelligence (AI) in general and the subfield of Machine Learning (ML) in particular in the healthcare domain. This generates the desire to disclose new types of outputs from TREs, such as trained machine learning models. Although specific guidelines and policies exists for statistical disclosure controls in TREs, they do not satisfactorily cover these new types of output request. In this paper, we define some of the challenges around the application and disclosure of machine learning for healthcare within TREs. We describe various vulnerabilities the introduction of AI brings to TREs. We also provide an introduction to the different types and levels of risks associated with the disclosure of trained ML models. We finally describe the new research opportunities in developing and adapting policies and tools for safely disclosing machine learning outputs from TREs.
翻訳日:2021-11-11 18:25:34 公開日:2021-11-10
# (参考訳) 双方向バランスを持つ並列物理形ニューラルネットワーク

Parallel Physics-Informed Neural Networks with Bidirectional Balance ( http://arxiv.org/abs/2111.05641v1 )

ライセンス: CC BY 4.0
Yuhao Huang(参考訳) ディープラーニングの新たな技術として、物理情報ニューラルネットワーク(PINN)は工学における様々な偏微分方程式(PDE)の解法として広く用いられている。 しかし、実用的考察に基づくPDEは、複数の物理量と複雑な初期境界条件を含むため、PINNは間違った結果を返すことが多い。 ここでは, 多層布の伝熱問題を典型例とする。 強い相関を持つ複数の温度場によって結合され、変数の値は異なる次元間で非常に不均衡である。 古典ピンで解くことの潜在的な困難を解明し,双方向バランスを持つ並列物理形ニューラルネットワークを提案する。 詳しくは、並列解法フレームワークは、複数の多層知覚を通じて結合方程式に同期的に適合する。 さらに,データのフォワードプロセスと損失勾配のバックプロパゲーションプロセスのバランスをとるためのモジュールを2つ設計した。 この双方向バランスは、ネットワーク全体を安定的に収束させるだけでなく、PDEの様々な物理的条件を完全に学習するのに役立つ。 提案手法の有効性を検証するため,一連のアブレーション実験を行った。 その結果,本手法は解決不能な問題を解決可能とし,解決精度に優れることがわかった。

As an emerging technology in deep learning, physics-informed neural networks (PINNs) have been widely used to solve various partial differential equations (PDEs) in engineering. However, PDEs based on practical considerations contain multiple physical quantities and complex initial boundary conditions, thus PINNs often returns incorrect results. Here we take heat transfer problem in multilayer fabrics as a typical example. It is coupled by multiple temperature fields with strong correlation, and the values of variables are extremely unbalanced among different dimensions. We clarify the potential difficulties of solving such problems by classic PINNs, and propose a parallel physics-informed neural networks with bidirectional balance. In detail, our parallel solving framework synchronously fits coupled equations through several multilayer perceptions. Moreover, we design two modules to balance forward process of data and back-propagation process of loss gradient. This bidirectional balance not only enables the whole network to converge stably, but also helps to fully learn various physical conditions in PDEs. We provide a series of ablation experiments to verify the effectiveness of the proposed methods. The results show that our approach makes the PINNs unsolvable problem solvable, and achieves excellent solving accuracy.
翻訳日:2021-11-11 18:15:39 公開日:2021-11-10
# (参考訳) 社会的フラッド検出:方法・課題・分析

Social Fraud Detection Review: Methods, Challenges and Analysis ( http://arxiv.org/abs/2111.05645v1 )

ライセンス: CC BY 4.0
Saeedreza Shehnepoor, Roberto Togneri, Wei Liu, Mohammed Bennamoun(参考訳) ソーシャルレビューがウェブを席巻し、製品情報の信頼できる情報源となった。 人や企業は意思決定にそのような情報を使う。 企業はまた、ソーシャル情報を利用して偽情報を単一のユーザー、ユーザーグループ、または不正なコンテンツを生成するように訓練されたボットを使って拡散する。 多くの研究がユーザ行動に基づくアプローチを提案し、不正検出の課題に対処するためのテキストをレビューした。 総括的な文献レビューにおいて、レビュー自体、レビューを行うユーザ、レビュー中の項目の3つの重要な構成要素を考慮したフレームワークを用いて、社会不正検出をレビューする。 コンポーネント表現のために特徴が抽出されるにつれて、振る舞い、テキストベースの特徴とその組み合わせに基づいて機能レビューが提供される。 このフレームワークでは、教師なし、半教師なし、教師なし学習を含むアプローチの包括的な概要が提示される。 不正検出のための教師付きアプローチを導入し、古典とディープラーニングの2つのサブカテゴリに分類する。 ラベル付きデータセットの欠如を説明し、潜在的な解決策を提案する。 この分野の新しい研究者がより理解を深めるために,提案手法の各段階においてトピック分析と今後の方向性の概要が提供される。

Social reviews have dominated the web and become a plausible source of product information. People and businesses use such information for decision-making. Businesses also make use of social information to spread fake information using a single user, groups of users, or a bot trained to generate fraudulent content. Many studies proposed approaches based on user behaviors and review text to address the challenges of fraud detection. To provide an exhaustive literature review, social fraud detection is reviewed using a framework that considers three key components: the review itself, the user who carries out the review, and the item being reviewed. As features are extracted for the component representation, a feature-wise review is provided based on behavioral, text-based features and their combination. With this framework, a comprehensive overview of approaches is presented including supervised, semi-supervised, and unsupervised learning. The supervised approaches for fraud detection are introduced and categorized into two sub-categories; classical, and deep learning. The lack of labeled datasets is explained and potential solutions are suggested. To help new researchers in the area develop a better understanding, a topic analysis and an overview of future directions is provided in each step of the proposed systematic framework.
翻訳日:2021-11-11 18:00:34 公開日:2021-11-10
# (参考訳) アラビア語質問応答に対する事前学習型トランスフォーマーアプローチ : 比較検討

Pre-trained Transformer-Based Approach for Arabic Question Answering : A Comparative Study ( http://arxiv.org/abs/2111.05671v1 )

ライセンス: CC BY 4.0
Kholoud Alsubhi, Amani Jamal, Areej Alhothali(参考訳) 質問応答(QA)は自然言語処理(NLP)において最も困難だが広く研究されている問題の1つである。 質問回答(QA)システムは、与えられた質問に対する回答を作成しようとする。 これらの回答は、構造化されていないテキストや構造化されたテキストから生成できる。 したがって、QAはテキスト理解システムの評価に利用できる重要な研究領域であると考えられる。 大量のQA研究が英語に注がれ、最も高度な技術を調査し、最先端の成果を得た。 しかし、アラビア語のQAにおける研究努力の不足と大規模なベンチマークデータセットの欠如により、アラビア語の質問応答の進行がかなり遅い。 近年、多くの事前訓練された言語モデルがアラビア語のNLP問題に高い性能をもたらした。 本研究では、アラビア語-SQuAD、ARCD、AQAD、TyDiQA-GoldPの4つの読解データセットを用いて、アラビア語のQAに対する最先端の事前学習変換モデルを評価する。 AraBERTv2-baseモデル, AraBERTv0.2-largeモデル, AraELECTRAモデルの性能を微調整して比較した。 最後に、いくつかのモデルで得られた低性能な結果を理解し、解釈するための分析を行う。

Question answering(QA) is one of the most challenging yet widely investigated problems in Natural Language Processing (NLP). Question-answering (QA) systems try to produce answers for given questions. These answers can be generated from unstructured or structured text. Hence, QA is considered an important research area that can be used in evaluating text understanding systems. A large volume of QA studies was devoted to the English language, investigating the most advanced techniques and achieving state-of-the-art results. However, research efforts in the Arabic question-answering progress at a considerably slower pace due to the scarcity of research efforts in Arabic QA and the lack of large benchmark datasets. Recently many pre-trained language models provided high performance in many Arabic NLP problems. In this work, we evaluate the state-of-the-art pre-trained transformers models for Arabic QA using four reading comprehension datasets which are Arabic-SQuAD, ARCD, AQAD, and TyDiQA-GoldP datasets. We fine-tuned and compared the performance of the AraBERTv2-base model, AraBERTv0.2-large model, and AraELECTRA model. In the last, we provide an analysis to understand and interpret the low-performance results obtained by some models.
翻訳日:2021-11-11 17:59:33 公開日:2021-11-10
# (参考訳) 機械学習分類器におけるデータドリフトの自動検出

Automatically detecting data drift in machine learning classifiers ( http://arxiv.org/abs/2111.05672v1 )

ライセンス: CC BY 4.0
Samuel Ackerman, Orna Raz, Marcel Zalmanovici, Aviad Zlotnick(参考訳) 分類器やその他の統計に基づく機械学習(ML)技術は、トレーニングデータの様々な統計特性に基づいて一般化または学習する。 理論的あるいは実証的な性能保証をもたらす統計的MLの基礎となる前提は、トレーニングデータの分布が生産データ分布を表すことである。 この仮定はしばしば破られ、例えばデータの統計分布が変化する。 MLのパフォーマンス「データドリフト」や「ドリフト」に影響を与える変化を言う。 多くの分類技術は、結果に対する信頼度を測定する。 この尺度は実際のMLのパフォーマンスを反映していないかもしれない。 有名な例として、約60\%の信頼度で正しく分類されているパンダ画像があるが、ノイズが付加されると、99\%以上の信頼度を持つギボンに誤って分類される。 しかし,本報告では,データのドリフトを検出するために分類器の信頼度を計測できることを示唆している。 提案するラベルの分類と信頼性のみに基づくアプローチを提案し,データ分散やデータドリフトの原因となる可能性のある特徴空間の変更を警告する。 当社のアプローチは、モデル性能の低下を招き、しばしば不足または遅延する本番環境でのデータラベリングを必要としない。 3つの異なるデータセットと分類器を用いた実験により,この手法がデータドリフト検出に有効であることを示した。 これは特に、分類自体が正しいかもしれないし、正しいかもしれないし、モデル入力データを必要としないため奨励される。 偽陽性率(type-1エラー)を制御しながらドリフトを識別するために必要なデータ量を自動的に決定するために,逐次変化点テストの統計的アプローチをさらに検討する。

Classifiers and other statistics-based machine learning (ML) techniques generalize, or learn, based on various statistical properties of the training data. The assumption underlying statistical ML resulting in theoretical or empirical performance guarantees is that the distribution of the training data is representative of the production data distribution. This assumption often breaks; for instance, statistical distributions of the data may change. We term changes that affect ML performance `data drift' or `drift'. Many classification techniques compute a measure of confidence in their results. This measure might not reflect the actual ML performance. A famous example is the Panda picture that is correctly classified as such with a confidence of about 60\%, but when noise is added it is incorrectly classified as a Gibbon with a confidence of above 99\%. However, the work we report on here suggests that a classifier's measure of confidence can be used for the purpose of detecting data drift. We propose an approach based solely on classifier suggested labels and its confidence in them, for alerting on data distribution or feature space changes that are likely to cause data drift. Our approach identities degradation in model performance and does not require labeling of data in production which is often lacking or delayed. Our experiments with three different data sets and classifiers demonstrate the effectiveness of this approach in detecting data drift. This is especially encouraging as the classification itself may or may not be correct and no model input data is required. We further explore the statistical approach of sequential change-point tests to automatically determine the amount of data needed in order to identify drift while controlling the false positive rate (Type-1 error).
翻訳日:2021-11-11 17:44:15 公開日:2021-11-10
# (参考訳) COVID-19データセットにおける落とし穴の解明と再現

Explanatory Analysis and Rectification of the Pitfalls in COVID-19 Datasets ( http://arxiv.org/abs/2111.05679v1 )

ライセンス: CC BY 4.0
Samyak Prajapati, Japman Singh Monga, Shaanya Singh, Amrit Raj, Yuvraj Singh Champawat, Chandra Prakash(参考訳) 2020年の新型コロナウイルスのパンデミック以降、何百万人もの人々がこの致命的なウイルスに感染している。 ウイルスを検出できる自動検査方法を考案するために、多くの試みがなされている。 世界中の研究者が、胸部x線を使って新型コロナウイルスを検出するディープラーニングベースの手法を提案している。 しかし、研究者の大多数が使用しているChest X-Rayデータセットのバイアスの存在に関する疑問が提起されている。 本稿では,この問題に対処する2段階の方法論を提案する。 データセットにバイアスの存在を示すための方法論のステージ1の一部として、2つの実験が実施された。 その後,バイアスの影響を低減するため,画像分割,超解像,cnnベースのパイプラインと異なる画像拡張技術が,第2段階において提案されている。 InceptionResNetV2は、ヒストグラム等化で強化された胸部X線画像をトレーニングし、ステージ2で提案されたパイプラインを通過するとガンマ補正を行い、3クラス(Normal、Pneumonia、COVID-19)の分類タスクの最高精度は90.47%となった。

Since the onset of the COVID-19 pandemic in 2020, millions of people have succumbed to this deadly virus. Many attempts have been made to devise an automated method of testing that could detect the virus. Various researchers around the globe have proposed deep learning based methodologies to detect the COVID-19 using Chest X-Rays. However, questions have been raised on the presence of bias in the publicly available Chest X-Ray datasets which have been used by the majority of the researchers. In this paper, we propose a 2 staged methodology to address this topical issue. Two experiments have been conducted as a part of stage 1 of the methodology to exhibit the presence of bias in the datasets. Subsequently, an image segmentation, super-resolution and CNN based pipeline along with different image augmentation techniques have been proposed in stage 2 of the methodology to reduce the effect of bias. InceptionResNetV2 trained on Chest X-Ray images that were augmented with Histogram Equalization followed by Gamma Correction when passed through the pipeline proposed in stage 2, yielded a top accuracy of 90.47% for 3-class (Normal, Pneumonia, and COVID-19) classification task.
翻訳日:2021-11-11 17:29:55 公開日:2021-11-10
# (参考訳) 前方および後方伝播スパーシフィケーションによる効率的なニューラルネットワークトレーニング

Efficient Neural Network Training via Forward and Backward Propagation Sparsification ( http://arxiv.org/abs/2111.05685v1 )

ライセンス: CC BY 4.0
Xiao Zhou, Weizhong Zhang, Zonghao Chen, Shizhe Diao, Tong Zhang(参考訳) スパーストレーニングはディープニューラルネットワークのトレーニング速度を加速し、特に大規模な現代のニューラルネットワークが大幅に過パラメータ化されているため、メモリ使用量を削減するための自然なアイデアである。 しかし、既存の手法のほとんどは、チェーンルールに基づく勾配(w.t.構造パラメータ)推定器が、少なくとも後向きの伝播ステップにおいて密度の高い計算を必要とするため、実際にはこの目標を達成することができない。 本稿では, 完全スパース・パスと後方パスを併用した効率的なスパーストレーニング手法を提案する。 まず,グローバルスパルシティ制約下での継続的最小化問題としてトレーニングプロセスを定式化する。 次に最適化プロセスを,重み更新と構造パラメータ更新に対応する2つのステップに分割する。 前回のステップでは、スパース構造を利用してスパースできる従来のチェーンルールを使用します。 後者では, チェーンルールに基づく勾配推定器を既存手法として使用する代わりに, 後方伝播を伴わない2つの前方通過しか必要とせず, 完全スパーストレーニングを実現する分散化政策勾配推定器を提案する。 勾配推定器の分散が有界であることを証明する。 実世界のデータセットに関する広範囲な実験の結果は、従来の方法と比べて、アルゴリズムはトレーニングプロセスを最大で1桁速く加速するのにはるかに効果的であることを示している。

Sparse training is a natural idea to accelerate the training speed of deep neural networks and save the memory usage, especially since large modern neural networks are significantly over-parameterized. However, most of the existing methods cannot achieve this goal in practice because the chain rule based gradient (w.r.t. structure parameters) estimators adopted by previous methods require dense computation at least in the backward propagation step. This paper solves this problem by proposing an efficient sparse training method with completely sparse forward and backward passes. We first formulate the training process as a continuous minimization problem under global sparsity constraint. We then separate the optimization process into two steps, corresponding to weight update and structure parameter update. For the former step, we use the conventional chain rule, which can be sparse via exploiting the sparse structure. For the latter step, instead of using the chain rule based gradient estimators as in existing methods, we propose a variance reduced policy gradient estimator, which only requires two forward passes without backward propagation, thus achieving completely sparse training. We prove that the variance of our gradient estimator is bounded. Extensive experimental results on real-world datasets demonstrate that compared to previous methods, our algorithm is much more effective in accelerating the training process, up to an order of magnitude faster.
翻訳日:2021-11-11 17:17:34 公開日:2021-11-10
# (参考訳) マルチスケール/不規則接線被覆によるロバスト復元

Robust reconstructions by multi-scale/irregular tangential covering ( http://arxiv.org/abs/2111.05688v1 )

ライセンス: CC BY 4.0
Antoine Vacavant and Bertrand Kerautret and Fabien Feschet(参考訳) 本稿では,雑音の多いディジタル輪郭を幾何的に再構成するために,有形被覆アルゴリズム(minDSS)を用いる方法を提案する。 そのために、これまでの作品で紹介した最大のプリミティブによって、グラフィカルオブジェクトの表現を利用する。 輪郭の多元的および不規則な等化表現を計算することにより、1次元(一次元)間隔を求め、その後極大線分や円弧に分解した。 minDSSを最大プリミティブをサポートする1-D間隔のスパースで不規則なデータに適用することにより、入力ノイズオブジェクトを最小数のプリミティブを持つ直線または弧からなる巡回輪郭に再構成することができる。 本稿では,新しい完全パイプラインを説明し,合成データと実画像データの両方を考慮して実験評価を行う。 また,本手法は,最先端から選択した参照と,マルチスケール雑音評価プロセスを考慮したロバストな手法であることを示す。

In this paper, we propose an original manner to employ a tangential cover algorithm - minDSS - in order to geometrically reconstruct noisy digital contours. To do so, we exploit the representation of graphical objects by maximal primitives we have introduced in previous works. By calculating multi-scale and irregular isothetic representations of the contour, we obtained 1-D (one-dimensional) intervals, and achieved afterwards a decomposition into maximal line segments or circular arcs. By adapting minDSS to this sparse and irregular data of 1-D intervals supporting the maximal primitives, we are now able to reconstruct the input noisy objects into cyclic contours made of lines or arcs with a minimal number of primitives. In this work, we explain our novel complete pipeline, and present its experimental evaluation by considering both synthetic and real image data. We also show that this is a robust approach, with respect to selected references from state-of-the-art, and by considering a multi-scale noise evaluation process.
翻訳日:2021-11-11 16:56:32 公開日:2021-11-10
# (参考訳) Laplacian および Gaussian ピラミドを用いたマルチスケールシングルイメージデハージング

Multi-Scale Single Image Dehazing Using Laplacian and Gaussian Pyramids ( http://arxiv.org/abs/2111.05700v1 )

ライセンス: CC0 1.0
Zhengguo Li, Haiyan Shu and Chaobing Zheng(参考訳) モデル駆動の単一画像デハジングは、その広範囲な応用により、様々な先行技術上で広く研究された。 オブジェクトの放射とヘイズの間のあいまいさと空域のノイズ増幅は、モデル駆動単一画像デハジングの2つの本質的な問題である。 本稿では,従来の問題に対処する暗直減衰前処理(DDAP)を提案する。 画像の微細な構造を維持しつつ、より小さな半径の重み付き誘導画像フィルタによりさらに形態的アーティファクトを低減できるddapによって引き起こされる形態的アーティファクトを低減できる新しいヘイズ線平均化法を提案する。 そこで,ラプラシアンピラミッドとグアッシアンピラミッドを用いて,ハザイ像を異なるレベルに分解し,異なるハズ除去法とノイズ低減法を適用して,ピラミッドの異なるレベルにおけるシーンの輝度を復元することで,後者の問題に対処するマルチスケールデヘイジングアルゴリズムを提案する。 得られたピラミッドは崩壊し、無煙像を復元する。 実験結果から,提案アルゴリズムは工芸デハジングアルゴリズムの状態よりも優れており,空域での騒音の増幅が防止されていることがわかった。

Model driven single image dehazing was widely studied on top of different priors due to its extensive applications. Ambiguity between object radiance and haze and noise amplification in sky regions are two inherent problems of model driven single image dehazing. In this paper, a dark direct attenuation prior (DDAP) is proposed to address the former problem. A novel haze line averaging is proposed to reduce the morphological artifacts caused by the DDAP which enables a weighted guided image filter with a smaller radius to further reduce the morphological artifacts while preserve the fine structure in the image. A multi-scale dehazing algorithm is then proposed to address the latter problem by adopting Laplacian and Guassian pyramids to decompose the hazy image into different levels and applying different haze removal and noise reduction approaches to restore the scene radiance at different levels of the pyramid. The resultant pyramid is collapsed to restore a haze-free image. Experiment results demonstrate that the proposed algorithm outperforms state of the art dehazing algorithms and the noise is indeed prevented from being amplified in the sky region.
翻訳日:2021-11-11 16:45:20 公開日:2021-11-10
# (参考訳) 先行知識とcnnを併用した単一画像デハジング

Single image dehazing via combining the prior knowledge and CNNs ( http://arxiv.org/abs/2111.05701v1 )

ライセンス: CC BY 4.0
Yuwen Li, Chaobing Zheng, Shiqian Wu, Wangming Xu(参考訳) 先行知識と仮定に基づく既存の単一画像haze除去アルゴリズムを目標として,実用上の制約が多数存在し,ノイズやhalo増幅に支障をきたす可能性がある。 本稿では,事前知識と深層学習を組み合わせることで欠陥を低減できるエンド・ツー・エンドシステムを提案する。 ヘイズ画像をベース層と詳細層にまず重み付きガイド画像フィルタ(WGIF)を介して分解し、ベース層からエアライトを推定する。 そして、基地層画像を効率的な深部畳み込みネットワークに渡して送信マップを推定する。 空や濃厚なシーンのノイズを増幅することなく、カメラに近い物体を完全に復元するため、送信マップの値に基づいて適応戦略を提案する。 画素の送信マップが小さい場合は、最終的に、haze画像のベース層を使用して、大気散乱モデルを介してhazeフリー画像を回収する。 さもなければ、ヘイズ画像が用いられる。 実験により,提案手法は既存手法よりも優れた性能を示した。

Aiming at the existing single image haze removal algorithms, which are based on prior knowledge and assumptions, subject to many limitations in practical applications, and could suffer from noise and halo amplification. An end-to-end system is proposed in this paper to reduce defects by combining the prior knowledge and deep learning method. The haze image is decomposed into the base layer and detail layers through a weighted guided image filter (WGIF) firstly, and the airlight is estimated from the base layer. Then, the base layer image is passed to the efficient deep convolutional network for estimating the transmission map. To restore object close to the camera completely without amplifying noise in sky or heavily hazy scene, an adaptive strategy is proposed based on the value of the transmission map. If the transmission map of a pixel is small, the base layer of the haze image is used to recover a haze-free image via atmospheric scattering model, finally. Otherwise, the haze image is used. Experiments show that the proposed method achieves superior performance over existing methods.
翻訳日:2021-11-11 16:24:31 公開日:2021-11-10
# (参考訳) コードのモデルに対する対実的説明

Counterfactual Explanations for Models of Code ( http://arxiv.org/abs/2111.05711v1 )

ライセンス: CC BY-SA 4.0
J\"urgen Cito, Isil Dillig, Vijayaraghavan Murali, Satish Chandra(参考訳) 機械学習(ml)モデルは、多くのソフトウェアエンジニアリングタスクにおいてますます一般的な役割を果たす。 しかし、ほとんどのモデルは今や不透明なディープニューラルネットワークを使用しているため、なぜモデルが特定の結論に達したのか、モデルの予測にどのように作用するかを開発者が理解することは困難である。 この問題に触発された本研究では,ソースコードのモデルに対する反実的説明について考察する。 このような反事実的な説明は、モデルが「考えを変える」ソースコードに対する最小限の変更を構成する。 実世界の設定でソースコードのモデルに反実的説明生成を統合する。 本稿では,現実的かつ妥当な対実的説明を見つける能力と,モデル利用者に対するそのような説明の有用性の両方に影響を及ぼす考察について述べる。 一連の実験において,ソースコード上で動作するBERTアーキテクチャに基づく3つの異なるモデルに対するアプローチの有効性について検討した。

Machine learning (ML) models play an increasingly prevalent role in many software engineering tasks. However, because most models are now powered by opaque deep neural networks, it can be difficult for developers to understand why the model came to a certain conclusion and how to act upon the model's prediction. Motivated by this problem, this paper explores counterfactual explanations for models of source code. Such counterfactual explanations constitute minimal changes to the source code under which the model "changes its mind". We integrate counterfactual explanation generation to models of source code in a real-world setting. We describe considerations that impact both the ability to find realistic and plausible counterfactual explanations, as well as the usefulness of such explanation to the user of the model. In a series of experiments we investigate the efficacy of our approach on three different models, each based on a BERT-like architecture operating over source code.
翻訳日:2021-11-11 16:12:48 公開日:2021-11-10
# (参考訳) ドイツ科学誌からのメタデータ抽出のためのマルチモーダルアプローチ

Multimodal Approach for Metadata Extraction from German Scientific Publications ( http://arxiv.org/abs/2111.05736v1 )

ライセンス: CC BY 4.0
Azeddine Bouabdallah, Jorge Gavilan, Jennifer Gerbl and Prayuth Patumcharoenpol(参考訳) 今日では、メタデータ情報は著者自身によって提出されることが多い。 しかし、既存の研究論文の大部分は、メタデータ情報の欠如や不完全なものである。 ドイツの科学論文には、メタデータの抽出を文書から抽出したメタデータの正確な分類方法を必要とする非自明なタスクとする、多種多様なレイアウトがある。 本稿では,ドイツ語の論文からメタデータを抽出するためのマルチモーダル深層学習手法を提案する。 自然言語処理と画像ビジョン処理を組み合わせることで,複数種類の入力データを考える。 このモデルは,他の最先端手法と比較して,メタデータ抽出の全体的な精度を向上させることを目的としている。 より信頼性の高い抽出を実現するために、空間的特徴と文脈的特徴の両方を活用することができる。 提案手法は,約8800の文書からなるデータセットを用いて学習し,F1スコアの0.923を得ることができた。

Nowadays, metadata information is often given by the authors themselves upon submission. However, a significant part of already existing research papers have missing or incomplete metadata information. German scientific papers come in a large variety of layouts which makes the extraction of metadata a non-trivial task that requires a precise way to classify the metadata extracted from the documents. In this paper, we propose a multimodal deep learning approach for metadata extraction from scientific papers in the German language. We consider multiple types of input data by combining natural language processing and image vision processing. This model aims to increase the overall accuracy of metadata extraction compared to other state-of-the-art approaches. It enables the utilization of both spatial and contextual features in order to achieve a more reliable extraction. Our model for this approach was trained on a dataset consisting of around 8800 documents and is able to obtain an overall F1-score of 0.923.
翻訳日:2021-11-11 15:55:29 公開日:2021-11-10
# (参考訳) マルチタスクニューラルプロセス

Multi-Task Neural Processes ( http://arxiv.org/abs/2111.05820v1 )

ライセンス: CC BY 4.0
Jiayi Shen, Xiantong Zhen, Marcel Worring, Ling Shao(参考訳) ニューラルプロセスは、ニューラルネットワークと確率過程の強みを組み合わせた強力なニューラル潜在変数モデルのクラスとして最近登場した。 ネットワークの関数空間にコンテキストデータをエンコードできるため、マルチタスク学習におけるタスク関連性をモデル化する新しい方法を提供する。 その可能性を調べるために,マルチタスク学習のためのニューラルプロセスの新しい変種であるマルチタスクニューラルプロセスを開発した。 特に,各タスク改善のための帰納的バイアスを提供するために,関数空間内の関連するタスクから伝達可能な知識を探索する。 そのため、階層型ベイズ推論フレームワークにおいて、各タスクが関連するタスクが提供する共有知識を予測関数のコンテキストに組み込むことができるように、関数の先行を導出する。 マルチタスクニューラルプロセスはバニラニューラルプロセスのスコープを方法論的に拡張し、マルチタスク学習のための関数空間におけるタスク関連性を調べる新しい方法を提供する。 提案したマルチタスクニューラルプロセスは、ラベル付きデータとドメインシフトの存在下で、複数のタスクを学習することができる。 マルチタスク回帰および分類タスクのためのいくつかのベンチマークにおいて、広範囲な実験的評価を行う。 その結果,マルチタスク学習における有用な知識の伝達におけるマルチタスクニューラルプロセスの有効性が示され,マルチタスク分類や脳画像セグメンテーションにおいて優れた性能が得られた。

Neural processes have recently emerged as a class of powerful neural latent variable models that combine the strengths of neural networks and stochastic processes. As they can encode contextual data in the network's function space, they offer a new way to model task relatedness in multi-task learning. To study its potential, we develop multi-task neural processes, a new variant of neural processes for multi-task learning. In particular, we propose to explore transferable knowledge from related tasks in the function space to provide inductive bias for improving each individual task. To do so, we derive the function priors in a hierarchical Bayesian inference framework, which enables each task to incorporate the shared knowledge provided by related tasks into its context of the prediction function. Our multi-task neural processes methodologically expand the scope of vanilla neural processes and provide a new way of exploring task relatedness in function spaces for multi-task learning. The proposed multi-task neural processes are capable of learning multiple tasks with limited labeled data and in the presence of domain shift. We perform extensive experimental evaluations on several benchmarks for the multi-task regression and classification tasks. The results demonstrate the effectiveness of multi-task neural processes in transferring useful knowledge among tasks for multi-task learning and superior performance in multi-task classification and brain image segmentation.
翻訳日:2021-11-11 15:45:51 公開日:2021-11-10
# ヒストリカルマカク脳セクションにおけるニューロンの個別化のためのディープラーニングトポコーダ法の評価

Evaluation of Deep Learning Topcoders Method for Neuron Individualization in Histological Macaque Brain Section ( http://arxiv.org/abs/2111.05789v1 )

ライセンス: Link先を確認
Huaqian Wu, Nicolas Souedet, Zhenzhen You, Caroline Jan, C\'edric Clouchoux, and Thierry Delzescaux(参考訳) 細胞分化は、デジタル病理画像解析において重要な役割を担っている。 ディープラーニングは、セルの個別化を含むセグメンテーションタスクの効率的なツールと考えられている。 しかし、ディープラーニングモデルの精度は、巨大な偏りのないデータセットと手動のピクセルレベルのアノテーションに依存している。 さらに、ディープラーニングのほとんどのアプリケーションは、オンコロジーデータを処理するために開発されている。 これらの課題を克服するためです 一 点アノテーションのみを提供して画素レベルラベルを合成するパイプラインを確立すること。 二) 神経データに対して細胞個別化を行うためのアンサンブル深層学習アルゴリズムをテストした。 提案手法は,平均検出精度0.93で,オブジェクトレベルとピクセルレベルの両方で神経細胞を分割することに成功した。

Cell individualization has a vital role in digital pathology image analysis. Deep Learning is considered as an efficient tool for instance segmentation tasks, including cell individualization. However, the precision of the Deep Learning model relies on massive unbiased dataset and manual pixel-level annotations, which is labor intensive. Moreover, most applications of Deep Learning have been developed for processing oncological data. To overcome these challenges, i) we established a pipeline to synthesize pixel-level labels with only point annotations provided; ii) we tested an ensemble Deep Learning algorithm to perform cell individualization on neurological data. Results suggest that the proposed method successfully segments neuronal cells in both object-level and pixel-level, with an average detection accuracy of 0.93.
翻訳日:2021-11-11 15:28:12 公開日:2021-11-10
# ニューラルレンダリングの進歩

Advances in Neural Rendering ( http://arxiv.org/abs/2111.05849v1 )

ライセンス: Link先を確認
Ayush Tewari, Justus Thies, Ben Mildenhall, Pratul Srinivasan, Edgar Tretschk, Yifan Wang, Christoph Lassner, Vincent Sitzmann, Ricardo Martin-Brualla, Stephen Lombardi, Tomas Simon, Christian Theobalt, Matthias Niessner, Jonathan T. Barron, Gordon Wetzstein, Michael Zollhoefer, Vladislav Golyanik(参考訳) フォトリアリスティック画像とビデオの合成はコンピュータグラフィックスの中心であり、数十年の研究の中心となっている。 伝統的に、シーンの合成画像はラスタライズやレイトレーシングなどのレンダリングアルゴリズムを使って生成され、幾何や物質の性質の表現を入力として具体的に定義する。 集合的に、これらの入力は実際のシーンとレンダリングしたものを定義し、シーン表現(シーンは1つ以上のオブジェクトで構成される)と呼ばれる。 例としては、テクスチャを伴う三角形メッシュ(例えば、アーティストによって作成された)、ポイントクラウド(例えば、深度センサーから)、ボリュームグリッド(例えば、ctスキャンから)、暗黙的な表面機能(例えば、トランケートされた符号付き距離場)がある。 異なるレンダリング損失を用いた観察からのシーン表現の再構成は、逆グラフィックまたは逆レンダリングとして知られている。 ニューラルレンダリングは密接に関連しており、古典的なコンピュータグラフィックスと機械学習のアイデアを組み合わせて、現実世界の観察から画像を合成するためのアルゴリズムを作成する。 ニューラルレンダリングは、写真リアリスティック画像とビデオコンテンツを合成するという目標に向かって前進している。 近年では、学習可能なコンポーネントをレンダリングパイプラインに注入するさまざまな方法を示す何百もの出版物を通じて、この分野で大きな進歩を遂げています。 ニューラルレンダリングの進歩に関する最新のレポートは、古典的なレンダリング原理と学習された3Dシーン表現を組み合わせた手法に焦点を当てている。 これらの手法の重要な利点は、これらが3D一貫性を持ち、キャプチャされたシーンの新規な視点合成のような応用を可能にすることである。 静的シーンを処理する方法に加えて、非厳密な変形オブジェクトをモデリングするためのニューラルシーン表現もカバーしています。

Synthesizing photo-realistic images and videos is at the heart of computer graphics and has been the focus of decades of research. Traditionally, synthetic images of a scene are generated using rendering algorithms such as rasterization or ray tracing, which take specifically defined representations of geometry and material properties as input. Collectively, these inputs define the actual scene and what is rendered, and are referred to as the scene representation (where a scene consists of one or more objects). Example scene representations are triangle meshes with accompanied textures (e.g., created by an artist), point clouds (e.g., from a depth sensor), volumetric grids (e.g., from a CT scan), or implicit surface functions (e.g., truncated signed distance fields). The reconstruction of such a scene representation from observations using differentiable rendering losses is known as inverse graphics or inverse rendering. Neural rendering is closely related, and combines ideas from classical computer graphics and machine learning to create algorithms for synthesizing images from real-world observations. Neural rendering is a leap forward towards the goal of synthesizing photo-realistic image and video content. In recent years, we have seen immense progress in this field through hundreds of publications that show different ways to inject learnable components into the rendering pipeline. This state-of-the-art report on advances in neural rendering focuses on methods that combine classical rendering principles with learned 3D scene representations, often now referred to as neural scene representations. A key advantage of these methods is that they are 3D-consistent by design, enabling applications such as novel viewpoint synthesis of a captured scene. In addition to methods that handle static scenes, we cover neural scene representations for modeling non-rigidly deforming objects...
翻訳日:2021-11-11 15:28:01 公開日:2021-11-10
# HASA-net:非侵入型補聴器音声評価ネットワーク

HASA-net: A non-intrusive hearing-aid speech assessment network ( http://arxiv.org/abs/2111.05691v1 )

ライセンス: Link先を確認
Hsin-Tien Chiang, Yi-Chiao Wu, Cheng Yu, Tomoki Toda, Hsin-Min Wang, Yih-Chun Hu, Yu Tsao(参考訳) クリーンな参照を必要とせず、非侵入的音声評価法は客観的評価に大きな注目を集めている。 近年,ディープニューラルネットワーク(dnn)モデルが非インタラクティブな音声評価手法の構築に応用され,有望な性能を提供することが確認されている。 しかし、ほとんどのDNNベースのアプローチは、難聴要因を考慮せずに、通常の聴取者向けに設計されている。 本研究では,双方向長短記憶モデル(blstm)を用いて,入力音声信号と特定難聴パターンに応じて,音声品質と聴力スコアを同時に予測するdnnベースの補聴器音声評価ネットワーク(hasa-net)を提案する。 我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質と知性の評価を取り入れた最初の研究である。 実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標,補聴器音質指標(HASQI),補聴器音質指標(HASPI)と高い相関を示した。

Without the need of a clean reference, non-intrusive speech assessment methods have caught great attention for objective evaluations. Recently, deep neural network (DNN) models have been applied to build non-intrusive speech assessment approaches and confirmed to provide promising performance. However, most DNN-based approaches are designed for normal-hearing listeners without considering hearing-loss factors. In this study, we propose a DNN-based hearing aid speech assessment network (HASA-Net), formed by a bidirectional long short-term memory (BLSTM) model, to predict speech quality and intelligibility scores simultaneously according to input speech signals and specified hearing-loss patterns. To the best of our knowledge, HASA-Net is the first work to incorporate quality and intelligibility assessments utilizing a unified DNN-based non-intrusive model for hearing aids. Experimental results show that the predicted speech quality and intelligibility scores of HASA-Net are highly correlated to two well-known intrusive hearing-aid evaluation metrics, hearing aid speech quality index (HASQI) and hearing aid speech perception index (HASPI), respectively.
翻訳日:2021-11-11 15:27:33 公開日:2021-11-10
# 分散還元と再スタートを用いた線形計画のための確率的原始双対法の線形収束

Linear Convergence of Stochastic Primal Dual Methods for Linear Programming Using Variance Reduction and Restarts ( http://arxiv.org/abs/2111.05530v1 )

ライセンス: Link先を確認
Haihao Lu, Jinwen Yang(参考訳) 近年,線形プログラミング(LP)における一階法への関心が高まっている。 本稿では,lpのような鋭い素対問題を解くために分散還元と再スタートを用いた確率的アルゴリズムを提案する。 提案手法は,高確率のシャープインスタンスに対して線形収束率を示し,既存の決定論的・確率的アルゴリズムの複雑性を向上できることを示す。 さらに,非制約双線形問題に対する効率的な座標ベースの確率オラクルを提案する。これは反復コストが$\mathcal O(1)$であり,フロップ数全体の精度が向上し,精度が向上する。

There is a recent interest on first-order methods for linear programming (LP). In this paper, we propose a stochastic algorithm using variance reduction and restarts for solving sharp primal-dual problems such as LP. We show that the proposed stochastic method exhibits a linear convergence rate for sharp instances with a high probability, which improves the complexity of the existing deterministic and stochastic algorithms. In addition, we propose an efficient coordinate-based stochastic oracle for unconstrained bilinear problems, which has $\mathcal O(1)$ per iteration cost and improves the total flop counts to reach a certain accuracy.
翻訳日:2021-11-11 15:24:50 公開日:2021-11-10
# 不均質性のための最適機械学習アルゴリズムの導出

Deducing of Optimal Machine Learning Algorithms for Heterogeneity ( http://arxiv.org/abs/2111.05558v1 )

ライセンス: Link先を確認
Omar Alfarisi, Zeyar Aung and Mohamed Sassi(参考訳) 最適な機械学習アルゴリズムを定義するには、選択するべき決定が容易ではなかった。 今後の研究者を支援するため,本論文では,アルゴリズムの最適点について述べる。 合成データセットを構築し、教師付き機械学習の実行を5つの異なるアルゴリズムで実行しました。 異種性については,ランダムフォレストを最善のアルゴリズムとして同定した。

For defining the optimal machine learning algorithm, the decision was not easy for which we shall choose. To help future researchers, we describe in this paper the optimal among the best of the algorithms. We built a synthetic data set and performed the supervised machine learning runs for five different algorithms. For heterogeneity, we identified Random Forest, among others, to be the best algorithm.
翻訳日:2021-11-11 15:24:38 公開日:2021-11-10
# ネットワーク上での表現学習のためのトピック認識潜在モデル

Topic-aware latent models for representation learning on networks ( http://arxiv.org/abs/2111.05576v1 )

ライセンス: Link先を確認
Abdulkadir \c{C}elikkanat and Fragkiskos D. Malliaros(参考訳) ネットワーク表現学習(nrl)手法は,ノード分類やリンク予測,クラスタリングなど,いくつかのグラフ解析問題に成功し,ここ数年で大きな注目を集めている。 このような手法は,ネットワークの構造情報が保存されるように,ネットワークの各頂点を低次元空間にマッピングすることを目的としている。 これらの方法はネットワークをノードシーケンスの集合に変換し、シーケンス内の各ノードのコンテキストを予測することによってノード表現を学習することを目的としている。 本稿では,トピックベース情報を用いたランダムウォークベースアプローチにより取得したノードの埋め込みを強化する汎用フレームワークであるTNEを紹介する。 自然言語処理における話題単語の埋め込みの概念と同様に、提案モデルはまず、様々な統計グラフモデルとコミュニティ検出手法を用いて、各ノードを潜在コミュニティに割り当て、拡張されたトピック認識表現を学習する。 提案手法はノード分類とリンク予測という2つのダウンストリームタスクで評価する。 実験の結果,ノードとコミュニティの埋め込みを組み込むことで,広く知られているNRLモデルよりも優れた性能が得られることが示された。

Network representation learning (NRL) methods have received significant attention over the last years thanks to their success in several graph analysis problems, including node classification, link prediction, and clustering. Such methods aim to map each vertex of the network into a low-dimensional space in a way that the structural information of the network is preserved. Of particular interest are methods based on random walks; such methods transform the network into a collection of node sequences, aiming to learn node representations by predicting the context of each node within the sequence. In this paper, we introduce TNE, a generic framework to enhance the embeddings of nodes acquired by means of random walk-based approaches with topic-based information. Similar to the concept of topical word embeddings in Natural Language Processing, the proposed model first assigns each node to a latent community with the favor of various statistical graph models and community detection methods and then learns the enhanced topic-aware representations. We evaluate our methodology in two downstream tasks: node classification and link prediction. The experimental results demonstrate that by incorporating node and community embeddings, we are able to outperform widely-known baseline NRL models.
翻訳日:2021-11-11 15:24:34 公開日:2021-11-10
# DeCOM: 制約付き多エージェント強化学習のための分解政策

DeCOM: Decomposed Policy for Constrained Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2111.05670v1 )

ライセンス: Link先を確認
Zhaoxing Yang, Rong Ding, Haiming Jin, Yifei Wei, Haoyi You, Guiyun Fan, Xiaoying Gan, Xinbing Wang(参考訳) 近年, マルチエージェント強化学習 (MARL) は, 様々な応用において顕著な性能を示した。 しかしながら、物理的制限、予算制限、その他多くの要因は、従来のMARLフレームワークでは扱えないマルチエージェントシステム(MAS)に \textit{constraints} を課す。 具体的には,期待されるチーム平均コストに対するさまざまな制約の下での期待チーム平均リターンを最大化するために,エージェントが \textit{cooperatively} で作業する制約付き仮面に注目し,そのような仮面に対して \textit{constrained cooperative marl} フレームワークである decom を開発した。 特に、DeCOMは各エージェントのポリシーを2つのモジュールに分解し、エージェント間の情報共有によりより良い協力を実現する。 さらに,このようなモジュール化により,DeCOMのトレーニングアルゴリズムは,本来の制約付き最適化を,報酬に対する制約なし最適化とコストに対する制約満足度問題に分離する。 その後、DeCOMはこれらの問題を計算的に効率的な方法で反復的に解決する。 また,DeCOMのポリシー更新アルゴリズムの収束に関する理論的保証も提供する。 最後に, 玩具と大規模(500エージェント)環境において, 各種コストでDeCOMの有効性を検証した。

In recent years, multi-agent reinforcement learning (MARL) has presented impressive performance in various applications. However, physical limitations, budget restrictions, and many other factors usually impose \textit{constraints} on a multi-agent system (MAS), which cannot be handled by traditional MARL frameworks. Specifically, this paper focuses on constrained MASes where agents work \textit{cooperatively} to maximize the expected team-average return under various constraints on expected team-average costs, and develops a \textit{constrained cooperative MARL} framework, named DeCOM, for such MASes. In particular, DeCOM decomposes the policy of each agent into two modules, which empowers information sharing among agents to achieve better cooperation. In addition, with such modularization, the training algorithm of DeCOM separates the original constrained optimization into an unconstrained optimization on reward and a constraints satisfaction problem on costs. DeCOM then iteratively solves these problems in a computationally efficient manner, which makes DeCOM highly scalable. We also provide theoretical guarantees on the convergence of DeCOM's policy update algorithm. Finally, we validate the effectiveness of DeCOM with various types of costs in both toy and large-scale (with 500 agents) environments.
翻訳日:2021-11-11 15:24:16 公開日:2021-11-10
# メンバーシップオラクルによる効率的なプロジェクションフリーオンライン凸最適化

Efficient Projection-Free Online Convex Optimization with Membership Oracle ( http://arxiv.org/abs/2111.05818v1 )

ライセンス: Link先を確認
Zakaria Mhammedi(参考訳) 制約付き凸最適化では、楕円体法や切断平面法に基づく既存の手法は周囲空間の次元とよく一致しない。 射影勾配 Descent のような別のアプローチはユークリッド球のような単純な凸集合に対してのみ計算上の利点を与え、ユークリッド射影を効率的に行うことができる。 他の集合の場合、投影のコストは高すぎる可能性がある。 これらの問題を回避すべく、有名なフランク・ウルフアルゴリズムに基づく代替手法が研究され、使用されている。 このようなメソッドはユークリッド射影の代わりに各イテレーションで線形最適化Oracleを使用し、前者は効率的に実行できる。 このような手法は、オンラインおよび確率最適化設定にも拡張されている。 しかし、フランク・ウルフアルゴリズムとその変種は、一般的な凸集合に対する後悔やレートの観点からは最適性能を達成できない。 さらに、彼らが使用しているLinear Optimization Oracleは、場合によっては計算コストも高い。 本稿では,frank-wolfe 型のアルゴリズムから離れ,ユークリッド球上の任意のアルゴリズム a を,元のアルゴリズム a の性能を犠牲にすることなく,球に含まれる制約付き集合 c 上のアルゴリズムに変換する新しい還元法を提案する。 我々の削減には、O(T log T) を T ラウンド後に C 上で Oracle に呼び出しる必要があり、C 上の線形最適化は不要である。 減算を用いて, オンライン凸最適化において, 繰り返し回数の観点から, 最適後悔境界(resp. rate)を回復する。 我々の保証は、環境空間の次元が大きい場合のオフライン凸最適化設定でも有用である。

In constrained convex optimization, existing methods based on the ellipsoid or cutting plane method do not scale well with the dimension of the ambient space. Alternative approaches such as Projected Gradient Descent only provide a computational benefit for simple convex sets such as Euclidean balls, where Euclidean projections can be performed efficiently. For other sets, the cost of the projections can be too high. To circumvent these issues, alternative methods based on the famous Frank-Wolfe algorithm have been studied and used. Such methods use a Linear Optimization Oracle at each iteration instead of Euclidean projections; the former can often be performed efficiently. Such methods have also been extended to the online and stochastic optimization settings. However, the Frank-Wolfe algorithm and its variants do not achieve the optimal performance, in terms of regret or rate, for general convex sets. What is more, the Linear Optimization Oracle they use can still be computationally expensive in some cases. In this paper, we move away from Frank-Wolfe style algorithms and present a new reduction that turns any algorithm A defined on a Euclidean ball (where projections are cheap) to an algorithm on a constrained set C contained within the ball, without sacrificing the performance of the original algorithm A by much. Our reduction requires O(T log T) calls to a Membership Oracle on C after T rounds, and no linear optimization on C is needed. Using our reduction, we recover optimal regret bounds [resp. rates], in terms of the number of iterations, in online [resp. stochastic] convex optimization. Our guarantees are also useful in the offline convex optimization setting when the dimension of the ambient space is large.
翻訳日:2021-11-11 15:23:54 公開日:2021-11-10
# PDE用物理増幅ディープサロゲート

Physics-enhanced deep surrogates for PDEs ( http://arxiv.org/abs/2111.05841v1 )

ライセンス: Link先を確認
Rapha\"el Pestourie, Youssef Mroueh, Chris Rackauckas, Payel Das, Steven G. Johnson(参考訳) 我々は、偏微分方程式(PDE)と類似モデルにより記述された複素物理系の高速サロゲートモデル(PEDS)を高速に開発するための「物理エンハンスドディープサロゲート(PEDS)」アプローチを提案し、低忠実度「粗い」ソルバとニューラルネットワークを結合して「粗い」インプットを生成する方法を示し、高忠実度数値ソルバの出力をグローバルに一致させる訓練を施した。 このように、低忠実度モデルの形で限られた物理知識を組み込むことで、PEDSサロゲートは、同じ精度で「ブラックボックス」ニューラルネットワークよりも少ないデータで、少なくとも$\sim 10\times$でトレーニングできることがわかった。 漸近的に、PEDSはブラックボックスサロゲートよりも急激なパワー法則で学習し、アクティブラーニングと組み合わせることでさらに恩恵を受ける。 本稿では,光メタマテリアルの設計に現れる電磁波散乱の例問題を用いて,提案手法の有効性と有用性を示す。

We present a "physics-enhanced deep-surrogate ("PEDS") approach towards developing fast surrogate models for complex physical systems described by partial differential equations (PDEs) and similar models: we show how to combine a low-fidelity "coarse" solver with a neural network that generates "coarsified'' inputs, trained end-to-end to globally match the output of an expensive high-fidelity numerical solver. In this way, by incorporating limited physical knowledge in the form of the low-fidelity model, we find that a PEDS surrogate can be trained with at least $\sim 10\times$ less data than a "black-box'' neural network for the same accuracy. Asymptotically, PEDS appears to learn with a steeper power law than black-box surrogates, and benefits even further when combined with active learning. We demonstrate feasibility and benefit of the proposed approach by using an example problem in electromagnetic scattering that appears in the design of optical metamaterials.
翻訳日:2021-11-11 15:23:26 公開日:2021-11-10
# 画像の持続的相同性に及ぼす解像度変化の影響

The Impact of Changes in Resolution on the Persistent Homology of Images ( http://arxiv.org/abs/2111.05663v1 )

ライセンス: Link先を確認
Teresa Heiss, Sarah Tymochko, Brittany Story, Ad\'elie Garin, Hoa Bui, Bea Bleile and Vanessa Robins(参考訳) デジタル画像は, マイクロスケールおよびマクロスケールでの材料特性の定量的解析を可能にするが, 画像取得時に適切な解像度を選択することは困難である。 高解像度は、与えられたサンプルに対してより長い画像取得とより大きなデータ要求を意味するが、解像度が低すぎると、重要な情報が失われる可能性がある。 本論文は,画像中の構造をすべての長さスケールで表現するトポロジカルデータ解析ツールである,永続的ホモロジーに対する解像度変化の影響について検討する。 関数や物体の形状、あるいは所定の解像度における密度分布に関する事前情報から、許容許容許容許容範囲内で得られる最も粗い分解能を選択する方法を提案する。 本稿では, 理論的境界が不明な多孔質材料から得られた説明的合成例とサンプルの数値ケーススタディを提案する。

Digital images enable quantitative analysis of material properties at micro and macro length scales, but choosing an appropriate resolution when acquiring the image is challenging. A high resolution means longer image acquisition and larger data requirements for a given sample, but if the resolution is too low, significant information may be lost. This paper studies the impact of changes in resolution on persistent homology, a tool from topological data analysis that provides a signature of structure in an image across all length scales. Given prior information about a function, the geometry of an object, or its density distribution at a given resolution, we provide methods to select the coarsest resolution yielding results within an acceptable tolerance. We present numerical case studies for an illustrative synthetic example and samples from porous materials where the theoretical bounds are unknown.
翻訳日:2021-11-11 15:23:04 公開日:2021-11-10
# 符号付き距離境界からポリゴンを抽出する高速アルゴリズムの理論的および経験的解析

Theoretical and empirical analysis of a fast algorithm for extracting polygons from signed distance bounds ( http://arxiv.org/abs/2111.05778v1 )

ライセンス: Link先を確認
Nenad Marku\v{s}(参考訳) 符号付き距離境界をポリゴンメッシュに変換する漸近的に高速な手法について検討する。 これは球面追跡(レイマーチングとも呼ばれる)と伝統的な多角化スキーム(例えばマーチングキューブ)を組み合わせることで達成される。 このアプローチをGridhoppingと呼びましょう。 我々は、$O(N^2\log N)$計算複雑性が$N^3$セルを持つ多角化格子であることを示す理論的および実験的証拠を提供する。 このアルゴリズムは、プリミティブな形状のセットと、機械学習によってポイントクラウドから生成される符号付き距離フィールドの両方でテストされる。 そのスピード、シンプルさ、ポータビリティを考えると、モデリングの段階でも、ストレージの形状圧縮でも有用である、と私たちは主張します。 コードはここにある。 https://github.com/nenadmarkus/gridhopping

We investigate an asymptotically fast method for transforming signed distance bounds into polygon meshes. This is achieved by combining sphere tracing (also known as ray marching) and one of the traditional polygonization schemes (e.g., Marching cubes). Let us call this approach Gridhopping. We provide theoretical and experimental evidence that it is of the $O(N^2\log N)$ computational complexity for a polygonization grid with $N^3$ cells. The algorithm is tested on both a set of primitive shapes as well as signed distance fields generated from point clouds by machine learning. Given its speed, simplicity and portability, we argue that it could prove useful during the modelling stage as well as in shape compression for storage. The code is available here: https://github.com/nenadmarkus/gridhopping
翻訳日:2021-11-11 15:21:56 公開日:2021-11-10
# サイレントからの構造:環境音からシーン構造を学ぶ

Structure from Silence: Learning Scene Structure from Ambient Sound ( http://arxiv.org/abs/2111.05846v1 )

ライセンス: Link先を確認
Ziyang Chen, Xixi Hu, Andrew Owens(参考訳) 天井のファンから時計の音まで、音はシーンを移動するごとに微妙に変わります。 これらの環境音が3dシーン構造に関する情報を伝達するかどうかと,マルチモーダルモデルに有用な学習信号を提供するかどうかを問う。 そこで本研究では,室内のさまざまな静かなシーンから,ペアオーディオとrgb-d記録のデータセットを収集する。 そして、音声のみを入力として、近くの壁までの距離を推定するモデルをトレーニングします。 また,これらの記録を用いて自己スーパービジョンによるマルチモーダル表現を学習し,画像と対応する音を関連付けるネットワークを訓練する。 これらの結果から,環境音はシーン構造に関する驚くほどの量の情報を伝達し,マルチモーダル特徴の学習に有用な信号であることが示唆された。

From whirling ceiling fans to ticking clocks, the sounds that we hear subtly vary as we move through a scene. We ask whether these ambient sounds convey information about 3D scene structure and, if so, whether they provide a useful learning signal for multimodal models. To study this, we collect a dataset of paired audio and RGB-D recordings from a variety of quiet indoor scenes. We then train models that estimate the distance to nearby walls, given only audio as input. We also use these recordings to learn multimodal representations through self-supervision, by training a network to associate images with their corresponding sounds. These results suggest that ambient sound conveys a surprising amount of information about scene structure, and that it is a useful signal for learning multimodal features.
翻訳日:2021-11-11 15:21:42 公開日:2021-11-10
# 反復支配排除のためのマルチエージェント学習:形式バリアと新しいアルゴリズム

Multi-Agent Learning for Iterative Dominance Elimination: Formal Barriers and New Algorithms ( http://arxiv.org/abs/2111.05486v1 )

ライセンス: Link先を確認
Jibang Wu, Haifeng Xu, Fan Yao(参考訳) 支配的行動は、通常の単エージェント決定決定のように自然(そしておそらく最も単純な)準最適行動の多重エージェント一般化である。 したがって、標準的なバンディット学習と同様に、マルチエージェントシステムにおける基本的な学習問題は、エージェントが未知のゲームにおいて支配的なすべてのアクションを効率的に排除できるかどうかを学習できるかどうかである。 驚くべきことに、一見単純なタスクにもかかわらず、私たちは非常に否定的な結果を示します。つまり、標準の後悔のアルゴリズム -- デュアル平均化アルゴリズムのファミリー全体を含む -- は、すべての支配的なアクションを排除するために、指数的に多くのラウンドを確実に取ります。 さらに、noスワップ後悔の強いアルゴリズムも同様の指数関数的非効率に苦しむ。 これらの障壁を克服するために, Exp3 を Diminishing Historical rewards ( Exp3-DH と呼ぶ) で調整するアルゴリズムを開発した。 すべてのエージェントがExp3-DH(つまりマルチエージェント学習における自己プレイ)を実行するとき、全ての支配的なアクションは多項式的に多くのラウンドで反復的に排除できる。 実験の結果,exp3-dhの効率がさらに向上し,最先端のバンディットアルゴリズムはゲーム内で学習するために開発されたものであっても,すべての支配的動作を効果的に排除できないことが示された。

Dominated actions are natural (and perhaps the simplest possible) multi-agent generalizations of sub-optimal actions as in standard single-agent decision making. Thus similar to standard bandit learning, a basic learning question in multi-agent systems is whether agents can learn to efficiently eliminate all dominated actions in an unknown game if they can only observe noisy bandit feedback about the payoff of their played actions. Surprisingly, despite a seemingly simple task, we show a quite negative result; that is, standard no regret algorithms -- including the entire family of Dual Averaging algorithms -- provably take exponentially many rounds to eliminate all dominated actions. Moreover, algorithms with the stronger no swap regret also suffer similar exponential inefficiency. To overcome these barriers, we develop a new algorithm that adjusts Exp3 with Diminishing Historical rewards (termed Exp3-DH); Exp3-DH gradually forgets history at carefully tailored rates. We prove that when all agents run Exp3-DH (a.k.a., self-play in multi-agent learning), all dominated actions can be iteratively eliminated within polynomially many rounds. Our experimental results further demonstrate the efficiency of Exp3-DH, and that state-of-the-art bandit algorithms, even those developed specifically for learning in games, fail to eliminate all dominated actions efficiently.
翻訳日:2021-11-11 15:21:29 公開日:2021-11-10
# (参考訳) サイバー脅威の理解可能なマルチモーダル検出のための枠組み

A framework for comprehensible multi-modal detection of cyber threats ( http://arxiv.org/abs/2111.05764v1 )

ライセンス: CC BY 4.0
Jan Kohout, \v{C}en\v{e}k \v{S}karda, Kyrylo Shcherbin, Martin Kopp, Jan Brabec(参考訳) 企業環境における悪意ある活動の検出は非常に複雑な作業であり、その自動化の研究に多くの努力が注がれている。 しかし、既存の方法のほとんどは狭い範囲でしか動作せず、マルウェアの存在の証拠の断片のみを捕獲することしかできない。 その結果、このようなアプローチは、ドメインの専門家によるサイバー脅威の研究や説明方法と一致しない。 本稿では,これらの制約を議論し,異なるデータソースからの観測イベントを結合した検出フレームワークを設計する。 これにより、攻撃ライフサイクルに関する完全な洞察を提供し、インシデントの全スコープを特定するために、異なるテレメトリからのこのような観測の結合を必要とする脅威の検出を可能にする。 本研究は,企業ネットワークで発生した真のマルウェア感染のケーススタディに,フレームワークの適用性を示す。

Detection of malicious activities in corporate environments is a very complex task and much effort has been invested into research of its automation. However, vast majority of existing methods operate only in a narrow scope which limits them to capture only fragments of the evidence of malware's presence. Consequently, such approach is not aligned with the way how the cyber threats are studied and described by domain experts. In this work, we discuss these limitations and design a detection framework which combines observed events from different sources of data. Thanks to this, it provides full insight into the attack life cycle and enables detection of threats that require this coupling of observations from different telemetries to identify the full scope of the incident. We demonstrate applicability of the framework on a case study of a real malware infection observed in a corporate network.
翻訳日:2021-11-11 15:20:03 公開日:2021-11-10
# ResnestsとDenseNEsts: 表現保証を改善したブロックベースDNNモデル

ResNEsts and DenseNEsts: Block-based DNN Models with Improved Representation Guarantees ( http://arxiv.org/abs/2111.05496v1 )

ライセンス: Link先を確認
Kuan-Lin Chen, Ching-Hua Lee, Harinath Garudadri, Bhaskar D. Rao(参考訳) 残差ネットワーク(ResNets)が線形予測器よりも優れていることを示す文献で最近使われているモデルは、コンピュータビジョンで広く使われている標準のResNetと実際に異なる。 スカラー値出力や単一残差ブロックといった仮定に加えて、これらのモデルは最終アフィン層に供給する最後の残差表現において非線形性を持たない。 このような非線形性の違いを体系化し、線形推定特性を明らかにするために、標準レネットから最後の残差表現で非線形性を単純に落とすことで、残差非線形推定子(resnests)を定義する。 ボトルネックブロックを持つ幅広いリネストは、標準レネクタが達成しようとしている非常に望ましいトレーニング特性を常に保証できること、つまり、ブロックの追加は、同じ基底要素のセットを考えると、パフォーマンスを低下させないことを示している。 それを証明するために、まず、基礎学習と線形予測において結合問題によって制限される基底関数モデルとして認識する。 そして,予測重みを基礎学習から切り離すため,ブロックの追加による性能の悪化を常に保証する拡張ResNEst(A-ResNEst)と呼ばれる特殊なアーキテクチャを構築した。 その結果、a−レジストは、対応するベースを用いたレジストに対する経験的リスク下限を確立する。 以上の結果から,resnestsは機能再利用を減少させる問題があるが,入力空間を十分に拡大あるいは拡大することで回避でき,上述の望ましい特性をもたらす。 また,ResNetsより優れていることを示すDenseNetsに着想を得て,Densely connected linear Estimator (DenseNEst) と呼ばれる新しいモデルを提案する。 我々は,任意の DenseNEst が,ボトルネックブロックを持つワイド ResNEst として表現可能であることを示す。 ResNEstsとは異なり、DenseNEstsは特別なアーキテクチャの再設計なしに望ましい特性を示す。

Models recently used in the literature proving residual networks (ResNets) are better than linear predictors are actually different from standard ResNets that have been widely used in computer vision. In addition to the assumptions such as scalar-valued output or single residual block, these models have no nonlinearities at the final residual representation that feeds into the final affine layer. To codify such a difference in nonlinearities and reveal a linear estimation property, we define ResNEsts, i.e., Residual Nonlinear Estimators, by simply dropping nonlinearities at the last residual representation from standard ResNets. We show that wide ResNEsts with bottleneck blocks can always guarantee a very desirable training property that standard ResNets aim to achieve, i.e., adding more blocks does not decrease performance given the same set of basis elements. To prove that, we first recognize ResNEsts are basis function models that are limited by a coupling problem in basis learning and linear prediction. Then, to decouple prediction weights from basis learning, we construct a special architecture termed augmented ResNEst (A-ResNEst) that always guarantees no worse performance with the addition of a block. As a result, such an A-ResNEst establishes empirical risk lower bounds for a ResNEst using corresponding bases. Our results demonstrate ResNEsts indeed have a problem of diminishing feature reuse; however, it can be avoided by sufficiently expanding or widening the input space, leading to the above-mentioned desirable property. Inspired by the DenseNets that have been shown to outperform ResNets, we also propose a corresponding new model called Densely connected Nonlinear Estimator (DenseNEst). We show that any DenseNEst can be represented as a wide ResNEst with bottleneck blocks. Unlike ResNEsts, DenseNEsts exhibit the desirable property without any special architectural re-design.
翻訳日:2021-11-11 15:07:02 公開日:2021-11-10
# 言語間適応モデル-自然言語理解のためのメタラーニング

Cross-lingual Adaption Model-Agnostic Meta-Learning for Natural Language Understanding ( http://arxiv.org/abs/2111.05805v1 )

ライセンス: Link先を確認
Qianying Liu, Fei Cheng, Sadao Kurohashi(参考訳) 補助言語を用いたメタ学習は、言語間自然言語処理において有望な改善を示す。 しかし、以前の研究では、同じ言語からのメタトレーニングとメタテストのデータがサンプリングされ、言語間移動のモデルの性能が制限された。 本稿では,メタラーニング段階で直接言語間適応を行うXLA-MAMLを提案する。 自然言語推論と質問応答に関するゼロショットと少数ショットの実験を行った。 実験結果から,異なる言語,タスク,事前学習モデルにまたがる手法の有効性が示された。 また,サンプリング戦略や並列処理を含むメタラーニングのための言語横断的特徴の分析を行う。

Meta learning with auxiliary languages has demonstrated promising improvements for cross-lingual natural language processing. However, previous studies sample the meta-training and meta-testing data from the same language, which limits the ability of the model for cross-lingual transfer. In this paper, we propose XLA-MAML, which performs direct cross-lingual adaption in the meta-learning stage. We conduct zero-shot and few-shot experiments on Natural Language Inference and Question Answering. The experimental results demonstrate the effectiveness of our method across different languages, tasks, and pretrained models. We also give analysis on various cross-lingual specific settings for meta-learning including sampling strategy and parallelism.
翻訳日:2021-11-11 15:06:27 公開日:2021-11-10
# LUMINOUS: 身近なAIチャレンジのための屋内シーン生成

LUMINOUS: Indoor Scene Generation for Embodied AI Challenges ( http://arxiv.org/abs/2111.05527v1 )

ライセンス: Link先を確認
Yizhou Zhao, Kaixiang Lin, Zhiwei Jia, Qiaozi Gao, Govind Thattai, Jesse Thomason, Gaurav S.Sukhatme(参考訳) エンボディエージェントを訓練するための学習ベースの手法は通常、現実的なレイアウトを含む多くの高品質なシーンを必要とし、意味のある相互作用をサポートする。 しかしながら、現在のEmbodied AI(EAI)の課題は、限られたレイアウトでシミュレーションされた屋内シーンのみを提供する。 本稿では,最先端の室内シーン合成アルゴリズムを用いて,具体化されたai課題に対する大規模シミュレーションシーンを生成する,初の研究フレームワークであるluminousを提案する。 さらに, 複雑な家庭作業を支援する機能により, 室内シーンの質を自動的かつ定量的に評価する。 Luminousには新しいシーン生成アルゴリズム (Constrained Stochastic Scene Generation (CSSG)) が組み込まれている。 Luminousでは、EAIタスクエグゼキュータ、タスク命令生成モジュール、ビデオレンダリングツールキットが、Embodied AIエージェントのトレーニングと評価のために、新しいシーンの巨大なマルチモーダルデータセットを集合的に生成することができる。 広範囲な実験結果から、Luminousが生成したデータの有効性が示され、一般化と堅牢性に対するエンボディエージェントの包括的評価が可能となった。

Learning-based methods for training embodied agents typically require a large number of high-quality scenes that contain realistic layouts and support meaningful interactions. However, current simulators for Embodied AI (EAI) challenges only provide simulated indoor scenes with a limited number of layouts. This paper presents Luminous, the first research framework that employs state-of-the-art indoor scene synthesis algorithms to generate large-scale simulated scenes for Embodied AI challenges. Further, we automatically and quantitatively evaluate the quality of generated indoor scenes via their ability to support complex household tasks. Luminous incorporates a novel scene generation algorithm (Constrained Stochastic Scene Generation (CSSG)), which achieves competitive performance with human-designed scenes. Within Luminous, the EAI task executor, task instruction generation module, and video rendering toolkit can collectively generate a massive multimodal dataset of new scenes for the training and evaluation of Embodied AI agents. Extensive experimental results demonstrate the effectiveness of the data generated by Luminous, enabling the comprehensive assessment of embodied agents on generalization and robustness.
翻訳日:2021-11-11 15:06:18 公開日:2021-11-10
# look before you leap: 人間の介入による安全なモデルベース強化学習

Look Before You Leap: Safe Model-Based Reinforcement Learning with Human Intervention ( http://arxiv.org/abs/2111.05819v1 )

ライセンス: Link先を確認
Yunkun Xu, Zhenyu Liu, Guifang Duan, Jiangcheng Zhu, Xiaolong Bai, Jianrong Tan(参考訳) 安全性は、現実世界のシステムに深層強化学習を適用する主な課題の1つになっている。 現在、人的監視などの外部知識の取り込みは、エージェントが破滅的な状態を訪れないようにするための唯一の手段である。 本稿では,安全モデルに基づく強化学習のための新しい枠組みであるmbhiを提案する。 MBHIでは、人間のブロック決定を模倣するために教師付き学習者のアンサンブルが訓練されている。 人間による意思決定のプロセスと同様に、MBHIは環境へのアクションを実行する前に、動的モデルに想像上の軌道をロールアウトし、その安全性を見積もる。 想像力が大惨事に遭遇すると、MBHIは現在の行動を阻止し、効率的なMPC法を用いて安全ポリシーを出力する。 本手法をいくつかの安全タスクで評価した結果,MBHIは基準値と比較して試料効率とカタストロフィ数において優れた性能を示した。

Safety has become one of the main challenges of applying deep reinforcement learning to real world systems. Currently, the incorporation of external knowledge such as human oversight is the only means to prevent the agent from visiting the catastrophic state. In this paper, we propose MBHI, a novel framework for safe model-based reinforcement learning, which ensures safety in the state-level and can effectively avoid both "local" and "non-local" catastrophes. An ensemble of supervised learners are trained in MBHI to imitate human blocking decisions. Similar to human decision-making process, MBHI will roll out an imagined trajectory in the dynamics model before executing actions to the environment, and estimate its safety. When the imagination encounters a catastrophe, MBHI will block the current action and use an efficient MPC method to output a safety policy. We evaluate our method on several safety tasks, and the results show that MBHI achieved better performance in terms of sample efficiency and number of catastrophes compared to the baselines.
翻訳日:2021-11-11 15:05:59 公開日:2021-11-10
# トランスフォーマーはCNNよりロバストか?

Are Transformers More Robust Than CNNs? ( http://arxiv.org/abs/2111.05464v1 )

ライセンス: Link先を確認
Yutong Bai, Jieru Mei, Alan Yuille, Cihang Xie(参考訳) Transformerは視覚認識のための強力なツールとして登場した。 幅広いビジュアルベンチマークでの競合パフォーマンスの実証に加えて、最近の研究は、TransformerがConvolutions Neural Networks(CNN)よりもはるかに堅牢であると主張している。 しかしながら、驚くべきことにこれらの結論は、TransformerとCNNを異なるスケールで比較し、異なるトレーニングフレームワークで適用する不公平な実験的な設定から導かれる。 本稿では,トランスフォーマーとCNNの比較において,ロバストネス評価に着目した最初のフェア&インディース比較を提案する。 当社の統一トレーニングセットアップでは、敵のロバスト性を測定する場合、トランスフォーマーはcnnを上回るという以前の信念に最初に挑戦します。 さらに驚くべきことに、Transformersのトレーニングレシピを適切に採用すれば、Transformersが敵の攻撃から守るのと同じくらい、CNNが堅牢であることは明らかです。 アウト・オブ・ディストリビューション・サンプルの一般化については、(外部)大規模データセットの事前トレーニングは、トランスフォーマーがCNNよりも優れたパフォーマンスを実現するための基本的な要求ではないことを示す。 さらに,このような強固な一般化は,トランスフォーマーの自己着脱的なアーキテクチャが,他のトレーニング設定よりもメリットが大きいことを示唆する。 この作業によって、トランスフォーマーやcnnの堅牢性に関するコミュニティの理解とベンチマークが向上することを期待しています。 コードとモデルはhttps://github.com/ytongbai/ViTs-vs-CNNsで公開されている。

Transformer emerges as a powerful tool for visual recognition. In addition to demonstrating competitive performance on a broad range of visual benchmarks, recent works also argue that Transformers are much more robust than Convolutions Neural Networks (CNNs). Nonetheless, surprisingly, we find these conclusions are drawn from unfair experimental settings, where Transformers and CNNs are compared at different scales and are applied with distinct training frameworks. In this paper, we aim to provide the first fair & in-depth comparisons between Transformers and CNNs, focusing on robustness evaluations. With our unified training setup, we first challenge the previous belief that Transformers outshine CNNs when measuring adversarial robustness. More surprisingly, we find CNNs can easily be as robust as Transformers on defending against adversarial attacks, if they properly adopt Transformers' training recipes. While regarding generalization on out-of-distribution samples, we show pre-training on (external) large-scale datasets is not a fundamental request for enabling Transformers to achieve better performance than CNNs. Moreover, our ablations suggest such stronger generalization is largely benefited by the Transformer's self-attention-like architectures per se, rather than by other training setups. We hope this work can help the community better understand and benchmark the robustness of Transformers and CNNs. The code and models are publicly available at https://github.com/ytongbai/ViTs-vs-CNNs.
翻訳日:2021-11-11 15:05:42 公開日:2021-11-10
# 空間的変換を伴うスパース逆ビデオアタック

Sparse Adversarial Video Attacks with Spatial Transformations ( http://arxiv.org/abs/2111.05468v1 )

ライセンス: Link先を確認
Ronghui Mu, Wenjie Ruan, Leandro Soriano Marcolino, Qiang Ni(参考訳) 近年,画像に対する敵対的攻撃に多大な研究努力が集中している一方,敵対的ビデオ攻撃はめったに研究されていない。 本稿では,DeepSAVAと呼ばれるビデオに対する敵攻撃戦略を提案する。 本モデルでは, 対向距離を測定するために, 構造類似度指標(SSIM)を用いた統合最適化フレームワークによる加法摂動と空間変換の両方を含む。 本研究では,映像中の最も影響力のあるフレームの同定にベイズ最適化を利用する実効的で斬新な最適化手法を設計し,加法的および空間変換的な摂動を生成するために確率勾配降下(SGD)に基づく最適化を行う。 そうすることで、deepsavaは、攻撃成功率と敵対的転送可能性の両方の観点から最先端のパフォーマンスを保ちながら、人間のインセプティビリティを維持するために、ビデオに対して非常にスパースな攻撃を行うことができる。 さまざまな種類のディープニューラルネットワークとビデオデータセットに関する集中的な実験により、DeepSAVAの優位性が確認されました。

In recent years, a significant amount of research efforts concentrated on adversarial attacks on images, while adversarial video attacks have seldom been explored. We propose an adversarial attack strategy on videos, called DeepSAVA. Our model includes both additive perturbation and spatial transformation by a unified optimisation framework, where the structural similarity index (SSIM) measure is adopted to measure the adversarial distance. We design an effective and novel optimisation scheme which alternatively utilizes Bayesian optimisation to identify the most influential frame in a video and Stochastic gradient descent (SGD) based optimisation to produce both additive and spatial-transformed perturbations. Doing so enables DeepSAVA to perform a very sparse attack on videos for maintaining human imperceptibility while still achieving state-of-the-art performance in terms of both attack success rate and adversarial transferability. Our intensive experiments on various types of deep neural networks and video datasets confirm the superiority of DeepSAVA.
翻訳日:2021-11-11 15:03:35 公開日:2021-11-10
# 人物再識別のためのシーンの切り離し学習

Learning to Disentangle Scenes for Person Re-identification ( http://arxiv.org/abs/2111.05476v1 )

ライセンス: Link先を確認
Xianghao Zang, Ge Li, Wei Gao, Xiujun Shu(参考訳) 人物再同定(reid:person re-identification)タスクには、咬合やスケールの変動など、多くの課題がある。 既存の作品は通常、ワンブランチネットワークを使用することで解決しようとした。 このワンブランチネットワークは、様々な困難な問題に対して堅牢でなければならない。 本稿では,ReIDタスクの分割と分割を提案する。 本研究では,複数の自己超越操作を用いて,異なる課題をシミュレートし,異なるネットワークを用いて各課題に対処する。 具体的には, ランダム消去操作を用いて, 制御可能な特徴を持つ新しい画像を生成するために, 新たなランダムスケーリング演算を提案する。 異なるシーンを扱うために、1つのマスターブランチと2つのサーヴァントブランチを含む一般的なマルチブランチネットワークが導入される。 これらの分枝は協調的に学習し、異なる知覚能力を達成する。 このようにして、reidタスクの複雑なシーンを効果的に分離し、各ブランチの負担を軽減させる。 実験結果から,提案手法は3つのReIDベンチマークと2つの隠蔽されたReIDベンチマークに対して,最先端の性能を実現することを示した。 アブレーション研究は,提案手法と操作により,様々な場面における性能が著しく向上することを示した。

There are many challenging problems in the person re-identification (ReID) task, such as the occlusion and scale variation. Existing works usually tried to solve them by employing a one-branch network. This one-branch network needs to be robust to various challenging problems, which makes this network overburdened. This paper proposes to divide-and-conquer the ReID task. For this purpose, we employ several self-supervision operations to simulate different challenging problems and handle each challenging problem using different networks. Concretely, we use the random erasing operation and propose a novel random scaling operation to generate new images with controllable characteristics. A general multi-branch network, including one master branch and two servant branches, is introduced to handle different scenes. These branches learn collaboratively and achieve different perceptive abilities. In this way, the complex scenes in the ReID task are effectively disentangled, and the burden of each branch is relieved. The results from extensive experiments demonstrate that the proposed method achieves state-of-the-art performances on three ReID benchmarks and two occluded ReID benchmarks. Ablation study also shows that the proposed scheme and operations significantly improve the performance in various scenes.
翻訳日:2021-11-11 15:03:17 公開日:2021-11-10
# 境界ボックス認識の改良による手書き文字認識

Handwritten Digit Recognition Using Improved Bounding Box Recognition Technique ( http://arxiv.org/abs/2111.05483v1 )

ライセンス: Link先を確認
Arkaprabha Basu, M. Sathya(参考訳) このプロジェクトにはOCR(Optical Character Recognition)の技術が組み込まれており、コンピュータ科学の様々な研究分野が含まれている。 プロジェクトは、キャラクタの写真を撮り、それを処理して、人間の脳がさまざまな数字を認識するようにキャラクタのイメージを認識する。 このプロジェクトには、画像処理技術と機械学習の大きな研究領域の深いアイデアと、ニューラルネットワークと呼ばれる機械学習の構築ブロックが含まれている。 プロジェクトには2つの異なる部分がある。 訓練部は、様々な類似の文字セットを与えるが、全く同じではない子供に教育を施すことからなり、その成果がこれである。 このアイデアのように、多くの文字で新しく構築されたニューラルネットワークをトレーニングする必要があります。 この部分には、プロジェクトのニーズに応じて自己生成およびアップグレードされた新しいアルゴリズムが含まれている。 テスト部は、新しいデータセットのテストを含んでいる。 この部分は常にトレーニングの後に現れます。 最初は、子供にキャラクターの認識の仕方を教えなければならない。 そして、正しい答えを得たかどうかをテストしなければなりません。 そうでなければ、新しいデータセットと新しいエントリを提供することで、彼をもっと訓練する必要があります。 同じように、アルゴリズムもテストしなければならない。 プロジェクトには、オプティマイザテクニックやフィルタリングプロセスのような、統計のモデリング概念を必要とする多くの統計モデリングと最適化技術、フィルタリングやアルゴリズムの背後にある数学と予測がどのようにやって来るか、最終的に予測モデル作成の予測に実際に必要となるか、といったことを必要とする、統計モデリングと最適化のテクニックがあります。 機械学習アルゴリズムは予測とプログラミングの概念によって構築される。

The project comes with the technique of OCR (Optical Character Recognition) which includes various research sides of computer science. The project is to take a picture of a character and process it up to recognize the image of that character like a human brain recognize the various digits. The project contains the deep idea of the Image Processing techniques and the big research area of machine learning and the building block of the machine learning called Neural Network. There are two different parts of the project. Training part comes with the idea of to train a child by giving various sets of similar characters but not the totally same and to say them the output of this is this. Like this idea one has to train the newly built neural network with so many characters. This part contains some new algorithm which is self-created and upgraded as the project need. The testing part contains the testing of a new dataset .This part always comes after the part of the training .At first one has to teach the child how to recognize the character .Then one has to take the test whether he has given right answer or not. If not, one has to train him harder by giving new dataset and new entries. Just like that one has to test the algorithm also. There are many parts of statistical modeling and optimization techniques which come into the project requiring a lot of modeling concept of statistics like optimizer technique and filtering process, that how the mathematics and prediction behind that filtering or the algorithms comes after or which result one actually needs to and ultimately for the prediction of a predictive model creation. Machine learning algorithm is built by concepts of prediction and programming.
翻訳日:2021-11-11 15:02:59 公開日:2021-11-10
# マルチモーダル前腕登録のための構造特徴量アルゴリズム

A Structure Feature Algorithm for Multi-modal Forearm Registration ( http://arxiv.org/abs/2111.05485v1 )

ライセンス: Link先を確認
Jiaxin Li, Yan Ding, Weizhong Zhang, Yifan Zhao, Lingxi Guo, Zhe Yang(参考訳) 画像登録に基づく拡張現実技術は, 手術前準備や医療教育の便宜上, ますます普及しつつある。 本稿では,前腕画像とデジタル解剖モデルの登録について述べる。 本稿では, 前腕マルチモーダル画像のテクスチャ特性の違いから, 前腕に対する構造適合型マルチモーダル画像登録フレームワーク(FAM)に基づく前腕特徴表現曲線(FFRC)を提案する。

Augmented reality technology based on image registration is becoming increasingly popular for the convenience of pre-surgery preparation and medical education. This paper focuses on the registration of forearm images and digital anatomical models. Due to the difference in texture features of forearm multi-modal images, this paper proposes a forearm feature representation curve (FFRC) based on structure compliant multi-modal image registration framework (FAM) for the forearm.
翻訳日:2021-11-11 15:02:33 公開日:2021-11-10
# 終端畳み込みニューラルネットワークを用いたCTPA画像からの肺塞栓の自動検出

Automated Pulmonary Embolism Detection from CTPA Images Using an End-to-End Convolutional Neural Network ( http://arxiv.org/abs/2111.05506v1 )

ライセンス: Link先を確認
Yi Lin, Jianchao Su, Xiang Wang, Xiang Li, Jingen Liu, Kwang-Ting Cheng, Xin Yang(参考訳) CT肺血管造影(CTPA)画像から肺塞栓症(PEs)を自動的に検出する方法が要求されている。 既存の方法は、通常、他のステップの能力を考慮せずに、PE候補の検出と偽陽性除去のために別々のステップを使用する。 その結果、ほとんどの既存手法は許容できる感度を達成するために高い偽陽性率に悩まされる。 本研究では,両ステップを協調的に最適化したエンドツーエンドのトレーニング可能な畳み込みニューラルネットワーク(cnn)を提案する。 提案したCNNは3つの連結サブネットから構成される。 1)疑わしいPEを含む立方体を検出するための新しい3D候補提案ネットワーク 2 候補のための固定サイズの容器配置画像表現を生成する3次元空間変換サブネット及び 3)変換された立方体の3つの断面を入力とし、偽陽性を除去する2次元分類ネットワーク。 PEチャレンジから得られた20個のCTPAテストデータセットを用いて,0mm,2mm,5mmの各ボリュームあたりの偽陽性の感度を78.9%,80.7%,80.7%と評価した。 我々は,本システムについて,合計269emboliの129のctpaデータからなる独自のデータセットで評価した。 本システムでは,0mm,2mm,5mmの各体積あたりの偽陽性が63.2%,78.9%,86.8%であった。

Automated methods for detecting pulmonary embolisms (PEs) on CT pulmonary angiography (CTPA) images are of high demand. Existing methods typically employ separate steps for PE candidate detection and false positive removal, without considering the ability of the other step. As a result, most existing methods usually suffer from a high false positive rate in order to achieve an acceptable sensitivity. This study presents an end-to-end trainable convolutional neural network (CNN) where the two steps are optimized jointly. The proposed CNN consists of three concatenated subnets: 1) a novel 3D candidate proposal network for detecting cubes containing suspected PEs, 2) a 3D spatial transformation subnet for generating fixed-sized vessel-aligned image representation for candidates, and 3) a 2D classification network which takes the three cross-sections of the transformed cubes as input and eliminates false positives. We have evaluated our approach using the 20 CTPA test dataset from the PE challenge, achieving a sensitivity of 78.9%, 80.7% and 80.7% at 2 false positives per volume at 0mm, 2mm and 5mm localization error, which is superior to the state-of-the-art methods. We have further evaluated our system on our own dataset consisting of 129 CTPA data with a total of 269 emboli. Our system achieves a sensitivity of 63.2%, 78.9% and 86.8% at 2 false positives per volume at 0mm, 2mm and 5mm localization error.
翻訳日:2021-11-11 15:02:26 公開日:2021-11-10
# マルチ露光融合による画像からのサーベイシーンの3次元モデリング

3D modelling of survey scene from images enhanced with a multi-exposure fusion ( http://arxiv.org/abs/2111.05541v1 )

ライセンス: Link先を確認
Kwok-Leung Chan, Liping Li, Arthur Wing-Tak Leung, Ho-Yin Chan(参考訳) 現在の現場調査は全駅で行われている。 この手法は精度が高いが、連続監視が必要な場合には高いコストがかかる。 比較的安価なデジタルカメラを用いたフォトグラメトリに基づく技術は、多くの分野で広く応用されている。 ポイント測定に加えて、フォトグラメトリーはシーンの三次元(3d)モデルを作ることもできる。 高精度3dモデル再構成は高品質画像に依存する。 劣化した画像は再構成された3dモデルで大きなエラーをもたらす。 本稿では,画像の視認性の向上と,最終的には3次元シーンモデルの誤差を低減する手法を提案する。 アイデアはイメージデハジングから着想を得ている。 各原画像は、ガンマ補正操作と適応ヒストグラム等化により、まず複数の露光画像に変換する。 変換された画像は、局所的なバイナリパターンの計算によって解析される。 そして、局所パターン特徴の関数と画像彩度によって重み付けされた変換された画像画素の集合から生成される各画素により、画像が強化される。 ベンチマーク画像デハージングデータセットのパフォーマンス評価が実施されている。 野外および屋内での実験が実施されている。 分析の結果,この手法は屋外画像と屋内画像の両方に存在する異なる種類の劣化に作用することがわかった。 フォトグラムソフトウェアに入力すると、強調画像は3Dシーンモデルをサブミリ平均誤差で再構成することができる。

In current practice, scene survey is carried out by workers using total stations. The method has high accuracy, but it incurs high costs if continuous monitoring is needed. Techniques based on photogrammetry, with the relatively cheaper digital cameras, have gained wide applications in many fields. Besides point measurement, photogrammetry can also create a three-dimensional (3D) model of the scene. Accurate 3D model reconstruction depends on high quality images. Degraded images will result in large errors in the reconstructed 3D model. In this paper, we propose a method that can be used to improve the visibility of the images, and eventually reduce the errors of the 3D scene model. The idea is inspired by image dehazing. Each original image is first transformed into multiple exposure images by means of gamma-correction operations and adaptive histogram equalization. The transformed images are analyzed by the computation of the local binary patterns. The image is then enhanced, with each pixel generated from the set of transformed image pixels weighted by a function of the local pattern feature and image saturation. Performance evaluation has been performed on benchmark image dehazing datasets. Experimentations have been carried out on outdoor and indoor surveys. Our analysis finds that the method works on different types of degradation that exist in both outdoor and indoor images. When fed into the photogrammetry software, the enhanced images can reconstruct 3D scene models with sub-millimeter mean errors.
翻訳日:2021-11-11 15:02:02 公開日:2021-11-10
# 視覚・言語ナビゲーションのための可変長メモリ付きマルチモーダルトランス

Multimodal Transformer with Variable-length Memory for Vision-and-Language Navigation ( http://arxiv.org/abs/2111.05759v1 )

ライセンス: Link先を確認
Chuang Lin, Yi Jiang, Jianfei Cai, Lizhen Qu, Gholamreza Haffari, Zehuan Yuan(参考訳) 視覚言語ナビゲーション(英語: vision-and-language navigation、略称:vln)は、エージェントが目標位置へ移動するために言語命令に従う必要があるタスクである。 近年のTransformer-based VLN法は,マルチモーダル・クロスアテンション機構による視覚観察と言語指導の直接的な接続により,大きな進歩を遂げている。 しかし、これらの手法は通常、LSTMデコーダを使ったり、手動で設計された隠れ状態を使って繰り返し変換器を構築することで、時間的コンテキストを固定長ベクトルとして表現する。 本稿では,時間的文脈を明示的にモデル化し,視覚的に接地自然言語ナビゲーションを行うための可変長メモリ(mtvm)を用いたマルチモーダルトランスフォーマを提案する。 特に、mtvmは、エージェントが以前のアクティベーションを直接メモリバンクに保存することで、ナビゲーションの追跡を可能にする。 性能をさらに高めるために,ランダムマスキング命令を用いた時空間の協調表現の学習を支援するメモリアウェア一貫性損失を提案する。 一般的なR2RおよびCVDNデータセット上でMTVMを評価し,R2Rにおける成功率を2%向上させ,CVDNテストセット上でのゴールプロセスの1.6m削減を実現した。

Vision-and-Language Navigation (VLN) is a task that an agent is required to follow a language instruction to navigate to the goal position, which relies on the ongoing interactions with the environment during moving. Recent Transformer-based VLN methods have made great progress benefiting from the direct connections between visual observations and the language instruction via the multimodal cross-attention mechanism. However, these methods usually represent temporal context as a fixed-length vector by using an LSTM decoder or using manually designed hidden states to build a recurrent Transformer. Considering a single fixed-length vector is often insufficient to capture long-term temporal context, in this paper, we introduce Multimodal Transformer with Variable-length Memory (MTVM) for visually-grounded natural language navigation by modelling the temporal context explicitly. Specifically, MTVM enables the agent to keep track of the navigation trajectory by directly storing previous activations in a memory bank. To further boost the performance, we propose a memory-aware consistency loss to help learn a better joint representation of temporal context with random masked instructions. We evaluate MTVM on popular R2R and CVDN datasets, and our model improves Success Rate on R2R unseen validation and test set by 2% each, and reduce Goal Process by 1.6m on CVDN test set.
翻訳日:2021-11-11 15:00:46 公開日:2021-11-10
# twitter上での比較分析によるcovid-19ワクチン反応の理解

Understanding COVID-19 Vaccine Reaction through Comparative Analysis on Twitter ( http://arxiv.org/abs/2111.05823v1 )

ライセンス: Link先を確認
Yuesheng Luo and Mayank Kejriwal(参考訳) 新型コロナウイルス(covid-19)ワクチンは数ヵ月間利用可能だが、米国ではワクチンの難易度は高いままである。 問題の一部は、特に11月の大統領選挙以降、政治にも反映されている。 この期間に、twitterを含むソーシャルメディアの文脈でワクチンの迷信を理解することは、計算社会科学者と政策立案者の両方に貴重なガイダンスを提供することができる。 1つのTwitterコーパスを研究するのではなく、同じ、注意深く制御されたデータ収集とフィルタリング手法を用いて、2つの異なる期間(選挙前と数ヶ月後)に収集された2つのTwitterデータセットを比較検討することで、この問題の新たな見方を得る。 結果から,2020年秋から2021年春にかけて,政治から新型コロナウイルスワクチンへの議論に大きな変化が見られた。 クラスタリングと機械学習に基づく手法をサンプリングと定性分析と組み合わせることで、ワクチンの根本原因を詳細に解明し、そのいくつかは時間とともに重要(あるいは少ない)になってきた。 われわれはまた、この問題の激しい分極と政治を、昨年より強調している。

Although multiple COVID-19 vaccines have been available for several months now, vaccine hesitancy continues to be at high levels in the United States. In part, the issue has also become politicized, especially since the presidential election in November. Understanding vaccine hesitancy during this period in the context of social media, including Twitter, can provide valuable guidance both to computational social scientists and policy makers. Rather than studying a single Twitter corpus, this paper takes a novel view of the problem by comparatively studying two Twitter datasets collected between two different time periods (one before the election, and the other, a few months after) using the same, carefully controlled data collection and filtering methodology. Our results show that there was a significant shift in discussion from politics to COVID-19 vaccines from fall of 2020 to spring of 2021. By using clustering and machine learning-based methods in conjunction with sampling and qualitative analysis, we uncover several fine-grained reasons for vaccine hesitancy, some of which have become more (or less) important over time. Our results also underscore the intense polarization and politicization of this issue over the last year.
翻訳日:2021-11-11 15:00:22 公開日:2021-11-10
# コルモゴロフ錯体のレンズによるSGD

SGD Through the Lens of Kolmogorov Complexity ( http://arxiv.org/abs/2111.05478v1 )

ライセンス: Link先を確認
Gregory Schwartzman(参考訳) 確率的勾配降下 (sgd) がデータセット全体の分類精度(1-\epsilon)$を達成する解を見つけることを証明している。 1. 局所的な進捗) バッチよりもモデルの精度が一貫した改善がなされている。 (2.単純な関数を計算するモデル) モデルによって計算される関数は単純(コルモゴロフ複雑性が低い)である。 直観的には、sgd の \emph{local progress} は \emph{global progress} を意味する。 仮定 2 は、非パラメータモデルに対して自明に成立するので、我々の研究は、一般に対して最初の収束保証を与える: \emph{underparameterized models}。 さらに、これは完全に \emph{model agnostic} である最初の結果です - 特定のアーキテクチャやアクティベーション関数を持つためにモデルを必要とせず、ニューラルネットワークでさえないのです。 我々の分析では、Lov\'asz局所補題の文脈でモーサーとタルドスが最初に導入したエントロピー圧縮法を用いている。

We prove that stochastic gradient descent (SGD) finds a solution that achieves $(1-\epsilon)$ classification accuracy on the entire dataset. We do so under two main assumptions: (1. Local progress) There is consistent improvement of the model accuracy over batches. (2. Models compute simple functions) The function computed by the model is simple (has low Kolmogorov complexity). Intuitively, the above means that \emph{local progress} of SGD implies \emph{global progress}. Assumption 2 trivially holds for underparameterized models, hence, our work gives the first convergence guarantee for general, \emph{underparameterized models}. Furthermore, this is the first result which is completely \emph{model agnostic} - we don't require the model to have any specific architecture or activation function, it may not even be a neural network. Our analysis makes use of the entropy compression method, which was first introduced by Moser and Tardos in the context of the Lov\'asz local lemma.
翻訳日:2021-11-11 14:59:44 公開日:2021-11-10
# 乳癌分類のためのバイオマーカー遺伝子同定

Biomarker Gene Identification for Breast Cancer Classification ( http://arxiv.org/abs/2111.05546v1 )

ライセンス: Link先を確認
Sheetal Rajpal, Ankit Rajpal, Manoj Agarwal, Naveen Kumar(参考訳) BACKGROUND: 乳癌は、高い死亡率につながる女性の中で、最も多いがんの1つとして現れています。 乳癌の異質な性質のため、タイムリーな診断と治療のために、乳がんサブタイプに関連する異なる発現遺伝子を同定する必要がある。 OBJECTIVE: 署名として機能する4つの乳がんサブタイプのそれぞれに設定された小さな遺伝子を同定するために, 遺伝子同定のための新しいアルゴリズムを提案する。 方法: 本研究は解釈可能なAI手法を用いて, サブタイプ分類に使用されるディープニューラルネットワークによる予測を調査し, TCGA乳癌RNA配列データを用いてバイオマーカーを同定する。 RESULTS: 提案アルゴリズムは43個の差分表現された遺伝子シグネチャの発見に繋がった。 ニューラルネットワーク分類器を用いて,平均10倍精度0.91を達成した。 さらに、遺伝子セット解析により、ERBB2およびp53シグナル伝達経路におけるGRB7イベントのようないくつかの関連経路が明らかになった。 Pearson相関行列を用いて,各サブタイプにサブタイプ特異的な遺伝子が相関していることを示した。 結論: 提案手法により, 簡潔かつ臨床的に関連する遺伝子シグネチャセットを探索できる。

BACKGROUND: Breast cancer has emerged as one of the most prevalent cancers among women leading to a high mortality rate. Due to the heterogeneous nature of breast cancer, there is a need to identify differentially expressed genes associated with breast cancer subtypes for its timely diagnosis and treatment. OBJECTIVE: To identify a small gene set for each of the four breast cancer subtypes that could act as its signature, the paper proposes a novel algorithm for gene signature identification. METHODS: The present work uses interpretable AI methods to investigate the predictions made by the deep neural network employed for subtype classification to identify biomarkers using the TCGA breast cancer RNA Sequence data. RESULTS: The proposed algorithm led to the discovery of a set of 43 differentially expressed gene signatures. We achieved a competitive average 10-fold accuracy of 0.91, using neural network classifier. Further, gene set analysis revealed several relevant pathways, such as GRB7 events in ERBB2 and p53 signaling pathway. Using the Pearson correlation matrix, we noted that the subtype-specific genes are correlated within each subtype. CONCLUSIONS: The proposed technique enables us to find a concise and clinically relevant gene signature set.
翻訳日:2021-11-11 14:57:28 公開日:2021-11-10
# グラフ移植:node saliency-guided graph mixupと局所構造保存

Graph Transplant: Node Saliency-Guided Graph Mixup with Local Structure Preservation ( http://arxiv.org/abs/2111.05639v1 )

ライセンス: Link先を確認
Joonhyung Park, Hajin Shim, Eunho Yang(参考訳) グラフ構造データセットは通常、不規則なグラフサイズとコネクティビティを持ち、mixupのような最近のデータ拡張技術の使用は困難である。 この課題に取り組むために,データ空間に不規則なグラフを混合するグラフ移植と呼ばれるグラフレベルで,最初のmixupライクなグラフ拡張法を提案する。 グラフの様々なスケールで適切に定義するために,本手法は局所情報を保存可能な混合単位としてサブ構造を同定する。 コンテクストを特に考慮しないミックスアップ方式ではノイズを発生しやすいため,ノードサリエンシー情報を用いて有意義なサブグラフを選択し,ラベルを適応的に決定する。 異なるサイズのグラフ領域から,複数のグラフ分類ベンチマークデータセットを用いて,多様なGNNアーキテクチャを用いて手法を広範囲に検証する。 実験結果から,本手法が他の基本データ拡張ベースラインよりも一貫した優位性を示した。 また,グラフ変換によりロバスト性やモデル校正性能が向上することを示した。

Graph-structured datasets usually have irregular graph sizes and connectivities, rendering the use of recent data augmentation techniques, such as Mixup, difficult. To tackle this challenge, we present the first Mixup-like graph augmentation method at the graph-level called Graph Transplant, which mixes irregular graphs in data space. To be well defined on various scales of the graph, our method identifies the sub-structure as a mix unit that can preserve the local information. Since the mixup-based methods without special consideration of the context are prone to generate noisy samples, our method explicitly employs the node saliency information to select meaningful subgraphs and adaptively determine the labels. We extensively validate our method with diverse GNN architectures on multiple graph classification benchmark datasets from a wide range of graph domains of different sizes. Experimental results show the consistent superiority of our method over other basic data augmentation baselines. We also demonstrate that Graph Transplant enhances the performance in terms of robustness and model calibration.
翻訳日:2021-11-11 14:57:09 公開日:2021-11-10
# 連続プロキシラベルを用いたコントラスト学習における条件アライメントと一様性

Conditional Alignment and Uniformity for Contrastive Learning with Continuous Proxy Labels ( http://arxiv.org/abs/2111.05643v1 )

ライセンス: Link先を確認
Benoit Dufumier, Pietro Gori, Julie Victor, Antoine Grigis, Edouard Duchesnay(参考訳) 対照的な学習は、注釈付きデータを必要とせずに、自然画像と医学画像で印象的な結果を示している。 しかし、医学画像の特徴は、学習表現に活用できるメタデータ(年齢や性別など)が利用できることである。 本稿では,多次元メタデータを統合し,条件付きアライメントと大域的均一性という2つの特性を漸近的に最適化する。 Wang, 2020]と同様、条件付きアライメントは、類似したサンプルは類似した特徴を持つべきだが、メタデータは条件付きである。 代わりに、グローバルな均一性は、(正規化された)特徴が、メタデータとは独立して、単位超球面上に均一に分散されるべきであることを意味する。 本稿では,異なるメタデータを持つサンプルのみを撃退するメタデータに依存する条件付き一様性を定義することを提案する。 条件付きアライメントと均一性の両方の直接的な最適化は、CIFAR-100と脳MRIデータセットの両方での線形評価において、表現を改善することを示す。

Contrastive Learning has shown impressive results on natural and medical images, without requiring annotated data. However, a particularity of medical images is the availability of meta-data (such as age or sex) that can be exploited for learning representations. Here, we show that the recently proposed contrastive y-Aware InfoNCE loss, that integrates multi-dimensional meta-data, asymptotically optimizes two properties: conditional alignment and global uniformity. Similarly to [Wang, 2020], conditional alignment means that similar samples should have similar features, but conditionally on the meta-data. Instead, global uniformity means that the (normalized) features should be uniformly distributed on the unit hyper-sphere, independently of the meta-data. Here, we propose to define conditional uniformity, relying on the meta-data, that repel only samples with dissimilar meta-data. We show that direct optimization of both conditional alignment and uniformity improves the representations, in terms of linear evaluation, on both CIFAR-100 and a brain MRI dataset.
翻訳日:2021-11-11 14:56:52 公開日:2021-11-10
# グリーン自動機械学習に向けて:現状と今後の方向

Towards Green Automated Machine Learning: Status Quo and Future Directions ( http://arxiv.org/abs/2111.05850v1 )

ライセンス: Link先を確認
Tanja Tornede and Alexander Tornede and Jonas Hanselle and Marcel Wever and Felix Mohr and Eyke H\"ullermeier(参考訳) 自動機械学習(automl)は、機械学習アルゴリズムとそれらの構成の自動設定を、目の前の学習タスク(データセット)に合わせて、全体的な(ソフトウェア)ソリューション – マシンラーニングパイプライン – に置き換えることを目指している。 過去10年間で、AutoMLは数百のコントリビューションでホットな研究トピックになっている。 AutoMLは多くの可能性を提供しているが、非常にリソース集約的であることも知られている。 高リソース消費の主な原因は、多くのアプローチが良い候補を探しながら多くのMLパイプラインの(高価な)評価に依存していることである。 この問題はAutoML手法の研究の文脈で増幅されており、多くのデータセットとアプローチで大規模な実験が行われ、それぞれがランダム効果を除外するためにいくつかの繰り返し実行されている。 グリーンAIに関する最近の研究の精神の中で,この問題に対するAutoML研究者の意識を高め,治療の可能性について詳しく述べるために,本稿を執筆した。 この目的のために私たちは、automlに関するより持続可能な研究、すなわちアプローチ設計、ベンチマーク、研究インセンティブ、透明性の4つのカテゴリのアクションを特定します。

Automated machine learning (AutoML) strives for the automatic configuration of machine learning algorithms and their composition into an overall (software) solution - a machine learning pipeline - tailored to the learning task (dataset) at hand. Over the last decade, AutoML has become a hot research topic with hundreds of contributions. While AutoML offers many prospects, it is also known to be quite resource-intensive, which is one of its major points of criticism. The primary cause for a high resource consumption is that many approaches rely on the (costly) evaluation of many ML pipelines while searching for good candidates. This problem is amplified in the context of research on AutoML methods, due to large scale experiments conducted with many datasets and approaches, each of them being run with several repetitions to rule out random effects. In the spirit of recent work on Green AI, this paper is written in an attempt to raise the awareness of AutoML researchers for the problem and to elaborate on possible remedies. To this end, we identify four categories of actions the community may take towards more sustainable research on AutoML, namely approach design, benchmarking, research incentives, and transparency.
翻訳日:2021-11-11 14:56:29 公開日:2021-11-10
# データ駆動型SE支援AIモデル信号認識の強化とイントロスペクション

Data-Driven and SE-assisted AI Model Signal-Awareness Enhancement and Introspection ( http://arxiv.org/abs/2111.05827v1 )

ライセンス: Link先を確認
Sahil Suneja, Yufan Zhuang, Yunhui Zheng, Jim Laredo, Alessandro Morari(参考訳) ソースコード理解タスクのためのAIモデリングは大きな進歩を遂げており、本番開発パイプラインで採用されている。 しかし、特にモデルが実際にソースコードのタスク関連の側面を学習しているかどうかという信頼性の懸念が高まっている。 最近のモデルプローピングアプローチでは、多くのai for codeモデル、すなわち、タスク関連の信号をキャプチャしないモデルにおいて、信号認識の欠如が観察されているが、この問題を正すためのソリューションを提供していない。 本稿では,モデルの信号認識性を高めるためのデータ駆動アプローチについて考察する。 1) コード複雑性のSE概念とカリキュラム学習のAI技術を組み合わせる。 2) デルタデバッグをカスタマイズして簡易な信号保存プログラムを生成し,トレーニングデータセットに拡張することで,AIモデルにSEアシストを組み込む。 この手法により,モデル信号認識の最大4.8倍の改善を実現する。 コード複雑性の概念を用いて,データセットの観点から新たなモデル学習イントロスペクションアプローチを提案する。

AI modeling for source code understanding tasks has been making significant progress, and is being adopted in production development pipelines. However, reliability concerns, especially whether the models are actually learning task-related aspects of source code, are being raised. While recent model-probing approaches have observed a lack of signal awareness in many AI-for-code models, i.e. models not capturing task-relevant signals, they do not offer solutions to rectify this problem. In this paper, we explore data-driven approaches to enhance models' signal-awareness: 1) we combine the SE concept of code complexity with the AI technique of curriculum learning; 2) we incorporate SE assistance into AI models by customizing Delta Debugging to generate simplified signal-preserving programs, augmenting them to the training dataset. With our techniques, we achieve up to 4.8x improvement in model signal awareness. Using the notion of code complexity, we further present a novel model learning introspection approach from the perspective of the dataset.
翻訳日:2021-11-11 14:55:47 公開日:2021-11-10
# (参考訳) SwAMP: クロスモーダル検索のためのマルチモーダルペアのスワップアサインメント

SwAMP: Swapped Assignment of Multi-Modal Pairs for Cross-Modal Retrieval ( http://arxiv.org/abs/2111.05814v1 )

ライセンス: CC BY 4.0
Minyoung Kim(参考訳) 我々は、データ内の関連するマルチモーダルペアによってのみトレーニングが管理されるクロスモーダル検索問題に取り組む。 対照的な学習は、このタスクでもっとも一般的なアプローチです。 しかし、学習のためのサンプリングの複雑さは、トレーニングデータポイントの数で2倍である。 さらに、異なるペアのインスタンスが自動的に無関係であるという仮定を間違える可能性がある。 そこで本研究では,未知クラスの自己ラベル付けに基づく新しい損失関数を提案する。 具体的には、各モダリティにおけるデータインスタンスのクラスラベルを予測し、他のモダリティにおける対応するインスタンスにそれらのラベルを割り当てることを目的とする。 これらのスワップラベルを用いて、教師付きクロスエントロピー損失を用いて各モダリティに対するデータ埋め込みを学習し、線形サンプリング複雑性をもたらす。 また、最新のバッチの埋め込みを格納するためのキューも維持し、クラスタリングの割り当てと埋め込み学習をオンライン形式で同時に行う。 これにより、オフラインクラスタリングのためのトレーニングデータ全体の間欠的エポックを注入する計算オーバーヘッドがなくなる。 本手法は,テキストベースビデオ検索,スケッチベース画像検索,画像テキスト検索など,いくつかの実世界のクロスモーダル検索問題に対して本手法を適用した。

We tackle the cross-modal retrieval problem, where the training is only supervised by the relevant multi-modal pairs in the data. The contrastive learning is the most popular approach for this task. However, its sampling complexity for learning is quadratic in the number of training data points. Moreover, it makes potentially wrong assumption that the instances in different pairs are automatically irrelevant. To address these issues, we propose a novel loss function that is based on self-labeling of the unknown classes. Specifically, we aim to predict class labels of the data instances in each modality, and assign those labels to the corresponding instances in the other modality (i.e., swapping the pseudo labels). With these swapped labels, we learn the data embedding for each modality using the supervised cross-entropy loss, hence leading to linear sampling complexity. We also maintain the queues for storing the embeddings of the latest batches, for which clustering assignment and embedding learning are done at the same time in an online fashion. This removes computational overhead of injecting intermittent epochs of entire training data sweep for offline clustering. We tested our approach on several real-world cross-modal retrieval problems, including text-based video retrieval, sketch-based image retrieval, and image-text retrieval, and for all these tasks our method achieves significant performance improvement over the contrastive learning.
翻訳日:2021-11-11 14:55:00 公開日:2021-11-10
# STNN-DDI:薬物と薬物の相互作用を予測するサブ構造対応テンソルニューラルネットワーク

STNN-DDI: A Substructure-aware Tensor Neural Network to Predict Drug-Drug Interactions ( http://arxiv.org/abs/2111.05708v1 )

ライセンス: Link先を確認
Hui Yu, ShiYu Zhao and JianYu Shi(参考訳) モチベーション(Motivation):多剤間相互作用(DDI)の計算予測は、多剤治療における予期せぬ副作用の軽減に役立つ。 既存の計算手法は刺激的な結果をもたらすが、薬物の作用は主にその化学的サブ構造に起因することを無視する。 加えて、その解釈性は依然として弱い。 結果: 本論文では, 局所的な化学構造(サブ構造)とDDIタイプとの相互作用が, 異なるサブ構造間の結合によって決定されることを示すことにより, DDI予測のための新しいサブ構造対応テンソルニューラルネットワークモデル(STNN-DDI)を設計する。 提案モデルは、サブ構造-サブ構造相互作用(ssi)空間を特徴づける(サブストラクチャ、インテレアクションタイプ、サブストラクチャ)トリプレットの3次元テンソルを学習する。 特定の化学的な意味を持つ事前定義されたサブ構造のリストによると、このSSI空間への薬物のマッピングにより、STNN-DDIは複数のタイプのDDI予測を、説明可能な方法で統一された形でトランスダクティブシナリオとインダクティブシナリオの両方で実行することができる。 深層学習に基づく最先端ベースラインとの融合は、AUC、AUPR、精度、精度を大幅に改善したSTNN-DDIの優位性を示す。 さらに重要なケーススタディでは、DDIの関心に関する薬物間の重要なサブ構造対を明らかにし、与えられたDDI内の相互作用タイプ固有のサブ構造対を明らかにすることによって、その解釈可能性を示す。 要約すると、STNN-DDIはDDIを予測し、薬物間の相互作用機構を説明する効果的なアプローチを提供する。

Motivation: Computational prediction of multiple-type drug-drug interaction (DDI) helps reduce unexpected side effects in poly-drug treatments. Although existing computational approaches achieve inspiring results, they ignore that the action of a drug is mainly caused by its chemical substructures. In addition, their interpretability is still weak. Results: In this paper, by supposing that the interactions between two given drugs are caused by their local chemical structures (sub-structures) and their DDI types are determined by the linkages between different substructure sets, we design a novel Substructure-ware Tensor Neural Network model for DDI prediction (STNN-DDI). The proposed model learns a 3-D tensor of (substructure, in-teraction type, substructure) triplets, which characterizes a substructure-substructure interaction (SSI) space. According to a list of predefined substructures with specific chemical meanings, the mapping of drugs into this SSI space enables STNN-DDI to perform the multiple-type DDI prediction in both transductive and inductive scenarios in a unified form with an explicable manner. The compar-ison with deep learning-based state-of-the-art baselines demonstrates the superiority of STNN-DDI with the significant improvement of AUC, AUPR, Accuracy, and Precision. More importantly, case studies illustrate its interpretability by both revealing a crucial sub-structure pair across drugs regarding a DDI type of interest and uncovering interaction type-specific substructure pairs in a given DDI. In summary, STNN-DDI provides an effective approach to predicting DDIs as well as explaining the interaction mechanisms among drugs.
翻訳日:2021-11-11 14:28:37 公開日:2021-11-10
# 勾配は必要なだけではありません

Gradients are Not All You Need ( http://arxiv.org/abs/2111.05803v1 )

ライセンス: Link先を確認
Luke Metz, C. Daniel Freeman, Samuel S. Schoenholz, Tal Kachman(参考訳) 差別化可能なプログラミング技術はコミュニティで広く使われており、過去数十年の機械学習のルネッサンスに責任がある。 これらの方法は強力ですが、限界があります。 本稿では、リカレントニューラルネットワークや数値物理シミュレーションから学習したオプティマイザのトレーニングまで、さまざまな異なる状況に現れる一般的なカオスベースの障害モードについて論じる。 我々は、この失敗を研究中のシステムのヤコビアンスペクトルに遡り、この失敗が微分に基づく最適化アルゴリズムを損なうことを実践者がいつ期待するかの基準を提供する。

Differentiable programming techniques are widely used in the community and are responsible for the machine learning renaissance of the past several decades. While these methods are powerful, they have limits. In this short report, we discuss a common chaos based failure mode which appears in a variety of differentiable circumstances, ranging from recurrent neural networks and numerical physics simulation to training learned optimizers. We trace this failure to the spectrum of the Jacobian of the system under study, and provide criteria for when a practitioner might expect this failure to spoil their differentiation based optimization algorithms.
翻訳日:2021-11-11 14:28:05 公開日:2021-11-10
# 地域ベイズ最適化のための森林探索

Searching in the Forest for Local Bayesian Optimization ( http://arxiv.org/abs/2111.05834v1 )

ライセンス: Link先を確認
Difan Deng and Marius Lindauer(参考訳) サンプル効率のため、ベイズ最適化(BO)は高パラメータ最適化(HPO)のような高価なブラックボックス最適化問題を扱う一般的なアプローチとなっている。 最近の実証実験では、HPO問題の損失状況は、かつて想定されていたよりも良さが増す傾向にあり、例えば、一様および凸の場合、BOフレームワークが将来有望な局所領域に集中できるならば、より効率的であることが示されている。 本稿では,多くのHPO問題に遭遇する中規模構成空間に適した2段階アプローチBOinGを提案する。 最初の段階では、ランダムな森林を持つスケーラブルなグローバルサロゲートモデルを構築し、全体の景観構造を記述する。 さらに,上層木構造に対するボトムアップアプローチにより,有望な部分領域を選択する。 第2段階では、このサブリージョンの局所モデルを用いて、次に評価すべき点を提案する。 実証実験により、BOinGは典型的なHPO問題の構造を活用でき、特に合成機能やHPOによる中規模問題でよく機能することが示された。

Because of its sample efficiency, Bayesian optimization (BO) has become a popular approach dealing with expensive black-box optimization problems, such as hyperparameter optimization (HPO). Recent empirical experiments showed that the loss landscapes of HPO problems tend to be more benign than previously assumed, i.e. in the best case uni-modal and convex, such that a BO framework could be more efficient if it can focus on those promising local regions. In this paper, we propose BOinG, a two-stage approach that is tailored toward mid-sized configuration spaces, as one encounters in many HPO problems. In the first stage, we build a scalable global surrogate model with a random forest to describe the overall landscape structure. Further, we choose a promising subregion via a bottom-up approach on the upper-level tree structure. In the second stage, a local model in this subregion is utilized to suggest the point to be evaluated next. Empirical experiments show that BOinG is able to exploit the structure of typical HPO problems and performs particularly well on mid-sized problems from synthetic functions and HPO.
翻訳日:2021-11-11 14:27:55 公開日:2021-11-10
# 無視することを学ぶ:CNNの注意を振り返る

Learning to ignore: rethinking attention in CNNs ( http://arxiv.org/abs/2111.05684v1 )

ライセンス: Link先を確認
Firas Laakom, Kateryna Chumachenko, Jenni Raitoharju, Alexandros Iosifidis, and Moncef Gabbouj(参考訳) 近年,コンピュータビジョンタスクを解決するために,CNN(Convolutional Neural Networks)に注意機構を適用することへの関心が高まっている。 これらの方法のほとんどは、シーンの関連部分を明示的に識別し、ハイライトし、ネットワークのさらなるレイヤに参加者の画像を渡すことを学ぶ。 本稿では,このようなアプローチが最適でない可能性について論じる。 必然的に、画像のどの部分が関連しているかを明示的に学習することは、画像のどの部分が関連性が低いのかを学習するよりも、一般的には困難である。 実際、視覚領域では、無関係な特徴の容易に識別できるパターンが数多く存在する。 例えば、境界に近い画像領域は、分類タスクに有用な情報を含む可能性が低い。 そこで本研究では,CNNにおける注意機構を再構築し,参加学習ではなく無視学習を行うことを提案する。 具体的には、シーン内の無関係な情報を明示的に学習し、生成した表現でそれを抑制し、重要な属性のみを保持することを提案する。 この暗黙の注意制度は既存の注意機構に組み込むことができる。 本研究では,最近の注目手法であるSqueeze and Excitation(SE)ブロックとConvolutional Block Attention Module(CBAM)を用いて,このアイデアを検証する。 異なるデータセットとモデルアーキテクチャの実験結果から、暗黙の注意を無視する学習は、標準的なアプローチよりも優れたパフォーマンスをもたらすことが示された。

Recently, there has been an increasing interest in applying attention mechanisms in Convolutional Neural Networks (CNNs) to solve computer vision tasks. Most of these methods learn to explicitly identify and highlight relevant parts of the scene and pass the attended image to further layers of the network. In this paper, we argue that such an approach might not be optimal. Arguably, explicitly learning which parts of the image are relevant is typically harder than learning which parts of the image are less relevant and, thus, should be ignored. In fact, in vision domain, there are many easy-to-identify patterns of irrelevant features. For example, image regions close to the borders are less likely to contain useful information for a classification task. Based on this idea, we propose to reformulate the attention mechanism in CNNs to learn to ignore instead of learning to attend. Specifically, we propose to explicitly learn irrelevant information in the scene and suppress it in the produced representation, keeping only important attributes. This implicit attention scheme can be incorporated into any existing attention mechanism. In this work, we validate this idea using two recent attention methods Squeeze and Excitation (SE) block and Convolutional Block Attention Module (CBAM). Experimental results on different datasets and model architectures show that learning to ignore, i.e., implicit attention, yields superior performance compared to the standard approaches.
翻訳日:2021-11-11 14:26:56 公開日:2021-11-10
# Palette: 画像間拡散モデル

Palette: Image-to-Image Diffusion Models ( http://arxiv.org/abs/2111.05826v1 )

ライセンス: Link先を確認
Chitwan Saharia, William Chan, Huiwen Chang, Chris A. Lee, Jonathan Ho, Tim Salimans, David J. Fleet, Mohammad Norouzi(参考訳) 我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。 画像から画像への変換に挑戦する4つのタスク(色付け、塗装、切り離し、JPEG圧縮)において、Paletteは強力なGANと回帰ベースラインを上回り、新たな最先端技術を確立する。 これはタスク固有のハイパーパラメータチューニング、アーキテクチャのカスタマイズ、あるいは補助的な損失なしに実現され、望ましい汎用性と柔軟性を示す。 L_2$対$L_1$損失がサンプルの多様性に与える影響を明らかにするとともに,経験的アーキテクチャ研究による自己意識の重要性を実証する。 重要な点は,imagenetに基づく統一評価プロトコルを提唱し,fid,インセプションスコア,resnet-50の分類精度,各種基準画像に対する知覚距離など,いくつかのサンプル品質スコアを報告することである。 我々は、この標準化評価プロトコルが、画像から画像への翻訳研究の進展において重要な役割を果たすことを期待している。 最後に,3つのタスク(着色,着色,JPEGデプレッション)で訓練された1つの一般パレットモデルが,タスク固有のスペシャリストよりも優れていることを示す。

We introduce Palette, a simple and general framework for image-to-image translation using conditional diffusion models. On four challenging image-to-image translation tasks (colorization, inpainting, uncropping, and JPEG decompression), Palette outperforms strong GAN and regression baselines, and establishes a new state of the art. This is accomplished without task-specific hyper-parameter tuning, architecture customization, or any auxiliary loss, demonstrating a desirable degree of generality and flexibility. We uncover the impact of using $L_2$ vs. $L_1$ loss in the denoising diffusion objective on sample diversity, and demonstrate the importance of self-attention through empirical architecture studies. Importantly, we advocate a unified evaluation protocol based on ImageNet, and report several sample quality scores including FID, Inception Score, Classification Accuracy of a pre-trained ResNet-50, and Perceptual Distance against reference images for various baselines. We expect this standardized evaluation protocol to play a critical role in advancing image-to-image translation research. Finally, we show that a single generalist Palette model trained on 3 tasks (colorization, inpainting, JPEG decompression) performs as well or better than task-specific specialist counterparts.
翻訳日:2021-11-11 14:25:32 公開日:2021-11-10
# 縦断データのクラスタリング:多種多様なアプローチに関するチュートリアル

Clustering of longitudinal data: A tutorial on a variety of approaches ( http://arxiv.org/abs/2111.05469v1 )

ライセンス: Link先を確認
Niek Den Teuling, Steffen Pauws, Edwin van den Heuvel(参考訳) 過去20年間で、縦断データにおける傾向の異なるグループを識別する手法が、多くの研究分野において注目されている。 研究者を支援するために,縦断クラスタリングに関する文献からのガイダンスを概説する。 さらに,グループベース軌道モデル (GBTM) や成長混合モデル (GMM) ,縦 k-means (KML) など,長手クラスタリングの手法を選択する。 メソッドは基本的なレベルで導入され、強度、制限、モデル拡張がリストアップされる。 近年のデータ収集の進展に伴い、これらの手法が集中型縦断データ(ILD)に適用可能であることに注意が向けられている。 rで利用可能なパッケージを用いて,合成データセット上での手法の適用例を示す。

During the past two decades, methods for identifying groups with different trends in longitudinal data have become of increasing interest across many areas of research. To support researchers, we summarize the guidance from the literature regarding longitudinal clustering. Moreover, we present a selection of methods for longitudinal clustering, including group-based trajectory modeling (GBTM), growth mixture modeling (GMM), and longitudinal k-means (KML). The methods are introduced at a basic level, and strengths, limitations, and model extensions are listed. Following the recent developments in data collection, attention is given to the applicability of these methods to intensive longitudinal data (ILD). We demonstrate the application of the methods on a synthetic dataset using packages available in R.
翻訳日:2021-11-11 14:24:54 公開日:2021-11-10
# (参考訳) 知識ベース質問応答における一般化への二段階アプローチ

A Two-Stage Approach towards Generalization in Knowledge Base Question Answering ( http://arxiv.org/abs/2111.05825v1 )

ライセンス: CC BY 4.0
Srinivas Ravishankar, June Thai, Ibrahim Abdelaziz, Nandana Mihidukulasooriya, Tahira Naseem, Pavan Kapanipathi, Gaetano Rossilleo, Achille Fokoue(参考訳) 知識ベース質問回答(KBQA)の既存のアプローチは、アプローチに固有の仮定のために、あるいは異なる知識ベースで評価するために、非自明な変更を必要とするため、特定の知識ベースに焦点を当てている。 しかし、多くの一般的な知識ベースは、知識ベース全体の一般化を促進するために活用できる基礎となるスキーマの類似性を共有している。 この一般化を実現するため、2段階アーキテクチャに基づくKBQAフレームワークを導入し、セマンティックパーシングと知識ベース相互作用を明確に分離し、データセットと知識グラフ間の伝達学習を容易にする。 基礎となる知識ベースが異なるデータセットを事前トレーニングすることで、大幅なパフォーマンス向上とサンプル複雑性の低減が期待できる。 提案手法は,LC-QuAD (DBpedia), WebQSP (Freebase), SimpleQuestions (Wikidata), MetaQA (Wikimovies-KG) の同等ないし最先端のパフォーマンスを実現する。

Most existing approaches for Knowledge Base Question Answering (KBQA) focus on a specific underlying knowledge base either because of inherent assumptions in the approach, or because evaluating it on a different knowledge base requires non-trivial changes. However, many popular knowledge bases share similarities in their underlying schemas that can be leveraged to facilitate generalization across knowledge bases. To achieve this generalization, we introduce a KBQA framework based on a 2-stage architecture that explicitly separates semantic parsing from the knowledge base interaction, facilitating transfer learning across datasets and knowledge graphs. We show that pretraining on datasets with a different underlying knowledge base can nevertheless provide significant performance gains and reduce sample complexity. Our approach achieves comparable or state-of-the-art performance for LC-QuAD (DBpedia), WebQSP (Freebase), SimpleQuestions (Wikidata) and MetaQA (Wikimovies-KG).
翻訳日:2021-11-11 14:22:12 公開日:2021-11-10
# 多クラス分類を用いた法的事例の重要文同定

Important Sentence Identification in Legal Cases Using Multi-Class Classification ( http://arxiv.org/abs/2111.05721v1 )

ライセンス: Link先を確認
Sahan Jayasinghe, Lakith Rambukkanage, Ashan Silva, Nisansa de Silva, Amal Shehan Perera(参考訳) 自然言語処理(NLP)の進歩は、実践的応用や学術的関心の形で様々な領域に広がっている。 因みに、法域には大量のデータをテキスト形式で含んでいる。 したがって、分析的に要求される領域のニーズに対応するためにNLPを適用する必要がある。 訴訟における重要な文、事実、議論の特定は、法律専門家にとって退屈な作業である。 本研究では,判例における重要文を識別するための多級分類における文埋め込みの利用について,本事例における主要当事者の観点から検討する。 さらに、カテゴリー横断エントロピー損失の直接的な使用によって制限される精度を向上させるために、タスク固有の損失関数を定義する。

The advancement of Natural Language Processing (NLP) is spreading through various domains in forms of practical applications and academic interests. Inherently, the legal domain contains a vast amount of data in text format. Therefore it requires the application of NLP to cater to the analytically demanding needs of the domain. Identifying important sentences, facts and arguments in a legal case is such a tedious task for legal professionals. In this research we explore the usage of sentence embeddings for multi-class classification to identify important sentences in a legal case, in the perspective of the main parties present in the case. In addition, a task-specific loss function is defined in order to improve the accuracy restricted by the straightforward use of categorical cross entropy loss.
翻訳日:2021-11-11 14:08:42 公開日:2021-11-10
# prune once for all: スパース事前学習された言語モデル

Prune Once for All: Sparse Pre-Trained Language Models ( http://arxiv.org/abs/2111.05754v1 )

ライセンス: Link先を確認
Ofir Zafrir, Ariel Larey, Guy Boudoukh, Haihao Shen, Moshe Wasserblat(参考訳) トランスフォーマーベースの言語モデルは、自然言語処理の幅広いアプリケーションに適用される。 しかし、それらは非効率でデプロイが難しい。 近年、ターゲットハードウェア上での大規模変圧器モデルの実装効率を高めるために、多くの圧縮アルゴリズムが提案されている。 本研究では,ウェイトプルーニングとモデル蒸留を統合したスパース事前訓練型トランスフォーマー言語モデルの学習手法を提案する。 これらのスパース事前学習モデルは、疎度パターンを維持しながら、幅広いタスクの学習を伝達するために使用できる。 本手法は,3つの既知のアーキテクチャを用いて,スパース事前学習したBERT-Base,BERT-Large,DistilBERTを作成する。 圧縮されたスパース事前学習モデルが、その知識を、最小限の精度で5つの下流自然言語タスクに伝達する方法を示す。 さらに,量子化アウェアトレーニングを用いて,スパースモデルの重みを8ビット精度まで圧縮する方法を示す。 例えば、SQuADv1.1で微調整して8ビットに量子化することで、エンコーダの圧縮比が$40$Xで、精度損失は$1\%以下となる。 我々の知る限り, BERT-Base, BERT-Large, DistilBERTの圧縮精度比は最も高い。

Transformer-based language models are applied to a wide range of applications in natural language processing. However, they are inefficient and difficult to deploy. In recent years, many compression algorithms have been proposed to increase the implementation efficiency of large Transformer-based models on target hardware. In this work we present a new method for training sparse pre-trained Transformer language models by integrating weight pruning and model distillation. These sparse pre-trained models can be used to transfer learning for a wide range of tasks while maintaining their sparsity pattern. We demonstrate our method with three known architectures to create sparse pre-trained BERT-Base, BERT-Large and DistilBERT. We show how the compressed sparse pre-trained models we trained transfer their knowledge to five different downstream natural language tasks with minimal accuracy loss. Moreover, we show how to further compress the sparse models' weights to 8bit precision using quantization-aware training. For example, with our sparse pre-trained BERT-Large fine-tuned on SQuADv1.1 and quantized to 8bit we achieve a compression ratio of $40$X for the encoder with less than $1\%$ accuracy loss. To the best of our knowledge, our results show the best compression-to-accuracy ratio for BERT-Base, BERT-Large, and DistilBERT.
翻訳日:2021-11-11 14:08:32 公開日:2021-11-10
# データの観点からのモデル不変性の一般化ベネフィットの理解

Understanding the Generalization Benefit of Model Invariance from a Data Perspective ( http://arxiv.org/abs/2111.05529v1 )

ライセンス: Link先を確認
Sicheng Zhu, Bang An, Furong Huang(参考訳) ある種のデータ変換の下で不変となるように開発された機械学習モデルは、実際に一般化の改善を示している。 しかし、なぜ不変性が一般化の恩恵を受けるのかという原則的な理解は限られている。 データセットが与えられると、モデル不変性がより良い一般化を保証する「適切な」データ変換を選択する原則的な方法がしばしば存在しない。 本稿では,変換によって誘導されるサンプル被覆,すなわち変換を用いてデータセット全体をほぼ復元可能なデータセットの代表的なサブセットを導入することで,モデル不変性の一般化効果について検討する。 任意のデータ変換に対して、サンプル被覆に基づく不変モデルに対する洗練された一般化境界を提供する。 また、データ変換集合の「適合性」を、変換によって引き起こされるサンプル被覆数、すなわち、その誘導されたサンプル被覆の最小サイズによって特徴づける。 我々は、小さなサンプル被覆数を持つ「相応しい」変換の一般化境界を締め付けることができることを示した。 さらに,提案したサンプル被覆数は経験的評価が可能であり,モデル不変性を向上させるために変換を選択するためのガイドを提供する。 複数のデータセットにおける実験において、一般的に使用される変換のサンプル被覆数を評価し、変換の集合(例えば3d-ビュー変換)のサンプル被覆数が、テストと不変モデルのトレーニング誤差との差が小さいことを示し、提案を検証する。

Machine learning models that are developed to be invariant under certain types of data transformations have shown improved generalization in practice. However, a principled understanding of why invariance benefits generalization is limited. Given a dataset, there is often no principled way to select "suitable" data transformations under which model invariance guarantees better generalization. This paper studies the generalization benefit of model invariance by introducing the sample cover induced by transformations, i.e., a representative subset of a dataset that can approximately recover the whole dataset using transformations. For any data transformations, we provide refined generalization bounds for invariant models based on the sample cover. We also characterize the "suitability" of a set of data transformations by the sample covering number induced by transformations, i.e., the smallest size of its induced sample covers. We show that we may tighten the generalization bounds for "suitable" transformations that have a small sample covering number. In addition, our proposed sample covering number can be empirically evaluated and thus provides a guide for selecting transformations to develop model invariance for better generalization. In experiments on multiple datasets, we evaluate sample covering numbers for some commonly used transformations and show that the smaller sample covering number for a set of transformations (e.g., the 3D-view transformation) indicates a smaller gap between the test and training error for invariant models, which verifies our propositions.
翻訳日:2021-11-11 14:08:09 公開日:2021-11-10
# BagBERT:マルチトピック分類のためのBERTベースのバッグスタッキング

BagBERT: BERT-based bagging-stacking for multi-topic classification ( http://arxiv.org/abs/2111.05808v1 )

ライセンス: Link先を確認
Lo\"ic Rakotoson, Charles Letaillieur, Sylvain Massip and Fr\'ejus Laleye(参考訳) 本稿では,Biocreative VIIにおけるCOVID-19文献アノテーションタスクについて述べる。 我々は,グローバルな非最適重みの知識を利用して,各ラベルの豊かな表現を構築するアプローチを提案した。 提案手法は,(1)弱訓練重みを特徴とするトレーニングデータの様々な初期化の詰め込み,(2)bert と roberta 組込みに基づく異種語彙モデルの積み重ね,の2段階からなる。 これらの弱い洞察の集約は、古典的なグローバル効率のモデルよりも優れている。 目的は、知識の豊かさをよりシンプルで軽いモデルに蒸留することである。 本システムは92.96のインスタンスベースのF1と91.35のラベルベースのマイクロF1を得る。

This paper describes our submission on the COVID-19 literature annotation task at Biocreative VII. We proposed an approach that exploits the knowledge of the globally non-optimal weights, usually rejected, to build a rich representation of each label. Our proposed approach consists of two stages: (1) A bagging of various initializations of the training data that features weakly trained weights, (2) A stacking of heterogeneous vocabulary models based on BERT and RoBERTa Embeddings. The aggregation of these weak insights performs better than a classical globally efficient model. The purpose is the distillation of the richness of knowledge to a simpler and lighter model. Our system obtains an Instance-based F1 of 92.96 and a Label-based micro-F1 of 91.35.
翻訳日:2021-11-11 14:05:34 公開日:2021-11-10
# 自動運転における状態空間と政策空間のための空間的かつシームレスな階層的強化学習

Spatially and Seamlessly Hierarchical Reinforcement Learning for State Space and Policy space in Autonomous Driving ( http://arxiv.org/abs/2111.05479v1 )

ライセンス: Link先を確認
Jaehyun Kim and Jaeseung Jeong(参考訳) 階層的強化学習の進歩にもかかわらず、高速道路での自動運転における経路計画への応用は困難である。 一つの理由は、従来の階層的強化学習アプローチは、そのリスクのために自律運転には適さないため、エージェントは予測不能な他のエージェントのような複数の障害を避ける必要があるため、安全領域は小さく、散在し、時間とともに変化しなければなりません。 この課題を克服するために,本稿では,状態空間と政策空間に対する空間階層的強化学習手法を提案する。 ハイレベル政策は、行動サブポリシーだけでなく、州の空間や政策空間の概要に心を配る地域も選択する。 その後、低レベルポリシーは、高レベルコマンドによって選択された領域の概要内でエージェントの短期的目標位置を詳述する。 提案手法で提案するネットワーク構造と最適化は, 単レベル手法と同じくらい簡潔である。 道路形状の異なる環境実験により,本手法は初期のエピソードからほぼ最適の方針を見いだし,特に狭く複雑な道路において,階層的強化学習手法のベースラインを上回った。 その結果、道路上の軌道は行動計画レベルでの人間の戦略と類似していた。

Despite advances in hierarchical reinforcement learning, its applications to path planning in autonomous driving on highways are challenging. One reason is that conventional hierarchical reinforcement learning approaches are not amenable to autonomous driving due to its riskiness: the agent must move avoiding multiple obstacles such as other agents that are highly unpredictable, thus safe regions are small, scattered, and changeable over time. To overcome this challenge, we propose a spatially hierarchical reinforcement learning method for state space and policy space. The high-level policy selects not only behavioral sub-policy but also regions to pay mind to in state space and for outline in policy space. Subsequently, the low-level policy elaborates the short-term goal position of the agent within the outline of the region selected by the high-level command. The network structure and optimization suggested in our method are as concise as those of single-level methods. Experiments on the environment with various shapes of roads showed that our method finds the nearly optimal policies from early episodes, outperforming a baseline hierarchical reinforcement learning method, especially in narrow and complex roads. The resulting trajectories on the roads were similar to those of human strategies on the behavioral planning level.
翻訳日:2021-11-11 14:05:09 公開日:2021-11-10
# LSP : グラフの局所感作によるグラフニューラルネットワークの高速化と正規化

LSP : Acceleration and Regularization of Graph Neural Networks via Locality Sensitive Pruning of Graphs ( http://arxiv.org/abs/2111.05694v1 )

ライセンス: Link先を確認
Eitan Kosman, Joel Oren and Dotan Di Castro(参考訳) グラフニューラルネットワーク(gnns)は、グラフ関連のタスクで非常に成功したツールとして登場した。 しかし、現実世界の問題は非常に大きなグラフを含み、これらの問題にGNNを適合させるために必要な計算資源は急速に増大する。 さらに、実世界のグラフのノイズの性質とサイズは、正規化されていない場合、GNNを過度に適合させる。 驚くべきことに、最近の研究によると、大きなグラフには多くの冗長なコンポーネントが含まれており、パフォーマンスを損なうことなく削除できる。 これには、GNNレイヤを介した推論中のノードやエッジの削除、あるいは入力グラフをスペーシングする前処理ステップが含まれる。 この興味深い現象は、効率的かつ正確な最先端のGNNの開発を可能にする。 本稿では,この現象の解明に向けてさらなる一歩を踏み出し,Locality-Sensitive Hashingに基づくグラフプルーニングのためのLocality-Sensitive Pruning (LSP) と呼ばれる体系的手法を提案する。 グラフをスパーシフィケートすることで、元のグラフの類似したローカル環境が、グラフ関連タスクに必須の機能であるスパーシフィケートグラフに類似した環境をもたらすようにする。 局所グラフ特性に基づくプルーニングの適用を正当化するため,様々なシナリオにおける他のプルーニング戦略に対する局所性特性に基づくプルーニングの適用の利点を実証する。 合成および実世界のデータセットに関する広範囲な実験により、lspは性能を損なうことなく大きなグラフからかなりの量のエッジを取り除き、相当な加速を伴う。

Graph Neural Networks (GNNs) have emerged as highly successful tools for graph-related tasks. However, real-world problems involve very large graphs, and the compute resources needed to fit GNNs to those problems grow rapidly. Moreover, the noisy nature and size of real-world graphs cause GNNs to over-fit if not regularized properly. Surprisingly, recent works show that large graphs often involve many redundant components that can be removed without compromising the performance too much. This includes node or edge removals during inference through GNNs layers or as a pre-processing step that sparsifies the input graph. This intriguing phenomenon enables the development of state-of-the-art GNNs that are both efficient and accurate. In this paper, we take a further step towards demystifying this phenomenon and propose a systematic method called Locality-Sensitive Pruning (LSP) for graph pruning based on Locality-Sensitive Hashing. We aim to sparsify a graph so that similar local environments of the original graph result in similar environments in the resulting sparsified graph, which is an essential feature for graph-related tasks. To justify the application of pruning based on local graph properties, we exemplify the advantage of applying pruning based on locality properties over other pruning strategies in various scenarios. Extensive experiments on synthetic and real-world datasets demonstrate the superiority of LSP, which removes a significant amount of edges from large graphs without compromising the performance, accompanied by a considerable acceleration.
翻訳日:2021-11-11 14:04:50 公開日:2021-11-10
# (参考訳) EEGEyeNet:眼球運動予測のための同時脳波と眼球追跡データセットとベンチマーク

EEGEyeNet: a Simultaneous Electroencephalography and Eye-tracking Dataset and Benchmark for Eye Movement Prediction ( http://arxiv.org/abs/2111.05100v2 )

ライセンス: CC BY 4.0
Ard Kastrati, Martyna Beata P{\l}omecka, Dami\'an Pascual, Lukas Wolf, Victor Gillioz, Roger Wattenhofer, Nicolas Langer(参考訳) 我々は,脳活動と眼球運動の交差に関する研究を進めるために,新しいデータセットとベンチマークを提示する。 脳波同時計測(EEG)と眼球追跡(ET)を3つの異なる実験パラダイムから収集した356名の被験者から作成した。 このデータセットを用いて脳波から視線予測を評価するベンチマークも提案する。 このベンチマークは、左、角度振幅、絶対位置という3つの課題から成り立っている。 このベンチマークでは、古典的機械学習モデルと大規模ニューラルネットワークの両方に基づいて、堅固なベースラインを提供するために、広範な実験を実施しています。 完全なコードとデータをリリースし、新しいメソッドを評価するためのシンプルで使いやすいインターフェースを提供します。

We present a new dataset and benchmark with the goal of advancing research in the intersection of brain activities and eye movements. Our dataset, EEGEyeNet, consists of simultaneous Electroencephalography (EEG) and Eye-tracking (ET) recordings from 356 different subjects collected from three different experimental paradigms. Using this dataset, we also propose a benchmark to evaluate gaze prediction from EEG measurements. The benchmark consists of three tasks with an increasing level of difficulty: left-right, angle-amplitude and absolute position. We run extensive experiments on this benchmark in order to provide solid baselines, both based on classical machine learning models and on large neural networks. We release our complete code and data and provide a simple and easy-to-use interface to evaluate new methods.
翻訳日:2021-11-11 14:02:23 公開日:2021-11-10
# (参考訳) 英語論文における言語間共用: 有病率, 使用状況, 影響の大規模分析

Cross-Lingual Citations in English Papers: A Large-Scale Analysis of Prevalence, Usage, and Impact ( http://arxiv.org/abs/2111.05097v2 )

ライセンス: CC BY 4.0
Tarek Saier, Michael F\"arber, Tornike Tsereteli(参考訳) 学術データにおける引用情報は、出版物の受容と学術談話に関する重要な洞察源である。 引用分析の結果と引用ベースの機械学習手法の適用性は、データの完全性に大きく依存する。 学術データの特に欠点の1つは、英語以外の出版物がデータセットに含まれないことや、言語メタデータが利用できないことである。 このため、異なる言語(言語間の引用)の出版物間の引用は、非常に限られた程度にしか研究されていない。 本稿では,100万以上の英文論文に基づく言語間引用の分析を行い,3つの科学的分野と30年間の時間について述べる。 本調査では,引用言語と規律の違い,時間的傾向,使用特性,言語間引用の影響について検討した。 以上の結果から,中国語で書かれた出版物に対する引用率の上昇,現地の非英語言語への引用率,言語間および単言語による引用意図の一貫性が確認された。 さらなる研究を容易にするため,収集したデータとソースコードを公開している。

Citation information in scholarly data is an important source of insight into the reception of publications and the scholarly discourse. Outcomes of citation analyses and the applicability of citation based machine learning approaches heavily depend on the completeness of such data. One particular shortcoming of scholarly data nowadays is that non-English publications are often not included in data sets, or that language metadata is not available. Because of this, citations between publications of differing languages (cross-lingual citations) have only been studied to a very limited degree. In this paper, we present an analysis of cross-lingual citations based on over one million English papers, spanning three scientific disciplines and a time span of three decades. Our investigation covers differences between cited languages and disciplines, trends over time, and the usage characteristics as well as impact of cross-lingual citations. Among our findings are an increasing rate of citations to publications written in Chinese, citations being primarily to local non-English languages, and consistency in citation intent between cross- and monolingual citations. To facilitate further research, we make our collected data and source code publicly available.
翻訳日:2021-11-11 13:34:02 公開日:2021-11-10
# (参考訳) トポロジカルデータ解析に基づく分類器

A Topological Data Analysis Based Classifier ( http://arxiv.org/abs/2111.05214v2 )

ライセンス: CC BY 4.0
Rolando Kindelan and Jos\'e Fr\'ias and Mauricio Cerda and Nancy Hitschfeld(参考訳) トポロジカルデータ分析(TDA)は、データセットに隠されたトポロジカル情報を見つけることを目的とした創発的な分野である。 TDAツールは一般的に、機械学習(ML)メソッドを改善するためにフィルタやトポロジカル記述子を作成するために使われてきた。 本稿では,TDAをMLステージに含まないマルチクラス分類問題に直接適用し,不均衡なデータセットの利点を示すアルゴリズムを提案する。 提案アルゴリズムは,データセット上にフィルタされた単純複合体を構築する。 Persistent Homology (PH) は、ラベルのない点がラベル付き隣り合う点から過半数の票でラベルを得る部分複素の選択を導くために用いられる。 異なる次元のデータセット、クラス重複度、クラスごとの不均衡サンプルを8つ選択した。 提案手法は平均してKNNと重み付きKNNよりも優れていた。 バランスの取れたデータセットでは、ローカルSVMやランダムフォレスト(Random Forest)のベースライン分類器と競合し、絡み合ったクラスとマイノリティクラスを分類するすべてのベースラインメソッドを上回っている。

Topological Data Analysis (TDA) is an emergent field that aims to discover topological information hidden in a dataset. TDA tools have been commonly used to create filters and topological descriptors to improve Machine Learning (ML) methods. This paper proposes an algorithm that applies TDA directly to multi-class classification problems, without any further ML stage, showing advantages for imbalanced datasets. The proposed algorithm builds a filtered simplicial complex on the dataset. Persistent Homology (PH) is applied to guide the selection of a sub-complex where unlabeled points obtain the label with the majority of votes from labeled neighboring points. We select 8 datasets with different dimensions, degrees of class overlap and imbalanced samples per class. On average, the proposed TDABC method was better than KNN and weighted-KNN. It behaves competitively with Local SVM and Random Forest baseline classifiers in balanced datasets, and it outperforms all baseline methods classifying entangled and minority classes.
翻訳日:2021-11-11 12:59:26 公開日:2021-11-10
# TAGLETS:補助データを用いた半教師付き自動学習システム

TAGLETS: A System for Automatic Semi-Supervised Learning with Auxiliary Data ( http://arxiv.org/abs/2111.04798v2 )

ライセンス: Link先を確認
Wasu Piriyakulkij and Cristina Menghini and Ross Briden and Nihal V. Nayak and Jeffrey Zhu and Elaheh Raisi and Stephen H. Bach(参考訳) マシンラーニングの実践者は、ターゲットタスク(しばしば制限されている)のラベル付きデータ、ラベルなしデータ、その他のタスクのラベル付きデータセットなど、さまざまなデータにアクセスすることができる。 3種類のデータを自動的に活用し、高品質で可読な分類器を作成するための技術を学ぶためのシステムであるtagletsについて述べる。 TAGLETSの主な構成要素は、(1)知識グラフに基づいて整理された補助データ、(2)補助的および未ラベルのデータを利用する異なる手法をカプセル化したモジュール、(3)アンサンブルされたモジュールを可観測モデルに結合する蒸留段階である。 4つの画像分類タスクにおいて,TAGLETSと最先端の伝達学習および半教師付き学習手法を比較した。 本研究は,対象タスクに対するラベル付きデータの量や補助データの意味的関連性など,さまざまな設定をカバーする。 補助的および未ラベルのデータを複数の学習手法にインテリジェントに組み込むことで、TAGLETSはマッチし、最も多くはそれを超える代替手段となる。 TAGLETSはgithub.com/BatsResearch/tagletsのオープンソースシステムとして利用可能である。

Machine learning practitioners often have access to a spectrum of data: labeled data for the target task (which is often limited), unlabeled data, and auxiliary data, the many available labeled datasets for other tasks. We describe TAGLETS, a system built to study techniques for automatically exploiting all three types of data and creating high-quality, servable classifiers. The key components of TAGLETS are: (1) auxiliary data organized according to a knowledge graph, (2) modules encapsulating different methods for exploiting auxiliary and unlabeled data, and (3) a distillation stage in which the ensembled modules are combined into a servable model. We compare TAGLETS with state-of-the-art transfer learning and semi-supervised learning methods on four image classification tasks. Our study covers a range of settings, varying the amount of labeled data and the semantic relatedness of the auxiliary data to the target task. We find that the intelligent incorporation of auxiliary and unlabeled data into multiple learning techniques enables TAGLETS to match-and most often significantly surpass-these alternatives. TAGLETS is available as an open-source system at github.com/BatsResearch/taglets.
翻訳日:2021-11-11 12:45:59 公開日:2021-11-10
# (参考訳) 留意点とマルチスケール特徴融合を用いた手術器具のリアルタイムインスタンス分割

Real-time Instance Segmentation of Surgical Instruments using Attention and Multi-scale Feature Fusion ( http://arxiv.org/abs/2111.04911v2 )

ライセンス: CC BY 4.0
Juan Carlos Angeles-Ceron, Gilberto Ochoa-Ruiz, Leonardo Chang, Sharib Ali(参考訳) 精密機器のセグメンテーションは、外科医がより容易に体をナビゲートし、患者の安全を高めるのに役立つ。 手術器具のリアルタイム正確な追跡は, 最小侵襲型コンピュータ支援手術において重要な役割を担っているが, 主に課題である。 1)複雑な手術環境,及び 2)最適精度と速度の両立したモデル設計。 ディープラーニングは、大規模な手術シーン環境から複雑な環境を学ぶ機会を与え、これらの機器を現実世界のシナリオで配置する。 Robust Medical Instrument Segmentation 2019 Challenge (ROBUST-MIS)は、1万フレーム以上の手術器具を異なる臨床環境で提供する。 本稿では,畳み込みブロックアテンションモジュールを補完する軽量単段インスタンスセグメンテーションモデルを用いて,高速かつ高精度な推論を実現する。 データ拡張と最適なアンカーローカライゼーション戦略により、精度をさらに向上する。 私たちの知る限り、これはリアルタイムパフォーマンスと精度向上の両方に明示的に焦点をあてた最初の作業です。 ROBUST-MISチャレンジでは,地域単位のMI_DSCと距離単位のMI_NSDを44%以上改善した。 また、最終アプローチの異なるが競合的なバリエーションでリアルタイムパフォーマンス(60フレーム/秒)を実演しています。

Precise instrument segmentation aid surgeons to navigate the body more easily and increase patient safety. While accurate tracking of surgical instruments in real-time plays a crucial role in minimally invasive computer-assisted surgeries, it is a challenging task to achieve, mainly due to 1) complex surgical environment, and 2) model design with both optimal accuracy and speed. Deep learning gives us the opportunity to learn complex environment from large surgery scene environments and placements of these instruments in real world scenarios. The Robust Medical Instrument Segmentation 2019 challenge (ROBUST-MIS) provides more than 10,000 frames with surgical tools in different clinical settings. In this paper, we use a light-weight single stage instance segmentation model complemented with a convolutional block attention module for achieving both faster and accurate inference. We further improve accuracy through data augmentation and optimal anchor localisation strategies. To our knowledge, this is the first work that explicitly focuses on both real-time performance and improved accuracy. Our approach out-performed top team performances in the ROBUST-MIS challenge with over 44% improvement on both area-based metric MI_DSC and distance-based metric MI_NSD. We also demonstrate real-time performance (> 60 frames-per-second) with different but competitive variants of our final approach.
翻訳日:2021-11-11 12:45:09 公開日:2021-11-10
# グリーン深層学習に関する調査研究

A Survey on Green Deep Learning ( http://arxiv.org/abs/2111.05193v2 )

ライセンス: Link先を確認
Jingjing Xu, Wangchunshu Zhou, Zhiyi Fu, Hao Zhou, Lei Li(参考訳) 近年では、自然言語処理(NLP)やコンピュータビジョン(CV)など、さまざまな分野において、大規模でより深いモデルが立ち上がり、SOTA(State-of-the-art)の結果を継続的に押し進めている。 しかし、有望な結果にもかかわらず、SOTAモデルに必要な計算が指数的に増加したことに注意する必要がある。 大規模な計算は驚くほど大きなカーボンフットプリントを持つだけでなく、研究の包括性や実世界のアプリケーションへのデプロイに悪影響を及ぼす。 グリーンディープラーニングはますますホットな研究分野であり、モデルトレーニングと推論の間、研究者はエネルギー使用量や二酸化炭素排出量に注意を払うように求めている。 目標は、軽量で効率的な技術で新しい結果を得ることだ。 モデル圧縮や知識蒸留など、多くの技術がこの目標を達成するために利用できる。 本稿では,グリーン深層学習技術の開発に関する体系的レビューについて述べる。 これらのアプローチは,(1)コンパクトネットワーク,(2)エネルギー効率のトレーニング戦略,(3)エネルギー効率の推論アプローチ,(4)データ利用率の4つのカテゴリに分類される。 それぞれのカテゴリについて,達成された進歩と未解決の課題について論じる。

In recent years, larger and deeper models are springing up and continuously pushing state-of-the-art (SOTA) results across various fields like natural language processing (NLP) and computer vision (CV). However, despite promising results, it needs to be noted that the computations required by SOTA models have been increased at an exponential rate. Massive computations not only have a surprisingly large carbon footprint but also have negative effects on research inclusiveness and deployment on real-world applications. Green deep learning is an increasingly hot research field that appeals to researchers to pay attention to energy usage and carbon emission during model training and inference. The target is to yield novel results with lightweight and efficient technologies. Many technologies can be used to achieve this goal, like model compression and knowledge distillation. This paper focuses on presenting a systematic review of the development of Green deep learning technologies. We classify these approaches into four categories: (1) compact networks, (2) energy-efficient training strategies, (3) energy-efficient inference approaches, and (4) efficient data usage. For each category, we discuss the progress that has been achieved and the unresolved challenges.
翻訳日:2021-11-11 12:06:04 公開日:2021-11-10
# 密集したメッシュ型局所画像特徴を有する単眼形状とポーズ

Monocular Human Shape and Pose with Dense Mesh-borne Local Image Features ( http://arxiv.org/abs/2111.05319v2 )

ライセンス: Link先を確認
Shubhendu Jena, Franck Multon, Adnane Boukhayma(参考訳) ピクセルアライメントによる局所画像特徴を用いた単眼入力による人物形状とポーズ推定のためのグラフ畳み込み手法の改良を提案する。 単一入力カラー画像が与えられた場合、既存のグラフ畳み込みネットワーク(GCN)ベースの人体形状とポーズ推定技術は、すべてのメッシュ頂点に等しく付加された単一の畳み込みニューラルネットワーク(CNN)によって生成されたグローバル画像特徴を用いて、GCNステージを初期化し、テンプレートTポーズメッシュをターゲットポーズに変換する。 対照的に,頂点ごとに局所的な画像特徴を用いるというアイデアを初めて提案する。 これらの特徴は、DensePoseで生成された画素間対応を利用して、CNN画像特徴マップからサンプリングされる。 標準ベンチマークにおける定量および定性的な結果から,局所的な特徴の利用はグローバルな特徴よりも改善され,最先端技術に対する競争性能が向上することが示された。

We propose to improve on graph convolution based approaches for human shape and pose estimation from monocular input, using pixel-aligned local image features. Given a single input color image, existing graph convolutional network (GCN) based techniques for human shape and pose estimation use a single convolutional neural network (CNN) generated global image feature appended to all mesh vertices equally to initialize the GCN stage, which transforms a template T-posed mesh into the target pose. In contrast, we propose for the first time the idea of using local image features per vertex. These features are sampled from the CNN image feature maps by utilizing pixel-to-mesh correspondences generated with DensePose. Our quantitative and qualitative results on standard benchmarks show that using local features improves on global ones and leads to competitive performances with respect to the state-of-the-art.
翻訳日:2021-11-11 12:05:40 公開日:2021-11-10
# コールドブリュー:不完全または欠損した近傍のグラフノード表現

Cold Brew: Distilling Graph Node Representations with Incomplete or Missing Neighborhoods ( http://arxiv.org/abs/2111.04840v2 )

ライセンス: Link先を確認
Wenqing Zheng, Edward W Huang, Nikhil Rao, Sumeet Katariya, Zhangyang Wang and Karthik Subbian(参考訳) グラフニューラルネットワーク(GNN)は、ノード分類、回帰、レコメンデーションタスクにおける技術パフォーマンスの状態を達成している。 高品質でリッチな接続構造が利用できる場合、GNNはうまく機能する。 しかし、ノードの次数がパワーロー分布を持つ多くの実世界グラフでは、多くのノードがより少ない、またはノイズの多い接続を持つため、この要件は満たされない。 この状況の極端な場合、ノードにはStrict Cold Start (SCS) シナリオと呼ばれる隣人がまったく存在しない可能性がある。 これにより、予測モデルはノードの入力機能に完全に依存することになります。 本研究では,scsと隣接環境のノイズに対応するコールドブリューについて,蒸留法を用いてポイントワイズや他のグラフモデルと比較検討する。 本稿では,SCS問題を解くための誘導型GNNの有効性と,SCSの一般化に最適なアーキテクチャを選択するための指標であるFCR(Feature-Contribution ratio)を紹介する。 FCRはグラフデータセットの様々なコンポーネントのコントリビューションを阻害し、いくつかの公開ベンチマークとプロプライエタリなeコマースデータセットにおいてCold Brewの優れたパフォーマンスを示す。 私たちのアプローチのソースコードは、https://github.com/amazon-research/gnn-tail-generalizationで入手できます。

Graph Neural Networks (GNNs) have achieved state of the art performance in node classification, regression, and recommendation tasks. GNNs work well when high-quality and rich connectivity structure is available. However, this requirement is not satisfied in many real world graphs where the node degrees have power-law distributions as many nodes have either fewer or noisy connections. The extreme case of this situation is a node may have no neighbors at all, called Strict Cold Start (SCS) scenario. This forces the prediction models to rely completely on the node's input features. We propose Cold Brew to address the SCS and noisy neighbor setting compared to pointwise and other graph-based models via a distillation approach. We introduce feature-contribution ratio (FCR), a metric to study the viability of using inductive GNNs to solve the SCS problem and to select the best architecture for SCS generalization. We experimentally show FCR disentangles the contributions of various components of graph datasets and demonstrate the superior performance of Cold Brew on several public benchmarks and proprietary e-commerce datasets. The source code for our approach is available at: https://github.com/amazon-research/gnn-tail-generalization.
翻訳日:2021-11-11 12:05:20 公開日:2021-11-10
# 形式的手法による強化学習アルゴリズムの安全性の評価

On Assessing The Safety of Reinforcement Learning algorithms Using Formal Methods ( http://arxiv.org/abs/2111.04865v2 )

ライセンス: Link先を確認
Paulina Stevia Nouwou Mindom and Amin Nikanjam and Foutse Khomh, and John Mullins(参考訳) 自動運転車、健康、航空といった安全クリティカルなシステム分野における強化学習の採用の増加は、安全性の確保の必要性を高めている。 adversarial training、adversarial detection、ロバスト学習といった既存の安全メカニズムは、エージェントがデプロイされるすべての障害に常に適応するとは限らない。 これらの混乱には、行動がエージェントによって予測不可能であり、実際にその学習に有害である移動敵が含まれる。 クリティカルシステムの安全性を確保するには、乱れた環境で進化するエージェントの振る舞いを形式的に保証する手法も必要となる。 したがって,エージェントが直面する学習課題に適応した新しいソリューションを提案する必要がある。 本稿ではまず,移動相手を提示することで,エージェントの方針に欠陥を示す敵エージェントを生成する。 第2に,報酬シェーピングと修正されたq学習アルゴリズムを防御機構として使用し,敵の摂動に対してエージェントの方針を改善する。 最後に、両方のメカニズムの有効性を評価するために確率論的モデル検査を用いる。 我々は,一つのエージェントが非学習と学習の敵と向き合うような離散的なグリッドワールドで実験を行った。 以上の結果から,エージェントと敵の衝突回数の減少が示唆された。 確率的モデルチェックは、敵環境におけるエージェントの安全性に関する低い確率的境界を提供する。

The increasing adoption of Reinforcement Learning in safety-critical systems domains such as autonomous vehicles, health, and aviation raises the need for ensuring their safety. Existing safety mechanisms such as adversarial training, adversarial detection, and robust learning are not always adapted to all disturbances in which the agent is deployed. Those disturbances include moving adversaries whose behavior can be unpredictable by the agent, and as a matter of fact harmful to its learning. Ensuring the safety of critical systems also requires methods that give formal guarantees on the behaviour of the agent evolving in a perturbed environment. It is therefore necessary to propose new solutions adapted to the learning challenges faced by the agent. In this paper, first we generate adversarial agents that exhibit flaws in the agent's policy by presenting moving adversaries. Secondly, We use reward shaping and a modified Q-learning algorithm as defense mechanisms to improve the agent's policy when facing adversarial perturbations. Finally, probabilistic model checking is employed to evaluate the effectiveness of both mechanisms. We have conducted experiments on a discrete grid world with a single agent facing non-learning and learning adversaries. Our results show a diminution in the number of collisions between the agent and the adversaries. Probabilistic model checking provides lower and upper probabilistic bounds regarding the agent's safety in the adversarial environment.
翻訳日:2021-11-11 12:05:00 公開日:2021-11-10