このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201229となっている論文です。

PDF登録状況(公開日: 20201229)

TitleAuthorsAbstract論文公表日・翻訳日
# シリコン量子ドットにおけるコヒーレント電子遮断のシミュレーション

Simulated coherent electron shuttling in silicon quantum dots ( http://arxiv.org/abs/2003.08018v3 )

ライセンス: Link先を確認
Brandon Buonacorsi, Benjamin Shaw and Jonathan Baugh(参考訳) ゲート定義シリコン量子ドットにおける単一電子のシャットリングを数値シミュレーションする。 明示的なトンネルバリアゲートのない最小ゲート形状を導入し、集積モード量子ドットの連鎖を定義するために、それぞれ1つのゲート電圧で制御される。 一次元ポテンシャルは3次元静電モデルから導出され、効率的なシミュレーションのための効果的なハミルトニアンを構築するために用いられる。 制御パルスシーケンスは、固定された断熱性を維持することで設計され、異なるシャットリング条件を体系的に比較することができる。 まず、これらのツールを使用して、軌道状態と谷やスピンの自由度のみを考慮して、デバイス幾何を最大輸送速度に最適化する。 現実的な幾何学的制約を考慮すると、チャージシャットリングの速度は$\sim$300 m/sで断熱性を保つ。 コヒーレントスピン輸送は、スピン軌道とバレー項を効果的にハミルトニアンに含め、一重項対の一員を閉じ、絡み合いの忠実さを追跡することでシミュレートされる。 現実的な装置と材料パラメータにより、トンネルエネルギーがゼーマンエネルギーを超えると、10〜100m/sの範囲で高いスピンエンタングルメントフィディティが得られる。 高忠実度はまた、トンネルとゼーマンエネルギーの比で決定される閾値を下回ることを要求するため、スピンバルブと軌道の混合が弱い。 この状態において、不忠実性の主要な源は、原理的に修正可能なコヒーレントスピン回転である。 結果は、スピンのコヒーレントシャットリングに依存して計算ノード間で量子情報を迅速に分散する、等方的に精製されたシリコンにおける大規模スピン量子ビットプロセッサの提案に関連している。

Shuttling of single electrons in gate-defined silicon quantum dots is numerically simulated. A minimal gate geometry without explicit tunnel barrier gates is introduced, and used to define a chain of accumulation mode quantum dots, each controlled by a single gate voltage. One-dimensional potentials are derived from a three-dimensional electrostatic model, and used to construct an effective Hamiltonian for efficient simulation. Control pulse sequences are designed by maintaining a fixed adiabaticity, so that different shuttling conditions can be systematically compared. We first use these tools to optimize the device geometry for maximum transport velocity, considering only orbital states and neglecting valley and spin degrees of freedom. Taking realistic geometrical constraints into account, charge shuttling speeds up to $\sim$300 m/s preserve adiabaticity. Coherent spin transport is simulated by including spin-orbit and valley terms in an effective Hamiltonian, shuttling one member of a singlet pair and tracking the entanglement fidelity. With realistic device and material parameters, shuttle speeds in the range 10-100 m/s with high spin entanglement fidelities are obtained when the tunneling energy exceeds the Zeeman energy. High fidelity also requires the inter-dot valley phase difference to be below a threshold determined by the ratio of tunneling and Zeeman energies, so that spin-valley-orbit mixing is weak. In this regime, we find that the primary source of infidelity is a coherent spin rotation that is correctable, in principle. The results pertain to proposals for large-scale spin qubit processors in isotopically purified silicon that rely on coherent shuttling of spins to rapidly distribute quantum information between computational nodes.
翻訳日:2023-05-28 20:23:39 公開日:2020-12-29
# 完全可解系の新しいクラスにおけるSWKB条件の数値的研究

Numerical study of the SWKB condition of novel classes of exactly solvable systems ( http://arxiv.org/abs/2004.04927v2 )

ライセンス: Link先を確認
Yuta Nasuda and Nobuyuki Sawado(参考訳) 超対称 WKB (SWKB) 条件は、形状の不変性を持つ、正確に解ける量子力学系の全てに対して正確である。 Recently, it was claimed that the SWKB condition was not exact for the extended radial oscillator, whose eigenfunctions consisted of the the exceptional orthogonal polynomial, even the system possesses the shapeinvariance.In this paper, we examine the SWKB condition for the two novel classes of exactly solvable systems: one has the multi-indexed Laguerre and Jacobi polynomials as the main parts of the eigenfunctions, and the other has the Krein--Adler Hermite, Laguerre and Jacobipolynomials.For all of them, one can always remove the $\hbar$-dependency from the condition, and it is satisfied with a certain degree of accuracy.

The supersymmetric WKB (SWKB) condition is supposed to be exact for all known exactly solvable quantum mechanical systems with the shape invariance. Recently, it was claimed that the SWKB condition was not exact for the extended radial oscillator, whose eigenfunctions consisted of the the exceptional orthogonal polynomial, even the system possesses the shapeinvariance.In this paper, we examine the SWKB condition for the two novel classes of exactly solvable systems: one has the multi-indexed Laguerre and Jacobi polynomials as the main parts of the eigenfunctions, and the other has the Krein--Adler Hermite, Laguerre and Jacobipolynomials.For all of them, one can always remove the $\hbar$-dependency from the condition, and it is satisfied with a certain degree of accuracy.
翻訳日:2023-05-25 06:25:23 公開日:2020-12-29
# 量子トンネルにおける散逸ベリー相効果

Dissipative Berry phase effect in quantum tunneling ( http://arxiv.org/abs/2004.08986v2 )

ライセンス: Link先を確認
Xiao-Xiao Zhang and Naoto Nagaosa(参考訳) ベリー相効果は多くのメソスケール凝縮物質や量子化学系において中心的な役割を果たす。 単極あるいは円錐ポテンシャル交叉付近の量子コヒーレントトンネルモデルを提案し, 散逸と位相的非自明なベリー相効果の相互作用を考察した。 非摂動的散逸とベリー相を一貫して含む対称性解析と正確な数値解を併用したインスタントンアプローチを採用する。 ベリー位相効果を持つ新しい消散的量子干渉現象を明らかにした。 このトンネルの位相図は、クラーマースの縮退性、散逸への非単調な依存、および量子干渉の一般的な散逸駆動相転移を示し、その前には、非伝統的な散逸による量子トンネルの体制が持続する。

Berry phase effect plays a central role in many mesoscale condensed matter and quantum chemical systems that are naturally under the environmental influence of dissipation. We propose and microscopically derive a prototypical quantum coherent tunneling model around a monopole or conical potential intersection in order to address the intriguing but overlooked interplay between dissipation and topologically nontrivial Berry phase effect. We adopt the instanton approach with both symmetry analysis and accurate numerical solutions that consistently incorporate nonperturbative dissipation and Berry phase. It reveals a novel dissipative quantum interference phenomenon with Berry phase effect. The phase diagram of this tunneling exhibits Kramers degeneracy, nonmonotonic dependence on dissipation and a generic dissipation-driven phase transition of quantum interference, before which an unconventional dissipation-enhanced regime of quantum tunneling persists.
翻訳日:2023-05-23 00:49:42 公開日:2020-12-29
# 非エルミート系におけるベリー接続誘起異常波束ダイナミクス

Berry connection induced anomalous wave-packet dynamics in non-Hermitian systems ( http://arxiv.org/abs/2004.13746v3 )

ライセンス: Link先を確認
Navot Silberstein, Jan Behrends, Moshe Goldstein, Roni Ilan(参考訳) ベリー相は結晶材料の特性に強く影響を与え、波-パック力学を支配する半古典的運動方程式の修正を引き起こす。 非エルミート系では、ベリー接続の一般化はこれらのシステムのトポロジーを特徴づけるために解析されている。 非エルミート系のトポロジカル分類が開発されているが、新しい幾何学的位相が力学や輸送に与える影響にはほとんど注目されていない。 本研究では,非エルミートハミルトニアン系における波動・パック力学に対する半古典的運動方程式の完全集合を導出し,ベリー接続による補正を含む。 非ハーミティシティは1次元系にすでに存在する異常な重量率と速度項で表され、エルミティアンの場合と顕著に区別されている。 左固有状態と右固有状態の空間で定義されたベリー接続を用いて異常な重量と速度を表現し,解析結果を数値格子シミュレーションと比較する。 本研究は,準古典力学に対する異常な寄与を観察するための条件を規定し,その結果,現在利用可能なメタマテリアルにすぐに到達できる実験的な検出への道を開く。

Berry phases strongly affect the properties of crystalline materials, giving rise to modifications of the semiclassical equations of motion that govern wave-packet dynamics. In non-Hermitian systems, generalizations of the Berry connection have been analyzed to characterize the topology of these systems. While the topological classification of non-Hermitian systems is being developed, little attention has been paid to the impact of the new geometric phases on dynamics and transport. In this work, we derive the full set of semiclassical equations of motion for wave-packet dynamics in a system governed by a non-Hermitian Hamiltonian, including corrections induced by the Berry connection. We show that non-Hermiticity is manifested in anomalous weight rate and velocity terms that are present already in one-dimensional systems, in marked distinction from the Hermitian case. We express the anomalous weight and velocity in terms of the Berry connections defined in the space of left and right eigenstates and compare the analytical results with numerical lattice simulations. Our work specifies the conditions for observing the anomalous contributions to the semiclassical dynamics and thereby paves the way to their experimental detection, which should be within immediate reach in currently available metamaterials.
翻訳日:2023-05-21 21:44:07 公開日:2020-12-29
# 量子LDPCコードランドスケープ全体のデコード

Decoding Across the Quantum LDPC Code Landscape ( http://arxiv.org/abs/2005.07016v2 )

ライセンス: Link先を確認
Joschka Roffe, David R. White, Simon Burton, Earl T. Campbell(参考訳) 本稿では,超グラフ生成物から構築した量子低密度パリティチェック符号の一般的なデコーダとして,順序付き統計処理と組み合わせた信念伝搬法を示す。 この目的のために、我々は、トポロジコード、固定レートランダムコード、およびセミトポロジコードと呼ばれる新しい種類の符号の3種類のハイパーグラフ製品コードに適用されたデコーダの数値シミュレーションを実行する。 我々の新しいコードファミリーは、トポロジカルおよびランダムなハイパーグラフ製品コードの両方の特性を共有しており、コードしきい値と安定化器の局所性の間の微調整されたトレードオフを可能にする構造である。 結果から,ハイパーグラフ製品コードの3つのファミリーにまたがるしきい値を示し,低エラー領域における指数関数的抑制の証拠を提供する。 Toricのコードについては、9.9\pm0.2\%$の範囲でしきい値を観察します。 この結果は、信念の伝播に基づく従来の量子デコーダを改善し、最小ウェイト完全マッチングアルゴリズムの性能にアプローチする。 我々は,半位相符号がトーリック符号と同一の閾値を持つことを期待し,この観測を裏付ける数値的証拠を提示する。

We show that belief propagation combined with ordered statistics post-processing is a general decoder for quantum low density parity check codes constructed from the hypergraph product. To this end, we run numerical simulations of the decoder applied to three families of hypergraph product code: topological codes, fixed-rate random codes and a new class of codes that we call semi-topological codes. Our new code families share properties of both topological and random hypergraph product codes, with a construction that allows for a finely-controlled trade-off between code threshold and stabilizer locality. Our results indicate thresholds across all three families of hypergraph product code, and provide evidence of exponential suppression in the low error regime. For the Toric code, we observe a threshold in the range $9.9\pm0.2\%$. This result improves upon previous quantum decoders based on belief propagation, and approaches the performance of the minimum weight perfect matching algorithm. We expect semi-topological codes to have the same threshold as Toric codes, as they are identical in the bulk, and we present numerical evidence supporting this observation.
翻訳日:2023-05-20 05:31:15 公開日:2020-12-29
# ダークエネルギーの幾何学的起源

The Geometrical Origin of Dark Energy ( http://arxiv.org/abs/2006.11935v3 )

ライセンス: Link先を確認
Alon E. Faraggi and Marco Matone(参考訳) 量子ハミルトン・ヤコビ理論の幾何学的定式化は、量子ポテンシャルが自明でないことを示し、固有エネルギーの r\^ole を作用させる。 そのような鍵となる性質は、ダークエネルギーの自然候補としてホイーラー・デウィット(WDW)量子ポテンシャル$Q[g_{jk}]$を選択する。 これにより、WDW Hamilton-Jacobi方程式は消滅する運動論的項を持ち、$$ \Lambda=-\frac{\kappa^2}{\sqrt{\bar g}}Q[g_{jk}] \ となる。 $$ これは、宇宙定数がアインシュタインテンソルの量子的補正であり、トーマス・フェルミ理論の運動項に対するフォン・ヴァイツの「アッカー補正」を思い起こさせることを示している。 量子ポテンシャルはまたマデルング圧力テンソルを定義する。 厳密な非摂動現象である真空エネルギー密度の幾何学的起源は、重力凝縮による強い証拠である。 正則化wdw方程式の時間独立性は、プランク長とハッブル半径の比が時間定数であり、赤外線と紫外線の双対性をもたらすことを示唆している。 そのような双対性は、定数曲率に対する局所的および大域的幾何定理と関連していると推測し、宇宙幾何学の理解は量子重力の定式化に不可欠であることを示す。

The geometrical formulation of the quantum Hamilton-Jacobi theory shows that the quantum potential is never trivial, so that it plays the r\^ole of intrinsic energy. Such a key property selects the Wheeler-DeWitt (WDW) quantum potential $Q[g_{jk}]$ as the natural candidate for the dark energy. This leads to the WDW Hamilton-Jacobi equation with a vanishing kinetic term, and with the identification $$ \Lambda=-\frac{\kappa^2}{\sqrt{\bar g}}Q[g_{jk}] \ . $$ This shows that the cosmological constant is a quantum correction of the Einstein tensor, reminiscent of the von Weizs\"acker correction to the kinetic term of the Thomas-Fermi theory. The quantum potential also defines the Madelung pressure tensor. The geometrical origin of the vacuum energy density, a strictly non-perturbative phenomenon, provides strong evidence that it is due to a graviton condensate. Time independence of the regularized WDW equation suggests that the ratio between the Planck length and the Hubble radius may be a time constant, providing an infrared/ultraviolet duality. We speculate that such a duality is related to the local to global geometry theorems for constant curvatures, showing that understanding the universe geometry is crucial for a formulation of Quantum Gravity.
翻訳日:2023-05-13 05:29:19 公開日:2020-12-29
# N$2$の非共鳴一色二光子イオン化における双極子禁止自己イオン化共鳴の役割

The role of dipole-forbidden autoionizing resonances in non-resonant one-color two-photon single ionization of N$_2$ ( http://arxiv.org/abs/2009.08669v2 )

ライセンス: Link先を確認
Kirk A. Larsen, Roger Y. Bello, Robert R. Lucchese, Thomas N. Rescigno, C. William McCurdy, Daniel S. Slaughter, Thorsten Weber(参考訳) 本研究では、中性n$_2$分子の非共鳴1色2光子単価イオン化の光電離ダイナミクスに関する実験的、理論的エネルギーおよび角度分解研究を行う。 高調波発生による9.3eV光子と3次元運動量イメージング分光計を用いて、一色二光子イオン化による光電子とイオンを偶然に検出する。 n$_2$ の光イオン化は x $^2\sigma^+_g$, a $^2\pi_u$, b $^2\sigma^+_u$ イオン状態が n$_2^+$ となり、ここでは x $^2\sigma^+_g$ と $^2\pi_u$ の光電子角分布は、いずれも数百 mev の光電子運動エネルギーの変化とともに変化する。 光電子角分布の急速な進化は、ホップフィールド級数に属する一連の異なる対称性に属する双極子-forbidden自己イオン化共鳴の励起と減衰を特徴とし、直接2光子単イオン化と競合する。

We present an experimental and theoretical energy- and angle-resolved study on the photoionization dynamics of non-resonant one-color two-photon single valence ionization of neutral N$_2$ molecules. Using 9.3 eV photons produced via high harmonic generation and a 3-D momentum imaging spectrometer, we detect the photoelectrons and ions produced from one-color two-photon ionization in coincidence. Photoionization of N$_2$ populates the X $^2\Sigma^+_g$, A $^2\Pi_u$, and B $^2\Sigma^+_u$ ionic states of N$_2^+$, where the photoelectron angular distributions associated with the X $^2\Sigma^+_g$ and A $^2\Pi_u$ states both vary with changes in photoelectron kinetic energy of only a few hundred meV. We attribute the rapid evolution in the photoelectron angular distributions to the excitation and decay of dipole-forbidden autoionizing resonances that belong to series of different symmetries, all of which are members of the Hopfield series, and compete with the direct two-photon single ionization.
翻訳日:2023-05-01 22:15:45 公開日:2020-12-29
# 加熱するか否か--クリーンフロケット系における時間結晶性と有限サイズ効果

To heat or not to heat: time crystallinity and finite-size effects in clean Floquet systems ( http://arxiv.org/abs/2009.13527v3 )

ライセンス: Link先を確認
Andrea Pizzi, Daniel Malz, Giuseppe De Tomasi, Johannes Knolle, and Andreas Nunnenkamp(参考訳) 離散時間結晶に関するほとんどの文献が頼りにしてきた基礎的な仮定は、同質のフロケ系が通常、特徴のない無限の温度状態に熱するということである。 しかしながら、時間結晶性の標準的な診断は、障害のないクリーンな設定に等しく適していることを示す研究もある。 この事実は、当初期待されていた加熱を回避できる均質な離散時間結晶が存在するかどうかという疑問を提起する。 近距離相互作用を持つ局所化モデルと均質モデルの両方について検討し,この2つのケース間の重要な違いを明確に示す。 一方,熱力学的限界と局所化された離散時間結晶とは対照的に,均質な系は熱であることを確認した。 一方, 量子スカーを再現する機構により, 有限サイズの均質系は時間結晶性の非常に鮮明なシグネチャを示すことが示されている。 サブハーモニック応答は、積分可能性破壊項によって設定されたものよりもはるかに大きい時間スケールで持続することができ、熱化は非常に大きなシステムサイズ(例えば数百のスピン)でしか起こらない可能性がある。 無秩序系における加熱の出現を解明するだけでなく、非自明な非平衡物理学の実験的実装の第一候補として、有限サイズの等質系にスポットライトを当てた。

A cornerstone assumption that most literature on discrete time crystals has relied on is that homogeneous Floquet systems generally heat to a featureless infinite temperature state, an expectation that motivated researchers in the field to mostly focus on many-body localized systems. Some works have however shown that the standard diagnostics for time crystallinity apply equally well to clean settings without disorder. This fact raises the question whether an homogeneous discrete time crystal is possible in which the originally expected heating is evaded. Studying both a localized and an homogeneous model with short-range interactions, we clarify this issue showing explicitly the key differences between the two cases. On the one hand, our careful scaling analysis confirms that, in the thermodynamic limit and in contrast to localized discrete time crystals, homogeneous systems indeed heat. On the other hand, we show that, thanks to a mechanism reminiscent of quantum scars, finite-size homogeneous systems can still exhibit very crisp signatures of time crystallinity. A subharmonic response can in fact persist over timescales that are much larger than those set by the integrability-breaking terms, with thermalization possibly occurring only at very large system sizes (e.g., of hundreds of spins). Beyond clarifying the emergence of heating in disorder-free systems, our work casts a spotlight on finite-size homogeneous systems as prime candidates for the experimental implementation of nontrivial out-of-equilibrium physics.
翻訳日:2023-04-30 18:31:09 公開日:2020-12-29
# 共振4波混合に基づく高効率周波数変換

Efficient frequency conversion based on resonant four-wave mixing ( http://arxiv.org/abs/2012.08070v3 )

ライセンス: Link先を確認
Chin-Yao Cheng, Zi-Yu Liu, Pi-Sheng Hu, Tsai-Ni Wang, Chung-Yu Chien, Jia-Kang Lin, Jz-Yuan Juo, Jiun-Shiuan Shiu, Ite A. Yu, Ying-Cheng Chen, and Yong-Fan Chen(参考訳) 光子の効率的な周波数変換は光量子技術において重要な応用である。 近年,電磁誘導透過(EIT)に基づくFWM(Fouble-\Lambda$ Four-wave Mixing)プロセスを用いた効率の良い周波数変換システムが注目されている。 このような高CEを得るには、共鳴型FWM系の自然放出損失を著しく抑制する必要がある。 簡単な解決策は、応用されたレーザー場を後方配置に配置することである。 しかし、この構成による位相ミスマッチはCEを大幅に低下させる可能性がある。 本稿では、2光子デチューニングにより得られた位相シフトを導入することで位相ミスマッチを効果的に補償できることを示す。 最適条件下では、低温ルビジウム原子中の光学的深さ130の後方fwm系を用いて、最大ceが91.2(6)%の780nmから795nmの波長変換を観測する。 現在の研究は、低損失で高忠実なEITベースの量子周波数変換を実現するための重要なステップである。

Efficient frequency conversion of photons has important applications in optical quantum technology because the frequency range suitable for photon manipulation and communication usually varies widely. Recently, an efficient frequency conversion system using a double-$\Lambda$ four-wave mixing (FWM) process based on electromagnetically induced transparency (EIT) has attracted considerable attention because of its potential to achieve a nearly 100% conversion efficiency (CE). To obtain such a high CE, the spontaneous emission loss in this resonant-type FWM system must be suppressed considerably. A simple solution is to arrange the applied laser fields in a backward configuration. However, the phase mismatch due to this configuration can cause a significant decrease in CE. Here, we demonstrate that the phase mismatch can be effectively compensated by introducing the phase shift obtained by two-photon detuning. Under optimal conditions, we observe a wavelength conversion from 780 to 795 nm with a maximum CE of 91.2(6)% by using this backward FWM system at an optical depth of 130 in cold rubidium atoms. The current work represents an important step toward achieving low-loss, high-fidelity EIT-based quantum frequency conversion.
翻訳日:2023-04-20 19:13:59 公開日:2020-12-29
# ${}^2$D$_{5/2}$および${}^2$F$_{7/2}$ manifolds in ${}^{171}$Yb$^{+}$における電子シェルビングによるスケーラブル超微細量子状態検出

Scalable hyperfine qubit state detection via electron shelving in the ${}^2$D$_{5/2}$ and ${}^2$F$_{7/2}$ manifolds in ${}^{171}$Yb$^{+}$ ( http://arxiv.org/abs/2012.14606v1 )

ライセンス: Link先を確認
C. L. Edmunds, T. R. Tan, A. R. Milne, A. Singh, M. J. Biercuk, and C. Hempel(参考訳) 捕捉されたイオンの超微細な状態に符号化された量子ビットは、長い寿命と磁場に対する感度が低いため、量子計算には理想的であるが、検出時に非共鳴散乱に悩まされる。 ${}^{171}$Yb$^{+}$ では、これは低蛍光収率によって悪化し、特に量子ビットの数をスケールアップする際には、複雑で高価なハードウェアの問題的ボトルネックが必要になる。 我々は、この問題に対処するための電子シェルビングに基づく検出ルーチンを${}^{171}$Yb$^{+}$で示し、雪崩フォトダイオード上の単イオン検出誤差を$1.8(2)\times10^{-3}$で$5.6$\times$1.8(2)\times10^{-3}$で、電子乗算CCDカメラ上で$4.3$\times$エラーを$7(2)\times10^{-3}$で$400$\mu$で達成する。 さらに760nmでのリポンプ遷移のキャラクタリゼーションを改良し、シェルビング後の補助的な^2$f$_{7/2}$状態のリセットをより迅速に行えるようにした。 最後に、長い寿命の$^2$F$_{7/2}$状態を用いて検出忠実度限界を調べ、さらに300$\times$と12$\times$エラーを6(7);times10^{-6}$と6.3(3)\times10^{-4}$をそれぞれの検出器上で1msで達成した。 shelving-rateはセットアップで制限されているが、量子情報処理と互換性のある速度でこの検出方法を実現するための様々な手法を提案し、${}^{171}$yb$^{+}$で超高忠実度検出の経路を提供する。

Qubits encoded in hyperfine states of trapped ions are ideal for quantum computation given their long lifetimes and low sensitivity to magnetic fields, yet they suffer from off-resonant scattering during detection often limiting their measurement fidelity. In ${}^{171}$Yb$^{+}$ this is exacerbated by a low fluorescence yield, which leads to a need for complex and expensive hardware - a problematic bottleneck especially when scaling up the number of qubits. We demonstrate a detection routine based on electron shelving to address this issue in ${}^{171}$Yb$^{+}$ and achieve a 5.6$\times$ reduction in single-ion detection error on an avalanche photodiode to $1.8(2)\times10^{-3}$ in a 100 $\mu$s detection period, and a 4.3$\times$ error reduction on an electron multiplying CCD camera, with $7.7(2)\times10^{-3}$ error in 400 $\mu$s. We further improve the characterization of a repump transition at 760 nm to enable a more rapid reset of the auxiliary $^2$F$_{7/2}$ states populated after shelving. Finally, we examine the detection fidelity limit using the long-lived $^2$F$_{7/2}$ state, achieving a further 300$\times$ and 12$\times$ reduction in error to $6(7)\times10^{-6}$ and $6.3(3)\times10^{-4}$ in 1 ms on the respective detectors. While shelving-rate limited in our setup, we suggest various techniques to realize this detection method at speeds compatible with quantum information processing, providing a pathway to ultra-high fidelity detection in ${}^{171}$Yb$^{+}$.
翻訳日:2023-04-18 12:08:09 公開日:2020-12-29
# 非コヒーレント操作による状態の最大純コヒーレント部分空間の次元の増大

Increasing the dimension of the maximal pure coherent subspace of a state via incoherent operations ( http://arxiv.org/abs/2012.14604v1 )

ライセンス: Link先を確認
C. L. Liu and D. L. Zhou(参考訳) 自由操作の下での量子状態変換は、コヒーレンスの資源理論において中心的な役割を果たす。 本稿では,混合コヒーレント状態から純粋コヒーレント状態への変換を,非コヒーレント操作と確率的非コヒーレント操作の両方を用いて検討する。 厳密な非コヒーレント演算と確率的非コヒーレント演算とは対照的に、非コヒーレント演算と確率的非コヒーレント演算の両方が状態の最大純コヒーレント部分空間の次元を増加させることができることを示す。 これは、混合コヒーレント状態が純粋なコヒーレント状態に変換する場合、非コヒーレント操作は一般に厳密なコヒーレント操作よりも強いことを意味する。 また, 厳密な非コヒーレント操作下での特定のコヒーレンスモノトンに対する混合状態のコヒーレンスを高めるための非コヒーレント操作の能力の確認とも解釈できる。

Quantum states transformation under free operations plays a central role in the resource theory of coherence. In this paper, we investigate the transformation from a mixed coherent state into a pure one by using both incoherent operations and stochastic incoherent operations. We show that contrary to the strictly incoherent operations and the stochastic strictly incoherent operations, both the incoherent operations and the stochastic incoherent operations can increase the dimension of the maximal pure coherent subspace of a state. This means that the incoherent operations are generally stronger than the strictly incoherent operations when we want to transform a mixed coherent state into a pure coherent one. Our findings can also be interpreted as confirming the ability of incoherent operations to enhance the coherence of mixed states relative to certain coherence monotones under strictly incoherent operations.
翻訳日:2023-04-18 12:07:07 公開日:2020-12-29
# 市町村社会・経済発展管理における意思決定支援問題の形式的記述

Formal Statement of the Decision-making Support Problem in the Management of Municipal Social and Economic Development ( http://arxiv.org/abs/2012.14573v1 )

ライセンス: Link先を確認
Anatoly Sidorov, Maria Shishanina(参考訳) 本稿は,都市形成の社会的・経済的発展を管理する過程について述べる。 自治体レベルでの管理中に生じる特徴と重要な課題を強調する。 上記の課題の影響を最小限に抑えるために, 都市社会・経済発展を, 意味ネットワークをモデルとした半構造化システムとして考えることが提案されている。 その結果,対象指標との有効性と相関を判断するために,社会的・経済的発展を評価する指標の評価基準を作成する必要があると結論づけた。

This article deals with the process of managing the social and economic development of municipal formations. It highlights characteristics and key issues that arise during management at the municipal level. In order to minimize the impact of the described issues, it is suggested to consider municipal social and economic development as a semistructured system which is modelled using a semantic network. As a result, it is concluded that a rating of indicators for assessing social and economic development needs to be created in order to determine the effectiveness and correlation with the targeted indicators.
翻訳日:2023-04-18 12:06:48 公開日:2020-12-29
# 反パリティ時間対称拡散系における例外点におけるラビ振動

Rabi oscillations at the exceptional point in anti-parity-time symmetric diffusive systems ( http://arxiv.org/abs/2012.14571v1 )

ライセンス: Link先を確認
Gabriel Gonzalez(参考訳) この理論論文の動機は、反パリティ時間(APT)対称性を示す等角速度で反対方向に回転する2つの熱結合環の熱伝達系の最近の実験に端を発する。 理論モデルは、特定の回転速度の対称性破壊中に、静止から運動への温度分布相転移を予測した。 本研究では,非エルミート的ハミルトン炭の固有値と固有ベクトルが対応する例外点において,パリティ時間(\mathcal{PT}$)相転移を示すことを示す。 我々は、例外点における熱拡散系を解析的に解き、環の半径を変化させることで、破れていない相と壊れた相を分離する相転移を通過できることを示す。 unbroken $\mathcal{pt}$ 対称性の場合、温度プロファイルは例外点において減衰したラビ振動を示す。 本結果は, 熱拡散系の異常点における系の挙動を明らかにするものである。

The motivation for this theoretical paper comes from recent experiments of a heat transfer system of two thermally coupled rings rotating in opposite directions with equal angular velocities that present anti-parity-time (APT) symmetry. The theoretical model predicted a rest-to-motion temperature distribution phase transition during the symmetry breaking for a particular rotation speed. In this work we show that the system exhibits a parity-time ($\mathcal{PT}$) phase transition at the exceptional point in which eigenvalues and eigenvectors of the corresponding non-Hermitian Hamiltonian coalesce. We analytically solve the heat diffusive system at the exceptional point and show that one can pass through the phase transition that separates the unbroken and broken phases by changing the radii of the rings. In the case of unbroken $\mathcal{PT}$ symmetry the temperature profiles exhibit damped Rabi oscillations at the exceptional point. Our results unveils the behavior of the system at the exceptional point in heat diffusive systems.
翻訳日:2023-04-18 12:06:38 公開日:2020-12-29
# 有効大域的非一様相互作用を持つ原子-力学系におけるボース-アインシュタイン凝縮

Bose-Einstein condensates in an atom-optomechanical system with effective global non-uniform interaction ( http://arxiv.org/abs/2012.14570v1 )

ライセンス: Link先を確認
Jia-Ming Cheng, Zheng-Wei Zhou, Guang-Can Guo, Han Pu, and Xiang-Fa Zhou(参考訳) 光学キャビティ内の機械的膜とキャビティの外側に凝縮する原子ボース・アインシュタインからなるハイブリッド原子-力学系を考える。 凝縮物は、1つのキャビティミラーから反射される進行レーザビームによって形成される光学格子電位に閉じ込められる。 キャビティを介する有効原子-原子相互作用ポテンシャルを導出し, 原子間距離が増加するにつれて非均一で部位依存であり, 崩壊しないことがわかった。 この効果的な相互作用の存在は系のz$_2$対称性を損なうことを示し、新しい量子相と相転移を引き起こす。 長距離相互作用が支配されると、凝縮物は翻訳対称性を破り、空洞から遠く離れた部位の粒子密度が増加する新しい自己組織化格子状状態になる。 本稿では,系の位相図を示し,それぞれの励起スペクトルを計算し,異なる位相の安定性について検討する。 このシステムは、長距離相互作用によって引き起こされる様々な自己組織化現象を探索するためのプラットフォームとして機能する。

We consider a hybrid atom-optomechanical system consisting of a mechanical membrane inside an optical cavity and an atomic Bose-Einstein condensate outside the cavity. The condensate is confined in an optical lattice potential formed by a traveling laser beam reflected off one cavity mirror. We derive the cavity-mediated effective atom-atom interaction potential, and find that it is non-uniform, site-dependent, and does not decay as the interatomic distance increases. We show that the presence of this effective interaction breaks the Z$_2$ symmetry of the system and gives rise to new quantum phases and phase transitions. When the long-range interaction dominates, the condensate breaks the translation symmetry and turns into a novel self-organized lattice-like state with increasing particle densities for sites farther away from the cavity. We present the phase diagram of the system, and investigate the stabilities of different phases by calculating their respective excitation spectra. The system can serve as a platform to explore various self-organized phenomena induced by the long-range interactions.
翻訳日:2023-04-18 12:06:23 公開日:2020-12-29
# 空間計測デバイスに依存しない量子鍵分布の実現可能性

Feasibility of space-based measurement-device-independent quantum key distribution ( http://arxiv.org/abs/2012.14554v1 )

ライセンス: Link先を確認
Xingyu Wang, Chen Dong, Shanghong Zhao, Yong Liu, Xiaowen Liu, Haonan Zhu(参考訳) 測定デバイス非依存(MDI)QKDは、現在信頼できる衛星パラダイムを克服する代替品と考えられている。 しかし, 地上局と衛星間の高損失アップリンク, 2つの地上局が同時に視認できる期間, ベル状態計測(BSM)を行う際の2光子干渉の厳密な要件など, 宇宙ベースのMDI-QKDの実現可能性についてはまだ明らかでない。 本稿では,MDI-QKDのミシウス衛星による実現可能性評価について述べる。 軌道力学モデルと大気流路モデルを統合し, 軌道高, 高度角, トランシーバの開口, 大気乱流強度を含むパラメータ空間全体を探索し, キーレートを改善するための考察を行い, 空間ベースMDI-QKDの実装に関する関連するパラメータトレードオフを提供する。 さらに、MDI-QKDの心臓、周波数キャリブレーションやドップラーシフトに対する時間同期技術といった2光子干渉の考察、動的および非対称チャネルにおける強度最適化手法の実行方法について検討する。 我々の研究は、将来の量子通信衛星ミッションの選定に関わる決定を支援するパスファインダーとして使用できる。

The measurement-device-independent (MDI) QKD is considered to be an alternative to overcome the currently trusted satellite paradigm. However, the feasibility of the space-based MDI-QKD remains unclear in terms of the factors: the high-loss uplink between a ground station and a satellite, the limited duration when two ground stations are simultaneously visible, as well as the rigorous requirements for the two-photon interference when performing the Bell-state Measurement (BSM). In this paper, we present a feasibility assessment of space-based MDI-QKD based on the Micius satellite. Integrated with the orbital dynamics model and atmosphere channel model, a framework is presented to explore the whole parameters space including orbit height, elevation angle, apertures of transceiver and atmospheric turbulence intensity to give the considerations for improving key rates and subsequently provide a relevant parameter tradeoff for the implementation of space-based MDI-QKD. We further investigate the heart of MDI-QKD, the two-photon interference considerations such as the frequency calibration and time synchronization technology against Doppler shift, and the way of performing the intensity optimization method in the dynamic and asymmetric channels. Our work can be used as a pathfinder to support decisions involving as the selection of the future quantum communication satellite missions.
翻訳日:2023-04-18 12:05:54 公開日:2020-12-29
# 近代社会における詐欺 : 中国は世界とどう違うのか

Scams in modern societies: how does China differ from the world? ( http://arxiv.org/abs/2012.14867v1 )

ライセンス: Link先を確認
Jeff Yan(参考訳) われわれは、中国において近年、精巧に設計され、厳しい打撃を受けた著名な詐欺を調査している。 本稿では,これらの詐欺に果たす心理的,状況的,社会的布地的要因を検討するための,シンプルだが新しい理論枠組みを提案する。 また、このフレームワークを詐欺対策のツールとして使用しています。 このようにして、これらの中国の詐欺が西洋の詐欺とどのように異なるかを特定する。

We study a set of high-profile scams that were well engineered and have hit people hard in China in recent years. We propose a simple but novel theoretical framework to examine psychological, situational and social fabric factors that have played a role in these scams. We also use this framework as a tool to explore scam countermeasures. In so doing, we identify how these Chinese scams differ from their Western counterparts.
翻訳日:2023-04-18 11:59:43 公開日:2020-12-29
# 粒子振動における固有量子コヒーレンス

Intrinsic quantum coherence in particle oscillations ( http://arxiv.org/abs/2012.14866v1 )

ライセンス: Link先を確認
Anca Tureanu(参考訳) 粒子の振動、特にニュートリノにおけるコヒーレンスの量子場理論的記述は、素粒子物理学におけるスタンディング問題である。 この講演では、超伝導のbardeen-cooper-schrieffer理論とnambu-jona-lasinioモデルに触発された新しいアプローチによって、粒子の振動に対する標準的なアプローチのいくつかの矛盾と、それらがプロセスに依存しない方法でどのように解決されるかを説明する。 形式主義はポンテコルボとグリボフによって書かれたニュートリノ振動確率を補正するが、標準確率は超相対論的ニュートリノ極限で検証される。 質量ニュートリノ状態は、質量を持たないニュートリノの「クーパー対」の真空凝縮物上の準粒子として解釈される。 新たに定義された振動粒子状態は、Klauder--Sudarshan--Glauberコヒーレント状態が量子光学に対して持つニュートリノ振動である。

The quantum field theoretical description of coherence in the oscillations of particles, especially neutrinos, is a standing problem in particle physics. In this talk, several inconsistencies of the standard approach to particle oscillations will be explained, and how they are resolved in a process-independent manner, by a novel approach inspired by the Bardeen--Cooper--Schrieffer theory of superconductivity and the Nambu--Jona-Lasinio model. The formalism leads to corrections to the neutrino oscillation probability originally written by Pontecorvo and Gribov, however the standard probability is validated in the ultrarelativistic neutrino limit. The massive neutrino states are interpreted as quasiparticles on a vacuum condensate of "Cooper pairs" of massless flavour neutrinos. The newly defined oscillating particle states are for neutrino oscillations what the Klauder--Sudarshan--Glauber coherent states are for quantum optics.
翻訳日:2023-04-18 11:59:37 公開日:2020-12-29
# アフィン量子化による振動問題の解法

Solving oscillations problems through affine quantization ( http://arxiv.org/abs/2012.14784v1 )

ライセンス: Link先を確認
Isiaka Aremua, Laure Gouba(参考訳) 本稿では,アフィン量子化法の利点を振動問題を通して強調する。 正準量子化が失敗する振動問題をアフィン量子化がいかに解決できるかを示す。

In this paper the benefits of affine quantization method are highlighted through oscillation problems. We show how affine quantization is able to solve oscillation problems where canonical quantization fails.
翻訳日:2023-04-18 11:58:30 公開日:2020-12-29
# 超高忠実複合回転量子ゲート

Ultrahigh-fidelity composite rotational quantum gates ( http://arxiv.org/abs/2012.14692v1 )

ライセンス: Link先を確認
Hayk Gevorgyan, Nikolay V. Vitanov(参考訳) ブロック球上のキュービットの任意の事前定義された回転を生成する複合パルス列を示す。 複合配列は最大17個のパルスを含み、パルス振幅とパルス持続時間において最大8つの実験誤差を補償することができる。 3つの基本量子ゲート(X (NOT)、アダマール、任意の回転)の合成配列が導出される。 合成列の3つのクラスが示され、1つの対称と2つの非対称である。 3パルス対称SCROFULULousパルスと4パルス非対称BB1パルスの2つのよく知られた合成配列は、それぞれ1次および2次誤差を補償する。 短い配列は解析的に導出され、長い配列は数値的に導出される(主にヒッヘルトのように、ネストと連結によって)。 その結果、この合成シーケンスは、速度または精度、またはその両方において、既存のシーケンスと一致するか、より優れている。 例えば、二階合成配列を導出し、これは有名なbb1配列よりも(約13\%)高速である。 高次列の場合、スピードアップはより顕著になる。 これは量子情報処理において重要であり、この配列は超高忠実度と高速の間のスイートスポットを見つけるためのより多くの選択肢を提供する。

Composite pulse sequences, which produce arbitrary pre-defined rotations of a qubit on the Bloch sphere, are presented. The composite sequences contain up to 17 pulses and can compensate up to eight orders of experimental errors in the pulse amplitude and the pulse duration. Composite sequences for three basic quantum gates -- X (NOT), Hadamard and arbitrary rotation -- are derived. Three classes of composite sequences are presented -- one symmetric and two asymmetric. They contain as their lowest members two well-known composite sequences -- the three-pulse symmetric SCROFULOUS pulse and the four-pulse asymmetric BB1 pulse, which compensate first and second-order errors, respectively. The shorter sequences are derived analytically, and the longer ones numerically (instead by nesting and concatenation, as mostly done hitherto). Consequently, the composite sequences derived here match or outperform the existing ones in terms of either speed or accuracy, or both. For example, we derive a second-order composite sequence, which is faster (by about 13\%) than the famous BB1 sequence. For higher-order sequences the speed-up becomes much more pronounced. This is important for quantum information processing as the sequences derived here provide more options for finding the sweet spot between ultrahigh fidelity and high speed.
翻訳日:2023-04-18 11:58:28 公開日:2020-12-29
# ドープポリアセチレンの特異点特異点に現れるコヒーレント単一スピン電子共鳴分光

Coherent single-spin electron resonance spectroscopy manifested at an exceptional-point singularity in a doped polyacetylene ( http://arxiv.org/abs/2012.14655v1 )

ライセンス: Link先を確認
Yujin Dunham, Kazuki Kanki, Savannah Garmon, Gonzalo Ordonez, Satoshi Tanaka(参考訳) アルカリ原子をドープしたポリアセチレン中のスピン依存電荷移動崩壊は、複素スペクトル解析の観点から研究され、スピン-軌道相互作用の影響で単スピンゼーマン分裂が明らかになった。 非エルミート実効ハミルトニアン(nonhermitian effective hamiltonian)は、brillouin-wigner-feshbach射影法を用いた全系エルミート・ハミルトニアン(hermitian hamiltonian)から導出され、微視的スピン依存散逸効果がエネルギー依存自己エネルギーに正しく組み込まれている。 本手法は, 全系の動力学的対称性とカイラル対称性を維持するため, EP曲面とEP環の2種類の例外点(EP)特異点がそれぞれ動的対称性とキラル対称性の破れに起因することが確認された。 我々は、コヒーレント単一スピン電子共鳴(SSESR)スペクトルが系の複雑なエネルギースペクトルを反映していることを明らかにした。 我々は、リウヴィル空間経路アプローチにおける非線形応答関数の観点からSSESRスペクトルを定式化し、全ハミルトニアンの複素固有状態を用いて、リウヴィル空間基底を構築した。 ドナー部位のスピン緩和ダイナミクスを反映した1次元フーリエ変換SSESR (1DFTおよび2DFT) スペクトルを計算した。 1DFT SSESRスペクトルは複雑なアイジェネギースペクトルを反映するが、2DFTは2つの周波数間の相互相関としてスピン緩和力学における量子コヒーレンスの詳細情報を与える。 EP環の正規化因子の消失と共鳴効果により, EP環特異点付近のコヒーレントSSESRの巨大応答が得られた。 その結果、2DFT SSESRは分子の単一スピン応答を観測するのに有用なツールであることがわかった。

Spin-dependent charge transfer decay in an alkali atom doped polyacetylene is studied in terms of the complex spectral analysis, revealing the single-spin Zeeman splitting influenced by the spin-orbit interaction. Nonhermitian effective Hamiltonian has been derived from the total system hermitian Hamiltonian using Brillouin-Wigner-Feshbach projection method, where the microscopic spin-dependent dissipation effect is correctly incorporated in the energy-dependent self-energy. Since the present method maintains the dynamical and chiral symmetries of the total system, we discovered two types of exceptional point (EP) singularities in a unified perspective: the EP surface and EP ring are attributed to the dynamical and chiral symmetry breaking, respectively. We have revealed that the coherent single-spin electron resonance (SSESR) spectrum reflects the complex eigenenergy spectrum of the system. We have formulated the SSESR spectrum in terms of the nonlinear response function in the Liouville-space pathway approach, where we have constructed the Liouville space basis using the complex eigenstates of the total Hamiltonian. We have calculated the one- and two-dimensional Fourier transform SSESR (1DFT and 2DFT) spectra reflecting the spin-relaxation dynamics at the donor site. While the 1DFT SSESR spectrum reflects the complex eigenenergy spectrum, the 2DFT gives detailed information on the quantum coherence in the spin-relaxation dynamics as a cross-correlation between the two frequencies. We found a giant response of the coherent SSESR around the EP ring singularity due to the vanishing normalization factors at the EP ring and the resonance effect. We have discovered that the giant response is much larger in magnitudes in the 2DFT spectrum than in the 1DFT spectrum, which promises the 2DFT SSESR a useful tool to observe the single-spin response in a molecule.
翻訳日:2023-04-18 11:56:52 公開日:2020-12-29
# フィールドエミッション共鳴における波動関数散逸に及ぼすバンド構造の影響

Impact of Band Structure on Wave Function Dissipation in Field Emission Resonance ( http://arxiv.org/abs/2012.14646v1 )

ライセンス: Link先を確認
Wei-Bin Su, Shin-Ming Lu, Ho-Hsiang Chang, Horng-Tay Jeng, Wen-Yuan Chan, Pei-Cheng Jiang, Kung-Hsuan Lin, and Chia-Seng Chang(参考訳) 我々は、Ag(111)およびAg(100)表面において、FER中の共鳴電子の平均寿命に比例する電界放出共鳴(FER)線幅の相反が電界と異なることを実証した。 Ag(111) の変動はほぼ滑らかであったが, Ag(100) の変動は散発的であり, 著しく変動した。 このドラスティックな違いは、異なる投影されたバルクバンド構造と、全ての共鳴電子が単一の波動関数によって制御される量子力学のアンサンブル解釈によって説明できる。 Ag(100) は真空レベル以上のエネルギーギャップを持つが、Ag(111) は存在しない。 その結果,Ag(111)上のFER線幅に関連する波動関数の散逸速度はほぼ安定であったが,Ag(100)上の波動関数の散逸速度は変動した。 この変動は,Ag(100)表面上の量子トラップ効果と表面双極子層をFERにより解析できることを示唆した。

We demonstrated on Ag(111) and Ag(100) surfaces that the reciprocal of the field emission resonance (FER) linewidth, which is proportional to the mean lifetime of resonant electrons in FER, may vary with the electric field. The variation on Ag(111) was nearly smooth, whereas that on Ag(100) was sporadic and fluctuated remarkably. This drastic difference can be explained through their dissimilar projected bulk band structures and the ensemble interpretation of quantum mechanics, according to which all resonant electrons are governed by a single wave function. Ag(100) has an energy gap above its vacuum level, whereas Ag(111) does not. Consequently, the dissipation rate of the wave function, which is relevant to the FER linewidth, on Ag(111) was almost stable, whereas that on Ag(100) fluctuated. The fluctuation revealed that the quantum trapping effect and surface dipole layer on Ag(100) surface can be investigated through FER.
翻訳日:2023-04-18 11:56:16 公開日:2020-12-29
# 平均システム検出効率が60%を超える16チャネルファイバアレイ結合超伝導単光子検出器アレイ

A 16-channel fiber array-coupled superconducting single-photon detector array with average system detection efficiency over 60% at telecom wavelength ( http://arxiv.org/abs/2101.01556v1 )

ライセンス: Link先を確認
Wei-Jun Zhang, Guang-Zhao Xu, Li-Xing You, Cheng-Jun Zhang, Hao Huang, Xin Ou, Xing-Qu Sun, Jia-Min Xiong, Hao Li, Zhen Wang, and Xiao-Ming Xie(参考訳) マルチチャネル光ファイバアレイを用いた小型・スケーラブル・高性能超伝導ナノワイヤ単光子検出器(SNSPD)アレイについて報告する。 直径18 um のアクティブ領域と1550 nmの通信波長で照らされた単一画素では、1チップで13/16の画素収率を達成し、平均システム検出効率は160 cpsで69%、最小タイミングジッタは74 ps、最大カウントレートは40 mcpsであった。 隣接チャネル間の光クロストーク係数は-60dB以上である。 ファイバアレイ結合検出器の性能は、単一ファイバに結合したスタンドアロン検出器と同等である。 本手法は,スケーラブル,高性能,高出力snspdの開発に有望である。

We report a compact, scalable, and high-performance superconducting nanowire single-photon detector (SNSPD) array by using a multichannel optical fiber array-coupled configuration. For single pixels with an active area of 18 um in diameter and illuminated at the telecom wavelength of 1550 nm, we achieved a pixel yield of 13/16 on one chip, an average system detection efficiency of 69% at a dark count rate of 160 cps, a minimum timing jitter of 74 ps, and a maximum count rate of ~40 Mcps. The optical crosstalk coefficient between adjacent channels is better than -60 dB. The performance of the fiber array-coupled detectors is comparable with a standalone detector coupled to a single fiber. Our method is promising for the development of scalable, high-performance, and high-yield SNSPDs.
翻訳日:2023-04-18 11:49:04 公開日:2020-12-29
# InAsおよびInSb表面の電子構造:密度汎関数理論と角分解光電子分光

Electronic structure of InAs and InSb surfaces: density functional theory and angle-resolved photoemission spectroscopy ( http://arxiv.org/abs/2012.14935v1 )

ライセンス: Link先を確認
Shuyang Yang, Niels B. M. Schr\"oter, Sergej Schuwalow, Mohana Rajpalk, Keita Ohtani, Peter KrogstrupGeorg, W. Winkler, Jan Gukelberger, Dominik Gresch, Gabriel Aeppli, Roman M. Lutchyn, Vladimir N.Strocov, Noa Marom(参考訳) 表面の電子構造は、量子デバイスの性質において重要な役割を果たす。 しかし、表面はシミュレートとエンジニアリングがもっとも難しい。 本稿では,密度汎関数理論(DFT)と角度分解光電子分光法(ARPES)を組み合わせたInAs(001),InAs(111),InSb(110)表面の電子構造について検討する。 我々は,機械学習型Hubbard U補正によるDFT計算(npj Comput. Mater. 6, 180 (2020))を用いて,大規模な第1原理シミュレーションと異なる表面再構成の効果を捉えることができた。 arpes結果との直接比較を容易にするために,超セル表面スラブモデルの計算したバンド構造をバルクプリミティブセルに投影して「バルク展開」方式を実装した。 これら3つの面に対して、DFT計算とARPESの整合性は良好である。 InAs(001) の場合, シミュレーションにより表面再構成の効果が明らかとなった。 異なる再構成により、特異な表面状態が生成される。 InAs(111) と InSb(110) の場合、シミュレーションは酸化の効果を解明するのに役立つ。 Sb から O への電荷移動が大きいため、InAs(111) の酸化は大きなバンドの屈曲を引き起こし、電子ポケットを生成するが、InSb(110) の酸化は起こらない。 理論的および実験的な組み合わせにより、マヨラナゼロモードを利用した位相量子ビットなど、InAsおよびInSb半導体に基づく量子デバイスの設計を知らせることができる。

The electronic structure of surfaces plays a key role in the properties of quantum devices. However, surfaces are also the most challenging to simulate and engineer. Here, we study the electronic structure of InAs(001), InAs(111), and InSb(110) surfaces using a combination of density functional theory (DFT) and angle-resolved photoemission spectroscopy (ARPES). We were able to perform large-scale first principles simulations and capture effects of different surface reconstructions by using DFT calculations with a machine-learned Hubbard U correction [npj Comput. Mater. 6, 180 (2020)]. To facilitate direct comparison with ARPES results, we implemented a "bulk unfolding" scheme by projecting the calculated band structure of a supercell surface slab model onto the bulk primitive cell. For all three surfaces, we find a good agreement between DFT calculations and ARPES. For InAs(001), the simulations clarify the effect of the surface reconstruction. Different reconstructions are found to produce distinctive surface states. For InAs(111) and InSb(110), the simulations help elucidate the effect of oxidation. Owing to larger charge transfer from As to O than from Sb to O, oxidation of InAs(111) leads to significant band bending and produces an electron pocket, whereas oxidation of InSb(110) does not. Our combined theoretical and experimental results may inform the design of quantum devices based on InAs and InSb semiconductors, e.g., topological qubits utilizing the Majorana zero modes.
翻訳日:2023-04-18 11:48:11 公開日:2020-12-29
# 任意の入力状態を有するボソンサンプラーの限界確率

Marginal probabilities in boson samplers with arbitrary input states ( http://arxiv.org/abs/2012.14917v1 )

ライセンス: Link先を確認
Jelmer J. Renema(参考訳) Zhongらによる最近のフォトニクスにおける量子優位の証明の主張により、任意の量子状態と任意の微分可能性を持つボソンサンプリングの低次近似の計算が注目されている。 本稿では,Clifford と Clifford の結果に基づいて,この方向性を示す。 特に、(1)任意の量子状態に対して周縁検出確率(すなわち、あるが全ての光子の検出確率)を計算する方法を示す。 2)最初の結果を用いて、クリフォードとクリフォードのサンプリングアルゴリズムを任意の光子識別能力と任意の入力量子状態に一般化する方法。 3) 量子干渉の切断をサンプリングアルゴリズムに組み込む方法。 4) 最近のフォトニック量子アドバンテージ実験の最大精度検証を考慮した発言。

With the recent claim of a quantum advantage demonstration in photonics by Zhong et al, the question of the computation of lower-order approximations of boson sampling with arbitrary quantum states at arbitrary distinguishability has come to the fore. In this work, we present results in this direction, building on the results of Clifford and Clifford. In particular, we show: 1) How to compute marginal detection probabilities (i.e. probabilities of the detection of some but not all photons) for arbitrary quantum states. 2) Using the first result, how to generalize the sampling algorithm of Clifford and Clifford to arbitrary photon distinguishabilities and arbitrary input quantum states. 3) How to incorporate truncations of the quantum interference into a sampling algorithm. 4) A remark considering maximum likelihood verification of the recent photonic quantum advantage experiment.
翻訳日:2023-04-18 11:47:44 公開日:2020-12-29
# 高度な学習者のアンサンブルを用いた自律侵入検知システム

An Autonomous Intrusion Detection System Using an Ensemble of Advanced Learners ( http://arxiv.org/abs/2001.11936v2 )

ライセンス: Link先を確認
Amir Andalib, Vahid Tabataba Vakili(参考訳) 侵入検知システム(IDS)は、現代のコンピュータネットワークにおいて重要なセキュリティコンポーネントである。 コンピュータネットワークベースのインフラを使用する機密サービスの増加に伴い、IDSはよりインテリジェントで自律的なものになる必要がある。 自律性以外にも、IDSの重要な特徴として、ゼロデイ攻撃を検出する能力がある。 これらの課題に対処するため,本論文では,手動インタラクションの量と専門知識の必要量を削減し,ゼロデイアタックで許容可能な性能が得られるIDSを提案する。 本手法は,ゲートリカレントユニット(gru),畳み込みニューラルネットワークをディープテクニックとして,ランダムフォレストをアンサンブル手法として,3つの学習手法を並列に使用する。 これらのシステムは並列に訓練され、結果は2つの論理、すなわち多数決と"OR"論理で組み合わせられる。 NSL-KDDデータセットを用いて,提案システムの有効性を検証する。 シミュレーションの結果、システムはゼロデイアタック下で非常に低い技術者のインタラクションで動作する可能性が示された。 NSL-KDD の "KDDTest+" データセットでは87:28%の精度を達成し,76:61%の精度で "KDDTest-21" の学習時間を短縮し,必要な計算資源を削減した。

An intrusion detection system (IDS) is a vital security component of modern computer networks. With the increasing amount of sensitive services that use computer network-based infrastructures, IDSs need to be more intelligent and autonomous. Aside from autonomy, another important feature for an IDS is its ability to detect zero-day attacks. To address these issues, in this paper, we propose an IDS which reduces the amount of manual interaction and needed expert knowledge and is able to yield acceptable performance under zero-day attacks. Our approach is to use three learning techniques in parallel: gated recurrent unit (GRU), convolutional neural network as deep techniques and random forest as an ensemble technique. These systems are trained in parallel and the results are combined under two logics: majority vote and "OR" logic. We use the NSL-KDD dataset to verify the proficiency of our proposed system. Simulation results show that the system has the potential to operate with a very low technician interaction under the zero-day attacks. We achieved 87:28% accuracy on the NSL-KDD's "KDDTest+" dataset and 76:61% accuracy on the challenging "KDDTest-21" with lower training time and lower needed computational resources.
翻訳日:2023-01-05 05:52:49 公開日:2020-12-29
# グラフ畳み込み通信を用いたマルチエージェント強化学習

Counterfactual Multi-Agent Reinforcement Learning with Graph Convolution Communication ( http://arxiv.org/abs/2004.00470v2 )

ライセンス: Link先を確認
Jianyu Su, Stephen Adams, and Peter A. Beling(参考訳) 本稿では,エージェントが協調してシステムの有用性を最大化する,完全協調型マルチエージェントシステムについて考察する。 我々は,(1)エージェント間の相互作用をコミュニケーションし,理解し,(2)個々のエージェントの貢献に基づいて報酬を正しく分配する能力を持つマルチエージェントシステムを提案する。 対照的に、この設定でのほとんどの仕事は、上記の能力のうちの1つしか考慮していない。 本研究では,エージェント間のコミュニケーションを可能にし,個々のエージェントに対するシステム報酬を調整できるアーキテクチャを開発した。 我々のアーキテクチャは,グラフ畳み込みによるエージェントコミュニケーションを表現し,既存の信用割当構造であるCOMAを適用して,バックプロパゲーションによるコミュニケーションの学習を支援する。 グラフ構造の柔軟性により,エージェント数が異なる動的システムや一定数のエージェントを持つ静的システムなど,様々なマルチエージェントシステムに適用することが可能となる。 本手法を様々なタスクで評価し、クレジット代入によるコミュニケーションの結婚の利点を実証する。 実験では,提案手法はCOMAを含む最先端手法よりも優れた性能を示す。 さらに,コミュニケーション戦略は,システムの協調政策に対する洞察と解釈可能性をもたらすことを示す。

We consider a fully cooperative multi-agent system where agents cooperate to maximize a system's utility in a partial-observable environment. We propose that multi-agent systems must have the ability to (1) communicate and understand the inter-plays between agents and (2) correctly distribute rewards based on an individual agent's contribution. In contrast, most work in this setting considers only one of the above abilities. In this study, we develop an architecture that allows for communication among agents and tailors the system's reward for each individual agent. Our architecture represents agent communication through graph convolution and applies an existing credit assignment structure, counterfactual multi-agent policy gradient (COMA), to assist agents to learn communication by back-propagation. The flexibility of the graph structure enables our method to be applicable to a variety of multi-agent systems, e.g. dynamic systems that consist of varying numbers of agents and static systems with a fixed number of agents. We evaluate our method on a range of tasks, demonstrating the advantage of marrying communication with credit assignment. In the experiments, our proposed method yields better performance than the state-of-art methods, including COMA. Moreover, we show that the communication strategies offers us insights and interpretability of the system's cooperative policies.
翻訳日:2022-12-17 19:12:07 公開日:2020-12-29
# 条件分布の差の測定:方法、特性および応用

Measuring the Discrepancy between Conditional Distributions: Methods, Properties and Applications ( http://arxiv.org/abs/2005.02196v2 )

ライセンス: Link先を確認
Shujian Yu, Ammar Shaker, Francesco Alesiani, Jose C. Principe(参考訳) 本稿では,2つの条件分布間の差分を定量化するために,単純かつ強力なテスト統計量を提案する。 新しい統計学は、高次元空間における基底分布の明示的な推定を回避し、ブレグマン行列の発散を用いて対称正半定値行列(SPS)の円錐上で作用する。 さらに、データに高次統計を明示的に組み込むために、コレントロピー関数の利点を継承する。 我々は,新しい統計学の特性を提示し,その先行技術との関連性を説明する。 最終的に、グラフ上のマルチタスク学習、コンセプトドリフト検出、情報理論の特徴選択という、3つの異なる機械学習問題に対する我々の新しい統計学の応用を示し、その有用性と利点を実証する。 統計のコードはhttps://bit.ly/BregmanCorrentropy.comで公開されている。

We propose a simple yet powerful test statistic to quantify the discrepancy between two conditional distributions. The new statistic avoids the explicit estimation of the underlying distributions in highdimensional space and it operates on the cone of symmetric positive semidefinite (SPS) matrix using the Bregman matrix divergence. Moreover, it inherits the merits of the correntropy function to explicitly incorporate high-order statistics in the data. We present the properties of our new statistic and illustrate its connections to prior art. We finally show the applications of our new statistic on three different machine learning problems, namely the multi-task learning over graphs, the concept drift detection, and the information-theoretic feature selection, to demonstrate its utility and advantage. Code of our statistic is available at https://bit.ly/BregmanCorrentropy.
翻訳日:2022-12-06 13:39:38 公開日:2020-12-29
# 韻律が単語の記憶に漏れる

Prosody leaks into the memories of words ( http://arxiv.org/abs/2005.14716v2 )

ライセンス: Link先を確認
Kevin Tang, Jason A. Shaw(参考訳) 文脈における単語の平均予測可能性(いわゆる情報性)は、条件語持続時間(Seyfarth, 2014)を示す。 他の全ての単語は等しく、より予測可能な環境で起こる傾向がある単語は、予測不能な環境で起こる傾向がある単語よりも短い。 持続時間に対する情報伝達効果の1つの説明は、確率的還元の音響的詳細が単語の心的表現の一部として記憶されていることである。 他の研究は、予測可能性効果は積分的に韻律構造に結びついていると主張している。 本研究は、音声生成における情報伝達効果の潜在的な韻律的基礎を評価することを目的として、過去の研究を2つの方向に拡張し、他の大きな言語である中国語のマンダリンにおける情報伝達効果を調査し、単語持続時間を超えて、さらに音響的次元、ピッチ、強度を指標韻律的優位性に拡張した。 内容語の音響情報は,4億3300万字字幕コーパスから推定される周波数統計を用いて,1,655人の個人によって話される40,000以上のトークンと6,000の単語タイプを持つ大通話音声コーパスから抽出された。 その結果,低情報化語は短命であり,英語で見られる効果を再現していることがわかった。 さらに,情報伝達力は最大ピッチと強度,韻律的優位性に関連する2つの音韻次元に有意な影響を及ぼした。 この解釈を拡張して、これらの結果は予測可能性が韻律的プロミネンスと密接に関連していることを示し、単語の語彙的表現には、談話における平均韻律的プロミネンスに関連する音韻的詳細が含まれていることを示唆している。 言い換えれば、語彙は音声生成に対する韻律的影響を吸収する。

The average predictability (aka informativity) of a word in context has been shown to condition word duration (Seyfarth, 2014). All else being equal, words that tend to occur in more predictable environments are shorter than words that tend to occur in less predictable environments. One account of the informativity effect on duration is that the acoustic details of probabilistic reduction are stored as part of a word's mental representation. Other research has argued that predictability effects are tied to prosodic structure in integral ways. With the aim of assessing a potential prosodic basis for informativity effects in speech production, this study extends past work in two directions; it investigated informativity effects in another large language, Mandarin Chinese, and broadened the study beyond word duration to additional acoustic dimensions, pitch and intensity, known to index prosodic prominence. The acoustic information of content words was extracted from a large telephone conversation speech corpus with over 400,000 tokens and 6,000 word types spoken by 1,655 individuals and analyzed for the effect of informativity using frequency statistics estimated from a 431 million word subtitle corpus. Results indicated that words with low informativity have shorter durations, replicating the effect found in English. In addition, informativity had significant effects on maximum pitch and intensity, two phonetic dimensions related to prosodic prominence. Extending this interpretation, these results suggest that predictability is closely linked to prosodic prominence, and that the lexical representation of a word includes phonetic details associated with its average prosodic prominence in discourse. In other words, the lexicon absorbs prosodic influences on speech production.
翻訳日:2022-11-26 23:50:56 公開日:2020-12-29
# RGB-赤外線人物再同定のための双方向指数角トリプルト損失

Bi-directional Exponential Angular Triplet Loss for RGB-Infrared Person Re-Identification ( http://arxiv.org/abs/2006.00878v5 )

ライセンス: Link先を確認
Hanrong Ye, Hong Liu, Fanyang Meng, Xia Li(参考訳) RGB-赤外線人物再識別(RGB-IR Re-ID)は、モダリティの相違が大きな課題である。 既存の研究の多くはユークリッド計量に基づく制約を用いて、異なるモダリティの画像の特徴間の相違を解決する。 しかし、ユークリッド距離は埋め込みベクトル間の包含角度を効果的に測定できないため、これらの方法は角差別的特徴埋め込みを学習できない。 本稿では,その埋め込みベクトルに基づいて人間像を分類する上で,角判別的特徴空間が重要であるため,埋め込みベクトル間の包含角を明示的に制約することにより,角分離可能な共通特徴空間を学ぶために,双方向指数的角三重項損失と呼ばれる新しいランキング損失関数を提案する。 さらに,埋め込みベクトルの大きさを安定させ学習するために,共通空間バッチ正規化層を採用する。 SYSU-MM01とRegDBデータセットに関する定量的および定性的な実験は、我々の分析をサポートする。 SYSU-MM01データセットでは、ベースラインと比較して、パフォーマンスが7.40%/11.46%から38.57%/38.61%に改善されている。 提案手法は単一モダリティ Re-ID のタスクに一般化することができ,92.0% / 81.7% から 94.7% / 86.6% へとランク-1 の精度を 82.6% / 70.6% から 87.6% / 77.1% へと改善する。 コード:https://github.com/prismformore/expAT

RGB-Infrared person re-identification (RGB-IR Re- ID) is a cross-modality matching problem, where the modality discrepancy is a big challenge. Most existing works use Euclidean metric based constraints to resolve the discrepancy between features of images from different modalities. However, these methods are incapable of learning angularly discriminative feature embedding because Euclidean distance cannot measure the included angle between embedding vectors effectively. As an angularly discriminative feature space is important for classifying the human images based on their embedding vectors, in this paper, we propose a novel ranking loss function, named Bi-directional Exponential Angular Triplet Loss, to help learn an angularly separable common feature space by explicitly constraining the included angles between embedding vectors. Moreover, to help stabilize and learn the magnitudes of embedding vectors, we adopt a common space batch normalization layer. The quantitative and qualitative experiments on the SYSU-MM01 and RegDB dataset support our analysis. On SYSU-MM01 dataset, the performance is improved from 7.40% / 11.46% to 38.57% / 38.61% for rank-1 accuracy / mAP compared with the baseline. The proposed method can be generalized to the task of single-modality Re-ID and improves the rank-1 accuracy / mAP from 92.0% / 81.7% to 94.7% / 86.6% on the Market-1501 dataset, from 82.6% / 70.6% to 87.6% / 77.1% on the DukeMTMC-reID dataset. Code: https://github.com/prismformore/expAT
翻訳日:2022-11-26 07:27:04 公開日:2020-12-29
# 補間型半教師付き学習による物体検出

Interpolation-based semi-supervised learning for object detection ( http://arxiv.org/abs/2006.02158v2 )

ライセンス: Link先を確認
Jisoo Jeong, Vikas Verma, Minsung Hyun, Juho Kannala, Nojun Kwak(参考訳) 対象検出タスクのデータラベリングコストは分類タスクよりも大幅に大きいにもかかわらず、対象検出のための半教師付き学習手法はあまり研究されていない。 本稿では,従来の補間正規化(ir)を物体検出に直接適用することで生じる問題を考慮し,解決する補間型半教師付き物体検出学習法(isd)を提案する。 我々は、IRで混合された両方のオリジナルパッチのオブジェクト性スコアに基づいて、モデルの出力を2つのタイプに分割する。 次に、教師なしの方法で各型に適した別個の損失を適用する。 提案する損失は,半教師付き学習と教師付き学習のパフォーマンスを劇的に向上させる。 教師付き学習環境において,本手法はベースライン手法を大幅に改善する。 半教師あり学習環境において,本アルゴリズムはベンチマークアーキテクチャ(ssd)におけるベンチマークデータセット(pascal vocとmscoco)の性能を向上させる。

Despite the data labeling cost for the object detection tasks being substantially more than that of the classification tasks, semi-supervised learning methods for object detection have not been studied much. In this paper, we propose an Interpolation-based Semi-supervised learning method for object Detection (ISD), which considers and solves the problems caused by applying conventional Interpolation Regularization (IR) directly to object detection. We divide the output of the model into two types according to the objectness scores of both original patches that are mixed in IR. Then, we apply a separate loss suitable for each type in an unsupervised manner. The proposed losses dramatically improve the performance of semi-supervised learning as well as supervised learning. In the supervised learning setting, our method improves the baseline methods by a significant margin. In the semi-supervised learning setting, our algorithm improves the performance on a benchmark dataset (PASCAL VOC and MSCOCO) in a benchmark architecture (SSD).
翻訳日:2022-11-25 18:13:00 公開日:2020-12-29
# 統計物理学と機械学習における高次相互作用--平衡における逆問題に対するモデル非依存解

Higher-order interactions in statistical physics and machine learning: A model-independent solution to the inverse problem at equilibrium ( http://arxiv.org/abs/2006.06010v2 )

ライセンス: Link先を確認
Sjoerd Viktor Beentjes, Ava Khamseh(参考訳) 観測データから多数の相互作用変数を含む複雑なシステムにおいて、ペアワイズおよび高次相互作用を推定する問題は、多くの分野において基礎的である。 統計物理学のコミュニティでは逆問題として知られ、現実の「大きな」データが生成され、近年はアクセス可能になっている。 現在の逆問題へのアプローチは、パラメトリックな仮定、例えば平均場理論のような物理的近似、偏りや不正確な推定につながる高次相互作用を無視している。 数学的統計学のサブフィールドであるTargeted Learningの非パラメトリックフレームワークを通じて、全階対称相互作用の普遍的、モデル非依存的で、基本的に偏りのない推定器を導入する。 その普遍性から、この定義は、磁気スピン、ニューラルネットワークのノード、生物学におけるタンパク質ネットワークなど、バイナリ変数とカテゴリ変数の平衡にある任意のシステムに適用することができる。 我々のアプローチはターゲットであり、不必要なパラメータは不要である。 代わりに、相互作用を推定するすべてのデータを出力し、その結果、精度を大幅に向上させる。 本手法の一般性を解析的および数値的に示す。 (i)二次元イジングモデル。 (ii) 4点相互作用をもつイジング様モデル (iii)制限ボルツマン機及び (iv) 個体レベルのヒトDNA変異体および代表形質のシミュレート。 後者は、集団の生医学における疾患の原因となるエピスタティック相互作用を発見するためのこのアプローチの適用性を示すものである。

The problem of inferring pair-wise and higher-order interactions in complex systems involving large numbers of interacting variables, from observational data, is fundamental to many fields. Known to the statistical physics community as the inverse problem, it has become accessible in recent years due to real and simulated 'big' data being generated. Current approaches to the inverse problem rely on parametric assumptions, physical approximations, e.g. mean-field theory, and ignoring higher-order interactions which may lead to biased or incorrect estimates. We bypass these shortcomings using a cross-disciplinary approach and demonstrate that none of these assumptions and approximations are necessary: We introduce a universal, model-independent, and fundamentally unbiased estimator of all-order symmetric interactions, via the non-parametric framework of Targeted Learning, a subfield of mathematical statistics. Due to its universality, our definition is readily applicable to any system at equilibrium with binary and categorical variables, be it magnetic spins, nodes in a neural network, or protein networks in biology. Our approach is targeted, not requiring fitting unnecessary parameters. Instead, it expends all data on estimating interactions, hence substantially increasing accuracy. We demonstrate the generality of our technique both analytically and numerically on (i) the 2-dimensional Ising model, (ii) an Ising-like model with 4-point interactions, (iii) the Restricted Boltzmann Machine, and (iv) simulated individual-level human DNA variants and representative traits. The latter demonstrates the applicability of this approach to discover epistatic interactions causal of disease in population biomedicine.
翻訳日:2022-11-23 06:17:01 公開日:2020-12-29
# 概念ボトルネックモデル

Concept Bottleneck Models ( http://arxiv.org/abs/2007.04612v3 )

ライセンス: Link先を確認
Pang Wei Koh, Thao Nguyen, Yew Siang Tang, Stephen Mussmann, Emma Pierson, Been Kim, Percy Liang(参考訳) モデルがx線に骨の突起があると思わなかったとしても、それでも重症関節炎を予測できるだろうか? 現在の最先端のモデルは、一般的には「骨のひねりの存在」のような概念の操作をサポートしないが、それらは、原入力(例えばピクセル)から出力(例えば関節炎症状)へ直接行くように訓練されている。 トレーニング時に提供される概念を最初に予測し、その概念を使ってラベルを予測するという古典的な考え方を再考する。 構築により、これらの概念ボトルネックモデルに、予測した概念値を編集し、これらの変更を最終予測に伝達することで介入することができる。 X線グレーディングと鳥の識別において、概念ボトルネックモデルは標準的なエンドツーエンドモデルと競合する精度を達成し、高いレベルの臨床概念(ボーン・スパーズ)や鳥の属性(翼色)の解釈を可能にする。 これらのモデルはまた、よりリッチな人間-モデルインタラクションを可能にする。 テスト時に概念のモデルミスを修正できれば、精度は大幅に向上する。

We seek to learn models that we can interact with using high-level concepts: if the model did not think there was a bone spur in the x-ray, would it still predict severe arthritis? State-of-the-art models today do not typically support the manipulation of concepts like "the existence of bone spurs", as they are trained end-to-end to go directly from raw input (e.g., pixels) to output (e.g., arthritis severity). We revisit the classic idea of first predicting concepts that are provided at training time, and then using these concepts to predict the label. By construction, we can intervene on these concept bottleneck models by editing their predicted concept values and propagating these changes to the final prediction. On x-ray grading and bird identification, concept bottleneck models achieve competitive accuracy with standard end-to-end models, while enabling interpretation in terms of high-level clinical concepts ("bone spurs") or bird attributes ("wing color"). These models also allow for richer human-model interaction: accuracy improves significantly if we can correct model mistakes on concepts at test time.
翻訳日:2022-11-12 03:23:00 公開日:2020-12-29
# 高速かつロバストな反復閉点

Fast and Robust Iterative Closest Point ( http://arxiv.org/abs/2007.07627v2 )

ライセンス: Link先を確認
Juyong Zhang and Yuxin Yao and Bailin Deng(参考訳) イテレーティブ・クローズト・ポイント(ICP)アルゴリズムとその変種は、ロボット工学から3D再構成まで幅広い分野において、2つの点集合間の剛性登録の基本的な技術である。 icpの主な欠点は、収束が遅いことと、異常値に対する感度、データ欠落、部分重複である。 スパースicpのような最近の研究は、計算速度のコストでスパース性最適化によって堅牢性を実現している。 本稿では,高速収束を伴うロバストな登録手法を提案する。 まず,古典的点対点ICPを最大化最小化(MM)アルゴリズムとして扱うことを示し,その収束を高速化するためのアンダーソン加速度法を提案する。 さらに、アンダーソン加速度を持つMMアルゴリズムを用いて効率よく最小化されるウェルシュ関数に基づくロバストな誤差計量を導入する。 ノイズと部分的な重なりを持つ挑戦的データセットでは、Sparse ICPと同等あるいはより正確な精度を 少なくとも1桁高速に達成する。 最後に,ロバストな定式化を点対平面icpに拡張し,anderson-accelerated mm戦略を用いて解く。 我々の頑健なICP手法は、計算時間で競合しながら、ベンチマークデータセットの登録精度を向上させる。

The Iterative Closest Point (ICP) algorithm and its variants are a fundamental technique for rigid registration between two point sets, with wide applications in different areas from robotics to 3D reconstruction. The main drawbacks for ICP are its slow convergence as well as its sensitivity to outliers, missing data, and partial overlaps. Recent work such as Sparse ICP achieves robustness via sparsity optimization at the cost of computational speed. In this paper, we propose a new method for robust registration with fast convergence. First, we show that the classical point-to-point ICP can be treated as a majorization-minimization (MM) algorithm, and propose an Anderson acceleration approach to speed up its convergence. In addition, we introduce a robust error metric based on the Welsch's function, which is minimized efficiently using the MM algorithm with Anderson acceleration. On challenging datasets with noises and partial overlaps, we achieve similar or better accuracy than Sparse ICP while being at least an order of magnitude faster. Finally, we extend the robust formulation to point-to-plane ICP, and solve the resulting problem using a similar Anderson-accelerated MM strategy. Our robust ICP methods improve the registration accuracy on benchmark datasets while being competitive in computational time.
翻訳日:2022-11-10 06:38:25 公開日:2020-12-29
# Hypersolvers: 高速な継続的深度モデルを目指して

Hypersolvers: Toward Fast Continuous-Depth Models ( http://arxiv.org/abs/2007.09601v2 )

ライセンス: Link先を確認
Michael Poli, Stefano Massaroli, Atsushi Yamashita, Hajime Asama, Jinkyoo Park(参考訳) ニューラルODEによって先駆された無限深度パラダイムは、新しい動的システムにインスパイアされたディープラーニングプリミティブの探索においてルネサンスを発生させたが、非自明なサイズの問題におけるそれらの利用は、計算スケーラビリティの低下により不可能であることがしばしば証明されている。 この作業は、従来の離散ネットワークに匹敵する時間と予測を備えたスケーラブルなニューラルODEの道を開く。 低オーバーヘッドで解くために設計されたハイパーソルバと精度を理論的に保証するニューラルネットワークを提案する。 ハイパーゾルバとニューラルODEの相乗的組み合わせにより、安上がりな推論が可能となり、連続深さモデルの実践的な応用のための新しいフロンティアが解放される。 連続正規化流のサンプリングのような標準ベンチマークの実験的評価は、古典的数値法よりも一貫性のあるパレート効率を示している。

The infinite-depth paradigm pioneered by Neural ODEs has launched a renaissance in the search for novel dynamical system-inspired deep learning primitives; however, their utilization in problems of non-trivial size has often proved impossible due to poor computational scalability. This work paves the way for scalable Neural ODEs with time-to-prediction comparable to traditional discrete networks. We introduce hypersolvers, neural networks designed to solve ODEs with low overhead and theoretical guarantees on accuracy. The synergistic combination of hypersolvers and Neural ODEs allows for cheap inference and unlocks a new frontier for practical application of continuous-depth models. Experimental evaluations on standard benchmarks, such as sampling for continuous normalizing flows, reveal consistent pareto efficiency over classical numerical methods.
翻訳日:2022-11-09 00:08:30 公開日:2020-12-29
# 歴史にかかわる専門家によるオンライン予測:一般論

Online Prediction With History-Dependent Experts: The General Case ( http://arxiv.org/abs/2008.00052v2 )

ライセンス: Link先を確認
Nadejda Drenska, Jeff Calder(参考訳) 本稿では,オンライン・機械学習の古典的な例である,オンライン・セッティングにおけるエキスパート・アドバイスによるバイナリ・シーケンスの予測問題について検討する。 我々は、二進数列を株式の価格履歴として解釈し、予測者を投資家とみなして、問題を株式予測問題に変換する。 この枠組みでは、投資家は株の日々の動きを予測し、敵対的な市場は株を支配下に置くが、$n$の取引で互いに対戦する。 投資家は、各ターンで投資する金額を決定するために、n\geq 2$専門家の予測を組み合わせることで、ゲーム終了時の最高のパフォーマンスの専門家に対する後悔を最小限に抑えることを目指している。 歴史に依存した専門家の問題は、各専門家が過去の市場の歴史を$d$で予測するために利用するものである。 このゲームの値関数が適切に再スケールされ、$N\to \infty$として$O(N^{-1/6})$として、非線形退化楕円型PDEの粘性解に収束することが証明される。 その結果、投資家にとって漸近的に最適な戦略を推測することができる。 我々の結果は、最初の著者とR.V.Kohn [13]によって確立されたものを、$n=2$専門家と$d\leq 4$歴史の日々に拡張する。 純粋で応用的な数学のコミュニケーションに現れます

We study the problem of prediction of binary sequences with expert advice in the online setting, which is a classic example of online machine learning. We interpret the binary sequence as the price history of a stock, and view the predictor as an investor, which converts the problem into a stock prediction problem. In this framework, an investor, who predicts the daily movements of a stock, and an adversarial market, who controls the stock, play against each other over $N$ turns. The investor combines the predictions of $n\geq 2$ experts in order to make a decision about how much to invest at each turn, and aims to minimize their regret with respect to the best-performing expert at the end of the game. We consider the problem with history-dependent experts, in which each expert uses the previous $d$ days of history of the market in making their predictions. We prove that the value function for this game, rescaled appropriately, converges as $N\to \infty$ at a rate of $O(N^{-1/6})$ to the viscosity solution of a nonlinear degenerate elliptic PDE, which can be understood as the Hamilton-Jacobi-Issacs equation for the two-person game. As a result, we are able to deduce asymptotically optimal strategies for the investor. Our results extend those established by the first author and R.V.Kohn [13] for $n=2$ experts and $d\leq 4$ days of history. To appear in Communications on Pure and Applied Mathematics.
翻訳日:2022-11-04 07:13:17 公開日:2020-12-29
# 分散オンライン確率的非凸最適化のための収束解析の改良

An improved convergence analysis for decentralized online stochastic non-convex optimization ( http://arxiv.org/abs/2008.04195v2 )

ライセンス: Link先を確認
Ran Xin, Usman A. Khan, and Soummya Kar(参考訳) 本稿では,ノードネットワーク上での分散オンライン確率的非凸最適化について検討する。 分散確率勾配降下における勾配追跡と呼ばれる手法を統合することで, 結果のアルゴリズムであるGT-DSGDが, 滑らかな非凸関数の和を最小化する上で, 望ましい特性を享受できることが分かる。 特に,一般の滑らかな非凸関数に対して,gt-dsgd の非漸近的特徴付けを確立し,集中型ミニバッチ sgd に適合するネットワーク独立な性能を実現する条件を導出する。 対照的に、既存の結果はGT-DSGDが常にネットワークに依存していることを示唆している。 大域的非凸関数がさらにpolyak-lojasiewics (pl)条件を満たすとき、gt-dsgdの線形収束を適切な定数のステップサイズを持つ定常誤差まで確立する。 さらに, 確率近似ステップサイズの下では, 期待値における漸近的最適部分線形率に加えて, ほぼすべてのサンプルパス上の最適大域的部分線形収束率を初めて確立する。 強凸関数はpl条件を満たす関数の特別な場合であるため,本手法は直ちに適用できるだけでなく,現在知られている最良収束率とその問題パラメータ依存性も改善する。

In this paper, we study decentralized online stochastic non-convex optimization over a network of nodes. Integrating a technique called gradient tracking in decentralized stochastic gradient descent, we show that the resulting algorithm, GT-DSGD, enjoys certain desirable characteristics towards minimizing a sum of smooth non-convex functions. In particular, for general smooth non-convex functions, we establish non-asymptotic characterizations of GT-DSGD and derive the conditions under which it achieves network-independent performances that match the centralized minibatch SGD. In contrast, the existing results suggest that GT-DSGD is always network-dependent and is therefore strictly worse than the centralized minibatch SGD. When the global non-convex function additionally satisfies the Polyak-Lojasiewics (PL) condition, we establish the linear convergence of GT-DSGD up to a steady-state error with appropriate constant step-sizes. Moreover, under stochastic approximation step-sizes, we establish, for the first time, the optimal global sublinear convergence rate on almost every sample path, in addition to the asymptotically optimal sublinear rate in expectation. Since strongly convex functions are a special case of the functions satisfying the PL condition, our results are not only immediately applicable but also improve the currently known best convergence rates and their dependence on problem parameters.
翻訳日:2022-10-31 22:46:52 公開日:2020-12-29
# MLHOによるCOVID-19逆効果の個別予測

Individualized Prediction of COVID-19 Adverse outcomes with MLHO ( http://arxiv.org/abs/2008.03869v2 )

ライセンス: Link先を確認
Hossein Estiri, Zachary H. Strasser, Shawn N. Murphy(参考訳) 機械学習フレームワークMLHO(melo)を開発した。これは、反復的な特徴とアルゴリズムの選択を利用して、ヘルスアウトカムを予測する。 MLHOは、患者レベルの入院リスク、ICU入院、機械的換気の必要性、死亡を予測するために、反復的な逐次的表現マイニングと特徴とモデル選択を実装している。 この予測は、患者の過去の医療記録(新型コロナウイルス感染前)のデータに基づく。 mlhoのアーキテクチャは、異なる統計学習アルゴリズムと特徴ベクトルを同時にテストし、健康結果の予測を改善する並列および結果指向のモデルキャリブレーションを可能にする。 13,000人を超えるcohort患者から得られた臨床統計と人口統計データを用いて、患者の既往の健康記録と人口統計を表わす約600の機能を活用した4つの副作用をモデル化した。 死亡予測の平均auc rocは0.91であり, icu, 入院, 換気の予測性能は0.80から0.81であった。 モデル化に使用された特徴のクラスタと,それぞれの結果を予測するための相対的な影響について概説する。 以上の結果から, 人口動態変数(すなわち年齢)は, 新型コロナウイルス感染後の副作用の予測因子として重要であるが, 信頼性の高い予測モデルには過去の臨床記録の組み入れが不可欠であることが示された。 新型コロナウイルス(COVID-19)のパンデミックが世界中に広がる中、適応的で解釈可能な機械学習フレームワーク(MLHOなど)は、新型コロナウイルス(COVID-19)の潜在的な波に直面するための準備を改善するために不可欠だ。

We developed MLHO (pronounced as melo), an end-to-end Machine Learning framework that leverages iterative feature and algorithm selection to predict Health Outcomes. MLHO implements iterative sequential representation mining, and feature and model selection, for predicting the patient-level risk of hospitalization, ICU admission, need for mechanical ventilation, and death. It bases this prediction on data from patients' past medical records (before their COVID-19 infection). MLHO's architecture enables a parallel and outcome-oriented model calibration, in which different statistical learning algorithms and vectors of features are simultaneously tested to improve the prediction of health outcomes. Using clinical and demographic data from a large cohort of over 13,000 COVID-19-positive patients, we modeled the four adverse outcomes utilizing about 600 features representing patients' pre-COVID health records and demographics. The mean AUC ROC for mortality prediction was 0.91, while the prediction performance ranged between 0.80 and 0.81 for the ICU, hospitalization, and ventilation. We broadly describe the clusters of features that were utilized in modeling and their relative influence for predicting each outcome. Our results demonstrated that while demographic variables (namely age) are important predictors of adverse outcomes after a COVID-19 infection, the incorporation of the past clinical records are vital for a reliable prediction model. As the COVID-19 pandemic unfolds around the world, adaptable and interpretable machine learning frameworks (like MLHO) are crucial to improve our readiness for confronting the potential future waves of COVID-19, as well as other novel infectious diseases that may emerge.
翻訳日:2022-10-31 22:38:24 公開日:2020-12-29
# RTFN:ロバストな時間的特徴ネットワーク

RTFN: Robust Temporal Feature Network ( http://arxiv.org/abs/2008.07707v2 )

ライセンス: Link先を確認
Zhiwen Xiao, Xin Xu, Huanlai Xing and Juan Chen(参考訳) 時系列分析は、医療、天気予報、災害予報など、さまざまなアプリケーションにおいて重要な役割を果たす。 しかし,機能ネットワークによるシェープレットの確保は依然として困難である。 そこで本稿では,時間的特徴ネットワークと注意型LSTMネットワークを含む,新しい頑健な時間的特徴ネットワーク(RTFN)を提案する。 時間的特徴ネットワークは入力データから基本的な特徴を抽出するために構築され、注意的LSTMネットワークは複雑な形状や特徴の豊富な関係を捉えるために考案されている。 実験では,rtfnを特徴抽出ネットワークとして教師付き構造に,教師なしクラスタリングをエンコーダとして組み込む。 結果は、RTFNベースの教師付き構造は85のデータセットのうち40の勝者であり、RTFNベースの教師なしクラスタリングは、UCC2018アーカイブの11のデータセットのうち4つで最高であることを示している。

Time series analysis plays a vital role in various applications, for instance, healthcare, weather prediction, disaster forecast, etc. However, to obtain sufficient shapelets by a feature network is still challenging. To this end, we propose a novel robust temporal feature network (RTFN) that contains temporal feature networks and attentional LSTM networks. The temporal feature networks are built to extract basic features from input data while the attentional LSTM networks are devised to capture complicated shapelets and relationships to enrich features. In experiments, we embed RTFN into supervised structure as a feature extraction network and into unsupervised clustering as an encoder, respectively. The results show that the RTFN-based supervised structure is a winner of 40 out of 85 datasets and the RTFN-based unsupervised clustering performs the best on 4 out of 11 datasets in the UCR2018 archive.
翻訳日:2022-10-27 20:47:05 公開日:2020-12-29
# 物価ベースの収益管理のための定期的レグレト・リゾルディング・ヒューリスティックス

Constant Regret Re-solving Heuristics for Price-based Revenue Management ( http://arxiv.org/abs/2009.02861v2 )

ライセンス: Link先を確認
Yining Wang and He Wang(参考訳) 価格ベースの収益管理は多くの実践的な応用で運用管理において重要な問題である。 問題は、商品(または複数の製品)を連続してt$の期間にわたって販売し、初期の在庫水準に制約を受ける小売業者を考えることである。 最適価格ポリシーは動的プログラミングによって得ることができるが、高い計算コストのためにそのようなアプローチは望ましくない場合もある。 再解決ヒューリスティックスのような近似ポリシーは、しばしば計算的に抽出可能な代替手段として適用される。 本稿では,以下の2つの結果を示す。 まず, 自然再解法ヒューリスティックは, 最適方針の値と比較して, $o(1)$ regret が得られることを証明した。 これは \cite{jasin2014reoptimization} の以前の研究で確立された $O(\ln T)$ regret上界を改善する。 第二に、最適ポリシーの値と流体モデルの値の間には$\Omega(\ln T)$ギャップがあることが証明される。 これは、価格ベースの収益管理アルゴリズムを分析する際に、流体が適切な情報関連ベンチマークではないことを示すことで、上界の結果を補完する。

Price-based revenue management is an important problem in operations management with many practical applications. The problem considers a retailer who sells a product (or multiple products) over $T$ consecutive time periods and is subject to constraints on the initial inventory levels. While the optimal pricing policy could be obtained via dynamic programming, such an approach is sometimes undesirable because of high computational costs. Approximate policies, such as the re-solving heuristics, are often applied as computationally tractable alternatives. In this paper, we show the following two results. First, we prove that a natural re-solving heuristic attains $O(1)$ regret compared to the value of the optimal policy. This improves the $O(\ln T)$ regret upper bound established in the prior work of \cite{jasin2014reoptimization}. Second, we prove that there is an $\Omega(\ln T)$ gap between the value of the optimal policy and that of the fluid model. This complements our upper bound result by showing that the fluid is not an adequate information-relaxed benchmark when analyzing price-based revenue management algorithms.
翻訳日:2022-10-21 03:14:11 公開日:2020-12-29
# SAFENet:Semantic-Aware特徴抽出による自己監督単眼深度推定

SAFENet: Self-Supervised Monocular Depth Estimation with Semantic-Aware Feature Extraction ( http://arxiv.org/abs/2010.02893v3 )

ライセンス: Link先を確認
Jaehoon Choi, Dongki Jung, Donghwan Lee, Changick Kim(参考訳) 自己教師付き単眼深度推定は, 訓練中に地中深度マップを必要としないため, 有望な手法である。 基底深度マップの代替として、光度損失は入力された画像フレームをマッチングすることにより、深度予測の自己監督を可能にする。 しかし、測光損失は様々な問題を引き起こし、教師付きアプローチに比べて精度の低い深度値となる。 本稿では,フォトメトリックロスの限界を克服するために,意味情報を活用したsafenetを提案する。 私たちのキーとなるアイデアは、意味的知識と幾何学的知識を統合するセマンティック・アウェア・ディープ機能を活用することです。 そこで本研究では,奥行き特徴の表現に意味認識を組み込むマルチタスク学習方式を提案する。 KITTIデータセットの実験では、我々の手法が最先端の手法と競合するか、さらに優れています。 さらに、異なるデータセットに対する広範な実験は、低照度や悪天候などの様々な条件に対して、より優れた一般化能力と堅牢性を示す。

Self-supervised monocular depth estimation has emerged as a promising method because it does not require groundtruth depth maps during training. As an alternative for the groundtruth depth map, the photometric loss enables to provide self-supervision on depth prediction by matching the input image frames. However, the photometric loss causes various problems, resulting in less accurate depth values compared with supervised approaches. In this paper, we propose SAFENet that is designed to leverage semantic information to overcome the limitations of the photometric loss. Our key idea is to exploit semantic-aware depth features that integrate the semantic and geometric knowledge. Therefore, we introduce multi-task learning schemes to incorporate semantic-awareness into the representation of depth features. Experiments on KITTI dataset demonstrate that our methods compete or even outperform the state-of-the-art methods. Furthermore, extensive experiments on different datasets show its better generalization ability and robustness to various conditions, such as low-light or adverse weather.
翻訳日:2022-10-10 07:32:09 公開日:2020-12-29
# 4次元PC-MRIデータから抽出した形態および血行動態パラメータに基づく心臓コホート分類

Cardiac Cohort Classification based on Morphologic and Hemodynamic Parameters extracted from 4D PC-MRI Data ( http://arxiv.org/abs/2010.05612v2 )

ライセンス: Link先を確認
Uli Niemann, Atrayee Neog, Benjamin Behrendt, Kai Lawonn, Matthias Gutberlet, Myra Spiliopoulou, Bernhard Preim, Monique Meuschke(参考訳) 心血管系の正確な評価と心血管疾患(CVD)の予測が重要である。 測定された心臓血流データは、患者固有の血行動態についての洞察を与え、そこでは、形態学的および血行動態がCVDに与える影響をよりよく理解するために、そのようなデータセットの視覚的探索のために多くの専門技術が開発されている。 しかし、心臓病患者とCVD患者の特徴に基づく分類を可能にする機械学習手法が欠如している。 本研究は,大動脈内血流データから抽出した形態学的,血行動態的特徴の可能性を,心健康ボランティアと両眼性大動脈弁(bav)患者の分類のために検討する。 さらに,高齢の心疾患患者やbav患者と同様に男女を分類する特徴があるか検討した。 本稿では,機能選択,モデルトレーニング,ハイパーパラメータチューニングを含む心臓状態の分類のためのデータ解析パイプラインを提案する。 実験では,健康なサブグループとbav患者の分離モデルを訓練するために,いくつかの特徴選択法と分類アルゴリズムを用いた。 本報告では, 定型群の分類に関して, 形態学的特徴および血行力学的特徴の分類性能と予測力について報告する。 最後に、最良のモデルの主要な特徴を特定します。

An accurate assessment of the cardiovascular system and prediction of cardiovascular diseases (CVDs) are crucial. Measured cardiac blood flow data provide insights about patient-specific hemodynamics, where many specialized techniques have been developed for the visual exploration of such data sets to better understand the influence of morphological and hemodynamic conditions on CVDs. However, there is a lack of machine learning approaches techniques that allow a feature-based classification of heart-healthy people and patients with CVDs. In this work, we investigate the potential of morphological and hemodynamic characteristics, extracted from measured blood flow data in the aorta, for the classification of heart-healthy volunteers and patients with bicuspid aortic valve (BAV). Furthermore, we research if there are characteristic features to classify male and female as well as older heart-healthy volunteers and BAV patients. We propose a data analysis pipeline for the classification of the cardiac status, encompassing feature selection, model training and hyperparameter tuning. In our experiments, we use several feature selection methods and classification algorithms to train separate models for the healthy subgroups and BAV patients. We report on classification performance and investigate the predictive power of morphological and hemodynamic features with regard to the classification of the defined groups. Finally, we identify the key features for the best models.
翻訳日:2022-10-08 07:34:55 公開日:2020-12-29
# 自律ナビゲーションのための単眼深度推定のための深層学習手法について

On Deep Learning Techniques to Boost Monocular Depth Estimation for Autonomous Navigation ( http://arxiv.org/abs/2010.06626v2 )

ライセンス: Link先を確認
Raul de Queiroz Mendes, Eduardo Godinho Ribeiro, Nicolas dos Santos Rosa, Valdir Grassi Jr(参考訳) 画像の奥行きを推測することは、2次元画像を通じて奥行き情報が得られるため、コンピュータビジョンの分野における基本的な逆問題である。 コンボリューショナルニューラルネットワーク(CNN)の進歩から、構造的特徴や空間的イメージ情報を探究する上で、SIDE(Single Image Depth Estimation)はしばしば科学的・技術的イノベーションの範囲で強調される。 自動運転車の文脈では、最先端のCNNは、異なる場所における自律ナビゲーションプロセスにおいて必須となる高品質の深度マップを作成することによって、SIDEタスクを最適化する。 しかし、このようなネットワークは通常、光検出・ランシング(LiDAR)レーザースキャンから、スパースでノイズの多い深度データによって監視され、高速なグラフィカル処理ユニット(GPU)を必要とする計算コストで実行される。 そこで本研究では,現実の自律ナビゲーション用に設計された特徴抽出モデルと組み合わせた,軽量で高速なCNNアーキテクチャを提案する。 また,SIDE問題を解くために,単純な幾何2.5D損失関数と組み合わせて効率的な表面正規化モジュールを導入する。 デンシフィケーションアルゴリズムや追加のセマンティクス、サーフェスノーマル、深さ情報といった、複数のディープラーニング技術を組み込むことで、フレームワークをトレーニングします。 本研究で紹介された手法は,屋内および屋外におけるロボット応用に焦点を当て,nyu深度v2およびkitti深度データセットを用いて評価を行った。

Inferring the depth of images is a fundamental inverse problem within the field of Computer Vision since depth information is obtained through 2D images, which can be generated from infinite possibilities of observed real scenes. Benefiting from the progress of Convolutional Neural Networks (CNNs) to explore structural features and spatial image information, Single Image Depth Estimation (SIDE) is often highlighted in scopes of scientific and technological innovation, as this concept provides advantages related to its low implementation cost and robustness to environmental conditions. In the context of autonomous vehicles, state-of-the-art CNNs optimize the SIDE task by producing high-quality depth maps, which are essential during the autonomous navigation process in different locations. However, such networks are usually supervised by sparse and noisy depth data, from Light Detection and Ranging (LiDAR) laser scans, and are carried out at high computational cost, requiring high-performance Graphic Processing Units (GPUs). Therefore, we propose a new lightweight and fast supervised CNN architecture combined with novel feature extraction models which are designed for real-world autonomous navigation. We also introduce an efficient surface normals module, jointly with a simple geometric 2.5D loss function, to solve SIDE problems. We also innovate by incorporating multiple Deep Learning techniques, such as the use of densification algorithms and additional semantic, surface normals and depth information to train our framework. The method introduced in this work focuses on robotic applications in indoor and outdoor environments and its results are evaluated on the competitive and publicly available NYU Depth V2 and KITTI Depth datasets.
翻訳日:2022-10-07 23:20:11 公開日:2020-12-29
# 脳腫瘍セグメンテーションにおけるモダリティペアリング学習

Modality-Pairing Learning for Brain Tumor Segmentation ( http://arxiv.org/abs/2010.09277v2 )

ライセンス: Link先を確認
Yixin Wang, Yao Zhang, Feng Hou, Yang Liu, Jiang Tian, Cheng Zhong, Yang Zhang, Zhiqiang He(参考訳) 深層学習法を用いたマルチモード磁気共鳴画像(MRI)による脳腫瘍の自動分離は、脳腫瘍の診断と治療を支援する重要な役割を担っている。 しかし、従来の手法は、主に異なるモダリティ間の潜伏関係を無視している。 本研究では,脳腫瘍セグメンテーションのための新しいエンドツーエンドモダリティペアリング学習法を提案する。 並列分岐は異なるモダリティ特徴を利用するように設計され、一連の層接続はモダリティ間の複雑な関係と豊富な情報を取得するために利用される。 また、2つの分岐間の予測分散を最小限に抑えるために一貫性損失を用いる。 また,学習率のウォームアップ戦略を採用して,トレーニング不安定性と早期の過度適合の問題を解決する。 最後に、複数のモデルの平均アンサンブルといくつかの後処理技術を使用して最終結果を得る。 本手法はbrats 2020オンラインテストデータセット上で試験を行い, 腫瘍, 腫瘍コア, 造影腫瘍について平均0.891点, 0.842点, 0.816点をそれぞれ有望なセグメンテーション性能を得た。 われわれはBraTS 2020 Challenge for the tumor segmentation taskの第2位を獲得した。

Automatic brain tumor segmentation from multi-modality Magnetic Resonance Images (MRI) using deep learning methods plays an important role in assisting the diagnosis and treatment of brain tumor. However, previous methods mostly ignore the latent relationship among different modalities. In this work, we propose a novel end-to-end Modality-Pairing learning method for brain tumor segmentation. Paralleled branches are designed to exploit different modality features and a series of layer connections are utilized to capture complex relationships and abundant information among modalities. We also use a consistency loss to minimize the prediction variance between two branches. Besides, learning rate warmup strategy is adopted to solve the problem of the training instability and early over-fitting. Lastly, we use average ensemble of multiple models and some post-processing techniques to get final results. Our method is tested on the BraTS 2020 online testing dataset, obtaining promising segmentation performance, with average dice scores of 0.891, 0.842, 0.816 for the whole tumor, tumor core and enhancing tumor, respectively. We won the second place of the BraTS 2020 Challenge for the tumor segmentation task.
翻訳日:2022-10-05 22:51:56 公開日:2020-12-29
# アクタ関係グラフに基づくグループアクティビティ認識の改善

Improved Actor Relation Graph based Group Activity Recognition ( http://arxiv.org/abs/2010.12968v2 )

ライセンス: Link先を確認
Zijian Kuang and Xinran Tie(参考訳) ビデオ理解とは、ビデオに現れるさまざまなアクションやアクティビティを認識し分類することである。 ビデオキャプションなど以前の多くの作品は、一般的なビデオ理解を生み出す上で有望なパフォーマンスを示している。 しかし、現状の動画キャプション技術を用いて、人間の行動とその相互作用のきめ細かい記述を生成することは依然として困難である。 人間の行動やグループ活動の詳細な説明は必須情報であり、リアルタイムCCTVビデオ監視、医療、スポーツビデオ分析などに利用することができる。 本研究では,一対のアクターの外観的類似性とアクターの位置を学習することで,グループ活動認識に主眼を置いた映像理解手法を提案する。 本稿では,正規化相互相関 (ncc) と絶対差の和 (sad) を用いて対の出現相似性を計算し, グラフ畳み込みネットワークがグループ活動の分類を学べるようにアクタ関係グラフを構築することを提案する。 また,各ビデオフレームから特徴を抽出するためのバックボーンとしてmobilenetを使うことも提案する。 さらに可視化モデルを導入して、入力された各ビデオフレームを予測された境界ボックスで可視化し、個々のアクションと集団活動を予測する。

Video understanding is to recognize and classify different actions or activities appearing in the video. A lot of previous work, such as video captioning, has shown promising performance in producing general video understanding. However, it is still challenging to generate a fine-grained description of human actions and their interactions using state-of-the-art video captioning techniques. The detailed description of human actions and group activities is essential information, which can be used in real-time CCTV video surveillance, health care, sports video analysis, etc. This study proposes a video understanding method that mainly focused on group activity recognition by learning the pair-wise actor appearance similarity and actor positions. We propose to use Normalized cross-correlation (NCC) and the sum of absolute differences (SAD) to calculate the pair-wise appearance similarity and build the actor relationship graph to allow the graph convolution network to learn how to classify group activities. We also propose to use MobileNet as the backbone to extract features from each video frame. A visualization model is further introduced to visualize each input video frame with predicted bounding boxes on each human object and predict individual action and collective activity.
翻訳日:2022-10-03 13:28:25 公開日:2020-12-29
# f-IRL:ステートマージナルマッチングによる逆強化学習

f-IRL: Inverse Reinforcement Learning via State Marginal Matching ( http://arxiv.org/abs/2011.04709v2 )

ライセンス: Link先を確認
Tianwei Ni, Harshit Sikchi, Yufei Wang, Tejus Gupta, Lisa Lee, Benjamin Eysenbach(参考訳) 模倣学習は、動作を直接プログラムしたり、最適な制御コストを指定するのが難しいロボット作業に適している。 本研究では,エキスパート状態密度に適合する報酬関数(およびそれに対応するポリシー)を学習する手法を提案する。 我々の主な成果は、エージェントと専門家状態分布w.r.t.報酬パラメータ間のf-偏差の分析勾配である。 得られた勾配に基づいて, 勾配降下によって専門家密度から定常報酬関数を回復するアルゴリズムf-irlを提案する。 f-irlは,手作りの目標状態密度から,あるいは暗黙的に専門家の観察を通じて行動を学ぶことができる。 提案手法は,irlベンチマークのサンプル効率と専門的特徴量において,逆模倣学習法を上回っている。 さらに, 回収した報酬関数は, 下流課題を迅速に解くために利用でき, 実験により, 難解な作業や, 動的変化を横断する行動伝達に有用性を示す。

Imitation learning is well-suited for robotic tasks where it is difficult to directly program the behavior or specify a cost for optimal control. In this work, we propose a method for learning the reward function (and the corresponding policy) to match the expert state density. Our main result is the analytic gradient of any f-divergence between the agent and expert state distribution w.r.t. reward parameters. Based on the derived gradient, we present an algorithm, f-IRL, that recovers a stationary reward function from the expert density by gradient descent. We show that f-IRL can learn behaviors from a hand-designed target state density or implicitly through expert observations. Our method outperforms adversarial imitation learning methods in terms of sample efficiency and the required number of expert trajectories on IRL benchmarks. Moreover, we show that the recovered reward function can be used to quickly solve downstream tasks, and empirically demonstrate its utility on hard-to-explore tasks and for behavior transfer across changes in dynamics.
翻訳日:2022-09-28 02:20:50 公開日:2020-12-29
# 強化学習における関数近似について--大きな状態空間に面した楽観主義

On Function Approximation in Reinforcement Learning: Optimism in the Face of Large State Spaces ( http://arxiv.org/abs/2011.04622v2 )

ライセンス: Link先を確認
Zhuoran Yang, Chi Jin, Zhaoran Wang, Mengdi Wang, Michael I. Jordan(参考訳) 古典的強化学習理論(RL)は、値関数の表象および線形表現に焦点を当てている。 さらに、RLとカーネル関数やディープニューラルネットワークのような現代的な関数近似器を組み合わせることに注力しており、実際、そのような組み合わせを大規模アプリケーションで活用した経験的な成功が数多くある。 しかし、この企業を支援するための理論を開発する際には、特に、現代の関数近似に基づく学習システムで発生する計算的および統計的トレードオフとともに、RLの中核における探索・探索的トレードオフを考慮する必要がある。 我々は,カーネル関数や過パラメータニューラルネットワークで表される動作値関数の文脈において,最小二乗値反復アルゴリズムを楽観的に修正することで,これらの課題にアプローチする。 このアルゴリズムの多項式ランタイム複雑性と多項式サンプル複雑性の両方を,データ生成モデルに対する追加の仮定なしに確立する。 特に、アルゴリズムが$\tilde{\mathcal{O}}(\delta_{\mathcal{F}} H^2 \sqrt{T})$ regret, ここで、$\delta_{\mathcal{F}}$は関数クラス$\mathcal{F}$、$H$は各エピソードの長さであり、$T$はエピソードの総数であることを示す。 我々の後悔の限界は状態の数とは独立であり、RLにおける関数近似の利点が明らかに示される。

The classical theory of reinforcement learning (RL) has focused on tabular and linear representations of value functions. Further progress hinges on combining RL with modern function approximators such as kernel functions and deep neural networks, and indeed there have been many empirical successes that have exploited such combinations in large-scale applications. There are profound challenges, however, in developing a theory to support this enterprise, most notably the need to take into consideration the exploration-exploitation tradeoff at the core of RL in conjunction with the computational and statistical tradeoffs that arise in modern function-approximation-based learning systems. We approach these challenges by studying an optimistic modification of the least-squares value iteration algorithm, in the context of the action-value function represented by a kernel function or an overparameterized neural network. We establish both polynomial runtime complexity and polynomial sample complexity for this algorithm, without additional assumptions on the data-generating model. In particular, we prove that the algorithm incurs an $\tilde{\mathcal{O}}(\delta_{\mathcal{F}} H^2 \sqrt{T})$ regret, where $\delta_{\mathcal{F}}$ characterizes the intrinsic complexity of the function class $\mathcal{F}$, $H$ is the length of each episode, and $T$ is the total number of episodes. Our regret bounds are independent of the number of states, a result which exhibits clearly the benefit of function approximation in RL.
翻訳日:2022-09-28 00:07:49 公開日:2020-12-29
# RTFN:時系列分類のためのロバストな時間特徴ネットワーク

RTFN: A Robust Temporal Feature Network for Time Series Classification ( http://arxiv.org/abs/2011.11829v2 )

ライセンス: Link先を確認
Zhiwen Xiao, Xin Xu, Huanlai Xing, Shouxi Luo, Penglin Dai, Dawei Zhan(参考訳) 時系列データは通常、ローカルおよびグローバルパターンを含む。 既存の機能ネットワークの多くは、それらの関係よりも、ローカル機能に注意を払っている。 しかし、後者はより重要であり、探索も困難である。 特徴ネットワークによる十分な表現を得ることはまだ困難である。 そこで本稿では,時間的特徴ネットワーク(TFN)とLSTMに基づく注目ネットワーク(LSTMaN)を含む時系列分類における特徴抽出のための,新しい頑健な時間的特徴ネットワーク(RTFN)を提案する。 TFNは複数の畳み込み層を持つ残留構造である。 データから十分なローカル特徴を抽出するローカル機能抽出ネットワークとして機能する。 LSTMaNは2つの同一層から構成されており、注意と長期記憶(LSTM)ネットワークがハイブリッド化されている。 このネットワークは関係抽出ネットワークとして機能し、逐次データにおいて、抽出された特徴間の固有の関係を異なる位置に発見する。 実験では,RTFNを特徴抽出器として,教師なし構造にエンコーダとして,それぞれ組み込む。 その結果、RTFNをベースとした構造は、多数のUCR2018およびUEA2018データセットにおいて、教師付きおよび教師なしのパフォーマンスに優れていた。

Time series data usually contains local and global patterns. Most of the existing feature networks pay more attention to local features rather than the relationships among them. The latter is, however, also important yet more difficult to explore. To obtain sufficient representations by a feature network is still challenging. To this end, we propose a novel robust temporal feature network (RTFN) for feature extraction in time series classification, containing a temporal feature network (TFN) and an LSTM-based attention network (LSTMaN). TFN is a residual structure with multiple convolutional layers. It functions as a local-feature extraction network to mine sufficient local features from data. LSTMaN is composed of two identical layers, where attention and long short-term memory (LSTM) networks are hybridized. This network acts as a relation extraction network to discover the intrinsic relationships among the extracted features at different positions in sequential data. In experiments, we embed RTFN into a supervised structure as a feature extractor and into an unsupervised structure as an encoder, respectively. The results show that the RTFN-based structures achieve excellent supervised and unsupervised performance on a large number of UCR2018 and UEA2018 datasets.
翻訳日:2022-09-21 13:46:28 公開日:2020-12-29
# (参考訳) 確率行列分解におけるより解釈可能な特徴選択表現のためのスパース符号化

Sparse encoding for more-interpretable feature-selecting representations in probabilistic matrix factorization ( http://arxiv.org/abs/2012.04171v3 )

ライセンス: CC0 1.0
Joshua C. Chang, Patrick Fletcher, Jungmin Han, Ted L. Chang, Shashaank Vattikuti, Bart Desmet, Ayah Zirikly, Carson C. Chow(参考訳) 数量データの次元性低減法は、モデル解釈が最重要である医療情報学やその他の分野の幅広い応用に不可欠である。 このようなデータに対して,階層的ポアソン行列分解 (hpf) および他のスパース確率的非負行列分解 (nmf) 法は解釈可能な生成モデルであると考えられる。 これらは、学習した表現を予測にデコードするためのスパース変換からなる。 しかし、表現デコードにおけるスパーシティは、必ずしも元のデータ特徴から表現のエンコーディングにスパーシティを伴わない。 HPFはしばしば、エンコーダの間隔を持つかのように、文献で誤って解釈される。 デコーダ空間とエンコーダ空間の区別は微妙だが重要である。 エンコーダの間隔が不足しているため、HPFは古典的NMFのカラムクラスタリング特性を持っていない。 一般化加法モデル (GAM) を用いてエンコーダ空間を自己整合的に拡張することで, それぞれの表現座標を元のデータ特徴のサブセットに関連付けることができる。 その際、このメソッドは機能選択を行う能力も得る。 本手法をシミュレーションデータに応用し,医療従事者における患者共生表現の具体的応用として,エンコーダ空間がいかに実用的かを示す。

Dimensionality reduction methods for count data are critical to a wide range of applications in medical informatics and other fields where model interpretability is paramount. For such data, hierarchical Poisson matrix factorization (HPF) and other sparse probabilistic non-negative matrix factorization (NMF) methods are considered to be interpretable generative models. They consist of sparse transformations for decoding their learned representations into predictions. However, sparsity in representation decoding does not necessarily imply sparsity in the encoding of representations from the original data features. HPF is often incorrectly interpreted in the literature as if it possesses encoder sparsity. The distinction between decoder sparsity and encoder sparsity is subtle but important. Due to the lack of encoder sparsity, HPF does not possess the column-clustering property of classical NMF -- the factor loading matrix does not sufficiently define how each factor is formed from the original features. We address this deficiency by self-consistently enforcing encoder sparsity, using a generalized additive model (GAM), thereby allowing one to relate each representation coordinate to a subset of the original data features. In doing so, the method also gains the ability to perform feature selection. We demonstrate our method on simulated data and give an example of how encoder sparsity is of practical use in a concrete application of representing inpatient comorbidities in Medicare patients.
翻訳日:2021-05-17 12:06:14 公開日:2020-12-29
# 画像検索再帰の理解:グラフニューラルネットワークの視点から

Understanding Image Retrieval Re-Ranking: A Graph Neural Network Perspective ( http://arxiv.org/abs/2012.07620v2 )

ライセンス: Link先を確認
Xuanmeng Zhang, Minyue Jiang, Zhedong Zheng, Xiao Tan, Errui Ding, Yi Yang(参考訳) 画像検索タスクのポストプロセッシングツールとして広く採用されている,高信頼な検索サンプルを利用して検索結果を洗練する手法である。 しかし、再ランク付けの1つの大きな欠陥、すなわち高い計算複雑性に気付き、現実のアプリケーションでは耐え難い時間コストを発生させる。 本稿では,高並列性グラフニューラルネット(GNN)関数として再分類可能であることを示す。 特に,従来のリグレード処理を,高品質なギャラリーサンプルの検索と更新機能という2つのフェーズに分割する。 第1フェーズはk-ネアレストの隣のグラフの構築と等しく、第2フェーズはグラフ内でメッセージを拡散していると見なすことができる。 実際には、GNNは接続されたエッジで頂点を気にするだけです。 グラフはスパースなので、頂点の特徴を効率的に更新できる。 market-1501データセットでは、1k40m gpuで89.2sから9.4msへのリランキング処理を高速化し、リアルタイムのポストプロセッシングを容易にする。 同様に,VeRi-776,Oxford-5k,Paris-6k,University-1652の4つの画像検索ベンチマークに対して,時間的制約を伴って比較あるいはより優れた検索結果が得られた。 私たちのコードは公開されています。

The re-ranking approach leverages high-confidence retrieved samples to refine retrieval results, which have been widely adopted as a post-processing tool for image retrieval tasks. However, we notice one main flaw of re-ranking, i.e., high computational complexity, which leads to an unaffordable time cost for real-world applications. In this paper, we revisit re-ranking and demonstrate that re-ranking can be reformulated as a high-parallelism Graph Neural Network (GNN) function. In particular, we divide the conventional re-ranking process into two phases, i.e., retrieving high-quality gallery samples and updating features. We argue that the first phase equals building the k-nearest neighbor graph, while the second phase can be viewed as spreading the message within the graph. In practice, GNN only needs to concern vertices with the connected edges. Since the graph is sparse, we can efficiently update the vertex features. On the Market-1501 dataset, we accelerate the re-ranking processing from 89.2s to 9.4ms with one K40m GPU, facilitating the real-time post-processing. Similarly, we observe that our method achieves comparable or even better retrieval results on the other four image retrieval benchmarks, i.e., VeRi-776, Oxford-5k, Paris-6k and University-1652, with limited time cost. Our code is publicly available.
翻訳日:2021-05-08 14:29:28 公開日:2020-12-29
# 深層学習を用いた量子ニューラルネットワーク

Quantum neural networks with deep residual learning ( http://arxiv.org/abs/2012.07772v2 )

ライセンス: Link先を確認
Yanying Liang, Wei Peng, Zhu-Jun Zheng, Olli Silv\'en, Guoying Zhao(参考訳) 古典的機械学習タスクにおけるニューラルネットワークの成功に触発されて、量子ニューラルネットワーク(qnn)の開発には、特に量子データや本質的に量子性を持つタスクに対して多大な努力が払われてきた。 現在、古典的計算の計算と熱力学的制限を回避するために量子コンピューティングプロセッサが間近に出現し、効率的な量子ニューラルネットワークを設計することは、量子機械学習において貴重なタスクとなる。 本稿では,深層残留学習(resqnn)を用いた新しい量子ニューラルネットワークを提案する。 具体的には、残差接続を持つ多重層量子パーセプトロンを提供する。 我々のResQNNは未知のユニタリを学び、素晴らしいパフォーマンスを得ることができます。 さらに、モデルは古典的ニューラルネットワークのバックプロパゲーションの類似として、エンドツーエンドでトレーニングすることができる。 ResQNNの有効性を探るため,クリーンかつノイズの多いトレーニングデータの設定下で,量子データに関する広範な実験を行った。 実験結果から,現在の「textit{Nature communication, 2020}」の成果と比較して,ResQNNの堅牢性と優位性を示した。 さらに、ノイズの多いデータの割合が高い場合、ResQNNモデルの優位性がさらに大きくなり、提案手法のノイズの多いデータに対する一般化能力と顕著な耐性が示唆される。

Inspired by the success of neural networks in the classical machine learning tasks, there has been tremendous effort to develop quantum neural networks (QNNs), especially for quantum data or tasks that are inherently quantum in nature. Currently, with the imminent advent of quantum computing processors to evade the computational and thermodynamic limitation of classical computations,} designing an efficient quantum neural network becomes a valuable task in quantum machine learning. In this paper, a novel quantum neural network with deep residual learning (ResQNN) is proposed. {Specifically, a multiple layer quantum perceptron with residual connection is provided. Our ResQNN is able to learn an unknown unitary and get remarkable performance. Besides, the model can be trained with an end-to-end fashion, as analogue of the backpropagation in the classical neural networks. To explore the effectiveness of our ResQNN , we perform extensive experiments on the quantum data under the setting of both clean and noisy training data. The experimental results show the robustness and superiority of our ResQNN, when compared to current remarkable work, which is from \textit{Nature communications, 2020}. Moreover, when training with higher proportion of noisy data, the superiority of our ResQNN model can be even significant, which implies the generalization ability and the remarkable tolerance for noisy data of the proposed method.
翻訳日:2021-05-08 14:24:03 公開日:2020-12-29
# (参考訳) 一般化誤差に基づく個別条件付き相互情報境界

Individually Conditional Individual Mutual Information Bound on Generalization Error ( http://arxiv.org/abs/2012.09922v2 )

ライセンス: CC BY 4.0
Ruida Zhou, Chao Tian, Tie Liu(参考訳) 本稿では,bu と al の誤差分解手法を組み合わせた一般化誤差に関する新しい情報理論境界を提案する。 そして、Steinke と Zakynthinou の条件付き相互情報(CMI)構築。 前作『haghifam et al.』に収録。 上記の2つの手法を組み合わせて、条件付き個別相互情報(CIMI)バウンダリを提案する。 しかし、単純なガウス的な設定では、CMI と CIMI の境界は、Bu らによる境界よりも順序的に劣る。 この観察により,条件付き相互情報における条件付け項を削減し,この問題を克服する新たな境界の提案が求められた。 この境界を確立する過程で条件付き疎結合補題が確立され、これらの情報理論境界間の有意義な二分法と比較がもたらされる。

We propose a new information-theoretic bound on generalization error based on a combination of the error decomposition technique of Bu et al. and the conditional mutual information (CMI) construction of Steinke and Zakynthinou. In a previous work, Haghifam et al. proposed a different bound combining the two aforementioned techniques, which we refer to as the conditional individual mutual information (CIMI) bound. However, in a simple Gaussian setting, both the CMI and the CIMI bounds are order-wise worse than that by Bu et al.. This observation motivated us to propose the new bound, which overcomes this issue by reducing the conditioning terms in the conditional mutual information. In the process of establishing this bound, a conditional decoupling lemma is established, which also leads to a meaningful dichotomy and comparison among these information-theoretic bounds.
翻訳日:2021-05-02 10:15:52 公開日:2020-12-29
# 条件付きマスキング言語モデルを用いた普遍文表現学習

Universal Sentence Representation Learning with Conditional Masked Language Model ( http://arxiv.org/abs/2012.14388v2 )

ライセンス: Link先を確認
Ziyi Yang, Yinfei Yang, Daniel Cer, Jax Law, Eric Darve(参考訳) 本稿では,大規模未ラベルコーパス上で文表現を効果的に学習する新しい訓練手法である条件付きマスケッド言語モデリング(CMLM)を提案する。 CMLMは、隣接する文の符号化ベクトルを条件付けして、文章表現学習をMLM訓練に統合する。 英語cmlmモデルは、(半)教師付き信号で学習されたモデルよりも優れたパフォーマンスを実現しています。 完全に教師なしの学習方法として、CMLMは様々な言語やドメインに便利に拡張できる。 我々は,bitext retrieval~(br)と自然言語推論〜(nli)タスクを併用した多言語cmlmモデルが,従来の多言語モデルよりも大きなマージンを示した。 学習した表現の同じ言語バイアスを探索し、文の意味を保ちながら、表現から識別する言語を除去する原理的コンポーネントベースのアプローチを提案する。

This paper presents a novel training method, Conditional Masked Language Modeling (CMLM), to effectively learn sentence representations on large scale unlabeled corpora. CMLM integrates sentence representation learning into MLM training by conditioning on the encoded vectors of adjacent sentences. Our English CMLM model achieves state-of-the-art performance on SentEval, even outperforming models learned using (semi-)supervised signals. As a fully unsupervised learning method, CMLM can be conveniently extended to a broad range of languages and domains. We find that a multilingual CMLM model co-trained with bitext retrieval~(BR) and natural language inference~(NLI) tasks outperforms the previous state-of-the-art multilingual models by a large margin. We explore the same language bias of the learned representations, and propose a principle component based approach to remove the language identifying information from the representation while still retaining sentence semantics.
翻訳日:2021-04-19 11:05:42 公開日:2020-12-29
# 行動認識のためのテンソル表現

Tensor Representations for Action Recognition ( http://arxiv.org/abs/2012.14371v2 )

ライセンス: Link先を確認
Piotr Koniusz and Lei Wang and Anoop Cherian(参考訳) ビデオシーケンスにおける人間の行動は、空間的特徴と時間的ダイナミクスの間の複雑な相互作用によって特徴づけられる。 本稿では,アクション認識タスクにおける視覚的特徴間の高次関係をコンパクトにキャプチャするテンソル表現を提案する。 テンソルに基づく2つの特徴表現 viz を提案する。 i)シーケンス互換性カーネル (SCK) と (ii) 動的互換性カーネル (DCK) であり、前者は特徴間の時空間相関に基づくもので、後者はシーケンスのアクションダイナミクスを明示的にモデル化する。 また、SCK(+)の一般化についても検討し、ビデオ上で訓練された深層学習モデルから得られるスケルトン3Dボディジョイントやフレーム単位の分類スコアなどのマルチモーダル入力を組み込むことができる相関関係の局所的言語間相互作用を捉える。 コンパクトで高速な記述子につながるこれらのカーネルの線形化を導入する。 我々は, (i) 3Dスケルトンアクションシーケンス, (ii) きめ細かいビデオシーケンス, (iii) 標準のきめ細かいビデオについて実験を行った。 最終表現は特徴の高次関係を捉えるテンソルであるため、ロバストな細粒度認識のための共起と関連している。 高次テンソルと、いわゆる固有値パワー正規化(epn)を用いて、高次発生のスペクトル検出を行い、アクションシーケンスの特徴を単に数えるのではなく、特徴のきめ細かい関係を検出する。 Z* 次元特徴量から構築された位数 r のテンソルが EPN と組み合わさって、少なくとも 1 つの高階発生が、その dim の binom(Z*,r) 部分空間の 1 つに「射影」されているかどうかを実際に検出することを証明する。 テンソルで表されるrは、そのような「検出者」にbinom(z*,r)を付与したテンソルパワー正規化計量を形成する。

Human actions in video sequences are characterized by the complex interplay between spatial features and their temporal dynamics. In this paper, we propose novel tensor representations for compactly capturing such higher-order relationships between visual features for the task of action recognition. We propose two tensor-based feature representations, viz. (i) sequence compatibility kernel (SCK) and (ii) dynamics compatibility kernel (DCK); the former building on the spatio-temporal correlations between features, while the latter explicitly modeling the action dynamics of a sequence. We also explore generalization of SCK, coined SCK(+), that operates on subsequences to capture the local-global interplay of correlations, which can incorporate multi-modal inputs e.g., skeleton 3D body-joints and per-frame classifier scores obtained from deep learning models trained on videos. We introduce linearization of these kernels that lead to compact and fast descriptors. We provide experiments on (i) 3D skeleton action sequences, (ii) fine-grained video sequences, and (iii) standard non-fine-grained videos. As our final representations are tensors that capture higher-order relationships of features, they relate to co-occurrences for robust fine-grained recognition. We use higher-order tensors and so-called Eigenvalue Power Normalization (EPN) which have been long speculated to perform spectral detection of higher-order occurrences, thus detecting fine-grained relationships of features rather than merely count features in action sequences. We prove that a tensor of order r, built from Z* dimensional features, coupled with EPN indeed detects if at least one higher-order occurrence is `projected' into one of its binom(Z*,r) subspaces of dim. r represented by the tensor, thus forming a Tensor Power Normalization metric endowed with binom(Z*,r) such `detectors'.
翻訳日:2021-04-19 11:01:03 公開日:2020-12-29
# CT/CXR画像に基づく新型コロナウイルスのスクリーニングと一般向けCTスキャンデータの構築

Screening COVID-19 Based on CT/CXR Images & Building a Publicly Available CT-scan Dataset of COVID-19 ( http://arxiv.org/abs/2012.14204v2 )

ライセンス: Link先を確認
Maryam Dialameh and Ali Hamzeh and Hossein Rahmani and Amir Reza Radmard and Safoura Dialameh(参考訳) 新型コロナウイルスの急激な流行は、世界中の人間の生命を脅かす。 診断インフラが不十分なため、正確で効率的で安価で迅速な診断ツールの開発が重要である。 胸部X線 (CXR) やCTCT (CT) などの胸部X線撮影は、新型コロナウイルスをスクリーニングする方法として考えられるため、自動画像分類ツールの開発は、COVID-19患者の検出に極めて有用である。 これまで、研究者はいくつかの異なるスクリーニング方法を提案してきたが、いずれも信頼性が高く高感度な性能を達成できなかった。 現在の方法の主な欠点は、十分なトレーニングデータがないこと、一般化性能が低いこと、偽陽性検出率が高いことである。 このような制限に対処するため、本研究ではまず、1000人以上からなる13k以上のCT画像からなる、大規模で公開可能なCTスキャンデータセットを構築した。 第2に,提案したCTデータセットを用いてCOVID-19をスクリーニングする深層学習モデルを提案し,その結果を報告する。 最後に,cxr画像からcovid-19をスクリーニングするためのctモデルをトランスファーラーニングアプローチで拡張した。 実験の結果,CT法とCXR法でそれぞれ0.886と0.984のスコアが得られた。

The rapid outbreak of COVID-19 threatens humans life all around the world. Due to insufficient diagnostic infrastructures, developing an accurate, efficient, inexpensive, and quick diagnostic tool is of great importance. As chest radiography, such as chest X-ray (CXR) and CT computed tomography (CT), is a possible way for screening COVID-19, developing an automatic image classification tool is immensely helpful for detecting the patients with COVID-19. To date, researchers have proposed several different screening methods; however, none of them could achieve a reliable and highly sensitive performance yet. The main drawbacks of current methods are the lack of having enough training data, low generalization performance, and a high rate of false-positive detection. To tackle such limitations, this study firstly builds a large-size publicly available CT-scan dataset, consisting of more than 13k CT-images of more than 1000 individuals, in which 8k images are taken from 500 patients infected with COVID-19. Secondly, we propose a deep learning model for screening COVID-19 using our proposed CT dataset and report the baseline results. Finally, we extend the proposed CT model for screening COVID-19 from CXR images using a transfer learning approach. The experimental results show that the proposed CT and CXR methods achieve the AUC scores of 0.886 and 0.984 respectively.
翻訳日:2021-04-19 10:56:20 公開日:2020-12-29
# (参考訳) 製品分布の混合成分の源同定

Source Identification for Mixtures of Product Distributions ( http://arxiv.org/abs/2012.14540v1 )

ライセンス: CC BY 4.0
Spencer L. Gordon, Bijan Mazaheri, Yuval Rabani, Leonard J. Schulman(参考訳) 我々は、$n$ビット上の$k$の製品分布の混合物のソース識別のためのアルゴリズムを与える。 これは、多くのアプリケーションによる機械学習の根本的な問題である。 提案手法は, 2^{o(k^2)} n^{o(k)}$演算演算を用いて,複数線形モーメントの近似値(例えば,十分大きなサンプルから導出する)を入力として, 同定可能な混合物のソースパラメータを同定する。 その結果,これらの混合物のソース同定の計算複雑性に初めて明示的な境界が与えられた。 Feldman氏、O'Donnell氏、Servedio氏(FOCS 2005)、Chen and Moitra氏(STOC 2019)による以前の結果の改善は、(ソースのパラメトリック識別なしで)混合を学習することのみを保証する。 本分析は,tahmasebi,motahari,maddah-ali(isit 2018)による同定可能な情報源の質的特徴を定量的に評価した。

We give an algorithm for source identification of a mixture of $k$ product distributions on $n$ bits. This is a fundamental problem in machine learning with many applications. Our algorithm identifies the source parameters of an identifiable mixture, given, as input, approximate values of multilinear moments (derived, for instance, from a sufficiently large sample), using $2^{O(k^2)} n^{O(k)}$ arithmetic operations. Our result is the first explicit bound on the computational complexity of source identification of such mixtures. The running time improves previous results by Feldman, O'Donnell, and Servedio (FOCS 2005) and Chen and Moitra (STOC 2019) that guaranteed only learning the mixture (without parametric identification of the source). Our analysis gives a quantitative version of a qualitative characterization of identifiable sources that is due to Tahmasebi, Motahari, and Maddah-Ali (ISIT 2018).
翻訳日:2021-04-19 07:32:17 公開日:2020-12-29
# (参考訳) 活動日記合成のための個人別多出力深層生成ネットワークアプローチ

A Differentially Private Multi-Output Deep Generative Networks Approach For Activity Diary Synthesis ( http://arxiv.org/abs/2012.14574v1 )

ライセンス: CC BY 4.0
Godwin Badu-Marfo, Bilal Farooq and Zachary Patterson(参考訳) 本研究では,最先端のディープラーニング手法を用いて,旅行人口の行動日記を合成するプライバシ・バイ・デザインの生成モデルを開発した。 提案手法は,合成人口を基盤とするサンプル集団のプライバシー保護を確保しつつ,合成旅行データの開発と適用に新たな深層学習を寄与させることにより,人口合成に関する文献を拡大する。 まず,社会経済的な特徴と地理的および時間的明示的な活動の縦列をシミュレートする活動日記の完全非一般化を示す。 第2に,調査参加者の独特さを識別する解像度レベルを制御するために,差分プライバシーアプローチを導入する。 最後に,GAN(Generative Adversarial Networks)を用いて実験を行った。 統計的分布,ペア相関性を評価し,様々なノイズに対するシミュレーションデータセット上で保証されるプライバシーレベルを測定した。 モデルの結果,構造化社会経済的特徴と逐次的ツアー活動を含む複数のアウトプットからなる活動日記を,異なるプライベートな方法でシミュレートすることに成功した。

In this work, we develop a privacy-by-design generative model for synthesizing the activity diary of the travel population using state-of-art deep learning approaches. This proposed approach extends literature on population synthesis by contributing novel deep learning to the development and application of synthetic travel data while guaranteeing privacy protection for members of the sample population on which the synthetic populations are based. First, we show a complete de-generalization of activity diaries to simulate the socioeconomic features and longitudinal sequences of geographically and temporally explicit activities. Second, we introduce a differential privacy approach to control the level of resolution disclosing the uniqueness of survey participants. Finally, we experiment using the Generative Adversarial Networks (GANs). We evaluate the statistical distributions, pairwise correlations and measure the level of privacy guaranteed on simulated datasets for varying noise. The results of the model show successes in simulating activity diaries composed of multiple outputs including structured socio-economic features and sequential tour activities in a differentially private manner.
翻訳日:2021-04-19 06:59:29 公開日:2020-12-29
# (参考訳) ノイズのある擬似ラベルに基づく医用画像セグメンテーションのためのアノテーション有効学習と逆学習

Annotation-Efficient Learning for Medical Image Segmentation based on Noisy Pseudo Labels and Adversarial Learning ( http://arxiv.org/abs/2012.14584v1 )

ライセンス: CC BY 4.0
Lu Wang, Dong Guo, Guotai Wang and Shaoting Zhang(参考訳) 深層学習は、医用画像セグメンテーションの最先端のパフォーマンスを達成しているが、その成功は、手動で注釈付けされた大量の画像に頼っている。 本稿では,トレーニング画像のアノテーションを避けるためのセグメンテーションタスクのためのアノテーション効率のよい学習フレームワークを提案する。そこでは,改良されたサイクル一貫性生成支援ネットワーク(GAN)を用いて,形状モデルあるいは公開データセットから得られた未使用の医療画像と補助マスクの集合から学習する。 まず、GANを用いて、補助マスクの助けを借りて、変分オートエンコーダ(VAE)ベースの識別器で表される暗黙の高レベルな形状制約の下で、トレーニング画像の擬似ラベルを生成し、識別器のフィードバックを用いて、より良い擬似ラベルのためにジェネレータを校正する識別器誘導ジェネレータチャネル校正(DGCC)モジュールを構築する。 ノイズの多い擬似ラベルから学ぶために,ノイズ重み付きダイス損失を用いたノイズロバスト反復学習法についても紹介する。 基礎画像の光学ディスクや超音波画像の胎児頭部のような単純な形状の物体,X線画像の肺やCT画像の肝臓などの複雑な構造の2つを用いて,我々の枠組みを検証した。 実験の結果,(1)vaeに基づく判別器とdgccモジュールは高品質の擬似ラベルを得るのに役立つことがわかった。 2) 提案手法は, 雑音擬似ラベルの効果を効果的に克服することができる。 3) 訓練画像のアノテーションを使用しない方法の分割性能は, 人間のアノテーションによる学習と近いか, あるいは同等である。

Despite that deep learning has achieved state-of-the-art performance for medical image segmentation, its success relies on a large set of manually annotated images for training that are expensive to acquire. In this paper, we propose an annotation-efficient learning framework for segmentation tasks that avoids annotations of training images, where we use an improved Cycle-Consistent Generative Adversarial Network (GAN) to learn from a set of unpaired medical images and auxiliary masks obtained either from a shape model or public datasets. We first use the GAN to generate pseudo labels for our training images under the implicit high-level shape constraint represented by a Variational Auto-encoder (VAE)-based discriminator with the help of the auxiliary masks, and build a Discriminator-guided Generator Channel Calibration (DGCC) module which employs our discriminator's feedback to calibrate the generator for better pseudo labels. To learn from the pseudo labels that are noisy, we further introduce a noise-robust iterative learning method using noise-weighted Dice loss. We validated our framework with two situations: objects with a simple shape model like optic disc in fundus images and fetal head in ultrasound images, and complex structures like lung in X-Ray images and liver in CT images. Experimental results demonstrated that 1) Our VAE-based discriminator and DGCC module help to obtain high-quality pseudo labels. 2) Our proposed noise-robust learning method can effectively overcome the effect of noisy pseudo labels. 3) The segmentation performance of our method without using annotations of training images is close or even comparable to that of learning from human annotations.
翻訳日:2021-04-19 06:42:06 公開日:2020-12-29
# (参考訳) ROAD: The Real ORNL Automotive Dynamometer Controller Area Intrusion Detection Dataset (包括的CAN IDSデータセットサーベイとガイド)

ROAD: The Real ORNL Automotive Dynamometer Controller Area Network Intrusion Detection Dataset (with a comprehensive CAN IDS dataset survey & guide) ( http://arxiv.org/abs/2012.14600v1 )

ライセンス: CC BY 4.0
Miki E. Verma and Michael D. Iannacone and Robert A. Bridges and Samuel C. Hollifield and Bill Kay and Frank L. Combs(参考訳) controller area network (can)プロトコルは現代の車両で広く使われているが、メッセージ認証のような重要なセキュリティ特性を欠いている。 これらの不確実性に対処するために、これらのネットワークに対する改ざん、異常、または攻撃を検出する研究分野が急速に成長し、この分野はこれらの問題に対処する様々な新しいアプローチとアルゴリズムを開発してきた。 このCAN異常検出・侵入検知システム(IDS)研究領域の進展の大きな障害の1つは、現実的なラベル付き攻撃を伴う高忠実度データセットの欠如であり、これらのアプローチを評価、比較、検証することが困難である。 本研究では,公開可能なCAN侵入データセットの包括的調査を行う。 データとドキュメントの詳細な分析に基づいて、データセット毎に詳細な説明を提供し、欠点やメリット、提案されたユースケースを列挙します。 分析の目的は、研究者がcan idをテストするための適切なデータセットを見つけることにある。 我々は、Real ORNL Automotive Dynamometer (ROAD) CAN Intrusion Datasetを紹介する。

The Controller Area Network (CAN) protocol is ubiquitous in modern vehicles, but the protocol lacks many important security properties, such as message authentication. To address these insecurities, a rapidly growing field of research has emerged that seeks to detect tampering, anomalies, or attacks on these networks; this field has developed a wide variety of novel approaches and algorithms to address these problems. One major impediment to the progression of this CAN anomaly detection and intrusion detection system (IDS) research area is the lack of high-fidelity datasets with realistic labeled attacks, without which it is difficult to evaluate, compare, and validate these proposed approaches. In this work we present the first comprehensive survey of publicly available CAN intrusion datasets. Based on a thorough analysis of the data and documentation, for each dataset we provide a detailed description and enumerate the drawbacks, benefits, and suggested use cases. Our analysis is aimed at guiding researchers in finding appropriate datasets for testing a CAN IDS. We present the Real ORNL Automotive Dynamometer (ROAD) CAN Intrusion Dataset, providing the first dataset with real, advanced attacks to the existing collection of open datasets.
翻訳日:2021-04-19 06:10:22 公開日:2020-12-29
# (参考訳) 構造化および非構造化知識を用いた統一オープンドメイン質問応答

Unified Open-Domain Question Answering with Structured and Unstructured Knowledge ( http://arxiv.org/abs/2012.14610v1 )

ライセンス: CC BY 4.0
Barlas Oguz, Xilun Chen, Vladimir Karpukhin, Stan Peshterliev, Dmytro Okhonko, Michael Schlichtkrull, Sonal Gupta, Yashar Mehdad, Scott Yih(参考訳) 我々は、テキスト、表、リスト、知識ベースを含む構造化、非構造化、半構造化の知識ソースを用いて、オープンドメイン質問応答(odqa)を研究する。 提案手法は,テキストのみに制限された最新の強力なレトリバーリーダモデルを適用し,テキストに還元することで,すべてのソースを均質化する。 このような改革によって知識ベースQAを大幅に改善できることを示す。 以前の研究とは対照的に、コンバインドソースは、構築によって単一のソースをターゲットにしたデータセットであっても、常に役に立ちます。 その結果,3つのODQAベンチマークで最先端の結果が得られた。

We study open-domain question answering (ODQA) with structured, unstructured and semi-structured knowledge sources, including text, tables, lists, and knowledge bases. Our approach homogenizes all sources by reducing them to text, and applies recent, powerful retriever-reader models which have so far been limited to text sources only. We show that knowledge-base QA can be greatly improved when reformulated in this way. Contrary to previous work, we find that combining sources always helps, even for datasets which target a single source by construction. As a result, our unified model produces state-of-the-art results on 3 popular ODQA benchmarks.
翻訳日:2021-04-19 05:44:38 公開日:2020-12-29
# (参考訳) ロバスト軌道計画のための基準曲線の動的曲率に基づく効率的な生成法

An Efficient Generation Method based on Dynamic Curvature of the Reference Curve for Robust Trajectory Planning ( http://arxiv.org/abs/2012.14617v1 )

ライセンス: CC BY 4.0
Yuchen Sun and Dongchun Ren and Shiqi Lian and Mingyu Fan and Xiangyi Teng(参考訳) 軌道計画は、ソーシャルロボティクスや自動運転車など、さまざまな自動運転プラットフォームの基本課題である。 多くの軌道計画アルゴリズムは、基準曲線に基づくFrenetフレームを用いて計画次元を減少させる。 しかし、古典的な軌道計画手法では、生成した軌道は連続的に基準曲線に従うべきであるという暗黙の仮定が一般的である。 この仮定が実際のアプリケーションで常に当てはまるとは限らないため、計画において望ましくない問題を引き起こす可能性がある。 一つの問題は、計画された軌道の基準曲線への投影が不連続であることである。 そして、参照曲線上のいくつかのセグメントは、計画されたパスの任意の部分のイメージではない。 もう一つの問題は、計画された経路が単純な参照曲線を連続的に従うときに自己干渉する可能性があることである。 これらの問題が発生した場合、生成した軌道は不自然であり、準最適である。 本稿では,まずこれらの問題を実演し,カルテジアンフレームからフレネフレームへの新しい変換を用いた効率的な軌道生成法を提案する。 シミュレーションした街路シナリオ実験の結果,提案手法の有効性が示された。

Trajectory planning is a fundamental task on various autonomous driving platforms, such as social robotics and self-driving cars. Many trajectory planning algorithms use a reference curve based Frenet frame with time to reduce the planning dimension. However, there is a common implicit assumption in classic trajectory planning approaches, which is that the generated trajectory should follow the reference curve continuously. This assumption is not always true in real applications and it might cause some undesired issues in planning. One issue is that the projection of the planned trajectory onto the reference curve maybe discontinuous. Then, some segments on the reference curve are not the image of any part of the planned path. Another issue is that the planned path might self-intersect when following a simple reference curve continuously. The generated trajectories are unnatural and suboptimal ones when these issues happen. In this paper, we firstly demonstrate these issues and then introduce an efficient trajectory generation method which uses a new transformation from the Cartesian frame to Frenet frames. Experimental results on a simulated street scenario demonstrated the effectiveness of the proposed method.
翻訳日:2021-04-19 05:31:16 公開日:2020-12-29
# (参考訳) ビデオ処理教育のためのVIPギャラリー

The VIP Gallery for Video Processing Education ( http://arxiv.org/abs/2012.14625v1 )

ライセンス: CC BY 4.0
Todd Goodall and Alan C. Bovik(参考訳) デジタルビデオは日常生活に浸透する。 モバイルビデオ、デジタルテレビ、デジタルシネマは今や至るところで普及しており、デジタルビデオ処理(DVP)の分野は著しく成長している。 デジタルビデオシステムは、天文学、通信、監視、娯楽、ビデオコーディング、コンピュータビジョン、視覚研究など、科学や工学の分野にも浸透している。 結果として、DVPの教育ツールは、大規模で多様な学生の基盤を養わなければならない。 dvp教育の強化に向けて,実世界のコンテンツに対するdvpの例を提供し,オンライン講義の包括的コーパスを補完する教育ツールの集大成を作成し,アナログビデオ,人間の視覚処理,現代のビデオコーデックなど,多数の主要なdvpトピックを整理するユーザフレンドリなインターフェースを開発した。 このデモギャラリーは現在、テキサス大学オースティン校の大学院「‘デジタルビデオ’」で効果的に使われている。 学生は、高度に視覚的な講義から学習理論と、現代ビデオ処理の基本原理の美しさを捉えたギャラリーから具体的な例を見ることによって、概念へのアクセスを強化している。 これらのツールの教育的価値をよりよく理解するために,学生の背景,期待,成果を評価するための質問紙調査を行った。 調査結果は,この新しいディダクティック・ビデオ・ツールセットの教育効果を支持する。

Digital video pervades daily life. Mobile video, digital TV, and digital cinema are now ubiquitous, and as such, the field of Digital Video Processing (DVP) has experienced tremendous growth. Digital video systems also permeate scientific and engineering disciplines including but not limited to astronomy, communications, surveillance, entertainment, video coding, computer vision, and vision research. As a consequence, educational tools for DVP must cater to a large and diverse base of students. Towards enhancing DVP education we have created a carefully constructed gallery of educational tools that is designed to complement a comprehensive corpus of online lectures by providing examples of DVP on real-world content, along with a user-friendly interface that organizes numerous key DVP topics ranging from analog video, to human visual processing, to modern video codecs, etc. This demonstration gallery is currently being used effectively in the graduate class ``Digital Video'' at the University of Texas at Austin. Students receive enhanced access to concepts through both learning theory from highly visual lectures and watching concrete examples from the gallery, which captures the beauty of the underlying principles of modern video processing. To better understand the educational value of these tools, we conducted a pair of questionaire-based surveys to assess student background, expectations, and outcomes. The survey results support the teaching efficacy of this new didactic video toolset.
翻訳日:2021-04-19 04:57:52 公開日:2020-12-29
# (参考訳) 言語理解のための多元構造優先型自己注意ネットワーク

Multiple Structural Priors Guided Self Attention Network for Language Understanding ( http://arxiv.org/abs/2012.14642v1 )

ライセンス: CC BY 4.0
Le Qi, Yu Zhang, Qingyu Yin, Ting Liu(参考訳) 自己注意ネットワーク(SAN)は最近のNLP研究で広く利用されている。 CNNやRNNとは異なり、標準のSANは通常位置に依存しないため、単語列間の構造的先行をキャプチャできない。 既存の研究では、SANに1つのマスク戦略を適用して、より豊富な構造情報のモデリングに失敗する。 本稿では,新しいマルチマスク方式のマルチヘッドアテンション機構を用いて,異なる構造先行を異なるアテンションヘッドに変換するマルチ構造優先型自己注意ネットワーク(Multiple Structure Priors Guided Self Attention Network, MS-SAN)を提案する。 特に,単語の逐次順序と相対的な位置を含む構造的前置詞の2つのカテゴリを統合する。 テキストの潜在階層構造をキャプチャするために,これらの情報を単語コンテキストだけでなく,依存構文木からも抽出する。 2つのタスクの実験結果から,MS-SANは他の強力なベースラインに対して大幅な改善が得られた。

Self attention networks (SANs) have been widely utilized in recent NLP studies. Unlike CNNs or RNNs, standard SANs are usually position-independent, and thus are incapable of capturing the structural priors between sequences of words. Existing studies commonly apply one single mask strategy on SANs for incorporating structural priors while failing at modeling more abundant structural information of texts. In this paper, we aim at introducing multiple types of structural priors into SAN models, proposing the Multiple Structural Priors Guided Self Attention Network (MS-SAN) that transforms different structural priors into different attention heads by using a novel multi-mask based multi-head attention mechanism. In particular, we integrate two categories of structural priors, including the sequential order and the relative position of words. For the purpose of capturing the latent hierarchical structure of the texts, we extract these information not only from the word contexts but also from the dependency syntax trees. Experimental results on two tasks show that MS-SAN achieves significant improvements against other strong baselines.
翻訳日:2021-04-19 04:48:08 公開日:2020-12-29
# (参考訳) リーマン多様体上のパーゼンウィンドウ近似

Parzen Window Approximation on Riemannian Manifold ( http://arxiv.org/abs/2012.14661v1 )

ライセンス: CC BY 4.0
Abhishek and Shekhar Verma(参考訳) グラフモチベーション学習では、ラベルの伝搬は接続されたデータポイント間のエッジとして表されるデータ親和性に大きく依存する。 アフィニティ割当は、多様体上のデータの分布を暗黙的に仮定する。 この仮定は成立せず、高密度領域へのドリフトによる不正確なメトリック割り当てにつながる可能性がある。 ドリフトはヒートカーネルベースのアフィニティに影響し、グローバルに固定されたパーズン窓は本物の隣人を捨てるか、遠方のデータポイントを近所のメンバーにするよう強制する。 これによりバイアスアフィニティ行列が得られる。 本稿では, リーマン多様体上の不均一なデータサンプリングによる偏りを, 近傍サイズ, 周囲寸法, 平坦度範囲などの関数として決定された可変パーゼンウィンドウで追従する。 さらに、バイアスの原因となる不均一なサンプリングの効果を相殺する親和性調整が用いられる。 不規則なサンプリング効果を考慮して正確なラベル伝播を実現する親和性指標を提案する。 合成および実世界のデータセットに対する大規模な実験により,提案手法は分類精度を著しく向上し,グラフラプラシアン多様体正規化法において既存のParzenウィンドウ推定器よりも優れていることを確認した。

In graph motivated learning, label propagation largely depends on data affinity represented as edges between connected data points. The affinity assignment implicitly assumes even distribution of data on the manifold. This assumption may not hold and may lead to inaccurate metric assignment due to drift towards high-density regions. The drift affected heat kernel based affinity with a globally fixed Parzen window either discards genuine neighbors or forces distant data points to become a member of the neighborhood. This yields a biased affinity matrix. In this paper, the bias due to uneven data sampling on the Riemannian manifold is catered to by a variable Parzen window determined as a function of neighborhood size, ambient dimension, flatness range, etc. Additionally, affinity adjustment is used which offsets the effect of uneven sampling responsible for the bias. An affinity metric which takes into consideration the irregular sampling effect to yield accurate label propagation is proposed. Extensive experiments on synthetic and real-world data sets confirm that the proposed method increases the classification accuracy significantly and outperforms existing Parzen window estimators in graph Laplacian manifold regularization methods.
翻訳日:2021-04-19 04:33:55 公開日:2020-12-29
# (参考訳) RADDLE:ロバストなタスク指向対話システムのための評価ベンチマークと分析プラットフォーム

RADDLE: An Evaluation Benchmark and Analysis Platform for Robust Task-oriented Dialog Systems ( http://arxiv.org/abs/2012.14666v1 )

ライセンス: CC BY 4.0
Baolin Peng, Chunyuan Li, Zhu Zhang, Chenguang Zhu, Jinchao Li, Jianfeng Gao(参考訳) タスク指向対話システムが最大限に有用であるためには、(1)新しいタスクドメインの訓練例を少数含む一般化可能な方法で会話を処理でき、(2)様々なスタイル、モダリティ、ドメインでのユーザ入力に対して堅牢である必要がある。 これらの目標を追求するために、様々なドメインのモデルのパフォーマンスを評価するためのコーパスとツールの集合であるraddle benchmarkを紹介します。 限られた訓練データを持つタスクを含めることで、RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。 RADDLEには、言語の変化、音声エラー、見えないエンティティ、ドメイン外発話といった側面において、詳細な堅牢性分析を容易にする診断チェックリストも含まれている。 先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。 全体として、既存のモデルは堅牢性評価に満足できないため、将来の改善の機会が示唆される。

For task-oriented dialog systems to be maximally useful, it must be able to process conversations in a way that is (1) generalizable with a small number of training examples for new task domains, and (2) robust to user input in various styles, modalities or domains. In pursuit of these goals, we introduce the RADDLE benchmark, a collection of corpora and tools for evaluating the performance of models across a diverse set of domains. By including tasks with limited training data, RADDLE is designed to favor and encourage models with a strong generalization ability. RADDLE also includes a diagnostic checklist that facilitates detailed robustness analysis in aspects such as language variations, speech errors, unseen entities, and out-of-domain utterances. We evaluate recent state-of-the-art systems based on pre-training and fine-tuning, and find that grounded pre-training on heterogeneous dialog corpora performs better than training a separate model per domain. Overall, existing models are less than satisfactory in robustness evaluation, which suggests opportunities for future improvement.
翻訳日:2021-04-19 04:14:31 公開日:2020-12-29
# (参考訳) webly教師付ききめ細かな認識のためのヒントとコツ: webfg 2020チャレンジから学ぶ

Tips and Tricks for Webly-Supervised Fine-Grained Recognition: Learning from the WebFG 2020 Challenge ( http://arxiv.org/abs/2012.14672v1 )

ライセンス: CC BY 4.0
Xiu-Shen Wei, Yu-Yan Xu, Yazhou Yao, Jia Wei, Si Xi, Wenyuan Xu, Weidong Zhang, Xiaoxin Lv, Dengpan Fu, Qing Li, Baoying Chen, Haojie Guo, Taolue Xue, Haipeng Jing, Zhiheng Wang, Tianming Zhang, Mingwen Zhang(参考訳) WebFG 2020は、南京科学技術大学、エディンバラ大学、南京大学、アデレード大学、早稲田大学などが主催する国際大会である。 この課題は主にWebで制御された微粒化認識問題に注意を払っている。 文献では、既存のディープラーニング手法は大規模で高品質なラベル付きトレーニングデータに強く依存しており、現実のアプリケーションにおけるその実践性とスケーラビリティに限界をもたらす。 特に、詳細な認識では、ラベル付けの専門知識を必要とする視覚的タスクでは、ラベル付きトレーニングデータを取得するコストが極めて高い。 大量の高品質なトレーニングデータを得るのは非常に困難である。 そこで, 自由なWebデータを用いた微粒化認識モデルの学習が, コミュニティの研究者の注目を集めている。 この課題は,大規模手動ラベル付きデータセットに対する深層学習手法の極端依存を緩和し,その実践性と拡張性を高めるため,Webイメージを微粒化モデルの訓練に活用するWeb教師ありの微粒化認識手法を開発することにある。 この技術レポートでは、合計54の競合するチームのWebFG 2020ソリューションのトップをまとめて、勝利したチームのセットで何がベストに機能するか、驚くほど役に立たなかったのかを議論しています。

WebFG 2020 is an international challenge hosted by Nanjing University of Science and Technology, University of Edinburgh, Nanjing University, The University of Adelaide, Waseda University, etc. This challenge mainly pays attention to the webly-supervised fine-grained recognition problem. In the literature, existing deep learning methods highly rely on large-scale and high-quality labeled training data, which poses a limitation to their practicability and scalability in real world applications. In particular, for fine-grained recognition, a visual task that requires professional knowledge for labeling, the cost of acquiring labeled training data is quite high. It causes extreme difficulties to obtain a large amount of high-quality training data. Therefore, utilizing free web data to train fine-grained recognition models has attracted increasing attentions from researchers in the fine-grained community. This challenge expects participants to develop webly-supervised fine-grained recognition methods, which leverages web images in training fine-grained recognition models to ease the extreme dependence of deep learning methods on large-scale manually labeled datasets and to enhance their practicability and scalability. In this technical report, we have pulled together the top WebFG 2020 solutions of total 54 competing teams, and discuss what methods worked best across the set of winning teams, and what surprisingly did not help.
翻訳日:2021-04-19 03:34:45 公開日:2020-12-29
# (参考訳) 最適化に基づく多焦点画像融合におけるデフォーカス拡散効果の低減に向けて

Towards Reducing Severe Defocus Spread Effects for Multi-Focus Image Fusion via an Optimization Based Strategy ( http://arxiv.org/abs/2012.14678v1 )

ライセンス: CC BY 4.0
Shuang Xu and Lizhen Ji and Zhe Wang and Pengfei Li and Kai Sun and Chunxia Zhang and Jiangshe Zhang(参考訳) マルチフォーカス画像融合(MFF)は、シーン内の全てのオブジェクトがシャープなオールインフォーカス画像を生成する一般的な技術である。 しかし,既存の手法は実世界のマルチフォーカス画像のデフォーカス拡散効果にはほとんど注意を払わない。 したがって、ほとんどの方法はフォーカスマップの境界付近でうまく動作しない。 融合画像内の各局所領域はソース画像中の最も鋭い領域に類似すべきであるという考えに基づき,デフォーカス拡散効果を低減するための最適化に基づく手法を提案する。 まず、構造類似性の原理と検出された焦点マップを組み合わせることで、新しいMFFアセスメントを示す。 そして、MFF問題は、この計量を最大化する。 最適化は勾配上昇によって解決される。 実世界のデータセットで行った実験は、提案モデルの優位性を検証する。 コードはhttps://github.com/xsxjtu/mff-ssimで入手できる。

Multi-focus image fusion (MFF) is a popular technique to generate an all-in-focus image, where all objects in the scene are sharp. However, existing methods pay little attention to defocus spread effects of the real-world multi-focus images. Consequently, most of the methods perform badly in the areas near focus map boundaries. According to the idea that each local region in the fused image should be similar to the sharpest one among source images, this paper presents an optimization-based approach to reduce defocus spread effects. Firstly, a new MFF assessmentmetric is presented by combining the principle of structure similarity and detected focus maps. Then, MFF problem is cast into maximizing this metric. The optimization is solved by gradient ascent. Experiments conducted on the real-world dataset verify superiority of the proposed model. The codes are available at https://github.com/xsxjtu/MFF-SSIM.
翻訳日:2021-04-19 03:27:42 公開日:2020-12-29
# (参考訳) 非自己回帰モデルを用いた高速再翻訳によるニューラルマシン翻訳

Faster Re-translation Using Non-Autoregressive Model For Simultaneous Neural Machine Translation ( http://arxiv.org/abs/2012.14681v1 )

ライセンス: CC BY 4.0
Hyojung Han, Sathish Indurthi, Mohd Abbas Zaidi, Nikhil Kumar Lakumarapu, Beomseok Lee, Sangha Kim, Chanwoo Kim, Inchul Hwang(参考訳) 近年,ライブイベントの字幕翻訳やリアルタイムビデオ通話翻訳などの魅力的な応用を可能にするため,同時翻訳が注目されている。 これらの翻訳アプリケーションのいくつかは、再翻訳アプローチをもたらす部分翻訳の編集を可能にする。 現在の再翻訳アプローチは、自動回帰シーケンス生成モデル(reta)に基づいており、(部分的な)翻訳において連続的にタールゲットトークンを生成する。 入力されたソース入力と対応するターゲット出力との推論時間ギャップが増大するに従って、シーケンシャル生成 inReTAmodelslead による多重再翻訳を行う。 さらに、大量の推論操作を行うため、ReTAモデルはリソース制約のあるデバイスには適さない。 本研究では,上記の制約を克服するために,非自己回帰シーケンス生成モデル(fretna)に基づく高速再翻訳システムを提案する。 提案モデルは,複数の翻訳タスクにおいて提案したモデルを評価し,提案モデルが複数の順序で推論時間を短縮し,ReTAモデルとストリーミング(Wait-k)モデルと比較して競争力のあるBLEUスコアを実現する。 また、ストリーミングベースのWait-kモデルよりも計算時間(1.5倍低い)と翻訳品質の両方で優れている。

Recently, simultaneous translation has gathered a lot of attention since it enables compelling applications such as subtitle translation for a live event or real-time video-call translation. Some of these translation applications allow editing of partial translation giving rise to re-translation approaches. The current re-translation approaches are based on autoregressive sequence generation models (ReTA), which generate tar-get tokens in the (partial) translation sequentially. The multiple re-translations with sequential generation inReTAmodelslead to an increased inference time gap between the incoming source input and the corresponding target output as the source input grows. Besides, due to the large number of inference operations involved, the ReTA models are not favorable for resource-constrained devices. In this work, we propose a faster re-translation system based on a non-autoregressive sequence generation model (FReTNA) to overcome the aforementioned limitations. We evaluate the proposed model on multiple translation tasks and our model reduces the inference times by several orders and achieves a competitive BLEUscore compared to the ReTA and streaming (Wait-k) models.The proposed model reduces the average computation time by a factor of 20 when compared to the ReTA model by incurring a small drop in the translation quality. It also outperforms the streaming-based Wait-k model both in terms of computation time (1.5 times lower) and translation quality.
翻訳日:2021-04-19 03:12:27 公開日:2020-12-29
# (参考訳) キャリブレーションカスケードによる事前学習言語モデルの高速化

Accelerating Pre-trained Language Models via Calibrated Cascade ( http://arxiv.org/abs/2012.14682v1 )

ライセンス: CC BY 4.0
Lei Li, Yankai Lin, Shuhuai Ren, Deli Chen, Xuancheng Ren, Peng Li, Jie Zhou, Xu Sun(参考訳) 動的早期退避は、モデル全体を通過することなく浅い層に退避することで、事前訓練された言語モデル(PLM)推論を加速することを目的としている。 本稿では,動的早期退避の動作機構を解析し,推論速度と性能のトレードオフを満足させることができないことを示す。 一方、浅い層におけるPLMの表現は正確な予測には不十分である。 一方、内部のオフランプは信頼できる終了決定を下すことができない。 そこで我々はカスケードBERTを提案する。CascadeBERTはカスケード方式で適切なサイズで完全なモデルを動的に選択する。 より信頼性の高いモデル選択を実現するため,モデルの出力クラス確率を各インスタンスの真の難易度を反映させる難易度認識目的を考案する。 大規模実験により, 動的早期排出法と知識蒸留法の両方を含む PLM 加速の強いベースラインモデルよりも, 提案手法が優れていることが示された。

Dynamic early exiting aims to accelerate pre-trained language models' (PLMs) inference by exiting in shallow layer without passing through the entire model. In this paper, we analyze the working mechanism of dynamic early exiting and find it cannot achieve a satisfying trade-off between inference speed and performance. On one hand, the PLMs' representations in shallow layers are not sufficient for accurate prediction. One the other hand, the internal off-ramps cannot provide reliable exiting decisions. To remedy this, we instead propose CascadeBERT, which dynamically selects a proper-sized, complete model in a cascading manner. To obtain more reliable model selection, we further devise a difficulty-aware objective, encouraging the model output class probability to reflect the real difficulty of each instance. Extensive experimental results demonstrate the superiority of our proposal over strong baseline models of PLMs' acceleration including both dynamic early exiting and knowledge distillation methods.
翻訳日:2021-04-19 02:59:46 公開日:2020-12-29
# (参考訳) 多様体上のデータ駆動ディリクレサンプリング

Data driven Dirichlet sampling on manifolds ( http://arxiv.org/abs/2101.00947v1 )

ライセンス: CC BY 4.0
Luan S Prado and Thiago G Ritto(参考訳) 本稿では、ディリクレ分布に基づく多様体をサンプリングする新しい方法を提案する。 提案手法は, データの観測を行う基礎となる多様体を完全に尊重し, 少ない計算労力で大量のサンプリングを行う。 これは、例えば、ニューラルネットワークのトレーニングプロセスや不確実性解析や確率的最適化において、非常に役に立ちます。 その単純さと効率のため、我々は新しい手法には大きな可能性があると考えている。 3つの多様体 (2次元リング, Mobius strip, クモ幾何学) は提案手法を検証し, ガスシール係数に関する工学的応用に適用する。

This article presents a novel method to sampling on manifolds based on the Dirichlet distribution. The proposed strategy allows to completely respect the underlying manifold around which data is observed, and to do massive samplings with low computational effort. This can be very helpful, for instance, in neural networks training process, as well as in uncertainty analysis and stochastic optimization. Due to its simplicity and efficiency, we believe that the new method has great potential. Three manifolds (two dimensional ring, Mobius strip and spider geometry) are considered to test the proposed methodology, and then it is employed to an engineering application, related to gas seal coefficients.
翻訳日:2021-04-19 02:49:54 公開日:2020-12-29
# (参考訳) 量子オートエンコーダによる量子状態の復調 --理論と応用

Denoising quantum states with Quantum Autoencoders -- Theory and Applications ( http://arxiv.org/abs/2012.14714v1 )

ライセンス: CC BY 4.0
Tom Achache, Lior Horesh, John Smolin(参考訳) 量子オートエンコーダ(qae)を量子回路として実装し、グリーンバーガー・ホーン・サイレンジャー状態(ghz)をビットフリップチャネルとより一般的な量子非分極チャネルという様々なノイズの量子チャネルに補正する。 QAEはノイズのないGHZ状態を生成するための生成モデルとしても機能するが、ノイズのない状態のほぼ完全な再構築を可能にするため、特に興味深い結果を示している。 最後に、QAEs: Quantum Secret Sharing (QSS)の有用な応用について述べる。 ノイズがQSSを損なう原因を分析し,QAEがQSSプロトコルをノイズの存在下でも成功させることを示す。

We implement a Quantum Autoencoder (QAE) as a quantum circuit capable of correcting Greenberger-Horne-Zeilinger (GHZ) states subject to various noisy quantum channels : the bit-flip channel and the more general quantum depolarizing channel. The QAE shows particularly interesting results, as it enables to perform an almost perfect reconstruction of noisy states, but can also, more surprisingly, act as a generative model to create noise-free GHZ states. Finally, we detail a useful application of QAEs : Quantum Secret Sharing (QSS). We analyze how noise corrupts QSS, causing it to fail, and show how the QAE allows the QSS protocol to succeed even in the presence of noise.
翻訳日:2021-04-19 02:43:23 公開日:2020-12-29
# (参考訳) バイアスド最適化

Present-Biased Optimization ( http://arxiv.org/abs/2012.14736v1 )

ライセンス: CC BY 4.0
Fedor V. Fomin, Pierre Fraigniaud, and Petr A. Golovach(参考訳) 本稿では,現在のバイアスエージェントの行動,すなわち,将来の行動のコストを,実際のコストと比較して誤って予測するエージェントについて検討する。 具体的には、Akerlof (1991) が提案したもともとの枠組みを拡張し、プロクラステネーションや放棄を含む時間的一貫性のない計画に関する人間の行動の様々な側面を研究するとともに、Kleinberg と Oren (2014) によって最近提案されたこの枠組みを包含するエレガントなグラフ理論モデルも拡張した。 この拡張の利点は2つあります。 まず、実行すべき最適化タスクに応じて、現在のバイアスエージェントの挙動をきめ細かい分析を行うことができる。 特に,タスク対ヒットタスクについて検討し,現在バイアスのかかったエージェントが計算した解のコストと最適解のコストとの比が問題制約によって大きく異なることを示す。 第2に、我々の拡張は、将来のコストの過小評価だけでなく、最小化/最大化と過小評価/過小評価の組合せについても研究することができる。 4つのシナリオについて検討し,3つのシナリオのコスト比率の上限(原シナリオのコスト比率はアンバウンドであることが知られている)を確立し,最適化タスクが考慮される限り,現在のバイアスエージェントの行動の完全な全体像を提供する。

This paper explores the behavior of present-biased agents, that is, agents who erroneously anticipate the costs of future actions compared to their real costs. Specifically, the paper extends the original framework proposed by Akerlof (1991) for studying various aspects of human behavior related to time-inconsistent planning, including procrastination, and abandonment, as well as the elegant graph-theoretic model encapsulating this framework recently proposed by Kleinberg and Oren (2014). The benefit of this extension is twofold. First, it enables to perform fine grained analysis of the behavior of present-biased agents depending on the optimisation task they have to perform. In particular, we study covering tasks vs. hitting tasks, and show that the ratio between the cost of the solutions computed by present-biased agents and the cost of the optimal solutions may differ significantly depending on the problem constraints. Second, our extension enables to study not only underestimation of future costs, coupled with minimization problems, but also all combinations of minimization/maximization, and underestimation/overestimation. We study the four scenarios, and we establish upper bounds on the cost ratio for three of them (the cost ratio for the original scenario was known to be unbounded), providing a complete global picture of the behavior of present-biased agents, as far as optimisation tasks are concerned.
翻訳日:2021-04-19 02:28:03 公開日:2020-12-29
# (参考訳) 階層型カリキュラム学習による対話応答選択

Dialogue Response Selection with Hierarchical Curriculum Learning ( http://arxiv.org/abs/2012.14756v1 )

ライセンス: CC BY 4.0
Yixuan Su, Deng Cai, Qingyu Zhou, Zibo Lin, Simon Baker, Yunbo Cao, Shuming Shi, Nigel Collier, Yan Wang(参考訳) 対話応答選択のためのマッチングモデルの学習について検討する。 近年,ランダム陰性は信頼度の高いモデルの学習には自明すぎることが指摘され,(1)コーパスレベルのカリキュラム(CC)と(2)インスタンスレベルのカリキュラム(IC)という2つの補完的なカリキュラムからなる階層型カリキュラム学習(HCL)フレームワークを提案する。 ccでは、モデルによって、対話コンテキストと応答の間の一致した手がかりを見つける能力が徐々に増大する。 一方、icは対話の文脈と応答のミスマッチした情報を識別するモデルの能力を段階的に強化する。 3つの最先端マッチングモデルを持つ2つのベンチマークデータセットに関する実証研究は、提案したHCLが様々な評価指標でモデル性能を著しく改善することを示した。

We study the learning of a matching model for dialogue response selection. Motivated by the recent finding that random negatives are often too trivial to train a reliable model, we propose a hierarchical curriculum learning (HCL) framework that consists of two complementary curricula: (1) corpus-level curriculum (CC); and (2) instance-level curriculum (IC). In CC, the model gradually increases its ability in finding the matching clues between the dialogue context and response. On the other hand, IC progressively strengthens the model's ability in identifying the mismatched information between the dialogue context and response. Empirical studies on two benchmark datasets with three state-of-the-art matching models demonstrate that the proposed HCL significantly improves the model performance across various evaluation metrics.
翻訳日:2021-04-19 02:03:56 公開日:2020-12-29
# (参考訳) CMV-BERT:BERTのマルチボキャブ事前訓練

CMV-BERT: Contrastive multi-vocab pretraining of BERT ( http://arxiv.org/abs/2012.14763v1 )

ライセンス: CC BY 4.0
Wei Zhu, Daniel Cheung(参考訳) 本研究では,コンピュータビジョンの分野でよく研究されているコントラスト学習(a)と,その一方が細粒度で,他方が粗粒度である複数語彙(b)という2つの要素を用いて,言語モデルの事前学習を改善するCMV-BERTを提案する。 2つの方法はどちらも原文の異なる見方を提供しており、どちらも有益であることを示している。 提案したCMV-BERTが事前学習言語モデルの改善に有効であることを示す。

In this work, we represent CMV-BERT, which improves the pretraining of a language model via two ingredients: (a) contrastive learning, which is well studied in the area of computer vision; (b) multiple vocabularies, one of which is fine-grained and the other is coarse-grained. The two methods both provide different views of an original sentence, and both are shown to be beneficial. Downstream tasks demonstrate our proposed CMV-BERT are effective in improving the pretrained language models.
翻訳日:2021-04-19 01:48:30 公開日:2020-12-29
# (参考訳) 校正情報のない視覚熱カメラデータセットとマルチモードアライメント

Visual-Thermal Camera Dataset Release and Multi-Modal Alignment without Calibration Information ( http://arxiv.org/abs/2012.14833v1 )

ライセンス: CC BY 4.0
Frank Mascarich, Kostas Alexis(参考訳) 本報告では,視覚的・熱的カメラデータに対するデータセットのリリースと,それに続く手順を詳述し,本質的・外生的キャリブレーション情報を用いることなく,両者の画素レベルの対応を図った。 この目標を達成するために、マルチモーダル画像アライメントの領域の進歩を享受し、特にマットス相互情報メトリクスを用いて登録プロセスを導く。 リリースデータセットでは、生のビジュアルカメラデータとサーマルカメラデータ、およびアライメントフレームの両方を、キャリブレーションパラメータとともにリリースし、このようなマルチモーダル画像ストリーム間の共通的なローカル/グローバルな特徴の調査をより容易にすることを目的としています。

This report accompanies a dataset release on visual and thermal camera data and details a procedure followed to align such multi-modal camera frames in order to provide pixel-level correspondence between the two without using intrinsic or extrinsic calibration information. To achieve this goal we benefit from progress in the domain of multi-modal image alignment and specifically employ the Mattes Mutual Information Metric to guide the registration process. In the released dataset we release both the raw visual and thermal camera data, as well as the aligned frames, alongside calibration parameters with the goal to better facilitate the investigation on common local/global features across such multi-modal image streams.
翻訳日:2021-04-19 01:11:30 公開日:2020-12-29
# (参考訳) drs at mrp 2020: 談話表現構造をグラフとして表現する

DRS at MRP 2020: Dressing up Discourse Representation Structures as Graphs ( http://arxiv.org/abs/2012.14837v1 )

ライセンス: CC BY 4.0
Lasha Abzianidze, Johan Bos, Stephan Oepen(参考訳) 談話表現理論(DRT)は、自然言語の言論の意味を表す公式な説明である。 DRTにおける意味は、通常ネストボックスとして表現されるモデル理論解釈を持つ意味表現であるDES(Discourse Representation Structure)を通じてモデル化される。 対照的に、有向ラベル付きグラフは自然言語テキストのセマンティクスを符号化するために使われる一般的なデータ構造である。 本稿では、2020年のクロスフレームワークと言語間意味表現構文における共有タスクにおいて、DRTを新しいフレームワークとして含めるためのラベル付きグラフとしてDRSをドレッシングする手順について述べる。 共有タスクの目標の1つは、いくつかのセマンティックグラフフレームワークの統一モデルを促進することであるため、変換手順は、他のグラフベースの意味表現フレームワークと幾らか似ているDRTグラフフレームワークに偏りがあった。

Discourse Representation Theory (DRT) is a formal account for representing the meaning of natural language discourse. Meaning in DRT is modeled via a Discourse Representation Structure (DRS), a meaning representation with a model-theoretic interpretation, which is usually depicted as nested boxes. In contrast, a directed labeled graph is a common data structure used to encode semantics of natural language texts. The paper describes the procedure of dressing up DRSs as directed labeled graphs to include DRT as a new framework in the 2020 shared task on Cross-Framework and Cross-Lingual Meaning Representation Parsing. Since one of the goals of the shared task is to encourage unified models for several semantic graph frameworks, the conversion procedure was biased towards making the DRT graph framework somewhat similar to other graph-based meaning representation frameworks.
翻訳日:2021-04-19 01:03:42 公開日:2020-12-29
# (参考訳) Parallel Meaning Bank: 複数の言語を意味的にアノテーションするフレームワーク

The Parallel Meaning Bank: A Framework for Semantically Annotating Multiple Languages ( http://arxiv.org/abs/2012.14854v1 )

ライセンス: CC BY 4.0
Lasha Abzianidze, Rik van Noord, Chunliu Wang, Johan Bos(参考訳) 本論文は,英語以外の言語で書かれたテキストに対して,作曲意味論の注釈付けを容易にするためのフレームワークであるParallel Meaning Bankの背景にある考え方を概説する。 アノテーション手順は半自動的であり、セグメンテーション、シンボル化、セマンティックタグ付け、単語感覚の曖昧さ、構文構造、テーマロールラベリング、コレファレンスという7つの言語情報からなる。 文書が英語の翻訳に基づいている限り、新しい言語を銀行の意味に追加することができるが、パラレル平均銀行の根底にある言語学の仮定に関する新たな興味深い課題も導入する。

This paper gives a general description of the ideas behind the Parallel Meaning Bank, a framework with the aim to provide an easy way to annotate compositional semantics for texts written in languages other than English. The annotation procedure is semi-automatic, and comprises seven layers of linguistic information: segmentation, symbolisation, semantic tagging, word sense disambiguation, syntactic structure, thematic role labelling, and co-reference. New languages can be added to the meaning bank as long as the documents are based on translations from English, but also introduce new interesting challenges on the linguistics assumptions underlying the Parallel Meaning Bank.
翻訳日:2021-04-19 00:45:29 公開日:2020-12-29
# (参考訳) 4Gから6Gへの小細胞進化:過去・現在・未来

Evolution of Small Cell from 4G to 6G: Past, Present, and Future ( http://arxiv.org/abs/2101.10451v1 )

ライセンス: CC BY 4.0
Vanlin Sathya(参考訳) 携帯電話システムの容量を増大させるため、4G LTEの小型セル(Femto Cells)を過去に展開し、同じ周波数帯を再利用し始めている。 しかし、これらの小さな細胞ライセンススペクトルは、拡張現実(AR)や仮想現実(VR)といった将来の応用を満たすには十分ではない。 そのため、携帯電話事業者はWi-Fi 5 GHz帯で、後にLTE Licensed Assisted Access (LAA) と命名された3GPPの周波数帯域を求める。 最近のLAAの展開(米国のような先進国)は、共存を深く理解する機会を提供する。 本稿では,私の過去,現在,将来の研究成果を,小細胞メリットの方向性について概説する。 6GHz、最新のWi-Fiバージョン802.11axは、最新の携帯電話技術である5G New Radio(NR)と無許可で共存する。

To boost the capacity of the cellular system, the operators have started to reuse the same licensed spectrum by deploying 4G LTE small cells (Femto Cells) in the past. But in time, these small cell licensed spectrum is not sufficient to satisfy future applications like augmented reality (AR)and virtual reality (VR). Hence, cellular operators look for alternate unlicensed spectrum in Wi-Fi 5 GHz band, later 3GPP named as LTE Licensed Assisted Access (LAA). The recent and current rollout of LAA deployments (in developed nations like the US) provides an opportunity to understand coexistence profound ground truth. This paper discusses a high-level overview of my past, present, and future research works in the direction of small cell benefits. In the future, we shift the focus onto the latest unlicensed band: 6 GHz, where the latest Wi-Fi version, 802.11ax, will coexist with the latest cellular technology, 5G New Radio(NR) in unlicensed
翻訳日:2021-04-19 00:19:20 公開日:2020-12-29
# (参考訳) ベイズ学習における最小過剰リスク

Minimum Excess Risk in Bayesian Learning ( http://arxiv.org/abs/2012.14868v1 )

ライセンス: CC BY 4.0
Aolin Xu, Maxim Raginsky(参考訳) 生成モデルにおけるベイズ学習の達成可能な最良性能を最小余剰リスク (MER) の定義と上界化により分析し,データから学習することで達成できる最小損失とモデルの実現が分かっていれば達成できる最小損失とのギャップを考察した。 MERの定義は、ベイズ学習における不確実性の異なる概念を定義するための原則化された方法を提供する。 MERの上界を導出する2つの方法を示す。 パラメトリック生成モデルを用いたベイズ学習に適した第1の方法は、モデルパラメータと観測データから予測される量との条件付き相互情報により、MERを上界に配置する。 これにより、より多くのデータが利用可能になるとmerがゼロに減衰する速度を定量化できます。 第2の方法は、特にパラメトリック予測モデルを用いたベイズ学習に適しており、MERは、真の予測モデルからの後方予測分布の偏差と、さらにデータからのモデルパラメータの最小推定誤差とを関連付ける。 モデルパラメータ推定の不確実性がMERや最終的な予測不確実性にどのように変換されるかを明確に示す。 また、MERの定義と分析を複数のパラメトリックモデルファミリの設定と非パラメトリックモデルの設定に拡張する。 議論の中で,ベイズ学習におけるmerと,頻繁学習における過剰リスクの比較を行った。

We analyze the best achievable performance of Bayesian learning under generative models by defining and upper-bounding the minimum excess risk (MER): the gap between the minimum expected loss attainable by learning from data and the minimum expected loss that could be achieved if the model realization were known. The definition of MER provides a principled way to define different notions of uncertainties in Bayesian learning, including the aleatoric uncertainty and the minimum epistemic uncertainty. Two methods for deriving upper bounds for the MER are presented. The first method, generally suitable for Bayesian learning with a parametric generative model, upper-bounds the MER by the conditional mutual information between the model parameters and the quantity being predicted given the observed data. It allows us to quantify the rate at which the MER decays to zero as more data becomes available. The second method, particularly suitable for Bayesian learning with a parametric predictive model, relates the MER to the deviation of the posterior predictive distribution from the true predictive model, and further to the minimum estimation error of the model parameters from data. It explicitly shows how the uncertainty in model parameter estimation translates to the MER and to the final prediction uncertainty. We also extend the definition and analysis of MER to the setting with multiple parametric model families and the setting with nonparametric models. Along the discussions we draw some comparisons between the MER in Bayesian learning and the excess risk in frequentist learning.
翻訳日:2021-04-18 23:53:35 公開日:2020-12-29
# (参考訳) ソフトルーティングと学習接続性に優れた深い森林の育成

Growing Deep Forests Efficiently with Soft Routing and Learned Connectivity ( http://arxiv.org/abs/2012.14878v1 )

ライセンス: CC BY 4.0
Jianghao Shen, Sicheng Wang, Zhangyang Wang(参考訳) ディープニューラルネットワーク(DNN)が最近普及したにも拘わらず、DNNと他の確立された機械学習モデルとのギャップの非解釈性の欠如や、高価な計算コストの増加など、その使用に対する懸念が高まっている。 多くの最近の研究 [1], [2], [3] は、バック伝搬を必要とせず、純粋にフィードフォワードの方法で決定木/ランダムな森林ブロックを逐次積み重ねる方法を探った。 決定木は固有の推論の透明性を享受するため、深い森林モデルもまた内部決定プロセスの理解を促進することができる。 本稿では,いくつかの重要な側面において,深い森林概念をさらに拡張する。 まず,ノードがハードバイナリ決定ではなく,あるいはソフトルーティングという,確率的ルーティング決定を行う確率的木を採用する。柔軟性の向上に加えて,各ツリーに対する非欲な最適化も可能にする。 第二に、リーのすべてのノードは、葉ノードとなる確率を示す新しい学習可能なハイパーパラメータを維持できる、革新的なトポロジー学習戦略を提案する。 このようにして、トレーニング中に、ツリーはパラメータとツリートポロジーの両方を共同で最適化する。 MNISTデータセットの実験により、我々の強化された深い森は[1],[3]よりも優れた、あるいは同等のパフォーマンスを達成でき、モデルの複雑さが劇的に減少することを示した。 例えば、15の木の1つの層しか持たないモデルでは、[3]のモデルと2000の木の2つの層で互換性を持って実行できる。

Despite the latest prevailing success of deep neural networks (DNNs), several concerns have been raised against their usage, including the lack of intepretability the gap between DNNs and other well-established machine learning models, and the growingly expensive computational costs. A number of recent works [1], [2], [3] explored the alternative to sequentially stacking decision tree/random forest building blocks in a purely feed-forward way, with no need of back propagation. Since decision trees enjoy inherent reasoning transparency, such deep forest models can also facilitate the understanding of the internaldecision making process. This paper further extends the deep forest idea in several important aspects. Firstly, we employ a probabilistic tree whose nodes make probabilistic routing decisions, a.k.a., soft routing, rather than hard binary decisions.Besides enhancing the flexibility, it also enables non-greedy optimization for each tree. Second, we propose an innovative topology learning strategy: every node in the ree now maintains a new learnable hyperparameter indicating the probability that it will be a leaf node. In that way, the tree will jointly optimize both its parameters and the tree topology during training. Experiments on the MNIST dataset demonstrate that our empowered deep forests can achieve better or comparable performance than [1],[3] , with dramatically reduced model complexity. For example,our model with only 1 layer of 15 trees can perform comparably with the model in [3] with 2 layers of 2000 trees each.
翻訳日:2021-04-18 23:52:27 公開日:2020-12-29
# (参考訳) マルチモーダルミームにおけるヘイトスピーチの検出

Detecting Hate Speech in Multi-modal Memes ( http://arxiv.org/abs/2012.14891v1 )

ライセンス: CC BY-SA 4.0
Abhishek Das, Japsimar Singh Wahi, Siyao Li(参考訳) 過去数年間、画像キャプションから視覚的な質問への回答に至るまで、マルチモーダル問題への関心が高まっている。 本稿では,ミームが興味深いマルチモーダル融合問題を引き起こすマルチモーダルミームにおけるヘイトスピーチ検出に着目した。 Facebook Meme Challenge \cite{kiela2020hateful}は、ミームが憎悪であるか否かを予測する二項分類問題の解決を目的としている。 この課題の重要な特徴は、ユニモーダル優先権を利用するモデルの可能性に対抗するために「良質な共同設立者」を含むことである。 課題は、最先端のモデルは人間に比べて性能が悪いことだ。 データセットの分析では、もともと嫌悪感のあるデータポイントの大部分は、ミームのイメージを記述するだけで良心的になることがわかった。 また、マルチモーダルベースラインの大多数は、ヘイトスピーチ(言語モダリティ)をより好んでいる。 これらの問題に対処するために,オブジェクト検出と画像キャプションモデルを用いて「実際のキャプション」を取得し,それをマルチモーダル表現と組み合わせ,バイナリ分類を行う。 このアプローチは、パフォーマンスを改善するためにデータセットに存在する良質なテキスト共同創設者に取り組む。 もうひとつの試みは、感情分析による予測を改善することです。 事前学習されたニューラルネットワークから得られるマルチモーダル表現を使用する代わりに、機能を強化するためのユニモーダル感情も含む。 上記の2つのアプローチを詳細に分析し、使用方法に好意的な理由を提示する。

In the past few years, there has been a surge of interest in multi-modal problems, from image captioning to visual question answering and beyond. In this paper, we focus on hate speech detection in multi-modal memes wherein memes pose an interesting multi-modal fusion problem. We aim to solve the Facebook Meme Challenge \cite{kiela2020hateful} which aims to solve a binary classification problem of predicting whether a meme is hateful or not. A crucial characteristic of the challenge is that it includes "benign confounders" to counter the possibility of models exploiting unimodal priors. The challenge states that the state-of-the-art models perform poorly compared to humans. During the analysis of the dataset, we realized that majority of the data points which are originally hateful are turned into benign just be describing the image of the meme. Also, majority of the multi-modal baselines give more preference to the hate speech (language modality). To tackle these problems, we explore the visual modality using object detection and image captioning models to fetch the "actual caption" and then combine it with the multi-modal representation to perform binary classification. This approach tackles the benign text confounders present in the dataset to improve the performance. Another approach we experiment with is to improve the prediction with sentiment analysis. Instead of only using multi-modal representations obtained from pre-trained neural networks, we also include the unimodal sentiment to enrich the features. We perform a detailed analysis of the above two approaches, providing compelling reasons in favor of the methodologies used.
翻訳日:2021-04-18 23:47:21 公開日:2020-12-29
# (参考訳) トランスフォーマーフィードフォワードレイヤーはキーバリュー記憶

Transformer Feed-Forward Layers Are Key-Value Memories ( http://arxiv.org/abs/2012.14913v1 )

ライセンス: CC0 1.0
Mor Geva, Roei Schuster, Jonathan Berant, Omer Levy(参考訳) フィードフォワード層はトランスフォーマーモデルのパラメータの3分の2を構成するが、ネットワークにおけるその役割は未調査のままである。 本稿では,トランスフォード言語モデルのフィードフォワード層がキー値記憶として機能し,各キーがトレーニング例のテキストパターンと相関し,各値が出力語彙上の分布を誘導することを示す。 実験では,学習したパターンは人間に解釈可能であり,下位層は浅いパターンを捉える傾向があり,上位層はよりセマンティックなパターンを学習する傾向を示した。 値がキーの入力パターンを補完するものとして、各パターン、特に上位層に現れると思われるトークンに確率質量を集中させる出力分布を誘導する。 最後に、フィードフォワード層の出力はそのメモリの合成であり、最終的な出力分布を生成するために残差接続を介してモデル層全体にわたって洗練されることを示す。

Feed-forward layers constitute two-thirds of a transformer model's parameters, yet their role in the network remains under-explored. We show that feed-forward layers in transformer-based language models operate as key-value memories, where each key correlates with textual patterns in the training examples, and each value induces a distribution over the output vocabulary. Our experiments show that the learned patterns are human-interpretable, and that lower layers tend to capture shallow patterns, while upper layers learn more semantic ones. The values complement the keys' input patterns by inducing output distributions that concentrate probability mass on tokens likely to appear immediately after each pattern, particularly in the upper layers. Finally, we demonstrate that the output of a feed-forward layer is a composition of its memories, which is subsequently refined throughout the model's layers via residual connections to produce the final output distribution.
翻訳日:2021-04-18 23:33:47 公開日:2020-12-29
# (参考訳) 多様なデータソースからウィキペディア記事セクションを生成する

Generating Wikipedia Article Sections from Diverse Data Sources ( http://arxiv.org/abs/2012.14919v1 )

ライセンス: CC BY 4.0
Mingda Chen, Sam Wiseman, Kevin Gimpel(参考訳) データからテキストへの生成のためのデータセットは通常、マルチドメイン、シングルセンテンス生成、またはシングルドメイン、ロングフォーム生成に焦点が当てられる。 本研究では,wikipediaの項目と対応する表データと各種メタデータを組み合わせる大規模データセットwikitabletを作成した。 WikiTableTには数百万のインスタンスがあり、さまざまなトピックやさまざまなレベルの柔軟性を備えた生成タスクをカバーしている。 WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。 質的な分析から、最良のアプローチは、流動的で高品質なテキストを生成することができるが、時には一貫性に苦しむ。

Datasets for data-to-text generation typically focus either on multi-domain, single-sentence generation or on single-domain, long-form generation. In this work, we create a large-scale dataset, WikiTableT, that pairs Wikipedia sections with their corresponding tabular data and various metadata. WikiTableT contains millions of instances, covering a broad range of topics, as well as a variety of flavors of generation tasks with different levels of flexibility. We benchmark several training and decoding strategies on WikiTableT. Our qualitative analysis shows that the best approaches can generate fluent and high quality texts but they sometimes struggle with coherence.
翻訳日:2021-04-18 23:20:23 公開日:2020-12-29
# (参考訳) 1次元畳み込みニューラルネットワークによる低品質ホルター心電図のロバストRピーク検出

Robust R-Peak Detection in Low-Quality Holter ECGs using 1D Convolutional Neural Network ( http://arxiv.org/abs/2101.01666v1 )

ライセンス: CC BY 4.0
Muhammad Uzair Zahid, Serkan Kiranyaz, Turker Ince, Ozer Can Devecioglu, Muhammad E. H. Chowdhury, Amith Khandakar, Anas Tahir and Moncef Gabbouj(参考訳) ホルターやウェアラブルデバイスから取得したECG信号のノイズと低品質は、Rピーク検出アルゴリズムの精度と堅牢性を低下させる。 本稿では,ホルターECG信号におけるRピーク検出のための汎用的で堅牢なシステムを提案する。 多くの提案アルゴリズムは、ECG R-peak検出の問題をうまく解決しているが、これらの検出器の性能は、そのような低品質のECGレコード上での顕著な差がある。 そこで本研究では,1次元畳み込みニューラルネットワーク(CNN)の新たな実装を検証モデルに統合し,誤報数を削減する。 このCNNアーキテクチャは、入力ECG信号からRピークの1次元分割マップを構築するために、エンコーダブロックと対応するデコーダブロックと、サンプルワイズ分類層とから構成される。 提案されたモデルをトレーニングすれば、単一のチャネルecgデータストリーム内のrピークを迅速かつ正確に検出するだけでなく、軽量なポータブルデバイス上でのリアルタイム監視に利用することもできる。 このモデルは、100万回以上のビートを持つ中国生理信号挑戦データベース(CPSC-DB)と、一般的に使用されるMIT-BIH Arrhythmia Database(MIT-DB)の2つのオープンアクセスECGデータベースでテストされている。 実験の結果、提案手法は99.30%のF1スコア、99.69%のリコール、98.91%の精度でCPSC-DBが達成された。 競合する全ての手法と比較して、ホルター心電図信号の偽陽性と偽陰性はそれぞれ54%以上、偽陰性は82%以上減少する。 結果は、ほとんどのmit-dbの競合アルゴリズムと99.83%のf1-score、99.85%のリコール、99.82%の精度で同等または優れた性能を示している。

Noise and low quality of ECG signals acquired from Holter or wearable devices deteriorate the accuracy and robustness of R-peak detection algorithms. This paper presents a generic and robust system for R-peak detection in Holter ECG signals. While many proposed algorithms have successfully addressed the problem of ECG R-peak detection, there is still a notable gap in the performance of these detectors on such low-quality ECG records. Therefore, in this study, a novel implementation of the 1D Convolutional Neural Network (CNN) is used integrated with a verification model to reduce the number of false alarms. This CNN architecture consists of an encoder block and a corresponding decoder block followed by a sample-wise classification layer to construct the 1D segmentation map of R- peaks from the input ECG signal. Once the proposed model has been trained, it can solely be used to detect R-peaks possibly in a single channel ECG data stream quickly and accurately, or alternatively, such a solution can be conveniently employed for real-time monitoring on a lightweight portable device. The model is tested on two open-access ECG databases: The China Physiological Signal Challenge (2020) database (CPSC-DB) with more than one million beats, and the commonly used MIT-BIH Arrhythmia Database (MIT-DB). Experimental results demonstrate that the proposed systematic approach achieves 99.30% F1-score, 99.69% recall, and 98.91% precision in CPSC-DB, which is the best R-peak detection performance ever achieved. Compared to all competing methods, the proposed approach can reduce the false-positives and false-negatives in Holter ECG signals by more than 54% and 82%, respectively. Results also demonstrate similar or better performance than most competing algorithms on MIT-DB with 99.83% F1-score, 99.85% recall, and 99.82% precision.
翻訳日:2021-04-18 22:38:34 公開日:2020-12-29
# (参考訳) 潜在軌道の確率的観測から非定常ランゲヴィンダイナミクスを学習する

Learning non-stationary Langevin dynamics from stochastic observations of latent trajectories ( http://arxiv.org/abs/2012.14944v1 )

ライセンス: CC BY 4.0
Mikhail Genkin, Owen Hughes, and Tatiana A. Engel(参考訳) 平衡から遠く離れた多くの複雑な系はランゲヴィン方程式によって記述できる確率力学を示す。 データからランゲヴィン方程式を推定すると、そのような系の過渡的力学がそれらの函数をいかに引き起こすかが明らかになる。 しかし、ダイナミクスは直接アクセスできないことが多く、確率的な観察過程を通してのみグリーニングできるため、推論は困難である。 本稿では,確率的観測過程と非定常潜在力学を明示的にモデル化したランジュバン方程式を推定する非パラメトリックな枠組みを提案する。 この枠組みは、観測されたシステムの非平衡の初期状態と最終状態、およびシステムの力学が観測期間を定義する可能性を説明する。 これらの非定常成分のいずれかを省略すると、誤った推測が起こり、非定常データ分布による誤った特徴がダイナミクスに現れる。 脳内の意思決定の基礎となる神経動力学のモデルを用いて、このフレームワークを説明します。

Many complex systems operating far from the equilibrium exhibit stochastic dynamics that can be described by a Langevin equation. Inferring Langevin equations from data can reveal how transient dynamics of such systems give rise to their function. However, dynamics are often inaccessible directly and can be only gleaned through a stochastic observation process, which makes the inference challenging. Here we present a non-parametric framework for inferring the Langevin equation, which explicitly models the stochastic observation process and non-stationary latent dynamics. The framework accounts for the non-equilibrium initial and final states of the observed system and for the possibility that the system's dynamics define the duration of observations. Omitting any of these non-stationary components results in incorrect inference, in which erroneous features arise in the dynamics due to non-stationary data distribution. We illustrate the framework using models of neural dynamics underlying decision making in the brain.
翻訳日:2021-04-18 22:20:23 公開日:2020-12-29
# (参考訳) 少数の名前付きエンティティ認識 - 包括的研究

Few-Shot Named Entity Recognition: A Comprehensive Study ( http://arxiv.org/abs/2012.14978v1 )

ライセンス: CC BY 4.0
Jiaxin Huang, Chunyuan Li, Krishan Subudhi, Damien Jose, Shobana Balakrishnan, Weizhu Chen, Baolin Peng, Jianfeng Gao, Jiawei Han(参考訳) 本稿では、少数のドメイン内ラベル付きデータがある場合に、名前付きエンティティ認識(ner)システムを効率的に構築するための包括的研究を行う。 近年の Transformer-based self-supervised pre-trained language model (PLMs) に基づいて,(1) 異なるエンティティタイプに対するプロトタイプ構築のためのメタラーニング,(2) ノイズの多いWebデータによる教師付き事前学習,(3) エンティティ関連ジェネリック表現の抽出,(3) 未ラベルのドメインデータを活用するための自己学習の3つの直交的手法を検討した。 これらのスキームの異なる組み合わせも考慮される。 ラベル付きデータの比率の異なる10の公開nerデータセットについて,広範な経験的比較を行い,今後の研究に有用な知見を示唆する。 実験により,提案するnerスキームは,小数点学習環境では,一般的に使用されるベースラインであるplmに基づく線形分類器を,ドメインラベルで微調整し,その性能を大幅に向上あるいは上回ることがわかった。 再現可能な研究のためのコードと事前訓練されたモデルをリリースします。

This paper presents a comprehensive study to efficiently build named entity recognition (NER) systems when a small number of in-domain labeled data is available. Based upon recent Transformer-based self-supervised pre-trained language models (PLMs), we investigate three orthogonal schemes to improve the model generalization ability for few-shot settings: (1) meta-learning to construct prototypes for different entity types, (2) supervised pre-training on noisy web data to extract entity-related generic representations and (3) self-training to leverage unlabeled in-domain data. Different combinations of these schemes are also considered. We perform extensive empirical comparisons on 10 public NER datasets with various proportions of labeled data, suggesting useful insights for future research. Our experiments show that (i) in the few-shot learning setting, the proposed NER schemes significantly improve or outperform the commonly used baseline, a PLM-based linear classifier fine-tuned on domain labels; (ii) We create new state-of-the-art results on both few-shot and training-free settings compared with existing methods. We will release our code and pre-trained models for reproducible research.
翻訳日:2021-04-18 21:19:28 公開日:2020-12-29
# 有限サム最適化のための高速増分期待最大化:漸近収束

Fast Incremental Expectation Maximization for finite-sum optimization: nonasymptotic convergence ( http://arxiv.org/abs/2012.14670v1 )

ライセンス: Link先を確認
Gersende Fort (IMT), P. Gach (IMT), E. Moulines (CMAP, XPOP)(参考訳) Fast Incremental expectation Maximization (FIEM)は、大規模なデータセットのためのEMフレームワークのバージョンである。 本稿では, EM フレームワーク内での確率近似において, FIEM などの漸進的 EM 型アルゴリズムを最初に再放送する。 すると、予想の収束に対する漸近的境界は、例数$n$と反復の最大数$\kmax$の関数として与えられる。 我々は,それぞれ$\kmax = o(n^{2/3}/\epsilon)$と$\kmax = o(\sqrt{n}/\epsilon^{3/2})$の2つの定常点を達成する戦略を提案する。 私たちの限界は文学にいくつかの改善をもたらす。 まず、$\kmax$が$\sqrt{n}$としてスケールすることを許可し、これはこれまでで最高のレートであった$n^{2/3}$よりも優れている。 第2に、$n^{2/3}$レートの場合、数値的な図解は、手元の最適化問題を特徴づける量の観点から、ステップサイズと境界の最適化された選択により、ステップサイズに対する保守的な選択が減り、期待値の収束の制御がより良くなることを示している。

Fast Incremental Expectation Maximization (FIEM) is a version of the EM framework for large datasets. In this paper, we first recast FIEM and other incremental EM type algorithms in the {\em Stochastic Approximation within EM} framework. Then, we provide nonasymptotic bounds for the convergence in expectation as a function of the number of examples $n$ and of the maximal number of iterations $\kmax$. We propose two strategies for achieving an $\epsilon$-approximate stationary point, respectively with $\kmax = O(n^{2/3}/\epsilon)$ and $\kmax = O(\sqrt{n}/\epsilon^{3/2})$, both strategies relying on a random termination rule before $\kmax$ and on a constant step size in the Stochastic Approximation step. Our bounds provide some improvements on the literature. First, they allow $\kmax$ to scale as $\sqrt{n}$ which is better than $n^{2/3}$ which was the best rate obtained so far; it is at the cost of a larger dependence upon the tolerance $\epsilon$, thus making this control relevant for small to medium accuracy with respect to the number of examples $n$. Second, for the $n^{2/3}$-rate, the numerical illustrations show that thanks to an optimized choice of the step size and of the bounds in terms of quantities characterizing the optimization problem at hand, our results desig a less conservative choice of the step size and provide a better control of the convergence in expectation.
翻訳日:2021-04-18 20:50:06 公開日:2020-12-29
# かなり深い異常検出に向けて

Towards Fair Deep Anomaly Detection ( http://arxiv.org/abs/2012.14961v1 )

ライセンス: Link先を確認
Hongjing Zhang, Ian Davidson(参考訳) 異常検出は、異常と見なされ、データサイエンスの根本的な問題であるインスタンスを見つけることを目的としている。 近年,画像などの複雑なデータにおいて,深部異常検出法は優れた結果が得られた。 本研究は,通常のサンプルからのみマッピングを学習する異常検出のための深層一クラス分類に焦点をあてる。 しかし、ディープラーニングによって行われる非線形変換は、社会的バイアスに関連するパターンを見つける可能性がある。 深部異常検出に公平さを加えることの課題は、公平かつ正確な異常予測を同時に行うことである。 本稿では,fair anomaly detectionアプローチ(deep fair svdd)のための新しいアーキテクチャを提案する。 これは通常、正則化器や制約としてフェアネスが加えられる方法とは異なる。 さらに,2つの効果的な公平性尺度を提案し,既存の深部異常検出手法が不公平であることを示す。 提案手法は,異常検出性能の低下を最小限に抑えることで不公平を解消できることを示す。 最後に、パラメータ解析、特徴の可視化、ランタイム分析など、提案モデルの強みと限界を示すために、詳細な分析を行う。

Anomaly detection aims to find instances that are considered unusual and is a fundamental problem of data science. Recently, deep anomaly detection methods were shown to achieve superior results particularly in complex data such as images. Our work focuses on deep one-class classification for anomaly detection which learns a mapping only from the normal samples. However, the non-linear transformation performed by deep learning can potentially find patterns associated with social bias. The challenge with adding fairness to deep anomaly detection is to ensure both making fair and correct anomaly predictions simultaneously. In this paper, we propose a new architecture for the fair anomaly detection approach (Deep Fair SVDD) and train it using an adversarial network to de-correlate the relationships between the sensitive attributes and the learned representations. This differs from how fairness is typically added namely as a regularizer or a constraint. Further, we propose two effective fairness measures and empirically demonstrate that existing deep anomaly detection methods are unfair. We show that our proposed approach can remove the unfairness largely with minimal loss on the anomaly detection performance. Lastly, we conduct an in-depth analysis to show the strength and limitations of our proposed model, including parameter analysis, feature visualization, and run-time analysis.
翻訳日:2021-04-18 20:49:35 公開日:2020-12-29
# MGML:リモートセンシングシーン分類のための多層多層特徴アンサンブルネットワーク

MGML: Multi-Granularity Multi-Level Feature Ensemble Network for Remote Sensing Scene Classification ( http://arxiv.org/abs/2012.14569v1 )

ライセンス: Link先を確認
Qi Zhao, Shuchang Lyu, Yuewen Li, Yujing Ma, Lijiang Chen(参考訳) リモートセンシング(RS)シーン分類は、RS画像のシーンカテゴリを予測する上で難しい課題である。 rs画像には2つの主要文字がある: 大きな解像度のばらつきによるクラス内の大きなばらつきと、大きな地理的被覆領域からの混乱した情報。 上記2文字からの負の影響を緩和する。 本稿では,多言語多層特徴集合ネットワーク(MGML-FENet)を提案する。 具体的には、チャネル分離機能生成器(CS-FG)を用いて、異なるレベルのネットワークにおいて、多粒度特徴を抽出する多粒度多層機能融合ブランチ(MGML-FFB)を提案する。 混乱する情報からの干渉を避けるため,全チャネル特徴生成器(FC-FG)による多様な予測を提供する多言語多層特徴集合モジュール(MGML-FEM)を提案する。 従来の手法と比較して,提案するネットワークは構造情報や細かな特徴を豊富に活用できる。 さらに,本提案手法はアンサンブル学習により,より説得力のある最終予測が得られる。 複数のRSデータセット(AID, NWPU-RESISC45, UC-Merced, VGoogle)の大規模な分類実験により, 提案したネットワークは, 従来のSOTA(State-of-the-art)ネットワークよりも優れた性能を示すことが示された。 また,mgml-fenetの良好な解釈性を示す。

Remote sensing (RS) scene classification is a challenging task to predict scene categories of RS images. RS images have two main characters: large intra-class variance caused by large resolution variance and confusing information from large geographic covering area. To ease the negative influence from the above two characters. We propose a Multi-granularity Multi-Level Feature Ensemble Network (MGML-FENet) to efficiently tackle RS scene classification task in this paper. Specifically, we propose Multi-granularity Multi-Level Feature Fusion Branch (MGML-FFB) to extract multi-granularity features in different levels of network by channel-separate feature generator (CS-FG). To avoid the interference from confusing information, we propose Multi-granularity Multi-Level Feature Ensemble Module (MGML-FEM) which can provide diverse predictions by full-channel feature generator (FC-FG). Compared to previous methods, our proposed networks have ability to use structure information and abundant fine-grained features. Furthermore, through ensemble learning method, our proposed MGML-FENets can obtain more convincing final predictions. Extensive classification experiments on multiple RS datasets (AID, NWPU-RESISC45, UC-Merced and VGoogle) demonstrate that our proposed networks achieve better performance than previous state-of-the-art (SOTA) networks. The visualization analysis also shows the good interpretability of MGML-FENet.
翻訳日:2021-04-18 20:49:03 公開日:2020-12-29
# 対話機械読解のための対話グラフモデリング

Dialogue Graph Modeling for Conversational Machine Reading ( http://arxiv.org/abs/2012.14827v1 )

ライセンス: Link先を確認
Siru Ouyang, Zhuosheng Zhang, Hai Zhao(参考訳) Conversational Machine Reading (CMR)は、複雑な方法で質問に答えることを目的としている。 マシンは、所定のルール文書、ユーザシナリオ、対話履歴に基づいてユーザーとの対話を通じて質問に答え、必要なら質問をする必要がある。 本稿では,CMRタスクにおける機械の理解と推論能力を改善するための対話グラフモデリングフレームワークを提案する。 グラフには3つの種類がある。 特に、談話グラフは、ルールテキスト間の談話関係を明示的に学習し、シナリオの余分な知識だけでなく、ルールテキスト内の局所的および文脈的接続を理解するために使用される。 そして最後に,情報を融合してユーザに返信するグローバルグラフが ‘Yes/No/Irrelevant’ か,あるいはフォローアップ質問で明確になるようにしています。

Conversational Machine Reading (CMR) aims at answering questions in a complicated manner. Machine needs to answer questions through interactions with users based on given rule document, user scenario and dialogue history, and ask questions to clarify if necessary. In this paper, we propose a dialogue graph modeling framework to improve the understanding and reasoning ability of machine on CMR task. There are three types of graph in total. Specifically, Discourse Graph is designed to learn explicitly and extract the discourse relation among rule texts as well as the extra knowledge of scenario; Decoupling Graph is used for understanding local and contextualized connection within rule texts. And finally a global graph for fusing the information together and reply to the user with our final decision being either ``Yes/No/Irrelevant" or to ask a follow-up question to clarify.
翻訳日:2021-04-18 20:48:38 公開日:2020-12-29
# MS-GWNN : 乳がん診断のためのマルチスケールグラフウェーブレットニューラルネットワーク

MS-GWNN:multi-scale graph wavelet neural network for breast cancer diagnosis ( http://arxiv.org/abs/2012.14619v1 )

ライセンス: Link先を確認
Mo Zhang, Quanzheng Li(参考訳) 乳がんは世界でも最も一般的ながんの1つであり、早期発見は乳がんの死亡率を著しく低下させる可能性がある。 乳がんの検出において,組織構造のマルチスケール情報を考慮に入れることが重要である。 そこで,癌組織におけるマルチスケールのコンテキスト特徴を捉えるために,正確なコンピュータ支援検出システム(CAD)を設計する鍵となる。 本研究では,乳癌の病理組織像分類のための新しいグラフ畳み込みニューラルネットワークを提案する。 この手法はマルチスケールグラフウェーブレットニューラルネットワーク(ms-gwnn)と呼ばれ、スペクトルグラフウェーブレットの局在性を利用してマルチスケール解析を行う。 異なるスケールの機能を集約することで、MS-GWNNは、病理スライド全体におけるマルチスケールのコンテキスト相互作用をエンコードできる。 2つの公開データセットの実験結果は,提案手法の優位性を示している。 さらに, アブレーション研究により, マルチスケール解析が癌診断の精度に有意な影響を及ぼすことが明らかとなった。

Breast cancer is one of the most common cancers in women worldwide, and early detection can significantly reduce the mortality rate of breast cancer. It is crucial to take multi-scale information of tissue structure into account in the detection of breast cancer. And thus, it is the key to design an accurate computer-aided detection (CAD) system to capture multi-scale contextual features in a cancerous tissue. In this work, we present a novel graph convolutional neural network for histopathological image classification of breast cancer. The new method, named multi-scale graph wavelet neural network (MS-GWNN), leverages the localization property of spectral graph wavelet to perform multi-scale analysis. By aggregating features at different scales, MS-GWNN can encode the multi-scale contextual interactions in the whole pathological slide. Experimental results on two public datasets demonstrate the superiority of the proposed method. Moreover, through ablation studies, we find that multi-scale analysis has a significant impact on the accuracy of cancer diagnosis.
翻訳日:2021-04-18 20:48:25 公開日:2020-12-29
# 高速R-CNNを用いたオブジェクトソート

Object sorting using faster R-CNN ( http://arxiv.org/abs/2012.14840v1 )

ライセンス: Link先を確認
Pengchang Chen and Vinayak Elangovan(参考訳) 工場生産ラインでは、異なる産業部品を迅速に差別化し、さらなるプロセスのために選別する必要がある。 部品は異なる色と形状を持つことができる。 人間がこれらの物体を適切なカテゴリーで区別して分類するのは面倒である。 このプロセスの自動化は、より多くの時間とコストを節約します。 自動化プロセスでは、特定の機能に基づいて異なるオブジェクトを検出し分類する適切なモデルを選択することがより難しい。 本稿では,3種類のニューラルネットワークモデルとオブジェクトソートシステムを比較した。 CNN、Fast R-CNN、Faster R-CNNである。 これらのモデルはテストされ、パフォーマンスが解析される。 さらに、オブジェクトソートシステムでは、Arduino制御の5 DoF(自由度)ロボットアームをプログラムして、対象ゾーンに対称オブジェクトをつかんでドロップする。 オブジェクトは、色、欠陥、非欠陥オブジェクトに基づいてクラスに分類される。

In a factory production line, different industry parts need to be quickly differentiated and sorted for further process. Parts can be of different colors and shapes. It is tedious for humans to differentiate and sort these objects in appropriate categories. Automating this process would save more time and cost. In the automation process, choosing an appropriate model to detect and classify different objects based on specific features is more challenging. In this paper, three different neural network models are compared to the object sorting system. They are namely CNN, Fast R-CNN, and Faster R-CNN. These models are tested, and their performance is analyzed. Moreover, for the object sorting system, an Arduino-controlled 5 DoF (degree of freedom) robot arm is programmed to grab and drop symmetrical objects to the targeted zone. Objects are categorized into classes based on color, defective and non-defective objects.
翻訳日:2021-04-18 20:48:11 公開日:2020-12-29
# 不均衡データストリームのためのドリフトアウェアマルチメモリモデル

Drift-Aware Multi-Memory Model for Imbalanced Data Streams ( http://arxiv.org/abs/2012.14791v1 )

ライセンス: Link先を確認
Amir Abolfazli and Eirini Ntoutsi(参考訳) オンラインクラス不均衡学習は、コンセプトドリフトとクラス不均衡の両方に影響されるデータストリームを扱う。 オンライン学習は、以前に学習した情報を活用し、新しい情報をモデルに組み込むトレードオフを見つけようとする。 これにより、モデルの漸進的な更新と、古い情報を解き放つ能力の両方が必要になる。 しかし、アンラーニングの不適切な使用は、新たに学習した情報が古い情報に干渉し、以前に学習した情報のリコールを妨げる現象である遡及的干渉問題を引き起こす可能性がある。 クラスが等しく表現されない場合、問題はより深刻になり、モデルからマイノリティ情報を排除することになる。 本研究では,メモリベースモデルにおけるオンライン学習におけるクラス不均衡問題に対処する,ドリフトアウェアマルチメモリモデル(dam3)を提案する。 dam3は、不均衡感応ドリフト検出器を内蔵し、モデル内のクラスのバランスのとれた表現を保持し、古い情報を忘れるのを防ぐワーキングメモリを用いて、遡及的干渉を解決することで、クラス不均衡を軽減する。 本研究では,実世界および合成データセットを用いた実験を通じて,提案手法がクラス不均衡を緩和し,最先端手法を上回ることを示した。

Online class imbalance learning deals with data streams that are affected by both concept drift and class imbalance. Online learning tries to find a trade-off between exploiting previously learned information and incorporating new information into the model. This requires both the incremental update of the model and the ability to unlearn outdated information. The improper use of unlearning, however, can lead to the retroactive interference problem, a phenomenon that occurs when newly learned information interferes with the old information and impedes the recall of previously learned information. The problem becomes more severe when the classes are not equally represented, resulting in the removal of minority information from the model. In this work, we propose the Drift-Aware Multi-Memory Model (DAM3), which addresses the class imbalance problem in online learning for memory-based models. DAM3 mitigates class imbalance by incorporating an imbalance-sensitive drift detector, preserving a balanced representation of classes in the model, and resolving retroactive interference using a working memory that prevents the forgetting of old information. We show through experiments on real-world and synthetic datasets that the proposed method mitigates class imbalance and outperforms the state-of-the-art methods.
翻訳日:2021-04-18 20:48:00 公開日:2020-12-29
# 繊維加工プロセス最適化のための深層強化学習に基づく多階層決定支援システム

A Deep Reinforcement Learning Based Multi-Criteria Decision Support System for Textile Manufacturing Process Optimization ( http://arxiv.org/abs/2012.14794v1 )

ライセンス: Link先を確認
Zhenglei He (GEMTEX), Kim Phuc Tran (GEMTEX), Sebastien Thomassey (GEMTEX), Xianyi Zeng (GEMTEX), Jie Xu, Chang Haiyi(参考訳) 繊維製造業は、近代技術の適用能力に乏しい相互接続プロセスにおいて、高い複雑さを伴う伝統的な産業である。 この領域での意思決定は、通常、複数の基準を考慮に入れ、より複雑さを引き起こす。 そこで本研究では,知能データに基づくランダム・フォレスト(RF)モデルと,繊維製造プロセスの目的と主観的要因に応じて,人間の知識に基づく解析的階層構造(AHP)を組み合わせた意思決定支援システムを提案する。 さらに重要なことに、繊維製造プロセスはマルコフ決定プロセス(MDP)パラダイムとして記述され、それを最適化するために深層強化学習スキームであるディープQネットワークス(DQN)が使用される。 本システムの有効性は, 織物のオゾン化過程を最適化するケーススタディで検証され, 繊維製造プロセスにおいて, 難しい意思決定タスクを習得できることを示した。

Textile manufacturing is a typical traditional industry involving high complexity in interconnected processes with limited capacity on the application of modern technologies. Decision-making in this domain generally takes multiple criteria into consideration, which usually arouses more complexity. To address this issue, the present paper proposes a decision support system that combines the intelligent data-based random forest (RF) models and a human knowledge based analytical hierarchical process (AHP) multi-criteria structure in accordance to the objective and the subjective factors of the textile manufacturing process. More importantly, the textile manufacturing process is described as the Markov decision process (MDP) paradigm, and a deep reinforcement learning scheme, the Deep Q-networks (DQN), is employed to optimize it. The effectiveness of this system has been validated in a case study of optimizing a textile ozonation process, showing that it can better master the challenging decision-making tasks in textile manufacturing processes.
翻訳日:2021-04-18 20:47:40 公開日:2020-12-29
# LISPR:強化学習による政策再利用のためのオプションフレームワーク

LISPR: An Options Framework for Policy Reuse with Reinforcement Learning ( http://arxiv.org/abs/2012.14942v1 )

ライセンス: Link先を確認
Daniel Graves, Jun Jin, Jun Luo(参考訳) 本稿では,既存のポリシを潜在的に未知のソースMDPからターゲットMDPに転送するフレームワークを提案する。 この枠組み(1)は、古典的コントローラ、ヒューリスティックポリシー、深層ニューラルネットワークに基づくポリシーを含む任意の種類のソースポリシーのターゲット領域における再利用を可能にし、(2)適切な理論条件下での最適性を達成し、(3)ターゲットmdpにおけるソースポリシーの改善を保証する。 これらは、ソースポリシーをターゲットのMDPにブラックボックスオプションとしてパッケージ化し、一般的な値関数を通じてオプションの開始セットを学習する理論的に基礎的な方法を提供することによって達成される。 提案手法は,(1)対象のMDP報酬をブラックボックスオプションの助けを借りて最大化し,(2)エージェントをブラックボックスオプションの学習開始セットの状態に戻すことによって,新たな政策の学習を容易にする。 この2つの変種は,ある条件下では同等の性能を示す。 シミュレーション環境における一連の実験を通じて、我々のフレームワークは、(準)最適ソースポリシーが与えられたスパース報酬問題において優れた性能を発揮し、連続学習やプログレッシブネットワークなどの転送手法における先行技術の改善を図っている。

We propose a framework for transferring any existing policy from a potentially unknown source MDP to a target MDP. This framework (1) enables reuse in the target domain of any form of source policy, including classical controllers, heuristic policies, or deep neural network-based policies, (2) attains optimality under suitable theoretical conditions, and (3) guarantees improvement over the source policy in the target MDP. These are achieved by packaging the source policy as a black-box option in the target MDP and providing a theoretically grounded way to learn the option's initiation set through general value functions. Our approach facilitates the learning of new policies by (1) maximizing the target MDP reward with the help of the black-box option, and (2) returning the agent to states in the learned initiation set of the black-box option where it is already optimal. We show that these two variants are equivalent in performance under some conditions. Through a series of experiments in simulated environments, we demonstrate that our framework performs excellently in sparse reward problems given (sub-)optimal source policies and improves upon prior art in transfer methods such as continual learning and progressive networks, which lack our framework's desirable theoretical properties.
翻訳日:2021-04-18 20:47:22 公開日:2020-12-29
# 教師なし特徴選択のための$l_{2,p}$-Norm正規化によるスパースPCA

Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature Selection ( http://arxiv.org/abs/2012.14595v1 )

ライセンス: Link先を確認
Zhengxin Li, Feiping Nie, Jintang Bian, Xuelong Li(参考訳) データマイニングの分野では、高次元データを扱う方法が避けられない問題である。 教師なしの機能選択はラベルに依存しないため、ますます注目を集めている。 スペクトルベースの教師なし手法の性能は、データ固有の構造を記述するために使用される構築された類似性行列の品質に依存する。 しかし、現実世界のデータには多くのノイズサンプルと特徴が含まれており、元のデータで構築された類似性行列は完全に信頼できない。 さらに悪いことに、サンプル数が増えるにつれて類似度行列のサイズが急速に拡大し、計算コストが大幅に増加する。 主成分分析に着想を得て, 再構成誤差を$l_{2,p}$-norm正規化と組み合わせ, 単純かつ効率的な特徴選択法を提案する。 特徴選択に用いられる投影行列は、スパース制約の下で再構成誤差を最小化することにより学習される。 そして,提案した教師なしモデルの解法と,アルゴリズムの収束と計算の複雑さを理論的に解析する効率的な最適化アルゴリズムを提案する。 最後に,実世界のデータセットに関する広範囲な実験を行い,提案手法の有効性を示す。

In the field of data mining, how to deal with high-dimensional data is an inevitable problem. Unsupervised feature selection has attracted more and more attention because it does not rely on labels. The performance of spectral-based unsupervised methods depends on the quality of constructed similarity matrix, which is used to depict the intrinsic structure of data. However, real-world data contain a large number of noise samples and features, making the similarity matrix constructed by original data cannot be completely reliable. Worse still, the size of similarity matrix expands rapidly as the number of samples increases, making the computational cost increase significantly. Inspired by principal component analysis, we propose a simple and efficient unsupervised feature selection method, by combining reconstruction error with $l_{2,p}$-norm regularization. The projection matrix, which is used for feature selection, is learned by minimizing the reconstruction error under the sparse constraint. Then, we present an efficient optimization algorithm to solve the proposed unsupervised model, and analyse the convergence and computational complexity of the algorithm theoretically. Finally, extensive experiments on real-world data sets demonstrate the effectiveness of our proposed method.
翻訳日:2021-04-18 20:46:59 公開日:2020-12-29
# MDPにおけるインクリメンタル自律探査のためのサンプル複雑さの改善

Improved Sample Complexity for Incremental Autonomous Exploration in MDPs ( http://arxiv.org/abs/2012.14755v1 )

ライセンス: Link先を確認
Jean Tarbouriech, Matteo Pirotta, Michal Valko, Alessandro Lazaric(参考訳) 報酬関数が提供されない未知環境の探索について検討する。 lim と auer [1] によって導入されたインクリメンタルな探索設定に基づいて、参照状態 $s_0$ から$l$ ステップ以内に到達可能なすべての状態を達成するために、$\epsilon$-optimal goal-conditioned policies のセットを学習する目的を定義します。 本稿では、新しい状態の発見を$s_0$からインターリーブし、ゴール条件付きポリシーを計算して新たに発見された状態に到達させるモデル推定の精度を向上させる新しいモデルベースアプローチを提案する。 結果のアルゴリズムであるDisCoはサンプル複雑性のスケールを$\tilde{O}(L^5 S_{L+\epsilon} \Gamma_{L+\epsilon} A \epsilon^{-2})$, where $A$ is the number of action, $S_{L+\epsilon}$は $s_0$ in $L+\epsilon$ steps, $\Gamma_{L+\epsilon}$はそのような状態上の力学の分岐因子である。 これは$\epsilon$と$l$の両方で[1]で提案されているアルゴリズムよりも改善され、ほとんどの関心のある環境では小さい$\gamma_{l+\epsilon}$ factorのコストがかかる。 さらに、DisCo は$\epsilon/c_{\min}$-optimal policy を$L$-reachable state で最小コスト$c_{\min}$ で定義した任意のコスト感受性のショートパス問題に対して返すことができる最初のアルゴリズムである。 最後に,我々の理論的知見を裏付ける予備実験結果について報告する。

We investigate the exploration of an unknown environment when no reward function is provided. Building on the incremental exploration setting introduced by Lim and Auer [1], we define the objective of learning the set of $\epsilon$-optimal goal-conditioned policies attaining all states that are incrementally reachable within $L$ steps (in expectation) from a reference state $s_0$. In this paper, we introduce a novel model-based approach that interleaves discovering new states from $s_0$ and improving the accuracy of a model estimate that is used to compute goal-conditioned policies to reach newly discovered states. The resulting algorithm, DisCo, achieves a sample complexity scaling as $\tilde{O}(L^5 S_{L+\epsilon} \Gamma_{L+\epsilon} A \epsilon^{-2})$, where $A$ is the number of actions, $S_{L+\epsilon}$ is the number of states that are incrementally reachable from $s_0$ in $L+\epsilon$ steps, and $\Gamma_{L+\epsilon}$ is the branching factor of the dynamics over such states. This improves over the algorithm proposed in [1] in both $\epsilon$ and $L$ at the cost of an extra $\Gamma_{L+\epsilon}$ factor, which is small in most environments of interest. Furthermore, DisCo is the first algorithm that can return an $\epsilon/c_{\min}$-optimal policy for any cost-sensitive shortest-path problem defined on the $L$-reachable states with minimum cost $c_{\min}$. Finally, we report preliminary empirical results confirming our theoretical findings.
翻訳日:2021-04-18 20:46:41 公開日:2020-12-29
# ツインニューラルネットの回帰

Twin Neural Network Regression ( http://arxiv.org/abs/2012.14873v1 )

ライセンス: Link先を確認
Sebastian J. Wetzel, Kevin Ryczko, Roger G. Melko, Isaac Tamblyn(参考訳) ツインニューラルネットワーク(TNN)レグレッションを導入する。 本手法は,ターゲット自体ではなく,2つの異なるデータポイントの目標値の違いを予測する。 従来の回帰問題の解は、未知のデータポイントのターゲットと全てのトレーニングデータポイントの全ての予測された差のアンサンブルを平均化することによって得られる。 アンサンブルは通常コストがかかるが、TNN回帰は本質的に1つのニューラルネットワークのみをトレーニングしながら、トレーニングセットの2倍の大きさの予測のアンサンブルを生成する。 アンサンブルは単一モデルよりも正確であることが示されているので、この性質は自然にTNN回帰に遷移する。 TNNは、他の最先端手法と比較して、異なるデータセットに対してより正確な予測を行うことができることを示す。 さらに、TNN回帰は自己整合条件によって制約される。 これらの条件に違反すると予測の不確実性が推定される。

We introduce twin neural network (TNN) regression. This method predicts differences between the target values of two different data points rather than the targets themselves. The solution of a traditional regression problem is then obtained by averaging over an ensemble of all predicted differences between the targets of an unseen data point and all training data points. Whereas ensembles are normally costly to produce, TNN regression intrinsically creates an ensemble of predictions of twice the size of the training set while only training a single neural network. Since ensembles have been shown to be more accurate than single models this property naturally transfers to TNN regression. We show that TNNs are able to compete or yield more accurate predictions for different data sets, compared to other state-of-the-art methods. Furthermore, TNN regression is constrained by self-consistency conditions. We find that the violation of these conditions provides an estimate for the prediction uncertainty.
翻訳日:2021-04-18 20:45:59 公開日:2020-12-29
# F測度に関する統計公式

Statistical Formulas for F Measures ( http://arxiv.org/abs/2012.14894v1 )

ライセンス: Link先を確認
Wenxin Jiang(参考訳) 我々は,F測度に対する標準誤差と信頼区間に関する解析式を,大標本限界における漸近正規性の性質に基づいて提供する。 この公式は、これらのF測度を十分に正確に推定するために、サンプルサイズ計画に適用することができる。

We provide analytic formulas for the standard error and confidence intervals for the F measures, based on a property of asymptotic normality in the large sample limit. The formula can be applied for sample size planning in order to achieve accurate enough estimation of these F measures.
翻訳日:2021-04-18 20:45:46 公開日:2020-12-29
# amortized samplerとしての変分オートエンコーダを用いた学習エネルギーモデル

Learning Energy-Based Model with Variational Auto-Encoder as Amortized Sampler ( http://arxiv.org/abs/2012.14936v1 )

ライセンス: Link先を確認
Jianwen Xie, Zilong Zheng, Ping Li(参考訳) 難解な分割関数のため、トレーニングエネルギーベースモデル(EBM)を最大限に訓練するにはマルコフ連鎖モンテカルロ(MCMC)サンプリングが必要であり、データとモデル分布間のクルバック・リーブラの勾配を近似する必要がある。 しかしながら、モード間の混合が難しいため、ebmからサンプルを採取するのは自明ではない。 本稿では,エネルギ関数から導かれるランゲヴィンダイナミクスなどの有限ステップMCMCを初期化するための変分オートエンコーダ(VAE)を学習し,ESMの効率的なアモータイズサンプリングを提案する。 これらのアモールト化MCMCサンプルを用いて、EMMは「合成による分析」スキームに従って最大限に訓練することができるが、変分自動エンコーダは変分ベイズを介してこれらのMCMCサンプルから学習する。 我々はこの共同学習アルゴリズムを変分MCMC教育と呼び、VAEはEMMをデータ分布に向けて追従する。 我々は学習アルゴリズムを情報幾何学の文脈における動的交互投影と解釈する。 提案モデルでは,GANやEMMに匹敵するサンプルを生成することができる。 さらに,本モデルが教師付き条件付き学習実験に対する効果的な確率分布を学習できることを実証する。

Due to the intractable partition function, training energy-based models (EBMs) by maximum likelihood requires Markov chain Monte Carlo (MCMC) sampling to approximate the gradient of the Kullback-Leibler divergence between data and model distributions. However, it is non-trivial to sample from an EBM because of the difficulty of mixing between modes. In this paper, we propose to learn a variational auto-encoder (VAE) to initialize the finite-step MCMC, such as Langevin dynamics that is derived from the energy function, for efficient amortized sampling of the EBM. With these amortized MCMC samples, the EBM can be trained by maximum likelihood, which follows an "analysis by synthesis" scheme; while the variational auto-encoder learns from these MCMC samples via variational Bayes. We call this joint training algorithm the variational MCMC teaching, in which the VAE chases the EBM toward data distribution. We interpret the learning algorithm as a dynamic alternating projection in the context of information geometry. Our proposed models can generate samples comparable to GANs and EBMs. Additionally, we demonstrate that our models can learn effective probabilistic distribution toward supervised conditional learning experiments.
翻訳日:2021-04-18 20:45:42 公開日:2020-12-29
# 非対称二元分類のためのブリッジングコストセンシティブとニーマン・ピアソンパラダイム

Bridging Cost-sensitive and Neyman-Pearson Paradigms for Asymmetric Binary Classification ( http://arxiv.org/abs/2012.14951v1 )

ライセンス: Link先を確認
Wei Vivian Li, Xin Tong, Jingyi Jessica Li(参考訳) タイプIとIIのエラーが不等な重大性を持つ非対称二項分類問題は、実世界の応用においてユビキタスである。 このような非対称性に対処するために、研究者は、タイプiエラーのようなより厳格な分類エラーを制御するために分類器を訓練するためのコストに敏感でニーマン・ピアソンのパラダイムを開発した。 コストに敏感なパラダイムは広く使われており、サンプル分割を必要としない単純な実装を持っているが、I型とII型のエラーのコストを明確に指定する必要がある。 対照的に、Neyman-Pearsonパラダイムは分類器を訓練することで、集団I型エラーの高確率制御を実現することができるが、効果的なトレーニングサンプルサイズを減らすサンプル分割に依存している。 2つのパラダイムは相補的な強みを持つので、それらの強みを分類器の構成に組み合わせるのが妥当である。 本研究では,この2つのパラダイム間の方法論的接続を初めて研究し,この2つのパラダイムを集団i型エラーの制御の観点から橋渡しするための tube-cs アルゴリズムを開発した。

Asymmetric binary classification problems, in which the type I and II errors have unequal severity, are ubiquitous in real-world applications. To handle such asymmetry, researchers have developed the cost-sensitive and Neyman-Pearson paradigms for training classifiers to control the more severe type of classification error, say the type I error. The cost-sensitive paradigm is widely used and has straightforward implementations that do not require sample splitting; however, it demands an explicit specification of the costs of the type I and II errors, and an open question is what specification can guarantee a high-probability control on the population type I error. In contrast, the Neyman-Pearson paradigm can train classifiers to achieve a high-probability control of the population type I error, but it relies on sample splitting that reduces the effective training sample size. Since the two paradigms have complementary strengths, it is reasonable to combine their strengths for classifier construction. In this work, we for the first time study the methodological connections between the two paradigms, and we develop the TUBE-CS algorithm to bridge the two paradigms from the perspective of controlling the population type I error.
翻訳日:2021-04-18 20:45:21 公開日:2020-12-29
# ailearn:spoof指紋検出のための適応型インクリメンタル学習モデル

AILearn: An Adaptive Incremental Learning Model for Spoof Fingerprint Detection ( http://arxiv.org/abs/2012.14639v1 )

ライセンス: Link先を確認
Shivang Agarwal, Ajita Rattani, C. Ravindranath Chowdary(参考訳) 増分学習により、学習者は既存のモデルを再訓練することなく、新しい知識を学べる。 これは、新しいデータからの学習と、以前にアクセスされたデータから抽出された知識の保存を必要とする困難なタスクである。 この挑戦は安定性・塑性ジレンマとして知られている。 AILearnは、新しいデータに基づいて訓練されたベース分類器のアンサンブルを、データ全体を用いてスクラッチから学習することなく、注意深く統合することにより、安定性と塑性のジレンマを克服するインクリメンタル学習の汎用モデルである。 我々は,スプーフ指紋検出アプリケーションにおけるAILearnモデルの有効性を実証した。 spoof指紋検出に関する重要な課題の1つは、新しい製造材料で生成されたspoofsの性能低下である。 AILearnは、'live'と'`spoof'の指紋画像の特徴に適応し、新しいデータが利用可能になったとき、新しいスプーフ指紋だけでなく、既知のスプーフ指紋も効率的に認識する適応型インクリメンタル学習モデルである。 我々の知識を最大限に活用するために、AILearnは、様々な基本分類器を生成するデータの性質に適応するインクリメンタル学習アルゴリズムの最初の試みである。 標準高次元データセットLivDet 2011, LivDet 2013, LivDet 2015で行った実験から, 新しい偽材料の性能向上が著しく高いことを示す。 平均すると、連続学習フェーズ間の精度が49.57ドル%向上する。

Incremental learning enables the learner to accommodate new knowledge without retraining the existing model. It is a challenging task which requires learning from new data as well as preserving the knowledge extracted from the previously accessed data. This challenge is known as the stability-plasticity dilemma. We propose AILearn, a generic model for incremental learning which overcomes the stability-plasticity dilemma by carefully integrating the ensemble of base classifiers trained on new data with the current ensemble without retraining the model from scratch using entire data. We demonstrate the efficacy of the proposed AILearn model on spoof fingerprint detection application. One of the significant challenges associated with spoof fingerprint detection is the performance drop on spoofs generated using new fabrication materials. AILearn is an adaptive incremental learning model which adapts to the features of the ``live'' and ``spoof'' fingerprint images and efficiently recognizes the new spoof fingerprints as well as the known spoof fingerprints when the new data is available. To the best of our knowledge, AILearn is the first attempt in incremental learning algorithms that adapts to the properties of data for generating a diverse ensemble of base classifiers. From the experiments conducted on standard high-dimensional datasets LivDet 2011, LivDet 2013 and LivDet 2015, we show that the performance gain on new fake materials is significantly high. On an average, we achieve $49.57\%$ improvement in accuracy between the consecutive learning phases.
翻訳日:2021-04-18 20:44:31 公開日:2020-12-29
# マンモグラフィにおける乳房腫瘤診断のための造影診断ネットワーク

COIN: Contrastive Identifier Network for Breast Mass Diagnosis in Mammography ( http://arxiv.org/abs/2012.14690v1 )

ライセンス: Link先を確認
Heyi Li, Dongdong Chen, William H. Nailon, Mike E. Davies, and David Laurenson(参考訳) マンモグラフィーにおけるコンピュータ支援乳がん診断は, マンモグラフィーデータの不足とデータ絡み合いから生じる課題である。 特にデータの不足は、プライバシと高価なアノテーションによるものだ。 そして、データの絡み合いは良性塊と悪性塊の間の高い類似性によるもので、その内の多様体は非常に小さいマージンの低次元空間に存在する。 これら2つの課題に対処するために,逆数拡大と多様体に基づくコントラスト学習を統合したContrastive Identifier Network (\textsc{COIN}) というディープラーニングフレームワークを提案する。 まず、対人学習を用いて、ROIを含むオン・オフ・ディストリビューション・マスを創出する。 その後,サイン付きグラフを組み込んだ新しいコントラスト損失を提案する。 最後に、ニューラルネットワークは、拡張データセットにおける深層モデルの識別性を改善する目的で、対照的な学習方法で最適化される。 特に、COINを用いることで、同一カテゴリのデータサンプルを近づき、異なるラベルを持つデータはより深い潜伏空間でプッシュされる。 さらに、COINは、乳癌の診断問題を解決するための最先端のアルゴリズムをかなりのマージンで上回り、93.4\%の精度と95.0\%のAUCスコアを達成している。 コードは***でリリースされる。

Computer-aided breast cancer diagnosis in mammography is a challenging problem, stemming from mammographical data scarcity and data entanglement. In particular, data scarcity is attributed to the privacy and expensive annotation. And data entanglement is due to the high similarity between benign and malignant masses, of which manifolds reside in lower dimensional space with very small margin. To address these two challenges, we propose a deep learning framework, named Contrastive Identifier Network (\textsc{COIN}), which integrates adversarial augmentation and manifold-based contrastive learning. Firstly, we employ adversarial learning to create both on- and off-distribution mass contained ROIs. After that, we propose a novel contrastive loss with a built Signed graph. Finally, the neural network is optimized in a contrastive learning manner, with the purpose of improving the deep model's discriminativity on the extended dataset. In particular, by employing COIN, data samples from the same category are pulled close whereas those with different labels are pushed further in the deep latent space. Moreover, COIN outperforms the state-of-the-art related algorithms for solving breast cancer diagnosis problem by a considerable margin, achieving 93.4\% accuracy and 95.0\% AUC score. The code will release on ***.
翻訳日:2021-04-18 20:44:08 公開日:2020-12-29
# 安全なマルチモーダルバイオメトリックスのためのディープハッシュ

Deep Hashing for Secure Multimodal Biometrics ( http://arxiv.org/abs/2012.14758v1 )

ライセンス: Link先を確認
Veeru Talreja, Matthew Valenti, Nasser Nasrabadi(参考訳) 単調システムと比較して、マルチモーダルバイオメトリックシステムには、エラー率の低下、精度の向上、人口被覆の増大など、いくつかの利点がある。 しかし、マルチモーダルシステムは、各ユーザに関連する複数の生体特性を格納しなければならないため、整合性とプライバシーの要求が高まる。 本稿では,各ユーザの顔と虹彩バイオメトリックスからセキュアなマルチモーダルテンプレートを生成する機能レベル融合のためのディープラーニングフレームワークを提案する。 我々は,deep hashing (binarization) 手法を fusion アーキテクチャに統合し,堅牢なバイナリ・マルチモーダル共有潜在表現を生成する。 さらに,キャンセル可能なバイオメトリックスと安全なスケッチ技術を組み合わせてハイブリッドなセキュアなアーキテクチャを採用し,それを深層ハッシュフレームワークと組み合わせることで,認証をパスする複数のバイオメトリックスの組み合わせを計算的に禁止する。 提案手法の有効性は顔と虹彩のマルチモーダルデータベースを用いて示し, 複数バイオメトリックスの融合によりマッチング性能が向上することが観察された。 さらに,提案手法は,生体データのプライバシ向上とともに,テンプレートのキャンセル性とアンリンク性も提供する。 さらに,ベンチマークデータセットを用いて,画像検索アプリケーションに対して提案するハッシュ関数をテストした。 本研究の目的は,顔や虹彩などのモダリティから得られる構造データに着目し,マルチモーダルフュージョン,ディープハッシュ,バイオメトリックセキュリティを統合する手法を開発することである。 提案手法は,全ての生体指標に適用可能な一般バイオメトリック・セキュリティ・フレームワークであり,提案手法を他の非拘束バイオメトリック・モダリティに拡張するためには,さらなる研究が必要である。

When compared to unimodal systems, multimodal biometric systems have several advantages, including lower error rate, higher accuracy, and larger population coverage. However, multimodal systems have an increased demand for integrity and privacy because they must store multiple biometric traits associated with each user. In this paper, we present a deep learning framework for feature-level fusion that generates a secure multimodal template from each user's face and iris biometrics. We integrate a deep hashing (binarization) technique into the fusion architecture to generate a robust binary multimodal shared latent representation. Further, we employ a hybrid secure architecture by combining cancelable biometrics with secure sketch techniques and integrate it with a deep hashing framework, which makes it computationally prohibitive to forge a combination of multiple biometrics that pass the authentication. The efficacy of the proposed approach is shown using a multimodal database of face and iris and it is observed that the matching performance is improved due to the fusion of multiple biometrics. Furthermore, the proposed approach also provides cancelability and unlinkability of the templates along with improved privacy of the biometric data. Additionally, we also test the proposed hashing function for an image retrieval application using a benchmark dataset. The main goal of this paper is to develop a method for integrating multimodal fusion, deep hashing, and biometric security, with an emphasis on structural data from modalities like face and iris. The proposed approach is in no way a general biometric security framework that can be applied to all biometric modalities, as further research is needed to extend the proposed framework to other unconstrained biometric modalities.
翻訳日:2021-04-18 20:43:46 公開日:2020-12-29
# YASO: ターゲットの知覚分析のための新しいベンチマーク

YASO: A New Benchmark for Targeted Sentiment Analysis ( http://arxiv.org/abs/2012.14541v1 )

ライセンス: Link先を確認
Matan Orbach, Orith Toledo-Ronen, Artem Spector, Ranit Aharonov, Yoav Katz and Noam Slonim(参考訳) センチメント分析研究は、完全な文書や単一文の分析から、ターゲットセンチメント分析(TSA)のタスクによって、単一の単語やフレーズに対する感情を識別する細部まで、長年にわたって変化してきた。 この問題はアルゴリズム的な側面に焦点を当てた多くの研究を引き寄せているが、通常は少数のデータセットからの選択に基づいて評価される。 本稿では,ターゲットとその感情をラベル付けするための新しいアノテーションスキームを用いて収集した,クラウドソースtsa評価データセットであるyasoを提案する。 このデータセットには、映画、ビジネス、製品レビューからの2,215の英語文と、7,415の用語と、それらの文章に注釈が付けられた対応する感情が含まれている。 分析はアノテーションの信頼性を検証し,収集したデータの特徴について検討する。 最後に、現在の5つのTSAシステムを使用したベンチマーク結果が今後の作業の基礎となり、この挑戦的な新しいデータセットを改善する余地が十分にあることを示す。

Sentiment analysis research has shifted over the years from the analysis of full documents or single sentences to a finer-level of detail -- identifying the sentiment towards single words or phrases -- with the task of Targeted Sentiment Analysis (TSA). While this problem is attracting a plethora of works focusing on algorithmic aspects, they are typically evaluated on a selection from a handful of datasets, and little effort, if any, is dedicated to the expansion of the available evaluation data. In this work, we present YASO -- a new crowd-sourced TSA evaluation dataset, collected using a new annotation scheme for labeling targets and their sentiments. The dataset contains 2,215 English sentences from movie, business and product reviews, and 7,415 terms and their corresponding sentiments annotated within these sentences. Our analysis verifies the reliability of our annotations, and explores the characteristics of the collected data. Lastly, benchmark results using five contemporary TSA systems lay the foundation for future work, and show there is ample room for improvement on this challenging new dataset.
翻訳日:2021-04-18 20:43:19 公開日:2020-12-29
# クエリフリーリソースを用いた抽象的クエリ重視要約

Abstractive Query Focused Summarization with Query-Free Resources ( http://arxiv.org/abs/2012.14774v1 )

ライセンス: Link先を確認
Yumo Xu and Mirella Lapata(参考訳) 大規模なデータセットが利用可能になったことで、ニューラルネットワークのシーケンスからシーケンスへのモデルが開発され、前述したクエリに対応しない一般的なサマリー、すなわちサマリーを生成するようになった。 しかし、トレーニングデータがないため、クエリ集中要約(QFS)は主に抽出法を用いて研究されている。 本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。 本稿では,要約と問合せのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeと,回答エビデンス推定のための遠隔教師付きトレーニングタスクを提案する。 さらに、ジェネリックデータを生成に活用するために、トレーニングと推論の間に3つの属性が組み込まれ、最終要約の形状を制御する:証拠ランク、クエリガイダンス、要約長。 最小限の監視から学んだにもかかわらず、我々のシステムは、ドメインとクエリータイプをまたいだ遠隔監視設定において最先端の結果を達成する。

The availability of large-scale datasets has driven the development of neural sequence-to-sequence models to generate generic summaries, i.e., summaries which do not correspond to any pre-specified queries. However, due to the lack of training data, query focused summarization (QFS) has been studied mainly with extractive methods. In this work, we consider the problem of leveraging only generic summarization resources to build an abstractive QFS system. We propose Marge, a Masked ROUGE Regression framework composed of a novel unified representation for summaries and queries, and a distantly supervised training task for answer evidence estimation. To further utilize generic data for generation, three attributes are incorporated during training and inference to control the shape of the final summary: evidence rank, query guidance, and summary length. Despite learning from minimal supervision, our system achieves state-of-the-art results in the distantly supervised setting across domains and query types.
翻訳日:2021-04-18 20:43:01 公開日:2020-12-29
# ランダム植林:直接解釈可能な木のアンサンブル

Random Planted Forest: a directly interpretable tree ensemble ( http://arxiv.org/abs/2012.14563v1 )

ライセンス: Link先を確認
Munir Hiabu, Enno Mammen, Joseph T. Meyer(参考訳) 本稿では,古典的ランダム林の各木を同時に生育する植林木群に置き換えた回帰設定において,予測のための新しい解釈可能かつ木ベースアルゴリズムを提案する。 このアルゴリズムの動機は、各木がその分解内の関数に対応する関数 anova decomposition perspective から未知の回帰関数を推定することである。 したがって、植木は相互作用項の数に制限される。 ANOVA分解における近似の最大順序を指定または無制限にすることができる。 第一次近似が選択されると、結果は加法モデルとなる。 他の極端な場合、近似の順序が制限されない場合、結果として得られるモデルは回帰関数の形式に制限を与えない。 シミュレーション研究により,無作為植林手法の予測と可視化特性について検討した。 また,基盤となる付加物モデルの場合,ランダム植林の理想化版に対する理論を考案する。 加法の場合、理想化されたバージョンは、次数$n^{-2/5}$の対数係数漸近的に最適な1次元収束率に達する。

We introduce a novel interpretable and tree-based algorithm for prediction in a regression setting in which each tree in a classical random forest is replaced by a family of planted trees that grow simultaneously. The motivation for our algorithm is to estimate the unknown regression function from a functional ANOVA decomposition perspective, where each tree corresponds to a function within that decomposition. Therefore, planted trees are limited in the number of interaction terms. The maximal order of approximation in the ANOVA decomposition can be specified or left unlimited. If a first order approximation is chosen, the result is an additive model. In the other extreme case, if the order of approximation is not limited, the resulting model puts no restrictions on the form of the regression function. In a simulation study we find encouraging prediction and visualisation properties of our random planted forest method. We also develop theory for an idealised version of random planted forests in the case of an underlying additive model. We show that in the additive case, the idealised version achieves up to a logarithmic factor asymptotically optimal one-dimensional convergence rates of order $n^{-2/5}$.
翻訳日:2021-04-18 20:42:25 公開日:2020-12-29
# シーングラフ間の類似性学習による画像間検索

Image-to-Image Retrieval by Learning Similarity between Scene Graphs ( http://arxiv.org/abs/2012.14700v1 )

ライセンス: Link先を確認
Sangwoong Yoon, Woo Young Kang, Sungwook Jeon, SeongEun Lee, Changjin Han, Jonghun Park, Eun-Sol Kim(参考訳) シーングラフは、構造的かつ象徴的な方法で画像の高レベルコンテンツをコンパクトに要約するので、2つの画像のシーングラフ間の類似性はその内容の関連性を反映している。 そこで本研究では,グラフニューラルネットワークによるシーングラフ類似度を用いた画像画像検索手法を提案する。 本手法では,学習済み文類似度モデルを用いて,人間の注釈付キャプションから計算したプロキシ画像関連尺度を予測するために,グラフニューラルネットワークを訓練する。 人間のアノテータによって測定された画像関連性のためのデータセットを収集し,公開し,検索アルゴリズムを評価する。 収集したデータセットから,本手法は他の競争ベースラインに比べて画像類似性に対する人間の認識とよく一致していることが示された。

As a scene graph compactly summarizes the high-level content of an image in a structured and symbolic manner, the similarity between scene graphs of two images reflects the relevance of their contents. Based on this idea, we propose a novel approach for image-to-image retrieval using scene graph similarity measured by graph neural networks. In our approach, graph neural networks are trained to predict the proxy image relevance measure, computed from human-annotated captions using a pre-trained sentence similarity model. We collect and publish the dataset for image relevance measured by human annotators to evaluate retrieval algorithms. The collected dataset shows that our method agrees well with the human perception of image similarity than other competitive baselines.
翻訳日:2021-04-18 20:42:10 公開日:2020-12-29
# 低ランクテンソルの推論 - デバイアスは不要

Inference for Low-rank Tensors -- No Need to Debias ( http://arxiv.org/abs/2012.14844v1 )

ライセンス: Link先を確認
Dong Xia and Anru R. Zhang and Yuchen Zhou(参考訳) 本稿では,いくつかの低ランクテンソルモデルの統計的推論について考察する。 具体的には、タッカー低ランクテンソルPCAまたは回帰モデルにおいて、ある程度の誤差率を達成する推定値が与えられた場合、更新された推定値の漸近分布に基づいてパラメータテンソルの特異部分空間に対するデータ駆動信頼領域を開発する。 漸近分布は、信号対雑音比(PCAモデル)またはサンプルサイズ(回帰モデル)のいくつかの必須条件の下で確立される。 パラメータテンソルがさらに直交的に分解可能であれば、各特異ベクトルに対する推論法と理論を開発する。 ランク1テンソルPCAモデルでは、主成分の一般線形形式に対する漸近分布とパラメータテンソルの各エントリに対する信頼区間を確立する。 最後に,理論的な発見を補うために数値シミュレーションを行う。 これらのモデルすべてにおいて、既存の作業における行列/ベクトルの設定と異なり、推定の漸近分布の確立や低ランクテンソルの統計的推論にはデバイアスは不要である。 実際、低ランクテンソル推定のための広く観測された統計計算-gapのため、通常は計算可能な推定が達成可能であることを保証するために、統計(または情報理論)の限界よりも強い条件を必要とする。 驚くべきことに、このような条件 `incidentally" はデバイアスなしで低ランクテンソル推論を可能にする。

In this paper, we consider the statistical inference for several low-rank tensor models. Specifically, in the Tucker low-rank tensor PCA or regression model, provided with any estimates achieving some attainable error rate, we develop the data-driven confidence regions for the singular subspace of the parameter tensor based on the asymptotic distribution of an updated estimate by two-iteration alternating minimization. The asymptotic distributions are established under some essential conditions on the signal-to-noise ratio (in PCA model) or sample size (in regression model). If the parameter tensor is further orthogonally decomposable, we develop the methods and theory for inference on each individual singular vector. For the rank-one tensor PCA model, we establish the asymptotic distribution for general linear forms of principal components and confidence interval for each entry of the parameter tensor. Finally, numerical simulations are presented to corroborate our theoretical discoveries. In all these models, we observe that different from many matrix/vector settings in existing work, debiasing is not required to establish the asymptotic distribution of estimates or to make statistical inference on low-rank tensors. In fact, due to the widely observed statistical-computational-gap for low-rank tensor estimation, one usually requires stronger conditions than the statistical (or information-theoretic) limit to ensure the computationally feasible estimation is achievable. Surprisingly, such conditions ``incidentally" render a feasible low-rank tensor inference without debiasing.
翻訳日:2021-04-18 20:41:58 公開日:2020-12-29
# 適応型動的プログラミングツールボックス

The Adaptive Dynamic Programming Toolbox ( http://arxiv.org/abs/2012.14654v1 )

ライセンス: Link先を確認
Xiaowei Xing, Dong Eui Chang(参考訳) 本稿では,連続時間非線形システムの最適制御問題を解く適応動的プログラミングツールボックス(ADPT)を開発した。 適応型動的プログラミング技術に基づいて、ADPTはモデルベースの作業モードにおけるシステムダイナミクスからの最適フィードバック制御や、システムモデルの知識を必要とせずにモデルフリー作業モードにおけるシステムの軌道の測定から計算する。 複数のオプションが用意されており、ADPTは様々なカスタマイズされた状況に対応できる。 最適制御のための他の一般的なソフトウェアツールボックスと比較して、ADPTは計算精度と速度を楽しみ、衛星姿勢制御問題への応用を図示している。

The paper develops the Adaptive Dynamic Programming Toolbox (ADPT), which solves optimal control problems for continuous-time nonlinear systems. Based on the adaptive dynamic programming technique, the ADPT computes optimal feedback controls from the system dynamics in the model-based working mode, or from measurements of trajectories of the system in the model-free working mode without the requirement of knowledge of the system model. Multiple options are provided such that the ADPT can accommodate various customized circumstances. Compared to other popular software toolboxes for optimal control, the ADPT enjoys its computational precision and speed, which is illustrated with its applications to a satellite attitude control problem.
翻訳日:2021-04-18 20:41:34 公開日:2020-12-29
# シーケンスタギングとしてのロバスト対話音声書き換え

Robust Dialogue Utterance Rewriting as Sequence Tagging ( http://arxiv.org/abs/2012.14535v1 )

ライセンス: Link先を確認
Jie Hao, Linfeng Song, Liwei Wang, Kun Xu, Zhaopeng Tu and Dong Yu(参考訳) 対話書き換えの課題は,対話コンテキストから欠落した内容をコピーし,最新の対話発話を再構築することにある。 これまで、このタスクの既存のモデルは堅牢性の問題、すなわち、異なるドメインでテストする場合のパフォーマンスは劇的に低下します。 この頑健性の問題に対処するために,新たなシーケンスタグベースモデルを提案することで,検索空間を大幅に削減するが,このタスクのコアはいまだに十分にカバーされている。 テキスト生成のためのほとんどのタグ付けモデルの一般的な問題として、モデルの出力は流動性に欠ける可能性がある。 この問題を軽減するため,REINFORCE フレームワークを用いてBLEU や GPT-2 から損失信号を注入する。 実験は、ドメイン転送に関する現在の最先端システムよりも、我々のモデルの大幅な改善を示しています。

The task of dialogue rewriting aims to reconstruct the latest dialogue utterance by copying the missing content from the dialogue context. Until now, the existing models for this task suffer from the robustness issue, i.e., performances drop dramatically when testing on a different domain. We address this robustness issue by proposing a novel sequence-tagging-based model so that the search space is significantly reduced, yet the core of this task is still well covered. As a common issue of most tagging models for text generation, the model's outputs may lack fluency. To alleviate this issue, we inject the loss signal from BLEU or GPT-2 under a REINFORCE framework. Experiments show huge improvements of our model over the current state-of-the-art systems on domain transfer.
翻訳日:2021-04-18 20:40:32 公開日:2020-12-29
# ヒューマンスコアは要約評価の最良の基準か?

Is human scoring the best criteria for summary evaluation? ( http://arxiv.org/abs/2012.14602v1 )

ライセンス: Link先を確認
Oleg Vasilyev and John Bohannon(参考訳) 通常、要約品質尺度は人間の注釈による品質スコアと比較される。 人間のスコアと高い相関は、より良い指標の公正な指標であると考えられている。 この見解に疑問を呈する観測について論じる。 我々は代替指標の可能性を示す。 尺度の族として、人間のスコアとの相関に頼らない最良の尺度を選択する基準を検討する。 BLANCファミリーの測度に対する観察は、この基準が全く異なる要約のスタイルで普遍的であることを示唆している。

Normally, summary quality measures are compared with quality scores produced by human annotators. A higher correlation with human scores is considered to be a fair indicator of a better measure. We discuss observations that cast doubt on this view. We attempt to show a possibility of an alternative indicator. Given a family of measures, we explore a criterion of selecting the best measure not relying on correlations with human scores. Our observations for the BLANC family of measures suggest that the criterion is universal across very different styles of summaries.
翻訳日:2021-04-18 20:39:59 公開日:2020-12-29
# SIT3: 構造誘起変換器によるコード要約

SIT3: Code Summarization with Structure-Induced Transformer ( http://arxiv.org/abs/2012.14710v1 )

ライセンス: Link先を確認
Hongqiu Wu and Hai Zhao and Min Zhang(参考訳) コード要約(CS)は、ソースコードに対する意味のあるアノテーションを自動的に生成することを目的としており、プログラマ指向として知られている。 以前の研究は構造ベースのトラバーサル(sbt)やtree-lstmやgnnのような非系列モデルを適用して構造プログラムの意味学を学ぶことを試みた。 1) SBT を Transformer に組み込むのが効果的でないこと,2) グローバル情報を GNN で取得すること,3) 構造的意味論を Transformer でのみキャプチャすることを過小評価すること,などである。 本稿では, 逐次入力を高効率な構造モデルで符号化する, 構造誘起セルフアテンションに基づく新しいモデルを提案する。 広範な実験により,本モデルが人気のあるベンチマークで新たな最先端結果を得ることが示された。 私たちの知る限りでは、transformerを使って高効率で余分なパラメータのない構造情報をモデル化するコード要約に関する最初の作業です。 また、事前処理の方法についてのチュートリアルも提供します。

Code summarization (CS) is becoming a promising area in recent natural language understanding, which aims to generate sensible annotations automatically for source code and is known as programmer oriented. Previous works attempt to apply structure-based traversal (SBT) or non-sequential models like Tree-LSTM and GNN to learn structural program semantics. They both meet the following drawbacks: 1) it is shown ineffective to incorporate SBT into Transformer; 2) it is limited to capture global information through GNN; 3) it is underestimated to capture structural semantics only using Transformer. In this paper, we propose a novel model based on structure-induced self-attention, which encodes sequential inputs with highly-effective structure modeling. Extensive experiments show that our newly-proposed model achieves new state-of-the-art results on popular benchmarks. To our best knowledge, it is the first work on code summarization that uses Transformer to model structural information with high efficiency and no extra parameters. We also provide a tutorial on how we pre-process.
翻訳日:2021-04-18 20:39:15 公開日:2020-12-29
# LayoutLMv2:ビジュアルリッチ文書理解のためのマルチモーダル事前トレーニング

LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding ( http://arxiv.org/abs/2012.14740v1 )

ライセンス: Link先を確認
Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou(参考訳) テキストとレイアウトの事前トレーニングは、効果的なモデルアーキテクチャと大規模なラベルなしスキャン/デジタルネイティブドキュメントの利点により、視覚的にリッチな文書理解タスクで効果的であることが証明されている。 本稿では,新しいモデルアーキテクチャと事前学習タスクを活用するマルチモーダルフレームワークにおいて,テキスト,レイアウト,イメージを事前学習することで,textbf{LayoutLMv2}を提案する。 特に、LayoutLMv2は、既存のマスク付き視覚言語モデリングタスクだけでなく、新しいテキストイメージアライメントとテキストイメージマッチングタスクをトレーニング前の段階で使用しています。 また、トランスフォーマーアーキテクチャに空間認識型セルフアテンション機構を統合することで、異なるテキストブロック間の相対的な位置関係を完全に理解することができる。 実験の結果,LayoutLMv2 は,FUNSD (0.7895 -> 0.8420), CORD (0.9493 -> 0.9601), SROIE (0.9524 -> 0.9781), Kleister-NDA (0.834 -> 0.852), RVL-CDIP (0.9443 -> 0.9564), DocVQA (0.7295 -> 0.8672) など,さまざまな下流視覚に富む文書理解タスクにおいて,強力なベースラインを達成し,新たな最先端の文書理解タスクを実現することがわかった。

Pre-training of text and layout has proved effective in a variety of visually-rich document understanding tasks due to its effective model architecture and the advantage of large-scale unlabeled scanned/digital-born documents. In this paper, we present \textbf{LayoutLMv2} by pre-training text, layout and image in a multi-modal framework, where new model architectures and pre-training tasks are leveraged. Specifically, LayoutLMv2 not only uses the existing masked visual-language modeling task but also the new text-image alignment and text-image matching tasks in the pre-training stage, where cross-modality interaction is better learned. Meanwhile, it also integrates a spatial-aware self-attention mechanism into the Transformer architecture, so that the model can fully understand the relative positional relationship among different text blocks. Experiment results show that LayoutLMv2 outperforms strong baselines and achieves new state-of-the-art results on a wide variety of downstream visually-rich document understanding tasks, including FUNSD (0.7895 -> 0.8420), CORD (0.9493 -> 0.9601), SROIE (0.9524 -> 0.9781), Kleister-NDA (0.834 -> 0.852), RVL-CDIP (0.9443 -> 0.9564), and DocVQA (0.7295 -> 0.8672).
翻訳日:2021-04-18 20:38:56 公開日:2020-12-29
# 文節を用いた中国語テキストの逆例生成

Generating Adversarial Examples in Chinese Texts Using Sentence-Pieces ( http://arxiv.org/abs/2012.14769v1 )

ライセンス: Link先を確認
Linyang Li, Yunfan Shao, Demin Song, Xipeng Qiu, Xuanjing Huang(参考訳) テキストにおける敵対的攻撃は、多くの場合、成功した攻撃を達成するために、元のテキストにおける単語や文字を置き換える置換ベースの方法である。 最近の手法では、代用生成器として事前学習された言語モデルを使用している。 中国語ではそのような方法は適用できないが、中国語の単語はまず区切りを必要とする。 本稿では,中国語で副詞を作るために,文節を用いた代用詞生成器として事前学習言語モデルを提案する。 生成した対数例の置換は文字や単語ではなく、中国の読者にとって自然な「textit{'pieces'}」である。 実験の結果, 生成した逆行性サンプルは, 強いターゲットモデルに誤解を与え, 流動的かつ意味的に保存できることがわかった。

Adversarial attacks in texts are mostly substitution-based methods that replace words or characters in the original texts to achieve success attacks. Recent methods use pre-trained language models as the substitutes generator. While in Chinese, such methods are not applicable since words in Chinese require segmentations first. In this paper, we propose a pre-train language model as the substitutes generator using sentence-pieces to craft adversarial examples in Chinese. The substitutions in the generated adversarial examples are not characters or words but \textit{'pieces'}, which are more natural to Chinese readers. Experiments results show that the generated adversarial samples can mislead strong target models and remain fluent and semantically preserved.
翻訳日:2021-04-18 20:38:20 公開日:2020-12-29
# 話者モデルを用いた対話における感情認識のための階層変換器

A Hierarchical Transformer with Speaker Modeling for Emotion Recognition in Conversation ( http://arxiv.org/abs/2012.14781v1 )

ライセンス: Link先を確認
Jiangnan Li, Zheng Lin, Peng Fu, Qingyi Si, Weiping Wang(参考訳) 会話における感情認識(ERC)は、従来のテキスト感情認識よりも難しい課題である。 これは、テキストの意味情報だけでなく、話者の影響も考慮すべき、パーソナライズされた対話的な感情認識タスクと見なすことができる。 現在の方法は、各話者間の関係を構築することによって話者の相互作用をモデル化する。 しかし、このきめ細かい複雑なモデリングは計算コストが高く、拡張が難しく、局所的な文脈しか考慮できない。 この問題に対処するため、ターゲット話者に特有の話者を特定することなく、話者内および話者間依存関係という、複雑なモデリングをバイナリバージョンに単純化する。 長距離依存解消能力に優れたトランスフォーマにおける話者の簡易な対話モデルを実現するため,3種類のマスクを設計,それぞれ3つの独立したトランスフォーマブロックで活用した。 設計されたマスクはそれぞれ、従来のコンテキストモデリング、スピーカー内依存性、スピーカー間依存性をモデル化する。 さらに,トランスブロックによって抽出された異なる話者認識情報が予測に多種多様に寄与するので,注意機構を利用して自動重み付けを行う。 2つのERCデータセットの実験は、我々のモデルがより良いパフォーマンスを達成するのに有効であることを示している。

Emotion Recognition in Conversation (ERC) is a more challenging task than conventional text emotion recognition. It can be regarded as a personalized and interactive emotion recognition task, which is supposed to consider not only the semantic information of text but also the influences from speakers. The current method models speakers' interactions by building a relation between every two speakers. However, this fine-grained but complicated modeling is computationally expensive, hard to extend, and can only consider local context. To address this problem, we simplify the complicated modeling to a binary version: Intra-Speaker and Inter-Speaker dependencies, without identifying every unique speaker for the targeted speaker. To better achieve the simplified interaction modeling of speakers in Transformer, which shows excellent ability to settle long-distance dependency, we design three types of masks and respectively utilize them in three independent Transformer blocks. The designed masks respectively model the conventional context modeling, Intra-Speaker dependency, and Inter-Speaker dependency. Furthermore, different speaker-aware information extracted by Transformer blocks diversely contributes to the prediction, and therefore we utilize the attention mechanism to automatically weight them. Experiments on two ERC datasets indicate that our model is efficacious to achieve better performance.
翻訳日:2021-04-18 20:38:08 公開日:2020-12-29
# ハードラベルブラックボックス設定における自然言語攻撃の生成

Generating Natural Language Attacks in a Hard Label Black Box Setting ( http://arxiv.org/abs/2012.14956v1 )

ライセンス: Link先を確認
Rishabh Maheshwary, Saket Maheshwary and Vikram Pudi(参考訳) ハードラベルブラックボックス設定において,自然言語処理モデルを攻撃するための重要かつ困難な課題について検討する。 そこで本研究では,テキスト分類と包摂作業において,高品質な敵の例を提示する意思決定型攻撃戦略を提案する。 提案手法は,ターゲットモデルによって予測される最上位ラベルのみを観測することにより,有理かつ意味的に類似した敵例を作成するために,人口ベース最適化アルゴリズムを利用する。 各イテレーションにおいて、最適化手順は、原文と逆文の全体的な意味的類似性を最大化する単語置換を可能にする。 さらに,本手法は代替モデルや訓練データの利用には依存していない。 7つのベンチマークデータセットにまたがる5つの最先端ターゲットモデルに関する広範な実験とアブレーション実験を通じて,提案手法の有効性を実証する。 先行文献で提示された攻撃と比較して,単語摂動率の低さで高い成功率を,非常に制限された設定で達成することができる。

We study an important and challenging task of attacking natural language processing models in a hard label black box setting. We propose a decision-based attack strategy that crafts high quality adversarial examples on text classification and entailment tasks. Our proposed attack strategy leverages population-based optimization algorithm to craft plausible and semantically similar adversarial examples by observing only the top label predicted by the target model. At each iteration, the optimization procedure allow word replacements that maximizes the overall semantic similarity between the original and the adversarial text. Further, our approach does not rely on using substitute models or any kind of training data. We demonstrate the efficacy of our proposed approach through extensive experimentation and ablation studies on five state-of-the-art target models across seven benchmark datasets. In comparison to attacks proposed in prior literature, we are able to achieve a higher success rate with lower word perturbation percentage that too in a highly restricted setting.
翻訳日:2021-04-18 20:37:51 公開日:2020-12-29
# HyperTracプロジェクト:ハイパーグラフ分解の最近の進歩と今後の研究方向

The HyperTrac Project: Recent Progress and Future Research Directions on Hypergraph Decompositions ( http://arxiv.org/abs/2012.14762v1 )

ライセンス: Link先を確認
Georg Gottlob, Matthias Lanzinger, Davide Mario Longo, Cem Okulmus and Reinhard Pichler(参考訳) 制約満足度問題(CSP)は、人工知能とオペレーション研究における多くの応用において中心的な役割を果たす。 一般に、CSPの解法はNP完全である。 CSPの構造はハイパーグラフによって最もよく説明される。 そのため, CSPの抽出可能な断片を同定するために, 種々のハイパーグラフ分解法が文献で提案されている。 しかし、具体的な超グラフ分解の計算は、それ自体が難しい課題である。 本稿では,ハイパーグラフ分解研究の最近の進歩について報告し,今後の研究の方向性について概説する。

Constraint Satisfaction Problems (CSPs) play a central role in many applications in Artificial Intelligence and Operations Research. In general, solving CSPs is NP-complete. The structure of CSPs is best described by hypergraphs. Therefore, various forms of hypergraph decompositions have been proposed in the literature to identify tractable fragments of CSPs. However, also the computation of a concrete hypergraph decomposition is a challenging task in itself. In this paper, we report on recent progress in the study of hypergraph decompositions and we outline several directions for future research.
翻訳日:2021-04-18 20:37:35 公開日:2020-12-29
# ロバストモデルフィッティングのためのメッセージ伝搬による階層表現

Hierarchical Representation via Message Propagation for Robust Model Fitting ( http://arxiv.org/abs/2012.14597v1 )

ライセンス: Link先を確認
Shuyuan Lin, Xing Wang, Guobao Xiao, Yan Yan, Hanzi Wang(参考訳) 本稿では,ロバストなモデルフィッティングのためのメッセージ伝搬(hrmp)方式による階層表現を提案する。ロバストなモデルフィッティングのために,複数のモデルインスタンスのパラメータを,外れ値で破損したデータから推定するために,コンセンサス解析と選好解析の両方の利点を同時に活用する。 各データポイントまたは各モデル仮説の情報を独立して分析するのではなく、コンセンサス情報と選好情報を階層表現として定式化し、グロス外れ値に対する感度を緩和する。 具体的には,まずモデル仮説層とデータ点層からなる階層表現を構築する。 モデル仮説層は、重要でないモデル仮説を取り除くために使われ、データポイント層は、グロスアウトリアーを除去するために使用される。 次に,階層的表現に基づき,有効な階層的メッセージ伝達(hmp)アルゴリズムと改良された親和性伝達(iap)アルゴリズムを提案する。 提案するhrmpは,複数のモデルインスタンスの数とパラメータを正確に推定するだけでなく,多数の異常値で汚染されたマルチストラクショナルデータを処理できる。 合成データと実画像の両方による実験結果から,提案したHRMPは適合精度と速度の点で,いくつかの最先端モデル適合法よりも優れていた。

In this paper, we propose a novel hierarchical representation via message propagation (HRMP) method for robust model fitting, which simultaneously takes advantages of both the consensus analysis and the preference analysis to estimate the parameters of multiple model instances from data corrupted by outliers, for robust model fitting. Instead of analyzing the information of each data point or each model hypothesis independently, we formulate the consensus information and the preference information as a hierarchical representation to alleviate the sensitivity to gross outliers. Specifically, we firstly construct a hierarchical representation, which consists of a model hypothesis layer and a data point layer. The model hypothesis layer is used to remove insignificant model hypotheses and the data point layer is used to remove gross outliers. Then, based on the hierarchical representation, we propose an effective hierarchical message propagation (HMP) algorithm and an improved affinity propagation (IAP) algorithm to prune insignificant vertices and cluster the remaining data points, respectively. The proposed HRMP can not only accurately estimate the number and parameters of multiple model instances, but also handle multi-structural data contaminated with a large number of outliers. Experimental results on both synthetic data and real images show that the proposed HRMP significantly outperforms several state-of-the-art model fitting methods in terms of fitting accuracy and speed.
翻訳日:2021-04-18 20:37:00 公開日:2020-12-29
# TrustMAE: 信頼領域を持つメモリ拡張オートエンコーダを用いた耐雑音性欠陥分類フレームワーク

TrustMAE: A Noise-Resilient Defect Classification Framework using Memory-Augmented Auto-Encoders with Trust Regions ( http://arxiv.org/abs/2012.14629v1 )

ライセンス: Link先を確認
Daniel Stanley Tan, Yi-Chun Chen, Trista Pei-Chun Chen, Wei-Chao Chen(参考訳) 本稿では,製品欠陥分類の問題に対処するために,trustmae というフレームワークを提案する。 収集が難しくラベル付けに手間がかかる欠陥画像に頼る代わりに、私たちのフレームワークはラベルなしの画像でデータセットを受け付けることができます。 さらに,多くの異常検出手法とは異なり,学習データセットにおける雑音や欠陥画像に対して頑健な手法である。 提案手法では,自動エンコーダの過大な一般化を回避するため,スパースメモリアドレッシングスキームを備えたメモリ提供型オートエンコーダと,ノイズをメモリスロットから遠ざけるための新たな信頼領域メモリ更新スキームを用いる。 その結果、欠陥のない画像を再構成し、知覚距離ネットワークを用いて欠陥領域を識別できるフレームワークが得られた。 様々な最先端のベースラインと比較した場合,本手法はノイズフリーMVTecデータセットの下で競合的に動作する。 さらに重要なのは、ノイズレベルが40%まで向上する一方で、他のベースラインを著しく上回ることだ。

In this paper, we propose a framework called TrustMAE to address the problem of product defect classification. Instead of relying on defective images that are difficult to collect and laborious to label, our framework can accept datasets with unlabeled images. Moreover, unlike most anomaly detection methods, our approach is robust against noises, or defective images, in the training dataset. Our framework uses a memory-augmented auto-encoder with a sparse memory addressing scheme to avoid over-generalizing the auto-encoder, and a novel trust-region memory updating scheme to keep the noises away from the memory slots. The result is a framework that can reconstruct defect-free images and identify the defective regions using a perceptual distance network. When compared against various state-of-the-art baselines, our approach performs competitively under noise-free MVTec datasets. More importantly, it remains effective at a noise level up to 40% while significantly outperforming other baselines.
翻訳日:2021-04-18 20:36:36 公開日:2020-12-29
# プロトタイプ記憶を用いた単眼3次元ヒト再建における尾の追尾

Chasing the Tail in Monocular 3D Human Reconstruction with Prototype Memory ( http://arxiv.org/abs/2012.14739v1 )

ライセンス: Link先を確認
Yu Rong, Ziwei Liu, Chen Change Loy(参考訳) 深層ニューラルネットワークは、単像3次元人間の再構築において大きな進歩を遂げた。 しかし、既存の手法は稀なポーズを予測できない。 理由は、現在のモデルの多くが1つのプロトタイプに基づいて回帰を行うためであり、これはまれなポーズとは程遠い一般的なポーズに似ている。 本研究では,1)この学習障害を特定し解析し,2)稀なポーズの予測性能を効果的に向上するメモリ拡張ネットワークPM-Netを提案する。 私たちのフレームワークのコアは、共通のポーズまたはまれなポーズのローカル分布をキャプチャする3d人間のプロトタイプのセットを学習し、保存するメモリモジュールです。 この定式化によって回帰はより優れた初期化から始まり、収束が比較的容易になる。 いくつかの広く使われているデータセットに対する大規模な実験は、他の最先端の手法と比較して提案されたフレームワークの有効性を示している。 特に,本手法はレアポーズにおけるモデルの性能を大幅に向上させ,他のサンプルで同等の結果を得る。

Deep neural networks have achieved great progress in single-image 3D human reconstruction. However, existing methods still fall short in predicting rare poses. The reason is that most of the current models perform regression based on a single human prototype, which is similar to common poses while far from the rare poses. In this work, we 1) identify and analyze this learning obstacle and 2) propose a prototype memory-augmented network, PM-Net, that effectively improves performances of predicting rare poses. The core of our framework is a memory module that learns and stores a set of 3D human prototypes capturing local distributions for either common poses or rare poses. With this formulation, the regression starts from a better initialization, which is relatively easier to converge. Extensive experiments on several widely employed datasets demonstrate the proposed framework's effectiveness compared to other state-of-the-art methods. Notably, our approach significantly improves the models' performances on rare poses while generating comparable results on other samples.
翻訳日:2021-04-18 20:36:20 公開日:2020-12-29
# 視覚的外観のダイナミックマップの学習

Learning a Dynamic Map of Visual Appearance ( http://arxiv.org/abs/2012.14885v1 )

ライセンス: Link先を確認
Tawfiq Salem, Scott Workman, Nathan Jacobs(参考訳) 世界の外観は、場所によって大きく変化し、時間・時間・月によっても劇的に変化する。 毎日何十億もの画像がこの複雑な関係を捉えており、その多くが正確な時間と位置のメタデータに関連付けられている。 本稿では,これらの画像を用いて視覚的特徴のグローバルな動的マップを構築することを提案する。 そのような写像は、任意の地理的位置と時間における期待される外観のきめ細かい理解を可能にする。 提案手法は,多種多様な視覚特性をマッピング可能な一般的なフレームワークに,高密度なオーバーヘッド画像と位置情報と時間メタデータを統合する。 このアプローチの重要な特徴は、手動のデータアノテーションを必要としないことです。 本稿では、画像駆動マッピング、画像ジオローカライゼーション、メタデータ検証など、このアプローチが様々なアプリケーションをどのようにサポートするかを示す。

The appearance of the world varies dramatically not only from place to place but also from hour to hour and month to month. Every day billions of images capture this complex relationship, many of which are associated with precise time and location metadata. We propose to use these images to construct a global-scale, dynamic map of visual appearance attributes. Such a map enables fine-grained understanding of the expected appearance at any geographic location and time. Our approach integrates dense overhead imagery with location and time metadata into a general framework capable of mapping a wide variety of visual attributes. A key feature of our approach is that it requires no manual data annotation. We demonstrate how this approach can support various applications, including image-driven mapping, image geolocalization, and metadata verification.
翻訳日:2021-04-18 20:36:05 公開日:2020-12-29
# 2Dか2Dか? 効率的な映像認識のための適応型3次元畳み込み選択

2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Recognition ( http://arxiv.org/abs/2012.14950v1 )

ライセンス: Link先を確認
Hengduo Li, Zuxuan Wu, Abhinav Shrivastava, Larry S. Davis(参考訳) 3D畳み込みネットワークはビデオ認識に広く使われている。 標準ベンチマークで優れた認識性能を達成する一方で、3次元畳み込みを伴う一連のフレームで動作し、計算的に要求される。 Ada3Dは3Dネットワークで使用されるフレームと畳み込み層を決定するために、インスタンス固有の3D利用ポリシーを学習する条件計算フレームワークである。 これらのポリシーは、各入力ビデオクリップに条件付き2ヘッド軽量選択ネットワークによって導出される。 そして、選択ネットワークで選択されたフレームと畳み込みのみを3Dモデルで使用して予測を生成する。 選択ネットワークはポリシー勾配法で最適化され、限られた計算で正しい予測を行うことを促す報酬を最大化する。 3つのビデオ認識ベンチマークで実験を行い,本手法が最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%~50%削減できることを実証した。 また、学習したポリシーは転送可能であり、Ada3Dは異なるバックボーンや現代的なクリップ選択アプローチと互換性があることを示す。 定性的分析により,3次元の畳み込みとフレームを「静的」な入力に割り当てる手法は少ないが,動き集約的なクリップに多くを用いる。

3D convolutional networks are prevalent for video recognition. While achieving excellent recognition performance on standard benchmarks, they operate on a sequence of frames with 3D convolutions and thus are computationally demanding. Exploiting large variations among different videos, we introduce Ada3D, a conditional computation framework that learns instance-specific 3D usage policies to determine frames and convolution layers to be used in a 3D network. These policies are derived with a two-head lightweight selection network conditioned on each input video clip. Then, only frames and convolutions that are selected by the selection network are used in the 3D model to generate predictions. The selection network is optimized with policy gradient methods to maximize a reward that encourages making correct predictions with limited computation. We conduct experiments on three video recognition benchmarks and demonstrate that our method achieves similar accuracies to state-of-the-art 3D models while requiring 20%-50% less computation across different datasets. We also show that learned policies are transferable and Ada3D is compatible to different backbones and modern clip selection approaches. Our qualitative analysis indicates that our method allocates fewer 3D convolutions and frames for "static" inputs, yet uses more for motion-intensive clips.
翻訳日:2021-04-18 20:35:38 公開日:2020-12-29
# 進化的多目的最適化を用いた単眼深度推定に対するブラックボックス逆攻撃

Black-box Adversarial Attacks on Monocular Depth Estimation Using Evolutionary Multi-objective Optimization ( http://arxiv.org/abs/2101.10452v1 )

ライセンス: Link先を確認
Renya Daimo (1), Satoshi Ono (1), Takahiro Suzuki (1) ((1) Department of Information Science and Biomedical Engineering, Graduate School of Science and Engineering, Kagoshima University)(参考訳) 本稿では,単眼深度推定のためのディープニューラルネットワーク(DNN)に対する対角攻撃法,すなわち,画像から深度を推定する手法を提案する。 単一画像深度推定は近年,DNNの開発により大幅に改善されている。 しかし、画像分類のためのDNNの脆弱性は、敵対的な攻撃によって明らかにされており、単眼深度推定のためのDNNには、同様の脆弱性が含まれる可能性がある。 したがって、単眼深度推定のためのDNNの脆弱性の研究は急速に広まっているが、その多くは、DNNの内部情報が利用可能なホワイトボックス条件や、代替のDNNモデルとトレーニングデータセットを必要とする転送可能性に基づくブラックボックス攻撃を前提としている。 本稿では,進化的多目的最適化を用いて,出力深度マップのみ利用可能なブラックボックス条件下でのdnnの解析を行う。 さらに,提案手法では,対象のDNNに類似したアーキテクチャを持つ代替DNNや,対象モデルのトレーニングに使用するトレーニングデータに関する知識を必要としない。 実験の結果,提案手法は屋内シーンと屋外シーンでそれぞれ訓練した2つのDNNベースの手法を攻撃することに成功した。

This paper proposes an adversarial attack method to deep neural networks (DNNs) for monocular depth estimation, i.e., estimating the depth from a single image. Single image depth estimation has improved drastically in recent years due to the development of DNNs. However, vulnerabilities of DNNs for image classification have been revealed by adversarial attacks, and DNNs for monocular depth estimation could contain similar vulnerabilities. Therefore, research on vulnerabilities of DNNs for monocular depth estimation has spread rapidly, but many of them assume white-box conditions where inside information of DNNs is available, or are transferability-based black-box attacks that require a substitute DNN model and a training dataset. Utilizing Evolutionary Multi-objective Optimization, the proposed method in this paper analyzes DNNs under the black-box condition where only output depth maps are available. In addition, the proposed method does not require a substitute DNN that has a similar architecture to the target DNN nor any knowledge about training data used to train the target model. Experimental results showed that the proposed method succeeded in attacking two DNN-based methods that were trained with indoor and outdoor scenes respectively.
翻訳日:2021-04-18 20:35:19 公開日:2020-12-29
# もっと社交的になれるか? タスク指向会話エージェントへのポリテネスと肯定性注入

Can You be More Social? Injecting Politeness and Positivity into Task-Oriented Conversational Agents ( http://arxiv.org/abs/2012.14653v1 )

ライセンス: Link先を確認
Yi-Chia Wang, Alexandros Papangelis, Runze Wang, Zhaleh Feizollahi, Gokhan Tur, Robert Kraut(参考訳) 目標指向の会話エージェントが日常生活で普及しています。 これらのシステムがユーザをエンゲージし、目標を達成するためには、適切な社会的行動を示すとともに、ユーザをタスクを通じて導く情報的応答を提供する必要がある。 本研究の第1のコンポーネントは,ユーザとカスタマサービスにおけるヒューマンエージェント間の会話を理解するために,統計的モデリング手法を適用している。 分析によると、人間のエージェントが使用する社会言語は、より大きなユーザの応答性とタスク完了と関連している。 研究の第2の構成要素は、コンテンツを保存しながら、エージェントの応答に社会言語を注入できる会話エージェントモデルの構築である。 このモデルは、ソーシャル言語理解要素で拡張されたシーケンスからシーケンスまでのディープラーニングアーキテクチャを使用する。 人的判断と自動言語尺度の両方を用いたコンテンツ保存と社会言語レベルの評価は,エージェントがより社会的に適切な方法でユーザの問題に対処できる応答を生成できることを示している。

Goal-oriented conversational agents are becoming prevalent in our daily lives. For these systems to engage users and achieve their goals, they need to exhibit appropriate social behavior as well as provide informative replies that guide users through tasks. The first component of the research in this paper applies statistical modeling techniques to understand conversations between users and human agents for customer service. Analyses show that social language used by human agents is associated with greater users' responsiveness and task completion. The second component of the research is the construction of a conversational agent model capable of injecting social language into an agent's responses while still preserving content. The model uses a sequence-to-sequence deep learning architecture, extended with a social language understanding element. Evaluation in terms of content preservation and social language level using both human judgment and automatic linguistic measures shows that the model can generate responses that enable agents to address users' issues in a more socially appropriate way.
翻訳日:2021-04-18 20:34:59 公開日:2020-12-29
# Contrastive Synthetic Supervision を用いたメタ適応型ニューラルランクリング

Meta Adaptive Neural Ranking with Contrastive Synthetic Supervision ( http://arxiv.org/abs/2012.14862v1 )

ライセンス: Link先を確認
Si Sun, Yingzhuo Qian, Zhenghao Liu, Chenyan Xiong, Kaitao Zhang, Jie Bao, Zhiyuan Liu, Paul Bennett(参考訳) Neural Information Retrieval (Neu-IR)モデルは、大規模な高品質なレバレッジラベルによるエンドツーエンドトレーニングの有効性を示し、成長している。 それにもかかわらず、そのような量の関連ラベルは、例えばバイオメディカルサーチにおいて、多くのランキングシナリオで高級で利用できない。 本稿では, ニューラルランサーのメタ適応訓練により, 数ショット探索シナリオにおけるNeu-IRの改良を行った。 まず、コントラストクエリ生成(ContrastQG)を利用して、ドメイン内の弱関連ラベルとしてより情報性の高いクエリを合成し、メタ適応学習でランク付けし(MetaLTR)、ターゲットの少数ショットドメインにニューラルネットワークローダをより一般化する。 Web、ニュース、バイオメディカルの3つの異なる検索領域の実験は、我々の弱い監視フレームワークを用いて、ニューラルネットワークローダのわずかな精度を大幅に改善したことを示している。 この論文のコードはオープンソース化される。

Neural Information Retrieval (Neu-IR) models have shown their effectiveness and thrive from end-to-end training with massive high-quality relevance labels. Nevertheless, relevance labels at such quantity are luxury and unavailable in many ranking scenarios, for example, in biomedical search. This paper improves Neu-IR in such few-shot search scenarios by meta-adaptively training neural rankers with synthetic weak supervision. We first leverage contrastive query generation (ContrastQG) to synthesize more informative queries as in-domain weak relevance labels, and then filter them with meta adaptive learning to rank (MetaLTR) to better generalize neural rankers to the target few-shot domain. Experiments on three different search domains: web, news, and biomedical, demonstrate significantly improved few-shot accuracy of neural rankers with our weak supervision framework. The code of this paper will be open-sourced.
翻訳日:2021-04-18 20:34:44 公開日:2020-12-29
# 不均一グラフ学習のためのハイブリッドマイクロマクロレベル畳み込み

Hybrid Micro/Macro Level Convolution for Heterogeneous Graph Learning ( http://arxiv.org/abs/2012.14722v1 )

ライセンス: Link先を確認
Le Yu, Leilei Sun, Bowen Du, Chuanren Liu, Weifeng Lv, Hui Xiong(参考訳) 不均一グラフは、各グラフが複数の種類のノードとエッジから構成される現実的なシナリオで広く普及する。 ヘテロジニアスグラフでの表現学習は、ノード属性と関係情報の両方を保存できる低次元のノード表現を得ることを目的としている。 しかし、既存のグラフ畳み込みアプローチのほとんどは同質グラフのために設計されており、したがって異質グラフを扱うことはできない。 ヘテロジニアスグラフ用に設計された最近の手法は、不均質性の利用不足、構造情報損失、解釈可能性の欠如など、いくつかの問題に直面している。 本稿では,HGConvを提案する。HGConvはヘテロジニアスグラフ上の包括的ノード表現を,マイクロ/マクロレベルのハイブリッドな畳み込み操作で学習するための新しいヘテロジニアスグラフ畳み込み手法である。 既存の方法とは異なり、hgconvはマイクロレベルとマクロレベルの両方で、ヘテロジニアスグラフの内部構造に関する畳み込みを行うことができる: 同じ関係内のノードの重要性を学ぶマイクロレベルの畳み込みと、異なる関係における微妙な違いを区別するマクロレベルの畳み込みである。 このハイブリッド戦略により、HGConvは適切な解釈可能性を持つ異種情報を完全に活用することができる。 さらに、重み付け残差接続は、焦点ノードの固有属性と隣接情報の両方を適応的に集約するように設計されている。 各種タスクに対する大規模な実験は,既存の手法よりもHGConvの方が優れているだけでなく,グラフ解析へのアプローチの直感的な解釈可能性も示している。

Heterogeneous graphs are pervasive in practical scenarios, where each graph consists of multiple types of nodes and edges. Representation learning on heterogeneous graphs aims to obtain low-dimensional node representations that could preserve both node attributes and relation information. However, most of the existing graph convolution approaches were designed for homogeneous graphs, and therefore cannot handle heterogeneous graphs. Some recent methods designed for heterogeneous graphs are also faced with several issues, including the insufficient utilization of heterogeneous properties, structural information loss, and lack of interpretability. In this paper, we propose HGConv, a novel Heterogeneous Graph Convolution approach, to learn comprehensive node representations on heterogeneous graphs with a hybrid micro/macro level convolutional operation. Different from existing methods, HGConv could perform convolutions on the intrinsic structure of heterogeneous graphs directly at both micro and macro levels: A micro-level convolution to learn the importance of nodes within the same relation, and a macro-level convolution to distinguish the subtle difference across different relations. The hybrid strategy enables HGConv to fully leverage heterogeneous information with proper interpretability. Moreover, a weighted residual connection is designed to aggregate both inherent attributes and neighbor information of the focal node adaptively. Extensive experiments on various tasks demonstrate not only the superiority of HGConv over existing methods, but also the intuitive interpretability of our approach for graph analysis.
翻訳日:2021-04-18 20:34:12 公開日:2020-12-29
# attre2vec: unsupervised attributed edge representation learning

AttrE2vec: Unsupervised Attributed Edge Representation Learning ( http://arxiv.org/abs/2012.14727v1 )

ライセンス: Link先を確認
Piotr Bielak, Tomasz Kajdanowicz, Nitesh V. Chawla(参考訳) 表現学習は、様々な下流学習タスクに適用可能な埋め込みをもたらすため、(教師なしの)特徴学習を通じて、しばしば困難で手動によるネットワークの成果化を克服してきた。 グラフにおける表現学習の焦点は主に浅い(ノード中心)または深い(グラフベース)学習アプローチに焦点を当てている。 マルチタイプノードとエッジを持つ同種ネットワークや異種ネットワークで作業するアプローチは存在するが、エッジ表現の学習にはギャップがある。 本稿では,属性ネットワークにおけるエッジの低次元ベクトル表現を学習する,AttrE2Vecと呼ばれる新しい教師なし帰納法を提案する。 トポロジカルな近接を体系的に捉え、属性親和性、エッジの類似性を特徴付ける。 エッジ埋め込み研究の進歩とは対照的に,提案手法はエッジの表現を提供し,グラフ属性を帰納的かつ教師なしな方法でキャプチャする手法の体系を拡張した。 実験の結果,現代の手法と比較して,エッジ分類やエッジクラスタリングなどの下流タスクにおいて,より高品質な尺度(auc,精度)が反映され,より強力なエッジベクトル表現を構築できることがわかった。 低次元埋め込み射影の解析によっても確認される。

Representation learning has overcome the often arduous and manual featurization of networks through (unsupervised) feature learning as it results in embeddings that can apply to a variety of downstream learning tasks. The focus of representation learning on graphs has focused mainly on shallow (node-centric) or deep (graph-based) learning approaches. While there have been approaches that work on homogeneous and heterogeneous networks with multi-typed nodes and edges, there is a gap in learning edge representations. This paper proposes a novel unsupervised inductive method called AttrE2Vec, which learns a low-dimensional vector representation for edges in attributed networks. It systematically captures the topological proximity, attributes affinity, and feature similarity of edges. Contrary to current advances in edge embedding research, our proposal extends the body of methods providing representations for edges, capturing graph attributes in an inductive and unsupervised manner. Experimental results show that, compared to contemporary approaches, our method builds more powerful edge vector representations, reflected by higher quality measures (AUC, accuracy) in downstream tasks as edge classification and edge clustering. It is also confirmed by analyzing low-dimensional embedding projections.
翻訳日:2021-04-18 20:33:46 公開日:2020-12-29
# multi-principal assistance games: definition and collegial mechanism

Multi-Principal Assistance Games: Definition and Collegial Mechanisms ( http://arxiv.org/abs/2012.14536v1 )

ライセンス: Link先を確認
Arnaud Fickinger, Simon Zhuang, Andrew Critch, Dylan Hadfield-Menell, Stuart Russell(参考訳) 本稿では,マルチプリンシパル・アシスト・ゲーム(MPAG)の概念を導入し,社会的選択論,ギバードの定理の障害を回避するために,十分な合理的選好推論機構を用いた。 MPAGでは、1つのエージェントが、広く異なる嗜好を持つ可能性のあるN人のヒトのプリンシパルを支援する。 mpagsは、協調逆強化学習ゲームとしても知られる援助ゲーム全般を一般化する。 本研究では,特に,人間による授業学習の一般化について分析し,まず,有効性を得るための作業を行い,好みを示すとともに,ロボットが人間の給与の合計をさらに最大化するために行動する。 この設定で、ゲームが十分に合理であれば、すなわち、そのゲームが十分に合理であることを示す。 人間が自分の行動を通じて 報酬の十分な部分を得る責任があるなら 彼らの好みは 彼らの仕事を通して 明らかになる この啓示機構は非独裁的であり、可能な結果を2つの選択肢に制限しない。

We introduce the concept of a multi-principal assistance game (MPAG), and circumvent an obstacle in social choice theory, Gibbard's theorem, by using a sufficiently collegial preference inference mechanism. In an MPAG, a single agent assists N human principals who may have widely different preferences. MPAGs generalize assistance games, also known as cooperative inverse reinforcement learning games. We analyze in particular a generalization of apprenticeship learning in which the humans first perform some work to obtain utility and demonstrate their preferences, and then the robot acts to further maximize the sum of human payoffs. We show in this setting that if the game is sufficiently collegial, i.e. if the humans are responsible for obtaining a sufficient fraction of the rewards through their own actions, then their preferences are straightforwardly revealed through their work. This revelation mechanism is non-dictatorial, does not limit the possible outcomes to two alternatives, and is dominant-strategy incentive-compatible.
翻訳日:2021-04-18 20:32:55 公開日:2020-12-29
# マルチエージェントシステムにおけるprosocial Norm Emergence

Prosocial Norm Emergence in Multiagent Systems ( http://arxiv.org/abs/2012.14581v1 )

ライセンス: Link先を確認
Mehdi Mashayekhi and Nirav Ajmeri and George F. List and Munindar P. Singh(参考訳) マルチエージェントシステムは、自律的なエンティティの開発システムの基礎を提供し、様々な領域で応用を見出す。 我々は,メンバエージェントが適応的であるだけでなく,マルチエージェントシステム自体が適応的であるような設定を考える。 特に、マルチエージェントシステムの社会構造は、メンバー間の社会的規範に反映することができる。 社会で生じる規範が必ずしもメンバーにとって有益であるとは限らないことはよく認識されている。 我々は,社会の肯定的な成果を達成し,他人の福祉を考慮に入れて行動するためのエージェントへの指導をしばしば提供する,社会規範に焦点をあてる。 具体的には,社会規範の出現のための枠組みであるChaを提案する。 従来の標準の出現アプローチとは異なり、Chaはシステムへの継続的な変更(エージェントは入退避しうる)とダイナミズム(環境が変わるとノームが変わる)をサポートする。 重要なことは、Chaエージェントは、反社会的であることに対する罪悪感を反映して、不平等逆転理論に基づく社会的意思決定を取り入れている。 このようにchaは、個人による意思決定とシステムレベルの成果の公平性という、2つの重要なテーマを親社会性においてまとめている。 我々はchaが社会全体の利益と成果の公平性を改善することをシミュレーションによって実証する。

Multiagent systems provide a basis of developing systems of autonomous entities and thus find application in a variety of domains. We consider a setting where not only the member agents are adaptive but also the multiagent system itself is adaptive. Specifically, the social structure of a multiagent system can be reflected in the social norms among its members. It is well recognized that the norms that arise in society are not always beneficial to its members. We focus on prosocial norms, which help achieve positive outcomes for society and often provide guidance to agents to act in a manner that takes into account the welfare of others. Specifically, we propose Cha, a framework for the emergence of prosocial norms. Unlike previous norm emergence approaches, Cha supports continual change to a system (agents may enter and leave), and dynamism (norms may change when the environment changes). Importantly, Cha agents incorporate prosocial decision making based on inequity aversion theory, reflecting an intuition of guilt from being antisocial. In this manner, Cha brings together two important themes in prosociality: decision making by individuals and fairness of system-level outcomes. We demonstrate via simulation that Cha can improve aggregate societal gains and fairness of outcomes.
翻訳日:2021-04-18 20:32:38 公開日:2020-12-29
# 発達ロボティクスのシミュレーション環境における赤ちゃんの社会的相互作用のモデル化

Modeling Social Interaction for Baby in Simulated Environment for Developmental Robotics ( http://arxiv.org/abs/2012.14842v1 )

ライセンス: Link先を確認
Md Ashaduzzaman Rubel Mondol, Aishwarya Pothula, Deokgun Park(参考訳) タスク固有のAIエージェントは、さまざまなドメインで顕著なパフォーマンスを示している。 しかし、人間の知能のような汎用AIエージェントをモデリングするには、現在のデータセット以上か、幼児が初期段階を通じて収集する経験を含まない報酬ベースの環境のみが必要である。 本稿では,開発ロボティクスのシミュレーション環境(SEDRo)について述べる。 出生前の胎児期から生後12ヶ月の間、人間の赤ちゃんが経験する赤ちゃんエージェントの環境をシミュレートする。 SEDRoには、エージェントとのソーシャルインタラクションを提供する母文字も含まれている。 エージェントの異なる発達マイルストーンを評価するために、SEDRoは発達心理学からいくつかの実験を取り入れている。

Task-specific AI agents are showing remarkable performance across different domains. But modeling generalized AI agents like human intelligence will require more than current datasets or only reward-based environments that don't include experiences that an infant gathers throughout its initial stages. In this paper, we present Simulated Environment for Developmental Robotics (SEDRo). It simulates the environments for a baby agent that a human baby experiences throughout the pre-born fetus stage to post-birth 12 months. SEDRo also includes a mother character to provide social interaction with the agent. To evaluate different developmental milestones of the agent, SEDRo incorporates some experiments from developmental psychology.
翻訳日:2021-04-18 20:32:18 公開日:2020-12-29
# 6G IoTにおける高効率通信のためのAIとインテリジェント反射面の活用

Leveraging AI and Intelligent Reflecting Surface for Energy-Efficient Communication in 6G IoT ( http://arxiv.org/abs/2012.14716v1 )

ライセンス: Link先を確認
Qianqian Pan, Jun Wu, Xi Zheng, Jianhua Li, Shenghong Li, Athanasios V. Vasilakos(参考訳) データトラフィックの増大、さまざまな遅延センシティブなサービス、エネルギー制限型のiot(internet of things)デバイスの大規模展開は、現在の通信ネットワークに大きな課題をもたらし、学界や業界が第6世代(6g)ネットワークに移行する動機となった。 データ転送と処理の強力な能力により、6Gは低レイテンシとエネルギーコストでIoT通信を実現する手段として考えられている。 本稿では,人工知能(AI)とインテリジェント反射面(IRS)による6G IoTのためのエネルギー効率通信システムを提案する。 まず、IRS支援データ伝送とAI駆動型ネットワークリソース管理機構を含む、スマートで効率的な通信アーキテクチャを設計する。 第2に、6G IoTシステムに対して所定の伝送遅延の下でエネルギー効率を最大化するモデルを定式化し、すべての通信参加者の設定を共同で最適化する。 iot伝送電力、irs反射位相シフト、およびbs検出マトリックス。 第3に、定式化最適化モデルを解決するために、ネットワークリソース制御とアロケーションスキームの強化学習(DRL)を提案する。 DRLは,ネットワークとチャネルの状態に基づいて,省エネ・低遅延通信を実現する。 最後に,提案する6g iot通信システムの有効性を実験的に検証した。

The ever-increasing data traffic, various delay-sensitive services, and the massive deployment of energy-limited Internet of Things (IoT) devices have brought huge challenges to the current communication networks, motivating academia and industry to move to the sixth-generation (6G) network. With the powerful capability of data transmission and processing, 6G is considered as an enabler for IoT communication with low latency and energy cost. In this paper, we propose an artificial intelligence (AI) and intelligent reflecting surface (IRS) empowered energy-efficiency communication system for 6G IoT. First, we design a smart and efficient communication architecture including the IRS-aided data transmission and the AI-driven network resource management mechanisms. Second, an energy efficiency-maximizing model under given transmission latency for 6G IoT system is formulated, which jointly optimizes the settings of all communication participants, i.e. IoT transmission power, IRS-reflection phase shift, and BS detection matrix. Third, a deep reinforcement learning (DRL) empowered network resource control and allocation scheme is proposed to solve the formulated optimization model. Based on the network and channel status, the DRL-enabled scheme facilities the energy-efficiency and low-latency communication. Finally, experimental results verified the effectiveness of our proposed communication system for 6G IoT.
翻訳日:2021-04-18 20:32:08 公開日:2020-12-29
# 対話型ユーザフィードバックによる物体認識モデルの視覚的探索と補正

Visual Probing and Correction of Object Recognition Models with Interactive user feedback ( http://arxiv.org/abs/2012.14544v1 )

ライセンス: Link先を確認
Viny Saajan Victor, Pramod Vadiraja, Jan-Tobias Sohns, Heike Leitte(参考訳) 最先端の機械学習とディープラーニング技術の出現により、いくつかの業界がこの分野に向かっている。 このような技術の応用は自然言語処理からコンピュータビジョンまで多岐にわたる。 物体認識はコンピュータビジョン領域においてそのような領域である。 精度は高いが、そのようなモデルを改善することができる領域は依然として存在する。 これは、自動運転やがん検出のような現実世界のユースケースにおいて非常に重要であり、高感度で、そのような技術がほとんど不確実性を持たないことを期待している。 本稿では,オブジェクト認識モデルの不確実性を可視化し,ユーザフィードバックによる修正プロセスを提案する。 VAST 2020 Mini-Challenge 2.0のデータに対する我々のアプローチをさらに実証する。

With the advent of state-of-the-art machine learning and deep learning technologies, several industries are moving towards the field. Applications of such technologies are highly diverse ranging from natural language processing to computer vision. Object recognition is one such area in the computer vision domain. Although proven to perform with high accuracy, there are still areas where such models can be improved. This is in-fact highly important in real-world use cases like autonomous driving or cancer detection, that are highly sensitive and expect such technologies to have almost no uncertainties. In this paper, we attempt to visualise the uncertainties in object recognition models and propose a correction process via user feedback. We further demonstrate our approach on the data provided by the VAST 2020 Mini-Challenge 2.
翻訳日:2021-04-18 20:31:48 公開日:2020-12-29
# 遅延心筋mriを用いた心筋梗塞自動評価のためのカスケードフレームワーク

Cascaded Framework for Automatic Evaluation of Myocardial Infarction from Delayed-Enhancement Cardiac MRI ( http://arxiv.org/abs/2012.14556v1 )

ライセンス: Link先を確認
Jun Ma(参考訳) 心筋梗塞の定量的解析において, 心筋と病理の自動評価は重要な役割を担っている。 本稿では,遅延型心筋MRIにおける心筋梗塞セグメンテーションと分類のためのカスケード畳み込みニューラルネットワークフレームワークを提案する。 具体的には、まず2d u-netを用いて左心室と心筋を含む心臓全体を分割する。 次に、関心領域(ROI)として心臓全体を収穫します。 最後に、新しい2D U-Netを使用して、心ROI全体の屈折領域と非リフロー領域を分割する。 このセグメンテーション方法は、赤外線や非リフロー領域によるセグメンテーション結果が病理症例に分類される分類タスクに適用することができる。 本手法は,MICCAI 2020 EMIDECセグメンテーションタスクにおいて,Diceスコアが86.28%,62.24%,77.76%,心筋,非血流領域が77.76%,精度92%で第1位であった。

Automatic evaluation of myocardium and pathology plays an important role in the quantitative analysis of patients suffering from myocardial infarction. In this paper, we present a cascaded convolutional neural network framework for myocardial infarction segmentation and classification in delayed-enhancement cardiac MRI. Specifically, we first use a 2D U-Net to segment the whole heart, including the left ventricle and the myocardium. Then, we crop the whole heart as a region of interest (ROI). Finally, a new 2D U-Net is used to segment the infraction and no-reflow areas in the whole heart ROI. The segmentation method can be applied to the classification task where the segmentation results with the infraction or no-reflow areas are classified as pathological cases. Our method took second place in the MICCAI 2020 EMIDEC segmentation task with Dice scores of 86.28%, 62.24%, and 77.76% for myocardium, infraction, and no-reflow areas, respectively, and first place in the classification task with an accuracy of 92%.
翻訳日:2021-04-18 20:31:37 公開日:2020-12-29
# 冠状動脈疾患診断における経時的MRI画像の心筋分画の検討

Myocardial Segmentation of Cardiac MRI Sequences with Temporal Consistency for Coronary Artery Disease Diagnosis ( http://arxiv.org/abs/2012.14564v1 )

ライセンス: Link先を確認
Yutian Chen, Xiaowei Xu, Dewen Zeng, Yiyu Shi, Haiyun Yuan, Jian Zhuang, Yuhao Dong, Qianjun Jia, Meiping Huang(参考訳) 冠状動脈疾患(CAD)は世界中で最も多い死因であり、診断は通常、MRI(MRI)による手動心筋セグメンテーションに基づいている。 手動セグメンテーションは退屈で時間がかかり、適用性が低いため、機械学習技術を用いた自動心筋セグメンテーションが近年広く研究されている。 しかし、既存のほとんどの手法は入力されたMRIシーケンスを独立に扱うため、例えば、時間に沿って心筋の形状や位置などのシーケンス間の時間情報の取得に失敗する。 本稿では,左室腔,右室腔,心筋の心筋mri(cmr)スキャン画像の塩基配列解析のための心筋セグメンテーションフレームワークを提案する。 具体的には,従来のネットワークとリカレントネットワークを組み合わせることで,シーケンス間の時間情報を取り込んで時間的一貫性を確保することを提案する。 我々は,acdc(automated heart diagnosis challenge)データセットの枠組みを評価した。 実験結果から,本フレームワークはDice係数の最大2%のセグメンテーション精度を向上できることが示された。

Coronary artery disease (CAD) is the most common cause of death globally, and its diagnosis is usually based on manual myocardial segmentation of Magnetic Resonance Imaging (MRI) sequences. As the manual segmentation is tedious, time-consuming and with low applicability, automatic myocardial segmentation using machine learning techniques has been widely explored recently. However, almost all the existing methods treat the input MRI sequences independently, which fails to capture the temporal information between sequences, e.g., the shape and location information of the myocardium in sequences along time. In this paper, we propose a myocardial segmentation framework for sequence of cardiac MRI (CMR) scanning images of left ventricular cavity, right ventricular cavity, and myocardium. Specifically, we propose to combine conventional networks and recurrent networks to incorporate temporal information between sequences to ensure temporal consistent. We evaluated our framework on the Automated Cardiac Diagnosis Challenge (ACDC) dataset. Experiment results demonstrate that our framework can improve the segmentation accuracy by up to 2% in Dice coefficient.
翻訳日:2021-04-18 20:31:17 公開日:2020-12-29
# 可視光画像を用いた舗装面き裂検出・識別のための深層学習手法の進歩

Advances in deep learning methods for pavement surface crack detection and identification with visible light visual images ( http://arxiv.org/abs/2012.14704v1 )

ライセンス: Link先を確認
Kailiang Lu(参考訳) 工学構造におけるひび割れのNDTおよび健康モニタリング法と比較して, 目視光画像に基づく表面き裂検出や識別は非接触であり, 高速, 低コスト, 高精度の利点がある。 まず, 典型的な舗装(コンクリートも含む)のひび割れ公共データセットを収集し, 環境, 騒音, 干渉等を含むランダムな変動要因とともに, サンプル画像の特性を要約した。 その後, 3つの主要なき裂識別手法(手作り特徴工学, 機械学習, ディープラーニング)の利点と欠点を比較した。 最後に、モデルアーキテクチャ、性能テスト、予測の有効性の観点から、組み込みプラットフォームに容易にデプロイ可能な自己構築型CNN、転送学習(TL)、エンコーダデコーダ(ED)など、典型的なディープラーニングモデルの開発と進歩について概説した。 1) 画像サンプルのひび割れ検出平均時間コストは100ms未満であり、ED法(FPCNet)またはInceptionV3に基づくTL法のいずれかを用いている。 tl メソッドは mobilenet (軽量バックボーンベースネットワーク) をベースとした tl メソッドで 10ms 未満に削減できる。 2) 精度の面では, ヒトの眼で容易に識別できるccicでは99.8%以上に達する。 SDNET2018では、いくつかのサンプルは特定が難しいが、FPCNetは97.5%、TL法は96.1%である。 本研究は,本研究で初めて,舗装ひび割れの公共データセットを包括的に要約し,組込みプラットフォームにおける表面き裂検出と深層学習手法の性能と有効性についてレビュー・評価した。

Compared to NDT and health monitoring method for cracks in engineering structures, surface crack detection or identification based on visible light images is non-contact, with the advantages of fast speed, low cost and high precision. Firstly, typical pavement (concrete also) crack public data sets were collected, and the characteristics of sample images as well as the random variable factors, including environmental, noise and interference etc., were summarized. Subsequently, the advantages and disadvantages of three main crack identification methods (i.e., hand-crafted feature engineering, machine learning, deep learning) were compared. Finally, from the aspects of model architecture, testing performance and predicting effectiveness, the development and progress of typical deep learning models, including self-built CNN, transfer learning(TL) and encoder-decoder(ED), which can be easily deployed on embedded platform, were reviewed. The benchmark test shows that: 1) It has been able to realize real-time pixel-level crack identification on embedded platform: the entire crack detection average time cost of an image sample is less than 100ms, either using the ED method (i.e., FPCNet) or the TL method based on InceptionV3. It can be reduced to less than 10ms with TL method based on MobileNet (a lightweight backbone base network). 2) In terms of accuracy, it can reach over 99.8% on CCIC which is easily identified by human eyes. On SDNET2018, some samples of which are difficult to be identified, FPCNet can reach 97.5%, while TL method is close to 96.1%. To the best of our knowledge, this paper for the first time comprehensively summarizes the pavement crack public data sets, and the performance and effectiveness of surface crack detection and identification deep learning methods for embedded platform, are reviewed and evaluated.
翻訳日:2021-04-18 20:30:48 公開日:2020-12-29
# 変化環境における視覚位置認識のためのグラフベース非線形最小二乗最適化

Graph-based non-linear least squares optimization for visual place recognition in changing environments ( http://arxiv.org/abs/2012.14766v1 )

ライセンス: Link先を確認
Stefan Schubert, Peer Neubert, Peter Protzel(参考訳) 視覚位置認識は、移動ロボットのローカライゼーションの重要な部分課題である。 画像検索の特別な場合であるため、基本的な情報源は画像記述子の対の類似性である。 しかし、このロボットタスクに画像検索問題を埋め込むことは、例えば、悪用できる追加の構造を提供する。 時空間一貫性。 シーケンス処理アプローチや環境変更のためのディスクリプタ標準化アプローチなど、この構造を利用するためのいくつかのアルゴリズムが存在する。 本稿では,異なるタイプの付加構造と情報を利用するグラフベースのフレームワークを提案する。 グラフィカルモデルは、標準ツールで最適化できる非線形最小二乗問題の定式化に使用される。 シーケンスと標準化以外にも,データベース内および/またはクエリ画像セットにおけるセット内類似性を追加情報として使用することを提案する。 利用可能であれば、データベースイメージのポーズに関する追加知識をシームレスに統合することも可能です。 本研究では,様々な標準位置認識データセット上でシステムを評価し,異なる情報源,異なる種類の制約,オンラインまたはオフラインの場所認識設定を含む多数の構成のパフォーマンス改善を示す。

Visual place recognition is an important subproblem of mobile robot localization. Since it is a special case of image retrieval, the basic source of information is the pairwise similarity of image descriptors. However, the embedding of the image retrieval problem in this robotic task provides additional structure that can be exploited, e.g. spatio-temporal consistency. Several algorithms exist to exploit this structure, e.g., sequence processing approaches or descriptor standardization approaches for changing environments. In this paper, we propose a graph-based framework to systematically exploit different types of additional structure and information. The graphical model is used to formulate a non-linear least squares problem that can be optimized with standard tools. Beyond sequences and standardization, we propose the usage of intra-set similarities within the database and/or the query image set as additional source of information. If available, our approach also allows to seamlessly integrate additional knowledge about poses of database images. We evaluate the system on a variety of standard place recognition datasets and demonstrate performance improvements for a large number of different configurations including different sources of information, different types of constraints, and online or offline place recognition setups.
翻訳日:2021-04-18 20:30:17 公開日:2020-12-29
# ラベル伝播とスタイル伝達による半教師付き心臓画像分割

Semi-supervised Cardiac Image Segmentation via Label Propagation and Style Transfer ( http://arxiv.org/abs/2012.14785v1 )

ライセンス: Link先を確認
Yao Zhang, Jiawei Yang, Feng Hou, Yang Liu, Yixin Wang, Jiang Tian, Cheng Zhong, Yang Zhang, and Zhiqiang He(参考訳) 心臓構造の正確なセグメンテーションは、医師が病気を診断するのを手助けし、治療計画の改善に役立てることができる。 しかし、アノテーションの不足と異なるベンダーや医療センター間のデータのばらつきにより、高度な深層学習手法の性能が制限される。 そこで本研究では,左室(lv)と右室(rv)の血流プールを含む心筋構造とmriの左室心筋(myo)を完全自動で区分する方法を提案する。 具体的には,ラベル伝搬によるmriシーケンス時間枠を利用した半教師付き学習法を考案する。 そして、よりロバストな心臓画像分割のために、異なるセンターやベンダー間のばらつきを減らすためにスタイル転送を利用する。 本手法をm&msチャレンジ7で評価し,14チーム中2位にランクした。

Accurate segmentation of cardiac structures can assist doctors to diagnose diseases, and to improve treatment planning, which is highly demanded in the clinical practice. However, the shortage of annotation and the variance of the data among different vendors and medical centers restrict the performance of advanced deep learning methods. In this work, we present a fully automatic method to segment cardiac structures including the left (LV) and right ventricle (RV) blood pools, as well as for the left ventricular myocardium (MYO) in MRI volumes. Specifically, we design a semi-supervised learning method to leverage unlabelled MRI sequence timeframes by label propagation. Then we exploit style transfer to reduce the variance among different centers and vendors for more robust cardiac image segmentation. We evaluate our method in the M&Ms challenge 7 , ranking 2nd place among 14 competitive teams.
翻訳日:2021-04-18 20:30:00 公開日:2020-12-29
# OpenHPS: オープンソースのハイブリッド位置決めシステム

OpenHPS: An Open Source Hybrid Positioning System ( http://arxiv.org/abs/2101.05198v1 )

ライセンス: Link先を確認
Maxim Van de Wynckel and Beat Signer(参考訳) 位置決めシステムとフレームワークは様々な技術を使って物体の位置を決定する。 既存のソリューションのいくつかは、位置決め時に異なる感覚データを組み合わせて、使用済みの個人位置決め技術によって導入された誤差を減らし、より正確な位置を計算する。 我々は,typescriptで実装された汎用的なハイブリッド測位システムであるopenhpsを提案する。異なるアルゴリズムに基づく異なる知覚データを用いて追跡中の誤差を低減できるだけでなく,システムの校正やトレーニング時に複合追跡技術も活用できる。 拡張性のあるオープンソースOpenHPSフレームワークのアーキテクチャ、機能、実装に関する詳細な議論に加えて、異なる位置決め技術を融合したデモレータアプリケーションにおける私たちのソリューションの使用について説明する。 OpenHPSは多くの位置決め技術を提供しているが、将来の拡張は新しい位置決め手法やアルゴリズムを統合し、シンボル位置を含む抽象的な追加レベルをサポートするかもしれない。

Positioning systems and frameworks use various techniques to determine the position of an object. Some of the existing solutions combine different sensory data at the time of positioning in order to compute more accurate positions by reducing the error introduced by the used individual positioning techniques. We present OpenHPS, a generic hybrid positioning system implemented in TypeScript, that can not only reduce the error during tracking by fusing different sensory data based on different algorithms, but also also make use of combined tracking techniques when calibrating or training the system. In addition to a detailed discussion of the architecture, features and implementation of the extensible open source OpenHPS framework, we illustrate the use of our solution in a demonstrator application fusing different positioning techniques. While OpenHPS offers a number of positioning techniques, future extensions might integrate new positioning methods or algorithms and support additional levels of abstraction including symbolic locations.
翻訳日:2021-04-18 20:29:46 公開日:2020-12-29
# 消失学習率漸近における線形L2ブースティングアルゴリズムの挙動

Behavior of linear L2-boosting algorithms in the vanishing learning rate asymptotic ( http://arxiv.org/abs/2012.14657v1 )

ライセンス: Link先を確認
Cl\'ement Dombry (UBFC, LMB), Youssef Esstafa (ENSAI)(参考訳) 学習速度が0に収束し、繰り返し回数が再スケールされるとき、勾配向上アルゴリズムの漸近挙動について検討する。 B{\"u}hlmann と Yu (2003) で研究された線形ベースラーナによる回帰に対する L2-boosting を主に検討し、各ステップでサブサンプリングが使用される確率的なモデルも解析する(Friedman 2002)。 無限次元関数空間における線形微分方程式の一意解として、消失学習率の漸近的極限を証明し、その極限を特徴付ける。 また、制限手順のトレーニングおよびテスト誤差を徹底的に解析する。 線形L2ボスティング作用素を滑らかな射影と解釈し、時間はその自由度数に関係しているという簡単な数値実験で、我々の結果を論じ、議論する。

We investigate the asymptotic behaviour of gradient boosting algorithms when the learning rate converges to zero and the number of iterations is rescaled accordingly. We mostly consider L2-boosting for regression with linear base learner as studied in B{\"u}hlmann and Yu (2003) and analyze also a stochastic version of the model where subsampling is used at each step (Friedman 2002). We prove a deterministic limit in the vanishing learning rate asymptotic and characterize the limit as the unique solution of a linear differential equation in an infinite dimensional function space. Besides, the training and test error of the limiting procedure are thoroughly analyzed. We finally illustrate and discuss our result on a simple numerical experiment where the linear L2-boosting operator is interpreted as a smoothed projection and time is related to its number of degrees of freedom.
翻訳日:2021-04-18 20:29:31 公開日:2020-12-29
# 指標付き二次最適化のための超モジュラリティと有効不等式

Supermodularity and valid inequalities for quadratic optimization with indicators ( http://arxiv.org/abs/2012.14633v1 )

ライセンス: Link先を確認
Alper Atamturk and Andres Gomez(参考訳) 階数 1 の二次化を指標付きで最小化し、連続変数を射影して得られる基底集合関数が超モジュラーであることを示す。 超モジュラル最小化は一般に難しいが、階数 1 の二次の特定の集合関数は線形時間で最小化できる。 二次のエピグラフの凸包は、変数の原空間の非線形不等式へ持ち上げることによって、基礎となる超モジュラー集合函数の不等式から得ることができる。 凸-ハル記述の明示的な形式は、変数の原空間と円錐二次表現可能不等式による拡張定式化の両方において、多項式分離アルゴリズムとともに与えられる。 計算実験により、円錐二次形式における昇降超モジュラー不等式は、2次最適化と指標との積分性ギャップを低減するのに非常に効果的であることが示されている。

We study the minimization of a rank-one quadratic with indicators and show that the underlying set function obtained by projecting out the continuous variables is supermodular. Although supermodular minimization is, in general, difficult, the specific set function for the rank-one quadratic can be minimized in linear time. We show that the convex hull of the epigraph of the quadratic can be obtaining from inequalities for the underlying supermodular set function by lifting them into nonlinear inequalities in the original space of variables. Explicit forms of the convex-hull description are given, both in the original space of variables and in an extended formulation via conic quadratic-representable inequalities, along with a polynomial separation algorithm. Computational experiments indicate that the lifted supermodular inequalities in conic quadratic form are quite effective in reducing the integrality gap for quadratic optimization with indicators.
翻訳日:2021-04-18 20:28:59 公開日:2020-12-29
# このような偽りの友人で、誰に自認できるのか。

With False Friends Like These, Who Can Have Self-Knowledge? ( http://arxiv.org/abs/2012.14738v1 )

ライセンス: Link先を確認
Lue Tao, Songcan Chen(参考訳) 敵対的な例はモデルの過度な感度から生じる。 一般的に研究されている敵の例は悪意のある入力であり、正しく分類された例から敵が作り、誤分類を引き起こす。 本稿では,過度に感度が高すぎることによる興味深く,かつ見過ごされている結果,すなわち,誤分類された例は容易に摂動でき,モデルが正しい出力を生成するのに役立つ。 このような混乱した例は無害に見えるが、実際には悪意のある友人によってモデルに自己満足させるために悪用されることがある。 したがって、これらを偽批判例と呼ぶ。 このような偽の友達があれば、パフォーマンスの悪いモデルは最先端のモデルのように振る舞うことができる。 デプロイ担当者がプレクリティカルなパフォーマンスを信頼し、現実世界のアプリケーションで"well-performed"モデルを使用すると、潜在的なセキュリティ上の懸念が良質な環境にさえ現れます。 本報告では, 初めて偽善リスクを定式化し, 自然リスクと偽善リスクの上限のトレードオフを最小化することにより, 偽善例に特化した防御手法を提案する。 さらに, 理論的解析により, 対立リスクと低臨界リスクの関係が明らかになった。 実験により,提案手法の理論的結果と有効性について検証した。

Adversarial examples arise from excessive sensitivity of a model. Commonly studied adversarial examples are malicious inputs, crafted by an adversary from correctly classified examples, to induce misclassification. This paper studies an intriguing, yet far overlooked consequence of the excessive sensitivity, that is, a misclassified example can be easily perturbed to help the model to produce correct output. Such perturbed examples look harmless, but actually can be maliciously utilized by a false friend to make the model self-satisfied. Thus we name them hypocritical examples. With false friends like these, a poorly performed model could behave like a state-of-the-art one. Once a deployer trusts the hypocritical performance and uses the "well-performed" model in real-world applications, potential security concerns appear even in benign environments. In this paper, we formalize the hypocritical risk for the first time and propose a defense method specialized for hypocritical examples by minimizing the tradeoff between natural risk and an upper bound of hypocritical risk. Moreover, our theoretical analysis reveals connections between adversarial risk and hypocritical risk. Extensive experiments verify the theoretical results and the effectiveness of our proposed methods.
翻訳日:2021-04-18 20:28:44 公開日:2020-12-29
# 深層ニューラルネットワークを用いたcovid-19検出の試み

Detecting COVID-19 from Breathing and Coughing Sounds using Deep Neural Networks ( http://arxiv.org/abs/2012.14553v1 )

ライセンス: Link先を確認
Bj\"orn W. Schuller and Harry Coppock and Alexander Gaskell(参考訳) 新型コロナウイルス(covid-19)のパンデミックは世界全体に不均一な影響を与えており、産業経済はウイルスの感染拡大を追跡するために必要な検査を作成でき、ほぼ完全なロックダウンを避けることができたが、発展途上国は検査能力に問題を抱えている。 本稿では,モバイル端末やweb経由での呼吸やせきの音声記録から新型コロナウイルスを検出できるユビキタスで低コストな事前テスト手法として,深層学習モデルの利用について検討する。 我々は、スピーカーがcovid-19に感染しているかどうかを分類するために、生呼吸と音声とスペクトログラムを使用する畳み込みニューラルネットワークのアンサンブルを適応させる。 異なるモデルは、ベイズ最適化とHyperBandを組み合わせた自動ハイパーパラメータチューニングによって得られる。 提案手法は従来のベースラインアプローチを大きなマージンで上回っている。 最終的に、厳密な対象の独立な方法で呼吸とせきを通しての最良のテストセットの結果を考慮することで、無加重平均リコール(uar)を74.9%、またはroc曲線(auc)下の領域を80.7%達成する。 隔離された状態では、呼吸音はせき音よりわずかに適しているように見える(76.1%対73.7%)。

The COVID-19 pandemic has affected the world unevenly; while industrial economies have been able to produce the tests necessary to track the spread of the virus and mostly avoided complete lockdowns, developing countries have faced issues with testing capacity. In this paper, we explore the usage of deep learning models as a ubiquitous, low-cost, pre-testing method for detecting COVID-19 from audio recordings of breathing or coughing taken with mobile devices or via the web. We adapt an ensemble of Convolutional Neural Networks that utilise raw breathing and coughing audio and spectrograms to classify if a speaker is infected with COVID-19 or not. The different models are obtained via automatic hyperparameter tuning using Bayesian Optimisation combined with HyperBand. The proposed method outperforms a traditional baseline approach by a large margin. Ultimately, it achieves an Unweighted Average Recall (UAR) of 74.9%, or an Area Under ROC Curve (AUC) of 80.7% by ensembling neural networks, considering the best test set result across breathing and coughing in a strictly subject independent manner. In isolation, breathing sounds thereby appear slightly better suited than coughing ones (76.1% vs 73.7% UAR).
翻訳日:2021-04-18 20:27:35 公開日:2020-12-29
# 製品配布をテストする - 詳しく見て

Testing Product Distributions: A Closer Look ( http://arxiv.org/abs/2012.14632v1 )

ライセンス: Link先を確認
Arnab Bhattacharyya, Sutanu Gayen, Saravanan Kandasamy, N. V. Vinodchandran(参考訳) 我々は,n$-dimensional 製品分布の同一性と密接性テストの問題点について検討する。 Canonne, Diakonikolas, Kane and Stewart (COLT 2017) と Daskalakis and Pan (COLT 2017) による以前の研究は、バイナリアルファベット上での非耐性テストのための厳密なサンプル複雑性境界を確立した: バイナリアルファベット上での2つの積分布$P$と$Q$が与えられた場合、$P = Q$と$d_{\mathrm{TV}}(P, Q) > \epsilon$。 この先行研究に基づいて、いくつかの自然距離測度および任意のアルファベット上での耐久試験を調査することにより、製品分布のテストの複雑さのより包括的なマップを提供する。 本研究は, 耐久試験における試料の複雑さが, 製品分布の距離測定値とどのように異なるか, 詳細に把握する。 さらに、製品分布の上限の1つを境界度ベイズネットに拡張します。

We study the problems of identity and closeness testing of $n$-dimensional product distributions. Prior works by Canonne, Diakonikolas, Kane and Stewart (COLT 2017) and Daskalakis and Pan (COLT 2017) have established tight sample complexity bounds for non-tolerant testing over a binary alphabet: given two product distributions $P$ and $Q$ over a binary alphabet, distinguish between the cases $P = Q$ and $d_{\mathrm{TV}}(P, Q) > \epsilon$. We build on this prior work to give a more comprehensive map of the complexity of testing of product distributions by investigating tolerant testing with respect to several natural distance measures and over an arbitrary alphabet. Our study gives a fine-grained understanding of how the sample complexity of tolerant testing varies with the distance measures for product distributions. In addition, we also extend one of our upper bounds on product distributions to bounded-degree Bayes nets.
翻訳日:2021-04-18 20:27:12 公開日:2020-12-29
# グラフニューラルネットワークによる分散制御

Decentralized Control with Graph Neural Networks ( http://arxiv.org/abs/2012.14906v1 )

ライセンス: Link先を確認
Fernando Gama, Qingbiao Li, Ekaterina Tolstaya, Amanda Prorok, Alejandro Ribeiro(参考訳) 自律エージェントからなる動的システムは、ローカル情報のみに依存するグローバルなタスクを達成しなければならないという課題に直面している。 集中型コントローラは容易に利用できるが、ネットワークのエージェントシステムによって課される分散情報構造を尊重しないため、スケーラビリティと実装の面での制限に直面している。 最適な分散化コントローラを見つけるのが困難であることを踏まえ,これらのコントローラを学習するためにグラフニューラルネットワーク(GNN)を用いた新しいフレームワークを提案する。 GNNは自然に分散したアーキテクチャであり、優れたスケーラビリティと転送性を持っているため、このタスクに適しています。 分散コントローラ学習におけるGNNの可能性を明らかにするために, フラッキングとマルチエージェントパス計画の問題点を考察した。

Dynamical systems consisting of a set of autonomous agents face the challenge of having to accomplish a global task, relying only on local information. While centralized controllers are readily available, they face limitations in terms of scalability and implementation, as they do not respect the distributed information structure imposed by the network system of agents. Given the difficulties in finding optimal decentralized controllers, we propose a novel framework using graph neural networks (GNNs) to learn these controllers. GNNs are well-suited for the task since they are naturally distributed architectures and exhibit good scalability and transferability properties. The problems of flocking and multi-agent path planning are explored to illustrate the potential of GNNs in learning decentralized controllers.
翻訳日:2021-04-18 20:26:35 公開日:2020-12-29