このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210305となっている論文です。

PDF登録状況(公開日: 20210305)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子液体中の位相秩序のホログラフィック絡み合い再正規化

Holographic entanglement renormalisation of topological order in a quantum liquid ( http://arxiv.org/abs/2003.06118v3 )

ライセンス: Link先を確認
Anirban Mukherjee and Siddhartha Lal(参考訳) 非局所ユニタリゲートからなるユニタリ量子回路を用いて、正方格子上の2次元ハバードモデルの位相順序(t.o.)基底状態に対する新しい運動量空間の絡み合い再正規化群(merg)スキームを導入する。 各MERGステップにおいて、ユニタリ量子回路は電子状態の集合をアンタングルし、これにより多粒子状態のテンソルネットワーク表現を変換する。 非局所ユニタリゲートを2ビットディスタングルゲートの積として表現することにより、MERGのエンタングルメントホログラフィックマッピング(EHM)表現を提供する。 量子情報理論と複素ネットワーク理論の絡み合いに基づく測度を用いて、EHMのバルクにおける位相秩序の出現について検討する。 MERGは、通常の金属、トポロジカルに秩序づけられた絶縁量子液体と、Refで見いだされた2次元ハバードモデルの反強磁性対称性破壊基底状態に対して、異なるホログラフィックエンタングルメント特性を示す。 略称は「anirbanmotti」。 Refで発見されたホールドープ2次元ハバードモデルの量子臨界点のMERG解析 \cite{anirbanmott2} は、ホールドーピングを伴う量子液体基底状態の多粒子絡み合いの進化と、モットネスの崩壊がd波超伝導の出現にどのように寄与するかを明らかにする。 我々はEHMネットワークの情報理論解析を行い,情報ボトルネック原理がEHMネットワークの階層構造における絡み合い特性の蒸留に寄与することを示した。 その結果、ehmネットワークに基づくディープニューラルネットワーク(dnn)アーキテクチャを構築し、トポロジカルオーダーの開始を予測するためにそれを使用します。 また、DNNは、トポロジカル秩序と隙間のない通常の金属相を区別できることを示した。

We introduce a novel momentum space entanglement renormalization group (MERG) scheme for the topologically ordered (T.O.) ground state of the 2D Hubbard model on a square lattice (\cite{anirbanmotti,anirbanmott2}) using a unitary quantum circuit comprised of non-local unitary gates. At each MERG step, the unitary quantum circuit disentangles a set of electronic states, thereby transforming the tensor network representation of the many-particle state. By representing the non-local unitary gate as a product of two-qubit disentangler gates, we provide an entanglement holographic mapping (EHM) representation for MERG. Using entanglement based measures from quantum information theory and complex network theory, we study the emergence of topological order in the bulk of the EHM. The MERG reveals distinct holographic entanglement features for the normal metallic, topologically ordered insulating quantum liquid and Ne\'{e}l antiferromagnetic symmetry-broken ground states of the 2D Hubbard model at half-filling found in Ref.\cite{anirbanmotti}. An MERG analysis of the quantum critical point of the hole-doped 2D Hubbard model found in Ref.\cite{anirbanmott2} reveals the evolution of the many-particle entanglement of the quantum liquid ground state with hole-doping, as well as how the collapse of Mottness is responsible for the emergence of d-wave superconductivity. We perform an information theoretic analysis of the EHM network, demonstrating that the information bottleneck principle is responsible for the distillation of entanglement features in the heirarchical structure of the EHM network. As a result, we construct a deep neural network (DNN) architecture based on our EHM network, and employ it for predicting the onset of topological order. We also demonstrate that the DNN is capable of distinguishing between the topologically ordered and gapless normal metallic phases.
翻訳日:2023-05-29 06:24:44 公開日:2021-03-05
# 非破壊測定による絡み合い状態の普遍的最適検証

Universally Optimal Verification of Entangled States with Nondemolition Measurements ( http://arxiv.org/abs/2005.01106v3 )

ライセンス: Link先を確認
Ye-Chao Liu, Jiangwei Shang, Rui Han, Xiangdong Zhang(参考訳) 量子状態の効率的で信頼性の高い特徴づけは、量子情報処理のタスクの多くにおいて重要な役割を果たす。 そこで本研究では,量子非デモルフィケーション法(quantum nondemolition measurement)を用いて,エンタングル状態の検証を行うための普遍的最適プロトコルを提案する。 標準検証戦略として確率的である代わりに,提案プロトコルは逐次構築されるので,実験的な実現に好適である。 さらに、ターゲット状態は各測定後にプロトコルに格納されるので、その後のタスクで再利用することができる。 我々は,ベル状態,任意の2量子ビット純粋状態,安定状態の最適検証のためのプロトコルのパワーを実証する。 また,我々はプロトコルが忠実度推定や状態準備などのタスクを実行できることを証明した。

The efficient and reliable characterization of quantum states plays a vital role in most, if not all, quantum information processing tasks. In this work, we present a universally optimal protocol for verifying entangled states by employing the so-called quantum nondemolition measurements, such that the verification efficiency is equivalent to that of the optimal global strategy. Instead of being probabilistic as the standard verification strategies, our protocol is constructed sequentially, which is thus more favorable for experimental realizations. In addition, the target states are preserved in the protocol after each measurement, so can be reused in any subsequent tasks. We demonstrate the power of our protocol for the optimal verification of Bell states, arbitrary two-qubit pure states, and stabilizer states. We also prove that our protocol is able to perform tasks including fidelity estimation and state preparation.
翻訳日:2023-05-21 07:15:49 公開日:2021-03-05
# スクイーズ型光センシングにおける検出損失とノイズの克服

Overcoming detection loss and noise in squeezing-based optical sensing ( http://arxiv.org/abs/2005.08843v3 )

ライセンス: Link先を確認
Gaetano Frascella, Sascha Agne, Farid Ya. Khalili, Maria V. Chekhova(参考訳) 量子力学の既知の資源のうち、最も実用的で効率的なものはスクイーズである。 原子と光のスクイーズ状態は、位相、磁場、偏光、機械的変位のセンシングを改善する。 彼らは画像と分光の信号対雑音比を大幅に増加させることを約束しており、すでに実際の重力波検出器で使用されている。 しかし、他の状態よりも堅牢であるにもかかわらず、まだ非常に脆弱であり、アプリケーションのスコープを狭めている。 特に、スクイーズ状態は、検出が非効率でノイズが高い測定では役に立たない。 そこで本研究では,損失と雑音に対する対策を実験的に示す。 これにより、圧縮光とコヒーレント光を供給した干渉計の損失耐性動作を実現する。 検出効率は50\%で,50倍以上の圧縮光のレベルを超えるノイズで,ショットノイズ制限を6~dbで克服した。 サブショットノイズの位相感度は最大87\%の損失を持続する。 この技術の他のタイプの光学センシングおよびイメージングへの応用は、これらの分野における量子リソースのフル活用を約束している。

Among the known resources of quantum metrology, one of the most practical and efficient is squeezing. Squeezed states of atoms and light improve the sensing of the phase, magnetic field, polarization, mechanical displacement. They promise to considerably increase signal-to-noise ratio in imaging and spectroscopy, and are already used in real-life gravitational-wave detectors. But despite being more robust than other states, they are still very fragile, which narrows the scope of their application. In particular, squeezed states are useless in measurements where the detection is inefficient or the noise is high. Here, we experimentally demonstrate a remedy against loss and noise: strong noiseless amplification before detection. This way, we achieve loss-tolerant operation of an interferometer fed with squeezed and coherent light. With only 50\% detection efficiency and with noise exceeding the level of squeezed light more than 50 times, we overcome the shot-noise limit by 6~dB. Sub-shot-noise phase sensitivity survives up to 87\% loss. Application of this technique to other types of optical sensing and imaging promises a full use of quantum resources in these fields.
翻訳日:2023-05-19 11:13:36 公開日:2021-03-05
# 量子不特定性難読化のための構成法

Constructions for Quantum Indistinguishability Obfuscation ( http://arxiv.org/abs/2005.14699v2 )

ライセンス: Link先を確認
Anne Broadbent and Raza Ali Kazmi(参考訳) 不特定性オブファスケータ(英: Indistinguishability obfuscator)とは、回路を入力として取り、入力回路と同じ機能を持つ新しい回路を出力する確率多項式時間アルゴリズムである。 本稿では,量子回路の識別不能化のためのスキームについて検討する。 We present two definitions for indistinguishability obfuscation: in our first definition (qiO) the outputs of the obfuscator are required to be indistinguishable if the input circuits are perfectly equivalent, while in our second definition (qiOD), the outputs are required to be indistinguishable as long as the input circuits are approximately equivalent with respect to a pseudo-distance D. Our main results provide (1) a computationally-secure scheme for qiO where the size of the output of the obfuscator is exponential in the number of non-Clifford (T gates), which means that the construction is efficient as long as the number of T gates is logarithmic in the circuit size and (2)a statistically-secure qiOD, for circuits that are close to the kth level of the Gottesman-Chuang hierarchy (with respect to D); this construction is efficient as long as k is small and fixed.

An indistinguishability obfuscator is a probabilistic polynomial-time algorithm that takes a circuit as input and outputs a new circuit that has the same functionality as the input circuit, such that for any two circuits of the same size that compute the same function, the outputs of the indistinguishability obfuscator are indistinguishable. Here, we study schemes for indistinguishability obfuscation for quantum circuits. We present two definitions for indistinguishability obfuscation: in our first definition (qiO) the outputs of the obfuscator are required to be indistinguishable if the input circuits are perfectly equivalent, while in our second definition (qiOD), the outputs are required to be indistinguishable as long as the input circuits are approximately equivalent with respect to a pseudo-distance D. Our main results provide (1) a computationally-secure scheme for qiO where the size of the output of the obfuscator is exponential in the number of non-Clifford (T gates), which means that the construction is efficient as long as the number of T gates is logarithmic in the circuit size and (2)a statistically-secure qiOD, for circuits that are close to the kth level of the Gottesman-Chuang hierarchy (with respect to D); this construction is efficient as long as k is small and fixed.
翻訳日:2023-05-18 00:42:54 公開日:2021-03-05
# フロッケ強化スピンスワップ

Floquet-Enhanced Spin Swaps ( http://arxiv.org/abs/2006.10913v2 )

ライセンス: Link先を確認
Haifeng Qiao, Yadav P. Kandel, John S. Van Dyke, Saeed Fallahi, Geoffrey C. Gardner, Michael J. Manfra, Edwin Barnes, John M. Nichol(参考訳) 量子システム間の情報の転送は、量子通信と計算に不可欠である。 量子コンピュータでは、量子ビット間の高い接続性はアルゴリズムの効率を改善し、誤り訂正を支援し、高忠実な読み出しを可能にする。 しかし、全ての量子ゲートと同様に、量子ビット間で情報を転送する操作は、スプリアスな相互作用や量子ビット間の混乱などに伴うエラーに苦しむことがある。 本稿では,量子ドットスピンにおけるスピン固有状態のスワップ操作を改善するために,量子ビット間の相互作用と乱れを利用する。 我々は4つの電子スピンの系を使い、2つの交換結合されたシングルト・トリップ・キュービットを構成する。 我々のアプローチは、離散時間結晶の基礎となる物理に依存しており、スピン-固有状態スワップの品質を最大1桁向上させる。 本研究は,マルチキュービット系における相互作用と乱れが,非自明な量子演算を安定化させ,時間結晶などの非平衡量子現象の量子情報処理への応用の可能性を示すものである。 また,交換結合したシングルトリップレット量子ビット間の有効Ising相互作用の出現を予測した。

The transfer of information between quantum systems is essential for quantum communication and computation. In quantum computers, high connectivity between qubits can improve the efficiency of algorithms, assist in error correction, and enable high-fidelity readout. However, as with all quantum gates, operations to transfer information between qubits can suffer from errors associated with spurious interactions and disorder between qubits, among other things. Here, we harness interactions and disorder between qubits to improve a swap operation for spin eigenstates in semiconductor gate-defined quantum-dot spins. We use a system of four electron spins, which we configure as two exchange-coupled singlet-triplet qubits. Our approach, which relies on the physics underlying discrete time crystals, enhances the quality factor of spin-eigenstate swaps by up to an order of magnitude. Our results show how interactions and disorder in multi-qubit systems can stabilize non-trivial quantum operations and suggest potential uses for non-equilibrium quantum phenomena, like time crystals, in quantum information processing applications. Our results also confirm the long-predicted emergence of effective Ising interactions between exchange-coupled singlet-triplet qubits.
翻訳日:2023-05-13 11:36:10 公開日:2021-03-05
# 量子自己持続型アブ・イニシアト格子ダイナミクス

Quantum Self-Consistent Ab-Initio Lattice Dynamics ( http://arxiv.org/abs/2006.12867v2 )

ライセンス: Link先を確認
Ambroise van Roekeghem, Jes\'us Carrete and Natalio Mingo(参考訳) Quantum Self-Consistent Ab-Initio Lattice Dynamics Pack (QSCAILD)は、非調和効果を含む結晶中の温度依存性の有効2次および3次原子間力定数を計算するピソンライブラリーである。 qscaildのアプローチは調和モデルの量子統計に基づいている。 このプログラムには、固体の転位原子に作用する力が入力として必要であり、密度汎関数理論やその他の計算機に基づく外部符号から得られる。 本稿では、QSCAILDの実装について述べ、他の手法との接続を明確にし、SrTiO3立方ペロブスカイト構造の場合における使用例を示す。

The Quantum Self-Consistent Ab-Initio Lattice Dynamics package (QSCAILD) is a python library that computes temperature-dependent effective 2nd and 3rd order interatomic force constants in crystals, including anharmonic effects. QSCAILD's approach is based on the quantum statistics of a harmonic model. The program requires the forces acting on displaced atoms of a solid as an input, which can be obtained from an external code based on density functional theory, or any other calculator. This article describes QSCAILD's implementation, clarifies its connections to other methods, and illustrates its use in the case of the SrTiO3 cubic perovskite structure.
翻訳日:2023-05-13 01:02:55 公開日:2021-03-05
# 量子アニーリングにおける急速クエンチのエネルギー的展望

An energetic perspective on rapid quenches in quantum annealing ( http://arxiv.org/abs/2007.11599v5 )

ライセンス: Link先を確認
Adam Callison, Max Festenstein, Jie Chen, Laurentiu Nita, Viv Kendon, Nicholas Chancellor(参考訳) 量子力学は、断熱極限付近でゆっくりとハミルトンパラメータを変化させることで、どのように計算問題を解くことができるかを分析するための理論ツールがよく開発されている。 一方で、量子アニーリングや(無限に速いクエンチェの限界において)量子ウォークで使われるような、急速クエンチェの反対の限界を理解するツールは比較的少ない。 本稿では,急激なクエンチ体制に適用可能なツールをいくつか開発する。 まず,ハミルトニアンの異なる元素のエネルギー期待値を解析する。 このことから,ハミルトニアン問題の強度がゆらぎ(ドライバ)項に対して一貫して増大する単調なクエンチは,ランダムな推測よりも平均的によい結果が得られることを示した。 次に,急速クエンチ・ハミルトニアンの下でダイナミックスが局所的に発生するかどうかを判定する手法を開発し,急速クエンチが大幅に改善される場合を特定する。 特に,我々が「事前アニーリング」と呼ぶ手法は,量子ウォークの性能を大幅に向上させることができる。 また,これらのツールが,量子アニーリングの実用的応用において重要な要件であるハミルトンパラメータの効率的なヒューリスティック推定を提供する方法を示す。

There are well developed theoretical tools to analyse how quantum dynamics can solve computational problems by varying Hamiltonian parameters slowly, near the adiabatic limit. On the other hand, there are relatively few tools to understand the opposite limit of rapid quenches, as used in quantum annealing and (in the limit of infinitely rapid quenches) in quantum walks. In this paper, we develop several tools which are applicable in the rapid quench regime. Firstly, we analyse the energy expectation value of different elements of the Hamiltonian. From this, we show that monotonic quenches, where the strength of the problem Hamiltonian is consistently increased relative to fluctuation (driver) terms, will yield a better result on average than random guessing. Secondly, we develop methods to determine whether dynamics will occur locally under rapid quench Hamiltonians, and identify cases where a rapid quench will lead to a substantially improved solution. In particular, we find that a technique we refer to as "pre-annealing" can significantly improve the performance of quantum walks. We also show how these tools can provide efficient heuristic estimates for Hamiltonian parameters, a key requirement for practical application of quantum annealing.
翻訳日:2023-05-08 18:29:59 公開日:2021-03-05
# top-k候補選択のための横断的肯定的行動政策

Intersectional Affirmative Action Policies for Top-k Candidates Selection ( http://arxiv.org/abs/2007.14775v2 )

ライセンス: Link先を確認
Giorgio Barnabo', Carlos Castillo, Michael Mathioudakis, Sergio Celis(参考訳) 各候補者が適性を示すスコアに関連付けられる、応募者のプールからトップk候補を選ぶ問題について検討する。 職業検索や大学入学などの特定のシナリオによっては、これらのスコアは標準化されたテストの結果や、将来のパフォーマンスとユーティリティの予測結果である可能性がある。 我々は、一部の候補者が歴史的に不利を経験し、その不利が他のグループよりもはるかに低い確率で受け入れられる状況を考える。 このような状況下では、最終的に選ばれる候補者の適性を大幅に低下させることを避けつつ、受容率格差の低減に肯定的な行動方針を適用したい。 我々のアルゴリズム設計は、性別、人種、性的指向、社会経済的地位、障害といった異次元に沿って定義された複数の不利益グループに属する個人に、差別が不釣り合いに影響を及ぼすことが頻繁に観察される現象に動機づけられている。 要するに、アルゴリズムの目的は同時に、高いユーティリティを持つ候補を選択し、不利な交叉クラスの表現をレベルアップすることである。 これは自然にトレードオフを伴い、より多くの属性が考慮されるにつれてポテンシャル部分群の組合せ的爆発のために計算的に困難である。 本稿では,OECD国における学士号の取得と学位取得のデータセットを用いて,この問題の解決,解析,評価を行う2つのアルゴリズムを提案する。 我々の結論は、選択された候補者適性の観点から、交差点クラスに影響を及ぼす入院率の格差を小さくすることができるというものである。 我々の知識を最大限に活用するため、我々はトップk選択の文脈で交叉クラスに関して公平性制約を研究する最初の者です。

We study the problem of selecting the top-k candidates from a pool of applicants, where each candidate is associated with a score indicating his/her aptitude. Depending on the specific scenario, such as job search or college admissions, these scores may be the results of standardized tests or other predictors of future performance and utility. We consider a situation in which some groups of candidates experience historical and present disadvantage that makes their chances of being accepted much lower than other groups. In these circumstances, we wish to apply an affirmative action policy to reduce acceptance rate disparities, while avoiding any large decrease in the aptitude of the candidates that are eventually selected. Our algorithmic design is motivated by the frequently observed phenomenon that discrimination disproportionately affects individuals who simultaneously belong to multiple disadvantaged groups, defined along intersecting dimensions such as gender, race, sexual orientation, socio-economic status, and disability. In short, our algorithm's objective is to simultaneously: select candidates with high utility, and level up the representation of disadvantaged intersectional classes. This naturally involves trade-offs and is computationally challenging due to the the combinatorial explosion of potential subgroups as more attributes are considered. We propose two algorithms to solve this problem, analyze them, and evaluate them experimentally using a dataset of university application scores and admissions to bachelor degrees in an OECD country. Our conclusion is that it is possible to significantly reduce disparities in admission rates affecting intersectional classes with a small loss in terms of selected candidate aptitude. To the best of our knowledge, we are the first to study fairness constraints with regards to intersectional classes in the context of top-k selection.
翻訳日:2023-05-07 20:32:18 公開日:2021-03-05
# 時間発展状態の重畳による量子パワー法

Quantum Power Method by a Superposition of Time-Evolved States ( http://arxiv.org/abs/2008.03661v3 )

ライセンス: Link先を確認
Kazuhiro Seki, Seiji Yunoki(参考訳) ここでは、量子パワー法と呼ばれるパワーメソッドの量子古典ハイブリッドアルゴリズムを提案し、量子コンピュータで$\hat{\cal H}^n |\psi\rangle$を評価し、$n$は非負整数、$\hat{\cal H}$は時間非依存のハミルトンであり、$|\psi \rangle$は量子状態である。 量子ビットのパワーと量子ビット数を近似するのに必要なゲートの数は線形にスケールし、短期量子コンピュータに有望な応用となることを示す。 数値シミュレーションを用いて,ハミルトニアンのパワー${\hat{\cal h}^n}$を100ドル程度で近似することにより,系統的誤差を制御できることを示した。 そこで,本手法をマルチリファレンスkrylov-subspace-diagonalizationスキームと組み合わせることで,変分量子・固有解法を用いて,基底状態エネルギーと基底状態フィデリティの推定をいかに改善できるかを示す。 最後に、いくつかのモーメントベースの方法を含む量子パワー法の他の応用について概説する。 仮想時間発展の連結モーメント展開を数値的に示し,マルチリファレンスkrylov-subspace対角化との比較を行った。

We propose a quantum-classical hybrid algorithm of the power method, here dubbed as quantum power method, to evaluate $\hat{\cal H}^n |\psi\rangle$ with quantum computers, where $n$ is a nonnegative integer, $\hat{\cal H}$ is a time-independent Hamiltonian of interest, and $|\psi \rangle$ is a quantum state. We show that the number of gates required for approximating $\hat{\cal H}^n$ scales linearly in the power and the number of qubits, making it a promising application for near term quantum computers. Using numerical simulation, we show that the power method can control systematic errors in approximating the Hamiltonian power ${\hat{\cal H}^n}$ for $n$ as large as 100. As an application, we combine our method with a multireference Krylov-subspace-diagonalization scheme to show how one can improve the estimation of ground-state energies and the ground-state fidelities found using a variational-quantum-eigensolver scheme. Finally, we outline other applications of the quantum power method, including several moment-based methods. We numerically demonstrate the connected-moment expansion for the imaginary-time evolution and compare the results with the multireference Krylov-subspace diagonalization.
翻訳日:2023-05-06 18:01:22 公開日:2021-03-05
# 量子光学系を用いた時間依存重力場の最適推定

Optimal estimation of time-dependent gravitational fields with quantum optomechanical systems ( http://arxiv.org/abs/2008.06507v2 )

ライセンス: Link先を確認
Sofia Qvarfort and A. Douglas K. Plato and David Edward Bruschi and Fabienne Schneiter and Daniel Braun and Alessio Serafini and Dennis R\"atzel(参考訳) 時間依存重力場測定のための非線形系における理想的なオプティメカルシステムにより達成できる基本感度について検討する。 時間依存ハミルトニアンを持つ非線形光学系の力学を解くために最近開発された手法を用いて、重力による機械的要素の線形変位に対する量子フィッシャー情報を計算する。 キャビティフィールドのスクイズド状態の注入により感度をさらに向上させるだけでなく,光学系の光・マッター結合を変調させることによって,感度をさらに高めることができることを実証した。 この結果は, 振動する微小質量の重力場の測定に特に応用され, 原理として, 振動するナノグラム質量の重力場は, 近い将来アクセス可能な実験パラメータに基づいて検出できることが示されている。 最後に,量子光学センサを用いて重力波検出に必要な実験パラメータ配置を同定する。

We study the fundamental sensitivity that can be achieved with an ideal optomechanical system in the nonlinear regime for measurements of time-dependent gravitational fields. Using recently developed methods to solve the dynamics of a nonlinear optomechanical system with a time-dependent Hamiltonian, we compute the quantum Fisher information for linear displacements of the mechanical element due to gravity. We demonstrate that the sensitivity can not only be further enhanced by injecting squeezed states of the cavity field, but also by modulating the light--matter coupling of the optomechanical system. We specifically apply our results to the measurement of gravitational fields from small oscillating masses, where we show that, in principle, the gravitational field of an oscillating nano-gram mass can be detected based on experimental parameters that will likely be accessible in the near-term future. Finally, we identify the experimental parameter regime necessary for gravitational wave detection with a quantum optomechanical sensor.
翻訳日:2023-05-06 07:03:06 公開日:2021-03-05
# 過去は決定されているか?

Is the Past Determined? ( http://arxiv.org/abs/2009.02588v2 )

ライセンス: Link先を確認
Herv\'e Zwirn(参考訳) 最近の論文では、複数の著者が遅延選択実験を説明するのに用いた時間の影響について論じた。 測定に先立って,現在から過去へ伝播する物理的影響が無く,システムの状態が変化していることを示す説明を行った。 しかし、この解は1つの粒子のみを含む遅延選択実験では単純であるが、EPRのような状況を引き起こすため、2つの絡み合った粒子を含む実験では微妙である。 測定がシステムの物理的状態の実際の変化ではなく、観測者と相対的であることを考えると、第1の計測がしばしば仮定されるように、第2の系の後方効果や瞬間的な崩壊がないことを理解することができ、非局所性も排除できる。 本稿では、この測定方法の結果について、私は「共生ソリプシズム(convivial solipsism)」と呼び、通常の意味では、現在や未来の物理的影響が過去にないとしても、観察者の過去は時として完全には決定されておらず、一定の測定がなされた場合にのみ決定されると考える必要があることを示す。 この明らかな矛盾は、それぞれのオブザーバーが自身の測定値を通じて自身の世界(私が生来ソリプシズムの現象世界と呼ぶ)を構築していると理解すれば消滅する。

In a recent paper, I argued against backward in time effects used by several authors to explain delayed choice experiments. I gave an explanation showing that there is no physical influence propagating from the present to the past and modifying the state of the system at a time previous to the measurement. However, though the solution is straightforward in the case of delayed choice experiments involving only one particle, it is subtler in the case of experiments involving two entangled particles because they give rise to EPR-like situations. Considering that a measurement is not an actual change of the physical state of a system and is relative to the observer allows to understand that there is neither backward in time effects nor instantaneous collapse of the second system when the first one is measured, as is often postulated.This allows also to get rid of any non-locality. In this paper, I want to go further into the consequences of this way of considering the measurement, that I have called Convivial Solipsism, and show that even if, in the usual sense, there is no physical effect of the present or of the future on the past, we must nevertheless consider that the observer's past is sometimes not entirely determined and that it becomes determined only when certain measurements are done latter. This apparent contradiction disappears if one understand that each observer builds, through her own measurements, her own world (that I call the phenomenal world in Convivial Solipsism) which is different from what we are used to consider as the common world shared by everybody.
翻訳日:2023-05-03 18:41:34 公開日:2021-03-05
# 画像に基づくソーシャルセンシング:AIと群衆を組み合わせたTwitterのポリシー順守指標

Image-based Social Sensing: Combining AI and the Crowd to Mine Policy-Adherence Indicators from Twitter ( http://arxiv.org/abs/2010.03021v2 )

ライセンス: Link先を確認
Virginia Negri, Dario Scuratti, Stefano Agresti, Donya Rooein, Gabriele Scalia, Amudha Ravi Shankar, Jose Luis Fernandez Marquez, Mark James Carman, Barbara Pernici(参考訳) ソーシャルメディアは大量の情報を提供しており、もし適切に集約され分析されれば、政策立案者に重要な統計指標を提供することができる。 いくつかの状況では、これらの指標は他のメカニズムでは利用できない。 例えば、新型コロナウイルスの感染拡大が続く中、マスク着用、ソーシャルディスタンシング、その他の対策の難しい量に関して、政府が政策順守に関する信頼できるデータにアクセスできることが不可欠である。 本稿では,ソーシャルメディアに投稿された画像から情報を集約することで,そのデータを得ることができるか検討する。 本稿では,画像認識技術の最近の進歩とジオコーディングとクラウドソーシング技術を組み合わせた,画像に基づくソーシャルセンシングのためのパイプラインであるvisualcitを提案する。 我々の目標は、covid-19関連の政策指令をどの国、そしてどの程度人々がフォローしているかを発見することです。 その結果を,CovidDataHubの行動トラッカーイニシアチブで得られた指標と比較した。 予備的な結果は、ソーシャルメディア画像が政策立案者に対して信頼できる指標を作成できることを示している。

Social Media provides a trove of information that, if aggregated and analysed appropriately can provide important statistical indicators to policy makers. In some situations these indicators are not available through other mechanisms. For example, given the ongoing COVID-19 outbreak, it is essential for governments to have access to reliable data on policy-adherence with regards to mask wearing, social distancing, and other hard-to-measure quantities. In this paper we investigate whether it is possible to obtain such data by aggregating information from images posted to social media. The paper presents VisualCit, a pipeline for image-based social sensing combining recent advances in image recognition technology with geocoding and crowdsourcing techniques. Our aim is to discover in which countries, and to what extent, people are following COVID-19 related policy directives. We compared the results with the indicators produced within the CovidDataHub behavior tracker initiative. Preliminary results shows that social media images can produce reliable indicators for policy makers.
翻訳日:2023-04-29 20:04:24 公開日:2021-03-05
# 対角量子チャネルについて

On diagonal quantum channels ( http://arxiv.org/abs/2011.00237v2 )

ライセンス: Link先を確認
Amir R. Arab(参考訳) 本稿では,いくつかの結果を証明し,最も適用可能な例を与えることにより,対角量子チャネルとその構造について検討する。 まず、計算ベースから純粋な状態に対する全ての対角量子チャネルの作用は、遷移確率によって決定される純粋状態の凸結合であることを示す。 最後に、コレスキー分解を用いて、対角量子チャネルのクラウス作用素に対して明示的な形式を見つけるアルゴリズムを提示する。

In this paper we study diagonal quantum channels and their structure by proving some results and giving most applicable instances of them. Firstly, it is shown that action of every diagonal quantum channel on pure state from computational basis is a convex combination of pure states determined by some transition probabilities. Finally, by using the Cholesky decomposition it is presented an algorithmic method to find an explicit form for Kraus operators of diagonal quantum channels.
翻訳日:2023-04-26 05:38:09 公開日:2021-03-05
# 時間依存性自己一貫性調和近似:アンハーモニック核量子力学と時間相関関数

Time-Dependent Self Consistent Harmonic Approximation: Anharmonic nuclear quantum dynamics and time correlation functions ( http://arxiv.org/abs/2011.14986v3 )

ライセンス: Link先を確認
Lorenzo Monacelli and Francesco Mauri(参考訳) 熱伝導率、ラマン/赤外線振動スペクトル、非弾性X線、中性子散乱など、大きな物性を持つ物質は核力学に直接関係している。 これらの性質を第一原理から計算できる理論は、数百の原子を持つ系に実装できる核エネルギーのランドスケープにおける無調和性と量子揺らぎを考慮に入れている。 ここでは,有限温度における格子振動の量子時間発展に関する近似理論を導出する。 この理論は自己整合調和近似(scha)における時間ダイナミクスを導入し、同じ計算コストで静的ケースと共有する。 純粋な状態はディラックの最小作用原理に従って進化し、熱アンサンブルのダイナミクスはエネルギーとエントロピーの両方を保存しているため、非経験的である。 静的SCHAは力学方程式の定常解として回収される。 静的SCHA溶液の摂動理論を適用し、効率的な量子力学応答関数を計算するアルゴリズムを導出する。 この新しいアルゴリズムにより、任意の外部時間依存摂動の応答関数にアクセスでき、核ポテンシャルや経験的方法の摂動拡大に従わずにフォノンスペクトルのシミュレーションが可能となる。 我々は96原子のシミュレーションセルを用いて高圧水素相IIIのIRおよびラマン分光法をベンチマークした。 我々の研究は、動的核運動の非線形状態も探求し、ポンプ・プローブ分光法や光原子を含む化学反応など、強いプローブや複数のプローブとの相互作用を生体分子のプロトン移動としてシミュレートするパラダイムを提供する。

Most material properties of great physical interest are directly related to nuclear dynamics, e.g. the ionic thermal conductivity, Raman/IR vibrational spectra, inelastic X-ray, and Neutron scattering. A theory able to compute from first principles these properties, accounting for the anharmonicity and quantum fluctuations in the nuclear energy landscape that can be implemented in systems with hundreds of atoms is missing. Here, we derive an approximate theory for the quantum time evolution of lattice vibrations at finite temperature. This theory introduces the time dynamics in the Self-Consistent Harmonic Approximation (SCHA) and shares with the static case the same computational cost. It is nonempirical, as pure states evolve according to the Dirac least action principle and the dynamics of the thermal ensemble conserves both energy and entropy. The static SCHA is recovered as a stationary solution of the dynamical equations. We apply perturbation theory around the static SCHA solution and derive an algorithm to compute efficiently quantum dynamical response functions. Thanks to this new algorithm, we have access to the response function of any general external time-dependent perturbation, enabling the simulation of phonon spectra without following any perturbative expansion of the nuclear potential or empirical methods. We benchmark the algorithm on the IR and Raman spectroscopy of high-pressure hydrogen phase III, with a simulation cell of 96 atoms. Our work also explores the nonlinear regime of the dynamical nuclear motion, providing a paradigm to simulate the interaction with intense or multiple probes, as in pump-probe spectroscopy, or chemical reactions involving light atoms, as the proton transfer in biomolecules
翻訳日:2023-04-22 14:31:40 公開日:2021-03-05
# ギ酸二量体の指紋領域:曲線座標における変動振動計算

Fingerprint region of the formic acid dimer: variational vibrational computations in curvilinear coordinates ( http://arxiv.org/abs/2012.03010v2 )

ライセンス: Link先を確認
Alberto Martin Santa Daria, Gustavo Avila, and Edit Matyus(参考訳) formic acid dimer の分子内自由度と低周波分子内自由度を含む変動核運動計算のために, 線形運動エネルギーモデルを開発した。 分子間モードと分子内モードの結合は、一連の振動モデルに対する振動シュル・オディンガー方程式(英語版)を解き、活性モードと拘束された座標値の様々な組み合わせを選択することにより、2つから10個の自由度まで解くことにより研究されている。 クァンとボウマンによって開発された全次元ポテンシャルエネルギー面(PES)と電気双極子モーメント面(Phys. Chem. Phys. 18, 24835 (2016), J. Chem. Phys. 148, 241713 (2018)]を用いて振動状態, ノイズ割り当て, 赤外線振動強度情報を算出する。 ジェット冷却振動分光実験と比較して、いくつかの基本および組み合わせのバンドに対して良い結果が得られたが、エネルギーに近く、同じ対称性を持つ基本振動である$\nu_8$と$\nu_9$の記述は問題視されている。 実験との比較のさらなる進歩のために、ポテンシャルエネルギー表面、特にその多次元結合表現はさらなる改善を必要とする。

Curvilinear kinetic energy models are developed for variational nuclear motion computations including the inter- and the low-frequency intra-molecular degrees of freedom of the formic acid dimer. The coupling of the inter- and intra-molecular modes is studied by solving the vibrational Schr\"odinger equation for a series of vibrational models, from two up to ten active vibrational degrees of freedom by selecting various combinations of active modes and constrained coordinate values. Vibrational states, nodal assignment, and infrared vibrational intensity information is computed using the the full-dimensional potential energy surface (PES) and electric dipole moment surface developed by Qu and Bowman [Phys. Chem. Chem. Phys. 18, 24835 (2016); J. Chem. Phys. 148, 241713 (2018)]. Good results are obtained for several fundamental and combination bands in comparison with with jet-cooled vibrational spectroscopy experiments, but the description of the $\nu_8$ and $\nu_9$ fundamental vibrations, which are close in energy and have the same symmetry, appears to be problematic. For further progress in comparison with experiment, the potential energy surface, and in particular, its multi-dimensional couplings representation, requires further improvement.
翻訳日:2023-04-22 00:55:23 公開日:2021-03-05
# ホップ分岐による単一光子オプトメカニカルカップリング速度の絶対値決定

Absolute determination of the single-photon optomechanical coupling rate via a Hopf bifurcation ( http://arxiv.org/abs/2012.05886v3 )

ライセンス: Link先を確認
Paolo Piergentili, Wenlin Li, Riccardo Natali, David Vitali, Giovanni Di Giuseppe(参考訳) 本研究では,光機械系における放射圧相互作用を特徴付ける単光子光機械結合速度の決定法を確立した。 メカニカル発振器が最初に熱状態でホップ分岐を行い、極限サイクルに達する速度を推定することにより、単純で一貫した方法で単光子光学的カップリング速度を決定することができる。 最も重要なことは、他の手法とは対照的に、我々の手法はシステムの入浴温度や信号の校正の知識に頼らないことである。 共振器が他の自由度と適切な相互作用によってリミットサイクルに駆動されるたびに、キャビティ・オプティメカニクスの外側に拡張できる光機械システムの完全な特性評価のための手順を提供する、理論的枠組みおよび実験的に検証する。

We establish a method for the determination of the single-photon optomechanical coupling rate, which characterizes the radiation pressure interaction in an optomechanical system. The estimation of the rate with which a mechanical oscillator, initially in a thermal state, undergoes a Hopf bifurcation, and reaches a limit cycle, allows us to determine the single-photon optomechanical coupling rate in a simple and consistent way. Most importantly, and in contrast to other methods, our method does not rely on knowledge of the system's bath temperature and on a calibration of the signal. We provide the theoretical framework, and experimentally validate this method, providing a procedure for the full characterization of an optomechanical system, which could be extended outside cavity optomechanics, whenever a resonator is driven into a limit cycle by the appropriate interaction with another degree of freedom.
翻訳日:2023-04-21 05:36:29 公開日:2021-03-05
# グローバルゲートを用いた量子回路の構築

Constructing quantum circuits with global gates ( http://arxiv.org/abs/2012.09061v2 )

ライセンス: Link先を確認
John van de Wetering(参考訳) 量子計算を記述するために使用できる様々なゲート集合が存在する。 量子コンピューティングに関する文献で特に人気のあるゲートは、任意の1量子ビットゲートと2量子ビットのCNOTゲートからなる。 しかし、CNOTゲートは、特定の物理量子コンピュータで実装できる自然なマルチキュービット相互作用であり、これらのCNOTゲートをネイティブゲートセットに変換するコンパイルステップを必要とする。 コンパイルが必要な特に興味深いケースは、イオントラップ量子コンピュータで、自然絡み込み操作は2量子ビット以上動作し、一度に全ての量子ビット上でグローバルに動作することも可能である。 これは、効率的な回路を構築するための全く異なるアプローチを要求する。 本稿では,2量子ゲートを用いた回路をグローバルゲートを用いた回路に変換する問題について検討する。 主な貢献は以下の3つである。 まず、クリフォードゲートと任意の位相ゲートからなる任意の回路を1量子ビットゲートと、元の回路に存在する非クリフォード位相の数に比例する多数の大域的相互作用からなる回路に変換する効率的なアルゴリズムを求める。 第二に、全てのキュービットをターゲットとするグローバルゲートを、キュービットのサブセットのみをターゲットとするゲートに変換する一般的な戦略を見つける。 このアプローチは、(Maslov & Nam, N. J. Phys. 2018) 報告されている指数的スケーリングとは対照的に、対象でない量子ビットの数と線形にスケールする。 第3に、12n-18の報告(Maslov & Nam, N. J. Phys. 2018)から6n-8までの任意のnビットクリフォード回路の合成に必要なグローバルゲートの数を改善する。

There are various gate sets that can be used to describe a quantum computation. A particularly popular gate set in the literature on quantum computing consists of arbitrary single-qubit gates and 2-qubit CNOT gates. A CNOT gate is however not always the natural multi-qubit interaction that can be implemented on a given physical quantum computer, necessitating a compilation step that transforms these CNOT gates to the native gate set. A particularly interesting case where compilation is necessary is for ion trap quantum computers, where the natural entangling operation can act on more than 2 qubits and can even act globally on all qubits at once. This calls for an entirely different approach to constructing efficient circuits. In this paper we study the problem of converting a given circuit that uses 2-qubit gates to one that uses global gates. Our three main contributions are as follows. First, we find an efficient algorithm for transforming an arbitrary circuit consisting of Clifford gates and arbitrary phase gates into a circuit consisting of single-qubit gates and a number of global interactions proportional to the number of non-Clifford phases present in the original circuit. Second, we find a general strategy to transform a global gate that targets all qubits into one that targets only a subset of the qubits. This approach scales linearly with the number of qubits that are not targeted, in contrast to the exponential scaling reported in (Maslov & Nam, N. J. Phys. 2018). Third, we improve on the number of global gates required to synthesise an arbitrary n-qubit Clifford circuit from the 12n-18 reported in (Maslov & Nam, N. J. Phys. 2018) to 6n-8.
翻訳日:2023-04-20 11:13:43 公開日:2021-03-05
# マイクロ波空洞内における浮揚の実証

Demonstrating levitation within a microwave cavity ( http://arxiv.org/abs/2101.01309v2 )

ライセンス: Link先を確認
Nabin K. Raut, Jeffery Miller, Raymond Chiao, Jay E. Sharping(参考訳) 緩和システムは、クラッピング損失の低減と熱接触の低減により望ましい。 これらの有利な性質は、機械モードと電磁モードの間の超強結合を達成するために光メカニクスで活用されている。 このようなスキームは、マクロシステムの量子操作の機会を提供する。 本報告では,1センチスケール超伝導アルミニウム同軸準波スタブキャビティ内での浮遊ミリスケールネオジム磁石による最初の実験を報告する。 磁束は、電界が集中しているスタブの先端付近に浮き彫りにされ、共鳴周波数のシフトによって磁石の位置の小さな摂動を検出することができるように電界分布を摂動する。 共鳴スペクトルはベクターネットワークアナライザ(vna)を介して5kから50mkの温度の間で収集され、キャビティ内の磁石の動きが明らかにされる。 室温測定と有限要素計算を行い、磁石の様々な位置の周波数変化を計算し、超伝導状態に遷移する際の100MHzのアップシフトを実験的に測定し、アルミニウムの臨界磁場の最大140倍の値で浮上を確認する。 隆起高さは1 - 1.8mmに達する。 永久磁石の強度に及ぼす浮上高さと浮上温度の影響を調べたところ, 浮上温度と上昇高さは永久磁石強度とともに増加することがわかった。 本研究は, 異なる古典系と量子系のカップリングを可能にする, 力の検出と伝達が可能な新しいマクロ力学系について述べる。

Levitated systems are desirable due to reduced clamping losses and reduced thermal contact. These advantageous properties have been exploited in optomechanics to achieve ultra-strong coupling between the mechanical mode and the electromagnetic mode. Such schemes provide an opportunity for the quantum manipulation of a macroscopic system. In this letter, we report the first successful experiments with a levitated millimeter-scale neodymium magnet within a centimeter-scale superconducting aluminum coaxial quarter-wave stub cavity. The magnet levitated near the top of the stub, where the electric field is concentrated, perturbs the electric field distribution allowing for small perturbations in the magnet's position to be detected through shifts in the resonance frequency. Resonance spectra are collected via a vector network analyzer (VNA) between temperatures of 5 K and 50 mK revealing movement of the magnet inside of the cavity. Room temperature measurements and finite element calculations are done to calculate the shift in frequency for various positions of the magnet, and an experimentally measured 100 MHz upshift when transitioning into a superconducting state confirms levitation with remanences up to 140 times stronger than the critical field of the aluminum. We achieve levitation heights of 1 - 1.8 mm. We investigate the dependence of levitation height and levitation temperature on the strength of the magnet and, surprisingly, we observe that the levitation temperature and height both increase with permanent magnet strength. Our work describes a novel macroscopic mechanical system capable of sensing and transducing forces, thus allowing for the coupling of disparate classical and quantum systems.
翻訳日:2023-04-17 20:07:22 公開日:2021-03-05
# インクリメンタルツリー変換による構造編集の学習

Learning Structural Edits via Incremental Tree Transformations ( http://arxiv.org/abs/2101.12087v2 )

ライセンス: Link先を確認
Ziyu Yao, Frank F. Xu, Pengcheng Yin, Huan Sun, Graham Neubig(参考訳) ほとんどの神経生成モデルは単一のパスで出力を生成するが、人間の創造的プロセスは通常反復的な構築と洗練の1つである。 最近の研究では、編集プロセスのモデルが提案されているが、主にシーケンシャルなデータや、単一の編集パスのみをモデルにしている。 本稿では,構造化データのインクリメンタル編集(すなわち「構造編集」)のための汎用モデルを提案する。 特に,木構造データに注目し,コンピュータプログラムの抽象構文木を典型例とする。 我々の編集者は、反復的にツリー編集(例えば、サブツリーの削除や追加)を生成して、部分的な編集データに適用することで、編集プロセス全体を連続的なインクリメンタルツリー変換として定式化することができる。 ツリー編集を直接モデル化することのユニークな利点を示すために,編集の表現を学習するための新しい編集エンコーダと,編集をより堅牢にするための模倣学習方法を提案する。 提案するエディタを2つのソースコード編集データセット上で評価し,提案する編集エンコーダにより,編集プログラムを1パスで直接生成する従来のアプローチよりも精度が大幅に向上することを示す。 最後に,専門家を模倣し,その誤りを動的に修正するためにエディタをトレーニングすることで,そのパフォーマンスをさらに向上できることを実証する。

While most neural generative models generate outputs in a single pass, the human creative process is usually one of iterative building and refinement. Recent work has proposed models of editing processes, but these mostly focus on editing sequential data and/or only model a single editing pass. In this paper, we present a generic model for incremental editing of structured data (i.e., "structural edits"). Particularly, we focus on tree-structured data, taking abstract syntax trees of computer programs as our canonical example. Our editor learns to iteratively generate tree edits (e.g., deleting or adding a subtree) and applies them to the partially edited data, thereby the entire editing process can be formulated as consecutive, incremental tree transformations. To show the unique benefits of modeling tree edits directly, we further propose a novel edit encoder for learning to represent edits, as well as an imitation learning method that allows the editor to be more robust. We evaluate our proposed editor on two source code edit datasets, where results show that, with the proposed edit encoder, our editor significantly improves accuracy over previous approaches that generate the edited program directly in one pass. Finally, we demonstrate that training our editor to imitate experts and correct its mistakes dynamically can further improve its performance.
翻訳日:2023-04-13 11:40:40 公開日:2021-03-05
# 有限次元量子系に対するブロッホベクトル形式論

The Bloch vectors formalism for a finite-dimensional quantum system ( http://arxiv.org/abs/2102.11829v2 )

ライセンス: Link先を確認
Elena R. Loubenets and Maxim S. Kulakov(参考訳) 本稿では,任意の有限次元量子系に対するブロッホベクトル形式論の主要な問題を一貫して発展させる。 この形式主義の枠組みでは、qudit状態とその時間における進化において、qudit可観測性とその期待、絡み合い、非局所性などは、ブロッホベクトル -- ユークリッド空間のベクトル $\mathbb{r}^{d^{2}-1}$ によって表現され、可観測性と異なる作用素基底における状態の分解によって生じる。 この形式の中で、すべての$d\geq2$ をトレースレスqudit可観測集合のブロッホベクトルの集合に指定し、その性質を記述する。また、純粋かつ混合なqudit状態のブロッホベクトルの集合を、これらの集合の一般性を明確に明記し、すべての$d\geq2$の統一形式を持つ作用素ノルムの観点で、新しいコンパクト表現を見つける。 一般化されたゲルマン表現の下でのクロイト状態のブロッホベクトルの集合に対して、これらの一般性は代数方程式の系を通じてこれらの集合の既知の同値な仕様から解析的に抽出することはできない。 qudit 状態のブロッホベクトルの時間発展を記述する一般的な方程式は、qudit 系が分離され、開である場合と、ブロッホベクトルの進化の時間的主性質がどちらの場合にも見出される場合に導かれる。 次元 $d_{1}\times d_{2}$ の純粋な二部状態に対しては、その減少状態に対するブロッホベクトルの観点からその絡み合いを定量化する。 導入された一般形式論は、量子系の性質の理論解析や量子応用、特に最適な量子制御において重要である。なぜならば、ユークリッド空間のベクトルによって状態が記述される系では、最適制御、解析、数値の方法が良く開発されているからである。

In the present article, we consistently develop the main issues of the Bloch vectors formalism for an arbitrary finite-dimensional quantum system. In the frame of this formalism, qudit states and their evolution in time, qudit observables and their expectations, entanglement and nonlocality, etc. are expressed in terms of the Bloch vectors -- the vectors in the Euclidean space $\mathbb{R}^{d^{2}-1}$ arising under decompositions of observables and states in different operator bases. Within this formalism, we specify for all $d\geq2$ the set of Bloch vectors of traceless qudit observables and describe its properties; also, find for the sets of the Bloch vectors of qudit states, pure and mixed, the new compact expressions in terms of the operator norms that explicitly reveal the general properties of these sets and have the unified form for all $d\geq2$. For the sets of the Bloch vectors of qudit states under the generalized Gell-Mann representation, these general properties cannot be analytically extracted from the known equivalent specifications of these sets via the system of algebraic equations. We derive the general equations describing the time evolution of the Bloch vector of a qudit state if a qudit system is isolated and if it is open and find for both cases the main properties of the Bloch vector evolution in time. For a pure bipartite state of a dimension $d_{1}\times d_{2}$, we quantify its entanglement in terms of the Bloch vectors for its reduced states. The introduced general formalism is important both for the theoretical analysis of quantum system properties and for quantum applications, in particular, for optimal quantum control, since, for systems where states are described by vectors in the Euclidean space, the methods of optimal control, analytical and numerical, are well developed.
翻訳日:2023-04-10 03:14:30 公開日:2021-03-05
# 励起状態の量子相転移における量子忠実性:非剛性分子の曲げスペクトルへの応用

Quantum fidelity susceptibility in excited state quantum phase transitions: application to the bending spectra of nonrigid molecules ( http://arxiv.org/abs/2102.12335v2 )

ライセンス: Link先を確認
J. Khalouf-Rivera and M. Carvajal and F. P\'erez-Bernal(参考訳) 我々は、ビブロンモデルの2次元極限における励起状態量子相転移と量子忠実度感受性を特徴付け、得られた結果と参加比から得られる情報を比較する。 応用として、4体代数ハミルトニアンを用いて複数の分子種に対する振動データに適合し、最適化された固有値と固有状態を用いて、線形性に対する障壁に最も近い固有状態を見つけ、異なるオーバートーンの線形あるいは曲げ特性を決定する。

We characterize excited state quantum phase transitions in the two dimensional limit of the vibron model with the quantum fidelity susceptibility, comparing the obtained results with the information provided by the participation ratio. As an application, we perform fits using a four-body algebraic Hamiltonian to bending vibrational data for several molecular species and, using the optimized eigenvalues and eigenstates, we locate the eigenstate closest to the barrier to linearity and determine the linear or bent character of the different overtones.
翻訳日:2023-04-10 00:55:19 公開日:2021-03-05
# ニューラルネットワークによるイオンマイクロモーションの最小化

Minimization of ion micromotion with artificial neural network ( http://arxiv.org/abs/2103.02231v3 )

ライセンス: Link先を確認
Yang Liu, Qi-feng Lao, Peng-fei Lu, Xin-xin Rao, Hao Wu, Teng Liu, Kun-xu Wang, Zhao Wang, Ming-shen Li, Feng Zhu, and Le Luo(参考訳) 線形ポールトラップにおける単一捕捉イオンのマイクロモーションの最小化は退屈で時間のかかる作業であるが、量子情報処理や量子計算に欠かせない長いコヒーレンス時間を維持するだけでなく、イオンを運動基底状態に冷却する上でも非常に重要である。 本稿では, ニューラルネットワークに基づく機械学習が, rf-光子相関法を用いて電極の最適電圧設定を迅速かつ効率的に見つけ, マイクロモーションを最小化できることを実証する。 我々のアプローチはイオンマイクロモーションの非常に高いレベルの制御を達成し、ポールトラップの他の構成にも拡張できる。

Minimizing the micromotion of the single trapped ion in a linear Paul trap is a tedious and time-consuming work,but is of great importance in cooling the ion into the motional ground state as well as maintaining long coherence time, which is crucial for quantum information processing and quantum computation. Here we demonstrate that systematic machine learning based on artificial neural networks can quickly and efficiently find optimal voltage settings for the electrodes using rf-photon correlation technique, consequently minimizing the micromotion to the minimum. Our approach achieves a very high level of control for the ion micromotion, and can be extended to other configurations of Paul trap.
翻訳日:2023-04-09 08:20:10 公開日:2021-03-05
# 1つの浅面をもつ平均ドリック系の系列および行列モデルの生成

Generating series and matrix models for meandric systems with one shallow side ( http://arxiv.org/abs/2103.03615v1 )

ライセンス: Link先を確認
Motohisa Fukuda and Ion Nechita(参考訳) 本稿では,一方の浅い側面を持つ平均ドリック系について検討する。その側面のアーチ配置は最大2つの深さを持つ。 2020年にI. P. Goulden, A. Nica, D. Puderによって導入され、広く検討された。 浅いアーチ配置は、間隔分割のセットと単射である。 非可換確率において,非交叉および間隔分割にモーメント累積変換を用い,自由およびブール独立の概念に対応する平均的システムについて検討した。 我々は、より単純で既約な対象を明示的に列挙することで、1つの浅い側を持つ平均的システムの様々なクラスを生成する公式を得る。 さらに,量子情報理論,特に量子チャネルの言語で記述可能な,対応する平均ドリック多項式に対するランダム行列モデルを提案する。

In this article, we investigate meandric systems having one shallow side: the arch configuration on that side has depth at most two. This class of meandric systems was introduced and extensively examined by I. P. Goulden, A. Nica, and D. Puder in 2020. Shallow arch configurations are in bijection with the set of interval partitions. We study meandric systems by using moment-cumulant transforms for non-crossing and interval partitions, corresponding to the notions of free and boolean independence, respectively, in non-commutative probability. We obtain formulas for the generating series of different classes of meandric systems with one shallow side, by explicitly enumerating the simpler, irreducible objects. In addition, we propose random matrix models for the corresponding meandric polynomials, which can be described in the language of quantum information theory, in particular that of quantum channels.
翻訳日:2023-04-09 00:20:44 公開日:2021-03-05
# 個別多体波動関数による創発的量子状態設計

Emergent quantum state designs from individual many-body wavefunctions ( http://arxiv.org/abs/2103.03536v1 )

ライセンス: Link先を確認
Jordan S. Cotler, Daniel K. Mark, Hsin-Yuan Huang, Felipe Hernandez, Joonhee Choi, Adam L. Shaw, Manuel Endres, Soonwon Choi(参考訳) 多体系における量子カオスは、強い予測力を持つ統計物理学と量子物理学の橋渡しとなる。 この枠組みは、エネルギースペクトルや熱化のダイナミクスといった複雑な量子系の特性を分析するのに有用である。 量子カオスの現代的手法は、しばしば量子状態とハミルトンのランダムなアンサンブルに依存するが、これはほとんどの現実世界のシステムでは反映されない。 本稿では、新しい視点を紹介する。幅広い例において、普遍的かつ高ランダムな量子状態アンサンブルを符号化する単一の非ランダム量子状態が示される。 量子情報理論から量子状態$k$-Designという概念を用いてこれらのアンサンブルを特徴づけ、解析的手法と数値的手法を組み合わせてそれらの普遍性を調べる。 特に、k$-デザインは、強く相互作用し、時間に依存しないハミルトニアンダイナミクスに関連する個々の状態と同様に、ジェネリックな状態から自然に生じる。 本研究は, 量子カオス研究のための新しい手法と, ほぼ一様ランダムな状態のサンプリング方法を提供し, 後者はトモグラフィーからベンチマークまで, 量子情報科学の幅広い応用を期待できる。

Quantum chaos in many-body systems provides a bridge between statistical and quantum physics with strong predictive power. This framework is valuable for analyzing properties of complex quantum systems such as energy spectra and the dynamics of thermalization. While contemporary methods in quantum chaos often rely on random ensembles of quantum states and Hamiltonians, this is not reflective of most real-world systems. In this paper, we introduce a new perspective: across a wide range of examples, a single non-random quantum state is shown to encode universal and highly random quantum state ensembles. We characterize these ensembles using the notion of quantum state $k$-designs from quantum information theory and investigate their universality using a combination of analytic and numerical techniques. In particular, we establish that $k$-designs arise naturally from generic states as well as individual states associated with strongly interacting, time-independent Hamiltonian dynamics. Our results offer a new approach for studying quantum chaos and provide a practical method for sampling approximately uniformly random states; the latter has wide-ranging applications in quantum information science from tomography to benchmarking.
翻訳日:2023-04-09 00:20:07 公開日:2021-03-05
# 光格子中のナノ球を有する導電性表面からの$\mu$m距離での走査力センシング

Scanning force sensing at $\mu$m-distances from a conductive surface with nanospheres in an optical lattice ( http://arxiv.org/abs/2103.03420v1 )

ライセンス: Link先を確認
Cris Montoya, Eduardo Alejandro, William Eom, Daniel Grass, Nicolas Clarisse, Apryl Witherspoon, and Andrew A. Geraci(参考訳) 真空中における光学的に捕捉された誘電体ナノ粒子の質量中心運動は、その環境から非常によく分離され、弱いサブアットニュートン力の測定に強力なツールとなる。 金属鏡面からレーザビームを逆反射させて形成した光学立位波電位におけるナノ粒子の捕捉と加工方法を示す。 金でコーティングされたシリコンミラーの表面から数百ナノメートルから数十ミクロンの距離で、直径170セントのシリカナノ粒子を確実に位置決めすることができ、これをシングルビームトワイザートラップから定在波電位に移すことができる。 さらに、ピエゾ駆動ミラーを用いて、鏡面に平行な2次元空間を走査することができる。 この方法は、光学的捕捉ナノ粒子を用いた表面近傍の3次元走査力センシングを可能にし、高感度走査力顕微鏡、カシミール効果の試験、ミクロンスケールでの重力逆2乗則の試験を約束する。

The center-of-mass motion of optically trapped dielectric nanoparticles in vacuum is extremely well-decoupled from its environment, making a powerful tool for measurements of feeble sub-attonewton forces. We demonstrate a method to trap and manuever nanoparticles in an optical standing wave potential formed by retro-reflecting a laser beam from a metallic mirror surface. We can reliably position a $\sim 170$ nm diameter silica nanoparticle at distances of a few hundred nanometers to tens of microns from the surface of a gold-coated silicon mirror by transferring it from a single-beam tweezer trap into the standing wave potential. We can further scan the two dimensional space parallel to the mirror surface by using a piezo-driven mirror. This method enables three-dimensional scanning force sensing near surfaces using optically trapped nanoparticles, promising for high-sensitivity scanning force microscopy, tests of the Casimir effect, and tests of the gravitational inverse square law at micron scales.
翻訳日:2023-04-09 00:18:49 公開日:2021-03-05
# 推論インタラクションリンクによるソーシャルメディアにおける高次コーディネートコミュニティの探索法

A General Method to Find Highly Coordinating Communities in Social Media through Inferred Interaction Links ( http://arxiv.org/abs/2103.03409v1 )

ライセンス: Link先を確認
Derek Weber and Frank Neumann(参考訳) 政治的誤報、占い、組織化されたトロリングは、オンラインの悪意ある行動であり、現実世界に重大な影響を及ぼす。 これらの現象を調査する以前の多くのアプローチは、それらを扇動または維持する小さなグループよりも、幅広いキャンペーンに焦点を合わせてきた。 協調するアカウントの潜在(隠れ)ネットワークを明らかにするために,アカウントのインタラクションとメタデータのみに依存する新しい時間的ウィンドウアプローチを提案する。 さまざまな行動に携わるアカウントのグループを検出し、それと並行して、私たちが記述したさまざまな目標ベースの戦略を実行します。 このアプローチは、ソーシャルメディア投稿から関連要素を抽出するパイプラインに依存しており、新しいコミュニティ抽出手法を用いて、非指向的な重み付きアカウントネットワークを構築するための調整戦略に適合する基準に基づいて、アカウント間の接続を推測する。 我々は,リアルタイムに近いアプリケーションに適したウィンドウ機構を用いて,データの時間的側面に対処する。 さらに,複数の窓にまたがるスライディングフレームとの整合調整と減衰係数の適用についても強調する。 本手法は,最近の類似処理手法やコミュニティ検出手法と比較し,コンテンツ,時間的,ネットワーク的分析を含む2つの関連するデータセットと,基底的真理を用いて構築された3つの1クラス分類器の設計,訓練,応用について検証する。

Political misinformation, astroturfing and organised trolling are online malicious behaviours with significant real-world effects. Many previous approaches examining these phenomena have focused on broad campaigns rather than the small groups responsible for instigating or sustaining them. To reveal latent (i.e., hidden) networks of cooperating accounts, we propose a novel temporal window approach that relies on account interactions and metadata alone. It detects groups of accounts engaging in various behaviours that, in concert, come to execute different goal-based strategies, a number of which we describe. The approach relies upon a pipeline that extracts relevant elements from social media posts, infers connections between accounts based on criteria matching the coordination strategies to build an undirected weighted network of accounts, which is then mined for communities exhibiting high levels of evidence of coordination using a novel community extraction method. We address the temporal aspect of the data by using a windowing mechanism, which may be suitable for near real-time application. We further highlight consistent coordination with a sliding frame across multiple windows and application of a decay factor. Our approach is compared with other recent similar processing approaches and community detection methods and is validated against two relevant datasets with ground truth data, using content, temporal, and network analyses, as well as with the design, training and application of three one-class classifiers built using the ground truth; its utility is furthermore demonstrated in two case studies of contentious online discussions.
翻訳日:2023-04-09 00:18:08 公開日:2021-03-05
# Kerr (複数形 Kerrs)

From Kerr to Heisenberg ( http://arxiv.org/abs/2103.03763v1 )

ライセンス: Link先を確認
Angelo Tartaglia, Matteo Luca Ruggiero(参考訳) 本稿では、角運動量を持つ荷電質量の時空について考察する。 幾何学はアインシュタイン方程式の正確なカー・ニューマン解によって記述される。 特異対称性は、正確にはいっても、典型的には源の角運動量に由来する重力-磁場によって記述される。 この幾何学の典型的な積は一般化されたサニャック効果によって表される。 円形軌道に沿って2本の逆回転光線を飛行する際の左右非対称性の明示的な形式を記す。 円を原点に縮めると、非対称性は有限となる。 さらに、源(当時は電磁場)の電荷とニュートン定数の両方から独立となり、重力磁場によって生成される対称性にのみ関係している。 源について、フェルミオンのスピンを導入するとき、エネルギーと時間に対するハイゼンベルクの不確実性公式の最低限が現れる。

In this paper we consider the space-time of a charged mass endowed with an angular momentum. The geometry is described by the exact Kerr-Newman solution of the Einstein equations. The peculiar symmetry, though exact, is usually described in terms of the gravito-magnetic field originated by the angular momentum of the source. A typical product of this geometry is represented by the generalized Sagnac effect. We write down the explicit form for the right/left asymmetry of the times of flight of two counter-rotating light beams along a circular trajectory. Letting the circle shrink to the origin the asymmetry stays finite. Furthermore it becomes independent both from the charge of the source (then its electromagnetic field) and from Newton's constant: it is then associated only to the symmetry produced by the gravitomagnetic field. When introducing, for the source, the spin of a Fermion, the lowest limit of the Heisenberg uncertainty formula for energy and time appears.
翻訳日:2023-04-09 00:10:28 公開日:2021-03-05
# 超伝導トランスモン量子ビットを用いたSiGeのマイクロ波損失の研究

Investigating microwave loss of SiGe using superconducting transmon qubits ( http://arxiv.org/abs/2103.03747v1 )

ライセンス: Link先を確認
Martin Sandberg, Vivekananda P. Adiga, Markus Brink, Cihan Kurter, Conal Murray, Marinus Hopstaken, John Bruley, Jason Orcutt and Hanhee Paik(参考訳) シリコンゲルマニウム(シリコンゲルマニウム、SiGe)は、トランジスタから電子光学変調器、量子ドットまで幅広い用途を持つ材料である。 SiGeの多様な性質は超伝導量子コンピューティングを含む実装にも魅力的である。 ここでは,SiGe層上にトランスモン量子ビットを作製し,低温におけるSiGeのマイクロ波損失特性と単一光子マイクロ波パワーについて検討する。 また,大パッドトランスモンの4M以上の品質因子Qに対応して,最大100ドルまでの緩和時間を求める。 得られた高いQ値は、SiGe/Siヘテロ構造が超伝導量子回路の技術性能と相容れないことを示している。

Silicon-Germanium (SiGe) is a material that possesses a multitude of applications ranging from transistors to eletro-optical modulators and quantum dots. The diverse properties of SiGe also make it attractive to implementations involving superconducting quantum computing. Here we demonstrate the fabrication of transmon quantum bits on SiGe layers and investigate the microwave loss properties of SiGe at cryogenic temperatures and single photon microwave powers. We find relaxation times of up to 100 $\mu$s, corresponding to a quality factor Q above 4 M for large pad transmons. The high Q values obtained indicate that the SiGe/Si heterostructure is compatible with state of the art performance of superconducting quantum circuits.
翻訳日:2023-04-09 00:10:16 公開日:2021-03-05
# 制限ワームアルゴリズムを用いた有限温度ジェリウム

Jellium at finite temperature using the restricted worm algorithm ( http://arxiv.org/abs/2103.03720v1 )

ライセンス: Link先を確認
Riccardo Fantoni(参考訳) 標準経路積分ワームアルゴリズムを用いて,有限温度,非ゼロ温度におけるウィグナーのジェリウムモデルについて検討し,フェルミオン符号問題を回避するのに必要な固定ノード自由粒子制限を実装した。 その結果,brownら最近のシミュレーションデータ,およびjelliumモデルにおける他の同様のコンピュータ実験と,高密度・低温における相同性が示された。 このアルゴリズムは有限、非零、温度でのフェルミオンの量子流体モデルを扱うのに使われ、文献ではこれまで使われてこなかった。

We study the Jellium model of Wigner at finite, non-zero, temperature through a computer simulation using the canonical path integral worm algorithm where we successfully implemented the fixed-nodes free particles restriction necessary to circumvent the fermion sign problem. Our results show good agreement with the recent simulation data of Brown et al. and of other similar computer experiments on the Jellium model at high density and low temperature. Our algorithm can be used to treat any quantum fluid model of fermions at finite, non zero, temperature and has never been used before in literature.
翻訳日:2023-04-09 00:10:05 公開日:2021-03-05
# リニア光学を用いた破壊制御相ゲート

Destructive Controlled-Phase Gate Using Linear Optics ( http://arxiv.org/abs/2103.03711v1 )

ライセンス: Link先を確認
S.U. Shringarpure and J.D. Franson(参考訳) knill, laflamme, milburn [nature 409, 46 (2001)] は線形光学技術が非線形符号ゲートの実装に利用できることを示した。 彼らはまた、2つの非線形符号ゲートを組み合わせて制御相ゲートを実装することも示しており、これは多くの実用的応用がある。 ここでは、単一の非線形符号ゲートのみを必要とする制御相ゲートの代替実装について述べる。 これにより、必要なアンシラフォトンがヘラルド技術を用いて生成される場合、より高い平均的な成功確率が得られる。 この制御相ゲートの実装は制御キュービットを破壊するが、これはポストセレクションプロセスのような任意のイベントにおいて制御キュービットが破壊されるであろう多くのアプリケーションで許容される。

Knill, Laflamme, and Milburn [Nature 409, 46 (2001)] showed that linear optics techniques could be used to implement a nonlinear sign gate. They also showed that two of their nonlinear sign gates could be combined to implement a controlled-phase gate, which has a number of practical applications. Here we describe an alternative implementation of a controlled-phase gate that only requires the use of a single nonlinear sign gate. This gives a much higher average probability of success when the required ancilla photons are generated using heralding techniques. This implementation of a controlled-phase gate destroys the control qubit, which is acceptable in a number of applications where the control qubit would have been destroyed in any event, such as in a postselection process.
翻訳日:2023-04-09 00:09:54 公開日:2021-03-05
# 光子偏光におけるノイズ相関の量子ゼノと反ゼノプローブ

Quantum Zeno and Anti-Zeno probes of noise correlations in photon polarisation ( http://arxiv.org/abs/2103.03698v1 )

ライセンス: Link先を確認
Salvatore Virzi', Alessio Avella, Fabrizio Piacentini, Marco Gramegna, Tomas Opatrny, Abraham Kofman, Gershon Kurizki, Stefano Gherardini, Filippo Caruso, Ivo Pietro Degiovanni, and Marco Genovese(参考訳) 反復量子計測によるノイズ診断を初めて実験的に実証した。 具体的には、ランダム偏光雑音を受ける単一光子を用いて、そのようなノイズ過程の非マルコフ時間相関を診断する能力を確立する。 周波数領域では、これらのノイズ相関は、マルコフ型白色雑音と対照的に、色付きノイズスペクトルに対応する。 ノイズスペクトルとその対応する時間相関は、頻繁な(部分的に)選択的偏光測定により光子を探索することによって診断される。 我々の主な成果は、正の時間相関を持つノイズが量子ゼノ効果(QZE)によって実現される動的状態にある単一光子に対応し、負の(反)相関によって特徴づけられるノイズが反ゼノ効果(AZE)に関連付けられた状態に対応する実験である。 このデモンストレーションは、光子(または他の単一粒子)状態探索におけるQZEとAZEに基づく新しい種類のノイズ分光への道を開く。

We experimentally demonstrate, for the first time, noise diagnostics by repeated quantum measurements. Specifically, we establish the ability of a single photon, subjected to random polarisation noise, to diagnose non-Markovian temporal correlations of such a noise process. In the frequency domain, these noise correlations correspond to colored noise spectra, as opposed to the ones related to Markovian, white noise. Both the noise spectrum and its corresponding temporal correlations are diagnosed by probing the photon by means of frequent, (partially-)selective polarisation measurements. Our main result is the experimental demonstration that noise with positive temporal correlations corresponds to our single photon undergoing a dynamical regime enabled by the quantum Zeno effect (QZE), while noise characterized by negative (anti-) correlations corresponds to regimes associated with the anti-Zeno effect (AZE). This demonstration opens the way to a new kind of noise spectroscopy based on QZE and AZE in photon (or other single-particle) state probing.
翻訳日:2023-04-09 00:09:41 公開日:2021-03-05
# 多重ギガヘルツ周波数共振器を用いた量子ドットの高速マイクロ波特性と読み出し

Rapid microwave-only characterization and readout of quantum dots using multiplexed gigahertz-frequency resonators ( http://arxiv.org/abs/2103.03659v1 )

ライセンス: Link先を確認
Damaz de Jong, Christian Prosko, Daan M. A. Waardenburg, Lin Han, Filip K. Malinowski, Peter Krogstrup, Leo P. Kouwenhoven, Jonne V. Koski, Wolfgang Pfaff(参考訳) 超伝導共振器はメソスコピック量子デバイスの高速キャラクタリゼーションと読み出しを可能にする。 そのため, 共振器を用いた機器の関心度測定の方法を見つけることは, 実用上は非常に重要である。 デバイスに接続されたGHz共振器を探索し,InAsナノワイヤ多量子ドットデバイスの実験的検討を行った。 まず,高周波アセプタンスの測定から直流コンダクタンスを正確に抽出した。 本手法は直流キャリブレーションに依存しないため,半導体量子ビットデバイスにおける直流測定の必要性を回避できる可能性がある。 第2に,マルチプレックスゲートセンシングとマイクロ秒時間スケールでの電荷トンネルの検出を示す。 分散共振器シフトのghz検出は、電荷安定図の迅速な取得と、信号対雑音比が1マイクロ秒で15までの帯電トンネルの解決を可能にする。 計測結果から,GHz周波数共振器は半導体量子ビットの高速チューニングと高忠実化のための普遍的なツールとして機能する可能性が示唆された。

Superconducting resonators enable fast characterization and readout of mesoscopic quantum devices. Finding ways to perform measurements of interest on such devices using resonators only is therefore of great practical relevance. We report the experimental investigation of an InAs nanowire multi-quantum dot device by probing GHz resonators connected to the device. First, we demonstrate accurate extraction of the DC conductance from measurements of the high-frequency admittance. Because our technique does not rely on DC calibration, it could potentially obviate the need for DC measurements in semiconductor qubit devices. Second, we demonstrate multiplexed gate sensing and the detection of charge tunneling on microsecond time scales. The GHz detection of dispersive resonator shifts allows rapid acquisition of charge-stability diagrams, as well as resolving charge tunneling in the device with a signal-to-noise ratio of up to 15 in one microsecond. Our measurements show that GHz-frequency resonators may serve as a universal tool for fast tune-up and high-fidelity readout of semiconductor qubits.
翻訳日:2023-04-09 00:08:36 公開日:2021-03-05
# Webコミュニティにおける政治ニュース討論と共有のマルチプラットフォーム分析

A Multi-Platform Analysis of Political News Discussion and Sharing on Web Communities ( http://arxiv.org/abs/2103.03631v1 )

ライセンス: Link先を確認
Yuping Wang, Savvas Zannettou, Jeremy Blackburn, Barry Bradlyn, Emiliano De Cristofaro, and Gianluca Stringhini(参考訳) ニュースのエコシステムはますます複雑になってきており、様々なレベルの信頼度を持つ幅広いソースを包含し、同じストーリーに異なるスピンを与える公開コメントも出ている。 本稿では,このエコシステムのマルチプラットフォーム計測について述べる。 1,073のニュースサイトのリストを作成し、これらのソースからURLを含む4つのWebコミュニティ(Twitter、Reddit、4chan、Gab)から投稿を抽出する。 これにより、1500万のニュースURLを含む3800万の投稿のデータセットが得られた。 本研究では,複数の軸に沿ったデータを調査し,共有ニュースの信頼性を評価し,ニュース記事を記事にグループ化する方法をデザインし,これらの記事を分析し,webコミュニティが持つ影響を計測した。 我々の分析によると、Gabや/r/The_Donaldのような偏極化されたコミュニティは不信な情報源を不当に参照している。 また、選挙や移民、外交政策など、特定のニュースに関する物語を推し進める他のプラットフォームに、フリンジのコミュニティが不均等な影響を及ぼすことがよくあります。

The news ecosystem has become increasingly complex, encompassing a wide range of sources with varying levels of trustworthiness, and with public commentary giving different spins to the same stories. In this paper, we present a multi-platform measurement of this ecosystem. We compile a list of 1,073 news websites and extract posts from four Web communities (Twitter, Reddit, 4chan, and Gab) that contain URLs from these sources. This yields a dataset of 38M posts containing 15M news URLs, spanning almost three years. We study the data along several axes, assessing the trustworthiness of shared news, designing a method to group news articles into stories, analyzing these stories are discussed and measuring the influence various Web communities have in that. Our analysis shows that different communities discuss different types of news, with polarized communities like Gab and /r/The_Donald subreddit disproportionately referencing untrustworthy sources. We also find that fringe communities often have a disproportionate influence on other platforms w.r.t. pushing narratives around certain news, for example about political elections, immigration, or foreign policy.
翻訳日:2023-04-09 00:08:13 公開日:2021-03-05
# 発展途上国におけるモノのインターネットを活用した水運システムの安全性向上

Enhancing safety in water transport system based on Internet of Things for developing countries ( http://arxiv.org/abs/2105.09459v1 )

ライセンス: Link先を確認
Md Mohaimenuzzaman, SM Monzurur Rahman, Musaed Alhussein, Ghulam Muhammad and Khondaker Abdullah Al Mamun(参考訳) 発展途上国の内陸水路で発生した事故は、毎年の定期的な現象であり、死者、負傷者、金銭的損失、行方不明者の数が多い。 その結果、多くの家族が大切なものを失い、悲惨な状態に陥っている。 上述の文脈は、発展途上国にとってインテリジェントで安全で信頼性の高い水輸送システムを必要とする。 インテリジェントトランスポートシステム(ITS)の概念は,そのようなシステム開発に応用できるが,ITSとIoT(Internet of Things)に問題があり,新たな開発方法が解き放たれている。 本稿では,水輸送システムをIoTに基づくインテリジェントシステムに変換するモデルを提案する。 IPv6ベースのM2Mプロトコル、3G通信技術、IEEE 802.15.4ネットワーク標準は、提案されたIoTベースのシステムにおいて重要な役割を果たす。

Accidents in inland waterways in developing countries are a regular phenomenon throughout the year causing deaths, injuries, monetary loss, and a significant amount of missing people. In consequence, a lot of families are losing their dear ones leading to much misery. The above context demands an intelligent, safe, and reliable water transport system for the developing countries. The concept of Intelligent Transport System (ITS) can be applied to develop such system; however, there are issues with ITS and Internet of Things (IoT) unlocks a new way of developing it. This paper proposes a model to transform the water transport system into an intelligent system based on IoT. IPv6 based machine-to-machine (M2M) protocol, 3G telecommunication technology, and IEEE 802.15.4 network standard play a significant role in this proposed IoT based system.
翻訳日:2023-04-09 00:01:29 公開日:2021-03-05
# 機械的に安定で可変な極低温ファブリペロットマイクロキャビティ

A mechanically stable and tunable cryogenic Fabry-Perot microcavity ( http://arxiv.org/abs/2103.04823v1 )

ライセンス: Link先を確認
Yannik Fontana, Rigel Zifkin, Erika Janitz, Cesar Daniel Rodriguez Rosenblueth, Lilian Childress(参考訳) 高精細でオープンジオメトリのマイクロキャビティは、光子と物質システム間の相互作用を強化するための多用途なツールとして最近登場し、量子光学や量子情報科学に幅広く応用されている。 しかし、特に空間可変性や自由空間光アクセスが必要な場合、機械振動は閉サイクルクライオスタット内での動作にかなりの困難をもたらす。 本稿では,空洞モードの3次元位置決めと自由空間共焦点イメージングの両方を許容しながら,高精細ミラー間の機械的安定性を実現するシステムの設計と特性について述べる。 この設計は、軸運動と横運動を分離するリーフスプリングによって接続された2つのカスケード振動分離ステージに依存しており、チューニング質量と磁気減衰が組み込まれている。 さらに, キャビティ線幅に類似または大型のキャビティ長変位を定量化し, アクティブフィードバックの有無にかかわらず振動をその場で測定する手法を提案する。 クローズドサイクル・クライオスタット内における調整可能な高精細キャビティの操作が容易であり, 各種固体システムへのキャビティカップリングを可能にする技術である。

High-finesse, open-geometry microcavities have recently emerged as a versatile tool for enhancing interactions between photons and material systems, with a range of applications in quantum optics and quantum information science. However, mechanical vibrations pose a considerable challenge to their operation within a closed-cycle cryostat, particularly when spatial tunability and free-space optical access are required. Here, we present the design and characterization of a system that can achieve $\sim$16 pm-rms passive mechanical stability between two high-finesse mirrors while permitting both three-dimensional positioning of the cavity mode and free-space confocal imaging. The design relies on two cascaded vibration isolation stages connected by leaf springs that decouple axial and lateral motion, and incorporates tuned-mass and magnetic damping. Furthermore, we present a technique for quantifying cavity length displacements similar to or larger than the cavity linewidth, allowing in-situ measurement of vibrations with and without active feedback. Our results facilitate operation of a tunable, high-finesse cavity within a closed-cycle cryostat, representing an enabling technology for cavity coupling to a variety of solid-state systems.
翻訳日:2023-04-09 00:01:09 公開日:2021-03-05
# 構造化符号を用いた3-$User Classical-Quantum Interference Channelの達成可能なレート領域

Achievable rate-region for $3-$User Classical-Quantum Interference Channel using Structured Codes ( http://arxiv.org/abs/2103.03978v1 )

ライセンス: Link先を確認
Touheed Anwar Atif, Arun Padakandla and S. Sandeep Pradhan(参考訳) 本稿では,3ドルの古典量子干渉チャネル(3-$CQIC)の容量領域に対する内部境界を特徴付ける問題について考察する。 CQIC上で通信するための最もよく知られている符号化方式は、非構造化ランダム符号に基づいており、メッセージ分割と重畳符号化の技法を用いる。 古典的な3-$user干渉チャネル(IC)では、コセットコード(代数的クロージャ特性を持つコード)に基づくコーディング技術が、非構造化コードに基づくコーディング技術よりも厳密に優れていることが証明されている。 本研究では,コセット符号をベースとした3-to$1-CQIC(3-$user CQICsのサブクラス)の類似技術を開発する。 我々は、その性能を分析し、現在の既知の最大値を推定し、特定された例に対して厳密に拡張する3ドルから1ドル〜1ドルcqicの容量領域に新たな内側境界を導出する。

We consider the problem of characterizing an inner bound to the capacity region of a $3-$user classical-quantum interference channel ($3-$CQIC). The best known coding scheme for communicating over CQICs is based on unstructured random codes and employs the techniques of message splitting and superposition coding. For classical $3-$user interference channels (ICs), it has been proven that coding techniques based on coset codes - codes possessing algebraic closure properties - strictly outperform all coding techniques based on unstructured codes. In this work, we develop analogous techniques based on coset codes for $3$to$1-$CQICs - a subclass of $3-$user CQICs. We analyze its performance and derive a new inner bound to the capacity region of $3$to$1-$CQICs that subsume the current known largest and strictly enlarges the same for identified examples.
翻訳日:2023-04-09 00:00:46 公開日:2021-03-05
# Everettの解釈:確率

The Everett Interpretation: Probability ( http://arxiv.org/abs/2103.03966v1 )

ライセンス: Link先を確認
Simon Saunders(参考訳) 量子力学のエベレット解釈は、自然に2つの部分に分けられる:第一に、分岐の観点で量子状態の構造を解釈し、第二に、確率の観点でこの分岐構造の解釈である。 これはエベレット解釈の2つのレビューの2番目であり、確率に焦点を当てている。 分岐過程は確率過程として識別され、分岐振幅の平方は確率である。 分岐は創発的であるため、物理的確率も創発的である。

The Everett interpretation of quantum mechanics divides naturally into two parts: first, the interpretation of the structure of the quantum state, in terms of branching, and second, the interpretation of this branching structure in terms of probability. This is the second of two reviews of the Everett interpretation, and focuses on probability. Branching processes are identified as chance processes, and the squares of branch amplitudes are chances. Since branching is emergent, physical probability is emergent as well.
翻訳日:2023-04-09 00:00:32 公開日:2021-03-05
# nv中心を有する駆動型オープン量子システムのゆらぎ関係の実験実験

Experimental test of fluctuation relations for driven open quantum systems with an NV center ( http://arxiv.org/abs/2103.03904v1 )

ライセンス: Link先を確認
Santiago Hern\'andez-G\'omez, Nicolas Staudenmaier, Michele Campisi, Nicole Fabbri(参考訳) 駆動型オープン量子系に対する量子ゆらぎ関係の実験的検証は、仕事と熱を区別する概念的および操作的困難のため、現在課題となっている。 ダイヤモンドの窒素空洞センターは、最近、phys の作業がなければ、工学的散逸チャネルの存在下での変動関係を研究するための制御された試験ベッドとして提案されている。 Rev. Research 2, 023327 (2020) そこで本研究では,熱勾配と外部の作業源によってスピンがエネルギーと周囲のエネルギーを交換する駆動散逸性シナリオにおいて,量子ゆらぎ関係の妥当性を探求するためにこれらの研究を展開する。 スピンが有効無限温度貯水池とエネルギーを交換する場合と、全作業がストロボスコープの時間で消滅した場合の2つのケースにおいて、循環駆動の存在下での量子ゆらぎ関係の妥当性を実験的に証明する。 本研究は,駆動型オープン量子システムにおける量子揺らぎ関係に関する最初の実験的研究である。

The experimental verification of quantum fluctuation relations for driven open quantum system is currently a challenge, due to the conceptual and operative difficulty of distinguishing work and heat. The Nitrogen-Vacancy center in diamond has been recently proposed as a controlled test bed to study fluctuation relations in the presence of an engineered dissipative channel, in absence of work [Hern\'andez-G\'omez et al., Phys. Rev. Research 2, 023327 (2020)]. Here, we extend those studies to exploring the validity of quantum fluctuation relations in a driven-dissipative scenario, where the spin exchanges energy both with its surroundings because of a thermal gradient, and with an external work source. We experimentally prove the validity of the quantum fluctuation relations in the presence of cyclic driving in two cases, when the spin exchanges energy with an effective infinite-temperature reservoir, and when the total work vanishes at stroboscopic times -- although the power delivered to the NV center is non-null. Our results represent the first experimental study of quantum fluctuation relation in driven open quantum systems.
翻訳日:2023-04-09 00:00:23 公開日:2021-03-05
# 古典およびフォトニック量子コンピュータ上のグラフを用いた教師なしイベント分類

Unsupervised Event Classification with Graphs on Classical and Photonic Quantum Computers ( http://arxiv.org/abs/2103.03897v1 )

ライセンス: Link先を確認
Andrew Blance and Michael Spannowsky(参考訳) フォトニック量子コンピュータは量子コンピューティングの離散量子ビットベースのパラダイムよりもいくつかの利点を提供している。 連続変数コンピューティングの力を利用して、新しい物理学の探索に使用する異常検出モデルを構築します。 我々のモデルは、$$$$P-hard問題であるガウスボソンサンプリングを用いており、したがって古典的なデバイスには効率よくアクセスできない。 これは、高エネルギー衝突イベントのデータを表す自然なフォーマットであるグラフデータから特徴ベクトルを作成するために使用される。 単純なK平均クラスタリングアルゴリズムを用いて、分類のベースライン法を提供する。 次に, ガウスボゾンサンプリング法とq平均法として知られるk平均への量子拡張法を組み合わせた新しい異常検出法を提案する。 これは、古典的なクラスタリングバージョンと同等の結果を与えると同時に、サンプルの機能-ベクトル長に関して、$\mathcal{O}(N)$から$\mathcal{O}(\mbox{log}(N))$まで、$\mathcal{O}$複雑さを減少させる。 サンプリングアルゴリズムの高速化と短期フォトニック量子デバイスの実現により、将来のlhcではトリガーレベルの異常検出が実用化される。

Photonic Quantum Computers provides several benefits over the discrete qubit-based paradigm of quantum computing. By using the power of continuous-variable computing we build an anomaly detection model to use on searches for New Physics. Our model uses Gaussian Boson Sampling, a $\#$P-hard problem and thus not efficiently accessible to classical devices. This is used to create feature vectors from graph data, a natural format for representing data of high-energy collision events. A simple K-means clustering algorithm is used to provide a baseline method of classification. We then present a novel method of anomaly detection, combining the use of Gaussian Boson Sampling and a quantum extension to K-means known as Q-means. This is found to give equivalent results compared to the classical clustering version while also reducing the $\mathcal{O}$ complexity, with respect to the sample's feature-vector length, from $\mathcal{O}(N)$ to $\mathcal{O}(\mbox{log}(N))$. Due to the speed of the sampling algorithm and the feasibility of near-term photonic quantum devices, anomaly detection at the trigger level can become practical in future LHC runs.
翻訳日:2023-04-09 00:00:01 公開日:2021-03-05
# 機械学習による量子多体特性の証明

Certificates of quantum many-body properties assisted by machine learning ( http://arxiv.org/abs/2103.03830v1 )

ライセンス: Link先を確認
Borja Requena, Gorka Mu\~noz-Gil, Maciej Lewenstein, Vedran Dunjko, Jordi Tura(参考訳) 計算的に難解なタスクは物理学や最適化でしばしば発生する。 このようなタスクは、しばしば、一連の制約によって特定されるいわゆる実現可能セットに対して最適化されるコスト関数を構成する。 これは一般に困難かつ非凸な最適化タスクに繋がる可能性がある。 変分的アプローチは、実現可能な集合内の解のサブクラスをパラメータ化することに焦点を当てており、対照的に、外からそれを近似するために緩和技術が提案されており、大域的最適解への究極的な境界を提供することで変分的アプローチを補完している。 本研究では,リラクゼーション手法のパワーと深層強化学習を組み合わせた新しい手法を提案する。 量子物理学におけるパラダイム問題である多体量子システムの基底状態エネルギーを求めるという文脈で、この手法の有効性を示す。 提案手法を,幅優先探索やモンテカルロ探索などの古典的最適化アルゴリズムと比較し,伝達学習の効果を特徴付ける。 後者は、完全に自律的なアプローチで、相転移を示す可能性がある。 最後に、量子情報処理の分野における他の一般的なアプリケーションへのアプローチを一般化するツールを提供する。

Computationally intractable tasks are often encountered in physics and optimization. Such tasks often comprise a cost function to be optimized over a so-called feasible set, which is specified by a set of constraints. This may yield, in general, to difficult and non-convex optimization tasks. A number of standard methods are used to tackle such problems: variational approaches focus on parameterizing a subclass of solutions within the feasible set; in contrast, relaxation techniques have been proposed to approximate it from outside, thus complementing the variational approach by providing ultimate bounds to the global optimal solution. In this work, we propose a novel approach combining the power of relaxation techniques with deep reinforcement learning in order to find the best possible bounds within a limited computational budget. We illustrate the viability of the method in the context of finding the ground state energy of many-body quantum systems, a paradigmatic problem in quantum physics. We benchmark our approach against other classical optimization algorithms such as breadth-first search or Monte-Carlo, and we characterize the effect of transfer learning. We find the latter may be indicative of phase transitions, with a completely autonomous approach. Finally, we provide tools to generalize the approach to other common applications in the field of quantum information processing.
翻訳日:2023-04-08 23:59:18 公開日:2021-03-05
# stripsアクションディスカバリー

STRIPS Action Discovery ( http://arxiv.org/abs/2001.11457v3 )

ライセンス: Link先を確認
Alejandro Su\'arez-Hern\'andez and Javier Segovia-Aguas and Carme Torras and Guillem Aleny\`a(参考訳) 計画のための高水準の知識ベースを特定する問題は、現実の環境では難しい課題となる。 この知識は通常手作りで、システムの専門家でさえ更新を続けるのは難しい。 近年のアプローチでは、すべての中間状態が失われても、アクションモデルを合成する古典的な計画が成功している。 これらのアプローチは、少なくとも初期状態と最終状態からなる一連の実行トレースから、計画ドメイン定義言語(pddl)におけるアクションスキーマを合成することができる。 本稿では,アクションシグネチャが不明な場合に,従来のプランナを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。 さらに,アクションモデルの前提条件で静的述語を学習する問題を軽減し,satプランナーと並列エンコーディングの機能を活用し,アクションスキーマの計算とすべてのインスタンスの検証を行う,古典的な計画にコントリビュートする。 私たちのシステムは、検索をスピードアップさせる部分的な入力情報を包含するという点で柔軟です。 学習したアクションモデルを、目に見えないプランニングインスタンス上で一般化する方法を示す。

The problem of specifying high-level knowledge bases for planning becomes a hard task in realistic environments. This knowledge is usually handcrafted and is hard to keep updated, even for system experts. Recent approaches have shown the success of classical planning at synthesizing action models even when all intermediate states are missing. These approaches can synthesize action schemas in Planning Domain Definition Language (PDDL) from a set of execution traces each consisting, at least, of an initial and final state. In this paper, we propose a new algorithm to unsupervisedly synthesize STRIPS action models with a classical planner when action signatures are unknown. In addition, we contribute with a compilation to classical planning that mitigates the problem of learning static predicates in the action model preconditions, exploits the capabilities of SAT planners with parallel encodings to compute action schemas and validate all instances. Our system is flexible in that it supports the inclusion of partial input information that may speed up the search. We show through several experiments how learned action models generalize over unseen planning instances.
翻訳日:2023-01-05 12:21:58 公開日:2021-03-05
# 医用超音波画像分割における深層学習

Deep Learning in Medical Ultrasound Image Segmentation: a Review ( http://arxiv.org/abs/2002.07703v3 )

ライセンス: Link先を確認
Ziyang Wang(参考訳) 機械学習技術、特にディープラーニングを医療画像セグメンテーションに適用することは、最先端のパフォーマンスと結果から広く研究されている。 これは、ヒト組織の3d再構築、画像誘導介入、画像解析、可視化など、臨床診断の信頼できる基盤を提供するための重要なステップである。 本稿では, 超音波画像分割のための深層学習に基づく手法を, そのアーキテクチャとトレーニングに基づいて6つのグループに分類する。 次に、各グループに対して、いくつかの現在の代表アルゴリズムを選択し、導入し、分析し、詳細を要約する。 さらに,画像分割と超音波画像分割データセットの共通評価手法について述べる。 さらに、現在の手法の性能とその評価について検討する。 最後に,医療用超音波画像セグメンテーションの課題と今後の研究の方向性について論じる。

Applying machine learning technologies, especially deep learning, into medical image segmentation is being widely studied because of its state-of-the-art performance and results. It can be a key step to provide a reliable basis for clinical diagnosis, such as 3D reconstruction of human tissues, image-guided interventions, image analyzing and visualization. In this review article, deep-learning-based methods for ultrasound image segmentation are categorized into six main groups according to their architectures and training at first. Secondly, for each group, several current representative algorithms are selected, introduced, analyzed and summarized in detail. In addition, common evaluation methods for image segmentation and ultrasound image segmentation datasets are summarized. Further, the performance of the current methods and their evaluations are reviewed. In the end, the challenges and potential research directions for medical ultrasound image segmentation are discussed.
翻訳日:2022-12-30 19:07:17 公開日:2021-03-05
# ディープラーニングのためのスケーラブルな2次最適化

Scalable Second Order Optimization for Deep Learning ( http://arxiv.org/abs/2002.09018v2 )

ライセンス: Link先を確認
Rohan Anil, Vineet Gupta, Tomer Koren, Kevin Regan and Yoram Singer(参考訳) 機械学習の最適化は、理論と応用の両方において現在、確率的勾配降下のような一階勾配法によって支配されている。 データの2次微分と/または2次統計を含む2次最適化法は、強い理論的性質にもかかわらず、計算の禁止、メモリおよび通信コストのため、はるかに一般的ではない。 理論的および実用的最適化のギャップを埋めるため,我々は,従来の最先端深層モデルにおける一階法と比較して,いくつかの重要なアルゴリズムと数値的改善に加えて,大幅な収束と壁時計時間の改善を提供する,二階プリコンディション方式(具体的にはフルマトリクスアダグラードの変種)のスケーラブルな実装を提案する。 提案する設計は,マルチコアcpuと複数のアクセラレータユニットを結合した深層モデルのトレーニングに,広く普及しているヘテロジニアスハードウェアアーキテクチャを効果的に活用する。 本稿では,変換器を用いた機械翻訳,BERTによる言語モデリング,Criteoによるクリックスルー率予測,ResNet-50によるImageNetの画像分類など,非常に大規模な学習課題における最先端の学習性能を示す。

Optimization in machine learning, both theoretical and applied, is presently dominated by first-order gradient methods such as stochastic gradient descent. Second-order optimization methods, that involve second derivatives and/or second order statistics of the data, are far less prevalent despite strong theoretical properties, due to their prohibitive computation, memory and communication costs. In an attempt to bridge this gap between theoretical and practical optimization, we present a scalable implementation of a second-order preconditioned method (concretely, a variant of full-matrix Adagrad), that along with several critical algorithmic and numerical improvements, provides significant convergence and wall-clock time improvements compared to conventional first-order methods on state-of-the-art deep models. Our novel design effectively utilizes the prevalent heterogeneous hardware architecture for training deep models, consisting of a multicore CPU coupled with multiple accelerator units. We demonstrate superior performance compared to state-of-the-art on very large learning tasks such as machine translation with Transformers, language modeling with BERT, click-through rate prediction on Criteo, and image classification on ImageNet with ResNet-50.
翻訳日:2022-12-30 07:24:52 公開日:2021-03-05
# rosaを実証する: データ分析パイプラインの公平性ソリューション

Demonstrating Rosa: the fairness solution for any Data Analytic pipeline ( http://arxiv.org/abs/2003.00899v2 )

ライセンス: Link先を確認
Kate Wilkinson, George Cevora(参考訳) 分析業界に関心のあるデータセットの多くは、さまざまな人間のバイアスの影響を受けている。 このようなデータに対するデータ分析(DA)や機械学習(ML)の結果は、バイアスを複製する傾向があります。 その結果、da/mlに基づく多数のバイアスのある意思決定システムが最近注目を集めている。 本稿では、選択した特徴に対してデータセットを簡単にデバイアスする自由なWebベースのツールであるRosaを紹介する。 Rosaは、Irumr Ltd.が開発したFair Adversarial Networksの原則に基づいており、インタラクティブで非線形で非バイナリバイアスを取り除くことができる。 Rosaはスタンドアロンの事前処理ステップ/APIであり、任意のDA/MLパイプラインで簡単に使用できる。 我々は,データ駆動意思決定システムからのバイアス除去におけるrosaの有効性を,5つの実世界のデータセット上で標準daタスクを実行し,現在のda問題との関連性から選択した。 我々は,単純なmlモデルを用いて解析的関心特性をモデル化し,ローザを前処理ステップとしないモデル出力のバイアスレベルを比較する。 すべてのケースにおいて、データがRosaで前処理された場合、データ駆動意思決定システムのバイアスは大幅に減少する。

Most datasets of interest to the analytics industry are impacted by various forms of human bias. The outcomes of Data Analytics [DA] or Machine Learning [ML] on such data are therefore prone to replicating the bias. As a result, a large number of biased decision-making systems based on DA/ML have recently attracted attention. In this paper we introduce Rosa, a free, web-based tool to easily de-bias datasets with respect to a chosen characteristic. Rosa is based on the principles of Fair Adversarial Networks, developed by illumr Ltd., and can therefore remove interactive, non-linear, and non-binary bias. Rosa is stand-alone pre-processing step / API, meaning it can be used easily with any DA/ML pipeline. We test the efficacy of Rosa in removing bias from data-driven decision making systems by performing standard DA tasks on five real-world datasets, selected for their relevance to current DA problems, and also their high potential for bias. We use simple ML models to model a characteristic of analytical interest, and compare the level of bias in the model output both with and without Rosa as a pre-processing step. We find that in all cases there is a substantial decrease in bias of the data-driven decision making systems when the data is pre-processed with Rosa.
翻訳日:2022-12-28 02:49:07 公開日:2021-03-05
# SUOD: 大規模無監督不均質外乱検出の高速化

SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier Detection ( http://arxiv.org/abs/2003.05731v4 )

ライセンス: Link先を確認
Yue Zhao, Xiyang Hu, Cheng Cheng, Cong Wang, Changlin Wan, Wen Wang, Jianing Yang, Haoping Bai, Zheng Li, Cao Xiao, Yunlong Wang, Zhi Qiao, Jimeng Sun, Leman Akoglu(参考訳) Outlier Detection (OD) は、不正検出や侵入検出を含む多数の高スループットアプリケーションを用いて、一般的なサンプルから異常物体を識別する重要な機械学習(ML)タスクである。 基底的真理ラベルの欠如のため、実践者は単一のモデルに頼るのではなく、さらなる組み合わせと分析のために多くの教師なしの異種モデル(すなわち、異なるハイパーパラメータを持つ異なるアルゴリズム)を構築する必要がある。 大量の教師なし、異種ODモデルを用いて、新たなサンプルのトレーニングとスコアの促進を(論文全体にわたって予測として参照)どのように行うか? 本研究では,SUODと呼ばれるモジュール型加速度システムを提案する。 提案手法は,3つの相補的加速度特性(高次元データに対するデータ削減,コストモデル近似,分散環境におけるタスク負荷不均衡最適化)に着目し,性能の精度を維持した。 20以上のベンチマークデータセットに対する大規模な実験は、SUODがヘテロジニアスODアクセラレーションに有効であることと、主要な医療企業であるIQVIAにおける不正クレーム分析の現実的な展開事例を示している。 再現性とアクセシビリティのためのSUODをオープンソースとして公開しています。

Outlier detection (OD) is a key machine learning (ML) task for identifying abnormal objects from general samples with numerous high-stake applications including fraud detection and intrusion detection. Due to the lack of ground truth labels, practitioners often have to build a large number of unsupervised, heterogeneous models (i.e., different algorithms with varying hyperparameters) for further combination and analysis, rather than relying on a single model. How to accelerate the training and scoring on new-coming samples by outlyingness (referred as prediction throughout the paper) with a large number of unsupervised, heterogeneous OD models? In this study, we propose a modular acceleration system, called SUOD, to address it. The proposed system focuses on three complementary acceleration aspects (data reduction for high-dimensional data, approximation for costly models, and taskload imbalance optimization for distributed environment), while maintaining performance accuracy. Extensive experiments on more than 20 benchmark datasets demonstrate SUOD's effectiveness in heterogeneous OD acceleration, along with a real-world deployment case on fraudulent claim analysis at IQVIA, a leading healthcare firm. We open-source SUOD for reproducibility and accessibility.
翻訳日:2022-12-24 14:13:33 公開日:2021-03-05
# giotto-tda: 機械学習とデータ探索のためのトポロジカルデータ分析ツールキット

giotto-tda: A Topological Data Analysis Toolkit for Machine Learning and Data Exploration ( http://arxiv.org/abs/2004.02551v2 )

ライセンス: Link先を確認
Guillaume Tauzin, Umberto Lupo, Lewis Tunstall, Julian Burella P\'erez, Matteo Caorsi, Wojciech Reise, Anibal Medina-Mardones, Alberto Dassatti and Kathryn Hess(参考訳) 我々は、scikit-learn互換apiと最先端c++実装を介して、高性能なトポロジーデータ解析と機械学習を統合するpythonライブラリであるgiotto-tdaを紹介する。 さまざまな種類のデータを扱うライブラリの能力は、さまざまな前処理技術に根ざしており、データ探索と解釈性に重点を置いており、直感的なプロットapiによって支援されている。 ソースコード、バイナリ、サンプル、ドキュメントはhttps://github.com/giotto-ai/giotto-tdaにある。

We introduce giotto-tda, a Python library that integrates high-performance topological data analysis with machine learning via a scikit-learn-compatible API and state-of-the-art C++ implementations. The library's ability to handle various types of data is rooted in a wide range of preprocessing techniques, and its strong focus on data exploration and interpretability is aided by an intuitive plotting API. Source code, binaries, examples, and documentation can be found at https://github.com/giotto-ai/giotto-tda.
翻訳日:2022-12-16 06:11:30 公開日:2021-03-05
# 胸部x線におけるcovid-19検出のための反復的深層学習アンサンブル

Iteratively Pruned Deep Learning Ensembles for COVID-19 Detection in Chest X-rays ( http://arxiv.org/abs/2004.08379v3 )

ライセンス: Link先を確認
Sivaramakrishnan Rajaraman, Jen Siegelman, Philip O. Alderson, Lucas S. Folio, Les R. Folio and Sameer K. Antani(参考訳) 胸部X線による新型コロナウイルスの肺病変検出に,反復的に切断した深層学習モデルアンサンブルを用いた。 重症急性呼吸症候群 コロナウイルス2(SARS-CoV-2)ウイルス、または新しいコロナウイルス(2019-nCoV)によって引き起こされる。 カスタム畳み込みニューラルネットワークとimagenetプリトレーニングモデルの選択を、公開可能なcxrコレクションの患者レベルで訓練し、評価し、モダリティ特有の特徴表現を学ぶ。 学習した知識を転送・微調整し、cxrを正常に分類し、細菌性肺炎またはcovid-19ウイルス異常を呈する関連課題において、パフォーマンスと一般化を改善する。 最高のパフォーマンスモデルは、複雑さを減らし、メモリ効率を向上させるために反復的に刈り取られる。 分類性能を向上させるために, 異なるアンサンブル戦略により, 最良な刈り込みモデルの予測を組み合わせる。 実証的な評価により、cxrによるcovid-19所見の検出において、最も高性能なプルーニングモデルの重み付け平均は、99.01%の精度と0.9972未満の精度で性能が著しく向上することが示された。 モダリティ固有の知識伝達,反復モデルプラニング,アンサンブル学習の併用により,予測精度が向上した。 このモデルは、胸部X線写真を用いた新型コロナウイルススクリーニングに迅速に適用できると期待している。

We demonstrate use of iteratively pruned deep learning model ensembles for detecting pulmonary manifestation of COVID-19 with chest X-rays. This disease is caused by the novel Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2) virus, also known as the novel Coronavirus (2019-nCoV). A custom convolutional neural network and a selection of ImageNet pretrained models are trained and evaluated at patient-level on publicly available CXR collections to learn modality-specific feature representations. The learned knowledge is transferred and fine-tuned to improve performance and generalization in the related task of classifying CXRs as normal, showing bacterial pneumonia, or COVID-19-viral abnormalities. The best performing models are iteratively pruned to reduce complexity and improve memory efficiency. The predictions of the best-performing pruned models are combined through different ensemble strategies to improve classification performance. Empirical evaluations demonstrate that the weighted average of the best-performing pruned models significantly improves performance resulting in an accuracy of 99.01% and area under the curve of 0.9972 in detecting COVID-19 findings on CXRs. The combined use of modality-specific knowledge transfer, iterative model pruning, and ensemble learning resulted in improved predictions. We expect that this model can be quickly adopted for COVID-19 screening using chest radiographs.
翻訳日:2022-12-12 20:52:21 公開日:2021-03-05
# 多スペクトルおよびSAR時系列を用いたコムギ・ラピセド作物の果粒レベルでの異常検出

Outlier detection at the parcel-level in wheat and rapeseed crops using multispectral and SAR time series ( http://arxiv.org/abs/2004.08431v3 )

ライセンス: Link先を確認
Florian Mouret and Mohanad Albughdadi and Sylvie Duthoit and Denis Kouam\'e and Guillaume Rieu and Jean-Yves Tourneret(参考訳) 本稿では, 教師なしアウトリア検出技術を用いて, 区画レベルでの異常作物発生の検出について検討する。 ボース(フランス)のラプシーズと小麦の果肉について実験的に検証した。 提案手法は以下の4段階からなる。 1)sentinel-1およびsentinel-2衛星を用いた合成開口レーダ(sar)およびマルチスペクトル画像の前処理 2)SARとマルチスペクトル画素レベルの特徴抽出 3)地域統計および地域統計を用いた区画レベルの特徴量の計算 4) 異常検出。 研究対象の作物に影響を及ぼす様々な種類の異常が分析され、説明される。 その結果, セチネル1とセチネル2データの相乗効果に着目し, 検出結果に影響を及ぼす要因について検討した。 全体としては,sentinel-1 と sentinel-2 の機能の選択を分離フォレストアルゴリズムと共同で行う場合,最高の性能が得られる。 選択された特徴は,センチネル-1のvvとvhの後方散乱係数,センチネル-2の5つの植生指標(うち,正規化差植生指数と正規化差水の2つの変種)である。 これらの特徴を10%の外れ値比で用いた場合、検出された真正(すなわち作物の異常)の割合は、ラプシドパーセルが94.1%、小麦パーセルが95.5%である。

This paper studies the detection of anomalous crop development at the parcel-level based on an unsupervised outlier detection technique. The experimental validation is conducted on rapeseed and wheat parcels located in Beauce (France). The proposed methodology consists of four sequential steps: 1) preprocessing of synthetic aperture radar (SAR) and multispectral images acquired using Sentinel-1 and Sentinel-2 satellites, 2) extraction of SAR and multispectral pixel-level features, 3) computation of parcel-level features using zonal statistics and 4) outlier detection. The different types of anomalies that can affect the studied crops are analyzed and described. The different factors that can influence the outlier detection results are investigated with a particular attention devoted to the synergy between Sentinel-1 and Sentinel-2 data. Overall, the best performance is obtained when using jointly a selection of Sentinel-1 and Sentinel-2 features with the isolation forest algorithm. The selected features are VV and VH backscattering coefficients for Sentinel-1 and 5 Vegetation Indexes for Sentinel-2 (among us, the Normalized Difference Vegetation Index and two variants of the Normalized Difference Water). When using these features with an outlier ratio of 10%, the percentage of detected true positives (i.e., crop anomalies) is equal to 94.1% for rapeseed parcels and 95.5% for wheat parcels.
翻訳日:2022-12-12 12:57:29 公開日:2021-03-05
# 森林火災・森林火災の無人航空システム

Unmanned Aerial Systems for Wildland and Forest Fires ( http://arxiv.org/abs/2004.13883v2 )

ライセンス: Link先を確認
Moulay A. Akhloufi, Nicolas A. Castro, Andy Couturier(参考訳) 森林火災は経済的損失、人命、重要な環境被害を引き起こす重要な自然災害である。 近年では、火災の強度と頻度の増大が観測されている。 森林と森林の火災支援と戦闘のための専用ソリューションの開発に向けた研究が進められている。 火災の遠隔検出と追跡のためのシステムを提案した。 これらのシステムは、小規模環境での効率的なデータ収集と火のキャラクタリゼーションの分野で改善されている。 しかし、野火は広い範囲をカバーするため、提案された地上システムのいくつかは最適範囲に適さない。 この制限に対処するため、無人航空システム (UAS) が提案された。 UASは操作性から有用であることが証明されており、リモートセンシング、アロケーション戦略、タスク計画の実装を可能にしている。 消防活動の予防、検知、リアルタイムサポートのための低コストな代替手段を提供することができる。 本稿では,山火事におけるUASの使用に関する過去の研究について概説する。 搭載センサー, 火災認識アルゴリズム, 調整戦略について考察する。 さらに,より効率的な森林火災対策のために,航空機と無人地上車両(uv)の両方を使用することを提案する最近の枠組みについても紹介する。

Wildfires represent an important natural risk causing economic losses, human death and important environmental damage. In recent years, we witness an increase in fire intensity and frequency. Research has been conducted towards the development of dedicated solutions for wildland and forest fire assistance and fighting. Systems were proposed for the remote detection and tracking of fires. These systems have shown improvements in the area of efficient data collection and fire characterization within small scale environments. However, wildfires cover large areas making some of the proposed ground-based systems unsuitable for optimal coverage. To tackle this limitation, Unmanned Aerial Systems (UAS) were proposed. UAS have proven to be useful due to their maneuverability, allowing for the implementation of remote sensing, allocation strategies and task planning. They can provide a low-cost alternative for the prevention, detection and real-time support of firefighting. In this paper we review previous work related to the use of UAS in wildfires. Onboard sensor instruments, fire perception algorithms and coordination strategies are considered. In addition, we present some of the recent frameworks proposing the use of both aerial vehicles and Unmanned Ground Vehicles (UV) for a more efficient wildland firefighting strategy at a larger scale.
翻訳日:2022-12-08 22:51:22 公開日:2021-03-05
# 人工科学発見のための正規化相互情報

Renormalized Mutual Information for Artificial Scientific Discovery ( http://arxiv.org/abs/2005.01912v3 )

ライセンス: Link先を確認
Leopoldo Sarra, Andrea Aiello, Florian Marquardt(参考訳) 決定論的に他方に依存する場合に重要な場合において連続確率変数間の依存性を推定できる相互情報のよく定義された再正規化バージョンを導出する。 これは特徴抽出に関連する状況であり、高次元システムの低次元実効的な記述を作ることが目的である。 提案手法により,物理系における集合変数の発見が可能となり,人工科学発見のツールボックスに加え,人工ニューラルネットワークにおける情報フローの分析を支援する。

We derive a well-defined renormalized version of mutual information that allows to estimate the dependence between continuous random variables in the important case when one is deterministically dependent on the other. This is the situation relevant for feature extraction, where the goal is to produce a low-dimensional effective description of a high-dimensional system. Our approach enables the discovery of collective variables in physical systems, thus adding to the toolbox of artificial scientific discovery, while also aiding the analysis of information flow in artificial neural networks.
翻訳日:2022-12-07 01:42:15 公開日:2021-03-05
# 深層学習におけるカーネル自己認識

Kernel Self-Attention in Deep Multiple Instance Learning ( http://arxiv.org/abs/2005.12991v2 )

ライセンス: Link先を確認
Dawid Rymarczyk and Adriana Borowa and Jacek Tabor and Bartosz Zieli\'nski(参考訳) 教師付き学習問題は、固定サイズの入力テンソルとラベルのペアによって記述されるわけではない。 場合によっては、特に医用画像解析において、ラベルはインスタンスの袋(例えば、画像パッチ)に対応し、バッグを分類するには、すべてのインスタンスからの情報を集約する必要がある。 インスタンスの袋を扱うモデルを作成する試みはいくつかあったが、バッグ内に依存関係がなく、ラベルが少なくとも1つのインスタンスに接続されていると仮定している。 本研究では,インスタンス間の依存関係を考慮した自己注意型MILプーリング(SA-AbMILP)アグリゲーション操作を提案する。 我々は,MNIST,組織,微生物,網膜のデータベース上で,SA-AbMILPが他のモデルよりも優れていることを示す実験を行った。 さらに,自己着脱のカーネル変動と結果への影響について検討した。

Not all supervised learning problems are described by a pair of a fixed-size input tensor and a label. In some cases, especially in medical image analysis, a label corresponds to a bag of instances (e.g. image patches), and to classify such bag, aggregation of information from all of the instances is needed. There have been several attempts to create a model working with a bag of instances, however, they are assuming that there are no dependencies within the bag and the label is connected to at least one instance. In this work, we introduce Self-Attention Attention-based MIL Pooling (SA-AbMILP) aggregation operation to account for the dependencies between instances. We conduct several experiments on MNIST, histological, microbiological, and retinal databases to show that SA-AbMILP performs better than other models. Additionally, we investigate kernel variations of Self-Attention and their influence on the results.
翻訳日:2022-11-29 05:10:38 公開日:2021-03-05
# $\gamma$-ABC: Outlier-Robust Approbusmate Bayesian Computation based on a Robust Divergence Estimator

$\gamma$-ABC: Outlier-Robust Approximate Bayesian Computation Based on a Robust Divergence Estimator ( http://arxiv.org/abs/2006.07571v3 )

ライセンス: Link先を確認
Masahiro Fujisawa, Takeshi Teshima, Issei Sato, Masashi Sugiyama(参考訳) 近似ベイズ計算(英: approximation bayesian computation、abc)は、様々な応用で用いられる確率自由推論法である。 しかし、データ不一致尺度が不適切に選択された場合、ABCは外れ値に敏感である。 本稿では,最寄りの$\gamma$-divergence推定器をデータ差分尺度として用いることを提案する。 推定器は再帰性と呼ばれる適切な理論的堅牢性を有することを示す。 さらに, この推定器は, 高柔軟性, 漸近的不偏性, ほぼ確実に収束し, 線形時間計算複雑性など, 様々な望ましい特性を享受している。 実験により,本手法は既存の不一致対策よりもかなり高いロバスト性を実現することを実証した。

Approximate Bayesian computation (ABC) is a likelihood-free inference method that has been employed in various applications. However, ABC can be sensitive to outliers if a data discrepancy measure is chosen inappropriately. In this paper, we propose to use a nearest-neighbor-based $\gamma$-divergence estimator as a data discrepancy measure. We show that our estimator possesses a suitable theoretical robustness property called the redescending property. In addition, our estimator enjoys various desirable properties such as high flexibility, asymptotic unbiasedness, almost sure convergence, and linear-time computational complexity. Through experiments, we demonstrate that our method achieves significantly higher robustness than existing discrepancy measures.
翻訳日:2022-11-21 20:49:50 公開日:2021-03-05
# 階層学習の理解に向けて:ニューラル表現の利点

Towards Understanding Hierarchical Learning: Benefits of Neural Representations ( http://arxiv.org/abs/2006.13436v2 )

ライセンス: Link先を確認
Minshuo Chen, Yu Bai, Jason D. Lee, Tuo Zhao, Huan Wang, Caiming Xiong, Richard Socher(参考訳) ディープニューラルネットワークは、効率的な階層的学習を経験的に実行し、その層がデータの有用な表現を学習する。 しかし、中間表現をどのように利用するかは、カーネルのような「浅すぎる学習者」に関連する最近の理論では説明されていない。 本研究では,中間的ニューラルネットワーク表現がニューラルネットワークに柔軟性をもたらし,生入力よりも有利であることを示す。 我々は、ランダムに初期化された固定ニューラルネットワークを、別の学習可能なネットワークに供給される表現関数と考える。 トレーニング可能なネットワークが広い2層ネットワークの二次テイラーモデルである場合、ニューラル表現は、原入力と比較して、サンプルの複雑さを改善することができることを示す: 低ランクの次数-$p$多項式(p \geq 4$)を$d$次元で学習するためには、ニューラル表現は、$\tilde{O}(d^{\lceil p/2 \rceil})$サンプルしか必要とせず、最もよく知られたサンプルの複雑さは$\tilde{O}(d^{p-1})$である。 我々は、学習可能なネットワークが神経接核である場合、ニューラルネットワークの表現が生の入力(無限幅の限界)よりも改善されないことを示す下界の値と比較する。 この結果から,深度が深層学習においてなぜ重要であるのかという新たな視点が得られた。

Deep neural networks can empirically perform efficient hierarchical learning, in which the layers learn useful representations of the data. However, how they make use of the intermediate representations are not explained by recent theories that relate them to "shallow learners" such as kernels. In this work, we demonstrate that intermediate neural representations add more flexibility to neural networks and can be advantageous over raw inputs. We consider a fixed, randomly initialized neural network as a representation function fed into another trainable network. When the trainable network is the quadratic Taylor model of a wide two-layer network, we show that neural representation can achieve improved sample complexities compared with the raw input: For learning a low-rank degree-$p$ polynomial ($p \geq 4$) in $d$ dimension, neural representation requires only $\tilde{O}(d^{\lceil p/2 \rceil})$ samples, while the best-known sample complexity upper bound for the raw input is $\tilde{O}(d^{p-1})$. We contrast our result with a lower bound showing that neural representations do not improve over the raw input (in the infinite width limit), when the trainable network is instead a neural tangent kernel. Our results characterize when neural representations are beneficial, and may provide a new perspective on why depth is important in deep learning.
翻訳日:2022-11-17 09:16:01 公開日:2021-03-05
# 拒否オプションによる回帰とkNNへの応用

Regression with reject option and application to kNN ( http://arxiv.org/abs/2006.16597v2 )

ライセンス: Link先を確認
Christophe Denis (LAMA), Mohamed Hebiri (LAMA), Ahmed Zaoui (LAMA)(参考訳) 本研究では,予測を回避できる回帰問題について検討する。 我々はこのフレームワークを,rejectオプション付き分類の拡張としてrejectオプション付き回帰と呼ぶ。 この文脈では、拒絶率が固定された場合に焦点を当て、条件分散関数のしきい値に依存する最適規則を導出する。 本稿では,2つのデータセットを含む最適規則を半教師付きで推定する手法を提案する。第1ラベル付きデータセットは回帰関数と条件分散関数の両方を推定し,第2ラベル付きデータセットは所望の拒絶率の調整に利用する。 結果、リジェクトオプション付き予測器は、リスクとリジェクトレートの両面で、リジェクトオプション付き予測器と同程度に良好であることが示される。 さらに,本手法をkNNアルゴリズムに適用し,軽度条件下で得られたkNN予測器の収束率を確立する。 最後に,提案手法の利点を説明するため,数値的研究を行った。

We investigate the problem of regression where one is allowed to abstain from predicting. We refer to this framework as regression with reject option as an extension of classification with reject option. In this context, we focus on the case where the rejection rate is fixed and derive the optimal rule which relies on thresholding the conditional variance function. We provide a semi-supervised estimation procedure of the optimal rule involving two datasets: a first labeled dataset is used to estimate both regression function and conditional variance function while a second unlabeled dataset is exploited to calibrate the desired rejection rate. The resulting predictor with reject option is shown to be almost as good as the optimal predictor with reject option both in terms of risk and rejection rate. We additionally apply our methodology with kNN algorithm and establish rates of convergence for the resulting kNN predictor under mild conditions. Finally, a numerical study is performed to illustrate the benefit of using the proposed procedure.
翻訳日:2022-11-15 04:44:27 公開日:2021-03-05
# 大型アンテナアレイのエミュレーションによるMIMOレーダシステムのDOA推定のための深層学習

Deep Learning for DOA Estimation in MIMO Radar Systems via Emulation of Large Antenna Arrays ( http://arxiv.org/abs/2007.13824v3 )

ライセンス: Link先を確認
Aya Mostafa Ahmed, Udaya Sampath K.P. Miriya Thanthrige, Aly El Gamal, and Aydin Sezgin(参考訳) 我々は,仮想大アンテナアレイの信号再構成に深層学習を用いて,MUSICを用いたDA(Direction of Arrival)推定戦略を提案する。 提案手法は、MUSICに受信した信号を直接接続するよりもはるかに優れた性能を提供するだけでなく、MUSICを高角度範囲と低試験SNR値に組み込んだ実際の大型アンテナアレイを直接使用するよりも性能が優れている。 さらに、テストSNRの関数としてのトレーニングSNRの最適選択を解析し、異なる角度範囲におけるこの関数の挙動の劇的な変化を観察する。

We present a MUSIC-based Direction of Arrival (DOA) estimation strategy using small antenna arrays, via employing deep learning for reconstructing the signals of a virtual large antenna array. Not only does the proposed strategy deliver significantly better performance than simply plugging the incoming signals into MUSIC, but surprisingly, the performance is also better than directly using an actual large antenna array with MUSIC for high angle ranges and low test SNR values. We further analyze the best choice for the training SNR as a function of the test SNR, and observe dramatic changes in the behavior of this function for different angle ranges.
翻訳日:2022-11-06 11:36:47 公開日:2021-03-05
# 医用画像における深層学習の展望 : イメージング特性,技術動向,進歩ハイライトを用いたケーススタディ,将来への約束

A review of deep learning in medical imaging: Imaging traits, technology trends, case studies with progress highlights, and future promises ( http://arxiv.org/abs/2008.09104v2 )

ライセンス: Link先を確認
S. Kevin Zhou, Hayit Greenspan, Christos Davatzikos, James S. Duncan, Bram van Ginneken, Anant Madabhushi, Jerry L. Prince, Daniel Rueckert, Ronald M. Summers(参考訳) そのルネッサンス以来、深層学習は様々な医用画像タスクで広く使われ、多くの医療用画像アプリケーションで顕著な成功を収め、いわゆる人工知能(AI)時代へと追いやられてきた。 AIの成功は主に、単一のタスクに対するアノテーションと高性能コンピューティングの進歩によるビッグデータの可用性に起因することが知られている。 しかし、医用画像は深層学習に直面する固有の課題を呈している。 本稿では,まず医療画像の特徴について紹介し,医療画像における臨床ニーズと技術的課題を強調するとともに,これらの課題に対するディープラーニングの新たなトレンドについて述べる。 本稿では,ネットワークアーキテクチャ,スパースラベル,ノイズラベル,フェデレーション学習,解釈可能性,不確実性定量化などについて述べる。 そこで我々は, デジタル診断と胸部, 脳, 心血管, 腹部画像など, 臨床で一般的に見られるいくつかの症例について報告する。 文献調査を徹底的に実施する代わりに,これらのケーススタディの応用に関する注目すべき研究要点を述べる。 今後の方向性に関する議論とプレゼンテーションで締めくくります。

Since its renaissance, deep learning has been widely used in various medical imaging tasks and has achieved remarkable success in many medical imaging applications, thereby propelling us into the so-called artificial intelligence (AI) era. It is known that the success of AI is mostly attributed to the availability of big data with annotations for a single task and the advances in high performance computing. However, medical imaging presents unique challenges that confront deep learning approaches. In this survey paper, we first present traits of medical imaging, highlight both clinical needs and technical challenges in medical imaging, and describe how emerging trends in deep learning are addressing these issues. We cover the topics of network architecture, sparse and noisy labels, federating learning, interpretability, uncertainty quantification, etc. Then, we present several case studies that are commonly found in clinical practice, including digital pathology and chest, brain, cardiovascular, and abdominal imaging. Rather than presenting an exhaustive literature survey, we instead describe some prominent research highlights related to these case study applications. We conclude with a discussion and presentation of promising future directions.
翻訳日:2022-11-03 19:55:53 公開日:2021-03-05
# リアルタイムウェイク渦輸送と減衰予測のためのハイブリッド解析とモデリング手法

A nudged hybrid analysis and modeling approach for realtime wake-vortex transport and decay prediction ( http://arxiv.org/abs/2008.03157v2 )

ライセンス: Link先を確認
Shady Ahmed, Suraj Pawar, Omer San, Adil Rasheed, Mandar Tabib(参考訳) 空気交通改善のためのノイズ測定を応用した流体の低次モデル(ROM)の強化を目的とした,長期記憶(LSTM)ヌージングフレームワークを試作した。 航空におけるディジタル双生児の新たな応用に向けて,提案手法は,ウェイク渦輸送・減衰系のリアルタイム予測ツールの構築を可能にする。 実際のアプリケーションでは、初期条件と境界条件、モデルパラメータ、測定値に不確実性があるという事実に基づいています。 さらに、ガレルキン射影(grom)に基づく従来の非線形romは、特にコルモゴロフ幅の減衰が遅いアドベクション支配流において不完全さと解不安定性に苦しむ。 LSTM nudging (LSTM-N) 法では,不完全なGROMと不確実な状態推定の組み合わせと疎ユーレリアセンサ測定を併用して,動的データ同化フレームワークにおいてより信頼性の高い予測を行う。 二次元渦輸送方程式を解いて概念を説明する。 LSTM-Nの挙動に及ぼす計測ノイズと状態推定の不確実性の影響を検討した。 また、時間的および空間的測定の難しさを十分に処理できることを実証し、次世代のデジタルツイン技術を開発する上で大きな可能性を秘めている。

We put forth a long short-term memory (LSTM) nudging framework for the enhancement of reduced order models (ROMs) of fluid flows utilizing noisy measurements for air traffic improvements. Toward emerging applications of digital twins in aviation, the proposed approach allows for constructing a realtime predictive tool for wake-vortex transport and decay systems. We build on the fact that in realistic application, there are uncertainties in initial and boundary conditions, model parameters, as well as measurements. Moreover, conventional nonlinear ROMs based on Galerkin projection (GROMs) suffer from imperfection and solution instabilities, especially for advection-dominated flows with slow decay in the Kolmogorov width. In the presented LSTM nudging (LSTM-N) approach, we fuse forecasts from a combination of imperfect GROM and uncertain state estimates, with sparse Eulerian sensor measurements to provide more reliable predictions in a dynamical data assimilation framework. We illustrate our concept by solving a two-dimensional vorticity transport equation. We investigate the effects of measurements noise and state estimate uncertainty on the performance of the LSTM-N behavior. We also demonstrate that it can sufficiently handle different levels of temporal and spatial measurement sparsity, and offer a huge potential in developing next-generation digital twin technologies.
翻訳日:2022-11-02 18:57:03 公開日:2021-03-05
# グラフ埋め込みを用いたネットワーク内のコミュニティ検出

Community detection in networks using graph embeddings ( http://arxiv.org/abs/2009.05265v2 )

ライセンス: Link先を確認
Aditya Tandon, Aiiad Albeshri, Vijey Thayananthan, Wadee Alhalabi, Filippo Radicchi and Santo Fortunato(参考訳) グラフ埋め込み手法は、ノード分類やリンク予測などのタスクに広く使用されている機械学習コミュニティで、ますます人気が高まっている。 グラフを幾何学空間に埋め込むことは、同じコミュニティ内のノードが幾何学空間で互いに近接して投影され、標準的なデータクラスタリングアルゴリズムによって検出されるため、ネットワークコミュニティの識別にも役立ちます。 本稿では,ベンチマークグラフ上のコミュニティを検出するために,いくつかのグラフ埋め込み手法を試験する。 従来のコミュニティ検出アルゴリズムと比較した。 埋め込み手法のパラメータが適切に選択された場合、性能は同等である。 しかし、最適なパラメータセットはベンチマークグラフのサイズのような特定の特徴によって異なり、人気のあるコミュニティ検出アルゴリズムはパラメータを必要としない。 したがって、実ネットワーク解析のためのパラメータセットを事前に示すことは不可能である。 この発見は、ネットワークを埋め込み、ポイントをグループ化する高い計算コストとともに、コミュニティ検出において、現在の埋め込み技術はネットワーククラスタリングアルゴリズムよりも改善されていないことを示唆している。

Graph embedding methods are becoming increasingly popular in the machine learning community, where they are widely used for tasks such as node classification and link prediction. Embedding graphs in geometric spaces should aid the identification of network communities as well, because nodes in the same community should be projected close to each other in the geometric space, where they can be detected via standard data clustering algorithms. In this paper, we test the ability of several graph embedding techniques to detect communities on benchmark graphs. We compare their performance against that of traditional community detection algorithms. We find that the performance is comparable, if the parameters of the embedding techniques are suitably chosen. However, the optimal parameter set varies with the specific features of the benchmark graphs, like their size, whereas popular community detection algorithms do not require any parameter. So it is not possible to indicate beforehand good parameter sets for the analysis of real networks. This finding, along with the high computational cost of embedding a network and grouping the points, suggests that, for community detection, current embedding techniques do not represent an improvement over network clustering algorithms.
翻訳日:2022-10-19 22:16:54 公開日:2021-03-05
# FPGAに基づくロボットコンピューティングに関する調査

A Survey of FPGA-Based Robotic Computing ( http://arxiv.org/abs/2009.06034v3 )

ライセンス: Link先を確認
Zishen Wan, Bo Yu, Thomas Yuang Li, Jie Tang, Yuhao Zhu, Yu Wang, Arijit Raychowdhury, Shaoshan Liu(参考訳) 近年のロボット工学の研究は、アルゴリズム、メカニクス、ハードウェアアーキテクチャなど、大幅に改善されている。 マニピュレータ、脚ロボット、ドローン、自動運転車を含むロボットは現在、さまざまなシナリオで広く適用されている。 しかし、ロボットアルゴリズムの計算量とデータの複雑さは、その応用に大きな課題をもたらす。 一方、CPUプラットフォームは複数のロボットタスクを処理できる柔軟性がある。 GPUプラットフォームは高い計算能力と使いやすい開発フレームワークを備えており、いくつかのアプリケーションで広く採用されている。 一方でfpgaベースのロボットアクセラレータは、特にレイテンシクリティカルと電力制限のシナリオにおいて、競争の激しい代替手段になりつつある。 特別に設計されたハードウェアロジックとアルゴリズムカーネルにより、FPGAベースのアクセラレータはCPUとGPUを性能とエネルギー効率で上回ることができる。 本稿では,fpgaベースのロボットアクセラレーターについて,ロボットシステムパイプラインの様々な段階をカバーするこれまでの研究の概要を示す。 ソフトウェアとハードウェアの最適化技術の解析と主要な技術的問題、およびいくつかの商用および宇宙アプリケーションについて、将来の作業のガイドとして機能する。

Recent researches on robotics have shown significant improvement, spanning from algorithms, mechanics to hardware architectures. Robotics, including manipulators, legged robots, drones, and autonomous vehicles, are now widely applied in diverse scenarios. However, the high computation and data complexity of robotic algorithms pose great challenges to its applications. On the one hand, CPU platform is flexible to handle multiple robotic tasks. GPU platform has higher computational capacities and easy-touse development frameworks, so they have been widely adopted in several applications. On the other hand, FPGA-based robotic accelerators are becoming increasingly competitive alternatives, especially in latency-critical and power-limited scenarios. With specialized designed hardware logic and algorithm kernels, FPGA-based accelerators can surpass CPU and GPU in performance and energy efficiency. In this paper, we give an overview of previous work on FPGA-based robotic accelerators covering different stages of the robotic system pipeline. An analysis of software and hardware optimization techniques and main technical issues is presented, along with some commercial and space applications, to serve as a guide for future work.
翻訳日:2022-10-19 03:15:59 公開日:2021-03-05
# 低ランクモデルの学習混合

Learning Mixtures of Low-Rank Models ( http://arxiv.org/abs/2009.11282v2 )

ライセンス: Link先を確認
Yanxi Chen, Cong Ma, H. Vincent Poor, Yuxin Chen(参考訳) 本研究では,低ランクモデルの混合学習の問題点,すなわち,複数の低ランク行列の再構成について検討する。 この問題は、潜在変数(未知ラベル)と構造前置値(すなわち低ランク構造)を考慮に入れることで、広く研究された2つの設定、すなわち低ランク行列センシングと混合線形回帰を豊かにする。 異種不均質データと低複素構造から生じる非凸性問題に対処するため,ガウス設計の下で,未知の行列をほぼ最適サンプルと計算複雑性で復元することが保証された3段階のメタアルゴリズムを開発した。 さらに,提案アルゴリズムはランダムノイズに対して確実に安定である。 アルゴリズムの有効性を確認する実証的証拠を用いて理論的研究を補完する。

We study the problem of learning mixtures of low-rank models, i.e. reconstructing multiple low-rank matrices from unlabelled linear measurements of each. This problem enriches two widely studied settings -- low-rank matrix sensing and mixed linear regression -- by bringing latent variables (i.e. unknown labels) and structural priors (i.e. low-rank structures) into consideration. To cope with the non-convexity issues arising from unlabelled heterogeneous data and low-complexity structure, we develop a three-stage meta-algorithm that is guaranteed to recover the unknown matrices with near-optimal sample and computational complexities under Gaussian designs. In addition, the proposed algorithm is provably stable against random noise. We complement the theoretical studies with empirical evidence that confirms the efficacy of our algorithm.
翻訳日:2022-10-15 16:03:05 公開日:2021-03-05
# BCNN: すべてのマトリックスオプティクスを1ビット精度に量子化したバイナリCNN

BCNN: A Binary CNN with All Matrix Ops Quantized to 1 Bit Precision ( http://arxiv.org/abs/2010.00704v4 )

ライセンス: Link先を確認
Arthur J. Redfern and Lijun Zhu and Molly K. Newquist(参考訳) 本稿では,行列行列乗算未満のCNNスタイルの2次元畳み込み演算がすべてバイナリであるCNNについて述べる。 このネットワークは、バイナリニューラルネットワークが普遍関数近似器であることを示す構成的証明アウトラインと整合した共通のビルディングブロック構造から導かれる。 2012年のimagenetバリデーションセットの71.24%が2段階のトレーニング手順で達成され、バイナリオペランドに最適化された実装戦略が提供されている。

This paper describes a CNN where all CNN style 2D convolution operations that lower to matrix matrix multiplication are fully binary. The network is derived from a common building block structure that is consistent with a constructive proof outline showing that binary neural networks are universal function approximators. 71.24% top 1 accuracy on the 2012 ImageNet validation set was achieved with a 2 step training procedure and implementation strategies optimized for binary operands are provided.
翻訳日:2022-10-12 07:36:14 公開日:2021-03-05
# 境界楕円を用いた交通監視のための非アンカー型車両検出

Non-anchor-based vehicle detection for traffic surveillance using bounding ellipses ( http://arxiv.org/abs/2010.02059v2 )

ライセンス: Link先を確認
Byeonghyeop Yu, Johyun Shin, Gyeongjun Kim, Seungbin Roh, Keemin Sohn(参考訳) 交通監視用のカメラは通常ポールマウントされ、鳥の視線を反映する画像を生成する。 このような画像の車両は一般に楕円形を仮定する。 車両のバウンディングボックスは通常、車両の向きがボックスの端と平行でない場合に大きな空スペースを含む。 そこで本研究では,非アンカー型単一ショット検出モデル(centernet)にバウンディング楕円を適用した。 このモデルはアンカーボックスに依存しないので、予測される有界ボックス間の結合(IOU)の計算を必要とする非最大抑圧(NMS)は推論には不要である。 セグメンテーションヘッドを追加することでCenterNetモデルを拡張するSpotNetも、境界楕円でテストされた。 他の2つのアンカーベース単発検出モデル(YOLO4とSSD)が比較基準として選択された。 モデルのパフォーマンスは、バウンディングボックスと楕円で2倍のアノテートされたローカルデータセットに基づいて比較された。 その結果、バウンディング楕円を持つ2つのモデルの性能は、バウンディングボックスを持つ参照モデルの性能を上回った。 楕円モデルのバックボーンがオープンデータセット(UA-DETRAC)上で事前トレーニングされると、さらに性能が向上した。 YOLO4向けに開発されたデータ拡張方式により,提案モデルの性能も向上した。 その結果、境界楕円を持つCenterNetの最良のmAPスコアは0.9を超えている。

Cameras for traffic surveillance are usually pole-mounted and produce images that reflect a birds-eye view. Vehicles in such images, in general, assume an ellipse form. A bounding box for the vehicles usually includes a large empty space when the vehicle orientation is not parallel to the edges of the box. To circumvent this problem, the present study applied bounding ellipses to a non-anchor-based, single-shot detection model (CenterNet). Since this model does not depend on anchor boxes, non-max suppression (NMS) that requires computing the intersection over union (IOU) between predicted bounding boxes is unnecessary for inference. The SpotNet that extends the CenterNet model by adding a segmentation head was also tested with bounding ellipses. Two other anchor-based, single-shot detection models (YOLO4 and SSD) were chosen as references for comparison. The model performance was compared based on a local dataset that was doubly annotated with bounding boxes and ellipses. As a result, the performance of the two models with bounding ellipses exceeded that of the reference models with bounding boxes. When the backbone of the ellipse models was pretrained on an open dataset (UA-DETRAC), the performance was further enhanced. The data augmentation schemes developed for YOLO4 also improved the performance of the proposed models. As a result, the best mAP score of a CenterNet with bounding ellipses exceeds 0.9.
翻訳日:2022-10-10 21:59:01 公開日:2021-03-05
# データに依存しないRoBERTaベースの自然言語からSQLクエリ生成

Data Agnostic RoBERTa-based Natural Language to SQL Query Generation ( http://arxiv.org/abs/2010.05243v3 )

ライセンス: Link先を確認
Debaditya Pal, Harsh Sharma, Kaustubh Chaudhari(参考訳) リレーショナルデータベースは、現代世界で大量のデータを格納する最も広く使われているアーキテクチャの1つである。 しかし、これらのデータベースと平均的なユーザーの間には障壁がある。 ユーザはデータベースとの対話に必要なsqlのようなクエリ言語に関する知識を欠くことが多い。 NL2SQLタスクは、自然言語の質問を有効なSQLクエリに変換することによって、この問題を解決するためのディープラーニングアプローチを見つけることを目的としている。 いくつかのデータベースの繊細な性質とデータプライバシの必要性の高まりを踏まえて、データプライバシに関するアプローチをその中核に置いています。 我々は、最終クエリを予測するために、RoBERTa埋め込みとデータに依存しない知識ベクトルをLSTMベースのサブモデルに渡した。 成果は得られていないものの、モデルのトレーニングから直ちにテーブルデータの必要性を排除し、テストセットの実行精度76.7%を達成した。 学習中にテーブルデータ依存を排除することで、自然言語質問とテーブルスキーマのみに基づいてゼロショット学習が可能なモデルを作成しました。

Relational databases are among the most widely used architectures to store massive amounts of data in the modern world. However, there is a barrier between these databases and the average user. The user often lacks the knowledge of a query language such as SQL required to interact with the database. The NL2SQL task aims at finding deep learning approaches to solve this problem by converting natural language questions into valid SQL queries. Given the sensitive nature of some databases and the growing need for data privacy, we have presented an approach with data privacy at its core. We have passed RoBERTa embeddings and data-agnostic knowledge vectors into LSTM based submodels to predict the final query. Although we have not achieved state of the art results, we have eliminated the need for the table data, right from the training of the model, and have achieved a test set execution accuracy of 76.7%. By eliminating the table data dependency while training we have created a model capable of zero shot learning based on the natural language question and table schema alone.
翻訳日:2022-10-08 12:48:56 公開日:2021-03-05
# 分布回帰を満たした確率勾配降下

Stochastic Gradient Descent Meets Distribution Regression ( http://arxiv.org/abs/2010.12842v2 )

ライセンス: Link先を確認
Nicole M\"ucke(参考訳) 確率勾配勾配(SGD)は、幅広い機械学習問題を解決するためのシンプルで効率的な方法である。 本稿では,2段階のサンプリングを含む分布回帰(DR)に着目し,まず,確率測度から実測値への回帰を行う。 第2に,これらの分布からバッグをサンプリングして,回帰問題を解く。 近年,カーネルリッジレグレッションの適用によりDRが取り組まれており,本手法の学習特性がよく理解されている。 しかし、2段階サンプリング問題に対するSGDの学習特性については何も分かっていない。 我々はこのギャップを埋め、DRに対するSGDの性能を理論的に保証する。

Stochastic gradient descent (SGD) provides a simple and efficient way to solve a broad range of machine learning problems. Here, we focus on distribution regression (DR), involving two stages of sampling: Firstly, we regress from probability measures to real-valued responses. Secondly, we sample bags from these distributions for utilizing them to solve the overall regression problem. Recently, DR has been tackled by applying kernel ridge regression and the learning properties of this approach are well understood. However, nothing is known about the learning properties of SGD for two stage sampling problems. We fill this gap and provide theoretical guarantees for the performance of SGD for DR. Our bounds are optimal in a mini-max sense under standard assumptions.
翻訳日:2022-10-03 12:17:50 公開日:2021-03-05
# グラフニューラルネットワークを用いた半教師付き分類におけるコミュニティの影響について

On the Impact of Communities on Semi-supervised Classification Using Graph Neural Networks ( http://arxiv.org/abs/2010.16245v2 )

ライセンス: Link先を確認
Hussain Hussain, Tomislav Duricic, Elisabeth Lex, Roman Kern, and Denis Helic(参考訳) グラフニューラルネットワーク(GNN)は多くのアプリケーションで有効である。 それでも、共通グラフ構造がGNNの学習過程に与える影響については限定的な理解がある。 本研究では,グラフ上の半教師付きノード分類におけるGNNの性能に及ぼすコミュニティ構造の影響を系統的に研究する。 6つのデータセットに対するアブレーション研究の後、元のグラフ上でのGNNの性能と、コミュニティ構造の有無によるパフォーマンスの変化を測定した。 その結果,コミュニティは学習過程や分類性能に大きな影響を与えることが示唆された。 例えば、あるコミュニティのノードの大多数が単一の分類ラベルを共有している場合、コミュニティ構造を分割すると、パフォーマンスが大幅に低下する。 一方,ラベルがコミュニティとの相関関係が低い場合,グラフ構造は学習過程とはかなり無関係であり,特徴のみのベースラインを破ることが困難になる。 私たちの研究では、グラフ構造に基づいたモデル選択のための一般的なガイドラインを含む、gnnの能力と限界に関する深い洞察を提供します。

Graph Neural Networks (GNNs) are effective in many applications. Still, there is a limited understanding of the effect of common graph structures on the learning process of GNNs. In this work, we systematically study the impact of community structure on the performance of GNNs in semi-supervised node classification on graphs. Following an ablation study on six datasets, we measure the performance of GNNs on the original graphs, and the change in performance in the presence and the absence of community structure. Our results suggest that communities typically have a major impact on the learning process and classification performance. For example, in cases where the majority of nodes from one community share a single classification label, breaking up community structure results in a significant performance drop. On the other hand, for cases where labels show low correlation with communities, we find that the graph structure is rather irrelevant to the learning process, and a feature-only baseline becomes hard to beat. With our work, we provide deeper insights in the abilities and limitations of GNNs, including a set of general guidelines for model selection based on the graph structure.
翻訳日:2022-10-01 17:12:23 公開日:2021-03-05
# ユーザフィードバックによるロボット経路計画のパーソナライズ化に向けて

Towards Personalized Explanation of Robot Path Planning via User Feedback ( http://arxiv.org/abs/2011.00524v2 )

ライセンス: Link先を確認
Kayla Boggess, Shenghui Chen, Lu Feng(参考訳) これまでの研究によると、ロボットの決定と行動の説明はシステムの透明性を高め、ユーザーの理解を改善し、効果的な人間とロボットのコラボレーションを可能にする。 本稿では,ユーザフィードバックによるロボット経路計画のパーソナライズされた説明を生成するシステムを提案する。 我々は,マルコフ決定プロセス(MDP)としてモデル化された環境をナビゲートするロボットについて検討し,4つの要素(目的,局所性,特異性,コーパス)に関するユーザの好みに基づいて,最適なMDPポリシーのパーソナライズされた説明を自動的に生成するアルゴリズムを開発した。 さらに,ユーザが生成した説明に関するさらなる質問に答えることで,ユーザと対話するシステムを設計する。 ユーザーは好みをアップデートして、異なる説明を見ることができる。 このシステムは、ユーザのインタラクションを通じて任意の選好コンフリクトを検出して解決することができる。 オンラインユーザスタディの結果は、生成されたパーソナライズされた説明によってユーザの満足度が向上することを示している。

Prior studies have found that explaining robot decisions and actions helps to increase system transparency, improve user understanding, and enable effective human-robot collaboration. In this paper, we present a system for generating personalized explanations of robot path planning via user feedback. We consider a robot navigating in an environment modeled as a Markov decision process (MDP), and develop an algorithm to automatically generate a personalized explanation of an optimal MDP policy, based on the user preference regarding four elements (i.e., objective, locality, specificity, and corpus). In addition, we design the system to interact with users via answering users' further questions about the generated explanations. Users have the option to update their preferences to view different explanations. The system is capable of detecting and resolving any preference conflict via user interaction. The results of an online user study show that the generated personalized explanations improve user satisfaction, while the majority of users liked the system's capabilities of question-answering and conflict detection/resolution.
翻訳日:2022-09-30 23:48:59 公開日:2021-03-05
# cortex: 再帰的ディープラーニングモデルのためのコンパイラ

Cortex: A Compiler for Recursive Deep Learning Models ( http://arxiv.org/abs/2011.01383v2 )

ライセンス: Link先を確認
Pratik Fegade, Tianqi Chen, Phillip B. Gibbons, Todd C. Mowry(参考訳) ディープラーニングモデルの最適化は、一般的に2つのステップで実行される。 (i)カーネル融合や高水準グラフ最適化 (ii)ベンダーライブラリに見られるような低レベルのカーネル最適化。 このアプローチは、特に再帰的なディープラーニングモデルの場合、大きなパフォーマンスを表に残すことが多い。 本稿では,低レイテンシ推論のための再帰モデルのための高効率コードを生成するコンパイラベースの手法であるcortexを提案する。 コンパイラのアプローチとベンダライブラリへの依存度が低いことで、エンドツーエンドの最適化が可能になり、さまざまなバックエンド間で、過去の作業で最大14倍の推論遅延が発生します。

Optimizing deep learning models is generally performed in two steps: (i) high-level graph optimizations such as kernel fusion and (ii) low level kernel optimizations such as those found in vendor libraries. This approach often leaves significant performance on the table, especially for the case of recursive deep learning models. In this paper, we present Cortex, a compiler-based approach to generate highly-efficient code for recursive models for low latency inference. Our compiler approach and low reliance on vendor libraries enables us to perform end-to-end optimizations, leading to up to 14X lower inference latencies over past work, across different backends.
翻訳日:2022-09-30 13:07:14 公開日:2021-03-05
# termcast: 有効都市フロー予測のための時間関係モデリング

TERMCast: Temporal Relation Modeling for Effective Urban Flow Forecasting ( http://arxiv.org/abs/2011.05554v2 )

ライセンス: Link先を確認
Hao Xue and Flora D Salim(参考訳) 都市フロー予測は, 都市フローパターン固有の周期特性を考えると, 困難な課題である。 周期性を捉えるため、既存の都市流予測手法は、都市流列から抽出された近接性、周期、トレンド成分を用いて設計されることが多い。 しかし、これらの3つの成分は予測モデルでは別々に考慮されることが多い。 これらの成分は完全には探索されておらず、同時に都市流予測モデルに組み込まれている。 本稿では,新しい都市流れ予測アーキテクチャであるTERMCastを紹介する。 変圧器を用いた長期関係予測モジュールは、周期性を発見し、3つのコンポーネントを共同でモデル化できるように明示的に設計されており、このモジュールは予測された都市流テンソルを生成するために使用される周期関係を予測する。 予測周期関係ベクトルと予測都市流テンソルから推定される関係ベクトルの整合性を測定するために,整合モジュールを提案する。 トレーニングプロセスに一貫性損失が導入され、予測性能がさらに向上する。 3つの実世界のデータセットに関する広範な実験を通して、TERMCastが複数の最先端手法より優れていることを示す。 TERMCastの各モジュールの有効性についても検討した。

Urban flow forecasting is a challenging task, given the inherent periodic characteristics of urban flow patterns. To capture the periodicity, existing urban flow prediction approaches are often designed with closeness, period, and trend components extracted from the urban flow sequence. However, these three components are often considered separately in the prediction model. These components have not been fully explored together and simultaneously incorporated in urban flow forecasting models. We introduce a novel urban flow forecasting architecture, TERMCast. A Transformer based long-term relation prediction module is explicitly designed to discover the periodicity and enable the three components to be jointly modeled This module predicts the periodic relation which is then used to yield the predicted urban flow tensor. To measure the consistency of the predicted periodic relation vector and the relation vector inferred from the predicted urban flow tensor, we propose a consistency module. A consistency loss is introduced in the training process to further improve the prediction performance. Through extensive experiments on three real-world datasets, we demonstrate that TERMCast outperforms multiple state-of-the-art methods. The effectiveness of each module in TERMCast has also been investigated.
翻訳日:2022-09-26 23:05:32 公開日:2021-03-05
# adco: 自己学習した負の敵からの教師なし表現の効率的な学習のためのコントラスト

AdCo: Adversarial Contrast for Efficient Learning of Unsupervised Representations from Self-Trained Negative Adversaries ( http://arxiv.org/abs/2011.08435v5 )

ライセンス: Link先を確認
Qianjiang Hu, Xiao Wang, Wei Hu, Guo-Jun Qi(参考訳) 対照的な学習は、表現が自己学習されたときに肯定的なクエリと区別することが十分に難しい否定的な例の集合を構築することに依存する。 既存の対照的な学習方法は、ミニバッチ上の負のサンプルのキューを維持するか、少数のサンプルだけをイテレーションで更新するか、あるいは現在のミニバッチの他の例を負として使用するかのいずれかである。 キュー全体を更新したり、過去のミニバッチから有用な情報を破棄したりすることで、反復による学習した表現の変化を綿密に追跡することはできなかった。 あるいは、自己学習された表現に逆らう負の敵の集合を直接学習する。 表現ネットワークと負の敵である2つのプレイヤーを交互に更新し、正のクエリの表現を識別するために訓練する最も困難な負の例を得る。 さらに、敵のコントラスト損失を最大化することで、負の敵は正のクエリの重み付けされた組み合わせに向かって更新され、時間とともに表現の変化を密に追跡できることを示した。 実験により,提案したAdCoモデルが優れた性能(トップ1の精度は200エポック以上73.2\%,800エポック以上75.7\%)を達成するだけでなく,より少ないエポックでより効率的に事前学習できることを示した。

Contrastive learning relies on constructing a collection of negative examples that are sufficiently hard to discriminate against positive queries when their representations are self-trained. Existing contrastive learning methods either maintain a queue of negative samples over minibatches while only a small portion of them are updated in an iteration, or only use the other examples from the current minibatch as negatives. They could not closely track the change of the learned representation over iterations by updating the entire queue as a whole, or discard the useful information from the past minibatches. Alternatively, we present to directly learn a set of negative adversaries playing against the self-trained representation. Two players, the representation network and negative adversaries, are alternately updated to obtain the most challenging negative examples against which the representation of positive queries will be trained to discriminate. We further show that the negative adversaries are updated towards a weighted combination of positive queries by maximizing the adversarial contrastive loss, thereby allowing them to closely track the change of representations over time. Experiment results demonstrate the proposed Adversarial Contrastive (AdCo) model not only achieves superior performances (a top-1 accuracy of 73.2\% over 200 epochs and 75.7\% over 800 epochs with linear evaluation on ImageNet), but also can be pre-trained more efficiently with fewer epochs.
翻訳日:2022-09-24 15:36:18 公開日:2021-03-05
# 動的シーンのためのニューラルシーングラフ

Neural Scene Graphs for Dynamic Scenes ( http://arxiv.org/abs/2011.10379v3 )

ライセンス: Link先を確認
Julian Ost, Fahim Mannan, Nils Thuerey, Julian Knodt, Felix Heide(参考訳) 近年の暗黙的ニューラルレンダリング法では、RGB画像の集合にのみ監督される体積密度と色を予測することにより、複雑なシーンの正確なビュー合成を学習できることが示されている。 しかし、既存の手法は、すべてのシーンオブジェクトを1つのニューラルネットワークにエンコードする静的シーンの効率的な表現を学ぶことに限定されており、動的なシーンや個々のシーンオブジェクトへの分解を表現できない。 本研究では,動的シーンをシーングラフに分解する最初のニューラルレンダリング手法を提案する。 本稿では,オブジェクト変換と放射率を符号化した学習シーングラフ表現を提案し,シーンの新規な配置やビューを効率よく描画する。 この目的のために、暗黙的に符号化されたシーンを学習し、単一の暗黙関数でオブジェクトを記述するために共同で学習した潜在表現と組み合わせる。 提案手法は,このシーンの映像を観察することで,動的なシーンを学習できることを検証し,未知のポーズで未知のオブジェクトセットで,新規なシーン構成の斬新なフォトリアリスティックなビューを描画することを可能にする。

Recent implicit neural rendering methods have demonstrated that it is possible to learn accurate view synthesis for complex scenes by predicting their volumetric density and color supervised solely by a set of RGB images. However, existing methods are restricted to learning efficient representations of static scenes that encode all scene objects into a single neural network, and lack the ability to represent dynamic scenes and decompositions into individual scene objects. In this work, we present the first neural rendering method that decomposes dynamic scenes into scene graphs. We propose a learned scene graph representation, which encodes object transformation and radiance, to efficiently render novel arrangements and views of the scene. To this end, we learn implicitly encoded scenes, combined with a jointly learned latent representation to describe objects with a single implicit function. We assess the proposed method on synthetic and real automotive data, validating that our approach learns dynamic scenes -- only by observing a video of this scene -- and allows for rendering novel photo-realistic views of novel scene compositions with unseen sets of objects at unseen poses.
翻訳日:2022-09-23 06:25:40 公開日:2021-03-05
# 機械学習を用いた外惑星検出

Exoplanet Detection using Machine Learning ( http://arxiv.org/abs/2011.14135v2 )

ライセンス: Link先を確認
Abhishek Malik, Benjamin P. Moster and Christian Obermeier(参考訳) トランジット法を用いて外惑星を検出する機械学習に基づく新しい手法を提案する。 機械学習とディープラーニング技術は、様々な科学研究分野に広く応用されていることが証明されている。 我々は、これらの手法のいくつかを応用して、現在天体物理学で使われている従来のアルゴリズムに基づくアプローチを改善し、外惑星を検出することを目指している。 時系列解析ライブラリtsfreshを用いて光曲線の解析を行い,各曲線から789個の特徴を抽出し,光曲線の特性に関する情報を得た。 次に、これらの機能を使って、機械学習ツールLightgbmを使って勾配向上分類器を訓練しました。 このアプローチはシミュレーションデータを用いてテストされ、従来のbox least squares fitting (bls) 法よりも効果的であった。 さらに,本手法は既存の最先端ディープラーニングモデルに匹敵する結果を得たが,計算効率は向上し,光曲線の折り畳みや二次ビューは不要であった。 ケプラーのデータでは、実際の惑星信号の94.8%が非惑星信号よりも上位にランクされるように、auc 0.948の惑星を予測することができる。 その結果のリコールは0.96であり、実際の惑星の96パーセントが惑星に分類される。 通過する太陽系外惑星サーベイ衛星 (tess) のデータについて, 精度0.98で光度曲線を分類し, 0.82のリコールで0.63の精度で惑星を識別できることを確認した。

We introduce a new machine learning based technique to detect exoplanets using the transit method. Machine learning and deep learning techniques have proven to be broadly applicable in various scientific research areas. We aim to exploit some of these methods to improve the conventional algorithm based approaches presently used in astrophysics to detect exoplanets. Using the time-series analysis library TSFresh to analyse light curves, we extracted 789 features from each curve, which capture the information about the characteristics of a light curve. We then used these features to train a gradient boosting classifier using the machine learning tool lightgbm. This approach was tested on simulated data, which showed that is more effective than the conventional box least squares fitting (BLS) method. We further found that our method produced comparable results to existing state-of-the-art deep learning models, while being much more computationally efficient and without needing folded and secondary views of the light curves. For Kepler data, the method is able to predict a planet with an AUC of 0.948, so that 94.8 per cent of the true planet signals are ranked higher than non-planet signals. The resulting recall is 0.96, so that 96 per cent of real planets are classified as planets. For the Transiting Exoplanet Survey Satellite (TESS) data, we found our method can classify light curves with an accuracy of 0.98, and is able to identify planets with a recall of 0.82 at a precision of 0.63.
翻訳日:2022-09-19 20:04:16 公開日:2021-03-05
# 自己教師付きコントラスト予測符号化による時系列変化点検出

Time Series Change Point Detection with Self-Supervised Contrastive Predictive Coding ( http://arxiv.org/abs/2011.14097v5 )

ライセンス: Link先を確認
Shohreh Deldari, Daniel V. Smith, Hao Xue, Flora D. Salim(参考訳) 変更点検出(英語版)(cpd)法は、システムの基盤となる振る舞いを記述するために時系列データの傾向や特性の変化に関連する時間を特定する。 例えば、webサービスの使用、アプリケーションの使用、ヒューマンビヘイビアに関連する変更や異常を検出することは、ダウンストリームモデリングタスクに有用な洞察を提供する。 本稿では,Contrastive Predictive Code (TS-CP^2) に基づく自己教師型時系列変化点検出手法を提案する。 TS-CP^2は、時間にまたがる間隔の組込み対と時間にまたがる間隔の組込み対を分離する組込み表現を学習することで、CDDの対照的な学習戦略を採用する最初のアプローチである。 3つの多種多様な時系列データセットに関する広範な実験を通して、本手法は教師なしおよび半教師なしのアプローチを含む5つの最先端CPD法より優れていることを示した。 ts-cp^2は、手作りの統計的特徴または時間的特徴を79.4%、深層学習に基づく手法を3つのデータセットの平均f1-scoreに対して17.0%向上させることが示されている。

Change Point Detection (CPD) methods identify the times associated with changes in the trends and properties of time series data in order to describe the underlying behaviour of the system. For instance, detecting the changes and anomalies associated with web service usage, application usage or human behaviour can provide valuable insights for downstream modelling tasks. We propose a novel approach for self-supervised Time Series Change Point detection method based onContrastivePredictive coding (TS-CP^2). TS-CP^2 is the first approach to employ a contrastive learning strategy for CPD by learning an embedded representation that separates pairs of embeddings of time adjacent intervals from pairs of interval embeddings separated across time. Through extensive experiments on three diverse, widely used time series datasets, we demonstrate that our method outperforms five state-of-the-art CPD methods, which include unsupervised and semi-supervisedapproaches. TS-CP^2 is shown to improve the performance of methods that use either handcrafted statistical or temporal features by 79.4% and deep learning-based methods by 17.0% with respect to the F1-score averaged across the three datasets.
翻訳日:2022-09-19 19:12:58 公開日:2021-03-05
# (参考訳) ひび割れ検出のための深部ニューラルネットワークの臨界評価

Critical Evaluation of Deep Neural Networks for Wrist Fracture Detection ( http://arxiv.org/abs/2012.02577v2 )

ライセンス: CC BY 4.0
Abu Mohammed Raisuddin, Elias Vaattovaara, Mika Nevalainen, Marko Nikki, Elina J\"arvenp\"a\"a, Kaisa Makkonen, Pekka Pinola, Tuula Palsio, Arttu Niemensivu, Osmo Tervonen, Aleksei Tiulpin(参考訳) 手関節骨折は最も一般的なタイプの骨折であり、発症率が高い。 従来のx線撮影(例) x線イメージングは定期的に手関節骨折の検出に用いられるが、時折骨折の脱線が問題となり、ct(ct)による追加診断が必要となる。 人工知能(AI)のサブフィールドであるDeep Learning(DL)分野の最近の進歩は、畳み込みニューラルネットワークを用いて手首骨折検出を自動化できることを証明している。 しかし、従来の研究では、CT画像でのみ確認できる難しい症例にはあまり注意を払わなかった。 In this study, we have developed and analyzed a state-of-the-art DL-based pipeline for wrist (distal radius) fracture detection -- DeepWrist, and evaluated it against one general population test set, and one challenging test set comprising only cases requiring confirmation by CT. Our results reveal that a typical state-of-the-art approach, such as DeepWrist, while having a near-perfect performance on the general independent test set, has a substantially lower performance on the challenging test set -- average precision of 0.99 (0.99-0.99) vs 0.64 (0.46-0.83), respectively. 同様に、ROC曲線下の面積はそれぞれ 0.99 (0.98-0.99) と 0.84 (0.72-0.93) であった。 本研究は,臨床使用前にdlベースモデルの細心の注意深い分析の重要性を浮き彫りにして,医療aiシステムをテストするためのより困難な設定の必要性を明らかにする。

Wrist Fracture is the most common type of fracture with a high incidence rate. Conventional radiography (i.e. X-ray imaging) is used for wrist fracture detection routinely, but occasionally fracture delineation poses issues and an additional confirmation by computed tomography (CT) is needed for diagnosis. Recent advances in the field of Deep Learning (DL), a subfield of Artificial Intelligence (AI), have shown that wrist fracture detection can be automated using Convolutional Neural Networks. However, previous studies did not pay close attention to the difficult cases which can only be confirmed via CT imaging. In this study, we have developed and analyzed a state-of-the-art DL-based pipeline for wrist (distal radius) fracture detection -- DeepWrist, and evaluated it against one general population test set, and one challenging test set comprising only cases requiring confirmation by CT. Our results reveal that a typical state-of-the-art approach, such as DeepWrist, while having a near-perfect performance on the general independent test set, has a substantially lower performance on the challenging test set -- average precision of 0.99 (0.99-0.99) vs 0.64 (0.46-0.83), respectively. Similarly, the area under the ROC curve was of 0.99 (0.98-0.99) vs 0.84 (0.72-0.93), respectively. Our findings highlight the importance of a meticulous analysis of DL-based models before clinical use, and unearth the need for more challenging settings for testing medical AI systems.
翻訳日:2021-05-23 05:34:15 公開日:2021-03-05
# 限られたデータから高次元ヒルベルト値関数を学習するディープニューラルネットワーク

Deep Neural Networks Are Effective At Learning High-Dimensional Hilbert-Valued Functions From Limited Data ( http://arxiv.org/abs/2012.06081v2 )

ライセンス: Link先を確認
Ben Adcock and Simone Brugiapaglia and Nick Dexter and Sebastian Moraga(参考訳) サンプル点からのスカラー値関数の正確な近似は計算科学における重要な課題である。 近年、Deep Neural Networks (DNN) を用いた機械学習が科学計算の有望なツールとして登場し、データや問題領域の次元が大きくなる問題に対して素晴らしい結果が得られた。 この研究は、ヒルベルト値を持つ関数、すなわち近似関数に焦点をあてて、この視点を広げている。 分離可能だが典型的には無限次元のヒルベルト空間で値を取る。 これは科学や工学の問題、特にパラメトリック偏微分方程式(pdes)の解を含む問題において生じる。 このような問題は困難である: 1) 点的サンプルは取得に費用がかかり、2) 関数領域は高次元であり、3) 範囲はヒルベルト空間にある。 私たちの貢献は2倍です。 まず,隠れ異方性をもつ正則関数に対するDNNトレーニングにおける新しい結果を示す。 この結果は、dnnトレーニング手順と、エラーとサンプルの複雑さを明示的に保証した完全な理論解析を導入する。 誤差境界は近似手順で発生する3つの重要な誤り(最良の近似、測定、物理的離散化誤差)で明示される。 以上の結果から, ヒルベルト値関数をdnnで学習するための手続き(非標準的)が存在することが判明した。 これは、DNNがそのような問題に対してどれだけうまく機能できるかに関して、ベンチマークを低くする。 第2に,異なるタイプのアーキテクチャやトレーニングを通じて,より優れたパフォーマンスを実現することができるかどうかを検討する。 パラメトリックPDEにおけるDNNの実用性能を示す予備的な数値結果を提供する。 異なるパラメータを検討し、より良く競争的な結果を得るためにdnnアーキテクチャを変更し、これらを現在のベストインクラススキームと比較する。

Accurate approximation of scalar-valued functions from sample points is a key task in computational science. Recently, machine learning with Deep Neural Networks (DNNs) has emerged as a promising tool for scientific computing, with impressive results achieved on problems where the dimension of the data or problem domain is large. This work broadens this perspective, focusing on approximating functions that are Hilbert-valued, i.e. take values in a separable, but typically infinite-dimensional, Hilbert space. This arises in science and engineering problems, in particular those involving solution of parametric Partial Differential Equations (PDEs). Such problems are challenging: 1) pointwise samples are expensive to acquire, 2) the function domain is high dimensional, and 3) the range lies in a Hilbert space. Our contributions are twofold. First, we present a novel result on DNN training for holomorphic functions with so-called hidden anisotropy. This result introduces a DNN training procedure and full theoretical analysis with explicit guarantees on error and sample complexity. The error bound is explicit in three key errors occurring in the approximation procedure: the best approximation, measurement, and physical discretization errors. Our result shows that there exists a procedure (albeit non-standard) for learning Hilbert-valued functions via DNNs that performs as well as, but no better than current best-in-class schemes. It gives a benchmark lower bound for how well DNNs can perform on such problems. Second, we examine whether better performance can be achieved in practice through different types of architectures and training. We provide preliminary numerical results illustrating practical performance of DNNs on parametric PDEs. We consider different parameters, modifying the DNN architecture to achieve better and competitive results, comparing these to current best-in-class schemes.
翻訳日:2021-05-11 02:48:34 公開日:2021-03-05
# FlowMOT:Scene Flow Associationによる3次元多物体追跡

FlowMOT: 3D Multi-Object Tracking by Scene Flow Association ( http://arxiv.org/abs/2012.07541v3 )

ライセンス: Link先を確認
Guangyao Zhai, Xin Kong, Jinhao Cui, Yong Liu, and Zhen Yang(参考訳) ほとんどのエンドツーエンドのマルチオブジェクト追跡(MOT)手法は、低い精度と低い一般化能力の問題に直面している。 従来のフィルタに基づく手法はより良い結果が得られるが、最適なハイパーパラメーターを付与することは困難であり、しばしば様々なシナリオで失敗する。 これらの欠点を軽減するために,従来のマッチングアルゴリズムとポイントワイド動作情報を統合し,動き予測の堅牢性を高めるLiDARベースの3次元MOTフレームワークFlowMOTを提案する。 まず,シーンフロー推定ネットワークを用いて隣り合う2つのフレーム間の暗黙的な動き情報を取得し,先行するフレーム内の各古いトラックレットの予測検出値を算出する。 次に,ハンガリーアルゴリズムを用いてid伝播戦略と最適マッチング関係を生成し,追跡タスクを完了させる。 KITTI MOTデータセットの実験により、我々の手法は最近のエンドツーエンド手法よりも優れており、最先端のフィルタ方式と競合する性能を発揮することが示された。 さらに、フィルタベースのメソッドがフェールする可能性のある様々な速度シナリオでも、着実に機能します。

Most end-to-end Multi-Object Tracking (MOT) methods face the problems of low accuracy and poor generalization ability. Although traditional filter-based methods can achieve better results, they are difficult to be endowed with optimal hyperparameters and often fail in varying scenarios. To alleviate these drawbacks, we propose a LiDAR-based 3D MOT framework named FlowMOT, which integrates point-wise motion information with the traditional matching algorithm, enhancing the robustness of the motion prediction. We firstly utilize a scene flow estimation network to obtain implicit motion information between two adjacent frames and calculate the predicted detection for each old tracklet in the previous frame. Then we use Hungarian algorithm to generate optimal matching relations with the ID propagation strategy to finish the tracking task. Experiments on KITTI MOT dataset show that our approach outperforms recent end-to-end methods and achieves competitive performance with the state-of-the-art filter-based method. In addition, ours can work steadily in the various-speed scenarios where the filter-based methods may fail.
翻訳日:2021-05-08 14:20:01 公開日:2021-03-05
# 歴史から学ぶ:逐次的コピージェネレーションネットワークを用いた時間知識グラフのモデル化

Learning from History: Modeling Temporal Knowledge Graphs with Sequential Copy-Generation Networks ( http://arxiv.org/abs/2012.08492v2 )

ライセンス: Link先を確認
Cunchao Zhu, Muhao Chen, Changjun Fan, Guangquan Cheng, Yan Zhan(参考訳) 大きな知識グラフは、時間軸に沿ったエンティティの動的関係や相互作用をモデル化する時間的事実を保存するために成長する。 このような時相知識グラフは不完全性に苦しむことが多いため、時間認識表現学習モデルの開発が重要である。 時間的事実は典型的に進化しているが、経済危機や外交活動など、多くの事実がタイムラインに沿って繰り返しパターンを示すことが多い。 この観察は、モデルが歴史に現れる既知の事実から多くを学ぶ可能性があることを示している。 そこで本研究では,新しいタイムアウェアコピー生成機構に基づく時間知識グラフ,すなわちCyGNetの表現学習モデルを提案する。 CyGNetは、エンティティの語彙全体から将来の事実を予測するだけでなく、繰り返しで事実を識別し、過去の既知の事実を参照して将来の事実を予測することもできる。 5つのベンチマークデータセットを用いて知識グラフ補完作業における提案手法の評価を行った。 広範囲にわたる実験は、CyGNetが将来の事実の予測とデ・ノボの事実予測に有効であることを実証している。

Large knowledge graphs often grow to store temporal facts that model the dynamic relations or interactions of entities along the timeline. Since such temporal knowledge graphs often suffer from incompleteness, it is important to develop time-aware representation learning models that help to infer the missing temporal facts. While the temporal facts are typically evolving, it is observed that many facts often show a repeated pattern along the timeline, such as economic crises and diplomatic activities. This observation indicates that a model could potentially learn much from the known facts appeared in history. To this end, we propose a new representation learning model for temporal knowledge graphs, namely CyGNet, based on a novel timeaware copy-generation mechanism. CyGNet is not only able to predict future facts from the whole entity vocabulary, but also capable of identifying facts with repetition and accordingly predicting such future facts with reference to the known facts in the past. We evaluate the proposed method on the knowledge graph completion task using five benchmark datasets. Extensive experiments demonstrate the effectiveness of CyGNet for predicting future facts with repetition as well as de novo fact prediction.
翻訳日:2021-05-07 05:41:15 公開日:2021-03-05
# 偏微分方程式に対する深層学習に基づく近似法の概要

An overview on deep learning-based approximation methods for partial differential equations ( http://arxiv.org/abs/2012.12348v2 )

ライセンス: Link先を確認
Christian Beck, Martin Hutzenthaler, Arnulf Jentzen, Benno Kuckuck(参考訳) これは高次元偏微分方程式(PDE)を近似的に解くための応用数学における最も難しい問題の1つである。 近年,この問題に対する深層学習に基づく近似アルゴリズムが提案され,高次元PDEの例で数値的に検証されている。 このことは、深層学習に基づく手法と関連するモンテカルロ法を高次元pdesの近似に適用する活発な研究分野を生み出した。 本稿では,この研究分野の紹介,PDEの深層学習に基づく近似法の主な考え方,PDEの深部ニューラルネットワーク近似における中心的な数学的結果の1つを再考し,最近の研究分野の文献の概要を紹介する。

It is one of the most challenging problems in applied mathematics to approximatively solve high-dimensional partial differential equations (PDEs). Recently, several deep learning-based approximation algorithms for attacking this problem have been proposed and tested numerically on a number of examples of high-dimensional PDEs. This has given rise to a lively field of research in which deep learning-based methods and related Monte Carlo methods are applied to the approximation of high-dimensional PDEs. In this article we offer an introduction to this field of research, we review some of the main ideas of deep learning-based approximation methods for PDEs, we revisit one of the central mathematical results for deep neural network approximations for PDEs, and we provide an overview of the recent literature in this area of research.
翻訳日:2021-04-26 07:14:27 公開日:2021-03-05
# Naive Bayes を識別分類器として使う

Using the Naive Bayes as a discriminative classifier ( http://arxiv.org/abs/2012.13572v3 )

ライセンス: Link先を確認
Elie Azeraf, Emmanuel Monfrini, Wojciech Pieczynski(参考訳) 分類タスクでは、確率的モデルは2つの非結合クラス(生成的または識別的)に分類される。 これは、観測値 $y$, $p(x | y)$ が与えられると、ラベル $x$ の後方確率計算に依存する。 一方、ナイーブ・ベイズ(英語版)や隠れマルコフモデル(英語版)(hmm)のような生成的分類器は、ベイズ則を用いて$p(x | y)$を計算する前に、合同確率 p(x,y) の計算が必要である。 一方、判別分類器は観察の法則に関係なく直接的に$p(x | y)$を計算する。 現在では、ロジスティック回帰、条件ランダムフィールド(CRF)、ニューラルネットワークなどのモデルで、集中的に使用されている。 しかし、最近のentropic forward-backwardアルゴリズムは、生成モデルと見なされるhmmが差別的定義にマッチすることを示している。 この例は、他の生成モデルの場合について疑問を呈する。 本稿では,ナイーブベイズ分類器が識別的分類器の定義と一致することも示し,生成的あるいは識別的手法で使用することができることを示す。 さらに、この観察では、例えば、Naive Bayes や Logistic Regression や HMM や CRF など、生成-識別対の概念についても論じている。 この点に関連して、ロジスティック回帰は、識別的に使用されるナイーブベイの特定のケースと見なすことができることを示した。

For classification tasks, probabilistic models can be categorized into two disjoint classes: generative or discriminative. It depends on the posterior probability computation of the label $x$ given the observation $y$, $p(x | y)$. On the one hand, generative classifiers, like the Naive Bayes or the Hidden Markov Model (HMM), need the computation of the joint probability p(x,y), before using the Bayes rule to compute $p(x | y)$. On the other hand, discriminative classifiers compute $p(x | y)$ directly, regardless of the observations' law. They are intensively used nowadays, with models as Logistic Regression, Conditional Random Fields (CRF), and Artificial Neural Networks. However, the recent Entropic Forward-Backward algorithm shows that the HMM, considered as a generative model, can also match the discriminative one's definition. This example leads to question if it is the case for other generative models. In this paper, we show that the Naive Bayes classifier can also match the discriminative classifier definition, so it can be used in either a generative or a discriminative way. Moreover, this observation also discusses the notion of Generative-Discriminative pairs, linking, for example, Naive Bayes and Logistic Regression, or HMM and CRF. Related to this point, we show that the Logistic Regression can be viewed as a particular case of the Naive Bayes used in a discriminative way.
翻訳日:2021-04-25 04:37:46 公開日:2021-03-05
# (参考訳) プロプライエタリデータの不正使用を防止する - セキュアなデータセットのリリース

Preventing Unauthorized Use of Proprietary Data: Poisoning for Secure Dataset Release ( http://arxiv.org/abs/2103.02683v2 )

ライセンス: CC BY 4.0
Liam Fowl, Ping-yeh Chiang, Micah Goldblum, Jonas Geiping, Arpit Bansal, Wojtek Czaja, Tom Goldstein(参考訳) ソーシャルメディア企業などの大企業は、ユーザイメージなどのデータを継続的にリリースしている。 同時に、これらの組織は、リリース済みデータの膨大なコーパスを活用して、プロプライエタリなモデルをトレーニングし、競合他社に対して優位性を与えている。 この2つの行動は、競合企業が独自のデータを使用して独自のモデルのパフォーマンスを複製することを阻止しようとするため、対立する可能性がある。 本稿では,公開データを最小限に修正して,他者のトレーニングモデルに対処できるデータ中毒法を開発することにより,この問題を解決した。 さらに,本手法は,企業が公開時にリアルタイムでデータを保護し,画像ネットの分類と顔認識におけるアプローチの成功を実証するために,オンライン方式で利用することができる。

Large organizations such as social media companies continually release data, for example user images. At the same time, these organizations leverage their massive corpora of released data to train proprietary models that give them an edge over their competitors. These two behaviors can be in conflict as an organization wants to prevent competitors from using their own data to replicate the performance of their proprietary models. We solve this problem by developing a data poisoning method by which publicly released data can be minimally modified to prevent others from train-ing models on it. Moreover, our method can be used in an online fashion so that companies can protect their data in real time as they release it.We demonstrate the success of our approach onImageNet classification and on facial recognition.
翻訳日:2021-04-06 04:50:36 公開日:2021-03-05
# (参考訳) プロセス変動, デバイス老化, フリッカノイズを考慮した強誘電体finfetを用いたニューロモルフィックコンピューティング

Neuromorphic Computing with Deeply Scaled Ferroelectric FinFET in Presence of Process Variation, Device Aging and Flicker Noise ( http://arxiv.org/abs/2103.13302v1 )

ライセンス: CC BY 4.0
Sourav De, Bo-Han Qiu, Wei-Xuan Bu, Md.Aftab Baig, Chung-Jun Su, Yao-Jen Lee, and Darsen Lu(参考訳) 本稿では,6nm厚の酸化ハフニウム層を有する超小型強誘電体FinFETのニューロモルフィックコンピューティングへの応用について,プロセス変動,フリックノイズ,デバイス老化の存在下での総合的研究を行った。 このような変化が、アナログ、四元数(2ビット/セル)、バイナリシナプスからなる事前学習ニューラルネットワークの推論精度に与える影響について、複雑な研究がなされている。 MNISTデータセット上で97.5%の推測精度を持つ事前学習ニューラルネットワークがベースラインとして採用されている。 プロセス変動,フリックノイズ,デバイスエイジング特性について検討し,ニューラルネットワークシミュレーション中にこれらすべての効果を捉えるための統計モデルを構築した。 バイナリ読み出し処理では、10年以上の余分な保持が達成されている。 我々は,(1)酸化物厚さスケーリングによる保持劣化,(2)プロセス変動,(3)フレッカーノイズの影響を,四元系およびアナログ系ニューラルネットワークよりも優れた性能を示す強誘電性finfetベースの二元系ニューラルネットワークにおいて軽減できることを実証した。 ニューラルネットワークのパフォーマンスは、デバイス、アーキテクチャ、アルゴリズムの合理化されたパフォーマンスの結果である。 この研究は、アーキテクチャとアルゴリズムを適切に組み合わせた非ヴォンニューマン計算における強誘電体FinFETの適用性を裏付けるものである。

This paper reports a comprehensive study on the applicability of ultra-scaled ferroelectric FinFETs with 6 nm thick hafnium zirconium oxide layer for neuromorphic computing in the presence of process variation, flicker noise, and device aging. An intricate study has been conducted about the impact of such variations on the inference accuracy of pre-trained neural networks consisting of analog, quaternary (2-bit/cell) and binary synapse. A pre-trained neural network with 97.5% inference accuracy on the MNIST dataset has been adopted as the baseline. Process variation, flicker noise, and device aging characterization have been performed and a statistical model has been developed to capture all these effects during neural network simulation. Extrapolated retention above 10 years have been achieved for binary read-out procedure. We have demonstrated that the impact of (1) retention degradation due to the oxide thickness scaling, (2) process variation, and (3) flicker noise can be abated in ferroelectric FinFET based binary neural networks, which exhibits superior performance over quaternary and analog neural network, amidst all variations. The performance of a neural network is the result of coalesced performance of device, architecture and algorithm. This research corroborates the applicability of deeply scaled ferroelectric FinFETs for non-von Neumann computing with proper combination of architecture and algorithm.
翻訳日:2021-04-05 06:25:59 公開日:2021-03-05
# (参考訳) Sparse Support Recoveryアルゴリズムの誤り訂正

Error-Correction for Sparse Support Recovery Algorithms ( http://arxiv.org/abs/2103.03801v1 )

ライセンス: CC0 1.0
Mohammad Mehrabi and Aslan Tchamkerten(参考訳) a $m$-sparse $d$-dimensional signal $x$の$s^*$が与えられたアルゴリズムで$n$の線形測定から回収されるような圧縮されたセンシング設定を考えてみましょう。 測定値が、アルゴリズムが完全なサポート回復を保証せず、真の特徴が失われる可能性があると仮定する。 効率よく回収できますか。 本稿では,LiREと呼ばれる単純なエラー訂正モジュールを用いてこの問題に対処する。 LiRE は、真のサポート $s^*$ の見積 $s_{in}$ を入力とし、洗練されたサポートの見積 $s_{out}$ を出力する。 ノイズレス測定設定では、LiRE が $s_{out}$ が $s^*$ を含むサポート全体を回復することを保証した十分な条件が確立される。 これらの条件は、例えば、高次元の規則では、LiRE は直交整合法 (OMP) による誤り数$m$$のサブ線形を補正できることを意味する。 LiREの計算複雑性は$O(mnd)$である。 ランダムガウス設計行列を用いた実験の結果、LiREは圧縮サンプリングマッチングスーツ、Basis Pursuit(BP)、OMPを介して完全なサポート回復に必要な測定値を大幅に削減できることが示された。 興味深いことに、LiREをOMPに追加すると、BPよりも正確ではるかに高速なサポート回復手順が得られる。 この観測はノイズ測定装置で継続される。 最後に、ランダム初期化を伴うスタンドアローンサポート回復アルゴリズムとして、LiREの再構成性能がOMPとBPの間にあることを示す実験を行った。 これらの結果は、LiREを任意の最適ベースライン回復アルゴリズムの上に汎用的に使用して、比較的少ない計算オーバーヘッドで、サポートリカバリを改善したり、より少ない測定値で運用することができることを示唆している。 また、LiREは、OMPに関して競争力のあるスタンドアロンのサポートリカバリアルゴリズムとして使用することができる。

Consider the compressed sensing setup where the support $s^*$ of an $m$-sparse $d$-dimensional signal $x$ is to be recovered from $n$ linear measurements with a given algorithm. Suppose that the measurements are such that the algorithm does not guarantee perfect support recovery and that true features may be missed. Can they efficiently be retrieved? This paper addresses this question through a simple error-correction module referred to as LiRE. LiRE takes as input an estimate $s_{in}$ of the true support $s^*$, and outputs a refined support estimate $s_{out}$. In the noiseless measurement setup, sufficient conditions are established under which LiRE is guaranteed to recover the entire support, that is $s_{out}$ contains $s^*$. These conditions imply, for instance, that in the high-dimensional regime LiRE can correct a sublinear in $m$ number of errors made by Orthogonal Matching Pursuit (OMP). The computational complexity of LiRE is $O(mnd)$. Experimental results with random Gaussian design matrices show that LiRE substantially reduces the number of measurements needed for perfect support recovery via Compressive Sampling Matching Pursuit, Basis Pursuit (BP), and OMP. Interestingly, adding LiRE to OMP yields a support recovery procedure that is more accurate and significantly faster than BP. This observation carries over in the noisy measurement setup. Finally, as a standalone support recovery algorithm with a random initialization, experiments show that LiRE's reconstruction performance lies between OMP and BP. These results suggest that LiRE may be used generically, on top of any suboptimal baseline support recovery algorithm, to improve support recovery or to operate with a smaller number of measurements, at the cost of a relatively small computational overhead. Alternatively, LiRE may be used as a standalone support recovery algorithm that is competitive with respect to OMP.
翻訳日:2021-03-11 08:33:18 公開日:2021-03-05
# 医用画像における深部強化学習 : 文献的考察

Deep reinforcement learning in medical imaging: A literature review ( http://arxiv.org/abs/2103.05115v1 )

ライセンス: Link先を確認
S. Kevin Zhou, Hoang Ngan Le, Khoa Luu, Hien V. Nguyen, Nicholas Ayache(参考訳) 深層強化学習(DRL)は、期待される報酬を最大化する一連のアクションを深層ニューラルネットワークの代表力で学習する強化学習フレームワークを強化する。 最近の研究は、医療と医療におけるDRLの大きな可能性を示している。 本稿では,医療画像におけるDRLの文献的考察について述べる。 まず、最新のモデルフリーおよびモデルベースアルゴリズムを含むDRLの包括的なチュートリアルから始める。 We then cover existing DRL applications for medical imaging, which are roughly divided into three main categories: (I) parametric medical image analysis tasks including landmark detection, object/lesion detection, registration, and view plane localization; (ii) solving optimization tasks including hyperparameter tuning, selecting augmentation strategies, and neural architecture search; and (iii) miscellaneous applications including surgical gesture segmentation, personalized mobile health intervention, and computational model personalization. 論文は、将来の視点の議論で締めくくられる。

Deep reinforcement learning (DRL) augments the reinforcement learning framework, which learns a sequence of actions that maximizes the expected reward, with the representative power of deep neural networks. Recent works have demonstrated the great potential of DRL in medicine and healthcare. This paper presents a literature review of DRL in medical imaging. We start with a comprehensive tutorial of DRL, including the latest model-free and model-based algorithms. We then cover existing DRL applications for medical imaging, which are roughly divided into three main categories: (I) parametric medical image analysis tasks including landmark detection, object/lesion detection, registration, and view plane localization; (ii) solving optimization tasks including hyperparameter tuning, selecting augmentation strategies, and neural architecture search; and (iii) miscellaneous applications including surgical gesture segmentation, personalized mobile health intervention, and computational model personalization. The paper concludes with discussions of future perspectives.
翻訳日:2021-03-10 15:03:53 公開日:2021-03-05
# (参考訳) 条件付き変分オートエンコーダを用いた動的環境における確率軌道のマルチモーダル予測

Multi-modal anticipation of stochastic trajectories in a dynamic environment with Conditional Variational Autoencoders ( http://arxiv.org/abs/2103.03912v1 )

ライセンス: CC BY 4.0
Albert Dulian, John C. Murray(参考訳) 近くの車両の短期的な動きを予測することは本質的に困難な問題であり、将来の動きの可能性は単一の軌道の集合に限定されていない。 最近提案された手法は、主に固定数の決定論的予測を予測すること、あるいは以前に生成された様々な軌道を分類することに集中している。 動的モデル。 本論文では,生成モデルの確率的性質を利用して,追跡された車両に関する多様な経路を生成することにより,議論されたタスクに関連する不確実性に対処することに焦点を当てる。 具体的には,C-VAE(Conditional Variational Autoencoder)とCapsule Network(CapsNet)でエンコードされたラスタライズされたシーンコンテキストを用いて,この問題の多モード性を考慮することを提案する。 さらに,N(MoN)コスト関数を用いて,N(MoN)コスト関数を用いて,真理とN(N)生成サンプルの距離を計測し,最も近いサンプルに対する損失を最小化し,より多様な予測を導出する利点を示す。 我々は,最近の最先端手法に対する公開データセット上での我々のネットワークを検証し,学習可能なパラメータの数を大幅に削減しつつ,任意の量の多種多様なトラジェクタをサンプリングできる手法が,多くのシナリオでこれらの手法を上回っていることを示す。

Forecasting short-term motion of nearby vehicles presents an inherently challenging issue as the space of their possible future movements is not strictly limited to a set of single trajectories. Recently proposed techniques that demonstrate plausible results concentrate primarily on forecasting a fixed number of deterministic predictions, or on classifying over a wide variety of trajectories that were previously generated using e.g. dynamic model. This paper focuses on addressing the uncertainty associated with the discussed task by utilising the stochastic nature of generative models in order to produce a diverse set of plausible paths with regards to tracked vehicles. More specifically, we propose to account for the multi-modality of the problem with use of Conditional Variational Autoencoder (C-VAE) conditioned on an agent's past motion as well as a rasterised scene context encoded with Capsule Network (CapsNet). In addition, we demonstrate advantages of employing the Minimum over N (MoN) cost function which measures the distance between ground truth and N generated samples and tries to minimise the loss with respect to the closest sample, effectively leading to more diverse predictions. We examine our network on a publicly available dataset against recent state-of-the-art methods and show that our approach outperforms these techniques in numerous scenarios whilst significantly reducing the number of trainable parameters as well as allowing to sample an arbitrary amount of diverse trajectories.
翻訳日:2021-03-10 13:51:14 公開日:2021-03-05
# (参考訳) パキスタンにおける深層学習による小麦の地域ワイズ価格予測

District Wise Price Forecasting of Wheat in Pakistan using Deep Learning ( http://arxiv.org/abs/2103.04781v1 )

ライセンス: CC BY 4.0
Ahmed Rasheed, Muhammad Shahzad Younis, Farooq Ahmad, Junaid Qadir, and Muhammad Kashif(参考訳) 小麦はパキスタンの主要な農業作物であり、ほぼすべてのパキスタン世帯の主食要件であり、その可用性と手頃な価格が政府の主な優先事項である国の主要な戦略商品です。 小麦の食料供給は、生産、消費、金融危機、インフレ、揮発性市場などを含む複数の要因によって大きく影響を受ける可能性がある。 政府は特定の政策と監視措置によって食料の安全を確保し、貧困層に平等を保ち続ける。 このような配置は、ある現在の要因に基づいて将来の収率を推定するために動的解析を行うことでより効果的になる。 商品価格の今後の計画は、現在の状況で期待される将来の価格を予測することで達成できる。 本稿では,近年の小麦価格の価格,天気,生産,消費の傾向を,先進的なニューラルネットワークアーキテクチャであるLong Short Term Memory(LSTM)ネットワークの助けを借りて分析する,小麦価格予測手法を提案する。 提案手法は,従来の機械学習や統計時系列分析法と比較して有意に改善した。

Wheat is the main agricultural crop of Pakistan and is a staple food requirement of almost every Pakistani household making it the main strategic commodity of the country whose availability and affordability is the government's main priority. Wheat food availability can be vastly affected by multiple factors included but not limited to the production, consumption, financial crisis, inflation, or volatile market. The government ensures food security by particular policy and monitory arrangements, which keeps up purchase parity for the poor. Such arrangements can be made more effective if a dynamic analysis is carried out to estimate the future yield based on certain current factors. Future planning of commodity pricing is achievable by forecasting their future price anticipated by the current circumstances. This paper presents a wheat price forecasting methodology, which uses the price, weather, production, and consumption trends for wheat prices taken over the past few years and analyzes them with the help of advance neural networks architecture Long Short Term Memory (LSTM) networks. The proposed methodology presented significantly improved results versus other conventional machine learning and statistical time series analysis methods.
翻訳日:2021-03-10 12:37:27 公開日:2021-03-05
# (参考訳) scrib: blackboxモデルのためのクラス固有のリスク境界を持つセット分類子

SCRIB: Set-classifier with Class-specific Risk Bounds for Blackbox Models ( http://arxiv.org/abs/2103.03945v1 )

ライセンス: CC BY 4.0
Zhen Lin, Cao Xiao, Lucas Glass, M. Brandon Westover, Jimeng Sun(参考訳) 分類問題における深層学習(DL)の成功にもかかわらず、DL分類器はいつ予測を控えるかを決定するための健全なメカニズムを提供していない。 最近の研究では、拒絶オプションによる分類による全体的な予測リスクの制御を試みた。 しかし、既存の作品は異なるクラスの異なる重要性を見落としている。 クラス固有のRIsk境界(SCRIB)を持つSet-classifierを導入し、各例に複数のラベルを割り当てる。 検証セット上のブラックボックスモデルの出力を考えると、SCRIBは理論的な保証でクラス固有の予測リスクを制御するセット分類器を構築する。 キーとなる考え方は、集合分類器が複数のラベルを返すときに拒否することである。 脳波(EEG)データによる睡眠ステージング,X線COVID画像分類,心電図(ECG)データに基づく心房細動検出など,いくつかの医学的応用についてSCRIBを検証した。 SCRIB は, 基準法よりも目標リスクに35 %-88 % 近く, 望ましいクラス固有リスクを得た。

Despite deep learning (DL) success in classification problems, DL classifiers do not provide a sound mechanism to decide when to refrain from predicting. Recent works tried to control the overall prediction risk with classification with rejection options. However, existing works overlook the different significance of different classes. We introduce Set-classifier with Class-specific RIsk Bounds (SCRIB) to tackle this problem, assigning multiple labels to each example. Given the output of a black-box model on the validation set, SCRIB constructs a set-classifier that controls the class-specific prediction risks with a theoretical guarantee. The key idea is to reject when the set classifier returns more than one label. We validated SCRIB on several medical applications, including sleep staging on electroencephalogram (EEG) data, X-ray COVID image classification, and atrial fibrillation detection based on electrocardiogram (ECG) data. SCRIB obtained desirable class-specific risks, which are 35\%-88\% closer to the target risks than baseline methods.
翻訳日:2021-03-10 12:20:15 公開日:2021-03-05
# (参考訳) ロボット知覚と対話における感情刺激の明瞭化

Disambiguating Affective Stimulus Associations for Robot Perception and Dialogue ( http://arxiv.org/abs/2103.03940v1 )

ライセンス: CC BY 4.0
Henrique Siqueira, Alexander Sutherland, Pablo Barros, Mattias Kerzel, Sven Magg, Stefan Wermter(参考訳) 感情を効果的に認識し、相互作用に適用することは、社会ロボットにとって非常に望ましい特徴である。 被験者が世界のさまざまな種類の行動や物体を体験する方法を暗黙的に理解することは、自然なHRI相互作用にとって不可欠であり、ポジティブな行動を実行し、ネガティブな行動を回避できる可能性がある。 本稿では、NICOロボットの外観と能力を利用して、NICOロボットに知覚された聴覚刺激と時間的に非同期な感情表現のコヒーレントな感情関係をモデル化する能力を与える。 これは視覚と言語からの感情的価値の評価を組み合わせることによって行われる。 NICOは、この情報を使用して、協会の表現が一貫性がない場合には、より感情的な情報を生み出すために会話を延長する時期を決定します。 我々の主な貢献は、知覚された聴覚刺激と感情表現の感情的関連を学習できるNICOロボットを提供することである。 NICOは、感情的な表情の不整合を是正する感情駆動対話システムによって、個人と特定の刺激の両方でこれを実現できる。 ロボットは、実際のHRIシナリオにおいて、被験者の聴覚刺激の楽しさを判断するために、この情報を利用することができる。

Effectively recognising and applying emotions to interactions is a highly desirable trait for social robots. Implicitly understanding how subjects experience different kinds of actions and objects in the world is crucial for natural HRI interactions, with the possibility to perform positive actions and avoid negative actions. In this paper, we utilize the NICO robot's appearance and capabilities to give the NICO the ability to model a coherent affective association between a perceived auditory stimulus and a temporally asynchronous emotion expression. This is done by combining evaluations of emotional valence from vision and language. NICO uses this information to make decisions about when to extend conversations in order to accrue more affective information if the representation of the association is not coherent. Our primary contribution is providing a NICO robot with the ability to learn the affective associations between a perceived auditory stimulus and an emotional expression. NICO is able to do this for both individual subjects and specific stimuli, with the aid of an emotion-driven dialogue system that rectifies emotional expression incoherences. The robot is then able to use this information to determine a subject's enjoyment of perceived auditory stimuli in a real HRI scenario.
翻訳日:2021-03-10 10:06:35 公開日:2021-03-05
# (参考訳) ODIN: 位相変化RAMにおけるその場ニューラルネットワーク処理のためのビットパラレル確率的算術ベース加速器

ODIN: A Bit-Parallel Stochastic Arithmetic Based Accelerator for In-Situ Neural Network Processing in Phase Change RAM ( http://arxiv.org/abs/2103.03953v1 )

ライセンス: CC0 1.0
Supreeth Mysore Shivanandamurthy, Ishan. G. Thakkar, Sayed Ahmad Salehi(参考訳) ANN(Artificial Neural Networks)が機械学習やAI(Artificial Intelligence)に関連する現実世界のアプリケーションで急速に普及しているため、ANNのハードウェアアクセラレーター設計が最近提案されている。 本論文では,マルチプライ累積(MAC),非線形アクティベーション,プーリングといった重要なANN関数を低オーバーヘッドで加速するために,ハイブリッドバイナリ確率ビット並列演算インサイド位相変化RAM (PCRAM) を採用した ODIN と呼ばれる新しい処理インメモリ (PIM) エンジンを提案する。 4つのANNベンチマークアプリケーションをODIN上にマップし、従来のプロセッサ中心の設計とクロスバーベースのANNアクセラレータと比較した。 検討されたANNトポロジの分析の結果は、ODIN加速器が少なくとも5.8倍速く、23.2倍エネルギー効率が高く、最大90.8倍速く、1554倍エネルギー効率が高いことを示しています。

Due to the very rapidly growing use of Artificial Neural Networks (ANNs) in real-world applications related to machine learning and Artificial Intelligence (AI), several hardware accelerator de-signs for ANNs have been proposed recently. In this paper, we present a novel processing-in-memory (PIM) engine called ODIN that employs hybrid binary-stochastic bit-parallel arithmetic in-side phase change RAM (PCRAM) to enable a low-overhead in-situ acceleration of all essential ANN functions such as multiply-accumulate (MAC), nonlinear activation, and pooling. We mapped four ANN benchmark applications on ODIN to compare its performance with a conventional processor-centric design and a crossbar-based in-situ ANN accelerator from prior work. The results of our analysis for the considered ANN topologies indicate that our ODIN accelerator can be at least 5.8x faster and 23.2x more energy-efficient, and up to 90.8x faster and 1554x more energy-efficient, compared to the crossbar-based in-situ ANN accelerator from prior work.
翻訳日:2021-03-10 07:48:52 公開日:2021-03-05
# (参考訳) 畳み込みネットワークに基づく表情の連続学習のための共有表現を用いたアンサンブル

An Ensemble with Shared Representations Based on Convolutional Networks for Continually Learning Facial Expressions ( http://arxiv.org/abs/2103.03934v1 )

ライセンス: CC BY 4.0
Henrique Siqueira, Pablo Barros, Sven Magg and Stefan Wermter(参考訳) 表情を継続的に学習できるソーシャルロボットは、対話する人々に対する感情認識能力を徐々に改善することができる。 アンサンブル予測による半教師付き学習は、人間とロボットの相互作用中に不規則な表情の高い露出を利用するための効率的な戦略です。 しかし、従来のアンサンブルベースのシステムは、高い冗長性、不必要な計算資源の割り当てにつながる複数の独立した分類器で構成されている。 本稿では,初期層が強い低レベル特徴抽出器である畳み込みネットワークに基づくアンサンブルを提案し,それらの表現を畳み込み枝の組合わせで共有する。 その結果、低レベルの特徴処理の冗長性が著しく低下する。 半教師付き環境下でのトレーニングでは,異なるデータ分布の未学習サンプルを用いて,アンサンブル予測によって表情を継続的に学習できることを示す。

Social robots able to continually learn facial expressions could progressively improve their emotion recognition capability towards people interacting with them. Semi-supervised learning through ensemble predictions is an efficient strategy to leverage the high exposure of unlabelled facial expressions during human-robot interactions. Traditional ensemble-based systems, however, are composed of several independent classifiers leading to a high degree of redundancy, and unnecessary allocation of computational resources. In this paper, we proposed an ensemble based on convolutional networks where the early layers are strong low-level feature extractors, and their representations shared with an ensemble of convolutional branches. This results in a significant drop in redundancy of low-level features processing. Training in a semi-supervised setting, we show that our approach is able to continually learn facial expressions through ensemble predictions using unlabelled samples from different data distributions.
翻訳日:2021-03-10 04:13:53 公開日:2021-03-05
# (参考訳) 自己相似性と平滑性を用いたCT投影の補間

Interpolation of CT Projections by Exploiting Their Self-Similarity and Smoothness ( http://arxiv.org/abs/2103.03968v1 )

ライセンス: CC BY 4.0
Davood Karimi and Rabab K. Ward(参考訳) CT(Computerd Tomography)の医学的使用が増加するにつれて、放射線線量は健康リスクを減らすために低レベルにとどまるべきである。 そのため,低線量スキャンから高品質な画像を再構成するアルゴリズムの必要性が高まっている。 この点において、最近の研究の多くは反復的再構成アルゴリズムに焦点を合わせており、予測値の復元にはほとんど注意が払われていない。 本稿では,新しいシングラム補間アルゴリズムを提案する。 提案アルゴリズムは, シングラムの自己相似性と滑らか性を利用する。 Sinogram self-similarity is modeled by terms of the similarity of small block extract from stacked projections。 滑らかさは第2次総変動によってモデル化される。 シミュレーションおよび実ctデータを用いた実験により,提案アルゴリズムとのシンノグラム補間により,特に低線量スキャンにおいて,再構成画像の品質が大幅に向上することが示された。 提案手法は、投影測定の回数を大幅に削減することができる。 これにより、リモートサイトで再構築を行う場合、放射線線量と保存または送信する必要があるデータの量も削減されます。

As the medical usage of computed tomography (CT) continues to grow, the radiation dose should remain at a low level to reduce the health risks. Therefore, there is an increasing need for algorithms that can reconstruct high-quality images from low-dose scans. In this regard, most of the recent studies have focused on iterative reconstruction algorithms, and little attention has been paid to restoration of the projection measurements, i.e., the sinogram. In this paper, we propose a novel sinogram interpolation algorithm. The proposed algorithm exploits the self-similarity and smoothness of the sinogram. Sinogram self-similarity is modeled in terms of the similarity of small blocks extracted from stacked projections. The smoothness is modeled via second-order total variation. Experiments with simulated and real CT data show that sinogram interpolation with the proposed algorithm leads to a substantial improvement in the quality of the reconstructed image, especially on low-dose scans. The proposed method can result in a significant reduction in the number of projection measurements. This will reduce the radiation dose and also the amount of data that need to be stored or transmitted, if the reconstruction is to be performed in a remote site.
翻訳日:2021-03-10 04:02:38 公開日:2021-03-05
# (参考訳) 深さ推定と3次元物体検出のためのスパースLiDARとステレオ融合(SLS-Fusion)

Sparse LiDAR and Stereo Fusion (SLS-Fusion) for Depth Estimationand 3D Object Detection ( http://arxiv.org/abs/2103.03977v1 )

ライセンス: CC BY 4.0
Nguyen Anh Minh Mai, Pierre Duthon, Louahdi Khoudour, Alain Crouzil, Sergio A. Velastin(参考訳) オブジェクトを正確に検出し、ローカライズする能力は、自動運転車の認識にとって最も重要であると認識されています。 2Dから3Dの物体検出まで、最も難しいのは、自我から物体までの距離を決定することです。 LiDARのような高価な技術は正確な深度情報を提供するので、ほとんどの研究はLiDARベースの方法とカメラベースの方法の間にパフォーマンスのギャップを示すこのセンサーに焦点を当てる傾向にある。 多くの研究者が、RGBカメラでLiDARを融合する方法を研究しているが、3Dオブジェクト検出タスクのためのディープニューラルネットワークにLiDARとステレオを融合させる研究はない。 SLS-Fusionは、4ビームLiDARとステレオカメラからのデータをニューラルネットワークで融合して深度推定を行い、より高密度な深度マップを実現し、3次元物体検出性能を向上させる。 4ビームのLiDARは64ビームのLiDARよりも安価であるため、この手法は低コストのセンサベース手法に分類される。 提案手法は, KITTI ベンチマークによる評価により, ベースライン法と比較して, 深度推定性能を著しく向上することを示した。 また、これを3次元物体検出に適用する場合、低コストのセンサベース手法による新しい技術の現状が達成される。

The ability to accurately detect and localize objects is recognized as being the most important for the perception of self-driving cars. From 2D to 3D object detection, the most difficult is to determine the distance from the ego-vehicle to objects. Expensive technology like LiDAR can provide a precise and accurate depth information, so most studies have tended to focus on this sensor showing a performance gap between LiDAR-based methods and camera-based methods. Although many authors have investigated how to fuse LiDAR with RGB cameras, as far as we know there are no studies to fuse LiDAR and stereo in a deep neural network for the 3D object detection task. This paper presents SLS-Fusion, a new approach to fuse data from 4-beam LiDAR and a stereo camera via a neural network for depth estimation to achieve better dense depth maps and thereby improves 3D object detection performance. Since 4-beam LiDAR is cheaper than the well-known 64-beam LiDAR, this approach is also classified as a low-cost sensors-based method. Through evaluation on the KITTI benchmark, it is shown that the proposed method significantly improves depth estimation performance compared to a baseline method. Also, when applying it to 3D object detection, a new state of the art on low-cost sensor based method is achieved.
翻訳日:2021-03-10 03:53:32 公開日:2021-03-05
# (参考訳) Pufferfish: 余計なコストでコミュニケーション効率の高いモデル

Pufferfish: Communication-efficient Models At No Extra Cost ( http://arxiv.org/abs/2103.03936v1 )

ライセンス: CC BY 4.0
Hongyi Wang, Saurabh Agarwal, Dimitris Papailiopoulos(参考訳) 分散モデルトレーニングにおける通信オーバーヘッドを軽減するために、いくつかの研究は圧縮確率勾配の使用を提案している。 このような手法は高い圧縮比を達成するが、多くの場合、かなりの計算オーバーヘッドまたはある程度の精度の損失を生じる。 本稿では,低ランクで事前構成された深層ネットワークをトレーニングすることで,勾配圧縮をモデルトレーニングプロセスに組み込む通信・計算効率のよい分散トレーニングフレームワークであるPufferfishを提案する。 Pufferfishは通信を減らすだけでなく、圧縮に関連する計算オーバーヘッドを完全に回避し、最先端の既成の深層モデルと同じ精度を達成する。 Pufferfishは、最小限の実装変更で現在のディープラーニングフレームワークに直接統合することができる。 さまざまな大規模な機械学習タスクにわたって、実際の分散セットアップに関する広範な実験により、PyTorchの最新の分散トレーニングAPIに対して、Pufferfishが最大1.64倍のエンドツーエンドのスピードアップを達成できることが示されています。 Lottery Ticket仮説モデルと比較すると、Pufferfishは「宝くじに勝つ」という負担を回避しつつ、同じくらい正確で小さなパラメータモデルを生み出す。 Pufferfishはまた、SOTA構造化モデルプルーニング法よりも正確で小さなモデルを生み出す。

To mitigate communication overheads in distributed model training, several studies propose the use of compressed stochastic gradients, usually achieved by sparsification or quantization. Such techniques achieve high compression ratios, but in many cases incur either significant computational overheads or some accuracy loss. In this work, we present Pufferfish, a communication and computation efficient distributed training framework that incorporates the gradient compression into the model training process via training low-rank, pre-factorized deep networks. Pufferfish not only reduces communication, but also completely bypasses any computation overheads related to compression, and achieves the same accuracy as state-of-the-art, off-the-shelf deep models. Pufferfish can be directly integrated into current deep learning frameworks with minimum implementation modification. Our extensive experiments over real distributed setups, across a variety of large-scale machine learning tasks, indicate that Pufferfish achieves up to 1.64x end-to-end speedup over the latest distributed training API in PyTorch without accuracy loss. Compared to the Lottery Ticket Hypothesis models, Pufferfish leads to equally accurate, small-parameter models while avoiding the burden of "winning the lottery". Pufferfish also leads to more accurate and smaller models than SOTA structured model pruning methods.
翻訳日:2021-03-09 21:26:20 公開日:2021-03-05
# AI安全のためのエージェント行動の因果分析

Causal Analysis of Agent Behavior for AI Safety ( http://arxiv.org/abs/2103.03938v1 )

ライセンス: Link先を確認
Gr\'egoire D\'eletang, Jordi Grau-Moya, Miljan Martic, Tim Genewein, Tom McGrath, Vladimir Mikulik, Markus Kunesch, Shane Legg, Pedro A. Ortega(参考訳) 機械学習システムがより強力になると、予測不能で不透明になる。 しかし、人間の理解可能な説明を見つけることは、彼らの安全なデプロイメントに不可欠である。 本報告では,人工エージェントの行動を促す因果メカニズムを調査する方法論について述べる。 6つのユースケースをカバーし、アナリストがエージェントについて尋ねる典型的な質問にそれぞれ対処します。 特に、各質問は純粋な観察だけでは対処できないが、適切な因果証拠を生成するために、体系的に選択された操作による実験を行う必要がある。

As machine learning systems become more powerful they also become increasingly unpredictable and opaque. Yet, finding human-understandable explanations of how they work is essential for their safe deployment. This technical report illustrates a methodology for investigating the causal mechanisms that drive the behaviour of artificial agents. Six use cases are covered, each addressing a typical question an analyst might ask about an agent. In particular, we show that each question cannot be addressed by pure observation alone, but instead requires conducting experiments with systematically chosen manipulations so as to generate the correct causal evidence.
翻訳日:2021-03-09 16:01:02 公開日:2021-03-05
# ニューロモルフィックプラットフォームにおける強化学習のためのデュアルメモリアーキテクチャ

A Dual-Memory Architecture for Reinforcement Learning on Neuromorphic Platforms ( http://arxiv.org/abs/2103.04780v1 )

ライセンス: Link先を確認
Wilkie Olin-Ammentorp, Yury Sokolov, Maxim Bazhenov(参考訳) 強化学習(RL)は、生物システムにおける学習の基礎であり、現実世界の人工知能アプリケーションで多くの課題に対処するためのフレームワークを提供します。 RL手法の効率的な実装により、エッジユースケースにデプロイされたエージェントは、ナビゲーションの改善、複雑な状況の理解、意思決定などの新しい能力を得ることができる。 この目標に向けて,ニューロモルフィックプラットフォーム上で強化学習を行うための柔軟なアーキテクチャについて述べる。 このアーキテクチャはIntelのニューロモーフィックプロセッサを用いて実装され、スパイキングダイナミクスを用いて様々なタスクを解くことを実証した。 本研究は,実世界のRL応用のためのエネルギー効率の良い解法を提案し,RL問題に対するニューロモルフィックプラットフォームの適用性を実証する。

Reinforcement learning (RL) is a foundation of learning in biological systems and provides a framework to address numerous challenges with real-world artificial intelligence applications. Efficient implementations of RL techniques could allow for agents deployed in edge-use cases to gain novel abilities, such as improved navigation, understanding complex situations and critical decision making. Towards this goal, we describe a flexible architecture to carry out reinforcement learning on neuromorphic platforms. This architecture was implemented using an Intel neuromorphic processor and demonstrated solving a variety of tasks using spiking dynamics. Our study proposes a usable energy efficient solution for real-world RL applications and demonstrates applicability of the neuromorphic platforms for RL problems.
翻訳日:2021-03-09 15:59:15 公開日:2021-03-05
# LOHO:直交によるヘアスタイルの遅延最適化

LOHO: Latent Optimization of Hairstyles via Orthogonalization ( http://arxiv.org/abs/2103.03891v1 )

ライセンス: Link先を確認
Rohit Saha and Brendan Duke and Florian Shkurti and Graham W. Taylor and Parham Aarabi(参考訳) 毛髪形態の移動は源およびターゲット毛の毛の構造の相違による挑戦的です。 そこで本研究では, 髪型移動時において, ヘア構造の詳細を埋め込むため, GANインバージョンを用いた最適化手法である, オルソゴン化によるヘアスタイルの潜在最適化(LOHO)を提案する。 提案手法は毛髪を知覚的構造,外観,スタイルの3つの属性に分解し,それぞれの属性を個別にモデル化するための調整された損失を含む。 さらに,2段階最適化とグラデーション直交化を提案し,毛髪特性の分散ラタン空間最適化を可能にした。 潜時空間操作にLOHOを用いると、ユーザーは毛髪属性を個別または共同で操作し、所望の属性を基準髪型から転送することで、新しい写実画像を生成することができる。 LOHOはヘアスタイル転送のための現在の最先端技術(SOTA)と比較して優れたFIDを達成する。 さらに、LOHOは、SOTA画像埋め込みパイプラインと比較して、PSNRとSSIMに応じて、被験者のアイデンティティを良好に保持する。

Hairstyle transfer is challenging due to hair structure differences in the source and target hair. Therefore, we propose Latent Optimization of Hairstyles via Orthogonalization (LOHO), an optimization-based approach using GAN inversion to infill missing hair structure details in latent space during hairstyle transfer. Our approach decomposes hair into three attributes: perceptual structure, appearance, and style, and includes tailored losses to model each of these attributes independently. Furthermore, we propose two-stage optimization and gradient orthogonalization to enable disentangled latent space optimization of our hair attributes. Using LOHO for latent space manipulation, users can synthesize novel photorealistic images by manipulating hair attributes either individually or jointly, transferring the desired attributes from reference hairstyles. LOHO achieves a superior FID compared with the current state-of-the-art (SOTA) for hairstyle transfer. Additionally, LOHO preserves the subject's identity comparably well according to PSNR and SSIM when compared to SOTA image embedding pipelines.
翻訳日:2021-03-09 15:55:41 公開日:2021-03-05
# labelCloud: ポイントクラウド内の3Dオブジェクト検出のための軽量なドメイン非依存ラベルツール

labelCloud: A Lightweight Domain-Independent Labeling Tool for 3D Object Detection in Point Clouds ( http://arxiv.org/abs/2103.04970v1 )

ライセンス: Link先を確認
Christoph Sager, Patrick Zschech, Niklas K\"uhl(参考訳) 過去10年の間に、一般的な人工知能(AI)と特定の機械学習(ML)に基づくアプリケーションの台頭は、さまざまな領域で多くの重要な貢献をもたらしました。 応用範囲はロボット工学から医療診断から自動運転まで多岐にわたる。 しかし、ほとんどすべてのアプリケーションは訓練されたデータに依存します。 このデータが3D画像で構成されている場合、ラベル付けが可能な限り正確であり、MLモデルの高品質の結果を保証することが非常に重要です。 3D空間でのラベル付けは、主に専門家が行う手作業であり、MLモデルが後で自動的に識別すべきターゲットオブジェクトの周りに3Dバウンディングボックスを描画します。 最近の3Dラベリングツールの小さな範囲は存在するが、これらはすべて3つの大きな欠点を共有している。(i) 自動運転アプリケーションに指定されている、(ii) 利便性と快適性が欠けている、(iii) データフォーマットの依存関係が高く、柔軟性が少ない。 そこで本研究では,点群における3次元物体検出のための新しいラベリングツールを提案する。

Within the past decade, the rise of applications based on artificial intelligence (AI) in general and machine learning (ML) in specific has led to many significant contributions within different domains. The applications range from robotics over medical diagnoses up to autonomous driving. However, nearly all applications rely on trained data. In case this data consists of 3D images, it is of utmost importance that the labeling is as accurate as possible to ensure high-quality outcomes of the ML models. Labeling in the 3D space is mostly manual work performed by expert workers, where they draw 3D bounding boxes around target objects the ML model should later automatically identify, e.g., pedestrians for autonomous driving or cancer cells within radiography. While a small range of recent 3D labeling tools exist, they all share three major shortcomings: (i) they are specified for autonomous driving applications, (ii) they lack convenience and comfort functions, and (iii) they have high dependencies and little flexibility in data format. Therefore, we propose a novel labeling tool for 3D object detection in point clouds to address these shortcomings.
翻訳日:2021-03-09 15:54:02 公開日:2021-03-05
# FedV: 垂直分割データに対するプライバシー保護フェデレーション学習

FedV: Privacy-Preserving Federated Learning over Vertically Partitioned Data ( http://arxiv.org/abs/2103.03918v1 )

ライセンス: Link先を確認
Runhua Xu, Nathalie Baracaldo, Yi Zhou, Ali Anwar, James Joshi, Heiko Ludwig(参考訳) フェデレーションラーニング(Federated Learning, FFL)は、複数のパーティ間で機械学習(ML)モデルの協調トレーニングを可能にするために提案されている。 このパラダイムでは、モデルウェイトや勾配のようなモデル更新のみが共有されます。 既存のアプローチの多くは水平flに注目しており、各パーティがトレーニングデータセット内の機能セットとラベルをすべて持っている。 しかし、多くの実際のシナリオは、垂直分割されたFLセットアップに従います。完全な機能セットは、パーティーのすべてのデータセットが結合された場合にのみ形成され、ラベルは単一のパーティーでのみ利用できます。 ラベルと機能の完全なセットが1つのエンティティによって所有されていないため、プライバシー保護垂直FLは困難です。 既存の垂直FLのアプローチでは、パーティ間で複数のピアツーピア通信が必要であり、長いトレーニング時間をもたらし、(近似された)線形モデルと2つのパーティに制限される。 このギャップを埋めるために、線形モデルやロジスティック回帰、サポートベクターマシンなど、広く使われているMLモデルの垂直設定における安全な勾配計算のためのフレームワークであるFedVを提案する。 FedVは、機能的な暗号化スキームを使用することで、当事者間のピアツーピア通信の必要性を排除します。 また、より大きく変化したパーティーでも機能する。 本研究では,複数種類のmlモデルに適用可能なことを示すとともに,トレーニング時間の10%~70%,データ転送の80%から90%の削減効果を示す。

Federated learning (FL) has been proposed to allow collaborative training of machine learning (ML) models among multiple parties where each party can keep its data private. In this paradigm, only model updates, such as model weights or gradients, are shared. Many existing approaches have focused on horizontal FL, where each party has the entire feature set and labels in the training data set. However, many real scenarios follow a vertically-partitioned FL setup, where a complete feature set is formed only when all the datasets from the parties are combined, and the labels are only available to a single party. Privacy-preserving vertical FL is challenging because complete sets of labels and features are not owned by one entity. Existing approaches for vertical FL require multiple peer-to-peer communications among parties, leading to lengthy training times, and are restricted to (approximated) linear models and just two parties. To close this gap, we propose FedV, a framework for secure gradient computation in vertical settings for several widely used ML models such as linear models, logistic regression, and support vector machines. FedV removes the need for peer-to-peer communication among parties by using functional encryption schemes; this allows FedV to achieve faster training times. It also works for larger and changing sets of parties. We empirically demonstrate the applicability for multiple types of ML models and show a reduction of 10%-70% of training time and 80% to 90% in data transfer with respect to the state-of-the-art approaches.
翻訳日:2021-03-09 15:52:46 公開日:2021-03-05
# GEDI LIDAR波形とベイズ深層学習による世界キャノピー高さ推定

Global canopy height estimation with GEDI LIDAR waveforms and Bayesian deep learning ( http://arxiv.org/abs/2103.03975v1 )

ライセンス: Link先を確認
Nico Lang, Nikolai Kalischek, John Armston, Konrad Schindler, Ralph Dubayah, Jan Dirk Wegner(参考訳) NASAのGlobal Ecosystem Dynamics Investigation(GEDI)は、地球規模の炭素循環における森林の役割の理解を深めることを目的としている重要な気候ミッションである。 GEDIは、地上のバイオマスを推定する垂直森林構造を測定するために明示的に最適化された最初の宇宙ベースのLIDARであるが、この膨大な波形データの幅広い観測および環境条件の正確な解釈は困難である。 本稿では,gedi波形とレグレッシブキャノピー頂高さをグローバルに解釈するための教師あり機械学習手法を提案する。 本研究では,大気雑音などの未知効果の明確なモデル化を避けるために,ベイズ畳み込みニューラルネットワーク(CNN)を提案する。 このモデルは、目に見えない地理的領域に一般化するロバストな特徴を抽出し、さらに予測の不確実性の信頼性を推定する。 最終的に、私たちのモデルによって生成されたグローバルキャノピートップ高さ推定は、低バイアスで2.7 mの予想RMSEを持っています。

NASA's Global Ecosystem Dynamics Investigation (GEDI) is a key climate mission whose goal is to advance our understanding of the role of forests in the global carbon cycle. While GEDI is the first space-based LIDAR explicitly optimized to measure vertical forest structure predictive of aboveground biomass, the accurate interpretation of this vast amount of waveform data across the broad range of observational and environmental conditions is challenging. Here, we present a novel supervised machine learning approach to interpret GEDI waveforms and regress canopy top height globally. We propose a Bayesian convolutional neural network (CNN) to avoid the explicit modelling of unknown effects, such as atmospheric noise. The model learns to extract robust features that generalize to unseen geographical regions and, in addition, yields reliable estimates of predictive uncertainty. Ultimately, the global canopy top height estimates produced by our model have an expected RMSE of 2.7 m with low bias.
翻訳日:2021-03-09 15:49:30 公開日:2021-03-05
# ES-Net: 効率的なステレオマッチングネットワーク

ES-Net: An Efficient Stereo Matching Network ( http://arxiv.org/abs/2103.03922v1 )

ライセンス: Link先を確認
Zhengyu Huang, Theodore B. Norris, Panqu Wang(参考訳) ディープニューラルネットワークとのディセンスステレオマッチングは、研究コミュニティにとって非常に興味深いものです。 既存のステレオマッチングネットワークは通常、低速で計算的に高価な3D畳み込みを使用してパフォーマンスを向上させます。 本稿では,高性能かつ効率的な推定を実現する効率的なステレオネットワーク(esnet)を提案する。 ESNetは2次元畳み込みのみを頼りに、ワーピング方式で効率的にマルチスケールコストボリュームを算出し、細部の細かい領域での性能を向上させます。 さらに、ESNetの変種であるESNet-Mを監督なしで閉塞マスクを推定する提案を行い、閉塞領域の一致曖昧性問題に対処します。 データセットスケジューリングと教師なし事前トレーニングを含む新しいトレーニングスキームを提案し、ネットワークパフォーマンスをさらに向上させます。 提案手法は,他の低コスト高密度ステレオ深度推定法と比較して,Scene Flow [1], DrivingStereo [2], KITTI-2015 データセットの最先端性能を実現する。 コードが利用可能になります。

Dense stereo matching with deep neural networks is of great interest to the research community. Existing stereo matching networks typically use slow and computationally expensive 3D convolutions to improve the performance, which is not friendly to real-world applications such as autonomous driving. In this paper, we propose the Efficient Stereo Network (ESNet), which achieves high performance and efficient inference at the same time. ESNet relies only on 2D convolution and computes multi-scale cost volume efficiently using a warping-based method to improve the performance in regions with fine-details. In addition, we address the matching ambiguity issue in the occluded region by proposing ESNet-M, a variant of ESNet that additionally estimates an occlusion mask without supervision. We further improve the network performance by proposing a new training scheme that includes dataset scheduling and unsupervised pre-training. Compared with other low-cost dense stereo depth estimation methods, our proposed approach achieves state-of-the-art performance on the Scene Flow [1], DrivingStereo [2], and KITTI-2015 dataset [3]. Our code will be made available.
翻訳日:2021-03-09 15:43:49 公開日:2021-03-05
# CTにおける肺結節の複数属性解析のための注意強化クロスタスクネットワーク

Attention-Enhanced Cross-Task Network for Analysing Multiple Attributes of Lung Nodules in CT ( http://arxiv.org/abs/2103.03931v1 )

ライセンス: Link先を確認
Xiaohang Fu, Lei Bi, Ashnil Kumar, Michael Fulham, and Jinman Kim(参考訳) 肺結節の発芽,発芽,石灰化などの視覚特性の正確な特徴は,がん管理において重要である。 これらの属性の特徴付けはしばしば主観的であり、これは高いオブジェクト間およびオブジェクト内変動をもたらす可能性がある。 さらに、肺結節は3dボリュームの断面画像スライスにおいてしばしば異種である。 複数の属性をスコアリングする現在の最先端手法は、深層学習に基づくマルチタスク学習(MTL)方式に依存している。 しかし、これらのメソッドは属性間で共有された視覚的特徴を抽出し、固有の相関を明示的に活用せずに各属性を調べます。 さらに、現在のメソッドは、各スライスの関連性や不均質性を考慮せずに、等しい重要性で扱うか、またはパフォーマンスを制限する入力スライスの数を制限する。 本研究では,新しい畳み込みニューラルネットワーク(CNN)を用いたMTLモデルを用いて,CT画像量における肺結節の9つの視覚的特性を同時に評価する手法を提案する。 モデルでは任意の深さのnoduleボリューム全体を処理し,無関係なスライスをフィルタするためにslice attentionモジュールを使用する。 また,属性間の関連性を活用するために,意味表現の最適アマルガメーションを学習する属性特化モジュールも導入する。 本モデルは,肺結節のLIDC-IDRIデータセットを用いて,従来の評価方法よりも優れていた。 当社の注意モジュールは、モデルの予測に関する洞察を提供する、分かりやすい重み付けも提供します。

Accurate characterisation of visual attributes such as spiculation, lobulation, and calcification of lung nodules is critical in cancer management. The characterisation of these attributes is often subjective, which may lead to high inter- and intra-observer variability. Furthermore, lung nodules are often heterogeneous in the cross-sectional image slices of a 3D volume. Current state-of-the-art methods that score multiple attributes rely on deep learning-based multi-task learning (MTL) schemes. These methods, however, extract shared visual features across attributes and then examine each attribute without explicitly leveraging their inherent intercorrelations. Furthermore, current methods either treat each slice with equal importance without considering their relevance or heterogeneity, or restrict the number of input slices, which limits performance. In this study, we address these challenges with a new convolutional neural network (CNN)-based MTL model that incorporates attention modules to simultaneously score 9 visual attributes of lung nodules in computed tomography (CT) image volumes. Our model processes entire nodule volumes of arbitrary depth and uses a slice attention module to filter out irrelevant slices. We also introduce cross-attribute and attribute specialisation attention modules that learn an optimal amalgamation of meaningful representations to leverage relationships between attributes. We demonstrate that our model outperforms previous state-of-the-art methods at scoring attributes using the well-known public LIDC-IDRI dataset of pulmonary nodules from over 1,000 patients. Our attention modules also provide easy-to-interpret weights that offer insights into the predictions of the model.
翻訳日:2021-03-09 15:43:29 公開日:2021-03-05
# ポルトガル語の点字テキストにおける転写誤りを軽減させる自動的アプローチ

An automated approach to mitigate transcription errors in braille texts for the Portuguese language ( http://arxiv.org/abs/2103.03935v1 )

ライセンス: Link先を確認
Andr\'e Roberto Ortoncelli and Marlon Marcon and Franciele Beal(参考訳) ブラジルのクォータ制度は、高等教育に盲目の学生を含めることを可能にした。 点字システムに関する教師の知識の欠如は、それらとそれを読み書きに使う学生の間の障壁を表している。 コンピュータビジョンベースの転写ソリューションは、このシステムの理解制限を減らすメカニズムを表す。 しかし、このようなツールは、照明、ノイズ、スケールなどの画像処理システム固有の迷惑に直面し、その結果を害します。 本稿では、ポルトガル語の点字テキストにおける転写誤りを軽減させる自動アプローチを提案する。 本稿では,その点字表現に基づく単語の最適な対応を提供する辞書と組み合わせた選択関数を提案する。 提案手法を合成画像のデータセット上で検証し, 異なる雑音レベルに適用し, 提案手法の頑健性を検証する。 実験の結果, 標準手法と比較し, 溶液の有効性を確認した。 本論文のコントリビューションとして,実使用条件に対する堅牢かつ適応可能なソリューションをサポートする方法を提供することが期待されます。

The quota system in Brazil made it possible to include blind students in higher education. Teachers' lack of knowledge about the braille system can represent a barrier between them and students who use it for writing and reading. Computer-vision-based transcription solutions represent mechanisms for reducing understanding restrictions on this system. However, such tools face nuisances inherent to image processing systems, e.g., illumination, noise, and scale, harming the result. This paper presents an automated approach to mitigate transcription errors in braille texts for the Portuguese language. We propose a selection function, combined with dictionaries, that provides the best correspondence of words based on their braille representation. We validated our proposal on a dataset of synthetic images by submitting them to different noise levels and testing the proposal's robustness. Experimental results confirm the effectiveness of the solution compared to a standard approach. As a contribution of this paper, we expect to provide a method to support robust and adaptable solutions to real use conditions.
翻訳日:2021-03-09 15:43:06 公開日:2021-03-05
# 一般化スライスワッサーシュタイン埋め込みを用いた集合表現学習

Set Representation Learning with Generalized Sliced-Wasserstein Embeddings ( http://arxiv.org/abs/2103.03892v1 )

ライセンス: Link先を確認
Navid Naderializadeh, Soheil Kolouri, Joseph F. Comer, Reed W. Andrews, Heiko Hoffmann(参考訳) 集合構造データからの学習表現を扱う機械学習タスクが増えている。 これらの問題に対する解決策は、置換等変性モジュール(例えば、自己アテンション、またはフィードフォワードニューラルネットワークによる個々の処理)と置換不変モジュール(例えば、グローバル平均プーリング、マルチヘッドの注意によるプーリング)の構成を含む。 本稿では,最適質量輸送問題に根ざした集合構造データから表現を学習するための幾何学的解釈可能なフレームワークを提案する。 特に,集合の要素を確率測度からサンプルとして扱い,集合構造データから効率的に学習するための一般化スライスワッサースタイン距離(gsw)に対する完全ユークリッド埋め込みを提案する。 我々は,複数の教師付きおよび教師なし集合学習タスクに関する提案フレームワークを評価し,最先端集合表現学習アプローチに対するその優位性を実証する。

An increasing number of machine learning tasks deal with learning representations from set-structured data. Solutions to these problems involve the composition of permutation-equivariant modules (e.g., self-attention, or individual processing via feed-forward neural networks) and permutation-invariant modules (e.g., global average pooling, or pooling by multi-head attention). In this paper, we propose a geometrically-interpretable framework for learning representations from set-structured data, which is rooted in the optimal mass transportation problem. In particular, we treat elements of a set as samples from a probability measure and propose an exact Euclidean embedding for Generalized Sliced Wasserstein (GSW) distances to learn from set-structured data effectively. We evaluate our proposed framework on multiple supervised and unsupervised set learning tasks and demonstrate its superiority over state-of-the-art set representation learning approaches.
翻訳日:2021-03-09 15:30:10 公開日:2021-03-05
# インフォームドクラスタリングとモデリングによるシーケンスデータの新規性検出

Novelty Detection in Sequential Data by Informed Clustering and Modeling ( http://arxiv.org/abs/2103.03943v1 )

ライセンス: Link先を確認
Linara Adilova, Siming Chen, Michael Kamp(参考訳) 通常のデータを生成するプロセスからの逸脱は、しばしば小さく、意図的に隠されるため、離散シーケンスにおけるノベルティ検出は難しい作業です。 正常なシーケンスをモデル化し、モデル予測から新しいシーケンスのずれを測定することで、新規性を検出することができる。 しかし、多くのアプリケーションでは、データは複数の異なるプロセスによって生成されるため、すべてのデータで訓練されたモデルは過剰に一般化され、新規性は検出されない。 データをクラスタリングすることで問題を分解し、より正確にモデル化可能な各クラスタのよりシンプルなモデリングタスクを得る。 しかし、クラスタ当たりのトレーニングデータの量が削減されるため、これはトレードオフになる。 これは、最先端のモデルがデータ格納型である離散シーケンスでは特に問題である。 このアプローチの成功はクラスタリングの品質、すなわち個々の学習問題が共同問題よりも十分単純であるかどうかに依存する。 離散シーケンスの自動クラスタリングは困難でドメイン固有のタスクだが、適切なツールを考えると、多くの場合、人間のドメインエキスパートにとって容易である。 本稿では、離散シーケンスクラスタリングのための最先端のビジュアル分析ツールを適用し、ドメインエキスパートから情報クラスタを取得し、LSTMを用いて各クラスタを個別にモデル化する。 また,本手法は,実世界の3つのシナリオにおいて,離散シーケンスに対する最先端のノベルティ検出手法よりも優れていることを示す。 特に、各クラスタのトレーニングデータが少ないにもかかわらず、分解はグローバルモデルを上回る。

Novelty detection in discrete sequences is a challenging task, since deviations from the process generating the normal data are often small or intentionally hidden. Novelties can be detected by modeling normal sequences and measuring the deviations of a new sequence from the model predictions. However, in many applications data is generated by several distinct processes so that models trained on all the data tend to over-generalize and novelties remain undetected. We propose to approach this challenge through decomposition: by clustering the data we break down the problem, obtaining simpler modeling task in each cluster which can be modeled more accurately. However, this comes at a trade-off, since the amount of training data per cluster is reduced. This is a particular problem for discrete sequences where state-of-the-art models are data-hungry. The success of this approach thus depends on the quality of the clustering, i.e., whether the individual learning problems are sufficiently simpler than the joint problem. While clustering discrete sequences automatically is a challenging and domain-specific task, it is often easy for human domain experts, given the right tools. In this paper, we adapt a state-of-the-art visual analytics tool for discrete sequence clustering to obtain informed clusters from domain experts and use LSTMs to model each cluster individually. Our extensive empirical evaluation indicates that this informed clustering outperforms automatic ones and that our approach outperforms state-of-the-art novelty detection methods for discrete sequences in three real-world application scenarios. In particular, decomposition outperforms a global model despite less training data on each individual cluster.
翻訳日:2021-03-09 15:29:53 公開日:2021-03-05
# 実シナリオにおける多目的ゴミ蓄積点の厳密かつヒューリスティックなアプローチ

Exact and heuristic approaches for multi-objective garbage accumulation points location in real scenarios ( http://arxiv.org/abs/2103.04826v1 )

ライセンス: Link先を確認
Diego Gabriel Rossit, Jamal Toutouh, and Sergio Nesmachnow(参考訳) 都市ごみ処理は, 公共予算の大部分を占め, 誤操作によって環境問題や社会問題につながる可能性があるため, 都市社会にとって大きな課題となっている。 この研究は、逆ロジスティックチェーンの全体的な効率に強い影響を及ぼすと考えられている都市部における廃棄物箱の配置の問題に焦点を当てています。 本稿は,システムへのアクセシビリティ(サービス品質の指標として),投資コスト,ビンからの廃棄物除去に必要な頻度(後方ルーティングコストの指標として)が考慮される廃棄物箱の場所を解決するための,完全な多目的アプローチを提案する。 本手法では, パレート前線における目的の理想とnadir値の異なる方法を提案し, 比較を行った。 そこで,PageRankアルゴリズムに基づくヒューリスティック手法のファミリーを提案し,システムへのアクセシビリティ,収集した廃棄物量,インストールコストを最適化することを目的とした。 実験的な評価は、アルゼンチンのモンテビデオ、ウルグアイ、バールシアブランカの都市の現実世界のシナリオで行われました。 その結果,最適化基準間のトレードオフを考慮に入れた候補解の集合を構築するための提案手法の競争性を示した。

Municipal solid waste management is a major challenge for nowadays urban societies, because it accounts for a large proportion of public budget and, when mishandled, it can lead to environmental and social problems. This work focuses on the problem of locating waste bins in an urban area, which is considered to have a strong influence in the overall efficiency of the reverse logistic chain. This article contributes with an exact multiobjective approach to solve the waste bin location in which the optimization criteria that are considered are: the accessibility to the system (as quality of service measure), the investment cost, and the required frequency of waste removal from the bins (as a proxy of the posterior routing costs). In this approach, different methods to obtain the objectives ideal and nadir values over the Pareto front are proposed and compared. Then, a family of heuristic methods based on the PageRank algorithm is proposed which aims to optimize the accessibility to the system, the amount of collected waste and the installation cost. The experimental evaluation was performed on real-world scenarios of the cities of Montevideo, Uruguay, and Bah\'ia Blanca, Argentina. The obtained results show the competitiveness of the proposed approaches for constructing a set of candidate solutions that considers the different trade-offs between the optimization criteria.
翻訳日:2021-03-09 15:23:00 公開日:2021-03-05
# シュルツ投票法における細粒度複雑さとアルゴリズム

Fine-Grained Complexity and Algorithms for the Schulze Voting Method ( http://arxiv.org/abs/2103.03959v1 )

ライセンス: Link先を確認
Krzysztof Sornat, Virginia Vassilevska Williams, Yinzhan Xu(参考訳) シュルツェ法(Schulze method[Schulze, 2003])と呼ばれる、よく知られた単一勝者投票規則の計算的側面について研究する。 この方法では、有権者は対の候補間の直接比較の重み付き多数決グラフ(wmg)を定義するために使われる順序選好投票(弱)を与える。 勝者の選択は、グラフの間接的比較、およびより具体的には、候補者間の直接比較ではなく、指示されたパスを検討することから来ています。 入力がWMGであるとき、私たちの知識によると、Schulzeメソッドのすべての勝者を計算するための最速のアルゴリズムは、オールペアボトルネックパス(APBP)問題への民話還元を使用し、$O(m^{2.69})$時間で実行され、$m$は候補者の数です。 これが改善できるかどうかは、興味深い疑問である。 最初の結果は、すべての勝者を計算するためにほぼ2倍の実行時間を持つ組合せアルゴリズムです。 可能な勝者問題への入力がWMGではなく優先度プロファイルである場合、WMGの構築は実行時間を大幅に増加させるボトルネックである。特別の場合、$O(m)$有権者および候補者がある場合、実行時間は$O(m^{2.69})$、または$O(m^{2.5})$になる。 このボトルネックに対処するため、よく研究されている支配的製品問題とWMGの計算問題との正式な等価性を証明した。 我々は、いわゆる支配ペア問題と、与えられた候補が勝者であるかどうかを検証する問題との類似性を証明する。 私たちの論文は、計算社会的選択の分野に微細な複雑さをもたらす最初のものです。 これを使用すると、多数の候補者や有権者にとって実用的ではない投票プロトコルを特定することができます。

We study computational aspects of a well-known single-winner voting rule called the Schulze method [Schulze, 2003] which is used broadly in practice. In this method the voters give (weak) ordinal preference ballots which are used to define the weighted majority graph (WMG) of direct comparisons between pairs of candidates. The choice of the winner comes from indirect comparisons in the graph, and more specifically from considering directed paths instead of direct comparisons between candidates. When the input is the WMG, to our knowledge, the fastest algorithm for computing all possible winners in the Schulze method uses a folklore reduction to the All-Pairs Bottleneck Paths (APBP) problem and runs in $O(m^{2.69})$ time, where $m$ is the number of candidates. It is an interesting open question whether this can be improved. Our first result is a combinatorial algorithm with a nearly quadratic running time for computing all possible winners. If the input to the possible winners problem is not the WMG but the preference profile, then constructing the WMG is a bottleneck that increases the running time significantly; in the special case when there are $O(m)$ voters and candidates, the running time becomes $O(m^{2.69})$, or $O(m^{2.5})$ if there is a nearly-linear time algorithm for multiplying dense square matrices. To address this bottleneck, we prove a formal equivalence between the well-studied Dominance Product problem and the problem of computing the WMG. We prove a similar connection between the so called Dominating Pairs problem and the problem of verifying whether a given candidate is a possible winner. Our paper is the first to bring fine-grained complexity into the field of computational social choice. Using it we can identify voting protocols that are unlikely to be practical for large numbers of candidates and/or voters, as their complexity is likely, say at least cubic.
翻訳日:2021-03-09 15:17:19 公開日:2021-03-05
# NF-GNN:マルウェア検出と分類のためのネットワークフローグラフニューラルネットワーク

NF-GNN: Network Flow Graph Neural Networks for Malware Detection and Classification ( http://arxiv.org/abs/2103.03939v1 )

ライセンス: Link先を確認
Julian Busch, Anton Kocheturov, Volker Tresp, Thomas Seidl(参考訳) 悪意あるソフトウェア(マルウェア)は、相互接続されたモバイルデバイスの数が指数関数的に増加するにつれて、通信システムのセキュリティに対する脅威が増大する。 既存のマルウェア検出と分類のアプローチはネットワークトラフィックデータを活用することに成功しているが、エンドポイント間のネットワークフローを独立して扱うため、ネットワーク全体の構造的依存関係を十分に活用できない。 このアプローチはまずフローグラフを抽出し,その後,新しいグラフニューラルネットワークモデルを用いて分類する。 監視および監視されていない設定でマルウェアの検出と分類をサポートする3つのベースモデルを紹介します。 最近公開されたモバイルマルウェア検出のためのデータセットから抽出したフローグラフのアプローチを評価し、以前に利用可能なデータセットに関するいくつかの問題に対処する。 4つの異なる予測タスクに関する実験は、一貫してこのアプローチの利点を実証し、グラフニューラルネットワークモデルが検出性能を大幅に向上させることができることを示した。

Malicious software (malware) poses an increasing threat to the security of communication systems, as the number of interconnected mobile devices increases exponentially. While some existing malware detection and classification approaches successfully leverage network traffic data, they treat network flows between pairs of endpoints independently and thus fail to leverage the rich structural dependencies in the complete network. Our approach first extracts flow graphs and subsequently classifies them using a novel graph neural network model. We present three variants of our base model, which all support malware detection and classification in supervised and unsupervised settings. We evaluate our approach on flow graphs that we extract from a recently published dataset for mobile malware detection that addresses several issues with previously available datasets. Experiments on four different prediction tasks consistently demonstrate the advantages of our approach and show that our graph neural network model can boost detection performance by a significant margin.
翻訳日:2021-03-09 15:15:56 公開日:2021-03-05
# CDLNet:Deep Convolutional Dictionary Learningによるロバストで解釈可能なDenoising

CDLNet: Robust and Interpretable Denoising Through Deep Convolutional Dictionary Learning ( http://arxiv.org/abs/2103.04779v1 )

ライセンス: Link先を確認
Nikola Janju\v{s}evi\'c, Amirhossein Khalilian-Gourtani, Yao Wang(参考訳) 深層学習に基づく手法は、画像の復調における最先端の結果を保持するが、バッチ正規化や残差学習、特徴領域処理といった、理解の行き届かない構成要素から構築されているため、解釈が困難である。 unrolled optimization networksは、通常のディープラーニングツールボックスからトリックを使わずに、古典的な反復的最適化手法からアーキテクチャを導出することで、ディープニューラルネットワークを構築するための解釈可能な代替案を提案する。 これまでのところ、そのような手法は、解釈可能な構成を用いて比較可能な低い学習パラメータ数を達成する一方で、最先端モデルに近いパフォーマンスを示している。 本研究では,未展開の畳み込み辞書学習ネットワーク (CDLNet) を提案し,低パラメータと高パラメータの両方で競合する消音性能を示す。 具体的には,同様のパラメータ数にスケールした場合,提案モデルが最先端のデノージングモデルを上回ることを示す。 さらに,本モデルの解釈可能な構成を利用して,学習中に見えない雑音レベルに対する最先端のブラインドデノイング性能とほぼ完璧な一般化を可能にする,ネットワークのしきい値の増大を提案する。

Deep learning based methods hold state-of-the-art results in image denoising, but remain difficult to interpret due to their construction from poorly understood building blocks such as batch-normalization, residual learning, and feature domain processing. Unrolled optimization networks propose an interpretable alternative to constructing deep neural networks by deriving their architecture from classical iterative optimization methods, without use of tricks from the standard deep learning tool-box. So far, such methods have demonstrated performance close to that of state-of-the-art models while using their interpretable construction to achieve a comparably low learned parameter count. In this work, we propose an unrolled convolutional dictionary learning network (CDLNet) and demonstrate its competitive denoising performance in both low and high parameter count regimes. Specifically, we show that the proposed model outperforms the state-of-the-art denoising models when scaled to similar parameter count. In addition, we leverage the model's interpretable construction to propose an augmentation of the network's thresholds that enables state-of-the-art blind denoising performance and near-perfect generalization on noise-levels unseen during training.
翻訳日:2021-03-09 15:11:52 公開日:2021-03-05
# ディープヘッジ,ジェネレーティブな敵ネットワーク,その他

Deep Hedging, Generative Adversarial Networks, and Beyond ( http://arxiv.org/abs/2103.03913v1 )

ライセンス: Link先を確認
Hyunsu Kim(参考訳) 本稿では,ディープラーニングと人工知能の金融応用,特にヘッジへの応用について紹介する。 主な目的は2つの目的である。 まず,単純なバニラ欧州コールオプションを複製した直接ポリシー検索強化エージェントの枠組みを示し,モデルフリーデルタヘッジにエージェントを使用する。 本稿では,RNNをベースとした直接ポリシー探索RLエージェントが,パラメトリックに生成された基礎シナリオ,特にリスク回避パラメータのより高い値でのテール露光を最小限に抑えることに基づいて,Q-worldの古典的なブラック・ショールズモデルよりもデルタヘッジを行うことができることを示す。 本論文の第2部では,多変量時間空間からの時系列GANが生成する非パラメトリックパスを用いて,本論文の第1部で導入した基本RNNベースRLエージェントを用いて,リスク回避パラメータの様々な値に対するデルタヘッジ性能を示す。 このrlベースのヘッジフレームワークは、より効率的なヘッジの実行方法であり、古典的なモデルに固有の問題に対処し、有望で直観的なヘッジ結果を提供し、他の多くの目的のために他のaiベースのモデルと簡単にペアリングできる柔軟なフレームワークを作成する。

This paper introduces a potential application of deep learning and artificial intelligence in finance, particularly its application in hedging. The major goal encompasses two objectives. First, we present a framework of a direct policy search reinforcement agent replicating a simple vanilla European call option and use the agent for the model-free delta hedging. Through the first part of this paper, we demonstrate how the RNN-based direct policy search RL agents can perform delta hedging better than the classic Black-Scholes model in Q-world based on parametrically generated underlying scenarios, particularly minimizing tail exposures at higher values of the risk aversion parameter. In the second part of this paper, with the non-parametric paths generated by time-series GANs from multi-variate temporal space, we illustrate its delta hedging performance on various values of the risk aversion parameter via the basic RNN-based RL agent introduced in the first part of the paper, showing that we can potentially achieve higher average profits with a rather evident risk-return trade-off. We believe that this RL-based hedging framework is a more efficient way of performing hedging in practice, addressing some of the inherent issues with the classic models, providing promising/intuitive hedging results, and rendering a flexible framework that can be easily paired with other AI-based models for many other purposes.
翻訳日:2021-03-09 15:09:44 公開日:2021-03-05
# (参考訳) マルコフコヒーレントリスクに対する政策勾配の収束と最適性について

On the Convergence and Optimality of Policy Gradient for Markov Coherent Risk ( http://arxiv.org/abs/2103.02827v2 )

ライセンス: CC BY 4.0
Audrey Huang, Liu Leqi, Zachary C. Lipton, Kamyar Azizzadenesheli(参考訳) 強化学習におけるリスク回避をモデル化するために、新たな研究ラインでは、よく知られたアルゴリズムを使用してコヒーレントリスク関数(条件付きリスク(CVaR)を含むクラス)を最適化する。 マルコフの決定プロセスではコヒーレントリスクの最適化は困難であるため、最近の研究では、時間の一貫性のある代理であるマルコフコヒーレントリスク(MCR)に焦点を当てる傾向にある。 政策勾配 (PG) の更新はこの目的のために導出されているが、(i) PG が MCR にグローバルに最適であるかどうか、(ii) トラクタブルな方法で勾配を推定する方法は不明である。 本稿では,mcrの目的が(期待値と異なり)勾配が支配的ではなく,定常点が一般にグローバルに最適であることを保証するものではないことを実証する。 さらに,目的の非線形性とリスク回避の程度に依存することを特徴として,学習方針の最適性に対する厳密な上限を示す。 対処法(ii)では, 従来の制限を克服するために, 状態分布の重み付けを用いたPGの実践的実装を提案する。 実験を通じて,最適性ギャップが小さい場合,pgはリスクに敏感な方針を学習できることを実証する。 しかし、大きな最適性ギャップを持つインスタンスは豊富で構築が容易であり、将来の研究における重要な課題を概説する。

In order to model risk aversion in reinforcement learning, an emerging line of research adapts familiar algorithms to optimize coherent risk functionals, a class that includes conditional value-at-risk (CVaR). Because optimizing the coherent risk is difficult in Markov decision processes, recent work tends to focus on the Markov coherent risk (MCR), a time-consistent surrogate. While, policy gradient (PG) updates have been derived for this objective, it remains unclear (i) whether PG finds a global optimum for MCR; (ii) how to estimate the gradient in a tractable manner. In this paper, we demonstrate that, in general, MCR objectives (unlike the expected return) are not gradient dominated and that stationary points are not, in general, guaranteed to be globally optimal. Moreover, we present a tight upper bound on the suboptimality of the learned policy, characterizing its dependence on the nonlinearity of the objective and the degree of risk aversion. Addressing (ii), we propose a practical implementation of PG that uses state distribution reweighting to overcome previous limitations. Through experiments, we demonstrate that when the optimality gap is small, PG can learn risk-sensitive policies. However, we find that instances with large suboptimality gaps are abundant and easy to construct, outlining an important challenge for future research.
翻訳日:2021-03-09 12:53:00 公開日:2021-03-05
# 微分プライベートディープラーニングにおける$\epsilon$の選択と監査の定量化

Quantifying identifiability to choose and audit $\epsilon$ in differentially private deep learning ( http://arxiv.org/abs/2103.02913v2 )

ライセンス: Link先を確認
Daniel Bernau, G\"unther Eibl, Philip W. Grassal, Hannah Keller, Florian Kerschbaum(参考訳) 差分プライバシーにより、トレーニングデータレコードが機械学習モデルに与える影響を制限できます。 機械学習で差分プライバシーを使用するには、データサイエンティストがプライバシパラメータを$(\epsilon,\delta)$を選択する必要がある。 弱いプライバシパラメータでトレーニングされたモデルが過剰なプライバシリークを引き起こす可能性があり、強力なプライバシパラメータがモデルユーティリティを過度に低下させる可能性があるため、有意義なプライバシパラメータを選択することが重要だ。 しかし,プライバシパラメータの値は2つの主な理由から選択が難しい。 まず、選択された感度と実用的なデータセットのデータ分布に応じて、プライバシー損失$(\epsilon,\delta)$の上限は緩いかもしれません。 第二に、匿名化の法的要件と社会的規範は個々の識別可能性を指し、$(\epsilon,\delta)$は間接的にのみ関係している。 我々は(\epsilon,\delta)$を、トレーニングデータセットにおけるレコードの存在に関する差分プライバシーによって仮定される敵のベイズ的後方信念の束縛に変換する。 構成下における多次元クエリのバウンダリは保持され、実際はタイトであることを示す。 さらに, 識別可能性境界を導出し, 差動プライバシで想定される敵と, メンバシップ推論敵に対する先行研究との関連性を示す。 我々は、データサイエンティストがモデルトレーニングを監査し、経験的識別可能性スコアと経験的$(\epsilon,\delta)$を計算することを可能にするこの差分プライバシーの逆数の実装を策定します。

Differential privacy allows bounding the influence that training data records have on a machine learning model. To use differential privacy in machine learning, data scientists must choose privacy parameters $(\epsilon,\delta)$. Choosing meaningful privacy parameters is key since models trained with weak privacy parameters might result in excessive privacy leakage, while strong privacy parameters might overly degrade model utility. However, privacy parameter values are difficult to choose for two main reasons. First, the upper bound on privacy loss $(\epsilon,\delta)$ might be loose, depending on the chosen sensitivity and data distribution of practical datasets. Second, legal requirements and societal norms for anonymization often refer to individual identifiability, to which $(\epsilon,\delta)$ are only indirectly related. We transform $(\epsilon,\delta)$ to a bound on the Bayesian posterior belief of the adversary assumed by differential privacy concerning the presence of any record in the training dataset. The bound holds for multidimensional queries under composition, and we show that it can be tight in practice. Furthermore, we derive an identifiability bound, which relates the adversary assumed in differential privacy to previous work on membership inference adversaries. We formulate an implementation of this differential privacy adversary that allows data scientists to audit model training and compute empirical identifiability scores and empirical $(\epsilon,\delta)$.
翻訳日:2021-03-09 12:24:31 公開日:2021-03-05
# (参考訳) LSTMとデータデノイジング法を用いた金融時系列の予測

Prediction of financial time series using LSTM and data denoising methods ( http://arxiv.org/abs/2103.03505v1 )

ライセンス: CC BY 4.0
Qi Tang and Tongmei Fan and Ruchen Shi and Jingyan Huang and Yidan Ma(参考訳) In order to further overcome the difficulties of the existing models in dealing with the non-stationary and nonlinear characteristics of high-frequency financial time series data, especially its weak generalization ability, this paper proposes an ensemble method based on data denoising methods, including the wavelet transform (WT) and singular spectrum analysis (SSA), and long-term short-term memory neural network (LSTM) to build a data prediction model, The financial time series is decomposed and reconstructed by WT and SSA to denoise. 雑音化条件下では、有効な情報を有する平滑なシーケンスを再構成する。 LSTMに平滑化シーケンスを導入し、予測値を得る。 ダウ・ジョーンズ工業平均指数(DJIA)を研究対象とし、5分ごとにDJIAの終了価格を短期(1時間)、中期(3時間)、長期(6時間)に分けます。 . ルート平均二乗誤差(RMSE)、平均絶対誤差(MAE)、平均絶対パーセンテージ誤差(MAPE)および絶対パーセンテージ誤差標準偏差(SDAPE)に基づいて、実験結果は、短期的、中期的、長期的データ解読において、予測の精度と安定性を大幅に向上させ、LSTM予測モデルの一般化能力を効果的に改善できることを示しています。 WTとSSAは、元のシーケンスから有用な情報を抽出し、オーバーフィッティングを避けるため、ハイブリッドモデルはDJIAの閉値のシーケンスパターンをよりよく把握することができる。 WT-LSTMモデルはベンチマークLSTMモデルとSSA-LSTMモデルよりも優れています。

In order to further overcome the difficulties of the existing models in dealing with the non-stationary and nonlinear characteristics of high-frequency financial time series data, especially its weak generalization ability, this paper proposes an ensemble method based on data denoising methods, including the wavelet transform (WT) and singular spectrum analysis (SSA), and long-term short-term memory neural network (LSTM) to build a data prediction model, The financial time series is decomposed and reconstructed by WT and SSA to denoise. Under the condition of denoising, the smooth sequence with effective information is reconstructed. The smoothing sequence is introduced into LSTM and the predicted value is obtained. With the Dow Jones industrial average index (DJIA) as the research object, the closing price of the DJIA every five minutes is divided into short-term (1 hour), medium-term (3 hours) and long-term (6 hours) respectively. . Based on root mean square error (RMSE), mean absolute error (MAE), mean absolute percentage error (MAPE) and absolute percentage error standard deviation (SDAPE), the experimental results show that in the short-term, medium-term and long-term, data denoising can greatly improve the accuracy and stability of the prediction, and can effectively improve the generalization ability of LSTM prediction model. As WT and SSA can extract useful information from the original sequence and avoid overfitting, the hybrid model can better grasp the sequence pattern of the closing price of the DJIA. And the WT-LSTM model is better than the benchmark LSTM model and SSA-LSTM model.
翻訳日:2021-03-09 09:53:05 公開日:2021-03-05
# (参考訳) 非凸最適化のためのSGDの2次ステップサイズチューニング

Second-order step-size tuning of SGD for non-convex optimization ( http://arxiv.org/abs/2103.03570v1 )

ライセンス: CC BY 4.0
Camille Castera, J\'er\^ome Bolte, C\'edric F\'evotte, Edouard Pauwels(参考訳) 本稿では,バニラSGDの直接的かつ簡便な改良の観点から,ミニバッチケースのステップサイズを微調整する。 そのため、局所二次モデルに基づいて曲率を推定し、ノイズの勾配近似のみを用いる。 古典的barzilai-borwein法の確率的バージョンと見なすことができる新しい確率的一階法(ステップ調整sgd)を得る。 我々の理論的結果は、臨界集合への収束をほぼ確実にし、収束率を提供する。 ディープ残差ネットワークトレーニングの実験は、我々のアプローチの好ましい特性を示している。 このようなネットワークでは、トレーニング中に、損失の突然の低下と中程度のテスト精度の向上の両方を観察し、SGD、RMSprop、またはADAMよりも優れた結果をもたらします。

In view of a direct and simple improvement of vanilla SGD, this paper presents a fine-tuning of its step-sizes in the mini-batch case. For doing so, one estimates curvature, based on a local quadratic model and using only noisy gradient approximations. One obtains a new stochastic first-order method (Step-Tuned SGD) which can be seen as a stochastic version of the classical Barzilai-Borwein method. Our theoretical results ensure almost sure convergence to the critical set and we provide convergence rates. Experiments on deep residual network training illustrate the favorable properties of our approach. For such networks we observe, during training, both a sudden drop of the loss and an improvement of test accuracy at medium stages, yielding better results than SGD, RMSprop, or ADAM.
翻訳日:2021-03-09 09:40:50 公開日:2021-03-05
# (参考訳) Golem: 堅牢な実験とプロセス最適化のためのアルゴリズム

Golem: An algorithm for robust experiment and process optimization ( http://arxiv.org/abs/2103.03716v1 )

ライセンス: CC BY 4.0
Matteo Aldeghi, Florian H\"ase, Riley J. Hickman, Isaac Tamblyn, Al\'an Aspuru-Guzik(参考訳) 科学と工学における多くの課題は、反応収率の最大化、分子および材料特性の最適化、自動ハードウェアプロトコルの微調整など、最適化タスクとして表すことができる。 実験および最適化アルゴリズムの設計は、これらのタスクを効率的に解くためによく用いられる。 これらの実験計画戦略は、自律的な実験プラットフォームを実現するために、自動ハードウェアと結合される。 しかし、使用される戦略の大部分は実験条件やプロセス条件の変動に対する堅牢性を考慮していない。 実際、これらのパラメータは正確かつ再現可能であると一般に仮定される。 しかし、いくつかの実験では、いくつかの条件に関連したかなりのノイズがあり、正確な制御の下で最適化されたプロセスパラメータは、将来、変動操作条件下で適用される可能性がある。 いずれのシナリオにおいても、最適なソリューションは入力の可変性に対して堅牢ではなく、結果の再現性に影響を与え、実用上最適なパフォーマンスを返します。 本稿では,実験計画戦略の選択に非依存なアルゴリズムであるGolemを紹介し,ロバストな実験とプロセス最適化を実現する。 Golemは、入力の不確実性に強い最適なソリューションを特定し、最適化された実験プロトコルとプロセスの再現性を確保します。 過去の実験の堅牢性を分析したり、実験計画アルゴリズムをオンザフライで堅牢なソリューションに導くために使用できます。 広範ベンチマークによるGolemの性能と適用範囲の評価を行い,実験条件下での有意雑音の存在下で分析化学プロトコルを最適化することにより,その実用的妥当性を実証する。

Numerous challenges in science and engineering can be framed as optimization tasks, including the maximization of reaction yields, the optimization of molecular and materials properties, and the fine-tuning of automated hardware protocols. Design of experiment and optimization algorithms are often adopted to solve these tasks efficiently. Increasingly, these experiment planning strategies are coupled with automated hardware to enable autonomous experimental platforms. The vast majority of the strategies used, however, do not consider robustness against the variability of experiment and process conditions. In fact, it is generally assumed that these parameters are exact and reproducible. Yet some experiments may have considerable noise associated with some of their conditions, and process parameters optimized under precise control may be applied in the future under variable operating conditions. In either scenario, the optimal solutions found might not be robust against input variability, affecting the reproducibility of results and returning suboptimal performance in practice. Here, we introduce Golem, an algorithm that is agnostic to the choice of experiment planning strategy and that enables robust experiment and process optimization. Golem identifies optimal solutions that are robust to input uncertainty, thus ensuring the reproducible performance of optimized experimental protocols and processes. It can be used to analyze the robustness of past experiments, or to guide experiment planning algorithms toward robust solutions on the fly. We assess the performance and domain of applicability of Golem through extensive benchmark studies and demonstrate its practical relevance by optimizing an analytical chemistry protocol under the presence of significant noise in its experimental conditions.
翻訳日:2021-03-09 08:12:19 公開日:2021-03-05
# (参考訳) 非線形最適レギュレータ問題における過渡学習性能向上のためのモデルフリー二段階設計

Model-free two-step design for improving transient learning performance in nonlinear optimal regulator problems ( http://arxiv.org/abs/2103.03808v1 )

ライセンス: CC BY 4.0
Yuka Masumoto, Yoshihiro Okawa, Tomotake Sasaki, Yutaka Hori(参考訳) 強化学習(rl)は、非線形力学系の最適制御系を設計するためのモデルフリーなアプローチを提供する。 しかし、学習プロセスは、制御の不十分なシステムを使用して、かなりの数の試行錯誤実験を必要とし、植物に摩耗と裂傷を蓄積する。 したがって、学習過程においてある程度の制御性能を維持することが望ましい。 本論文では,未知の非線形系の最適レギュレータ設計問題におけるRLの過渡学習性能を改善するためのモデルフリー2ステップ設計手法を提案する。 具体的には、オンラインRLと並行してモデルフリーで事前設計された線形制御法を用いて、学習の初期段階において一定の性能を保証する。 数値シミュレーションにより,rlのハイパーパラメータチューニングにおける過渡学習性能と効率が向上した。

Reinforcement learning (RL) provides a model-free approach to designing an optimal controller for nonlinear dynamical systems. However, the learning process requires a considerable number of trial-and-error experiments using the poorly controlled system, and accumulates wear and tear on the plant. Thus, it is desirable to maintain some degree of control performance during the learning process. In this paper, we propose a model-free two-step design approach to improve the transient learning performance of RL in an optimal regulator design problem for unknown nonlinear systems. Specifically, a linear control law pre-designed in a model-free manner is used in parallel with online RL to ensure a certain level of performance at the early stage of learning. Numerical simulations show that the proposed method improves the transient learning performance and efficiency in hyperparameter tuning of RL.
翻訳日:2021-03-09 08:11:04 公開日:2021-03-05
# (参考訳) Lyapunov-Regularized Reinforcement Learning for Power System Transient Stability

Lyapunov-Regularized Reinforcement Learning for Power System Transient Stability ( http://arxiv.org/abs/2103.03869v1 )

ライセンス: CC BY 4.0
Wenqi Cui, Baosen Zhang(参考訳) 再生可能資源の統合が進み、電力システムの過渡的安定性がますます重要になっている。 これらの資源は機械的慣性の減少につながるが、周波数応答の柔軟性も増す。 すなわち、パワー電子インタフェースは、ほぼ任意の制御法則を実装できる。 これらのコントローラを設計するために、ニューラルネットワークによってパラメータ化される最適非線形制御ポリシーを探すための強力な方法として強化学習(RL)が登場した。 重要な課題は、学習したコントローラが安定化しなければならないことを強制することです。 本稿では、損失ネットワークにおける過渡安定性のための最適周波数制御のためのLyapunov正規化RLアプローチを提案する。 解析的Lyapunov関数が欠如しているため、ニューラルネットワークによってパラメータ化されたLyapunov関数を学習する。 損失は物理的な電力システムに関して特に設計されています。 学習されたニューラルネットワークLyapunov関数は、Lyapunov条件に違反する行動を罰することによって、ニューラルネットワークコントローラを訓練するために正規化として利用される。 ケーススタディでは、リアプノフ正則化の導入により、コントローラの安定化と損失の低減が可能になる。

Transient stability of power systems is becoming increasingly important because of the growing integration of renewable resources. These resources lead to a reduction in mechanical inertia but also provide increased flexibility in frequency responses. Namely, their power electronic interfaces can implement almost arbitrary control laws. To design these controllers, reinforcement learning (RL) has emerged as a powerful method in searching for optimal non-linear control policy parameterized by neural networks. A key challenge is to enforce that a learned controller must be stabilizing. This paper proposes a Lyapunov regularized RL approach for optimal frequency control for transient stability in lossy networks. Because the lack of an analytical Lyapunov function, we learn a Lyapunov function parameterized by a neural network. The losses are specially designed with respect to the physical power system. The learned neural Lyapunov function is then utilized as a regularization to train the neural network controller by penalizing actions that violate the Lyapunov conditions. Case study shows that introducing the Lyapunov regularization enables the controller to be stabilizing and achieve smaller losses.
翻訳日:2021-03-09 07:59:17 公開日:2021-03-05
# (参考訳) 対向攻撃による深部診断モデルのロバスト性評価に向けて

Towards Evaluating the Robustness of Deep Diagnostic Models by Adversarial Attack ( http://arxiv.org/abs/2103.03438v1 )

ライセンス: CC BY 4.0
Mengting Xu, Tao Zhang, Zhongnian Li, Mingxia Liu, Daoqiang Zhang(参考訳) 深層学習モデル(ニューラルネットワーク)は、医療画像に基づくコンピュータ支援疾患診断などの課題に広く用いられている。 近年の研究では、深い診断モデルは推論プロセスにおいて堅牢でなく、臨床において深刻なセキュリティ上の懸念をもたらす可能性がある。 モデルが堅牢でないすべての要因のうち、最も深刻なものは逆の例である。 いわゆる"adversarial example"はよく設計された摂動であり、人間には容易には認識できないが、信頼性の高い深い診断モデルの誤ったアウトプットをもたらす。 本稿では, 対人攻撃による深部診断モデルの堅牢性を評価する。 具体的には, 単一ラベルと複数ラベルの分類タスクにおいて, 3つの深部診断モデルに対して2種類の逆転攻撃を行い, 逆転例で攻撃した場合, これらのモデルが信頼できないことがわかった。 我々はさらに,その量的分類結果,中間的特徴,特徴の判別性,推定ラベルの相関性を解析し,そのモデルに対する逆例のアプローチについて検討した。 また、深い診断モデル、すなわちMPAdvT(Multi-Perturbations Adversarial Training)とMAAdvT(Misclassification-Aware Adversarial Training)における敵対的例を処理するための2つの新しい防御方法も設計した。 実験結果は、防御方法の使用が逆襲に対する深い診断モデルの堅牢性を大幅に改善できることを示した。

Deep learning models (with neural networks) have been widely used in challenging tasks such as computer-aided disease diagnosis based on medical images. Recent studies have shown deep diagnostic models may not be robust in the inference process and may pose severe security concerns in clinical practice. Among all the factors that make the model not robust, the most serious one is adversarial examples. The so-called "adversarial example" is a well-designed perturbation that is not easily perceived by humans but results in a false output of deep diagnostic models with high confidence. In this paper, we evaluate the robustness of deep diagnostic models by adversarial attack. Specifically, we have performed two types of adversarial attacks to three deep diagnostic models in both single-label and multi-label classification tasks, and found that these models are not reliable when attacked by adversarial example. We have further explored how adversarial examples attack the models, by analyzing their quantitative classification results, intermediate features, discriminability of features and correlation of estimated labels for both original/clean images and those adversarial ones. We have also designed two new defense methods to handle adversarial examples in deep diagnostic models, i.e., Multi-Perturbations Adversarial Training (MPAdvT) and Misclassification-Aware Adversarial Training (MAAdvT). The experimental results have shown that the use of defense methods can significantly improve the robustness of deep diagnostic models against adversarial attacks.
翻訳日:2021-03-09 07:45:11 公開日:2021-03-05
# (参考訳) iot: トランスフォーマー構造のためのインスタンス単位のレイヤリオーダ

IOT: Instance-wise Layer Reordering for Transformer Structures ( http://arxiv.org/abs/2103.03457v1 )

ライセンス: CC BY 4.0
Jinhua Zhu, Lijun Wu, Yingce Xia, Shufang Xie, Tao Qin, Wengang Zhou, Houqiang Li, Tie-Yan Liu(参考訳) 順次積み重ねられた自己保持、(任意)エンコーダデコーダの注意、およびフィードフォワード層により、Transformerは自然言語処理(NLP)で大きな成功を収め、多くのバリエーションが提案されています。 現在、これらのモデルのほとんどは、レイヤ順序が固定され、データサンプル間で同じ状態に保つと仮定しています。 異なるデータサンプルが実際に異なる層の順序を好むのを観察します。 この観察に基づいて、本研究では、トランスフォーマの固定層オーダーの仮定を分解し、モデル構造にインスタンス単位の層再順序付けを導入する。 当社のIOT(Instance-wise Ordered Transformer)は、再順序化層による可変関数のモデル化が可能であり、各サンプルは、ほぼ同じ数のパラメータの制約の下でモデルのパフォーマンスを向上させるために、より良いものを選択することができます。 そこで本研究では,任意の入力列に対して最も有能で好適な層順を決定するために,無視可能なパラメータと推論コストを持つ光予測器を提案する。 3つのタスク(ニューラル機械翻訳、抽象要約、コード生成)と9つのデータセットに関する実験は、この方法の一貫した改善を示している。 さらに、この方法がTransformer以外のアーキテクチャにも適用できることも示しています。 私たちのコードはgithubでリリースされています。

With sequentially stacked self-attention, (optional) encoder-decoder attention, and feed-forward layers, Transformer achieves big success in natural language processing (NLP), and many variants have been proposed. Currently, almost all these models assume that the layer order is fixed and kept the same across data samples. We observe that different data samples actually favor different orders of the layers. Based on this observation, in this work, we break the assumption of the fixed layer order in the Transformer and introduce instance-wise layer reordering into the model structure. Our Instance-wise Ordered Transformer (IOT) can model variant functions by reordered layers, which enables each sample to select the better one to improve the model performance under the constraint of almost the same number of parameters. To achieve this, we introduce a light predictor with negligible parameter and inference cost to decide the most capable and favorable layer order for any input sequence. Experiments on 3 tasks (neural machine translation, abstractive summarization, and code generation) and 9 datasets demonstrate consistent improvements of our method. We further show that our method can also be applied to other architectures beyond Transformer. Our code is released at Github.
翻訳日:2021-03-09 07:43:48 公開日:2021-03-05
# (参考訳) 機械学習によるインドネシア語文の抽象意味表現への解析

Parsing Indonesian Sentence into Abstract Meaning Representation using Machine Learning Approach ( http://arxiv.org/abs/2103.03730v1 )

ライセンス: CC BY-SA 4.0
Adylan Roaffa Ilmy and Masayu Leylia Khodra(参考訳) 抽象意味表現(AMR: Abstract Meaning Representation)は、意味関係、コアファレンス、名前付きエンティティ関係などの文の多くの情報を1つの表現で提供します。 しかし、インドネシア語文に対するAMR解析の研究は限定的である。 本稿では,インドネシア語の文を機械学習を用いて解析するシステムを開発した。 Zhangらに基づいて。 私たちのシステムは,ペア予測,ラベル予測,グラフ構築という3つのステップで構成されています。 ペア予測は依存性解析コンポーネントを使用して、AMRのワード間のエッジを取得する。 ペア予測の結果は、教師付き学習アルゴリズムを使用してAMRの端間のラベルを予測したラベル予測プロセスに渡される。 記事やニュース記事の文章から収集した簡易文データセットを用いた。 本モデルでは, SMATCHスコア0.820を達成した。

Abstract Meaning Representation (AMR) provides many information of a sentence such as semantic relations, coreferences, and named entity relation in one representation. However, research on AMR parsing for Indonesian sentence is fairly limited. In this paper, we develop a system that aims to parse an Indonesian sentence using a machine learning approach. Based on Zhang et al. work, our system consists of three steps: pair prediction, label prediction, and graph construction. Pair prediction uses dependency parsing component to get the edges between the words for the AMR. The result of pair prediction is passed to the label prediction process which used a supervised learning algorithm to predict the label between the edges of the AMR. We used simple sentence dataset that is gathered from articles and news article sentences. Our model achieved the SMATCH score of 0.820 for simple sentence test data.
翻訳日:2021-03-09 07:20:52 公開日:2021-03-05
# (参考訳) レンダリングのない単一2次元画像から3次元モデルを生成するための有効な損失関数

An Effective Loss Function for Generating 3D Models from Single 2D Image without Rendering ( http://arxiv.org/abs/2103.03390v1 )

ライセンス: CC BY 4.0
Nikola Zubi\'c, Pietro Li\`o(参考訳) 微分レンダリングは、シングルビュー3Dレコンストラクションに適用できる非常に成功した技術である。 現在のレンダラーは、ある3d再構成されたオブジェクトのレンダリング画像と与えられた一致視点からの接地画像との間のピクセルによる損失を利用して、3d形状のパラメータを最適化する。 これらのモデルにはレンダリングステップと、シェーディングモデルの可視性処理と評価が必要である。 本稿の主目的は,これらのステップを回避し,既存のカテゴリ固有の再構築手法と同等あるいはそれ以上に優れた最先端モデルとして,再構築結果が得られることを示すことである。 まず、同じCNNアーキテクチャを使用して点群形状の予測を行い、Insafutdinov \& Dosovitskiyが使用するようなポーズ予測を行います。 第2に,再構成された3次元点雲の投影が地上真理物体のシルエットを如何にカバーしているかを評価する新しい有効損失関数を提案する。 次にポアソン表面再構成を用いて再構成された点雲を3次元メッシュに変換する。 最後に、特定の3Dメッシュ上でGANベースのテクスチャマッピングを行い、単一の2Dイメージからテクスチャ化された3Dメッシュを生成する。 本研究では,ShapeNet,CUB-200-2011,Pascal3D+などの異なるデータセット上で評価を行い,その性能,精度,トレーニング時間など,教師なしおよび教師なしの他の手法や3D表現よりも優れていることを示す。

Differentiable rendering is a very successful technique that applies to a Single-View 3D Reconstruction. Current renderers use losses based on pixels between a rendered image of some 3D reconstructed object and ground-truth images from given matched viewpoints to optimise parameters of the 3D shape. These models require a rendering step, along with visibility handling and evaluation of the shading model. The main goal of this paper is to demonstrate that we can avoid these steps and still get reconstruction results as other state-of-the-art models that are equal or even better than existing category-specific reconstruction methods. First, we use the same CNN architecture for the prediction of a point cloud shape and pose prediction like the one used by Insafutdinov \& Dosovitskiy. Secondly, we propose the novel effective loss function that evaluates how well the projections of reconstructed 3D point clouds cover the ground truth object's silhouette. Then we use Poisson Surface Reconstruction to transform the reconstructed point cloud into a 3D mesh. Finally, we perform a GAN-based texture mapping on a particular 3D mesh and produce a textured 3D mesh from a single 2D image. We evaluate our method on different datasets (including ShapeNet, CUB-200-2011, and Pascal3D+) and achieve state-of-the-art results, outperforming all the other supervised and unsupervised methods and 3D representations, all in terms of performance, accuracy, and training time.
翻訳日:2021-03-09 07:12:56 公開日:2021-03-05
# (参考訳) 3次元モデル埋め込みのための畳み込みアーキテクチャ

A Convolutional Architecture for 3D Model Embedding ( http://arxiv.org/abs/2103.03764v1 )

ライセンス: CC BY 4.0
Arniel Labrada, Benjamin Bustos, Ivan Sipiran(参考訳) 近年,3dモデル検索,3dモデル分類,3dモデルセグメンテーションなどのタスクにおいて,ポイントクラウドやボクセル,多角形メッシュなどの典型的な3d表現はレンダリング目的に適しているが,認知的プロセス(再評価,分類,セグメンテーション)の使用は冗長性や複雑性が高いため制限されている。 3Dモデルをインプットとして扱うディープラーニングアーキテクチャを提案します。 この階層構造を畳み込みニューラルネットワークや3dモデル埋め込み計算のためのオートエンコーダといった他の標準アーキテクチャと組み合わせる。 我々のゴールは、高レベルなタスクに3Dモデルを置き換えるのに十分な情報を持つベクトルとして3Dモデルを表現することである。 このベクトルは3dモデルの関連情報をキャプチャしようとする学習された再現であり、埋め込み表現が3dオブジェクトの類似性評価を扱うのに役立つ意味情報を伝達することを示す。 我々の経験は、3次元モデルデータセットの埋め込みを計算し、効果的な3次元モデル検索に利用することの利点を示している。

During the last years, many advances have been made in tasks like3D model retrieval, 3D model classification, and 3D model segmentation.The typical 3D representations such as point clouds, voxels, and poly-gon meshes are mostly suitable for rendering purposes, while their use forcognitive processes (retrieval, classification, segmentation) is limited dueto their high redundancy and complexity. We propose a deep learningarchitecture to handle 3D models as an input. We combine this architec-ture with other standard architectures like Convolutional Neural Networksand autoencoders for computing 3D model embeddings. Our goal is torepresent a 3D model as a vector with enough information to substitutethe 3D model for high-level tasks. Since this vector is a learned repre-sentation which tries to capture the relevant information of a 3D model,we show that the embedding representation conveys semantic informationthat helps to deal with the similarity assessment of 3D objects. Our ex-periments show the benefit of computing the embeddings of a 3D modeldata set and use them for effective 3D Model Retrieval.
翻訳日:2021-03-09 07:00:13 公開日:2021-03-05
# (参考訳) 多言語機械翻訳のための階層的トランスフォーマー

Hierarchical Transformer for Multilingual Machine Translation ( http://arxiv.org/abs/2103.03589v1 )

ライセンス: CC BY 4.0
Albina Khusainova, Adil Khan, Ad\'in Ram\'irez Rivera, Vitaly Romanov(参考訳) 多言語機械翻訳モデルにおけるパラメータ共有戦略の選択は、最適なパラメータ空間の使用方法を決定するため、最終的な翻訳品質に直接影響を及ぼす。 異なる言語間の関連性の程度を示す言語木に触発され、多言語機械翻訳におけるパラメータ共有に対する新しい一般的なアプローチが最近提案された。 主な考え方は、これらの専門家言語階層を多言語アーキテクチャの基礎として使うことである。 本研究では,Transformerアーキテクチャを用いてこのアイデアを検証し,従来の作業の成功にもかかわらず,そのような階層モデルのトレーニングに固有の問題があることを示す。 注意深く選択されたトレーニング戦略の場合、階層的アーキテクチャは、パラメータの完全な共有により、バイリンガルモデルや多言語モデルを上回ることができる。

The choice of parameter sharing strategy in multilingual machine translation models determines how optimally parameter space is used and hence, directly influences ultimate translation quality. Inspired by linguistic trees that show the degree of relatedness between different languages, the new general approach to parameter sharing in multilingual machine translation was suggested recently. The main idea is to use these expert language hierarchies as a basis for multilingual architecture: the closer two languages are, the more parameters they share. In this work, we test this idea using the Transformer architecture and show that despite the success in previous work there are problems inherent to training such hierarchical models. We demonstrate that in case of carefully chosen training strategy the hierarchical architecture can outperform bilingual models and multilingual models with full parameter sharing.
翻訳日:2021-03-09 06:49:08 公開日:2021-03-05
# (参考訳) DAGタスクのスケジュールの学習

Learning to Schedule DAG Tasks ( http://arxiv.org/abs/2103.03412v1 )

ライセンス: CC BY 4.0
Zhigang Hua, Feng Qi, Gan Liu and Shuang Yang(参考訳) 有向非巡回グラフ(DAG)で表される計算タスクのスケジューリングはその複雑さのため困難である。 従来のスケジューリングアルゴリズムは、最短のジョブファースト(SJF)やクリティカルパス(CP)といった単純なヒューリスティックに大きく依存しており、スケジューリング品質に欠けることが多い。 本稿では,DAGタスクのスケジューリングに新たな学習ベースアプローチを提案する。 このアルゴリズムでは、強化学習エージェントを使用して、DAGに1回ずつ有向エッジを反復的に追加し、"トリッキー"なジョブノードの順序付け(実行の優先順位とリソース割り当て)を実行する。 これにより、元のDAGスケジューリング問題は、SJFやCPなどのヒューリスティックスケジューリングアルゴリズムを効率的に改善できる、はるかに単純なプロキシ問題へと劇的に削減される。 本手法は既存のヒューリスティックスケジューリングアルゴリズムにも容易に適用できる。 TPC-Hのベンチマークデータセットから,我々の学習に基づくアプローチは,一般的なヒューリスティックアルゴリズムよりも大幅に向上し,様々な条件下でのいくつかの手法の最高の性能を一貫して達成できることを示す。

Scheduling computational tasks represented by directed acyclic graphs (DAGs) is challenging because of its complexity. Conventional scheduling algorithms rely heavily on simple heuristics such as shortest job first (SJF) and critical path (CP), and are often lacking in scheduling quality. In this paper, we present a novel learning-based approach to scheduling DAG tasks. The algorithm employs a reinforcement learning agent to iteratively add directed edges to the DAG, one at a time, to enforce ordering (i.e., priorities of execution and resource allocation) of "tricky" job nodes. By doing so, the original DAG scheduling problem is dramatically reduced to a much simpler proxy problem, on which heuristic scheduling algorithms such as SJF and CP can be efficiently improved. Our approach can be easily applied to any existing heuristic scheduling algorithms. On the benchmark dataset of TPC-H, we show that our learning based approach can significantly improve over popular heuristic algorithms and consistently achieves the best performance among several methods under a variety of settings.
翻訳日:2021-03-09 06:38:21 公開日:2021-03-05
# (参考訳) ニューラルネットワーク認証のための高精度マルチニューロアブストラクション

Precise Multi-Neuron Abstractions for Neural Network Certification ( http://arxiv.org/abs/2103.03638v1 )

ライセンス: CC BY 4.0
Mark Niklas M\"uller, Gleb Makarchuk, Gagandeep Singh, Markus P\"uschel, Martin Vechev(参考訳) ニューラルネットワークの形式的検証は、現実世界のアプリケーションで安全な適用のために重要である。 しかし、正確な方法で現実的なネットワークを処理できる検証器の設計は、オープンで難しい課題である。 本稿では,この課題に対処する上で大きな一歩を踏み出し,任意の非線形アクティベーションの凸近似を正確に計算する PRIMA という新しいフレームワークを提案する。 PRIMAは、計算幾何学の概念を利用して、ポリトープの凸殻を計算する新しい近似アルゴリズムに基づいている。 アルゴリズムは多項式複雑性を持ち、制約を少なくし、精度の損失を最小限に抑える。 ReLU, Sigmoid, Tanhアクティベーションを用いたチャレンジングニューラルネットワークにおけるPRIMAの有効性を評価する。 その結果、PRIMAは最先端のネットワークよりも大幅に正確であり、RELU-、Sigmoid-、Tanhベースのネットワークでの以前の作業よりも最大16%、30%、および34%の画像の堅牢性を検証しています。

Formal verification of neural networks is critical for their safe adoption in real-world applications. However, designing a verifier which can handle realistic networks in a precise manner remains an open and difficult challenge. In this paper, we take a major step in addressing this challenge and present a new framework, called PRIMA, that computes precise convex approximations of arbitrary non-linear activations. PRIMA is based on novel approximation algorithms that compute the convex hull of polytopes, leveraging concepts from computational geometry. The algorithms have polynomial complexity, yield fewer constraints, and minimize precision loss. We evaluate the effectiveness of PRIMA on challenging neural networks with ReLU, Sigmoid, and Tanh activations. Our results show that PRIMA is significantly more precise than the state-of-the-art, verifying robustness for up to 16%, 30%, and 34% more images than prior work on ReLU-, Sigmoid-, and Tanh-based networks, respectively.
翻訳日:2021-03-09 06:12:30 公開日:2021-03-05
# (参考訳) 地中真理存在下におけるモデルバイアスの測定

Measuring Model Biases in the Absence of Ground Truth ( http://arxiv.org/abs/2103.03417v1 )

ライセンス: CC BY 4.0
Osman Aka, Ken Burke, Alex B\"auerle, Christina Greer, Margaret Mitchell(参考訳) コンピュータビジョンの最近の進歩は、何万ものオブジェクトクラスを予測できる画像分類モデルの開発につながっている。 これらのモデルのトレーニングには数百万のサンプルが必要となり、数十億のアノテーションが要求されます。 しかし実際には、画像は概して微妙に注釈付けされ、収集された基底真理ラベルの分布に問題のあるバイアスをもたらす。 このアノテーションバイアスのポテンシャルは、基底真理依存の公平性指標(例えば等化オッズ)の有用性を制限する可能性がある。 この問題に対処するため,本研究では,根拠の真理ラベルに依存しない公平さとバイアスの測定に新たなフレーミングを導入する。 代わりに、与えられた画像のモデル予測をラベルの集合として扱い、自然言語処理(NLP)で使用される「単語のバグ」アプローチに類似する。 これにより、バイアスのパターンを検出するために、予測セット間で異なる関連メトリクスを探索できる。 本手法を用いて,データセット内の識別ラベルと他のすべてのラベルとの関係を,具体的な例として「男性」と「女性」に関連付けられたラベルを用いて検討する。 異なる相関指標の統計特性(特に正規化)が「ジェンダーバイアス」を持つと検出されたラベルの異なるセットにどのように導かれるかを示す。 統合確率 (npmi) によって正規化されたポイントワイズ相互情報では, 境界周波数の違いにもかかわらず, 有意な性別バイアスを持つ多くのラベルを検出できることを示した。 最後に、TensorBoardを使用したオープンソースnPMI視覚化ツールを発表しました。

Recent advances in computer vision have led to the development of image classification models that can predict tens of thousands of object classes. Training these models can require millions of examples, leading to a demand of potentially billions of annotations. In practice, however, images are typically sparsely annotated, which can lead to problematic biases in the distribution of ground truth labels that are collected. This potential for annotation bias may then limit the utility of ground truth-dependent fairness metrics (e.g., Equalized Odds). To address this problem, in this work we introduce a new framing to the measurement of fairness and bias that does not rely on ground truth labels. Instead, we treat the model predictions for a given image as a set of labels, analogous to a 'bag of words' approach used in Natural Language Processing (NLP). This allows us to explore different association metrics between prediction sets in order to detect patterns of bias. We apply this approach to examine the relationship between identity labels, and all other labels in the dataset, using labels associated with 'male' and 'female') as a concrete example. We demonstrate how the statistical properties (especially normalization) of the different association metrics can lead to different sets of labels detected as having "gender bias". We conclude by demonstrating that pointwise mutual information normalized by joint probability (nPMI) is able to detect many labels with significant gender bias despite differences in the labels' marginal frequencies. Finally, we announce an open-sourced nPMI visualization tool using TensorBoard.
翻訳日:2021-03-09 04:43:54 公開日:2021-03-05
# (参考訳) ドメイン適応のためのサイクル自己訓練

Cycle Self-Training for Domain Adaptation ( http://arxiv.org/abs/2103.03571v1 )

ライセンス: CC BY 4.0
Hong Liu and Jianmin Wang and Mingsheng Long(参考訳) 教師なしドメイン適応(UDA)に対するメインストリームアプローチは、ドメイン間のギャップを埋めるためにドメイン不変表現を学ぶ。 最近では、UDAの自己学習が勢いを増している。 半教師付き学習から派生したセルフトレーニングは、疑似ラベルのトレーニングによってラベルなしデータを効率的に利用します。 しかし、この研究で裏付けられたように、UDAの分布シフトの下で、疑似ラベルは地上の真理ラベルとの大きな相違の点では信頼できない。 そこで本研究では,疑似ラベルを一般化させる原理的自己学習アルゴリズムであるcycle self-training (cst)を提案する。 前進ステップでは、CSTはソース訓練された分類器でターゲット擬似ラベルを生成する。 逆ステップでは、CSTはターゲット擬似ラベルを使用してターゲット分類器を訓練し、共有表現を更新して、ターゲット分類器をソースデータ上で良好に動作させる。 ターゲット擬似ラベルの品質を向上させるための新しい正規化である tsallis entropy を導入する。 2次ニューラルネットワークでは、CSTがターゲットの真実を回復するのに対し、不変の特徴学習とバニラ自己学習はどちらも失敗する。 実験の結果、CSTは視覚認識や感情分析のタスクにまたがる標準的なUDAベンチマークにおいて、先行技術よりも大幅に改善されていることが示唆された。

Mainstream approaches for unsupervised domain adaptation (UDA) learn domain-invariant representations to bridge domain gap. More recently, self-training has been gaining momentum in UDA. Originated from semi-supervised learning, self-training uses unlabeled data efficiently by training on pseudo-labels. However, as corroborated in this work, under distributional shift in UDA, the pseudo-labels can be unreliable in terms of their large discrepancy from the ground truth labels. Thereby, we propose Cycle Self-Training (CST), a principled self-training algorithm that enforces pseudo-labels to generalize across domains. In the forward step, CST generates target pseudo-labels with a source-trained classifier. In the reverse step, CST trains a target classifier using target pseudo-labels, and then updates the shared representations to make the target classifier perform well on the source data. We introduce the Tsallis entropy, a novel regularization to improve the quality of target pseudo-labels. On quadratic neural networks, we prove that CST recovers target ground truth, while both invariant feature learning and vanilla self-training fail. Empirical results indicate that CST significantly improves over prior state-of-the-arts in standard UDA benchmarks across visual recognition and sentiment analysis tasks.
翻訳日:2021-03-09 04:29:15 公開日:2021-03-05
# (参考訳) 基底細胞癌(BCC)の皮膚病理学的評価を支援するセマンティックセグメンテーションのための深い監視UNet

Deeply supervised UNet for semantic segmentation to assist dermatopathological assessment of Basal Cell Carcinoma (BCC) ( http://arxiv.org/abs/2103.03759v1 )

ライセンス: CC BY 4.0
Jean Le'Clerc Arrastia, Nick Heilenk\"otter, Daniel Otero Baguer, Lena Hauberg-Lotte, Tobias Boskamp, Sonja Hetzer, Nicole Duschner, J\"org Schaller, and Peter Maa{\ss}(参考訳) 切除マージンの正確かつ迅速な評価は、皮膚病理学者の臨床ルーチンの重要な部分です。 本研究は,全スライド画像(WSI)に病的特徴を示す確率の高い重要な領域をマークすることで,病理医を支援する深層学習手法の開発に成功した。 unetアーキテクチャに基づく複数のモデルを用いた意味セグメンテーションによる基底細胞癌(bcc)の検出に焦点を当てた。 この研究には650のWSIと3443の組織セクションが含まれている。 2人の臨床皮膚病理医が、腫瘍組織の正確な位置を100 WSIで記録した。 残りの部分的なラベル付きデータは、モデルをさらに検証し、テストするために使用される。 我々は,UNetネットワークの最初の部分における2つの異なるエンコーダと,さらに2つのトレーニング戦略を解析する。a)Decoder出力の線形結合,b)Decoder出力の各ケースにおけるネットワークのデコーダの動作に関する解釈を得る。 最高のモデルは、テストセット上の96%、精度、感度、および特異性を達成します。

Accurate and fast assessment of resection margins is an essential part of a dermatopathologist's clinical routine. In this work, we successfully develop a deep learning method to assist the pathologists by marking critical regions that have a high probability of exhibiting pathological features in Whole Slide Images (WSI). We focus on detecting Basal Cell Carcinoma (BCC) through semantic segmentation using several models based on the UNet architecture. The study includes 650 WSI with 3443 tissue sections in total. Two clinical dermatopathologists annotated the data, marking tumor tissues' exact location on 100 WSI. The rest of the data, with ground-truth section-wise labels, is used to further validate and test the models. We analyze two different encoders for the first part of the UNet network and two additional training strategies: a) deep supervision, b) linear combination of decoder outputs, and obtain some interpretations about what the network's decoder does in each case. The best model achieves over 96%, accuracy, sensitivity, and specificity on the test set.
翻訳日:2021-03-09 04:00:03 公開日:2021-03-05
# (参考訳) 乳癌検診におけるトランスファーラーニングとウェーブレット変換の利用

Use of Transfer Learning and Wavelet Transform for Breast Cancer Detection ( http://arxiv.org/abs/2103.03602v1 )

ライセンス: CC BY 4.0
Ahmed Rasheed, Muhammad Shahzad Younis, Junaid Qadir and Muhammad Bilal(参考訳) 乳がんは女性の間で最も一般的な死因の1つである。 マンモグラフィーは、がんの早期発見に使用できる画像モダリティとして広く用いられている。 深層学習はマンモグラフィーで得られた画像中の癌塊の検出に広く用いられている。 データセットの感度特性により精度を向上させる必要性は一定であり、画像スキャンにおける重要な特徴を高めるためにセグメンテーションとウェーブレット変換を導入する。 提案システムは, がん検出のスクリーニング段階において, セグメンテーションとウェーブレット変換の組み合わせを前処理の強化として用い, ニューラルネットワークの伝達学習に寄与する。 これらの前処理技術により,Mini-MIASにおける検出精度を大幅に向上させる。

Breast cancer is one of the most common cause of deaths among women. Mammography is a widely used imaging modality that can be used for cancer detection in its early stages. Deep learning is widely used for the detection of cancerous masses in the images obtained via mammography. The need to improve accuracy remains constant due to the sensitive nature of the datasets so we introduce segmentation and wavelet transform to enhance the important features in the image scans. Our proposed system aids the radiologist in the screening phase of cancer detection by using a combination of segmentation and wavelet transforms as pre-processing augmentation that leads to transfer learning in neural networks. The proposed system with these pre-processing techniques significantly increases the accuracy of detection on Mini-MIAS.
翻訳日:2021-03-09 03:46:23 公開日:2021-03-05
# (参考訳) メタラーニングブラックボックス人口ベースオプティマイザ

Meta Learning Black-Box Population-Based Optimizers ( http://arxiv.org/abs/2103.03526v1 )

ライセンス: CC BY 4.0
Hugo Siqueira Gomes, Benjamin L\'eger and Christian Gagn\'e(参考訳) no free lunch定理は、どの問題にもより適したモデルはない、と述べる。 これから生じる疑問は、最先端のパフォーマンスを達成する特定の問題に合わせて最適化するメソッドを設計する方法だ。 本稿では,特定の問題のクラスに自動的に適応できる集団型ブラックボックスオプティマイザを推定するために,メタラーニングの利用を提案する。 特定の部分可観測マルコフ決定プロセス(POMDP)に基づくメタラーニングフレームワークであるLTO-POMDP(Learning-to-Optimize POMDP)を導出する集団ベースのアルゴリズムの一般モデルを提案する。 このフレームワークの定式化から,ディープリカレントニューラルネットワークを用いたアルゴリズムのパラメータ化と,確率アルゴリズムの性能に基づくメタロス関数を用いて,関連する最適化タスクに対する効率的なデータ駆動オプティマイザのトレーニングを提案する。 この実装に基づく学習オプティマイザの性能は、様々なブラックボックス最適化タスクと機械学習モデルのハイパーパラメータチューニングに基づいて評価される。 その結果,メタロス関数は学習アルゴリズムの探索動作を変化させ,新たなコンテキストに容易に適合できることを示した。 これにより、CMA-ES(Covariance matrix adapt evolution strategy)のような最先端の汎用最適化アルゴリズムよりも、より優れた一般化とサンプル効率を実現することができる。

The no free lunch theorem states that no model is better suited to every problem. A question that arises from this is how to design methods that propose optimizers tailored to specific problems achieving state-of-the-art performance. This paper addresses this issue by proposing the use of meta-learning to infer population-based black-box optimizers that can automatically adapt to specific classes of problems. We suggest a general modeling of population-based algorithms that result in Learning-to-Optimize POMDP (LTO-POMDP), a meta-learning framework based on a specific partially observable Markov decision process (POMDP). From that framework's formulation, we propose to parameterize the algorithm using deep recurrent neural networks and use a meta-loss function based on stochastic algorithms' performance to train efficient data-driven optimizers over several related optimization tasks. The learned optimizers' performance based on this implementation is assessed on various black-box optimization tasks and hyperparameter tuning of machine learning models. Our results revealed that the meta-loss function encourages a learned algorithm to alter its search behavior so that it can easily fit into a new context. Thus, it allows better generalization and higher sample efficiency than state-of-the-art generic optimization algorithms, such as the Covariance matrix adaptation evolution strategy (CMA-ES).
翻訳日:2021-03-09 03:33:19 公開日:2021-03-05
# (参考訳) MalBERT: サイバーセキュリティと悪意あるソフトウェア検出にトランスフォーマーを使う

MalBERT: Using Transformers for Cybersecurity and Malicious Software Detection ( http://arxiv.org/abs/2103.03806v1 )

ライセンス: CC BY 4.0
Abir Rahali and Moulay A. Akhloufi(参考訳) 近年、さまざまなプラットフォームでサイバー脅威や悪意のあるソフトウェア攻撃が増加し、人やビジネスに重要な影響を与えています。 マルウェアに対して積極的に防御する自動機械学習技術を見つけることが重要になっている。 注目に基づくディープラーニング技術のカテゴリであるTransformersは、自然言語処理(NLP)の分野を中心に、さまざまなタスクを解くという、目覚ましい成果を最近示した。 本稿では,トランスフォーマーアーキテクチャを用いて悪意のあるソフトウェアを自動的に検出する手法を提案する。 BERT(Bidirectional Encoder Representations from Transformers)に基づくモデルを提案し,既存のマルウェアを識別し,異なる代表的なマルウェアカテゴリに分類する前処理機能を用いて,Androidアプリケーションのソースコードの静的解析を行う。 得られた結果は、悪意のあるソフトウェア検出のためのTransformerベースのモデルによって得られた高い性能を示す。

In recent years we have witnessed an increase in cyber threats and malicious software attacks on different platforms with important consequences to persons and businesses. It has become critical to find automated machine learning techniques to proactively defend against malware. Transformers, a category of attention-based deep learning techniques, have recently shown impressive results in solving different tasks mainly related to the field of Natural Language Processing (NLP). In this paper, we propose the use of a Transformers' architecture to automatically detect malicious software. We propose a model based on BERT (Bidirectional Encoder Representations from Transformers) which performs a static analysis on the source code of Android applications using preprocessed features to characterize existing malware and classify it into different representative malware categories. The obtained results are promising and show the high performance obtained by Transformer-based models for malicious software detection.
翻訳日:2021-03-09 03:14:14 公開日:2021-03-05
# (参考訳) ランダム化Douglas-Rachford分割法によるフェデレーション学習

Federated Learning with Randomized Douglas-Rachford Splitting Methods ( http://arxiv.org/abs/2103.03452v1 )

ライセンス: CC BY 4.0
Nhan H. Pham, Lam M. Nguyen, Dzung T. Phan, Quoc Tran-Dinh(参考訳) 本稿では,フェデレート学習における基本非凸最適化問題を解くための2つの新しいアルゴリズム, \textbf{feddr} と \textbf{asyncfeddr} を開発した。 提案手法は,非凸douglas-rachford分割法,ランダム化ブロック座標戦略,非同期実装の新たな組み合わせに依拠する。 FedSplitやFedPDのような最近の文献の手法とは異なり、我々のアルゴリズムは各通信ラウンドにおけるユーザーのサブセットのみを更新し、おそらく非同期モードで更新し、より実用的になる。 これらの新しいアルゴリズムは通信効率も達成し、さらに重要なことは、フェデレート学習における2つの主要な課題である統計的およびシステム不均一性を扱うことができる。 コンバージェンス解析により,新しいアルゴリズムは,標準仮定下での定数係数まで低い通信複雑性に適合することが示された。 数値実験により,合成データと実データの両方を用いた既存手法と比較して,提案手法の利点を示す。

In this paper, we develop two new algorithms, called, \textbf{FedDR} and \textbf{asyncFedDR}, for solving a fundamental nonconvex optimization problem in federated learning. Our algorithms rely on a novel combination between a nonconvex Douglas-Rachford splitting method, randomized block-coordinate strategies, and asynchronous implementation. Unlike recent methods in the literature, e.g., FedSplit and FedPD, our algorithms update only a subset of users at each communication round, and possibly in an asynchronous mode, making them more practical. These new algorithms also achieve communication efficiency and more importantly can handle statistical and system heterogeneity, which are the two main challenges in federated learning. Our convergence analysis shows that the new algorithms match the communication complexity lower bound up to a constant factor under standard assumptions. Our numerical experiments illustrate the advantages of the proposed methods compared to existing ones using both synthetic and real datasets.
翻訳日:2021-03-09 03:03:52 公開日:2021-03-05
# (参考訳) 西森はBetheに会う:スパース重み付きグラフにおけるノード分類のスペクトル法

Nishimori meets Bethe: a spectral method for node classification in sparse weighted graphs ( http://arxiv.org/abs/2103.03561v1 )

ライセンス: CC BY 4.0
Lorenzo Dall'Amico, Romain Couillet, Nicolas Tremblay(参考訳) This article unveils a new relation between the Nishimori temperature parametrizing a distribution P and the Bethe free energy on random Erdos-Renyi graphs with edge weights distributed according to P. Estimating the Nishimori temperature being a task of major importance in Bayesian inference problems, as a practical corollary of this new relation, a numerical method is proposed to accurately estimate the Nishimori temperature from the eigenvalues of the Bethe Hessian matrix of the weighted graph. このアルゴリズムは、重み付きグラフ(おそらくスパース)におけるノード分類の新しいスペクトル法を提案するのに用いられる。 競合する最先端のアプローチに対する方法の優位性は、理論的な議論と実世界のデータ実験の両方によって示されています。

This article unveils a new relation between the Nishimori temperature parametrizing a distribution P and the Bethe free energy on random Erdos-Renyi graphs with edge weights distributed according to P. Estimating the Nishimori temperature being a task of major importance in Bayesian inference problems, as a practical corollary of this new relation, a numerical method is proposed to accurately estimate the Nishimori temperature from the eigenvalues of the Bethe Hessian matrix of the weighted graph. The algorithm, in turn, is used to propose a new spectral method for node classification in weighted (possibly sparse) graphs. The superiority of the method over competing state-of-the-art approaches is demonstrated both through theoretical arguments and real-world data experiments.
翻訳日:2021-03-09 00:44:16 公開日:2021-03-05
# (参考訳) 非平衡ミニバッチ最適輸送;ドメイン適応への応用

Unbalanced minibatch Optimal Transport; applications to Domain Adaptation ( http://arxiv.org/abs/2103.03606v1 )

ライセンス: CC BY 4.0
Kilian Fatras, Thibault S\'ejourn\'e, Nicolas Courty, R\'emi Flamary(参考訳) 最適輸送距離は、非パラメトリック確率分布を比較するための機械学習の能力に多くの応用を見出した。 しかし、アルゴリズムの複雑さは一般的に大規模なデータセットでの使用を妨げている。 この問題を緩和するための可能な戦略の中で、実践者はデータのサブセット上のこれらの距離の計算推定に頼ることができる。 ミニバッチ。 計算上は魅力的だが,本論文ではこの戦略の限界を強調し,好ましくない平滑化効果をもたらす可能性があることを指摘する。 代替案として,同じミニバッチ戦略と不均衡な最適輸送が組み合わさることで,より堅牢な行動が得られることを示唆する。 偏りのない推定子,勾配の存在,濃度境界など,関連する理論的性質について考察する。 実験により, 領域適応に関する課題において, 不均衡な最適移動の利用は, 最近のベースラインと競合するか, はるかに良好な結果をもたらすことが示された。

Optimal transport distances have found many applications in machine learning for their capacity to compare non-parametric probability distributions. Yet their algorithmic complexity generally prevents their direct use on large scale datasets. Among the possible strategies to alleviate this issue, practitioners can rely on computing estimates of these distances over subsets of data, {\em i.e.} minibatches. While computationally appealing, we highlight in this paper some limits of this strategy, arguing it can lead to undesirable smoothing effects. As an alternative, we suggest that the same minibatch strategy coupled with unbalanced optimal transport can yield more robust behavior. We discuss the associated theoretical properties, such as unbiased estimators, existence of gradients and concentration bounds. Our experimental study shows that in challenging problems associated to domain adaptation, the use of unbalanced optimal transport leads to significantly better results, competing with or surpassing recent baselines.
翻訳日:2021-03-09 00:07:18 公開日:2021-03-05
# (参考訳) 機械学習による保険料自動校正とツイーディ・マディナンス

Autocalibration and Tweedie-dominance for Insurance Pricing with Machine Learning ( http://arxiv.org/abs/2103.03635v1 )

ライセンス: CC BY 4.0
Michel Denuit and Arthur Charpentier and Julien Trufin(参考訳) 強化技術やニューラルネットワークは、特に保険価格の効果的な機械学習方法です。 多くの場合、機械学習モデルのトレーニングに使用する適切な損失関数の選択や、競合するモデルのパフォーマンスを評価するための適切なメトリックについて、無限に議論されている。 また、適合値の総和は観測された総和から大きく離れる可能性があり、これはしばしば時間的アナリストを混乱させる。 標準リンク設定による慣れ親しんだGLM外部の偏差を最小化することで、トレーニングモデル固有のバランスの欠如が、W\'uthrich (2019, 2020) で実証的に記録され、モデルフィッティングの勾配降下法における早期停止則に起因している。 本稿では,Tweedie Devianceを最小化することにより,学習が進むにつれて,この現象をさらに研究することを目的とする。 逸脱の最小化には, 下位部分モーメントの重み付き差分の積分と, 特定のスケールで測定されたバイアスとのトレードオフが伴うことが示された。 自動校正は治療として提案される。 バイアスを補正する新しい手法は、解析にさらに局所的なGLMステップを追加する。 理論的には、純粋にプレミアムな計算で自己校正の概念を実装し、既存のバイアス補正技術と同様にポートフォリオレベルだけでなく、局所的なスケールでもバランスが保たれることを保証する。 凸オーダーは競合するモデルを比較する自然なツールのようで、Denuitらによって提案された診断グラフと関連するメトリクスに新たな光を当てている。 (2019).

Boosting techniques and neural networks are particularly effective machine learning methods for insurance pricing. Often in practice, there are nevertheless endless debates about the choice of the right loss function to be used to train the machine learning model, as well as about the appropriate metric to assess the performances of competing models. Also, the sum of fitted values can depart from the observed totals to a large extent and this often confuses actuarial analysts. The lack of balance inherent to training models by minimizing deviance outside the familiar GLM with canonical link setting has been empirically documented in W\"uthrich (2019, 2020) who attributes it to the early stopping rule in gradient descent methods for model fitting. The present paper aims to further study this phenomenon when learning proceeds by minimizing Tweedie deviance. It is shown that minimizing deviance involves a trade-off between the integral of weighted differences of lower partial moments and the bias measured on a specific scale. Autocalibration is then proposed as a remedy. This new method to correct for bias adds an extra local GLM step to the analysis. Theoretically, it is shown that it implements the autocalibration concept in pure premium calculation and ensures that balance also holds on a local scale, not only at portfolio level as with existing bias-correction techniques. The convex order appears to be the natural tool to compare competing models, putting a new light on the diagnostic graphs and associated metrics proposed by Denuit et al. (2019).
翻訳日:2021-03-08 23:09:14 公開日:2021-03-05
# (参考訳) エッジにおける環境音の分類 : 超資源制約型デバイスのための深層音響ネットワーク

Environmental Sound Classification on the Edge: Deep Acoustic Networks for Extremely Resource-Constrained Devices ( http://arxiv.org/abs/2103.03483v1 )

ライセンス: CC BY 4.0
Md Mohaimenuzzaman, Christoph Bergmeir, Ian Thomas West and Bernd Meyer(参考訳) デスクトップとクラウドシステムの分類と認識能力を直接エッジデバイスに持ち込むことに、重要な努力が注がれている。 エッジ上のディープラーニングの主な課題は、極端なリソース制約(メモリ、CPU速度、GPUサポートの欠如)に対処することです。 ESC-50では,大規模でリソース制約のないネットワークの評価に使用したのと同じベンチマークで,最先端の性能に近づいた音声分類のためのエッジソリューションを提案する。 重要なのは、エッジデバイス用のthenetworkを特に設計していないことです。 そこで本研究では,大規模深層畳み込みニューラルネットワーク(cnn)を圧縮と量子化によって自動的に変換するuniversalpipelineを提案する。 まず,ESC-10 と ESC-50 でそれぞれ96.75% と87.05% の精度を実現する新しい音響分類アーキテクチャ ACDNet を導入する。 次に,ネットワークに依存しない新しいアプローチを用いてACDNetを圧縮し,極めて小さなモデルを得る。 97.22%の小型化と97.28%のFLOP削減にもかかわらず、圧縮ネットワークはESC-50で82.90%の精度を達成し、最先端のものにとどまっている。 8ビット量子化を用いて,標準マイクロコントローラユニット(MCU)にACD-Netをデプロイする。 私たちの知る限りでは、エッジデバイス上で50クラスの音響分類のためのディープネットワークがうまくデプロイされたのは、これが初めてです。 これは、それ自身には興味があるはずですが、ミニマルサイズのネットワークを手作りするよりも、普遍的な収束パイプラインで達成された、特別な命令であると考えています。

Significant efforts are being invested to bring the classification and recognition powers of desktop and cloud systemsdirectly to edge devices. The main challenge for deep learning on the edge is to handle extreme resource constraints(memory, CPU speed and lack of GPU support). We present an edge solution for audio classification that achieves close to state-of-the-art performance on ESC-50, the same benchmark used to assess large, non resource-constrained networks. Importantly, we do not specifically engineer thenetwork for edge devices. Rather, we present a universalpipeline that converts a large deep convolutional neuralnetwork (CNN) automatically via compression and quantization into a network suitable for resource-impoverishededge devices. We first introduce a new sound classification architecture, ACDNet, that produces above state-of-the-art accuracy on both ESC-10 and ESC-50 which are 96.75% and 87.05% respectively. We then compress ACDNet using a novel network-independent approach to obtain an extremely small model. Despite 97.22% size reduction and 97.28% reduction in FLOPs, the compressed network still achieves 82.90% accuracy on ESC-50, staying close to the state-of-the-art. Using 8-bit quantization, we deploy ACD-Net on standard microcontroller units (MCUs). To the best of our knowledge, this is the first time that a deep network for sound classification of 50 classes has successfully been deployed on an edge device. While this should be of interestin its own right, we believe it to be of particular impor-tance that this has been achieved with a universal conver-sion pipeline rather than hand-crafting a network for mini-mal size.
翻訳日:2021-03-08 23:08:06 公開日:2021-03-05
# (参考訳) Generative Adversarial Networkに基づく太陽電池品質検査のための異常検出と自動ラベル付け

Anomaly detection and automatic labeling for solar cell quality inspection based on Generative Adversarial Network ( http://arxiv.org/abs/2103.03518v1 )

ライセンス: CC BY-SA 4.0
Balzategui Julen, Eciolaza Luka, Maestro-Watson Daniel(参考訳) 本稿では,太陽電池の欠陥検出のための検査システムを開発するためのパイプラインを提案する。 第1フェーズでは、異常検出のために医療領域で使用されているGAN(Generative Adversarial Network)が、検出率の向上と処理速度の低下のための検査に適応されます。 この最初のアプローチでは、トレーニングに欠陥サンプルを必要としないモデルを得ることができ、新しい生産ラインの開始時から異常細胞の検出と配置を開始することができる。 次に第2段階では、不良サンプルが発生すると、訓練されたモデルで自動的にピクセルレベルでラベル付けされ、第2モデルの監督トレーニングに使用されます。 実験の結果, 自動生成ラベルの使用は, 異常検出モデルや, 専門家による手作業ラベルによる学習モデルに対して, 検出率を向上できることがわかった。

In this manuscript, a pipeline to develop an inspection system for defect detection of solar cells is proposed. The pipeline is divided into two phases: In the first phase, a Generative Adversarial Network (GAN) employed in the medical domain for anomaly detection is adapted for inspection improving the detection rate and reducing the processing rates. This initial approach allows obtaining a model that does not require defective samples for training and can start detecting and location anomaly cells from the very beginning of a new production line. Then, in a second stage, as defective samples arise, they will be automatically labeled at pixel-level with the trained model and employed for supervised training of a second model. The experimental results show that the use of such automatically generated labels can improve the detection rates with respect to the anomaly detection model and the model trained on manual labels made by experts.
翻訳日:2021-03-08 22:47:58 公開日:2021-03-05
# (参考訳) 文中の複数関係の高速抽出のためのデュアルポインタネットワーク

Dual Pointer Network for Fast Extraction of Multiple Relations in a Sentence ( http://arxiv.org/abs/2103.03509v1 )

ライセンス: CC BY-SA 4.0
Seongsik Park and Harksoo Kim(参考訳) 関係抽出は、文中のエンティティ間の意味的関係を認識する情報抽出タスクの一種である。 これまでの多くの研究は、1つの文中の2つのエンティティ間の意味関係を1つだけ抽出することに焦点を当ててきた。 しかし、文中の複数の実体は様々な関係を通じて関連づけられる。 そこで本研究では,マルチヘッドアテンション機構を備えたデュアルポインタネットワークに基づく関係抽出モデルを提案する。 提案モデルは、フォワードオブジェクトデコーダを用いて n-to-1 対象関係を見つける。 そして、後向きの被写体デコーダを用いて1対nの被写体オブジェクト関係を求める。 実験では、提案されたモデルは、ACE-2005コーパスのF1スコアが80.8%、NYTコーパスのF1スコアが78.3%であった。

Relation extraction is a type of information extraction task that recognizes semantic relationships between entities in a sentence. Many previous studies have focused on extracting only one semantic relation between two entities in a single sentence. However, multiple entities in a sentence are associated through various relations. To address this issue, we propose a relation extraction model based on a dual pointer network with a multi-head attention mechanism. The proposed model finds n-to-1 subject-object relations using a forward object decoder. Then, it finds 1-to-n subject-object relations using a backward subject decoder. Our experiments confirmed that the proposed model outperformed previous models, with an F1-score of 80.8% for the ACE-2005 corpus and an F1-score of 78.3% for the NYT corpus.
翻訳日:2021-03-08 22:28:29 公開日:2021-03-05
# (参考訳) CQAにおける回答ランク付けのためのグラフベーストリアテンションネットワーク

Graph-Based Tri-Attention Network for Answer Ranking in CQA ( http://arxiv.org/abs/2103.03583v1 )

ライセンス: CC BY 4.0
Wei Zhang, Zeyuan Chen, Chao Dong, Wen Wang, Hongyuan Zha, Jianyong Wang(参考訳) コミュニティベースの質問応答 (CQA) プラットフォームでは,質問に対する自動回答ランキングが早期に人気がある可能性のある回答を見つける上で重要である。 主流のアプローチは、質問と回答の表現の一致度と回答者の影響に基づいて答えのランキングスコアを生成することを学びます。 しかし、それらは2つの主な制限に遭遇する: (1)同じ質問における回答間の相関はしばしば見過ごされる。 2) 質問応答表現は, 回答表現に影響を及ぼす前に, 特定の回答とは独立して構築される。 この制限に対処するため、グラフベースの新しいトリアテンションネットワーク、すなわち2つのイノベーションを持つGTANを考案した。 まず、GTANは各質問に対するグラフを構築し、グラフニューラルネットワーク(GNN)を介して各グラフから回答相関を学習することを提案する。 第二に,gnnsから得られた表現に基づいて,ターゲット対応応答表現,回答固有質問表現,文脈対応応答表現を交互に構築する手法を開発した。 GTANは最終的に上記の表現を統合し、回答ランキングスコアを生成する。 実世界の3つのCQAデータセットの実験では、GTANは最先端の回答ランキング法を著しく上回り、ネットワークアーキテクチャの合理性を検証する。

In community-based question answering (CQA) platforms, automatic answer ranking for a given question is critical for finding potentially popular answers in early times. The mainstream approaches learn to generate answer ranking scores based on the matching degree between question and answer representations as well as the influence of respondents. However, they encounter two main limitations: (1) Correlations between answers in the same question are often overlooked. (2) Question and respondent representations are built independently of specific answers before affecting answer representations. To address the limitations, we devise a novel graph-based tri-attention network, namely GTAN, which has two innovations. First, GTAN proposes to construct a graph for each question and learn answer correlations from each graph through graph neural networks (GNNs). Second, based on the representations learned from GNNs, an alternating tri-attention method is developed to alternatively build target-aware respondent representations, answer-specific question representations, and context-aware answer representations by attention computation. GTAN finally integrates the above representations to generate answer ranking scores. Experiments on three real-world CQA datasets demonstrate GTAN significantly outperforms state-of-the-art answer ranking methods, validating the rationality of the network architecture.
翻訳日:2021-03-08 22:15:28 公開日:2021-03-05
# (参考訳) インドネシアのアスペクトベース感性分析のための微調整事前訓練多言語BERTモデル

Fine-tuning Pretrained Multilingual BERT Model for Indonesian Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2103.03732v1 )

ライセンス: CC BY-SA 4.0
Annisa Nurul Azhar and Masayu Leylia Khodra(参考訳) ホテルドメインにおけるインドネシア語レビューに対するAspect-based Sentiment Analysis (ABSA) に関する以前の研究はCNNとXGBoostを用いて実施されているが、そのモデルはテストデータではあまり一般化されておらず、OOVワードの多さは誤分類事件に貢献した。 現在、多くのNLPタスクに対する最先端の成果は、事前訓練された言語表現を利用することで達成されている。 本稿では,インドネシアのレビューデータセットにおいて,最も先進的な言語表現モデルであるBERTをABSAに組み込むことを目的としている。 マルチリンガルBERT(m-BERT)とタスク変換法を組み合わせることで、これまでの研究結果と比較して、F1スコアで8%の大幅な改善を達成しました。

Although previous research on Aspect-based Sentiment Analysis (ABSA) for Indonesian reviews in hotel domain has been conducted using CNN and XGBoost, its model did not generalize well in test data and high number of OOV words contributed to misclassification cases. Nowadays, most state-of-the-art results for wide array of NLP tasks are achieved by utilizing pretrained language representation. In this paper, we intend to incorporate one of the foremost language representation model, BERT, to perform ABSA in Indonesian reviews dataset. By combining multilingual BERT (m-BERT) with task transformation method, we manage to achieve significant improvement by 8% on the F1-score compared to the result from our previous study.
翻訳日:2021-03-08 21:59:04 公開日:2021-03-05
# (参考訳) インドネシアニュース記事のセマンティックロールラベルとセマンティックグラフを用いた多文書要約

Multi-document Summarization using Semantic Role Labeling and Semantic Graph for Indonesian News Article ( http://arxiv.org/abs/2103.03736v1 )

ライセンス: CC BY-SA 4.0
Yuly Haruka Berliana Gunawan and Masayu Leylia Khodra(参考訳) 本稿では,インドネシアのニュース記事に対する意味ロールラベリング(srl)と意味グラフを用いた複数文書要約システムを提案する。 既存の要約器を改善するために, 主語, 述語, 目的語, 副詞(SVOA)抽出を用いて, 述語引数構造(PAS)抽出を行った。 SVOA抽出はインドネシアのSRLモデルに置き換えられた。 また,遺伝的アルゴリズムを伴わない要約器の性能が向上するため,決定木分類器に重要なpasを同定する遺伝的アルゴリズムを置き換えた。 決定木モデルは重要なPASを特定するのに用いられる。 10 つの特徴を持つ決定木モデルは 4 つの文特徴を持つ決定木よりも優れた性能を得た。 実験と評価を行い,100単語要約と200単語要約を生成する。 提案モデルでは,100語で平均ROUGE-2リコールが0.313,200語で平均ROUGE-2リコールが0.394となった。

In this paper, we proposed a multi-document summarization system using semantic role labeling (SRL) and semantic graph for Indonesian news articles. In order to improve existing summarizer, our system modified summarizer that employed subject, predicate, object, and adverbial (SVOA) extraction for predicate argument structure (PAS) extraction. SVOA extraction is replaced with SRL model for Indonesian. We also replace the genetic algorithm to identify important PAS with the decision tree classifier since the summarizer without genetic algorithm gave better performance. The decision tree model is employed to identify important PAS. The decision tree model with 10 features achieved better performance than decision tree with 4 sentence features. Experiments and evaluations are conducted to generate 100 words summary and 200 words summary. The evaluation shows the proposed model get 0.313 average ROUGE-2 recall in 100 words summary and 0.394 average ROUGE-2 recall in 200 words summary.
翻訳日:2021-03-08 21:48:34 公開日:2021-03-05
# (参考訳) 昔は悪い詩人がいて 自動化されましたが 知らなかったでしょう

There Once Was a Really Bad Poet, It Was Automated but You Didn't Know It ( http://arxiv.org/abs/2103.03775v1 )

ライセンス: CC BY 4.0
Jianyou Wang, Xiaoxuan Zhang, Yuren Zhou, Christopher Suh, Cynthia Rudin(参考訳) 詩は韻、ストレス、メーターに制約を課しながら、わずか5行で物語を語らなければならないため、リメリック世代は詩の世代で直面した最も困難な課題のいくつかを例示している。 これらの課題に対処するために,我々は,最先端のニューラルネットワークベースの詩モデルと先行するルールベースの詩モデルに勝る,新しい,完全に自動化されたライムリック生成システムlimgenを紹介する。 limgenは3つの重要なピースから成り立っている: 現実的な詩の空間への探索を制約する適応的マルチテンプレート制約アルゴリズム、空間を効率的に探索するマルチテンプレートビーム探索アルゴリズム、そしてユーザーが提供するプロンプトワードに関連するコヒーレントなストーリーラインを提供する確率的ストーリーラインアルゴリズム。 結果として生じるライムリックは詩的な制約を満たし、テーマ的に一貫性のあるストーリーラインを持ちます。

Limerick generation exemplifies some of the most difficult challenges faced in poetry generation, as the poems must tell a story in only five lines, with constraints on rhyme, stress, and meter. To address these challenges, we introduce LimGen, a novel and fully automated system for limerick generation that outperforms state-of-the-art neural network-based poetry models, as well as prior rule-based poetry models. LimGen consists of three important pieces: the Adaptive Multi-Templated Constraint algorithm that constrains our search to the space of realistic poems, the Multi-Templated Beam Search algorithm which searches efficiently through the space, and the probabilistic Storyline algorithm that provides coherent storylines related to a user-provided prompt word. The resulting limericks satisfy poetic constraints and have thematically coherent storylines, which are sometimes even funny (when we are lucky).
翻訳日:2021-03-08 21:39:50 公開日:2021-03-05
# (参考訳) AnswerQuest: マルチパラグラフ文書から質問応答項目を生成するシステム

AnswerQuest: A System for Generating Question-Answer Items from Multi-Paragraph Documents ( http://arxiv.org/abs/2103.03820v1 )

ライセンス: CC BY 4.0
Melissa Roemmele, Deep Sidhpura, Steve DeNeefe and Ling Tsou(参考訳) 読みやすくするための戦略の1つは、質問と回答の形式で情報を提示することです。 本稿では,質問応答タスク(QA)と質問生成タスク(QG)を統合し,複数のパラグラフ文書の内容を伝えるQ&A項目を生成するシステムについてデモする。 両タスクの改善をもたらすQAとQGに関するいくつかの実験を報告し、テキストのQ&A項目のリストを作成するための相互作用を評価します。 デモはqna.sdl.comで閲覧できる。

One strategy for facilitating reading comprehension is to present information in a question-and-answer format. We demo a system that integrates the tasks of question answering (QA) and question generation (QG) in order to produce Q&A items that convey the content of multi-paragraph documents. We report some experiments for QA and QG that yield improvements on both tasks, and assess how they interact to produce a list of Q&A items for a text. The demo is accessible at qna.sdl.com.
翻訳日:2021-03-08 21:13:14 公開日:2021-03-05
# (参考訳) 単語定義による貧弱な単語埋め込みの克服

Overcoming Poor Word Embeddings with Word Definitions ( http://arxiv.org/abs/2103.03842v1 )

ライセンス: CC BY-SA 4.0
Christopher Malon(参考訳) 現代の自然言語理解モデルは、事前学習されたサブワード埋め込みに依存するが、アプリケーションは、事前学習中に見られなかったり、滅多に見られない単語を判断する必要がある。 より稀な単語に依存する例は、自然言語推論モデルにおいてより困難であることを示す。 そして、モデルがこのハンディキャップを克服するために、自然文で提供される定義をどう使うかを学ぶ。 モデルの定義に対する理解は通常、よくモデル化された単語埋め込みよりも弱いが、完全に訓練されていない単語の使用からパフォーマンスのギャップの大部分を回復する。

Modern natural language understanding models depend on pretrained subword embeddings, but applications may need to reason about words that were never or rarely seen during pretraining. We show that examples that depend critically on a rarer word are more challenging for natural language inference models. Then we explore how a model could learn to use definitions, provided in natural text, to overcome this handicap. Our model's understanding of a definition is usually weaker than a well-modeled word embedding, but it recovers most of the performance gap from using a completely untrained word.
翻訳日:2021-03-08 20:59:48 公開日:2021-03-05
# (参考訳) 視覚認識のための人間理解型意思決定

Human-Understandable Decision Making for Visual Recognition ( http://arxiv.org/abs/2103.03429v1 )

ライセンス: CC BY 4.0
Xiaowei Zhou, Jie Yin, Ivor Tsang and Chen Wang(参考訳) ディープニューラルネットワークの広範な利用は多くのタスクで大きな成功を収めている。 しかし、深層学習モデルの動作メカニズムと人間の理解可能な意思決定との間には大きなギャップがあるため、人間がこれらのモデルによる予測を完全に信頼できない。 これまで、人間の理解可能なモデルを訓練するために、深層学習モデルの行動と人間の知覚を連携させる方法についてはほとんど研究されていない。 このギャップを埋めるために,人間の知覚の先行をモデル学習プロセスに組み込むことにより,深層ニューラルネットワークを訓練するための新しい枠組みを提案する。 提案モデルは,画像から概念的部分を認識し,それらの相対的貢献度を評価する過程を模倣する。 提案モデルの有効性を2つの古典的視覚認識タスクで評価する。 実験結果と分析により,本モデルが予測の解釈可能な説明を提供すると同時に,競合認識精度も維持できることを確認した。

The widespread use of deep neural networks has achieved substantial success in many tasks. However, there still exists a huge gap between the operating mechanism of deep learning models and human-understandable decision making, so that humans cannot fully trust the predictions made by these models. To date, little work has been done on how to align the behaviors of deep learning models with human perception in order to train a human-understandable model. To fill this gap, we propose a new framework to train a deep neural network by incorporating the prior of human perception into the model learning process. Our proposed model mimics the process of perceiving conceptual parts from images and assessing their relative contributions towards the final recognition. The effectiveness of our proposed model is evaluated on two classical visual recognition tasks. The experimental results and analysis confirm our model is able to provide interpretable explanations for its predictions, but also maintain competitive recognition accuracy.
翻訳日:2021-03-08 20:51:48 公開日:2021-03-05
# (参考訳) 貢献の可視性向上による共有人工知能モデルの透明性向上のためのフレームワーク

A framework for fostering transparency in shared artificial intelligence models by increasing visibility of contributions ( http://arxiv.org/abs/2103.03610v1 )

ライセンス: CC BY 4.0
Iain Barclay, Harrison Taylor, Alun Preece, Ian Taylor, Dinesh Verma, Geeth de Mel(参考訳) 人工知能(AI)システムを科学的なワークフローに導入すると、AIシステムコンポーネントを開発するデータサイエンティストと科学者、研究者、その他のユーザーの間の距離が大きくなるにつれて、技術的負債が増加します。 特にガイダンスや規制が変化し、一度受け入れ可能なベストプラクティスが時代遅れになる場合や、データソースが後にバイアスや不正確なものとして信用される場合などである。 本稿では,ユーザ,監査人,その他の利害関係者が,信頼するAIシステムのデータソースやコントリビュータを検証し,信頼できることを確信できるような,AIシステム生成に使用されるプロセスパイプラインの全体的な透明性をランク付けできる定量化可能なメトリクスの導出方法を提案する。 The methodology for calculating the metric, and the type of criteria that could be used to make judgements on the visibility of contributions to systems are evaluated through models published at ModelHub and PyTorch Hub, popular archives for sharing science resources, and is found to be helpful in driving consideration of the contributions made to generating AI systems and approaches towards effective documentation and improving transparency in machine learning assets shared within scientific communities.

Increased adoption of artificial intelligence (AI) systems into scientific workflows will result in an increasing technical debt as the distance between the data scientists and engineers who develop AI system components and scientists, researchers and other users grows. This could quickly become problematic, particularly where guidance or regulations change and once-acceptable best practice becomes outdated, or where data sources are later discredited as biased or inaccurate. This paper presents a novel method for deriving a quantifiable metric capable of ranking the overall transparency of the process pipelines used to generate AI systems, such that users, auditors and other stakeholders can gain confidence that they will be able to validate and trust the data sources and contributors in the AI systems that they rely on. The methodology for calculating the metric, and the type of criteria that could be used to make judgements on the visibility of contributions to systems are evaluated through models published at ModelHub and PyTorch Hub, popular archives for sharing science resources, and is found to be helpful in driving consideration of the contributions made to generating AI systems and approaches towards effective documentation and improving transparency in machine learning assets shared within scientific communities.
翻訳日:2021-03-08 20:41:14 公開日:2021-03-05
# (参考訳) 完全畳み込みネットワークへのスーパーピクセルセグメンテーションの暗黙的統合

Implicit Integration of Superpixel Segmentation into Fully Convolutional Networks ( http://arxiv.org/abs/2103.03435v1 )

ライセンス: CC BY 4.0
Teppei Suzuki(参考訳) スーパーピクセルは画像データの複雑さを減らすのに有用な表現である。 しかし、スーパーピクセルと畳み込みニューラルネットワーク(CNN)をエンドツーエンドで組み合わせるためには、スーパーピクセルを生成するための余分なモデルとグラフ畳み込みのような特別な操作が必要である。 本稿では,スーパーピクセル方式をCNNに暗黙的に統合する手法を提案する。 提案手法は,ダウンサンプリング層で画素を階層的にグループ化し,スーパーピクセルを生成する。 提案手法は,フィードフォワードパスにスーパーピクセルを使用せず,バイリニアアップサンプリングではなく,消失した解像度を復元するために使用するため,フィードフォワードパスを変更することなく,既存の多くのアーキテクチャにプラグインすることができる。 その結果,本手法は,下地層を含むモデルであっても,オブジェクト境界などの詳細な情報をスーパーピクセルの形で保存する。 本手法は,セマンティックセグメンテーション,スーパーピクセルセグメンテーション,単眼深度推定などのいくつかのタスクで評価し,現代のアーキテクチャの高速化や予測精度の向上を検証した。

Superpixels are a useful representation to reduce the complexity of image data. However, to combine superpixels with convolutional neural networks (CNNs) in an end-to-end fashion, one requires extra models to generate superpixels and special operations such as graph convolution. In this paper, we propose a way to implicitly integrate a superpixel scheme into CNNs, which makes it easy to use superpixels with CNNs in an end-to-end fashion. Our proposed method hierarchically groups pixels at downsampling layers and generates superpixels. Our method can be plugged into many existing architectures without a change in their feed-forward path because our method does not use superpixels in the feed-forward path but use them to recover the lost resolution instead of bilinear upsampling. As a result, our method preserves detailed information such as object boundaries in the form of superpixels even when the model contains downsampling layers. We evaluate our method on several tasks such as semantic segmentation, superpixel segmentation, and monocular depth estimation, and confirm that it speeds up modern architectures and/or improves their prediction accuracy in these tasks.
翻訳日:2021-03-08 20:21:32 公開日:2021-03-05
# (参考訳) 教師が教えるよりも、画像と画像のモデルを圧縮する

Teachers Do More Than Teach: Compressing Image-to-Image Models ( http://arxiv.org/abs/2103.03467v1 )

ライセンス: CC BY 4.0
Qing Jin, Jian Ren, Oliver J. Woodford, Jiazhuo Wang, Geng Yuan, Yanzhi Wang, Sergey Tulyakov(参考訳) generative adversarial networks (gans) は高忠実度画像の生成に多大な成功を収めているが、膨大な計算コストとかさばるメモリ使用により効率が低下している。 圧縮GANの最近の取り組みは、画像品質を犠牲にしたり、時間のかかる探索プロセスを含むことで、小型発電機の獲得の顕著な進歩を示しています。 本研究では,知識蒸留に加えて,効率的なネットワークアーキテクチャの発見が可能な検索空間を提供する教師ネットワークを導入することで,これらの課題に対処することを目的とする。 まず,生成モデルの探索空間を再検討し,インセプションに基づく残差ブロックを生成器に導入する。 第2に,目標計算コストを達成するために,教師モデルから学生のアーキテクチャを検索し,検索コストを大幅に削減する一段階の刈り込みアルゴリズムを提案する。 l1間隔の正規化とそれに関連するハイパーパラメータは不要で、トレーニング手順が簡単になる。 最後に,グローバルカーネルアライメント(gka)という指標を用いて教師と生徒の特徴的類似性を最大化することで知識を蒸留する。 当社の圧縮ネットワークは、MACなどの計算コストを大幅に削減した元のモデルよりも、類似またはさらに優れた画像忠実性(FID、mIoU)を実現します。 コードはhttps://github.com/snap-research/CATで公開される。

Generative Adversarial Networks (GANs) have achieved huge success in generating high-fidelity images, however, they suffer from low efficiency due to tremendous computational cost and bulky memory usage. Recent efforts on compression GANs show noticeable progress in obtaining smaller generators by sacrificing image quality or involving a time-consuming searching process. In this work, we aim to address these issues by introducing a teacher network that provides a search space in which efficient network architectures can be found, in addition to performing knowledge distillation. First, we revisit the search space of generative models, introducing an inception-based residual block into generators. Second, to achieve target computation cost, we propose a one-step pruning algorithm that searches a student architecture from the teacher model and substantially reduces searching cost. It requires no l1 sparsity regularization and its associated hyper-parameters, simplifying the training procedure. Finally, we propose to distill knowledge through maximizing feature similarity between teacher and student via an index named Global Kernel Alignment (GKA). Our compressed networks achieve similar or even better image fidelity (FID, mIoU) than the original models with much-reduced computational cost, e.g., MACs. Code will be released at https://github.com/snap-research/CAT.
翻訳日:2021-03-08 20:02:48 公開日:2021-03-05
# (参考訳) 視覚言語課題に対する因果注意

Causal Attention for Vision-Language Tasks ( http://arxiv.org/abs/2103.03493v1 )

ライセンス: CC0 1.0
Xu Yang, Hanwang Zhang, Guojun Qi, Jianfei Cai(参考訳) 本稿では,既存の注意に基づく視覚言語モデルにおいて,因果注意 (Causal Attention, CATT) という新たな注意機構を提案する。 この効果は有害なバイアスを引き起こし、アテンションモジュールはトレーニングデータの急激な相関に焦点を合わせ、モデルの一般化を損なう。 共同設立者が一般的に観察されていないため、私たちはフロントドアの調整を使って因果的介入を実現します。 具体的には,(1)IS-ATT(In-Sample Attention)と(2)CS-ATT(Cross-Sample Attention)の組み合わせとして,CATTが実施される。 CATTはQ-K-V規約に従属するため、トランスフォーマーにおけるトップダウンアテンションや自己アテンションなどのアテンションモジュールを置き換えることができる。 CATTは、様々な注目に基づく視覚言語モデルを大幅に改善する。 特に、CATTは、より重いUNITER~\cite{chen2020uniter}に匹敵する少ないデータとより少ない計算能力を使用する軽量LXMERT~\cite{tan2019lxmert}を促進することができるなど、大規模な前訓練に大きな可能性を秘めていることを示しています。 コードは \url{https://github.com/yangxuntu/catt} で公開される。

We present a novel attention mechanism: Causal Attention (CATT), to remove the ever-elusive confounding effect in existing attention-based vision-language models. This effect causes harmful bias that misleads the attention module to focus on the spurious correlations in training data, damaging the model generalization. As the confounder is unobserved in general, we use the front-door adjustment to realize the causal intervention, which does not require any knowledge on the confounder. Specifically, CATT is implemented as a combination of 1) In-Sample Attention (IS-ATT) and 2) Cross-Sample Attention (CS-ATT), where the latter forcibly brings other samples into every IS-ATT, mimicking the causal intervention. CATT abides by the Q-K-V convention and hence can replace any attention module such as top-down attention and self-attention in Transformers. CATT improves various popular attention-based vision-language models by considerable margins. In particular, we show that CATT has great potential in large-scale pre-training, e.g., it can promote the lighter LXMERT~\cite{tan2019lxmert}, which uses fewer data and less computational power, comparable to the heavier UNITER~\cite{chen2020uniter}. Code is published in \url{https://github.com/yangxuntu/catt}.
翻訳日:2021-03-08 19:36:08 公開日:2021-03-05
# (参考訳) 半監督胸部X線分類のための自己監督平均教師

Self-supervised Mean Teacher for Semi-supervised Chest X-ray Classification ( http://arxiv.org/abs/2103.03629v1 )

ライセンス: CC BY 4.0
Fengbei Liu, Yu Tian, Filipe R. Cordeiro, Vasileios Belagiannis, Ian Reid, Gustavo Carneiro(参考訳) ディープラーニングモデルのトレーニングは通常、効果的な収束と一般化のために大量の注釈データを必要とする。 しかし,良質なアノテーションを得ることは,ラベリング作業に専門家の放射線科医が必要となるため,手間と費用がかかる作業である。 The study of semi-supervised learning in medical image analysis is then of crucial importance given that it is much less expensive to obtain unlabelled images than to acquire images labelled by expert radiologists.Essentially, semi-supervised methods leverage large sets of unlabelled data to enable better training convergence and generalisation than if we use only the small set of labelled images.In this paper, we propose the Self-supervised Mean Teacher for Semi-supervised (S$^2$MTS$^2$) learning that combines self-supervised mean-teacher pre-training with semi-supervised fine-tuning. s$^2$mts$^2$の主な革新は、無限個の正の問合せと重要な特徴を用いて平均教師表現を改善するジョイントコントラスト学習に基づく自己教師付き平均教師事前学習である。 このモデルは,半教師学習で訓練された指数的移動平均教師フレームワークを用いて微調整され,データセットChest X-ray14の胸部疾患の多ラベル分類問題に対するS$^2$MTS$^2$の検証を行った。

The training of deep learning models generally requires a large amount of annotated data for effective convergence and generalisation. However, obtaining high-quality annotations is a laboursome and expensive process due to the need of expert radiologists for the labelling task. The study of semi-supervised learning in medical image analysis is then of crucial importance given that it is much less expensive to obtain unlabelled images than to acquire images labelled by expert radiologists.Essentially, semi-supervised methods leverage large sets of unlabelled data to enable better training convergence and generalisation than if we use only the small set of labelled images.In this paper, we propose the Self-supervised Mean Teacher for Semi-supervised (S$^2$MTS$^2$) learning that combines self-supervised mean-teacher pre-training with semi-supervised fine-tuning. The main innovation of S$^2$MTS$^2$ is the self-supervised mean-teacher pre-training based on the joint contrastive learning, which uses an infinite number of pairs of positive query and key features to improve the mean-teacher representation. The model is then fine-tuned using the exponential moving average teacher framework trained with semi-supervised learning.We validate S$^2$MTS$^2$ on the thorax disease multi-label classification problem from the dataset Chest X-ray14, where we show that it outperforms the previous SOTA semi-supervised learning methods by a large margin.
翻訳日:2021-03-08 19:06:49 公開日:2021-03-05
# (参考訳) 注意がすべてではない: 純粋注意力は深さで2倍に低下する

Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth ( http://arxiv.org/abs/2103.03404v1 )

ライセンス: CC BY 4.0
Yihe Dong, Jean-Baptiste Cordonnier, Andreas Loukas(参考訳) 注意に基づくアーキテクチャは機械学習においてユビキタスになってきたが、その有効性に対する我々の理解は依然として限られている。 本研究は,自己着脱ネットワークを理解する新しい方法を提案する。これらのアウトプットがより小さな項の和に分解され,各層にまたがる注意ヘッドの一連の操作を含むことを示す。 この分解を用いて,自己意識は「連続的均一性」に対する強い誘導バイアスを有することを証明した。 具体的には、スキップ接続や多層パーセプトロン(MLP)なしで、出力は指数関数的にランク1行列に収束する。 一方、接続をスキップし、MLPが出力をデジェネレーションから停止します。 本実験は標準変圧器アーキテクチャの異なる変種で同定された収束現象を検証する。

Attention-based architectures have become ubiquitous in machine learning, yet our understanding of the reasons for their effectiveness remains limited. This work proposes a new way to understand self-attention networks: we show that their output can be decomposed into a sum of smaller terms, each involving the operation of a sequence of attention heads across layers. Using this decomposition, we prove that self-attention possesses a strong inductive bias towards "token uniformity". Specifically, without skip connections or multi-layer perceptrons (MLPs), the output converges doubly exponentially to a rank-1 matrix. On the other hand, skip connections and MLPs stop the output from degeneration. Our experiments verify the identified convergence phenomena on different variants of standard transformer architectures.
翻訳日:2021-03-08 18:23:15 公開日:2021-03-05
# (参考訳) ラベルノイズに対するグラフニューラルネットワークの統一ロバストトレーニング

Unified Robust Training for Graph NeuralNetworks against Label Noise ( http://arxiv.org/abs/2103.03414v1 )

ライセンス: CC BY 4.0
Yayong Li, Jie yin, Ling Chen(参考訳) グラフニューラルネットワーク(GNN)は,グラフ上のノード分類の最先端性能を実現している。 既存の作業の大部分は、本物のノードラベルがトレーニングに常に提供されると仮定しています。 しかし、ラベルノイズの存在下でGNNの堅牢性を改善する方法に関する研究はほとんど行われていない。 ラベルノイズによる学習は、主に画像分類の文脈で研究されているが、これらの手法は、グラフ上の学習によって直面するラベルスパーシティとラベル依存性という2つの大きな課題のために、グラフ構造化データに直接適用できない。 本論文では,半教師付き設定でノイズの多いラベルをグラフ上で学習するための新しいフレームワークである UnionNET を提案する。 提案手法は,GNNを頑健に訓練し,ラベル修正を同時に行うための統一的なソリューションを提供する。 重要なアイデアは、サンプルの再重み付けとラベルの補正を導くために使用されるノードレベルのクラスの確率分布を推定するためにラベルアグリゲーションを実行することです。 既存の作品と比較して、UnionNETには2つの魅力的な利点があります。 第一に、余分なクリーンな監督やノイズ遷移行列の明示的な推定は不要である。 第2に、GNNをエンドツーエンドで堅牢にトレーニングする統合学習フレームワークを提案する。 実験の結果,(1)異なるタイプやラベルノイズのレベルに対するモデルのロバスト性向上に有効であり,(2)最先端のベースラインよりも大幅に改善できることがわかった。

Graph neural networks (GNNs) have achieved state-of-the-art performance for node classification on graphs. The vast majority of existing works assume that genuine node labels are always provided for training. However, there has been very little research effort on how to improve the robustness of GNNs in the presence of label noise. Learning with label noise has been primarily studied in the context of image classification, but these techniques cannot be directly applied to graph-structured data, due to two major challenges -- label sparsity and label dependency -- faced by learning on graphs. In this paper, we propose a new framework, UnionNET, for learning with noisy labels on graphs under a semi-supervised setting. Our approach provides a unified solution for robustly training GNNs and performing label correction simultaneously. The key idea is to perform label aggregation to estimate node-level class probability distributions, which are used to guide sample reweighting and label correction. Compared with existing works, UnionNET has two appealing advantages. First, it requires no extra clean supervision, or explicit estimation of the noise transition matrix. Second, a unified learning framework is proposed to robustly train GNNs in an end-to-end manner. Experimental results show that our proposed approach: (1) is effective in improving model robustness against different types and levels of label noise; (2) yields significant improvements over state-of-the-art baselines.
翻訳日:2021-03-08 17:30:45 公開日:2021-03-05
# (参考訳) 少ないグラフ分類のための構造強化メタラーニング

Structure-Enhanced Meta-Learning For Few-Shot Graph Classification ( http://arxiv.org/abs/2103.03547v1 )

ライセンス: CC BY 4.0
Shunyu Jiang, Fuli Feng, Weijian Chen, Xiang Li, Xiangnan He(参考訳) グラフ分類は、分子特性予測やタンパク質機能予測など、無数の実世界のアプリケーションで重要な役割を果たす非常にインパクトの高いタスクです。 ラベル付きグラフで新しいクラスを扱うことを目指して、少数のグラフ分類は既存のグラフ分類ソリューションと実用的な利用の橋渡しになっている。 本研究では,数点グラフ分類の解法のためのメトリベースメタラーニングの可能性を検討する。 本研究では, 溶液の構造特性を考慮することの重要性を強調し, 入力グラフのグローバル構造と局所構造を明示的に考慮した新しい枠組みを提案する。 SMFGINと呼ばれるGINの実装は、ChemblとTRIANGLESの2つのデータセットでテストされ、広範な実験が提案された方法の有効性を検証します。 Chemblは、数ショットグラフ分類評価のための大規模なベンチマークの欠如を埋めるために構築され、SMF-GINの実装とともにリリースされる。

Graph classification is a highly impactful task that plays a crucial role in a myriad of real-world applications such as molecular property prediction and protein function prediction. Aiming to handle the new classes with limited labeled graphs, few-shot graph classification has become a bridge of existing graph classification solutions and practical usage. This work explores the potential of metric-based meta-learning for solving few-shot graph classification. We highlight the importance of considering structural characteristics in the solution and propose a novel framework which explicitly considers global structure and local structure of the input graph. An implementation upon GIN, named SMFGIN, is tested on two datasets, Chembl and TRIANGLES, where extensive experiments validate the effectiveness of the proposed method. The Chembl is constructed to fill in the gap of lacking largescale benchmark for few-shot graph classification evaluation, which will be released together with the implementation of SMF-GIN upon acceptance
翻訳日:2021-03-08 17:19:23 公開日:2021-03-05
# (参考訳) 教師なしコアセット選択へのコントラスト学習の拡張

Extending Contrastive Learning to Unsupervised Coreset Selection ( http://arxiv.org/abs/2103.03574v1 )

ライセンス: CC BY 4.0
Jeongwoo Ju, Heechul Jung, Yoonju Oh, Junmo Kim(参考訳) 自己教師付きコントラスト学習は、ラベルなしデータのプールから情報的特徴を学習する手段を提供する。 本稿では、完全にラベル付けされていないコアセットを選択する方法を提供する、別の有用なアプローチを掘り下げる。 この点において、多くの自己指導的手法の1つであるコントラスト学習が近年提案され、常に最高性能を達成している。 これにより、視覚表現のコントラスト学習のための単純なフレームワーク(SimCLR)とモーメントコントラスト学習フレームワーク(MoCo)という2つの主要なコントラスト学習方法を選択することができた。 対照的学習プロセスの全期間において,各エポックの例のコサイン類似度を計算し,その後コサイン類似度値を蓄積してコアセットスコアを得る。 我々の仮定では、類似度の低いサンプルはコアセットとして振る舞う可能性が高い。 ラベルを用いた既存のコアセット選択手法と比較して,人間のアノテーションに関連するコストを削減した。 本研究で実施したコアセット選択のための監視されていない方法は、ランダムに選択されたサブセットよりも改善された結果を得、様々な分類データセット(CIFAR、SVHN、QMNISTなど)における既存の監視されたコアセット選択に匹敵するものであった。

Self-supervised contrastive learning offers a means of learning informative features from a pool of unlabeled data. In this paper, we delve into another useful approach -- providing a way of selecting a core-set that is entirely unlabeled. In this regard, contrastive learning, one of a large number of self-supervised methods, was recently proposed and has consistently delivered the highest performance. This prompted us to choose two leading methods for contrastive learning: the simple framework for contrastive learning of visual representations (SimCLR) and the momentum contrastive (MoCo) learning framework. We calculated the cosine similarities for each example of an epoch for the entire duration of the contrastive learning process and subsequently accumulated the cosine-similarity values to obtain the coreset score. Our assumption was that an sample with low similarity would likely behave as a coreset. Compared with existing coreset selection methods with labels, our approach reduced the cost associated with human annotation. The unsupervised method implemented in this study for coreset selection obtained improved results over a randomly chosen subset, and were comparable to existing supervised coreset selection on various classification datasets (e.g., CIFAR, SVHN, and QMNIST).
翻訳日:2021-03-08 17:03:51 公開日:2021-03-05
# (参考訳) 画像分類器の構成解説

Compositional Explanations for Image Classifiers ( http://arxiv.org/abs/2103.03622v1 )

ライセンス: CC BY 4.0
Hana Chockler, Daniel Kroening, Youcheng Sun(参考訳) 画像分類器の出力を説明する既存のアルゴリズムは、関心のあるオブジェクトが部分的に含まれている入力で不十分に実行されます。 本稿では,因果理論に基づく原理的アプローチを用いた説明計算のための新しいブラックボックスアルゴリズムを提案する。 このメソッドはツールCET(Compositional Explanation Tool)で実装しています。 アルゴリズムの構成性により、CETは、既存の説明ツールで生成された説明よりもずっと正確な説明を閉塞を伴う画像で計算し、閉塞のない画像を説明するときの芸術の状態に匹敵するレベルのパフォーマンスを提供します。

Existing algorithms for explaining the output of image classifiers perform poorly on inputs where the object of interest is partially occluded. We present a novel, black-box algorithm for computing explanations that uses a principled approach based on causal theory. We implement the method in the tool CET (Compositional Explanation Tool). Owing to the compositionality in its algorithm, CET computes explanations that are much more accurate than those generated by the existing explanation tools on images with occlusions and delivers a level of performance comparable to the state of the art when explaining images without occlusions.
翻訳日:2021-03-08 16:50:36 公開日:2021-03-05
# (参考訳) FFmpegフレームワークを拡張してメディアコンテンツを分析

Extend the FFmpeg Framework to Analyze Media Content ( http://arxiv.org/abs/2103.03539v1 )

ライセンス: CC BY 4.0
Xintian Wu, Pengfei Qu, Shaofei Wang, Lin Xie and Jie Dong(参考訳) 本稿では、FFmpegフレームワーク用に開発された新しいビデオ分析プラグインセットを紹介します。 FFmpegメディア機能をその包括的メディアエンコーディング、デコード、モックス、デデマ機能に利用しているマルチメディアアプリケーションは、AIモデルに基づいてビデオコンテンツも分析できるようになった。 プラグインは、特定のFFmpegスレッド制限を克服するためにスレッド最適化されている。 プラグインはバックエンドとしてIntel OpenVINO Toolkit推論エンジンを使用している。 分析ワークロードは、CPU、GPU、FPGA、あるいは特殊な分析アクセラレータなど、さまざまなプラットフォーム上で加速される。 リファレンス実装では、推論バックエンドとしてのOpenVINOの機能はFFmpegのメインストリームリポジトリにプッシュされています。 後でもっとパッチを提出する予定です。

This paper introduces a new set of video analytics plugins developed for the FFmpeg framework. Multimedia applications that increasingly utilize the FFmpeg media features for its comprehensive media encoding, decoding, muxing, and demuxing capabilities can now additionally analyze the video content based on AI models. The plugins are thread optimized for best performance overcoming certain FFmpeg threading limitations. The plugins utilize the Intel OpenVINO Toolkit inference engine as the backend. The analytics workloads are accelerated on different platforms such as CPU, GPU, FPGA or specialized analytics accelerators. With our reference implementation, the feature of OpenVINO as inference backend has been pushed into FFmpeg mainstream repository. We plan to submit more patches later.
翻訳日:2021-03-08 16:38:35 公開日:2021-03-05
# (参考訳) 仮想テンプレート合成とマッチングによる火星試料のローバー再局在化

Rover Relocalization for Mars Sample Return by Virtual Template Synthesis and Matching ( http://arxiv.org/abs/2103.03395v1 )

ライセンス: CC BY 4.0
Tu-Hoa Pham, William Seto, Shreyansh Daftry, Barry Ridge, Johanna Hansen, Tristan Thrush, Mark Van der Merwe, Gerard Maggiolino, Alexander Brinkman, John Mayo, Yang Cheng, Curtis Padgett, Eric Kulczycki, Renaud Detry(参考訳) 我々は、概念火星サンプルリターンキャンペーンの文脈におけるローバー再局在化の問題を検討する。 このキャンペーンでは、ローバー(R1)は、別のローバー(R0)によって数年前に収集された参照画像を使用して、約50 x 50 mの領域内を自律的にナビゲートおよびローカライズできる必要があります。 本研究では,相対的に不規則な地形に対してロバスト性を示す視覚ローカライザーを提案し,r0とr1の照明と視点の違いを明らかにした。 ローカライザは、参照r0画像から構築されたメッシュの部分レンダリングを合成し、r1画像とマッチングする。 提案手法は,予測環境条件(地形,照明,接近角)を網羅した2160枚の画像のデータセット上で評価した。 実験結果は、我々のアプローチの有効性を示しています。 この作品は、別のローバー(R1)による将来の検索のために、Perseverance(R0)がサンプルチューブのセットを配置するサイトの選択に関するMars Sample Returnキャンペーンを知らせます。

We consider the problem of rover relocalization in the context of the notional Mars Sample Return campaign. In this campaign, a rover (R1) needs to be capable of autonomously navigating and localizing itself within an area of approximately 50 x 50 m using reference images collected years earlier by another rover (R0). We propose a visual localizer that exhibits robustness to the relatively barren terrain that we expect to find in relevant areas, and to large lighting and viewpoint differences between R0 and R1. The localizer synthesizes partial renderings of a mesh built from reference R0 images and matches those to R1 images. We evaluate our method on a dataset totaling 2160 images covering the range of expected environmental conditions (terrain, lighting, approach angle). Experimental results show the effectiveness of our approach. This work informs the Mars Sample Return campaign on the choice of a site where Perseverance (R0) will place a set of sample tubes for future retrieval by another rover (R1).
翻訳日:2021-03-08 16:31:54 公開日:2021-03-05
# (参考訳) 研究グループ学習:雑音ラベルを用いた網膜血管セグメンテーションの改善

Study Group Learning: Improving Retinal Vessel Segmentation Trained with Noisy Labels ( http://arxiv.org/abs/2103.03451v1 )

ライセンス: CC BY 4.0
Yuqian Zhou, Hanchao Yu, Humphrey Shi(参考訳) 網膜画像からの網膜血管のセグメンテーションは、網膜疾患に対するコンピュータ支援診断システムの開発に欠かせない課題である。 網膜像をエンドツーエンドに分割する高性能な深層学習アプローチへの取り組みがなされている。 しかし、網膜血管画像とセグメンテーションラベルの取得は、専門医による面倒な作業を必要とし、その結果、不完全なラベルを持つトレーニングデータセットが小さくなる。 既知のように、データ駆動型メソッドはデータ不足に苦しんでおり、モデルは小規模のトレーニングデータに簡単に過剰適合する。 このような状況は、訓練船ラベルが不完全または不正確な場合、より厳しいものとなる。 本稿では,雑音ラベルに訓練されたモデルの堅牢性を改善するための学習グループ学習(SGL)手法を提案する。 また, 臨床医の補助ツールとして, 従来の方法よりも可視化性が向上した。 実験により,提案手法はDRIVEおよびCHASE$\_$DB1データセットにおいて,特にトレーニングラベルがノイズのある場合において,血管セグメンテーション性能をさらに向上することが示された。

Retinal vessel segmentation from retinal images is an essential task for developing the computer-aided diagnosis system for retinal diseases. Efforts have been made on high-performance deep learning-based approaches to segment the retinal images in an end-to-end manner. However, the acquisition of retinal vessel images and segmentation labels requires onerous work from professional clinicians, which results in smaller training dataset with incomplete labels. As known, data-driven methods suffer from data insufficiency, and the models will easily over-fit the small-scale training data. Such a situation becomes more severe when the training vessel labels are incomplete or incorrect. In this paper, we propose a Study Group Learning (SGL) scheme to improve the robustness of the model trained on noisy labels. Besides, a learned enhancement map provides better visualization than conventional methods as an auxiliary tool for clinicians. Experiments demonstrate that the proposed method further improves the vessel segmentation performance in DRIVE and CHASE$\_$DB1 datasets, especially when the training labels are noisy.
翻訳日:2021-03-08 16:10:42 公開日:2021-03-05
# (参考訳) 自己監督学習とテクスチャエンコーディングを用いたCT画像からの肝線維化とNASスコアリング

Liver Fibrosis and NAS scoring from CT images using self-supervised learning and texture encoding ( http://arxiv.org/abs/2103.03761v1 )

ライセンス: CC BY 4.0
Ananya Jana, Hui Qu, Carlos D. Minacapelli, Carolyn Catalano, Vinod Rustgi, Dimitris Metaxas(参考訳) 非アルコール性脂肪肝疾患(NAFLD)は、肝臓癌に進行できる慢性肝疾患(CLD)の最も一般的な原因の1つです。 NAFLDの重症度と治療は、通常肝臓生検から得られるNAFLD活動スコア(NAS)および肝線維化段階によって決定される。 しかし、生検は自然界に侵入し、手続き的な合併症のリスクを負う。 非侵襲的ct画像から線維化とnasスコアを予測する現在の方法は、事前訓練されたネットワークを用いた大規模な注釈付きデータセットまたは転送学習に依存している。 しかし、大きなアノテートされたデータセットの可用性を常に保証することはできず、転送学習を使用する場合のドメインシフトも可能となる。 本研究では,両問題に対する自己監督型学習手法を提案する。 また,nafldが肝組織質の変化を引き起こすため,モデルの性能を向上させるためにテクスチャエンコード入力を用いることも提案する。 30人の患者からなる比較的小さなデータセットを考えると、転送学習によって訓練されたネットワークよりも優れたパフォーマンスを実現する自己教師付きネットワークを採用する。 コードはhttps://github.com/ananyajana/fibrosis_codeで公開されている。

Non-alcoholic fatty liver disease (NAFLD) is one of the most common causes of chronic liver diseases (CLD) which can progress to liver cancer. The severity and treatment of NAFLD is determined by NAFLD Activity Scores (NAS)and liver fibrosis stage, which are usually obtained from liver biopsy. However, biopsy is invasive in nature and involves risk of procedural complications. Current methods to predict the fibrosis and NAS scores from noninvasive CT images rely heavily on either a large annotated dataset or transfer learning using pretrained networks. However, the availability of a large annotated dataset cannot be always ensured andthere can be domain shifts when using transfer learning. In this work, we propose a self-supervised learning method to address both problems. As the NAFLD causes changes in the liver texture, we also propose to use texture encoded inputs to improve the performance of the model. Given a relatively small dataset with 30 patients, we employ a self-supervised network which achieves better performance than a network trained via transfer learning. The code is publicly available at https://github.com/ananyajana/fibrosis_code.
翻訳日:2021-03-08 16:00:13 公開日:2021-03-05
# (参考訳) 機械学習に基づくスマートヘルスケアシステムの脅威分析のための新しいフレームワーク

A Novel Framework for Threat Analysis of Machine Learning-based Smart Healthcare Systems ( http://arxiv.org/abs/2103.03472v1 )

ライセンス: CC BY 4.0
Nur Imtiazul Haque, Mohammad Ashiqur Rahman, Md Hasan Shahriar, Alvi Ataur Khalil and Selcuk Uluagac(参考訳) スマートヘルスケアシステム(SHS)は、ワイヤレスボディセンサーネットワーク(WBSN)と組み込み医療機器(IMD)ベースの医療物のインターネット(IoMT)を活用した、高速で効率的な疾患治療を提供している。 さらに、IoMTベースのSHSは、無数のヘルスケアセンサーデバイス間の通信を可能にする自動投薬を可能にしています。 しかし、相手は、通信ネットワークとハードウェア/確認装置に様々な攻撃を仕掛け、偽データを導入したり、患者の生活を危険にさらす自動治療システムにデータを利用できなくなる。 本稿では、機械学習と形式解析機能を統合した新しい脅威分析フレームワークSHCheckerを提案し、IoMTベースのSHSに対する潜在的な攻撃と対応する影響を特定する。 当社のフレームワークは,攻撃特性のセットを与えられたshsに対して,変更対象のセンサのセットを表すすべての潜在的な攻撃ベクトルを提供することで,システムのレジリエンスを実現することにより,モデルの堅牢性を高めるための洞察を得ることができます。 私たちは合成データセットと実データセットにSHCheckerを実装し、フレームワークがIoMTシステムにおける潜在的な攻撃ベクトルを明らかにすることができることを確認します。 これは、ブラックボックスSHS脅威分析のための監視および監視されていない機械学習モデルを正式に分析する新しい取り組みです。

Smart healthcare systems (SHSs) are providing fast and efficient disease treatment leveraging wireless body sensor networks (WBSNs) and implantable medical devices (IMDs)-based internet of medical things (IoMT). In addition, IoMT-based SHSs are enabling automated medication, allowing communication among myriad healthcare sensor devices. However, adversaries can launch various attacks on the communication network and the hardware/firmware to introduce false data or cause data unavailability to the automatic medication system endangering the patient's life. In this paper, we propose SHChecker, a novel threat analysis framework that integrates machine learning and formal analysis capabilities to identify potential attacks and corresponding effects on an IoMT-based SHS. Our framework can provide us with all potential attack vectors, each representing a set of sensor measurements to be altered, for an SHS given a specific set of attack attributes, allowing us to realize the system's resiliency, thus the insight to enhance the robustness of the model. We implement SHChecker on a synthetic and a real dataset, which affirms that our framework can reveal potential attack vectors in an IoMT system. This is a novel effort to formally analyze supervised and unsupervised machine learning models for black-box SHS threat analysis.
翻訳日:2021-03-08 15:50:08 公開日:2021-03-05
# Rissanen データ分析:記述長によるデータセット特性の検討

Rissanen Data Analysis: Examining Dataset Characteristics via Description Length ( http://arxiv.org/abs/2103.03872v1 )

ライセンス: Link先を確認
Ethan Perez, Douwe Kiela, Kyunghyun Cho(参考訳) 特定の能力が与えられたデータの正確なモデルを達成するのに役立つかどうかを判断する手法を提案する。 我々は、ラベルを異なる機能を持つサブルーチンからなるプログラムによって入力から生成されるものとみなし、サブルーチンが有用であることと、それを呼び出す最小限のプログラムがそうでないプログラムよりも短いことを仮定する。 最小プログラム長は計算不可能であるため、ラベルの最小記述長 (MDL) をプロキシとして推定し、理論的に基礎的な解析手法を提案する。 我々はMDLの父に因んでRDA(Rissanen Data Analysis)と呼ぶこの手法を,質問に答える前にサブクエストの生成の有用性を評価すること,理性や説明の値を分析すること,発話の異なる部分の重要性を調査すること,データセットの性別バイアスを明らかにすることなど,NLPのさまざまな設定に適用可能であることを示す。

We introduce a method to determine if a certain capability helps to achieve an accurate model of given data. We view labels as being generated from the inputs by a program composed of subroutines with different capabilities, and we posit that a subroutine is useful if and only if the minimal program that invokes it is shorter than the one that does not. Since minimum program length is uncomputable, we instead estimate the labels' minimum description length (MDL) as a proxy, giving us a theoretically-grounded method for analyzing dataset characteristics. We call the method Rissanen Data Analysis (RDA) after the father of MDL, and we showcase its applicability on a wide variety of settings in NLP, ranging from evaluating the utility of generating subquestions before answering a question, to analyzing the value of rationales and explanations, to investigating the importance of different parts of speech, and uncovering dataset gender bias.
翻訳日:2021-03-08 15:08:03 公開日:2021-03-05
# MATHデータセットによる数学的問題解決の測定

Measuring Mathematical Problem Solving With the MATH Dataset ( http://arxiv.org/abs/2103.03874v1 )

ライセンス: Link先を確認
Dan Hendrycks and Collin Burns and Saurav Kadavath and Akul Arora and Steven Basart and Eric Tang and Dawn Song and Jacob Steinhardt(参考訳) 多くの知的努力は数学的問題解決を必要とするが、このスキルはコンピュータの能力を超えている。 この能力を機械学習モデルで測定するために、12,500の競合数学問題からなる新しいデータセットであるMATHを紹介する。 MATHの各問題には完全なステップバイステップのソリューションがあり、モデルに答えの導出と説明を生成するために使用することができる。 今後の研究の促進とMATHの精度向上のために,我々は,モデルに数学の基礎を教えるための補助的事前学習データセットを大規模に提供した。 計算精度は向上できたが, 膨大なトランスフォーマーモデルにおいても, 計算精度は比較的低いことが判明した。 さらに,スケーリングの傾向が続くと,単に予算やモデルパラメータの数を増やすだけでは,強力な数学的推論を達成できないことが判明した。 Transformersのスケーリングは他のほとんどのテキストベースのタスクを自動的に解決しますが、スケーリングは現在MATHを解決していません。 数学的な問題解決にもっと力を入れるためには、より広い研究コミュニティからの新しいアルゴリズムの進歩が必要だ。

Many intellectual endeavors require mathematical problem solving, but this skill remains beyond the capabilities of computers. To measure this ability in machine learning models, we introduce MATH, a new dataset of 12,500 challenging competition mathematics problems. Each problem in MATH has a full step-by-step solution which can be used to teach models to generate answer derivations and explanations. To facilitate future research and increase accuracy on MATH, we also contribute a large auxiliary pretraining dataset which helps teach models the fundamentals of mathematics. Even though we are able to increase accuracy on MATH, our results show that accuracy remains relatively low, even with enormous Transformer models. Moreover, we find that simply increasing budgets and model parameter counts will be impractical for achieving strong mathematical reasoning if scaling trends continue. While scaling Transformers is automatically solving most other text-based tasks, scaling is not currently solving MATH. To have more traction on mathematical problem solving we will likely need new algorithmic advancements from the broader research community.
翻訳日:2021-03-08 15:07:21 公開日:2021-03-05
# pretext-based self-supervised learningは下流データによって促進されるか? 理論的な分析

Can Pretext-Based Self-Supervised Learning Be Boosted by Downstream Data? A Theoretical Analysis ( http://arxiv.org/abs/2103.03568v1 )

ライセンス: Link先を確認
Jiaye Teng, Weiran Huang(参考訳) pretext-based self-supervised learningは,ラベルのないデータ上で手作りのpretextタスクを通じて意味表現を学習し,下流予測タスクに学習表現を使用する。 \citet{lee2020predicting} プリテキストベースの自己教師付き学習は、下流ラベル上のプリテキストタスク条件のコンポーネント間の条件付き独立(ci)下での下流タスクのサンプル複雑性を効果的に低減できる。 しかし、CI条件が実際に保持されることはめったになく、CI条件が満たなければ、下流のサンプルの複雑さはさらに悪化する。 本稿では,CI条件を保持するために学習可能な関数を入力に適用するアイデアを検討する。 特に、まず関数が満たす必要がある基準を厳密に定式化します。 そして,そのような関数を学習するための巧妙な損失関数を設計し,提案する損失を最小化する関数が上記の基準を満たすことを証明した。 理論的には,必要なラベル付きデータの数について検討し,下流データに制限を課すことで,自己教師付き学習の性能を損なうことを示す。 さらに、モデル構造を考慮に入れ、モデル依存の下位境界を与え、モデル容量が大きくなるとより高くなります。 さらに,いくつかの数値実験を行い,実験結果の検証を行った。

Pretext-based self-supervised learning aims to learn the semantic representation via a handcrafted pretext task over unlabeled data and then use the learned representation for downstream prediction tasks. \citet{lee2020predicting} prove that pretext-based self-supervised learning can effectively reduce the sample complexity of downstream tasks under Conditional Independence (CI) between the components of the pretext task conditional on the downstream label. However, the CI condition rarely holds in practice, and the downstream sample complexity will get much worse if the CI condition does not hold. In this paper, we explore the idea of applying a learnable function to the input to make the CI condition hold. In particular, we first rigorously formulate the criteria that the function needs to satisfy. We then design an ingenious loss function for learning such a function and prove that the function minimizing the proposed loss satisfies the above criteria. We theoretically study the number of labeled data required, and give a model-free lower bound showing that taking limited downstream data will hurt the performance of self-supervised learning. Furthermore, we take the model structure into account and give a model-dependent lower bound, which gets higher when the model capacity gets larger. Moreover, we conduct several numerical experiments to verify our theoretical results.
翻訳日:2021-03-08 15:07:01 公開日:2021-03-05
# 生成型adversarial networkにおけるコントラスト・ディスタングル

Contrastive Disentanglement in Generative Adversarial Networks ( http://arxiv.org/abs/2103.03636v1 )

ライセンス: Link先を確認
Lili Pan, Peijun Tang, Zhiyong Chen, Zenglin Xu(参考訳) ディスタングルメントは、データのバリエーションの区別された情報的要素を分離できる、表現の学習の問題として定義される。 このような表現論を学ぶことは、人工知性において説明可能で人間制御可能なDeep Generative Model(DGM)を開発するために重要である。 しかし, 潜伏変数の標本可能性や後方推論が欠如しているため, GANの絡み合いは三次的課題ではない。 コントラスト学習 (CL) に触発された本論文は, 新たな視点から, コントラスト的非絡み合い(CD-GAN) を提案する。 同じ係数が同じクラスで画像を生成するため、画像特徴と対照的な視覚データスルーのクラス間変動の要因を解消することを目的としている。 より重要なことは,クラス間の非絡合性能を高めるために,限られたスーパービジョンを最大限に活用するための新しい手法を探索することである。 広範な実験結果多くのよく知られたデータセットは、クラス間の変動を解くためのCD-GANの有効性を示す。

Disentanglement is defined as the problem of learninga representation that can separate the distinct, informativefactors of variations of data. Learning such a representa-tion may be critical for developing explainable and human-controllable Deep Generative Models (DGMs) in artificialintelligence. However, disentanglement in GANs is not a triv-ial task, as the absence of sample likelihood and posteriorinference for latent variables seems to prohibit the forwardstep. Inspired by contrastive learning (CL), this paper, froma new perspective, proposes contrastive disentanglement ingenerative adversarial networks (CD-GAN). It aims at dis-entangling the factors of inter-class variation of visual datathrough contrasting image features, since the same factorvalues produce images in the same class. More importantly,we probe a novel way to make use of limited amount ofsupervision to the largest extent, to promote inter-class dis-entanglement performance. Extensive experimental resultson many well-known datasets demonstrate the efficacy ofCD-GAN for disentangling inter-class variation.
翻訳日:2021-03-08 15:06:40 公開日:2021-03-05
# 補助ラベルからの幾何学的制約を利用したワンショット学習のための埋め込み関数の改善

Harnessing Geometric Constraints from Auxiliary Labels to Improve Embedding Functions for One-Shot Learning ( http://arxiv.org/abs/2103.03862v1 )

ライセンス: Link先を確認
Anand Ramakrishnan, Minh Pham, and Jacob Whitehill(参考訳) ワンショット学習(例:顔認証)のための埋め込みモデルを訓練する際に、補助ラベル(例:顔表現)を利用して幾何学的構造を付与する有用性を検討する。 本稿では,手動で注釈付きまたは自動検出された補助ラベルを用いて深層モデルで学習した埋め込み空間に新しい幾何学的制約を導入する。 私たちは4つの異なる顔データセット(CK+、VGGFace-2、Tufts Face、PubFig)でパフォーマンス(AUC)を比較します。 埋め込み空間にエンコードされた追加の構造により、我々の手法はより高い検証精度(99.7, 86.2, 99.4, 79.3%、提案されたTL+PDP+FBV損失に対して97.5, 72.6, 93.1, 70.5%)を提供する。 本手法は純粋に損失関数を用いて実装する。 組み込み関数のバックボーンを変更する必要はない。

We explore the utility of harnessing auxiliary labels (e.g., facial expression) to impose geometric structure when training embedding models for one-shot learning (e.g., for face verification). We introduce novel geometric constraints on the embedding space learned by a deep model using either manually annotated or automatically detected auxiliary labels. We contrast their performances (AUC) on four different face datasets(CK+, VGGFace-2, Tufts Face, and PubFig). Due to the additional structure encoded in the embedding space, our methods provide a higher verification accuracy (99.7, 86.2, 99.4, and 79.3% with our proposed TL+PDP+FBV loss, versus 97.5, 72.6, 93.1, and 70.5% using a standard Triplet Loss on the four datasets, respectively). Our method is implemented purely in terms of the loss function. It does not require any changes to the backbone of the embedding functions.
翻訳日:2021-03-08 15:06:21 公開日:2021-03-05
# ジョイントチャンス制約満足度を用いた安全な強化学習のための自動探索プロセス調整

Automatic Exploration Process Adjustment for Safe Reinforcement Learning with Joint Chance Constraint Satisfaction ( http://arxiv.org/abs/2103.03656v1 )

ライセンス: Link先を確認
Yoshihiro Okawa, Tomotake Sasaki and Hidenao Iwane(参考訳) 強化学習(RL)アルゴリズムでは、学習中に探索的制御入力を使用して意思決定と制御の知識を獲得する一方、制御対象の真のダイナミクスは不明である。 しかし、この探索特性は、制御対象の状態に関する制約に違反して、望ましくない状況を引き起こすことがある。 本稿では,制御対象の線形公称モデルを用いた連続状態および動作空間における安全なRLの自動探索プロセス調整法を提案する。 具体的には,探索のためのガウス政策において用いられる分散共分散行列を調整し,その状態と予測値に応じて探索入力が使用されるか否かを自動的に選択する。 また, 探索プロセスの調整手法は, 予め特定された確率, すなわち, 毎回共同確率制約の満足度と制約の満足度を理論的に保証することを示した。 最後に, 数値シミュレーションによる手法の有効性と有効性について述べる。

In reinforcement learning (RL) algorithms, exploratory control inputs are used during learning to acquire knowledge for decision making and control, while the true dynamics of a controlled object is unknown. However, this exploring property sometimes causes undesired situations by violating constraints regarding the state of the controlled object. In this paper, we propose an automatic exploration process adjustment method for safe RL in continuous state and action spaces utilizing a linear nominal model of the controlled object. Specifically, our proposed method automatically selects whether the exploratory input is used or not at each time depending on the state and its predicted value as well as adjusts the variance-covariance matrix used in the Gaussian policy for exploration. We also show that our exploration process adjustment method theoretically guarantees the satisfaction of the constraints with the pre-specified probability, that is, the satisfaction of a joint chance constraint at every time. Finally, we illustrate the validity and the effectiveness of our method through numerical simulation.
翻訳日:2021-03-08 15:05:58 公開日:2021-03-05
# 視覚言語ナビゲーションのための構造化シーンメモリ

Structured Scene Memory for Vision-Language Navigation ( http://arxiv.org/abs/2103.03454v1 )

ライセンス: Link先を確認
Hanqing Wang, Wenguan Wang, Wei Liang, Caiming Xiong, Jianbing Shen(参考訳) 近年,視覚言語ナビゲーション(VLN)問題,すなわちエージェントが言語指示に従って3D環境をナビゲートする問題に対処するために,多数のアルゴリズムが開発されている。 しかしながら、現在のVLNエージェントは、単に過去の経験/観測をリカレントネットワークの遅延状態として保存し、環境レイアウトをキャプチャできず、長期計画を行う。 これらの制限に対処するため、SSM(Structured Scene Memory)と呼ばれる重要なアーキテクチャを提案します。 ナビゲーション中に知覚を正確に記憶できるほど区画化されている。 また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。 SSMは、現在の意思決定をサポートするための情報を適応的に収集し、長距離推論のための反復アルゴリズムを模倣する収集読み取りコントローラを備えている。 SSMは完全な行動空間、すなわち地図上のすべてのナビゲーション可能な場所を提供するため、効率的かつグローバルな計画を可能にするフロンティア探索に基づくナビゲーション意思決定戦略が導入されます。 2つのVLNデータセット(R2RとR4R)に対する実験結果から,本手法がいくつかの測定値において最先端の性能を達成することを示す。

Recently, numerous algorithms have been developed to tackle the problem of vision-language navigation (VLN), i.e., entailing an agent to navigate 3D environments through following linguistic instructions. However, current VLN agents simply store their past experiences/observations as latent states in recurrent networks, failing to capture environment layouts and make long-term planning. To address these limitations, we propose a crucial architecture, called Structured Scene Memory (SSM). It is compartmentalized enough to accurately memorize the percepts during navigation. It also serves as a structured scene representation, which captures and disentangles visual and geometric cues in the environment. SSM has a collect-read controller that adaptively collects information for supporting current decision making and mimics iterative algorithms for long-range reasoning. As SSM provides a complete action space, i.e., all the navigable places on the map, a frontier-exploration based navigation decision making strategy is introduced to enable efficient and global planning. Experiment results on two VLN datasets (i.e., R2R and R4R) show that our method achieves state-of-the-art performance on several metrics.
翻訳日:2021-03-08 15:05:44 公開日:2021-03-05
# ロバストフィットのための教師なし学習:強化学習アプローチ

Unsupervised Learning for Robust Fitting:A Reinforcement Learning Approach ( http://arxiv.org/abs/2103.03501v1 )

ライセンス: Link先を確認
Giang Truong, Huu Le, David Suter, Erchuan Zhang, Syed Zulqarnain Gilani(参考訳) ロバストモデルフィッティングは、多数のコンピュータビジョンアプリケーションの中核となるアルゴリズムである。 しかし、この問題をoutlierで高度に汚染されたデータセットで効率的に解くことは、基礎となる計算の複雑さのために依然として困難である。 最近の文献は学習に基づくアルゴリズムに焦点を当てている。 しかし、ほとんどのアプローチは大量のラベル付きトレーニングデータを必要とする教師付きである。 本稿では,ロバストなモデル適合性を直接解くことを学ぶための教師なし学習フレームワークを提案する。 他の方法とは異なり、我々の研究は基礎となる入力特徴とは無関係であり、準凸残差を持つ多種多様なLP型問題に容易に一般化できる。 提案手法は既存の教師なし学習手法よりも優れており,コンピュータビジョン問題における従来の手法と比較して,競争力のある結果が得られることを実証的に示す。

Robust model fitting is a core algorithm in a large number of computer vision applications. Solving this problem efficiently for datasets highly contaminated with outliers is, however, still challenging due to the underlying computational complexity. Recent literature has focused on learning-based algorithms. However, most approaches are supervised which require a large amount of labelled training data. In this paper, we introduce a novel unsupervised learning framework that learns to directly solve robust model fitting. Unlike other methods, our work is agnostic to the underlying input features, and can be easily generalized to a wide variety of LP-type problems with quasi-convex residuals. We empirically show that our method outperforms existing unsupervised learning approaches, and achieves competitive results compared to traditional methods on several important computer vision problems.
翻訳日:2021-03-08 15:05:24 公開日:2021-03-05
# NemaNet:ブラジルにおける線虫大豆の識別のための畳み込みニューラルネットワークモデル

NemaNet: A convolutional neural network model for identification of nematodes soybean crop in brazil ( http://arxiv.org/abs/2103.03717v1 )

ライセンス: Link先を確認
Andre da Silva Abade, Lucas Faria Porto, Paulo Afonso Ferreira, Flavio de Barros Vidal(参考訳) 植物寄生線虫(または植物性線虫)は作物に深刻な損傷をもたらし、世界中で大規模な経済的損失を引き起こしています。 大豆作物の年間損失は世界生産の10.6%と推計されている。 さらに、分類学の知識を持つ専門家による微視的分析によってこれらの種を特定することは、しばしば手間がかかり、時間がかかり、失敗しやすい。 この観点からは、種分類の正確な診断を提供し、すべての制御・予防措置の取組みを補助することのできる、ロバストかつ自動的アプローチが必要である。 本研究は,5種の線虫から得られた3,063枚の顕微鏡画像を含むnemadatasetと呼ばれる新しい公共データセットを提案する。 さらに、NemaNetとして定義された新しい畳み込みニューラルネットワーク(CNN)モデルと、CNNの13の人気モデルとの比較評価を提案し、それらのすべてが芸術の分類と認識の状態を表しています。 各モデルで計算された平均値は、ゼロスクラッチトレーニングで、NemaNetモデルは96.99%、最良の評価は98.03%に達した。 トランスファーラーニングのトレーニングでは、平均精度は98.88\%に達した。 最高の評価折り畳みは99.34%に達し、他の人気モデルと比較して6.83%と4.1%の全体的な精度向上を達成した。

Phytoparasitic nematodes (or phytonematodes) are causing severe damage to crops and generating large-scale economic losses worldwide. In soybean crops, annual losses are estimated at 10.6% of world production. Besides, identifying these species through microscopic analysis by an expert with taxonomy knowledge is often laborious, time-consuming, and susceptible to failure. In this perspective, robust and automatic approaches are necessary for identifying phytonematodes capable of providing correct diagnoses for the classification of species and subsidizing the taking of all control and prevention measures. This work presents a new public data set called NemaDataset containing 3,063 microscopic images from five nematode species with the most significant damage relevance for the soybean crop. Additionally, we propose a new Convolutional Neural Network (CNN) model defined as NemaNet and a comparative assessment with thirteen popular models of CNNs, all of them representing the state of the art classification and recognition. The general average calculated for each model, on a from-scratch training, the NemaNet model reached 96.99% accuracy, while the best evaluation fold reached 98.03%. In training with transfer learning, the average accuracy reached 98.88\%. The best evaluation fold reached 99.34% and achieve an overall accuracy improvement over 6.83% and 4.1%, for from-scratch and transfer learning training, respectively, when compared to other popular models.
翻訳日:2021-03-08 15:05:12 公開日:2021-03-05
# オペラ : 手術相認識のための注意正規化トランスフォーマー

OperA: Attention-Regularized Transformers for Surgical Phase Recognition ( http://arxiv.org/abs/2103.03873v1 )

ライセンス: Link先を確認
Tobias Czempiel, Magdalini Paschali, Daniel Ostler, Seong Tae Kim, Benjamin Busam, Nassir Navab(参考訳) 本稿では,長い映像列から外科的位相を正確に予測する変圧器モデル opera を提案する。 新たな注意の正規化損失は、トレーニング中に高品質なフレームにフォーカスするようモデルに促す。 また,注意重みを用いて各手術段階ごとに特徴的な高注意フレームを識別し,さらに手術要約に用いることができる。 operaは腹腔鏡下胆嚢摘出ビデオの2つのデータセットで徹底的に評価されており,術中時間的改善のアプローチを上回っている。

In this paper we introduce OperA, a transformer-based model that accurately predicts surgical phases from long video sequences. A novel attention regularization loss encourages the model to focus on high-quality frames during training. Moreover, the attention weights are utilized to identify characteristic high attention frames for each surgical phase, which could further be used for surgery summarization. OperA is thoroughly evaluated on two datasets of laparoscopic cholecystectomy videos, outperforming various state-of-the-art temporal refinement approaches.
翻訳日:2021-03-08 15:04:40 公開日:2021-03-05
# 知識グラフにおける誘導リンク予測関係のトポロジーと認識相関

Topology-Aware Correlations Between Relations for Inductive Link Prediction in Knowledge Graphs ( http://arxiv.org/abs/2103.03642v1 )

ライセンス: Link先を確認
Jiajun Chen, Huarui He, Feng Wu, Jie Wang(参考訳) インダクティブリンク予測 -- トレーニング中のエンティティと推論段階が異なる場合 -- は、継続的に進化する知識グラフの完成に有望であることが示されている。 帰納的推論の既存のモデルは、論理規則の学習による欠落リンクの予測に主眼を置いている。 しかし、既存の多くのアプローチは、実世界の知識グラフでよく見られる関係間の意味的相関を考慮に入れていない。 この課題に対処すべく,新たな帰納的推論手法であるtactを提案し,エンティティに依存しない関係のトポロジー・アウェア相関を効果的に活用する。 TACTは、2つの関係間の意味的相関が知識グラフのトポロジカル構造と非常に相関しているという観測に触発される。 具体的には,すべての関係対を複数の位相的パターンに分類し,帰納的リンク予測における異なるパターンの重要性を学ぶための関係相関ネットワーク(rcn)を提案する。 実験は、TACTが関係間の意味的相関を効果的にモデル化し、誘導リンク予測タスクのベンチマークデータセット上の既存の最先端の方法を大幅に上回ることを実証します。

Inductive link prediction -- where entities during training and inference stages can be different -- has been shown to be promising for completing continuously evolving knowledge graphs. Existing models of inductive reasoning mainly focus on predicting missing links by learning logical rules. However, many existing approaches do not take into account semantic correlations between relations, which are commonly seen in real-world knowledge graphs. To address this challenge, we propose a novel inductive reasoning approach, namely TACT, which can effectively exploit Topology-Aware CorrelaTions between relations in an entity-independent manner. TACT is inspired by the observation that the semantic correlation between two relations is highly correlated to their topological structure in knowledge graphs. Specifically, we categorize all relation pairs into several topological patterns, and then propose a Relational Correlation Network (RCN) to learn the importance of the different patterns for inductive link prediction. Experiments demonstrate that TACT can effectively model semantic correlations between relations, and significantly outperforms existing state-of-the-art methods on benchmark datasets for the inductive link prediction task.
翻訳日:2021-03-08 15:04:30 公開日:2021-03-05
# グラデーションに署名するのを忘れないでください!

Don't Forget to Sign the Gradients! ( http://arxiv.org/abs/2103.03701v1 )

ライセンス: Link先を確認
Omid Aramoon, Pin-Yu Chen, Gang Qu(参考訳) エンジニアリング トップノートのディープラーニングモデルは、データ収集、機械学習の専門知識を持つ人材の雇用、高い計算リソースの提供を含む、高価な手順である。 そのため、ディープラーニングモデルは、モデルベンダーにとって価値のある知的特性(IP)と見なされる。 ディープラーニングモデルの信頼性の高い商用化を確保するためには,モデルベンダをip侵害から保護する手法の開発が不可欠である。 最近大きな約束を示したそのような技術の1つは、デジタル透かしです。 しかし、現在の透かしアプローチは、非常に限られた量の情報を埋め込むことができ、透かし除去攻撃に対して脆弱です。 本稿では,深部ニューラルネットワーク(DNN)のための新しい透かしフレームワークであるGradSignsについて述べる。 GradSignsは、モデルへの入力に関して、所有者の署名をクロスエントロピーコスト関数の勾配に埋め込む。 われわれのアプローチは保護されたモデルの性能に無視できない影響を与え、モデルベンダーは予測APIを通じてリモートで透かしを検証できる。 CIFAR-10,SVHN,YTFデータセットを用いて,異なる画像分類タスクのために訓練されたDNN上のGradSignsを評価する。 実験の結果、GradSignsは既知のすべての反ウォーターマーク攻撃に対して堅牢であり、大量の情報をDNNに埋め込むことができます。

Engineering a top-notch deep learning model is an expensive procedure that involves collecting data, hiring human resources with expertise in machine learning, and providing high computational resources. For that reason, deep learning models are considered as valuable Intellectual Properties (IPs) of the model vendors. To ensure reliable commercialization of deep learning models, it is crucial to develop techniques to protect model vendors against IP infringements. One of such techniques that recently has shown great promise is digital watermarking. However, current watermarking approaches can embed very limited amount of information and are vulnerable against watermark removal attacks. In this paper, we present GradSigns, a novel watermarking framework for deep neural networks (DNNs). GradSigns embeds the owner's signature into the gradient of the cross-entropy cost function with respect to inputs to the model. Our approach has a negligible impact on the performance of the protected model and it allows model vendors to remotely verify the watermark through prediction APIs. We evaluate GradSigns on DNNs trained for different image classification tasks using CIFAR-10, SVHN, and YTF datasets. Experimental results show that GradSigns is robust against all known counter-watermark attacks and can embed a large amount of information into DNNs.
翻訳日:2021-03-08 15:03:52 公開日:2021-03-05
# 移動学習に基づくウルドゥー語話者の音声認識

Transfer Learning based Speech Affect Recognition in Urdu ( http://arxiv.org/abs/2103.03580v1 )

ライセンス: Link先を確認
Sara Durrani, Muhammad Umair Arshad(参考訳) 低リソース言語に対する音声効果認識は難しい課題であると確立されています。 本稿では,高資源言語モデルの事前学習と,深層残差ネットワークを用いた低資源言語パラメータの微調整を行う,トランスファー学習に基づく音声認識手法を提案する。 ここでは、標準の4つのデータセットを用いて、トランスファー学習が、影響認識タスクにおけるデータ不足の問題を解決できることを実証する。 RAVDESSで74.7%のUARをソースとして、Urduデータセットをターゲットとして達成することで、私たちのアプローチが効率的であることを実証します。 アブレーション研究により,事前学習したモデルが特徴情報の大部分を付加し,その結果を改善し,少ないデータ問題を解決することが確認された。 また,SAVEE と EMO-DB データセットについても実験を行い,Urdu をターゲット言語とし,400 個のデータしか利用できないようにした。 このアプローチは、既存のアルゴリズムと比較して高いUnweighted Average Recall(UAR)を実現する。

It has been established that Speech Affect Recognition for low resource languages is a difficult task. Here we present a Transfer learning based Speech Affect Recognition approach in which: we pre-train a model for high resource language affect recognition task and fine tune the parameters for low resource language using Deep Residual Network. Here we use standard four data sets to demonstrate that transfer learning can solve the problem of data scarcity for Affect Recognition task. We demonstrate that our approach is efficient by achieving 74.7 percent UAR on RAVDESS as source and Urdu data set as a target. Through an ablation study, we have identified that pre-trained model adds most of the features information, improvement in results and solves less data issues. Using this knowledge, we have also experimented on SAVEE and EMO-DB data set by setting Urdu as target language where only 400 utterances of data is available. This approach achieves high Unweighted Average Recall (UAR) when compared with existing algorithms.
翻訳日:2021-03-08 15:03:33 公開日:2021-03-05
# WordBias: 単語埋め込みにエンコードされた節間バイアスを発見するインタラクティブなビジュアルツール

WordBias: An Interactive Visual Tool for Discovering Intersectional Biases Encoded in Word Embeddings ( http://arxiv.org/abs/2103.03598v1 )

ライセンス: Link先を確認
Bhavya Ghai, Md Naimul Hoque, Klaus Mueller(参考訳) 交叉バイアス(intersectional bias)は、性別、性、人種、障害、宗教など、複数の社会的要因の重複によって引き起こされるバイアスである。 最近の研究では、単語埋め込みモデルは、アフリカ系アメリカ人女性などのような交差グループに対するバイアスで覆うことができることが示されています。 そのような交差バイアスに取り組むための最初のステップは、それらを特定することです。 しかし、異なる交叉群に対するバイアスを発見することは難しい課題である。 本研究では,静的な単語埋め込みに符号化された交叉群に対するバイアスを探索するインタラクティブなビジュアルツールであるWordBiasを紹介する。 事前訓練された静的単語の埋め込みが与えられた場合、WordBiasは、人種、年齢などに基づいて、各単語の関連性を計算する。 新たなインタラクティブインターフェースを使って可視化します ケーススタディを使用して、WordBiasが黒人ムスリム男性、貧乏女性などの交差グループに対するバイアスの発見にどのように役立つかを実証します。 単語を埋め込んだコードです また,専門家インタビューからの質的なフィードバックを用いてツールの評価を行った。 このツールのソースコードはgithub.com/bhavyaghai/WordBiasで再現可能である。

Intersectional bias is a bias caused by an overlap of multiple social factors like gender, sexuality, race, disability, religion, etc. A recent study has shown that word embedding models can be laden with biases against intersectional groups like African American females, etc. The first step towards tackling such intersectional biases is to identify them. However, discovering biases against different intersectional groups remains a challenging task. In this work, we present WordBias, an interactive visual tool designed to explore biases against intersectional groups encoded in static word embeddings. Given a pretrained static word embedding, WordBias computes the association of each word along different groups based on race, age, etc. and then visualizes them using a novel interactive interface. Using a case study, we demonstrate how WordBias can help uncover biases against intersectional groups like Black Muslim Males, Poor Females, etc. encoded in word embedding. In addition, we also evaluate our tool using qualitative feedback from expert interviews. The source code for this tool can be publicly accessed for reproducibility at github.com/bhavyaghai/WordBias.
翻訳日:2021-03-08 15:03:16 公開日:2021-03-05
# Vicinal と categorical Domain の適応

Vicinal and categorical domain adaptation ( http://arxiv.org/abs/2103.03460v1 )

ライセンス: Link先を確認
Hui Tang and Kui Jia(参考訳) 教師なしドメイン適応は、ラベル付きソースドメインを利用することで、ラベルなしターゲットドメインでうまく機能するタスク分類子を学習することを目的としています。 刺激的な結果は、ドメイン-敵のトレーニングを通じて、ドメイン-不変の深い特徴を学ぶことによって得られる。 しかし、タスクとドメインの分類器の並列設計は、より細かいカテゴリレベルのドメインアライメントを達成する能力を制限する。 共同カテゴリ領域分類器に基づくカテゴリ領域適応(CatDA)を促進するために, ドメインレベルとカテゴリレベルでの敵対的トレーニングの新たな損失を提案する。 統合型分類器は2つのドメインに対してそれぞれ個別のタスク分類器の結合と見なすことができるので、2つのタスク分類器間のカテゴリ予測の一貫性を強制する設計原理である。 さらに,2つのドメインからそれぞれ対のインスタンスの凸結合によってインスタンスが生成されるビジナルドメインの概念を提案する。 直感的には、無限個のヴィジナル領域のアライメントは元の領域のアライメントを高める。 CatDAに基づくVicinal Domain Adaptation (VicDA) に対する新たな逆転的損失を提案し,Vicinal and Categorical Domain Adaptation (ViCatDA) につながる。 また,敵対的特徴アライメントによって損傷された本質的目標識別を回復するために,TDSR(Target Discriminative Structure Recovery)を提案する。 また、共同分布を整合させるキーデザインの能力の基礎となる原則を分析します。 いくつかのベンチマークデータセットに関する広範な実験は、我々は技術の新しい状態を達成することを実証します。

Unsupervised domain adaptation aims to learn a task classifier that performs well on the unlabeled target domain, by utilizing the labeled source domain. Inspiring results have been acquired by learning domain-invariant deep features via domain-adversarial training. However, its parallel design of task and domain classifiers limits the ability to achieve a finer category-level domain alignment. To promote categorical domain adaptation (CatDA), based on a joint category-domain classifier, we propose novel losses of adversarial training at both domain and category levels. Since the joint classifier can be regarded as a concatenation of individual task classifiers respectively for the two domains, our design principle is to enforce consistency of category predictions between the two task classifiers. Moreover, we propose a concept of vicinal domains whose instances are produced by a convex combination of pairs of instances respectively from the two domains. Intuitively, alignment of the possibly infinite number of vicinal domains enhances that of original domains. We propose novel adversarial losses for vicinal domain adaptation (VicDA) based on CatDA, leading to Vicinal and Categorical Domain Adaptation (ViCatDA). We also propose Target Discriminative Structure Recovery (TDSR) to recover the intrinsic target discrimination damaged by adversarial feature alignment. We also analyze the principles underlying the ability of our key designs to align the joint distributions. Extensive experiments on several benchmark datasets demonstrate that we achieve the new state of the art.
翻訳日:2021-03-08 15:02:57 公開日:2021-03-05
# スパース表現による画像生成

Generating Images with Sparse Representations ( http://arxiv.org/abs/2103.03841v1 )

ライセンス: Link先を確認
Charlie Nash, Jacob Menick, Sander Dieleman, Peter W. Battaglia(参考訳) 画像の高次元化は、確率に基づく生成モデルのアーキテクチャとサンプリング効率の課題を示す。 VQ-VAEのような従来のアプローチでは、深層オートエンコーダを使用してコンパクトな表現を得るが、これは確率ベースモデルの入力としてより実用的なものである。 本稿では、JPEGのような一般的な画像圧縮手法に触発され、画像をDCTチャネル、空間位置、DCT係数トリプルのシーケンスとして疎に表現された量子化された離散コサイン変換(DCT)ブロックに変換します。 本稿では,次の要素の条件分布を逐次的に予測し,高分解能画像に効果的にスケールするトランスフォーマベースの自己回帰型アーキテクチャを提案する。 さまざまな画像データセットにおいて、私たちのアプローチは、最先端の方法と競合するサンプルメトリックスコアで、高品質で多様な画像を生成することができることを実証します。 さらに,本手法の簡易な修正により,画像のカラー化と超解像モデルが得られることを示す。

The high dimensionality of images presents architecture and sampling-efficiency challenges for likelihood-based generative models. Previous approaches such as VQ-VAE use deep autoencoders to obtain compact representations, which are more practical as inputs for likelihood-based models. We present an alternative approach, inspired by common image compression methods like JPEG, and convert images to quantized discrete cosine transform (DCT) blocks, which are represented sparsely as a sequence of DCT channel, spatial location, and DCT coefficient triples. We propose a Transformer-based autoregressive architecture, which is trained to sequentially predict the conditional distribution of the next element in such sequences, and which scales effectively to high resolution images. On a range of image datasets, we demonstrate that our approach can generate high quality, diverse images, with sample metric scores competitive with state of the art methods. We additionally show that simple modifications to our method yield effective image colorization and super-resolution models.
翻訳日:2021-03-08 15:02:31 公開日:2021-03-05
# Gemini: 自律実験と分子シミュレーションのための動的バイアス補正

Gemini: Dynamic Bias Correction for Autonomous Experimentation and Molecular Simulation ( http://arxiv.org/abs/2103.03391v1 )

ライセンス: Link先を確認
Riley J. Hickman, Florian H\"ase, Lo\"ic M. Roch, Al\'an Aspuru-Guzik(参考訳) ベイズ最適化は、自律実験によって科学的発見を加速する強力な戦略として登場した。 しかし, 材料特性を正確に推定するには高価な測定が必要であり, 物質発見キャンペーンの妨げになる可能性がある。 本稿では,不動産評価手法間の系統的バイアスを補正することにより,安価な測定値を高価な測定指標のプロキシとして使用できるデータ駆動モデルであるgeminiを紹介する。 我々は,目標評価に費用がかかるという予測を,より有益な獲得関数の構築に利用し,最適化者が目標値を達成するために必要なコスト評価を削減できる自律ワークフロー設定において,データ不足の回帰タスクにgeminiを使用することを推奨する。 本稿では, 有機-無機ペロブスカイト系ハイブリッド材料のDFT計算バンドギャップの正確な予測を行う手法について述べる。 我々はさらに,ベイズ最適化のPhoenicsを拡張して,複数の測定ソースを活用するスケーラブルな最適化フレームワークを実現することで,自律ワークフローにGeminiがもたらすメリットを実証する。 最後に、酸素進化反応のための電気触媒の活性を最適化する自律的材料発見プラットフォームをシミュレートする。 Geminiによる自律的なワークフローの実現により,低金属のプロキシ合成システムから測定を行う場合,目標超越を実現するのに必要な高価な金属と希少金属からなる組成空間の計測回数が大幅に減少することを示した。

Bayesian optimization has emerged as a powerful strategy to accelerate scientific discovery by means of autonomous experimentation. However, expensive measurements are required to accurately estimate materials properties, and can quickly become a hindrance to exhaustive materials discovery campaigns. Here, we introduce Gemini: a data-driven model capable of using inexpensive measurements as proxies for expensive measurements by correcting systematic biases between property evaluation methods. We recommend using Gemini for regression tasks with sparse data and in an autonomous workflow setting where its predictions of expensive to evaluate objectives can be used to construct a more informative acquisition function, thus reducing the number of expensive evaluations an optimizer needs to achieve desired target values. In a regression setting, we showcase the ability of our method to make accurate predictions of DFT calculated bandgaps of hybrid organic-inorganic perovskite materials. We further demonstrate the benefits that Gemini provides to autonomous workflows by augmenting the Bayesian optimizer Phoenics to yeild a scalable optimization framework leveraging multiple sources of measurement. Finally, we simulate an autonomous materials discovery platform for optimizing the activity of electrocatalysts for the oxygen evolution reaction. Realizing autonomous workflows with Gemini, we show that the number of measurements of a composition space comprising expensive and rare metals needed to achieve a target overpotential is significantly reduced when measurements from a proxy composition system with less expensive metals are available.
翻訳日:2021-03-08 15:01:23 公開日:2021-03-05
# 表象事項:訓練データにおけるサブグループ配置の重要性の評価

Representation Matters: Assessing the Importance of Subgroup Allocations in Training Data ( http://arxiv.org/abs/2103.03399v1 )

ライセンス: Link先を確認
Esther Rolf, Theodora Worledge, Benjamin Recht, and Michael I. Jordan(参考訳) より多様で代表的なトレーニングデータの収集は、サブポピュレーションをまたがる機械学習予測器の異なるパフォーマンスの治療薬としてしばしば取り上げられる。 しかし、多様性のようなデータセットの特性が学習結果にどのように影響するかを理解するための正確なフレームワークはほとんど欠けている。 学習プロセスの一部としてデータ収集をキャストすることで,訓練データにおける多様な表現が,サブグループのパフォーマンス向上だけでなく,集団レベルの目標達成にも重要であることを実証する。 分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。

Collecting more diverse and representative training data is often touted as a remedy for the disparate performance of machine learning predictors across subpopulations. However, a precise framework for understanding how dataset properties like diversity affect learning outcomes is largely lacking. By casting data collection as part of the learning process, we demonstrate that diverse representation in training data is key not only to increasing subgroup performances, but also to achieving population level objectives. Our analysis and experiments describe how dataset compositions influence performance and provide constructive results for using trends in existing data, alongside domain knowledge, to help guide intentional, objective-aware dataset design.
翻訳日:2021-03-08 15:00:58 公開日:2021-03-05
# 出力スケール変化を伴うニューラルネットワーク学習における適応学習率に対する意図しない効果

Unintended Effects on Adaptive Learning Rate for Training Neural Network with Output Scale Change ( http://arxiv.org/abs/2103.03466v1 )

ライセンス: Link先を確認
Ryuichi Kanoh, Mahito Sugiyama(参考訳) 乗法定数スケーリング係数は、ニューラルネットワークパラメータのダイナミクスを調整するためにモデル出力にしばしば適用される。 これは怠け者および活動的な行為の実証的な研究の重要な介入の1つとして使用されました。 しかし,このようなスケーリングと適応学習率最適化器の組み合わせは,ニューラルネットワークの学習行動に強く影響を及ぼすことを示す。 これは、ニューラルネットワークの \emph{unintended behavior}を引き起こす可能性があるため問題であり、実験結果の誤解を招く。 具体的には、いくつかのスケーリング設定では、適応学習率の効果が失われるか、あるいはスケーリング係数の影響を強く受けている。 意図しない効果を避けるため,最適化アルゴリズムの修正を行い,適応学習速度の最適化と簡単な勾配降下,特に小さな (<1.0$) スケーリング係数の差を示す。

A multiplicative constant scaling factor is often applied to the model output to adjust the dynamics of neural network parameters. This has been used as one of the key interventions in an empirical study of lazy and active behavior. However, we show that the combination of such scaling and a commonly used adaptive learning rate optimizer strongly affects the training behavior of the neural network. This is problematic as it can cause \emph{unintended behavior} of neural networks, resulting in the misinterpretation of experimental results. Specifically, for some scaling settings, the effect of the adaptive learning rate disappears or is strongly influenced by the scaling factor. To avoid the unintended effect, we present a modification of an optimization algorithm and demonstrate remarkable differences between adaptive learning rate optimization and simple gradient descent, especially with a small ($<1.0$) scaling factor.
翻訳日:2021-03-08 15:00:45 公開日:2021-03-05
# 非無視欠陥に対するディープジェネレーティブパターンセット混合モデル

Deep Generative Pattern-Set Mixture Models for Nonignorable Missingness ( http://arxiv.org/abs/2103.03532v1 )

ライセンス: Link先を確認
Sahra Ghalebikesabi, Rob Cornish, Luke J. Kelly and Chris Holmes(参考訳) パターンセット混合を用いた非無視データと非無視データの両方をモデル化するための変分オートエンコーダアーキテクチャを提案する(1993年)。 モデルでは,観測されたデータと欠落マスクに基づいて,欠落したデータを欠落パターンにクラスタ化することを明示的に学習する。 提案手法の根底にあるのは, 観測されたデータ分布のサンプルによって, 確率的にデータ分布が半教師されるという仮定である。 当社のセットアップでは,無知かつ無知な欠如の特性をトレードオフすることで,両タイプのデータに適用することが可能である。 提案手法は,異なるタイプの欠落を有する幅広いデータセットを用いて評価し,最先端の計算性能を実現する。 我々のモデルは、特に欠落するデータの量が高く、欠落するメカニズムが無視できない場合に、多くの一般的な計算アルゴリズムより優れている。

We propose a variational autoencoder architecture to model both ignorable and nonignorable missing data using pattern-set mixtures as proposed by Little (1993). Our model explicitly learns to cluster the missing data into missingness pattern sets based on the observed data and missingness masks. Underpinning our approach is the assumption that the data distribution under missingness is probabilistically semi-supervised by samples from the observed data distribution. Our setup trades off the characteristics of ignorable and nonignorable missingness and can thus be applied to data of both types. We evaluate our method on a wide range of data sets with different types of missingness and achieve state-of-the-art imputation performance. Our model outperforms many common imputation algorithms, especially when the amount of missing data is high and the missingness mechanism is nonignorable.
翻訳日:2021-03-08 15:00:32 公開日:2021-03-05
# 損失推定器によるモデル一般化の改善

Loss Estimators Improve Model Generalization ( http://arxiv.org/abs/2103.03788v1 )

ライセンス: Link先を確認
Vivek Narayanaswamy, Jayaraman J. Thiagarajan, Deepta Rajan, Andreas Spanias(参考訳) 臨床診断のためのAI手法の採用への関心が高まる中、そのようなツールの安全な展開への重要なステップは、モデルが正確な予測を生成するだけでなく、トレーニングデータが有意義な証拠を提供しないデータシステムにも一般化しないようにすることです。 モデル予測の分布を真の分布と同一視するための既存のアプローチは、本質的に校正が難しい明示的な不確実性推定子に依存する。 本論文では, 予測モデルに沿った損失推定器の訓練について, 対照的訓練目標を用いて直接予測不確実性を推定することを提案する。 興味深いことに、よく校正された不確実性を生成することに加えて、このアプローチは予測器の一般化挙動を改善する。 dermatologyのユースケースを用いて,損失推定器がモデルの一般化に与える影響を,分布データに対する忠実性と,分布サンプルから検出する能力,あるいはトレーニング中の新しいクラスの両方の観点から示す。

With increased interest in adopting AI methods for clinical diagnosis, a vital step towards safe deployment of such tools is to ensure that the models not only produce accurate predictions but also do not generalize to data regimes where the training data provide no meaningful evidence. Existing approaches for ensuring the distribution of model predictions to be similar to that of the true distribution rely on explicit uncertainty estimators that are inherently hard to calibrate. In this paper, we propose to train a loss estimator alongside the predictive model, using a contrastive training objective, to directly estimate the prediction uncertainties. Interestingly, we find that, in addition to producing well-calibrated uncertainties, this approach improves the generalization behavior of the predictor. Using a dermatology use-case, we show the impact of loss estimators on model generalization, in terms of both its fidelity on in-distribution data and its ability to detect out of distribution samples or new classes unseen during training.
翻訳日:2021-03-08 15:00:18 公開日:2021-03-05
# NPT-Loss:顔認識のための暗黙のマイニングによるメトリクス損失

NPT-Loss: A Metric Loss with Implicit Mining for Face Recognition ( http://arxiv.org/abs/2103.03503v1 )

ライセンス: Link先を確認
Syed Safwan Khalid, Muhammad Awais, Chi-Ho Chan, Zhenhua Feng, Ammarah Farooq, Ali Akbari and Josef Kittler(参考訳) ディープ畳み込みニューラルネットワーク(DCNN)を用いた顔認識(FR)は近年顕著な成功を収めている。 DCNNベースのFRの重要な要素の1つは、さまざまなアイデンティティ間の識別を保証する損失関数の適切な設計です。 最先端の(SOTA)ソリューションは、添加および/または乗算マージンで正規化されたSoftmax損失を利用します。 人気があるにもかかわらず、これらのSoftmax+marginベースの損失は理論的には動機づけられず、マージンの有効性は直感的にのみ正当化される。 本研究では,様々なアイデンティティの特徴を識別するための,より直接的なメカニズムを提供する代替フレームワークを利用する。 本稿では,プロキシによる三重項損失に相当する新しい損失と,ハード負のマイニングの暗黙のメカニズムを提案する。 提案した損失を最小化する理論的正当性は、すべてのアイデンティティ間の最小の分離性を保証する。 提案した損失は実装が簡単で、SOTAソリューションのように重いハイパーパラメータチューニングを必要としない。 我々は,その単純さにもかかわらず,提案した損失は,高分解能および低分解能のFRタスクに対して,様々なベンチマークにおいて一貫してSOTA性能を達成するという実証的証拠を与える。

Face recognition (FR) using deep convolutional neural networks (DCNNs) has seen remarkable success in recent years. One key ingredient of DCNN-based FR is the appropriate design of a loss function that ensures discrimination between various identities. The state-of-the-art (SOTA) solutions utilise normalised Softmax loss with additive and/or multiplicative margins. Despite being popular, these Softmax+margin based losses are not theoretically motivated and the effectiveness of a margin is justified only intuitively. In this work, we utilise an alternative framework that offers a more direct mechanism of achieving discrimination among the features of various identities. We propose a novel loss that is equivalent to a triplet loss with proxies and an implicit mechanism of hard-negative mining. We give theoretical justification that minimising the proposed loss ensures a minimum separability between all identities. The proposed loss is simple to implement and does not require heavy hyper-parameter tuning as in the SOTA solutions. We give empirical evidence that despite its simplicity, the proposed loss consistently achieves SOTA performance in various benchmarks for both high-resolution and low-resolution FR tasks.
翻訳日:2021-03-08 14:59:44 公開日:2021-03-05
# 多言語のByte2Speech Text-To-Speechモデル

Multilingual Byte2Speech Text-To-Speech Models Are Few-shot Spoken Language Learners ( http://arxiv.org/abs/2103.03541v1 )

ライセンス: Link先を確認
Mutian He, Jingzhou Yang, Lei He(参考訳) 本稿では、バイト入力をスペクトログラムにマッピングし、任意の入力スクリプトを可能にする多言語用エンドツーエンドテキスト合成フレームワークを提案する。 40以上の言語での強力な結果に加えて、このフレームワークは、レキシコン、余分なコーパス、補助モデル、あるいは特定の言語的専門知識を必要とせずに、極端に低リソースでほんの40秒の録音で、様々な新しい言語に適応できる能力を示し、リッチリソースモデルに適合する十分な知性と自然性を維持している。 低リソースアプリケーションのためのフレームワークの可能性と適応に寄与するさまざまな要因の影響を明らかにするために、排他比較研究が行われます。 さらに,多言語モデルのメカニズムをよりよく理解するために,言語固有のサブネットワークを抽出する手法を提案する。

We present a multilingual end-to-end Text-To-Speech framework that maps byte inputs to spectrograms, thus allowing arbitrary input scripts. Besides strong results on 40+ languages, the framework demonstrates capabilities to adapt to various new languages under extreme low-resource and even few-shot scenarios of merely 40s transcribed recording without the need of lexicon, extra corpus, auxiliary models, or particular linguistic expertise, while retains satisfactory intelligibility and naturalness matching rich-resource models. Exhaustive comparative studies are performed to reveal the potential of the framework for low-resource application and the impact of various factors contributory to adaptation. Furthermore, we propose a novel method to extract language-specific sub-networks for a better understanding of the mechanism of multilingual models.
翻訳日:2021-03-08 14:59:05 公開日:2021-03-05
# 決定木集合の効率的な暗号化推論

Efficient Encrypted Inference on Ensembles of Decision Trees ( http://arxiv.org/abs/2103.03411v1 )

ライセンス: Link先を確認
Kanthi Sarpatwar and Karthik Nandakumar and Nalini Ratha and James Rayfield and Karthikeyan Shanmugam and Sharath Pankanti and Roman Vaculin(参考訳) データプライバシーに関する懸念は、しばしば機密個人データのクラウドベースの機械学習サービスの使用を妨げます。 ホモモルフィック暗号化(HE)は、暗号化されたデータの計算を可能にすることで潜在的な解決策を提供するが、その課題は、レベル付きHEスキームの乗算深度制約の中で機能する正確な機械学習モデルを得ることである。 既存の暗号化推論のアプローチでは、事前訓練されたモデル(例えば、決定ツリーのハード比較をソフトコンパレータに置き換える)を精度の犠牲でアドホックに単純化するか、あるいはオリジナルのトレーニングセットを使って新しい深度制約モデルを直接訓練する。 本研究では, 複雑な決定木アンサンブルから抽出した知識を, 暗号化推論に強く寄与する浅層ニューラルネットワーク(DTNet)に伝達する枠組みを提案する。 提案手法は,与えられた深度制約内で動作する最高のDTNetアーキテクチャを探索し,トレーニングデータ分布からサンプリングした合成データのみを用いてDTNetをトレーニングすることにより,精度の低下を最小限に抑える。 実世界のデータセットに対する大規模な実験は、これらの特性がDTNetの精度が元のツリーアンサンブルに近づくことを確実にするために重要であることを示した。 当社のシステムは高度にスケーラブルで,バッチ暗号化された(134ビットのセキュリティ)データに対して,ミリ秒のアモートタイムで効率的な推論を行うことができる。 これは、アンサンブルツリーの内部ノードでソフト比較を適用する標準的なアプローチよりも約3桁高速である。

Data privacy concerns often prevent the use of cloud-based machine learning services for sensitive personal data. While homomorphic encryption (HE) offers a potential solution by enabling computations on encrypted data, the challenge is to obtain accurate machine learning models that work within the multiplicative depth constraints of a leveled HE scheme. Existing approaches for encrypted inference either make ad-hoc simplifications to a pre-trained model (e.g., replace hard comparisons in a decision tree with soft comparators) at the cost of accuracy or directly train a new depth-constrained model using the original training set. In this work, we propose a framework to transfer knowledge extracted by complex decision tree ensembles to shallow neural networks (referred to as DTNets) that are highly conducive to encrypted inference. Our approach minimizes the accuracy loss by searching for the best DTNet architecture that operates within the given depth constraints and training this DTNet using only synthetic data sampled from the training data distribution. Extensive experiments on real-world datasets demonstrate that these characteristics are critical in ensuring that DTNet accuracy approaches that of the original tree ensemble. Our system is highly scalable and can perform efficient inference on batched encrypted (134 bits of security) data with amortized time in milliseconds. This is approximately three orders of magnitude faster than the standard approach of applying soft comparison at the internal nodes of the ensemble trees.
翻訳日:2021-03-08 14:58:30 公開日:2021-03-05
# ソーシャルディスタンシングと緊急避難の統合ツールとしてのルーティングアルゴリズム

Routing algorithms as tools for integrating social distancing with emergency evacuation ( http://arxiv.org/abs/2103.03413v1 )

ライセンス: Link先を確認
Yi-Lin Tsai (1), Chetanya Rastogi (2), Peter K. Kitanidis (1, 3, and 4), Christopher B. Field (3, 5, and 6) ((1) Department of Civil and Environmental Engineering, Stanford University, Stanford, CA, USA, (2) Department of Computer Science, Stanford University, Stanford, CA, USA, (3) Woods Institute for the Environment, Stanford University, Stanford, CA, USA, (4) Institute for Computational and Mathematical Engineering, Stanford University, Stanford, CA, USA, (5) Department of Biology, Stanford University, Stanford, CA, USA, (6) Department of Earth System Science, Stanford University, Stanford, CA, USA)(参考訳) 本研究では,新型コロナウイルス(covid-19)パンデミックでハリケーンが大都市に接近したとき,緊急避難にソーシャルディスタンシングを統合することの意義について検討する。 具体的には、救助車両における社会的距離を許容しつつ、避難時間を最小限に抑える避難戦略を生成するDNN(Deep Neural Network)と非DNN法を比較した。 中心的な疑問は、時間制約付き避難操作において、DNNベースの手法が社会的距離に対応するのに十分な余分な効率を提供するかどうかである。 この問題をキャパシタ付き車両ルーティング問題として記述し、1つの非DNNソリューション(Sweep Algorithm)と1つのDNNベースのソリューション(Deep Reinforcement Learning)を使用して解決します。 DNNベースのソリューションは、非DNNソリューションよりも効率的なルーティングを提供することができる。 DNNベースのソリューションは、避難経路のかなりの時間を節約できますが、社会的分散に必要な余分な時間の補償に近づくことはなく、車両容量が世帯あたりの人数に近づくにつれてその利点は消えます。

In this study, we explore the implications of integrating social distancing with emergency evacuation when a hurricane approaches a major city during the COVID-19 pandemic. Specifically, we compare DNN (Deep Neural Network)-based and non-DNN methods for generating evacuation strategies that minimize evacuation time while allowing for social distancing in rescue vehicles. A central question is whether a DNN-based method provides sufficient extra efficiency to accommodate social distancing, in a time-constrained evacuation operation. We describe the problem as a Capacitated Vehicle Routing Problem and solve it using one non-DNN solution (Sweep Algorithm) and one DNN-based solution (Deep Reinforcement Learning). DNN-based solution can provide decision-makers with more efficient routing than non-DNN solution. Although DNN-based solution can save considerable time in evacuation routing, it does not come close to compensating for the extra time required for social distancing and its advantage disappears as the vehicle capacity approaches the number of people per household.
翻訳日:2021-03-08 14:58:07 公開日:2021-03-05
# コンピュータゲームにおけるリアルタイム感情認識のための適応ガウスファジィ分類器

Adaptive Gaussian Fuzzy Classifier for Real-Time Emotion Recognition in Computer Games ( http://arxiv.org/abs/2103.03488v1 )

ライセンス: Link先を確認
Daniel Leite, Volnei Frigeri Jr., Rodrigo Medeiros(参考訳) 人間の感情認識は、よりリアルでインタラクティブなマシンとコンピュータシステムの必要性となっています。 最大の課題は、生理学的データストリームの個々の差異や非定常を効果的に管理する高性能アルゴリズム、すなわち、被験者固有のキャリブレーションデータなしでユーザに自己カスタマイズするアルゴリズムが利用可能であることだ。 本稿では,脳波データストリームから感情パターンを認識するオンライン半教師付き学習アルゴリズムによって支援されたガウスファジィ分類器(eGFC)について述べる。 我々は、脳波データのフーリエスペクトルから特徴を抽出します。 データは、公開データセットである「train sim world」「unravel」「slender the arrival」「goat simulator」をプレイする28人の個人によって提供される。 異なる感情は、すなわち、退屈、落ち着き、恐怖と喜びが優勢です。 ユーザ非依存eGFCの精度に及ぼす各電極,時間窓長さ,周波数帯域の影響を解析した。 両脳半球は、特に前頭葉(Af3-Af4)、後頭葉(O1-O2)、側頭葉(T7-T8)の電極の分類を補助する可能性がある。 いずれの周波数帯でもパターンが見つかる可能性があるが、Alpha (8-13Hz)、Delta (1-4Hz)、Theta (4-8Hz)は感情のクラスと最も相関している。 eGFCは脳波データのリアルタイム学習に有効であることが示されている。 可変ルールベース、10秒ウィンドウ、1.8ms/sample処理時間を用いて、高度に確率的な4クラス分類問題において72.2%の精度に達する。

Human emotion recognition has become a need for more realistic and interactive machines and computer systems. The greatest challenge is the availability of high-performance algorithms to effectively manage individual differences and nonstationarities in physiological data streams, i.e., algorithms that self-customize to a user with no subject-specific calibration data. We describe an evolving Gaussian Fuzzy Classifier (eGFC), which is supported by an online semi-supervised learning algorithm to recognize emotion patterns from electroencephalogram (EEG) data streams. We extract features from the Fourier spectrum of EEG data. The data are provided by 28 individuals playing the games 'Train Sim World', 'Unravel', 'Slender The Arrival', and 'Goat Simulator' - a public dataset. Different emotions prevail, namely, boredom, calmness, horror and joy. We analyze the effect of individual electrodes, time window lengths, and frequency bands on the accuracy of user-independent eGFCs. We conclude that both brain hemispheres may assist classification, especially electrodes on the frontal (Af3-Af4), occipital (O1-O2), and temporal (T7-T8) areas. We observe that patterns may be eventually found in any frequency band; however, the Alpha (8-13Hz), Delta (1-4Hz), and Theta (4-8Hz) bands, in this order, are the highest correlated with emotion classes. eGFC has shown to be effective for real-time learning of EEG data. It reaches a 72.2% accuracy using a variable rule base, 10-second windows, and 1.8ms/sample processing time in a highly-stochastic time-varying 4-class classification problem.
翻訳日:2021-03-08 14:57:46 公開日:2021-03-05
# インテリジェントネットワーク車両のためのフェデレーション学習による分散動的マップ融合

Distributed Dynamic Map Fusion via Federated Learning for Intelligent Networked Vehicles ( http://arxiv.org/abs/2103.03786v1 )

ライセンス: Link先を確認
Zijian Zhang, Shuai Wang, Yuncong Hong, Liangkai Zhou, and Qi Hao(参考訳) ネットワーク化された車両間のダイナミックマップ融合技術は、感知範囲を拡大し、個々の車両の感知精度を向上させるために開発された。 本稿では、視野(FoV)における未知のオブジェクト数、様々なセンシングおよびモデルの不確実性、オンライン学習のためのデータラベルの欠如に拘わらず、高いマップ品質を実現するための、FLベースの動的マップ融合フレームワークを提案する。 本研究の新規性は,(1)オブジェクトの数を効果的に予測し,複数の局所マップを忠実度スコアで融合する3段階融合方式を開発すること,(2)特徴モデル(特徴抽出のための表現学習ネットワーク)をモデルパラメータの集約によって分散的に表現するFLアルゴリズムを開発すること,(3)データラベルが利用できないときにFLトレーニングラベルを生成する知識蒸留法を開発すること,の3つである。 提案されたフレームワークはcarla(carla)シミュレーションプラットフォームに実装されている。 開発したマップフュージョンとFLスキームの優れた性能とロバスト性を検証するため, 広範囲な実験結果が得られた。

The technology of dynamic map fusion among networked vehicles has been developed to enlarge sensing ranges and improve sensing accuracies for individual vehicles. This paper proposes a federated learning (FL) based dynamic map fusion framework to achieve high map quality despite unknown numbers of objects in fields of view (FoVs), various sensing and model uncertainties, and missing data labels for online learning. The novelty of this work is threefold: (1) developing a three-stage fusion scheme to predict the number of objects effectively and to fuse multiple local maps with fidelity scores; (2) developing an FL algorithm which fine-tunes feature models (i.e., representation learning networks for feature extraction) distributively by aggregating model parameters; (3) developing a knowledge distillation method to generate FL training labels when data labels are unavailable. The proposed framework is implemented in the Car Learning to Act (CARLA) simulation platform. Extensive experimental results are provided to verify the superior performance and robustness of the developed map fusion and FL schemes.
翻訳日:2021-03-08 14:57:16 公開日:2021-03-05
# 乱流自然対流のサーロゲートモデリングのための物理認識ディープニューラルネットワーク

Physics-aware deep neural networks for surrogate modeling of turbulent natural convection ( http://arxiv.org/abs/2103.03565v1 )

ライセンス: Link先を確認
Didier Lucor (LISN), Atul Agrawal (TUM, LISN), Anne Sergent (LISN, UFR 919)(参考訳) 近年の研究では、RANSおよびLES技術のデータ駆動乱流閉鎖としての機械学習の可能性を検討している。 これらの進歩の他に、物理インフォームドニューラルネットワーク(PINN)の高表現性と俊敏性により、フルフローPDEモデリングの候補候補が期待できる。 重要な疑問は、この新しいパラダイムが、フロースケールの解像度と非常に密接に結びついている従来の演算子の離散化の概念を除外し、マルチスケールの特徴によって特徴づけられる高レベルの乱流を維持できるかどうかである。 流体バルクからのDNS温度データを主として, 乱流Rayleigh-B{\'e}nard(RB)対流流に対するPINNのサーロゲートモデルの利用を検討した。 我々は, 流れの隠れた量を正確に復元できる計算条件を慎重に定量化する。 次に,PDE残差を最小限に抑えた分散座標をラベル付きデータ取得領域周辺に分散する新しいパディング手法を提案する。 標準PINNの精度が低いゾーンであるトレーニングバウンダリに近い正規化としてどのように機能するかを示し、 iso-budgetで顕著なグローバル精度の向上をもたらします。 最後に,非圧縮性条件を緩和する手法として,最適化探索を劇的に改善し,複合損失関数の収束性を大幅に向上させる手法を提案する。 高レイリー数Ra = 2 $\bullet$ 10 9で得られたRBの結果は特に印象的です。半億のDNS座標全体にわたるサーロゲートの予測精度は、相対的なL2ノルムで[0.3% -- 4%]の範囲のすべてのフロー変数のエラーを引き起こし、トレーニングはDNSデータポイントの1.6%のみに依存します。

Recent works have explored the potential of machine learning as data-driven turbulence closures for RANS and LES techniques. Beyond these advances, the high expressivity and agility of physics-informed neural networks (PINNs) make them promising candidates for full fluid flow PDE modeling. An important question is whether this new paradigm, exempt from the traditional notion of discretization of the underlying operators very much connected to the flow scales resolution, is capable of sustaining high levels of turbulence characterized by multi-scale features? We investigate the use of PINNs surrogate modeling for turbulent Rayleigh-B{\'e}nard (RB) convection flows in rough and smooth rectangular cavities, mainly relying on DNS temperature data from the fluid bulk. We carefully quantify the computational requirements under which the formulation is capable of accurately recovering the flow hidden quantities. We then propose a new padding technique to distribute some of the scattered coordinates-at which PDE residuals are minimized-around the region of labeled data acquisition. We show how it comes to play as a regularization close to the training boundaries which are zones of poor accuracy for standard PINNs and results in a noticeable global accuracy improvement at iso-budget. Finally, we propose for the first time to relax the incompressibility condition in such a way that it drastically benefits the optimization search and results in a much improved convergence of the composite loss function. The RB results obtained at high Rayleigh number Ra = 2 $\bullet$ 10 9 are particularly impressive: the predictive accuracy of the surrogate over the entire half a billion DNS coordinates yields errors for all flow variables ranging between [0.3% -- 4%] in the relative L 2 norm, with a training relying only on 1.6% of the DNS data points.
翻訳日:2021-03-08 14:56:30 公開日:2021-03-05
# 人口ベースのSHMの基礎(第4報)--構造空間とその特徴空間の幾何学

Foundations of Population-Based SHM, Part IV: The Geometry of Spaces of Structures and their Feature Spaces ( http://arxiv.org/abs/2103.03655v1 )

ライセンス: Link先を確認
George Tsialiamanis, Charilaos Mylonas, Eleni Chatzi, Nikolaos Dervilis, David J. Wagg, Keith Worden(参考訳) このシーケンスの以前の論文で提案された構造健康モニタリング(SHM)に対する人口ベースアプローチの要件の1つは、構造が抽象空間の点によって表されることである。 さらに、これらの空間はゆるい意味での計量空間でなければならない。 点の対に適用可能な距離の測度があるはずであり、同様の構造はメートル法に近くなければならない。 しかし、この幾何学的構成は、特徴空間の概念を未定義のまま残すため、データベースのSHMにおける問題のフレーミングには不十分である。 構造ごとに特徴値を構造空間上のフィールドの一種として解釈すると、現代の理論物理学からアイデアを借りて、構造空間上のベクトルバンドルのセクションとして特徴代入を定義することは理にかなっている。 この考え方は、現代のゲージ場理論のように、環境と操作のバリエーションの影響をゲージの自由度として解釈することができる。 本稿では,SHMにおける特徴空間の抽象的理論に必要な様々な幾何学的構造について論じるとともに,これらの構造が現代物理学におけるその力をいかに示しているかを例証する。 論文の第2部では、特徴バンドルの正常状態断面を決定する問題に対処する。 このソリューションは、ベクトル空間からの入力と出力に限定されない汎用的な非ユークリッド機械学習アルゴリズムであるGraph Neural Networks(GNN)の適用によって提供される。 特に、このアルゴリズムは、提案されたPBSHMフレームワークの重要な部分であるある種のグラフ構造に直接動作するのに適しています。 通常のセクション問題の解は、関心のある特徴が最初の自然頻度であるトラス構造の異種集団のために示されています。

One of the requirements of the population-based approach to Structural Health Monitoring (SHM) proposed in the earlier papers in this sequence, is that structures be represented by points in an abstract space. Furthermore, these spaces should be metric spaces in a loose sense; i.e. there should be some measure of distance applicable to pairs of points; similar structures should then be close in the metric. However, this geometrical construction is not enough for the framing of problems in data-based SHM, as it leaves undefined the notion of feature spaces. Interpreting the feature values on a structure-by-structure basis as a type of field over the space of structures, it seems sensible to borrow an idea from modern theoretical physics, and define feature assignments as sections in a vector bundle over the structure space. With this idea in place, one can interpret the effect of environmental and operational variations as gauge degrees of freedom, as in modern gauge field theories. This paper will discuss the various geometrical structures required for an abstract theory of feature spaces in SHM, and will draw analogies with how these structures have shown their power in modern physics. In the second part of the paper, the problem of determining the normal condition cross section of a feature bundle is addressed. The solution is provided by the application of Graph Neural Networks (GNN), a versatile non-Euclidean machine learning algorithm which is not restricted to inputs and outputs from vector spaces. In particular, the algorithm is well suited to operating directly on the sort of graph structures which are an important part of the proposed framework for PBSHM. The solution of the normal section problem is demonstrated for a heterogeneous population of truss structures for which the feature of interest is the first natural frequency.
翻訳日:2021-03-08 14:55:55 公開日:2021-03-05
# FloMo: 正規化フローによるトラクタブルモーション予測

FloMo: Tractable Motion Prediction with Normalizing Flows ( http://arxiv.org/abs/2103.03614v1 )

ライセンス: Link先を確認
Christoph Sch\"oller, Alois Knoll(参考訳) 交通参加者の将来の動きは本質的に不確かである。 したがって、安全に計画するには、自律エージェントは複数の可能な結果を考慮し、優先順位を付ける必要があります。 近年、この問題は生成ニューラルネットワークで解決されている。 しかし、ほとんどの生成モデルは真の軌道分布を確実に学ばないか、あるいは予測に関連付けられる可能性を許さない。 本研究では,ノイズサンプルと将来の動き分布の正規化フローを用いた密度推定問題として,動き予測を直接モデル化する。 我々のモデルはFloMoと呼ばれ、単一のネットワークパスで確率を計算でき、最大推定で直接訓練することができる。 さらに,軌道データセット上でのトレーニングフローを安定化する手法と,モデルの性能と一般化を改善する新しいデータ拡張変換を提案する。 提案手法は,3つの一般的な予測データセットにおいて最先端のパフォーマンスを実現する。

The future motion of traffic participants is inherently uncertain. To plan safely, therefore, an autonomous agent must take into account multiple possible outcomes and prioritize them. Recently, this problem has been addressed with generative neural networks. However, most generative models either do not learn the true underlying trajectory distribution reliably, or do not allow likelihoods to be associated with predictions. In our work, we model motion prediction directly as a density estimation problem with a normalizing flow between a noise sample and the future motion distribution. Our model, named FloMo, allows likelihoods to be computed in a single network pass and can be trained directly with maximum likelihood estimation. Furthermore, we propose a method to stabilize training flows on trajectory datasets and a new data augmentation transformation that improves the performance and generalization of our model. Our method achieves state-of-the-art performance on three popular prediction datasets, with a significant gap to most competing models.
翻訳日:2021-03-08 14:55:26 公開日:2021-03-05
# ASC-Net : 教師なし異常セグメンテーションのためのアドバイザリベース選択ネットワーク

ASC-Net : Adversarial-based Selective Network for Unsupervised Anomaly Segmentation ( http://arxiv.org/abs/2103.03664v1 )

ライセンス: Link先を確認
Raunak Dey and Yi Hong(参考訳) 本稿では,画像の分割を2つのカットに分割し,一方のカットをユーザが提供した参照分布に落とし込む,ニューラルネットワークフレームワークを提案する。 この概念は教師なし異常セグメンテーション(unsupervised anomaly segmentation)の課題に対処し、近年はラベルなしデータを持つタスクに広く応用されているため、注目を集めている。 この適応型選択カットネットワーク(ASC-Net)は、クラスタベースのディープラーニング手法と、対向型異常・異常検出アルゴリズムの2つの領域を橋渡しする。 本研究では,BraTS脳腫瘍分節,LiTS肝病変分節,MS-SEG2015分節の非監視学習モデルを評価した。 AnoGANファミリーのような既存の手法と比較して、教師なしの異常セグメンテーションタスクにおいて、我々のモデルは大きなパフォーマンス向上を示す。 教師付き学習アルゴリズムと比較してさらにパフォーマンスを向上させる余地はあるが、有望な実験結果は、ユーザ定義の知識を用いた教師なし学習アルゴリズムの構築に光を当てた。

We introduce a neural network framework, utilizing adversarial learning to partition an image into two cuts, with one cut falling into a reference distribution provided by the user. This concept tackles the task of unsupervised anomaly segmentation, which has attracted increasing attention in recent years due to their broad applications in tasks with unlabelled data. This Adversarial-based Selective Cutting network (ASC-Net) bridges the two domains of cluster-based deep learning methods and adversarial-based anomaly/novelty detection algorithms. We evaluate this unsupervised learning model on BraTS brain tumor segmentation, LiTS liver lesion segmentation, and MS-SEG2015 segmentation tasks. Compared to existing methods like the AnoGAN family, our model demonstrates tremendous performance gains in unsupervised anomaly segmentation tasks. Although there is still room to further improve performance compared to supervised learning algorithms, the promising experimental results shed light on building an unsupervised learning algorithm using user-defined knowledge.
翻訳日:2021-03-08 14:55:11 公開日:2021-03-05
# FedDis: 教師なし脳病理区分のための離散型フェデレーション学習

FedDis: Disentangled Federated Learning for Unsupervised Brain Pathology Segmentation ( http://arxiv.org/abs/2103.03705v1 )

ライセンス: Link先を確認
Cosmin I. Bercea, Benedikt Wiestler, Daniel Rueckert and Shadi Albarqouni(参考訳) 近年、データ駆動機械学習(ML)手法は、未解決の(医学的な)画像分析問題に対する新しい効率的なソリューションを提供することで、コンピュータビジョンコミュニティに革命をもたらしました。 しかし、多くの異なるサイトにおけるプライバシーの懸念とデータの断片化が増加しているため、既存の医療データは十分に利用されず、MLの可能性を制限する。 フェデレーションラーニング(FL)により、複数のパーティがローカルデータを交換することなく、MLモデルを共同でトレーニングできます。 しかし、分散クライアント間のデータ不均一性(非IID)はまだ課題です。 そこで我々は,フェデレーション・ディエンタングルメント(Federated Disentanglement, Federated Disentanglement, FedDis)という新しいフェデレーション手法を提案し,パラメータ空間を形状と外観に切り離し,シェイプ・パラメータをクライアントと共有する。 FedDisは、脳MRI画像の解剖学的構造が複数の機関で類似しているという仮定に基づいており、形状知識を共有することは異常検出に有用である。 本稿では,実データ(oasis, adni)を持つ複数のサイトから得られた623名の健常者の脳スキャンを用いて,正常解剖モデルの学習を行い,異常構造のセグメント化を可能にする。 MSISBIとMSとGlioblastoma(MSIとGBI)の社内データベースの2つの公開MS Lesions(MSLUB、MSSISBI)を含む実際の病理学的データベース上でのFedDisの優れたパフォーマンスを実証します。 FedDisは0.38の平均ダイス性能を達成し、最先端の(SOTA)オートエンコーダを42%、SOTAフェデレーション方式を11%上回った。 さらに,feeddisは,外観と直交し,異なる強度拡張下で一貫性のある形状埋め込みを学習することを示す。

In recent years, data-driven machine learning (ML) methods have revolutionized the computer vision community by providing novel efficient solutions to many unsolved (medical) image analysis problems. However, due to the increasing privacy concerns and data fragmentation on many different sites, existing medical data are not fully utilized, thus limiting the potential of ML. Federated learning (FL) enables multiple parties to collaboratively train a ML model without exchanging local data. However, data heterogeneity (non-IID) among the distributed clients is yet a challenge. To this end, we propose a novel federated method, denoted Federated Disentanglement (FedDis), to disentangle the parameter space into shape and appearance, and only share the shape parameter with the clients. FedDis is based on the assumption that the anatomical structure in brain MRI images is similar across multiple institutions, and sharing the shape knowledge would be beneficial in anomaly detection. In this paper, we leverage healthy brain scans of 623 subjects from multiple sites with real data (OASIS, ADNI) in a privacy-preserving fashion to learn a model of normal anatomy, that allows to segment abnormal structures. We demonstrate a superior performance of FedDis on real pathological databases containing 109 subjects; two publicly available MS Lesions (MSLUB, MSISBI), and an in-house database with MS and Glioblastoma (MSI and GBI). FedDis achieved an average dice performance of 0.38, outperforming the state-of-the-art (SOTA) auto-encoder by 42% and the SOTA federated method by 11%. Further, we illustrate that FedDis learns a shape embedding that is orthogonal to the appearance and consistent under different intensity augmentations.
翻訳日:2021-03-08 14:54:52 公開日:2021-03-05
# プログレッシブ自己監督型注意学習によるアスペクトベース感情分析モデルの強化

Enhanced Aspect-Based Sentiment Analysis Models with Progressive Self-supervised Attention Learning ( http://arxiv.org/abs/2103.03446v1 )

ライセンス: Link先を確認
Jinsong Su, Jialong Tang, Hui Jiang, Ziyao Lu, Yubin Ge, Linfeng Song, Deyi Xiong, Le Sun, Jiebo Luo(参考訳) アスペクトベース感情分析(absa)では、多くのニューラルモデルに感情予測に対する各文脈単語の寄与を定量化するための注意機構が備わっている。 しかし、このようなメカニズムは1つの欠点に悩まされる: 感情の極性を持つ単語は、モデルによって無視されるが、最終的な感情決定のために考慮される傾向にある。 そこで本研究では,注目ABSAモデルに対する自己監督型注意学習手法を提案する。 このアプローチでは,すべてのトレーニングインスタンスで反復的に感情予測を行い,その間,有用な注意監督情報を継続的に学習する。 トレーニング中、各反復において、注意重みや勾配に基づいて識別された感情予測に最も影響を与える文脈単語を、各インスタンスの正誤予測にアクティブ/誤認の影響のある単語として抽出する。 このように抽出された単語は、その後のイテレーションでマスキングされる。 抽出した単語をABSAモデルの精錬に利用するために,従来の訓練目標を正規化用語で強化し,ABSAモデルが抽出したアクティブな文脈語を最大限に活用するだけでなく,誤解を招く単語の重みを減少させるように促す。 提案手法を3つの最先端の神経ABSAモデルに統合する。 実験結果と深部分析の結果から,本手法はより注意度を高め,3モデルすべての性能を著しく向上させることが示された。 ソースコードとトレーニングされたモデルをhttps://github.com/deeplearnxmu/pssattentionでリリースします。

In aspect-based sentiment analysis (ABSA), many neural models are equipped with an attention mechanism to quantify the contribution of each context word to sentiment prediction. However, such a mechanism suffers from one drawback: only a few frequent words with sentiment polarities are tended to be taken into consideration for final sentiment decision while abundant infrequent sentiment words are ignored by models. To deal with this issue, we propose a progressive self-supervised attention learning approach for attentional ABSA models. In this approach, we iteratively perform sentiment prediction on all training instances, and continually learn useful attention supervision information in the meantime. During training, at each iteration, context words with the highest impact on sentiment prediction, identified based on their attention weights or gradients, are extracted as words with active/misleading influence on the correct/incorrect prediction for each instance. Words extracted in this way are masked for subsequent iterations. To exploit these extracted words for refining ABSA models, we augment the conventional training objective with a regularization term that encourages ABSA models to not only take full advantage of the extracted active context words but also decrease the weights of those misleading words. We integrate the proposed approach into three state-of-the-art neural ABSA models. Experiment results and in-depth analyses show that our approach yields better attention results and significantly enhances the performance of all three models. We release the source code and trained models at https://github.com/DeepLearnXMU/PSSAttention.
翻訳日:2021-03-08 14:54:16 公開日:2021-03-05
# オープン情報抽出のための構文とセマンティック駆動学習

Syntactic and Semantic-driven Learning for Open Information Extraction ( http://arxiv.org/abs/2103.03448v1 )

ライセンス: Link先を確認
Jialong Tang, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun, Xinyan Xiao, Hua Wu(参考訳) 正確で高カバレッジのニューラルオープンIEシステムを構築する上で最大のボトルネックの1つは、大きなラベル付きコーパスの必要性である。 オープンドメインコーポラの多様性と自然言語表現の多様性は、この問題をさらに悪化させます。 本論文では,構文とセマンティックの知識を,よりノイズの多い高レベルな監督として活用することで,人間に反するデータを持たないオープンなIEモデルを学習できるシンタクティクスとセマンティック駆動の学習手法を提案する。 具体的には,まずデータラベリング関数として構文パターンを用い,生成されたラベルを用いてベースモデルを事前学習する。 そこで本研究では,ベースモデルを高い精度でオープン状況に効果的に一般化できる構文的・意味的強化学習アルゴリズムを提案する。 実験結果から,我々のアプローチは,監視対象のアプローチを大幅に上回り,監視対象の最新モデル(SoA)に対する競争力さえ達成できることが示された。

One of the biggest bottlenecks in building accurate, high coverage neural open IE systems is the need for large labelled corpora. The diversity of open domain corpora and the variety of natural language expressions further exacerbate this problem. In this paper, we propose a syntactic and semantic-driven learning approach, which can learn neural open IE models without any human-labelled data by leveraging syntactic and semantic knowledge as noisier, higher-level supervisions. Specifically, we first employ syntactic patterns as data labelling functions and pretrain a base model using the generated labels. Then we propose a syntactic and semantic-driven reinforcement learning algorithm, which can effectively generalize the base model to open situations with high accuracy. Experimental results show that our approach significantly outperforms the supervised counterparts, and can even achieve competitive performance to supervised state-of-the-art (SoA) model
翻訳日:2021-03-08 14:53:48 公開日:2021-03-05
# ニューラル・シンボリック・アフェクト・ターゲット・アソシエーションにおける再帰的処理の活用

Leveraging Recursive Processing for Neural-Symbolic Affect-Target Associations ( http://arxiv.org/abs/2103.03755v1 )

ライセンス: Link先を確認
A. Sutherland, S. Magg, S. Wermter(参考訳) 情緒に基づく深層学習決定の結果を説明することは困難であるが,ソーシャル・コンパニオン・ロボットがユーザと感情レベルで対話することを期待する場合は必要である。 本稿では,対話型ハイブリッドニューラルシンボリックシステムを用いて,抽出されたターゲット,表現された感情に関連づけられた名詞チャンク,および自然言語表現からの感情ラベルを関連付けるコモンセンスアプローチを提案する。 我々は、木とサブツリー処理に順応した事前学習ニューラルネットワーク、Dependency Tree-LSTMを活用し、自然言語でシンボル規則によって決定される動的ターゲットのラベルを学習する。 また,再帰的ネットワークのユニークな特性を利用すると,アスペクトベースの感情分析タスクにおいて,他の非構造的,シーケンシャルな手法と比較して高い精度と解釈性が得られることがわかった。

Explaining the outcome of deep learning decisions based on affect is challenging but necessary if we expect social companion robots to interact with users on an emotional level. In this paper, we present a commonsense approach that utilizes an interpretable hybrid neural-symbolic system to associate extracted targets, noun chunks determined to be associated with the expressed emotion, with affective labels from a natural language expression. We leverage a pre-trained neural network that is well adapted to tree and sub-tree processing, the Dependency Tree-LSTM, to learn the affect labels of dynamic targets, determined through symbolic rules, in natural language. We find that making use of the unique properties of the recursive network provides higher accuracy and interpretability when compared to other unstructured and sequential methods for determining target-affect associations in an aspect-based sentiment analysis task.
翻訳日:2021-03-08 14:53:32 公開日:2021-03-05
# 合成データによる第一次定理証明の訓練

Training a First-Order Theorem Prover from Synthetic Data ( http://arxiv.org/abs/2103.03798v1 )

ライセンス: Link先を確認
Vlad Firoiu, Eser Aygun, Ankit Anand, Zafarali Ahmed, Xavier Glorot, Laurent Orseau, Lei Zhang, Doina Precup, Shibl Mourad(参考訳) 機械学習を自動定理証明に適用する上での大きな課題は、ディープラーニングモデルを成功させる上で重要な要素であるトレーニングデータの不足である。 この問題に取り組むために,我々は,人間のデータを公理以外に使わずに,純粋に合成生成定理をトレーニングする手法を提案する。 これらの定理を使用して、神経誘導飽和ベースの証明者を訓練する。 私たちのニューラルネットワークは、この合成データにおける最先端のE-proverを時間と検索の両方のステップで上回っており、TPTPライブラリから見えない人間の記述定理に有意な移行を示しており、一階問題の72\%を平等に解決します。

A major challenge in applying machine learning to automated theorem proving is the scarcity of training data, which is a key ingredient in training successful deep learning models. To tackle this problem, we propose an approach that relies on training purely with synthetically generated theorems, without any human data aside from axioms. We use these theorems to train a neurally-guided saturation-based prover. Our neural prover outperforms the state-of-the-art E-prover on this synthetic data in both time and search steps, and shows significant transfer to the unseen human-written theorems from the TPTP library, where it solves 72\% of first-order problems without equality.
翻訳日:2021-03-08 14:53:14 公開日:2021-03-05
# 医用画像の非監視異常検出と局在化のための制約型コントラスト分布学習

Constrained Contrastive Distribution Learning for Unsupervised Anomaly Detection and Localisation in Medical Images ( http://arxiv.org/abs/2103.03423v1 )

ライセンス: Link先を確認
Yu Tian and Guansong Pang and Fengbei Liu and Yuanhong chen and Seon Ho Shin and Johan W. Verjans and Rajvinder Singh and Gustavo Carneiro(参考訳) 教師なし異常検出(UAD)は、正常な(健康な)画像のみを含む一級分類器を学習し、予想される正常なパターンに適合しない異常な(不健康な)サンプルを検出する。 UADは、完全に監督された相手に対して2つの大きな利点がある。 まず、通常の画像サンプルを含む健康スクリーニングプログラムから利用可能な大規模なデータセットを直接活用することができ、異常サンプルの高価な手動ラベリングと、非常にクラス不均衡なデータによるトレーニングに関連する後続の問題を回避することができます。 さらに、UADアプローチは、正常なパターンから逸脱するあらゆる種類の病変を検出および局在させることができる。 UAD法が直面する重要な課題の1つは、一般的に小さな病変からなる微妙な異常を検出し、局在させる効果的な低次元画像表現を学ぶ方法である。 そこで本研究では,拡張データと画像コンテキストの分布を前文制約を用いて同時に予測することにより,微細な特徴表現を学習するCCD(Constrained Contrastive Distribution Learning for Anomaly Detection)と呼ばれる,自己監督型表現学習手法を提案する。 学習された表現は、より異常に敏感な検出モデルを訓練するために活用できる。 広範な実験により, 3つの異なる大腸内視鏡および眼底検診データセットにおいて, 術中uadアプローチを上回った。 私たちのコードはhttps://github.com/tianyu0207/CCDで利用可能です。

Unsupervised anomaly detection (UAD) learns one-class classifiers exclusively with normal (i.e., healthy) images to detect any abnormal (i.e., unhealthy) samples that do not conform to the expected normal patterns. UAD has two main advantages over its fully supervised counterpart. Firstly, it is able to directly leverage large datasets available from health screening programs that contain mostly normal image samples, avoiding the costly manual labelling of abnormal samples and the subsequent issues involved in training with extremely class-imbalanced data. Further, UAD approaches can potentially detect and localise any type of lesions that deviate from the normal patterns. One significant challenge faced by UAD methods is how to learn effective low-dimensional image representations to detect and localise subtle abnormalities, generally consisting of small lesions. To address this challenge, we propose a novel self-supervised representation learning method, called Constrained Contrastive Distribution learning for anomaly detection (CCD), which learns fine-grained feature representations by simultaneously predicting the distribution of augmented data and image contexts using contrastive learning with pretext constraints. The learned representations can be leveraged to train more anomaly-sensitive detection models. Extensive experiment results show that our method outperforms current state-of-the-art UAD approaches on three different colonoscopy and fundus screening datasets. Our code is available at https://github.com/tianyu0207/CCD.
翻訳日:2021-03-08 14:52:26 公開日:2021-03-05
# ゼロショット学習のための目標指向ガゼ推定

Goal-Oriented Gaze Estimation for Zero-Shot Learning ( http://arxiv.org/abs/2103.03433v1 )

ライセンス: Link先を確認
Yang Liu, Lei Zhou, Xiao Bai, Yifei Huang, Lin Gu, Jun Zhou, Tatsuya Harada(参考訳) Zero-shot Learning(ZSL)は、目に見えないクラスにセマンティックな知識を転送することによって、新しいクラスを認識することを目的とする。 意味的知識は異なるクラス間で共有される属性に基づいて構築されているため、オブジェクト属性のローカライズの前に強いことは視覚的セマンティック埋め込みにとって有益である。 興味深いことに、目に見えない画像を認識すると、人間は特定の意味の手がかりで自動的に地域を見つめる。 そこで本稿では,ZSL のクラスレベル属性に基づく識別属性の局所化を改善するために,新しい目標指向視線推定モジュール (GEM) を提案する。 属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。 具体的には、目標指向gemでタスク依存の注意を学習し、局所属性特徴の回帰と同時にグローバルイメージ特徴を最適化する。 CUB, SUN, AWA2の3つのZSLベンチマーク実験により, 提案手法の最先端ZSL法に対する優位性や競争性を示した。 また,実視データcub-vwswのアブレーション解析により,視線推定モジュールの利点と精度を検証した。 この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。 コードはhttps://github.com/osierboy/GEM-ZSLで入手できる。

Zero-shot learning (ZSL) aims to recognize novel classes by transferring semantic knowledge from seen classes to unseen classes. Since semantic knowledge is built on attributes shared between different classes, which are highly local, strong prior for localization of object attribute is beneficial for visual-semantic embedding. Interestingly, when recognizing unseen images, human would also automatically gaze at regions with certain semantic clue. Therefore, we introduce a novel goal-oriented gaze estimation module (GEM) to improve the discriminative attribute localization based on the class-level attributes for ZSL. We aim to predict the actual human gaze location to get the visual attention regions for recognizing a novel object guided by attribute description. Specifically, the task-dependent attention is learned with the goal-oriented GEM, and the global image features are simultaneously optimized with the regression of local attribute features. Experiments on three ZSL benchmarks, i.e., CUB, SUN and AWA2, show the superiority or competitiveness of our proposed method against the state-of-the-art ZSL methods. The ablation analysis on real gaze data CUB-VWSW also validates the benefits and accuracy of our gaze estimation module. This work implies the promising benefits of collecting human gaze dataset and automatic gaze estimation algorithms on high-level computer vision tasks. The code is available at https://github.com/osierboy/GEM-ZSL.
翻訳日:2021-03-08 14:52:02 公開日:2021-03-05
# 行動認識のための非監視動作表現強化ネットワーク

Unsupervised Motion Representation Enhanced Network for Action Recognition ( http://arxiv.org/abs/2103.03465v1 )

ライセンス: Link先を確認
Xiaohang Yang, Lingtong Kong, Jie Yang(参考訳) 光学フローなどの連続したフレーム間の信頼性の高い動き表現を学ぶことは、ビデオ理解に大きな促進をもたらしています。 しかし, 効率的な光フロー解決器であるTV-L1法は, 抽出した光フローをキャッシュするために, 時間と費用がかかる。 このギャップを埋めるために, UF-TSN を提案する。この UF-TSN は, 軽量な非監視光フロー推定器を組み込んだ, エンドツーエンドのアクション認識手法である。 UF-TSNは、隣接するフレームからの運動キューを粗密に推定し、特徴のピラミッドを抽出し、最後のレベルの推定フローに従って互いに反動することにより、各レベルの小さな変位に焦点を合わせます。 アクションデータセットのラベル付き動作がないため、マルチスケールのフォトメトリック一貫性とエッジアウェアスムースさでフロー予測を制限します。 最先端の非教師あり動作表現学習法と比較すると,我々のモデルは効率を保ちながら精度が向上し,教師ありあるいはより複雑なアプローチと競合する。

Learning reliable motion representation between consecutive frames, such as optical flow, has proven to have great promotion to video understanding. However, the TV-L1 method, an effective optical flow solver, is time-consuming and expensive in storage for caching the extracted optical flow. To fill the gap, we propose UF-TSN, a novel end-to-end action recognition approach enhanced with an embedded lightweight unsupervised optical flow estimator. UF-TSN estimates motion cues from adjacent frames in a coarse-to-fine manner and focuses on small displacement for each level by extracting pyramid of feature and warping one to the other according to the estimated flow of the last level. Due to the lack of labeled motion for action datasets, we constrain the flow prediction with multi-scale photometric consistency and edge-aware smoothness. Compared with state-of-the-art unsupervised motion representation learning methods, our model achieves better accuracy while maintaining efficiency, which is competitive with some supervised or more complicated approaches.
翻訳日:2021-03-08 14:51:40 公開日:2021-03-05
# IAFA: 単一画像からの3Dオブジェクト検出のためのインスタンス認識機能集約

IAFA: Instance-aware Feature Aggregation for 3D Object Detection from a Single Image ( http://arxiv.org/abs/2103.03480v1 )

ライセンス: Link先を確認
Dingfu Zhou, Xibin Song, Yuchao Dai, Junbo Yin, Feixiang Lu, Jin Fang, Miao Liao and Liangjun Zhang(参考訳) 単一画像からの3次元物体検出は、様々なアプローチが提案されている自律運転(AD)において重要な課題である。 しかし、単一の画像深度推定は、すでに不適切な問題であるため、タスクは本質的に曖昧で挑戦的です。 本稿では,3次元物体検出の精度を向上させるために有用な情報を集約するインスタンス認識手法を提案する。 まず、インスタンス認識機能集約(IAFA)モジュールを提案し、3Dバウンディングボックス回帰のためのローカルおよびグローバル機能を収集します。 第2に,粗いインスタンスアノテーションを監督信号として取り入れることで,空間的注意モジュールを十分に学習できることを実証的に確認する。 提案するモジュールは3次元検出と2次元バードアイによる車両検出の両方におけるベースライン法の性能を大幅に向上させた。 第3に,提案手法は,単一のイメージベースアプローチ(これらの手法でさえ,補助入力として深さで訓練された)を上回り,kittiベンチマークで最先端の3d検出性能を実現する。

3D object detection from a single image is an important task in Autonomous Driving (AD), where various approaches have been proposed. However, the task is intrinsically ambiguous and challenging as single image depth estimation is already an ill-posed problem. In this paper, we propose an instance-aware approach to aggregate useful information for improving the accuracy of 3D object detection with the following contributions. First, an instance-aware feature aggregation (IAFA) module is proposed to collect local and global features for 3D bounding boxes regression. Second, we empirically find that the spatial attention module can be well learned by taking coarse-level instance annotations as a supervision signal. The proposed module has significantly boosted the performance of the baseline method on both 3D detection and 2D bird-eye's view of vehicle detection among all three categories. Third, our proposed method outperforms all single image-based approaches (even these methods trained with depth as auxiliary inputs) and achieves state-of-the-art 3D detection performance on the KITTI benchmark.
翻訳日:2021-03-08 14:51:22 公開日:2021-03-05
# Deep Visual Representation Learningのための可変構造的注意ネットワーク

Variational Structured Attention Networks for Deep Visual Representation Learning ( http://arxiv.org/abs/2103.03510v1 )

ライセンス: Link先を確認
Guanglei Yang, Paolo Rota, Xavier Alameda-Pineda, Dan Xu, Mingli Ding, Elisa Ricci(参考訳) 畳み込みニューラルネットワークは、セマンティックセグメンテーション、深さ推定、表面正常予測など、ピクセルレベルの予測タスクへの対処において、その強力な視覚表現学習能力の恩恵を受ける大きな進歩を実現している。 通常、最先端のモデルは、深い特徴表現を改善するための注意メカニズムを統合します。 近年,深部特徴の洗練に空間的・チャネル的に注意を向け,学習することの重要性が実証されている。 本稿では,従来のアプローチを効果的に強化することを目的として,空間的注意マップとチャネル的注意ベクトルの両方を原則的に学習し,得られた注意テンソルとこれら2種類の注意の間のモデル相互作用を構築するための統合された深層フレームワークを提案する。 具体的には、確率的表現学習フレームワーク内での注目の推定と相互作用を統合し、Variational Structured Attention Network (VISTA-Net) につながります。 ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。 密集した視覚予測のための6つの大規模データセットを広範囲に評価した結果、vista-netは連続的および離散的予測タスクにおいて最先端を上回り、深層表現学習のための統合的空間チャネル注意推定における提案手法の利点を実証した。 コードはhttps://github.com/ygjwd12345/VISTA-Netで入手できる。

Convolutional neural networks have enabled major progress in addressing pixel-level prediction tasks such as semantic segmentation, depth estimation, surface normal prediction, and so on, benefiting from their powerful capabilities in visual representation learning. Typically, state-of-the-art models integrates attention mechanisms for improved deep feature representations. Recently, some works have demonstrated the significance of learning and combining both spatial- and channel-wise attentions for deep feature refinement. In this paper, we aim at effectively boosting previous approaches and propose a unified deep framework to jointly learn both spatial attention maps and channel attention vectors in a principled manner so as to structure the resulting attention tensors and model interactions between these two types of attentions. Specifically, we integrate the estimation and the interaction of the attentions within a probabilistic representation learning framework, leading to Variational STructured Attention networks (VISTA-Net). We implement the inference rules within the neural network, thus allowing for end-to-end learning of the probabilistic and the CNN front-end parameters. As demonstrated by our extensive empirical evaluation on six large-scale datasets for dense visual prediction, VISTA-Net outperforms the state-of-the-art in multiple continuous and discrete prediction tasks, thus confirming the benefit of the proposed approach in joint structured spatial-channel attention estimation for deep representation learning. The code is available at https://github.com/ygjwd12345/VISTA-Net.
翻訳日:2021-03-08 14:51:02 公開日:2021-03-05
# 顔面画像操作検出における画像圧縮の影響:顔面レタッチングを事例として

Effects of Image Compression on Face Image Manipulation Detection: A Case Study on Facial Retouching ( http://arxiv.org/abs/2103.03654v1 )

ライセンス: Link先を確認
Christian Rathgeb, Kevin Bernardo, Nathania E. Haryanto, Christoph Busch(参考訳) 近年,デジタル顔画像操作を確実に検出する手法が数多く導入されている。 近年,画像後処理に関して,これらのスキームの一般化性が特に疑問視されている。 画像圧縮は、さまざまなバイオメトリックアプリケーションシナリオで頻繁に適用される後処理を表します。 重篤な圧縮は、顔画像操作のデジタルトレースを消去し、その信頼性を損なう可能性がある。 本研究では,顔画像操作検出における画像圧縮の影響を解析する。 特に,画像圧縮の影響下での顔面リタッチ検出に関する事例研究を行った。 この目的のために、2つの公開顔データベースのICAO準拠サブセットを使用して、9000以上の修正済み参照画像と制約のないプローブ画像を含むデータベースを自動生成する。 その後、電子旅行文書の顔画像記憶に推奨される圧縮レベルでJPEGとJPEG 2000を適用して参照画像が圧縮される。 テクスチャ記述子とディープフェイス表現を用いた新しい検出アルゴリズムを提案し, 単一画像と差分シナリオで評価した。 Results obtained from challenging cross-database experiments in which the analyzed retouching technique is unknown during training yield interesting findings: (1) most competitive detection performance is achieved for differential scenarios employing deep face representations; (2) image compression severely impacts the performance of face image manipulation detection schemes based on texture descriptors while methods utilizing deep face representations are found to be highly robust; (3) in some cases, the application of image compression might as well improve detection performance.

In the past years, numerous methods have been introduced to reliably detect digital face image manipulations. Lately, the generalizability of these schemes has been questioned in particular with respect to image post-processing. Image compression represents a post-processing which is frequently applied in diverse biometric application scenarios. Severe compression might erase digital traces of face image manipulation and hence hamper a reliable detection thereof. In this work, the effects of image compression on face image manipulation detection are analyzed. In particular, a case study on facial retouching detection under the influence of image compression is presented. To this end, ICAO-compliant subsets of two public face databases are used to automatically create a database containing more than 9,000 retouched reference images together with unconstrained probe images. Subsequently, reference images are compressed applying JPEG and JPEG 2000 at compression levels recommended for face image storage in electronic travel documents. Novel detection algorithms utilizing texture descriptors and deep face representations are proposed and evaluated in a single image and differential scenario. Results obtained from challenging cross-database experiments in which the analyzed retouching technique is unknown during training yield interesting findings: (1) most competitive detection performance is achieved for differential scenarios employing deep face representations; (2) image compression severely impacts the performance of face image manipulation detection schemes based on texture descriptors while methods utilizing deep face representations are found to be highly robust; (3) in some cases, the application of image compression might as well improve detection performance.
翻訳日:2021-03-08 14:50:37 公開日:2021-03-05
# 実時間rgbdベース拡張体姿勢推定

Real-time RGBD-based Extended Body Pose Estimation ( http://arxiv.org/abs/2103.03663v1 )

ライセンス: Link先を確認
Renat Bashirov, Anastasia Ianina, Karim Iskakov, Yevgeniy Kononenko, Valeriya Strizhkova, Victor Lempitsky, Alexander Vakhitov(参考訳) 3DヒトポーズのリアルタイムRGBDに基づく推定システムを提案する。 本研究では,Kinect Azure RGB-Dカメラを用いたパラメトリック3次元変形可能なヒューマンメッシュモデル(SMPL-X)を用いて,身体ポーズ,手ポーズ,表情のパラメータのリアルタイム推定に焦点をあてる。 身体のポーズと表情パラメータの推定子を訓練する。 どちらの推定器も、事前に公開されたランドマーク抽出器をインプットおよびカスタムアノテーション付きデータセットとして使用し、ハンドポーズは、以前に公開された方法で直接推定する。 我々はこれらの推定器の予測を時間的に滑らかな人間のポーズと組み合わせる。 我々は、顔表情パラメータを付加した大きな話し顔データセット上で、表情抽出器を訓練する。 ボディポーズでは、5台のKinect Azure RGB-Dカメラから撮影した56人のデータセットを収集し、アノテートし、大きなモーションキャプチャAMASSデータセットと一緒に使用します。 当社のRGB-Dボディポーズモデルは、最先端のRGBのみの方法よりも優れており、遅いRGB-D最適化ベースのソリューションと同じレベルの精度で動作します。 組み合わせたシステムは、1つのgpuでサーバー上で30fpsで動作します。 コードはhttps://saic-violet.github.io/rgbd-kinect-poseで入手できる。

We present a system for real-time RGBD-based estimation of 3D human pose. We use parametric 3D deformable human mesh model (SMPL-X) as a representation and focus on the real-time estimation of parameters for the body pose, hands pose and facial expression from Kinect Azure RGB-D camera. We train estimators of body pose and facial expression parameters. Both estimators use previously published landmark extractors as input and custom annotated datasets for supervision, while hand pose is estimated directly by a previously published method. We combine the predictions of those estimators into a temporally-smooth human pose. We train the facial expression extractor on a large talking face dataset, which we annotate with facial expression parameters. For the body pose we collect and annotate a dataset of 56 people captured from a rig of 5 Kinect Azure RGB-D cameras and use it together with a large motion capture AMASS dataset. Our RGB-D body pose model outperforms the state-of-the-art RGB-only methods and works on the same level of accuracy compared to a slower RGB-D optimization-based solution. The combined system runs at 30 FPS on a server with a single GPU. The code will be available at https://saic-violet.github.io/rgbd-kinect-pose
翻訳日:2021-03-08 14:50:17 公開日:2021-03-05
# 顔バイオメトリックデータのインデックス化と検索のための信号レベル融合

Signal-level Fusion for Indexing and Retrieval of Facial Biometric Data ( http://arxiv.org/abs/2103.03692v1 )

ライセンス: Link先を確認
Pawel Drozdowski, Fabian Stockhardt, Christian Rathgeb, Christoph Busch(参考訳) 世界中のバイオメトリック展開の規模、規模、数の増加は、効率的で信頼性の高いバイオメトリック識別クエリを促進する技術の研究の必要性を強調しています。 本稿では,多段階のデータ構造と検索プロトコルを作成するために,顔画像の信号レベルの融合(モーフィング)に依存する生体データベースの索引付け手法を提案する。 提案手法は,潜在的な候補の一覧を連続的に事前フィルタリングすることにより,生体認証トランザクションを完了させるために必要なバイオメトリックテンプレート比較数を削減できる。 提案手法は,オープンソースおよび商用オフザシェルフ認識システムを用いて,公開データベース上で広範囲に評価される。 その結果,提案手法を用いることで,クローズド・セットとオープン・セットの識別シナリオにおいて,ベースライン網羅検索のバイオメトリック性能が完全に維持される一方で,計算負荷を約30%削減できることがわかった。

The growing scope, scale, and number of biometric deployments around the world emphasise the need for research into technologies facilitating efficient and reliable biometric identification queries. This work presents a method of indexing biometric databases, which relies on signal-level fusion of facial images (morphing) to create a multi-stage data-structure and retrieval protocol. By successively pre-filtering the list of potential candidate identities, the proposed method makes it possible to reduce the necessary number of biometric template comparisons to complete a biometric identification transaction. The proposed method is extensively evaluated on publicly available databases using open-source and commercial off-the-shelf recognition systems. The results show that using the proposed method, the computational workload can be reduced down to around 30%, while the biometric performance of a baseline exhaustive search-based retrieval is fully maintained, both in closed-set and open-set identification scenarios.
翻訳日:2021-03-08 14:49:55 公開日:2021-03-05
# 皮膚病変分類のためのピアラーニング

Peer Learning for Skin Lesion Classification ( http://arxiv.org/abs/2103.03703v1 )

ライセンス: Link先を確認
Tariq Bdair, Nassir Navab and Shadi Albarqouni(参考訳) 皮膚がんは世界で最も致命的ながんの1つである。 しかし、早期検出によって減少する可能性がある。 近年の深層学習法は皮膚がんの分類において皮膚科医レベルの性能を示した。 しかし、この成功には大量の集中型データが必要です。 フェデレーションラーニングは最近導入され、特に医療分野では高価で利用できないアノテーション付きデータをクライアントに要求する、プライバシー保護された分散方式で機械学習モデルをトレーニングする。 そこで本研究では,社会科学からのピアラーニングと,委員会機械からの平均的なアンサンブルを活用した半教師付きフェデレーション学習手法であるfederlを提案する。 また、FedPerlのコアコンポーネントとしてピア匿名化(PA)手法を提案する。 PAはプライバシーを保ち、追加の複雑さなしにパフォーマンスを維持しながら通信コストを削減します。 4つの公開データセットから採取した38,000枚の皮膚病変画像について検討を行った。 FedPerlはベースラインと最先端のSSFLよりも15.8%向上し、それぞれ1.8%向上した。 さらに、FedPerlは騒々しいクライアントに対する感度が低い。

Skin cancer is one of the most deadly cancers worldwide. Yet, it can be reduced by early detection. Recent deep-learning methods have shown a dermatologist-level performance in skin cancer classification. Yet, this success demands a large amount of centralized data, which is oftentimes not available. Federated learning has been recently introduced to train machine learning models in a privacy-preserved distributed fashion demanding annotated data at the clients, which is usually expensive and not available, especially in the medical field. To this end, we propose FedPerl, a semi-supervised federated learning method that utilizes peer learning from social sciences and ensemble averaging from committee machines to build communities and encourage its members to learn from each other such that they produce more accurate pseudo labels. We also propose the peer anonymization (PA) technique as a core component of FedPerl. PA preserves privacy and reduces the communication cost while maintaining the performance without additional complexity. We validated our method on 38,000 skin lesion images collected from 4 publicly available datasets. FedPerl achieves superior performance over the baselines and state-of-the-art SSFL by 15.8%, and 1.8% respectively. Further, FedPerl shows less sensitivity to noisy clients.
翻訳日:2021-03-08 14:49:41 公開日:2021-03-05
# VIPriors 1:データ効率の高いディープラーニングチャレンジのためのビジュアルインダクタティブプライオリティ

VIPriors 1: Visual Inductive Priors for Data-Efficient Deep Learning Challenges ( http://arxiv.org/abs/2103.03768v1 )

ライセンス: Link先を確認
Robert-Jan Bruintjes, Attila Lengyel, Marcos Baptista Rios, Osman Semih Kayhan, Jan van Gemert(参考訳) 我々は"VIPriors: Visual Inductive Priors for Data-Efficient Deep Learning"の初版を提示する。 私たちは、モデルをスクラッチからトレーニングする4つのデータ障害課題を提供し、トレーニングサンプルの数を全セットのごく一部に削減します。 さらに,データ効率を向上するために,事前学習したモデルやその他の伝達学習技術の使用を禁止した。 上位ランキングのソリューションの大半は、提供されたベースラインに比べて大幅なパフォーマンス向上を達成するために、データ拡張、モデルエンハンブル、および新規で効率的なネットワークアーキテクチャを多用している。

We present the first edition of "VIPriors: Visual Inductive Priors for Data-Efficient Deep Learning" challenges. We offer four data-impaired challenges, where models are trained from scratch, and we reduce the number of training samples to a fraction of the full set. Furthermore, to encourage data efficient solutions, we prohibited the use of pre-trained models and other transfer learning techniques. The majority of top ranking solutions make heavy use of data augmentation, model ensembling, and novel and efficient network architectures to achieve significant performance increases compared to the provided baselines.
翻訳日:2021-03-08 14:49:25 公開日:2021-03-05
# グラフニューラルネットワークによる高速インタラクティブビデオオブジェクトのセグメンテーション

Fast Interactive Video Object Segmentation with Graph Neural Networks ( http://arxiv.org/abs/2103.03821v1 )

ライセンス: Link先を確認
Viktor Varga, Andr\'as L\H{o}rincz(参考訳) 画像シーケンスのピクセルワイズアノテーションは、人間にとって非常に面倒です。 インタラクティブなビデオオブジェクトセグメンテーションは、プロセスの高速化とアノテータの作業量削減に自動手法を活用することを目的としている。 現代のほとんどのアプローチは、ビデオを通して人間のアノテーションから情報を収集し処理するために深い畳み込みネットワークに依存している。 しかし、このようなネットワークには数百万のパラメータが含まれており、オーバーフィットを避けるために大量のラベル付きトレーニングデータが必要である。 それ以上に、ラベルの伝搬は通常、並列化が困難で時間を要する一連のフレームバイフレーム推論ステップとして実行されます。 本稿では,インタラクティブな映像オブジェクトセグメンテーションの問題に取り組むためのグラフニューラルネットワーク手法を提案する。 我々のネットワークは超ピクセルグラフで動作し、問題の次元を数桁小さくすることができる。 我々のネットワークは数千のパラメータしか持たず、最先端のパフォーマンスを達成できる一方で、推論は高速であり、非常に少ないデータで迅速に訓練できることを示す。

Pixelwise annotation of image sequences can be very tedious for humans. Interactive video object segmentation aims to utilize automatic methods to speed up the process and reduce the workload of the annotators. Most contemporary approaches rely on deep convolutional networks to collect and process information from human annotations throughout the video. However, such networks contain millions of parameters and need huge amounts of labeled training data to avoid overfitting. Beyond that, label propagation is usually executed as a series of frame-by-frame inference steps, which is difficult to be parallelized and is thus time consuming. In this paper we present a graph neural network based approach for tackling the problem of interactive video object segmentation. Our network operates on superpixel-graphs which allow us to reduce the dimensionality of the problem by several magnitudes. We show, that our network possessing only a few thousand parameters is able to achieve state-of-the-art performance, while inference remains fast and can be trained quickly with very little data.
翻訳日:2021-03-08 14:49:15 公開日:2021-03-05
# 自己監督型縦横型埋め込み

Self-Supervised Longitudinal Neighbourhood Embedding ( http://arxiv.org/abs/2103.03840v1 )

ライセンス: Link先を確認
Jiahong Ouyang and Qingyu Zhao and Ehsan Adeli and Edith V Sullivan and Adolf Pfefferbaum and Greg Zaharchuk and Kilian M Pohl(参考訳) 経時的MRIは、老化や神経疾患によって引き起こされる脳構造と機能の段階的な劣化を捉えるためにしばしば用いられる。 このデータを機械学習で分析するには、多くの場合、大量の基幹ラベルを必要とする。 ラベルの必要性を低減し,LNE(Longitudinal Neighborhood Embedding)と呼ばれる表現学習のための自己監督型戦略を提案する。 コントラスト学習の概念に動機づけられたLNEは、異なる対象の軌道ベクトル間の類似性を明示的にモデル化する。 我々は、各トレーニング反復において、被写体の進行方向が隣人の方向に従うように、潜在空間内の近傍を定義するグラフを構築する。 これにより、局所的な連続性を維持しながら、脳のグローバルな形態変化を捉えるスムーズな軌道場が得られる。 健常者274名からなるデータセットとアルツハイマー病神経画像イニシアチブ(ADNI,$N=632$)の2種類の縦断的T1wMRIにLNEを適用した。 滑らかな軌道ベクトル場の可視化と下流課題における優れた性能は, 正常な加齢に伴う情報抽出と神経変性障害の影響を明らかにする上で, 既存の自己教師あり手法よりも, 提案手法の強みを示す。 コードは \url{https://github.com/ouyangjiahong/longitudinal-neighbourhood-embedding.git}で入手できる。

Longitudinal MRIs are often used to capture the gradual deterioration of brain structure and function caused by aging or neurological diseases. Analyzing this data via machine learning generally requires a large number of ground-truth labels, which are often missing or expensive to obtain. Reducing the need for labels, we propose a self-supervised strategy for representation learning named Longitudinal Neighborhood Embedding (LNE). Motivated by concepts in contrastive learning, LNE explicitly models the similarity between trajectory vectors across different subjects. We do so by building a graph in each training iteration defining neighborhoods in the latent space so that the progression direction of a subject follows the direction of its neighbors. This results in a smooth trajectory field that captures the global morphological change of the brain while maintaining the local continuity. We apply LNE to longitudinal T1w MRIs of two neuroimaging studies: a dataset composed of 274 healthy subjects, and Alzheimer's Disease Neuroimaging Initiative (ADNI, $N=632$). The visualization of the smooth trajectory vector field and superior performance on downstream tasks demonstrate the strength of the proposed method over existing self-supervised methods in extracting information associated with normal aging and in revealing the impact of neurodegenerative disorders. The code is available at \url{https://github.com/ouyangjiahong/longitudinal-neighbourhood-embedding.git}.
翻訳日:2021-03-08 14:48:59 公開日:2021-03-05
# MD-MTL:疾患スコア予測とマルチレベルリスクファクター分析のためのエンサンブルメディマルチタスク学習パッケージ

MD-MTL: An Ensemble Med-Multi-Task Learning Package for DiseaseScores Prediction and Multi-Level Risk Factor Analysis ( http://arxiv.org/abs/2103.03436v1 )

ライセンス: Link先を確認
Lu Wang, Haoyan Jiang and Mark Chignell(参考訳) 多くの機械学習手法が医療データに対する医療予測やリスクファクター分析に使われてきたが、これまではSTL(Single-task learning)手法が研究されていた。 しかし、医療研究はしばしば複数の関連タスクを伴う。 例えば、複数の患者のサブグループにおける疾患スコア予測とリスクファクタ分析を同時に実施し、マルチレベルでのリスクファクタ分析を同期的に行う。 本論文では,Med-Multi-Task Learning (MD-MTL)パッケージと呼ばれるマルチタスク学習(MTL)に基づく新しいアンサンブルマシンラーニングPythonパッケージを開発し,患者の疾患スコアの予測と,複数のサブグループにおけるリスクファクタ分析を同時に行うことに適用した。 2つのデータセットにおける実験結果は,md-mtlパッケージの有用性を示し,mtl (vs. stl) の利点を示す。 ).

While many machine learning methods have been used for medical prediction and risk factor analysis on healthcare data, most prior research has involved single-task learning (STL) methods. However, healthcare research often involves multiple related tasks. For instance, implementation of disease scores prediction and risk factor analysis in multiple subgroups of patients simultaneously and risk factor analysis at multi-levels synchronously. In this paper, we developed a new ensemble machine learning Python package based on multi-task learning (MTL), referred to as the Med-Multi-Task Learning (MD-MTL) package and applied it in predicting disease scores of patients, and in carrying out risk factor analysis on multiple subgroups of patients simultaneously. Our experimental results on two datasets demonstrate the utility of the MD-MTL package, and show the advantage of MTL (vs. STL), when analyzing data that is organized into different categories (tasks, which can be various age groups, different levels of disease severity, etc.).
翻訳日:2021-03-08 14:47:52 公開日:2021-03-05
# 高度マルチラベルデータのためのストラテファイドサンプリング

Stratified Sampling for Extreme Multi-Label Data ( http://arxiv.org/abs/2103.03494v1 )

ライセンス: Link先を確認
Maximillian Merrillees and Lan Du(参考訳) 極端なマルチラベル分類(XML)は、ビッグデータの時代においてますます関連性を増しています。 しかし、XMLデータセットの階層化されたパーティションを効果的に生成する方法はありません。 その代わり、研究者は通常、(1)データセット全体を代表するものではなく、2)ラベルの多くを欠いているテストトレイン分割に頼っている。 これはバイナリおよびマルチクラス設定で確立されたように、一般化能力の低下と信頼性の低いパフォーマンス推定につながる可能性がある。 そこで本論文では,何百万ものユニークなラベルを持つXMLデータセットの階層分割を効率的に生成するアルゴリズムを提案する。 また,既存のベンチマーク分割のラベル分布を調べ,モデル開発に不定型部分集合を用いた場合の問題点について検討する。 その結果、XMLデータの階層化の難しさが強調され、階層化パーティションをトレーニングと評価に使うことの重要性が示されました。

Extreme multi-label classification (XML) is becoming increasingly relevant in the era of big data. Yet, there is no method for effectively generating stratified partitions of XML datasets. Instead, researchers typically rely on provided test-train splits that, 1) aren't always representative of the entire dataset, and 2) are missing many of the labels. This can lead to poor generalization ability and unreliable performance estimates, as has been established in the binary and multi-class settings. As such, this paper presents a new and simple algorithm that can efficiently generate stratified partitions of XML datasets with millions of unique labels. We also examine the label distributions of prevailing benchmark splits, and investigate the issues that arise from using unrepresentative subsets of data for model development. The results highlight the difficulty of stratifying XML data, and demonstrate the importance of using stratified partitions for training and evaluation.
翻訳日:2021-03-08 14:47:31 公開日:2021-03-05
# 秘密鍵を用いた伝達学習に基づくモデル保護

Transfer Learning-Based Model Protection With Secret Key ( http://arxiv.org/abs/2103.03525v1 )

ライセンス: Link先を確認
MaungMaung AprilPyone and Hitoshi Kiya(参考訳) 本論文では,正しい鍵のない不正使用者が正しい推論が得られないように,訓練済みモデルをシークレットキーで保護する新しい方法を提案する。 提案手法は,転送学習を活用することで,トレーニングデータセットの小さなサブセットを用いて,ImageNetで訓練されたモデルのような大規模保護モデルのトレーニングを可能にする。 学習可能な暗号化ステップと秘密鍵を利用し、学習可能な変換画像を生成する。 事前訓練された重みを持つモデルは、そのような変換画像を用いて微調整される。 ImageNetデータセットを用いた実験では、正しいキーが与えられたとき、保護されたモデルの性能が非保護されたモデルに近いことが示され、不正確なキーが使われたとき、精度が大幅に低下した。 保護されたモデルは、キー推定攻撃に対して堅牢であることも実証された。

We propose a novel method for protecting trained models with a secret key so that unauthorized users without the correct key cannot get the correct inference. By taking advantage of transfer learning, the proposed method enables us to train a large protected model like a model trained with ImageNet by using a small subset of a training dataset. It utilizes a learnable encryption step with a secret key to generate learnable transformed images. Models with pre-trained weights are fine-tuned by using such transformed images. In experiments with the ImageNet dataset, it is shown that the performance of a protected model was close to that of a non-protected model when the correct key was given, while the accuracy tremendously dropped when an incorrect key was used. The protected model was also demonstrated to be robust against key estimation attacks.
翻訳日:2021-03-08 14:47:18 公開日:2021-03-05
# 低差分配列で生成された人工ニューラルネットワーク

Artificial Neural Networks generated by Low Discrepancy Sequences ( http://arxiv.org/abs/2103.03543v1 )

ライセンス: Link先を確認
Alexander Keller and Matthijs Van keirsbilck(参考訳) 人工ニューラルネットワークはパスで表現することができる。 濃密なネットワークグラフ上のランダムなウォーキングとして生成されると、結果として生じるスパースネットワークは決定論的初期化や固定符号の重み付けが可能となる。 このようなネットワークは、スクラッチからスパースし、密集したネットワークを訓練し、その後圧縮する高価な手順を避けることができる。 少ないが、重みは連続したメモリブロックとしてアクセスされる。 さらに、ソボの配列のような決定論的低差分配列を用いて経路を列挙すると、プログレッシブな置換によって神経ユニットの層を繋ぐことになり、並列コンピュータハードウェアにおけるバンクの衝突を自然に回避する。 我々は,低差分シーケンスで生成された人工ニューラルネットワークが,より低い計算複雑性で,密度の高いニューラルネットワークの到達範囲内で精度を達成できることを実証した。

Artificial neural networks can be represented by paths. Generated as random walks on a dense network graph, we find that the resulting sparse networks allow for deterministic initialization and even weights with fixed sign. Such networks can be trained sparse from scratch, avoiding the expensive procedure of training a dense network and compressing it afterwards. Although sparse, weights are accessed as contiguous blocks of memory. In addition, enumerating the paths using deterministic low discrepancy sequences, for example the Sobol' sequence, amounts to connecting the layers of neural units by progressive permutations, which naturally avoids bank conflicts in parallel computer hardware. We demonstrate that the artificial neural networks generated by low discrepancy sequences can achieve an accuracy within reach of their dense counterparts at a much lower computational complexity.
翻訳日:2021-03-08 14:47:07 公開日:2021-03-05
# 感情認識におけるデータセット構成の影響分析

Analyzing the Influence of Dataset Composition for Emotion Recognition ( http://arxiv.org/abs/2103.03700v1 )

ライセンス: Link先を確認
A. Sutherland, S. Magg, C. Weber, S. Wermter(参考訳) マルチモーダルアーキテクチャにおけるテキストからの感情認識は,特定の状況下での映像やオーディオのモダリティを超越して,有望な結果をもたらしている。 しかし,マルチモーダルデータを収集する手法は,言語における感情的特徴を認識する上で重要である。 本稿では,iemocapデータセットとomg-emotion行動データセットの2つのマルチモーダル感情認識データセットに対するデータ収集手法の影響について,テキストデータと感情認識精度を分析した。 完全なIEMOCAPデータセットを用いた実験は、構成がOMG-Emotion Behaviorデータセットと比較して一般化性能に悪影響を及ぼすことを示している。 我々は、これがHRI実験に与える影響について論じる。

Recognizing emotions from text in multimodal architectures has yielded promising results, surpassing video and audio modalities under certain circumstances. However, the method by which multimodal data is collected can be significant for recognizing emotional features in language. In this paper, we address the influence data collection methodology has on two multimodal emotion recognition datasets, the IEMOCAP dataset and the OMG-Emotion Behavior dataset, by analyzing textual dataset compositions and emotion recognition accuracy. Experiments with the full IEMOCAP dataset indicate that the composition negatively influences generalization performance when compared to the OMG-Emotion Behavior dataset. We conclude by discussing the impact this may have on HRI experiments.
翻訳日:2021-03-08 14:46:53 公開日:2021-03-05
# 畳み込みとリカレントニューラルネットワークのバックプロパゲーションの予測符号化

Predictive Coding Can Do Exact Backpropagation on Convolutional and Recurrent Neural Networks ( http://arxiv.org/abs/2103.03725v1 )

ライセンス: Link先を確認
Tommaso Salvatori, Yuhang Song, Thomas Lukasiewicz, Rafal Bogacz, Zhenghua Xu(参考訳) 予測符号化ネットワーク(PCN)は、脳内の情報処理に影響を及ぼすモデルである。 彼らは理論的な解釈をアピールし、脳の多様な知覚現象を説明する単一のメカニズムを提供する。 一方、バックプロパゲーション(BP)は現代の機械学習において最も成功した学習方法と考えられている。 したがって、最近の研究がPCNを近似BPに訓練する推論学習(IL)を定式化していることはエキサイティングである。 i) il は非現実的かつ非自明な要求を持つ bp の近似であり、(ii) il は単段の重み付け更新で bp に近似する、(ii) 重み付け更新がより多くのステップで実行された後に bp と同じ点になるかどうかは不明であり、(iii) il は bp よりも計算的にはるかにコストがかかる。 これらの問題を解決するため、完全連結ネットワークにおけるBPと厳密に等価なILの変種が提案されている。 本研究では,より複雑なアーキテクチャ,すなわち畳み込みニューラルネットワークと(ほぼ1対1の)リカレントニューラルネットワークも持つことを示すことにより,この結果に基づいて構築する。 私たちの知る限りでは、生物学的に実行可能なアルゴリズムが、このような複雑なアーキテクチャ上のBPの精度を正確に再現し、ILとBPの間の既存のギャップを橋渡しし、PCNに前例のないパフォーマンスを設定できることを初めて示しました。

Predictive coding networks (PCNs) are an influential model for information processing in the brain. They have appealing theoretical interpretations and offer a single mechanism that accounts for diverse perceptual phenomena of the brain. On the other hand, backpropagation (BP) is commonly regarded to be the most successful learning method in modern machine learning. Thus, it is exciting that recent work formulates inference learning (IL) that trains PCNs to approximate BP. However, there are several remaining critical issues: (i) IL is an approximation to BP with unrealistic/non-trivial requirements, (ii) IL approximates BP in single-step weight updates; whether it leads to the same point as BP after the weight updates are conducted for more steps is unknown, and (iii) IL is computationally significantly more costly than BP. To solve these issues, a variant of IL that is strictly equivalent to BP in fully connected networks has been proposed. In this work, we build on this result by showing that it also holds for more complex architectures, namely, convolutional neural networks and (many-to-one) recurrent neural networks. To our knowledge, we are the first to show that a biologically plausible algorithm is able to exactly replicate the accuracy of BP on such complex architectures, bridging the existing gap between IL and BP, and setting an unprecedented performance for PCNs, which can now be considered as efficient alternatives to BP.
翻訳日:2021-03-08 14:46:41 公開日:2021-03-05
# ドメイン適応のための離散型アクティブラーニング

Discrepancy-Based Active Learning for Domain Adaptation ( http://arxiv.org/abs/2103.03757v1 )

ライセンス: Link先を確認
Antoine de Mathelin, Mathilde Mougeot, Nicolas Vayatis(参考訳) この論文の目的は、Lipschitzラベリング機能の場合、ドメインシフトの仮定の下でドメイン適応につながるアクティブな学習戦略を設計することである。 mansourらによる以前の作品の制作。 (2009) 仮説クラス上の最大化を制限するために, ソースとターゲット分布の差分距離の概念を, ソース領域上で正確なラベル付けを行う関数の局所化クラスに適応する。 正規性条件を満たす一般損失関数に対するラデマッハ平均と局所偏差の観点から,そのようなアクティブラーニング戦略の一般化誤差境界を導出する。 実用的アルゴリズムは理論的な境界から推定され、1つは勾配最適化に基づいており、もう1つはK-メドロイドアルゴリズムである。 また,大規模データセットのケースに対処するアルゴリズムの改良版も提供する。 これらのアルゴリズムは、我々の数値実験で示されているように、ドメイン適応の文脈における他の最先端のアクティブな学習技術、特に約10万の画像の大規模なデータセットと競合する。

The goal of the paper is to design active learning strategies which lead to domain adaptation under an assumption of domain shift in the case of Lipschitz labeling function. Building on previous work by Mansour et al. (2009) we adapt the concept of discrepancy distance between source and target distributions to restrict the maximization over the hypothesis class to a localized class of functions which are performing accurate labeling on the source domain. We derive generalization error bounds for such active learning strategies in terms of Rademacher average and localized discrepancy for general loss functions which satisfy a regularity condition. Practical algorithms are inferred from the theoretical bounds, one is based on greedy optimization and the other is a K-medoids algorithm. We also provide improved versions of the algorithms to address the case of large data sets. These algorithms are competitive against other state-of-the-art active learning techniques in the context of domain adaptation as shown in our numerical experiments, in particular on large data sets of around one hundred thousand images.
翻訳日:2021-03-08 14:46:12 公開日:2021-03-05
# 安全・安全高自動化自動車の課題

Challenges of engineering safe and secure highly automated vehicles ( http://arxiv.org/abs/2103.03544v1 )

ライセンス: Link先を確認
Nadja Marko, Eike M\"ohlmann, Dejan Ni\v{c}kovi\'c, J\"urgen Niehaus, Peter Priller, Martijn Rooker(参考訳) 自動運転車に10年以上も注力してきた私たちは、完全自動運転というビジョンが現実になるための大きな課題に直面している。 同様の「幻滅」は、自律型サイバーフィジカルシステム(cps)が社会的な課題を克服し、社会や個人にとって非常に有益である他の多くの領域でも当てはまる。 自動車分野、すなわち。 例えば、高度自動化車(HAV)は、安全で安全で信頼性が高く、信頼性の高い高度自動化リスプを達成する上で、依然として克服すべき大きな課題をまとめたものです。 自律型CPS。 私たちは技術的な課題に固執し、(法的な)規制、認定、標準化、倫理、社会的受容の重要性を認めています。 havを実現する上での4つの課題は、継続的デプロイ後のシステム改善の実現、不確実性と不完全な情報の処理、機械学習コンポーネントによるhavの検証、予測である。 これらの課題のそれぞれは、サブチャレンジを含む詳細に説明され、適切な場合、それらを克服するための可能なアプローチです。 業界とアカデミーの共通の努力で協力し、これらの課題に焦点を当てることで、著者はHAVを実現するための「幻滅」の克服に貢献したいと考えています。

After more than a decade of intense focus on automated vehicles, we are still facing huge challenges for the vision of fully autonomous driving to become a reality. The same "disillusionment" is true in many other domains, in which autonomous Cyber-Physical Systems (CPS) could considerably help to overcome societal challenges and be highly beneficial to society and individuals. Taking the automotive domain, i.e. highly automated vehicles (HAV), as an example, this paper sets out to summarize the major challenges that are still to overcome for achieving safe, secure, reliable and trustworthy highly automated resp. autonomous CPS. We constrain ourselves to technical challenges, acknowledging the importance of (legal) regulations, certification, standardization, ethics, and societal acceptance, to name but a few, without delving deeper into them as this is beyond the scope of this paper. Four challenges have been identified as being the main obstacles to realizing HAV: Realization of continuous, post-deployment systems improvement, handling of uncertainties and incomplete information, verification of HAV with machine learning components, and prediction. Each of these challenges is described in detail, including sub-challenges and, where appropriate, possible approaches to overcome them. By working together in a common effort between industry and academy and focusing on these challenges, the authors hope to contribute to overcome the "disillusionment" for realizing HAV.
翻訳日:2021-03-08 14:45:57 公開日:2021-03-05
# URLLCのリアルタイムCQI予測のためのSDRベーステストベッド

SDR-based Testbed for Real-time CQI Prediction for URLLC ( http://arxiv.org/abs/2103.03572v1 )

ライセンス: Link先を確認
Kirill Glinskiy, Evgeny Khorov, Alexey Kureev(参考訳) 超信頼性低遅延通信(URLLC)は、5Gシステムの重要な特徴です。 URLLCによって課されるサービス(QoS)の条件の質は10msの遅れおよびより少しより少しより10^{-5}$のパケット損失率(PLR)です。 このような厳しい要件を最小のチャネルリソース消費で満たすには、デバイスはチャネル品質を正確に予測し、適切な方法でURLLCの変調および符号化スキーム(MCS)を選択する必要があります。 本稿では,ニューラルネットワークを用いたソフトウェア定義無線に基づくリアルタイムチャネル予測システムを提案する。 また,今後のurllc研究において,様々な移動シナリオにおける様々なチャネル予測手法を比較するために使用できるオープンチャネル計測データセットについて記述し,共有する。

Ultra-reliable Low-Latency Communication (URLLC) is a key feature of 5G systems. The quality of service (QoS) requirements imposed by URLLC are less than 10ms delay and less than $10^{-5}$ packet loss rate (PLR). To satisfy such strict requirements with minimal channel resource consumption, the devices need to accurately predict the channel quality and select Modulation and Coding Scheme (MCS) for URLLC in a proper way. This paper presents a novel real-time channel prediction system based on Software-Defined Radio that uses a neural network. The paper also describes and shares an open channel measurement dataset that can be used to compare various channel prediction approaches in different mobility scenarios in future research on URLLC
翻訳日:2021-03-08 14:45:33 公開日:2021-03-05
# リコメンダシステムのためのグラフ畳み込み埋め込み

Graph Convolutional Embeddings for Recommender Systems ( http://arxiv.org/abs/2103.03587v1 )

ライセンス: Link先を確認
Paula G\'omez Duran, Alexandros Karatzoglou, Jordi Vitri\`a, Xin Xin, Ioannis Arapakis(参考訳) 現代のレコメンダーシステム(RS)は、大量のユーザーとアイテムの相互作用データから推測できる多くの信号を処理することによって機能します。 分析する主な信号は、相互作用を表す生の行列に由来する。 しかし,インタラクションのコンテキスト,例えばインタラクションの日時,ユーザ位置,ユーザとシステムとの歴史的なインタラクションに対応するシーケンシャルなデータなど,他の種類の信号を考慮することで,RSの性能を向上させることができる。 これらの複雑なコンテキストベースの相互作用信号は、多部グラフで表現できるリッチリレーショナル構造によって特徴づけられる。 グラフ畳み込みネットワーク(GCN)は、単純なユーザー項目の相互作用データとの協調フィルタリングに成功した。 本研究では,N 個のコンテキスト次元を考慮した N 個のグラフに対する GCN の利用を一般化し,現代のディープラーニング RS アーキテクチャにおけるそれらのシームレスな統合方法を提案する。 より具体的には、ユーザ間相互作用を処理するn成分グラフのグラフ畳み込み層を定義し、それらの関係構造を利用してノード埋め込みを構成する。 レコメンダーシステムから薬物再購入までのいくつかのデータセットに関する実験は、異なるコンテキスト強化タスクのパフォーマンスを測定することによって導入されたGCN埋め込みレイヤの利点を示しています。

Modern recommender systems (RS) work by processing a number of signals that can be inferred from large sets of user-item interaction data. The main signal to analyze stems from the raw matrix that represents interactions. However, we can increase the performance of RS by considering other kinds of signals like the context of interactions, which could be, for example, the time or date of the interaction, the user location, or sequential data corresponding to the historical interactions of the user with the system. These complex, context-based interaction signals are characterized by a rich relational structure that can be represented by a multi-partite graph. Graph Convolutional Networks (GCNs) have been used successfully in collaborative filtering with simple user-item interaction data. In this work, we generalize the use of GCNs for N-partite graphs by considering N multiple context dimensions and propose a simple way for their seamless integration in modern deep learning RS architectures. More specifically, we define a graph convolutional embedding layer for N-partite graphs that processes user-item-context interactions, and constructs node embeddings by leveraging their relational structure. Experiments on several datasets from recommender systems to drug re-purposing show the benefits of the introduced GCN embedding layer by measuring the performance of different context-enriched tasks.
翻訳日:2021-03-08 14:45:21 公開日:2021-03-05
# ロボットプラットフォーム間のFew-Shot Policy Adaptationのためのベイズメタラーニング

Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic Platforms ( http://arxiv.org/abs/2103.03697v1 )

ライセンス: Link先を確認
Ali Ghadirzadeh, Xi Chen, Petra Poklukar, Chelsea Finn, M{\aa}rten Bj\"orkman and Danica Kragic(参考訳) 強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。 高価なデータで訓練されたポリシーは、ロボットハードウェアに小さな変更を加えても役に立たない。 本稿では,ロボットの動作軌跡を対象ロボットにわずかに示すだけで,タスクを実行するために訓練されたポリシーを,新しいロボットハードウェアプラットフォームに適応させるという課題に対処する。 データ効率のよい適応を可能にするために、さまざまなロボットプラットフォームで共有される共通の構造を捉えるメタモデルを見つけることが目的です。 低次元潜伏変数を用いた数ショット設定から生じる不確かさをモデル化する確率的勾配に基づくメタラーニングアルゴリズムによる学習フレームワークを導入することにより、そのような適応を実現する。 既存のロボットプラットフォームの物理パラメータを変化させた400台のシミュレートロボットを用いて,シミュレーションリーチと実ロボットピッキングタスクの枠組みを実験的に評価した。 提案手法は,新しい物理パラメータとメタラーニングアルゴリズムの優越性を持つ異なるロボットプラットフォームに対して,導入されるマイナショット・ポリシー適応問題に対する最先端手法と比較して,訓練されたポリシーをうまく適用できることを示す。

Reinforcement learning methods can achieve significant performance but require a large amount of training data collected on the same robotic platform. A policy trained with expensive data is rendered useless after making even a minor change to the robot hardware. In this paper, we address the challenging problem of adapting a policy, trained to perform a task, to a novel robotic hardware platform given only few demonstrations of robot motion trajectories on the target robot. We formulate it as a few-shot meta-learning problem where the goal is to find a meta-model that captures the common structure shared across different robotic platforms such that data-efficient adaptation can be performed. We achieve such adaptation by introducing a learning framework consisting of a probabilistic gradient-based meta-learning algorithm that models the uncertainty arising from the few-shot setting with a low-dimensional latent variable. We experimentally evaluate our framework on a simulated reaching and a real-robot picking task using 400 simulated robots generated by varying the physical parameters of an existing set of robotic platforms. Our results show that the proposed method can successfully adapt a trained policy to different robotic platforms with novel physical parameters and the superiority of our meta-learning algorithm compared to state-of-the-art methods for the introduced few-shot policy adaptation problem.
翻訳日:2021-03-08 14:45:00 公開日:2021-03-05
# コンスタントサークルによる自動市場メーカーの実装

Implementing Automated Market Makers with Constant Circle ( http://arxiv.org/abs/2103.03699v1 )

ライセンス: Link先を確認
Yongge Wang(参考訳) 本稿では,一定楕円型自動市場メーカ(CoinSwap)の実装の詳細について述べる。 CoinSwapのプロトタイプはhttp://coinswapapp.io/で実装されており、ソースコードはhttps://github.com/coinswapapp/で入手できる。

This paper describe the implementation details of constant ellipse based automated market makers (CoinSwap). A CoinSwap prototype has been implemented at http://coinswapapp.io/ and the source codes are available at https://github.com/coinswapapp/
翻訳日:2021-03-08 14:44:39 公開日:2021-03-05
# 代替安全行動に基づく無衝突・トルク制限ロボット軌道の学習

Learning Collision-free and Torque-limited Robot Trajectories based on Alternative Safe Behaviors ( http://arxiv.org/abs/2103.03793v1 )

ライセンス: Link先を確認
Jonas C. Kiemel and Torsten Kr\"oger(参考訳) 本稿では,産業用ロボットの衝突のないトルク制限トラジェクタのオンライン生成を学習する手法を提案する。 強化学習によって訓練されるニューラルネットワークは、将来の動きを予測するために定期的に呼び出される。 各ロボット関節に対して、ネットワークは、現在の時間間隔の終わりに望まれる運動状態を出力する。 アクションスペースの設計により、キネマティックジョイント限界の遵守が確保されます。 現在の運動状態とネットワーク予測を考慮すれば、現在の時間間隔の軌跡を計算することができる。 本論文の主な考え方は、軌道を継続する衝突のないトルク制限方式が知られている場合に限り、予測動作を実行することである。 実際には、予測運動はブレーキ軌道によって拡張され、物理エンジンを用いてシミュレートされる。 シミュレーションされた軌道がすべての安全制約に合致すると、予測動作が実行される。 さもなければ、前の決定ステップで計算されたブレーキ軌跡は代替の安全行動として機能する。 評価のために、最大3台のシミュレーションロボットが、できるだけ多くのランダムに配置された目標点に到達するように訓練される。 本研究では,ロボット間の静的障害物や衝突を確実に防止すると同時に,トルク限界と運動性関節限界の両方を尊重する動作を生成する。 実ロボットによる実験は、安全な軌道をリアルタイムで生成できることを示しています。

This paper presents an approach to learn online generation of collision-free and torque-limited trajectories for industrial robots. A neural network, which is trained via reinforcement learning, is periodically invoked to predict future motions. For each robot joint, the network outputs the kinematic state that is desired at the end of the current time interval. Compliance with kinematic joint limits is ensured by the design of the action space. Given the current kinematic state and the network prediction, a trajectory for the current time interval can be computed. The main idea of our paper is to execute the predicted motion only if a collision-free and torque-limited way to continue the trajectory is known. In practice, the predicted motion is expanded by a braking trajectory and simulated using a physics engine. If the simulated trajectory complies with all safety constraints, the predicted motion is carried out. Otherwise, the braking trajectory calculated in the previous decision step serves as an alternative safe behavior. For evaluation, up to three simulated robots are trained to reach as many randomly placed target points as possible. We show that our method reliably prevents collisions with static obstacles and collisions between the robots, while generating motions that respect both torque limits and kinematic joint limits. Experiments with a real robot demonstrate that safe trajectories can be generated in real-time.
翻訳日:2021-03-08 14:44:32 公開日:2021-03-05
# SpecTr:Hyperspectral Pathology Image Segmentationのためのスペクトル変換器

SpecTr: Spectral Transformer for Hyperspectral Pathology Image Segmentation ( http://arxiv.org/abs/2103.03604v1 )

ライセンス: Link先を確認
Boxiang Yun, Yan Wang, Jieneng Chen, Huiyu Wang, Wei Shen, Qingli Li(参考訳) ハイパースペクトルイメージング(HSI)は、計算病理学や精密医学などの高精度病理画像分割に依存する幅広いアプリケーションに巨大な可能性を解き放ちます。 ハイパースペクトル病理画像は、可視スペクトルを超えても豊富で詳細なスペクトル情報から恩恵を受けるため、高精度なハイパースペクトル病理画像分割を実現する鍵は、高次元スペクトルバンドに沿ってコンテキストを暗黙的にモデル化することです。 トランスの強力なコンテキストモデリング能力に触発され、トランスのシーケンスからシーケンスへの予測手順として、ハイパースペクトル病理画像分割のためのスペクトル帯域をまたいだコンテキスト機能学習を初めて定式化しました。 スペクトルの文脈学習を支援するために,(1)余剰帯域からの乱れを解消するために,疎結合方式が学習コンテキスト関係を疎結合にすること,(2)スペクトル正規化,(2)スペクトル帯域毎の集団正規化,そして、帯域の不均一な基底分布によるニュアンスを軽減すること,の2つの重要な戦略を導入する。 我々は,(1)スペクトル帯域間の長距離依存性をモデル化する能力を持ち,(2)hsiの空間スペクトル特性を共同研究する,という2つの利点を享受するspectrum transformer (spectr) と呼ぶ。 実験により、spectrは事前トレーニングを必要とせず、ハイパースペクトル病理画像分割ベンチマークで他の競合する手法よりも優れていることが示されている。 コードはhttps://github.com/hfut-xc-yun/SpecTrで入手できる。

Hyperspectral imaging (HSI) unlocks the huge potential to a wide variety of applications relied on high-precision pathology image segmentation, such as computational pathology and precision medicine. Since hyperspectral pathology images benefit from the rich and detailed spectral information even beyond the visible spectrum, the key to achieve high-precision hyperspectral pathology image segmentation is to felicitously model the context along high-dimensional spectral bands. Inspired by the strong context modeling ability of transformers, we hereby, for the first time, formulate the contextual feature learning across spectral bands for hyperspectral pathology image segmentation as a sequence-to-sequence prediction procedure by transformers. To assist spectral context learning procedure, we introduce two important strategies: (1) a sparsity scheme enforces the learned contextual relationship to be sparse, so as to eliminates the distraction from the redundant bands; (2) a spectral normalization, a separate group normalization for each spectral band, mitigates the nuisance caused by heterogeneous underlying distributions of bands. We name our method Spectral Transformer (SpecTr), which enjoys two benefits: (1) it has a strong ability to model long-range dependency among spectral bands, and (2) it jointly explores the spatial-spectral features of HSI. Experiments show that SpecTr outperforms other competing methods in a hyperspectral pathology image segmentation benchmark without the need of pre-training. Code is available at https://github.com/hfut-xc-yun/SpecTr.
翻訳日:2021-03-08 14:43:26 公開日:2021-03-05
# コントラスト学習によるきめ細かいオフロード意味セグメンテーションとマッピング

Fine-Grained Off-Road Semantic Segmentation and Mapping via Contrastive Learning ( http://arxiv.org/abs/2103.03651v1 )

ライセンス: Link先を確認
Biao Gao, Shaochi Hu, Xijun Zhao, Huijing Zhao(参考訳) 道路検出やトラバーサビリティ解析は、移動ロボットが複雑なオフロードシーンを横断するための重要な技術である。 この問題は、主に初期の研究でバイナリ分類として定式化されている。 ピクセルと道路や道路のラベルを関連付ける。 オフロードロボットには細かなラベルでシーンを理解する必要があるが、シーンは非常に多様であり、オフロードロボットの様々な機械的な性能によって、安全な領域の定義が異なる可能性がある。 きめ細かいラベルを定義して注釈を付けて、ロボットがオフロードを横断する意味のあるシーン理解を達成するには、まだ疑問の余地がある。 本研究では,対比学習に基づく手法を提案する。 人間の注釈付きアンカーパッチのセットでは、異なるトラバーサビリティを持つ領域を識別するために特徴表現を学び、細かい粒度のセマンティックセグメンテーションとマッピングの方法がその後オフロードシーンの理解のために開発されます。 実験は、非常に多様なオフロードシーンを表す3つの駆動セグメントのデータセットで行われます。 アンカー精度89.8%は、クロスシーンバリデーションにおける人間の注釈付き画像パッチとのマッチングを評価することによって達成される。 関連した3次元ライダーデータにより,視覚画像の細粒度セグメントは,その意味的意味性を表す強靭性と地形上昇のレベルが異なることが示されている。 結果として得られる地図はきめ細かいラベルと信頼値の両方を含んでおり、複雑なオフロードシーンを横断するロボットをサポートするための豊富な情報を提供する。

Road detection or traversability analysis has been a key technique for a mobile robot to traverse complex off-road scenes. The problem has been mainly formulated in early works as a binary classification one, e.g. associating pixels with road or non-road labels. Whereas understanding scenes with fine-grained labels are needed for off-road robots, as scenes are very diverse, and the various mechanical performance of off-road robots may lead to different definitions of safe regions to traverse. How to define and annotate fine-grained labels to achieve meaningful scene understanding for a robot to traverse off-road is still an open question. This research proposes a contrastive learning based method. With a set of human-annotated anchor patches, a feature representation is learned to discriminate regions with different traversability, a method of fine-grained semantic segmentation and mapping is subsequently developed for off-road scene understanding. Experiments are conducted on a dataset of three driving segments that represent very diverse off-road scenes. An anchor accuracy of 89.8% is achieved by evaluating the matching with human-annotated image patches in cross-scene validation. Examined by associated 3D LiDAR data, the fine-grained segments of visual images are demonstrated to have different levels of toughness and terrain elevation, which represents their semantical meaningfulness. The resultant maps contain both fine-grained labels and confidence values, providing rich information to support a robot traversing complex off-road scenes.
翻訳日:2021-03-08 14:42:57 公開日:2021-03-05
# 高自動運転における認識のためのコーナーケースの応用駆動概念化

An Application-Driven Conceptualization of Corner Cases for Perception in Highly Automated Driving ( http://arxiv.org/abs/2103.03678v1 )

ライセンス: Link先を確認
Florian Heidecker, Jasmin Breitenstein, Kevin R\"osch, Jonas L\"ohdefink, Maarten Bieshaar, Christoph Stiller, Tim Fingscheidt, Bernhard Sick(参考訳) 機械学習(ML)に依存するシステムと機能は、高度に自動化された運転の基礎です。 このようなMLモデルの基本課題は、異常、新しい、潜在的に危険な状況を確実に検出し、解釈することである。 私たちがコーナーケースと呼ぶこれらの状況の検出は、複数のセンサーモダリティが使用される将来の車両における自動車認識機能の開発、適用、および検証に非常に関連しています。 コーナーケース検出器の開発の複雑さは、特に様々な自動車センサーを考慮すると、一貫した定義、用語、コーナーケース記述の欠如である。 本研究では,高自動化運転におけるコーナーケースのアプリケーション駆動ビューを提供する。 この目的を達成するために、まず、一般的な外れ値、ノベル性、異常値、および分布外検出からの既存の定義を考慮し、コーナーケースとの関係と差異を示す。 さらに,RAAR (Radio detection and range) とLiDAR (light detection and range) センサを付加することで,既存のカメラによるコーナーケースの体系化を拡大する。 そこで本研究では,データ取得と処理のツールチェーンを例示し,コーナーケース検出のインターフェースを強調した。 我々はまた、方法論やデータ分布に固有の不確実性のために現れる新しいレベルのコーナーケース、メソッドレイヤーコーナーケースを定義します。

Systems and functions that rely on machine learning (ML) are the basis of highly automated driving. An essential task of such ML models is to reliably detect and interpret unusual, new, and potentially dangerous situations. The detection of those situations, which we refer to as corner cases, is highly relevant for successfully developing, applying, and validating automotive perception functions in future vehicles where multiple sensor modalities will be used. A complication for the development of corner case detectors is the lack of consistent definitions, terms, and corner case descriptions, especially when taking into account various automotive sensors. In this work, we provide an application-driven view of corner cases in highly automated driving. To achieve this goal, we first consider existing definitions from the general outlier, novelty, anomaly, and out-of-distribution detection to show relations and differences to corner cases. Moreover, we extend an existing camera-focused systematization of corner cases by adding RADAR (radio detection and ranging) and LiDAR (light detection and ranging) sensors. For this, we describe an exemplary toolchain for data acquisition and processing, highlighting the interfaces of the corner case detection. We also define a novel level of corner cases, the method layer corner cases, which appear due to uncertainty inherent in the methodology or the data distribution.
翻訳日:2021-03-08 14:42:31 公開日:2021-03-05
# クロスモーダル領域適応のための自己注意型空間適応正規化

Self-Attentive Spatial Adaptive Normalization for Cross-Modality Domain Adaptation ( http://arxiv.org/abs/2103.03781v1 )

ライセンス: Link先を確認
Devavrat Tomar, Manana Lortkipanidze, Guillaume Vray, Behzad Bozorgtabar, Jean-Philippe Thiran(参考訳) 多くの困難なビジョンタスクにおけるディープニューラルネットワークの成功にもかかわらず、トレーニングデータと同一に分散されていない新しいテストドメインへの一般化に失敗することが多い。 ドメイン適応は、注目すべきドメインシフトを持つクロスモダリティ医療データにとってより困難になる。 特定の注釈付きイメージングモダリティがアクセス可能でも完全でもありません。 提案手法は医用画像のクロスモダリティ合成に基づき,放射線科医のアノテーション負担を軽減し,放射線画像の領域ギャップを埋める。 本稿では,教師なしまたは教師なし(非ペア画像データ)の設定が可能な医用画像における画像から画像への変換手法を提案する。 本稿では,敵対的学習に基づいて,深層畳み込み生成ネットワークの中間活性化の学習可能な空間正規化を提案する。 従来の注意に基づく画像から画像への変換手法とは異なり,画像翻訳において幾何学的変化を処理し解剖学的構造を保存するために,補助的な意味情報の重要性を明らかにする。 我々は, マルチモーダル脳腫瘍MRI(T1/T2)データセットを, 最先端法と比較し, 欠損型MRIとCTデータ間の相互モダリティセグメンテーションにおいて, 優れた結果を得た。 また,脳データセット上でのMRI画像とCT画像の相互モダリティ変換の促進効果も観察した。 さらに,クロスモダリティ画像変換の詳細な解析を行い,提案手法の有効性を徹底的に検証した。

Despite the successes of deep neural networks on many challenging vision tasks, they often fail to generalize to new test domains that are not distributed identically to the training data. The domain adaptation becomes more challenging for cross-modality medical data with a notable domain shift. Given that specific annotated imaging modalities may not be accessible nor complete. Our proposed solution is based on the cross-modality synthesis of medical images to reduce the costly annotation burden by radiologists and bridge the domain gap in radiological images. We present a novel approach for image-to-image translation in medical images, capable of supervised or unsupervised (unpaired image data) setups. Built upon adversarial training, we propose a learnable self-attentive spatial normalization of the deep convolutional generator network's intermediate activations. Unlike previous attention-based image-to-image translation approaches, which are either domain-specific or require distortion of the source domain's structures, we unearth the importance of the auxiliary semantic information to handle the geometric changes and preserve anatomical structures during image translation. We achieve superior results for cross-modality segmentation between unpaired MRI and CT data for multi-modality whole heart and multi-modal brain tumor MRI (T1/T2) datasets compared to the state-of-the-art methods. We also observe encouraging results in cross-modality conversion for paired MRI and CT images on a brain dataset. Furthermore, a detailed analysis of the cross-modality image translation, thorough ablation studies confirm our proposed method's efficacy.
翻訳日:2021-03-08 14:42:09 公開日:2021-03-05
# 室内環境における照明不変化のためのマルチセッション視覚SLAM

Multi-Session Visual SLAM for Illumination Invariant Localization in Indoor Environments ( http://arxiv.org/abs/2103.03827v1 )

ライセンス: Link先を確認
Mathieu Labb\'e and Fran\c{c}ois Michaud(参考訳) カメラのみを使用して移動するロボットの場合、屋内環境の照明変化は、自律ナビゲーション中にローカリゼーションの失敗を引き起こす可能性があります。 本稿では,異なる照明条件下で同じ位置の複数のバリエーションからなるマップを作成するために,マルチセッション視覚SLAM手法を提案する。 マルチセッションマップは、その日の任意の時間に、ローカライゼーション機能を改善するために使用できる。 RTAB-Mapライブラリを使用して作成されたマルチセッションマップとSURF, SIFT, BRIEF, FREAK, BRISK, KAZE, DAISY, SuperPointのビジュアル機能間のローカリゼーションパフォーマンスを比較することで、このアプローチが実証されている。 この手法は6つのマッピングと6つのローカライゼーションセッションで、実際のアパートでGoogle Tangoの電話を使って日没時に30分間隔で記録されている。

For robots navigating using only a camera, illumination changes in indoor environments can cause localization failures during autonomous navigation. In this paper, we present a multi-session visual SLAM approach to create a map made of multiple variations of the same locations in different illumination conditions. The multi-session map can then be used at any hour of the day for improved localization capability. The approach presented is independent of the visual features used, and this is demonstrated by comparing localization performance between multi-session maps created using the RTAB-Map library with SURF, SIFT, BRIEF, FREAK, BRISK, KAZE, DAISY and SuperPoint visual features. The approach is tested on six mapping and six localization sessions recorded at 30 minutes intervals during sunset using a Google Tango phone in a real apartment.
翻訳日:2021-03-08 14:41:43 公開日:2021-03-05
# リスクイシュネスとピノッキオの自律的実体の包括的分類学の探索

Riskyishness and Pinocchio's Search for a Comprehensive Taxonomy of Autonomous Entities ( http://arxiv.org/abs/2103.03482v1 )

ライセンス: Link先を確認
William P. Wagner IV, Anna \'Zakowska, Clement Aladi, Joseph Santhosh(参考訳) 本稿では,自律エンティティという用語を定義するための探索的パイロット研究と,自律エンティティの識別・分類に必要な特徴について述べる。 私たちのソリューションは、哲学的および科学的分類法に関する以前の研究に基づいていますが、新しいデザイン科学研究方法論(dsrm)とモデルに注目して、あらゆる自律的な実体を他のものと類似または異なるものにする特徴を特定するのに役立ちます。 レンズを定義するための既存の用語が存在しないという問題を、新しい組み合わせ用語「Riskyishness」を作成することで解決しました。 本稿では,初期調査のためのdsrmと機器,および実世界におけるそれらの使用の観察的・統計的記述について,ドメインの専門知識と統計的証拠を提示する。 さらに,2つ目のアーティファクト – リスクネスに基づく既存および将来の技術を評価するツール – を作成することで,方法論の特定の応用を実証する。 最初のアーティファクトは、さまざまな既存技術を混乱させる技術や、将来の追加やパラダイムシフトを捉えるツールに次元を追加する技術も提供しています。

This paper documents an exploratory pilot study to define the term Autonomous Entity, and any characteristics that are required to identify or classify an Autonomous Entity. Our solution builds on previous work with regard to philosophical and scientific classification methods but focuses on a novel Design Science Research Methodology (DSRM) and model to help identify those characteristics which make any autonomous entity similar or different from others. We have solved the problem of not having an existing term to define our lens by creating a new combinatorial term: "Riskyishness". We present a DSRM and instrument for initial investigation, as well as observational and statistical descriptions of their use in the real world to solicit domain expertise and statistical evidence. Further, we demonstrate a specific application of the methodology by creating a second artifact - a tool to score existing and future technologies based on Riskyishness. The first artifact also provides a technique to disentangle miscellaneous existing technologies or add dimensions to the tools to capture future additions and paradigm shifts.
翻訳日:2021-03-08 14:41:27 公開日:2021-03-05
# MAMBPO:学習世界モデルを用いたサンプル効率多ボット強化学習

MAMBPO: Sample-efficient multi-robot reinforcement learning using learned world models ( http://arxiv.org/abs/2103.03662v1 )

ライセンス: Link先を確認
Dani\"el Willemsen, Mario Coppola and Guido C.H.E. de Croon(参考訳) マルチロボットシステムは、サンプル効率として知られる少数の試験で行動を学習する強化学習(RL)アルゴリズムの恩恵を受けることができます。 そこで本研究では,学習世界モデルを用いたサンプル効率の向上について検討する。 本稿では,分散実行(clde)フレームワークのための集中型学習を利用するマルチエージェントモデルベースrlアルゴリズム,マルチエージェントモデルベースポリシー最適化(mambpo)を提案する。 CLDEアルゴリズムにより、エージェントのグループは訓練後に完全に分散された方法で行動することができる。 これは複数のロボットからなる多くのシステムにとって望ましい特性である。 MAMBPOは、学習された世界モデルを使用して、モデルフリーのマルチエージェントソフトアクタークリティカル(MASAC)と比較してサンプル効率を向上させます。 MAMBPOはMAASACと同じような性能を達成しているが、それを行うにはサンプルがはるかに少ない2つのシミュレーションされたマルチロボットタスクでこれを実証する。 これにより、マルチロボットシステムの実生活学習を実現するための重要な一歩を踏み出します。

Multi-robot systems can benefit from reinforcement learning (RL) algorithms that learn behaviours in a small number of trials, a property known as sample efficiency. This research thus investigates the use of learned world models to improve sample efficiency. We present a novel multi-agent model-based RL algorithm: Multi-Agent Model-Based Policy Optimization (MAMBPO), utilizing the Centralized Learning for Decentralized Execution (CLDE) framework. CLDE algorithms allow a group of agents to act in a fully decentralized manner after training. This is a desirable property for many systems comprising of multiple robots. MAMBPO uses a learned world model to improve sample efficiency compared to model-free Multi-Agent Soft Actor-Critic (MASAC). We demonstrate this on two simulated multi-robot tasks, where MAMBPO achieves a similar performance to MASAC, but requires far fewer samples to do so. Through this, we take an important step towards making real-life learning for multi-robot systems possible.
翻訳日:2021-03-08 14:41:07 公開日:2021-03-05
# VLC/RFシステムにおけるフェデレーション学習におけるユーザ選択と帯域配置の最適化

Optimization of User Selection and Bandwidth Allocation for Federated Learning in VLC/RF Systems ( http://arxiv.org/abs/2103.03444v1 )

ライセンス: Link先を確認
Chuanhong Liu, Caili Guo, Yang Yang, Mingzhe Chen, H. Vincent Poor, and Shuguang Cui(参考訳) 限られた無線周波数(RF)リソースは、FL収束速度とパフォーマンスに影響を与えるように、フェデレーションラーニング(FL)に参加できるユーザー数を制限します。 本稿では、まずFLにおけるRFの補足として可視光通信(VLC)を導入し、各室内ユーザがVLCとRFの両方を使用してFLモデルパラメータを送信できるハイブリッドVLC/RF通信システムを構築する。 そこで, FL性能最適化を目的としたハイブリッドVLC/RFシステム上で実装したFLについて, ユーザ選択と帯域割当の問題を検討した。 問題はまず2つの部分問題に分かれる。 最初のサブプロブレムは、トラバーサルアルゴリズムによって解決される所定の帯域幅割り当てを持つユーザー選択問題である。 第2のサブプロブレムは、与えられたユーザ選択による帯域幅割り当て問題であり、数値法によって解決される。 最終的なユーザ選択と帯域割り当ては、これら2つのサブ問題を反復的に解いて得られる。 シミュレーションの結果,FLモデル伝送に VLC と RF を効率よく利用するFLアルゴリズムは,従来の RF を用いた FL システムと比較して,予測精度を最大10%向上できることがわかった。

Limited radio frequency (RF) resources restrict the number of users that can participate in federated learning (FL) thus affecting FL convergence speed and performance. In this paper, we first introduce visible light communication (VLC) as a supplement to RF in FL and build a hybrid VLC/RF communication system, in which each indoor user can use both VLC and RF to transmit its FL model parameters. Then, the problem of user selection and bandwidth allocation is studied for FL implemented over a hybrid VLC/RF system aiming to optimize the FL performance. The problem is first separated into two subproblems. The first subproblem is a user selection problem with a given bandwidth allocation, which is solved by a traversal algorithm. The second subproblem is a bandwidth allocation problem with a given user selection, which is solved by a numerical method. The final user selection and bandwidth allocation are obtained by iteratively solving these two subproblems. Simulation results show that the proposed FL algorithm that efficiently uses VLC and RF for FL model transmission can improve the prediction accuracy by up to 10% compared with a conventional FL system using only RF.
翻訳日:2021-03-08 14:40:07 公開日:2021-03-05
# DeepFreight: モデルなしのディープ強化学習に基づくマルチトランスファーウェイトデリバリアルゴリズム

DeepFreight: A Model-free Deep-reinforcement-learning-based Algorithm for Multi-transfer Freight Delivery ( http://arxiv.org/abs/2103.03450v1 )

ライセンス: Link先を確認
Jiayu Chen, Abhishek K. Umrawal, Tian Lan, and Vaneet Aggarwal(参考訳) 貨物輸送需要と輸送コストの急激な増加により、効率よくコストを意識したソリューションを実現するための艦隊のインテリジェントな制御が重要な問題となっている。 本稿では,トラックディスパッチとパッケージマッチングという2つの密接なコラボレーションコンポーネントを含む,マルチトランスファー貨物配送のためのモデルフリーなディープラーニングアルゴリズムであるdeepfreightを提案する。 具体的には、QMIXと呼ばれる深層マルチエージェント強化学習フレームワークを利用してディスパッチポリシーを学習し、配信要求に関する複数段階の共同ディスパッチ決定を得ることができる。 その後、効率的なマルチトランスファーマッチングアルゴリズムを実行して、配送要求をトラックに割り当てます。 また、DeepFreightはさらなる最適化のためにMixed-Integer Linear Programming Optimizationrと統合されている。 評価の結果,提案システムは非常にスケーラブルであり,低納期と燃料消費を維持しつつ,100%の納入成功を保証できることがわかった。

With the freight delivery demands and shipping costs increasing rapidly, intelligent control of fleets to enable efficient and cost-conscious solutions becomes an important problem. In this paper, we propose DeepFreight, a model-free deep-reinforcement-learning-based algorithm for multi-transfer freight delivery, which includes two closely-collaborative components: truck-dispatch and package-matching. Specifically, a deep multi-agent reinforcement learning framework called QMIX is leveraged to learn a dispatch policy, with which we can obtain the multi-step joint dispatch decisions for the fleet with respect to the delivery requests. Then an efficient multi-transfer matching algorithm is executed to assign the delivery requests to the trucks. Also, DeepFreight is integrated with a Mixed-Integer Linear Programming optimizer for further optimization. The evaluation results show that the proposed system is highly scalable and ensures a 100% delivery success while maintaining low delivery time and fuel consumption.
翻訳日:2021-03-08 14:39:48 公開日:2021-03-05
# クロスプロジェクト欠陥予測から異種欠陥予測への移行:部分レプリケーションによる検討

Moving from Cross-Project Defect Prediction to Heterogeneous Defect Prediction: A Partial Replication Study ( http://arxiv.org/abs/2103.03490v1 )

ライセンス: Link先を確認
Hadi Jahanshahi, Mucahit Cevik, Ay\c{s}e Ba\c{s}ar(参考訳) ソフトウェア欠陥予測は、ソフトウェアプロジェクトから集められたメトリクスに大きく依存します。 以前の研究では、しばしば機械学習技術を使用して、プロジェクト内または異なるプロジェクト間で収集されたメトリクスのセットを使用して、バグ予測モデルを構築し、検証し、改善した。 しかしながら、これらのモデルが適用した手法と結論は、これらの指標がどの程度同一であるかによって制限される。 これらのモデルから得られる知識は、ソースプロジェクトで十分な重複メトリクスが収集されていない場合、ターゲットプロジェクトに拡張できない。 共通ラベル付きメトリクスを使わずにプロジェクト間で知識を伝達できる可能性を探るため,得られた成果を再現し検証することにより,異種欠陥予測(HDP)を体系的に統合した。 我々の主な目標は、先行研究を拡張し、HDPの実現可能性を探究し、最終的にその性能を前任のクロスプロジェクト欠陥予測と比べることです。 公開データセットの異なるHDPモデルを構築しています。 さらに,複数の利用可能なデータセットの予測能力を活用するために,HDPコンテキストにおける新しいアンサンブル投票手法を提案する。 私たちの実験の結果は、元の研究のそれと匹敵します。 しかし,実例ではHDPの実現可能性についても検討した。 その結果,hdpアルゴリズムはパラメータ選択に対する感度が高いため,多くのケースで実現不可能であることが判明した。 一般的に、私たちの分析は、あるドメインから別のドメインへの転送学習を行う理由と方法について深い洞察を与え、特に、研究者や実践者が欠陥予測ドメインに知識を広めるのに役立つ一連のガイドラインを提供します。

Software defect prediction heavily relies on the metrics collected from software projects. Earlier studies often used machine learning techniques to build, validate, and improve bug prediction models using either a set of metrics collected within a project or across different projects. However, techniques applied and conclusions derived by those models are restricted by how identical those metrics are. Knowledge coming from those models will not be extensible to a target project if no sufficient overlapping metrics have been collected in the source projects. To explore the feasibility of transferring knowledge across projects without common labeled metrics, we systematically integrated Heterogeneous Defect Prediction (HDP) by replicating and validating the obtained results. Our main goal is to extend prior research and explore the feasibility of HDP and finally to compare its performance with that of its predecessor, Cross-Project Defect Prediction. We construct an HDP model on different publicly available datasets. Moreover, we propose a new ensemble voting approach in the HDP context to utilize the predictive power of multiple available datasets. The result of our experiment is comparable to that of the original study. However, we also explored the feasibility of HDP in real cases. Our results shed light on the infeasibility of many cases for the HDP algorithm due to its sensitivity to the parameter selection. In general, our analysis gives a deep insight into why and how to perform transfer learning from one domain to another, and in particular, provides a set of guidelines to help researchers and practitioners to disseminate knowledge to the defect prediction domain.
翻訳日:2021-03-08 14:39:33 公開日:2021-03-05
# JIT欠陥予測に時系列は重要ですか? 部分的複製研究

Does chronology matter in JIT defect prediction? A Partial Replication Study ( http://arxiv.org/abs/2103.03506v1 )

ライセンス: Link先を確認
Hadi Jahanshahi, Dhanya Jothimani, Ay\c{s}e Ba\c{s}ar, Mucahit Cevik(参考訳) Just-In-Time(JIT)モデルは、修正誘発変更(または欠陥誘発変更)を検出する。 これらのモデルは、過去のコード変更プロパティが将来のものと似ているという仮定に基づいて設計されている。 しかし、システムが進化するにつれて、開発者の専門知識やシステムの複雑さも変化する。 本研究では,JITモデルに対するコード変更プロパティの影響を経時的に調査する。 また、最新のデータと利用可能なすべてのデータがJITモデルの性能に与える影響についても検討する。 さらに、重み付きサンプリングがJITモデルの修正誘導特性の性能に及ぼす影響を分析します。 この目的で、eclipse jdt、mozilla、eclipse platform、postgresqlのデータセットを使用しました。 サイズ、拡散、履歴、経験、目的といった5種類の変更コードプロパティを使用しました。 我々はRandom Forestを用いてJITモデルのトレーニングとテストを行い、Brier ScoreとROC曲線下の領域を性能測定に使用した。 本論文ではJITモデルの予測能力が経時的に変化しないことを示唆する。 さらに,jit欠陥予測モデルにおけるデータの時系列を,利用可能なすべてのデータを考慮して破棄できることを確認した。 一方、コード変更プロパティのファミリーの重要性スコアは、時間の経過とともに振動することがわかっています。 コード変更特性の進化の影響を軽減するため、現在の時間に近い変化にもっと重点を置く重み付けサンプリングアプローチを使用することが推奨されている。 また、"Expertise of the Developer"や"Size"などのプロパティは時間とともに進化するため、古いデータから得られたモデルは、新しいデータセットを使用するものと異なる特性を示す可能性があります。 したがって、実践者は新鮮なデータを含むようにJITモデルを常に再訓練する必要がある。

Just-In-Time (JIT) models detect the fix-inducing changes (or defect-inducing changes). These models are designed based on the assumption that past code change properties are similar to future ones. However, as the system evolves, the expertise of developers and/or the complexity of the system also changes. In this work, we aim to investigate the effect of code change properties on JIT models over time. We also study the impact of using recent data as well as all available data on the performance of JIT models. Further, we analyze the effect of weighted sampling on the performance of fix-inducing properties of JIT models. For this purpose, we used datasets from Eclipse JDT, Mozilla, Eclipse Platform, and PostgreSQL. We used five families of change-code properties such as size, diffusion, history, experience, and purpose. We used Random Forest to train and test the JIT model and Brier Score and the area under the ROC curve for performance measurement. Our paper suggests that the predictive power of JIT models does not change over time. Furthermore, we observed that the chronology of data in JIT defect prediction models can be discarded by considering all the available data. On the other hand, the importance score of families of code change properties is found to oscillate over time. To mitigate the impact of the evolution of code change properties, it is recommended to use a weighted sampling approach in which more emphasis is placed upon the changes occurring closer to the current time. Moreover, since properties such as "Expertise of the Developer" and "Size" evolve with time, the models obtained from old data may exhibit different characteristics compared to those employing the newer dataset. Hence, practitioners should constantly retrain JIT models to include fresh data.
翻訳日:2021-03-08 14:39:09 公開日:2021-03-05
# 隠れ特徴のベイズ近似によるディープニューラルネットワークの抽象化とシンボリック実行

Abstraction and Symbolic Execution of Deep Neural Networks with Bayesian Approximation of Hidden Features ( http://arxiv.org/abs/2103.03704v1 )

ライセンス: Link先を確認
Nicolas Berthier, Amany Alshareef, James Sharp, Sven Schewe, Xiaowei Huang(参考訳) 深層ニューラルネットワーク(DNN)の検証と検証に関する集中的な研究が行われており、DNNが安全クリティカルなアプリケーションに適用できるかどうか、そしてどのように適用できるかを理解しています。 しかし、既存の検証と検証技術は、DNNのサイズとデータセットのサイズの両方でスケーラビリティによって制限されている。 本稿では,DNNとデータセットをベイズネットワーク(BN)に抽象化する新しい抽象化手法を提案する。 本研究では,DNNの隠蔽層で学習した隠れ特徴を識別するために次元削減技術を使用し,各隠蔽特徴をBNのノードに関連付ける。 このBNでは、DNN処理データの挙動を理解するために確率推論を行うことができる。 さらに重要なことは、運用時のレアインプットの検出と入力データの共変シフトのためのランタイム監視アプローチを導出できることです。 また、既存の構造カバレッジガイドによるテスト技術(すなわち、ニューロンなどのDNNの低レベル要素に基づく)を適応させ、隠れた機能をよりよく行使するテストケースを生成することもできる。 DeepConcolicツールを使用してBN抽象化技術を実装し、評価します。

Intensive research has been conducted on the verification and validation of deep neural networks (DNNs), aiming to understand if, and how, DNNs can be applied to safety critical applications. However, existing verification and validation techniques are limited by their scalability, over both the size of the DNN and the size of the dataset. In this paper, we propose a novel abstraction method which abstracts a DNN and a dataset into a Bayesian network (BN). We make use of dimensionality reduction techniques to identify hidden features that have been learned by hidden layers of the DNN, and associate each hidden feature with a node of the BN. On this BN, we can conduct probabilistic inference to understand the behaviours of the DNN processing data. More importantly, we can derive a runtime monitoring approach to detect in operational time rare inputs and covariate shift of the input data. We can also adapt existing structural coverage-guided testing techniques (i.e., based on low-level elements of the DNN such as neurons), in order to generate test cases that better exercise hidden features. We implement and evaluate the BN abstraction technique using our DeepConcolic tool available at https://github.com/TrustAI/DeepConcolic.
翻訳日:2021-03-08 14:38:44 公開日:2021-03-05
# ニューラルネットワークを修理できますか? 弾性無線信号分類のためのリアルタイム適応波形合成

Can You Fix My Neural Network? Real-Time Adaptive Waveform Synthesis for Resilient Wireless Signal Classification ( http://arxiv.org/abs/2103.03745v1 )

ライセンス: Link先を確認
Salvatore D'Oro, Francesco Restuccia and Tommaso Melodia(参考訳) 明示的なモデリングなしに複雑な現象を分類する能力により、深層学習(DL)が無線信号分類(WSC)の鍵となることが示されている。 DLは特定の条件下で非常に高い精度を達成できますが、最近の研究では、トレーニング中にDLモデルによって得られた特徴を無線チャネルが破壊できることを明らかにしました。 再訓練された分類器は展開後、扱いにくいため、既存の作業では、送信機側で適用された場合、チャネルアクション、すなわち波形合成によって失われた特徴を復元できる、注意深く調整された有限インパルス応答(FIR)フィルタの使用を活用している。 しかし、これらのアプローチはオフライン最適化戦略を使用してFIRを計算し、高ダイナミックチャネル設定の有効性を制限します。 本稿では,チャネル耐性適応波形合成のためのDeep Reinforcement Learning (DRL) ベースのフレームワークであるCharesを提案することにより,その現状を改善する。 チャレスは新しいチャネル条件に適応し、firs の drl をリアルタイムで最適に計算する。 charesはdrlエージェントであり、アーキテクチャは2つの遅延決定論的ポリシー勾配(td3)に基づいており、受信者からの最小限のフィードバックを必要とし、連続的なアクション空間を探索する。 Charesは2つの有名なデータセットで広く評価されています。 また、フィールドプログラマブルゲートアレイ(FPGA)の実装により、Charesのリアルタイムレイテンシも評価しました。 その結果,Charesは波形合成を行わない場合の精度を4.1倍に向上させ,41us以内の新しい動作を計算できることが示された。

Thanks to its capability of classifying complex phenomena without explicit modeling, deep learning (DL) has been demonstrated to be a key enabler of Wireless Signal Classification (WSC). Although DL can achieve a very high accuracy under certain conditions, recent research has unveiled that the wireless channel can disrupt the features learned by the DL model during training, thus drastically reducing the classification performance in real-world live settings. Since retraining classifiers is cumbersome after deployment, existing work has leveraged the usage of carefully-tailored Finite Impulse Response (FIR) filters that, when applied at the transmitter's side, can restore the features that are lost because of the the channel actions, i.e., waveform synthesis. However, these approaches compute FIRs using offline optimization strategies, which limits their efficacy in highly-dynamic channel settings. In this paper, we improve the state of the art by proposing Chares, a Deep Reinforcement Learning (DRL)-based framework for channel-resilient adaptive waveform synthesis. Chares adapts to new and unseen channel conditions by optimally computing through DRL the FIRs in real-time. Chares is a DRL agent whose architecture is-based upon the Twin Delayed Deep Deterministic Policy Gradients (TD3), which requires minimal feedback from the receiver and explores a continuous action space. Chares has been extensively evaluated on two well-known datasets. We have also evaluated the real-time latency of Chares with an implementation on field-programmable gate array (FPGA). Results show that Chares increases the accuracy up to 4.1x when no waveform synthesis is performed, by 1.9x with respect to existing work, and can compute new actions within 41us.
翻訳日:2021-03-08 14:38:22 公開日:2021-03-05
# Smoothness Priorsによるオンライングラフ学習

Online Graph Learning under Smoothness Priors ( http://arxiv.org/abs/2103.03762v1 )

ライセンス: Link先を確認
Seyed Saman Saboksayr, Gonzalo Mateos, Mujdat Cetin(参考訳) グラフ信号処理(GSP)のアプローチの成功は、ネットワークデータが一定の規則性を認めるグラフの事前識別に大きく依存している。 しかし、よりダイナミックな環境への適応とストリーミングデータのリアルタイム処理の要求は、この目的に大きな課題をもたらす。 この文脈では,探索グラフ上でスムーズなストリーミング観測を仮定して,オンラインネットワークトポロジ推論のための新しいアルゴリズムを開発する。 既存のバッチアルゴリズムとは異なり、私たちの目標は、グラフ信号を順次処理することで、メモリと計算コストを維持しながら(おそらく)時間変動ネットワークトポロジを追跡することです。 オンライン方式でグラフを復元するために、近位勾配法(PG法)を用いて、偏平滑化・時変最適化問題を解く。 穏やかな技術条件下では、オンライングラフ学習アルゴリズムが最適な時間分散バッチソリューションの近傍(すなわち、追跡)に収束することを確立します。 人工および現実の金融市場データを用いたコンピュータシミュレーションは、ストリーミング信号に適応してゆっくりと変化するネットワーク接続を追跡する際に提案されたアルゴリズムの有効性を示す。

The growing success of graph signal processing (GSP) approaches relies heavily on prior identification of a graph over which network data admit certain regularity. However, adaptation to increasingly dynamic environments as well as demands for real-time processing of streaming data pose major challenges to this end. In this context, we develop novel algorithms for online network topology inference given streaming observations assumed to be smooth on the sought graph. Unlike existing batch algorithms, our goal is to track the (possibly) time-varying network topology while maintaining the memory and computational costs in check by processing graph signals sequentially-in-time. To recover the graph in an online fashion, we leverage proximal gradient (PG) methods to solve a judicious smoothness-regularized, time-varying optimization problem. Under mild technical conditions, we establish that the online graph learning algorithm converges to within a neighborhood of (i.e., it tracks) the optimal time-varying batch solution. Computer simulations using both synthetic and real financial market data illustrate the effectiveness of the proposed algorithm in adapting to streaming signals to track slowly-varying network connectivity.
翻訳日:2021-03-08 14:37:51 公開日:2021-03-05
# 構造モチーフを用いた分子スキャッホールドの拡張学習

Learning to Extend Molecular Scaffolds with Structural Motifs ( http://arxiv.org/abs/2103.03864v1 )

ライセンス: Link先を確認
Krzysztof Maziarz, Henry Jackson-Flux, Pashmina Cameron, Finton Sirockin, Nadine Schneider, Nikolaus Stiefl, Marc Brockschmidt(参考訳) 分子の深層学習に基づくモデリングの最近の進歩は、シリコ創薬の加速を約束する。 原子/原子/結合、フラグメント/フラグメントのいずれかの分子を構築する生成モデルが多数存在する。 多くの薬物発見プロジェクトは、生成した分子に固定された足場が必要であり、その制約を組み込むことも最近研究されている。 本研究では、個々の原子とフラグメントを柔軟に選択することで、所定の部分分子を拡張することを学ぶ新しいグラフベースモデルを提案する。 足場の拡張は、最初の部分グラフとして使用することで実現されます。これは、私たちのモデルが生成履歴に依存していないためです。 足場を延ばす際には,ランダム化生成順序を用いたトレーニングが良好なパフォーマンスのために必要であり,フラグメント語彙サイズを増やすことでさらに改善されることを示した。 我々のモデルは、グラフベースの分子生成の最先端を推し進める一方で、既存のアプローチよりも訓練とサンプリングがはるかに高速である。

Recent advancements in deep learning-based modeling of molecules promise to accelerate in silico drug discovery. There is a plethora of generative models available, which build molecules either atom-by-atom and bond-by-bond or fragment-by-fragment. Many drug discovery projects also require a fixed scaffold to be present in the generated molecule, and incorporating that constraint has been recently explored. In this work, we propose a new graph-based model that learns to extend a given partial molecule by flexibly choosing between adding individual atoms and entire fragments. Extending a scaffold is implemented by using it as the initial partial graph, which is possible because our model does not depend on generation history. We show that training using a randomized generation order is necessary for good performance when extending scaffolds, and that the results are further improved by increasing fragment vocabulary size. Our model pushes the state-of-the-art of graph-based molecule generation, while being an order of magnitude faster to train and sample from than existing approaches.
翻訳日:2021-03-08 14:37:36 公開日:2021-03-05
# 最大流れによる分解可能部分モジュラー関数最小化

Decomposable Submodular Function Minimization via Maximum Flow ( http://arxiv.org/abs/2103.03868v1 )

ライセンス: Link先を確認
Kyriakos Axiotis, Adam Karczmarz, Anish Mukherjee, Piotr Sankowski, Adrian Vladu(参考訳) 本稿では,分解可能部分モジュラ関数最小化のための離散的かつ連続的な最適化手法を,標準およびパラメトリック設定の両方で橋渡しする。 我々は、最大フローオラクルへの多数の呼び出しに還元することで、この問題に対する実行時間を改善する。 分解の各関数が、$V$ の $O(1)$ 要素上で作用し、多項式有界であるとき、私達の実行時間は、$O(\vert V \vert)$ 頂点と多項式積分容量を持つスパースグラフにおける最大フローを解くことと同等の多項数係数である。 本手法は,部分モジュラーベースポリトープ上で定義される凸関数を高精度に最適化する,簡単な反復法を提供することにより実現し,構築するグラフのカット関数に対応する基本ポリトープ上で効率よく最小化することができる。 我々はこの最小化問題をパラメトリックカット問題の解を持ち上げて解くことで解決する。 この減少は独立した利益であり、複数の設定におけるパラメトリック最小$s,t$-cut問題に対する未知の境界を示唆している。

This paper bridges discrete and continuous optimization approaches for decomposable submodular function minimization, in both the standard and parametric settings. We provide improved running times for this problem by reducing it to a number of calls to a maximum flow oracle. When each function in the decomposition acts on $O(1)$ elements of the ground set $V$ and is polynomially bounded, our running time is up to polylogarithmic factors equal to that of solving maximum flow in a sparse graph with $O(\vert V \vert)$ vertices and polynomial integral capacities. We achieve this by providing a simple iterative method which can optimize to high precision any convex function defined on the submodular base polytope, provided we can efficiently minimize it on the base polytope corresponding to the cut function of a certain graph that we construct. We solve this minimization problem by lifting the solutions of a parametric cut problem, which we obtain via a new efficient combinatorial reduction to maximum flow. This reduction is of independent interest and implies some previously unknown bounds for the parametric minimum $s,t$-cut problem in multiple settings.
翻訳日:2021-03-08 14:37:15 公開日:2021-03-05
# 構造融合正規化による合同ネットワークトポロジー推論

Joint Network Topology Inference via Structured Fusion Regularization ( http://arxiv.org/abs/2103.03471v1 )

ライセンス: Link先を確認
Yanli Yuan, De Wen Soh, Xiao Yang, Kun Guo, Tony Q. S. Quek(参考訳) 結合ネットワークトポロジ推論は、異種グラフ信号から複数グラフラプラシア行列を共同学習する標準的な問題である。 そのような問題において、広く用いられる仮定は、複数のネットワーク間で共有される単純な共通成分である。 しかし実際には、スパース、均質、異質な成分を同時に含むより複雑なトポロジカルパターンが複数のネットワークに現れる。 本論文では,このような複雑な位相パターンを持つ複数のグラフラプラシアン行列を共同学習し,高い計算効率と厳密な理論的保証を兼ね備えた,新規な構造化融合正規化に基づく一般グラフ推定器を提案する。 さらに,提案した正規化項において,ネットワーク間のトポロジ的パターンは,グラム行列の異なる選択によって異なるタイプのトポロジ的パターンを柔軟にモデル化できるグラフ推定器によって特徴づけられる。 計算的に,パラメータを結合する正規化項は定式化された最適化問題を抽出可能とし,乗算器の交互方向法(ADMM)に基づく計算可能アルゴリズムを開発し,効率よく解く。 理論的には、提案したグラフ推定器の理論解析を行い、高次元設定下で推定誤差の非漸近境界を確立し、アルゴリズムの収束率に対するいくつかの重要な因子の影響を反映する。 最後に、提案手法の優れた性能は、シミュレーションおよび実データ例を通じて示される。

Joint network topology inference represents a canonical problem of jointly learning multiple graph Laplacian matrices from heterogeneous graph signals. In such a problem, a widely employed assumption is that of a simple common component shared among multiple networks. However, in practice, a more intricate topological pattern, comprising simultaneously of sparse, homogeneity and heterogeneity components, would exhibit in multiple networks. In this paper, we propose a general graph estimator based on a novel structured fusion regularization that enables us to jointly learn multiple graph Laplacian matrices with such complex topological patterns, and enjoys both high computational efficiency and rigorous theoretical guarantee. Moreover, in the proposed regularization term, the topological pattern among networks is characterized by a Gram matrix, endowing our graph estimator with the ability of flexible modelling different types of topological patterns by different choices of the Gram matrix. Computationally, the regularization term, coupling the parameters together, makes the formulated optimization problem intractable and thus, we develop a computationally-scalable algorithm based on the alternating direction method of multipliers (ADMM) to solve it efficiently. Theoretically, we provide a theoretical analysis of the proposed graph estimator, which establishes a non-asymptotic bound of the estimation error under the high-dimensional setting and reflects the effect of several key factors on the convergence rate of our algorithm. Finally, the superior performance of the proposed method is illustrated through simulated and real data examples.
翻訳日:2021-03-08 14:36:53 公開日:2021-03-05
# 点雲に基づく階層的深度オドメトリー推定

Point Cloud based Hierarchical Deep Odometry Estimation ( http://arxiv.org/abs/2103.03394v1 )

ライセンス: Link先を確認
Farzan Erlik Nowruzi, Dhanvin Kolhatkar, Prince Kapoor, Robert Laganiere(参考訳) 深層ニューラルネットワークを用いたポイントクラウドの処理はまだ難しい作業です。 既存のモデルのほとんどは、ポイントクラウドを用いたディープニューラルネットワークによるオブジェクト検出と登録に焦点を当てている。 本稿では,ポイントクラウドデータを用いた運転シナリオにおけるオドメトリ推定を学習する深層モデルを提案する。 提案モデルでは,階層型モデルによるフレーム間オドメトリ推定を行うために,生の点雲を消費する。 また、LSTM層を用いたこのモデルの局所バンドル調整変異も実装されている。 これら2つのアプローチは総合的に評価され、最先端技術と比較される。

Processing point clouds using deep neural networks is still a challenging task. Most existing models focus on object detection and registration with deep neural networks using point clouds. In this paper, we propose a deep model that learns to estimate odometry in driving scenarios using point cloud data. The proposed model consumes raw point clouds in order to extract frame-to-frame odometry estimation through a hierarchical model architecture. Also, a local bundle adjustment variation of this model using LSTM layers is implemented. These two approaches are comprehensively evaluated and are compared against the state-of-the-art.
翻訳日:2021-03-08 14:36:28 公開日:2021-03-05
# Slow-Fast Auditory Streams for Audio Recognition

Slow-Fast Auditory Streams For Audio Recognition ( http://arxiv.org/abs/2103.03516v1 )

ライセンス: Link先を確認
Evangelos Kazakos, Arsha Nagrani, Andrew Zisserman, Dima Damen(参考訳) 本稿では,時間周波数のスペクトログラム入力で動作する2ストリーム畳み込みネットワークを提案する。 視覚認識における同様の成功の後、我々は分離可能な畳み込みと多レベルの側方接続を持つ低速聴覚ストリームを学習する。 Slow経路はチャンネル容量が高く、Fast経路は細かい時間分解能で動作します。 本稿では,VGG-Sound と EPIC-KITCHENS-100 の2つの異なるデータセットに対する2ストリーム提案の重要性を述べる。

We propose a two-stream convolutional network for audio recognition, that operates on time-frequency spectrogram inputs. Following similar success in visual recognition, we learn Slow-Fast auditory streams with separable convolutions and multi-level lateral connections. The Slow pathway has high channel capacity while the Fast pathway operates at a fine-grained temporal resolution. We showcase the importance of our two-stream proposal on two diverse datasets: VGG-Sound and EPIC-KITCHENS-100, and achieve state-of-the-art results on both.
翻訳日:2021-03-08 14:36:19 公開日:2021-03-05
# GraphMineSuite:set Algebraによる高性能でプログラマブルなグラフマイニングアルゴリズムの実現

GraphMineSuite: Enabling High-Performance and Programmable Graph Mining Algorithms with Set Algebra ( http://arxiv.org/abs/2103.03653v1 )

ライセンス: Link先を確認
Maciej Besta, Zur Vonarburg-Shmaria, Yannick Schaffner, Leonardo Schwarz, Grzegorz Kwasniewski, Lukas Gianinazzi, Jakub Beranek, Kacper Janda, Tobias Holenstein, Sebastian Leisinger, Peter Tatkowski, Esref Ozdemir, Adrian Balla, Marcin Copik, Philipp Lindenberger, Pavel Kalvoda, Marek Konieczny, Onur Mutlu, Torsten Hoefler(参考訳) 高性能グラフマイニングアルゴリズムの評価と構築を容易にするグラフマイニングのための最初のベンチマークスイートであるGraphMineSuite(GMS)を提案します。 まず、GMSは広範な文献レビューに基づくベンチマーク仕様を持ち、代表的な問題、アルゴリズム、データセットを規定している。 第二に、GMSはグラフ表現やアルゴリズムサブルーチンなどのグラフマイニングアルゴリズムのさまざまな細かい要素をシームレスにテストするための慎重に設計されたソフトウェアプラットフォームを提供します。 このプラットフォームは40以上のベースラインの並列実装を含み、複雑で高速なマイニングアルゴリズムの開発を容易にする。 集合交差や差分などの集合代数演算を活用することで、複雑なグラフマイニングアルゴリズムを別々に実験可能な単純なビルディングブロックに分解することができる。 GMSは、パフォーマンスインサイトにおけるポータビリティに関する幅広い並行性解析と、グラフマイニングアルゴリズムのスループットを評価するための新しいパフォーマンス指標を備えており、より洞察力のある評価を可能にしている。 ユースケースとして、gmsを利用して、コアグラフマイニング問題の最先端のベースラインを迅速に再設計し、加速する: 退化再順序付け(最大2倍)、最大クライクリスト(最大9倍)、k-クライクリスト(最大1.1倍)、サブグラフ同型(最大2.5倍)。

We propose GraphMineSuite (GMS): the first benchmarking suite for graph mining that facilitates evaluating and constructing high-performance graph mining algorithms. First, GMS comes with a benchmark specification based on extensive literature review, prescribing representative problems, algorithms, and datasets. Second, GMS offers a carefully designed software platform for seamless testing of different fine-grained elements of graph mining algorithms, such as graph representations or algorithm subroutines. The platform includes parallel implementations of more than 40 considered baselines, and it facilitates developing complex and fast mining algorithms. High modularity is possible by harnessing set algebra operations such as set intersection and difference, which enables breaking complex graph mining algorithms into simple building blocks that can be separately experimented with. GMS is supported with a broad concurrency analysis for portability in performance insights, and a novel performance metric to assess the throughput of graph mining algorithms, enabling more insightful evaluation. As use cases, we harness GMS to rapidly redesign and accelerate state-of-the-art baselines of core graph mining problems: degeneracy reordering (by up to >2x), maximal clique listing (by up to >9x), k-clique listing (by 1.1x), and subgraph isomorphism (by up to 2.5x), also obtaining better theoretical performance bounds.
翻訳日:2021-03-08 14:36:05 公開日:2021-03-05
# マトリックスゲームにおける学習は任意に複雑になる

Learning in Matrix Games can be Arbitrarily Complex ( http://arxiv.org/abs/2103.03405v1 )

ライセンス: Link先を確認
Gabriel P. Andrade, Rafael Frongillo, Georgios Piliouras(参考訳) Generative Adversarial Networksのような機械学習アーキテクチャの増加は、Nash平衡を通じて所望の機能を実装するゲームの設計に依存している。 実際、これらのゲームは暗黙の複雑さを持っている(例)。 基盤となるデータセットと使用するディープネットワークから) 直接計算するナッシュ均衡は非現実的あるいは不可能である。 このため,nash平衡への反復収束を目標として,多数の学習アルゴリズムが開発されてきた。 残念ながら、学習プロセスによって生成されるダイナミクスは非常に複雑であり、トレーニング失敗の例は解釈が難しい。 本稿では,この動的複雑性がゲームに固有のことを,強い意味で示す。 具体的には、有限行列ゲームとして知られる非常に制限されたゲームのクラスに適用しても、多重相対重み更新の連続時間アナログである複製子ダイナミクスが任意の力学系を近似できるほど豊富であることを示す。 私たちの結果は、現在の機械学習プラクティスのほぼ境界のない動的モデリング能力を示すという意味では肯定的ですが、これらの能力が解釈可能性の犠牲になる可能性があることを暗示する否定的です。 具体例として、レプリケーターダイナミクスが、よく知られたロンレンツ力学の奇妙な誘引子(「バタフライ効果」)を効果的に再現できることを示す。

A growing number of machine learning architectures, such as Generative Adversarial Networks, rely on the design of games which implement a desired functionality via a Nash equilibrium. In practice these games have an implicit complexity (e.g. from underlying datasets and the deep networks used) that makes directly computing a Nash equilibrium impractical or impossible. For this reason, numerous learning algorithms have been developed with the goal of iteratively converging to a Nash equilibrium. Unfortunately, the dynamics generated by the learning process can be very intricate and instances of training failure hard to interpret. In this paper we show that, in a strong sense, this dynamic complexity is inherent to games. Specifically, we prove that replicator dynamics, the continuous-time analogue of Multiplicative Weights Update, even when applied in a very restricted class of games -- known as finite matrix games -- is rich enough to be able to approximate arbitrary dynamical systems. Our results are positive in the sense that they show the nearly boundless dynamic modelling capabilities of current machine learning practices, but also negative in implying that these capabilities may come at the cost of interpretability. As a concrete example, we show how replicator dynamics can effectively reproduce the well-known strange attractor of Lonrenz dynamics (the "butterfly effect") while achieving no regret.
翻訳日:2021-03-08 14:35:17 公開日:2021-03-05
# 空間時間グラフ畳み込みネットワークに基づくデータ駆動短期電圧安定性評価

Data-Driven Short-Term Voltage Stability Assessment Based on Spatial-Temporal Graph Convolutional Network ( http://arxiv.org/abs/2103.03729v1 )

ライセンス: Link先を確認
Yonghong Luo, Chao Lu, Lipeng Zhu, Jie Song(参考訳) 短期電圧安定性(SVS)のポストフォールト力学は時空間特性を示すが,既存のオンラインSVS評価のためのデータ駆動方式では,これらの特性をモデルに効果的に組み込むことができない。 本稿では,このジレンマに先行して,空間時間グラフ畳み込みネットワーク(STGCN)を開発し,この問題に対処する。 提案したSTGCNはグラフ畳み込みを利用して,ネットワークトポロジ情報を学習モデルに統合し,空間情報を活用する。 そして、時間情報を利用するために1次元の畳み込みを採用する。 このようにして、完全な畳み込み構造を持つSVSの時空間特性をモデル化する。 その後、SVS評価のためのSTGCNにおいて、ノード層とシステム層を戦略的に設計する。 提案したSTGCNはSVSの特性をデータ駆動型分類モデルに組み込む。 それは従来の方法より高い評価の正確さ、よりよい堅牢性および適応性に起因できます。 さらに、システムレイヤのパラメータは、個々のバスがSVSに与える影響に関する貴重な情報を提供することができる。 南中国における実世界の広東電力網の試験結果から,提案ネットワークの有効性が検証された。

Post-fault dynamics of short-term voltage stability (SVS) present spatial-temporal characteristics, but the existing data-driven methods for online SVS assessment fail to incorporate such characteristics into their models effectively. Confronted with this dilemma, this paper develops a novel spatial-temporal graph convolutional network (STGCN) to address this problem. The proposed STGCN utilizes graph convolution to integrate network topology information into the learning model to exploit spatial information. Then, it adopts one-dimensional convolution to exploit temporal information. In this way, it models the spatial-temporal characteristics of SVS with complete convolutional structures. After that, a node layer and a system layer are strategically designed in the STGCN for SVS assessment. The proposed STGCN incorporates the characteristics of SVS into the data-driven classification model. It can result in higher assessment accuracy, better robustness and adaptability than conventional methods. Besides, parameters in the system layer can provide valuable information about the influences of individual buses on SVS. Test results on the real-world Guangdong Power Grid in South China verify the effectiveness of the proposed network.
翻訳日:2021-03-08 14:34:56 公開日:2021-03-05
# 周波数・時間特徴を用いた脳波認知のための視覚刺激認知タスクに関するパイロット研究

A Pilot Study on Visually-Stimulated Cognitive Tasks for EEG-Based Dementia Recognition Using Frequency and Time Features ( http://arxiv.org/abs/2103.03854v1 )

ライセンス: Link先を確認
Supavit Kongwudhikunakorn, Suktipol Kiatthaveephong, Kamonwan Thanontip, Pitshaporn Leelaarporn, Maytus Piriyajitakonkij, Thananya Charoenpattarawut, Phairot Autthasan, Rattanaphon Chaisaen, Pathitta Dujada, Thapanun Sudhawiyangkul, Cuntai Guan, Vorapun Senanarong and Theerawit Wilaiprasitporn(参考訳) 認知症は認知機能低下の主な原因の1つです。 認知症患者の大半は治癒できないため、症状の発症前にそれらを診断できることは、認知障害の急速な進行を防ぐことができます。 本研究の目的は,健常者(NC),軽度認知障害者(MCI),認知症(DEM)の3群における脳波信号の差について検討することである。 脳波信号からアルツハイマー病(ad)の診断に焦点を当てた以前の研究とは異なり、認知症の検出を研究し、分類モデルを他のタイプの認知症に一般化する。 本研究では,4つの視覚刺激課題(固定,精神イメージ,シンボル認識,視覚誘発関連電位)からの脳波信号を用いて,脳波信号を用いた認知症診断を行うための機械学習に基づく認知症診断のパイロット研究を行った。 脳波信号から周波数領域と時間領域の両方の特徴を抽出し,各領域にサポートベクターマシン(svm)を適用し,それらの特徴を用いて患者を分類した。 さらに,周波数領域から特徴を抽出し,認知症を検出するためにフィルタバンク共通空間パターン(FBCSP)アルゴリズムの有効性を検討した。 モデルの評価は、作業メモリをテストするタスクが時間および周波数領域分析の両方で脳波信号を使用して認知症を検出するのに最も適していることを示しています。 しかし、両領域の最良の結果は、すべての4つの認知タスクの特徴を組み合わせることで得られる。

Dementia is one of the main causes of cognitive decline. Since the majority of dementia patients cannot be cured, being able to diagnose them before the onset of the symptoms can prevent the rapid progression of the cognitive impairment. This study aims to investigate the difference in the Electroencephalograph (EEG) signals of three groups of subjects: Normal Control (NC), Mild Cognitive Impairment (MCI), and Dementia (DEM). Unlike previous works that focus on the diagnosis of Alzheimer's disease (AD) from EEG signals, we study the detection of dementia to generalize the classification models to other types of dementia. We have developed a pilot study on machine learning-based dementia diagnosis using EEG signals from four visual stimulation tasks (Fixation, Mental Imagery, Symbol Recognition, and Visually Evoked Related Potential) to identify the most suitable task and method to detect dementia using EEG signals. We extracted both frequency and time domain features from the EEG signals and applied a Support Vector Machine (SVM) for each domain to classify the patients using those extracted features. Additionally, we study the feasibility of the Filter Bank Common Spatial Pattern (FBCSP) algorithm to extract features from the frequency domain to detect dementia. The evaluation of the model shows that the tasks that test the working memory are the most appropriate to detect dementia using EEG signals in both time and frequency domain analysis. However, the best results in both domains are obtained by combining features of all four cognitive tasks.
翻訳日:2021-03-08 14:34:39 公開日:2021-03-05
# osデコーダの複雑性・信頼性トレードオフへの学習に基づくアプローチ

A Learning-Based Approach to Address Complexity-Reliability Tradeoff in OS Decoders ( http://arxiv.org/abs/2103.03860v1 )

ライセンス: Link先を確認
Baptiste Cavarec, Hasan Basri Celebi, Mats Bengtsson, Mikael Skoglund(参考訳) 本稿では,大規模線形ブロック符号の復号化における複雑性と信頼性のトレードオフについて検討する。 本稿では,人工ニューラルネットワークを用いて順序統計に基づくデコーダの必要な順序を予測することで,平均的複雑性やデコーダの遅延を低減できることを示した。 モンテカルロシミュレーションによるアプローチの数値検証を行った。

In this paper, we study the tradeoffs between complexity and reliability for decoding large linear block codes. We show that using artificial neural networks to predict the required order of an ordered statistics based decoder helps in reducing the average complexity and hence the latency of the decoder. We numerically validate the approach through Monte Carlo simulations.
翻訳日:2021-03-08 14:34:11 公開日:2021-03-05
# (参考訳) 胸部X線分類のための自己制御深部畳み込みニューラルネットワーク

Self-supervised deep convolutional neural network for chest X-ray classification ( http://arxiv.org/abs/2103.03055v2 )

ライセンス: CC BY 4.0
Matej Gazda, Jakub Gazda, Jan Plavka, Peter Drotar(参考訳) 胸部X線撮影は、診断決定を行うための重要な情報を伝える比較的安価で広く利用可能な医療手順です。 胸部x線は肺炎や最近のcovid-19などの呼吸器疾患の診断によく用いられる。 本論文では,ラベルのない胸部X線データセット上に予め訓練された自己監視型ディープニューラルネットワークを提案する。 学習された表現は、呼吸器疾患の分類である下流タスクに転送される。 4つの公開データセットで得られた結果は、私たちのアプローチが大量のラベル付きトレーニングデータを必要とせずに競争結果をもたらすことを示しています。

Chest radiography is a relatively cheap, widely available medical procedure that conveys key information for making diagnostic decisions. Chest X-rays are almost always used in the diagnosis of respiratory diseases such as pneumonia or the recent COVID-19. In this paper, we propose a self-supervised deep neural network that is pretrained on an unlabeled chest X-ray dataset. The learned representations are transferred to downstream task - the classification of respiratory diseases. The results obtained on four public datasets show that our approach yields competitive results without requiring large amounts of labeled training data.
翻訳日:2021-03-08 12:57:57 公開日:2021-03-05
# (参考訳) 多発性硬化症のMR画像の構造的因果モデル

A Structural Causal Model for MR Images of Multiple Sclerosis ( http://arxiv.org/abs/2103.03158v2 )

ライセンス: CC BY 4.0
Jacob C. Reinhold, Aaron Carass, Jerry L. Prince(参考訳) 精密医学は、「この患者は治療Aまたは治療Bに対してよりよく反応するだろうか? これらのタイプの質問は本質的に因果関係であり、因果推論のツール、例えば構造因果モデル(SCM)で答える必要がある。 本研究では,多発性硬化症(ms)患者の脳の人口統計情報,疾患共変量,磁気共鳴(mr)画像の相互作用をモデル化するscmを開発した。 SCMの推論は、人口動態や疾患の共変量を変更すると、脳のMR画像がどのように見えるかを示す反事実画像を生成する。 これらの画像は病気の進行をモデル化したり、共同設立者のための制御が必要な下流の画像処理タスクに使用できる。

Precision medicine involves answering counterfactual questions such as "Would this patient respond better to treatment A or treatment B?" These types of questions are causal in nature and require the tools of causal inference to be answered, e.g., with a structural causal model (SCM). In this work, we develop an SCM that models the interaction between demographic information, disease covariates, and magnetic resonance (MR) images of the brain for people with multiple sclerosis (MS). Inference in the SCM generates counterfactual images that show what an MR image of the brain would look like when demographic or disease covariates are changed. These images can be used for modeling disease progression or used for downstream image processing tasks where controlling for confounders is necessary.
翻訳日:2021-03-08 12:36:50 公開日:2021-03-05
# (参考訳) 時間的行動定位のためのマルチラベル行動依存のモデル化

Modeling Multi-Label Action Dependencies for Temporal Action Localization ( http://arxiv.org/abs/2103.03027v2 )

ライセンス: CC BY 4.0
Praveen Tirupattur, Kevin Duarte, Yogesh Rawat, Mubarak Shah(参考訳) 実世界のビデオには、アクションクラス間の固有の関係を持つ多くの複雑なアクションが含まれている。 本研究では,映像の時間的行動ローカライゼーションの課題に対して,これらの行動関係をモデル化するアテンションベースアーキテクチャを提案する。 アクションのビデオレベルの共起を利用する以前の作品とは対照的に、我々は同時に発生するアクションと異なるタイムステップで発生するアクションの関係を区別する(すなわち)。 互いに先行する、または従うもの) これらの異なる関係をアクション依存と定義します。 本稿では,これらのアクション依存性を,新しいアテンションベースマルチラベルアクション依存性(MLAD)層でモデル化することで,アクションローカライズ性能を向上させることを提案する。 MLADレイヤは、共起アクション依存関係をモデル化するための共起アクション依存関係ブランチと、時間的アクション依存関係の2つのブランチで構成されている。 我々は,マルチラベル分類に使用される既存のメトリクスは,アクション依存のモデル化の精度を明示的に測定しないので,アクションクラス間の共起と時間依存の両方を考慮した新しいメトリクスを提案する。 実験的な評価と広範囲な分析により,f-mAPと提案した指標を用いて,マルチラベル動作ローカライゼーションベンチマーク(MultiTHUMOSとCharades)の最先端手法よりも優れた性能を示す。

Real-world videos contain many complex actions with inherent relationships between action classes. In this work, we propose an attention-based architecture that models these action relationships for the task of temporal action localization in untrimmed videos. As opposed to previous works that leverage video-level co-occurrence of actions, we distinguish the relationships between actions that occur at the same time-step and actions that occur at different time-steps (i.e. those which precede or follow each other). We define these distinct relationships as action dependencies. We propose to improve action localization performance by modeling these action dependencies in a novel attention-based Multi-Label Action Dependency (MLAD)layer. The MLAD layer consists of two branches: a Co-occurrence Dependency Branch and a Temporal Dependency Branch to model co-occurrence action dependencies and temporal action dependencies, respectively. We observe that existing metrics used for multi-label classification do not explicitly measure how well action dependencies are modeled, therefore, we propose novel metrics that consider both co-occurrence and temporal dependencies between action classes. Through empirical evaluation and extensive analysis, we show improved performance over state-of-the-art methods on multi-label action localization benchmarks(MultiTHUMOS and Charades) in terms of f-mAP and our proposed metric.
翻訳日:2021-03-08 12:18:44 公開日:2021-03-05
# (参考訳) フェデレーション学習を用いた深層学習に基づく磁気共鳴画像再構成のための多施設連携

Multi-institutional Collaborations for Improving Deep Learning-based Magnetic Resonance Image Reconstruction Using Federated Learning ( http://arxiv.org/abs/2103.02148v2 )

ライセンス: CC BY 4.0
Pengfei Guo, Puyang Wang, Jinyuan Zhou, Shanshan Jiang, Vishal M. Patel(参考訳) アンダーサンプルデータからのMR画像の高速かつ正確な再構成は,多くの臨床応用において重要である。 近年、深層学習法はMR画像の再構築に優れた性能を発揮することが示されています。 しかし,これらの手法では,高コストの取得や医療データプライバシ規制のため,収集や共有が困難である大量のデータを必要とする。 この課題を克服するために,我々は,異なる施設で利用可能なmrデータを活用しながら患者のプライバシーを保ちながら,連合学習(fl)ベースのソリューションを提案する。 しかし、FL設定でトレーニングされたモデルの一般化性は、異なるセンサー、疾患タイプ、取得プロトコルなどを持つ複数の機関で収集されたデータから得られる、ドメインシフトによって、いまだにサブ最適である。 そこで本研究では,mr画像再構成のためのクロスサイトモデリング手法を提案する。 MR画像再構成のためのFLに関する様々な知見を提供するため,広範囲な実験を行った。 提案手法は,mr画像再構成における患者のプライバシを損なうことなく多施設データを活用するための有望な方向性であることを示す。 私たちのコードはhttps://github.com/guopengf/FLMRCMで入手できます。

Fast and accurate reconstruction of magnetic resonance (MR) images from under-sampled data is important in many clinical applications. In recent years, deep learning-based methods have been shown to produce superior performance on MR image reconstruction. However, these methods require large amounts of data which is difficult to collect and share due to the high cost of acquisition and medical data privacy regulations. In order to overcome this challenge, we propose a federated learning (FL) based solution in which we take advantage of the MR data available at different institutions while preserving patients' privacy. However, the generalizability of models trained with the FL setting can still be suboptimal due to domain shift, which results from the data collected at multiple institutions with different sensors, disease types, and acquisition protocols, etc. With the motivation of circumventing this challenge, we propose a cross-site modeling for MR image reconstruction in which the learned intermediate latent features among different source sites are aligned with the distribution of the latent features at the target site. Extensive experiments are conducted to provide various insights about FL for MR image reconstruction. Experimental results demonstrate that the proposed framework is a promising direction to utilize multi-institutional data without compromising patients' privacy for achieving improved MR image reconstruction. Our code will be available at https://github.com/guopengf/FLMRCM.
翻訳日:2021-03-08 11:56:11 公開日:2021-03-05
# NaturalConv: マルチターントピック駆動会話に向けた中国の対話データセット

NaturalConv: A Chinese Dialogue Dataset Towards Multi-turn Topic-driven Conversation ( http://arxiv.org/abs/2103.02548v2 )

ライセンス: Link先を確認
Xiaoyang Wang, Chen Li, Jianqiao Zhao, Dong Yu(参考訳) 本稿では,トピックの要素が言及され,トピックシフトがスムーズである限り,参加者が望むものを何でもチャットできる,中国のマルチターンのトピック駆動型会話データセットであるnaturalconvを提案する。 コーパスには6つのドメインから19.9kの会話があり、平均ターン数20.1の400kの発話がある。 これらの会話には、関連するトピックに関する詳細な議論、または複数のトピック間の広く自然な移行が含まれます。 どちらの方法も人間の会話には普通だと信じています。 このコーパスの研究を容易にするために、いくつかのベンチマークモデルの結果を提供する。 比較の結果,本データセットでは,背景知識やトピックを導入することで,現在のモデルでは大幅な改善が得られていないことがわかった。 したがって,提案するデータセットは,マルチターン会話システムの妥当性と自然性を評価するためのさらなる研究に適したベンチマークであるべきである。 データセットはhttps://ai.tencent.com/ailab/nlp/dialogue/#datasetsで入手できます。

In this paper, we propose a Chinese multi-turn topic-driven conversation dataset, NaturalConv, which allows the participants to chat anything they want as long as any element from the topic is mentioned and the topic shift is smooth. Our corpus contains 19.9K conversations from six domains, and 400K utterances with an average turn number of 20.1. These conversations contain in-depth discussions on related topics or widely natural transition between multiple topics. We believe either way is normal for human conversation. To facilitate the research on this corpus, we provide results of several benchmark models. Comparative results show that for this dataset, our current models are not able to provide significant improvement by introducing background knowledge/topic. Therefore, the proposed dataset should be a good benchmark for further research to evaluate the validity and naturalness of multi-turn conversation systems. Our dataset is available at https://ai.tencent.com/ailab/nlp/dialogue/#datasets.
翻訳日:2021-03-08 11:35:45 公開日:2021-03-05
# マルチアテンショナルディープフェイク検出

Multi-attentional Deepfake Detection ( http://arxiv.org/abs/2103.02406v2 )

ライセンス: Link先を確認
Hanqing Zhao, Wenbo Zhou, Dongdong Chen, Tianyi Wei, Weiming Zhang, Nenghai Yu(参考訳) ディープフェイクによる顔の偽造はインターネットに広まり、深刻な社会的懸念を引き起こしている。 近年,このような偽コンテンツの検出方法がホットな研究テーマとなり,多くのディープフェイク検出手法が提案されている。 その多くは、ディープフェイク検出をバニラバイナリ分類問題としてモデル化している。すなわち、まずバックボーンネットワークを使用してグローバル特徴を抽出し、次にバイナリ分類器(real/fake)に送信する。 しかし、このタスクにおける実画像と偽画像の違いは、しばしば微妙で局所的であるため、このバニラソリューションは最適ではないと主張する。 本論文では, ディープフェイク検出を細かい分類問題として定式化し, 新しいマルチアテンショナルディープフェイク検出ネットワークを提案する。 具体的には,1)ネットワークを異なる局所的部分へ配置するための複数の空間的注意ヘッド,2)浅い特徴の微妙なアーティファクトをズームするテクスチャ的特徴拡張ブロック,3)低レベルなテクスチャ特徴と高レベルなセマンティクス特徴をアグリゲートする,の3つの構成要素からなる。 さらに,このネットワークの学習の難しさに対処するために,新たな地域独立の喪失と注意喚起型データ強化戦略を導入する。 異なるデータセットに関する広範囲な実験を通じて,バニラバイナリ分類器よりも優れた手法を示し,最先端の性能を実現する。

Face forgery by deepfake is widely spread over the internet and has raised severe societal concerns. Recently, how to detect such forgery contents has become a hot research topic and many deepfake detection methods have been proposed. Most of them model deepfake detection as a vanilla binary classification problem, i.e, first use a backbone network to extract a global feature and then feed it into a binary classifier (real/fake). But since the difference between the real and fake images in this task is often subtle and local, we argue this vanilla solution is not optimal. In this paper, we instead formulate deepfake detection as a fine-grained classification problem and propose a new multi-attentional deepfake detection network. Specifically, it consists of three key components: 1) multiple spatial attention heads to make the network attend to different local parts; 2) textural feature enhancement block to zoom in the subtle artifacts in shallow features; 3) aggregate the low-level textural feature and high-level semantic features guided by the attention maps. Moreover, to address the learning difficulty of this network, we further introduce a new regional independence loss and an attention guided data augmentation strategy. Through extensive experiments on different datasets, we demonstrate the superiority of our method over the vanilla binary classifier counterparts, and achieve state-of-the-art performance.
翻訳日:2021-03-08 11:35:30 公開日:2021-03-05
# ポイントクラウド登録に関する総合調査

A comprehensive survey on point cloud registration ( http://arxiv.org/abs/2103.02690v2 )

ライセンス: Link先を確認
Xiaoshui Huang, Guofeng Mei, Jian Zhang, Rana Abbas(参考訳) 登録は2点クラウド間の変換推定問題であり、多くのコンピュータビジョンアプリケーションにおいてユニークかつ重要な役割を担っている。 最適化に基づく手法と深層学習手法の開発により、登録の堅牢性と効率が向上した。 近年,最適化法と深層学習法の組み合わせにより,性能が向上している。 しかし,最適化手法と深層学習手法の関連性はまだ不明である。 さらに,最近の3次元センサと3次元再構成技術の発展により,新たな研究方向が出現し,点間雲の整列が図られた。 本調査では,同ソースとクロスソースの両方の登録方法を含む総合的な調査を行い,最適化手法と深層学習手法の関連性を要約し,さらなる研究知見を提供する。 この調査はまた、クロスソースの課題を解決するための最先端の登録アルゴリズムを評価するための新しいベンチマークを構築している。 さらに、この調査はベンチマークデータセットを要約し、さまざまなドメインにまたがるポイントクラウド登録アプリケーションについても論じている。 最後に,この急成長分野における研究の方向性について考察する。

Registration is a transformation estimation problem between two point clouds, which has a unique and critical role in numerous computer vision applications. The developments of optimization-based methods and deep learning methods have improved registration robustness and efficiency. Recently, the combinations of optimization-based and deep learning methods have further improved performance. However, the connections between optimization-based and deep learning methods are still unclear. Moreover, with the recent development of 3D sensors and 3D reconstruction techniques, a new research direction emerges to align cross-source point clouds. This survey conducts a comprehensive survey, including both same-source and cross-source registration methods, and summarize the connections between optimization-based and deep learning methods, to provide further research insight. This survey also builds a new benchmark to evaluate the state-of-the-art registration algorithms in solving cross-source challenges. Besides, this survey summarizes the benchmark data sets and discusses point cloud registration applications across various domains. Finally, this survey proposes potential research directions in this rapidly growing field.
翻訳日:2021-03-08 11:35:04 公開日:2021-03-05
# 決定木(prindt)における予測と解釈を組み合わせた言語例

Combining Prediction and Interpretation in Decision Trees (PrInDT) -- a Linguistic Example ( http://arxiv.org/abs/2103.02336v2 )

ライセンス: Link先を確認
Claus Weihs and Sarah Buschfeld(参考訳) 本稿では,条件付き推論木とアンサンブルが言語変動のモデル化に適していることを示す。 しかし、初期の言語応用に対して、予測と解釈を組み合わせると、それらの適合性が強く向上すると主張する。 そこで本論文では,PrInDT (Prediction and Interpretation with Decision Trees) の統計的手法について紹介し,議論する。

In this paper, we show that conditional inference trees and ensembles are suitable methods for modeling linguistic variation. As against earlier linguistic applications, however, we claim that their suitability is strongly increased if we combine prediction and interpretation. To that end, we have developed a statistical method, PrInDT (Prediction and Interpretation with Decision Trees), which we introduce and discuss in the present paper.
翻訳日:2021-03-08 11:34:49 公開日:2021-03-05
# 対比ロスとグラデーションマスクによるマルチステージ生ビデオのノイズ除去

Multi-Stage Raw Video Denoising with Adversarial Loss and Gradient Mask ( http://arxiv.org/abs/2103.02861v2 )

ライセンス: Link先を確認
Avinash Paliwal, Libing Zeng and Nima Khademi Kalantari(参考訳) 本論文では,低照度下で撮影された生の映像を消音する学習手法を提案する。 まず、畳み込みニューラルネットワーク(cnn)を用いて、隣接するフレームを現在のフレームに明示的に調整することを提案する。 次に、登録されたフレームを別のCNNを使って融合し、最終識別フレームを得る。 時間的に離れたフレームを直接アライメントしないように、複数の段階でアライメントと融合の2つのプロセスを実行します。 具体的には、各段階で3つの連続入力フレームで消音処理を行い、中間消音フレームを生成し、次のステージに入力として渡します。 複数の段階で処理を行うことで、時間的に離れたフレームを直接調整することなく、隣接するフレームの情報を有効に活用することができる。 我々は,条件付き判別器を用いた対向損失を用いた多段階システムの訓練を行う。 具体的には,スムーズな領域に高周波アーティファクトを導入するのを防ぐために,ソフトグラデーションマスクに識別器を装着する。 本システムでは,時間的にコヒーレントな映像をリアルに生成できることを示す。 さらに,本手法が最先端の映像や映像を数値的および視覚的に表現する手法よりも優れていることを示す実験を行った。

In this paper, we propose a learning-based approach for denoising raw videos captured under low lighting conditions. We propose to do this by first explicitly aligning the neighboring frames to the current frame using a convolutional neural network (CNN). We then fuse the registered frames using another CNN to obtain the final denoised frame. To avoid directly aligning the temporally distant frames, we perform the two processes of alignment and fusion in multiple stages. Specifically, at each stage, we perform the denoising process on three consecutive input frames to generate the intermediate denoised frames which are then passed as the input to the next stage. By performing the process in multiple stages, we can effectively utilize the information of neighboring frames without directly aligning the temporally distant frames. We train our multi-stage system using an adversarial loss with a conditional discriminator. Specifically, we condition the discriminator on a soft gradient mask to prevent introducing high-frequency artifacts in smooth regions. We show that our system is able to produce temporally coherent videos with realistic details. Furthermore, we demonstrate through extensive experiments that our approach outperforms state-of-the-art image and video denoising methods both numerically and visually.
翻訳日:2021-03-08 11:34:40 公開日:2021-03-05
# 大規模ビデオ圧縮センシングのためのメモリ効率ネットワーク

Memory-Efficient Network for Large-scale Video Compressive Sensing ( http://arxiv.org/abs/2103.03089v2 )

ライセンス: Link先を確認
Ziheng Cheng, Bo Chen, Guanliang Liu, Hao Zhang, Ruiying Lu, Zhengjue Wang, Xin Yuan(参考訳) video snapshot compressive imaging (sci) は、2d検出器を使って1つのショットで一連のビデオフレームをキャプチャする。 基本原理は、1つの露光時間の間に異なるマスクを高速シーンに課して圧縮測定を行うというものである。 マスクの知識により、このスナップショット測定から所望の高速映像フレームを再構成するために最適化アルゴリズムやディープラーニング手法が用いられる。 残念ながら、これらの手法は良好な結果が得られるが、最適化アルゴリズムの長い実行時間やディープネットワークの巨大なトレーニングメモリ占有は、実用上のアプリケーションではそれらを妨げている。 本稿では,マルチグループ可逆3次元畳み込みニューラルネットワークに基づく大規模映像SCIのためのメモリ効率の良いネットワークを開発する。 グレースケールSCIシステムの基本モデルに加えて、我々はバイエル測定からカラービデオを直接回復するために、復号化とSCI再構築を組み合わせるためにさらに一歩進んでいます。 SCIカメラが捉えたシミュレーションと実データの両方の大規模な結果から,提案したモデルは,メモリの少ない従来モデルよりも優れており,大規模な問題に利用できることを示す。 コードはhttps://github.com/BoChenGroup/RevSCI-netにある。

Video snapshot compressive imaging (SCI) captures a sequence of video frames in a single shot using a 2D detector. The underlying principle is that during one exposure time, different masks are imposed on the high-speed scene to form a compressed measurement. With the knowledge of masks, optimization algorithms or deep learning methods are employed to reconstruct the desired high-speed video frames from this snapshot measurement. Unfortunately, though these methods can achieve decent results, the long running time of optimization algorithms or huge training memory occupation of deep networks still preclude them in practical applications. In this paper, we develop a memory-efficient network for large-scale video SCI based on multi-group reversible 3D convolutional neural networks. In addition to the basic model for the grayscale SCI system, we take one step further to combine demosaicing and SCI reconstruction to directly recover color video from Bayer measurements. Extensive results on both simulation and real data captured by SCI cameras demonstrate that our proposed model outperforms previous state-of-the-art with less memory and thus can be used in large-scale problems. The code is at https://github.com/BoChenGroup/RevSCI-net.
翻訳日:2021-03-08 11:34:21 公開日:2021-03-05