このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201209となっている論文です。

PDF登録状況(公開日: 20201209)

TitleAuthorsAbstract論文公表日・翻訳日
# クリフォード階層の非ワイル化

Un-Weyl-ing the Clifford Hierarchy ( http://arxiv.org/abs/2006.14040v4 )

ライセンス: Link先を確認
Tefjol Pllaha, Narayanan Rengaswamy, Olav Tirkkonen, Robert Calderbank(参考訳) Gottesman and Chuang (1999) が導入した量子計算のテレポーテーションモデルはクリフォード階層の発展を動機づけた。 量子コンピューティングの本質的な価値にもかかわらず、このモデルと密接に関連するマジックステート蒸留の広範な使用は、階層の理解の重要性を強調している。 現在、この階層の構造については、対角的なユニタリ(Cui et al., 2017; Rengaswamy et al. 2019)を除いて、限定的な理解がされている。 階層構造の第2および第3の階層構造、第1の階層はユビキタスなパウリ群であり、ワイル(すなわち、パウリ)によるこれらのレベルでのユニタリの拡張を通して検討する。 特に、我々はパウリ群における標準クリフォード演算のサポートを特徴付ける。 第三級ユニタリによるパウリの共役は、トレースレスなエルミート・クリフォードを生成するので、パウリの支援も特徴付ける。 半クリフォードユニタリはテレポーテーションモデルにおいてアンシラセーブを持つことが知られており、シンプレクティック変換によるパウリサポートについて検討する。 最後に、クリフォードの乗算により、各3階ユニタリ通勤が少なくとも1つのパウリ行列を持つことを示す。 これは帰納的に、クリフォードの乗法により、全ての第三級ユニタリがパウリ群の極大可換部分群上で支えられることを示すために用いられる。 さらに、後者は、Beigi and Shor (2010) によって証明された一般化された半クリフォード予想を意味することが容易にわかる。 量子誤り訂正とフラグガジェットの設計における潜在的な応用について論じる。

The teleportation model of quantum computation introduced by Gottesman and Chuang (1999) motivated the development of the Clifford hierarchy. Despite its intrinsic value for quantum computing, the widespread use of magic state distillation, which is closely related to this model, emphasizes the importance of comprehending the hierarchy. There is currently a limited understanding of the structure of this hierarchy, apart from the case of diagonal unitaries (Cui et al., 2017; Rengaswamy et al. 2019). We explore the structure of the second and third levels of the hierarchy, the first level being the ubiquitous Pauli group, via the Weyl (i.e., Pauli) expansion of unitaries at these levels. In particular, we characterize the support of the standard Clifford operations on the Pauli group. Since conjugation of a Pauli by a third level unitary produces traceless Hermitian Cliffords, we characterize their Pauli support as well. Semi-Clifford unitaries are known to have ancilla savings in the teleportation model, and we explore their Pauli support via symplectic transvections. Finally, we show that, up to multiplication by a Clifford, every third level unitary commutes with at least one Pauli matrix. This can be used inductively to show that, up to a multiplication by a Clifford, every third level unitary is supported on a maximal commutative subgroup of the Pauli group. Additionally, it can be easily seen that the latter implies the generalized semi-Clifford conjecture, proven by Beigi and Shor (2010). We discuss potential applications in quantum error correction and the design of flag gadgets.
翻訳日:2023-05-12 22:18:53 公開日:2020-12-09
# テンソルネットワークを用いたフラストレーションイジングモデルの解法

Solving frustrated Ising models using tensor networks ( http://arxiv.org/abs/2006.14341v4 )

ライセンス: Link先を確認
Bram Vanhecke, Jeanne Colbois, Laurens Vanderstraeten, Frank Verstraete, Fr\'ed\'eric Mila(参考訳) スピンアイスとカゴメイジングモデルの残留エントロピーを計算するために最近テンソルネットワークが成功したことに刺激を受け、イジングモデルの無限テンソルネットワーク %、すなわち無限系の標準アルゴリズムを用いて収縮できるテンソルネットワークの観点から、フラストレーションイジングモデルを研究するための一般的な枠組みを開発した。 これは、重なり合ったクラスタの構成のローカルルールとして問題を再構成することで、フラストレーションを和らげる、すなわち各クラスタで独立してエネルギーを最小化できる、という方法によって達成される。 共有結合の重みを含むクラスターの選択を最適化することがテンソルネットワークの契約可能性に不可欠であることを示し,それらの実現のための基本的なルールと線形プログラムを導出する。 本手法は,次のアネレスト近傍相互作用を伴うカゴメ格子上のフラストレーションイジングスピン系の残留エントロピーを計算し,モンテカルロ法を速度と精度で圧倒的に上回る性能を示す。 有限温度への拡張について概説する。

Motivated by the recent success of tensor networks to calculate the residual entropy of spin ice and kagome Ising models, we develop a general framework to study frustrated Ising models in terms of infinite tensor networks %, i.e. tensor networks that can be contracted using standard algorithms for infinite systems. This is achieved by reformulating the problem as local rules for configurations on overlapping clusters chosen in such a way that they relieve the frustration, i.e. that the energy can be minimized independently on each cluster. We show that optimizing the choice of clusters, including the weight on shared bonds, is crucial for the contractibility of the tensor networks, and we derive some basic rules and a linear program to implement them. We illustrate the power of the method by computing the residual entropy of a frustrated Ising spin system on the kagome lattice with next-next-nearest neighbour interactions, vastly outperforming Monte Carlo methods in speed and accuracy. The extension to finite-temperature is briefly discussed.
翻訳日:2023-05-12 20:05:15 公開日:2020-12-09
# 古典ギブス分布からの量子固有状態

Quantum eigenstates from classical Gibbs distributions ( http://arxiv.org/abs/2007.07264v3 )

ライセンス: Link先を確認
Pieter W. Claeys and Anatoli Polkovnikov(参考訳) 位相空間の確率分布と可観測性に逆ウィグナー・ワイル変換を適用することにより、波動関数(状態ベクトル)と関連する非可換エルミート作用素の言語が古典力学から自然に現れるかについて議論する。 この言語では、schr\"odinger方程式はリウヴィル方程式から従い、$\hbar$が自由パラメータとなる。 古典的な定常分布は、離散的な(量子化された)エネルギーを持つ定常状態の和として表せる。 興味深いことに、現在では古典力学であり、ウィグナーの準確率分布における負の確率に双対して、明らかな負の確率が固有状態を占めることができる。 これらの負の確率は古典分布において十分な不確かさを許すと消失する。 この対応は、古典的固有状態が逆温度で制御されるサドル点近似においてシュリンガー方程式に還元される積分固有値方程式を満たす正準ギブズアンサンブルに対して特に顕著であることを示す。 この対応は、トンネル、バンド構造、ベリー相、ランダウ準位、準統計量、カオスポテンシャルの量子固有状態といったいくつかのパラダイム的例を古典ギブスアンサンブルから驚くべき精度で再現できることを示し、量子力学に言及せず、ユニティの順にすべてのパラメータ($\hbar$を含む)を持つ。

We discuss how the language of wave functions (state vectors) and associated non-commuting Hermitian operators naturally emerges from classical mechanics by applying the inverse Wigner-Weyl transform to the phase space probability distribution and observables. In this language, the Schr\"odinger equation follows from the Liouville equation, with $\hbar$ now a free parameter. Classical stationary distributions can be represented as sums over stationary states with discrete (quantized) energies, where these states directly correspond to quantum eigenstates. Interestingly, it is now classical mechanics which allows for apparent negative probabilities to occupy eigenstates, dual to the negative probabilities in Wigner's quasiprobability distribution. These negative probabilities are shown to disappear when allowing sufficient uncertainty in the classical distributions. We show that this correspondence is particularly pronounced for canonical Gibbs ensembles, where classical eigenstates satisfy an integral eigenvalue equation that reduces to the Schr\"odinger equation in a saddle-point approximation controlled by the inverse temperature. We illustrate this correspondence by showing that some paradigmatic examples such as tunneling, band structures, Berry phases, Landau levels, level statistics and quantum eigenstates in chaotic potentials can be reproduced to a surprising precision from a classical Gibbs ensemble, without any reference to quantum mechanics and with all parameters (including $\hbar$) on the order of unity.
翻訳日:2023-05-10 02:11:43 公開日:2020-12-09
# 順序探索アルゴリズムの単一実行における整数の完全因数化について

On completely factoring any integer efficiently in a single run of an order finding algorithm ( http://arxiv.org/abs/2007.10044v2 )

ライセンス: Link先を確認
Martin Eker{\aa}(参考訳) 我々は、$\mathbb Z_N^*$ からランダムに一意に選択された1つの要素の順序を考えると、非常に高い確率で、任意の整数 $N$ に対して多項式時間における$N$ の完全分解を効率的に見つけることができることを示す。 これは、ショアの因数分解アルゴリズムの量子部分の単一実行が通常十分であることを意味する。 N$のすべての素因子は、古典的な後処理ステップで無視可能な計算コストで回収できる。 このステップに必要な古典的なアルゴリズムは、基本的にmillerによるものである。

We show that given the order of a single element selected uniformly at random from $\mathbb Z_N^*$, we can with very high probability, and for any integer $N$, efficiently find the complete factorization of $N$ in polynomial time. This implies that a single run of the quantum part of Shor's factoring algorithm is usually sufficient. All prime factors of $N$ can then be recovered with negligible computational cost in a classical post-processing step. The classical algorithm required for this step is essentially due to Miller.
翻訳日:2023-05-08 23:16:39 公開日:2020-12-09
# フェルミオン型量子セルオートマトンと一般化行列積ユニタリ

Fermionic quantum cellular automata and generalized matrix product unitaries ( http://arxiv.org/abs/2007.11905v2 )

ライセンス: Link先を確認
Lorenzo Piroli, Alex Turzillo, Sujeet K. Shukla, J. Ignacio Cirac(参考訳) フェルミオン一次元 (1d) 鎖に対する行列積ユニタリ作用素 (mpus) の研究を行った。 1Dquditシステムと対照的に、我々はそれを示している。 (i)フェルミオン型MPUは必ずしも厳格な因果錐を特徴としない。 (ii)全てのフェルミオン量子セルオートマタ(QCA)をフェルミオンMPUとして表すことはできない。 次に、補助空間上で作用する追加演算子を許すことにより得られる、後者の自然な一般化を導入する。 局所保存系である一般化MPUのファミリーを特徴付けるとともに、不活性なフェルミオン性自由度を付加する限り、このファミリーの代表者はフェルミオン性QCAとバイバーサであることを示す。 最後に、一般化されたMPUに対する指数定理を証明し、最近導出されたフェルミオンQCAの一次元の分類を復元する。 また,本分析の技術的ツールとして,フェルミオン行列生成物状態の次数付き正準形式を導入し,類似性変換の独特性を証明した。

We study matrix product unitary operators (MPUs) for fermionic one-dimensional (1D) chains. In stark contrast with the case of 1D qudit systems, we show that (i) fermionic MPUs do not necessarily feature a strict causal cone and (ii) not all fermionic Quantum Cellular Automata (QCA) can be represented as fermionic MPUs. We then introduce a natural generalization of the latter, obtained by allowing for an additional operator acting on their auxiliary space. We characterize a family of such generalized MPUs that are locality-preserving, and show that, up to appending inert ancillary fermionic degrees of freedom, any representative of this family is a fermionic QCA and viceversa. Finally, we prove an index theorem for generalized MPUs, recovering the recently derived classification of fermionic QCA in one dimension. As a technical tool for our analysis, we also introduce a graded canonical form for fermionic matrix product states, proving its uniqueness up to similarity transformations.
翻訳日:2023-05-08 11:10:15 公開日:2020-12-09
# 強い光-物質相互作用による電子-フォノンデカップリング

Electron-phonon decoupling due to strong light-matter interactions ( http://arxiv.org/abs/2007.14719v2 )

ライセンス: Link先を確認
Emil V. Denning, Matias Bundgaard-Nielsen and Jesper Mork(参考訳) 固体フォトニクス系におけるフォノン相互作用は、固有の量子デコヒーレンスを引き起こし、しばしば新興量子技術における制限因子を示す。 近年のナノフォトニクスの発展により、非常に強い光-物質結合速度を持つエキシトンキャビティ構造を作製することができる。 このような構造では、支配的なフォノン過程の分離によってデコヒーレンスが完全に抑制される新しいレジームが出現する。 数値的に厳密なテンソルネットワークアプローチを用いて、この非摂動的非マルコフ力学レジームで計算を行う。 ここでは,光子間相互作用が十分に強い場合に複数のフォノン側バンドを生じる高Q系において,近距離光子区別不能に到達するための戦略を明らかにし,エキシトンキャビティ偏光子の興味深いフォノン装束を発見する。

Phonon interactions in solid-state photonics systems cause intrinsic quantum decoherence and often present the limiting factor in emerging quantum technology. Due to recent developments in nanophotonics, exciton-cavity structures with very strong light-matter coupling rates can be fabricated. We show that in such structures, a new regime emerges, where the decoherence is completely suppressed due to decoupling of the dominant phonon process. Using a numerically exact tensor network approach, we perform calculations in this non-perturbative, non-Markovian dynamical regime. Here, we identify a strategy for reaching near-unity photon indistinguishability and also discover an interesting phonon-dressing of the exciton-cavity polaritons in the high-Q regime, leading to multiple phonon sidebands when the light-matter interaction is sufficiently strong.
翻訳日:2023-05-07 20:42:06 公開日:2020-12-09
# アクティブおよびパッシブ$\mathcal{PT}$-symmetric Floquet modulation Modelの接続

Connecting active and passive $\mathcal{PT}$-symmetric Floquet modulation models ( http://arxiv.org/abs/2008.01811v2 )

ライセンス: Link先を確認
Andrew K. Harter and Yogesh N. Joglekar(参考訳) 利得、損失または両方を持つオープンシステムは、非エルミート・ハミルトン派によって記述され、過去10年間研究フロンティアであった。 特に、パリティ時間 ("\mathcal{PT}$) 対称性を持つハミルトニアンは、非ハーミティシティの強みが増加するにつれて、複素共役対に変換される完全に実固有スペクトルを持つ非破壊対称性の動的安定な状態を持つ。 $\mathcal{PT}$-symmetric system を周期的な (フロケット) 駆動に従属させることで、動的安定性の体制は劇的に影響を受け、$\mathcal{PT}$-symmetric breaking transition に対する周波数依存しきい値となる。 我々は、静的ケースをスムーズに連結する時間依存な$\mathcal{pt}$-symmetric hamiltonianの単純なモデル、$\mathcal{pt}$-symmetric floquetケース、および中性-$\mathcal{pt}$-symmetricケースを提案する。 各場合の$\mathcal{pt}$ 相図を解析的および数値的に解析し、$\mathcal{pt}$-broken (\mathcal{pt}$-symmetric) 相のスライバーが名目上の低い(高い)非ヘルミティティ領域に深く広がることを示した。

Open systems with gain, loss, or both, described by non-Hermitian Hamiltonians, have been a research frontier for the past decade. In particular, such Hamiltonians which possess parity-time ($\mathcal{PT}$) symmetry feature dynamically stable regimes of unbroken symmetry with completely real eigenspectra that are rendered into complex conjugate pairs as the strength of the non-Hermiticity increases. By subjecting a $\mathcal{PT}$-symmetric system to a periodic (Floquet) driving, the regime of dynamical stability can be dramatically affected, leading to a frequency-dependent threshold for the $\mathcal{PT}$-symmetry breaking transition. We present a simple model of a time-dependent $\mathcal{PT}$-symmetric Hamiltonian which smoothly connects the static case, a $\mathcal{PT}$-symmetric Floquet case, and a neutral-$\mathcal{PT}$-symmetric case. We analytically and numerically analyze the $\mathcal{PT}$ phase diagrams in each case, and show that slivers of $\mathcal{PT}$-broken ($\mathcal{PT}$-symmetric) phase extend deep into the nominally low (high) non-Hermiticity region.
翻訳日:2023-05-07 04:14:11 公開日:2020-12-09
# 量子マジック矩形:特性評価と認定乱数展開への応用

Quantum Magic Rectangles: Characterization and Application to Certified Randomness Expansion ( http://arxiv.org/abs/2008.02370v3 )

ライセンス: Link先を確認
Sean A. Adamson and Petros Wallden(参考訳) メルミン・ペレス魔法の正方形ゲームの任意の矩形次元への一般化について検討する。 いくつかの一般的な性質を示した後、これらの長方形のゲームは量子戦略の最適勝利確率の観点から完全に特徴づけられる。 m \times n$ 次元の矩形ゲーム $m,n \geq 3$ には、確実性で勝つ量子戦略があるのに対し、次元 1 \times n$ の量子戦略は古典的戦略を上回らない。 次元が 2 の最終的な場合、n$ はよりリッチであり、古典的戦略よりも上と下の境界を与える。 最後に,全てのマジック矩形ゲームに対する耐雑音性およびレートを求めるために,量子証明ランダムネス展開に適用する。 これを実現するために,我々は前回の結果を用いて,デバイスが決定論的結果を与える識別入力を持つゲームの勝利確率を求め,c. a. miller と y. shi [siam j. comput. 46, 1304 (2017)] の分析に従う。

We study a generalization of the Mermin-Peres magic square game to arbitrary rectangular dimensions. After exhibiting some general properties, these rectangular games are fully characterized in terms of their optimal win probabilities for quantum strategies. We find that for $m \times n$ rectangular games of dimensions $m,n \geq 3$ there are quantum strategies that win with certainty, while for dimensions $1 \times n$ quantum strategies do not outperform classical strategies. The final case of dimensions $2 \times n$ is richer, and we give upper and lower bounds that both outperform the classical strategies. Finally, we apply our findings to quantum certified randomness expansion to find the noise tolerance and rates for all magic rectangle games. To do this, we use our previous results to obtain the winning probability of games with a distinguished input for which the devices give a deterministic outcome, and follow the analysis of C. A. Miller and Y. Shi [SIAM J. Comput. 46, 1304 (2017)].
翻訳日:2023-05-07 02:05:42 公開日:2020-12-09
# 量子コンピューティングの予測タイムライン

Forecasting timelines of quantum computing ( http://arxiv.org/abs/2009.05045v2 )

ライセンス: Link先を確認
Jaime Sevilla, C. Jess Riedel(参考訳) 量子コンピューティングの分野における進歩を予測する方法について考察する。 この目的のために,量子コンピュータシステムのデータセットを収集し,それらの物理量子ビットとゲート誤り率に基づいて,一般化された論理量子ビットの両指標を組み合わせたインデックスを定義する。 物理量子ビットとゲート誤り率の関係を調査し,その関係が正の相関関係にあることを(疑う余地はあるものの)仮に結論づけた。 また、測定値にログ線形回帰を適用して、時間とともにどれだけの進捗が期待できるかを暫定的に上限とする。 量子ビット数とゲート忠実度が指数関数的に進行するという仮定を含む、我々のモデルの(概ね楽観的な)仮定の中で、超伝導技術に基づく概念実証の耐障害計算は2026年以前には提示され得ず(5%信頼度)、rsa-2048を分解できる量子デバイスは2039年以前には存在し得ない(5%信頼度)と推定する。 これらのマイルストーンが実際にもっと早く到達する可能性はもちろんあるが、これまで見たよりも早く進歩する必要がある。

We consider how to forecast progress in the domain of quantum computing. For this purpose we collect a dataset of quantum computer systems to date, scored on their physical qubits and gate error rate, and we define an index combining both metrics, the generalized logical qubit. We study the relationship between physical qubits and gate error rate, and tentatively conclude that they are positively correlated (albeit with some room for doubt), indicating a frontier of development that trades-off between them. We also apply a log-linear regression on the metrics to provide a tentative upper bound on how much progress can be expected over time. Within the (generally optimistic) assumptions of our model, including the key assumption that exponential progress in qubit count and gate fidelity will continue, we estimate that that proof-of-concept fault-tolerant computation based on superconductor technology is unlikely (<5% confidence) to be exhibited before 2026, and that quantum devices capable of factoring RSA-2048 are unlikely (<5% confidence) to exist before 2039. It is of course possible that these milestones will in fact be reached earlier, but that this would require faster progress than has yet been seen.
翻訳日:2023-05-03 00:38:17 公開日:2020-12-09
# majorana ゼロモード qubit の量子テレポーテーションをエミュレートする

Emulating quantum teleportation of a Majorana zero mode qubit ( http://arxiv.org/abs/2009.07590v2 )

ライセンス: Link先を確認
He-Liang Huang, Marek Narozniak, Futian Liang, Youwei Zhao, Anthony D.Castellano, Ming Gong, Yulin Wu, Shiyu Wang, Jin Lin, Yu Xu, Hui Deng, Hao Rong, Jonathan P. Dowling, Cheng-Zhi Peng, Tim Byrnes, Xiaobo Zhu, and Jian-Wei Pan(参考訳) トポロジカル量子計算は、フォールトトレラント量子コンピューティングを実現するための有望なアプローチである。 キタエフ鎖のマヨラナ零モードは、非アベリア異性体の例であり、ブレイディング演算を用いて量子ゲートを実行することができる。 ここでは、キタエフ連鎖のマヨラナ零モードにエンコードされた量子ビットをテレポートすることで、トポロジカル量子コンピューティングの量子シミュレーションを行う。 量子シミュレーションは、キタエフ鎖を等価スピンバージョンにマッピングし、超伝導量子プロセッサで基底状態を実現することで行われる。 テレポーテーションは、マヨラナゼロモード状態のスピンマップバージョンに符号化された量子状態を2つのキタエフ鎖間で転送する。 テレポーテーション回路は、ブレイディング操作のみを使用して実現され、イジングアノンのクリフォードゲートに制限されているにもかかわらず達成することができる。 マヨラナ符号(Majorana code)は位相フリップエラーの量子エラー検出符号であり、70.76 pm 0.35 %$から84.60 pm 0.11 %$までの6つの異なる状態におけるテレポーテーションの平均忠実度を改善するために用いられる。

Topological quantum computation based on anyons is a promising approach to achieve fault-tolerant quantum computing. The Majorana zero modes in the Kitaev chain are an example of non-Abelian anyons where braiding operations can be used to perform quantum gates. Here we perform a quantum simulation of topological quantum computing, by teleporting a qubit encoded in the Majorana zero modes of a Kitaev chain. The quantum simulation is performed by mapping the Kitaev chain to its equivalent spin version, and realizing the ground states in a superconducting quantum processor. The teleportation transfers the quantum state encoded in the spin-mapped version of the Majorana zero mode states between two Kitaev chains. The teleportation circuit is realized using only braiding operations, and can be achieved despite being restricted to Clifford gates for the Ising anyons. The Majorana encoding is a quantum error detecting code for phase flip errors, which is used to improve the average fidelity of the teleportation for six distinct states from $70.76 \pm 0.35 \% $ to $84.60 \pm 0.11 \%$, well beyond the classical bound in either case.
翻訳日:2023-05-02 02:27:59 公開日:2020-12-09
# 2光子ディッケ量子電池の超高速充電

Ultrafast charging in a two-photon Dicke quantum battery ( http://arxiv.org/abs/2009.09791v2 )

ライセンス: Link先を確認
Alba Crescente, Matteo Carrega, Maura Sassetti, Dario Ferraro(参考訳) 我々は、マイクロ波共振器に埋め込まれた量子ビットのような2段階のシステムの集合を、高出力量子電池の実現の有望な候補と考える。 この観点からは、従来の単光子結合が抑制され、二光子プロセスによって支配的な相互作用が媒介されるデバイスを設計する可能性を検討し、充電性能をさらに向上させる道を開く。 単光子カップリングと2光子カップリングの両方でディッケモデルを解くことにより、後者の非慣習相互作用がシステムのダイナミクスを支配するパラメータの範囲を決定し、qbの充電時間と平均充電電力の両方において、単一光子ケースと比較して優れた性能をもたらす。 また、最大記憶エネルギー、変動および充電電力の有限個の量子ビットNによるスケーリングを検査する。 エネルギーとゆらぎはNと線形にスケールするが、平均電力の二次的な成長は、純粋に単光子結合の場合に関して、このスキームに基づく量子電池の充電性能の関連性の向上につながる。 さらに, 弱い状態から超強状態への結合を増大させることにより, 充電過程が徐々に速くなることを示した。

We consider a collection of two level systems, such as qubits, embedded into a microwave cavity as a promising candidate for the realization of high power quantum batteries. In this perspective, the possibility to design devices where the conventional single-photon coupling is suppressed and the dominant interaction is mediated by two-photon processes is investigated, opening the way to an even further enhancement of the charging performance. By solving a Dicke model with both single- and two-photon coupling we determine the range of parameters where the latter unconventional interaction dominates the dynamics of the system leading to better performances both in the charging times and average charging power of the QB compared to the single-photon case. In addition, the scaling of the maximum stored energy, fluctuations and charging power with the finite number of qubits N is inspected. While the energy and fluctuations scale linearly with N, the quadratic growth of the average power leads to a relevant improvement of the charging performance of quantum batteries based on this scheme with respect to the purely single-photon coupling case. Moreover, it is shown that the charging process is progressively faster by increasing the coupling from the weak to the ultra-strong regime.
翻訳日:2023-05-01 11:19:53 公開日:2020-12-09
# ダイヤモンドのフッ素系色中心

Fluorine-based color centers in diamond ( http://arxiv.org/abs/2009.13385v2 )

ライセンス: Link先を確認
S. Ditalia Tchernij, T. L\"uhmann, E. Corte, F. Sardi, F. Picollo, P. Traina, M. Brajkovic, A. Crnjac, S. Pezzagna, I. P. Degiovanni, E. Moreva, P. Apr\`a, P. Olivero, Z. Siketi\'c, J. Meijer, M. Genovese, J. Forneris(参考訳) fイオン注入と熱焼鈍による高純度ダイヤモンド基板の発光特性の創出と特性評価について報告する。 室温発光発光は、558nmの弱い発光線と600から750nmのスペクトル範囲の強い帯から構成される。 液体のhe温度でのキャラクタリゼーションは600~670nmのスペクトル範囲で構造化された線の存在を示す。 本稿では,f関連光中心の放射特性の動作温度や励起波長などの異なる実験パラメータ依存性について検討する。 放射強度とf注入フラレンスとの相関、およびf導入およびアニール試料のスペクトル特性の排他的観察は、ダイヤモンド格子中の安定なf含有欠陥複合体と関連していることを示す強い示唆を与える。

We report on the creation and characterization of the luminescence properties of high-purity diamond substrates upon F ion implantation and subsequent thermal annealing. Their room-temperature photoluminescence emission consists of a weak emission line at 558 nm and of intense bands in the 600 - 750 nm spectral range. Characterization at liquid He temperature reveals the presence of a structured set of lines in the 600 - 670 nm spectral range. We discuss the dependence of the emission properties of F-related optical centers on different experimental parameters such as the operating temperature and the excitation wavelength. The correlation of the emission intensity with F implantation fluence, and the exclusive observation of the afore-mentioned spectral features in F-implanted and annealed samples provides a strong indication that the observed emission features are related to a stable F-containing defective complex in the diamond lattice.
翻訳日:2023-04-30 18:39:11 公開日:2020-12-09
# Ni$_4$単分子磁石におけるベリー相干渉の直接分光観察

Direct Spectroscopic Observation of Berry Phase Interference in the Ni$_4$ Single-Molecule Magnet ( http://arxiv.org/abs/2010.02060v2 )

ライセンス: Link先を確認
Brendan C. Sheehan, Robert Kwark, Charles A. Collett, Thomaz A. Costa, Rafael A. All\~ao Cassaro and Jonathan R. Friedman(参考訳) スピン系におけるベリー相効果は、異なるトンネル経路が破壊的に干渉した場合のトンネル効果を抑制する。 このような効果は、数個の単分子磁石(SMM)で磁化力学の測定を通して見られ、そこでは実験信号が多数のエネルギーレベルの寄与から生じる可能性がある。 ここでは,4次元対称SMM上で電子スピン共鳴によって決定されるベリー相干渉効果の実験的測定を行う。 具体的には,Ni$_4$SMMにおけるトンネル分割励起状態間の遷移を結晶試料の硬面における横磁場の存在下で測定する。 自家製回転装置を使用することで、試料の方向を \textit{in situ} に変更することができるので、試料の硬面全体を通して磁場方向を回転させることができる。 場が平面上の一定の方向にあるとき、遷移の分割、すなわちベリー位相干渉の指標を観察する。 実験結果は理論的な予測によってよく再現され、データの適合は双極子相互作用とサンプル不一致の影響に関する情報を提供する。

Berry phase effects in spin systems lead to the suppression of tunneling effects when different tunneling paths interfere destructively. Such effects have been seen in several single-molecule magnets (SMMs) through measurements of magnetization dynamics, where the experimental signal may arise from the contributions of numerous energy levels. Here we present experimental measurements of Berry phase interference effects that are determined through electron-spin resonance on a four-fold symmetric SMM. Specifically, we measure transitions between tunnel-split excited states in the Ni$_4$ SMM in the presence of a transverse field in the hard plane of the crystalline sample. By using a home-built rotation apparatus, the direction of the sample can be changed \textit{in situ} so that that the field direction can be swept through the entire hard plane of the sample. When the field is in certain directions in the plane, we observe a splitting of the transition, a hallmark of Berry phase interference. The experimental results are well reproduced by theoretical predictions, and fitting of the data provides information about the effects of dipolar interactions and sample misalignment.
翻訳日:2023-04-29 22:36:12 公開日:2020-12-09
# 空洞内ダイナミクスのための時間依存性ポテンシャルエネルギー表面のケーススタディ

Case Studies of the Time-Dependent Potential Energy Surface for Dynamics in Cavities ( http://arxiv.org/abs/2011.14835v2 )

ライセンス: Link先を確認
Phillip Martinez, Bart Rosenzweig, Norah M. Hoffmann, Lionel Lacombe, Neepa T. Maitra(参考訳) 原子核力学を駆動する正確な時間依存ポテンシャルエネルギー表面は、原子核、電子、光子の結合をキャビティ設定で理解し、解釈するのに有用なツールであることが最近示されている。 ここでは, 陽子結合電子移動のキャビティ誘起抑制と初期状態依存性, キャビティ誘起電子励起の2つの現象をモデル化した, 完全可解系に関する詳細な解析を行う。 偏光表面の重み付け平均を単に使うだけでダイナミクスを決定できないことを実証する。 このような重み付けされた平均は、核と分極系の間のエネルギーを再分配する決定的な用語を見逃し、この用語は実際、複数の分極系表面が関与する場合の核力学を決定する主要な用語となる。 正確なポテンシャル表面上の古典的な軌道の集合を進化させることで、核波束を正確に再現すると同時に、重み付けされた極性表面上での進化は短時間で失敗する。 この表面に基づく混合量子古典法の適用の意義と展望について論じる。

The exact time-dependent potential energy surface driving the nuclear dynamics was recently shown to be a useful tool to understand and interpret the coupling of nuclei, electrons, and photons, in cavity settings. Here we provide a detailed analysis of its structure for exactly-solvable systems that model two phenomena: cavity-induced suppression of proton-coupled electron transfer and its dependence on the initial state, and cavity-induced electronic excitation. We demonstrate the inadequacy of simply using a weighted average of polaritonic surfaces to determine the dynamics. Such a weighted average misses a crucial term that redistributes energy between the nuclear and the polaritonic systems, and this term can in fact become a predominant term in determining the nuclear dynamics when several polaritonic surfaces are involved. Evolving an ensemble of classical trajectories on the exact potential energy surface reproduces the nuclear wavepacket quite accurately while evolving on the weighted polaritonic surface fails after a short period of time. The implications and prospects for application of mixed quantum-classical methods based on this surface are discussed.
翻訳日:2023-04-22 14:41:25 公開日:2020-12-09
# 閉じ込められたイオン量子コンピュータにおける最寄りのセントロイド分類

Nearest Centroid Classification on a Trapped Ion Quantum Computer ( http://arxiv.org/abs/2012.04145v2 )

ライセンス: Link先を確認
Sonika Johri, Shantanu Debnath, Avinash Mocherla, Alexandros Singh, Anupam Prakash, Jungsang Kim and Iordanis Kerenidis(参考訳) 量子機械学習は近年、理論上、実用的な発展を遂げており、量子コンピュータの実世界の応用を見出す有望な分野となっている。 この目標を追求するために、我々は最先端のアルゴリズムと量子ハードウェアを組み合わせて、量子機械学習アプリケーションの実験的なデモを行い、その性能と効率性を保証する。 特に,古典的データを量子状態に効率よくロードし,距離推定を行う手法を用いて,量子近距離Centroid分類器を設計し,MNIST手書き桁データセットの古典的近遠距離Centroid分類器の精度と8次元合成データに対する最大100%の精度とを一致させて,11ビットの量子マシン上で実験的に実証する。

Quantum machine learning has seen considerable theoretical and practical developments in recent years and has become a promising area for finding real world applications of quantum computers. In pursuit of this goal, here we combine state-of-the-art algorithms and quantum hardware to provide an experimental demonstration of a quantum machine learning application with provable guarantees for its performance and efficiency. In particular, we design a quantum Nearest Centroid classifier, using techniques for efficiently loading classical data into quantum states and performing distance estimations, and experimentally demonstrate it on a 11-qubit trapped-ion quantum machine, matching the accuracy of classical nearest centroid classifiers for the MNIST handwritten digits dataset and achieving up to 100% accuracy for 8-dimensional synthetic data.
翻訳日:2023-04-21 18:43:45 公開日:2020-12-09
# サウジアラビアの医療セクターにおけるモノのインターネット : 導入問題調査のための方法論的アプローチ

Internet of Things-based innovations in Saudi healthcare sector: A methodological approach for investigating adoption issues ( http://arxiv.org/abs/2012.04970v1 )

ライセンス: Link先を確認
F H Masmali, S J Miah, NY Mathkoor(参考訳) 今日のインターネットネットワーク能力を利用して、この技術は医療分野に様々な利益をもたらしている。 例えば、既存の研究では、IoTベースのイノベーションを備えた情報技術アプリケーションが医療産業に革命をもたらし、患者の健康データをリアルタイムに報告するのに役立つことをすでに示している。 注意すべき点は、IoTの採用とその健康分野への関連する介入は、他の業界で観測されたような速さではありませんでした。 この問題に対処するため,サウジアラビアにおけるIoT導入と医療サービス提供への統合に影響を及ぼす要因を調査するための定性的現象学的アプローチを開発した。

Using today's Internet network capacities, this technology has extended various benefits in healthcare sectors. For instance, existing studies already indicated that information technology applications with IoT-based innovations may revolutionize the healthcare industry and subsequently help to improve the real-time reporting of patients' health data. It should be noted that the adoption of IoT and its relevant interventions in the health sector has not been as fast as the uptake been observed in other industries. To tackle this issue, we develop a qualitative phenomenological approach for investigating factors that affect IoT adoption and its integration into healthcare service delivery in Saudi Arabia.
翻訳日:2023-04-21 08:18:17 公開日:2020-12-09
# MeV系における光子量子絡み合いとPETイメージングへの応用

Photon quantum entanglement in the MeV regime and its application in PET imaging ( http://arxiv.org/abs/2012.04939v1 )

ライセンス: Link先を確認
D.P. Watts, J. Bordes, J.R. Brown, A. Cherlin, R. Newton, J. Allison, M. Bashkanov, N. Efthimiou, N.A. Zachariou(参考訳) PET(Positron Emission Tomography)は、医学研究や臨床診断に広く用いられている画像モダリティである。 ここでは、詳細な実験とシミュレーションを通じて、PETで利用した2つの陽電子消滅光子間の線形偏光の量子的絡み合いを利用する利点を探求する。 MeVスケールの光子と物質との相互作用に対する量子絡み合いの影響を予測した新しいシミュレーションを、カドミウム亜鉛テルリド(CZT)PET実証装置の実験データと比較して検証した。 さらに、改良された設定により、MeV系における光子の絡み合い損失に関する最初の実験的制約が可能となった。 量子絡み合ったPETは、次世代イメージングにおける重要な課題に対処する新しい手法を提供する。 そこで本研究では,PETイベントにおける量子エンタングルメント情報のみを用いて,患者内散乱とランダム背景の定量化と除去を行う簡単な方法を提案する。

Positron Emission Tomography (PET) is a widely-used imaging modality for medical research and clinical diagnosis. Here we demonstrate, through detailed experiments and simulations, an exploration of the benefits of exploiting the quantum entanglement of linear polarisation between the two positron annihilation photons utilised in PET. A new simulation, which includes the predicted influence of quantum entanglement on the interaction of MeV-scale photons with matter, is validated by comparison with experimental data from a cadmium zinc telluride (CZT) PET demonstrator apparatus. In addition, a modified setup enabled the first experimental constraint on entanglement loss for photons in the MeV regime. Quantum-entangled PET offers new methodologies to address key challenges in next generation imaging. As an indication of the potential benefits, we present a simple method to quantify and remove in-patient scatter and random backgrounds using only the quantum entanglement information in the PET events.
翻訳日:2023-04-21 08:17:46 公開日:2020-12-09
# 原子の集束に及ぼすs波相互作用の影響

The Influence of s-wave interactions on focussing of atoms ( http://arxiv.org/abs/2012.04892v1 )

ライセンス: Link先を確認
A. M. Kordbacheh and A. M. Martin(参考訳) 光格子電位によるルビジウムボース-アインシュタイン凝縮体の集束を数値解析した。 その結果,集束ビームの全幅半大を過小評価する古典的軌跡モデルと比較した。 ボース・アインシュタイン凝縮系における相互作用の効果を古典的軌道モデルに含めることで、グロス・ピタエフスキー方程式の数値積分と比較すると、集束ビームの全幅半最大値に対する信頼性の高い推定値が得られることを示す。 最後に,強い相互作用を持つボース=アインシュタイン凝縮体に対して,20nmの配位に焦点を合わせることが可能であることを示す。

The focusing of a rubidium Bose-Einstein condensate via an optical lattice potential is numerically investigated. The results are compared with a classical trajectory model which under-estimates the full width half maximum of the focused beam. Via the inclusion of the effects of interactions, in the Bose-Einstein condensate, into the classical trajectory model we show that it is possible to obtain reliable estimates for the full width half maximum of the focused beam when compared to numerical integration of the Gross-Pitaevskii equation. Finally, we investigate the optimal regimes for focusing and find that for a strongly interacting Bose-Einstein condensate focusing of order 20 nm may be possible.
翻訳日:2023-04-21 08:16:19 公開日:2020-12-09
# 2つのノイズ変位状態の量子判別

Quantum Discrimination of Two Noisy Displaced Number States ( http://arxiv.org/abs/2012.05165v1 )

ライセンス: Link先を確認
Renzhi Yuan and Julian Cheng(参考訳) 2つの非コヒーレント状態の量子的識別は近年注目を集めている。 このレターでは、まず2つのノイズのない転位数状態の量子的判別を考える。 次に, 雑音下変位数状態のフォック表現を導出し, 2つの雑音下変位数状態の判別問題に対処する。 さらに、しきい値検出を行うケネディ受信機により、2つのノイズ変位状態の最適量子判別が達成可能であることを証明した。 シミュレーション結果は理論的な導出を検証し、同じ平均エネルギーのコヒーレント状態を用いたオンオフ鍵変調の誤差確率は、変位数状態を用いたオンオフ鍵変調の誤差確率よりも有意に低いことを示した。

The quantum discrimination of two non-coherent states draws much attention recently. In this letter, we first consider the quantum discrimination of two noiseless displaced number states. Then we derive the Fock representation of noisy displaced number states and address the problem of discriminating between two noisy displaced number states. We further prove that the optimal quantum discrimination of two noisy displaced number states can be achieved by the Kennedy receiver with threshold detection. Simulation results verify the theoretical derivations and show that the error probability of on-off keying modulation using a displaced number state is significantly less than that of on-off keying modulation using a coherent state with the same average energy.
翻訳日:2023-04-21 08:08:20 公開日:2020-12-09
# 温度非感受性II型準相整合自然パラメトリックダウンコンバージョン

Temperature insensitive type II quasi-phasematched spontaneous parametric downconversion ( http://arxiv.org/abs/2012.05134v1 )

ライセンス: Link先を確認
Xin-Yi Pan, Christian Kurtsiefer, Alexander Ling, James A. Grieve(参考訳) チタニルカリウム (KTP) の屈折率の温度依存性は, 準相整合型II型自然パラメトリックダウンコンバージョン (SPDC) を低温感度で得ることを示す。 計算の結果、約1165nmの光子の放出効果を最大化し、電気通信帯全体の波長に有用な領域を作り出すことが示されている。 電気通信Oバンド内の1326nmの温度非感応性退化発光を実験的に観測した。 この結果は、資源制約環境における絡み合った光子源の開発に実用的であり、概念実証として単純な偏光絡み源を示す。

The temperature dependence of the refractive indices of potassium titanyl phosphate (KTP) are shown to enable quasi-phasematched type II spontaneous parametric downconversion (SPDC) with low temperature sensitivity. Calculations show the effect to be maximised for emission of photons at around 1165nm, as well as producing potentially useful regions for wavelengths throughout the telecommunications bands. We demonstrate the effect experimentally, observing temperature-insensitive degenerate emission at 1326nm, within the telecommunications O band. This result has practical applications in the development of entangled photon sources for resource-constrained environments, and we demonstrate a simple polarization entangled source as a proof of concept.
翻訳日:2023-04-21 08:07:55 公開日:2020-12-09
# 経路最適化問題のイジング定式化

Ising formulations of routing optimization problems ( http://arxiv.org/abs/2012.05022v1 )

ライセンス: Link先を確認
Daniel Jaroszewski, Fabian Klos, Benedikt Sturm(参考訳) 我々は,単一車両経路,巡回セールスパーソン,衝突のない複数車両経路のバイナリ最適化関数を定式化し,既存の定式化よりも変数数を大幅に改善した。 得られた関数は、変分アルゴリズムと断熱量子ハードウェアを用いてゲートベースの量子コンピュータに容易に実装される。

We formulate binary optimization functions for single-vehicle routing, travelling salesperson and collision-free multi-vehicle routing with significant improvements in the number of variables over existing formulations. The provided functions are readily implemented on gate-based quantum computers using variational algorithms and on adiabatic quantum hardware.
翻訳日:2023-04-21 08:06:25 公開日:2020-12-09
# 精密農業技術の経済性算定のためのwebツール

A web-tool for calculating the economic performance of precision agriculture technology ( http://arxiv.org/abs/2012.05017v1 )

ライセンス: Link先を確認
Marco Medici and S{\o}ren Marcus Pedersen and Maurizio Canavari and Thomas Anken and Panagiotis Stamatelopoulos and Zisis Tsiropoulos and Alex Zotos and Ghasem Tohidloo(参考訳) 精密農業(pa)を最大限に活用し、持続可能性・弾力性に向けた農業の進展を図り、経済アセスメントの適切な基準を緊急かつ継続的な注意を要する最も重要な課題の1つとして認識する。 本研究では,精密農業技術の統合による経済効果の評価を支援するウェブツールを開発した。 このツールの方法論的アプローチは、精密農業技術と従来のシステムとの評価と比較を可能にするガイド付きプロセスを通じて、あらゆる農業ステークホルダーに利用可能であり、最終ユーザは、農場における様々な精密農業技術の潜在的実装による財政的生存性と環境への影響を評価することができる。 Webツールは、新しい技術の特徴と関連する利益に関する知識レベルを高め、選択されたPA技術に投資する決定について、農家にガイドラインを提供するように設計されている。 入力の削減は、環境影響の緩和を調査する可能性も提供する。

To develop precision agriculture (PA) to its full potential and make agriculture progress toward sustainability and resilience, appropriate criteria for the economic assessment are recognised as being one of the most significant issues requiring urgent and ongoing attention. In this work, we develop a web-tool supporting the assessment of the net economic benefits of integrating precision farming technologies in different contexts. The methodological approach of the tool is accessible to any agricultural stakeholder through a guided process that allows to evaluate and compare precision agriculture technologies with conventional systems, leading the final user to assess the financial viability and environmental impact resulting from the potential implementation of various precision agriculture technologies in his farm. The web-tool is designed to provide guidelines for farmers over their decisions to invest in selected PA technologies, by increasing the knowledge level about novel technologies characteristics and the related benefits. Possible input reduction also offers the possibility to investigate the mitigation of environmental impacts.
翻訳日:2023-04-21 08:06:19 公開日:2020-12-09
# 雑音量子系におけるコヒーレンスのトポロジ的保護

Topological Protection of Coherence in Noisy Open Quantum Systems ( http://arxiv.org/abs/2012.05274v1 )

ライセンス: Link先を確認
Yu Yao, Henning Schl\"omer, Zhengzhi Ma, Lorenzo Campos Venuti, Stephan Haas(参考訳) 我々は,量子ビットのコヒーレンス時間を延長することを目的として,消散型量子システムにおける位相的保護機構について検討する。 物理設定は、結合パラメータが調整可能なキュービットと散逸性キャビティのネットワークであり、トポロジカルエッジ状態は安定化できる。 fiducial qubitの進化は、非エルミートハミルトニアンによって完全に決定され、したがってボナ・フィデの物理的過程から生じる。 一定の対称性が保存されている限り、乱れの巻数の存在下でも実空間で定義・評価できることが示されている。 したがって、非エルミート乱れのSu-Schrieffer-Heeger二量体モデルや長距離結合を含むトリマーモデルのような、ノイズの多い開量子モデルの位相位相図を構築することができる。 競合する障害パラメータの存在下では、トポロジカルに非自明なセクターの興味深い再帰現象が観察される。 これは、特定のパラメータ領域において、障害の増加がフィデューシャルキュービットのコヒーレンス時間を大幅に増加させることを意味する。

We consider topological protection mechanisms in dissipative quantum systems in the presence of quenched disorder, with the intent to prolong coherence times of qubits. The physical setting is a network of qubits and dissipative cavities whose coupling parameters are tunable, such that topological edge states can be stabilized. The evolution of a fiducial qubit is entirely determined by a non-Hermitian Hamiltonian which thus emerges from a bona-fide physical process. It is shown how even in the presence of disorder winding numbers can be defined and evaluated in real space, as long as certain symmetries are preserved. Hence we can construct the topological phase diagrams of noisy open quantum models, such as the non-Hermitian disordered Su-Schrieffer- Heeger dimer model and a trimer model that includes longer-range couplings. In the presence of competing disorder parameters, interesting re-entrance phenomena of topologically non-trivial sectors are observed. This means that in certain parameter regions, increasing disorder drastically increases the coherence time of the fiducial qubit.
翻訳日:2023-04-21 08:00:05 公開日:2020-12-09
# ランダム量子回路のスペクトルギャップの改善:大きな局所次元と全対全相互作用

Improved spectral gaps for random quantum circuits: large local dimensions and all-to-all interactions ( http://arxiv.org/abs/2012.05259v1 )

ライセンス: Link先を確認
Jonas Haferkamp, Nicholas Hunter-Jones(参考訳) ランダム量子回路は量子情報理論の中心的な概念であり、量子計算の優位性の実証から、強相互作用系やブラックホールにおけるスクランブルの記述まで幅広い応用がある。 これらの設定におけるランダム量子回路の有用性は、量子擬似ランダム性を迅速に生成する能力に起因する。 Brand\~ao, Harrow, and Horodecki のセミナー論文では、局所量子回路の$t$-th moment operator of local random quantum circuits on $n$ qudits with local dimension $q$ has a spectrum gap of least $\Omega(n^{-1}t^{-5-3.1/\log(q)})$が証明されており、それらは近似ユニタリ設計の効率的な構成であることを示している。 最初の結果として、フラストレーションのないハミルトニアンのスペクトルギャップに対してknabe境界を用いて、1d$のランダム量子回路が$\omega(n^{-1})$のスペクトルギャップスケーリングを持つことを示す。 これは、回路深度の(ほぼ)線形スケーリングが設計オーダー$t$で表されることを意味する。 2つ目の結果は、全ての相互作用を持つランダム量子回路に対して$\Omega(n^{-1}\log^{-1}(n) t^{-\alpha(q)})$という条件のないスペクトルギャップである。 これにより、非ローカルモデルの設計深度が$n$と$t$の両方が改善される。 補助的なランダムウォークを含むスペクトルギャップに対する再帰関係を証明し,これを示す。 最後に、最小の非自明なケースを正確に解き、数値とknabe境界を組み合わせることで、t$の小さい値のスペクトルギャップに関連する定数を改善する。

Random quantum circuits are a central concept in quantum information theory with applications ranging from demonstrations of quantum computational advantage to descriptions of scrambling in strongly-interacting systems and black holes. The utility of random quantum circuits in these settings stems from their ability to rapidly generate quantum pseudo-randomness. In a seminal paper by Brand\~ao, Harrow, and Horodecki, it was proven that the $t$-th moment operator of local random quantum circuits on $n$ qudits with local dimension $q$ has a spectral gap of at least $\Omega(n^{-1}t^{-5-3.1/\log(q)})$, which implies that they are efficient constructions of approximate unitary designs. As a first result, we use Knabe bounds for the spectral gaps of frustration-free Hamiltonians to show that $1D$ random quantum circuits have a spectral gap scaling as $\Omega(n^{-1})$, provided that $t$ is small compared to the local dimension: $t^2\leq O(q)$. This implies a (nearly) linear scaling of the circuit depth in the design order $t$. Our second result is an unconditional spectral gap bounded below by $\Omega(n^{-1}\log^{-1}(n) t^{-\alpha(q)})$ for random quantum circuits with all-to-all interactions. This improves both the $n$ and $t$ scaling in design depth for the non-local model. We show this by proving a recursion relation for the spectral gaps involving an auxiliary random walk. Lastly, we solve the smallest non-trivial case exactly and combine with numerics and Knabe bounds to improve the constants involved in the spectral gap for small values of $t$.
翻訳日:2023-04-21 07:59:21 公開日:2020-12-09
# オープン格子場理論のための量子アルゴリズム

Quantum Algorithms for Open Lattice Field Theory ( http://arxiv.org/abs/2012.05257v1 )

ライセンス: Link先を確認
Jay Hubisz, Bharath Sambasivam, and Judah Unmuth-Yockey(参考訳) いくつかのユニタリ量子系の特定の側面は、非エルミート有効ハミルトニアン(英語版)による進化によってよく説明される。 逆に、任意の非エルミートハミルトン的進化は、ウィグナー・ワイスコップ理論の一般化を通じて対応するユニタリ系 + 環境モデルに適応することができる。 これは量子力学における例外点のような新しい特徴の物理的関連性を示し、カップリング定数の複素平面において多くの体系を研究するための道を開く。 格子場理論の場合、sparsityはこれらのチャネルに標準量子ハードウェア上での効率的なシミュレーションの約束を与える。 したがって、非エルミート時間発展中の格子場理論のスズキ・リー・トロッター近似に対応する量子演算を考えるとともに、有限化学ポテンシャルにおけるスピンやゲージモデルの研究を、位相的項で量子相転移(符号問題のあるモデルの範囲)に応用する可能性についても検討する。 我々は、非エルミート量子回路を開発し、複雑な長手磁場を持つ量子一次元イジングモデル(英語版)のベンチマークでそれらの約束を探求し、観測可能がリー・ヤンエッジ特異点を探索できることを示す。 複素カップリング空間における臨界点を超えるアトラクタの開発は、短期ノイズのあるハードウェアの研究の可能性を示している。

Certain aspects of some unitary quantum systems are well-described by evolution via a non-Hermitian effective Hamiltonian, as in the Wigner-Weisskopf theory for spontaneous decay. Conversely, any non-Hermitian Hamiltonian evolution can be accommodated in a corresponding unitary system + environment model via a generalization of Wigner-Weisskopf theory. This demonstrates the physical relevance of novel features such as exceptional points in quantum dynamics, and opens up avenues for studying many body systems in the complex plane of coupling constants. In the case of lattice field theory, sparsity lends these channels the promise of efficient simulation on standardized quantum hardware. We thus consider quantum operations that correspond to Suzuki-Lee-Trotter approximation of lattice field theories undergoing non-Hermitian time evolution, with potential applicability to studies of spin or gauge models at finite chemical potential, with topological terms, to quantum phase transitions - a range of models with sign problems. We develop non-Hermitian quantum circuits and explore their promise on a benchmark, the quantum one-dimensional Ising model with complex longitudinal magnetic field, showing that observables can probe the Lee-Yang edge singularity. The development of attractors past critical points in the space of complex couplings indicates a potential for study on near-term noisy hardware.
翻訳日:2023-04-21 07:58:42 公開日:2020-12-09
# 対称性と量子クエリー通信シミュレーション

Symmetry and Quantum Query-to-Communication Simulation ( http://arxiv.org/abs/2012.05233v1 )

ライセンス: Link先を確認
Sourav Chakraborty, Arkadev Chattopadhyay, Peter H{\o}yer, Nikhil S. Mande, Manaswi Paraashar, Ronald de Wolf(参考訳) Buhrman, Cleve and Wigderson (STOC'98) は、すべてのブール関数 f : {-1,1}^n to {-1,1} と G in {AND_2, XOR_2} に対して、合成関数 f o G の有界エラー量子通信複雑性は O(Q(f) log n) と等しいことを示した。 これは古典的な設定とは対照的であり、R^{cc}(f o G) < 2 R(f) であり、R^{cc} と R はそれぞれ有界エラー通信とクエリ複雑性を表す。 Chakraborty et al. (CCC'20) は、BCWシミュレーションにおけるlog nのオーバーヘッドを必要とする全関数を示した。 私たちはその結果をいくつかの方法で改善します。 f が対称である場合、log n のオーバーヘッドは不要であり、aaronson と ambainis の結果を集合分離関数(コンピューティング理論'05)に一般化する。 この上限は共有絡み状態(英語版)を仮定するが、ほとんどの対称函数では、想定される絡み合った量子ビットの数は通信よりも小さく、したがって通信の一部となる。 これを証明するために、f が OR 関数であるときに結果を証明できる雑音振幅増幅の効率的な分散バージョンを設計する。 最初の結果から、bcwシミュレーションにおけるlog nのオーバーヘッドはfが推移的であっても回避できるかどうかを問うことができる。 量子通信プロトコルが任意に1/2に近い誤差確率を許容しても、ある推移関数に対して、ログ n のオーバーヘッドが依然として必要であることを示すことで、強い負の答えを与える。 また, 任意の事前絡み合った状態を自由に共有することが許された場合でも, 境界付きエラー通信モデルにおけるBCWシミュレーションにおいて, ログnのオーバーヘッドが要求される関数を構成するための一般的なレシピも提供する。

Buhrman, Cleve and Wigderson (STOC'98) showed that for every Boolean function f : {-1,1}^n to {-1,1} and G in {AND_2, XOR_2}, the bounded-error quantum communication complexity of the composed function f o G equals O(Q(f) log n), where Q(f) denotes the bounded-error quantum query complexity of f. This is in contrast with the classical setting, where it is easy to show that R^{cc}(f o G) < 2 R(f), where R^{cc} and R denote bounded-error communication and query complexity, respectively. Chakraborty et al. (CCC'20) exhibited a total function for which the log n overhead in the BCW simulation is required. We improve upon their result in several ways. We show that the log n overhead is not required when f is symmetric, generalizing a result of Aaronson and Ambainis for the Set-Disjointness function (Theory of Computing'05). This upper bound assumes a shared entangled state, though for most symmetric functions the assumed number of entangled qubits is less than the communication and hence could be part of the communication. To prove this, we design an efficient distributed version of noisy amplitude amplification that allows us to prove the result when f is the OR function. In view of our first result, one may ask whether the log n overhead in the BCW simulation can be avoided even when f is transitive. We give a strong negative answer by showing that the log n overhead is still necessary for some transitive functions even when we allow the quantum communication protocol an error probability that can be arbitrarily close to 1/2. We also give, among other things, a general recipe to construct functions for which the log n overhead is required in the BCW simulation in the bounded-error communication model, even if the parties are allowed to share an arbitrary prior entangled state for free.
翻訳日:2023-04-21 07:56:59 公開日:2020-12-09
# 量子バズワード

Quantum Buzzwords ( http://arxiv.org/abs/2012.05229v1 )

ライセンス: Link先を確認
James B. Hartle (Department of Physics, University of California, Santa Barbara, CA, and Santa Fe Institute, Santa Fe, NM)(参考訳) 測定状況の量子力学(copenhagen quantum theory)を理解しようとする多くの科学者は、その圧倒的に成功したアルゴリズムについて、実験的な測定結果を予測することに同意しているが、これらのアルゴリズムの意味と解釈の仕方については意見が一致していない。 これらの問題のいくつかは簡潔に説明され、宇宙のような閉じた系の非一貫性(あるいは一貫した)歴史から示唆される。

Many scientists seeking to understand the quantum mechanics of measurement situations (Copenhagen quantum theory) agree on its overwhelmingly successful algorithms to predict the outcomes of laboratory measurements but disagree on what these algorithms mean and how they are to be interpreted. Some of these problems are briefly described and resolutions suggested from the decoherent (or consistent) histories quantum mechanics of closed systems like the Universe.
翻訳日:2023-04-21 07:56:19 公開日:2020-12-09
# YouTubeの政治的影響力の認識

Perceptions of YouTube's political influence ( http://arxiv.org/abs/2012.07745v1 )

ライセンス: Link先を確認
Yury Kolotaev and Konrad Kollnig(参考訳) YouTubeは政治的メディアとして、さらに重要な役割を担っている。 しかし、YouTubeの統計情報へのアクセスは限られており、その意味は理解されておらず、分析も困難である。 このギャップに対処するため、YouTubeの政治的影響力に関する見解と経験について124人を調査した。 われわれの結果は、YouTubeの政治的役割の増大に対する多様な、時には矛盾する見解を明らかにし、さらなる研究、議論、そしておそらく規制の必要性を強調した。

YouTube plays an ever more important role as a political medium. Yet, the implications are to-date not well understood and difficult to analyse, since access to YouTube's statistics is limited. To address this gap, we surveyed 124 people about their views and experiences around YouTube's political influence. Our results revealed diverse, sometimes conflicting views on YouTube's growing political role, and highlight the need for more research, discussion and possibly regulation.
翻訳日:2023-04-21 07:50:18 公開日:2020-12-09
# マルチウェルポテンシャルにおける量子力学の記述への代替的アプローチ

Alternative approaches to the description of quantum dynamics in multi-well potentials ( http://arxiv.org/abs/2012.05814v1 )

ライセンス: Link先を確認
V. P. Berezovoj, Yu. L. Bolotin, V. A. Cherkaskiy, M. I. Konchantnyi(参考訳) マルチウェルポテンシャルにおける量子力学的問題を解析するための3つの異なるアプローチを検討する。 一 調和振動子固有関数又は平らな波の基底集合における標準行列対角化技術 二 スペクトル法で、シュリンガー方程式の時間依存解に基づいてスペクトル及び定常関数を再構成することができること。 三 超対称量子力学技術により得られる正確な解の近似 後者のアプローチは、計算手順に直接問題の特定のマルチウェル特徴を含める唯一の可能性を与えるため、最も有望であることが証明される。

We consider three different approaches to analyze the quantum mechanical problems in multi-well potentials: i) the standard matrix diagonalization technique in the basis sets of harmonic oscillator eigenfunctions or plain waves; ii) the spectral method, which allows to reconstruct the spectrum and stationary functions based on the time-dependent solution of the Schr\"odinger equation; iii) approximations with exact solutions obtained by the supersymmetric quantum mechanics technique. The latter approach proves to be the most promising as it gives a unique possibility to include the specific multi-well features of the problem directly in the calculation procedure.
翻訳日:2023-04-21 07:50:09 公開日:2020-12-09
# 分子による時間周波数エンタングル光子対の2光子吸収:光子数相関とスペクトル相関の役割

Two-photon absorption of time-frequency-entangled photon pairs by molecules: the roles of photon-number correlations and spectral correlations ( http://arxiv.org/abs/2012.05375v1 )

ライセンス: Link先を確認
Michael G. Raymer, Tiemo Landes, Markus Allgaier, Sofiane Merkouche, Brian J. Smith, and Andrew H. Marcus(参考訳) 2光子吸収(tpa)や、孤立した時間周波数の光子対(epp)を持つ分子の非線形相互作用は、様々な興味深い効果を示すと予測されているが、実用的な量子エンハンス分子分光法での使用には、綿密な検査が必要である。 本稿では,光子数相関とスペクトル相関の両方による量子エンハンスtpaの詳細な理論的研究について述べる。 自発的なパラメトリックダウン変換によって生成されたEPPの相関は、非常に低い光束の状態ではTPA速度を著しく増大させるが、溶液中の典型的な分子では、実際には観測できないような低いTPAイベントレートに対応する。 本研究は, 溶液中の分子を含む広帯域システムに対するそのようなアプローチの有効性を疑問視しながら, 原子または他の狭線系におけるeppスペクトルの有用性を裏付けるものである。

While two-photon absorption (TPA) and other forms of nonlinear interactions of molecules with isolated time-frequency-entangled photon pairs (EPP) have been predicted to display a variety of fascinating effects, their potential use in practical quantum-enhanced molecular spectroscopy requires close examination. This paper presents a detailed theoretical study of quantum-enhanced TPA by both photon-number correlations and spectral correlations, including an account of the deleterious effects of dispersion. While such correlations in EPP created by spontaneous parametric down conversion can increase the TPA rate significantly in the regime of extremely low optical flux, we find that for typical molecules in solution this regime corresponds to such low TPA event rates as to be unobservable in practice. Our results support the usefulness of EPP spectroscopy in atomic or other narrow-linewidth systems, while questioning the efficacy of such approaches for broadband systems including molecules in solution.
翻訳日:2023-04-21 07:49:48 公開日:2020-12-09
# 量子状態推定とバイナリ検出のための情報過剰なPOVM

Informationally Overcomplete POVMs for Quantum State Estimation and Binary Detection ( http://arxiv.org/abs/2012.05355v1 )

ライセンス: Link先を確認
Catherine Medlock, Alan Oppenheim, Petros Boufounos(参考訳) 古典的フレーム理論では、与えられたベクトル空間の過剰な表現は未知ベクトルのフレーム係数の付加雑音に対して頑健性をもたらすことが知られている。 量子状態推定の文脈において、同じロバスト性がどのように存在するかを記述する。 この議論の鍵となる要素は、古典的フレーム理論を量子力学において自然に生じる作用素値ベクトル空間や作用素空間に適用することである。 具体的には、フレームベクトルを情報完全または超完全(icまたはioc)povmの要素で表現する問題において、フレーム係数を未知の状態における量子測定の結果確率で表現し、フレーム係数の誤差は確率の有限サンプルサイズ推定から生じる。 本稿では,この問題の定式化により,未知システムのコピー数とpovm要素数との間には,推定性能のトレードオフが存在することを示す。 最後に、量子二項状態検出の文脈で同じトレードオフが存在するというシミュレーションを通じて、未知のシステムのコピー数を増やすか、またはPOVM要素の数を増やすことによってエラーの確率を下げることができることを示す。

It is well-known in classical frame theory that overcomplete representations of a given vector space provide robustness to additive noise on the frame coefficients of an unknown vector. We describe how the same robustness can be shown to exist in the context of quantum state estimation. A key element of the discussion is the application of classical frame theory to operator-valued vector spaces, or operator spaces, which arise naturally in quantum mechanics. Specifically, in the problem we describe the frame vectors are represented by the elements of an informationally complete or overcomplete (IC or IOC) POVM, the frame coefficients are represented by the outcome probabilities of a quantum measurement made on an unknown state, and the error on the frame coefficients arises from finite sample size estimations of the probabilities. We show that with this formulation of the problem, there is a tradeoff in estimation performance between the number of copies of the unknown system and the number of POVM elements. Lastly, we present evidence through simulation that the same tradeoff is present in the context of quantum binary state detection -- the probability of error can be reduced either by increasing the number of copies of the unknown system or by increasing the number of POVM elements.
翻訳日:2023-04-21 07:49:29 公開日:2020-12-09
# ヒルベルト結晶における量子多体傷の異常

Disorder enhanced quantum many-body scars in Hilbert crystals ( http://arxiv.org/abs/2012.05310v1 )

ライセンス: Link先を確認
Bart van Voorden, Matteo Marcuzzi, Kareljan Schoutens, and Ji\v{r}\'i Min\'a\v{r}(参考訳) 我々は,d$-dimensional hypercube の位相を持つヒルベルト空間を特徴とする位置障害を伴うrydberg連鎖において生じるモデルを考える。 これにより、ヒルベルト空間上の1つの粒子について、多体運動学の直感的な解釈が可能となり、多体と単一粒子の傷点の間の明示的なリンクを提供する。 この視点を生かして, 可積分性破壊性障害は, 大域的障害域における固有状態の強い局在による運動の抑制により, 傷跡を増大させる。 次に、スピン1/2 xx ハイゼンベルク鎖にモデルをマッピングすることは、ヒルベルト空間の端にある傷と同一視できる最近提案されたオンザガーの傷(prl ${\bf 124}$, 180604 (2020)]について、単純な幾何学的視点を与える。 これにより、特定の種類の障害の摂動に対する感受性の起因が明らかになる。

We consider a model arising in facilitated Rydberg chains with positional disorder which features a Hilbert space with the topology of a $d$-dimensional hypercube. This allows for a straightforward interpretation of the many-body dynamics in terms of a single particle one on the Hilbert space and provides an explicit link between the many-body and single particle scars. Exploiting this perspective, we show that an integrability-breaking disorder enhances the scars followed by inhibition of the dynamics due to strong localization of the eigenstates in the large disorder limit. Next, mapping the model to the spin-1/2 XX Heisenberg chain offers a simple geometrical perspective on the recently proposed Onsager scars [PRL ${\bf 124}$, 180604 (2020)], which can be identified with the scars on the edge of the Hilbert space. This makes apparent the origin of their insensitivity to certain types of disorder perturbations.
翻訳日:2023-04-21 07:48:36 公開日:2020-12-09
# カオスおよび局在多体量子系におけるスペクトルリアプノフ指数

Spectral Lyapunov exponents in chaotic and localized many-body quantum systems ( http://arxiv.org/abs/2012.05295v1 )

ライセンス: Link先を確認
Amos Chan, Andrea De Luca, J. T. Chalker(参考訳) 量子カオスおよび多体局在相(MBL)における乱れ、周期的に駆動されるスピン鎖に対するフロケ作用素のスペクトル統計を考察する。 スペクトル統計学はフロッケ作用素のパワーが t$ であるのを特徴とし、局所的な相互作用を持つ系における整数 $t$ に対して、これらのトレースが双対移動行列の積で再表現され、それぞれがシステムの空間的スライスを表すという事実に依拠する。 Lyapunov exponents のスペクトルで表される双対移動行列の積の性質に焦点をあて、これは \textit{spectral Lyapunov exponents} と呼ばれる。 特に、カオス相とmbl相を区別するこのスペクトルの特徴について検討する。 転送行列は時間変換対称性を用いてブロック対角化することができ、スペクトルリャプノフ指数は時間方向の運動量に応じて分類される。 大きな$t$の場合、各運動量セクターにおけるリーリーなリャプノフ指数はカオス相ではゼロになる傾向にあり、MBL相では有限であると主張する。 これらの結論は、3つの相補的な計算結果に基づいている。 実地ヒルベルト空間次元$q$のFloquetランダム量子回路を大容量$q$極限で考えることにより、カオス相の正確な結果を求める。 MBL相では、非相互作用系のモデル、弱い結合系、運動の局所積分を体系的に解析することにより、スペクトルリアプノフ指数が有限であることを示す。 数値計算により,Floquetランダム量子回路のリアプノフ指数と,2相のイジングモデルについて計算する。 付加的な結果として、大きな$q$制限の高点スペクトル形状因子(hpSFF)を正確に計算し、大$q$カオス相のすべてのhpSFFに対して、一般化されたThouless時間がシステムサイズで対数的にスケールすることを示す。

We consider the spectral statistics of the Floquet operator for disordered, periodically driven spin chains in their quantum chaotic and many-body localized phases (MBL). The spectral statistics are characterized by the traces of powers $t$ of the Floquet operator, and our approach hinges on the fact that, for integer $t$ in systems with local interactions, these traces can be re-expressed in terms of products of dual transfer matrices, each representing a spatial slice of the system. We focus on properties of the dual transfer matrix products as represented by a spectrum of Lyapunov exponents, which we call \textit{spectral Lyapunov exponents}. In particular, we examine the features of this spectrum that distinguish chaotic and MBL phases. The transfer matrices can be block-diagonalized using time-translation symmetry, and so the spectral Lyapunov exponents are classified according to a momentum in the time direction. For large $t$ we argue that the leading Lyapunov exponents in each momentum sector tend to zero in the chaotic phase, while they remain finite in the MBL phase. These conclusions are based on results from three complementary types of calculation. We find exact results for the chaotic phase by considering a Floquet random quantum circuit with on-site Hilbert space dimension $q$ in the large-$q$ limit. In the MBL phase, we show that the spectral Lyapunov exponents remain finite by systematically analyzing models of non-interacting systems, weakly coupled systems, and local integrals of motion. Numerically, we compute the Lyapunov exponents for a Floquet random quantum circuit and for the kicked Ising model in the two phases. As an additional result, we calculate exactly the higher point spectral form factors (hpSFF) in the large-$q$ limit, and show that the generalized Thouless time scales logarithmically in system size for all hpSFF in the large-$q$ chaotic phase.
翻訳日:2023-04-21 07:48:17 公開日:2020-12-09
# グラスマン幾何学によるスレーター行列式の電子波関数から多様体への距離の計算

Calculating the distance from an electronic wave function to the manifold of Slater determinants through the geometry of Grassmannians ( http://arxiv.org/abs/2012.05283v1 )

ライセンス: Link先を確認
Yuri Alexandre Aoto and M\'arcio Fabiano da Silva(参考訳) 単一のスレーター行列式として表現できる全ての電子状態の集合は、波動関数の射影ヒルベルト空間のグラスマン多様体に同型な部分多様体を形成する。 我々は、Absilらによって記述されたグラスマン幾何学のリーマン幾何学の道具を用いてこの事実を探求した。 al [acta app. math. 80, 199 (2004)] は、相関波動関数と重なり関数の臨界点であるスレーター行列式に収束するアルゴリズムを提案する。 このアルゴリズムは、波動関数の絡み合いや相関を定量化するために応用することができる。 このアルゴリズムは、軌道回転によるスレイター行列式の標準パラメトリゼーションを用いたニュートン法と同値であるが、相関波動関数を表現するために使われる軌道基底が繰り返しを通じて固定されているため、より効率的に実装できる。 本稿では,この手法の一般構成相互作用波動関数および参照行列上で最大2倍の励起を持つ波動関数に対する方程式について述べる。 選択した電子系に対するこのアルゴリズムの応用についても述べる。

The set of all electronic states that can be expressed as a single Slater determinant forms a submanifold, isomorphic to the Grassmannian, of the projective Hilbert space of wave functions. We explored this fact by using tools of Riemannian geometry of Grassmannians as described by Absil et. al [Acta App. Math. 80, 199 (2004)], to propose an algorithm that converges to a Slater determinant that is critical point of the overlap function with a correlated wave function. This algorithm can be applied to quantify the entanglement or correlation of a wave function. We show that this algorithm is equivalent to the Newton method using the standard parametrization of Slater determinants by orbital rotations, but it can be more efficiently implemented because the orbital basis used to express the correlated wave function is kept fixed throughout the iterations. We present the equations of this method for a general configuration interaction wave function and for a wave function with up to double excitations over a reference determinant. Applications of this algorithm to selected electronic systems are also presented and discussed.
翻訳日:2023-04-21 07:47:39 公開日:2020-12-09
# ブラックホールはエントロピーを最も速く飽和させる

Black holes often saturate entanglement entropy the fastest ( http://arxiv.org/abs/2001.03172v3 )

ライセンス: Link先を確認
M\'ark Mezei and Wilke van der Schee(参考訳) 多体量子系の部分領域の絡み合いエントロピーの速度は、クエンチで飽和する: $t_\text{sat}\geq R/v_B$, where $t_\text{sat}$ is the saturation time, $R$ the radius of the largest inscription sphere, $v_B$ the butterfly velocity characterizing operator growth。 解析的および数値的なアプローチを組み合わせることで、ホログラフィック双対を持つ系では、飽和時間は様々な異なる形状の絡み合い曲面に対してこの下界に等しいことが示され、双対ブラックホールはできるだけ早く絡み合いエントロピーを飽和させることが示されている。 この発見は、ブラックホールが最高速であるタスクのリストを増している。 さらに,様々な形状の大規模領域におけるエンタングルメントエントロピーの完全時間進化を解析し,これらの系における熱化過程についてより詳細な情報を得る。

There is a simple bound on how fast the entanglement entropy of a subregion of a many-body quantum system can saturate in a quench: $t_\text{sat}\geq R/v_B$, where $t_\text{sat}$ is the saturation time, $R$ the radius of the largest inscribed sphere, and $v_B$ the butterfly velocity characterizing operator growth. By combining analytic and numerical approaches, we show that in systems with a holographic dual, the saturation time is equal to this lower bound for a variety of differently shaped entangling surfaces, implying that the dual black holes saturate the entanglement entropy as fast as possible. This finding adds to the growing list of tasks that black holes are the fastest at. We furthermore analyze the complete time evolution of entanglement entropy for large regions with a variety of shapes, yielding more detailed information about the process of thermalization in these systems.
翻訳日:2023-01-13 05:41:21 公開日:2020-12-09
# 多平面肺結節検出のための深層畳み込みニューラルネットワーク:小結節識別の改善

Deep convolutional neural networks for multi-planar lung nodule detection: improvement in small nodule identification ( http://arxiv.org/abs/2001.04537v3 )

ライセンス: Link先を確認
Sunyi Zheng, Ludo J. Cornelissen, Xiaonan Cui, Xueping Jing, Raymond N. J. Veldhuis, Matthijs Oudkerk, and Peter M.A. van Ooijen(参考訳) 目的: 臨床において小肺結節は放射線科医によって容易に見過ごせる。 本研究の目的は, 肺小結節に対する高効率かつ高精度な肺結節検出システムを提供することである。 手法:畳み込みニューラルネットワークを用いた複数平面検出システムを提案する。 2次元畳み込みニューラルネットワークモデルであるu-net++は、候補検出タスクのために軸、コロナ、矢状スライスによって訓練された。 3つの異なる平面から可能な全てのノジュール候補は結合される。 偽陽性の除去には、3次元多次元高密度畳み込みニューラルネットワークを用いて効率よく偽陽性候補を除去する。 LIDC-IDRIデータセットは888個のCTスキャンと1186個の結節を4人の放射線技師が注釈した。 結果: 10倍のクロスバリデーション後, 本システムでは94.2%, 1.0偽陽性/スキャン, 96.0%, 2.0偽陽性/スキャンの感度を得た。 小型の結節(すなわち<6mm)を検出することは困難であるが、設計したcadシステムは、これらの小結節の93.4% (95.0%) の感度に達し、全体の偽陽性率は1.0 (2.0) の偽陽性/scanである。 結節候補検出段階では,複数平面法が単一平面を用いた場合に比べて多くの結節を検出できることを示す。 結論:本手法は小結節だけでなく,本データセットの大規模な病変にも有効である。 本研究は肺結節検出のためのCADシステムの有効性と効率性を示す。 意義: 本システムは, 肺癌早期発見における放射線科医の支援を期待できる。

Objective: In clinical practice, small lung nodules can be easily overlooked by radiologists. The paper aims to provide an efficient and accurate detection system for small lung nodules while keeping good performance for large nodules. Methods: We propose a multi-planar detection system using convolutional neural networks. The 2-D convolutional neural network model, U-net++, was trained by axial, coronal, and sagittal slices for the candidate detection task. All possible nodule candidates from the three different planes are combined. For false positive reduction, we apply 3-D multi-scale dense convolutional neural networks to efficiently remove false positive candidates. We use the public LIDC-IDRI dataset which includes 888 CT scans with 1186 nodules annotated by four radiologists. Results: After ten-fold cross-validation, our proposed system achieves a sensitivity of 94.2% with 1.0 false positive/scan and a sensitivity of 96.0% with 2.0 false positives/scan. Although it is difficult to detect small nodules (i.e. < 6 mm), our designed CAD system reaches a sensitivity of 93.4% (95.0%) of these small nodules at an overall false positive rate of 1.0 (2.0) false positives/scan. At the nodule candidate detection stage, results show that a multi-planar method is capable to detect more nodules compared to using a single plane. Conclusion: Our approach achieves good performance not only for small nodules, but also for large lesions on this dataset. This demonstrates the effectiveness and efficiency of our developed CAD system for lung nodule detection. Significance: The proposed system could provide support for radiologists on early detection of lung cancer.
翻訳日:2023-01-11 22:57:03 公開日:2020-12-09
# WICA:非線形重み付きICA

WICA: nonlinear weighted ICA ( http://arxiv.org/abs/2001.04147v2 )

ライセンス: Link先を確認
Andrzej Bedychaj, Przemys{\l}aw Spurek, Aleksandra Nowak, Jacek Tabor(参考訳) 独立成分分析(ICA)は、データのコンポーネントが独立している座標系を見つけることを目的としている。 本稿では,wicaと呼ばれる新しい非線形icaモデルを構築し,他のアルゴリズムよりも良く,より安定な結果を得る。 正規重み付きデータに対する相関係数の計算を用いて、非線形依存を検証する新しい効率的な方法によって重要なツールが与えられる。 さらに、同種の実験を行うための新しいベースライン非線形混合法と、非線形モデルの公正な比較を可能にする信頼性尺度を提案する。 wicaのコードはgithub https://github.com/gmum/wicaで入手できます。

Independent Component Analysis (ICA) aims to find a coordinate system in which the components of the data are independent. In this paper we construct a new nonlinear ICA model, called WICA, which obtains better and more stable results than other algorithms. A crucial tool is given by a new efficient method of verifying nonlinear dependence with the use of computation of correlation coefficients for normally weighted data. In addition, authors propose a new baseline nonlinear mixing to perform comparable experiments, and a~reliable measure which allows fair comparison of nonlinear models. Our code for WICA is available on Github https://github.com/gmum/wica.
翻訳日:2023-01-11 22:39:43 公開日:2020-12-09
# NLocalSAT: ソリューション予測によるローカル検索の強化

NLocalSAT: Boosting Local Search with Solution Prediction ( http://arxiv.org/abs/2001.09398v4 )

ライセンス: Link先を確認
Wenjie Zhang, Zeyu Sun, Qihao Zhu, Ge Li, Shaowei Cai, Yingfei Xiong, and Lu Zhang(参考訳) ブール満足度問題(英: Boolean satisfiability problem、SAT)は、コンピュータ科学におけるNP完全問題である。 SAT問題を解く効果的な方法は確率的局所探索(SLS)である。 しかし、この手法では初期化をランダムに割り当て、SLSソルバの有効性に影響を与える。 この問題に対処するため,NLocalSATを提案する。 NLocalSATは、SLSとソリューション予測モデルを組み合わせることで、ニューラルネットワークによる初期化割り当てを変更することで、SLSを促進する。 NLocalSATを5つのSLSソルバ(CCAnr, Sparrow, CPSparrow, YalSAT, probSAT)で評価した。 実験の結果,NLocalSATは元のSLSソルバよりも27%~62%改善した。

The Boolean satisfiability problem (SAT) is a famous NP-complete problem in computer science. An effective way for solving a satisfiable SAT problem is the stochastic local search (SLS). However, in this method, the initialization is assigned in a random manner, which impacts the effectiveness of SLS solvers. To address this problem, we propose NLocalSAT. NLocalSAT combines SLS with a solution prediction model, which boosts SLS by changing initialization assignments with a neural network. We evaluated NLocalSAT on five SLS solvers (CCAnr, Sparrow, CPSparrow, YalSAT, and probSAT) with instances in the random track of SAT Competition 2018. The experimental results show that solvers with NLocalSAT achieve 27% ~ 62% improvement over the original SLS solvers.
翻訳日:2023-01-06 19:25:01 公開日:2020-12-09
# 所定のサイズの2つのクラスタリングに対する最小調整ランド指数

Minimum adjusted Rand index for two clusterings of a given size ( http://arxiv.org/abs/2002.03677v3 )

ライセンス: Link先を確認
Jos\'e E. Chac\'on, Ana I. Rastrojo(参考訳) 調整されたランド指数(ari)は、2つのデータ分割間の一致度を測定するためにクラスタ分析で一般的に用いられる。 導入以来、この指標をよりよく理解するために、異なる状況下での極端な合意や不一致の状況を探究することが関心の対象となっている。 ここでは、与えられた大きさの2つのクラスタリングに対するARIの最小値の明示的な式を示し、さらに、そのような境界を達成する特定の一対のクラスタリングを提供する。

The adjusted Rand index (ARI) is commonly used in cluster analysis to measure the degree of agreement between two data partitions. Since its introduction, exploring the situations of extreme agreement and disagreement under different circumstances has been a subject of interest, in order to achieve a better understanding of this index. Here, an explicit formula for the lowest possible value of the ARI for two clusterings of given sizes is shown, and moreover a specific pair of clusterings achieving such a bound is provided.
翻訳日:2023-01-02 07:39:32 公開日:2020-12-09
# バッチ正規化はディープネットワークのアイデンティティ関数に対する残差ブロックのバイアスを負う

Batch Normalization Biases Residual Blocks Towards the Identity Function in Deep Networks ( http://arxiv.org/abs/2002.10444v3 )

ライセンス: Link先を確認
Soham De, Samuel L. Smith(参考訳) バッチ正規化は、残差ネットワークの最大訓練可能な深さを劇的に増加させ、この利点は、幅広いベンチマークにおける深い残差ネットワークの実証的成功に不可欠である。 この鍵となる利点は、初期化時にネットワーク深さの平方根の順序に対する正規化係数により、バッチ正規化がスキップ接続に対する残留分岐をダウンスケールするためである。 これにより、訓練の早い段階で、ディープネットワークの正規化残差ブロックによって計算された関数がアイデンティティ関数(平均)に近いことが保証される。 この知見を応用して、正規化なしで深層残留ネットワークを訓練できる簡単な初期化手法を開発する。 また、残差ネットワークに関する詳細な実証研究を行い、バッチ正規化ネットワークはより大きな学習率でトレーニングすることができるが、この効果は特定の計算環境においてのみ有益であり、バッチサイズが小さい場合のメリットは最小限であることを明らかにした。

Batch normalization dramatically increases the largest trainable depth of residual networks, and this benefit has been crucial to the empirical success of deep residual networks on a wide range of benchmarks. We show that this key benefit arises because, at initialization, batch normalization downscales the residual branch relative to the skip connection, by a normalizing factor on the order of the square root of the network depth. This ensures that, early in training, the function computed by normalized residual blocks in deep networks is close to the identity function (on average). We use this insight to develop a simple initialization scheme that can train deep residual networks without normalization. We also provide a detailed empirical study of residual networks, which clarifies that, although batch normalized networks can be trained with larger learning rates, this effect is only beneficial in specific compute regimes, and has minimal benefits when the batch size is small.
翻訳日:2022-12-29 02:44:45 公開日:2020-12-09
# 感覚と感性分析: 観察不能なコンバウンディングによるバイアスの簡易ポストホック分析

Sense and Sensitivity Analysis: Simple Post-Hoc Analysis of Bias Due to Unobserved Confounding ( http://arxiv.org/abs/2003.01747v2 )

ライセンス: Link先を確認
Victor Veitch and Anisha Zaveri(参考訳) 既知のメカニズムを持たない観測された関連が因果推定を望まなければならないことは、普遍的に認識されている真実である。 しかし、観測データからの因果推定は、しばしば'noobserved confounding'の(検証不能な)仮定に依存する。 この仮定の違反は効果推定のバイアスを引き起こす。 原則として、そのようなバイアスは研究の結論を無効にしたり、覆したりすることができる。 しかし、いくつかのケースでは、観測されていない共同設立者の影響が「大きな」推定効果に対して弱いことを願っているため、定性的な結論は観測されていない共同設立者からの偏見に頑健である。 本研究の目的は,非オブザーブド結合によって引き起こされる潜在的なバイアスを判断しやすくし,そのような判断を支援する感度分析ツールである \emph{austen plots} を開発することである。 我々は、共同創設者が治療の課題や成果にどれほど強く影響するかという点で、確固たる強みを定式化する。 対象バイアスレベルに対して、オーステンプロットは、そのバイアスレベルを誘導するために必要な治療の最小値と結果の影響を示す。 ドメインの専門家は、そのような強力な共同創設者が妥当かどうかを主観的に判断することができる。 この判断を助けるために、オーステンプロットは観測された共変量の(グループの)影響強度を推定する。 オーステンプロットはイムベンスの古典感度解析アプローチを一般化する[Imb03]。 批判的に、オーステンプロットは観測されたデータをモデル化し、最初の見積もりを生成するあらゆるアプローチを可能にする。 本稿では,いくつかの因果推論問題に対するバイアスを,初期データ解析にさまざまな機械学習アプローチを用いて評価する。 コードはhttps://github.com/anishazaveri/austen_plotsで入手できる。

It is a truth universally acknowledged that an observed association without known mechanism must be in want of a causal estimate. However, causal estimation from observational data often relies on the (untestable) assumption of `no unobserved confounding'. Violations of this assumption can induce bias in effect estimates. In principle, such bias could invalidate or reverse the conclusions of a study. However, in some cases, we might hope that the influence of unobserved confounders is weak relative to a `large' estimated effect, so the qualitative conclusions are robust to bias from unobserved confounding. The purpose of this paper is to develop \emph{Austen plots}, a sensitivity analysis tool to aid such judgments by making it easier to reason about potential bias induced by unobserved confounding. We formalize confounding strength in terms of how strongly the confounder influences treatment assignment and outcome. For a target level of bias, an Austen plot shows the minimum values of treatment and outcome influence required to induce that level of bias. Domain experts can then make subjective judgments about whether such strong confounders are plausible. To aid this judgment, the Austen plot additionally displays the estimated influence strength of (groups of) the observed covariates. Austen plots generalize the classic sensitivity analysis approach of Imbens [Imb03]. Critically, Austen plots allow any approach for modeling the observed data and producing the initial estimate. We illustrate the tool by assessing biases for several real causal inference problems, using a variety of machine learning approaches for the initial data analysis. Code is available at https://github.com/anishazaveri/austen_plots
翻訳日:2022-12-26 22:35:55 公開日:2020-12-09
# 一般化可能な歩行者検出:部屋のエレファント

Generalizable Pedestrian Detection: The Elephant In The Room ( http://arxiv.org/abs/2003.08799v7 )

ライセンス: Link先を確認
Irtiza Hasan, Shengcai Liao, Jinpeng Li, Saad Ullah Akram, and Ling Shao(参考訳) 歩行者検出は、ビデオ監視から自動運転まで、多くのビジョンベースのアプリケーションで使われている。 高い性能を達成しているにもかかわらず、既存の検出器がいかによく検出されていないデータに一般化しているかは、いまだにほとんど分かっていない。 これは、実用的な検出器がアプリケーションの様々なシナリオで使えるようにする必要があるためである。 そこで本稿では,直交データセット評価の一般的な原理を用いて,包括的研究を行う。 本研究では,既存の歩行者検出装置が,同じデータセット上でトレーニングやテストを行う場合,非常によく機能するが,クロスデータセットの評価が不十分であることを示す。 この傾向には2つの理由があることを示す。 第一に、その設計(例えばアンカー設定)は、従来の単一データセットのトレーニングとテストパイプラインで人気のあるベンチマークに偏っているかもしれないが、結果として、その一般化能力はほとんど制限される。 第2に、トレーニングソースは一般的に歩行者では密集せず、シナリオでは多様である。 直接のクロスデータセット評価では、意外なことに、歩行者に適応しない汎用の物体検出器は、既存の最先端の歩行者検出器と比較してはるかによく一般化されている。 さらに, web をクロールして収集した多様で密集したデータセットが,歩行者検出のための事前学習の効率的な情報源であることを示す。 そこで本研究では,プログレッシブトレーニングパイプラインを提案し,自動運転指向の歩行者検出に有効であることを示す。 そこで,本論文では,歩行者検知器の汎用設計に向けてのクロスデータセット評価に重点を置く必要があることを示唆する。 コードとモデルはhttps://github.com/hasanirtiza/pedestronからアクセスできる。

Pedestrian detection is used in many vision based applications ranging from video surveillance to autonomous driving. Despite achieving high performance, it is still largely unknown how well existing detectors generalize to unseen data. This is important because a practical detector should be ready to use in various scenarios in applications. To this end, we conduct a comprehensive study in this paper, using a general principle of direct cross-dataset evaluation. Through this study, we find that existing state-of-the-art pedestrian detectors, though perform quite well when trained and tested on the same dataset, generalize poorly in cross dataset evaluation. We demonstrate that there are two reasons for this trend. Firstly, their designs (e.g. anchor settings) may be biased towards popular benchmarks in the traditional single-dataset training and test pipeline, but as a result largely limit their generalization capability. Secondly, the training source is generally not dense in pedestrians and diverse in scenarios. Under direct cross-dataset evaluation, surprisingly, we find that a general purpose object detector, without pedestrian-tailored adaptation in design, generalizes much better compared to existing state-of-the-art pedestrian detectors. Furthermore, we illustrate that diverse and dense datasets, collected by crawling the web, serve to be an efficient source of pre-training for pedestrian detection. Accordingly, we propose a progressive training pipeline and find that it works well for autonomous-driving oriented pedestrian detection. Consequently, the study conducted in this paper suggests that more emphasis should be put on cross-dataset evaluation for the future design of generalizable pedestrian detectors. Code and models can be accessed at https://github.com/hasanirtiza/Pedestron.
翻訳日:2022-12-22 04:34:33 公開日:2020-12-09
# 機械学習モデルにおけるプライバシーリスクの体系的評価

Systematic Evaluation of Privacy Risks of Machine Learning Models ( http://arxiv.org/abs/2003.10595v2 )

ライセンス: Link先を確認
Liwei Song, Prateek Mittal(参考訳) 機械学習モデルはセンシティブなデータを記憶する傾向があり、敵がモデルのトレーニングに入力サンプルを使用したかどうかを推測するメンバーシップ推論攻撃に対して脆弱である。 本稿では,攻撃を行うためのカスタムニューラルネットワーク分類器の訓練にのみ依存し,攻撃精度などのデータサンプルの集計結果にのみ焦点をあてることで,メンバーシップ推論攻撃の先行研究がプライバシーリスクを著しく過小評価する可能性があることを示す。 これらの制約を克服するため,我々はまず,既存の非ニューラルネットワークに基づく推論攻撃を改善し,予測エントロピーの修正に基づく新たな推論攻撃手法を提案することで,メンバシップ推論のプライバシーリスクをベンチマークする。 また, モデル精度とプライバシリスクのトレードオフを考慮し, 防御の知識を有する適応的敵を考慮し, 防御機構のベンチマークも提案する。 ベンチマーク攻撃を用いて、既存の防御アプローチが以前報告したほど効果的ではないことを示す。 次に、プライバシリスクスコアと呼ばれる新しい指標を定式化して導出した、きめ細かいプライバシー分析のための新しいアプローチを提案する。 我々のプライバシリスクスコアは、個々のサンプルがトレーニングメンバーになる可能性を測定し、敵が高いプライバシリスクを持つサンプルを識別し、高い信頼性で攻撃を行うことを可能にする。 プライバシリスクスコアの有効性を実験的に検証し,個々のサンプル間でのプライバシリスクスコアの分布が異質であることを実証した。 最後に,モデル感度,一般化誤差,機能埋め込みとの相関など,特定のサンプルがプライバシリスクが高い理由を理解するための詳細な調査を行う。 我々の研究は、機械学習モデルのプライバシーリスクを体系的かつ厳格に評価することの重要性を強調している。

Machine learning models are prone to memorizing sensitive data, making them vulnerable to membership inference attacks in which an adversary aims to guess if an input sample was used to train the model. In this paper, we show that prior work on membership inference attacks may severely underestimate the privacy risks by relying solely on training custom neural network classifiers to perform attacks and focusing only on the aggregate results over data samples, such as the attack accuracy. To overcome these limitations, we first propose to benchmark membership inference privacy risks by improving existing non-neural network based inference attacks and proposing a new inference attack method based on a modification of prediction entropy. We also propose benchmarks for defense mechanisms by accounting for adaptive adversaries with knowledge of the defense and also accounting for the trade-off between model accuracy and privacy risks. Using our benchmark attacks, we demonstrate that existing defense approaches are not as effective as previously reported. Next, we introduce a new approach for fine-grained privacy analysis by formulating and deriving a new metric called the privacy risk score. Our privacy risk score metric measures an individual sample's likelihood of being a training member, which allows an adversary to identify samples with high privacy risks and perform attacks with high confidence. We experimentally validate the effectiveness of the privacy risk score and demonstrate that the distribution of privacy risk score across individual samples is heterogeneous. Finally, we perform an in-depth investigation for understanding why certain samples have high privacy risks, including correlations with model sensitivity, generalization error, and feature embeddings. Our work emphasizes the importance of a systematic and rigorous evaluation of privacy risks of machine learning models.
翻訳日:2022-12-20 08:32:02 公開日:2020-12-09
# 非対称音源1対多ニューラルトランスファーのためのトランスファー学習とサブワードサンプリング

Transfer learning and subword sampling for asymmetric-resource one-to-many neural translation ( http://arxiv.org/abs/2004.04002v2 )

ライセンス: Link先を確認
Stig-Arne Gr\"onroos and Sami Virpioja and Mikko Kurimo(参考訳) 低リソース言語のためのニューラルマシン翻訳を改善するには、いくつかのアプローチがある: 事前訓練やデータ拡張によって単言語データを活用できる; 関連言語対の並列コーパスは、多言語モデルにおけるパラメータ共有や転送学習を通じて使用できる; 単語のサブワード分割と正規化技術は、語彙の高カバレッジを保証するために適用できる。 我々は, 対象言語対が関連している非対称翻訳タスクの文脈において, 対象言語対が極めて低リソースであり, 他方が高リソース言語である場合, それらのアプローチを考察する。 英語はエストニア語(低資源)、フィンランド語(高資源)、英語はスロバキア語とチェコ語、英語はデンマーク語とスウェーデン語、現実世界ではノルウェー語から北スワミ語、フィンランド語である。 実験は、特にスケジュールされたマルチタスク学習、denoising autoencoder、サブワードサンプリングに肯定的な効果を示す。

There are several approaches for improving neural machine translation for low-resource languages: Monolingual data can be exploited via pretraining or data augmentation; Parallel corpora on related language pairs can be used via parameter sharing or transfer learning in multilingual models; Subword segmentation and regularization techniques can be applied to ensure high coverage of the vocabulary. We review these approaches in the context of an asymmetric-resource one-to-many translation task, in which the pair of target languages are related, with one being a very low-resource and the other a higher-resource language. We test various methods on three artificially restricted translation tasks -- English to Estonian (low-resource) and Finnish (high-resource), English to Slovak and Czech, English to Danish and Swedish -- and one real-world task, Norwegian to North S\'ami and Finnish. The experiments show positive effects especially for scheduled multi-task learning, denoising autoencoder, and subword sampling.
翻訳日:2022-12-15 08:55:56 公開日:2020-12-09
# 多言語ヘイトスピーチ検出のためのディープラーニングモデル

Deep Learning Models for Multilingual Hate Speech Detection ( http://arxiv.org/abs/2004.06465v3 )

ライセンス: Link先を確認
Sai Saketh Aluru, Binny Mathew, Punyajoy Saha, and Animesh Mukherjee(参考訳) ヘイトスピーチ検出は、ほとんどのデータセットが1つの言語でのみ利用できるという難しい問題である。 本稿では、16の異なるソースから9言語で多言語ヘイトスピーチを大規模に分析する。 我々は、低リソース設定において、ロジスティック回帰を用いたLASER埋め込みのような単純なモデルが最も良く、高リソース設定のBERTベースモデルの方が優れたことを観察する。 ゼロショット分類の場合、イタリア語やポルトガル語のような言語は良い結果をもたらす。 提案フレームワークは低リソース言語のための効率的なソリューションとして使用できる。 これらのモデルは、将来の多言語ヘイトスピーチ検出タスクのベースラインとしても機能する。 コードと実験的な設定をhttps://github.com/punyajoy/DE-LIMIT.comで公開しました。

Hate speech detection is a challenging problem with most of the datasets available in only one language: English. In this paper, we conduct a large scale analysis of multilingual hate speech in 9 languages from 16 different sources. We observe that in low resource setting, simple models such as LASER embedding with logistic regression performs the best, while in high resource setting BERT based models perform better. In case of zero-shot classification, languages such as Italian and Portuguese achieve good results. Our proposed framework could be used as an efficient solution for low-resource languages. These models could also act as good baselines for future multilingual hate speech detection tasks. We have made our code and experimental settings public for other researchers at https://github.com/punyajoy/DE-LIMIT.
翻訳日:2022-12-13 09:59:02 公開日:2020-12-09
# DeepPurpose:ドラッグ・ターゲット相互作用予測のためのディープラーニングライブラリ

DeepPurpose: a Deep Learning Library for Drug-Target Interaction Prediction ( http://arxiv.org/abs/2004.08919v3 )

ライセンス: Link先を確認
Kexin Huang, Tianfan Fu, Lucas Glass, Marinka Zitnik, Cao Xiao, Jimeng Sun(参考訳) 薬物-標的相互作用(DTI)の正確な予測は、薬物発見に不可欠である。 近年,DTI予測に期待できる性能を示すためのディープラーニング(DL)モデルが提案されている。 しかし、これらのモデルは、生物医学分野に参入するコンピュータ科学者と、dl経験に乏しいバイオインフォマティクス研究者の両方にとって、利用が困難である。 DTI予測のための包括的で使いやすいディープラーニングライブラリであるDeepPurposeを提案する。 deeppurposeは15の複合およびタンパク質エンコーダと50以上のニューラルアーキテクチャを実装し、他の多くの有用な機能を提供することで、カスタマイズされたdti予測モデルのトレーニングをサポートする。 複数のベンチマークデータセット上でDeepPurposeの最先端性能を示す。

Accurate prediction of drug-target interactions (DTI) is crucial for drug discovery. Recently, deep learning (DL) models for show promising performance for DTI prediction. However, these models can be difficult to use for both computer scientists entering the biomedical field and bioinformaticians with limited DL experience. We present DeepPurpose, a comprehensive and easy-to-use deep learning library for DTI prediction. DeepPurpose supports training of customized DTI prediction models by implementing 15 compound and protein encoders and over 50 neural architectures, along with providing many other useful features. We demonstrate state-of-the-art performance of DeepPurpose on several benchmark datasets.
翻訳日:2022-12-11 23:55:07 公開日:2020-12-09
# JointsGait:歩行グラフ畳み込みネットワークと関節関係ピラミッドマッピングに基づくモデルに基づく歩行認識手法

JointsGait:A model-based Gait Recognition Method based on Gait Graph Convolutional Networks and Joints Relationship Pyramid Mapping ( http://arxiv.org/abs/2005.08625v2 )

ライセンス: Link先を確認
Na Li, Xinbo Zhao, Chong Ma(参考訳) gaitは、ユニークな生体認証機能の1つであり、長距離から認識される利点があり、公共のセキュリティに広く利用することができる。 本研究では, 3次元ポーズ推定が2次元ポーズ推定よりも難しいことを考慮し, 2次元関節を用いた歩行認識について検討し, 2次元人体関節から歩行情報を抽出するための新しいモデルに基づく歩行認識法について検討した。 外観に基づく歩行認識アルゴリズムは以前より普及していた。 しかし、外観の特徴は外的要因に悩まされ、例えば衣服などの劇的な外観変化を引き起こす。 従来のアプローチとは異なり、JointsGaitは、外的要因の影響を受けない歩行グラフ畳み込みネットワークを用いて、2次元関節から時空間的特徴を抽出した。 第2に, 歩行時空間と時空間の歩行特徴を, 歩行時におけるヒト関節の関係に応じて生物学的に有利な特徴空間にマッピングするために, 関節関係ピラミッドマッピング (jrpm) が提案されている。 最後に,ジョイント機能がクロスビューに敏感にならないよう,融合損失戦略を考案する。 本手法はKinect Gait Biometry Dataset と CASIA-B の2つの大規模データセットを用いて評価する。 Kinect Gait Biometry Datasetデータベースでは、JointsGaitは関節の2D座標のみを使用するが、3Dジョイントを用いたモデルベースアルゴリズムと比較して良好な認識精度を実現する。 casia-bデータベースにおいて,提案手法は歩行条件において高度なモデルベース手法を大幅に上回っており,衣服の外観に深刻な影響を及ぼす場合,最先端の外観ベース手法よりも優れている。 実験結果から,低次元特徴(2次元ボディジョイント)にもかかわらず,JointsGaitは最先端性能を達成でき,視差や衣服の変化の影響を受けないことがわかった。

Gait, as one of unique biometric features, has the advantage of being recognized from a long distance away, can be widely used in public security. Considering 3D pose estimation is more challenging than 2D pose estimation in practice , we research on using 2D joints to recognize gait in this paper, and a new model-based gait recognition method JointsGait is put forward to extract gait information from 2D human body joints. Appearance-based gait recognition algorithms are prevalent before. However, appearance features suffer from external factors which can cause drastic appearance variations, e.g. clothing. Unlike previous approaches, JointsGait firstly extracted spatio-temporal features from 2D joints using gait graph convolutional networks, which are less interfered by external factors. Secondly, Joints Relationship Pyramid Mapping (JRPM) are proposed to map spatio-temporal gait features into a discriminative feature space with biological advantages according to the relationship of human joints when people are walking at various scales. Finally, we design a fusion loss strategy to help the joints features to be insensitive to cross-view. Our method is evaluated on two large datasets, Kinect Gait Biometry Dataset and CASIA-B. On Kinect Gait Biometry Dataset database, JointsGait only uses corresponding 2D coordinates of joints, but achieves satisfactory recognition accuracy compared with those model-based algorithms using 3D joints. On CASIA-B database, the proposed method greatly outperforms advanced model-based methods in all walking conditions, even performs superior to state-of-art appearance-based methods when clothing seriously affect people's appearance. The experimental results demonstrate that JointsGait achieves the state-of-art performance despite the low dimensional feature (2D body joints) and is less affected by the view variations and clothing variation.
翻訳日:2022-12-09 05:56:57 公開日:2020-12-09
# SkipGNN: スキップグラフネットワークによる分子相互作用予測

SkipGNN: Predicting Molecular Interactions with Skip-Graph Networks ( http://arxiv.org/abs/2004.14949v2 )

ライセンス: Link先を確認
Kexin Huang, Cao Xiao, Lucas Glass, Marinka Zitnik, Jimeng Sun(参考訳) 分子相互作用ネットワークは発見のための強力な資源である。 それらは、生物学的に意味のある相互作用を予測する機械学習手法でますます使われています。 グラフの深層学習は予測能力を劇的に向上させてきたが、現在のグラフニューラルネットワーク(GNN)手法は相互作用ノード間の直接的類似性に基づいて予測に最適化されている。 しかし、生体ネットワークでは、直接相互作用しないノード間の類似性は、様々な相互作用ネットワークで過去10年間に非常に有用であることが証明されている。 本稿では,分子間相互作用の予測のためのグラフニューラルネットワークSkipGNNを提案する。 SkipGNNは直接相互作用から情報を集めるだけでなく、2階相互作用から分子間相互作用を予測する。 既存のGNNとは対照的に、SkipGNNは2ホップの隣人や通信ネットワークのすぐ隣人からニューラルメッセージを受信し、非線形変換して予測に有用な情報を得る。 GNNにスキップ類似性を注入するために、スキップグラフと呼ばれる元のネットワークの修正版を構築した。 次に、スキップグラフと元のグラフの両方を用いてGNNを最適化する反復融合方式を開発する。 薬物・薬物・薬物・タンパク質・遺伝子・酵素相互作用を含む4つの相互作用ネットワークの実験により、skipgnnは、精密リコール曲線(pr-auc)下の領域の最大28.8\%で既存の方法よりも優れ、堅牢な性能を達成していることが示された。 さらに、一般的なGNNとは異なり、SkipGNNは生物学的に意味のある埋め込みを学び、特にノイズや不完全な相互作用ネットワークでよく機能することを示す。

Molecular interaction networks are powerful resources for the discovery. They are increasingly used with machine learning methods to predict biologically meaningful interactions. While deep learning on graphs has dramatically advanced the prediction prowess, current graph neural network (GNN) methods are optimized for prediction on the basis of direct similarity between interacting nodes. In biological networks, however, similarity between nodes that do not directly interact has proved incredibly useful in the last decade across a variety of interaction networks. Here, we present SkipGNN, a graph neural network approach for the prediction of molecular interactions. SkipGNN predicts molecular interactions by not only aggregating information from direct interactions but also from second-order interactions, which we call skip similarity. In contrast to existing GNNs, SkipGNN receives neural messages from two-hop neighbors as well as immediate neighbors in the interaction network and non-linearly transforms the messages to obtain useful information for prediction. To inject skip similarity into a GNN, we construct a modified version of the original network, called the skip graph. We then develop an iterative fusion scheme that optimizes a GNN using both the skip graph and the original graph. Experiments on four interaction networks, including drug-drug, drug-target, protein-protein, and gene-disease interactions, show that SkipGNN achieves superior and robust performance, outperforming existing methods by up to 28.8\% of area under the precision recall curve (PR-AUC). Furthermore, we show that unlike popular GNNs, SkipGNN learns biologically meaningful embeddings and performs especially well on noisy, incomplete interaction networks.
翻訳日:2022-12-08 05:34:53 公開日:2020-12-09
# 低品質網膜眼底画像のモデリングと拡張

Modeling and Enhancing Low-quality Retinal Fundus Images ( http://arxiv.org/abs/2005.05594v3 )

ライセンス: Link先を確認
Ziyi Shen, Huazhu Fu, Jianbing Shen and Ling Shao(参考訳) 網膜基底像は眼疾患のスクリーニングと診断に広く用いられている。 しかし、様々なレベルの経験を持つオペレーターが捉えた眼底画像は、品質に大きな変化がある。 低画質の眼底画像は臨床観察における不確実性を高め、誤診のリスクを引き起こす。 しかし、眼底イメージングの特殊な光学ビームと網膜の構造のため、自然画像強調法を直接利用することはできない。 本稿では,まず眼科撮像システムを分析し,不均一な照明,画像のぼかし,アーティファクトなどの主要下位品質因子の信頼性の高い劣化をシミュレートする。 そして, この劣化モデルに基づいて, 臨床観察と解析のための病態特性と解剖学的網膜構造を同時に保存しながら, グローバルな劣化要因を抑制するために, 臨床指向の基盤拡張ネットワーク (cofe-Net) を提案する。 合成画像と実画像の両方の実験により、我々のアルゴリズムは網膜の細部を失うことなく、低品質の眼底画像を効果的に補正することを示した。 また, 眼底補正法は, 網膜血管分割や視神経円板/カップ検出など, 医用画像解析の応用に有用であることを示す。

Retinal fundus images are widely used for the clinical screening and diagnosis of eye diseases. However, fundus images captured by operators with various levels of experience have a large variation in quality. Low-quality fundus images increase uncertainty in clinical observation and lead to the risk of misdiagnosis. However, due to the special optical beam of fundus imaging and structure of the retina, natural image enhancement methods cannot be utilized directly to address this. In this paper, we first analyze the ophthalmoscope imaging system and simulate a reliable degradation of major inferior-quality factors, including uneven illumination, image blurring, and artifacts. Then, based on the degradation model, a clinically oriented fundus enhancement network (cofe-Net) is proposed to suppress global degradation factors, while simultaneously preserving anatomical retinal structures and pathological characteristics for clinical observation and analysis. Experiments on both synthetic and real images demonstrate that our algorithm effectively corrects low-quality fundus images without losing retinal details. Moreover, we also show that the fundus correction method can benefit medical image analysis applications, e.g., retinal vessel segmentation and optic disc/cup detection.
翻訳日:2022-12-03 19:34:25 公開日:2020-12-09
# 準最適後悔を伴う無限ホリゾン平均回帰mdpのためのモデルフリー学習アルゴリズム

A Model-free Learning Algorithm for Infinite-horizon Average-reward MDPs with Near-optimal Regret ( http://arxiv.org/abs/2006.04354v2 )

ライセンス: Link先を確認
Mehdi Jafarnia-Jahromi, Chen-Yu Wei, Rahul Jain, Haipeng Luo(参考訳) 近年, モデルレス強化学習は, 単純さ, メモリ, 計算効率, 関数近似と組み合わせる柔軟性など, 研究の注目を集めている。 本稿では,無限ホリゾン平均回帰マルコフ決定プロセス(mdps)のためのモデルフリーなアルゴリズムである,弱通信型mdpsの一般クラスに対して,o(\sqrt{t})$の後悔の束縛を達成するための拡張型q-learning(ee-ql)を提案する。 EE-QLは、最適平均報酬のオンライン集中近似が利用可能であると仮定する。 これは、エルゴードの仮定なしで$o(\sqrt t)$ regretを達成する最初のモデルフリー学習アルゴリズムであり、対数因子を除いては$t$という下限に一致する。 実験の結果,提案アルゴリズムは最もよく知られたモデルベースアルゴリズムと同様に動作することがわかった。

Recently, model-free reinforcement learning has attracted research attention due to its simplicity, memory and computation efficiency, and the flexibility to combine with function approximation. In this paper, we propose Exploration Enhanced Q-learning (EE-QL), a model-free algorithm for infinite-horizon average-reward Markov Decision Processes (MDPs) that achieves regret bound of $O(\sqrt{T})$ for the general class of weakly communicating MDPs, where $T$ is the number of interactions. EE-QL assumes that an online concentrating approximation of the optimal average reward is available. This is the first model-free learning algorithm that achieves $O(\sqrt T)$ regret without the ergodic assumption, and matches the lower bound in terms of $T$ except for logarithmic factors. Experiments show that the proposed algorithm performs as well as the best known model-based algorithms.
翻訳日:2022-11-24 00:22:16 公開日:2020-12-09
# cyclegt: サイクルトレーニングによる教師なしグラフツーテキストおよびテキストツーグラフ生成

CycleGT: Unsupervised Graph-to-Text and Text-to-Graph Generation via Cycle Training ( http://arxiv.org/abs/2006.04702v3 )

ライセンス: Link先を確認
Qipeng Guo, Zhijing Jin, Xipeng Qiu, Weinan Zhang, David Wipf, Zheng Zhang(参考訳) 知識グラフと自然言語処理の交点における2つの重要なタスクは、graph-to-text(g2t)とtext-to-graph(t2g)変換である。 データ収集の困難さと高コストのため、2つのフィールドで利用可能な教師付きデータは、通常、数万の規模にある。例えば、前処理後のWebNLG~2017データセットの18Kは、機械翻訳のような他のタスクの何百万データよりもはるかに少ない。 その結果、G2TとT2Gのディープラーニングモデルは、ほとんど訓練データに悩まされている。 完全に並列でないグラフとテキストデータからブートストラップし、2つの形式を反復的に逆変換できる教師なしのトレーニング手法であるcyclegtを提案する。 WebNLGデータセットの実験では、同じ数のデータでトレーニングされた教師なしモデルは、複数の完全に教師されたモデルと同等のパフォーマンスを達成する。 非並列GenWikiデータセットに関するさらなる実験により、我々の手法が教師なしベースラインの中で最良であることを確認した。 これにより、G2TとT2Gの分野におけるデータ不足問題を克服するための効果的なアプローチとして、我々のフレームワークを検証する。 私たちのコードはhttps://github.com/qipengguo/cyclegtで利用可能です。

Two important tasks at the intersection of knowledge graphs and natural language processing are graph-to-text (G2T) and text-to-graph (T2G) conversion. Due to the difficulty and high cost of data collection, the supervised data available in the two fields are usually on the magnitude of tens of thousands, for example, 18K in the WebNLG~2017 dataset after preprocessing, which is far fewer than the millions of data for other tasks such as machine translation. Consequently, deep learning models for G2T and T2G suffer largely from scarce training data. We present CycleGT, an unsupervised training method that can bootstrap from fully non-parallel graph and text data, and iteratively back translate between the two forms. Experiments on WebNLG datasets show that our unsupervised model trained on the same number of data achieves performance on par with several fully supervised models. Further experiments on the non-parallel GenWiki dataset verify that our method performs the best among unsupervised baselines. This validates our framework as an effective approach to overcome the data scarcity problem in the fields of G2T and T2G. Our code is available at https://github.com/QipengGuo/CycleGT.
翻訳日:2022-11-23 23:56:20 公開日:2020-12-09
# Wasserstein Barycenters は固定次元の多項式時間で計算できる

Wasserstein barycenters can be computed in polynomial time in fixed dimension ( http://arxiv.org/abs/2006.08012v2 )

ライセンス: Link先を確認
Jason M. Altschuler, Enric Boix-Adsera(参考訳) コンピューティング wasserstein barycenters は、機械学習、統計学、コンピュータグラフィックスに広く応用される基本的な幾何学的問題である。 しかし、Wasserstein Barycenters が多項式時間、正確にまたは高い精度で計算できるかどうかは不明である(例えば $\textrm{polylog}(1/\varepsilon)$ ランタイム依存)。 本稿では,任意の固定次元に対する肯定的質問に答える。 計算幾何学の手法を用いて, 対応する分離オラクルを効率よく実装することにより, 指数関数型線形プログラミングの定式化を解く。

Computing Wasserstein barycenters is a fundamental geometric problem with widespread applications in machine learning, statistics, and computer graphics. However, it is unknown whether Wasserstein barycenters can be computed in polynomial time, either exactly or to high precision (i.e., with $\textrm{polylog}(1/\varepsilon)$ runtime dependence). This paper answers these questions in the affirmative for any fixed dimension. Our approach is to solve an exponential-size linear programming formulation by efficiently implementing the corresponding separation oracle using techniques from computational geometry.
翻訳日:2022-11-21 13:41:12 公開日:2020-12-09
# リーマン連続正規化流れ

Riemannian Continuous Normalizing Flows ( http://arxiv.org/abs/2006.10605v2 )

ライセンス: Link先を確認
Emile Mathieu and Maximilian Nickel(参考訳) 正規化フローは、計算可能な方法で柔軟な確率分布をモデル化する大きな可能性を示している。 しかし、データはしばしば球面、トーリイ、双曲空間のようなリーマン多様体上で自然に記述されるが、ほとんどの正規化フローは暗黙的に平坦な幾何学を仮定し、これらの状況に不適当である。 この問題を克服するために,滑らかな多様体上のフレキシブルな確率測度のパラメトリゼーションを,常微分方程式の解としてフローを定義するモデルであるリーマン連続正規化フローを導入する。 提案手法は,従来の流れや従来導入されていた流れと比較して,合成データと実世界のデータの両方を大幅に改善する可能性がある。

Normalizing flows have shown great promise for modelling flexible probability distributions in a computationally tractable way. However, whilst data is often naturally described on Riemannian manifolds such as spheres, torii, and hyperbolic spaces, most normalizing flows implicitly assume a flat geometry, making them either misspecified or ill-suited in these situations. To overcome this problem, we introduce Riemannian continuous normalizing flows, a model which admits the parametrization of flexible probability measures on smooth manifolds by defining flows as the solution to ordinary differential equations. We show that this approach can lead to substantial improvements on both synthetic and real-world data when compared to standard flows or previously introduced projected flows.
翻訳日:2022-11-19 12:46:46 公開日:2020-12-09
# 近距離時間でのトレーニング(Overparametrized)ニューラルネットワーク

Training (Overparametrized) Neural Networks in Near-Linear Time ( http://arxiv.org/abs/2006.11648v2 )

ライセンス: Link先を確認
Jan van den Brand, Binghui Peng, Zhao Song, Omri Weinstein(参考訳) ディープニューラルネットワークのトレーニングのための1次勾配法の緩やかな収束率と病理学的曲率問題により、一般化エラーを補うことなく、SGDを超えてより高速な$\mathit{second}$-$\mathit{order}$最適化アルゴリズムの開発が進められた。 その顕著な収束率($\mathit{independent}$ of the training batch size $n$)にもかかわらず、二階アルゴリズムは$\mathit{cost}$ $\mathit{per}$ $\mathit{iteration}$(損失関数のヘシアン行列を反転させる)という大胆なスローダウンを引き起こします。 最近では、この計算オーバーヘッドは [ZMG19,CGH+19} の研究により緩和され、多項式幅$m$の2層過パラメータニューラルネットワークをトレーニングするための$O(mn^2)$-time 2次アルゴリズムが得られた。我々は、フル勾配(ヤコビアン)行列の次元(mn$)のほぼ直線であるトレーニング用$\tilde{O}(mn)$-timeバックプロパゲーションアルゴリズム(英語版)のアルゴリズムをいかに高速化するかを示す。 我々のアルゴリズムの中心は、ガウス・ニュートンの反復を$\ell_2$-regression問題として再構成し、その後、$m$とは独立に、基礎となるグラム行列を$\mathit{precondition}$に高速jl型の次元縮小を用いて、$\mathit{first}$-$\mathit{order}$ 共役勾配で十分良い近似解を見つけることである。 我々の結果は、ランダム化された線形代数から先進的な機械($\mathit{convex}$ $\mathit{optimization}$ (ERM, LPs, Regression))が深層学習の領域にもたらされるという概念実証を提供する。

The slow convergence rate and pathological curvature issues of first-order gradient methods for training deep neural networks, initiated an ongoing effort for developing faster $\mathit{second}$-$\mathit{order}$ optimization algorithms beyond SGD, without compromising the generalization error. Despite their remarkable convergence rate ($\mathit{independent}$ of the training batch size $n$), second-order algorithms incur a daunting slowdown in the $\mathit{cost}$ $\mathit{per}$ $\mathit{iteration}$ (inverting the Hessian matrix of the loss function), which renders them impractical. Very recently, this computational overhead was mitigated by the works of [ZMG19,CGH+19}, yielding an $O(mn^2)$-time second-order algorithm for training two-layer overparametrized neural networks of polynomial width $m$. We show how to speed up the algorithm of [CGH+19], achieving an $\tilde{O}(mn)$-time backpropagation algorithm for training (mildly overparametrized) ReLU networks, which is near-linear in the dimension ($mn$) of the full gradient (Jacobian) matrix. The centerpiece of our algorithm is to reformulate the Gauss-Newton iteration as an $\ell_2$-regression problem, and then use a Fast-JL type dimension reduction to $\mathit{precondition}$ the underlying Gram matrix in time independent of $M$, allowing to find a sufficiently good approximate solution via $\mathit{first}$-$\mathit{order}$ conjugate gradient. Our result provides a proof-of-concept that advanced machinery from randomized linear algebra -- which led to recent breakthroughs in $\mathit{convex}$ $\mathit{optimization}$ (ERM, LPs, Regression) -- can be carried over to the realm of deep learning as well.
翻訳日:2022-11-18 22:39:31 公開日:2020-12-09
# 回帰優先ネットワーク

Regression Prior Networks ( http://arxiv.org/abs/2006.11590v2 )

ライセンス: Link先を確認
Andrey Malinin, Sergey Chervontsev, Ivan Provilkov and Mark Gales(参考訳) Prior Networksは、不確実性の解釈可能な尺度を導出し、様々なタスクにおける最先端のアンサンブルアプローチより優れていることが示されている。 アンサンブル分布蒸留(end$^2$)によってモデルのアンサンブルを蒸留することもでき、その精度、キャリブレーション、不確実性の推定を1つのモデルに保持することができる。 しかし,これまでプリエントネットワークは分類タスクのみのために開発されてきた。 この作業は、正規-ウィッシュアート分布を考慮し、事前ネットワークとEnD$^2$を回帰タスクに拡張する。 回帰優先ネットワークの特性は、合成データ、選択されたUCIデータセット、モノクル深度推定タスクで示され、アンサンブルアプローチと競合する性能が得られる。

Prior Networks are a recently developed class of models which yield interpretable measures of uncertainty and have been shown to outperform state-of-the-art ensemble approaches on a range of tasks. They can also be used to distill an ensemble of models via Ensemble Distribution Distillation (EnD$^2$), such that its accuracy, calibration and uncertainty estimates are retained within a single model. However, Prior Networks have so far been developed only for classification tasks. This work extends Prior Networks and EnD$^2$ to regression tasks by considering the Normal-Wishart distribution. The properties of Regression Prior Networks are demonstrated on synthetic data, selected UCI datasets and a monocular depth estimation task, where they yield performance competitive with ensemble approaches.
翻訳日:2022-11-18 22:09:42 公開日:2020-12-09
# ROSE : 網膜CT-血管拡張データセットと新しいモデル

ROSE: A Retinal OCT-Angiography Vessel Segmentation Dataset and New Model ( http://arxiv.org/abs/2007.05201v2 )

ライセンス: Link先を確認
Yuhui Ma and Huaying Hao and Huazhu Fu and Jiong Zhang and Jianlong Yang and Jiang Liu and Yalin Zheng and Yitian Zhao(参考訳) 光コヒーレンス断層撮影(oct-a)は非侵襲的イメージング技術であり、網膜血管を毛細血管レベルの解像度で撮影するためにますます使われている。 しかし, OCT-Aにおける網膜血管の自動分画は, 多くの眼疾患の理解において重要であるにもかかわらず, 毛細血管の視認性の低下や血管の複雑さの増大といった様々な問題により, 研究が進んでいない。 さらに、トレーニングと検証のために手動でグレードされた容器を備えたOCT-Aデータセットも公開されていない。 これらの問題に対処するために、網膜画像解析の分野で初めて、中心線レベルまたはピクセルレベルの血管アノテーションを持つ229 OCT-A 画像からなる専用網膜 OCT-A セグメンテーションデータセット(ROSE)を構築した。 このデータセットは、コミュニティの研究者が関連するトピックの研究を行うのを助けるために、パブリックアクセスのためにリリースされた。 次に,スプリットをベースとしたSCF-Net(Coarse-to-Fine vessel segmentation Network)を提案する。 SCF-Netでは、スプリットベース粗いセグメンテーション(SCS)モジュールが血管の予備的な信頼性マップを生成するために最初に導入され、その後、スプリットベースリファインメント(SRN)モジュールを使用して網膜微小血管の形状/形状を最適化する。 第3に,提案するローズデータセット上で,最先端の容器セグメンテーションモデルとscf-netの徹底的な評価を行う。 実験結果から,本SCF-Netは従来の手法や深層学習手法よりも,OCT-Aの船体セグメンテーション性能が優れていることが示された。

Optical Coherence Tomography Angiography (OCT-A) is a non-invasive imaging technique, and has been increasingly used to image the retinal vasculature at capillary level resolution. However, automated segmentation of retinal vessels in OCT-A has been under-studied due to various challenges such as low capillary visibility and high vessel complexity, despite its significance in understanding many eye-related diseases. In addition, there is no publicly available OCT-A dataset with manually graded vessels for training and validation. To address these issues, for the first time in the field of retinal image analysis we construct a dedicated Retinal OCT-A SEgmentation dataset (ROSE), which consists of 229 OCT-A images with vessel annotations at either centerline-level or pixel level. This dataset has been released for public access to assist researchers in the community in undertaking research in related topics. Secondly, we propose a novel Split-based Coarse-to-Fine vessel segmentation network (SCF-Net), with the ability to detect thick and thin vessels separately. In the SCF-Net, a split-based coarse segmentation (SCS) module is first introduced to produce a preliminary confidence map of vessels, and a split-based refinement (SRN) module is then used to optimize the shape/contour of the retinal microvasculature. Thirdly, we perform a thorough evaluation of the state-of-the-art vessel segmentation models and our SCF-Net on the proposed ROSE dataset. The experimental results demonstrate that our SCF-Net yields better vessel segmentation performance in OCT-A than both traditional methods and other deep learning methods.
翻訳日:2022-11-11 22:36:56 公開日:2020-12-09
# エピソードグラフメモリネットワークを用いたビデオオブジェクト分割

Video Object Segmentation with Episodic Graph Memory Networks ( http://arxiv.org/abs/2007.07020v4 )

ライセンス: Link先を確認
Xiankai Lu, Wenguan Wang, Martin Danelljan, Tianfei Zhou, Jianbing Shen and Luc Van Gool(参考訳) セグメンテーションモデルを特定のビデオに効率的に適応させる方法は、ビデオオブジェクトセグメンテーションの分野において、基本的に重要な問題である。 本研究では,「セグメンテーションモデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークを開発した。 具体的には,完全連結グラフとして構成されたエピソードメモリネットワークを利用して,フレームをノードとして保存し,エッジによるフレーム間相関をキャプチャする。 さらに、学習可能なコントローラが組み込まれ、メモリの読み書きが容易になり、メモリのスケールが一定になる。 構造化された外部メモリ設計により, 限られた視覚情報でも新しい知識を包括的かつ迅速に蓄積することが可能となり, 微分可能なメモリコントローラは, メモリに有用な表現を格納するための抽象的手法を徐々に学習し, 勾配降下を通じてこれらの表現を後から利用する方法を学ぶことができる。 さらに、提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。 4つの挑戦的なベンチマークデータセットに関する広範囲な実験により、グラフメモリネットワークが、ケースバイケースのビデオオブジェクトセグメンテーションに対するセグメンテーションネットワークの適用を容易にすることを検証します。

How to make a segmentation model efficiently adapt to a specific video and to online target appearance variations are fundamentally crucial issues in the field of video object segmentation. In this work, a graph memory network is developed to address the novel idea of "learning to update the segmentation model". Specifically, we exploit an episodic memory network, organized as a fully connected graph, to store frames as nodes and capture cross-frame correlations by edges. Further, learnable controllers are embedded to ease memory reading and writing, as well as maintain a fixed memory scale. The structured, external memory design enables our model to comprehensively mine and quickly store new knowledge, even with limited visual information, and the differentiable memory controllers slowly learn an abstract method for storing useful representations in the memory and how to later use these representations for prediction, via gradient descent. In addition, the proposed graph memory network yields a neat yet principled framework, which can generalize well both one-shot and zero-shot video object segmentation tasks. Extensive experiments on four challenging benchmark datasets verify that our graph memory network is able to facilitate the adaptation of the segmentation network for case-by-case video object segmentation.
翻訳日:2022-11-10 14:07:30 公開日:2020-12-09
# クロスドメインFew-Shot分類のための説明誘導訓練

Explanation-Guided Training for Cross-Domain Few-Shot Classification ( http://arxiv.org/abs/2007.08790v2 )

ライセンス: Link先を確認
Jiamei Sun, Sebastian Lapuschkin, Wojciech Samek, Yunqing Zhao, Ngai-Man Cheung, Alexander Binder(参考訳) cross-domain few-shot classification task (cd-fsc)は、データセットで表現されるドメインをまたいで一般化する要件と、少数ショット分類を組み合わせる。 このセットアップは、各クラスに制限されたラベル付きデータから始まり、さらにトレーニングとテストセット間のドメインシフトから生じる課題に直面します。 本稿では,既存のFSCモデルに対する新しいトレーニング手法を提案する。 FSCモデルの予測に適用した場合に既存の説明手法から得られる説明スコアを利用して、モデルの中間特徴写像を計算する。 まず、FSCモデルの予測を説明するために、レイヤワイド関連伝搬法(LRP)を調整する。 第2に,予測に重要な特徴を動的に発見・強調するモデルに依存しない説明誘導型トレーニング戦略を開発する。 本研究の貢献は,新しい説明手法を対象とせず,新たな説明の訓練段階への応用にある。 説明指導訓練がモデルの一般化を効果的に改善することを示す。 3種類のfscモデル(relationnet、cross attention network、graph neural network-based formula)の精度向上を、miniimagenet、cub、cars、places、plantaeの5つのマイナショット学習データセットで観察した。 ソースコードはhttps://github.com/SunJiamei/few-shot-lrp-guidedで入手できる。

Cross-domain few-shot classification task (CD-FSC) combines few-shot classification with the requirement to generalize across domains represented by datasets. This setup faces challenges originating from the limited labeled data in each class and, additionally, from the domain shift between training and test sets. In this paper, we introduce a novel training approach for existing FSC models. It leverages on the explanation scores, obtained from existing explanation methods when applied to the predictions of FSC models, computed for intermediate feature maps of the models. Firstly, we tailor the layer-wise relevance propagation (LRP) method to explain the predictions of FSC models. Secondly, we develop a model-agnostic explanation-guided training strategy that dynamically finds and emphasizes the features which are important for the predictions. Our contribution does not target a novel explanation method but lies in a novel application of explanations for the training phase. We show that explanation-guided training effectively improves the model generalization. We observe improved accuracy for three different FSC models: RelationNet, cross attention network, and a graph neural network-based formulation, on five few-shot learning datasets: miniImagenet, CUB, Cars, Places, and Plantae. The source code is available at https://github.com/SunJiamei/few-shot-lrp-guided
翻訳日:2022-11-09 13:21:30 公開日:2020-12-09
# モーメントマッチングによる分布強化学習

Distributional Reinforcement Learning via Moment Matching ( http://arxiv.org/abs/2007.12354v3 )

ライセンス: Link先を確認
Thanh Tang Nguyen, Sunil Gupta, Svetha Venkatesh(参考訳) 分布強化学習(RL)における経験的ベルマン力学から確率分布の集合を学習する問題を考える。 ニューラルネットワークを用いて各戻り分布から有限の統計集合を学習する手法を定式化する(Bellemare, Dabney, and Munos 2017; Dabney et al. 2018b)。 しかし、既存の分布RL法では、学習された統計量は、表現に制限があり、事前定義された統計を維持するのが困難である戻り分布の関数形式に制限される。 代わりに、最大平均偏差(mmd)として知られる仮説検定のテクニックを活用し、帰納分布の帰納分布を決定論的 (pseudo-) な統計量、すなわち決定論的 (pseudo-) に学習し、より単純な目標をバックプロパゲーションに導く。 本手法は帰納分布とそのベルマン対象との間のモーメントの全ての順序を暗黙的に一致するものと解釈できる。 分布型ベルマン作用素の収縮に対する十分な条件を確立し、分布近似における決定論的サンプルに対する有限サンプル解析を提供する。 Atariゲームスイートの実験では,本手法は標準分布RLベースラインよりも優れており,非分散エージェントに対するAtariゲームに新たな記録が設定されている。

We consider the problem of learning a set of probability distributions from the empirical Bellman dynamics in distributional reinforcement learning (RL), a class of state-of-the-art methods that estimate the distribution, as opposed to only the expectation, of the total return. We formulate a method that learns a finite set of statistics from each return distribution via neural networks, as in (Bellemare, Dabney, and Munos 2017; Dabney et al. 2018b). Existing distributional RL methods however constrain the learned statistics to \emph{predefined} functional forms of the return distribution which is both restrictive in representation and difficult in maintaining the predefined statistics. Instead, we learn \emph{unrestricted} statistics, i.e., deterministic (pseudo-)samples, of the return distribution by leveraging a technique from hypothesis testing known as maximum mean discrepancy (MMD), which leads to a simpler objective amenable to backpropagation. Our method can be interpreted as implicitly matching all orders of moments between a return distribution and its Bellman target. We establish sufficient conditions for the contraction of the distributional Bellman operator and provide finite-sample analysis for the deterministic samples in distribution approximation. Experiments on the suite of Atari games show that our method outperforms the standard distributional RL baselines and sets a new record in the Atari games for non-distributed agents.
翻訳日:2022-11-07 05:46:04 公開日:2020-12-09
# ロジスティックシグモイドからノロジカルシグモイドへ:COVID-19パンデミック成長のモデル化

From the logistic-sigmoid to nlogistic-sigmoid: modelling the COVID-19 pandemic growth ( http://arxiv.org/abs/2008.04210v3 )

ライセンス: Link先を確認
Oluwasegun A. Somefun, Kayode Akingbade and Folasade Dahunsi(参考訳) 流行拡大のような現実世界の成長プロセスは本質的に騒がしく、不確実であり、しばしば複数の成長段階を伴う。 ロジスティック・シグモイド関数はそのような成長過程をモデル化する領域に提案され応用されている。 しかし、既存の定義は、成長が2次元に制限されているとは考えていないため、制限されている。 さらに、成長段階の数が増加するにつれて、ロジスティックパラメータのモデリングと推定が困難になり、より複雑なツールや分析が必要になる。 そこで本研究では,実世界の成長現象をモデル化するためのロジスティック成長のコンパクトで統一的な定義としてnlogistic-sigmoid関数を導入する。 また,ロジスティック・シグモイド曲線の2つの特性指標を導入し,各次元における成長過程の状態をよりロバストに予測する。 具体的には、この機能を、新型コロナウイルス(covid-19)による世界および世界の感染症および死亡事例の時系列データを公開した日次世界保健機関(day world health organization)のモデルに適用する。 以上の結果から、米国など新型コロナウイルスの感染拡大が進行中の単一または複数段階のパターンを呈する世界の被災国では、99%以上の適合が統計的に有意であることが示された。 その結果、現代のロジスティック定義とそのメトリクスは、機械学習ツールとして、進行中のパンデミック成長プロセスのより明確で堅牢な監視と定量化に役立ちます。

Real-world growth processes, such as epidemic growth, are inherently noisy, uncertain and often involve multiple growth phases. The logistic-sigmoid function has been suggested and applied in the domain of modelling such growth processes. However, existing definitions are limiting, as they do not consider growth as restricted in two-dimension. Additionally, as the number of growth phases increase, the modelling and estimation of logistic parameters becomes more cumbersome, requiring more complex tools and analysis. To remedy this, we introduce the nlogistic-sigmoid function as a compact, unified modern definition of logistic growth for modelling such real-world growth phenomena. Also, we introduce two characteristic metrics of the logistic-sigmoid curve that can give more robust projections on the state of the growth process in each dimension. Specifically, we apply this function to modelling the daily World Health Organization published COVID-19 time-series data of infection and death cases of the world and countries of the world to date. Our results demonstrate statistically significant goodness of fit greater than or equal to 99% for affected countries of the world exhibiting patterns of either single or multiple stages of the ongoing COVID-19 outbreak, such as the USA. Consequently, this modern logistic definition and its metrics, as a machine learning tool, can help to provide clearer and more robust monitoring and quantification of the ongoing pandemic growth process.
翻訳日:2022-11-02 06:37:08 公開日:2020-12-09
# データ中毒攻撃に対する袋詰の固有認定ロバスト性

Intrinsic Certified Robustness of Bagging against Data Poisoning Attacks ( http://arxiv.org/abs/2008.04495v7 )

ライセンス: Link先を確認
Jinyuan Jia and Xiaoyu Cao and Neil Zhenqiang Gong(参考訳) emph{data poisoning attack}では、アタッカーがトレーニング例を修正、削除、挿入し、学習した機械学習モデルを破損させる。 emph{bootstrap aggregating (bagging)"はよく知られたアンサンブル学習手法であり、ベース学習アルゴリズムを使用してトレーニングデータセットのランダムなサブサンプル上で複数のベースモデルをトレーニングし、多数決でテスト例のラベルを予測する。 データ中毒攻撃に対するバッグングの本質的確固たる堅牢性を証明する。 具体的には、任意のベースラーニングアルゴリズムによるバッグングが、修正、削除、/または挿入されたトレーニング例の数が閾値で制限されている場合、テスト例で同じラベルを確実に予測することを示す。 さらに,ベース学習アルゴリズムの仮定が成立しない場合,提案手法のしきい値が厳密であることを示す。 MNISTとCIFAR10について検討した。 例えば、任意の変更、削除、および/または100のトレーニング例を挿入する場合、mnistの認証精度は91.1\%である。 コードは \url{https://github.com/jjy1994/baggingcertifydatapoisoning} で入手できる。

In a \emph{data poisoning attack}, an attacker modifies, deletes, and/or inserts some training examples to corrupt the learnt machine learning model. \emph{Bootstrap Aggregating (bagging)} is a well-known ensemble learning method, which trains multiple base models on random subsamples of a training dataset using a base learning algorithm and uses majority vote to predict labels of testing examples. We prove the intrinsic certified robustness of bagging against data poisoning attacks. Specifically, we show that bagging with an arbitrary base learning algorithm provably predicts the same label for a testing example when the number of modified, deleted, and/or inserted training examples is bounded by a threshold. Moreover, we show that our derived threshold is tight if no assumptions on the base learning algorithm are made. We evaluate our method on MNIST and CIFAR10. For instance, our method achieves a certified accuracy of $91.1\%$ on MNIST when arbitrarily modifying, deleting, and/or inserting 100 training examples. Code is available at: \url{https://github.com/jjy1994/BaggingCertifyDataPoisoning}.
翻訳日:2022-10-31 12:30:46 公開日:2020-12-09
# PhysCap:物理的にプラズブルなモノクロ3Dモーションキャプチャ

PhysCap: Physically Plausible Monocular 3D Motion Capture in Real Time ( http://arxiv.org/abs/2008.08880v2 )

ライセンス: Link先を確認
Soshi Shimada, Vladislav Golyanik, Weipeng Xu, Christian Theobalt(参考訳) シングルカラーカメラからのマーカレス3Dモーションキャプチャは大きな進歩を遂げた。 しかし、これは非常に困難で深刻な問題である。 その結果、最も正確な最先端のアプローチでさえ、大きな制限がある。 個々の関節や骨格に基づいて純粋にキネマティックな定式化と、最先端の方法でのフレームワイズ再構成は、マルチビューやマーカーベースのモーションキャプチャと比較して3次元の精度と時間的安定性を大幅に制限する。 さらに、キャプチャされた3Dのポーズは、しばしば物理的に不正確で、生体力学的に不明確であり、または不確実な環境相互作用(フロア浸透、フットスケート、不自然な身体の傾き、深度の変化)を示す。 そこで我々はPhysCapを,25fpsの単色カメラで物理的に可視でリアルタイムかつマーカーのない人間の3Dモーションキャプチャのための最初のアルゴリズムとして紹介した。 我々のアルゴリズムはまず3D人間のポーズを純粋にキネマティックに捉えます。 この目的のために、cnnは2dおよび3d関節位置を推定し、その後、逆キネマティクスステップは時空コヒーレント関節角および大域的3dポーズを求める。 次に、これらのキネマティックな再構成は、環境制約(例えば、衝突処理や床の配置)、重力、人間の姿勢の生体物理学的妥当性を考慮に入れた、リアルタイムな物理ベースのポーズオプティマイザの制約として使用される。 提案手法では, 地中反応力と残留力を組み合わせて根の制御を行い, 訓練されたニューラルネットワークを用いて画像中の足の接触を検知する。 本手法は, 実時間および一般場面の映像から, 物理的に目立たない姿勢や床の浸透, 足の滑走を伴わずに, 物理的に有理で時間的に安定な3次元人間の動きをキャプチャする。 ビデオはhttp://gvv.mpi-inf.mpg.de/projects/PhysCapで公開されている。

Marker-less 3D human motion capture from a single colour camera has seen significant progress. However, it is a very challenging and severely ill-posed problem. In consequence, even the most accurate state-of-the-art approaches have significant limitations. Purely kinematic formulations on the basis of individual joints or skeletons, and the frequent frame-wise reconstruction in state-of-the-art methods greatly limit 3D accuracy and temporal stability compared to multi-view or marker-based motion capture. Further, captured 3D poses are often physically incorrect and biomechanically implausible, or exhibit implausible environment interactions (floor penetration, foot skating, unnatural body leaning and strong shifting in depth), which is problematic for any use case in computer graphics. We, therefore, present PhysCap, the first algorithm for physically plausible, real-time and marker-less human 3D motion capture with a single colour camera at 25 fps. Our algorithm first captures 3D human poses purely kinematically. To this end, a CNN infers 2D and 3D joint positions, and subsequently, an inverse kinematics step finds space-time coherent joint angles and global 3D pose. Next, these kinematic reconstructions are used as constraints in a real-time physics-based pose optimiser that accounts for environment constraints (e.g., collision handling and floor placement), gravity, and biophysical plausibility of human postures. Our approach employs a combination of ground reaction force and residual force for plausible root control, and uses a trained neural network to detect foot contact events in images. Our method captures physically plausible and temporally stable global 3D human motion, without physically implausible postures, floor penetrations or foot skating, from video in real time and in general scenes. The video is available at http://gvv.mpi-inf.mpg.de/projects/PhysCap
翻訳日:2022-10-27 03:58:15 公開日:2020-12-09
# 強化学習のための拡張ラジアル基底関数制御

Extended Radial Basis Function Controller for Reinforcement Learning ( http://arxiv.org/abs/2009.05866v2 )

ライセンス: Link先を確認
Nicholas Capel, Naifu Zhang(参考訳) システムの構造に関する事前知識を活用するための強化学習の試みがある。 本稿では,モデルベース線形コントローラと任意の微分可能なポリシを動的に補間するハイブリッド強化学習コントローラを提案する。 線形制御器は局所線形化モデル知識に基づいて設計され,操作点付近でシステムの安定化を行う。 2つのコントローラ間の補間係数は、電流状態と動作点の間の距離を測定するスケールド距離関数によって決定される。 全体のハイブリッド制御器は動作点近傍の安定性を保証することが証明され、任意の非線形ポリシーの普遍関数近似特性が保たれている。 学習はモデルベース(PILCO)とモデルフリー(DDPG)の両方のフレームワークで行われている。 openai gymで行ったシミュレーション実験は,提案するハイブリッドコントローラの安定性とロバスト性を示している。 そこで本稿では,強化学習に制御手法を直接インポートする原理的手法を提案する。

There have been attempts in reinforcement learning to exploit a priori knowledge about the structure of the system. This paper proposes a hybrid reinforcement learning controller which dynamically interpolates a model-based linear controller and an arbitrary differentiable policy. The linear controller is designed based on local linearised model knowledge, and stabilises the system in a neighbourhood about an operating point. The coefficients of interpolation between the two controllers are determined by a scaled distance function measuring the distance between the current state and the operating point. The overall hybrid controller is proven to maintain the stability guarantee around the neighborhood of the operating point and still possess the universal function approximation property of the arbitrary non-linear policy. Learning has been done on both model-based (PILCO) and model-free (DDPG) frameworks. Simulation experiments performed in OpenAI gym demonstrate stability and robustness of the proposed hybrid controller. This paper thus introduces a principled method allowing for the direct importing of control methodology into reinforcement learning.
翻訳日:2022-10-19 07:49:38 公開日:2020-12-09
# 1メガピクセルのイベントカメラによる物体検出の学習

Learning to Detect Objects with a 1 Megapixel Event Camera ( http://arxiv.org/abs/2009.13436v2 )

ライセンス: Link先を確認
Etienne Perot, Pierre de Tournemire, Davide Nitti, Jonathan Masci, Amos Sironi(参考訳) イベントカメラは、高時間精度、低データレート、高ダイナミックレンジの視覚情報を符号化する。 これらの特徴により、イベントカメラは特に高い動き、照明条件の挑戦、低レイテンシを必要とするシナリオに適している。 しかし、この分野の斬新さから、多くのビジョンタスクにおけるイベントベースのシステムの性能は、従来のフレームベースのソリューションに比べまだ低いままである。 このパフォーマンスギャップの主な理由は、フレームカメラと比較してイベントセンサの空間解像度が低いこと、大規模なトレーニングデータセットの欠如、イベントベースの処理に確立されたディープラーニングアーキテクチャがないことである。 本稿では、イベントベースオブジェクト検出タスクのコンテキストにおけるこれらの問題に対処する。 まず、オブジェクト検出のための最初の高解像度大規模データセットをリリースする。 このデータセットは、1メガピクセルのイベントカメラの14時間以上の記録と、自動車、歩行者、二輪車の25mのバウンディングボックスを高周波で記録している。 第2に,イベントベース検出のための新しいリカレントアーキテクチャと,良好なトレーニングのための時間的一貫性損失を提案する。 モデルの内部メモリにイベントのシーケンスをコンパクトに表現する能力は、高い精度を達成するために不可欠である。 我々のモデルは、フィードフォワードのイベントベースのアーキテクチャよりも優れています。 さらに,本手法ではイベントからの強度像の再構成は不要であり,中間強度像を通過させるよりも,生イベントから直接のトレーニングが可能で,効率が良く,正確であることを示す。 イベントとグレーレベル画像が利用可能であるデータセットに関する実験は、高度に調整され、研究されたフレームベースの検出器と同等の性能を示す。

Event cameras encode visual information with high temporal precision, low data-rate, and high-dynamic range. Thanks to these characteristics, event cameras are particularly suited for scenarios with high motion, challenging lighting conditions and requiring low latency. However, due to the novelty of the field, the performance of event-based systems on many vision tasks is still lower compared to conventional frame-based solutions. The main reasons for this performance gap are: the lower spatial resolution of event sensors, compared to frame cameras; the lack of large-scale training datasets; the absence of well established deep learning architectures for event-based processing. In this paper, we address all these problems in the context of an event-based object detection task. First, we publicly release the first high-resolution large-scale dataset for object detection. The dataset contains more than 14 hours recordings of a 1 megapixel event camera, in automotive scenarios, together with 25M bounding boxes of cars, pedestrians, and two-wheelers, labeled at high frequency. Second, we introduce a novel recurrent architecture for event-based detection and a temporal consistency loss for better-behaved training. The ability to compactly represent the sequence of events into the internal memory of the model is essential to achieve high accuracy. Our model outperforms by a large margin feed-forward event-based architectures. Moreover, our method does not require any reconstruction of intensity images from events, showing that training directly from raw events is possible, more efficient, and more accurate than passing through an intermediate intensity image. Experiments on the dataset introduced in this work, for which events and gray level images are available, show performance on par with that of highly tuned and studied frame-based detectors.
翻訳日:2022-10-13 21:24:37 公開日:2020-12-09
# フィルタのプルーニングフィルタ

Pruning Filter in Filter ( http://arxiv.org/abs/2009.14410v3 )

ライセンス: Link先を確認
Fanxu Meng, Hao Cheng, Ke Li, Huixiang Luo, Xiaowei Guo, Guangming Lu, Xing Sun(参考訳) プルーニングは、現代のニューラルネットワークを圧縮して加速する非常に強力で効果的な技術になっている。 既存のプルーニングメソッドは、フィルタプルーニング(fp)とウェイトプルーニング(wp)の2つのカテゴリに分類できる。 FPはハードウェアの互換性に勝るが、WPと比較して圧縮比に負ける。 両手法の強度を収束させるため,フィルタ内のフィルタをプーンする手法を提案する。 具体的には、フィルタ $f \in \mathbb{r}^{c\times k\times k}$ as $k \times k$ stripes,すなわち、1\times 1$ filter $\in \mathbb{r}^{c}$ を処理し、フィルタ全体の代わりにストリップを刈ることで、従来のfpよりも細かい粒度をハードウェアフレンドリーに実現できる。 この手法をswp(\emph{stripe-wise pruning})と呼ぶ。 swpはフィルタスケルトンと呼ばれる新しい学習可能なマトリックスを導入し、その値は各フィルタの形状を反映している。 最近の研究が示すように、刈り取られたアーキテクチャは継承された重要な重みよりも重要であり、単一フィルタのアーキテクチャ、すなわち形状も重要であると我々は論じている。 大規模な実験により、SWPは従来のFP法よりも効果的であることを示し、CIFAR-10およびImageNetデータセットの最先端プルーニング比を明らかな精度低下なく達成する。 コードはhttps://github.com/fxmeng/Pruning-Filter-in-Filterで入手できる。

Pruning has become a very powerful and effective technique to compress and accelerate modern neural networks. Existing pruning methods can be grouped into two categories: filter pruning (FP) and weight pruning (WP). FP wins at hardware compatibility but loses at the compression ratio compared with WP. To converge the strength of both methods, we propose to prune the filter in the filter. Specifically, we treat a filter $F \in \mathbb{R}^{C\times K\times K}$ as $K \times K$ stripes, i.e., $1\times 1$ filters $\in \mathbb{R}^{C}$, then by pruning the stripes instead of the whole filter, we can achieve finer granularity than traditional FP while being hardware friendly. We term our method as SWP (\emph{Stripe-Wise Pruning}). SWP is implemented by introducing a novel learnable matrix called Filter Skeleton, whose values reflect the shape of each filter. As some recent work has shown that the pruned architecture is more crucial than the inherited important weights, we argue that the architecture of a single filter, i.e., the shape, also matters. Through extensive experiments, we demonstrate that SWP is more effective compared to the previous FP-based methods and achieves the state-of-art pruning ratio on CIFAR-10 and ImageNet datasets without obvious accuracy drop. Code is available at https://github.com/fxmeng/Pruning-Filter-in-Filter
翻訳日:2022-10-12 23:54:48 公開日:2020-12-09
# GAN訓練改善のための支援

Assisting the Adversary to Improve GAN Training ( http://arxiv.org/abs/2010.01274v2 )

ライセンス: Link先を確認
Andreas Munk, William Harvey, Frank Wood(参考訳) GANの安定性と性能を改善する最も一般的な方法は、差別者の制約や規則化である。 本稿では,Adversary's Assistant (AdvAs) と呼ぶ,概ね見過ごされた正規化手法について考察する。 以前の作業と異なる視点でこれを動機付けています。 具体的には、理論分析と実践の共通ミスマッチを考察する:分析はしばしば、識別器が各イテレーションで最適な結果に達すると仮定する。 実際には、これは本質的には真実ではなく、しばしばジェネレータの勾配推定が劣る。 これを解決するために、AdvAsは、判別器を訓練するために使用される勾配のノルムに基づいてジェネレータに課される理論的に動機付けられた罰である。 これにより、ジェネレータは判別器が最適である点へ移動する。 本稿では,複数のGAN目標,データセット,ネットワークアーキテクチャにAdvAsを適用する効果を示す。 その結果、理論と実践のミスマッチが減少し、AdvAsがFIDスコアによるGANトレーニングの改善につながることが示唆された。

Some of the most popular methods for improving the stability and performance of GANs involve constraining or regularizing the discriminator. In this paper we consider a largely overlooked regularization technique which we refer to as the Adversary's Assistant (AdvAs). We motivate this using a different perspective to that of prior work. Specifically, we consider a common mismatch between theoretical analysis and practice: analysis often assumes that the discriminator reaches its optimum on each iteration. In practice, this is essentially never true, often leading to poor gradient estimates for the generator. To address this, AdvAs is a theoretically motivated penalty imposed on the generator based on the norm of the gradients used to train the discriminator. This encourages the generator to move towards points where the discriminator is optimal. We demonstrate the effect of applying AdvAs to several GAN objectives, datasets and network architectures. The results indicate a reduction in the mismatch between theory and practice and that AdvAs can lead to improvement of GAN training, as measured by FID scores.
翻訳日:2022-10-11 08:43:19 公開日:2020-12-09
# 量子エンハンスバーコード復号とパターン認識

Quantum-enhanced barcode decoding and pattern recognition ( http://arxiv.org/abs/2010.03594v2 )

ライセンス: Link先を確認
Leonardo Banchi, Quntao Zhuang, Stefano Pirandola(参考訳) 量子仮説テスト(Quantum hypothesis testing)は、量子情報理論における最も基本的な問題の1つであり、量子センシングのような領域において重要な意味を持ち、ターゲット検出やメモリセルの読み出しなど、一連のバイナリフォトニックプロトコルにおいて量子優位性を証明するために用いられている。 本研究では,この理論モデルをバーコード復号とパターン認識の多部構成に一般化する。 まず、デジタルイメージを、量子チャネルのアンサンブルに対応するピクセルの配列またはグリッドとして定義することから始める。 各ピクセルを白黒のアルファベットに特化することで、自然にバーコードの光学モデルを定義する。 このシナリオでは、量子絡み合ったソースの使用と適切な測定とデータ処理を組み合わせることで、バーコードデータの復号化と白黒パターンの分類のタスクにおける古典的コヒーレントステート戦略を大幅に上回ることを示す。 また、関連する境界を導入することで、異なるクラスの画像間の最小ハミング距離が十分である限り、バーコード復号よりもパターン認識の問題は大幅に単純であることを示す。 最後に,教師付き学習アルゴリズムである最近傍分類器を用いて,量子センサを用いたパターン認識の利点を理論的に実証し,手書き文字分類の予測を数値的に検証する。

Quantum hypothesis testing is one of the most fundamental problems in quantum information theory, with crucial implications in areas like quantum sensing, where it has been used to prove quantum advantage in a series of binary photonic protocols, e.g., for target detection or memory cell readout. In this work, we generalize this theoretical model to the multi-partite setting of barcode decoding and pattern recognition. We start by defining a digital image as an array or grid of pixels, each pixel corresponding to an ensemble of quantum channels. Specializing each pixel to a black and white alphabet, we naturally define an optical model of barcode. In this scenario, we show that the use of quantum entangled sources, combined with suitable measurements and data processing, greatly outperforms classical coherent-state strategies for the tasks of barcode data decoding and classification of black and white patterns. Moreover, introducing relevant bounds, we show that the problem of pattern recognition is significantly simpler than barcode decoding, as long as the minimum Hamming distance between images from different classes is large enough. Finally, we theoretically demonstrate the advantage of using quantum sensors for pattern recognition with the nearest neighbor classifier, a supervised learning algorithm, and numerically verify this prediction for handwritten digit classification.
翻訳日:2022-10-09 22:55:35 公開日:2020-12-09
# 医療用ノートにおける情報の価値評価

Characterizing the Value of Information in Medical Notes ( http://arxiv.org/abs/2010.03574v2 )

ライセンス: Link先を確認
Chao-Chun Hsu, Shantanu Karnwal, Sendhil Mullainathan, Ziad Obermeyer, Chenhao Tan(参考訳) 機械学習モデルは入力データの品質に依存する。 電子的な健康記録が広く採用されるにつれて、医療におけるデータの量が増え、医療記録の質に関する苦情も増えている。 医療記録における情報の価値を特徴付けるために,読み出し予測と病院内死亡予測という2つの予測課題を用いた。 概して、医療ノートは読み出し予測における構造化情報に対するさらなる予測力しか提供していない。 さらに,選択した情報がトレーニングデータ(全音符)からの分布シフトにつながるにもかかわらず,すべての音符よりも正確な予測を可能にする音符の一部を選択するための探索フレームワークを提案する。 最後に,選択された有価情報に基づいてトレーニングされたモデルが,読み出し予測のためのトークンの6.8%しか持たず,さらに優れた予測性能を達成できることを実証する。

Machine learning models depend on the quality of input data. As electronic health records are widely adopted, the amount of data in health care is growing, along with complaints about the quality of medical notes. We use two prediction tasks, readmission prediction and in-hospital mortality prediction, to characterize the value of information in medical notes. We show that as a whole, medical notes only provide additional predictive power over structured information in readmission prediction. We further propose a probing framework to select parts of notes that enable more accurate predictions than using all notes, despite that the selected information leads to a distribution shift from the training data ("all notes"). Finally, we demonstrate that models trained on the selected valuable information achieve even better predictive performance, with only 6.8% of all the tokens for readmission prediction.
翻訳日:2022-10-09 21:43:09 公開日:2020-12-09
# 太陽系外惑星の高コントラストイメージングのための物理的制約付き因果ノイズモデル

Physically constrained causal noise models for high-contrast imaging of exoplanets ( http://arxiv.org/abs/2010.05591v2 )

ライセンス: Link先を確認
Timothy D. Gebhard, Markus J. Bonse, Sascha P. Quanz, Bernhard Sch\"olkopf(参考訳) 高コントラストイメージング(HCI)データにおける外惑星の検出は、主星からの光を除去するための後処理法に基づいている。 これまでのところ、このタスクの既存のメソッドは、この問題に関する利用可能なドメイン知識をほとんど利用していません。 本稿では,修正された半兄弟回帰スキームに基づくhciポストプロセッシングの新しいアプローチを提案し,機械学習と既存の科学的ドメイン知識を組み合わせるためにこのフレームワークをどのように利用するかを示す。 3つの実データ集合において、結果のシステムは、現在リードしているアルゴリズムの1つよりも明確に(視覚的にもSNR的にも)機能することを示した。 これらの結果がさらなる研究によって確認できれば、新しいデータとアーカイブデータの両方において、太陽系外惑星の重要な発見を可能にする可能性がある。

The detection of exoplanets in high-contrast imaging (HCI) data hinges on post-processing methods to remove spurious light from the host star. So far, existing methods for this task hardly utilize any of the available domain knowledge about the problem explicitly. We propose a new approach to HCI post-processing based on a modified half-sibling regression scheme, and show how we use this framework to combine machine learning with existing scientific domain knowledge. On three real data sets, we demonstrate that the resulting system performs clearly better (both visually and in terms of the SNR) than one of the currently leading algorithms. If further studies can confirm these results, our method could have the potential to allow significant discoveries of exoplanets both in new and archival data.
翻訳日:2022-10-08 08:02:14 公開日:2020-12-09
# 適応的閾値と局所的コンテキストプーリングを用いた文書レベル関係抽出

Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling ( http://arxiv.org/abs/2010.11304v3 )

ライセンス: Link先を確認
Wenxuan Zhou, Kevin Huang, Tengyu Ma, Jing Huang(参考訳) 文書レベルの関係抽出(RE)は、文レベルの関係抽出に比べて新しい課題を生じさせる。 1つの文書は一般に複数のエンティティペアを含み、1つのエンティティペアは複数の可能な関係に関連するドキュメントで複数回発生する。 本稿では,マルチラベル・マルチエンティティ問題を解くために,適応しきい値法と局所化コンテキストプーリング法という2つの新しい手法を提案する。 適応しきい値は、事前作業におけるマルチラベル分類のグローバルしきい値を学習可能なエンティティ依存しきい値に置き換える。 局所的なコンテキストプーリングは、事前訓練された言語モデルから直接、関係を決定するのに有用な関連するコンテキストを特定する。 最近リリースされた大規模REデータセットであるDocREDと、生物医学領域におけるCDRとGDAの2つのデータセットである。 ATLOP(Adaptive Thresholding and Localized cOntext Pooling)モデルはF1スコア63.4を達成し、CDRおよびGDAの既存モデルよりも大幅に優れています。

Document-level relation extraction (RE) poses new challenges compared to its sentence-level counterpart. One document commonly contains multiple entity pairs, and one entity pair occurs multiple times in the document associated with multiple possible relations. In this paper, we propose two novel techniques, adaptive thresholding and localized context pooling, to solve the multi-label and multi-entity problems. The adaptive thresholding replaces the global threshold for multi-label classification in the prior work with a learnable entities-dependent threshold. The localized context pooling directly transfers attention from pre-trained language models to locate relevant context that is useful to decide the relation. We experiment on three document-level RE benchmark datasets: DocRED, a recently released large-scale RE dataset, and two datasets CDRand GDA in the biomedical domain. Our ATLOP (Adaptive Thresholding and Localized cOntext Pooling) model achieves an F1 score of 63.4, and also significantly outperforms existing models on both CDR and GDA.
翻訳日:2022-10-05 00:09:35 公開日:2020-12-09
# スパイクニューラルネットワーク-その3:ニューロモルフィック通信

Spiking Neural Networks -- Part III: Neuromorphic Communications ( http://arxiv.org/abs/2010.14220v2 )

ライセンス: Link先を確認
Nicolas Skatchkovsky, Hyeryung Jang, Osvaldo Simeone(参考訳) 無線通信と人工知能のシナジーは、この2つの分野の交差点における研究の動機となっている。 一方、それぞれ独自のデータを持つ無線接続デバイスの存在は、情報を単一の場所に格納して処理する高性能コンピューティング施設から、エンドユーザの分散プライバシを意識した処理へと、機械学習(ml)の進歩を輸出しようとしている。 一方、MLは通信プロトコルの最適化においてアルゴリズムとモデル欠陥に対処することができる。 しかし、帯域制限されたチャネルを介して接続されたバッテリ駆動デバイス上での学習と推論のためのMLモデルの実装は依然として困難である。 本稿では、スパイキングニューラルネットワーク(SNN)がこれらのオープンな問題に対処する2つの方法を探る。 まず,SNNの分散学習のためのフェデレーション学習について論じ,低消費電力リモート推論のためのニューロモルフィックセンシング,SNN,インパルス無線技術の統合について述べる。

Synergies between wireless communications and artificial intelligence are increasingly motivating research at the intersection of the two fields. On the one hand, the presence of more and more wirelessly connected devices, each with its own data, is driving efforts to export advances in machine learning (ML) from high performance computing facilities, where information is stored and processed in a single location, to distributed, privacy-minded, processing at the end user. On the other hand, ML can address algorithm and model deficits in the optimization of communication protocols. However, implementing ML models for learning and inference on battery-powered devices that are connected via bandwidth-constrained channels remains challenging. This paper explores two ways in which Spiking Neural Networks (SNNs) can help address these open problems. First, we discuss federated learning for the distributed training of SNNs, and then describe the integration of neuromorphic sensing, SNNs, and impulse radio technologies for low-power remote inference.
翻訳日:2022-10-02 11:14:55 公開日:2020-12-09
# スパイクニューラルネットワーク --その1:空間パターンの検出

Spiking Neural Networks -- Part I: Detecting Spatial Patterns ( http://arxiv.org/abs/2010.14208v2 )

ライセンス: Link先を確認
Hyeryung Jang, Nicolas Skatchkovsky, Osvaldo Simeone(参考訳) Spiking Neural Networks(SNN)は生物学的にインスパイアされた機械学習モデルで、バイナリとスパーススパイキング信号をイベント駆動のオンラインな方法で処理する動的ニューラルモデルに基づいている。 snnは、学習と推論のためのエネルギー効率の高いコプロセッサとして出現しているニューロモルフィックコンピューティングプラットフォームに実装できる。 これは、SNNをエンジニアの聴衆に紹介する3つの論文の1つであり、モデル、アルゴリズム、アプリケーションに焦点を当てている。 本稿では,従来のニューラルネットワーク(ANN)とSNNに使用されるニューラルネットワークについて述べる。 次に,レートエンコードされたスパイキング信号の空間パターンの検出・生成により,ANNの機能の模倣を目的としたSNNの学習アルゴリズムと応用について検討する。 本稿では,ANN-to-SNN変換とニューラルサンプリングについて述べる。 最後に,実験を通して空間パターンを検出し,生成するSNNの機能を検証する。

Spiking Neural Networks (SNNs) are biologically inspired machine learning models that build on dynamic neuronal models processing binary and sparse spiking signals in an event-driven, online, fashion. SNNs can be implemented on neuromorphic computing platforms that are emerging as energy-efficient co-processors for learning and inference. This is the first of a series of three papers that introduce SNNs to an audience of engineers by focusing on models, algorithms, and applications. In this first paper, we first cover neural models used for conventional Artificial Neural Networks (ANNs) and SNNs. Then, we review learning algorithms and applications for SNNs that aim at mimicking the functionality of ANNs by detecting or generating spatial patterns in rate-encoded spiking signals. We specifically discuss ANN-to-SNN conversion and neural sampling. Finally, we validate the capabilities of SNNs for detecting and generating spatial patterns through experiments.
翻訳日:2022-10-02 11:02:54 公開日:2020-12-09
# ディープラーニングのための一般化負相関学習

Generalized Negative Correlation Learning for Deep Ensembling ( http://arxiv.org/abs/2011.02952v2 )

ライセンス: Link先を確認
Sebastian Buschj\"ager, Lukas Pfahler, Katharina Morik(参考訳) アンサンブルアルゴリズムは多くの機械学習アプリケーションで最先端のパフォーマンスを提供する。 その優れた性能の一般的な説明は平均二乗誤差の偏差分解によるものであり、アルゴリズムの誤差はその偏差と分散に分解できることを示している。 両方の量はしばしば互いに対立し、アンサンブルは、バイアスを同時に低く保ちながら、多様な基礎学習者による分散を減らし、それらを効果的に管理する方法を提供する。 他の損失関数を分解する作業は数多くあったが、正確な数学的接続をセンシングに明示的に利用することは滅多にないが、単に指導原理として使われるだけである。 本稿では、任意の2つの微分可能な損失関数に対する一般化バイアス分散分解を定式化し、ディープラーニングの文脈で研究する。 この分解を用いて,アンサンブルの多様性を明示的に制御し,独立訓練の2つの極端とアンサンブルの合同訓練をスムーズに補間する一般化負相関学習(gncl)アルゴリズムを導出する。 我々は,GNCLが過去の多くの研究をカプセル化して,ニューラルネットワークのアンサンブルの学習に失敗する状況と,個々のネットワークの選択に応じてどのようなアンサンブル手法を好まなければならないかを論じる。 コードをhttps://github.com/sbuschjaeger/gnclで公開しています。

Ensemble algorithms offer state of the art performance in many machine learning applications. A common explanation for their excellent performance is due to the bias-variance decomposition of the mean squared error which shows that the algorithm's error can be decomposed into its bias and variance. Both quantities are often opposed to each other and ensembles offer an effective way to manage them as they reduce the variance through a diverse set of base learners while keeping the bias low at the same time. Even though there have been numerous works on decomposing other loss functions, the exact mathematical connection is rarely exploited explicitly for ensembling, but merely used as a guiding principle. In this paper, we formulate a generalized bias-variance decomposition for arbitrary twice differentiable loss functions and study it in the context of Deep Learning. We use this decomposition to derive a Generalized Negative Correlation Learning (GNCL) algorithm which offers explicit control over the ensemble's diversity and smoothly interpolates between the two extremes of independent training and the joint training of the ensemble. We show how GNCL encapsulates many previous works and discuss under which circumstances training of an ensemble of Neural Networks might fail and what ensembling method should be favored depending on the choice of the individual networks. We make our code publicly available under https://github.com/sbuschjaeger/gncl
翻訳日:2022-09-29 11:30:40 公開日:2020-12-09
# 感情・感覚辞書の有効活用における実践的・倫理的考察

Practical and Ethical Considerations in the Effective use of Emotion and Sentiment Lexicons ( http://arxiv.org/abs/2011.03492v2 )

ライセンス: Link先を確認
Saif M. Mohammad(参考訳) 単語感情協会の語彙は、研究や現実世界の応用で広く使われている。 私の研究の一環として、私はいくつかのレキシコン(例えばNRC感情レキシコン)を作成しました。 本稿では,これらの語彙資源の有効利用に関する実践的・倫理的考察を概説する。

Lexicons of word-emotion associations are widely used in research and real-world applications. As part of my research, I have created several such lexicons (e.g., the NRC Emotion Lexicon). This paper outlines some practical and ethical considerations involved in the effective use of these lexical resources.
翻訳日:2022-09-29 04:59:30 公開日:2020-12-09
# 物体認識型3次元Ego-Pose推定のためのキネマティクスによる強化学習

Kinematics-Guided Reinforcement Learning for Object-Aware 3D Ego-Pose Estimation ( http://arxiv.org/abs/2011.04837v3 )

ライセンス: Link先を確認
Zhengyi Luo, Ryo Hachiuma, Ye Yuan, Shun Iwase, Kris M. Kitani(参考訳) 本稿では,頭部カメラを用いた3次元エゴ位置推定作業にオブジェクトインタラクションと人体ダイナミクスを組み込む手法を提案する。 我々は人体の運動モデルを用いて、人間の運動の全範囲を表現し、身体の力学モデルを用いて、物理学シミュレータ内の物体と相互作用する。 オブジェクトモデリング、キネマティックスモデリング、動的モデリングを強化学習(RL)フレームワークに組み込むことで、オブジェクトを意識した3Dエゴ位置推定を可能にする。 状態空間と行動空間の設計を通じて、複数の表現的革新を考案し、3Dシーンコンテキストを取り入れ、ポーズ推定品質を向上させる。 また、ドリフトを補正し、推定された人間と対象の相互作用を洗練するための微調整ステップも構築した。 これは、エゴセントリックなビデオからオブジェクト(例えば椅子、箱、障害物)と物理的に有効な3Dフルボディインタラクションシーケンスを推定する最初の研究である。 制御と内部設定の両方で実験した結果,本手法は物理法則に準拠した3次元エゴポス配列の抽出に有効であることがわかった。

We propose a method for incorporating object interaction and human body dynamics into the task of 3D ego-pose estimation using a head-mounted camera. We use a kinematics model of the human body to represent the entire range of human motion, and a dynamics model of the body to interact with objects inside a physics simulator. By bringing together object modeling, kinematics modeling, and dynamics modeling in a reinforcement learning (RL) framework, we enable object-aware 3D ego-pose estimation. We devise several representational innovations through the design of the state and action space to incorporate 3D scene context and improve pose estimation quality. We also construct a fine-tuning step to correct the drift and refine the estimated human-object interaction. This is the first work to estimate a physically valid 3D full-body interaction sequence with objects (e.g., chairs, boxes, obstacles) from egocentric videos. Experiments with both controlled and in-the-wild settings show that our method can successfully extract an object-conditioned 3D ego-pose sequence that is consistent with the laws of physics.
翻訳日:2022-09-27 07:32:16 公開日:2020-12-09
# 名前付きエンティティ認識のための解釈可能なマルチデータセット評価

Interpretable Multi-dataset Evaluation for Named Entity Recognition ( http://arxiv.org/abs/2011.06854v2 )

ライセンス: Link先を確認
Jinlan Fu, Pengfei Liu, Graham Neubig(参考訳) 自然言語処理タスクのモデルの普及に伴い、モデルとそれらの相対的なメリットの違いを理解することはさらに困難である。 正確性、BLEU、F1といった総合的なメトリクスの違いを見れば、特定のメソッドがなぜ、どのように異なるパフォーマンスをするのか、また、多種多様なデータセットがモデル設計選択にどのように影響するかは分からない。 本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。 提案手法により,モデルとデータセットの違いを解釈し,それらの相互作用を解釈し,現在のシステムの強みと弱みを識別できる。 分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進捗を促進するのが簡単になります。

With the proliferation of models for natural language processing tasks, it is even harder to understand the differences between models and their relative merits. Simply looking at differences between holistic metrics such as accuracy, BLEU, or F1 does not tell us why or how particular methods perform differently and how diverse datasets influence the model design choices. In this paper, we present a general methodology for interpretable evaluation for the named entity recognition (NER) task. The proposed evaluation method enables us to interpret the differences in models and datasets, as well as the interplay between them, identifying the strengths and weaknesses of current systems. By making our analysis tool available, we make it easy for future researchers to run similar analyses and drive progress in this area: https://github.com/neulab/InterpretEval.
翻訳日:2022-09-26 00:02:28 公開日:2020-12-09
# RethinkCWS:中国語の単語分割は解決された課題か?

RethinkCWS: Is Chinese Word Segmentation a Solved Task? ( http://arxiv.org/abs/2011.06858v2 )

ライセンス: Link先を確認
Jinlan Fu, Pengfei Liu, Qi Zhang, Xuanjing Huang(参考訳) 中国語単語セグメンテーション(cws)システムの性能は、ディープニューラルネットワークの急速な発展、特に大規模事前学習モデルの成功によって徐々に高原に達している。 本稿では、私たちが達成したことの株式を取得し、CWSタスクに残されているものを再考する。 提案手法は,既存のCWSシステムに対して,既存のモデルの長所と短所(データセット内設定)を診断するだけでなく,異なる基準間の差分を定量化し,複数基準学習を行う際の負の伝達問題を緩和することのできる,きめ細かい評価手法を提案する。 戦略的には, 新たなモデルの提案を意図していないが, 8つのモデルと7つのデータセットに関する包括的実験と, 徹底的な分析により, 今後の研究に有望な方向性を探究することができる。 すべてのコードが公開され、ユーザモデルの迅速な評価と診断が可能なインターフェースがリリースされます。

The performance of the Chinese Word Segmentation (CWS) systems has gradually reached a plateau with the rapid development of deep neural networks, especially the successful use of large pre-trained models. In this paper, we take stock of what we have achieved and rethink what's left in the CWS task. Methodologically, we propose a fine-grained evaluation for existing CWS systems, which not only allows us to diagnose the strengths and weaknesses of existing models (under the in-dataset setting), but enables us to quantify the discrepancy between different criterion and alleviate the negative transfer problem when doing multi-criteria learning. Strategically, despite not aiming to propose a novel model in this paper, our comprehensive experiments on eight models and seven datasets, as well as thorough analysis, could search for some promising direction for future research. We make all codes publicly available and release an interface that can quickly evaluate and diagnose user's models: https://github.com/neulab/InterpretEval.
翻訳日:2022-09-26 00:02:15 公開日:2020-12-09
# 遠絡因果効果変分オートエンコーダによる対向フェアネス

Counterfactual Fairness with Disentangled Causal Effect Variational Autoencoder ( http://arxiv.org/abs/2011.11878v2 )

ライセンス: Link先を確認
Hyemi Kim, Seungjae Shin, JoonHo Jang, Kyungwoo Song, Weonyoung Joo, Wanmo Kang, Il-Chul Moon(参考訳) 分類特徴から組み込まれた機密情報を除去する手法を開発しれば,公平な分類の問題は解決できる。 このセンシティブ情報を分離する線は因果推論によって展開され、因果推論により、逆のセンシティブ属性のWhat-ifの場合と対比することができる。 この因果関係との分離とともに、深い潜在因果モデルにおける頻繁な仮定は、因果グラフの外部の不確かさ全体を吸収する単一の潜在変数を定義する。 しかし、そのような構造は区別できないと主張する。 1)介入によって引き起こされる情報(敏感な変数)と 2)データからの介入と相関した情報。 そこで本稿では,外因性不確かさを2つの潜伏変数に解き放つことにより,この制限を解決するために,DCEVAE(Disentangled Causal Effect Variational Autoencoder)を提案する。 1)介入に依存しないか 2) 因果関係のない介入と相関した。 特に,提案手法は, 対実例の生成における介入と相関する潜伏変数を保持する。 本手法は,完全な因果グラフを使わずに,全効果と対実効果を推定する。 フェアネス正則化を追加することで、DCEVAEは偽のフェアデータセットを生成し、元の情報が少なくなる。 また、DCEVAEは、感度情報のみを反転させることで、自然な偽物画像を生成する。 さらに,DCEVAEの共分散構造と先行研究との相違点を,潜伏な絡み合いの観点から理論的に示す。

The problem of fair classification can be mollified if we develop a method to remove the embedded sensitive information from the classification features. This line of separating the sensitive information is developed through the causal inference, and the causal inference enables the counterfactual generations to contrast the what-if case of the opposite sensitive attribute. Along with this separation with the causality, a frequent assumption in the deep latent causal model defines a single latent variable to absorb the entire exogenous uncertainty of the causal graph. However, we claim that such structure cannot distinguish the 1) information caused by the intervention (i.e., sensitive variable) and 2) information correlated with the intervention from the data. Therefore, this paper proposes Disentangled Causal Effect Variational Autoencoder (DCEVAE) to resolve this limitation by disentangling the exogenous uncertainty into two latent variables: either 1) independent to interventions or 2) correlated to interventions without causality. Particularly, our disentangling approach preserves the latent variable correlated to interventions in generating counterfactual examples. We show that our method estimates the total effect and the counterfactual effect without a complete causal graph. By adding a fairness regularization, DCEVAE generates a counterfactual fair dataset while losing less original information. Also, DCEVAE generates natural counterfactual images by only flipping sensitive information. Additionally, we theoretically show the differences in the covariance structures of DCEVAE and prior works from the perspective of the latent disentanglement.
翻訳日:2022-09-21 12:26:17 公開日:2020-12-09
# siamese基底関数ネットワークによる欠陥分類

Siamese Basis Function Networks for Defect Classification ( http://arxiv.org/abs/2012.01338v4 )

ライセンス: Link先を確認
Tobias Schlagenhauf, Faruk Yildirim, Benedikt Br\"uckner, J\"urgen Fleischer(参考訳) 金属表面の欠陥分類は、鉄鋼やその他の金属が日常的に製造産業によって処理されるため、重要な問題と考えられている。 筆者らは,samese基底関数ネットワーク(sbf-network)を構築するための基本関数ネットワークにおいて,いわゆるsiameseカーネルの利用を導入する新しいアプローチを提案する。 基本的な考え方は、類似度スコアを用いて分類することである。 この分類は、効率的な深層学習に基づく特徴抽出手法によって強化される。 まず、中央画像が各シームズカーネルに割り当てられる。 次にカーネルは、データセット内の他のイメージとセンターを区別する方法でエンコーディングを生成するように訓練される。 このアプローチを用いて、著者らはシームズ・カーネルの内部にある種のクラス認識を作成した。 与えられた画像を分類するために、各シームズカーネルはその中心と与えられた画像の特徴ベクトルを生成する。 これらのベクトルは、各画像の低次元空間における符号化を表す。 それぞれのエンコーディング間の距離は、放射基底関数と共に余弦距離を用いて計算される。 距離は、分類を行うために多層ニューラルネットワークに供給される。 このアプローチにより、著者らは art neu 表面欠陥データセットの状況において優れた結果を得た。

Defect classification on metallic surfaces is considered a critical issue since substantial quantities of steel and other metals are processed by the manufacturing industry on a daily basis. The authors propose a new approach where they introduce the usage of so called Siamese Kernels in a Basis Function Network to create the Siamese Basis Function Network (SBF-Network). The underlying idea is to classify by comparison using similarity scores. This classification is reinforced through efficient deep learning based feature extraction methods. First, a center image is assigned to each Siamese Kernel. The Kernels are then trained to generate encodings in a way that enables them to distinguish their center from other images in the dataset. Using this approach the authors created some kind of class-awareness inside the Siamese Kernels. To classify a given image, each Siamese Kernel generates a feature vector for its center as well as the given image. These vectors represent encodings of the respective images in a lower-dimensional space. The distance between each pair of encodings is then computed using the cosine distance together with radial basis functions. The distances are fed into a multilayer neural network to perform the classification. With this approach the authors achieved outstanding results on the state of the art NEU surface defect dataset.
翻訳日:2021-05-25 04:09:28 公開日:2020-12-09
# 部分グラフマッチングのための部分グロモフ・ワッサースタイン学習

Partial Gromov-Wasserstein Learning for Partial Graph Matching ( http://arxiv.org/abs/2012.01252v2 )

ライセンス: Link先を確認
Weijie Liu, Chao Zhang, Jiahao Xie, Zebang Shen, Hui Qian, Nenggan Zheng(参考訳) グラフマッチングは、2つのグラフにまたがるノードの対応を見つけ、グラフベースの機械学習の基本的なタスクである。 1つのグラフのすべてのノードをもう1つのグラフの1つのノードにマッチさせるが、2つのグラフは通常、多くの \realworld{} アプリケーションで部分的に重複する。 本稿では,部分的なGromov-Wasserstein 学習フレームワークを提案し,部分的なGromov-Wasserstein 距離と部分的なWasserstein 距離を目的として融合させ,部分的なトランスポートマップとノード埋め込みを交互に更新する。 提案したフレームワークは確率質量のごく一部を輸送し、2つのグラフに高い相対的類似性を持つノード対と一致する。 埋め込み学習法を取り入れた異種グラフも一致させることができる。 合成および実数式{}グラフの数値実験により、我々のフレームワークはF1スコアを少なくとも20\%$で、より多く改善できることを示した。

Graph matching finds the correspondence of nodes across two graphs and is a basic task in graph-based machine learning. Numerous existing methods match every node in one graph to one node in the other graph whereas two graphs usually overlap partially in many \realworld{} applications. In this paper, a partial Gromov-Wasserstein learning framework is proposed for partially matching two graphs, which fuses the partial Gromov-Wasserstein distance and the partial Wasserstein distance as the objective and updates the partial transport map and the node embedding in an alternating fashion. The proposed framework transports a fraction of the probability mass and matches node pairs with high relative similarities across the two graphs. Incorporating an embedding learning method, heterogeneous graphs can also be matched. Numerical experiments on both synthetic and \realworld{} graphs demonstrate that our framework can improve the F1 score by at least $20\%$ and often much more.
翻訳日:2021-05-25 03:51:51 公開日:2020-12-09
# 不均衡データセット上の重複細胞分離と分類を伴う赤血球分画

Red Blood Cell Segmentation with Overlapping Cell Separation and Classification on Imbalanced Dataset ( http://arxiv.org/abs/2012.01321v2 )

ライセンス: Link先を確認
Korranat Naruenatthanaset, Thanarat H. Chalidabhongse, Duangdao Palasuwan, Nantheera Anantrasirichai, Attakorn Palasuwan(参考訳) 血液スメア画像上の赤血球の自動分類は、血液学者がrbc検査結果を分析するのに役立つ。 重なり合う細胞は、分類する前に複数の単一のRBCに分離しなければならない誤った予測結果を引き起こす。 深層学習で複数のクラスを分類するには、正常標本が稀な疾患サンプルよりも常に高いため、医療画像では不均衡の問題が一般的である。 本稿では,血液スミア画像から赤血球を分離・分類する新しい手法を提案する。 重なり合う細胞分離に焦点をあてて、我々のセグメンテーションプロセスはまず赤血球を推定する。 この方法は凹点を検出し、有向楕円フィッティングを用いて楕円を求める。 精度は、20枚の血液スミア画像で0.889である。 分類にはバランスのとれたトレーニングデータセットが必要です。 しかし、RBCタイプは稀である。 不均衡比は12クラスで34.538で、赤血球サンプルは20,875個である。 不均衡データセットを用いたRBC分類における機械学習の利用は、他の多くのアプリケーションよりも困難である。 我々はこの問題に対処する技術を分析する。 最高の精度とf1スコアは、強化された efficientnet-b1 の 0.921 と 0.8679 である。 実験の結果,データ拡張によって分類性能が著しく向上する一方で,マイノリティクラスにおけるf1スコアを改善することにより,拡張を伴う重みバランス技術が不均衡問題に対処する可能性が示唆された。

Automated red blood cell classification on blood smear images helps hematologist to analyze RBC lab results in less time and cost. Overlapping cells can cause incorrect predicted results that have to separate into multiple single RBCs before classifying. To classify multiple classes with deep learning, imbalance problems are common in medical imaging because normal samples are always higher than rare disease samples. This paper presents a new method to segment and classify red blood cells from blood smear images, specifically to tackle cell overlapping and data imbalance problems. Focusing on overlapping cell separation, our segmentation process first estimates ellipses to represent red blood cells. The method detects the concave points and then finds the ellipses using directed ellipse fitting. The accuracy is 0.889 on 20 blood smear images. Classification requires balanced training datasets. However, some RBC types are rare. The imbalance ratio is 34.538 on 12 classes with 20,875 individual red blood cell samples. The use of machine learning for RBC classification with an imbalance dataset is hence more challenging than many other applications. We analyze techniques to deal with this problem. The best accuracy and f1 score are 0.921 and 0.8679 on EfficientNet-b1 with augmentation. Experimental results show that the weight balancing technique with augmentation has the potential to deal with imbalance problems by improving the f1 score on minority classes while data augmentation significantly improves the overall classification performance.
翻訳日:2021-05-25 03:46:08 公開日:2020-12-09
# NLPモデルを改善する自己説明構造

Self-Explaining Structures Improve NLP Models ( http://arxiv.org/abs/2012.01786v2 )

ライセンス: Link先を確認
Zijun Sun, Chun Fan, Qinghong Han, Xiaofei Sun, Yuxian Meng, Fei Wu and Jiwei Li(参考訳) Existing approaches to explaining deep learning models in NLP usually suffer from two major drawbacks: (1) the main model and the explaining model are decoupled: an additional probing or surrogate model is used to interpret an existing model, and thus existing explaining tools are not self-explainable; (2) the probing model is only able to explain a model's predictions by operating on low-level features by computing saliency scores for individual words but are clumsy at high-level text units such as phrases, sentences, or paragraphs. この2つの問題に対処するため,本論文では,nlpにおけるディープラーニングモデルのための,単純かつ汎用的で効果的な自己説明フレームワークを提案する。 提案フレームワークの重要なポイントは、既存のnlpモデルの上に、解釈層によって呼び出される追加のレイヤを置くことである。 この層は各テキストスパンに関する情報を集約し、それを特定の重みに関連付け、その重み付けの組み合わせをソフトマックス関数に供給して最終的な予測を行う。 提案モデルは,(1)スパン重みを自己説明可能とし,解釈のための追加のプロビングモデルを必要としないこと,(2)提案モデルは一般的であり,nlpの既存の深層学習構造に適用可能であること,(3)各テキストスパンに関連する重みは,句や文などの高レベルテキスト単位に対する直接的な重要度スコアを提供する。 自己説明的特徴のニューラルモデルは、自己説明的性質を伴わずに、それよりも優れた性能を得ることができ、sst-5では59.1、snliでは92.3の新たなsota性能を達成する。

Existing approaches to explaining deep learning models in NLP usually suffer from two major drawbacks: (1) the main model and the explaining model are decoupled: an additional probing or surrogate model is used to interpret an existing model, and thus existing explaining tools are not self-explainable; (2) the probing model is only able to explain a model's predictions by operating on low-level features by computing saliency scores for individual words but are clumsy at high-level text units such as phrases, sentences, or paragraphs. To deal with these two issues, in this paper, we propose a simple yet general and effective self-explaining framework for deep learning models in NLP. The key point of the proposed framework is to put an additional layer, as is called by the interpretation layer, on top of any existing NLP model. This layer aggregates the information for each text span, which is then associated with a specific weight, and their weighted combination is fed to the softmax function for the final prediction. The proposed model comes with the following merits: (1) span weights make the model self-explainable and do not require an additional probing model for interpretation; (2) the proposed model is general and can be adapted to any existing deep learning structures in NLP; (3) the weight associated with each text span provides direct importance scores for higher-level text units such as phrases and sentences. We for the first time show that interpretability does not come at the cost of performance: a neural model of self-explaining features obtains better performances than its counterpart without the self-explaining nature, achieving a new SOTA performance of 59.1 on SST-5 and a new SOTA performance of 92.3 on SNLI.
翻訳日:2021-05-23 15:00:35 公開日:2020-12-09
# (参考訳) バッチ群正規化

Batch Group Normalization ( http://arxiv.org/abs/2012.02782v2 )

ライセンス: CC BY 4.0
Xiao-Yun Zhou, Jiacheng Sun, Nanyang Ye, Xu Lan, Qijun Luo, Bo-Lin Lai, Pedro Esperanca, Guang-Zhong Yang, Zhenguo Li(参考訳) 深層畳み込みニューラルネットワーク(DCNN)は、トレーニングに難しく、時間を要する。 正規化は有効な解の1つである。 従来の正規化手法では、バッチ正規化(bn)は中規模および大規模バッチサイズで良好に動作し、複数のビジョンタスクの汎用性も高いが、小さなバッチサイズでは性能が著しく低下する。 本稿では、BNがワーカ当たり128の画像、すなわちGPUで非常に大きなバッチサイズで飽和していることと、BNの小型/極大バッチサイズでの劣化/飽和がノイズ/畳み込み統計計算によって引き起こされることを提案する。 したがって、新しいトレーニング可能なパラメータを追加せずに、複数層または多層情報を使用したり、余分な計算を導入したりすることなく、Batch Group Normalization (BGN) が提案され、チャネル、高さ、幅を補うことで、小/極大バッチサイズでのBNのノイズ/畳み込み統計計算を解くことができる。 グループ正規化(GN)におけるグループテクニックを使用し、統計計算に使用される特徴量の制御にハイパーパラメータGを用いるため、異なるバッチサイズに対してノイズや混乱した統計量を提供しない。 我々は,BGNがBN,インスタンス正規化(IN),レイヤ正規化(LN),GN,位置正規化(PN),画像分類,ニューラルアーキテクチャサーチ(NAS),対角学習,FSL(Few Shot Learning),非教師なしドメイン適応(Unsupervised Domain Adaptation,UDA)など,幅広い視覚タスクにおいて一貫して優れており,その優れた性能,バッチサイズに対する安定性,広範な一般化性を示す。 例えば、ImageNet上のResNet-50をバッチサイズ2でトレーニングする場合、BNは66.512%、BGNは76.096%の精度で改善した。

Deep Convolutional Neural Networks (DCNNs) are hard and time-consuming to train. Normalization is one of the effective solutions. Among previous normalization methods, Batch Normalization (BN) performs well at medium and large batch sizes and is with good generalizability to multiple vision tasks, while its performance degrades significantly at small batch sizes. In this paper, we find that BN saturates at extreme large batch sizes, i.e., 128 images per worker, i.e., GPU, as well and propose that the degradation/saturation of BN at small/extreme large batch sizes is caused by noisy/confused statistic calculation. Hence without adding new trainable parameters, using multiple-layer or multi-iteration information, or introducing extra computation, Batch Group Normalization (BGN) is proposed to solve the noisy/confused statistic calculation of BN at small/extreme large batch sizes with introducing the channel, height and width dimension to compensate. The group technique in Group Normalization (GN) is used and a hyper-parameter G is used to control the number of feature instances used for statistic calculation, hence to offer neither noisy nor confused statistic for different batch sizes. We empirically demonstrate that BGN consistently outperforms BN, Instance Normalization (IN), Layer Normalization (LN), GN, and Positional Normalization (PN), across a wide spectrum of vision tasks, including image classification, Neural Architecture Search (NAS), adversarial learning, Few Shot Learning (FSL) and Unsupervised Domain Adaptation (UDA), indicating its good performance, robust stability to batch size and wide generalizability. For example, for training ResNet-50 on ImageNet with a batch size of 2, BN achieves Top1 accuracy of 66.512% while BGN achieves 76.096% with notable improvement.
翻訳日:2021-05-23 00:23:04 公開日:2020-12-09
# (参考訳) 適応的特徴選択を用いたスケール変動における物体検出の改善

Towards Better Object Detection in Scale Variation with Adaptive Feature Selection ( http://arxiv.org/abs/2012.03265v2 )

ライセンス: CC BY 4.0
Zehui Gong, Dong Li(参考訳) ピラミッド型特徴表現を利用して、オブジェクトインスタンスのスケール変動の問題に取り組むのが一般的である。 しかし、それらのほとんどは、単独または主にシングルレベルの表現に基づいて、一定の範囲のスケールでオブジェクトを予測し、検出性能が劣る。 そこで本研究では,チャネル次元におけるマルチレベル表現の融合をデータ駆動方式で自動学習する適応的特徴選択モジュール(afsm)を提案する。 これは特徴ピラミッド構造を持つ検出器の性能を大幅に改善し、ほとんど自由な推論オーバーヘッドを導入した。 さらに,各授業の統計特性に基づいて,各トレーニング画像に対するサンプリング比率を再重み付けすることにより,クラス不均衡問題に対処するためのクラス認識サンプリング機構(CASM)を提案する。 これはマイナークラスのパフォーマンスを改善するために重要です。 実験の結果,VOCデータセットでは83.04% mAPが15.96 FPS,VisDrone-DET検証サブセットでは39.48%,他の最先端検出器では39.48%であった。 コードはhttps://github.com/ZeHuiGong/AFSM.gitで入手できる。

It is a common practice to exploit pyramidal feature representation to tackle the problem of scale variation in object instances. However, most of them still predict the objects in a certain range of scales based solely or mainly on a single-level representation, yielding inferior detection performance. To this end, we propose a novel adaptive feature selection module (AFSM), to automatically learn the way to fuse multi-level representations in the channel dimension, in a data-driven manner. It significantly improves the performance of the detectors that have a feature pyramid structure, while introducing nearly free inference overhead. Moreover, a class-aware sampling mechanism (CASM) is proposed to tackle the class imbalance problem, by re-weighting the sampling ratio to each of the training images, based on the statistical characteristics of each class. This is crucial to improve the performance of the minor classes. Experimental results demonstrate the effectiveness of the proposed method, with 83.04% mAP at 15.96 FPS on the VOC dataset, and 39.48% AP on the VisDrone-DET validation subset, respectively, outperforming other state-of-the-art detectors considerably. The code is available at https://github.com/ZeHuiGong/AFSM.git.
翻訳日:2021-05-22 06:10:50 公開日:2020-12-09
# (参考訳) ディープラーニングの一般化

Generalization bounds for deep learning ( http://arxiv.org/abs/2012.04115v2 )

ライセンス: CC BY 4.0
Guillermo Valle-P\'erez, Ard A. Louis(参考訳) ディープラーニングの一般化は、近年の理論的および実証的研究のトピックである。 本稿では,教師あり学習における深層学習モデルの一般化誤差を予測する手法について紹介する。 このような予測は、1)データ複雑性で正しくスケールする、2) トレーニングセットのサイズで正しくスケールする、3) アーキテクチャ間の差異をキャプチャする、3) 最適化アルゴリズム間の差異をキャプチャする、4) 真のエラー(特に空でない)から遠くない、(6) 効率的に計算可能である、(7) 厳密である、といった予測である。 我々は, 一般化誤差上限に着目し, アルゴリズムとデータに対する仮定による境界の分類を導入する。 我々は、古典的なvc次元から最近のpac-ベイズ境界まで、幅広い既存のアプローチをレビューし、デシダラタに対するパフォーマンスについてコメントした。 次に関数ベースの画像を用いて、辺状のPAC-ベイジアン境界を導出する。 この境界は、1つの定義により、学習曲線が力の法則に従う限り、大きな訓練集合の漸近極限における乗法定数まで最適である。 広範囲にわたる実証分析により、我々の辺縁状のPAC-Bayes境界がdeiderata 1-3および5を満たすことが示された。 6と7の結果は有望だが、まだ完全には確定していない。 最後に、この関数ベースのバウンドが現在のパラメータベースのpac-bayesバウンドよりも著しく優れている理由についてコメントする。

Generalization in deep learning has been the topic of much recent theoretical and empirical research. Here we introduce desiderata for techniques that predict generalization errors for deep learning models in supervised learning. Such predictions should 1) scale correctly with data complexity; 2) scale correctly with training set size; 3) capture differences between architectures; 4) capture differences between optimization algorithms; 5) be quantitatively not too far from the true error (in particular, be non-vacuous); 6) be efficiently computable; and 7) be rigorous. We focus on generalization error upper bounds, and introduce a categorisation of bounds depending on assumptions on the algorithm and data. We review a wide range of existing approaches, from classical VC dimension to recent PAC-Bayesian bounds, commenting on how well they perform against the desiderata. We next use a function-based picture to derive a marginal-likelihood PAC-Bayesian bound. This bound is, by one definition, optimal up to a multiplicative constant in the asymptotic limit of large training sets, as long as the learning curve follows a power law, which is typically found in practice for deep learning problems. Extensive empirical analysis demonstrates that our marginal-likelihood PAC-Bayes bound fulfills desiderata 1-3 and 5. The results for 6 and 7 are promising, but not yet fully conclusive, while only desideratum 4 is currently beyond the scope of our bound. Finally, we comment on why this function-based bound performs significantly better than current parameter-based PAC-Bayes bounds.
翻訳日:2021-05-18 05:02:59 公開日:2020-12-09
# (参考訳) お気の毒に:スペクトルベースの音声距離はピッチが悪い

I'm Sorry for Your Loss: Spectrally-Based Audio Distances Are Bad at Pitch ( http://arxiv.org/abs/2012.04572v2 )

ライセンス: CC BY 4.0
Joseph Turian, Max Henry(参考訳) 成長する研究は、合成失敗モードは一般化が不十分であることを示している。 本研究では,2つの定常正弦波間のピッチ距離を合成ベンチマークで比較した。 多くの人はピッチ方向の感覚が不十分です。 これらの欠点は単純な階数仮定を用いて明らかにされる。 我々の課題は人間にはやさしいが、これらの音声距離では難しいため、現在の損失を改善することで、自己教師型音声学習において大きな進歩が期待できる。

Growing research demonstrates that synthetic failure modes imply poor generalization. We compare commonly used audio-to-audio losses on a synthetic benchmark, measuring the pitch distance between two stationary sinusoids. The results are surprising: many have poor sense of pitch direction. These shortcomings are exposed using simple rank assumptions. Our task is trivial for humans but difficult for these audio distances, suggesting significant progress can be made in self-supervised audio learning by improving current losses.
翻訳日:2021-05-17 02:42:18 公開日:2020-12-09
# 効率的なロボット形態設計のための神経忠実性ウォーピング

Neural fidelity warping for efficient robot morphology design ( http://arxiv.org/abs/2012.04195v2 )

ライセンス: Link先を確認
Sha Hu, Zeshi Yang, Greg Mori(参考訳) 計算資源の制限の下で,ロボット形態を最適化して目標タスクの最高の性能を達成するという課題を考察する。 各形態素設計の評価プロセスは、かなりの時間と計算資源を消費できる設計のためのコントローラを学習することを含む。 高価なロボット形態評価の課題に対処するため,低忠実度評価による計算資源を効率的に活用する連続多忠実ベイズ最適化フレームワークを提案する。 忠実度空間上の非定常性の問題を特定する。 提案する忠実性ウォーピング機構は,学習時間とタスクの表現を学習し,連続的忠実性評価間の非定常共分散をモデル化する。 様々な実験により, ロボットの最適形態を効率的に探索するために低忠実度評価を活用できることが実証された。

We consider the problem of optimizing a robot morphology to achieve the best performance for a target task, under computational resource limitations. The evaluation process for each morphological design involves learning a controller for the design, which can consume substantial time and computational resources. To address the challenge of expensive robot morphology evaluation, we present a continuous multi-fidelity Bayesian Optimization framework that efficiently utilizes computational resources via low-fidelity evaluations. We identify the problem of non-stationarity over fidelity space. Our proposed fidelity warping mechanism can learn representations of learning epochs and tasks to model non-stationary covariances between continuous fidelity evaluations which prove challenging for off-the-shelf stationary kernels. Various experiments demonstrate that our method can utilize the low-fidelity evaluations to efficiently search for the optimal robot morphology, outperforming state-of-the-art methods.
翻訳日:2021-05-16 21:39:21 公開日:2020-12-09
# 文の袋から文書へ:機械読解による遠方の教師付き関係抽出

From Bag of Sentences to Document: Distantly Supervised Relation Extraction via Machine Reading Comprehension ( http://arxiv.org/abs/2012.04334v2 )

ライセンス: Link先を確認
Lingyong Yan, Xianpei Han, Le Sun, Fangchao Liu and Ning Bian(参考訳) 距離監督 (DS) は関係抽出において有望なアプローチであるが, しばしばノイズのあるラベル問題に悩まされる。 従来のDSメソッドは通常、エンティティペアを文の袋として表現し、マルチインスタンス学習技術を用いてラベルを識別する。 しかし、バッグベースのパラダイムは、文間レベルと関係抽出の実体レベル証拠の活用に失敗し、その認知アルゴリズムはしばしば特殊で複雑である。 本稿では,文書ベース機械読解(MRC)タスクとして関係抽出をモデル化した,新たなDSパラダイムである文書ベース遠隔監視を提案する。 エンティティに関するすべての文を文書として再編成し、関係性固有の質問で文書をクエリすることで関係を抽出することにより、文書ベースのDSパラダイムは、すべての文レベル、文間レベル、エンティティレベルの証拠を同時にエンコードして活用することができる。 さらに,$\langle$document, question, answer$\rangle$ tuples を用いてmrcモデルを効果的に訓練できる新しい損失関数-dsloss (distant supervisor loss) を設計した。 実験により,本手法が新たな最先端DS性能を実現することを示す。

Distant supervision (DS) is a promising approach for relation extraction but often suffers from the noisy label problem. Traditional DS methods usually represent an entity pair as a bag of sentences and denoise labels using multi-instance learning techniques. The bag-based paradigm, however, fails to leverage the inter-sentence-level and the entity-level evidence for relation extraction, and their denoising algorithms are often specialized and complicated. In this paper, we propose a new DS paradigm--document-based distant supervision, which models relation extraction as a document-based machine reading comprehension (MRC) task. By re-organizing all sentences about an entity as a document and extracting relations via querying the document with relation-specific questions, the document-based DS paradigm can simultaneously encode and exploit all sentence-level, inter-sentence-level, and entity-level evidence. Furthermore, we design a new loss function--DSLoss (distant supervision loss), which can effectively train MRC models using only $\langle$document, question, answer$\rangle$ tuples, therefore noisy label problem can be inherently resolved. Experiments show that our method achieves new state-of-the-art DS performance.
翻訳日:2021-05-16 21:29:11 公開日:2020-12-09
# unrealperson: コストのない人物再同定に向けた適応パイプライン

UnrealPerson: An Adaptive Pipeline towards Costless Person Re-identification ( http://arxiv.org/abs/2012.04268v2 )

ライセンス: Link先を確認
Tianyu Zhang and Lingxi Xie and Longhui Wei and Zijie Zhuang and Yongfei Zhang and Bo Li and Qi Tian(参考訳) 人物の再識別(ReID)の主な困難は、注釈付きデータを収集し、異なるドメイン間でモデルを転送することにある。 本稿では,非現実的な画像データをフル活用して,トレーニングとデプロイメントの段階のコストを削減する,新たなパイプラインUnrealPersonを提案する。 その基本的な部分は、高品質で制御可能な分布から合成画像を生成するシステムである。 インスタンスレベルのアノテーションは、合成されたデータに従い、ほぼ無料です。 画像合成に関するいくつかの詳細は、データ品質に大きく影響します。 3,000のIDと12万のインスタンスで、MSMT17に直接転送されると38.5%のランク-1精度が得られる。 合成データを用いて前回のレコードをほぼ2倍にし、実データを用いた以前の直接転送記録を上回ることさえある。 これにより、事前訓練されたモデルが最先端のアルゴリズムに容易に接続され、精度が向上する、教師なしのドメイン適応のよい基礎が得られます。 さらに、データ分散を柔軟に調整して、いくつかのコーナーリードシナリオに適合させ、パイプラインの適用範囲を広げることができます。 データ合成ツールキットと合成データをhttps://github.com/flyhighest/unrealpersonに公開します。

The main difficulty of person re-identification (ReID) lies in collecting annotated data and transferring the model across different domains. This paper presents UnrealPerson, a novel pipeline that makes full use of unreal image data to decrease the costs in both the training and deployment stages. Its fundamental part is a system that can generate synthesized images of high-quality and from controllable distributions. Instance-level annotation goes with the synthesized data and is almost free. We point out some details in image synthesis that largely impact the data quality. With 3,000 IDs and 120,000 instances, our method achieves a 38.5% rank-1 accuracy when being directly transferred to MSMT17. It almost doubles the former record using synthesized data and even surpasses previous direct transfer records using real data. This offers a good basis for unsupervised domain adaption, where our pre-trained model is easily plugged into the state-of-the-art algorithms towards higher accuracy. In addition, the data distribution can be flexibly adjusted to fit some corner ReID scenarios, which widens the application of our pipeline. We will publish our data synthesis toolkit and synthesized data in https://github.com/FlyHighest/UnrealPerson.
翻訳日:2021-05-16 21:16:44 公開日:2020-12-09
# 局所的塩分コヒーレンスを用いた構造整合型弱教師付き塩分物体検出

Structure-Consistent Weakly Supervised Salient Object Detection with Local Saliency Coherence ( http://arxiv.org/abs/2012.04404v2 )

ライセンス: Link先を確認
Siyue Yu, Bingfeng Zhang, Jimin Xiao, Eng Gee Lim(参考訳) 近年、スパースレーベルが注目を集めている。 しかし、弱い教師と完全な教師付きオブジェクト検出方法のパフォーマンスギャップは巨大であり、以前の弱い教師付き作品の多くは、多くのベルとホイッスルを備えた複雑なトレーニング手法を採用している。 本研究では,事前処理操作や余分な監視データなしに,スクリブルアノテーションによる弱教師付きサルトオブジェクト検出のための1ラウンドのエンドツーエンドトレーニング手法を提案する。 クリブルラベルは精細なサルエント領域を提供しないため,画像特徴と画素距離に基づいてラベルをラベルなし領域に伝播させる局所コヒーレンス損失を提案し,完全なオブジェクト構造を持つ積分サルエント領域を予測する。 モデル一般化能力を高めるための正規化手法とみなすことができる入力と同じ画像の異なるスケールで、一貫した相似性マップが予測されることを保証するための自己整合機構として、相似性構造整合損失を設計する。 さらに,高レベル機能,低レベル機能,グローバルコンテキスト情報を統合し,様々な情報を集約するためのアグリゲーションモジュール(aggm)を設計した。 6つのベンチマーク(例)において,本手法が新たな最先端性能を実現することを示す。 ecssdデータセット: f_\beta = 0.8995, e_\xi = 0.9079, mae = 0.0489$) 平均利得は f-measure で 4.60\%, e-measureで 2.05\%, mae で 1.88\% である。 ソースコードはhttp://github.com/siyueyu/SCWSSOD.comで入手できる。

Sparse labels have been attracting much attention in recent years. However, the performance gap between weakly supervised and fully supervised salient object detection methods is huge, and most previous weakly supervised works adopt complex training methods with many bells and whistles. In this work, we propose a one-round end-to-end training approach for weakly supervised salient object detection via scribble annotations without pre/post-processing operations or extra supervision data. Since scribble labels fail to offer detailed salient regions, we propose a local coherence loss to propagate the labels to unlabeled regions based on image features and pixel distance, so as to predict integral salient regions with complete object structures. We design a saliency structure consistency loss as self-consistent mechanism to ensure consistent saliency maps are predicted with different scales of the same image as input, which could be viewed as a regularization technique to enhance the model generalization ability. Additionally, we design an aggregation module (AGGM) to better integrate high-level features, low-level features and global context information for the decoder to aggregate various information. Extensive experiments show that our method achieves a new state-of-the-art performance on six benchmarks (e.g. for the ECSSD dataset: F_\beta = 0.8995, E_\xi = 0.9079 and MAE = 0.0489$), with an average gain of 4.60\% for F-measure, 2.05\% for E-measure and 1.88\% for MAE over the previous best method on this task. Source code is available at http://github.com/siyueyu/SCWSSOD.
翻訳日:2021-05-16 21:15:09 公開日:2020-12-09
# 4つの離散確率変数の条件付き独立構造:条件付きイングルトン不等式

Conditional independence structures over four discrete random variables revisited: conditional Ingleton inequalities ( http://arxiv.org/abs/2012.04092v2 )

ライセンス: Link先を確認
Milan Studeny(参考訳) 離散確率変数によって引き起こされるエントロピー関数に対して有効である条件付き線形情報不等式を扱う。 特に、いわゆる条件付きイングルトン不等式は興味の中心であり、これは確率変数の誘導に関する条件付き独立性の仮定の下で有効である。 このタイプの5つの不等式について検討し,そのうち4つが文献に早く現れている。 新しい5次不等式の証明に加えて、(いくつかの)以前の不等式に対するより単純な証明が提示される。 これら5つの情報不等式は、4つの離散確率変数によって誘導される条件付き独立構造を特徴づけるために用いられる。

The paper deals with conditional linear information inequalities valid for entropy functions induced by discrete random variables. Specifically, the so-called conditional Ingleton inequalities are in the center of interest: these are valid under conditional independence assumptions on the inducing random variables. We discuss five inequalities of this particular type, four of which has appeared earlier in the literature. Besides the proof of the new fifth inequality, simpler proofs of (some of) former inequalities are presented. These five information inequalities are used to characterize all conditional independence structures induced by four discrete random variables.
翻訳日:2021-05-16 21:01:25 公開日:2020-12-09
# (参考訳) 確率的公平性の統計試験

A Statistical Test for Probabilistic Fairness ( http://arxiv.org/abs/2012.04800v1 )

ライセンス: CC BY 4.0
Bahar Taskesen, Jose Blanchet, Daniel Kuhn, Viet Anh Nguyen(参考訳) 今やアルゴリズムは、人間の生活に影響を与える一連の決定を下すために日常的に使われている。 例えば、大学入学、医療介入、法執行などである。 アルゴリズムは大量のデータに隠されたすべての情報を活用するのに役立ちますが、利用可能なデータセットの既存のバイアスを必然的に増幅するかもしれません。 この懸念は、アルゴリズムによる差別の定量化と緩和を目的とした、公正な機械学習への関心の高まりを促した。 実際、機械学習モデルは大規模にデプロイされる前にアルゴリズムバイアスを検出するために集中的なテストを実施する必要がある。 本稿では,不公平な分類器を検出するための統計的仮説テストを提案するために,最適輸送理論のアイデアを用いる。 特徴空間の幾何学を活用し、テスト統計学はテストサンプルで支持される経験的分布と事前訓練された分類器を公平にする分布の多様体の距離を定量化する。 我々は,事前学習したロジスティック分類器の確率的公平性を評価するための厳密な仮説検定機構を開発し,理論上も経験的にも提案手法が漸近的に正しいことを示す。 さらに、提案手法は、与えられた分類器が公平になるようにデータの最も好ましい摂動を識別することで解釈可能性を提供する。

Algorithms are now routinely used to make consequential decisions that affect human lives. Examples include college admissions, medical interventions or law enforcement. While algorithms empower us to harness all information hidden in vast amounts of data, they may inadvertently amplify existing biases in the available datasets. This concern has sparked increasing interest in fair machine learning, which aims to quantify and mitigate algorithmic discrimination. Indeed, machine learning models should undergo intensive tests to detect algorithmic biases before being deployed at scale. In this paper, we use ideas from the theory of optimal transport to propose a statistical hypothesis test for detecting unfair classifiers. Leveraging the geometry of the feature space, the test statistic quantifies the distance of the empirical distribution supported on the test samples to the manifold of distributions that render a pre-trained classifier fair. We develop a rigorous hypothesis testing mechanism for assessing the probabilistic fairness of any pre-trained logistic classifier, and we show both theoretically as well as empirically that the proposed test is asymptotically correct. In addition, the proposed framework offers interpretability by identifying the most favorable perturbation of the data so that the given classifier becomes fair.
翻訳日:2021-05-16 16:12:05 公開日:2020-12-09
# (参考訳) Commonsense Reasoningのための知識グラフへのコンテキスト注入

Fusing Context Into Knowledge Graph for Commonsense Reasoning ( http://arxiv.org/abs/2012.04808v1 )

ライセンス: CC BY 4.0
Yichong Xu, Chenguang Zhu, Ruochen Xu, Yang Liu, Michael Zeng, Xuedong Huang(参考訳) コモンセンス推論は、言語理解を通じて世界出来事を推定するモデルを必要とする。 多くの手法は、言語モデリングとエンティティベースの関係学習の利点を組み合わせるために、事前訓練された言語モデルと知識グラフを結合する。 しかしながら、知識グラフには豊富な構造情報が含まれているが、概念と関係をより正確に理解するためのコンテキストが欠けている。 これは、知識グラフを言語モデリングに融合する際に、特にペアのテキスト知識データが不足するシナリオにおいてギャップを生じる。 本稿では,外部エンティティ記述を利用して,グラフエンティティのコンテキスト情報を提供する。 commonsenseqaタスクでは、まず質問と選択から概念を抽出し、その後、これらの概念の間に関連する三重項を見つけます。 次に、これらの概念の記述をWiktionaryから取り出し、プリトレーニング済みの言語モデルに追加のインプットとして、トリプルとともにフィードする。 結果として得られたモデルは、より効果的なコモンセンス推論能力を達成でき、公式のリーダーボード上で80.7%(シングルモデル)と83.3%(センスモデル)の精度でcommonsenseqaデータセットで最先端の結果が得られる。

Commonsense reasoning requires a model to make presumptions about world events via language understanding. Many methods couple pre-trained language models with knowledge graphs in order to combine the merits in language modeling and entity-based relational learning. However, although a knowledge graph contains rich structural information, it lacks the context to provide a more precise understanding of the concepts and relations. This creates a gap when fusing knowledge graphs into language modeling, especially in the scenario of insufficient paired text-knowledge data. In this paper, we propose to utilize external entity description to provide contextual information for graph entities. For the CommonsenseQA task, our model first extracts concepts from the question and choice, and then finds a related triple between these concepts. Next, it retrieves the descriptions of these concepts from Wiktionary and feed them as additional input to a pre-trained language model, together with the triple. The resulting model can attain much more effective commonsense reasoning capability, achieving state-of-the-art results in the CommonsenseQA dataset with an accuracy of 80.7% (single model) and 83.3% (ensemble model) on the official leaderboard.
翻訳日:2021-05-16 15:28:43 公開日:2020-12-09
# (参考訳) 知識グラフリンク予測を利用した関係抽出の改善

Improving Relation Extraction by Leveraging Knowledge Graph Link Prediction ( http://arxiv.org/abs/2012.04812v1 )

ライセンス: CC BY 4.0
George Stoica, Emmanouil Antonios Platanios, Barnab\'as P\'oczos(参考訳) 関係抽出(re)は文中の対象と対象の関係を予測することを目的としており、一方、知識グラフリンク予測(kglp)は対象と知識グラフから与えられた対象の集合oと関係を予測することを目的としている。 対象と対象oを含む文が与えられた場合、REモデルは対象と共にKGLPモデルで使用可能な関係を予測し、対象Oの集合を予測する。 したがって、オブジェクト o は set o にあると期待する。 本稿では,REとKGLPタスクを共同で学習することで,REモデルの性能を向上させるマルチタスク学習手法を提案する。 いくつかの既存のREモデルに適用することで、我々のアプローチの一般性を説明し、一貫性のあるパフォーマンス向上を実現するのにどのように役立つかを実証的に示す。

Relation extraction (RE) aims to predict a relation between a subject and an object in a sentence, while knowledge graph link prediction (KGLP) aims to predict a set of objects, O, given a subject and a relation from a knowledge graph. These two problems are closely related as their respective objectives are intertwined: given a sentence containing a subject and an object o, a RE model predicts a relation that can then be used by a KGLP model together with the subject, to predict a set of objects O. Thus, we expect object o to be in set O. In this paper, we leverage this insight by proposing a multi-task learning approach that improves the performance of RE models by jointly training on RE and KGLP tasks. We illustrate the generality of our approach by applying it on several existing RE models and empirically demonstrate how it helps them achieve consistent performance gains.
翻訳日:2021-05-16 15:19:56 公開日:2020-12-09
# (参考訳) シンプルか複雑か? ベンガルテキストの可読性予測のための学習

Simple or Complex? Learning to Predict Readability of Bengali Texts ( http://arxiv.org/abs/2012.07701v1 )

ライセンス: CC BY-SA 4.0
Susmoy Chakraborty, Mir Tafseer Nayeem, Wasi Uddin Ahmad(参考訳) テキストの可読性を決定することは、その単純化の第一歩である。 本稿では,ベンガル語で書かれたテキストを解析し,読みやすさと複雑さに関する詳細な情報を提供する可読性解析ツールを提案する。 2億3000万人のネイティブスピーカーを持つ世界で7番目に話されている言語であるにもかかわらず、ベンガル語は自然言語処理の基本的なリソースが不足している。 ベンガル語の可読性に関する研究は、資源不足のため、狭く、時には欠陥があると見なすことができる。 そこで本研究では,米国の教育システムで伝統的に用いられている文書レベルの可読性式をベンガル語に正しく適用し,年齢と年齢の比較を行った。 大規模なコーパスが利用できないため、文書レベルのタスクを文レベルに分割し、ベンガル可読性予測の将来の作業のベースラインとなるニューラルアーキテクチャを実験する。 この過程では、12のグレードレベルを持つ618の文書からなる文書レベルデータセット、単純で複雑なラベルを持つ96K以上の文からなる大規模文レベルデータセット、そのアルゴリズムの有効性を検証するための子音接続数アルゴリズムと341ワードのコーパス、3,396単語のリスト、67K以上の単語を含む更新された発音辞書など、人称コーパスと辞書を提示する。 これらのリソースは、この低リソース言語の他のいくつかのタスクに役立ちます。 Code & Dataset を reproduciblity のために https://github.com/tafseer-nayeem/BengaliReadability} で公開しています。

Determining the readability of a text is the first step to its simplification. In this paper, we present a readability analysis tool capable of analyzing text written in the Bengali language to provide in-depth information on its readability and complexity. Despite being the 7th most spoken language in the world with 230 million native speakers, Bengali suffers from a lack of fundamental resources for natural language processing. Readability related research of the Bengali language so far can be considered to be narrow and sometimes faulty due to the lack of resources. Therefore, we correctly adopt document-level readability formulas traditionally used for U.S. based education system to the Bengali language with a proper age-to-age comparison. Due to the unavailability of large-scale human-annotated corpora, we further divide the document-level task into sentence-level and experiment with neural architectures, which will serve as a baseline for the future works of Bengali readability prediction. During the process, we present several human-annotated corpora and dictionaries such as a document-level dataset comprising 618 documents with 12 different grade levels, a large-scale sentence-level dataset comprising more than 96K sentences with simple and complex labels, a consonant conjunct count algorithm and a corpus of 341 words to validate the effectiveness of the algorithm, a list of 3,396 easy words, and an updated pronunciation dictionary with more than 67K words. These resources can be useful for several other tasks of this low-resource language. We make our Code & Dataset publicly available at https://github.com/tafseer-nayeem/BengaliReadability} for reproduciblity.
翻訳日:2021-05-16 15:07:01 公開日:2020-12-09
# (参考訳) 自己学習に基づくドメイン適応のための2相擬似ラベルデンシフィケーション

Two-phase Pseudo Label Densification for Self-training based Domain Adaptation ( http://arxiv.org/abs/2012.04828v1 )

ライセンス: CC BY 4.0
Inkyu Shin, Sanghyun Woo, Fei Pan and InSo Kweon(参考訳) 近年、教師なし領域適応の強力な解決策として、深層自己学習アプローチが出現している。 自己トレーニング方式は、ターゲットデータの反復処理を伴い、ターゲットの擬似ラベルを生成し、ネットワークを再トレーニングする。 しかし、自信ある予測のみを擬似ラベルとみなすため、既存の自己学習アプローチは必然的にスパースな擬似ラベルを生成する。 結果としてトレーニング信号が不十分なため、最適でないエラーが発生しやすいモデルになるため、これは非常に重要です。 この問題に対処するために, TPLD と呼ばれる新しい2相Pseudo Label Densification フレームワークを提案する。 第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。 第2フェーズでは,信頼度に基づく容易な分類を行う。 簡単なサンプルには、完全な擬似ラベルを使用します。 その代わりに、難しい機能アライメントを強制するために、敵対的な学習を採用します。 トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。 提案するTPLDは,既存の自己学習型アプローチに容易に統合でき,性能が大幅に向上することを示す。 最近提案されたCRST自己学習フレームワークと組み合わせて、2つの標準UDAベンチマークで最新の結果を得る。

Recently, deep self-training approaches emerged as a powerful solution to the unsupervised domain adaptation. The self-training scheme involves iterative processing of target data; it generates target pseudo labels and retrains the network. However, since only the confident predictions are taken as pseudo labels, existing self-training approaches inevitably produce sparse pseudo labels in practice. We see this is critical because the resulting insufficient training-signals lead to a suboptimal, error-prone model. In order to tackle this problem, we propose a novel Two-phase Pseudo Label Densification framework, referred to as TPLD. In the first phase, we use sliding window voting to propagate the confident predictions, utilizing intrinsic spatial-correlations in the images. In the second phase, we perform a confidence-based easy-hard classification. For the easy samples, we now employ their full pseudo labels. For the hard ones, we instead adopt adversarial learning to enforce hard-to-easy feature alignment. To ease the training process and avoid noisy predictions, we introduce the bootstrapping mechanism to the original self-training loss. We show the proposed TPLD can be easily integrated into existing self-training based approaches and improves the performance significantly. Combined with the recently proposed CRST self-training framework, we achieve new state-of-the-art results on two standard UDA benchmarks.
翻訳日:2021-05-16 14:49:52 公開日:2020-12-09
# (参考訳) Scoring Predictionによるインスタンスセグメンテーションのための半教師付きアクティブラーニング

Semi-supervised Active Learning for Instance Segmentation via Scoring Predictions ( http://arxiv.org/abs/2012.04829v1 )

ライセンス: CC BY 4.0
Jun Wang, Shaoguo Wen, Kaixing Chen, Jianghua Yu, Xin Zhou, Peng Gao, Changsheng Li, Guotong Xie(参考訳) アクティブラーニングは一般的に、画像分類やオブジェクト検出など、多くの分野で広く研究されている人間のラベル付けの最も代表的なサンプルを照会する。 しかしながら、アノテーションコストが比較的高い、より複雑なインスタンスセグメンテーションタスクでは、そのポテンシャルは検討されていない。 本稿では,インスタンスセグメンテーションのための新しい半教師付きアクティブラーニングフレームワークを提案する。 具体的には,クラス,バウンディングボックス,マスクの手がかりを明示的に評価するトリプレットスコア予測(tsp)という不確実性サンプリング戦略を提案する。 さらに、上述のTSPを半教師付き方式でプログレッシブな擬似ラベリング方式を考案し、ラベル付きデータとラベルなしデータの両方を利用して、インスタンスセグメンテーションの性能を最大化し、ラベル付け作業を最小化する。 医用画像データセットを用いた結果から,提案手法が有意義な方法で利用可能なデータから知識を具現化することを示す。 定量的および定性的な実験により,本手法は,最先端技術と比較して,注釈コストが著しく低い最高の性能モデルが得られることが示された。

Active learning generally involves querying the most representative samples for human labeling, which has been widely studied in many fields such as image classification and object detection. However, its potential has not been explored in the more complex instance segmentation task that usually has relatively higher annotation cost. In this paper, we propose a novel and principled semi-supervised active learning framework for instance segmentation. Specifically, we present an uncertainty sampling strategy named Triplet Scoring Predictions (TSP) to explicitly incorporate samples ranking clues from classes, bounding boxes and masks. Moreover, we devise a progressive pseudo labeling regime using the above TSP in semi-supervised manner, it can leverage both the labeled and unlabeled data to minimize labeling effort while maximize performance of instance segmentation. Results on medical images datasets demonstrate that the proposed method results in the embodiment of knowledge from available data in a meaningful way. The extensive quantitatively and qualitatively experiments show that, our method can yield the best-performing model with notable less annotation costs, compared with state-of-the-arts.
翻訳日:2021-05-16 14:37:05 公開日:2020-12-09
# (参考訳) 眼科画像モダリティの白内障分類とグレーディングのための機械学習:サーベイ

Machine Learning for Cataract Classification and Grading on Ophthalmic Imaging Modalities: A Survey ( http://arxiv.org/abs/2012.04830v1 )

ライセンス: CC BY 4.0
Xiaoqing Zhang, JianSheng Fang, Yan Hu, Yanwu Xu, Risa Higashita and Jiang Liu(参考訳) 白内障は、世界規模で可逆的な視覚障害と盲目の原因の1つである。 長年にわたり、研究者たちは自動白内障分類とグレーディングのための最先端の人工知能技術の開発において大きな進歩を遂げてきた。 本稿では,眼科画像に基づく白内障分類と採点のための機械学習の最近の進歩に関する包括的調査を行う。 従来の機械学習技術とディープラーニング技術という2つの研究方向から既存の文献を要約する。 本稿では,既存作品のメリットと限界についても考察する。 さらに,機械学習手法に基づく白内障自動分類と採点の課題について検討し,今後の課題への解決策を提案する。

Cataract is one of the leading causes of reversible visual impairment and blindness globally. Over the years, researchers have achieved significant progress in developing state-of-the-art artificial intelligence techniques for automatic cataract classification and grading, helping clinicians prevent and treat cataract in time. This paper provides a comprehensive survey of recent advances in machine learning for cataract classification and grading based on ophthalmic images. We summarize existing literature from two research directions: conventional machine learning techniques and deep learning techniques. This paper also provides insights into existing works of both merits and limitations. In addition, we discuss several challenges of automatic cataract classification and grading based on machine learning techniques and present possible solutions to these challenges for future research.
翻訳日:2021-05-16 14:23:22 公開日:2020-12-09
# (参考訳) 深部教師なし画像異常検出:情報理論の枠組み

Deep Unsupervised Image Anomaly Detection: An Information Theoretic Framework ( http://arxiv.org/abs/2012.04837v1 )

ライセンス: CC BY 4.0
Fei Ye, Huangjie Zheng, Chaoqin Huang, Ya Zhang(参考訳) 代用タスクベース手法は、最近、教師なし画像異常検出に大いに期待されている。 しかしながら、サロゲートタスクが異常検出と一貫した最適化方向を共有する保証はない。 本稿では,情報理論を用いた異常検出のための直接目的関数に回帰し,画像の同時分布とその表現の観点から,正規データと異常データとの間の距離を最大化する。 残念ながら、この目的関数はトレーニング中に異常データが提供されない教師なし設定では直接最適化できない。 上記の目的関数の数学的解析により、これを4つの成分に分解する。 非教師なしの方法で最適化するために、正規データと異常データの分布が潜在空間で分離可能であると仮定すると、その下限は相互情報とエントロピーの間のトレードオフを重み付ける関数と見なすことができる。 この目的関数は、サブロゲートタスクベース手法が異常検出に有効である理由を説明し、さらに改善の潜在的方向性を指摘することができる。 この対象関数に基づいて,教師なし画像異常検出のための新しい情報理論フレームワークを提案する。 広範な実験により、提案されたフレームワークが複数のベンチマークデータセットで最先端のものを大幅に上回っていることが示されている。

Surrogate task based methods have recently shown great promise for unsupervised image anomaly detection. However, there is no guarantee that the surrogate tasks share the consistent optimization direction with anomaly detection. In this paper, we return to a direct objective function for anomaly detection with information theory, which maximizes the distance between normal and anomalous data in terms of the joint distribution of images and their representation. Unfortunately, this objective function is not directly optimizable under the unsupervised setting where no anomalous data is provided during training. Through mathematical analysis of the above objective function, we manage to decompose it into four components. In order to optimize in an unsupervised fashion, we show that, under the assumption that distribution of the normal and anomalous data are separable in the latent space, its lower bound can be considered as a function which weights the trade-off between mutual information and entropy. This objective function is able to explain why the surrogate task based methods are effective for anomaly detection and further point out the potential direction of improvement. Based on this object function we introduce a novel information theoretic framework for unsupervised image anomaly detection. Extensive experiments have demonstrated that the proposed framework significantly outperforms several state-of-the-arts on multiple benchmark data sets.
翻訳日:2021-05-16 13:55:06 公開日:2020-12-09
# (参考訳) 自然言語理解のための共起モデルに向けて ディープラーニングとDeep Semanticsを一緒にする

Towards Coinductive Models for Natural Language Understanding. Bringing together Deep Learning and Deep Semantics ( http://arxiv.org/abs/2012.05715v1 )

ライセンス: CC BY 4.0
Wlodek W. Zadrozny(参考訳) 本稿では,自然言語理解の計算装置に造語を加えることを提案する。 これは、自然言語対話、構文、セマンティクスのより現実的で、計算的かつスケーラブルなモデルの基礎を提供する、と我々は主張する。 ボトムアップ、帰納的構築、意味論、構文構造が不安定であり、より長い文の意味や現実的な対話を適切に表現できないように見えることから、自然言語理解は新しい基礎が必要である。 トップダウン制約を使用するcoinductionは、オペレーティングシステムやプログラミング言語の設計でうまく使われている。 さらに、暗黙的にテキストマイニングや機械翻訳、インテンシティリティやモダリティをモデル化しようとする試みにも存在し、それが機能する証拠を提供している。 この記事では、そのような用途の高レベルな形式化を示す。 造語と帰納法は共存できるため、自然言語理解の研究のための共通言語と概念モデルを提供することができる。 特にこのような機会は、構成性の研究に現れつつあるようだ。 本稿では,自然言語処理における帰納と造語の組み合わせの例を示す。 帰納法と造語法という既知の個人的限界は、この2つの方法を組み合わせることで、経験的な設定で克服できると論じる。 共同使用の理論を提供する際には、オープンな問題がある。

This article contains a proposal to add coinduction to the computational apparatus of natural language understanding. This, we argue, will provide a basis for more realistic, computationally sound, and scalable models of natural language dialogue, syntax and semantics. Given that the bottom up, inductively constructed, semantic and syntactic structures are brittle, and seemingly incapable of adequately representing the meaning of longer sentences or realistic dialogues, natural language understanding is in need of a new foundation. Coinduction, which uses top down constraints, has been successfully used in the design of operating systems and programming languages. Moreover, implicitly it has been present in text mining, machine translation, and in some attempts to model intensionality and modalities, which provides evidence that it works. This article shows high level formalizations of some of such uses. Since coinduction and induction can coexist, they can provide a common language and a conceptual model for research in natural language understanding. In particular, such an opportunity seems to be emerging in research on compositionality. This article shows several examples of the joint appearance of induction and coinduction in natural language processing. We argue that the known individual limitations of induction and coinduction can be overcome in empirical settings by a combination of the the two methods. We see an open problem in providing a theory of their joint use.
翻訳日:2021-05-16 13:24:53 公開日:2020-12-09
# (参考訳) ピアツーピア蒸留によるロバストドメインランダム化強化学習

Robust Domain Randomised Reinforcement Learning through Peer-to-Peer Distillation ( http://arxiv.org/abs/2012.04839v1 )

ライセンス: CC BY 4.0
Chenyang Zhao, Timothy Hospedales(参考訳) 強化学習では、ドメインのランダム化は、デプロイ時のドメインシフトに堅牢な、より一般的なポリシーを学ぶための、ますます一般的なテクニックです。 しかし, ランダム化領域からの情報収集は, 勾配推定や不安定な学習過程において高いばらつきをもたらす可能性がある。 本稿では,複数の作業者がそれぞれ異なる環境に割り当てられ,kullback-leibler 発散に基づく相互正規化を通じて知識を交換する rl のp2pdrl におけるピアツーピアオンライン蒸留戦略を提案する。 P2PDRLはベースラインよりも広いランダム化分布をまたいだ堅牢な学習を可能にし,テスト時の新しい環境へのより堅牢な一般化を可能にした。

In reinforcement learning, domain randomisation is an increasingly popular technique for learning more general policies that are robust to domain-shifts at deployment. However, naively aggregating information from randomised domains may lead to high variance in gradient estimation and unstable learning process. To address this issue, we present a peer-to-peer online distillation strategy for RL termed P2PDRL, where multiple workers are each assigned to a different environment, and exchange knowledge through mutual regularisation based on Kullback-Leibler divergence. Our experiments on continuous control tasks show that P2PDRL enables robust learning across a wider randomisation distribution than baselines, and more robust generalisation to new environments at testing.
翻訳日:2021-05-16 13:23:52 公開日:2020-12-09
# (参考訳) SnapMix: きめ細かいデータを増やすための意味のある混合

SnapMix: Semantically Proportional Mixing for Augmenting Fine-grained Data ( http://arxiv.org/abs/2012.04846v1 )

ライセンス: CC BY 4.0
Shaoli Huang, Xinchao Wang, Dacheng Tao(参考訳) データ混合強化は深層モデルのトレーニングに有効であることが証明された。 画像画素の混合比に基づいてラベルを混合する最近の手法である。 きめ細かい画像の主識別情報は、通常微妙な領域に存在するため、この線に沿った手法は、きめ細かい認識において重ラベルノイズを引き起こす。 本稿では,クラスアクティベーションマップ(CAM)を利用して,微粒データの拡張におけるラベルノイズを低減する,Semantically Proportional Mixing(SnapMix)と呼ばれる新しい手法を提案する。 SnapMixは、その固有の意味合成を推定して混合画像のターゲットラベルを生成し、非対称な混合操作を可能にし、合成画像とターゲットラベルのセマンティック対応を確保する。 実験により,提案手法は様々なデータセットおよび異なるネットワーク深度下で,既存の混合手法より一貫して優れていることが示された。 さらに、中間レベルの機能を組み込むことで、提案されたsnapmixはトップレベルのパフォーマンスを達成し、きめ細かな認識のための確固としたベースラインとして機能する可能性を示している。 私たちのコードはhttps://github.com/shaoli-huang/snapmix.gitで利用可能です。

Data mixing augmentation has proved effective in training deep models. Recent methods mix labels mainly based on the mixture proportion of image pixels. As the main discriminative information of a fine-grained image usually resides in subtle regions, methods along this line are prone to heavy label noise in fine-grained recognition. We propose in this paper a novel scheme, termed as Semantically Proportional Mixing (SnapMix), which exploits class activation map (CAM) to lessen the label noise in augmenting fine-grained data. SnapMix generates the target label for a mixed image by estimating its intrinsic semantic composition, and allows for asymmetric mixing operations and ensures semantic correspondence between synthetic images and target labels. Experiments show that our method consistently outperforms existing mixed-based approaches on various datasets and under different network depths. Furthermore, by incorporating the mid-level features, the proposed SnapMix achieves top-level performance, demonstrating its potential to serve as a solid baseline for fine-grained recognition. Our code is available at https://github.com/Shaoli-Huang/SnapMix.git.
翻訳日:2021-05-16 12:54:51 公開日:2020-12-09
# (参考訳) 森林の孤立学習に基づくサイバー異常の効果的分類のための外部検出手法

An Isolation Forest Learning Based Outlier Detection Approach for Effectively Classifying Cyber Anomalies ( http://arxiv.org/abs/2101.03141v1 )

ライセンス: CC BY-SA 4.0
Rony Chowdhury Ripan, Iqbal H. Sarker, Md Musfique Anwar, Md. Hasan Furhad, Fazle Rahat, Mohammed Moshiul Hoque and Muhammad Sarfraz(参考訳) サイバーセキュリティは、最近、IoT(Internet-of-Things)の人気、モバイルネットワークの大幅な成長、および多くの関連するアプリによって、今日のセキュリティ問題にかなりの関心を集めている。 したがって、ネットワーク内で多数のサイバー攻撃を検出し、効果的な侵入検知システムを構築することは、今日のセキュリティにおいて重要な役割を果たす。 本稿では,サイバー異常を効果的に分類するための孤立林学習に基づく異常検出モデルを提案する。 また,結果のアウトリア検出モデルの有効性を評価するために,ロジスティック回帰(LR),サポートベクトルマシン(SVM),AdaBoost分類器(ABC),ネイブベイズ(NB),K-Nearest Neighbor(KNN)など,従来の機械学習手法を用いた。 提案手法の有効性を,精度,リコール,f1-score,精度などの評価指標を用いたネットワーク侵入データセット実験により評価した。 実験の結果,異常値の除去によりサイバー異常の分類精度が向上した。

Cybersecurity has recently gained considerable interest in today's security issues because of the popularity of the Internet-of-Things (IoT), the considerable growth of mobile networks, and many related apps. Therefore, detecting numerous cyber-attacks in a network and creating an effective intrusion detection system plays a vital role in today's security. In this paper, we present an Isolation Forest Learning-Based Outlier Detection Model for effectively classifying cyber anomalies. In order to evaluate the efficacy of the resulting Outlier Detection model, we also use several conventional machine learning approaches, such as Logistic Regression (LR), Support Vector Machine (SVM), AdaBoost Classifier (ABC), Naive Bayes (NB), and K-Nearest Neighbor (KNN). The effectiveness of our proposed Outlier Detection model is evaluated by conducting experiments on Network Intrusion Dataset with evaluation metrics such as precision, recall, F1-score, and accuracy. Experimental results show that the classification accuracy of cyber anomalies has been improved after removing outliers.
翻訳日:2021-05-16 12:39:05 公開日:2020-12-09
# (参考訳) 機械学習による個人薬物乱用脆弱性の予測

Predicting Individual Substance Abuse Vulnerability using Machine Learning Techniques ( http://arxiv.org/abs/2101.03184v1 )

ライセンス: CC BY 4.0
Uwaise Ibna Islam, Iqbal H. Sarker, Enamul Haque and Mohammed Moshiul Hoque(参考訳) 物質乱用 (substance abuse) は、精神活性化学物質、無許可薬物、アルコールの非制限および有害使用である。 これらの物質の連続的な使用は、究極的には人間を破滅的な結果に導く。 再発率が高い患者の場合、早期の予防は効果的に抑制される。 そこで我々は,被験者の社会経済的環境を分析し,物質乱用に対する個人の現在の脆弱性を識別する二項分類器を提案する。 薬物乱用の背後にある一般的な要因を慎重に評価した上で作成したアンケートによってデータを収集した。 ピアソンのchi-squared test of independenceは、薬物乱用に影響を与える重要な特徴変数を特定するために用いられる。 その後、これらの変数の機械学習分類アルゴリズムを用いて予測分類器を構築する。 18の機能でトレーニングされたロジスティック回帰分類器は、最適な精度で個々の脆弱性を予測することができる。

Substance abuse is the unrestrained and detrimental use of psychoactive chemical substances, unauthorized drugs, and alcohol. Continuous use of these substances can ultimately lead a human to disastrous consequences. As patients display a high rate of relapse, prevention at an early stage can be an effective restraint. We therefore propose a binary classifier to identify any individual's present vulnerability towards substance abuse by analyzing subjects' socio-economic environment. We have collected data by a questionnaire which is created after carefully assessing the commonly involved factors behind substance abuse. Pearson's chi-squared test of independence is used to identify key feature variables influencing substance abuse. Later we build the predictive classifiers using machine learning classification algorithms on those variables. Logistic regression classifier trained with 18 features can predict individual vulnerability with the best accuracy.
翻訳日:2021-05-16 12:32:50 公開日:2020-12-09
# (参考訳) ESAD: エンドツーエンドの半教師付き異常検出

ESAD: End-to-end Deep Semi-supervised Anomaly Detection ( http://arxiv.org/abs/2012.04905v1 )

ライセンス: CC BY 4.0
Chaoqin Huang, Fei Ye, Ya Zhang, Yan-Feng Wang, Qi Tian(参考訳) 本稿では,ラベル付き外乱サンプルの小さなセットをトレーニング用未ラベルデータに加えて提供する,半教師付き異常検出のためのより実用的な設定である半教師付き異常検出について検討する。 異常検出の最適化目標を再検討し,正規データと異常データ間のkl分割を測定する新しい目的関数を提案し,データと潜在表現の相互情報と潜在表現のエントロピーの2つの因子が異常検出のための統合目的関数となることを証明した。 2つの要素を同時に最適化する際の矛盾を解決するため、第1エンコーダは相互情報の最適化に焦点を合わせ、第2エンコーダはエントロピーの最適化に焦点を合わせた新しいエンコーダ・デコーダ・エンコーダ構造を提案する。 2つのエンコーダは、類似のエンコーディングを、潜在表現に一貫した制約で共有するように強制される。 広範にわたる実験により,提案手法は診断や古典的異常検出ベンチマークなど,複数のベンチマークデータセットにおいて,最先端のいくつかのベンチマークを著しく上回ることがわかった。

This paper explores semi-supervised anomaly detection, a more practical setting for anomaly detection where a small set of labeled outlier samples are provided in addition to a large amount of unlabeled data for training. Rethinking the optimization target of anomaly detection, we propose a new objective function that measures the KL-divergence between normal and anomalous data, and prove that two factors: the mutual information between the data and latent representations, and the entropy of latent representations, constitute an integral objective function for anomaly detection. To resolve the contradiction in simultaneously optimizing the two factors, we propose a novel encoder-decoder-encoder structure, with the first encoder focusing on optimizing the mutual information and the second encoder focusing on optimizing the entropy. The two encoders are enforced to share similar encoding with a consistent constraint on their latent representations. Extensive experiments have revealed that the proposed method significantly outperforms several state-of-the-arts on multiple benchmark datasets, including medical diagnosis and several classic anomaly detection benchmarks.
翻訳日:2021-05-16 12:24:51 公開日:2020-12-09
# (参考訳) 画像-画像間翻訳における意味ロバスト性向上のためのリプシッツ正規化サイクルGAN

Lipschitz Regularized CycleGAN for Improving Semantic Robustness in Unpaired Image-to-image Translation ( http://arxiv.org/abs/2012.04932v1 )

ライセンス: CC BY 4.0
Zhiwei Jia, Bodi Yuan, Kangkang Wang, Hong Wu, David Clifford, Zhiqiang Yuan, Hao Su(参考訳) 未ペア画像から画像への変換タスクでは、GANベースのアプローチはセマンティックフリップの影響を受けやすい。 これは、(1)ソースとターゲットドメイン間の意味統計の差異と(2)学習したジェネレータが損なわれないためである。 本稿では,意味的ロバスト性を改善し,意味的フリップ問題を緩和するための新しい手法であるlipschitz regularized cycleganを提案する。 トレーニング中に、ジェネレータに勾配ペナルティ損失を加え、意味的に一貫した変換を促進する。 我々は,複数の共通データセットに対するアプローチを評価し,既存のGANベースの手法と比較した。 定量的および視覚的結果は,意味的なフリップが少なく,堅牢な変換を実現する上でのアプローチの有効性とメリットを示唆している。

For unpaired image-to-image translation tasks, GAN-based approaches are susceptible to semantic flipping, i.e., contents are not preserved consistently. We argue that this is due to (1) the difference in semantic statistics between source and target domains and (2) the learned generators being non-robust. In this paper, we proposed a novel approach, Lipschitz regularized CycleGAN, for improving semantic robustness and thus alleviating the semantic flipping issue. During training, we add a gradient penalty loss to the generators, which encourages semantically consistent transformations. We evaluate our approach on multiple common datasets and compare with several existing GAN-based methods. Both quantitative and visual results suggest the effectiveness and advantage of our approach in producing robust transformations with fewer semantic flipping.
翻訳日:2021-05-16 11:43:39 公開日:2020-12-09
# (参考訳) マルチモーダルデータのクラスタリングのための共役混合モデル

Conjugate Mixture Models for Clustering Multimodal Data ( http://arxiv.org/abs/2012.04951v1 )

ライセンス: CC BY 4.0
Vasil Khalidov, Florence Forbes and Radu Horaud(参考訳) マルチモーダルクラスタリングの問題は、データが物理的に異なるセンサーで収集されるたびに発生する。 異なるモダリティからの観察は必ずしもある共通の空間でそれらを関連付けたり比較したりする明確な方法がないという意味で一致しているとは限らない。 ソリューションは、各モダリティに対して独立して複数のクラスタリングタスクを検討することで構成できる。 このようなアプローチの主な困難は、ユニモーダルクラスタリングが相互に一貫性があることを保証することである。 本稿では,マルチモーダルクラスタリングを新しいフレームワーク,すなわち共役混合モデルの中で扱うことができることを示す。 これらのモデルは、観測されていないパラメータ空間(オブジェクト)と観測空間(センサー)の間にしばしば利用できる明示的な変換を利用する。 この問題を最大化タスクとして定式化し,共役期待最大化アルゴリズムを導出する。 提案アルゴリズムの収束特性を徹底的に検討した。 収束速度を高めるために,いくつかの局所的・グローバル最適化手法が提案されている。 2つの初期化戦略を提案し比較する。 一貫性のあるモデル選択基準を提案する。 聴覚データと視覚データの両方を用いて,複数の話者の3次元位置推定タスクにおいて,アルゴリズムとその変種をテストし,評価した。

The problem of multimodal clustering arises whenever the data are gathered with several physically different sensors. Observations from different modalities are not necessarily aligned in the sense there there is no obvious way to associate or to compare them in some common space. A solution may consist in considering multiple clustering tasks independently for each modality. The main difficulty with such an approach is to guarantee that the unimodal clusterings are mutually consistent. In this paper we show that multimodal clustering can be addressed within a novel framework, namely conjugate mixture models. These models exploit the explicit transformations that are often available between an unobserved parameter space (objects) and each one of the observation spaces (sensors). We formulate the problem as a likelihood maximization task and we derive the associated conjugate expectation-maximization algorithm. The convergence properties of the proposed algorithm are thoroughly investigated. Several local/global optimization techniques are proposed in order to increase its convergence speed. Two initialization strategies are proposed and compared. A consistent model-selection criterion is proposed. The algorithm and its variants are tested and evaluated within the task of 3D localization of several speakers using both auditory and visual data.
翻訳日:2021-05-16 10:58:32 公開日:2020-12-09
# (参考訳) 育種性を考慮した直接音声翻訳システム

Breeding Gender-aware Direct Speech Translation Systems ( http://arxiv.org/abs/2012.04955v1 )

ライセンス: CC BY 4.0
Marco Gaido, Beatrice Savoldi, Luisa Bentivogli, Matteo Negri, Marco Turchi(参考訳) 自動翻訳(st)では、分離された翻訳と翻訳ステップを含む従来のカスケードアプローチが、競争的でより堅牢な直接解の基盤となっている。 特に、中間転写なしで音声音声データを翻訳することにより、直接STモデルは入力(例えば、)に存在する必須情報を利用して保存することができる。 スピーカーの発声特性) さもなくばカスケードの枠組みで失われる。 このような能力は、性翻訳に有用であることが証明されているが、直接STは、そのカスケードと同様の性別バイアスや、機械翻訳や他の多くの自然言語処理アプリケーションの影響を受けている。 さらに、性別のキューとして音声バイオメトリック機能のみに依存する直接STシステムは、特定のユーザにとって不適当であり、潜在的に有害である可能性がある。 本稿では、音声信号を超えて、話者の性別について直接STモデルに通知するための異なるアプローチを比較し、英語からイタリア語とフランス語への性別翻訳を処理できる能力をテストする。 この目的のために,話者の性別情報を含む大規模データセットを手作業でアノテートし,様々な現実シナリオを反映する実験に用いた。 以上の結果から,性認識型stソリューションは強い-しかし性認識型stモデルを大きく上回ることが示された。 特に、ジェンダーマーク付き単語の翻訳は、全体的な翻訳品質を維持しながら、30ポイントまで精度を上げることができる。

In automatic speech translation (ST), traditional cascade approaches involving separate transcription and translation steps are giving ground to increasingly competitive and more robust direct solutions. In particular, by translating speech audio data without intermediate transcription, direct ST models are able to leverage and preserve essential information present in the input (e.g. speaker's vocal characteristics) that is otherwise lost in the cascade framework. Although such ability proved to be useful for gender translation, direct ST is nonetheless affected by gender bias just like its cascade counterpart, as well as machine translation and numerous other natural language processing applications. Moreover, direct ST systems that exclusively rely on vocal biometric features as a gender cue can be unsuitable and potentially harmful for certain users. Going beyond speech signals, in this paper we compare different approaches to inform direct ST models about the speaker's gender and test their ability to handle gender translation from English into Italian and French. To this aim, we manually annotated large datasets with speakers' gender information and used them for experiments reflecting different possible real-world scenarios. Our results show that gender-aware direct ST solutions can significantly outperform strong - but gender-unaware - direct ST models. In particular, the translation of gender-marked words can increase up to 30 points in accuracy while preserving overall translation quality.
翻訳日:2021-05-16 10:57:27 公開日:2020-12-09
# (参考訳) ストックポートフォリオ最適化のための深層強化学習

Deep Reinforcement Learning for Stock Portfolio Optimization ( http://arxiv.org/abs/2012.06325v1 )

ライセンス: CC0 1.0
Le Trung Hieu(参考訳) 株式ポートフォリオの最適化は、様々な株式のプールに常に資金を再分配するプロセスである。 本稿では,タスクの強化学習を適切に適用できるように,問題を定式化する。 市場に関する現実的な仮定を維持するため、我々は取引コストとリスクファクターを州にも組み込む。 それに加えて、さまざまな最先端のDeep Reinforcement Learningアルゴリズムを比較に適用する。 アクション空間は連続であるため、現実的な定式化は、Deep Deterministic Policy Gradient (DDPG)、Generalized Deterministic Policy Gradient (GDPG)、Proximal Policy Optimization (PPO)という、最先端の継続的ポリシー勾配アルゴリズムのファミリーでテストされた。 次に、ストックサブセット選択のための最小分散ポートフォリオ理論と多周波データパターン抽出のためのウェーブレット変換を用いたタスクのエンドツーエンドソリューションを提案する。 結果と今後の研究方向性について,観測と仮説を議論した。

Stock portfolio optimization is the process of constant re-distribution of money to a pool of various stocks. In this paper, we will formulate the problem such that we can apply Reinforcement Learning for the task properly. To maintain a realistic assumption about the market, we will incorporate transaction cost and risk factor into the state as well. On top of that, we will apply various state-of-the-art Deep Reinforcement Learning algorithms for comparison. Since the action space is continuous, the realistic formulation were tested under a family of state-of-the-art continuous policy gradients algorithms: Deep Deterministic Policy Gradient (DDPG), Generalized Deterministic Policy Gradient (GDPG) and Proximal Policy Optimization (PPO), where the former two perform much better than the last one. Next, we will present the end-to-end solution for the task with Minimum Variance Portfolio Theory for stock subset selection, and Wavelet Transform for extracting multi-frequency data pattern. Observations and hypothesis were discussed about the results, as well as possible future research directions.1
翻訳日:2021-05-16 10:37:29 公開日:2020-12-09
# (参考訳) 複雑な細胞の微分モデル

A Differential Model of the Complex Cell ( http://arxiv.org/abs/2012.09027v1 )

ライセンス: CC BY 4.0
Miles Hansard and Radu Horaud(参考訳) 視覚野における単純細胞の受容野は線形フィルタとして理解することができる。 これらのフィルタはガボル関数やガウス微分によってモデル化することができる。 ガボル関数は複雑な細胞応答の「エネルギーモデル」に結合することもできる。 本稿では、ガウス微分に基づく複素細胞の代替モデルを提案する。 画像の小さな変化に対する複雑な応答の不感性を考慮することが最も重要である。 新しいモデルは、最初の数個の導関数フィルタを1つの位置で線形結合して、最初の導関数フィルタを一連の隣接位置で近似する。 最大応答は、すべての位置にわたって、画像の小さなシフトに敏感な信号を与える。 このモデルは、以前のアプローチとは異なり、視覚処理のスケール空間理論に基づいている。 特に、複素セルは、画像の \twod\ 微分構造に応答するフィルタから構築される。 新しいモデルの計算的側面はガウス微分のステアビリティを用いて1次元と2次元で研究されている。 エッジやグレーティングなどの基本画像に対するモデルの応答は、正式に導出される。 自然画像に対する応答も、シフト感度の統計的尺度を用いて評価される。 本稿では,新しいモデルと皮質画像表現の関係について述べる。

The receptive fields of simple cells in the visual cortex can be understood as linear filters. These filters can be modelled by Gabor functions, or by Gaussian derivatives. Gabor functions can also be combined in an `energy model' of the complex cell response. This paper proposes an alternative model of the complex cell, based on Gaussian derivatives. It is most important to account for the insensitivity of the complex response to small shifts of the image. The new model uses a linear combination of the first few derivative filters, at a single position, to approximate the first derivative filter, at a series of adjacent positions. The maximum response, over all positions, gives a signal that is insensitive to small shifts of the image. This model, unlike previous approaches, is based on the scale space theory of visual processing. In particular, the complex cell is built from filters that respond to the \twod\ differential structure of the image. The computational aspects of the new model are studied in one and two dimensions, using the steerability of the Gaussian derivatives. The response of the model to basic images, such as edges and gratings, is derived formally. The response to natural images is also evaluated, using statistical measures of shift insensitivity. The relevance of the new model to the cortical image representation is discussed.
翻訳日:2021-05-16 10:26:24 公開日:2020-12-09
# (参考訳) 高次元ガウス模型における最適分散試験

Optimal distributed testing in high-dimensional Gaussian models ( http://arxiv.org/abs/2012.04957v1 )

ライセンス: CC BY 4.0
Botond Szabo, Lasse Vuursteen, Harry van Zanten(参考訳) 本稿では,分散環境におけるガウス雑音の信号検出問題について検討する。 我々は、信号が検出可能となるためには、信号が持つ必要がある大きさの低い境界を導出する。 さらに,より低いバウンダリを達成できる最適な分散テスト戦略を示す。

In this paper study the problem of signal detection in Gaussian noise in a distributed setting. We derive a lower bound on the size that the signal needs to have in order to be detectable. Moreover, we exhibit optimal distributed testing strategies that attain the lower bound.
翻訳日:2021-05-16 10:02:41 公開日:2020-12-09
# (参考訳) 直接音声翻訳のための知識蒸留について

On Knowledge Distillation for Direct Speech Translation ( http://arxiv.org/abs/2012.04964v1 )

ライセンス: CC BY 4.0
Marco Gaido, Mattia A. Di Gangi, Matteo Negri, Marco Turchi(参考訳) 直接音声翻訳(ST)は、自動音声認識(ASR)と機械翻訳(MT)というサブタスクからの知識伝達を必要とする複雑なタスクであることが示されている。 MTにとって、知識を伝達する最も有望な手法の1つは知識蒸留である。 本稿では,stのようなシーケンスからシーケンスへのタスクにおいて,異なる解を蒸留知識と比較する。 さらに,本手法の問題点と,翻訳品質の面での便益の維持を緩和する方法について分析した。

Direct speech translation (ST) has shown to be a complex task requiring knowledge transfer from its sub-tasks: automatic speech recognition (ASR) and machine translation (MT). For MT, one of the most promising techniques to transfer knowledge is knowledge distillation. In this paper, we compare the different solutions to distill knowledge in a sequence-to-sequence task like ST. Moreover, we analyze eventual drawbacks of this approach and how to alleviate them maintaining the benefits in terms of translation quality.
翻訳日:2021-05-16 10:01:53 公開日:2020-12-09
# (参考訳) 協調フィルタリングのための表現抽出とディープニューラルレコメンデーション

Representation Extraction and Deep Neural Recommendation for Collaborative Filtering ( http://arxiv.org/abs/2012.04979v1 )

ライセンス: CC BY 4.0
Arash Khoeini, Saman Haratizadeh, Ehsan Hoseinzade(参考訳) 多くのディープラーニングアプローチは、生の入力データから複雑な特徴を階層的に構築することで、複雑な分類と回帰問題を解決する。 レコメンデーション領域におけるディープニューラルネットワークの適用について、いくつかの研究で研究されているが、視覚情報やテキスト情報などの非構造化補助データを利用してエンティティの特徴を抽出することがほとんどであり、ユーザ・イット・レーティング・マトリックスを使用する場合、特徴抽出は行列分解を用いて行われる。 行列分解にはいくつかの制限があるため、それをディープニューラルネットワークに置き換える作業が行われている。 しかし、これらはアイテムのレビューやイメージのような構造化されていないデータを利用する必要があるか、暗黙のデータを使用するように特別に設計されており、ユーザイテム評価マトリックスを考慮していない。 本稿では,評価行列からユーザとアイテムの表現を抽出するための新しい表現学習アルゴリズムの利用について検討し,協調フィルタリングのためのディープニューラルネットワークを提供する。 提案手法は,Representation eXtraction と Deep Neural NETwork (RexNet) の2つの相からなるモジュラーアルゴリズムである。 RexNetで2つのジョイントニューラルネットワークと並列ニューラルネットワークを使用することで、各エンティティの機能階層を抽出して、ユーザからアイテムへの関心度を予測することが可能になる。 結果の予測は最終勧告に使用される。 他のディープラーニング推奨アプローチとは異なり、RexNetは視覚情報やテキスト情報などの構造化されていない補助データに依存しない。 我々はRexNetを,アートレコメンデーション手法の現状に対する広範な実験で評価した。 その結果、RexNetは密度の異なるさまざまなデータセットにおいて、ベースラインアルゴリズムを著しく上回ることがわかった。

Many Deep Learning approaches solve complicated classification and regression problems by hierarchically constructing complex features from the raw input data. Although a few works have investigated the application of deep neural networks in recommendation domain, they mostly extract entity features by exploiting unstructured auxiliary data such as visual and textual information, and when it comes to using user-item rating matrix, feature extraction is done by using matrix factorization. As matrix factorization has some limitations, some works have been done to replace it with deep neural network. but these works either need to exploit unstructured data such item's reviews or images, or are specially designed to use implicit data and don't take user-item rating matrix into account. In this paper, we investigate the usage of novel representation learning algorithms to extract users and items representations from rating matrix, and offer a deep neural network for Collaborative Filtering. Our proposed approach is a modular algorithm consisted of two main phases: REpresentation eXtraction and a deep neural NETwork (RexNet). Using two joint and parallel neural networks in RexNet enables it to extract a hierarchy of features for each entity in order to predict the degree of interest of users to items. The resulted predictions are then used for the final recommendation. Unlike other deep learning recommendation approaches, RexNet is not dependent to unstructured auxiliary data such as visual and textual information, instead, it uses only the user-item rate matrix as its input. We evaluated RexNet in an extensive set of experiments against state of the art recommendation methods. The results show that RexNet significantly outperforms the baseline algorithms in a variety of data sets with different degrees of density.
翻訳日:2021-05-16 09:50:24 公開日:2020-12-09
# (参考訳) 深部生成ネットワークを用いたスペクトルエネルギー分布の逆問題解法

Solving Inverse Problems for Spectral Energy Distributions with Deep Generative Networks ( http://arxiv.org/abs/2012.06331v1 )

ライセンス: CC BY 4.0
Agapi Rissaki, Orestis Pavlou, Dimitris Fotakis, Vicky Papadopoulou, Andreas Efstathiou(参考訳) 本稿では、複雑な天文学的信号のクラス、すなわちスペクトルエネルギー分布(SED)の逆問題に対するエンドツーエンドアプローチを提案する。 私たちのゴールは、そのような信号を不足や信頼性の低い測定から再構築することです。 我々は、学習した構造を深層生成ネットワークの形で活用することで実現した。 同様の方法は、暗黙的に悪用される有用な特性(局所性、周期性など)を表示する画像に対してのみテストされている。 しかし、SEDはそのような性質に欠けており、この問題をより困難にしている。 我々は、非常に少ないデータと破損したデータで訓練されたジェネレーティブ潜在最適化モデルを用いて、メソッドをSEDにうまく拡張することに成功した。

We propose an end-to-end approach for solving inverse problems for a class of complex astronomical signals, namely Spectral Energy Distributions (SEDs). Our goal is to reconstruct such signals from scarce and/or unreliable measurements. We achieve that by leveraging a learned structural prior in the form of a Deep Generative Network. Similar methods have been tested almost exclusively for images which display useful properties (e.g., locality, periodicity) that are implicitly exploited. However, SEDs lack such properties which make the problem more challenging. We manage to successfully extend the methods to SEDs using a Generative Latent Optimization model trained with significantly fewer and corrupted data.
翻訳日:2021-05-16 09:42:47 公開日:2020-12-09
# (参考訳) 弱教師付きセマンティクスセグメンテーションのためのグループ別セマンティクスマイニング

Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2012.05007v1 )

ライセンス: CC BY 4.0
Xueyi Li, Tianfei Zhou, Jianwu Li, Yi Zhou, Zhaoxiang Zhang(参考訳) 深層視覚モデルのトレーニングに十分な地上監視を得ることは、深層学習の膨大な性質のため、長年にわたってボトルネックとなっている。 これは、ピクセルレベルのアノテーションを必要とするセマンティックセグメンテーションなど、いくつかの構造化予測タスクで悪化する。 この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目的として、弱教師付きセグメンテーション(WSSS)に対処する。 画像群における意味的依存関係を明示的にモデル化し,より正確なセグメンテーションモデルのトレーニングに使用可能な,より信頼性の高い擬似地下構造を推定する。 特に,入力画像をグラフノードとして表現し,対画像間の基礎関係を効率的なコアテンション機構によって特徴づけるグループ間意味マイニングのためのグラフニューラルネットワーク(gnn)を考案する。 さらに,モデルが共通意味論のみに過度に注意を払わないよう,さらにグラフドロップアウト層を提案し,モデルがより正確で完全なオブジェクト応答を学ぶように促す。 ネットワーク全体が反復的なメッセージパッシングによってエンドツーエンドのトレーニングが可能で、画像上のインタラクションキューを伝搬して、パフォーマンスが徐々に向上する。 PASCAL VOC 2012とCOCOベンチマークで実験を行い、そのモデルにより最先端の性能が得られた。 私たちのコードは、https://github.com/lixy1997/group-wsssで利用可能です。

Acquiring sufficient ground-truth supervision to train deep visual models has been a bottleneck over the years due to the data-hungry nature of deep learning. This is exacerbated in some structured prediction tasks, such as semantic segmentation, which requires pixel-level annotations. This work addresses weakly supervised semantic segmentation (WSSS), with the goal of bridging the gap between image-level annotations and pixel-level segmentation. We formulate WSSS as a novel group-wise learning task that explicitly models semantic dependencies in a group of images to estimate more reliable pseudo ground-truths, which can be used for training more accurate segmentation models. In particular, we devise a graph neural network (GNN) for group-wise semantic mining, wherein input images are represented as graph nodes, and the underlying relations between a pair of images are characterized by an efficient co-attention mechanism. Moreover, in order to prevent the model from paying excessive attention to common semantics only, we further propose a graph dropout layer, encouraging the model to learn more accurate and complete object responses. The whole network is end-to-end trainable by iterative message passing, which propagates interaction cues over the images to progressively improve the performance. We conduct experiments on the popular PASCAL VOC 2012 and COCO benchmarks, and our model yields state-of-the-art performance. Our code is available at: https://github.com/Lixy1997/Group-WSSS.
翻訳日:2021-05-16 09:36:01 公開日:2020-12-09
# (参考訳) ヒンドゥー教ヒマラヤにおける氷河モニタリングのための機械学習

Machine Learning for Glacier Monitoring in the Hindu Kush Himalaya ( http://arxiv.org/abs/2012.05013v1 )

ライセンス: CC BY 4.0
Shimaa Baraka, Benjamin Akera, Bibek Aryal, Tenzing Sherpa, Finu Shresta, Anthony Ortiz, Kris Sankaran, Juan Lavista Ferres, Mir Matin, Yoshua Bengio(参考訳) 氷河マッピングは、hkh領域における生態モニタリングの鍵となる。 気候変動は、氷河生態系の健康に依存している個人に危険をもたらす。 本研究では,氷河に焦点をあて,生態モニタリングを支援する機械学習に基づくアプローチを提案する。 本手法は,衛星画像からの半自動マッピングに基づく。 衛星画像から,簡易に利用可能なリモートセンシングデータを用いて,クリーンアイスとデブリに覆われた氷河を識別・概説するモデルを構築した。 また、氷河マッピングプロセスを加速する究極の目的として、データをリリースし、専門家がモデル予測を可視化し、修正できるwebツールの開発も行っています。

Glacier mapping is key to ecological monitoring in the hkh region. Climate change poses a risk to individuals whose livelihoods depend on the health of glacier ecosystems. In this work, we present a machine learning based approach to support ecological monitoring, with a focus on glaciers. Our approach is based on semi-automated mapping from satellite images. We utilize readily available remote sensing data to create a model to identify and outline both clean ice and debris-covered glaciers from satellite imagery. We also release data and develop a web tool that allows experts to visualize and correct model predictions, with the ultimate aim of accelerating the glacier mapping process.
翻訳日:2021-05-16 09:19:28 公開日:2020-12-09
# (参考訳) ニューラルネットワークにおける創発的量子性

Emergent Quantumness in Neural Networks ( http://arxiv.org/abs/2012.05082v1 )

ライセンス: CC BY 4.0
Mikhail I. Katsnelson, Vitaly Vanchurin(参考訳) 近年、マデルング方程式、すなわちシュル=オディンガー方程式の流体力学的形式は、量子位相が隠れた変数の自由エネルギーと同一視されたニューラルネットワークの正準アンサンブルから導かれることが示されている。 代わりに、補助的なサブシステムとニューロンの交換を許し、自由エネルギーを多値化する必要があることを示すことによって、ニューラルネットワークの大標準アンサンブルを考える。 自由エネルギーに多値性条件を課すことで、隠れた変数の化学ポテンシャルによって決定される「プランク定数」を持つシュレーディンガー方程式を導出する。 このことは、量子力学が学習平衡におけるニューラルネットワークの大標準アンサンブルのダイナミクスの正しい統計的記述を与えることを示している。 また,機械学習や基礎物理学,進化生物学における研究結果の意義についても考察した。

It was recently shown that the Madelung equations, that is, a hydrodynamic form of the Schr\"odinger equation, can be derived from a canonical ensemble of neural networks where the quantum phase was identified with the free energy of hidden variables. We consider instead a grand canonical ensemble of neural networks, by allowing an exchange of neurons with an auxiliary subsystem, to show that the free energy must also be multivalued. By imposing the multivaluedness condition on the free energy we derive the Schr\"odinger equation with "Planck's constant" determined by the chemical potential of hidden variables. This shows that quantum mechanics provides a correct statistical description of the dynamics of the grand canonical ensemble of neural networks at the learning equilibrium. We also discuss implications of the results for machine learning, fundamental physics and, in a more speculative way, evolutionary biology.
翻訳日:2021-05-16 09:12:54 公開日:2020-12-09
# (参考訳) explornn:ビジュアル探索によるリカレントニューラルネットワークの理解

exploRNN: Understanding Recurrent Neural Networks through Visual Exploration ( http://arxiv.org/abs/2012.06326v1 )

ライセンス: CC BY 4.0
Alex B\"auerle, Raphael St\"ork, and Timo Ropinski(参考訳) ディープラーニングの成功と、その成長する求人市場により、多くの分野の学生や研究者は、ディープラーニング技術について学ぼうとしている。 可視化は、この学習プロセスにおいて非常に役立つことが証明されていますが、現在の教育的な視覚化のほとんどは、特定のアーキテクチャやユースケースをターゲットにしています。 残念ながら、シーケンシャルなデータを処理できるrecurrent neural networks(rnn)は、テキストや関数分析といったシーケンシャルなデータのタスクがディープラーニング研究の最前線にあるにもかかわらず、まだカバーされていない。 そこで本研究では,RNNのための対話型学習可視化である ExploRNN を提案する。 exploRNNは、RNNとのインタラクティブな実験を可能にし、トレーニング中の機能や振る舞いに関する詳細な情報を提供する。 RNNの理解を目的とした教育目的を定義し、これらをビジュアルデザインプロセス全体を通してガイドラインとして使用することにより、Webブラウザ内でRNNの最も重要な概念を直接伝達するエクスプロRNNを設計した。 ExploRNNにより、粗いレベルでのRNNのトレーニングプロセスの概要を提供するとともに、LSTMセル内のデータフローの詳細な検査を可能にする。 本稿では,exploRNNの設計を動機付け,その実現を詳述するとともに,exploRNNのメリットを調査するユーザスタディの結果について考察する。

Due to the success of deep learning and its growing job market, students and researchers from many areas are getting interested in learning about deep learning technologies. Visualization has proven to be of great help during this learning process, while most current educational visualizations are targeted towards one specific architecture or use case. Unfortunately, recurrent neural networks (RNNs), which are capable of processing sequential data, are not covered yet, despite the fact that tasks on sequential data, such as text and function analysis, are at the forefront of deep learning research. Therefore, we propose exploRNN, the first interactively explorable, educational visualization for RNNs. exploRNN allows for interactive experimentation with RNNs, and provides in-depth information on their functionality and behavior during training. By defining educational objectives targeted towards understanding RNNs, and using these as guidelines throughout the visual design process, we have designed exploRNN to communicate the most important concepts of RNNs directly within a web browser. By means of exploRNN, we provide an overview of the training process of RNNs at a coarse level, while also allowing detailed inspection of the data-flow within LSTM cells. Within this paper, we motivate our design of exploRNN, detail its realization, and discuss the results of a user study investigating the benefits of exploRNN.
翻訳日:2021-05-16 08:59:31 公開日:2020-12-09
# (参考訳) 深層強化学習に基づく対話型検索

Interactive Search Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2012.06052v1 )

ライセンス: CC0 1.0
Yang Yu, Zhenhao Gu, Rong Tao, Jingtian Ge, Kenglun Chang(参考訳) 機械学習技術の継続的な開発により、主要なEコマースプラットフォームは、異なるニーズを持つ多数の顧客により効率的にサービスを提供するために、それに基づくレコメンデーションシステムを立ち上げた。 従来の教師付き学習と比較して、強化学習は意思決定プロセスにおけるユーザの状態遷移をよりよく捉え、ある時点におけるユーザの静的な特性だけでなく、一連のユーザアクションを考えることができる。 理論的には、長期的な視点を持ち、より効果的なレコメンデーションを生み出す。 データに対する強化学習の特別な要件は、トレーニングのためにオフラインの仮想システムに依存する必要がある。 本プロジェクトは,主にオフライントレーニングのための仮想ユーザ環境を構築している。 同時に,2クラスタリングに基づく強化学習アルゴリズムを改良して,推奨エージェントの行動空間と推奨経路空間を拡張することを試みた。

With the continuous development of machine learning technology, major e-commerce platforms have launched recommendation systems based on it to serve a large number of customers with different needs more efficiently. Compared with traditional supervised learning, reinforcement learning can better capture the user's state transition in the decision-making process, and consider a series of user actions, not just the static characteristics of the user at a certain moment. In theory, it will have a long-term perspective, producing a more effective recommendation. The special requirements of reinforcement learning for data make it need to rely on an offline virtual system for training. Our project mainly establishes a virtual user environment for offline training. At the same time, we tried to improve a reinforcement learning algorithm based on bi-clustering to expand the action space and recommended path space of the recommendation agent.
翻訳日:2021-05-16 08:41:21 公開日:2020-12-09
# (参考訳) ICA-GANによる電力系統状態推定のためのBad-Data Sequence Detection

Bad-Data Sequence Detection for Power System State Estimation via ICA-GAN ( http://arxiv.org/abs/2012.05163v1 )

ライセンス: CC BY 4.0
Kursat Rasim Mestav, Lang Tong(参考訳) 電力系統における不良データ列検出のための深層学習手法を提案する。 悪いデータモデルは、任意の自然および逆データ異常を含む非パラメトリックである。 データ異常の歴史的なサンプルは仮定されていない。 異常のないシステム操作におけるデータの確率分布は、非パラメトリック、未知、歴史的トレーニングサンプルである。 独立成分分析(ICA)により測定シーケンスの独立成分を抽出するGAN(Generative Adversarial Network)に基づいて一様性試験を提案する。 ICA-GANと呼ばれるこの手法は、個々のセンサーレベルでも、システムレベルで共同でも、バッドデータシーケンス検出に応用できる。 EPFLスマートグリッドテストベッドのPMU測定値と合成北テキサスグリッドのPMU測定値を用いて, 各種悪いデータケースに対する最先端のソリューションよりも大幅に改善した。

A deep learning approach to the detection of bad-data sequences in power systems is proposed. The bad-data model is nonparametric that includes arbitrary natural and adversarial data anomalies. No historical samples of data anomaly are assumed. The probability distribution of data in anomaly-free system operations is also non-parametric, unknown, but with historical training samples. A uniformity test is proposed based on a generative adversarial network (GAN) that extracts independent components of the measurement sequence via independent component analysis (ICA). Referred to as ICA-GAN, the developed approach to bad-data sequence detection can be applied at the individual sensor level or jointly at the system level. Numerical results demonstrate significant improvement over the state-of-the-art solutions for a variety of bad-data cases using PMU measurements from the EPFL smart grid testbed and that from the synthetic Northern Texas grid.
翻訳日:2021-05-16 08:08:58 公開日:2020-12-09
# (参考訳) SongMASS:事前学習とアライメント制約による自動作曲

SongMASS: Automatic Song Writing with Pre-training and Alignment Constraint ( http://arxiv.org/abs/2012.05168v1 )

ライセンス: CC BY 4.0
Zhonghao Sheng, Kaitao Song, Xu Tan, Yi Ren, Wei Ye, Shikun Zhang, Tao Qin(参考訳) 自動作曲は、機械による歌(歌詞やメロディ)の作曲を目的としており、これはアカデミックと産業の両方で興味深い話題である。 自動作曲では,歌詞からメロディへの生成とメロディ・メロディ・メロディ・メロディ・メロディ生成が2つの重要な課題である。1) 歌詞とメロディの相関が弱いため,ペアのトレーニングデータが多数必要であること,2) 特定のアライメントモデルに依存する歌詞とメロディ間の厳密なアライメントが要求される。 本稿では,これらの課題を解決するためにsongmassを提案する。songmassはマス・シーケンス・ト・シーケンス(mass)の事前学習と注意に基づくアライメント・モデリングを用いて,歌詞からメロディ、メロディから歌詞への生成を行う。 具体的には,原文レベルのMASS事前学習を歌レベルに拡張し,音楽の長い文脈情報をよりよく把握し,各モダリティ(歌詞やメロディ)に別個のエンコーダとデコーダを用い,トレーニング中に文レベルの注意マスクとトークンレベルの注意制約を活用し,歌詞とメロディの整合性を高める。 推論中は動的プログラミング戦略を用いて,歌詞中の各単語/音節とメロディ中の音節のアライメントを求める。 その結果,SongMASSがベースライン法に比べて,事前学習やアライメントの制約を伴わずに,主観的および主観的評価を行った結果,SongMASSは歌詞とメロディを生成できることがわかった。

Automatic song writing aims to compose a song (lyric and/or melody) by machine, which is an interesting topic in both academia and industry. In automatic song writing, lyric-to-melody generation and melody-to-lyric generation are two important tasks, both of which usually suffer from the following challenges: 1) the paired lyric and melody data are limited, which affects the generation quality of the two tasks, considering a lot of paired training data are needed due to the weak correlation between lyric and melody; 2) Strict alignments are required between lyric and melody, which relies on specific alignment modeling. In this paper, we propose SongMASS to address the above challenges, which leverages masked sequence to sequence (MASS) pre-training and attention based alignment modeling for lyric-to-melody and melody-to-lyric generation. Specifically, 1) we extend the original sentence-level MASS pre-training to song level to better capture long contextual information in music, and use a separate encoder and decoder for each modality (lyric or melody); 2) we leverage sentence-level attention mask and token-level attention constraint during training to enhance the alignment between lyric and melody. During inference, we use a dynamic programming strategy to obtain the alignment between each word/syllable in lyric and note in melody. We pre-train SongMASS on unpaired lyric and melody datasets, and both objective and subjective evaluations demonstrate that SongMASS generates lyric and melody with significantly better quality than the baseline method without pre-training or alignment constraint.
翻訳日:2021-05-16 07:53:43 公開日:2020-12-09
# (参考訳) 神経再建に伴う凸規則化

Convex Regularization Behind Neural Reconstruction ( http://arxiv.org/abs/2012.05169v1 )

ライセンス: CC BY 4.0
Arda Sahiner, Morteza Mardani, Batu Ozturkler, Mert Pilanci, John Pauly(参考訳) ニューラルネットワークは、逆問題において高解像度画像を再構成する大きな可能性を示している。 しかし、ニューラルネットワークの非凸で不透明な性質は、医用画像などの感度の高い応用においてその有用性を妨げている。 この課題に対処するため、本論文では2層完全畳み込みreluデノイジングネットワークを凸最適化に応用可能な凸双対性フレームワークを提唱する。 convexデュアルネットワークは、convexソルバによる最適なトレーニングを提供するだけでなく、トレーニングと予測の解釈を容易にする。 特に、重み減衰正規化を伴うトレーニングニューラルネットワークは経路スパーシティを誘導するが、予測は分割線形フィルタリングである。 MNISTおよび高速MRIデータセットを用いた実験により、二重ネットワーク最適化問題の有効性が確認された。

Neural networks have shown tremendous potential for reconstructing high-resolution images in inverse problems. The non-convex and opaque nature of neural networks, however, hinders their utility in sensitive applications such as medical imaging. To cope with this challenge, this paper advocates a convex duality framework that makes a two-layer fully-convolutional ReLU denoising network amenable to convex optimization. The convex dual network not only offers the optimum training with convex solvers, but also facilitates interpreting training and prediction. In particular, it implies training neural networks with weight decay regularization induces path sparsity while the prediction is piecewise linear filtering. A range of experiments with MNIST and fastMRI datasets confirm the efficacy of the dual network optimization problem.
翻訳日:2021-05-16 07:35:33 公開日:2020-12-09
# (参考訳) 汎用抗スプーフィングのための物理誘導型spoofトレース異方性

Physics-Guided Spoof Trace Disentanglement for Generic Face Anti-Spoofing ( http://arxiv.org/abs/2012.05185v1 )

ライセンス: CC BY 4.0
Yaojie Liu and Xiaoming Liu(参考訳) 以前の研究では、スプーフ防止の鍵は「スプーフトレース」と呼ばれる微妙な画像パターン、例えば色歪、3dマスクエッジ、モワールパターンなどにあることが示されている。 これらのspoofトレースを推定するための汎用的なface anti-spoofingモデルの設計は、spoof検出の一般化だけでなく、モデルの決定の解釈可能性も改善できる。 しかし、これはspoof型の多様性とspoofトレースにおける基底的真理の欠如のため、難しい課題である。 本研究では,スプーフの顔がスプーフの痕跡と実物に絡み合うような,新たな逆学習フレームワークを設計する。 物理的性質により、spoof生成は加法工程と塗り込み工程の組み合わせとして表される。 加法プロセスでは、スプーフィングを余分なパターン(例えばmoireパターン)を導入するスプーフィング材料として記述している。 塗布プロセスでは、スプーフは特定の領域を完全に覆うスプーフ材料であり、これらの領域の生きた領域を「くっつける」必要がある。 3個の添加成分と1個の塗工成分を用いて異なる周波数帯域でのトレースを表現する。 この異方性spoofトレースは、適切な幾何補正後の現実的な新しいspoof顔の合成に利用することができ、合成spoofは、spoof検出のトレーニングおよび一般化に使用できる。 提案手法は,既知の攻撃,未知の攻撃,オープンセット攻撃という3つのテストシナリオにおいて,優れたspoof検出性能を示す。 一方、スプーフトレースの視覚的に収束する推定を提供する。 ソースコードと事前訓練されたモデルは、公開時に公開される。

Prior studies show that the key to face anti-spoofing lies in the subtle image pattern, termed "spoof trace", e.g., color distortion, 3D mask edge, Moire pattern, and many others. Designing a generic face anti-spoofing model to estimate those spoof traces can improve not only the generalization of the spoof detection, but also the interpretability of the model's decision. Yet, this is a challenging task due to the diversity of spoof types and the lack of ground truth in spoof traces. In this work, we design a novel adversarial learning framework to disentangle spoof faces into the spoof traces and the live counterparts. Guided by physical properties, the spoof generation is represented as a combination of additive process and inpainting process. Additive process describes spoofing as spoof material introducing extra patterns (e.g., moire pattern), where the live counterpart can be recovered by removing those patterns. Inpainting process describes spoofing as spoof material fully covering certain regions, where the live counterpart of those regions has to be "guessed". We use 3 additive components and 1 inpainting component to represent traces at different frequency bands. The disentangled spoof traces can be utilized to synthesize realistic new spoof faces after proper geometric correction, and the synthesized spoof can be used for training and improve the generalization of spoof detection. Our approach demonstrates superior spoof detection performance on 3 testing scenarios: known attacks, unknown attacks, and open-set attacks. Meanwhile, it provides a visually-convincing estimation of the spoof traces. Source code and pre-trained models will be publicly available upon publication.
翻訳日:2021-05-16 07:14:43 公開日:2020-12-09
# (参考訳) 期待条件最大化を伴う剛体および関節点登録

Rigid and Articulated Point Registration with Expectation Conditional Maximization ( http://arxiv.org/abs/2012.05191v1 )

ライセンス: CC BY 4.0
Radu Horaud, Florence Forbes, Manuel Yguel, Guillaume Dewaele, and Jian Zhang(参考訳) 本稿では,確率点登録による剛性と調音形状の整合の問題に対処する。 問題は、未知の対応が混合モデルによって処理される、欠落したデータフレームワークに再キャストされる。 極大極大原理を応用して,ポイント登録のための期待条件最大化(ECMPR)アルゴリズムという,革新的EMライクなアルゴリズムを導入する。 このアルゴリズムは混合モデル成分に対する一般共分散行列の使用を可能にし、等方共分散の場合よりも改善する。 登録パラメータの推定において関連する結果を詳細に分析し、半定値の正緩和に基づく回転パラメータと翻訳パラメータを推定する最適手法を提案する。 厳格登録を明示登録に拡張する。 ガウス混合モデルに一様成分を加えることにより、外れ値の検出と拒絶によってロバスト性を確保する。 提案手法の詳細な解析を行い,理論上も実験上も,他の頑健な点登録法と比較する。

This paper addresses the issue of matching rigid and articulated shapes through probabilistic point registration. The problem is recast into a missing data framework where unknown correspondences are handled via mixture models. Adopting a maximum likelihood principle, we introduce an innovative EM-like algorithm, namely the Expectation Conditional Maximization for Point Registration (ECMPR) algorithm. The algorithm allows the use of general covariance matrices for the mixture model components and improves over the isotropic covariance case. We analyse in detail the associated consequences in terms of estimation of the registration parameters, and we propose an optimal method for estimating the rotational and translational parameters based on semi-definite positive relaxation. We extend rigid registration to articulated registration. Robustness is ensured by detecting and rejecting outliers through the addition of a uniform component to the Gaussian mixture model at hand. We provide an in-depth analysis of our method and we compare it both theoretically and experimentally with other robust methods for point registration.
翻訳日:2021-05-16 06:40:29 公開日:2020-12-09
# (参考訳) ディープラーニングのためのコストベース予算アクティブラーニング

Cost-Based Budget Active Learning for Deep Learning ( http://arxiv.org/abs/2012.05196v1 )

ライセンス: CC BY 4.0
Patrick K. Gikunda, Nicolas Jouandeau(参考訳) 古典的アクティブラーニング(AL)のアプローチは、典型的にはエントロピーやマージンといった統計理論を使って例の効用を計測するが、ラベルのないデータに含まれるデータ分布情報の取得には失敗する。 これにより、最終的に分類器はラベル付けする外れ値のインスタンスを選択することができる。 一方、典型的な分類タスクにおけるインスタンスの誤ラベルに関連する損失は、反対のエラーに関連する損失よりもはるかに大きい。 これらの課題に対処するために、予算に制約された人口の分類の不確実性と事例多様性を考慮したコストベースバグデットアクティブラーニング(CBAL)を提案する。 min-maxに基づく原理的なアプローチは、選択されたインスタンスのラベル付けと決定コストの両方を最小化すると考えられており、計算労力を大幅に削減してほぼ最適である。 広範な実験結果から,提案手法は,最先端のアクティブラーニング手法よりも優れていることが示された。

Majorly classical Active Learning (AL) approach usually uses statistical theory such as entropy and margin to measure instance utility, however it fails to capture the data distribution information contained in the unlabeled data. This can eventually cause the classifier to select outlier instances to label. Meanwhile, the loss associated with mislabeling an instance in a typical classification task is much higher than the loss associated with the opposite error. To address these challenges, we propose a Cost-Based Bugdet Active Learning (CBAL) which considers the classification uncertainty as well as instance diversity in a population constrained by a budget. A principled approach based on the min-max is considered to minimize both the labeling and decision cost of the selected instances, this ensures a near-optimal results with significantly less computational effort. Extensive experimental results show that the proposed approach outperforms several state-of -the-art active learning approaches.
翻訳日:2021-05-16 06:14:15 公開日:2020-12-09
# (参考訳) グラフに基づく時空間交通予測の不確かさ区間

Uncertainty Intervals for Graph-based Spatio-Temporal Traffic Prediction ( http://arxiv.org/abs/2012.05207v1 )

ライセンス: CC BY-SA 4.0
Tijs Maas, Peter Bloem(参考訳) 多くのトラフィック予測アプリケーションは平均予測ではなく不確実性推定に依存している。 統計トラフィック予測文献は不確実性モデリングに特化した完全なサブフィールドを持っているが、最近のディープラーニングトラフィック予測モデルは、この機能を欠いているか、その実用性を制限する特定の仮定をしている。 本稿では,前回の時間ステップの測定値から密度を推定するためにトレーニングされた時空間ニューラルネットワークであるquantile graph wavenetを提案する。 この密度推定法はニューラルネットワークによって完全にパラメータ化され, 内部では近似値を用いない。 量子損失関数は非対称であり、スキュード密度をモデル化することができる。 このアプローチはモンテカルロ・ドロップアウトのような推論中にサンプリングする必要がない不確実性推定を生成するため,本手法も効率的である。

Many traffic prediction applications rely on uncertainty estimates instead of the mean prediction. Statistical traffic prediction literature has a complete subfield devoted to uncertainty modelling, but recent deep learning traffic prediction models either lack this feature or make specific assumptions that restrict its practicality. We propose Quantile Graph Wavenet, a Spatio-Temporal neural network that is trained to estimate a density given the measurements of previous timesteps, conditioned on a quantile. Our method of density estimation is fully parameterised by our neural network and does not use a likelihood approximation internally. The quantile loss function is asymmetric and this makes it possible to model skewed densities. This approach produces uncertainty estimates without the need to sample during inference, such as in Monte Carlo Dropout, which makes our method also efficient.
翻訳日:2021-05-16 06:06:33 公開日:2020-12-09
# (参考訳) ニューラルネットワークにおける結合問題について

On the Binding Problem in Artificial Neural Networks ( http://arxiv.org/abs/2012.05208v1 )

ライセンス: CC BY-SA 4.0
Klaus Greff, Sjoerd van Steenkiste, J\"urgen Schmidhuber(参考訳) 現代のニューラルネットワークは、人間のレベルの一般化にはまだ不足しています。 本稿では,この欠点の根底にある原因として,ネットワーク全体に分散する情報を動的かつ柔軟に結合できないことを挙げる。 この結合問題は、シンボルのような実体(オブジェクトなど)の観点から世界の構成的理解を得る能力に影響を与え、予測可能で体系的な方法の一般化に不可欠である。 この問題に対処するため,非構造化感覚入力から有意義な実体を形成(分離)し,情報分離を表現レベル(表現)で維持し,それらの実体を用いて新たな推論,予測,行動(構成)を構築するための統合フレームワークを提案する。 我々の分析は神経科学と認知心理学の豊富な研究からインスピレーションを得ており、機械学習の文献から関連するメカニズムを調査し、ニューラルネットワークに象徴的な情報処理が自然に現れるように誘導バイアスの組み合わせを特定するのに役立つ。 我々は,人間レベルの一般化を実現する上で,AIに対する構成的アプローチが基本的重要性であると考えており,本論文が参照とインスピレーションとしてその目標に寄与することを願っている。

Contemporary neural networks still fall short of human-level generalization, which extends far beyond our direct experiences. In this paper, we argue that the underlying cause for this shortcoming is their inability to dynamically and flexibly bind information that is distributed throughout the network. This binding problem affects their capacity to acquire a compositional understanding of the world in terms of symbol-like entities (like objects), which is crucial for generalizing in predictable and systematic ways. To address this issue, we propose a unifying framework that revolves around forming meaningful entities from unstructured sensory inputs (segregation), maintaining this separation of information at a representational level (representation), and using these entities to construct new inferences, predictions, and behaviors (composition). Our analysis draws inspiration from a wealth of research in neuroscience and cognitive psychology, and surveys relevant mechanisms from the machine learning literature, to help identify a combination of inductive biases that allow symbolic information processing to emerge naturally in neural networks. We believe that a compositional approach to AI, in terms of grounded symbol-like representations, is of fundamental importance for realizing human-level generalization, and we hope that this paper may contribute towards that goal as a reference and inspiration.
翻訳日:2021-05-16 06:00:28 公開日:2020-12-09
# (参考訳) Sparse tropical matrix factorization によるデータの埋め込みと予測

Data embedding and prediction by sparse tropical matrix factorization ( http://arxiv.org/abs/2012.05210v1 )

ライセンス: CC BY-SA 4.0
Amra Omanovi\'c, Hilal Kazan, Polona Oblak and Toma\v{z} Curk(参考訳) 行列分解法は線形モデルであり、複素関係をモデル化する能力は限られている。 本研究では,熱帯セミリングを用いて行列分解モデルに非線形性を導入する。 本研究では,sparse tropical matrix factorization (stmf) という手法を提案する。 The Cancer Genome Atlas (TCGA)データベースからダウンロードした遺伝子発現測定の形式で、合成データと生物データの両方に対するSTMF法の効率を評価する。 その結果, STMF近似は非負行列分解 (NMF) よりも高い相関性を示し, パターンを効果的に回復できないことがわかった。 実データでは、stmfは9つの遺伝子発現データセットのうち6つでnmfを上回る。 NMFは正規分布を仮定し平均値に向かう傾向にあるが、STMFは極端な値や分布に適合する。 STMFはスパースデータに熱帯セミリングを用いた最初の研究である。 あるケースでは、半環は構造を考えるため有用であり、これは標準線型代数と異なる、より理解しやすい構造である。

Matrix factorization methods are linear models, with limited capability to model complex relations. In our work, we use tropical semiring to introduce non-linearity into matrix factorization models. We propose a method called Sparse Tropical Matrix Factorization (STMF) for the estimation of missing (unknown) values. We evaluate the efficiency of the STMF method on both synthetic data and biological data in the form of gene expression measurements downloaded from The Cancer Genome Atlas (TCGA) database. Tests on unique synthetic data showed that STMF approximation achieves a higher correlation than non-negative matrix factorization (NMF), which is unable to recover patterns effectively. On real data, STMF outperforms NMF on six out of nine gene expression datasets. While NMF assumes normal distribution and tends toward the mean value, STMF can better fit to extreme values and distributions. STMF is the first work that uses tropical semiring on sparse data. We show that in certain cases semirings are useful because they consider the structure, which is different and simpler to understand than it is with standard linear algebra.
翻訳日:2021-05-16 05:59:26 公開日:2020-12-09
# (参考訳) GANにおける空間誘導バイアスとしての位置符号化

Positional Encoding as Spatial Inductive Bias in GANs ( http://arxiv.org/abs/2012.05217v1 )

ライセンス: CC BY 4.0
Rui Xu, Xintao Wang, Kai Chen, Bolei Zhou, Chen Change Loy(参考訳) SinGANは、効果的な受容野が限られているにもかかわらず、内部パッチの分布を学習する能力を示す。 このような変換不変な畳み込み生成器が空間的i.d.で大域構造を捉えることができるのかを知ることに興味がある。 入力。 本研究は,SinGANとStyleGAN2を例として,発電機にゼロパディングを使用する場合の暗黙的な位置エンコーディングによって,その能力が大きく向上することを示す。 このような位置符号化は、忠実度の高い画像を生成するのに不可欠である。 同様の現象はDCGANやPGGANといった他の遺伝子構造でも見られる。 さらに, ゼロパディングは, 位置間のあいまいな関係で不均衡な空間バイアスをもたらすことを示す。 より優れた空間誘導バイアスを与えるために、代替位置エンコーディングを調査し、その効果を分析する。 より柔軟な位置符号化を明記した新しいマルチスケールトレーニング戦略を提案し,その効果を現状の無条件生成器stylegan2で実証する。 さらに、空間誘導バイアスにより、より汎用的な画像操作のためのSinGANが大幅に向上する。

SinGAN shows impressive capability in learning internal patch distribution despite its limited effective receptive field. We are interested in knowing how such a translation-invariant convolutional generator could capture the global structure with just a spatially i.i.d. input. In this work, taking SinGAN and StyleGAN2 as examples, we show that such capability, to a large extent, is brought by the implicit positional encoding when using zero padding in the generators. Such positional encoding is indispensable for generating images with high fidelity. The same phenomenon is observed in other generative architectures such as DCGAN and PGGAN. We further show that zero padding leads to an unbalanced spatial bias with a vague relation between locations. To offer a better spatial inductive bias, we investigate alternative positional encodings and analyze their effects. Based on a more flexible positional encoding explicitly, we propose a new multi-scale training strategy and demonstrate its effectiveness in the state-of-the-art unconditional generator StyleGAN2. Besides, the explicit spatial inductive bias substantially improve SinGAN for more versatile image manipulation.
翻訳日:2021-05-16 05:58:27 公開日:2020-12-09
# (参考訳) 不完全データを用いたベイズネットワーク学習におけるハードとソフトem

Hard and Soft EM in Bayesian Network Learning from Incomplete Data ( http://arxiv.org/abs/2012.05269v1 )

ライセンス: CC BY 4.0
Andrea Ruggieri, Francesco Stranieri, Fabio Stella and Marco Scutari(参考訳) 不完全データは、臨床試験から産業応用まで、多くの領域で一般的な特徴である。 ベイズネットワーク(BN)は、グラフィカルな解釈と因果的な解釈のため、これらの領域でよく使用される。 不完全データからのBNパラメータ学習は通常、信条伝搬を用いて関連する十分な統計量(ソフトEM)を計算する期待最大化アルゴリズム(EM)で実装される。 同様に、構造期待最大化アルゴリズム (Structural EM) は完全なデータ用に設計されたアルゴリズムを用いてBNのネットワーク構造を学習する。 しかし、パラメータと構造学習の実際的な実装は、実装の容易さと計算速度の両方のため、信念伝播を使う代わりに十分な統計を計算するために不足したデータ("hard em")を暗示することが多い。 本稿では,提案するBNの質に対する信念の伝播ではなく,インパルスの使用による影響について検討する。 合成データと参照bnsを用いたシミュレーション研究から,データの特徴に基づいた複数のシナリオにおいて,一方のアプローチを他方よりも推奨することが可能であることが判明した。 次に,この問題に最も適したemアルゴリズムの選択を実践者に指導するために,この情報を用いて簡単な決定木を構築する。

Incomplete data are a common feature in many domains, from clinical trials to industrial applications. Bayesian networks (BNs) are often used in these domains because of their graphical and causal interpretations. BN parameter learning from incomplete data is usually implemented with the Expectation-Maximisation algorithm (EM), which computes the relevant sufficient statistics ("soft EM") using belief propagation. Similarly, the Structural Expectation-Maximisation algorithm (Structural EM) learns the network structure of the BN from those sufficient statistics using algorithms designed for complete data. However, practical implementations of parameter and structure learning often impute missing data ("hard EM") to compute sufficient statistics instead of using belief propagation, for both ease of implementation and computational speed. In this paper, we investigate the question: what is the impact of using imputation instead of belief propagation on the quality of the resulting BNs? From a simulation study using synthetic data and reference BNs, we find that it is possible to recommend one approach over the other in several scenarios based on the characteristics of the data. We then use this information to build a simple decision tree to guide practitioners in choosing the EM algorithm best suited to their problem.
翻訳日:2021-05-16 05:35:09 公開日:2020-12-09
# (参考訳) 構文依存型mBERT埋め込みを用いた言語間単語センスの曖昧化

Cross-lingual Word Sense Disambiguation using mBERT Embeddings with Syntactic Dependencies ( http://arxiv.org/abs/2012.05300v1 )

ライセンス: CC BY 4.0
Xingran Zhu(参考訳) 言語間の単語感覚の曖昧さ (WSD) は、与えられた文脈にまたがるあいまいな単語の曖昧さに対処する。 事前学習されたBERT埋め込みモデルは、単語の文脈情報を抽出するのに有効であることが証明されており、多くの最先端のWSDシステムに機能として組み込まれている。 構文情報がbert組込みにどのように追加され、意味論と構文に組み込まれた単語組込みの両方をもたらすかを調べるため、本プロジェクトは、依存関係パースtresを生成し、単語の相対関係を入力組込みにエンコードすることで、連結組込みを提案する。 連結埋め込みのサイズを減らすための2つの方法も提案されている。 実験の結果,構文を組み込んだ組込みの高次元化が分類課題の障害となり,今後の研究でさらに対応する必要があることが示された。

Cross-lingual word sense disambiguation (WSD) tackles the challenge of disambiguating ambiguous words across languages given context. The pre-trained BERT embedding model has been proven to be effective in extracting contextual information of words, and have been incorporated as features into many state-of-the-art WSD systems. In order to investigate how syntactic information can be added into the BERT embeddings to result in both semantics- and syntax-incorporated word embeddings, this project proposes the concatenated embeddings by producing dependency parse tress and encoding the relative relationships of words into the input embeddings. Two methods are also proposed to reduce the size of the concatenated embeddings. The experimental results show that the high dimensionality of the syntax-incorporated embeddings constitute an obstacle for the classification task, which needs to be further addressed in future studies.
翻訳日:2021-05-16 05:20:09 公開日:2020-12-09
# (参考訳) データスパースNLUにおけるアノテーション付きデータ拡張のための生成逆ネットワーク

Generative Adversarial Networks for Annotated Data Augmentation in Data Sparse NLU ( http://arxiv.org/abs/2012.05302v1 )

ライセンス: CC BY 4.0
Olga Golovneva and Charith Peris(参考訳) データ空間は自然言語理解(NLU)における対話エージェントのモデル開発に関連する重要な課題の1つである。 この課題は、教師付き学習に一般的に必要とされる高品質な注釈付き発話の要求によってより複雑にされ、通常、数週間の手動労働と高いコストをもたらす。 本稿では,GAN(Sequential Generative Adversarial Network)を用いたトレーニングデータ拡張によるNLUモデルの性能向上について述べる。 我々は、新しい言語のブートストラップと低リソース機能の処理という2つのタスクのコンテキストでデータ生成を探求する。 両方のタスクに対して,トークンレベルの報酬関数を備えたアーキテクチャ,トークンレベルのモンテカルロロールアウト報酬を独自に実装したアーキテクチャ,文レベルの報酬を持つアーキテクチャの3つについて検討する。 我々は,これらのフィードバックモデルの性能を複数のサンプリング手法で評価し,その結果を比較して,元のデータを同じスケールにアップサンプリングする。 我々は,事前学習した組込みの転送学習により,ganモデルの性能をさらに向上させる。 本実験により, 逐次生成逆数ネットワークを用いて生成した合成データにより, 複数の指標間で大きな性能向上が達成され, NLUタスクにとって大きなメリットとなることがわかった。

Data sparsity is one of the key challenges associated with model development in Natural Language Understanding (NLU) for conversational agents. The challenge is made more complex by the demand for high quality annotated utterances commonly required for supervised learning, usually resulting in weeks of manual labor and high cost. In this paper, we present our results on boosting NLU model performance through training data augmentation using a sequential generative adversarial network (GAN). We explore data generation in the context of two tasks, the bootstrapping of a new language and the handling of low resource features. For both tasks we explore three sequential GAN architectures, one with a token-level reward function, another with our own implementation of a token-level Monte Carlo rollout reward, and a third with sentence-level reward. We evaluate the performance of these feedback models across several sampling methodologies and compare our results to upsampling the original data to the same scale. We further improve the GAN model performance through the transfer learning of the pretrained embeddings. Our experiments reveal synthetic data generated using the sequential generative adversarial network provides significant performance boosts across multiple metrics and can be a major benefit to the NLU tasks.
翻訳日:2021-05-16 05:11:32 公開日:2020-12-09
# (参考訳) バレット分節に対する教師なし逆行性ドメイン適応

Unsupervised Adversarial Domain Adaptation For Barrett's Segmentation ( http://arxiv.org/abs/2012.05316v1 )

ライセンス: CC BY 4.0
Numan Celik, Soumya Gupta, Sharib Ali, Jens Rittscher(参考訳) バレット食道(barrett's oesophagus, be)は食道癌の早期発見例である。 BE患者をモニターし、そのリスクを最小化するためにアブレーション療法を行い、BE領域を正確に同定する。 自動セグメンテーションは臨床内科医がbe領域をより正確に評価し治療するのに役立つ。 BEの内視鏡像は、従来の白色光(WL)モードに加えて、複数のモードを含むことができる。 監視されたモデルは、トレーニングデータにすべてのデータ変数を組み込んだ大量の手動アノテーションを必要とする。 しかし、手動アノテーションを生成するのは面倒で面倒で退屈で労働集約的な作業になり、さらにモダリティ特有の専門知識が必要です。 本研究では,教師なしドメイン適応手法(UDA)を適用し,この問題を軽減することを目的とする。 ここで、udaは白色光内視鏡像をソースドメインとして訓練し、ターゲットドメインとして異なる撮像モード、すなわち狭帯域イメージングと、酢酸後wlイメージングのセグメンテーションを一般化するためによく適応している。 我々のデータセットは、ソースドメインとターゲットドメインの両方からなる合計851の画像で構成されています。 提案手法は従来の教師付きU-Netセグメンテーションよりも10%近く優れており,Diceの類似度係数と交叉オーバ・ユニオンの両面で優れていた。

Barrett's oesophagus (BE) is one of the early indicators of esophageal cancer. Patients with BE are monitored and undergo ablation therapies to minimise the risk, thereby making it eminent to identify the BE area precisely. Automated segmentation can help clinical endoscopists to assess and treat BE area more accurately. Endoscopy imaging of BE can include multiple modalities in addition to the conventional white light (WL) modality. Supervised models require large amount of manual annotations incorporating all data variability in the training data. However, it becomes cumbersome, tedious and labour intensive work to generate manual annotations, and additionally modality specific expertise is required. In this work, we aim to alleviate this problem by applying an unsupervised domain adaptation technique (UDA). Here, UDA is trained on white light endoscopy images as source domain and are well-adapted to generalise to produce segmentation on different imaging modalities as target domain, namely narrow band imaging and post acetic-acid WL imaging. Our dataset consists of a total of 871 images consisting of both source and target domains. Our results show that the UDA-based approach outperforms traditional supervised U-Net segmentation by nearly 10% on both Dice similarity coefficient and intersection-over-union.
翻訳日:2021-05-16 04:58:44 公開日:2020-12-09
# (参考訳) 原子分解相コントラスト透過電子顕微鏡像における複雑な特徴の深層学習分割

Deep Learning Segmentation of Complex Features in Atomic-Resolution Phase Contrast Transmission Electron Microscopy Images ( http://arxiv.org/abs/2012.05322v1 )

ライセンス: CC BY 4.0
Robbie Sadre, Colin Ophus, Anstasiia Butko, and Gunther H Weber(参考訳) 位相コントラスト透過電子顕微鏡(TEM)は材料の局所原子構造をイメージングするための強力なツールである。 TEMは、高線量効率のため単層グラフェンのような2次元材料の欠陥構造の研究に広く用いられている。 しかし、位相コントラストイメージングは弱い散乱サンプルであっても複雑な非線形コントラストを生成することができる。 したがって、従来の画像処理ツールを用いて位相コントラストTEM研究のための完全自動解析ルーチンを開発することは困難である。 グラフェンの大規模な試料領域の自動解析には、関心の構造と表面汚染層のような望ましくない構造との間のセグメンテーションが問題となる。 本研究では,従来のブラッグフィルタ法の性能を,U-Netアーキテクチャに基づくディープラーニングルーチンと比較する。 深層学習法は, より汎用的で, より簡単に適用でき, 従来のアルゴリズムよりも精度が高く, 頑健な結果が得られることを示す。 本稿では,全結果に適応可能なソースコードを提供し,完全自動TEM画像解析における深層学習の可能性について論じる。

Phase contrast transmission electron microscopy (TEM) is a powerful tool for imaging the local atomic structure of materials. TEM has been used heavily in studies of defect structures of 2D materials such as monolayer graphene due to its high dose efficiency. However, phase contrast imaging can produce complex nonlinear contrast, even for weakly-scattering samples. It is therefore difficult to develop fully-automated analysis routines for phase contrast TEM studies using conventional image processing tools. For automated analysis of large sample regions of graphene, one of the key problems is segmentation between the structure of interest and unwanted structures such as surface contaminant layers. In this study, we compare the performance of a conventional Bragg filtering method to a deep learning routine based on the U-Net architecture. We show that the deep learning method is more general, simpler to apply in practice, and produces more accurate and robust results than the conventional algorithm. We provide easily-adaptable source code for all results in this paper, and discuss potential applications for deep learning in fully-automated TEM image analysis.
翻訳日:2021-05-16 04:50:09 公開日:2020-12-09
# (参考訳) ランドマークと生成敵ネットワークからの顔形態攻撃の脆弱性解析

Vulnerability Analysis of Face Morphing Attacks from Landmarks and Generative Adversarial Networks ( http://arxiv.org/abs/2012.05344v1 )

ライセンス: CC BY 4.0
Eklavya Sarkar, Pavel Korshunov, Laurent Colbois, S\'ebastien Marcel(参考訳) モーフィング攻撃は生体認証システムにとって脅威であり、生体認証文書内の生体認証参照を変更することができる。 この種の攻撃は、境界セキュリティやアクセス制御といったIDドキュメントに依存するアプリケーションにおいて重要な問題となる。 顔変形攻撃検出の研究は急速に進んでいるが、いくつかの攻撃形態を持つデータセットは公開されていない。 本稿では, opencv, facemorpher, webmorph, and generative adversarial network (stylegan) に基づいて,3つの公開顔データセットから生成した顔画像を基にした,4種類のモーフィング攻撃を行う新たなデータセットを提供することで,このギャップを埋める。 また,facenet,vgg-face,arcfaceなど,最先端の顔認識システムの脆弱性を評価するための広範な実験を行った。 実験により、VGG-FaceはFaceNetに比べて精度が低いが、モルヒネ攻撃に対する脆弱性も低いことが示された。 また,スタイルガンで生成したna\"ive morphsは大きな脅威をもたらさないことを観察した。

Morphing attacks is a threat to biometric systems where the biometric reference in an identity document can be altered. This form of attack presents an important issue in applications relying on identity documents such as border security or access control. Research in face morphing attack detection is developing rapidly, however very few datasets with several forms of attacks are publicly available. This paper bridges this gap by providing a new dataset with four different types of morphing attacks, based on OpenCV, FaceMorpher, WebMorph and a generative adversarial network (StyleGAN), generated with original face images from three public face datasets. We also conduct extensive experiments to assess the vulnerability of the state-of-the-art face recognition systems, notably FaceNet, VGG-Face, and ArcFace. The experiments demonstrate that VGG-Face, while being less accurate face recognition system compared to FaceNet, is also less vulnerable to morphing attacks. Also, we observed that na\"ive morphs generated with a StyleGAN do not pose a significant threat.
翻訳日:2021-05-16 03:20:06 公開日:2020-12-09
# (参考訳) data and its (dis)contents: 機械学習研究におけるデータセットの開発と利用に関する調査

Data and its (dis)contents: A survey of dataset development and use in machine learning research ( http://arxiv.org/abs/2012.05345v1 )

ライセンス: CC BY 4.0
Amandalynne Paullada, Inioluwa Deborah Raji, Emily M. Bender, Emily Denton, Alex Hanna(参考訳) データセットは機械学習研究の発展に基礎的な役割を果たしてきた。 それらは、私たちが設計しデプロイするモデルの基礎となり、ベンチマークと評価のための主要な媒体を形成します。 さらに、これらのデータセットを収集、構築、共有する方法は、フィールドが追求する問題の種類とアルゴリズム開発で探究した手法を知らせる。 しかし、近年の研究は、データセットの収集と利用における主要なプラクティスの限界を明らかにしている。 本稿では,機械学習におけるデータの収集と利用に関する多くの懸念を調査し,この分野の実用的,倫理的な問題に対処するためには,より慎重で徹底的なデータ理解が必要であることを提唱する。

Datasets have played a foundational role in the advancement of machine learning research. They form the basis for the models we design and deploy, as well as our primary medium for benchmarking and evaluation. Furthermore, the ways in which we collect, construct and share these datasets inform the kinds of problems the field pursues and the methods explored in algorithm development. However, recent work from a breadth of perspectives has revealed the limitations of predominant practices in dataset collection and use. In this paper, we survey the many concerns raised about the way we collect and use data in machine learning and advocate that a more cautious and thorough understanding of data is necessary to address several of the practical and ethical issues of the field.
翻訳日:2021-05-16 03:09:08 公開日:2020-12-09
# (参考訳) 多解像核融合を用いた深部畳み込みニューラルネットワークによる薄肉スミア画像からのマラリアの自動診断

Automatic Diagnosis of Malaria from Thin Blood Smear Images using Deep Convolutional Neural Network with Multi-Resolution Feature Fusion ( http://arxiv.org/abs/2012.05350v1 )

ライセンス: CC BY 4.0
Tanvir Mahmud and Shaikh Anowarul Fattah(参考訳) 致命的な病気であるマラリアは、毎年何百万人もの人に感染し、損傷が起こる前に適切な治療の早期診断を求める。 本稿では, 多様な受容領域から抽出した特徴の効率的な最適化を行うことにより, 薄型スミア画像からのマラリアの診断を高速化するエンド・ツー・エンドの深層学習手法を提案する。 第一に、DilationNetと呼ばれる効率的でスケーラブルなディープニューラルネットワークが提案され、異なる受容領域から特徴を抽出するために、畳み込みの拡散率の変化によって大きなスペクトルの特徴を取り入れている。 次に、画像の解像度の異なるディレーションネットの異なる形態を独立に最適化するために使用される受容領域のバリエーションを導入するために、生画像を様々な解像度に再サンプリングする。 その後、異なるレベルの観測に基づいて個別に訓練されたネットワークの特徴空間を最適化するために、提案したDeepFusionNetアーキテクチャで特徴融合方式が導入された。 画像の解像度の異なる空間的特徴を抽出するために最適化された各種DilationNetの畳み込み層を直接転送し、任意の画像から可変特徴空間を提供する。 その後、DeepFusionNetでこれらの空間的特徴の合同最適化を行い、サンプル画像の最も関連性の高い表現を抽出する。 このスキームは、観察レベルを変化させて特徴空間を広範囲に探索し、異常を正確に診断する機会を提供する。 公開データセットでの激しい実験は、他の最先端のアプローチよりも99.5%以上の精度で優れたパフォーマンスを示している。

Malaria, a life-threatening disease, infects millions of people every year throughout the world demanding faster diagnosis for proper treatment before any damages occur. In this paper, an end-to-end deep learning-based approach is proposed for faster diagnosis of malaria from thin blood smear images by making efficient optimizations of features extracted from diversified receptive fields. Firstly, an efficient, highly scalable deep neural network, named as DilationNet, is proposed that incorporates features from a large spectrum by varying dilation rates of convolutions to extract features from different receptive areas. Next, the raw images are resampled to various resolutions to introduce variations in the receptive fields that are used for independently optimizing different forms of DilationNet scaled for different resolutions of images. Afterward, a feature fusion scheme is introduced with the proposed DeepFusionNet architecture for jointly optimizing the feature space of these individually trained networks operating on different levels of observations. All the convolutional layers of various forms of DilationNets that are optimized to extract spatial features from different resolutions of images are directly transferred to provide a variegated feature space from any image. Later, joint optimization of these spatial features is carried out in the DeepFusionNet to extract the most relevant representation of the sample image. This scheme offers the opportunity to explore the feature space extensively by varying the observation level to accurately diagnose the abnormality. Intense experimentations on a publicly available dataset show outstanding performance with accuracy over 99.5% outperforming other state-of-the-art approaches.
翻訳日:2021-05-16 02:45:54 公開日:2020-12-09
# 視覚・言語ナビゲーションのためのトランスフォーマーによるトポロジカルプランニング

Topological Planning with Transformers for Vision-and-Language Navigation ( http://arxiv.org/abs/2012.05292v1 )

ライセンス: Link先を確認
Kevin Chen, Junshen K. Chen, Jo Chuang, Marynel V\'azquez, Silvio Savarese(参考訳) ビジョン・アンド・ランゲージナビゲーション(VLN)への従来のアプローチはエンドツーエンドで訓練されているが、自由に移動可能な環境ではうまく機能しない。 ロボットコミュニティに触発されて,vln のトポロジカルマップを用いたモジュラーアプローチを提案する。 自然言語指導とトポロジカルマップが与えられた場合,マップ内のナビゲーション計画を予測するために注意機構を利用する。 プランは低レベルのアクション(例)で実行される。 前方、回転) 頑丈なコントローラーを使って。 実験により,本手法は従来のエンドツーエンド手法よりも優れ,解釈可能なナビゲーション計画を生成し,バックトラッキングなどのインテリジェントな動作を示す。

Conventional approaches to vision-and-language navigation (VLN) are trained end-to-end but struggle to perform well in freely traversable environments. Inspired by the robotics community, we propose a modular approach to VLN using topological maps. Given a natural language instruction and topological map, our approach leverages attention mechanisms to predict a navigation plan in the map. The plan is then executed with low-level actions (e.g. forward, rotate) using a robust controller. Experiments show that our method outperforms previous end-to-end approaches, generates interpretable navigation plans, and exhibits intelligent behaviors such as backtracking.
翻訳日:2021-05-16 02:17:55 公開日:2020-12-09
# マルチレベル融合による運転行動説明

Driving Behavior Explanation with Multi-level Fusion ( http://arxiv.org/abs/2012.04983v1 )

ライセンス: Link先を確認
H\'edi Ben-Younes and \'Eloi Zablocki and Patrick P\'erez and Matthieu Cord(参考訳) 自動運転車の活発な開発の時代において、運転システムに彼らの決定を説明する能力を与えることが重要となる。 本研究は、車両の走行時に高レベル運転説明を生成することに焦点を当てる。 本稿では,軌道予測モデルの振る舞いを説明する深いアーキテクチャであるBehavior Explanation with Fusionについて,BEEFを提案する。 BEEFは、人間の運転判断の正当化のアノテーションによって監督され、複数のレベルから機能を融合することを学ぶ。 近年の多モード融合文献の進歩を活用して、BEEFは高レベル決定特徴と中レベル知覚特徴との相関を慎重にモデル化するように設計されている。 このアプローチの柔軟性と効率性は、HDDおよびBDD-Xデータセットに関する広範な実験によって検証される。

In this era of active development of autonomous vehicles, it becomes crucial to provide driving systems with the capacity to explain their decisions. In this work, we focus on generating high-level driving explanations as the vehicle drives. We present BEEF, for BEhavior Explanation with Fusion, a deep architecture which explains the behavior of a trajectory prediction model. Supervised by annotations of human driving decisions justifications, BEEF learns to fuse features from multiple levels. Leveraging recent advances in the multi-modal fusion literature, BEEF is carefully designed to model the correlations between high-level decisions features and mid-level perceptual features. The flexibility and efficiency of our approach are validated with extensive experiments on the HDD and BDD-X datasets.
翻訳日:2021-05-16 02:17:12 公開日:2020-12-09
# テキスト分類モデル強化のためのラベル混乱学習

Label Confusion Learning to Enhance Text Classification Models ( http://arxiv.org/abs/2012.04987v1 )

ライセンス: Link先を確認
Biyang Guo, Songqiao Han, Xiao Han, Hailiang Huang, Ting Lu(参考訳) 真のラベルを1ホットベクトルとして表現することは、テキスト分類モデルのトレーニングにおいて一般的なプラクティスである。 しかし、一方のホット表現は、ラベルが完全に独立したものではなく、実際に複数のラベルに関連づけられるため、インスタンスとラベルの関係を適切に反映していない可能性がある。 特に混乱したデータセット(非常に類似したラベル付きデータセット)やノイズの多いデータセット(ラベル付きエラー付きデータセット)では、モデルに任意の予測とモデルオーバーフィットをもたらす可能性がある。 ラベル平滑化(ls)を用いたトレーニングモデルはこの問題をある程度緩和するが、ラベル間の現実的な関係を捉えられていない。 本稿では,現在普及しているテキスト分類モデルの強化要素として,新しいラベル融合モデル(LCM)を提案する。 LCMはラベルの混乱を学習し、トレーニング中にインスタンスとラベルの類似性を計算し、元の1ホットラベルベクトルを置き換えるためのより良いラベル分布を生成することにより、ラベル間のセマンティックオーバーラップを捉えることができる。 5つのテキスト分類ベンチマークデータセットの大規模な実験は、広く使われているディープラーニング分類モデルに対するLCMの有効性を明らかにする。 さらなる実験により、lcmは特に混乱または騒がしいデータセットに役立ち、ラベル平滑化法よりも優れていることが確かめられた。

Representing a true label as a one-hot vector is a common practice in training text classification models. However, the one-hot representation may not adequately reflect the relation between the instances and labels, as labels are often not completely independent and instances may relate to multiple labels in practice. The inadequate one-hot representations tend to train the model to be over-confident, which may result in arbitrary prediction and model overfitting, especially for confused datasets (datasets with very similar labels) or noisy datasets (datasets with labeling errors). While training models with label smoothing (LS) can ease this problem in some degree, it still fails to capture the realistic relation among labels. In this paper, we propose a novel Label Confusion Model (LCM) as an enhancement component to current popular text classification models. LCM can learn label confusion to capture semantic overlap among labels by calculating the similarity between instances and labels during training and generate a better label distribution to replace the original one-hot label vector, thus improving the final classification performance. Extensive experiments on five text classification benchmark datasets reveal the effectiveness of LCM for several widely used deep learning classification models. Further experiments also verify that LCM is especially helpful for confused or noisy datasets and superior to the label smoothing method.
翻訳日:2021-05-16 02:16:40 公開日:2020-12-09
# トラヒックビデオデータに基づくランプ計測のための深層強化学習手法

A Deep Reinforcement Learning Approach for Ramp Metering Based on Traffic Video Data ( http://arxiv.org/abs/2012.12104v1 )

ライセンス: Link先を確認
Bing Liu (1), Yu Tang (2), Yuxiong Ji (1), Yu Shen (1), and Yuchuan Du (1) ((1) Key Laboratory of Road and Traffic Engineering of the Ministry of Education, Tongji University, Shanghai, China, (2) Tandon School of Engineering, New York University, New York, USA)(参考訳) オンランプからの車両の流れを規制するために交通信号を使用するランプメータリングは、高速道路の車両移動性を改善するために広く実装されている。 従来の研究では、交通量や占有率などのポイント検出器によって収集された事前定義された交通手段に基づいて、信号タイミングをリアルタイムで更新する。 ポイント検出器と比較して、道路網にますます配備されている交通カメラは、より大きなエリアをカバーし、より詳細な交通情報を提供する。 本研究では,ランプメータリングの効率を向上させるために,トラヒックビデオデータの可能性を探究する深層強化学習(drl)手法を提案する。 提案手法は,交通映像フレームを入力とし,高次元視覚入力から直接最適な制御戦略を学習する。 実世界のケーススタディでは,提案手法と比較すると,1) メインラインでの走行時間の短縮,2) オンランプでの車列の短縮,3) マージ領域の下流での交通流の増大といった結果が得られた。 提案手法は,映像データから有用な情報を抽出し,ランプメータ制御を改善することができることを示唆する。

Ramp metering that uses traffic signals to regulate vehicle flows from the on-ramps has been widely implemented to improve vehicle mobility of the freeway. Previous studies generally update signal timings in real-time based on predefined traffic measures collected by point detectors, such as traffic volumes and occupancies. Comparing with point detectors, traffic cameras-which have been increasingly deployed on road networks-could cover larger areas and provide more detailed traffic information. In this work, we propose a deep reinforcement learning (DRL) method to explore the potential of traffic video data in improving the efficiency of ramp metering. The proposed method uses traffic video frames as inputs and learns the optimal control strategies directly from the high-dimensional visual inputs. A real-world case study demonstrates that, in comparison with a state-of-the-practice method, the proposed DRL method results in 1) lower travel times in the mainline, 2) shorter vehicle queues at the on-ramp, and 3) higher traffic flows downstream of the merging area. The results suggest that the proposed method is able to extract useful information from the video data for better ramp metering controls.
翻訳日:2021-05-16 02:15:40 公開日:2020-12-09
# NSL: ノイズの多い生データによるハイブリッド解釈型学習

NSL: Hybrid Interpretable Learning From Noisy Raw Data ( http://arxiv.org/abs/2012.05023v1 )

ライセンス: Link先を確認
Daniel Cunnington, Alessandra Russo, Mark Law, Jorge Lobo, Lance Kaplan(参考訳) インダクティブ論理プログラミング(ILP)システムは、既存のバックグラウンド知識を利用したデータ効率のよいルールを一般化し、解釈する。 しかし、現在のilpシステムは、構造化論理形式で指定するトレーニングサンプルを必要とする。 ニューラルネットワークは非構造化データから学習するが、学習したモデルは解釈が難しく、実行時のデータ摂動に弱い可能性がある。 本稿では,ラベル付き非構造化データから解釈可能なルールを学習するNSLという,ハイブリッドなニューラルシンボリック学習フレームワークを提案する。 NSLは、機能抽出のためのトレーニング済みニューラルネットワークと、解集合セマンティクスに基づくルール学習のための最先端のILPシステムであるFastLASを組み合わせる。 ニューラルコンポーネントによって抽出された特徴はラベル付きサンプルの構造的コンテキストを定義し、ニューラル予測の信頼性はサンプルのノイズレベルを決定する。 FastLASのスコアリング関数を用いて、NSLはそのようなノイズのある例を一般化する短い解釈可能な規則を探索する。 MNISTデータセットを生データとして,命題・一階分類タスクの枠組みを評価する。 具体的には、ニューラルネットワークやランダム森林ベースラインと比較して、より汎用的で解釈可能でありながら、NSLが摂動MNISTデータから堅牢なルールを学習し、同等または優れた精度を達成できることを実証する。

Inductive Logic Programming (ILP) systems learn generalised, interpretable rules in a data-efficient manner utilising existing background knowledge. However, current ILP systems require training examples to be specified in a structured logical format. Neural networks learn from unstructured data, although their learned models may be difficult to interpret and are vulnerable to data perturbations at run-time. This paper introduces a hybrid neural-symbolic learning framework, called NSL, that learns interpretable rules from labelled unstructured data. NSL combines pre-trained neural networks for feature extraction with FastLAS, a state-of-the-art ILP system for rule learning under the answer set semantics. Features extracted by the neural components define the structured context of labelled examples and the confidence of the neural predictions determines the level of noise of the examples. Using the scoring function of FastLAS, NSL searches for short, interpretable rules that generalise over such noisy examples. We evaluate our framework on propositional and first-order classification tasks using the MNIST dataset as raw data. Specifically, we demonstrate that NSL is able to learn robust rules from perturbed MNIST data and achieve comparable or superior accuracy when compared to neural network and random forest baselines whilst being more general and interpretable.
翻訳日:2021-05-16 02:14:45 公開日:2020-12-09
# 一段階計算によるKNN分類

KNN Classification with One-step Computation ( http://arxiv.org/abs/2012.06047v1 )

ライセンス: Link先を確認
Shichao Zhang and Jiaye Li(参考訳) KNN分類は、KNN分類の遅延部分を参照して、適切なK値を設定し、K近傍の隣人をトレーニングサンプル空間全体から検索するテストデータが予測された場合にのみ実行される、即興学習モードのクエリトリガである。 この遅延部分は、KNN分類を適用する際のボトルネック問題である。 本稿では,KNN分類の遅延部分を置き換える一段階計算を提案する。 1ステップの計算は、実際に遅延部分を以下の行列計算に変換する。 テストデータが与えられると、まずトレーニングサンプルを適用して、テストデータを最小二乗損失関数に適合させる。 そして、試験データへの影響に応じてすべてのトレーニングサンプルを重み付けして関係マトリックスを生成する。 最後に、関係行列のスパース学習を行うためにグループラッソを用いる。 このようにして、K値の設定とK近傍の探索はどちらも統一計算に統合される。 さらに,一段階のKNN分類の性能向上のために,新たな分類規則を提案する。 提案手法を実験的に評価し,一段階のKNN分類が効率的かつ有望であることを示した。

KNN classification is a query triggered yet improvisational learning mode, in which they are carried out only when a test data is predicted that set a suitable K value and search the K nearest neighbors from the whole training sample space, referred them to the lazy part of KNN classification. This lazy part has been the bottleneck problem of applying KNN classification. In this paper, a one-step computation is proposed to replace the lazy part of KNN classification. The one-step computation actually transforms the lazy part to a matrix computation as follows. Given a test data, training samples are first applied to fit the test data with the least squares loss function. And then, a relationship matrix is generated by weighting all training samples according to their influence on the test data. Finally, a group lasso is employed to perform sparse learning of the relationship matrix. In this way, setting K value and searching K nearest neighbors are both integrated to a unified computation. In addition, a new classification rule is proposed for improving the performance of one-step KNN classification. The proposed approach is experimentally evaluated, and demonstrated that the one-step KNN classification is efficient and promising.
翻訳日:2021-05-16 02:14:23 公開日:2020-12-09
# 長期水力発電スケジューリングのための深層強化学習

Deep Reinforcement Learning for Long Term Hydropower Production Scheduling ( http://arxiv.org/abs/2012.06312v1 )

ライセンス: Link先を確認
Signe Riemer-Sorensen, Gjert H. Rosenlund(参考訳) 我々は,水力発電の長期スケジューリングのための戦略を提供するため,深層強化学習の利用について検討する。 貯水池への毎週の流入と電力価格に対する年間収入を最適化することを目的としたユースケースを検討する。 課題は、電気のスポット価格での即時放水と、システムに制約があるため、後の発電のために水を未知の価格で保存することを決定することである。 我々は,北欧電力市場の歴史的データを用いて,簡易なシナリオでソフトアクター批判アルゴリズムのトレーニングに成功した。 提案モデルは,従来の最適化ツールを代替する準備ができていないが,データ豊富な水力スケジューリング分野における強化学習の補完的可能性を示す。

We explore the use of deep reinforcement learning to provide strategies for long term scheduling of hydropower production. We consider a use-case where the aim is to optimise the yearly revenue given week-by-week inflows to the reservoir and electricity prices. The challenge is to decide between immediate water release at the spot price of electricity and storing the water for later power production at an unknown price, given constraints on the system. We successfully train a soft actor-critic algorithm on a simplified scenario with historical data from the Nordic power market. The presented model is not ready to substitute traditional optimisation tools but demonstrates the complementary potential of reinforcement learning in the data-rich field of hydropower scheduling.
翻訳日:2021-05-16 02:14:07 公開日:2020-12-09
# リモートセンシング画像におけるカーネル異常変化検出

Kernel Anomalous Change Detection for Remote Sensing Imagery ( http://arxiv.org/abs/2012.04920v1 )

ライセンス: Link先を確認
Jos\'e A. Padr\'on-Hidalgo and Valero Laparra and Nathan Longbotham and Gustau Camps-Valls(参考訳) 異常変化検出(ACD)はリモートセンシング画像処理において重要な問題である。 広汎性だけでなく、異常あるいは極端な変化の検出には、方法論が利用可能である多くの応用がある。 本稿では,異常変動検出器の完全ファミリーの非線形拡張を紹介する。 特に、ガウス分布と楕円型(ec)分布を利用したアルゴリズムに着目し、それらをカーネルのヒルベルト空間を再現する理論に基づいて非線形対応に拡張する。 本稿では,AVIRIS,Sentinel-2,WorldView-2,Quickbirdなどの多スペクトル・ハイパースペクトル画像における実・模擬変化を伴う広帯域およびACDの両問題で導入されたカーネル手法の性能について述べる。 干ばつ、山火事、都市化など、様々な状況が実例で研究されている。 線形定式化と比較して検出精度の面で優れた性能を達成し,検出精度の向上と偽アラーム率の低減を実現した。 結果は、EC仮定がヒルベルト空間でまだ有効であることを示している。 このアルゴリズムの実装と,実際のシナリオにおける自然な異常な変更のデータベースを提供する。

Anomalous change detection (ACD) is an important problem in remote sensing image processing. Detecting not only pervasive but also anomalous or extreme changes has many applications for which methodologies are available. This paper introduces a nonlinear extension of a full family of anomalous change detectors. In particular, we focus on algorithms that utilize Gaussian and elliptically contoured (EC) distribution and extend them to their nonlinear counterparts based on the theory of reproducing kernels' Hilbert space. We illustrate the performance of the kernel methods introduced in both pervasive and ACD problems with real and simulated changes in multispectral and hyperspectral imagery with different resolutions (AVIRIS, Sentinel-2, WorldView-2, and Quickbird). A wide range of situations is studied in real examples, including droughts, wildfires, and urbanization. Excellent performance in terms of detection accuracy compared to linear formulations is achieved, resulting in improved detection accuracy and reduced false-alarm rates. Results also reveal that the EC assumption may be still valid in Hilbert spaces. We provide an implementation of the algorithms as well as a database of natural anomalous changes in real scenarios http://isp.uv.es/kacd.html.
翻訳日:2021-05-16 02:13:55 公開日:2020-12-09
# 繰り返しアーキテクチャのスケーラブルなニューラルタンジェントカーネル

Scalable Neural Tangent Kernel of Recurrent Architectures ( http://arxiv.org/abs/2012.04859v1 )

ライセンス: Link先を確認
Sina Alemohammad, Randall Balestriero, Zichao Wang, Richard Baraniuk(参考訳) 無限幅のディープニューラルネットワーク(DNN)から派生したカーネルは、機械学習タスクの範囲におけるハイパフォーマンスだけでなく、DNNトレーニングダイナミクスと一般化に関する新たな理論的洞察を提供する。 本稿では、従来の単純なRNNのみに派生したリカレントニューラルネットワーク(RNN)に関連するカーネルのファミリーを、平均プーリングを備えた双方向のRNNおよびRNNであるより複雑なアーキテクチャに拡張する。 また、その完全な実用可能性を活用するために、高速GPU実装も開発しています。 通常、RNNは時系列データにのみ適用されるが、RNNベースのカーネルを用いた分類器は、UCIデータレポジトリから90の非時系列データセットのベースラインメソッドよりも優れていることを示す。

Kernels derived from deep neural networks (DNNs) in the infinite-width provide not only high performance in a range of machine learning tasks but also new theoretical insights into DNN training dynamics and generalization. In this paper, we extend the family of kernels associated with recurrent neural networks (RNNs), which were previously derived only for simple RNNs, to more complex architectures that are bidirectional RNNs and RNNs with average pooling. We also develop a fast GPU implementation to exploit its full practical potential. While RNNs are typically only applied to time-series data, we demonstrate that classifiers using RNN-based kernels outperform a range of baseline methods on 90 non-time-series datasets from the UCI data repository.
翻訳日:2021-05-16 02:13:41 公開日:2020-12-09
# ガウス過程モデルにおける不確かさと誤差の解消

Disentangling Derivatives, Uncertainty and Error in Gaussian Process Models ( http://arxiv.org/abs/2012.04947v1 )

ライセンス: Link先を確認
Juan Emmanuel Johnson and Valero Laparra and Gustau Camps-Valls(参考訳) ガウス過程(英: Gaussian Processes, GP)は、地球科学の応用において非常に有用なカーネル手法のクラスである。 それらは単純で柔軟であり、特にパラメータ検索において非線形問題に対して非常に正確な推定を提供するため、広く利用されている。 予測平均関数に加えて、GPには、予測に対する信頼区間を提供する予測分散関数という有用な性質が備わっている。 GPの定式化は、通常、トレーニングやテストポイントに入力ノイズが存在しないと仮定する。 しかし、機器エラーの正確な評価が通常可能である地球観測問題ではそうではないことが多い。 本稿では, 温度予測問題において, GPモデルの導関数を用いて, 解析的誤差伝搬の定式化を行い, 予測誤差と伝播誤差項を赤外音響データから解析する方法について述べる。

Gaussian Processes (GPs) are a class of kernel methods that have shown to be very useful in geoscience applications. They are widely used because they are simple, flexible and provide very accurate estimates for nonlinear problems, especially in parameter retrieval. An addition to a predictive mean function, GPs come equipped with a useful property: the predictive variance function which provides confidence intervals for the predictions. The GP formulation usually assumes that there is no input noise in the training and testing points, only in the observations. However, this is often not the case in Earth observation problems where an accurate assessment of the instrument error is usually available. In this paper, we showcase how the derivative of a GP model can be used to provide an analytical error propagation formulation and we analyze the predictive variance and the propagated error terms in a temperature prediction problem from infrared sounding data.
翻訳日:2021-05-16 02:13:29 公開日:2020-12-09
# 断面人口データによる確率力学系の推定

Inference of Stochastic Dynamical Systems from Cross-Sectional Population Data ( http://arxiv.org/abs/2012.05055v1 )

ライセンス: Link先を確認
Anastasios Tsourtis, Yannis Pantazis, Ioannis Tsamardinos(参考訳) 生物化学、疫学、金融数学、その他多くの科学分野において、個体群や時間経過データから力学系の駆動方程式を推測することは重要である。 軌道計測から力学を学習するアルゴリズムが存在するにもかかわらず、人口データから直接力学系を推測する試みはほとんどない。 本研究では,確率密度の変化を記述するフォッカー・プランク方程式を確率微分方程式に基づいて推定し,計算的に推定する。 そして、USDLアプローチに従って、Fokker-Planck方程式を適切なテスト関数の集合に投影し、方程式の線形系に変換する。 最後に,後者の系の解法にスパース推論法を適用し,力学系の駆動力を誘導する。 本手法は, 非線形, マルチモーダル確率微分方程式, 生化学的反応ネットワーク, 質量サイトメトリー生物学的測定など, 合成データと実データの両方で示される。

Inferring the driving equations of a dynamical system from population or time-course data is important in several scientific fields such as biochemistry, epidemiology, financial mathematics and many others. Despite the existence of algorithms that learn the dynamics from trajectorial measurements there are few attempts to infer the dynamical system straight from population data. In this work, we deduce and then computationally estimate the Fokker-Planck equation which describes the evolution of the population's probability density, based on stochastic differential equations. Then, following the USDL approach, we project the Fokker-Planck equation to a proper set of test functions, transforming it into a linear system of equations. Finally, we apply sparse inference methods to solve the latter system and thus induce the driving forces of the dynamical system. Our approach is illustrated in both synthetic and real data including non-linear, multimodal stochastic differential equations, biochemical reaction networks as well as mass cytometry biological measurements.
翻訳日:2021-05-16 02:13:13 公開日:2020-12-09
# ラベル雑音による学習のためのトポロジカルフィルタ

A Topological Filter for Learning with Label Noise ( http://arxiv.org/abs/2012.04835v1 )

ライセンス: Link先を確認
Pengxiang Wu, Songzhu Zheng, Mayank Goswami, Dimitris Metaxas, Chao Chen(参考訳) ノイズラベルはディープニューラルネットワークの性能を損なう可能性がある。 そこで本研究では,ラベルノイズをフィルタリングする新しい手法を提案する。 ノイズのある分類器の後方確率に依存する既存の手法とは異なり、潜在表現空間におけるデータのよりリッチな空間的挙動に焦点をあてる。 データの高次トポロジ情報を活用することで,クリーンなデータの大部分を収集し,高品質なモデルをトレーニングすることが可能になります。 理論的には、このトポロジカルアプローチは、高い確率でクリーンなデータを集めることが保証されている。 実験結果から,本手法は最先端技術より優れ,騒音の種類やレベルが広い範囲で高いことを示す。

Noisy labels can impair the performance of deep neural networks. To tackle this problem, in this paper, we propose a new method for filtering label noise. Unlike most existing methods relying on the posterior probability of a noisy classifier, we focus on the much richer spatial behavior of data in the latent representational space. By leveraging the high-order topological information of data, we are able to collect most of the clean data and train a high-quality model. Theoretically we prove that this topological approach is guaranteed to collect the clean data with high probability. Empirical results show that our method outperforms the state-of-the-arts and is robust to a broad spectrum of noise types and levels.
翻訳日:2021-05-16 02:12:39 公開日:2020-12-09
# 極性ganを用いたクラス不均衡の除去 : 不確実性サンプリングアプローチ

Removing Class Imbalance using Polarity-GAN: An Uncertainty Sampling Approach ( http://arxiv.org/abs/2012.04937v1 )

ライセンス: Link先を確認
Kumari Deepshikha and Anugunj Naman(参考訳) クラス不均衡は、従来のモデルと同様にディープラーニングモデルの実用的な分類問題において難しい問題である。 合成オーバーサンプリングのような伝統的に成功した対策は、深層学習モデルによって処理される複雑な構造化データに対して限定的に成功した。 本稿では,ジェネレータネットワークg,判別器ネットワークd,分類器ネットワークcを備えた生成型逆ネットワーク(gan)を用いて,視覚データセットのクラス不均衡を取り除くことを提案する。 ジェネレータネットワークはオートエンコーダで初期化して安定させる。 判別器Dは、G が不均衡クラスのクラス分布に従属することを保証する。 従来,min-maxゲームにおいてg生成器が判別器dと競合する手法では,元のネットワークにさらに分類器ネットワークを追加することを提案する。 現在、ジェネレータネットワークは、私たちが導入した新しい分類器と同様に、識別器とmin-maxゲームで競おうとしています。 生成ネットワークGに追加条件を適用して、所望の不均衡クラスの凸内包に点を生成する。 さらに、逆ゲームと分類器Cとの競合は、Gによって学習された条件分布を各クラスの周辺へ押し付け、クラス不均衡の問題を補償する。 実験的証拠は、この初期化がネットワークの安定したトレーニングをもたらすことを示している。 FashionMNIST, MNIST, SVHN, ExDark, MVTec 異常検出データセット, Chest X-Ray データセットなどにおいて, 極端視覚的分類タスクにおけるアートパフォーマンスの実態を報告する。

Class imbalance is a challenging issue in practical classification problems for deep learning models as well as for traditional models. Traditionally successful countermeasures such as synthetic over-sampling have had limited success with complex, structured data handled by deep learning models. In this work, we propose to use a Generative Adversarial Network (GAN) equipped with a generator network G, a discriminator network D and a classifier network C to remove the class-imbalance in visual data sets. The generator network is initialized with auto-encoder to make it stable. The discriminator D ensures that G adheres to class distribution of imbalanced class. In conventional methods, where Generator G competes with discriminator D in a min-max game, we propose to further add an additional classifier network to the original network. Now, the generator network tries to compete in a min-max game with Discriminator as well as the new classifier that we have introduced. An additional condition is enforced on generator network G to produce points in the convex hull of desired imbalanced class. Further the contention of adversarial game with classifier C, pushes conditional distribution learned by G towards the periphery of the respective class, compensating the problem of class imbalance. Experimental evidence shows that this initialization results in stable training of the network. We achieve state of the art performance on extreme visual classification task on the FashionMNIST, MNIST, SVHN, ExDark, MVTec Anomaly Detection dataset, Chest X-Ray dataset and others.
翻訳日:2021-05-16 02:12:27 公開日:2020-12-09
# 潜在空間中毒による配電敵攻撃の発生

Generating Out of Distribution Adversarial Attack using Latent Space Poisoning ( http://arxiv.org/abs/2012.05027v1 )

ライセンス: Link先を確認
Ujjwal Upadhyay and Prerana Mukherjee(参考訳) 従来の敵攻撃は、ネットワークの勾配によって生じる摂動に依存しており、一般的には勾配誘導探索によって保護される。 本稿では,実際の画像が破損せず,その潜在空間表現が,知覚的品質を損なうことなく画像の固有構造を改ざんし,正当なデータサンプルとして機能する,敵対的例を生成する新しいメカニズムを提案する。 勾配に基づく攻撃とは対照的に、潜伏空間中毒は分類器の傾きを利用して訓練データセットの独立かつ同一の分布をモデル化し、分布サンプルから生成することでそれを騙す。 乱れた変分オートエンコーダ (beta-vae) を訓練して潜在空間におけるデータをモデル化し, 対象ラベルに誤分類されるという制約の下で, クラス条件分布関数を用いた雑音摂動を潜在空間に付加する。 mnist,svhn,celebaデータセットを用いた実験結果から,ロバストなl_0,l_2,l_infノルム分類器がロバストな防御機構を用いて設計されていることを検証した。

Traditional adversarial attacks rely upon the perturbations generated by gradients from the network which are generally safeguarded by gradient guided search to provide an adversarial counterpart to the network. In this paper, we propose a novel mechanism of generating adversarial examples where the actual image is not corrupted rather its latent space representation is utilized to tamper with the inherent structure of the image while maintaining the perceptual quality intact and to act as legitimate data samples. As opposed to gradient-based attacks, the latent space poisoning exploits the inclination of classifiers to model the independent and identical distribution of the training dataset and tricks it by producing out of distribution samples. We train a disentangled variational autoencoder (beta-VAE) to model the data in latent space and then we add noise perturbations using a class-conditioned distribution function to the latent space under the constraint that it is misclassified to the target label. Our empirical results on MNIST, SVHN, and CelebA dataset validate that the generated adversarial examples can easily fool robust l_0, l_2, l_inf norm classifiers designed using provably robust defense mechanisms.
翻訳日:2021-05-16 02:12:04 公開日:2020-12-09
# MetaInfoNet: サンプル再重み付けのためのタスクガイド情報学習

MetaInfoNet: Learning Task-Guided Information for Sample Reweighting ( http://arxiv.org/abs/2012.05273v1 )

ライセンス: Link先を確認
Hongxin Wei, Lei Feng, Rundong Wang, Bo An(参考訳) ディープニューラルネットワークは、ラベルノイズやクラス不均衡を伴うバイアス付きトレーニングデータに容易に適合することが示されている。 メタ学習アルゴリズムは、サンプル重み付けの形でこの問題を緩和するために、トレーニング損失を入力として受け取り、サンプル重み付けを生成するメタ重み付けネットワークを学習することによって、一般的に設計されている。 本稿では,メタ重み付けネットワークの適切な入力を選択することが,特定のタスクにおいて望ましいサンプル重み付けに不可欠である一方で,トレーニング損失が必ずしも正しい答えではないことを主張する。 そこで本研究では,タスク関連情報を情報ボトルネック戦略で強調することにより,メタ重み付けネットワークの入力として効果的な表現を自動的に学習するメタ情報ネットを提案する。 ラベルノイズやクラス不均衡を伴うベンチマークデータセットの広範な実験の結果は、metainfonetが多くの最先端メソッドよりも優れていることを検証している。

Deep neural networks have been shown to easily overfit to biased training data with label noise or class imbalance. Meta-learning algorithms are commonly designed to alleviate this issue in the form of sample reweighting, by learning a meta weighting network that takes training losses as inputs to generate sample weights. In this paper, we advocate that choosing proper inputs for the meta weighting network is crucial for desired sample weights in a specific task, while training loss is not always the correct answer. In view of this, we propose a novel meta-learning algorithm, MetaInfoNet, which automatically learns effective representations as inputs for the meta weighting network by emphasizing task-related information with an information bottleneck strategy. Extensive experimental results on benchmark datasets with label noise or class imbalance validate that MetaInfoNet is superior to many state-of-the-art methods.
翻訳日:2021-05-16 02:11:45 公開日:2020-12-09
# 多スペクトル画像雲マスキングのための畳み込みニューラルネットワーク

Convolutional Neural Networks for Multispectral Image Cloud Masking ( http://arxiv.org/abs/2012.05325v1 )

ライセンス: Link先を確認
Gonzalo Mateo-Garc\'ia, Luis G\'omez-Chova, Gustau Camps-Valls(参考訳) 畳み込みニューラルネットワーク(CNN)は多くの画像分類タスクの最先端技術であることが証明されており、その利用はリモートセンシング問題において急速に増加している。 彼らの大きな強みの1つは、十分なデータが利用できる場合、CNNはカスタムフィーチャ抽出メソッドを必要とせずにエンドツーエンドの学習を実行することである。 本研究では,Proba-Vマルチスペクトル画像のクラウドマスキングにおける異なるCNNアーキテクチャの利用について検討する。 このような手法を,特徴抽出と教師付き分類に基づくより古典的な機械学習手法と比較する。 実験結果は、CNNがクラウドマスキング問題を解決するための有望な代替手段であることを示唆している。

Convolutional neural networks (CNN) have proven to be state of the art methods for many image classification tasks and their use is rapidly increasing in remote sensing problems. One of their major strengths is that, when enough data is available, CNN perform an end-to-end learning without the need of custom feature extraction methods. In this work, we study the use of different CNN architectures for cloud masking of Proba-V multispectral images. We compare such methods with the more classical machine learning approach based on feature extraction plus supervised classification. Experimental results suggest that CNN are a promising alternative for solving cloud masking problems.
翻訳日:2021-05-16 02:11:29 公開日:2020-12-09
# 模倣学習を用いたビデオ符号化のためのニューラルレート制御

Neural Rate Control for Video Encoding using Imitation Learning ( http://arxiv.org/abs/2012.05339v1 )

ライセンス: Link先を確認
Hongzi Mao, Chenjie Gu, Miaosen Wang, Angie Chen, Nevena Lazic, Nir Levine, Derek Pang, Rene Claus, Marisabel Hechtman, Ching-Han Chiang, Cheng Chen, Jingning Han(参考訳) 現代のビデオエンコーダでは、レート制御は重要なコンポーネントであり、非常に設計されている。 各フレームのエンコードに費やすビット数を決定し、全てのビデオフレームに対するレートゆがみのトレードオフを最適化する。 これは、異なるビデオフレームの決定とエピソードの最後に定義されたビットレートの制約の間の複雑な依存関係のため、困難な制約付き計画問題である。 我々は、このレート制御問題を部分観測可能なマルコフ決定プロセス(POMDP)として定式化し、模倣学習を適用してニューラルレート制御ポリシーを学習する。 進化戦略によって得られた最適なビデオ符号化軌跡から学習することにより,我々は学習したポリシーにより符号化効率が向上し,制約違反を最小限に抑えることを実証する。 最適行動の模倣に加えて, 追加の補助的損失, データの増大・縮小, 推論時の政策改善が, 良好な利率制御政策の学習に不可欠であることが判明した。 広範に採用されているオープンソースのVP9コーデックライブラリlibvpxの2パス可変ビットレート(VBR)モードにおいて、レート制御ポリシーに対する学習ポリシーを評価する。 実世界のビデオの多様なセットにおいて、学習方針はビデオ品質を犠牲にすることなく8.5%の中央値ビットレート削減を実現している。

In modern video encoders, rate control is a critical component and has been heavily engineered. It decides how many bits to spend to encode each frame, in order to optimize the rate-distortion trade-off over all video frames. This is a challenging constrained planning problem because of the complex dependency among decisions for different video frames and the bitrate constraint defined at the end of the episode. We formulate the rate control problem as a Partially Observable Markov Decision Process (POMDP), and apply imitation learning to learn a neural rate control policy. We demonstrate that by learning from optimal video encoding trajectories obtained through evolution strategies, our learned policy achieves better encoding efficiency and has minimal constraint violation. In addition to imitating the optimal actions, we find that additional auxiliary losses, data augmentation/refinement and inference-time policy improvements are critical for learning a good rate control policy. We evaluate the learned policy against the rate control policy in libvpx, a widely adopted open source VP9 codec library, in the two-pass variable bitrate (VBR) mode. We show that over a diverse set of real-world videos, our learned policy achieves 8.5% median bitrate reduction without sacrificing video quality.
翻訳日:2021-05-16 02:11:20 公開日:2020-12-09
# 意味セグメンテーションにおける外分布検出のためのエントロピー最大化とメタ分類

Entropy Maximization and Meta Classification for Out-Of-Distribution Detection in Semantic Segmentation ( http://arxiv.org/abs/2012.06575v1 )

ライセンス: Link先を確認
Robin Chan, Matthias Rottmann, Hanno Gottschalk(参考訳) イメージの意味セグメンテーションのためのディープニューラルネットワーク(dnn)は通常、事前に定義されたオブジェクトクラスのクローズドセットを操作するように訓練される。 これは、DNNがデプロイされる「オープンワールド」設定とは対照的である。 機能的安全性の観点からは、DNNのセマンティック空間外のオブジェクトであるいわゆる"out-of-distriion"(OoD)サンプルを検出する能力は、自動運転のような多くのアプリケーションにとって不可欠である。 ood検出に対する自然なベースラインアプローチは、ピクセル単位のソフトマックスエントロピーのしきい値である。 そのアプローチを大幅に改善する2段階の手順を提案する。 まず、COCOデータセットのサンプルをOoDプロキシとして利用し、これらのサンプルのソフトマックスエントロピーを最大化するための第2のトレーニング目標を導入する。 事前トレーニングされたセマンティックセグメンテーションネットワークから、異なる分散データセット上で多数のDNNを再トレーニングし、完全に非結合なOoDデータセットを評価する際に、改善されたOoD検出性能を継続的に観察する。 次に,「メタ分類」と呼ばれる偽陽性のoodサンプルを廃棄するための透明な後処理ステップを行う。 この目的のために、DNNのソフトマックス確率から導かれる手作りメトリクスの集合に線形モデルを適用する。 私たちの実験では、最良のベースラインと結果を比較する際に、検出エラーの数を最大52%削減することで、ood検出性能のさらなる向上を一貫して観察しています。 この改善は、オリジナルセグメンテーションのパフォーマンスにおいて、わずかに損なわれる。 そこで本手法は,より信頼性の高いシステム性能を持つDNNに寄与する。

Deep neural networks (DNNs) for the semantic segmentation of images are usually trained to operate on a predefined closed set of object classes. This is in contrast to the "open world" setting where DNNs are envisioned to be deployed to. From a functional safety point of view, the ability to detect so-called "out-of-distribution" (OoD) samples, i.e., objects outside of a DNN's semantic space, is crucial for many applications such as automated driving. A natural baseline approach to OoD detection is to threshold on the pixel-wise softmax entropy. We present a two-step procedure that significantly improves that approach. Firstly, we utilize samples from the COCO dataset as OoD proxy and introduce a second training objective to maximize the softmax entropy on these samples. Starting from pretrained semantic segmentation networks we re-train a number of DNNs on different in-distribution datasets and consistently observe improved OoD detection performance when evaluating on completely disjoint OoD datasets. Secondly, we perform a transparent post-processing step to discard false positive OoD samples by so-called "meta classification". To this end, we apply linear models to a set of hand-crafted metrics derived from the DNN's softmax probabilities. In our experiments we consistently observe a clear additional gain in OoD detection performance, cutting down the number of detection errors by up to 52% when comparing the best baseline with our results. We achieve this improvement sacrificing only marginally in original segmentation performance. Therefore, our method contributes to safer DNNs with more reliable overall system performance.
翻訳日:2021-05-16 02:10:59 公開日:2020-12-09
# Sentinel-2 30mデータによる高分解能大域灌水予測

High-resolution global irrigation prediction with Sentinel-2 30m data ( http://arxiv.org/abs/2012.07658v1 )

ライセンス: Link先を確認
Weixin (Angela) Wu, Sonal Thakkar, Will Hawkins, Hossein Vahabi, Alberto Todeschini(参考訳) 地球規模の灌水利用の正確かつ正確な理解は、様々な気候科学の取り組みに不可欠である。 灌水は非常にエネルギー集約的であり、人口増加が現在のペースで進むにつれ、作物の需要と水利用の増加は気候変動に影響を及ぼすだろう。 精密灌水データは、特に発展途上国における水利用のモニタリングと農業収量最適化に役立つ。 降水データと連動した灌水データは、気候や気象のモデリングだけでなく、水収支の予測にも利用できる。 そこで本研究では,NDVI (Normalized Difference Vegetation Index) の時間的シグネチャの教師なしクラスタリングと降水ヒューリスティックを組み合わせて,1年ごとに各作物群集がピークとなる月をラベル付けした灌水予測モデルを構築した。 世界の作物の30m分解能灌水予測のための新しい灌水モデルとPythonパッケージ(Irrigation30)を開発した。 インドとオーストラリアに限って、NASAが出資したGFSAD30プロジェクトによって使用される資源のごく一部をクラウドソーシングした小規模の農地座標と灌水ラベルを用いて、我々のモデルは、小さなジオディバースランダムサンプリングテストセットにおいて、97 %以上の一貫性と92 %の精度で、一貫性のスコアを達成できた。

An accurate and precise understanding of global irrigation usage is crucial for a variety of climate science efforts. Irrigation is highly energy-intensive, and as population growth continues at its current pace, increases in crop need and water usage will have an impact on climate change. Precise irrigation data can help with monitoring water usage and optimizing agricultural yield, particularly in developing countries. Irrigation data, in tandem with precipitation data, can be used to predict water budgets as well as climate and weather modeling. With our research, we produce an irrigation prediction model that combines unsupervised clustering of Normalized Difference Vegetation Index (NDVI) temporal signatures with a precipitation heuristic to label the months that irrigation peaks for each cropland cluster in a given year. We have developed a novel irrigation model and Python package ("Irrigation30") to generate 30m resolution irrigation predictions of cropland worldwide. With a small crowdsourced test set of cropland coordinates and irrigation labels, using a fraction of the resources used by the state-of-the-art NASA-funded GFSAD30 project with irrigation data limited to India and Australia, our model was able to achieve consistency scores in excess of 97\% and an accuracy of 92\% in a small geo-diverse randomly sampled test set.
翻訳日:2021-05-16 02:10:31 公開日:2020-12-09
# リモートセンシングパラメータ推定と因果推論におけるワープガウス過程

Warped Gaussian Processes in Remote Sensing Parameter Estimation and Causal Inference ( http://arxiv.org/abs/2012.12105v1 )

ライセンス: Link先を確認
Anna Mateo-Sanchis, Jordi Mu\~noz-Mar\'i, Adri\'an P\'erez-Suay, Gustau Camps-Valls(参考訳) 本稿では,リモートセンシングアプリケーションにおけるガウス過程 (WGP) の回帰について述べる。 WGPモデルは、GPのパラメトリック非線形変換として観測を出力する。 このような事前モデルのパラメータは、標準最大確率を通じて学習される。 提案手法は,マルチスペクトルデータからの海洋クロロフィル含量の推定,高スペクトルデータからの植生パラメータ(葉緑素,葉面積指数,分画植生被覆),および28種の生物地球科学とリモートセンシング因果問題の収集における因果方向の検出において,優れた性能を示す。 このモデルは、精度と賢明な信頼区間の両方において、標準gpやより先進的なヘテロシドスティックgpモデルよりも一貫して優れた性能を発揮する。

This paper introduces warped Gaussian processes (WGP) regression in remote sensing applications. WGP models output observations as a parametric nonlinear transformation of a GP. The parameters of such prior model are then learned via standard maximum likelihood. We show the good performance of the proposed model for the estimation of oceanic chlorophyll content from multispectral data, vegetation parameters (chlorophyll, leaf area index, and fractional vegetation cover) from hyperspectral data, and in the detection of the causal direction in a collection of 28 bivariate geoscience and remote sensing causal problems. The model consistently performs better than the standard GP and the more advanced heteroscedastic GP model, both in terms of accuracy and more sensible confidence intervals.
翻訳日:2021-05-16 02:10:04 公開日:2020-12-09
# 雑音付き畳み込みニューラルネットワーク

Noise-Equipped Convolutional Neural Networks ( http://arxiv.org/abs/2012.12109v1 )

ライセンス: Link先を確認
Menghan Xia and Tien-Tsin Wong(参考訳) 一般的なモデリングツールとして、畳み込みニューラルネットワーク(CNN)は画像合成や翻訳タスクに広く利用されている。 しかし、cnnモデルに平坦な入力が供給されると、畳み込み核の空間的共有性のため、変換はスケーリング操作に分解される。 この本質的な問題は、アプリケーション制限としてほとんど研究されていない。 本稿では,このような畳み込み劣化が,フラット入力から出力される値変化を期待する特定の画像生成タスクを実際に妨げていることを指摘する。 我々はその背後にある原因を研究し、それに取り組むための汎用的な解決策を提案する。 私たちのキーとなるアイデアは、フラットな入力条件をプロキシ入力モジュールによって破り、入力データをノイズマップと対称に摂動させ、特徴領域で再組み立てすることです。 ノイズ付きcnnモデルと呼び、複数の分析を通してその挙動を研究する。 実験の結果,我々のモデルには劣化がなく,標準CNNモデルよりも優れた代替手段となることがわかった。 既存のアプリケーションにモデルを適用した場合のパフォーマンスも向上する。 セマンティックフォト合成とカラーエンコードグレースケール生成

As a generic modeling tool, Convolutional Neural Network (CNN) has been widely employed in image synthesis and translation tasks. However, when a CNN model is fed with a flat input, the transformation degrades into a scaling operation due to the spatial sharing nature of convolution kernels. This inherent problem has been barely studied nor raised as an application restriction. In this paper, we point out that such convolution degradation actually hinders some specific image generation tasks that expect value-variant output from a flat input. We study the cause behind it and propose a generic solution to tackle it. Our key idea is to break the flat input condition through a proxy input module that perturbs the input data symmetrically with a noise map and reassembles them in feature domain. We call it noise-equipped CNN model and study its behavior through multiple analysis. Our experiments show that our model is free of degradation and hence serves as a superior alternative to standard CNN models. We further demonstrate improved performances of applying our model to existing applications, e.g. semantic photo synthesis and color-encoded grayscale generation.
翻訳日:2021-05-16 02:09:52 公開日:2020-12-09
# 注意に基づくニューラルネットワークによる化学反応空間のマッピング

Mapping the Space of Chemical Reactions Using Attention-Based Neural Networks ( http://arxiv.org/abs/2012.06051v1 )

ライセンス: Link先を確認
Philippe Schwaller, Daniel Probst, Alain C. Vaucher, Vishnu H. Nair, David Kreutter, Teodoro Laino, Jean-Louis Reymond(参考訳) 有機反応は通常、類似の試薬と機構を持つ反応を含むクラスに割り当てられる。 反応クラスは複雑な概念の伝達と化学反応空間の効率的なナビゲーションを促進する。 しかし、分類プロセスは面倒な作業である。 これは反応中の分子の数、反応中心の数、反応剤と試薬の区別のアノテーションを通して対応する反応クラステンプレートを識別する必要がある。 本研究は, トランスフォーマトモデルが, 非注釈的, 単純な化学反応表現から反応クラスを推定できることを示した。 我々の最良のモデルは98.2%の分類精度に達する。 また, 従来の反応指紋よりも, 反応クラス間の細かな差異を捉えた反応指紋として, 学習された表現が利用できることを示した。 学習した指紋によって可能な化学反応空間の洞察は、視覚的クラスタリングと類似性探索を提供する対話的な反応アトラスによって示される。

Organic reactions are usually assigned to classes containing reactions with similar reagents and mechanisms. Reaction classes facilitate the communication of complex concepts and efficient navigation through chemical reaction space. However, the classification process is a tedious task. It requires the identification of the corresponding reaction class template via annotation of the number of molecules in the reactions, the reaction center, and the distinction between reactants and reagents. This work shows that transformer-based models can infer reaction classes from non-annotated, simple text-based representations of chemical reactions. Our best model reaches a classification accuracy of 98.2%. We also show that the learned representations can be used as reaction fingerprints that capture fine-grained differences between reaction classes better than traditional reaction fingerprints. The insights into chemical reaction space enabled by our learned fingerprints are illustrated by an interactive reaction atlas providing visual clustering and similarity searching.
翻訳日:2021-05-16 02:09:37 公開日:2020-12-09
# 遠隔観察による文書分類の自動化によるシステムレビューの効率化

Automating Document Classification with Distant Supervision to Increase the Efficiency of Systematic Reviews ( http://arxiv.org/abs/2012.07565v1 )

ライセンス: Link先を確認
Xiaoxiao Li, Rabah Al-Zaidy, Amy Zhang, Stefan Baral, Le Bao, C. Lee Giles(参考訳) 目的: 学術文献の体系的レビューは、しばしば研究問題に関連する文学の完全かつ徹底的な要約を提供する。 しかし、体系的なレビューは高価で、時間的需要があり、労働集約的です。 本稿では,文書のレビュー作業を大幅に削減する自動文書分類手法を提案する。 方法:まず,関連するトレーニングデータセットのキュレーションに使用する手作業による文書分類手順を記述し,次にキーワード案内法,クラスタ分析に基づく改良法,多数の特徴トークンを用いたランダムフォレストアプローチという3つの分類法を提案する。 例えば、このアプローチは、HIVまたは暴力に関連する内容を含むと思われる女性性労働者を研究する文書を特定するために用いられる。 我々は,3つの分類器の性能をクロスバリデーションで比較し,モデルのトレーニングに使用するデータ部分の感度解析を行う。 結果: ランダムフォレストアプローチは, 受信動作特性 (ROC) と精度/リコール (PR) の両面において, 曲線 (AUC) の下の最も高い領域を提供する。 精度とリコールの分析から、ランダムな森林は記事の20%を手作業でレビューし、関連する事例の80%は含んでいることが示唆された。 最後に,比較的小さなトレーニングサンプルサイズを用いて,優れた分類器を得ることができた。 結論: 要約すると、ここで提示される文書分類の自動化手順は、体系的なレビューの正確性と効率性の両方を改善し、レビューを定期的に更新するライブレビューを促進する。

Objective: Systematic reviews of scholarly documents often provide complete and exhaustive summaries of literature relevant to a research question. However, well-done systematic reviews are expensive, time-demanding, and labor-intensive. Here, we propose an automatic document classification approach to significantly reduce the effort in reviewing documents. Methods: We first describe a manual document classification procedure that is used to curate a pertinent training dataset and then propose three classifiers: a keyword-guided method, a cluster analysis-based refined method, and a random forest approach that utilizes a large set of feature tokens. As an example, this approach is used to identify documents studying female sex workers that are assumed to contain content relevant to either HIV or violence. We compare the performance of the three classifiers by cross-validation and conduct a sensitivity analysis on the portion of data utilized in training the model. Results: The random forest approach provides the highest area under the curve (AUC) for both receiver operating characteristic (ROC) and precision/recall (PR). Analyses of precision and recall suggest that random forest could facilitate manually reviewing 20\% of the articles while containing 80\% of the relevant cases. Finally, we found a good classifier could be obtained by using a relatively small training sample size. Conclusions: In sum, the automated procedure of document classification presented here could improve both the precision and efficiency of systematic reviews, as well as facilitating live reviews, where reviews are updated regularly.
翻訳日:2021-05-16 02:09:26 公開日:2020-12-09
# 概念測定の格子について

On the Lattice of Conceptual Measurements ( http://arxiv.org/abs/2012.05267v1 )

ライセンス: Link先を確認
Tom Hanika and Johannes Hirth(参考訳) 本稿では,形式的な概念解析,すなわちクロージャシステム間の連続写像からスケール尺度に基づくデータセットスケーリングの新たな手法を提案し,正規表現を導出する。 さらに, スケール計測が閉包系に対して順序付けられたことを証明した。 これにより、ミートとジョイン操作を使用してスケール測定のセットを探索することができる。 さらに、スケール尺度の格子は、元のデータから生じるサブクロージャシステムの格子に同型であることを示す。 最後に,データ集合の特徴の観点で命題論理を用いた尺度の表現を提案する。 理論的知見は例によって考察する。

We present a novel approach for data set scaling based on scale-measures from formal concept analysis, i.e., continuous maps between closure systems, and derive a canonical representation. Moreover, we prove said scale-measures are lattice ordered with respect to the closure systems. This enables exploring the set of scale-measures through by the use of meet and join operations. Furthermore we show that the lattice of scale-measures is isomorphic to the lattice of sub-closure systems that arises from the original data. Finally, we provide another representation of scale-measures using propositional logic in terms of data set features. Our theoretical findings are discussed by means of examples.
翻訳日:2021-05-16 02:08:59 公開日:2020-12-09
# カーネル法による生体物理パラメータの連続回帰

Consistent regression of biophysical parameters with kernel methods ( http://arxiv.org/abs/2012.04922v1 )

ライセンス: Link先を確認
Emiliano D\'iaz, Adri\'an P\'erez-Suay, Valero Laparra, Gustau Camps-Valls(参考訳) 本稿では,一貫性制約を組み込むための新しい統計的回帰フレームワークを提案する。 線形および非線形(カーネルベース)な定式化が導入され、どちらも閉形式解析解である。 モデルは、補助的かつ保護された変数のセットから最大独立なまま、ドライバのセットからのすべての情報を利用する。 クロロフィル含量の推定における性能の解明に成功している。

This paper introduces a novel statistical regression framework that allows the incorporation of consistency constraints. A linear and nonlinear (kernel-based) formulation are introduced, and both imply closed-form analytical solutions. The models exploit all the information from a set of drivers while being maximally independent of a set of auxiliary, protected variables. We successfully illustrate the performance in the estimation of chlorophyll content.
翻訳日:2021-05-16 02:08:52 公開日:2020-12-09
# 航空画像における車両検出のための生成データ拡張

Generative Data Augmentation for Vehicle Detection in Aerial Images ( http://arxiv.org/abs/2012.04902v1 )

ライセンス: Link先を確認
Hilmi Kumdakc{\i}, Cihan \"Ong\"un, Alptekin Temizel(参考訳) トレーニングデータの不足は、大量のデータを必要とするディープネットワークの大きな問題の1つです。 データ拡張は、トレーニングサンプルの数とバリエーションを増やすために広く使われている方法である。 本稿では,航空画像における車両検出性能の向上に重点を置き,訓練データセットにおける車両オブジェクトのバウンディングボックスアノテーションよりも特別な監視を必要としない生成的拡張手法を提案する。 提案手法は,特に訓練インスタンス数が限られている場合に,検出器をより多くのインスタンスで訓練できるようにすることにより,車両検出性能を向上させる。 提案手法は,異なるジェネレータと統合できるという意味で汎用的である。 実験の結果, 数値計算とDeepFillを統合した場合, 平均精度は25.2%, 平均精度は25.7%向上した。

Scarcity of training data is one of the prominent problems for deep networks which require large amounts data. Data augmentation is a widely used method to increase the number of training samples and their variations. In this paper, we focus on improving vehicle detection performance in aerial images and propose a generative augmentation method which does not need any extra supervision than the bounding box annotations of the vehicle objects in the training dataset. The proposed method increases the performance of vehicle detection by allowing detectors to be trained with higher number of instances, especially when there are limited number of training instances. The proposed method is generic in the sense that it can be integrated with different generators. The experiments show that the method increases the Average Precision by up to 25.2% and 25.7% when integrated with Pluralistic and DeepFill respectively.
翻訳日:2021-05-16 02:08:07 公開日:2020-12-09
# unrolled highway expectation maximizationによる勾配流の改善

Improving Gradient Flow with Unrolled Highway Expectation Maximization ( http://arxiv.org/abs/2012.04926v1 )

ライセンス: Link先を確認
Chonghyuk Song, Eunseok Kim, Inwook Shim(参考訳) モデルベースの機械学習手法をディープニューラルネットワークアーキテクチャに統合することで、ディープニューラルネットワークの表現力と、モデルベースの方法がドメイン固有の知識を組み込む能力の両方を活用できる。 特に、多くの研究は期待最大化(EM)アルゴリズムを、バックボーンニューラルネットワークと共同でトレーニングされた、無転層構造として採用している。 しかし、消失する勾配問題に起因したEM繰り返しをバックプロパゲートすることで、バックボーンネットワークを識別的に訓練することは困難である。 この問題に対処するために,Newton-Rahpson法に基づく一般化EM(GEM)アルゴリズムのアンロールイテレーションからなるハイウェイ予測最大化ネットワーク(HEMNet)を提案する。 HEMNetは、非ロールアーキテクチャの深さに沿って、スケールされたスキップ接続またはハイウェイを特徴としているため、バックプロパゲーション時の勾配フローが改善され、標準の非ロールEMと比較して、無視できる計算量とメモリコストが増大する。 さらに、HEMNetは基礎となるEMプロシージャを保持し、元のEMアルゴリズムの収束特性を完全に保持する。 複数のセマンティクスセグメンテーションベンチマークで性能が大幅に向上し,ヘムネットが勾配減衰を効果的に緩和することを示す。

Integrating model-based machine learning methods into deep neural architectures allows one to leverage both the expressive power of deep neural nets and the ability of model-based methods to incorporate domain-specific knowledge. In particular, many works have employed the expectation maximization (EM) algorithm in the form of an unrolled layer-wise structure that is jointly trained with a backbone neural network. However, it is difficult to discriminatively train the backbone network by backpropagating through the EM iterations as they are prone to the vanishing gradient problem. To address this issue, we propose Highway Expectation Maximization Networks (HEMNet), which is comprised of unrolled iterations of the generalized EM (GEM) algorithm based on the Newton-Rahpson method. HEMNet features scaled skip connections, or highways, along the depths of the unrolled architecture, resulting in improved gradient flow during backpropagation while incurring negligible additional computation and memory costs compared to standard unrolled EM. Furthermore, HEMNet preserves the underlying EM procedure, thereby fully retaining the convergence properties of the original EM algorithm. We achieve significant improvement in performance on several semantic segmentation benchmarks and empirically show that HEMNet effectively alleviates gradient decay.
翻訳日:2021-05-16 02:07:56 公開日:2020-12-09
# AMVNet:LiDARセマンティックセグメンテーションのためのAssertion-based Multi-View Fusion Network

AMVNet: Assertion-based Multi-View Fusion Network for LiDAR Semantic Segmentation ( http://arxiv.org/abs/2012.04934v1 )

ライセンス: Link先を確認
Venice Erin Liong, Thi Ngoc Tho Nguyen, Sergi Widjaja, Dhananjai Sharma, Zhuang Jie Chong(参考訳) 本稿では,遅延融合を用いた個々の投影型ネットワークの意味的特徴を集約したlidarセマンティクスセグメンテーションのためのアサーションに基づくマルチビュー融合ネットワーク(amvnet)を提案する。 異なるプロジェクションベースネットワークからのクラススコアが与えられた場合、スコア不一致に基づいてアサーション誘導ポイントサンプリングを行い、各サンプルポイントの一連の点レベル特徴を単純な点ヘッドに渡して予測を洗練させる。 このモジュラー・階層的遅延融合アプローチは、軽量ネットワークから小さなオーバーヘッドを持つ2つの独立したネットワークを持つ柔軟性を提供する。 このようなアプローチは、例えばロボットシステムに望ましい。 計算と記憶の資源が 限られている自動運転車です AMVNetはSemanticKITTIとnuScenesのベンチマークデータセットで最先端の結果が得られ,提案手法はプロジェクションベースネットワークのクラススコアを組み合わせるベースライン法よりも優れていることを示す。

In this paper, we present an Assertion-based Multi-View Fusion network (AMVNet) for LiDAR semantic segmentation which aggregates the semantic features of individual projection-based networks using late fusion. Given class scores from different projection-based networks, we perform assertion-guided point sampling on score disagreements and pass a set of point-level features for each sampled point to a simple point head which refines the predictions. This modular-and-hierarchical late fusion approach provides the flexibility of having two independent networks with a minor overhead from a light-weight network. Such approaches are desirable for robotic systems, e.g. autonomous vehicles, for which the computational and memory resources are often limited. Extensive experiments show that AMVNet achieves state-of-the-art results in both the SemanticKITTI and nuScenes benchmark datasets and that our approach outperforms the baseline method of combining the class scores of the projection-based networks.
翻訳日:2021-05-16 02:07:34 公開日:2020-12-09
# 幾何学的接触レンダリングによる第1タッチによる触覚物体ポーズ推定

Tactile Object Pose Estimation from the First Touch with Geometric Contact Rendering ( http://arxiv.org/abs/2012.05205v1 )

ライセンス: Link先を確認
Maria Bauza, Eric Valls, Bryan Lim, Theo Sechopoulos, Alberto Rodriguez(参考訳) 本稿では,既知の物体に対する第1タッチからの触覚ポーズ推定手法を提案する。 まず、実際の触覚観測から接触形状への物体認識マップを作成する。 次に、既知の幾何を持つ新しい物体に対して、シミュレーションで完全に調整された知覚モデルを学ぶ。 そのために、センサに密集したオブジェクトのポーズが生じるような接触形状をシミュレートする。 そして,センサ出力から得られた新しい接触形状を,コントラスト学習を用いたシミュレーションにおいて純粋に学習した対象固有埋め込みを用いて,事前計算した集合と照合する。 これにより、単一の触覚観測から物体をローカライズできる知覚モデルが得られる。 また、他の知覚系や複数の接触から来る追加のポーズ制約を含む、ポーズ分布の推論も可能である。 4つの対象に対して定量的な結果を提供する。 提案手法は,異なる物体のポーズから生じる接触形状を考慮した姿勢分布を回帰しながら,触覚的観察から高精度なポーズ推定を行う。 我々は,複数の触覚センサが物体と同時に接触するマルチコンタクトシナリオにおいて,このアプローチをさらに拡張し,テストする。 Webサイト: http://mcube.mit.edu/research/tactile_loc_first_touch.html

In this paper, we present an approach to tactile pose estimation from the first touch for known objects. First, we create an object-agnostic map from real tactile observations to contact shapes. Next, for a new object with known geometry, we learn a tailored perception model completely in simulation. To do so, we simulate the contact shapes that a dense set of object poses would produce on the sensor. Then, given a new contact shape obtained from the sensor output, we match it against the pre-computed set using the object-specific embedding learned purely in simulation using contrastive learning. This results in a perception model that can localize objects from a single tactile observation. It also allows reasoning over pose distributions and including additional pose constraints coming from other perception systems or multiple contacts. We provide quantitative results for four objects. Our approach provides high accuracy pose estimations from distinctive tactile observations while regressing pose distributions to account for those contact shapes that could result from different object poses. We further extend and test our approach in multi-contact scenarios where several tactile sensors are simultaneously in contact with the object. Website: http://mcube.mit.edu/research/tactile_loc_first_touch.html
翻訳日:2021-05-16 02:07:15 公開日:2020-12-09
# 確率的マルチアーム帯域のストリーミングアルゴリズム

Streaming Algorithms for Stochastic Multi-armed Bandits ( http://arxiv.org/abs/2012.05142v1 )

ライセンス: Link先を確認
Arnab Maiti, Vishakha Patil, Arindam Khan(参考訳) 有界アームメモリにおける確率的マルチアームバンド問題について検討する。 この設定では、アームはストリームに到達し、いつでもメモリに格納できるアームの数は境界となる。 意思決定者は記憶にある腕だけを引っ張ることができます。 1) 後悔の最小化, 2) ベストアームの識別という2つの標準目標からこの問題に対処した。 後悔の最小化のために、我々はほとんど固い硬さを示すことで重要なオープンな疑問を解決した。 我々は、(n-1) のアームメモリサイズを期待して (Omega)(T^{2/3}) 累積後悔を示し、n はアームの数である。 ベストアーム識別には2つのアルゴリズムを検討する。 まず、o(r)アームメモリのrラウンド適応型ストリーミングアルゴリズムを示し、"epsilon}-best armを求める。 最良アーム識別のためのrラウンド適応ストリーミングアルゴリズムでは、各ラウンドのアームプルは、前ラウンドの観測結果に基づいて決定される。 最善の武器はrラウンドの終了時の出力である。 我々のアルゴリズムのサンプル複雑性の上限は、任意のrラウンド適応ストリーミングアルゴリズムの下位境界と一致する。 第2に,メモリに余分なアームを1つだけ格納することで,最適なサンプル複雑性を持つ「エプシロン」-ベストアームを見つけるヒューリスティックを提案する。

We study the Stochastic Multi-armed Bandit problem under bounded arm-memory. In this setting, the arms arrive in a stream, and the number of arms that can be stored in the memory at any time, is bounded. The decision-maker can only pull arms that are present in the memory. We address the problem from the perspective of two standard objectives: 1) regret minimization, and 2) best-arm identification. For regret minimization, we settle an important open question by showing an almost tight hardness. We show {\Omega}(T^{2/3}) cumulative regret in expectation for arm-memory size of (n-1), where n is the number of arms. For best-arm identification, we study two algorithms. First, we present an O(r) arm-memory r-round adaptive streaming algorithm to find an {\epsilon}-best arm. In r-round adaptive streaming algorithm for best-arm identification, the arm pulls in each round are decided based on the observed outcomes in the earlier rounds. The best-arm is the output at the end of r rounds. The upper bound on the sample complexity of our algorithm matches with the lower bound for any r-round adaptive streaming algorithm. Secondly, we present a heuristic to find the {\epsilon}-best arm with optimal sample complexity, by storing only one extra arm in the memory.
翻訳日:2021-05-16 02:06:59 公開日:2020-12-09
# 射影不動点方程式を解くための最適オラクル不等式

Optimal oracle inequalities for solving projected fixed-point equations ( http://arxiv.org/abs/2012.05299v1 )

ライセンス: Link先を確認
Wenlong Mou, Ashwin Pananjady, Martin J. Wainwright(参考訳) ヒルベルト空間における線形不動点方程式は、強化学習や微分方程式と積分方程式の解法を含む様々な設定で生じる。 ヒルベルト空間の既知の低次元部分空間を探索することにより、ランダムな観測の集合を用いて近似解を計算する方法を検討する。 まず,polyak-ruppert平均化を利用した線形確率近似スキームにおける平均二乗誤差のインスタンス依存上界を証明した。 この境界は、インスタンス依存近似係数を持つ近似誤差項と、低次元部分空間に投影されたときの雑音のインスタンス固有の複雑さを捉える統計的誤差項の2つの項からなる。 また,情報理論的な手法を用いて,これら2つの用語が再びインスタンス依存的な意味で改善できないことを示す下界を定式化する。 この特徴付けの具体的な結果は、この問題の最適近似係数が普遍定数よりもはるかに大きいことである。 本稿では,線形関数近似を用いた政策評価問題に対する時間差学習手法の誤差を正確に特徴付けし,その最適性を確立した。

Linear fixed point equations in Hilbert spaces arise in a variety of settings, including reinforcement learning, and computational methods for solving differential and integral equations. We study methods that use a collection of random observations to compute approximate solutions by searching over a known low-dimensional subspace of the Hilbert space. First, we prove an instance-dependent upper bound on the mean-squared error for a linear stochastic approximation scheme that exploits Polyak--Ruppert averaging. This bound consists of two terms: an approximation error term with an instance-dependent approximation factor, and a statistical error term that captures the instance-specific complexity of the noise when projected onto the low-dimensional subspace. Using information theoretic methods, we also establish lower bounds showing that both of these terms cannot be improved, again in an instance-dependent sense. A concrete consequence of our characterization is that the optimal approximation factor in this problem can be much larger than a universal constant. We show how our results precisely characterize the error of a class of temporal difference learning methods for the policy evaluation problem with linear function approximation, establishing their optimality.
翻訳日:2021-05-16 02:06:37 公開日:2020-12-09
# Burrows Delta 測定の未知のアンサーについて

On an Unknown Ancestor of Burrows' Delta Measure ( http://arxiv.org/abs/2012.04796v1 )

ライセンス: Link先を確認
Petr Plechac(参考訳) この記事では、Georgy Udny Yuleによる1944年の研究と、著者帰属への現代的なアプローチの驚くべき類似性を指摘している。

This article points out some surprising similarities between a 1944 study by Georgy Udny Yule and modern approaches to authorship attribution.
翻訳日:2021-05-16 02:06:19 公開日:2020-12-09
# 複雑な関係抽出:挑戦と機会

Complex Relation Extraction: Challenges and Opportunities ( http://arxiv.org/abs/2012.04821v1 )

ライセンス: Link先を確認
Haiyun Jiang, Qiaoben Bao, Qiao Cheng, Deqing Yang, Li Wang and Yanghua Xiao(参考訳) 関係抽出は、テキスト中のエンティティのターゲット関係を識別することを目的としている。 関係抽出は知識ベース構築とテキスト理解において非常に重要である。 従来の二項関係抽出は、教師付き、半教師付き、遠隔教師付きを含む広範囲に研究され、重要な結果が得られた。 近年,多くの複雑な関係抽出タスク,すなわち単純二項関係抽出の変種が,現実の複雑な応用を満たすために提案されている。 しかし、これらの複雑な関係抽出作業を完全に研究・要約する文献は存在しない。 本稿では,従来の単純な二項関係抽出の最近の進歩を最初に報告する。 次に,既存の複雑な関係抽出タスクを要約し,各タスクの定義,最近の進歩,課題,機会について述べる。

Relation extraction aims to identify the target relations of entities in texts. Relation extraction is very important for knowledge base construction and text understanding. Traditional binary relation extraction, including supervised, semi-supervised and distant supervised ones, has been extensively studied and significant results are achieved. In recent years, many complex relation extraction tasks, i.e., the variants of simple binary relation extraction, are proposed to meet the complex applications in practice. However, there is no literature to fully investigate and summarize these complex relation extraction works so far. In this paper, we first report the recent progress in traditional simple binary relation extraction. Then we summarize the existing complex relation extraction tasks and present the definition, recent progress, challenges and opportunities for each task.
翻訳日:2021-05-16 02:06:15 公開日:2020-12-09
# 感情対話生成のためのヘテロジニアスグラフニューラルネットワークを用いた多元知識の活用

Infusing Multi-Source Knowledge with Heterogeneous Graph Neural Network for Emotional Conversation Generation ( http://arxiv.org/abs/2012.04882v1 )

ライセンス: Link先を確認
Yunlong Liang, Fandong Meng, Ying Zhang, Jinan Xu, Yufeng Chen and Jie Zhou(参考訳) 感情会話システムの成功は、十分な知覚と感情の適切な表現に依存する。 実世界の会話では、まず対話履歴、表情、話者の個性などの多元的情報から感情を本能的に知覚し、その後、我々の個性に応じて適切な感情を表現するが、これらの多種類の情報は感情的な会話分野において不十分に活用される。 そこで本研究では,感情対話生成のための不均一グラフモデルを提案する。 具体的には、異種グラフニューラルネットワークを用いて会話内容(対話履歴、感情の流れ、表情、話者の個性)を表現し、フィードバックに適した感情を予測するための異種グラフベースエンコーダを設計する。 その後、エンコードされたグラフ表現、エンコーダからの予測された感情、現在の話者のパーソナリティを入力として、会話コンテキストだけでなく適切な感情にも関連した応答を生成するために感情パーソナリティ認識デコーダを用いる。 実験結果から,本モデルがマルチソース知識から感情を効果的に知覚し,満足な応答を生成できることが示唆された。

The success of emotional conversation systems depends on sufficient perception and appropriate expression of emotions. In a real-world conversation, we firstly instinctively perceive emotions from multi-source information, including the emotion flow of dialogue history, facial expressions, and personalities of speakers, and then express suitable emotions according to our personalities, but these multiple types of information are insufficiently exploited in emotional conversation fields. To address this issue, we propose a heterogeneous graph-based model for emotional conversation generation. Specifically, we design a Heterogeneous Graph-Based Encoder to represent the conversation content (i.e., the dialogue history, its emotion flow, facial expressions, and speakers' personalities) with a heterogeneous graph neural network, and then predict suitable emotions for feedback. After that, we employ an Emotion-Personality-Aware Decoder to generate a response not only relevant to the conversation context but also with appropriate emotions, by taking the encoded graph representations, the predicted emotions from the encoder and the personality of the current speaker as inputs. Experimental results show that our model can effectively perceive emotions from multi-source knowledge and generate a satisfactory response, which significantly outperforms previous state-of-the-art models.
翻訳日:2021-05-16 02:06:03 公開日:2020-12-09
# マルチターンテキスト-SQLセマンティックパーシングのためのトラッキングインタラクション状態

Tracking Interaction States for Multi-Turn Text-to-SQL Semantic Parsing ( http://arxiv.org/abs/2012.04995v1 )

ライセンス: Link先を確認
Run-Ze Wang, Zhen-Hua Ling, Jing-Bo Zhou, Yu Hu(参考訳) マルチターンテキストからSQLへのセマンティック解析のタスクは、対話中の自然言語の発話をSQLクエリに変換して、通常複数のテーブルスキーマを含むデータベースを使用して答えることを目的としている。 このタスクの以前の研究は、通常、文脈情報を利用して発話表現を豊かにし、復号プロセスにさらに影響を及ぼす。 履歴SQLクエリによって決定され、現在の発話の意図と関連する相互作用状態の記述と追跡は無視されている。 本稿では,スキーマ項目とsqlキーワードを分離して,2種類のインタラクション状態を定義する。 関係グラフニューラルネットワークと非線形層は、2つの状態の表現をそれぞれ更新するように設計されている。 動的スキーマ状態とSQL状態表現を使用して、現在の発話に対応するSQLクエリをデコードする。 cosqlデータセットに挑戦する実験結果は,提案手法の有効性を示し,タスクリーダボード上の他の公開手法よりも優れた性能を実現する。

The task of multi-turn text-to-SQL semantic parsing aims to translate natural language utterances in an interaction into SQL queries in order to answer them using a database which normally contains multiple table schemas. Previous studies on this task usually utilized contextual information to enrich utterance representations and to further influence the decoding process. While they ignored to describe and track the interaction states which are determined by history SQL queries and are related with the intent of current utterance. In this paper, two kinds of interaction states are defined based on schema items and SQL keywords separately. A relational graph neural network and a non-linear layer are designed to update the representations of these two states respectively. The dynamic schema-state and SQL-state representations are then utilized to decode the SQL query corresponding to current utterance. Experimental results on the challenging CoSQL dataset demonstrate the effectiveness of our proposed method, which achieves better performance than other published methods on the task leaderboard.
翻訳日:2021-05-16 02:05:41 公開日:2020-12-09
# フィンランドにおけるスウェーデン方言の正規化

Normalization of Different Swedish Dialects Spoken in Finland ( http://arxiv.org/abs/2012.05318v1 )

ライセンス: Link先を確認
Mika H\"am\"al\"ainen, Niko Partanen, Khalid Alnajjar(参考訳) 本研究は,6地域にわたる異なるフィンランド語スウェーデン方言の方言正規化手法を提案する。 5つの異なるモデルをテストし、最良のモデルは単語誤り率を76.45から28.58に改善した。 フィンランドの方言に関する以前の研究で報告された結果とは対照的に、一度に一つの単語でモデルを訓練することは最良の結果となった。 これはモデルで利用可能なトレーニングデータのサイズによるものだと考えています。 私たちのモデルはPythonパッケージとしてアクセスできます。 この研究は、異なる文脈におけるこれらの手法の適応性に関する重要な情報を提供し、さらなる研究のための重要なベースラインを提供する。

Our study presents a dialect normalization method for different Finland Swedish dialects covering six regions. We tested 5 different models, and the best model improved the word error rate from 76.45 to 28.58. Contrary to results reported in earlier research on Finnish dialects, we found that training the model with one word at a time gave best results. We believe this is due to the size of the training data available for the model. Our models are accessible as a Python package. The study provides important information about the adaptability of these methods in different contexts, and gives important baselines for further study.
翻訳日:2021-05-16 02:05:26 公開日:2020-12-09
# 絶滅危惧言語と絶滅危惧言語に対する音声認識

Speech Recognition for Endangered and Extinct Samoyedic languages ( http://arxiv.org/abs/2012.05331v1 )

ライセンス: Link先を確認
Niko Partanen, Mika H\"am\"al\"ainen, Tiina Klooster(参考訳) 本研究は,シベリア北部と南部で話されている絶滅危惧・絶滅したサモイェド諸語を用いた音声認識実験である。 私たちの知る限りでは、機能的なASRシステムが絶滅した言語のために構築されたのはこれが初めてです。 kamas言語では15\%のラベル誤り率を達成し、この品質は既に洗練された人間の転写の出発点として非常に有用であると注意深いエラー分析によって結論づける。 関連言語であるNganasanの結果はより控えめであり,エラー率33\%の最良のモデルである。 しかしながら,Kamasのトレーニングデータが漸進的に拡大される実験を通して,Nganasanの結果は低リソース環境下で期待される結果と一致していることを示す。 これに基づいて、言語ドキュメントやアーカイブ処理アクティビティが現代的なasr技術から恩恵を受けるシナリオを推奨する。 すべてのトレーニングデータと処理スクリプトが、この重要なトピックにおけるさらなる作業を保証するために、明確なライセンス付きでZenodoに公開された。

Our study presents a series of experiments on speech recognition with endangered and extinct Samoyedic languages, spoken in Northern and Southern Siberia. To best of our knowledge, this is the first time a functional ASR system is built for an extinct language. We achieve with Kamas language a Label Error Rate of 15\%, and conclude through careful error analysis that this quality is already very useful as a starting point for refined human transcriptions. Our results with related Nganasan language are more modest, with best model having the error rate of 33\%. We show, however, through experiments where Kamas training data is enlarged incrementally, that Nganasan results are in line with what is expected under low-resource circumstances of the language. Based on this, we provide recommendations for scenarios in which further language documentation or archive processing activities could benefit from modern ASR technology. All training data and processing scripts haven been published on Zenodo with clear licences to ensure further work in this important topic.
翻訳日:2021-05-16 02:05:17 公開日:2020-12-09
# ds-net: 映像サルエント物体検出のための動的時空間ネットワーク

DS-Net: Dynamic Spatiotemporal Network for Video Salient Object Detection ( http://arxiv.org/abs/2012.04886v1 )

ライセンス: Link先を確認
Yuting Su, Weikang Wang, Jing Liu, Peiguang Jing and Xiaokang Yang(参考訳) 移動物体は常に人間の目に注意を向けるので、時間的動機情報は常に空間情報と相補的に利用され、ビデオ内の有能な物体を検出する。 時間的モーメント情報を抽出するために,光学フローなどの効率的なツールが提案されているが,カメラの移動やサリアント物体の部分的移動による塩分濃度検出には困難が伴うことが多い。 本稿では,空間的および時間的情報の補完的役割について検討し,より効果的な時空間情報の融合のための新しい動的時空間ネットワーク(ds-net)を提案する。 空間的特徴と時間的特徴を明示的に抽出する対称2バイパスネットワークを構築した。 動的重み発生器(DWG)は、対応する唾液枝の信頼性を自動的に学習するように設計されている。 また,時空間特徴の動的相補的集約を容易にするために,トップダウンクロス注意集約(CAA)手順を設計した。 最後に,粗いサリエンシーマップの指導により空間的注意によって特徴を変更し,最終サリエンシーマップのデコーダ部分を通過する。 VOS,DAVIS,FBMS,SegTrack-v2,ViSalの5つのベンチマークによる実験結果から,提案手法が最先端のアルゴリズムよりも優れた性能を実現することを示す。 ソースコードはhttps://github.com/TJUMMG/DS-Netで入手できる。

As moving objects always draw more attention of human eyes, the temporal motive information is always exploited complementarily with spatial information to detect salient objects in videos. Although efficient tools such as optical flow have been proposed to extract temporal motive information, it often encounters difficulties when used for saliency detection due to the movement of camera or the partial movement of salient objects. In this paper, we investigate the complimentary roles of spatial and temporal information and propose a novel dynamic spatiotemporal network (DS-Net) for more effective fusion of spatiotemporal information. We construct a symmetric two-bypass network to explicitly extract spatial and temporal features. A dynamic weight generator (DWG) is designed to automatically learn the reliability of corresponding saliency branch. And a top-down cross attentive aggregation (CAA) procedure is designed so as to facilitate dynamic complementary aggregation of spatiotemporal features. Finally, the features are modified by spatial attention with the guidance of coarse saliency map and then go through decoder part for final saliency map. Experimental results on five benchmarks VOS, DAVIS, FBMS, SegTrack-v2, and ViSal demonstrate that the proposed method achieves superior performance than state-of-the-art algorithms. The source code is available at https://github.com/TJUMMG/DS-Net.
翻訳日:2021-05-16 02:04:24 公開日:2020-12-09
# コンボリューションは、制約のない手書き文字認識のために既に廃止されているか?

Have convolutions already made recurrence obsolete for unconstrained handwritten text recognition ? ( http://arxiv.org/abs/2012.04954v1 )

ライセンス: Link先を確認
Denis Coquenet, Yann Soullard, Cl\'ement Chatelain, Thierry Paquet(参考訳) 制約のない手書き文字認識は、ディープニューラルネットワークにとって依然として重要な課題である。 この数年間、リカレントネットワークやより具体的にはロング短期記憶ネットワークがこの分野で最先端の性能を達成した。 それでも、多くのトレーニング可能なパラメータで構成されており、リカレントニューラルネットワークのトレーニングは並列性をサポートしていない。 これは、こうしたアーキテクチャのトレーニング時間に直接影響し、様々なアーキテクチャを探索するのに必要な時間に直接影響します。 近年, ゲート機構を備えた完全畳み込みネットワークのような再帰性のないアーキテクチャが, 競合的な結果を得るための一つの選択肢として提案されている。 本稿では,畳み込みアーキテクチャを探索し,CNN+BLSTMベースラインと比較する。 本稿では、rimesデータセットを用いたオフライン手書き認識タスクにおける異なるアーキテクチャに関する実験と、印刷されたグリッドであるノートブック背景による画像拡張による修正版を提案する。

Unconstrained handwritten text recognition remains an important challenge for deep neural networks. These last years, recurrent networks and more specifically Long Short-Term Memory networks have achieved state-of-the-art performance in this field. Nevertheless, they are made of a large number of trainable parameters and training recurrent neural networks does not support parallelism. This has a direct influence on the training time of such architectures, with also a direct consequence on the time required to explore various architectures. Recently, recurrence-free architectures such as Fully Convolutional Networks with gated mechanisms have been proposed as one possible alternative achieving competitive results. In this paper, we explore convolutional architectures and compare them to a CNN+BLSTM baseline. We propose an experimental study regarding different architectures on an offline handwriting recognition task using the RIMES dataset, and a modified version of it that consists of augmenting the images with notebook backgrounds that are printed grids.
翻訳日:2021-05-16 02:03:35 公開日:2020-12-09
# ゲート型完全畳み込みネットワークを用いた繰り返しなし無拘束手書き文字認識

Recurrence-free unconstrained handwritten text recognition using gated fully convolutional network ( http://arxiv.org/abs/2012.04961v1 )

ライセンス: Link先を確認
Denis Coquenet, Cl\'ement Chatelain, Thierry Paquet(参考訳) 制約のない手書き文字認識は、ほとんどの文書分析タスクにおいて大きなステップである。 これは一般的にディープリカレントニューラルネットワークによって処理され、より具体的にはロング短期記憶細胞を用いて処理される。 これらのコンポーネントの主な欠点は、大量のパラメータと、トレーニングと予測中のシーケンシャルな実行である。 LSTMセルを使用する別の方法の1つは、操作を並列に実行し、パラメータを少なくする畳み込み層を多用することで、長期記憶損失を補うことである。 本稿では、よく知られたCNN+LSTMアーキテクチャに代わる再帰のないアーキテクチャであるGated Fully Convolutional Networkアーキテクチャを提案する。 我々のモデルはCTC損失をトレーニングし,RIMESおよびIAMデータセットの競合結果を示す。 実験を再現するためのすべてのコードをリリースします。 https://github.com/factodeeplearning/linepytorchocr。

Unconstrained handwritten text recognition is a major step in most document analysis tasks. This is generally processed by deep recurrent neural networks and more specifically with the use of Long Short-Term Memory cells. The main drawbacks of these components are the large number of parameters involved and their sequential execution during training and prediction. One alternative solution to using LSTM cells is to compensate the long time memory loss with an heavy use of convolutional layers whose operations can be executed in parallel and which imply fewer parameters. In this paper we present a Gated Fully Convolutional Network architecture that is a recurrence-free alternative to the well-known CNN+LSTM architectures. Our model is trained with the CTC loss and shows competitive results on both the RIMES and IAM datasets. We release all code to enable reproduction of our experiments: https://github.com/FactoDeepLearning/LinePytorchOCR.
翻訳日:2021-05-16 02:03:22 公開日:2020-12-09
# 相補的視覚・言語ネットワークによるヘイトフルミームの検出

Hateful Memes Detection via Complementary Visual and Linguistic Networks ( http://arxiv.org/abs/2012.04977v1 )

ライセンス: Link先を確認
Weibo Zhang, Guihua Liu, Zhuohua Li, Fuqing Zhu(参考訳) 憎しみのあるミームはソーシャルメディアに広がり、ネガティブな情報を伝える。 ヘイトフルミーム検出の主な課題は、表現的意味が単一のモダリティによって十分に認識できないことである。 モーダル情報をさらに統合するために,ヘイトフルミームチャレンジ2020において,相補的な視覚・言語ネットワークに基づく候補ソリューションについて検討する。 このようにして、マルチモダリティのより包括的な情報を詳細に探究することができる。 コンテクストレベルおよびセンシティブなオブジェクトレベルの情報は、複雑なマルチモーダルシナリオを定式化するために、視覚および言語埋め込みにおいて考慮される。 具体的には、予め訓練された分類器と物体検出器を用いて、入力から文脈的特徴と関心領域(roi)を取得し、視覚埋め込みのための位置表現融合を行う。 言語埋め込みは3つの構成要素、すなわち文語埋め込み、位置埋め込み、および対応するスペイシー埋め込み(Sembedding)から構成されるが、スペイシーはスペイシーによって抽出された語彙で表されるシンボルである。 視覚的および言語的埋め込みは、ハトフルミームの予測を生成するためにデザインされた補完的視覚言語(CVL)ネットワークに供給される。 Hateful Memes Challenge Datasetの実験結果から,CVLは良好な性能を示し,AUROCと精度の基準で78:48%,72:95%を生成することがわかった。 コードはhttps://github.com/webyfdt/hatefulで入手できる。

Hateful memes are widespread in social media and convey negative information. The main challenge of hateful memes detection is that the expressive meaning can not be well recognized by a single modality. In order to further integrate modal information, we investigate a candidate solution based on complementary visual and linguistic network in Hateful Memes Challenge 2020. In this way, more comprehensive information of the multi-modality could be explored in detail. Both contextual-level and sensitive object-level information are considered in visual and linguistic embedding to formulate the complex multi-modal scenarios. Specifically, a pre-trained classifier and object detector are utilized to obtain the contextual features and region-of-interests (RoIs) from the input, followed by the position representation fusion for visual embedding. While linguistic embedding is composed of three components, i.e., the sentence words embedding, position embedding and the corresponding Spacy embedding (Sembedding), which is a symbol represented by vocabulary extracted by Spacy. Both visual and linguistic embedding are fed into the designed Complementary Visual and Linguistic (CVL) networks to produce the prediction for hateful memes. Experimental results on Hateful Memes Challenge Dataset demonstrate that CVL provides a decent performance, and produces 78:48% and 72:95% on the criteria of AUROC and Accuracy. Code is available at https://github.com/webYFDT/hateful.
翻訳日:2021-05-16 02:03:06 公開日:2020-12-09
# 自己教師付き対応学習のためのコントラスト変換

Contrastive Transformation for Self-supervised Correspondence Learning ( http://arxiv.org/abs/2012.05057v1 )

ライセンス: Link先を確認
Ning Wang and Wengang Zhou and Houqiang Li(参考訳) 本稿では,無ラベルビデオを用いた視覚対応の自己教師あり学習に着目した。 本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。 ビデオ内学習は、フレーム対親和性を介して、単一のビデオ内のフレーム間で画像内容を変換する。 インスタンスレベルの分離のための識別表現を得るには、ビデオ内分析を超えて、異なるビデオ間のコントラスト変換を容易にするためにビデオ間親和性を構築する。 動画内レベルと動画間レベルの変換一貫性を強制することにより、微粒化対応関係を良好に保存し、インスタンスレベルの特徴識別を効果的に強化する。 我々の単純なフレームワークは、ビデオオブジェクトトラッキング(VOT)、ビデオオブジェクトセグメンテーション(VOS)、キーポイントトラッキング(Phy Keypoint Track)などの視覚的タスクにおいて、近年の自己監督対応手法よりも優れています。 この手法は完全教師付きアフィニティ表現(例えばresnet)をも上回っており、特定のタスク(例えばvotとvos)用に設計された最近の完全教師付きアルゴリズムと競合する。

In this paper, we focus on the self-supervised learning of visual correspondence using unlabeled videos in the wild. Our method simultaneously considers intra- and inter-video representation associations for reliable correspondence estimation. The intra-video learning transforms the image contents across frames within a single video via the frame pair-wise affinity. To obtain the discriminative representation for instance-level separation, we go beyond the intra-video analysis and construct the inter-video affinity to facilitate the contrastive transformation across different videos. By forcing the transformation consistency between intra- and inter-video levels, the fine-grained correspondence associations are well preserved and the instance-level feature discrimination is effectively reinforced. Our simple framework outperforms the recent self-supervised correspondence methods on a range of visual tasks including video object tracking (VOT), video object segmentation (VOS), pose keypoint tracking, etc. It is worth mentioning that our method also surpasses the fully-supervised affinity representation (e.g., ResNet) and performs competitively against the recent fully-supervised algorithms designed for the specific tasks (e.g., VOT and VOS).
翻訳日:2021-05-16 02:02:02 公開日:2020-12-09
# マルチビューコンセンサスによる自己教師付き人間検出とセグメンテーション

Self-supervised Human Detection and Segmentation via Multi-view Consensus ( http://arxiv.org/abs/2012.05119v1 )

ライセンス: Link先を確認
Isinsu Katircioglu, Helge Rhodin, J\"org Sp\"orri, Mathieu Salzmann, Pascal Fua(参考訳) 複雑なシーンにおけるフォアグラウンドオブジェクトの自己教師付き検出とセグメンテーションが注目されている。 しかし、既存の自己監督アプローチは、外観や動きに制限のある仮定に主に依存しており、非常にダイナミックな動きやカメラの動きを描写する場面での使用を妨げている。 この問題を解決するために,voxelグリッド内の粗い3次元位置推定と細粒度オフセット回帰によるトレーニング中に,幾何学的制約をマルチビュー一貫性の形で埋め込むマルチカメラフレームワークを提案する。 この方法で、複数のビューにわたる提案の共有分布を学習する。 推測時,本手法は単一のRGB画像で動作する。 本手法は,従来のヒト3.6mデータセットと同様に,標準ベンチマーク画像から視覚的に逸脱した画像に対して,最先端の自己教師付き人物検出とセグメンテーション技術よりも優れていることを示す。

Self-supervised detection and segmentation of foreground objects in complex scenes is gaining attention as their fully-supervised counterparts require overly large amounts of annotated data to deliver sufficient accuracy in domain-specific applications. However, existing self-supervised approaches predominantly rely on restrictive assumptions on appearance and motion, which precludes their use in scenes depicting highly dynamic activities or involve camera motion. To mitigate this problem, we propose using a multi-camera framework in which geometric constraints are embedded in the form of multi-view consistency during training via coarse 3D localization in a voxel grid and fine-grained offset regression. In this manner, we learn a joint distribution of proposals over multiple views. At inference time, our method operates on single RGB images. We show that our approach outperforms state-of-the-art self-supervised person detection and segmentation techniques on images that visually depart from those of standard benchmarks, as well as on those of the classical Human3.6M dataset.
翻訳日:2021-05-16 02:01:18 公開日:2020-12-09
# simpleは簡単ではない:textvqaとtextcapsのシンプルな強固なベースライン

Simple is not Easy: A Simple Strong Baseline for TextVQA and TextCaps ( http://arxiv.org/abs/2012.05153v1 )

ライセンス: Link先を確認
Qi Zhu, Chenyu Gao, Peng Wang, Qi Wu(参考訳) OCR(Optical Character Recognition)ツールで認識できる日々のシーンに現れるテキストには、街路名、商品ブランド、価格などの重要な情報が含まれている。 テキストベースの視覚的質問応答と、既存の視覚言語アプリケーションからのテキスト拡張を含むテキストベースのイメージキャプションという2つのタスクが、急速に加速している。 これらの問題を解決するために、多くの洗練されたマルチモダリティエンコーディングフレームワーク(ヘテロジニアスグラフ構造など)が使用されている。 本稿では、単純な注意機構が、鐘や笛を使わずに、同じあるいはそれ以上の仕事をすることができると論じる。 このメカニズムでは、OCRトークンの特徴を視覚的および言語的意図の分岐に分割し、人気のあるTransformerデコーダに送信し、回答やキャプションを生成する。 驚くべきことに、この単純なベースラインモデルは、かなり強い -- 一般的なベンチマークであるTextVQAとST-VQAの3つのタスクにおいて、常に最先端(SOTA)モデルよりも優れていますが、これらのSOTAモデルははるかに複雑な符号化機構を使用します。 テキストベースの画像キャプションにそれを移すと、TextCaps Challenge 2020の勝者を超えます。 我々は、この2つのOCRテキスト関連アプリケーションの新しいベースラインを設定し、マルチモーダルエンコーダ設計の新しい考え方を刺激したいと考えている。 コードはhttps://github.com/ZephyrZhuQi/ssbaselineで入手できる。

Texts appearing in daily scenes that can be recognized by OCR (Optical Character Recognition) tools contain significant information, such as street name, product brand and prices. Two tasks -- text-based visual question answering and text-based image captioning, with a text extension from existing vision-language applications, are catching on rapidly. To address these problems, many sophisticated multi-modality encoding frameworks (such as heterogeneous graph structure) are being used. In this paper, we argue that a simple attention mechanism can do the same or even better job without any bells and whistles. Under this mechanism, we simply split OCR token features into separate visual- and linguistic-attention branches, and send them to a popular Transformer decoder to generate answers or captions. Surprisingly, we find this simple baseline model is rather strong -- it consistently outperforms state-of-the-art (SOTA) models on two popular benchmarks, TextVQA and all three tasks of ST-VQA, although these SOTA models use far more complex encoding mechanisms. Transferring it to text-based image captioning, we also surpass the TextCaps Challenge 2020 winner. We wish this work to set the new baseline for this two OCR text related applications and to inspire new thinking of multi-modality encoder design. Code is available at https://github.com/ZephyrZhuQi/ssbaseline
翻訳日:2021-05-16 02:00:59 公開日:2020-12-09
# ViP-DeepLab:depth-aware Video Panoptic Segmentationによる視覚知覚学習

ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic Segmentation ( http://arxiv.org/abs/2012.05258v1 )

ライセンス: Link先を確認
Siyuan Qiao, Yukun Zhu, Hartwig Adam, Alan Yuille, Liang-Chieh Chen(参考訳) 本稿では,視覚における長期的かつ難解な逆投影問題に取り組むための統一モデルであるvip-deeplabを提案する。 この問題を解決するには、3dポイントごとに空間的位置、意味クラス、時間的一貫性のあるインスタンスラベルを予測するビジョンモデルが必要である。 ViP-DeepLabはモノクロ深度推定とビデオパノプティックセグメンテーションを共同で行う。 我々はこの共同タスクをDepth-aware Video Panoptic Segmentationと名付け,2つの派生したデータセットとともに新たな評価基準を提案する。 個別のサブタスクでは、ViP-DeepLabは最先端の結果も達成し、Cityscapes-VPSで5.1%VPQ、KITTI単眼深度推定ベンチマークで1位、KITTI MOTS歩行者で1位という過去の手法を上回った。 データセットと評価コードは公開されています。

In this paper, we present ViP-DeepLab, a unified model attempting to tackle the long-standing and challenging inverse projection problem in vision, which we model as restoring the point clouds from perspective image sequences while providing each point with instance-level semantic interpretations. Solving this problem requires the vision models to predict the spatial location, semantic class, and temporally consistent instance label for each 3D point. ViP-DeepLab approaches it by jointly performing monocular depth estimation and video panoptic segmentation. We name this joint task as Depth-aware Video Panoptic Segmentation, and propose a new evaluation metric along with two derived datasets for it, which will be made available to the public. On the individual sub-tasks, ViP-DeepLab also achieves state-of-the-art results, outperforming previous methods by 5.1% VPQ on Cityscapes-VPS, ranking 1st on the KITTI monocular depth estimation benchmark, and 1st on KITTI MOTS pedestrian. The datasets and the evaluation codes are made publicly available.
翻訳日:2021-05-16 01:59:55 公開日:2020-12-09
# ドメイン適応によるリアルタイムフォギーシーン理解のためのマルチタスク学習のための競争的単純性

Competitive Simplicity for Multi-Task Learning for Real-Time Foggy Scene Understanding via Domain Adaptation ( http://arxiv.org/abs/2012.05304v1 )

ライセンス: Link先を確認
Naif Alshammari, Samet Akcay, and Toby P. Breckon(参考訳) 悪天候条件下での自動車のシーン理解は、屋外のシーンの視界が悪くなることに起因する現実的で困難な問題を引き起こす。 霧の天気)。 しかし、ほとんどの現代のシーン理解アプローチは理想ウェザー条件下で適用されるため、極ウェザー理解に関する先駆的な洞察が確立された場合と比較して、そのようなアプローチは真に最適な性能を提供することはできない。 本稿では,近年の対向訓練とドメイン適応の進歩を活かし,霧の気候条件下でのリアルタイム意味理解と単眼深度推定を可能にする,複雑かつ競争性の高いマルチタスク学習手法を提案する。 エンド・ツー・エンドのパイプラインとして,ganモデルを用いて霧から正常に場面を移し,霧の気象条件における劣化した視認性を超える新しいソリューションを提供する。 セグメンテーションにおける最適性能のために,セグメンテーションネットワークにおけるRGBと相補的なソース情報として使用する深度を生成する。 2つのモデル(正常および霧)と共有重みを同時に訓練することにより、霧シーン理解のためのロバストな方法を提供する(各モデルは各気象条件で独立に訓練される)。 提案モデルでは,RGB色,深度,輝度を密接な接続と機能を有するエンコーダで表現し,スイッチ接続を利用して一貫した深度とセグメンテーション予測を行う。 このアーキテクチャの定式化と推論時の軽量な計算複雑性を用いることで、モデル全体の複雑さのごく一部で、現代の手法に匹敵する性能を達成できる。

Automotive scene understanding under adverse weather conditions raises a realistic and challenging problem attributable to poor outdoor scene visibility (e.g. foggy weather). However, because most contemporary scene understanding approaches are applied under ideal-weather conditions, such approaches may not provide genuinely optimal performance when compared to established a priori insights on extreme-weather understanding. In this paper, we propose a complex but competitive multi-task learning approach capable of performing in real-time semantic scene understanding and monocular depth estimation under foggy weather conditions by leveraging both recent advances in adversarial training and domain adaptation. As an end-to-end pipeline, our model provides a novel solution to surpass degraded visibility in foggy weather conditions by transferring scenes from foggy to normal using a GAN-based model. For optimal performance in semantic segmentation, our model generates depth to be used as complementary source information with RGB in the segmentation network. We provide a robust method for foggy scene understanding by training two models (normal and foggy) simultaneously with shared weights (each model is trained on each weather condition independently). Our model incorporates RGB colour, depth, and luminance images via distinct encoders with dense connectivity and features fusing, and leverages skip connections to produce consistent depth and segmentation predictions. Using this architectural formulation with light computational complexity at inference time, we are able to achieve comparable performance to contemporary approaches at a fraction of the overall model complexity.
翻訳日:2021-05-16 01:59:36 公開日:2020-12-09
# ドメイン適応によるリアルタイム自動車意味空間理解のためのマルチモデル学習

Multi-Model Learning for Real-Time Automotive Semantic Foggy Scene Understanding via Domain Adaptation ( http://arxiv.org/abs/2012.05320v1 )

ライセンス: Link先を確認
Naif Alshammari, Samet Akcay, and Toby P. Breckon(参考訳) 自動車用途におけるロバストなセマンティックシーンセグメンテーションは,(1)各シーンピクセルのラベル付け,(2)不安定な天候下でのタスクの実行,および(霧の天候など)照明変化による屋外シーンの視認性の低下という2つの重要な側面において難しい問題である。 このような可視性制限は、一般化されたディープ畳み込みニューラルネットワークに基づくセマンティックシーンセグメンテーションの非最適性能をもたらす。 本稿では,霧の気象条件に頑健な効率的な自動車意味場面理解手法を提案する。 エンドツーエンドのパイプラインとして,(1)ドメイン転送方式(可視性を損なう)による霧から晴れた気象条件への画像変換,(2)計算量(リアルタイム性能)の少ない競合エンコーダ・デコーダアーキテクチャを用いてシーンを意味的にセグメンテーションする手法を提案する。 本手法では,rgb色,奥行き,輝度画像を濃密に結合したエンコーダを介して取り込み,異なる入力からの情報を効果的に活用する機能融合を行い,モデル全体の最適な特徴表現に寄与する。 密接なスキップ接続を持つこのアーキテクチャの定式化を用いることで,モデル全体の複雑さのごく一部で,現代のアプローチに匹敵するパフォーマンスを実現します。

Robust semantic scene segmentation for automotive applications is a challenging problem in two key aspects: (1) labelling every individual scene pixel and (2) performing this task under unstable weather and illumination changes (e.g., foggy weather), which results in poor outdoor scene visibility. Such visibility limitations lead to non-optimal performance of generalised deep convolutional neural network-based semantic scene segmentation. In this paper, we propose an efficient end-to-end automotive semantic scene understanding approach that is robust to foggy weather conditions. As an end-to-end pipeline, our proposed approach provides: (1) the transformation of imagery from foggy to clear weather conditions using a domain transfer approach (correcting for poor visibility) and (2) semantically segmenting the scene using a competitive encoder-decoder architecture with low computational complexity (enabling real-time performance). Our approach incorporates RGB colour, depth and luminance images via distinct encoders with dense connectivity and features fusion to effectively exploit information from different inputs, which contributes to an optimal feature representation within the overall model. Using this architectural formulation with dense skip connections, our model achieves comparable performance to contemporary approaches at a fraction of the overall model complexity.
翻訳日:2021-05-16 01:59:09 公開日:2020-12-09
# LSTMリカレントニューラルネットワークを用いた状況認識のための航空機停止予測

LSTM recurrent neural network assisted aircraft stall prediction for enhanced situational awareness ( http://arxiv.org/abs/2012.04876v1 )

ライセンス: Link先を確認
Tahsin Sejat Saniat, Tahiat Goni, Shaikat M. Galib(参考訳) 人類の動力飛行導入の夜明け以来、航空機のストールに起因する複数の事件があった。 現代のほとんどの航空機は、パイロットに潜在的な停止を警告する高度な警告システムを備えており、パイロットは必要な回復措置を採用することができる。 しかし、これらの警告は、飛行機が実際にストールに入る前に短い窓を持ち、パイロットにそれを防ぐために迅速に行動するよう要求することが多い。 本稿では,停止警告の起動前であっても,事前予測を行うための深層学習に基づくアプローチを提案する。 本稿では,Long Short-term memory (LSTM) Recurrent Neural Network (RNN) の機能を活用し,シーケンシャルな飛行中のセンサデータから潜在的ストールを予測する新しいアプローチを提案する。 3つの異なるニューラルネットワークアーキテクチャが研究された。 26400秒のシミュレータフライトデータに基づいてトレーニングされたニューラルネットワークモデルは、ストールウォーニングトリガーの約10秒前に95%以上の精度で潜在的なストールを予測することができる。 これによりパイロットの予期せぬストールに対処する準備が大幅に強化され、従来のストール警告システムに追加の安全層が加えられる。

Since the dawn of mankind's introduction to powered flights, there have been multiple incidents which can be attributed to aircraft stalls. Most modern-day aircraft are equipped with advanced warning systems to warn the pilots about a potential stall, so that pilots may adopt the necessary recovery measures. But these warnings often have a short window before the aircraft actually enters a stall and require the pilots to act promptly to prevent it. In this paper, we propose a deep learning based approach to predict an Impending stall, well in advance, even before the stall-warning is triggered. We leverage the capabilities of long short-term memory (LSTM) recurrent neural networks (RNN) and propose a novel approach to predict potential stalls from the sequential in-flight sensor data. Three different neural network architectures were explored. The neural network models, trained on 26400 seconds of simulator flight data are able to predict a potential stall with > 95% accuracy, approximately 10 seconds in advance of the stall-warning trigger. This can significantly augment the Pilot's preparedness to handle an unexpected stall and will add an additional layer of safety to the traditional stall warning systems.
翻訳日:2021-05-16 01:58:04 公開日:2020-12-09
# 固有構造パラメータによる敵攻撃に対するディープスパイクニューラルネットワークの確保

Securing Deep Spiking Neural Networks against Adversarial Attacks through Inherent Structural Parameters ( http://arxiv.org/abs/2012.05321v1 )

ライセンス: Link先を確認
Rida El-Allami and Alberto Marchisio and Muhammad Shafique and Ihsen Alouani(参考訳) ディープラーニング(DL)アルゴリズムはその実用的な問題解決能力のために人気を集めている。 しかし、彼らは深刻な完全性の脅威、すなわち敵の攻撃に対する脆弱性に苦しんでいる。 DL信頼性の追求において、最近の研究は、これらの攻撃に対するスパイキングニューラルネットワーク(SNN)の本質的な堅牢性は、それらの構造的なスパイキングパラメータのばらつきを考慮せずに主張した。 本稿では,内部構造パラメータによるSNNのセキュリティ向上について検討する。 具体的には、ニューロンの発射電圧閾値と時間窓境界の値が異なる敵攻撃に対するSNNの堅牢性について検討する。 我々は、強いホワイトボックス設定で異なる敵攻撃の下でSNNのセキュリティを、異なるノイズ予算と異なるスパイクパラメータで徹底的に研究する。 その結果,SNNの安全性に対する構造パラメータの影響が大きく,従来の非喫煙型DLシステムよりも85%高い堅牢性を持つ信頼性の高いSNNの設計に期待できるスイートスポットが到達できた。 我々の知る限りでは、SNNにおける構造的パラメータが敵攻撃に対する堅牢性に与える影響を調査する最初の研究である。 提案された貢献と実験的なフレームワークは、再現可能な研究のためにコミュニティにオンラインで提供されている。

Deep Learning (DL) algorithms have gained popularity owing to their practical problem-solving capacity. However, they suffer from a serious integrity threat, i.e., their vulnerability to adversarial attacks. In the quest for DL trustworthiness, recent works claimed the inherent robustness of Spiking Neural Networks (SNNs) to these attacks, without considering the variability in their structural spiking parameters. This paper explores the security enhancement of SNNs through internal structural parameters. Specifically, we investigate the SNNs robustness to adversarial attacks with different values of the neuron's firing voltage thresholds and time window boundaries. We thoroughly study SNNs security under different adversarial attacks in the strong white-box setting, with different noise budgets and under variable spiking parameters. Our results show a significant impact of the structural parameters on the SNNs' security, and promising sweet spots can be reached to design trustworthy SNNs with 85% higher robustness than a traditional non-spiking DL system. To the best of our knowledge, this is the first work that investigates the impact of structural parameters on SNNs robustness to adversarial attacks. The proposed contributions and the experimental framework is available online to the community for reproducible research.
翻訳日:2021-05-16 01:57:45 公開日:2020-12-09
# 縦断観測データによる疾患進行軌跡のモデル化

Modeling Disease Progression Trajectories from Longitudinal Observational Data ( http://arxiv.org/abs/2012.05324v1 )

ライセンス: Link先を確認
Bum Chul Kwon, Peter Achenbach, Jessica L. Dunne, William Hagopian, Markus Lundgren, Kenney Ng, Riitta Veijola, Brigitte I. Frohnert, Vibha Anand, the T1DI Study Group(参考訳) 疾患進行パターンの分析は、多くの慢性疾患の進行過程に有用な洞察を与えることができる。 これらの分析は、予防治験のための採用や、被災者に対する治療の開発とパーソナライズに役立てることができる。 隠れマルコフモデル(HMM)を用いて疾患進行パターンを学習し,可視化手法を用いて異なる軌跡に抽出する。 本研究はT1DI研究グループによる縦断観察データを用いて1型糖尿病(T1D)の領域に適用した。 本手法は,最近報告された所見と相関する疾患進行軌跡を同定する。 本稿では,モデル開発における反復的プロセスについて述べる。 これらの方法は、時間とともに進化する他の慢性疾患にも適用できる。

Analyzing disease progression patterns can provide useful insights into the disease processes of many chronic conditions. These analyses may help inform recruitment for prevention trials or the development and personalization of treatments for those affected. We learn disease progression patterns using Hidden Markov Models (HMM) and distill them into distinct trajectories using visualization methods. We apply it to the domain of Type 1 Diabetes (T1D) using large longitudinal observational data from the T1DI study group. Our method discovers distinct disease progression trajectories that corroborate with recently published findings. In this paper, we describe the iterative process of developing the model. These methods may also be applied to other chronic conditions that evolve over time.
翻訳日:2021-05-16 01:57:26 公開日:2020-12-09
# 人間行動認識のためのコントラスト予測符号化

Contrastive Predictive Coding for Human Activity Recognition ( http://arxiv.org/abs/2012.05333v1 )

ライセンス: Link先を確認
Harish Haresamudram, Irfan Essa, Thomas Ploetz(参考訳) 身体運動センサを用いたヒト活動認識(HAR)には特徴抽出が不可欠である。 最近、学習した表現がうまく使われ、手動で設計した機能に代わる有望な代替手段を提供している。 本研究は,モバイルおよびユビキタスコンピューティングのシナリオで容易に収集可能な,少量のラベル付きデータの有効利用と,ラベルなしデータの機会的利用に焦点を当てる。 我々は,センサデータの時間性を表現レベルで明示的に考慮することが,困難なシナリオにおいて効果的なHARに重要な役割を果たすことを仮定し,実証する。 本稿では,センサデータストリームの長期的時間構造をキャプチャする人間行動認識にContrastive Predictive Coding(CPC)フレームワークを導入する。 実生活認識タスクに対する実験的な評価を通じて,HARの改善効果を実証する。 CPCベースの事前学習は自己管理され、得られた表現は標準のアクティビティチェーンに統合できる。 これにより,少量のラベル付きトレーニングデータしか利用できない場合の認識性能が大幅に向上し,本手法の実用的価値が示された。

Feature extraction is crucial for human activity recognition (HAR) using body-worn movement sensors. Recently, learned representations have been used successfully, offering promising alternatives to manually engineered features. Our work focuses on effective use of small amounts of labeled data and the opportunistic exploitation of unlabeled data that are straightforward to collect in mobile and ubiquitous computing scenarios. We hypothesize and demonstrate that explicitly considering the temporality of sensor data at representation level plays an important role for effective HAR in challenging scenarios. We introduce the Contrastive Predictive Coding (CPC) framework to human activity recognition, which captures the long-term temporal structure of sensor data streams. Through a range of experimental evaluations on real-life recognition tasks, we demonstrate its effectiveness for improved HAR. CPC-based pre-training is self-supervised, and the resulting learned representations can be integrated into standard activity chains. It leads to significantly improved recognition performance when only small amounts of labeled training data are available, thereby demonstrating the practical value of our approach.
翻訳日:2021-05-16 01:57:15 公開日:2020-12-09
# 構造トポロジー最適化のための物理一貫性深層学習

Physics-consistent deep learning for structural topology optimization ( http://arxiv.org/abs/2012.05359v1 )

ライセンス: Link先を確認
Jaydeep Rade, Aditya Balu, Ethan Herron, Jay Pathak, Rishikesh Ranade, Soumik Sarkar, Adarsh Krishnamurthy(参考訳) トポロジ最適化は、コンポーネントの設計を洗練し、性能を向上するための一般的なアプローチとして登場した。 しかし、現在最先端のトポロジー最適化フレームワークは計算集約的であり、主に最適化プロセス中のコンポーネントのパフォーマンスを評価するのに必要な複数の有限要素分析イテレーションが必要である。 近年,機械学習に基づくトポロジー最適化手法が研究者によって研究されている。 しかし、従来のアプローチは主に低分解能幾何を持つ単純な2次元の応用で実証されてきた。 さらに、現在のアプローチは、トレーニングに大規模なデータセットを必要とするエンドツーエンドの予測のための単一の機械学習モデルに基づいている。 これらの課題により、現在のアプローチをより高い解像度に拡張するのは非自明です。 本稿では,高分解能の3次元測地におけるトポロジ最適化のための深層学習に基づくフレームワークについて検討する。 複数のネットワークをトレーニングし、それぞれが全体的なトポロジ最適化手法の異なる側面を学ぼうとすることで、これを実現できるのです。 2次元および3次元ジオメトリにおける我々のフレームワークの適用例を示す。 その結果,提案手法は現在のMLベースのトポロジ最適化手法よりも,最終的な最適化設計をより良く予測できることがわかった。

Topology optimization has emerged as a popular approach to refine a component's design and increasing its performance. However, current state-of-the-art topology optimization frameworks are compute-intensive, mainly due to multiple finite element analysis iterations required to evaluate the component's performance during the optimization process. Recently, machine learning-based topology optimization methods have been explored by researchers to alleviate this issue. However, previous approaches have mainly been demonstrated on simple two-dimensional applications with low-resolution geometry. Further, current approaches are based on a single machine learning model for end-to-end prediction, which requires a large dataset for training. These challenges make it non-trivial to extend the current approaches to higher resolutions. In this paper, we explore a deep learning-based framework for performing topology optimization for three-dimensional geometries with a reasonably fine (high) resolution. We are able to achieve this by training multiple networks, each trying to learn a different aspect of the overall topology optimization methodology. We demonstrate the application of our framework on both 2D and 3D geometries. The results show that our approach predicts the final optimized design better than current ML-based topology optimization methods.
翻訳日:2021-05-16 01:56:59 公開日:2020-12-09
# 機械学習セキュリティのためのリスク管理フレームワーク

Risk Management Framework for Machine Learning Security ( http://arxiv.org/abs/2012.04884v1 )

ライセンス: Link先を確認
Jakub Breier and Adrian Baldwin and Helen Balinsky and Yang Liu(参考訳) 機械学習モデルに対する敵意攻撃は、学界と産業の両方で非常に研究されているトピックとなっている。 これらの攻撃は、従来のセキュリティ脅威とともに、機械学習モデルの使用に依存する組織の機密性、完全性、可用性を侵害する可能性がある。 時間とともに展開される可能性のある新たな攻撃のタイプを予測することは容易ではないが、マシンラーニングモデルの使用に伴うリスク評価や、これらのリスクを最小化するための設計措置が可能である。 本稿では,機械学習モデルに依存する組織に対して,リスク管理プロセスを導くための新しい枠組みを提案する。 まず、データドメイン、モデルドメイン、セキュリティコントロールドメインにおける評価係数(EF)のセットを定義します。 我々は,その資産とタスクを重要視する手法を開発し,EFの機密性,完全性,可用性への貢献の重みを設定し,EFの実装スコアに基づいて組織全体のセキュリティ状態を決定する。 この情報に基づいて、実装されたセキュリティ対策の弱いリンクを特定し、どの対策が完全に欠落しているかを突き止めることができる。 弊社のフレームワークは、組織における機械学習モデルの使用に関するセキュリティ問題に対処し、それらの資産を保護するための適切なセキュリティ対策に焦点を合わせるのに役立つと信じている。

Adversarial attacks for machine learning models have become a highly studied topic both in academia and industry. These attacks, along with traditional security threats, can compromise confidentiality, integrity, and availability of organization's assets that are dependent on the usage of machine learning models. While it is not easy to predict the types of new attacks that might be developed over time, it is possible to evaluate the risks connected to using machine learning models and design measures that help in minimizing these risks. In this paper, we outline a novel framework to guide the risk management process for organizations reliant on machine learning models. First, we define sets of evaluation factors (EFs) in the data domain, model domain, and security controls domain. We develop a method that takes the asset and task importance, sets the weights of EFs' contribution to confidentiality, integrity, and availability, and based on implementation scores of EFs, it determines the overall security state in the organization. Based on this information, it is possible to identify weak links in the implemented security measures and find out which measures might be missing completely. We believe our framework can help in addressing the security issues related to usage of machine learning models in organizations and guide them in focusing on the adequate security measures to protect their assets.
翻訳日:2021-05-16 01:56:43 公開日:2020-12-09
# プロジェクトグループによる参加予算

Participatory Budgeting with Project Groups ( http://arxiv.org/abs/2012.05213v1 )

ライセンス: Link先を確認
Pallavi Jain, Krzysztof Sornat, Nimrod Talmon, Meirav Zehavi(参考訳) 我々は,事前定義されたプロジェクトに対して,投票者が承認投票を行い,世界的な予算制限に加えて,各グループごとに予算制限を設けた標準承認型参加予算モデル(pb)の一般化について検討する。 予算制限を尊重しながら、投票者の満足度を最大化するプロジェクトバンドルを識別する計算複雑性について検討する。 この問題は一般に難解であり、グループ構造が階層的に近いグループやインスタンスが少ないインスタンスや効率的な近似アルゴリズムなど、いくつかの特別なケースで効率的な厳密アルゴリズムを記述することができる。 私たちの結果は、例えば自治体が、テーマ的に、地理的に包括的に、よりリッチなpbプロセスを持つことを可能にします。

We study a generalization of the standard approval-based model of participatory budgeting (PB), in which voters are providing approval ballots over a set of predefined projects and -- in addition to a global budget limit, there are several groupings of the projects, each group with its own budget limit. We study the computational complexity of identifying project bundles that maximize voter satisfaction while respecting all budget limits. We show that the problem is generally intractable and describe efficient exact algorithms for several special cases, including instances with only few groups and instances where the group structure is close to be hierarchical, as well as efficient approximation algorithms. Our results could allow, e.g., municipalities to hold richer PB processes that are thematically and geographically inclusive.
翻訳日:2021-05-16 01:55:53 公開日:2020-12-09
# アルゴリズムによるリスク評価は、高い状況下での人間の意思決定プロセスを変える

Algorithmic risk assessments can alter human decision-making processes in high-stakes government contexts ( http://arxiv.org/abs/2012.05370v1 )

ライセンス: Link先を確認
Ben Green, Yiling Chen(参考訳) 政府は、重要な決定を行う際にアルゴリズムによるリスクアセスメントに目を向け、これらのアルゴリズムが公務員の政策関連予測能力を向上させ、それによってよりインフォームドな決定につながると信じている。 しかし、多くの政策決定は、競合する社会的目標とリスク最小化のバランスをとる必要があるため、リスクアセスメントの影響を評価するには、これらのアルゴリズムがいかに正確に予測するよりも、政策決定を行う際に、公務員がどのようにリスク評価に影響されるかを考慮する必要がある。 2,140名からなるオンライン実験を通じて,リスクアセスメントが意思決定の要因としてリスクの塩分を増加させ,これらの変化が人種格差を悪化させる可能性があることを示す,最初の大規模証拠を提供する。 これらの結果から,アルゴリズムによる予測精度の向上は必ずしも人間の意思決定を改善するものではないことを示し,意思決定者による政府アルゴリズムの使用方法を実験的に検証する必要性を強調した。

Governments are increasingly turning to algorithmic risk assessments when making important decisions, believing that these algorithms will improve public servants' ability to make policy-relevant predictions and thereby lead to more informed decisions. Yet because many policy decisions require balancing risk-minimization with competing social goals, evaluating the impacts of risk assessments requires considering how public servants are influenced by risk assessments when making policy decisions rather than just how accurately these algorithms make predictions. Through an online experiment with 2,140 lay participants simulating two high-stakes government contexts, we provide the first large-scale evidence that risk assessments can systematically alter decision-making processes by increasing the salience of risk as a factor in decisions and that these shifts could exacerbate racial disparities. These results demonstrate that improving human prediction accuracy with algorithms does not necessarily improve human decisions and highlight the need to experimentally test how government algorithms are used by human decision-makers.
翻訳日:2021-05-16 01:55:41 公開日:2020-12-09
# 腫瘍画像解析のための臨床的意義のある形状特徴の発見

Discovering Clinically Meaningful Shape Features for the Analysis of Tumor Pathology Images ( http://arxiv.org/abs/2012.04878v1 )

ライセンス: Link先を確認
Esteban Fern\'andez Morales and Cong Zhang and Guanghua Xiao and Chul Moon and Qiwei Li(参考訳) 先端イメージング技術により,腫瘍組織スライドのデジタル病理イメージングは,癌診断のための日常的な臨床手順になりつつある。 このプロセスは、高分解能で組織学的詳細をキャプチャする大規模なイメージングデータを生成する。 近年のディープラーニング技術の進歩により,病理画像中の腫瘍領域を自動的に検出し,特徴付けることが可能になった。 同定された腫瘍領域から,その形状,形状,トポロジーを定量化した30個の明瞭なディスクリプタを抽出した。 全国肺スクリーニング試験 (n=143) の肺腺癌患者において, それらのディスクリプターの特徴が予後に与える影響を実証した。 また、がんゲノムアトラスプログラム(n=318)から独立した患者に対して、ディスクリプタベースの予後予測モデルを開発し、検証した。 本研究は,腫瘍の形状,幾何学的および位相的特徴と患者の予後との関係に関する新たな知見を提案する。 https://github.com/estfernandez/Slide_Image_Segmentation_and_Extraction。

With the advanced imaging technology, digital pathology imaging of tumor tissue slides is becoming a routine clinical procedure for cancer diagnosis. This process produces massive imaging data that capture histological details in high resolution. Recent developments in deep-learning methods have enabled us to automatically detect and characterize the tumor regions in pathology images at large scale. From each identified tumor region, we extracted 30 well-defined descriptors that quantify its shape, geometry, and topology. We demonstrated how those descriptor features were associated with patient survival outcome in lung adenocarcinoma patients from the National Lung Screening Trial (n=143). Besides, a descriptor-based prognostic model was developed and validated in an independent patient cohort from The Cancer Genome Atlas Program program (n=318). This study proposes new insights into the relationship between tumor shape, geometrical, and topological features and patient prognosis. We provide software in the form of R code on GitHub: https://github.com/estfernandez/Slide_Image_Segmentation_and_Extraction.
翻訳日:2021-05-16 01:55:23 公開日:2020-12-09
# JANUS: オブジェクトおよび異常検出ワークロードのための商用およびオープンソースクラウドおよびエッジプラットフォームベンチマーク

JANUS: Benchmarking Commercial and Open-Source Cloud and Edge Platforms for Object and Anomaly Detection Workloads ( http://arxiv.org/abs/2012.04880v1 )

ライセンス: Link先を確認
Karthick Shankar, Pengcheng Wang, Ran Xu, Ashraf Mahgoub, Somali Chaterji(参考訳) 多様なIoTワークロードでは、データが収集される場所に計算と分析を配置することがますます重要になっている。 私たちは、さまざまな利用可能なプラットフォームでIoTデータ上で分析を実行することのパフォーマンスとコストの影響を理解しようとしています。 これらのワークロードは、センサーデータの異常検出や、ドローンから取得したビデオフィードからのオブジェクト検出など、計算集約的な処理が可能だ。 計算軽量iotワークロードと計算集約型iotワークロードのパフォーマンス/コストと計算と通信コストを,janusという論文で検証した。 さらに、Faster R-CNN(FRCNN)のようなオープンソースおよびチューニング可能なソリューションとは対照的に、Amazon Rekognition、Google Vision、Azure Cognitive Servicesなど、プロプライエタリなディープラーニングオブジェクト検出パッケージの長所と短所についても検討しています。 AWS IoT Greengrassは、コンピューティングライトのアウトレイラ検出ワークロードにおいて、他のクラウドプラットフォームと比較して、少なくとも2倍のレイテンシと1.25倍のコストを提供する。 計算集約型のストリーミングビデオ分析タスクでは、クラウドvm上で動作するオブジェクト検出のオープンソースソリューションは、amazon、microsoft、googleが提供するプロプライエタリなソリューションに比べてドルコストを節約するが、レイテンシ(最大6倍)では失われる。 低消費電力のエッジデバイスで動作する場合、レイテンシは49倍以下になる。

With diverse IoT workloads, placing compute and analytics close to where data is collected is becoming increasingly important. We seek to understand what is the performance and the cost implication of running analytics on IoT data at the various available platforms. These workloads can be compute-light, such as outlier detection on sensor data, or compute-intensive, such as object detection from video feeds obtained from drones. In our paper, JANUS, we profile the performance/$ and the compute versus communication cost for a compute-light IoT workload and a compute-intensive IoT workload. In addition, we also look at the pros and cons of some of the proprietary deep-learning object detection packages, such as Amazon Rekognition, Google Vision, and Azure Cognitive Services, to contrast with open-source and tunable solutions, such as Faster R-CNN (FRCNN). We find that AWS IoT Greengrass delivers at least 2X lower latency and 1.25X lower cost compared to all other cloud platforms for the compute-light outlier detection workload. For the compute-intensive streaming video analytics task, an opensource solution to object detection running on cloud VMs saves on dollar costs compared to proprietary solutions provided by Amazon, Microsoft, and Google, but loses out on latency (up to 6X). If it runs on a low-powered edge device, the latency is up to 49X lower.
翻訳日:2021-05-16 01:55:09 公開日:2020-12-09
# クロスリンガル画像キャプションのアノテーションフリー化に向けて

Towards Annotation-Free Evaluation of Cross-Lingual Image Captioning ( http://arxiv.org/abs/2012.04925v1 )

ライセンス: Link先を確認
Aozhu Chen, Xinyi Huang, Hailan Lin, Xirong Li(参考訳) 英語以外のターゲット言語でラベルのない画像をキャプションできるクロスリンガル画像キャプションは、マルチメディア分野における新たなトピックである。 本稿では,対象言語毎の参照文の書き直しから貴重な人的資源を節約するために,言語横断画像キャプションの注釈なし評価に勇敢な試みを行う。 英語の参照が利用可能かどうかによっては,2つのシナリオが検討される。 参照可能な最初のシナリオでは、WMDRelとCLinRelの2つのメトリクスを提案する。 WMDRel は Word Mover's Distance を用いて、モデル生成キャプションと英語参照の機械翻訳のセマンティックな関連性を測定する。 両キャプションを深い視覚的特徴空間に投影することにより、CLinRelは視覚指向の言語間の関連度尺度である。 参照がゼロな第2のシナリオについては,clinrel が使用するのと同じ視覚特徴空間において,生成したキャプションと画像内容とのクロスメディア関係を計算するために cmedrel を提案する。 有望な結果は、対象言語での参照を必要としない評価のための新しい指標の可能性を示している。

Cross-lingual image captioning, with its ability to caption an unlabeled image in a target language other than English, is an emerging topic in the multimedia field. In order to save the precious human resource from re-writing reference sentences per target language, in this paper we make a brave attempt towards annotation-free evaluation of cross-lingual image captioning. Depending on whether we assume the availability of English references, two scenarios are investigated. For the first scenario with the references available, we propose two metrics, i.e., WMDRel and CLinRel. WMDRel measures the semantic relevance between a model-generated caption and machine translation of an English reference using their Word Mover's Distance. By projecting both captions into a deep visual feature space, CLinRel is a visual-oriented cross-lingual relevance measure. As for the second scenario, which has zero reference and is thus more challenging, we propose CMedRel to compute a cross-media relevance between the generated caption and the image content, in the same visual feature space as used by CLinRel. The promising results show high potential of the new metrics for evaluation with no need of references in the target language.
翻訳日:2021-05-16 01:54:44 公開日:2020-12-09
# vLPD-Net: 3Dポイントクラウドを用いた位置認識のための登録支援ドメイン適応ネットワーク

vLPD-Net: A Registration-aided Domain Adaptation Network for 3D Point Cloud Based Place Recognition ( http://arxiv.org/abs/2012.05018v1 )

ライセンス: Link先を確認
Zhijian Qiao, Hanjiang Hu, Siyuan Chen, Zhe Liu, Zhuowen Shen, Hesheng Wang(参考訳) 自律走行と移動ロボットのための大規模SLAMの分野では、3Dポイントのクラウドによる位置認識が、昼時間と天候の急激な変動を伴う環境の変化に対する堅牢性から、大きな研究の関心を喚起している。 しかし、高品質なクラウドデータと、実際の世界での登録と位置認識モデルのトレーニングの基盤を得るには、時間と労力がかかる。 この目的のために、ポイントクラウドに基づく位置認識のための新しい登録支援3Dドメイン適応ネットワークを提案する。 幾何特性から特徴を学習するために構造対応登録ネットワークを導入し、メトリック学習にはマッチングレートに基づく三重項損失が関与する。 このモデルは、GTA-Vによる新たな仮想LiDARデータセットを通じて、さまざまな天候と日中条件でトレーニングされ、局所的特徴とグローバルな特徴を整合させることで、現実のドメインにドメイン適応する。 構造認識登録ネットワークの有効性とドメイン適応性を検証するために,大規模な実験が行われた。 この結果は,実世界のoxford robotcarデータセットにおける最先端の3d位置認識ベースラインを上回り,仮想データセットの大規模登録を可視化した。

In the field of large-scale SLAM for autonomous driving and mobile robotics, 3D point cloud based place recognition has aroused significant research interest due to its robustness to changing environments with drastic daytime and weather variance. However, it is time-consuming and effort-costly to obtain high-quality point cloud data and groundtruth for registration and place recognition model training in the real world. To this end, a novel registration-aided 3D domain adaptation network for point cloud based place recognition is proposed. A structure-aware registration network is introduced to help learn feature from geometric properties and a matching rate based triplet loss is involved for metric learning. The model is trained through a new virtual LiDAR dataset through GTA-V with diverse weather and daytime conditions and domain adaptation is implemented to the real-world domain by aligning the local and global features. Extensive experiments have been conducted to validate the effectiveness of the structure-aware registration network and domain adaptation. Our results outperform state-of-the-art 3D place recognition baselines on the real-world Oxford RobotCar dataset with the visualization of large-scale registration on the virtual dataset.
翻訳日:2021-05-16 01:54:06 公開日:2020-12-09
# 織物の欠陥検出自動化のためのSylvester Matrixを用いた類似度推定法

Sylvester Matrix Based Similarity Estimation Method for Automation of Defect Detection in Textile Fabrics ( http://arxiv.org/abs/2012.05800v1 )

ライセンス: Link先を確認
R.M.L.N. Kumari, and G.A.C.T. Bandara, and Maheshi B. Dissanayake(参考訳) 布の欠陥検出は繊維製造業において重要な品質管理ステップである。 本稿では,Sylvester Matrix Based similarity Method(SMBSM)に基づくマシンビジョンシステムを提案し,欠陥検出プロセスを自動化する。 このアルゴリズムは6つの位相、すなわち解像度マッチング、ヒストグラム仕様とメディア平均に基づくサブ画像クラップしたヒストグラム等化を用いた画像強調、アライメントとヒステリシスプロセスによる画像登録、画像サブトラクション、エッジ検出、およびシルベスター行列のランクによる故障検出を含む。 実験の結果,提案手法は頑健であり,精度93.4%,精度95.8%,計算速度2275msであることがわかった。

Fabric defect detection is a crucial quality control step in the textile manufacturing industry. In this article, machine vision system based on the Sylvester Matrix Based Similarity Method (SMBSM) is proposed to automate the defect detection process. The algorithm involves six phases, namely resolution matching, image enhancement using Histogram Specification and Median-Mean Based Sub-Image-Clipped Histogram Equalization, image registration through alignment and hysteresis process, image subtraction, edge detection, and fault detection by means of the rank of the Sylvester matrix. The experimental results demonstrate that the proposed method is robust and yields an accuracy of 93.4%, precision of 95.8%, with 2275 ms computational speed.
翻訳日:2021-05-16 01:53:47 公開日:2020-12-09
# 観察からの学習のためのビデオキャプションに基づく行動系列の理解

Understanding Action Sequences based on Video Captioning for Learning-from-Observation ( http://arxiv.org/abs/2101.05061v1 )

ライセンス: Link先を確認
Iori Yanokura, Naoki Wake, Kazuhiro Sasabuchi, Katsushi Ikeuchi, Masayuki Inaba(参考訳) 人間のデモビデオからの学習アクションは、インテリジェントなロボットシステムにとって有望である。 人間の動きがロボットに貴重なヒントを与えるため、正確なセクションを抽出し、抽出したビデオセクションを詳細に再保存することは複雑なスキルを模倣するために重要である。 しかし,一般的な映像理解手法では,全体像の理解が重視され,正確な部分の抽出や人間の意図との整合性に配慮が欠如している。 本稿では,人間の実演映像を言語指示で分割理解し,正確な動作シーケンスを抽出できる,観察からの学習フレームワークを提案する。 分割は、人間の日常行動とロボットの動きを生成するのに必要な物体中心の顔接触遷移を一致させる手の動きの局所的最小点に基づいて行われる。 次に,我々の新しい日常行動ビデオデータセットから学習した映像キャプション技術を用いて,分割映像の動作記述を抽出する。 最後に,人間の意図を正しく理解し,映像内の意図しない動作を無視するために,動作記述と言語指示を一致させる。 手の速度に基づく動画分割の有効性を評価し,有効性を示す。 生活行動に着目した新しい映像キャプションデータセットの実験結果から,提案手法の有効性が示された。 ソースコード、トレーニングされたモデル、データセットが利用可能になる。

Learning actions from human demonstration video is promising for intelligent robotic systems. Extracting the exact section and re-observing the extracted video section in detail is important for imitating complex skills because human motions give valuable hints for robots. However, the general video understanding methods focus more on the understanding of the full frame,lacking consideration on extracting accurate sections and aligning them with the human's intent. We propose a Learning-from-Observation framework that splits and understands a video of a human demonstration with verbal instructions to extract accurate action sequences. The splitting is done based on local minimum points of the hand velocity, which align human daily-life actions with object-centered face contact transitions required for generating robot motion. Then, we extract a motion description on the split videos using video captioning techniques that are trained from our new daily-life action video dataset. Finally, we match the motion descriptions with the verbal instructions to understand the correct human intent and ignore the unintended actions inside the video. We evaluate the validity of hand velocity-based video splitting and demonstrate that it is effective. The experimental results on our new video captioning dataset focusing on daily-life human actions demonstrate the effectiveness of the proposed method. The source code, trained models, and the dataset will be made available.
翻訳日:2021-05-16 01:53:16 公開日:2020-12-09
# iidとコミュニケーション・アウェア・グルーピングによる正確で高速な連合学習

Accurate and Fast Federated Learning via IID and Communication-Aware Grouping ( http://arxiv.org/abs/2012.04857v1 )

ライセンス: Link先を確認
Jin-woo Lee, Jaehoon Oh, Yooju Shin, Jae-Gil Lee, Se-Young Yoon(参考訳) 連合学習は、協調機械学習の新しいパラダイムとして登場したが、非独立かつ同一分散(iid)データや高い通信コストといったいくつかの課題にも直面している。 そこで本研究では,データ分布と物理位置に基づいてノードをグループ化することで,精度と通信速度を同時に最大化する,iidと通信認識グループ連合学習の新たな枠組みを提案する。 さらに,FedAvg-ICと呼ばれる正規収束解析と効率的な最適化アルゴリズムを提案する。 実験の結果、最先端のアルゴリズムと比較して、FedAvg-ICはテストの精度を最大22.2%改善し、同時に通信時間を12%にまで短縮した。

Federated learning has emerged as a new paradigm of collaborative machine learning; however, it has also faced several challenges such as non-independent and identically distributed(IID) data and high communication cost. To this end, we propose a novel framework of IID and communication-aware group federated learning that simultaneously maximizes both accuracy and communication speed by grouping nodes based on data distributions and physical locations of the nodes. Furthermore, we provide a formal convergence analysis and an efficient optimization algorithm called FedAvg-IC. Experimental results show that, compared with the state-of-the-art algorithms, FedAvg-IC improved the test accuracy by up to 22.2% and simultaneously reduced the communication time to as small as 12%.
翻訳日:2021-05-16 01:52:58 公開日:2020-12-09
# グラフ近似を用いたグラフ畳み込みネットワークの分散学習

Distributed Training of Graph Convolutional Networks using Subgraph Approximation ( http://arxiv.org/abs/2012.04930v1 )

ライセンス: Link先を確認
Alexandra Angerd, Keshav Balasubramanian, Murali Annavaram(参考訳) 現代の機械学習技術は、グラフとしてモデル化されたデータにうまく適応している。 しかし、多くの現実世界のグラフは典型的には非常に大きく、記憶に合わないため、しばしば機械学習モデルのトレーニングが難解である。 分散トレーニングは、入力データが独立に同じ分散(すなわちd)であると仮定される機械学習領域におけるメモリ問題を緩和し、トレーニングを高速化するために成功している。 しかし、グラフ畳み込みネットワーク(GCN)でトレーニングインプットとして使用されるグラフのような非i.dデータのトレーニングは、グラフ分割境界で情報が失われるため、精度の問題を引き起こす。 本稿では,グラフの複数の分割にまたがる失われた情報をサブグラフ近似スキームによって緩和する学習戦略を提案する。 提案手法は,各サブグラフに,他のすべてのサブグラフから近似した少量のエッジと頂点情報を付加する。 サブグラフ近似アプローチは、メモリフットプリントを低く保ちつつ、マシン間の同期オーバーヘッドを最小化しながら、分散トレーニングシステムがシングルマシン精度で収束するのに役立つ。

Modern machine learning techniques are successfully being adapted to data modeled as graphs. However, many real-world graphs are typically very large and do not fit in memory, often making the problem of training machine learning models on them intractable. Distributed training has been successfully employed to alleviate memory problems and speed up training in machine learning domains in which the input data is assumed to be independently identical distributed (i.i.d). However, distributing the training of non i.i.d data such as graphs that are used as training inputs in Graph Convolutional Networks (GCNs) causes accuracy problems since information is lost at the graph partitioning boundaries. In this paper, we propose a training strategy that mitigates the lost information across multiple partitions of a graph through a subgraph approximation scheme. Our proposed approach augments each sub-graph with a small amount of edge and vertex information that is approximated from all other sub-graphs. The subgraph approximation approach helps the distributed training system converge at single-machine accuracy, while keeping the memory footprint low and minimizing synchronization overhead between the machines.
翻訳日:2021-05-16 01:52:45 公開日:2020-12-09
# 三相モチーフフィールドによる時系列異常検出と心房細動心電図分類への応用

Anomaly Detection in Time Series with Triadic Motif Fields and Application in Atrial Fibrillation ECG Classification ( http://arxiv.org/abs/2012.04936v1 )

ライセンス: Link先を確認
Yadong Zhang and Xin Chen(参考訳) 時系列分析では、時系列モチーフと時系列の順序パターンは、一般的な時間パターンと動的特徴を明らかにすることができる。 Triadic Motif Field (TMF) は3進時系列モチーフに基づく簡易かつ効果的な時系列画像符号化法である。 心電図 (ecg) 信号は、様々な心臓異常の診断に広く使用される時系列データである。 TMF画像は、正常および心房細動(AF)心電図信号の特徴を含む。 ECG信号の準周期特性を考慮すると、伝達学習事前学習畳み込みニューラルネットワーク(CNN)モデルを用いてTMF画像から動的特徴を抽出することができる。 抽出した特徴により、多層パーセプトロン(MLP)、ロジスティック回帰、ランダムフォレストといった単純な分類器を正確な異常検出に適用することができる。 PhysioNet Challenge 2017データベースのテストデータセットでは、VGG16転送学習モデルとMLP分類器を用いたTMF分類モデルは、AF分類における95.50%のROC-AUCと88.43%のF1スコアで最高のパフォーマンスを示している。 さらに、TMF分類モデルは、テストデータセット内のAF患者を高精度に識別することができる。 TMF画像から抽出した特徴ベクトルは, t-distributed Stochastic Neighbor Embedding 法により, 患者側のクラスタリングが明確であった。 とりわけtmf分類モデルは非常に優れた臨床解釈性を有する。 対称勾配重み付けクラスアクティベーションマッピングによって明らかになったパターンは、ビートとリズムレベルでの明確な臨床解釈を持っている。

In the time-series analysis, the time series motifs and the order patterns in time series can reveal general temporal patterns and dynamic features. Triadic Motif Field (TMF) is a simple and effective time-series image encoding method based on triadic time series motifs. Electrocardiography (ECG) signals are time-series data widely used to diagnose various cardiac anomalies. The TMF images contain the features characterizing the normal and Atrial Fibrillation (AF) ECG signals. Considering the quasi-periodic characteristics of ECG signals, the dynamic features can be extracted from the TMF images with the transfer learning pre-trained convolutional neural network (CNN) models. With the extracted features, the simple classifiers, such as the Multi-Layer Perceptron (MLP), the logistic regression, and the random forest, can be applied for accurate anomaly detection. With the test dataset of the PhysioNet Challenge 2017 database, the TMF classification model with the VGG16 transfer learning model and MLP classifier demonstrates the best performance with the 95.50% ROC-AUC and 88.43% F1 score in the AF classification. Besides, the TMF classification model can identify AF patients in the test dataset with high precision. The feature vectors extracted from the TMF images show clear patient-wise clustering with the t-distributed Stochastic Neighbor Embedding technique. Above all, the TMF classification model has very good clinical interpretability. The patterns revealed by symmetrized Gradient-weighted Class Activation Mapping have a clear clinical interpretation at the beat and rhythm levels.
翻訳日:2021-05-16 01:52:26 公開日:2020-12-09
# 事前学習による知識追跡の改善

Improving Knowledge Tracing via Pre-training Question Embeddings ( http://arxiv.org/abs/2012.05031v1 )

ライセンス: Link先を確認
Yunfei Liu, Yang Yang, Xianyu Chen, Jian Shen, Haifeng Zhang, Yong Yu(参考訳) 知識追跡(KT)は、学生が過去の回答に基づいて正しい質問に答えられるかどうかを予測するタスクを定義する。 質問情報の利用に多くの研究が費やされているが、質問やスキルの高度な情報は十分に抽出されていないため、以前の作業が適切に実行されることは困難である。 本稿では,豊富な側情報に対する各質問に対する埋め込みを事前学習し,得られた埋め込みに関する深いKTモデルを訓練することにより,KTに対する大きな利得を実現できることを示す。 具体的には、質問の難易度と、質問とスキルの間の二部グラフに含まれる3種類の関係を含む。 質問の埋め込みを事前学習するために,製品ベースのニューラルネットワークを用いて副次情報を復元することを提案する。 その結果、既存の深部KTモデルに事前トレーニングされた埋め込みを採用することで、3つの共通KTデータセットの最先端ベースラインを著しく上回る結果となった。

Knowledge tracing (KT) defines the task of predicting whether students can correctly answer questions based on their historical response. Although much research has been devoted to exploiting the question information, plentiful advanced information among questions and skills hasn't been well extracted, making it challenging for previous work to perform adequately. In this paper, we demonstrate that large gains on KT can be realized by pre-training embeddings for each question on abundant side information, followed by training deep KT models on the obtained embeddings. To be specific, the side information includes question difficulty and three kinds of relations contained in a bipartite graph between questions and skills. To pre-train the question embeddings, we propose to use product-based neural networks to recover the side information. As a result, adopting the pre-trained embeddings in existing deep KT models significantly outperforms state-of-the-art baselines on three common KT datasets.
翻訳日:2021-05-16 01:52:02 公開日:2020-12-09
# 信頼できない資源制約のセル無線ネットワークにおけるフェデレーション学習

Federated Learning in Unreliable and Resource-Constrained Cellular Wireless Networks ( http://arxiv.org/abs/2012.05137v1 )

ライセンス: Link先を確認
Mohammad Salehi and Ekram Hossain(参考訳) 近年、スマートデバイス数の増加とハードウェアの進歩により、データ駆動機械学習技術が注目されている。 しかし、プライバシーや通信上の問題により、このデータを集中した場所で収集することは不可能である。 フェデレーション・ラーニング(Federated Learning)とは、遠隔デバイス上で学習モデルをトレーニングする機械学習環境である。 フェデレーション学習アルゴリズムは、無線媒体の信頼性とリソース制約の無い性質を考慮しない限り、現実のシナリオでは採用できない。 本稿では,セルラー無線ネットワークに適したフェデレーション学習アルゴリズムを提案する。 収束性を証明し、収束率を最大化する最適なスケジューリングポリシーを提供する。 また,局所計算ステップと通信ステップが提案アルゴリズムの収束に与える影響についても検討した。 実際に,無線チャネルの信頼性が低い場合,フェデレートされた学習アルゴリズムは,彼らが採用したアルゴリズムとは異なる問題を解くことができることを示す。 最後に,実データと合成データに関する数多くの実験を通じて,提案アルゴリズムの収束を実証する。

With growth in the number of smart devices and advancements in their hardware, in recent years, data-driven machine learning techniques have drawn significant attention. However, due to privacy and communication issues, it is not possible to collect this data at a centralized location. Federated learning is a machine learning setting where the centralized location trains a learning model over remote devices. Federated learning algorithms cannot be employed in the real world scenarios unless they consider unreliable and resource-constrained nature of the wireless medium. In this paper, we propose a federated learning algorithm that is suitable for cellular wireless networks. We prove its convergence, and provide the optimal scheduling policy that maximizes the convergence rate. We also study the effect of local computation steps and communication steps on the convergence of the proposed algorithm. We prove, in practice, federated learning algorithms may solve a different problem than the one that they have been employed for if the unreliability of wireless channels is neglected. Finally, through numerous experiments on real and synthetic datasets, we demonstrate the convergence of our proposed algorithm.
翻訳日:2021-05-16 01:51:48 公開日:2020-12-09
# 生成ニューラルネットワークモデルにおける推論としてのバインディングとパースペクティブ

Binding and Perspective Taking as Inference in a Generative Neural Network Model ( http://arxiv.org/abs/2012.05152v1 )

ライセンス: Link先を確認
Mahdi Sadeghi, Fabian Schrodt, Sebastian Otte, Martin V. Butz(参考訳) 異なる視点から、機能をコヒーレントな全体へ柔軟に結合する能力は、認知と知性の要点である。 重要なことは、結合問題は視覚だけでなく、汎用知能、感覚運動統合、イベント処理、言語にも関係している。 様々なニューラルネットワークモデルが、動的ニューラルネットワークと関連するアプローチでこの問題に取り組んでいる。 ここでは,そのパースペクティブを適用し,振り返り推論によって特徴を結合する生成エンコーダ・デコーダアーキテクチャに焦点を当てる。 まず、動的生体運動や振り子などの調和運動パターンを十分に正確に生成するモデルを学ぶようにモデルを訓練する。 そして、入力をある程度スクランブルし、おそらくその視点を変えて、予測エラーを結合マトリックス、すなわち特徴結合を決定する隠れた神経状態へと伝播させます。 さらに、我々は、入力特徴を既知の参照フレームに回転させ、翻訳するニューロンを捉える視点に誤りをさらに伝播させる。 評価の結果、勾配に基づく推定プロセスは既知の生体運動パターンの視点と結合問題を解決し、基本的にゲシュタルト知覚機構をもたらすことが示された。 さらに、冗長な特徴特性と集団符号化は非常に有用であることが示されている。 生体運動パターンのアルゴリズムを評価するが、原理的アプローチは他の領域における結合およびゲシュタルト知覚問題に適用すべきである。

The ability to flexibly bind features into coherent wholes from different perspectives is a hallmark of cognition and intelligence. Importantly, the binding problem is not only relevant for vision but also for general intelligence, sensorimotor integration, event processing, and language. Various artificial neural network models have tackled this problem with dynamic neural fields and related approaches. Here we focus on a generative encoder-decoder architecture that adapts its perspective and binds features by means of retrospective inference. We first train a model to learn sufficiently accurate generative models of dynamic biological motion or other harmonic motion patterns, such as a pendulum. We then scramble the input to a certain extent, possibly vary the perspective onto it, and propagate the prediction error back onto a binding matrix, that is, hidden neural states that determine feature binding. Moreover, we propagate the error further back onto perspective taking neurons, which rotate and translate the input features onto a known frame of reference. Evaluations show that the resulting gradient-based inference process solves the perspective taking and binding problem for known biological motion patterns, essentially yielding a Gestalt perception mechanism. In addition, redundant feature properties and population encodings are shown to be highly useful. While we evaluate the algorithm on biological motion patterns, the principled approach should be applicable to binding and Gestalt perception problems in other domains.
翻訳日:2021-05-16 01:51:33 公開日:2020-12-09
# 余剰サブプロブレムを用いたパラメータフリーフランクウルフのエンハンシング

Enhancing Parameter-Free Frank Wolfe with an Extra Subproblem ( http://arxiv.org/abs/2012.05284v1 )

ライセンス: Link先を確認
Bingcong Li, Lingda Wang, Georgios B. Giannakis, Zhizhen Zhao(参考訳) 構造制約下での凸最適化を目指して,frank wolfe (fw) アルゴリズムの変種である extrafw を導入し,解析する。 extrafwの特徴は、決定変数が予測修正(prediction-correction, pc)形式で更新されるため、イテレーション毎に利用される勾配のペアである。 ステップサイズに問題依存パラメータが存在しないことから、一般凸問題に対するExtraFWの収束率は${\cal O}(\frac{1}{k})$と示される。 しかし、ExtraFWの利点は、機械学習問題のクラスにおいてより高速な${\cal O}\big(\frac{1}{k^2} \big)$である。 他のパラメータフリーなFW変種と比較すると、同じ問題でより高速なレートを持つが、ExtraFWはPCのアップデートによって速度ときめ細かい分析を改善している。 空間的制約の異なるバイナリ分類の数値実験により、ExtraFWの実証性能はFWよりも著しく優れており、Nesterovの加速度勾配よりも高速であることが示された。 行列完備化のために、ExtraFWはFWよりも小さい最適性ギャップと低いランクを享受する。

Aiming at convex optimization under structural constraints, this work introduces and analyzes a variant of the Frank Wolfe (FW) algorithm termed ExtraFW. The distinct feature of ExtraFW is the pair of gradients leveraged per iteration, thanks to which the decision variable is updated in a prediction-correction (PC) format. Relying on no problem dependent parameters in the step sizes, the convergence rate of ExtraFW for general convex problems is shown to be ${\cal O}(\frac{1}{k})$, which is optimal in the sense of matching the lower bound on the number of solved FW subproblems. However, the merit of ExtraFW is its faster rate ${\cal O}\big(\frac{1}{k^2} \big)$ on a class of machine learning problems. Compared with other parameter-free FW variants that have faster rates on the same problems, ExtraFW has improved rates and fine-grained analysis thanks to its PC update. Numerical tests on binary classification with different sparsity-promoting constraints demonstrate that the empirical performance of ExtraFW is significantly better than FW, and even faster than Nesterov's accelerated gradient on certain datasets. For matrix completion, ExtraFW enjoys smaller optimality gap, and lower rank than FW.
翻訳日:2021-05-16 01:50:46 公開日:2020-12-09
# 磁気共鳴イメージングにおける機械学習:画像再構成

Machine Learning in Magnetic Resonance Imaging: Image Reconstruction ( http://arxiv.org/abs/2012.05303v1 )

ライセンス: Link先を確認
Javier Montalt-Tordera, Vivek Muthurangu, Andreas Hauptmann, Jennifer Anne Steeden(参考訳) 磁気共鳴イメージング(MRI)は多くの疾患の診断、管理、モニタリングにおいて重要な役割を担っている。 しかし、これは本質的に遅い画像技術である。 過去20年間で、並列イメージング、テンポラリエンコーディング、圧縮センシングは、k空間データの欠落行を正確に回復することにより、MRIデータの取得においてかなりのスピードアップを可能にした。 しかし, 再建に要する時間的特性や不自然な画像から, 特に圧縮センシングにおいて, 急速に加速する買収の臨床的取り込みは限られている。 幅広い画像処理タスクにおける機械学習の成功に続いて、MRI画像再構成分野における機械学習の利用が爆発的に増えている。 k空間および/または画像空間に適用可能な幅広いアプローチが提案されている。 自然に見える画像と高速な計算を可能にする様々な手法により、結果が実証されている。 本稿では,MRI再建における現在の機械学習アプローチについて概説し,その欠点,臨床応用,現状について考察する。

Magnetic Resonance Imaging (MRI) plays a vital role in diagnosis, management and monitoring of many diseases. However, it is an inherently slow imaging technique. Over the last 20 years, parallel imaging, temporal encoding and compressed sensing have enabled substantial speed-ups in the acquisition of MRI data, by accurately recovering missing lines of k-space data. However, clinical uptake of vastly accelerated acquisitions has been limited, in particular in compressed sensing, due to the time-consuming nature of the reconstructions and unnatural looking images. Following the success of machine learning in a wide range of imaging tasks, there has been a recent explosion in the use of machine learning in the field of MRI image reconstruction. A wide range of approaches have been proposed, which can be applied in k-space and/or image-space. Promising results have been demonstrated from a range of methods, enabling natural looking images and rapid computation. In this review article we summarize the current machine learning approaches used in MRI reconstruction, discuss their drawbacks, clinical applications, and current trends.
翻訳日:2021-05-16 01:50:24 公開日:2020-12-09
# 効率的な反復型安全検証のための伝達学習

Transfer Learning for Efficient Iterative Safety Validation ( http://arxiv.org/abs/2012.05336v1 )

ライセンス: Link先を確認
Anthony Corso and Mykel J. Kochenderfer(参考訳) 安全性検証は、安全クリティカルな自律システムの開発において重要であるが、かなりの計算努力を要する。 既存のアルゴリズムは、テスト中のシステムが変更するたびにスクラッチから始まることが多い。 伝達学習を応用して、関連するシステムに適用した場合の強化学習に基づく安全性検証アルゴリズムの効率を向上させる。 従来の安全検証タスクからの知識はアクション値関数を通じて符号化され、学習された注意重みで将来のタスクに転送される。 学習状態と各ソースタスクに対するアクション値変換を含めると、システムにはかなり異なる障害モードがある場合でも、パフォーマンスが向上する。 グリッドワールドおよび自律走行シナリオにおける安全検証タスクの実験を行う。 転送学習は、検証アルゴリズムの初期および最終性能を改善し、トレーニングステップの数を削減できることを示す。

Safety validation is important during the development of safety-critical autonomous systems but can require significant computational effort. Existing algorithms often start from scratch each time the system under test changes. We apply transfer learning to improve the efficiency of reinforcement learning based safety validation algorithms when applied to related systems. Knowledge from previous safety validation tasks is encoded through the action value function and transferred to future tasks with a learned set of attention weights. Including a learned state and action value transformation for each source task can improve performance even when systems have substantially different failure modes. We conduct experiments on safety validation tasks in gridworld and autonomous driving scenarios. We show that transfer learning can improve the initial and final performance of validation algorithms and reduce the number of training steps.
翻訳日:2021-05-16 01:50:08 公開日:2020-12-09
# 赤外音源データによる空間雑音認識温度検索

Spatial noise-aware temperature retrieval from infrared sounder data ( http://arxiv.org/abs/2012.05839v1 )

ライセンス: Link先を確認
David Malmgren-Hansen and Valero Laparra and Allan Aasbjerg Nielsen and Gustau Camps-Valls(参考訳) 本稿では,赤外線観測機から大気プロファイルを検索するための統合戦略を提案する。 このアプローチは空間情報とノイズ依存次元化アプローチを考察する。 抽出した特徴は正準線形回帰に入力される。 主成分分析 (PCA) と最小雑音分解 (MNF) を比較し, 抽出した特徴量のコンパクト性と情報量について検討した。 結果の評価は、多くの空間的および時間的状況をカバーする大きなデータセット上で行われる。 PCAはこれらの目的で広く利用されているが,本分析により,MNFを用いた場合の誤差率を大幅に改善できることが示された。 また,回帰モデルにより多くのスペクトル成分と空間成分を含む場合の誤差率改善の関係について検討し,モデル複雑性と誤差率とのトレードオフを明らかにすることを目的とした。

In this paper we present a combined strategy for the retrieval of atmospheric profiles from infrared sounders. The approach considers the spatial information and a noise-dependent dimensionality reduction approach. The extracted features are fed into a canonical linear regression. We compare Principal Component Analysis (PCA) and Minimum Noise Fraction (MNF) for dimensionality reduction, and study the compactness and information content of the extracted features. Assessment of the results is done on a big dataset covering many spatial and temporal situations. PCA is widely used for these purposes but our analysis shows that one can gain significant improvements of the error rates when using MNF instead. In our analysis we also investigate the relationship between error rate improvements when including more spectral and spatial components in the regression model, aiming to uncover the trade-off between model complexity and error rates.
翻訳日:2021-05-16 01:49:44 公開日:2020-12-09
# 特徴保存型オートエンコーダと自己相似性を用いたFew-shot分類器の逆支援検出

Detection of Adversarial Supports in Few-shot Classifiers Using Feature Preserving Autoencoders and Self-Similarity ( http://arxiv.org/abs/2012.06330v1 )

ライセンス: Link先を確認
Yi Xiang Marcus Tan, Penny Chong, Jiamei Sun, Yuval Elovici, Alexander Binder(参考訳) 限定的なトレーニングサンプルの下では、少数ショットの分類器が優れているため、実世界のアプリケーションで有用である。 しかし、反対サンプルの出現はそのような分類器の有効性を脅かす。 信頼性を保つためには、そのような攻撃に対する防衛策を検討する必要がある。 しかし、先行文献への精査により、この分野に大きなギャップが明らかになる。 そこで本研究では,特定の対象のクラスに対する少数の分類器の理解を破壊することを目的とした,敵対的支援セットを強調する検出戦略を提案する。 我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。 そのため,本手法は攻撃に非依存であり,その知識を最大限に活用するために,数発の分類器の検出を初めて検討した。 提案手法を用いる場合, miniImagenet と CUB のデータセットに対する評価は楽観的であり,AUROC のスコアが高い。

Few-shot classifiers excel under limited training samples, making it useful in real world applications. However, the advent of adversarial samples threatens the efficacy of such classifiers. For them to remain reliable, defences against such attacks must be explored. However, closer examination to prior literature reveals a big gap in this domain. Hence, in this work, we propose a detection strategy to highlight adversarial support sets, aiming to destroy a few-shot classifier's understanding of a certain class of objects. We make use of feature preserving autoencoder filtering and also the concept of self-similarity of a support set to perform this detection. As such, our method is attack-agnostic and also the first to explore detection for few-shot classifiers to the best of our knowledge. Our evaluation on the miniImagenet and CUB datasets exhibit optimism when employing our proposed approach, showing high AUROC scores for detection in general.
翻訳日:2021-05-16 01:49:32 公開日:2020-12-09
# 極多ラベルランキングを用いたセッションアウェアクエリ自動補完

Session-Aware Query Auto-completion using Extreme Multi-label Ranking ( http://arxiv.org/abs/2012.07654v1 )

ライセンス: Link先を確認
Nishant Yadav, Rajat Sen, Daniel N. Hill, Arya Mazumdar, Inderjit S. Dhillon(参考訳) クエリの自動補完は検索エンジンの基本的な機能であり、検索バーで入力されたプレフィックスの適切な補完を提案するタスクである。 ユーザセッションの以前のクエリは、ユーザの意図に有用なコンテキストを提供し、ユーザのプレフィックスに固執しながらより関連性の高い自動補完を提案するために利用することができる。 このようなセッションアウェアなクエリの自動補完はシーケンスからシーケンスへのモデルによって生成されるが、これらの生成的アプローチは各ユーザキーストロークに応答する厳密なレイテンシ要件を満たさないことが多い。 さらに、生成的アプローチでは、非意味なクエリを示す危険性がある。 別の解決策は、関連するクエリの比較的小さなサブセットをプレコンパイルし、コンテキストに基づいてそれらをランク付けすることである。 しかし、現在のコンテキストに関する関連するクエリが事前に計算されたセットに存在しない場合、そのようなアプローチは失敗する。 本稿では,セッションアウェアな問合せ自動補完を,セッションの前の問合せと現在の接頭辞が入力であり,出力空間が近年ユーザが入力した数百万の問合せの集合である極端なマルチラベルランキング(xmr)問題としてモデル化する,新たな手法を提案する。 この目的のために、アルゴリズムの重要なステップにいくつかの変更を加えることで、人気のあるXMRアルゴリズムを適用する。 提案する修正により、公開検索ログデータセットにおけるベースラインxmrアプローチよりも平均相互ランクで230%改善される。 提案手法では,提案するセッション情報を活用しながら,自動補完システムの待ち時間要件を満たす。 特に,最大3文字の短いプレフィックスでは,レイテンシ要件を満たすベースラインに対して32%改善されている。

Query auto-completion is a fundamental feature in search engines where the task is to suggest plausible completions of a prefix typed in the search bar. Previous queries in the user session can provide useful context for the user's intent and can be leveraged to suggest auto-completions that are more relevant while adhering to the user's prefix. Such session-aware query auto-completions can be generated by sequence-to-sequence models; however, these generative approaches often do not meet the stringent latency requirements of responding to each user keystroke. Moreover, there is a danger of showing non-sensical queries in a generative approach. Another solution is to pre-compute a relatively small subset of relevant queries for common prefixes and rank them based on the context. However, such an approach would fail if no relevant queries for the current context are present in the pre-computed set. In this paper, we provide a solution to this problem: we take the novel approach of modeling session-aware query auto-completion as an eXtreme Multi-Label Ranking (XMR) problem where the input is the previous query in the session and the user's current prefix, while the output space is the set of millions of queries entered by users in the recent past. We adapt a popular XMR algorithm for this purpose by proposing several modifications to the key steps in the algorithm. The proposed modifications yield a 230% improvement in terms of Mean Reciprocal Rank over the baseline XMR approach on a public search logs dataset. Our approach meets the stringent latency requirements for auto-complete systems while leveraging session information in making suggestions. We show that session context leads to significant improvements in the quality of query auto-completions; in particular, for short prefixes with up to 3 characters, we see a 32% improvement over baselines that meet latency requirements.
翻訳日:2021-05-16 01:49:20 公開日:2020-12-09
# 多時期雲検出のための深層ネットワークアプローチ

A deep network approach to multitemporal cloud detection ( http://arxiv.org/abs/2012.10393v1 )

ライセンス: Link先を確認
Devis Tuia, Benjamin Kellenberger, Adrian P\'erez-Suay, Gustau Camps-Valls(参考訳) 本稿では,メテオサット第2世代(MSG)衛星に搭載されたセビリ撮像装置によって得られた画像時系列中の雲を検出するための時間記憶を用いた深層学習モデルを提案する。 このモデルは、関連する信頼度を持つピクセルレベルのクラウドマップを提供し、リカレントニューラルネットワーク構造を介して時間内に情報を伝搬する。 単一のモデルで、一年中、日中、夜の間、高い精度で雲を概説することができます。

We present a deep learning model with temporal memory to detect clouds in image time series acquired by the Seviri imager mounted on the Meteosat Second Generation (MSG) satellite. The model provides pixel-level cloud maps with related confidence and propagates information in time via a recurrent neural network structure. With a single model, we are able to outline clouds along all year and during day and night with high accuracy.
翻訳日:2021-05-16 01:48:52 公開日:2020-12-09
# 気候モデル出力統計の深層学習

Deep Learning for Climate Model Output Statistics ( http://arxiv.org/abs/2012.10394v1 )

ライセンス: Link先を確認
Michael Steininger, Daniel Abel, Katrin Ziegler, Anna Krause, Heiko Paeth, Andreas Hotho(参考訳) 気候モデルは将来的な気候変動の影響を評価する上で重要なツールであるが、特に降水量の体系的・表現的誤差に苦しむ。 モデル出力統計(MOS)は、モデル出力を観測データと機械学習に適合させてこれらの誤差を低減する。 本研究では,mos用畳み込みニューラルネットワーク(cnns)を用いた深層学習の実現可能性と可能性について検討する。 本稿では,気候モデル出力の誤差を低減するためのCNNアーキテクチャであるConvMOSを提案し,それを気候モデルREMOに適用する。 その結果,誤りが大幅に減少し,一般的に使用されている3つのmosアプローチに比べて性能が向上した。

Climate models are an important tool for the assessment of prospective climate change effects but they suffer from systematic and representation errors, especially for precipitation. Model output statistics (MOS) reduce these errors by fitting the model output to observational data with machine learning. In this work, we explore the feasibility and potential of deep learning with convolutional neural networks (CNNs) for MOS. We propose the CNN architecture ConvMOS specifically designed for reducing errors in climate model outputs and apply it to the climate model REMO. Our results show a considerable reduction of errors and mostly improved performance compared to three commonly used MOS approaches.
翻訳日:2021-05-16 01:48:45 公開日:2020-12-09
# 畳み込みネットワークを用いた大気パラメータ検索のための転送学習

Transfer Learning with Convolutional Networks for Atmospheric Parameter Retrieval ( http://arxiv.org/abs/2012.10395v1 )

ライセンス: Link先を確認
David Malmgren-Hansen and Allan Aasbjerg Nielsen and Valero Laparra and Gustau Camps- Valls(参考訳) MetOp衛星シリーズに搭載されている赤外線音波干渉計(IASI)は、数値気象予測(NWP)に重要な測定値を提供する。 IASIが提供する生データから正確な大気パラメータを取得することは大きな課題であるが、NWPモデルでデータを使用するには必要である。 統計的モデルの性能は、非常に高いスペクトル次元と、大気列をまたいで同時に予測すべき変数の多さによって損なわれる。 これらすべてが最適なモデルと処理スキームの選択と研究に挑戦する。 初期の研究では、カーネルメソッドやニューラルネットワークのような非線形モデルがこのタスクでうまく機能することを示したが、どちらのスキームも大量のデータに計算量重くなっている。 カーネルメソッドはトレーニングデータ数とうまくスケールせず、ニューラルネットワークは重要なハイパーパラメータを設定する必要がある。 本研究では、畳み込みニューラルネット(CNN)における伝達学習について研究し、関連する変数に対する以前に訓練されたモデルから得られたプロキシソリューション(特徴またはネットワーク)から逸脱することで、再学習コストを軽減する。 本研究では,iasiデータから抽出した特徴を,低い高度で異なる物理変数を予測するように設計された別の統計手法への入力として使用できることを示す。 さらに、学習したパラメータを別のCNNモデルに転送し、スクラッチからトレーニングされたCNNを使用する場合、微調整のみを必要とする結果が得られる。

The Infrared Atmospheric Sounding Interferometer (IASI) on board the MetOp satellite series provides important measurements for Numerical Weather Prediction (NWP). Retrieving accurate atmospheric parameters from the raw data provided by IASI is a large challenge, but necessary in order to use the data in NWP models. Statistical models performance is compromised because of the extremely high spectral dimensionality and the high number of variables to be predicted simultaneously across the atmospheric column. All this poses a challenge for selecting and studying optimal models and processing schemes. Earlier work has shown non-linear models such as kernel methods and neural networks perform well on this task, but both schemes are computationally heavy on large quantities of data. Kernel methods do not scale well with the number of training data, and neural networks require setting critical hyperparameters. In this work we follow an alternative pathway: we study transfer learning in convolutional neural nets (CNN s) to alleviate the retraining cost by departing from proxy solutions (either features or networks) obtained from previously trained models for related variables. We show how features extracted from the IASI data by a CNN trained to predict a physical variable can be used as inputs to another statistical method designed to predict a different physical variable at low altitude. In addition, the learned parameters can be transferred to another CNN model and obtain results equivalent to those obtained when using a CNN trained from scratch requiring only fine tuning.
翻訳日:2021-05-16 01:48:36 公開日:2020-12-09
# PROBA-Vのためのクラウド検出機械学習アルゴリズム

Cloud detection machine learning algorithms for PROBA-V ( http://arxiv.org/abs/2012.10396v1 )

ライセンス: Link先を確認
Luis G\'omez-Chova, Gonzalo Mateo-Garc\'ia, Jordi Mu\~noz-Mar\'i, Gustau Camps-Valls(参考訳) 本稿では,Proba-Vのためのクラウド検出アルゴリズムの開発と実装について述べる。 衛星シーンにおける雲の高精度かつ自動検出は、幅広いリモートセンシングアプリケーションにとって重要な課題である。 正確な雲のマスキングがないため、未検出の雲は海洋と陸両方の生物物理パラメーターの探索において最も重要なエラー源の1つである。 本論文で提示されるアルゴリズムの目的は,ピクセル当たりのクラウドフラグを正確に提示するクラウドを検出することである。 この目的のために、統計的機械学習技術を用いてproba-vの情報を活用し、proba-v製品に存在する雲を識別する。 提案手法の有効性を,多数の実proba-v画像を用いて検証した。

This paper presents the development and implementation of a cloud detection algorithm for Proba-V. Accurate and automatic detection of clouds in satellite scenes is a key issue for a wide range of remote sensing applications. With no accurate cloud masking, undetected clouds are one of the most significant sources of error in both sea and land cover biophysical parameter retrieval. The objective of the algorithms presented in this paper is to detect clouds accurately providing a cloud flag per pixel. For this purpose, the method exploits the information of Proba-V using statistical machine learning techniques to identify the clouds present in Proba-V products. The effectiveness of the proposed method is successfully illustrated using a large number of real Proba-V images.
翻訳日:2021-05-16 01:48:11 公開日:2020-12-09
# 顔の表情がパーキンソン病を検知する―オンラインビデオから予備的証拠

Facial expressions can detect Parkinson's disease: preliminary evidence from videos collected online ( http://arxiv.org/abs/2012.05373v1 )

ライセンス: Link先を確認
Mohammad Rafayet Ali, Taylor Myers, Ellen Wagner, Harshil Ratnu, E. Ray Dorsey, Ehsan Hoque(参考訳) パーキンソン病(PD)の症状の1つは低酸素症または表情低下である。 本稿では,マイクロ表現の研究を活かしたpd用デジタルバイオマーカーを提案する。 ウェブベースのツール(www.parktest.net)を用いて,604人(PDは61人,PDは533人,PDは63.9人,sd 7.8人)の顔行動単位(AU)をオンラインで収集した。 これらのビデオでは、参加者は3つの表情(笑顔、嫌悪感、驚きの顔)と中立的な顔を作るように求められた。 コンピュータビジョンと機械学習の手法を用いて,顔面筋運動の変動を客観的に測定し,PDの有無の識別に利用した。 顔面微小表現を用いた予測精度は運動症状を利用した手法と比較した。 ロジスティック回帰分析の結果,PD患者は非PD患者よりもAU6,AU12,AU4のばらつきが低かった。 サポートベクターマシンを用いた自動分類器を分散法で訓練し,95.6%の精度を得た。 PDのバイオマーカーとして顔表現を使用することは、物理的分離が必要な患者(例えば、新型コロナウイルスによる)や不活化患者にとって、潜在的にトランスフォーメーションをもたらす可能性がある。

One of the symptoms of Parkinson's disease (PD) is hypomimia or reduced facial expressions. In this paper, we present a digital biomarker for PD that utilizes the study of micro-expressions. We analyzed the facial action units (AU) from 1812 videos of 604 individuals (61 with PD and 543 without PD, mean age 63.9 yo, sd 7.8 ) collected online using a web-based tool (www.parktest.net). In these videos, participants were asked to make three facial expressions (a smiling, disgusted, and surprised face) followed by a neutral face. Using techniques from computer vision and machine learning, we objectively measured the variance of the facial muscle movements and used it to distinguish between individuals with and without PD. The prediction accuracy using the facial micro-expressions was comparable to those methodologies that utilize motor symptoms. Logistic regression analysis revealed that participants with PD had less variance in AU6 (cheek raiser), AU12 (lip corner puller), and AU4 (brow lowerer) than non-PD individuals. An automated classifier using Support Vector Machine was trained on the variances and achieved 95.6% accuracy. Using facial expressions as a biomarker for PD could be potentially transformative for patients in need of physical separation (e.g., due to COVID) or are immobile.
翻訳日:2021-05-16 01:48:02 公開日:2020-12-09
# フォグコンピューティング環境における分散分析の最適化コスト対精度

Optimising cost vs accuracy of decentralised analytics in fog computing environments ( http://arxiv.org/abs/2012.05266v1 )

ライセンス: Link先を確認
Lorenzo Valerio, Andrea Passarella, Marco Conti(参考訳) インターネットの端におけるデバイスとデータの指数関数的な成長は、リモートクラウドプラットフォームのみに基づくアプローチに対するスケーラビリティとプライバシの懸念を高めている。 フォグコンピューティングの基本的な概念であるデータ重力は、データ分析のための計算の分散化を、これらの問題に対処するための実行可能な代替手段として挙げている。 複数の協力デバイス上のAIタスクの分散化は、完全な集中化(すなわち、単一のデバイス上のすべてのデータ)と完全な分散化(すなわち、ソース位置のデータ)の間の連続体において、最適な場所またはコレクションポイント(CP)を特定することを意味する。 本稿では,この連続体における最適動作点を見つけるための分析フレームワークを提案する。学習タスクの精度を,データ移動とCPでの分散トレーニングの実行に充てて,対応する \emph{network} と \emph{computational} のコストにリンクする。 シミュレーションにより、モデルが最適トレードオフを正確に予測できることを示し、完全集中化と完全分散化の間の \emph{intermediate} ポイントをしばしば示し、w.r.t.の大幅なコスト削減も示した。 2人とも 最後に、分析モデルはクローズドフォームまたは数値ソリューションを認め、パフォーマンス評価器だけでなく、デプロイ前に所定の分散学習タスクを最適に構成する設計ツールも提供する。

The exponential growth of devices and data at the edges of the Internet is rising scalability and privacy concerns on approaches based exclusively on remote cloud platforms. Data gravity, a fundamental concept in Fog Computing, points towards decentralisation of computation for data analysis, as a viable alternative to address those concerns. Decentralising AI tasks on several cooperative devices means identifying the optimal set of locations or Collection Points (CP for short) to use, in the continuum between full centralisation (i.e., all data on a single device) and full decentralisation (i.e., data on source locations). We propose an analytical framework able to find the optimal operating point in this continuum, linking the accuracy of the learning task with the corresponding \emph{network} and \emph{computational} cost for moving data and running the distributed training at the CPs. We show through simulations that the model accurately predicts the optimal trade-off, quite often an \emph{intermediate} point between full centralisation and full decentralisation, showing also a significant cost saving w.r.t. both of them. Finally, the analytical model admits closed-form or numeric solutions, making it not only a performance evaluation instrument but also a design tool to configure a given distributed learning task optimally before its deployment.
翻訳日:2021-05-16 01:46:50 公開日:2020-12-09
# 充電精度と充電プロファイル予測を考慮した電気自動車の残充電時間推定

Electric Vehicle Battery Remaining Charging Time Estimation Considering Charging Accuracy and Charging Profile Prediction ( http://arxiv.org/abs/2012.05352v1 )

ライセンス: Link先を確認
Junzhe Shi, Min Tian, Sangwoo Han, Tung-Yan Wu, Yifan Tang(参考訳) 近年、電気自動車(ev)の人気が急速に高まり、将来的なトレンドとなっている。 信頼性のあるevの残りの充電時間(rct)を知ることは、ユーザエクスペリエンスの重要な側面である。 しかし、現在のEV市場における車両のRCTを正確に推定するアルゴリズムを見つけることは困難である。 Tesla Model Xの最大RDT推定誤差は、直流(DC)を充電しながら、10%から99パーセントの充電(SOC)まで60分まで最大となる。 電気自動車の高精度なRTT推定アルゴリズムは需要が高く、EVがより普及するにつれて、今後も続くだろう。 現在、正確なRCT推定に到達するには2つの課題がある。 まず、ほとんどの商用充電器は、一定の電流(CC)の段階で要求される充電電流を供給できない。 第2に、定電圧(cv)段階における帯電電流プロファイルの予測が困難である。 そこで本研究では,過去の充電精度とリアルタイム充電精度データとの信頼区間を考慮し,ccステージにおける充電精度をオンラインに更新するrctアルゴリズムを提案する。 第2の問題を解決するために,ラジアル基底関数(rbf)ニューラルネットワーク(nn)を用いて,cvステージにおける充電電流プロファイルを予測するためのバッテリ抵抗予測モデルを提案する。 実験の結果,本研究で提案するrctアルゴリズムは,ccおよびcvの従来手法と比較して,73.6 %,84.4 %の誤差率向上を達成した。

Electric vehicles (EVs) have been growing rapidly in popularity in recent years and have become a future trend. It is an important aspect of user experience to know the Remaining Charging Time (RCT) of an EV with confidence. However, it is difficult to find an algorithm that accurately estimates the RCT for vehicles in the current EV market. The maximum RCT estimation error of the Tesla Model X can be as high as 60 minutes from a 10 % to 99 % state-of-charge (SOC) while charging at direct current (DC). A highly accurate RCT estimation algorithm for electric vehicles is in high demand and will continue to be as EVs become more popular. There are currently two challenges to arriving at an accurate RCT estimate. First, most commercial chargers cannot provide requested charging currents during a constant current (CC) stage. Second, it is hard to predict the charging current profile in a constant voltage (CV) stage. To address the first issue, this study proposes an RCT algorithm that updates the charging accuracy online in the CC stage by considering the confidence interval between the historical charging accuracy and real-time charging accuracy data. To solve the second issue, this study proposes a battery resistance prediction model to predict charging current profiles in the CV stage, using a Radial Basis Function (RBF) neural network (NN). The test results demonstrate that the RCT algorithm proposed in this study achieves an error rate improvement of 73.6 % and 84.4 % over the traditional method in the CC and CV stages, respectively.
翻訳日:2021-05-16 01:46:27 公開日:2020-12-09
# 量子格子ゲージ理論のためのゲージ等価ニューラルネットワーク

Gauge equivariant neural networks for quantum lattice gauge theories ( http://arxiv.org/abs/2012.05232v1 )

ライセンス: Link先を確認
Di Luo, Giuseppe Carleo, Bryan K. Clark, and James Stokes(参考訳) ゲージ対称性は、基本粒子の量子場理論や量子物質における創発的自由度といった領域に現れる物理学において重要な役割を果たす。 厳密な局所ゲージ不変量を持つ多体量子システムを効率的にシミュレートしたいという願望により、ゲージ同変ニューラルネットワーク量子状態が導入され、異なる幾何学上のzdゲージ群を持つ量子格子ゲージ理論の記述に必要な局所ヒルベルト空間の制約を正確に満たした。 周期的に特定された正方格子上のZ2ゲージ群の特別な場合に着目し、同変アーキテクチャは特別な場合としてループガス解を含むように解析的に示される。 ゲージ同変ニューラルネットワーク量子状態は、変分量子モンテカルロと組み合わせて、正確な可解極限からz2理論の基底状態波動関数のコンパクトな記述を得て、ウィルソンループ次数パラメータの閉じ込め/解解位相遷移を実証するために用いられる。

Gauge symmetries play a key role in physics appearing in areas such as quantum field theories of the fundamental particles and emergent degrees of freedom in quantum materials. Motivated by the desire to efficiently simulate many-body quantum systems with exact local gauge invariance, gauge equivariant neural-network quantum states are introduced, which exactly satisfy the local Hilbert space constraints necessary for the description of quantum lattice gauge theory with Zd gauge group on different geometries. Focusing on the special case of Z2 gauge group on a periodically identified square lattice, the equivariant architecture is analytically shown to contain the loop-gas solution as a special case. Gauge equivariant neural-network quantum states are used in combination with variational quantum Monte Carlo to obtain compact descriptions of the ground state wavefunction for the Z2 theory away from the exactly solvable limit, and to demonstrate the confining/deconfining phase transition of the Wilson loop order parameter.
翻訳日:2021-05-16 01:45:46 公開日:2020-12-09