このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200803となっている論文です。

PDF登録状況(公開日: 20200803)

TitleAuthorsAbstract論文公表日・翻訳日
# パルス照明による単一光子雪崩検出器の量子鍵分布へのハック

Hacking single-photon avalanche detector in quantum key distribution via pulse illumination ( http://arxiv.org/abs/2002.09146v2 )

ライセンス: Link先を確認
Zhihao Wu, Anqi Huang, Huan Chen, Shi-Hai Sun, Jiangfang Ding, Xiaogang Qiang, Xiang Fu, Ping Xu, Junjie Wu(参考訳) 量子鍵分布(QKD)は理論上は情報理論的に安全であることが証明されている。 残念ながら、不完全なデバイスはセキュリティを損なう。 したがって、実用QKDシステムのセキュリティ性を向上するために、既存のQKDシステムの抜け穴にパッチを当てることが一般的である。 しかし,本研究では,パッチ自体の不完全さを利用してパッチをバイパスする敵の能力を示す。 具体的には,本論文で提案するパルス照明攻撃により,試験中の検出器において,検出器目隠し攻撃に対する光電流モニタのパッチを破ることができることを実験的に実証する。 また,eveが秘密鍵を学習するために攻撃を行うことができることを理論的に確認したパルス照明攻撃の秘密鍵速度を解析した。 この研究は、qkdシステムへの影響をより深く理解するために、検出ユニットのセキュリティホールを検査することの重要性を示している。 パルス照明攻撃の方法は、QKDのセキュリティ評価標準における一般的なテスト項目である。

Quantum key distribution (QKD) has been proved to be information-theoretically secure in theory. Unfortunately, the imperfect devices in practice compromise its security. Thus, to improve the security property of practical QKD systems, a commonly used method is to patch the loopholes in the existing QKD systems. However, in this work, we show an adversary's capability of exploiting the imperfection of the patch itself to bypass the patch. Specifically, we experimentally demonstrate that, in the detector under test, the patch of photocurrent monitor against the detector blinding attack can be defeated by the pulse illumination attack proposed in this paper. We also analyze the secret key rate under the pulse illumination attack, which theoretically confirmed that Eve can conduct the attack to learn the secret key. This work indicates the importance of inspecting the security loopholes in a detection unit to further understand their impacts on a QKD system. The method of pulse illumination attack can be a general testing item in the security evaluation standard of QKD.
翻訳日:2023-06-02 11:46:58 公開日:2020-08-03
# 2量子ブロック球面

Two-Qubit Bloch Sphere ( http://arxiv.org/abs/2003.01699v2 )

ライセンス: Link先を確認
C. R. Wie(参考訳) 3つの単位球は2ビットの純状態を表すために使われた。 3つの球面は基底球面、絡み合い球面、繊維球面と命名される。 ベーススフィアとエンタングルメント球面は、基底クビットの縮小密度行列と非局所エンタングルメント測度(英語版)(concurrence)を表すが、ファイバースフィアは、局所的な単一クビットユニタリ演算の下で単純な回転によってファイバークビットを表現するが、絡み合った二部構造では、ファイバースフィアはファイバークビットの縮小密度行列に関する情報を持たない。 バイパルタイト状態が分離可能になったとき、基底球とファイバー球は各キュービットの単一キュービットブロッホ球となる。 どちらの qubit も基底 qubit として選択できるので、これらの3つの球面の2つの代替集合が利用可能であり、それぞれの集合はバイパルタイト純状態を完全に表現し、それぞれの集合はその基底 qubit の還元密度行列の情報を持つ。 このモデルを2つの量子ビットの密度行列の減少を表す2つのブロッホ球と比較すると、各ブロッホ球はモデルの2つの単位球、すなわち基底球とエンタングルメント球に対応する。 コンカレンス-コヒーレンス相補性は、単一の角度で絡み合う球面に明示的に示される。

Three unit spheres were used to represent the two-qubit pure states. The three spheres are named the base sphere, entanglement sphere, and fiber sphere. The base sphere and entanglement sphere represent the reduced density matrix of the base qubit and the non-local entanglement measure, concurrence, while the fiber sphere represents the fiber qubit via a simple rotation under a local single-qubit unitary operation; however, in an entangled bipartite state, the fiber sphere has no information on the reduced density matrix of the fiber qubit. When the bipartite state becomes separable, the base and fiber spheres seamlessly become the single-qubit Bloch spheres of each qubit. Since either qubit can be chosen as the base qubit, two alternative sets of these three spheres are available, where each set fully represents the bipartite pure state, and each set has information of the reduced density matrix of its base qubit. Comparing this model to the two Bloch balls representing the reduced density matrices of the two qubits, each Bloch ball corresponds to two unit spheres in our model, namely, the base and entanglement spheres. The concurrence-coherence complementarity is explicitly shown on the entanglement sphere via a single angle.
翻訳日:2023-05-31 07:30:48 公開日:2020-08-03
# 位相的に保護された測定に基づく量子計算のための時間モード連続可変3次元クラスター状態

Temporal-mode continuous-variable 3-dimensional cluster state for topologically-protected measurement-based quantum computation ( http://arxiv.org/abs/2004.05750v2 )

ライセンス: Link先を確認
Kosuke Fukui, Warit Asavanant, and Akira Furusawa(参考訳) 光装置における連続変数を用いた計測ベースの量子計算は、時間領域多重化によって測定ベースの量子計算を行う大規模クラスタ状態を生成することができる大規模量子計算の実現への大きな期待を示す。 本稿では,時間領域多重化手法の利点を有効利用するために,トポロジカルに保護された計測に基づく量子計算のプラットフォームである大規模3次元クラスター状態を生成する手法を提案する。 提案手法は,時間領域多重化手法と分割並列化手法を併用し,大規模量子計算を実装する上での2つの利点を有する。 まず,3次元クラスタ状態の絡み合いを検証するためのスクイーズレベルを実験的に実現可能である。 2つ目の利点は、位相的に保護された測定に基づく量子計算中に連続変数の有限スクイーズから導かれるアナログ誤差に対するロバスト性である。 したがって,本手法は連続変数を用いた大規模量子計算を実現するための有望な手法である。

Measurement-based quantum computation with continuous variables in an optical setup shows the great promise towards implementation of large-scale quantum computation, where the time-domain multiplexing approach enables us to generate the large-scale cluster state used to perform measurement-based quantum computation. To make effective use of the advantage of the time-domain multiplexing approach, in this paper, we propose the method to generate the large-scale 3-dimensional cluster state which is a platform for topologically protected measurement-based quantum computation. Our method combines a time-domain multiplexing approach with a divide-and-conquer approach, and has the two advantages for implementing large-scale quantum computation. First, the squeezing level for verification of the entanglement of the 3-dimensional cluster states is experimentally feasible. The second advantage is the robustness against analog errors derived from the finite squeezing of continuous variables during topologically-protected measurement-based quantum computation. Therefore, our method is a promising approach to implement large-scale quantum computation with continuous variables.
翻訳日:2023-05-24 11:37:15 公開日:2020-08-03
# 高忠実混合種エンタングゲートのベンチマーク

Benchmarking a high-fidelity mixed-species entangling gate ( http://arxiv.org/abs/2004.08162v2 )

ライセンス: Link先を確認
A. C. Hughes, V. M. Sch\"afer, K. Thirumalai, D. P. Nadlinger, S. R. Woodrow, D. M. Lucas and C. J. Ballance(参考訳) 我々は、$^{43}\mathrm{ca}^+\,$ hyperfine qubitと$^{88}\mathrm{sr}^+\,$ zeeman qubitの間の2量子ビット論理ゲートを実装した。 この2つのイオン種に対して、S-P光遷移は、波長402\,\mathrm{nm}$の1つのレーザーでゲートを駆動できるほどに近いが、十分なスペクトル分離と低い光子散乱誤差を与えるために十分に分離されている。 ゲートを完全ランダム化ベンチマーク,ゲートセットトモグラフィ,ベル状態解析により特徴付ける。 後者の方法は99.8(1)\%$の忠実度を与え、最も優れた同種ゲートと同等であり、既知のエラー源と一致している。

We implement a two-qubit logic gate between a $^{43}\mathrm{Ca}^+\,$ hyperfine qubit and a $^{88}\mathrm{Sr}^+\,$ Zeeman qubit. For this pair of ion species, the S--P optical transitions are close enough that a single laser of wavelength $402\,\mathrm{nm}$ can be used to drive the gate, but sufficiently well separated to give good spectral isolation and low photon scattering errors. We characterize the gate by full randomized benchmarking, gate set tomography and Bell state analysis. The latter method gives a fidelity of $99.8(1)\%$, comparable to that of the best same-species gates and consistent with known sources of error.
翻訳日:2023-05-23 04:35:30 公開日:2020-08-03
# 準正規モードを用いた損失ナノ構造のゆらぎ散逸定理と基本光子交換関係

Fluctuation-dissipation theorem and fundamental photon commutation relations in lossy nanostructures using quasinormal modes ( http://arxiv.org/abs/2006.09078v2 )

ライセンス: Link先を確認
Sebastian Franke, Juanjuan Ren, Stephen Hughes, Marten Richter(参考訳) 誘電体媒体の文脈における吸収・分散空間不均質媒体のグリーン関数量子化法の理論と公式な知見を提供する。 例えば、電磁界の基本的な可換関係において現れる基本的なグリーン関数の同一性は、吸収しない媒体の極限においても有効であることを示す。 また, グリーン関数量子化法のより形式的な手法を用いて, ゼロ点場のゆらぎが吸収のない構成において非バナッシブな表面項をいかに生み出すかを示す。 次に, 準正規モード (Franke et al., Phys. Lett. 122, 213901 (2019)) を用いて, 損失のない背景媒体に埋め込まれた有限ナノ構造に対する光子量子化理論に適用した。 準正規モード作用素の可換関係の厳密な誘電限界について検討し、非吸収的だが開共振器の放射損失と関連する異なる方法を提案する。 本研究では, 単一準正規モードをサポートするロスレス限界を含む全3次元フォトニック結晶ビームキャビティの模範計算を行い, 減衰を消すための通勤関係の限界を議論する(材料損失も放射損失もなし)。

We provide theory and formal insight on the Green function quantization method for absorptive and dispersive spatial-inhomogeneous media in the context of dielectric media. We show that a fundamental Green function identity, which appears, e.g., in the fundamental commutation relation of the electromagnetic fields, is also valid in the limit of non-absorbing media. We also demonstrate how the zero-point field fluctuations yields a non-vanishing surface term in configurations without absorption, when using a more formal procedure of the Green function quantization method. We then apply the presented method to a recently developed theory of photon quantization using quasinormal modes [Franke et al., Phys. Rev. Lett. 122, 213901 (2019)] for finite nanostructures embedded in a lossless background medium. We discuss the strict dielectric limit of the commutation relations of the quasinormal mode operators and present different methods to obtain them, connected to the radiative loss for non-absorptive but open resonators. We show exemplary calculations of a fully three-dimensional photonic crystal beam cavity, including the lossless limit, which supports a single quasinormal mode and discuss the limits of the commutation relation for vanishing damping (no material loss and no radiative loss).
翻訳日:2023-05-13 18:09:45 公開日:2020-08-03
# 多部最適化相関対策とホログラフィー

Multipartite Optimized Correlation Measures and Holography ( http://arxiv.org/abs/2007.11587v2 )

ライセンス: Link先を確認
Oliver DeWolfe, Joshua Levin, Graeme Smith(参考訳) 量子情報やホログラフィーにおける多部相関の定量化について検討する。 単調性条件を満たす状態のすべての可浄化性に対して、最適化された相関測度、エントロピーの線形結合を最小化する。 これらは絡み合いエントロピー単独よりも、相関に関するはるかに多くの情報を含んでいる。 本稿では,これらの量を導出し,対称最適化された相関尺度のメナジェリーを構築する方法を提案する。 これらには、精製の絡み合いのトリパルタイト一般化、分断された絡み合い、最近導入されたQ相関とR相関が含まれる。 いくつかの相関測度は積の状態のみに消滅し、従って古典的相関と量子的相関の両方を定量化する。 次に,曲面対応によって動機付けられた手法を用いて,相関測度をバルク面の線形結合としてホログラフ双対を構成する。 曲面の幾何学は相関測度の対称性を保存、部分的に破壊、または完全に破壊することができる。 最適な浄化は特定の点の位置で符号化され、その位置は表面の組合せの領域の制約によって固定される。 これにより、境界状態上で評価される情報理論量と、その双対の詳細な幾何学的性質との間の新しい具体的な関係が与えられる。

We explore ways to quantify multipartite correlations, in quantum information and in holography. We focus on optimized correlation measures, linear combinations of entropies minimized over all possible purifications of a state that satisfy monotonicity conditions. These contain far more information about correlations than entanglement entropy alone. We present a procedure to derive such quantities, and construct a menagerie of symmetric optimized correlation measures on three parties. These include tripartite generalizations of the entanglement of purification, the squashed entanglement, and the recently introduced Q-correlation and R-correlation. Some correlation measures vanish only on product states, and thus quantify both classical and quantum correlations; others vanish on any separable state, capturing quantum correlations alone. We then use a procedure motivated by the surface-state correspondence to construct holographic duals for the correlation measures as linear combinations of bulk surfaces. The geometry of the surfaces can preserve, partially break, or fully break the symmetry of the correlation measure. The optimal purification is encoded in the locations of certain points, whose locations are fixed by constraints on the areas of combinations of surfaces. This gives a new concrete connection between information theoretic quantities evaluated on a boundary state and detailed geometric properties of its dual.
翻訳日:2023-05-08 18:29:15 公開日:2020-08-03
# フェルミ混合物中の原子の3体結合状態

Three-body bound states of an atom in a Fermi mixture ( http://arxiv.org/abs/2007.13511v2 )

ライセンス: Link先を確認
Ali Sanayei and Ludwig Mathey(参考訳) フェルミ混合物中の原子の3体結合状態を決定する。 真空中の3つの原子のエフィモフスペクトルと比較すると、フェルミ海はエフィモフスペクトルを系統的に変形している。 我々は,この効果がユニタリティーに近いほど顕著であることを示し,解析的な評価を行う。 フェルミ海の存在下では、三体境界状態は一般化された離散的スケーリング則に従う。 この予測を実験的に確認するために,yb同位体の超低温フェルミ混合物の3体結合状態の3つのシグネチャを提案し,結合状態と結合エネルギーの開始を推定する。

We determine the three-body bound states of an atom in a Fermi mixture. Compared to the Efimov spectrum of three atoms in vacuum, we show that the Fermi seas deform the Efimov spectrum systematically. We demonstrate that this effect is more pronounced near unitarity, for which we give an analytical estimate. We show that in the presence of Fermi seas, the three-body bound states obey a generalized discrete scaling law. For an experimental confirmation of our prediction, we propose three signatures of three-body bound states of an ultracold Fermi mixture of Yb isotopes, and provide an estimate for the onset of the bound state and the binding energy.
翻訳日:2023-05-08 02:48:56 公開日:2020-08-03
# クエリベースの量子固有解法

A Query-based Quantum Eigensolver ( http://arxiv.org/abs/2008.00594v1 )

ライセンス: Link先を確認
Shan Jin, Shaojun Wu, Guanyu Zhou, Ying Li, Lvzhou Li, Bo Li and Xiaoting Wang(参考訳) 固有値問題の解法は古典的および量子的応用において極めて重要である。 QRや古典計算機のパワーメソッド、量子位相推定(QPE)法や量子コンピュータの変分量子固有解法など、多くのよく知られた数値固有解法が開発されている。 本研究では,固定点量子探索を用いてII型固有値問題の解法を提案する。 これは、タイプI固有解法であるQPE法の重要な補体として機能する。 提案手法の有効性は,未知の目標固有状態との十分な重複を保証するために,初期状態の適切な選択に依存している。 また,本手法の量子神託は,全ゲート複雑性の解析に不可欠である,効率的にシミュレーションされたハミルトニアンに対して効率的に構築できることを示す。 さらに,QPE法と比較して,クエリベースの手法はタイプIIの問題を解く際の2次高速化を実現する。

Solving eigenvalue problems is crucially important for both classical and quantum applications. Many well-known numerical eigensolvers have been developed, including the QR and the power methods for classical computers, as well as the quantum phase estimation(QPE) method and the variational quantum eigensolver for quantum computers. In this work, we present an alternative type of quantum method that uses fixed-point quantum search to solve Type II eigenvalue problems. It serves as an important complement to the QPE method, which is a Type I eigensolver. We find that the effectiveness of our method depends crucially on the appropriate choice of the initial state to guarantee a sufficiently large overlap with the unknown target eigenstate. We also show that the quantum oracle of our query-based method can be efficiently constructed for efficiently-simulated Hamiltonians, which is crucial for analyzing the total gate complexity. In addition, compared with the QPE method, our query-based method achieves a quadratic speedup in solving Type II problems.
翻訳日:2023-05-07 06:51:02 公開日:2020-08-03
# 新型コロナウイルスの誤情報とソーシャルネットワーク上の偽情報 -- 検証的対策の限界

COVID-19 Misinformation and Disinformation on Social Networks -- The Limits of Veritistic Countermeasures ( http://arxiv.org/abs/2008.00784v1 )

ライセンス: Link先を確認
Andrew Buzzell(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、特にデジタル情報環境において、大量の誤情報の対象となっている。 これは、生成される誤情報や偽情報の性質とそれに対応するための理論的および技術的パラダイムを調べる機会を提供する。 このアプローチは, 限定的かつ潜在的に不十分な応答のみを正当化できる疫学汚染としての誤情報の概念に基づいており, 実際に実施されている対策のいくつかは, 実施されている。 事実、ソーシャルネットワークはプラットフォーム上での言論に影響を与える生態的・建築的条件を管理しており、これは誤報に対処するための認識的介入と彼らが保証する介入のタイプを再考する動機となる。 プラットフォームにおける編集の役割は、単に認識的汚染の管理としてではなく、物語や社会認識的プロセスが行われる認識的環境を管理するものとして位置づけるべきである。 これに関わる必然的な認識論的父性主義の要素があり、その正当性に関する独立した制約の探求は、実際における運動の適切な限界を決定するのに役立つ。

The COVID-19 pandemic has been the subject of a vast amount of misinformation, particularly in digital information environments, and major social media platforms recently publicized some of the countermeasures they are adopting. This presents an opportunity to examine the nature of the misinformation and disinformation being produced, and the theoretical and technological paradigm used to counter it. I argue that this approach is based on a conception of misinformation as epistemic pollution that can only justify a limited and potentially inadequate response , and that some of the measures undertaken in practice outrun this. In fact, social networks manage ecological and architectural conditions that influence discourse on their platforms in ways that should motivate reconsideration of the justifications that ground epistemic interventions to combat misinformation, and the types of intervention that they warrant. The editorial role of platforms should not be framed solely as the management of epistemic pollution, but instead as managing the epistemic environment in which narratives and social epistemic processes take place. There is an element of inevitable epistemic paternalism involved in this, and exploration of the independent constraints on its justifiability can help determine proper limits of its exercise in practice.
翻訳日:2023-05-07 06:47:12 公開日:2020-08-03
# ガウス衝突モデルのメモリカーネルと可除性

Memory kernel and divisibility of Gaussian Collisional Models ( http://arxiv.org/abs/2008.00765v1 )

ライセンス: Link先を確認
Rolando Ramirez Camasca and Gabriel T. Landi(参考訳) オープンシステムのダイナミクスにおけるメモリ効果は、ここ数十年で大きな関心を集めてきた。 しかし、この効果を定量化する手法はしばしば計算が困難であり、分析的な洞察が欠けている。 これを念頭に置いて、近隣の環境ユニット間の追加的な相互作用によって非マルコフ性を導入するガウス衝突モデルを考える。 連続変数ガウス力学に焦点を当てることで、任意の大きさのモデルを分析することができる。 共分散行列のマルコフ的埋め込みにより、動的を制御したメモリカーネルに対して閉形式式を生成することができ、解析的に計算されることがほとんどない量であることを示す。 また、中間写像の完全正則性に基づく可除単調も可能である。 我々は、部分的なSWAPを実装したビームスプリッターと、アンシラを絡ませる2モードのスキューズと、同時に励起をシステムに供給する2種類の相互作用を詳細に分析する。 これら2つの代表的なシナリオのメモリカーネルの解析と拡張性により、量子領域におけるメモリ効果の背後にある複雑なメカニズムの解明に寄与する。

Memory effects in the dynamics of open systems have been the subject of significant interest in the last decades. The methods involved in quantifying this effect, however, are often difficult to compute and may lack analytical insight. With this in mind, we consider Gaussian collisional models, where non-Markovianity is introduced by means of additional interactions between neighboring environmental units. By focusing on continuous-variable Gaussian dynamics, we are able to analytically study models of arbitrary size. We show that the dynamics can be cast in terms of a Markovian Embedding of the covariance matrix, which yields closed form expressions for the memory kernel that governs the dynamics, a quantity that can seldom be computed analytically. The same is also possible for a divisibility monotone, based on the complete positivity of intermediate maps. We analyze in detail two types of interactions, a beam-splitter implementing a partial SWAP and a two-mode squeezing, which entangles the ancillas and, at the same time, feeds excitations into the system. By analyzing the memory kernel and divisibility for these two representative scenarios, our results help to shed light on the intricate mechanisms behind memory effects in the quantum domain.
翻訳日:2023-05-07 06:46:37 公開日:2020-08-03
# 量子マルチプレイヤー大佐ブロットーゲーム

Quantum Multiplayer Colonel Blotto Game ( http://arxiv.org/abs/2008.00762v1 )

ライセンス: Link先を確認
J. Naskar and A.C. Maioli(参考訳) この研究では、マルチプレイヤーのColoner Blottoの量子バージョンをうまく提示する。 量子戦略にアクセスできるプレイヤーは、古典的なプレイヤーよりも有利であることがわかった。 支払いは戦略の順序で不変である。

In this work we successfully present a quantum version of the multiplayer Colonel Blotto game. We find that players with access to the quantum strategies has a advantage over the classical ones. The payoff is invariant under the order of the strategies.
翻訳日:2023-05-07 06:46:18 公開日:2020-08-03
# 優れた3次量子誤り訂正符号を構築するための創発

Exploiting degeneracy to construct good ternary quantum error correcting code ( http://arxiv.org/abs/2008.00713v1 )

ライセンス: Link先を確認
Ritajit Majumdar, Susmita Sur-Kolay(参考訳) 高次元システムのための量子誤り訂正コードは、一般に量子ビットシステムの符号から直接構築することができる。 しかし、高次元システムに効率的なコード設計技術が存在するかどうかは不明である。 本稿では,3次量子システムのための7量子ビット誤り訂正符号を提案し,この設計定式化が量子システムにおいて等価性を持たないことを示す。 このコードは、CSS構造を維持しながら単一のエラーを修正するために必要なクォート数に最適である。 この退化したCSSコードは (i)7つの同時位相誤差と1ビット誤りを補正する。 (ii)21個の候補ペアのうち18個について事前定義されたクトリットのペア上で2つの同時ビット誤りを補正し、 (iii)実装コストの面では、この符号の回路深さは第三次ステイン符号の回路深度よりわずか2倍である。 提案するコードは,バイナリ量子システムからコードを引き継ぐのではなく,三元量子システムに対して明示的により良いコードを設計することができることを示す。

Quantum error-correcting code for higher dimensional systems can, in general, be directly constructed from the codes for qubit systems. What remains unknown is whether there exist efficient code design techniques for higher dimensional systems. In this paper, we propose a 7-qutrit error-correcting code for the ternary quantum system and show that this design formulation has no equivalence in qubit systems. This code is optimum in the number of qutrits required to correct a single error while maintaining the CSS structure. This degenerate CSS code can (i) correct up to seven simultaneous phase errors and a single bit error, (ii) correct two simultaneous bit errors on pre-defined pairs of qutrits on eighteen out of twenty-one possible pairs, and (iii) in terms of the cost of implementation, the depth of the circuit of this code is only two more than that of the ternary Steane code. Our proposed code shows that it is possible to design better codes explicitly for ternary quantum systems instead of simply carrying over codes from binary quantum systems.
翻訳日:2023-05-07 06:46:15 公開日:2020-08-03
# 逐次測定によるステアリングからの認証ランダム性

Certified Randomness From Steering Using Sequential Measurements ( http://arxiv.org/abs/2008.00705v1 )

ライセンス: Link先を確認
Brian Coyle, Elham Kashefi and Matty Hoban(参考訳) 証明可能なランダム性の生成は、量子技術の最も有望な応用の1つである。 さらに、量子相関の固有非局所性は、デバイスに依存しない方法でランダム性を証明することを可能にする。 curchodらの仕事のおかげだ。 1つの絡み合った2ビットの純状態は、任意の量の証明されたランダム性を生成するために使用できる。 しかし、このランダム性の獲得は、射影的かつ一般的な多くの測定を必要とするため、実験的に困難である。 デバイスに依存しない環境でのこれらの困難により、我々は、特定のデバイスが信頼される一方的なデバイス独立のシナリオや、そうでない一方的なデバイス独立のシナリオを考える。 このシナリオに先行する作業の特定の側面が適用可能であることを示し、証明可能なランダム性の量に関する理論的境界を提供する。 さらに,このシナリオでは無界乱数認証のプロトコルを提示し,理想の場合にプロトコルを実演する数値結果を提供する。 最後に,複数の物理プラットフォームにおけるプロトコルの性能を考慮し,近い将来の量子技術で実装する可能性について数値的に検証する。

The generation of certifiable randomness is one of the most promising applications of quantum technologies. Furthermore, the intrinsic non-locality of quantum correlations allow us to certify randomness in a device-independent way, i.e. one need not make assumptions about the devices used. Due to the work of Curchod et. al., a single entangled two-qubit pure state can be used to produce arbitrary amounts of certified randomness. However, the obtaining of this randomness is experimentally challenging as it requires a large number of measurements, both projective and general. Motivated by these difficulties in the device-independent setting, we instead consider the scenario of one-sided device independence where certain devices are trusted, and others not; a scenario motivated by asymmetric experimental set-ups such as ion-photon networks. We show how certain aspects of previous work can be adapted to this scenario and provide theoretical bounds on the amount of randomness which can be certified. Furthermore, we give a protocol for unbounded randomness certification in this scenario, and provide numerical results demonstrating the protocol in the ideal case. Finally, we numerically test the possibility of implementing this scheme on near-term quantum technologies, by considering the performance of the protocol on several physical platforms.
翻訳日:2023-05-07 06:46:01 公開日:2020-08-03
# 非平衡環境における非マルコフ量子力学

Non-Markovian qubit dynamics in nonequilibrium environments ( http://arxiv.org/abs/2008.00640v1 )

ライセンス: Link先を確認
Xiangji Cai(参考訳) 非定常および非マルコフ統計特性を持つ非平衡環境と結合した量子ビット系の非マルコフ力学を理論的に研究する。 単一キュービット系の還元密度行列は、すべての高次環境相関を考慮した閉三階微分方程式を満たすものであり、2つのキュービット系の還元密度行列は、単一キュービット・クラウス作用素のテンソル積の観点からクラウス表現として表すことができる。 我々は、2つの量子ビット系の絡み合いと非局所性の関係を導出し、両者はデコヒーレンス関数と密接に関連している。 本研究では, 2つの量子ビット系がそれぞれ複合ベル状態と拡張ヴェルナー状態にそれぞれ準備されたとき, 与えられた進化時間における共起と非局所量子相関の存在を保証するためにデコヒーレンス関数の閾値を同定する。 環境的非定常特性は非マルコフ力学の非結合性と非絡み合いのダイナミクスを抑制し,非マルコフ力学のコヒーレンスと絡み合いの復活を低減できることを示した。 また, 環境的非マルコフ的特徴は, 単一のデコヒーレンスダイナミクスにおけるコヒーレンス再生と, 2つの量子ビット不等角化ダイナミクスにおけるエンタングルメント再生をそれぞれ促進できることが示されている。 さらに、環境非定常および非マルコフ的特徴は、2つの量子ビット系の非局所性を高めることができる。

We theoretically study the non-Markovian dynamics of qubit systems coupled to nonequilibrium environments with nonstationary and non-Markovian statistical properties. The reduced density matrix of the single qubit system satisfies a closed third-order differential equation with all the higher-order environmental correlations taken into account and the reduced density matrix of the two qubit system can be expressed as the Kraus representation in terms of the tensor products of the single qubit Kraus operators. We derive the relation between the entanglement and nonlocality of the two qubit system which are both closely associated with the decoherence function. We identify the threshold values of the decoherence function to ensure the existences of the concurrence and nonlocal quantum correlations for a given evolution time when the two qubit system is initially prepared in the composite Bell states and the extended Werner states, respectively. It is shown that the environmental nonstationary feature can suppress the decoherence and disentanglement dynamics and can reduce the coherence and entanglement revivals in non-Markovian dynamics regime. In addition, it is shown that the environmental non-Markovian feature can enhance the coherence revivals in the single decoherence dynamics and the entanglement revivals in the two qubit disentanglement dynamics, respectively. Furthermore, the environmental nonstationary and non-Markovian features can enhance the nonlocality of the two qubit system.
翻訳日:2023-05-07 06:45:43 公開日:2020-08-03
# 設定独立の超決定論的拒絶について

On Superdeterministic Rejections of Settings Independence ( http://arxiv.org/abs/2008.00631v1 )

ライセンス: Link先を確認
G. S. Ciepielewski, E. Okon and D. Sudarsky(参考訳) ベルの定理(英: Bell's theorem)は、いくつかの補助仮定に基づいて、局所理論が量子力学の全ての予測を再現できないことを証明している。 本研究では,これらの仮定の1つとして,測度設定とシステム間の統計的独立性が必要な設定の独立性に明示的に違反することで,量子力学の全ての予測を再現できる,完全に局所的な超決定論的モデルを導入する。 さらに, 広範な期待に反して, 初期状態の処理が複雑すぎる場合, 説明力をすべて失わずに, 実験科学のすべてを完全に無効にすることなく, 設定独立性を破ることができることを示した。 それでも、我々のモデルは不必要に複雑であり、その非ローカルな競合に対して真の利点を提供していないと論じています。 我々は,我々のモデルは,非地域的相手に対する有効な競争相手とは思えないが,超決定論的経路を通した統計的独立の侵害に関する議論を進めるための理想的な枠組みを提供する。

Relying on some auxiliary assumptions, usually considered mild, Bell's theorem proves that no local theory can reproduce all the predictions of quantum mechanics. In this work, we introduce a fully local, superdeterministic model that, by explicitly violating settings independence--one of these auxiliary assumptions, requiring statistical independence between measurement settings and systems to be measured--is able to reproduce all the predictions of quantum mechanics. Moreover, we show that, contrary to widespread expectations, our model can break settings independence without an initial state that is too complex to handle, without visibly losing all explanatory power and without outright nullifying all of experimental science. Still, we argue that our model is unnecessarily complicated and does not offer true advantages over its non-local competitors. We conclude that, while our model does not appear to be a viable contender to their non-local counterparts, it provides the ideal framework to advance the debate over violations of statistical independence via the superdeterministic route.
翻訳日:2023-05-07 06:45:19 公開日:2020-08-03
# 雑音場下での量子系における反キブル・ズレーク挙動の実験的検証

Experimentally verifying anti-Kibble-Zurek behavior in a quantum system under noisy control field ( http://arxiv.org/abs/2008.00885v1 )

ライセンス: Link先を確認
Ming-Zhong Ai, Jin-Ming Cui, Ran He, Zhong-Hua Qian, Xin-Xia Gao, Yun-Feng Huang, Chuan-Feng Li, and Guang-Can Guo(参考訳) キブル・ズレック機構 (KZM) は、原理上、必要な対称性を持つ任意の系における相転移現象を記述できる普遍的な枠組みである。 しかし、強誘電性相転移(ferroelectric phase transition)の研究において、反KZ挙動と呼ばれる対立する観測結果が報告されており、よりトポロジカルな欠陥(S. M. Griffin, et al. Phys. Rev. X. 2, 041022 (2012)))を引き起こす。 この研究は重要であるが、これまで実験的なシミュレーションは少なかった。 本研究では,単一トラップybイオンを用いた3種類の量子相転移プロトコルにおいて,ノイズ制御場下での反kz挙動を実験的に実証する。 欠陥の密度は、クエンチ時間とノイズ強度の関数として研究されている。 雑音強度の普遍的パワー則として励起スケールを最小化する最適クエンチ時間を実験的に検証した。 本研究は,2レベルシステムにおける反KZ挙動の量子シミュレーションの段階を設定し,量子アニールなどの断熱プロトコルの限界を明らかにする。

Kibble-Zurek mechanism (KZM) is a universal framework which could in principle describe phase transition phenomenon in any system with required symmetry properties. However, a conflicting observation termed anti-KZ behavior has been reported in the study of ferroelectric phase transition, in which slower driving results in more topological defects [S. M. Griffin, et al. Phys. Rev. X. 2, 041022 (2012)]. Although this research is significant, its experimental simulations have been scarce until now. In this work, we experimentally demonstrate anti-KZ behavior under noisy control field in three kinds of quantum phase transition protocols using a single trapped Yb ion. The density of defects is studied as a function of the quench time and the noise intensity. We experimentally verify that the optimal quench time to minimize excitation scales as a universal power law of the noise intensity. Our research sets a stage for quantum simulation of such anti-KZ behavior in two-level systems and reveals the limitations of the adiabatic protocols such as quantum annealing.
翻訳日:2023-05-07 06:37:28 公開日:2020-08-03
# GDPR処理活動登録のセマンティックモデルに向けて

Towards a Semantic Model of the GDPR Register of Processing Activities ( http://arxiv.org/abs/2008.00877v1 )

ライセンス: Link先を確認
Paul Ryan, Harshvardhan J. Pandit, Rob Brennan(参考訳) GDPRコンプライアンスのコア要件は、処理アクティビティのレジスタ(ROPA)のメンテナンスである。 EUデータ保護規制機関による6つのROPAテンプレートの分析は、ROPAの範囲と粒度が、異なる管轄区域で広く異なるガイダンスの対象となっていることを示している。 分析テンプレート間の共通概念と関係に基づく統合データモデルを提案する。 次に、GDPRの語彙仕様であるData Privacy Vocabularyの使用範囲を分析します。 DPVは現在、ROPAデータモデルを表現するのに十分な概念を提供していないことを示し、このギャップを埋めるための拡張を提案する。 これにより、GDPRコンプライアンスの規制機関と組織間の相互運用性のためのパンEU情報管理フレームワークの作成が可能になる。

A core requirement for GDPR compliance is the maintenance of a register of processing activities (ROPA). Our analysis of six ROPA templates from EU data protection regulators shows the scope and granularity of a ROPA is subject to widely varying guidance in different jurisdictions. We present a consolidated data model based on common concepts and relationships across analysed templates. We then analyse the extent of using the Data Privacy Vocabulary - a vocabulary specification for GDPR. We show that the DPV currently does not provide sufficient concepts to represent the ROPA data model and propose an extension to fill this gap. This will enable creation of a pan-EU information management framework for interoperability between organisations and regulators for GDPR compliance.
翻訳日:2023-05-07 06:36:46 公開日:2020-08-03
# 新入生に対するインターンシップの効果:IIT, DU学生を事例として

Effects of Internship on Fresh Graduates: A case study on IIT, DU students ( http://arxiv.org/abs/2008.07450v1 )

ライセンス: Link先を確認
Amit Seal Ami, Asif Imran, Alim Ul Gias and Kazi Sakib(参考訳) あらゆるカリキュラムの目的は、業界対応の学生を育成することである。 したがって、カリキュラム活動の有効性は、その職種における新卒者の業績によって測定できる。 ソフトウェア工学(SE)シラバスを評価するため、ダッカ大学情報技術研究所(IIT)は、調査に基づく研究が実施されているプロジェクトのIQAC, HEQEPの下で主導権を握った。 このSEシラバスの独特さは、カリキュラム内には6ヶ月のインターンシップ学期がある。 他のすべてのコースや活動が伝統的であることを考えると、この研究の結果はインターンシッププログラムの効果とかなり考えられる。 その結果,インターンシップ経験のある学生は,業界からの期待以上の成績を示した。

The aim of any curriculum is to produce industry ready students. The effectiveness of curricular activities, thus, can be measured by the performances of fresh graduates at their job sectors. To evaluate the Software Engineering (SE) syllabus, Institute of Information Technology (IIT), University of Dhaka, has taken an initiative, under the project IQAC, HEQEP, where a survey based study has been performed. The uniqueness of this SE syllabus is having a six month long internship semester inside the curriculum. Considering all the other courses and activities as traditional, the outcome of the study can fairly be considered as the effect of the Internship program. The result shows that the students having internship experiences, performed above the level of expectation from the industries.
翻訳日:2023-05-07 06:28:36 公開日:2020-08-03
# AIラジオロジカルシステム評価のための標準化されたラジオグラフ非依存フレームワークとプラットフォーム

A Standardized Radiograph-Agnostic Framework and Platform For Evaluating AI Radiological Systems ( http://arxiv.org/abs/2008.07276v1 )

ライセンス: Link先を確認
Darlington Ahiale Akogo(参考訳) 放射線学は、疾患を正確に診断し、治療に対する反応を評価するのに不可欠である。 しかし問題は、世界中の放射線技師の不足にある。 これに対応するために、多くの人工知能ソリューションが開発されている。 しかし、人工知能の放射線学的ソリューションが直面する課題は、ベンチマークと評価基準の欠如と、エッジケースを一般化し、適切に処理するシステムの能力を真に評価する多様なデータを収集することの難しさである。 我々は、あらゆる人工知能の放射線学的解決策を、地理的な場所、性別、年齢のグループにまたがって一般化する能力に基づいて評価できる、放射線グラフ非依存のプラットフォームとフレームワークを提案している。

Radiology has been essential to accurately diagnosing diseases and assessing responses to treatment. The challenge however lies in the shortage of radiologists globally. As a response to this, a number of Artificial Intelligence solutions are being developed. The challenge Artificial Intelligence radiological solutions however face is the lack of a benchmarking and evaluation standard, and the difficulties of collecting diverse data to truly assess the ability of such systems to generalise and properly handle edge cases. We are proposing a radiograph-agnostic platform and framework that would allow any Artificial Intelligence radiological solution to be assessed on its ability to generalise across diverse geographical location, gender and age groups.
翻訳日:2023-05-07 06:28:23 公開日:2020-08-03
# 変分量子アルゴリズムのための量子最適制御誘導アンサッツ

Quantum-optimal-control-inspired ansatz for variational quantum algorithms ( http://arxiv.org/abs/2008.01098v1 )

ライセンス: Link先を確認
Alexandre Choquette, Agustin Di Paolo, Panagiotis Kl. Barkoutsos, David S\'en\'echal, Ivano Tavernelli, Alexandre Blais(参考訳) 変分量子アルゴリズム (VQA) の中心成分は状態準備回路(英語版)であり、アンザッツまたは変分形式とも呼ばれる。 この回路はハミルトニアン問題の対称性を尊重するために最も一般的に設計されており、この方法では変分探索を興味のある部分空間に制限する。 ここでは、対称性を破るユニタリを組み込んだans\"atzeを導入することで、このアプローチが必ずしも有利ではないことを示す。 量子最適制御(quantum-Optimal-Control-inspired Ans\atze, QOCA)と呼ばれるこのクラスは、量子最適制御の理論にインスパイアされ、いくつかの重要な問題に対してVQAsの収束が改善される。 実際、フェルミ・ハバードモデルに適用された一般的なans\"atzeに対するqocaベンチマークを半分満たし、我々の変分回路がこのモデルの基底状態をかなり高い精度とより大きなシステムで近似できることを示した。 また, qocaを水分子の基底状態の探索に利用し, ansatzの性能と化学問題に用いられる他の一般的な選択との比較を行った。 この研究は、より一般的な対称性を破る ans\ の開発への第一歩であり、物理学や化学問題への応用である。

A central component of variational quantum algorithms (VQA) is the state-preparation circuit, also known as ansatz or variational form. This circuit is most commonly designed to respect the symmetries of the problem Hamiltonian and, in this way, constrain the variational search to a subspace of interest. Here, we show that this approach is not always advantageous by introducing ans\"atze that incorporate symmetry-breaking unitaries. This class of ans\"atze, that we call Quantum-Optimal-Control-inspired Ans\"atze (QOCA), is inspired by the theory of quantum optimal control and leads to an improved convergence of VQAs for some important problems. Indeed, we benchmark QOCA against popular ans\"atze applied to the Fermi-Hubbard model at half-filling and show that our variational circuits can approximate the ground state of this model with significantly higher accuracy and for larger systems. We also show how QOCA can be used to find the ground state of the water molecule and compare the performance of our ansatz against other common choices used for chemistry problems. This work constitutes a first step towards the development of a more general class of symmetry-breaking ans\"atze with applications to physics and chemistry problems.
翻訳日:2023-05-07 06:27:42 公開日:2020-08-03
# 量子プロセッサ内におけるディジタル画像の内部表現のための5つの手法の解析

Analysis of five techniques for the internal representation of a digital image inside a quantum processor ( http://arxiv.org/abs/2008.01081v1 )

ライセンス: Link先を確認
Sundaraja Sitharama Iyengar, Latesh K.J. Kumar, Mario Mastriani(参考訳) 本稿では,量子プロセッサ内でのディジタル画像表現のための5つの手法を比較した。 この技術は、フレキシブルな量子画像表現(frqi)、新しい拡張量子表現(neqr)、一般化量子画像表現(gqir)、マルチチャネル表現(mcqi)、量子ブール画像処理(qbip)である。 比較はquirkシミュレータとibm q experienceプロセッサの実装に基づいて、パフォーマンス、堅牢性(ノイズ免疫)、デコヒーレンスによる結果の劣化、技術的有効性の観点から行われる。

In this paper, five techniques, for the representation of a digital image inside a quantum processor, are compared. The techniques are: flexible representation of quantum images (FRQI), novel enhanced quantum representation (NEQR), generalized quantum image representation (GQIR), multi-channel representation for quantum images (MCQI), and quantum Boolean image processing (QBIP). The comparison will be based on implementations on the Quirk simulator, and on the IBM Q Experience processors, from the point of view of performance, robustness (noise immunity), deterioration of the outcomes due to decoherence, and technical viability.
翻訳日:2023-05-07 06:26:29 公開日:2020-08-03
# 量子テレポーテーションとユング心理学

Quantum Teleportation and Jungian Psychology ( http://arxiv.org/abs/2008.01079v1 )

ライセンス: Link先を確認
Igor Devetak(参考訳) 本研究では、ユングの心理学的タイプは量子状態として自然にモデル化され、量子テレポーテーション中の量子ビットのうちの1つである最大絡み合った2量子状態が提案される。

We propose that the Jungian psychological type of an individual is naturally modelled as a quantum state: a maximally entangled two-qubit state, one of whose qubits is undergoing quantum teleportation.
翻訳日:2023-05-07 06:26:16 公開日:2020-08-03
# ダイヤモンド量子センサを用いた生きた哺乳類筋肉からの生体信号の検出

Detection of biological signals from a live mammalian muscle using a diamond quantum sensor ( http://arxiv.org/abs/2008.01002v1 )

ライセンス: Link先を確認
James Luke Webb, Luca Troise, Nikolaj Winther Hansen, Christoffer Olsson, Adam Wojciechowski, Jocelyn Achard, Ovidiu Brinza, Robert Staacke, Michael Kieschnick, Jan Meijer, Axel Thielscher, Jean-Francois Perrier, Kirstine Berg-Sorensen, Alexander Huck, Ulrik Lund Andersen(参考訳) 生体医学において、作用電位によって生じる電気信号の非侵襲的非接触測定を行う能力は不可欠である。 これを行うための重要な方法は、誘導する磁場によって信号をリモートで感知することである。 脳の脳磁図などの技術で用いられる哺乳類組織の磁場センシングには、低温冷却された超伝導検出器が必要である。 これらは高コスト、柔軟性、ポータビリティの制限、空間解像度や時間分解能の低下といった点で多くの欠点がある。 本研究では, ダイヤモンド中の窒素空孔中心を用いた生体組織の作用電位から電流によって発生する磁場を検出する方法を示す。 50pT/$\sqrt{Hz}$ sensitivityでは、マウスの筋肉に青色光を照射し、ダイヤモンドセンサーを用いて哺乳類組織からのセンシングを初めて測定した。 これらの測定は, 普通に遮蔽されていない実験室環境で行うことができ, デジタル信号処理技術により容易に回復できることを示す。

The ability to perform noninvasive, non-contact measurements of electric signals produced by action potentials is essential in biomedicine. A key method to do this is to remotely sense signals by the magnetic field they induce. Existing methods for magnetic field sensing of mammalian tissue, used in techniques such as magnetoencephalography of the brain, require cryogenically cooled superconducting detectors. These have many disadvantages in terms of high cost, flexibility and limited portability as well as poor spatial and temporal resolution. In this work we demonstrate an alternative technique for detecting magnetic fields generated by the current from action potentials in living tissue using nitrogen vacancy centres in diamond. With 50pT/$\sqrt{Hz}$ sensitivity, we show the first measurements of sensing from mammalian tissue with a diamond sensor using mouse muscle optogenetically activated with blue light. We show these measurements can be performed in an ordinary, unshielded lab environment and that the signal can be easily recovered by digital signal processing techniques.
翻訳日:2023-05-07 06:26:12 公開日:2020-08-03
# 画像のDenoisingに関する深層学習: 概観

Deep Learning on Image Denoising: An overview ( http://arxiv.org/abs/1912.13171v4 )

ライセンス: Link先を確認
Chunwei Tian, Lunke Fei, Wenxian Zheng, Yong Xu, Wangmeng Zuo, Chia-Wen Lin(参考訳) 深層学習技術は画像の雑音化の分野で大きな注目を集めている。 しかし、画像のデノベーションを扱う様々なディープラーニング手法には、かなりの違いがある。 特に、ディープラーニングに基づく判別学習は、ガウス雑音の問題に確実に対処することができる。 深層学習に基づく最適化モデルは実雑音の推定に有効である。 しかし,画像復調のための様々な深層学習手法を要約する研究はほとんど行われていない。 本稿では,画像のデノイジングにおける深い技術の比較研究を行う。 まず、付加的な白色雑音画像に対して深部畳み込みニューラルネットワーク(CNN)、実雑音画像に対する深部CNN、ブラインドデノイズ化のための深部CNN、ハイブリッド雑音画像に対する深部CNNを分類し、ノイズ、ぼかし、低解像度画像の組み合わせを表す。 次に,異なるタイプのディープラーニング手法の動機と原則を分析する。 次に、定量的および定性的な分析の観点から、パブリックデノゲーションデータセットの最先端手法を比較した。 最後に、今後の研究の潜在的な課題と方向性を指摘する。

Deep learning techniques have received much attention in the area of image denoising. However, there are substantial differences in the various types of deep learning methods dealing with image denoising. Specifically, discriminative learning based on deep learning can ably address the issue of Gaussian noise. Optimization models based on deep learning are effective in estimating the real noise. However, there has thus far been little related research to summarize the different deep learning techniques for image denoising. In this paper, we offer a comparative study of deep techniques in image denoising. We first classify the deep convolutional neural networks (CNNs) for additive white noisy images; the deep CNNs for real noisy images; the deep CNNs for blind denoising and the deep CNNs for hybrid noisy images, which represents the combination of noisy, blurred and low-resolution images. Then, we analyze the motivations and principles of the different types of deep learning methods. Next, we compare the state-of-the-art methods on public denoising datasets in terms of quantitative and qualitative analysis. Finally, we point out some potential challenges and directions of future research.
翻訳日:2023-01-16 21:08:31 公開日:2020-08-03
# 非パラメトリックなオフポリシー政策勾配

A Nonparametric Off-Policy Policy Gradient ( http://arxiv.org/abs/2001.02435v3 )

ライセンス: Link先を確認
Samuele Tosatto, Joao Carvalho, Hany Abdulsamad, Jan Peters(参考訳) 強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。 環境との密接な相互作用の必要性は、特に多くの一般的なポリシー勾配アルゴリズムにおいて、オン・ポリケーション・サンプルを使用して更新を行う。 このような非効率さの価格は、対話駆動型ロボット学習のような現実のシナリオにおいて明らかになり、RLの成功は比較的限られている。 我々は,オフポリシーアルゴリズムの一般的なサンプル効率に基づいてこの問題に対処する。 非パラメトリック回帰法と密度推定法により,非パラメトリックベルマン方程式を原理的に構築し,値関数の閉形式推定値を得るとともに,完全なポリシ勾配を解析的に表現する。 軽度な滑らかさ仮定の下での一貫性を示すため,提案手法は現状の政策勾配法よりもサンプル効率がよいことを示す。

Reinforcement learning (RL) algorithms still suffer from high sample complexity despite outstanding recent successes. The need for intensive interactions with the environment is especially observed in many widely popular policy gradient algorithms that perform updates using on-policy samples. The price of such inefficiency becomes evident in real-world scenarios such as interaction-driven robot learning, where the success of RL has been rather limited. We address this issue by building on the general sample efficiency of off-policy algorithms. With nonparametric regression and density estimation methods we construct a nonparametric Bellman equation in a principled manner, which allows us to obtain closed-form estimates of the value function, and to analytically express the full policy gradient. We provide a theoretical analysis of our estimate to show that it is consistent under mild smoothness assumptions and empirically show that our approach has better sample efficiency than state-of-the-art policy gradient methods.
翻訳日:2023-01-13 09:41:09 公開日:2020-08-03
# 2018年ロボットシーンセグメンテーションチャレンジ

2018 Robotic Scene Segmentation Challenge ( http://arxiv.org/abs/2001.11190v3 )

ライセンス: Link先を確認
Max Allan, Satoshi Kondo, Sebastian Bodenstedt, Stefan Leger, Rahim Kadkhodamohammadi, Imanol Luengo, Felix Fuentes, Evangello Flouty, Ahmed Mohammed, Marius Pedersen, Avinash Kori, Varghese Alex, Ganapathy Krishnamurthi, David Rauber, Robert Mendel, Christoph Palm, Sophia Bano, Guinther Saibro, Chi-Sheng Shih, Hsun-An Chiang, Juntang Zhuang, Junlin Yang, Vladimir Iglovikov, Anton Dobrenkii, Madhu Reddiboina, Anubhav Reddy, Xingtong Liu, Cong Gao, Mathias Unberath, Myeonghyeon Kim, Chanho Kim, Chaewon Kim, Hyejin Kim, Gyeongmin Lee, Ihsan Ullah, Miguel Luna, Sang Hyun Park, Mahdi Azizian, Danail Stoyanov, Lena Maier-Hein, Stefanie Speidel(参考訳) 2015年、ミュンヘンのMICCAIで開催されたEndoVisワークショップで、ロボットの前方運動学とCADモデルから自動生成されるアノテーションを用いて、前立腺組織の内視鏡画像を使用したサブチャンジを開始した。 しかし、背景の変化や単純な動きの制限により、実際の手術でどのテクニックがセグメント化に適しているかを学ぶのに、データセットは非形式的になった。 2017年、ケベックで開催された同じワークショップで、10チームがダ・ヴィンチ・インスツルメンツのバイナリ、調音部品、タイプセグメンテーションを行うチャレンジに参加しているロボット楽器セグメンテーションデータセットを導入しました。 この課題は、現実的な楽器の動きとより複雑なブタの組織を背景としており、u-netや他の人気のあるcnnアーキテクチャの変更で広く対処された。 2018年には、セグメント化されたクラスに解剖学的オブジェクトと医療機器のセットを導入することで、複雑さを追加しました。 課題を過度に複雑化するのを避けるため,多くの臓器を包含する脂肪組織が欠如していることから,ヒトの組織よりも劇的にシンプルであるブタのデータを使い続けた。

In 2015 we began a sub-challenge at the EndoVis workshop at MICCAI in Munich using endoscope images of ex-vivo tissue with automatically generated annotations from robot forward kinematics and instrument CAD models. However, the limited background variation and simple motion rendered the dataset uninformative in learning about which techniques would be suitable for segmentation in real surgery. In 2017, at the same workshop in Quebec we introduced the robotic instrument segmentation dataset with 10 teams participating in the challenge to perform binary, articulating parts and type segmentation of da Vinci instruments. This challenge included realistic instrument motion and more complex porcine tissue as background and was widely addressed with modifications on U-Nets and other popular CNN architectures. In 2018 we added to the complexity by introducing a set of anatomical objects and medical devices to the segmented classes. To avoid over-complicating the challenge, we continued with porcine data which is dramatically simpler than human tissue due to the lack of fatty tissue occluding many organs.
翻訳日:2023-01-05 12:40:52 公開日:2020-08-03
# 平均分散バンドイットに対するトンプソンサンプリングアルゴリズム

Thompson Sampling Algorithms for Mean-Variance Bandits ( http://arxiv.org/abs/2002.00232v3 )

ライセンス: Link先を確認
Qiuyu Zhu and Vincent Y. F. Tan(参考訳) マルチアームバンディット(英: multi-armed bandit、MAB)は、探索と探索のトレードオフを示す古典的な学習課題である。 しかし、標準的な定式化はリスクを考慮しない。 オンライン意思決定システムでは、リスクが主な懸念事項である。 この点において、平均分散リスク尺度は最も一般的な目的関数の1つである。 MAB問題の文脈における平均分散最適化のための既存のアルゴリズムは、報酬分布に非現実的な仮定を持つ。 我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発し、より少ない仮定でガウスおよびベルヌーイの包括的後悔分析を行う。 我々のアルゴリズムは、平均分散MABに対する最もよく知られた後悔境界を達成し、またパラメータ状態における情報理論境界を達成する。 実験シミュレーションにより、我々のアルゴリズムは既存のLCBベースのアルゴリズムよりはるかに優れており、全てのリスク許容度が高いことが示された。

The multi-armed bandit (MAB) problem is a classical learning task that exemplifies the exploration-exploitation tradeoff. However, standard formulations do not take into account {\em risk}. In online decision making systems, risk is a primary concern. In this regard, the mean-variance risk measure is one of the most common objective functions. Existing algorithms for mean-variance optimization in the context of MAB problems have unrealistic assumptions on the reward distributions. We develop Thompson Sampling-style algorithms for mean-variance MAB and provide comprehensive regret analyses for Gaussian and Bernoulli bandits with fewer assumptions. Our algorithms achieve the best known regret bounds for mean-variance MABs and also attain the information-theoretic bounds in some parameter regimes. Empirical simulations show that our algorithms significantly outperform existing LCB-based algorithms for all risk tolerances.
翻訳日:2023-01-05 00:47:04 公開日:2020-08-03
# 群決定の離散選択モデルに基づく選択集合最適化

Choice Set Optimization Under Discrete Choice Models of Group Decisions ( http://arxiv.org/abs/2002.00421v2 )

ライセンス: Link先を確認
Kiran Tomlinson and Austin R. Benson(参考訳) 人々が選択したり、好みを示す方法は、しばしば選択セットと呼ばれる利用可能な選択肢セットに強く影響される。 さらに、通常、小さなグループ内の個々のレベルまたは大きなグループのサブグループ内で、異質な選好がある。 選択データの可用性を考えると、効果的な予測を行うためにこの振る舞いをキャプチャするモデルが数多く存在する。しかしながら、意思決定者の集合の選好に影響を与えるために、選択セットを直接変更できる方法を理解する作業はほとんどない。 本稿では, 集団的影響の問題, 合意や意見の不一致を最大化し, 特定の選択を促進するための最適化フレームワークを開発するために, 個別選択モデルを用いる。 これらの問題は一般にNP-hardであることを示しているが、提案する制限は基本的な境界を明らかにしている。 難解な問題に対する近似アルゴリズムを設計し,実世界選択データでうまく機能することを示す。

The way that people make choices or exhibit preferences can be strongly affected by the set of available alternatives, often called the choice set. Furthermore, there are usually heterogeneous preferences, either at an individual level within small groups or within sub-populations of large groups. Given the availability of choice data, there are now many models that capture this behavior in order to make effective predictions--however, there is little work in understanding how directly changing the choice set can be used to influence the preferences of a collection of decision-makers. Here, we use discrete choice modeling to develop an optimization framework of such interventions for several problems of group influence, namely maximizing agreement or disagreement and promoting a particular choice. We show that these problems are NP-hard in general, but imposing restrictions reveals a fundamental boundary: promoting a choice can be easier than encouraging consensus or sowing discord. We design approximation algorithms for the hard problems and show that they work well on real-world choice data.
翻訳日:2023-01-04 19:56:11 公開日:2020-08-03
# 予測オンライン最適化と光フローへの応用

Predictive online optimisation with applications to optical flow ( http://arxiv.org/abs/2002.03053v2 )

ライセンス: Link先を確認
Tuomo Valkonen(参考訳) オンラインの最適化は、まだ解決されている間、新しいデータが問題に導入されていることに関連している。 我々はこのアイデアを光学的流れを伴うビデオ処理などの動的逆問題に適用する。 本稿では,オンライン初等的近位分割の予測手法を提案する。 ビデオフレームはアルゴリズムの繰り返しと完全に一致する。 ユーザが記述した予測器は、主変数の進化を記述する。 収束を証明するには、(近位)勾配流れに基づく双対変数の予測器が必要である。 これは、この手法が漸近的に最小化するモデルに影響する。 逆問題に対しては、本質的には、静的正規化器と時間結合のインフィマル畳み込みに基づく新しい動的正規化器を構築することが効果であることを示す。 正規化理論による画像安定化と収束において,提案手法の優れたリアルタイム性能を示す。

Online optimisation revolves around new data being introduced into a problem while it is still being solved; think of deep learning as more training samples become available. We adapt the idea to dynamic inverse problems such as video processing with optical flow. We introduce a corresponding predictive online primal-dual proximal splitting method. The video frames now exactly correspond to the algorithm iterations. A user-prescribed predictor describes the evolution of the primal variable. To prove convergence we need a predictor for the dual variable based on (proximal) gradient flow. This affects the model that the method asymptotically minimises. We show that for inverse problems the effect is, essentially, to construct a new dynamic regulariser based on infimal convolution of the static regularisers with the temporal coupling. We finish by demonstrating excellent real-time performance of our method in computational image stabilisation and convergence in terms of regularisation theory.
翻訳日:2023-01-02 23:04:00 公開日:2020-08-03
# 探索、発見、学習 - 国家被覆スキルの教師なし発見

Explore, Discover and Learn: Unsupervised Discovery of State-Covering Skills ( http://arxiv.org/abs/2002.03647v4 )

ライセンス: Link先を確認
V\'ictor Campos, Alexander Trott, Caiming Xiong, Richard Socher, Xavier Giro-i-Nieto, Jordi Torres(参考訳) タスク指向報酬関数が存在しない場合の能力獲得は、強化学習研究の最前線にある。 この問題は、オプション発見と情報理論の関連性を引き出すエンパワーメントのレンズを通して研究されている。 情報理論的スキル発見手法はコミュニティから多くの関心を集めているが,その限界を理解するための研究はほとんど行われていない。 理論的分析と実証的な証拠を通じて、既存のアルゴリズムが共通の制限に悩まされていることを示す。 そこで本稿では,情報理論的スキル発見のための代替手法として,'Explore, Discover and Learn' (EDL)を提案する。 重要なことは、EDLはエンパワーメント文献から導かれる同じ情報理論の目的を最適化するが、異なる機械を用いて最適化問題に対処する。 我々は,制御環境におけるスキル発見手法の広範な評価を行い,edlがカバレッジ問題を克服し,初期状態への学習スキルの依存度を低減し,ユーザが学習すべき振る舞いを事前に定義できるようにすることなど,大きなメリットがあることを示す。 コードはhttps://github.com/victorcampos7/edlで公開されている。

Acquiring abilities in the absence of a task-oriented reward function is at the frontier of reinforcement learning research. This problem has been studied through the lens of empowerment, which draws a connection between option discovery and information theory. Information-theoretic skill discovery methods have garnered much interest from the community, but little research has been conducted in understanding their limitations. Through theoretical analysis and empirical evidence, we show that existing algorithms suffer from a common limitation -- they discover options that provide a poor coverage of the state space. In light of this, we propose 'Explore, Discover and Learn' (EDL), an alternative approach to information-theoretic skill discovery. Crucially, EDL optimizes the same information-theoretic objective derived from the empowerment literature, but addresses the optimization problem using different machinery. We perform an extensive evaluation of skill discovery methods on controlled environments and show that EDL offers significant advantages, such as overcoming the coverage problem, reducing the dependence of learned skills on the initial state, and allowing the user to define a prior over which behaviors should be learned. Code is publicly available at https://github.com/victorcampos7/edl.
翻訳日:2023-01-02 07:10:11 公開日:2020-08-03
# background recalibration loss を用いた無記名オブジェクト検出の解法

Solving Missing-Annotation Object Detection with Background Recalibration Loss ( http://arxiv.org/abs/2002.05274v2 )

ライセンス: Link先を確認
Han Zhang, Fangyi Chen, Zhiqiang Shen, Qiqi Hao, Chenchen Zhu, Marios Savvides(参考訳) 真のオブジェクト/インスタンスの大部分はデータセットにラベル付けされていないため、これらの欠落したラベル付き領域はトレーニング中に背景と見なされる。 この問題に対する従来の技術では,RoIsの勾配を正の例と重なり合いに基づいて再重み付けするためにソフトサンプリングを用いることが提案されているが,その手法は主に2段階検出器(高速RCNN)をベースとしている。 本稿では、予め定義されたIoU閾値と入力画像に基づいて損失信号を自動的に校正できる、バックグラウンド校正損失(BRL)と呼ばれる優れた解を提案する。 我々の設計はより高速で軽量な1段検出器上に構築されている。 Focal Lossの定式化にインスパイアされた我々は、欠落したアノテーションの状況に適合するように、いくつかの重要な修正を行った。 PASCAL VOC と MS COCO データセットについて広範な実験を行った。 その結果,提案手法はベースラインおよび他の最先端技術よりも大きなマージンで優れていた。 コード提供: https://github.com/dwrety/mmdetection-selective-iou。

This paper focuses on a novel and challenging detection scenario: A majority of true objects/instances is unlabeled in the datasets, so these missing-labeled areas will be regarded as the background during training. Previous art on this problem has proposed to use soft sampling to re-weight the gradients of RoIs based on the overlaps with positive instances, while their method is mainly based on the two-stage detector (i.e. Faster RCNN) which is more robust and friendly for the missing label scenario. In this paper, we introduce a superior solution called Background Recalibration Loss (BRL) that can automatically re-calibrate the loss signals according to the pre-defined IoU threshold and input image. Our design is built on the one-stage detector which is faster and lighter. Inspired by the Focal Loss formulation, we make several significant modifications to fit on the missing-annotation circumstance. We conduct extensive experiments on the curated PASCAL VOC and MS COCO datasets. The results demonstrate that our proposed method outperforms the baseline and other state-of-the-arts by a large margin. Code available: https://github.com/Dwrety/mmdetection-selective-iou.
翻訳日:2023-01-01 19:28:12 公開日:2020-08-03
# 可算逆説明計算のための凸密度制約

Convex Density Constraints for Computing Plausible Counterfactual Explanations ( http://arxiv.org/abs/2002.04862v2 )

ライセンス: Link先を確認
Andr\'e Artelt, Barbara Hammer(参考訳) 機械学習の展開とeuのgdprのような法的規制の増加は、機械学習モデルによって提案された決定をユーザーフレンドリーに説明する必要がある。 反事実的説明は、モデルの特定の決定を説明する最も一般的な手法の1つとみなされる。 任意」対実的説明の計算はよく研究されているが、妥当かつ実現可能な対実的説明を効率的に計算する方法に関するオープンな研究課題である。 我々は最近の研究に基づいて、妥当な対実的説明の形式的定義を提案し、研究する。 特に, 実測値の妥当性と妥当性を高めるために, 密度推定器を用いる方法を検討する。 効率的な計算のために, 結果として生じる反事実が高密度のデータ空間の領域に存在することを保証する凸密度制約を提案する。

The increasing deployment of machine learning as well as legal regulations such as EU's GDPR cause a need for user-friendly explanations of decisions proposed by machine learning models. Counterfactual explanations are considered as one of the most popular techniques to explain a specific decision of a model. While the computation of "arbitrary" counterfactual explanations is well studied, it is still an open research problem how to efficiently compute plausible and feasible counterfactual explanations. We build upon recent work and propose and study a formal definition of plausible counterfactual explanations. In particular, we investigate how to use density estimators for enforcing plausibility and feasibility of counterfactual explanations. For the purpose of efficient computations, we propose convex density constraints that ensure that the resulting counterfactual is located in a region of the data space of high density.
翻訳日:2023-01-01 18:43:58 公開日:2020-08-03
# 階層的品質と繰り返し強調による映像圧縮の学習

Learning for Video Compression with Hierarchical Quality and Recurrent Enhancement ( http://arxiv.org/abs/2003.01966v7 )

ライセンス: Link先を確認
Ren Yang, Fabian Mentzer, Luc Van Gool, Radu Timofte(参考訳) 本稿では,3つの階層的品質層と再帰的拡張ネットワークを有する階層的学習ビデオ圧縮(hlvc)手法を提案する。 第1層のフレームは、最高品質の画像圧縮方法により圧縮される。 これらのフレームを参考に,第2層を比較的高品質で圧縮する双方向深層圧縮(bddc)ネットワークを提案する。 そして、提案するsmdc(single motion deep compression)ネットワークにより、第3層フレームを低品質で圧縮し、単一のモーションマップを用いて複数のフレームの動作を推定し、動き情報のためのビットを節約する。 深層デコーダでは,圧縮フレームとビットストリームの両方を入力として利用する重み付きリカレント品質向上(WRQE)ネットワークを開発した。 wrqeのリカレントセルでは、メモリと更新信号は品質特性によって重み付けされ、マルチフレーム情報を適度に活用して拡張される。 ハイクオリティな情報によってエンコーダ側とデコーダ側での低品質フレームの圧縮と拡張が促進されるため,hlvcアプローチでは,階層的品質が符号化効率に寄与する。 最後に、我々のHLVC手法が深層ビデオ圧縮手法の最先端化を実証し、PSNRとMS-SSIMの両面において、x265の「低遅延P(LDP)」モードよりも優れていることを示す。 プロジェクトページはhttps://github.com/RenYang-home/HLVCにある。

In this paper, we propose a Hierarchical Learned Video Compression (HLVC) method with three hierarchical quality layers and a recurrent enhancement network. The frames in the first layer are compressed by an image compression method with the highest quality. Using these frames as references, we propose the Bi-Directional Deep Compression (BDDC) network to compress the second layer with relatively high quality. Then, the third layer frames are compressed with the lowest quality, by the proposed Single Motion Deep Compression (SMDC) network, which adopts a single motion map to estimate the motions of multiple frames, thus saving bits for motion information. In our deep decoder, we develop the Weighted Recurrent Quality Enhancement (WRQE) network, which takes both compressed frames and the bit stream as inputs. In the recurrent cell of WRQE, the memory and update signal are weighted by quality features to reasonably leverage multi-frame information for enhancement. In our HLVC approach, the hierarchical quality benefits the coding efficiency, since the high quality information facilitates the compression and enhancement of low quality frames at encoder and decoder sides, respectively. Finally, the experiments validate that our HLVC approach advances the state-of-the-art of deep video compression methods, and outperforms the "Low-Delay P (LDP) very fast" mode of x265 in terms of both PSNR and MS-SSIM. The project page is at https://github.com/RenYang-home/HLVC.
翻訳日:2022-12-26 13:35:35 公開日:2020-08-03
# 誰が運転を止めさせる? ドライバー中心型リスクアセスメントに向けて:因果推論によるリスクオブジェクトの同定

Who Make Drivers Stop? Towards Driver-centric Risk Assessment: Risk Object Identification via Causal Inference ( http://arxiv.org/abs/2003.02425v2 )

ライセンス: Link先を確認
Chengxi Li, Stanley H. Chan and Yi-Ting Chen(参考訳) 運転ミスにより交通事故でかなりの数の人が死亡する。 死亡率を減らすため、ドライバーが潜在的なリスクを特定するためのインテリジェントな運転システムの開発が急務である。 リスク状況は、一般的に既存の作品の衝突予測に基づいて定義される。 しかし、衝突は潜在的なリスクの源であり、より一般的な定義が必要である。 本研究では,運転者の行動に影響を及ぼす物体が危険である,という新しい運転者中心のリスク定義を提案する。 リスクオブジェクト識別と呼ばれる新しいタスクが導入される。 本稿では,課題を原因効果問題として定式化し,提案するオブジェクトレベルのマニピュレータ駆動モデルを用いた因果推論に基づく2段階リスクオブジェクト識別フレームワークを提案する。 本研究は,Honda Research Institute Driving Dataset(HDD)の強力なベースラインと比較して,リスクオブジェクトの識別に好適な性能を示す。 当社のフレームワークは,強力なベースラインに対するパフォーマンスを7.5%向上させています。

A significant amount of people die in road accidents due to driver errors. To reduce fatalities, developing intelligent driving systems assisting drivers to identify potential risks is in an urgent need. Risky situations are generally defined based on collision prediction in the existing works. However, collision is only a source of potential risks, and a more generic definition is required. In this work, we propose a novel driver-centric definition of risk, i.e., objects influencing drivers' behavior are risky. A new task called risk object identification is introduced. We formulate the task as the cause-effect problem and present a novel two-stage risk object identification framework based on causal inference with the proposed object-level manipulable driving model. We demonstrate favorable performance on risk object identification compared with strong baselines on the Honda Research Institute Driving Dataset (HDD). Our framework achieves a substantial average performance boost over a strong baseline by 7.5%.
翻訳日:2022-12-26 07:28:23 公開日:2020-08-03
# NeRF:ビュー合成のためのニューラルラジアンス場としてのシーン表現

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis ( http://arxiv.org/abs/2003.08934v2 )

ライセンス: Link先を確認
Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng(参考訳) 本稿では,入力ビューのスパースセットを用いて,基礎となる連続ボリュームシーン関数を最適化することにより,複雑なシーンの新しいビューを合成する最新の結果を得る手法を提案する。 本手法は,連続5次元座標(空間位置$(x,y,z)$,視方向$(\theta, \phi)$)を入力とし,その空間位置におけるボリューム密度とビュー依存放射放射輝度を出力とする,完全連結(非畳み込み)深層ネットワークを用いてシーンを表現する。 我々は5D座標をカメラ線に沿ってクエリすることでビューを合成し、古典的なボリュームレンダリング技術を用いて出力色と密度を画像に投影する。 ボリュームレンダリングは自然に微分可能であるため、表現を最適化するのに必要な唯一の入力は、既知のカメラポーズを持つ画像の集合である。 複雑な幾何学と外観を持つシーンのフォトリアリスティックな斬新なビューをレンダリングするために、ニューラルラディアンス場を効果的に最適化する方法を説明し、ニューラルレンダリングとビュー合成の先行研究よりも優れた結果を示す。 ビュー合成の結果はビデオとしてよく見られるので、読者に説得力のある比較のために補足的なビデオを見るように促します。

We present a method that achieves state-of-the-art results for synthesizing novel views of complex scenes by optimizing an underlying continuous volumetric scene function using a sparse set of input views. Our algorithm represents a scene using a fully-connected (non-convolutional) deep network, whose input is a single continuous 5D coordinate (spatial location $(x,y,z)$ and viewing direction $(\theta, \phi)$) and whose output is the volume density and view-dependent emitted radiance at that spatial location. We synthesize views by querying 5D coordinates along camera rays and use classic volume rendering techniques to project the output colors and densities into an image. Because volume rendering is naturally differentiable, the only input required to optimize our representation is a set of images with known camera poses. We describe how to effectively optimize neural radiance fields to render photorealistic novel views of scenes with complicated geometry and appearance, and demonstrate results that outperform prior work on neural rendering and view synthesis. View synthesis results are best viewed as videos, so we urge readers to view our supplementary video for convincing comparisons.
翻訳日:2022-12-22 04:50:46 公開日:2020-08-03
# ラベルはニューラルネットワークの検索に必要か?

Are Labels Necessary for Neural Architecture Search? ( http://arxiv.org/abs/2003.12056v2 )

ライセンス: Link先を確認
Chenxi Liu, Piotr Doll\'ar, Kaiming He, Ross Girshick, Alan Yuille, Saining Xie(参考訳) コンピュータビジョンにおける既存のニューラルネットワークアーキテクチャ(人間によって設計されるか、機械によって設計されるか)は、通常、画像と関連するラベルの両方を使用して発見される。 本稿では,画像のみを使用して高品質なニューラルアーキテクチャを見つけることができるが,人間の注釈付きラベルは存在しないか? この質問に答えるために、まずUnsupervised Neural Architecture Search (UnNAS)と呼ばれる新しい設定を定義します。 次に2つの実験を行います サンプルベース実験では,教師付きあるいは教師なしの目的を持った多種多様なアーキテクチャ (500) を訓練し,ラベル付きおよびラベルなしのアーキテクチャランキングに高い相関関係があることを見出した。 探索に基づく実験では、教師なしの目的を用いて、よく確立されたNASアルゴリズム(DARTS)を実行し、ラベルなしで検索されたアーキテクチャがラベルで検索されたアーキテクチャと競合する可能性があることを報告する。 これらの結果は、ラベルは必要ないという潜在的に驚くべき発見を示し、画像の統計だけでは優れたニューラルネットワークを識別できる可能性がある。

Existing neural network architectures in computer vision -- whether designed by humans or by machines -- were typically found using both images and their associated labels. In this paper, we ask the question: can we find high-quality neural architectures using only images, but no human-annotated labels? To answer this question, we first define a new setup called Unsupervised Neural Architecture Search (UnNAS). We then conduct two sets of experiments. In sample-based experiments, we train a large number (500) of diverse architectures with either supervised or unsupervised objectives, and find that the architecture rankings produced with and without labels are highly correlated. In search-based experiments, we run a well-established NAS algorithm (DARTS) using various unsupervised objectives, and report that the architectures searched without labels can be competitive to their counterparts searched with labels. Together, these results reveal the potentially surprising finding that labels are not necessary, and the image statistics alone may be sufficient to identify good neural architectures.
翻訳日:2022-12-19 21:23:51 公開日:2020-08-03
# FASTより速い - 高速VIOのためのGPUアクセラレーションフロントエンド

Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO ( http://arxiv.org/abs/2003.13493v3 )

ライセンス: Link先を確認
Balazs Nagy, Philipp Foehn, Davide Scaramuzza(参考訳) 最近の組み込みグラフィックス処理ユニット(GPU)の導入により、リアルタイムコンピュータビジョンアプリケーションの予期せぬ改善が可能になった。 標準のビデオレートよりもはるかに高い速度でアルゴリズムをオンにすることで、より高い情報処理能力だけでなく、レイテンシの低減も実現している。 この研究は、視覚慣性オドメトリー(VIO)分野における既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。 VIOパイプラインのほとんどのステップは視覚機能で動作するが、検出とトラッキングにはイメージデータに依存しており、両方のステップは並列化に適している。 特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。 本研究は,まず,gpuに特有な特徴検出のための非マキシマ抑制の問題を再検討し,局所応答最大を選択し,空間的特徴分布を課し,同時に特徴を抽出するソリューションを提案する。 第2のコントリビューションでは,上述の非最大抑制法を適用したFAST特徴検出器が導入された。 最後に、我々の手法を他の最先端のCPUやGPUの実装と比較し、機能トラッキングや検出において、常にそれらすべてより優れており、Jetson TX2プラットフォームで1000fps以上のスループットを実現しています。 さらに,約200fpsのメートル法状態推定を実現するために,vioパイプラインに統合した。

The recent introduction of powerful embedded graphics processing units (GPUs) has allowed for unforeseen improvements in real-time computer vision applications. It has enabled algorithms to run onboard, well above the standard video rates, yielding not only higher information processing capability, but also reduced latency. This work focuses on the applicability of efficient low-level, GPU hardware-specific instructions to improve on existing computer vision algorithms in the field of visual-inertial odometry (VIO). While most steps of a VIO pipeline work on visual features, they rely on image data for detection and tracking, of which both steps are well suited for parallelization. Especially non-maxima suppression and the subsequent feature selection are prominent contributors to the overall image processing latency. Our work first revisits the problem of non-maxima suppression for feature detection specifically on GPUs, and proposes a solution that selects local response maxima, imposes spatial feature distribution, and extracts features simultaneously. Our second contribution introduces an enhanced FAST feature detector that applies the aforementioned non-maxima suppression method. Finally, we compare our method to other state-of-the-art CPU and GPU implementations, where we always outperform all of them in feature tracking and detection, resulting in over 1000fps throughput on an embedded Jetson TX2 platform. Additionally, we demonstrate our work integrated in a VIO pipeline achieving a metric state estimation at ~200fps.
翻訳日:2022-12-18 08:03:41 公開日:2020-08-03
# スマートフォンのPalmprint検証に向けて

Towards Palmprint Verification On Smartphones ( http://arxiv.org/abs/2003.13266v2 )

ライセンス: Link先を確認
Yingyi Zhang, Lin Zhang, Ruixin Zhang, Shaoxin Li, Jilin Li, Feiyue Huang(参考訳) モバイル機器の急速な発展に伴い、スマートフォンは徐々に人々の生活に欠かせない部分になりつつある。 一方,生体認証は,個人のアイデンティティを高い信頼性で確立するための有効な方法であると推定されている。 そのため、近年、スマートフォンの生体認証技術も洗練され人気が高まっている。 しかし、スマートフォン向けの手のひらプリントの応用可能性はかなり過小評価されている。 過去20年間の研究では、パームプリントは独特さと永続性に優れており、高いユーザ受け入れを持っていることが示されている。 しかし、スマートフォンのpalmprint認証を専門とする研究は、特に顔や指紋を対象とするものと比較すると、まだ散発的だ。 本稿では,上記の研究ギャップを埋めるため,スマートフォン上でのpalmprintの検証を徹底的に検討し,その貢献度を2倍とした。 まず,スマートフォン上でのヤシ印刷の検証を容易にするために,MPDという注釈付きヤシ印刷データセットを構築し,背景と照明条件の異なる2つのセッションで多ブランドのスマートフォンから収集した。 この分野で最大のデータセットとして、MPDは200人の被験者から収集された16,000個のヤシ画像を含んでいる。 次に、スマートフォン用のDeepMPV+という、DCNNベースのパームプリント検証システムを構築した。 DeepMPV+では、ROI抽出とROIマッチングという2つの重要なステップが学習問題として定式化され、近代DCNNモデルによって自然に解かれる。 DeepMPV+の効率と有効性は広範な実験によって裏付けられている。 結果を完全に再現可能にするため、ラベル付きデータセットと関連するソースコードがhttps://cslinzhang.github.io/MobilePalmPrint/で公開されている。

With the rapid development of mobile devices, smartphones have gradually become an indispensable part of people's lives. Meanwhile, biometric authentication has been corroborated to be an effective method for establishing a person's identity with high confidence. Hence, recently, biometric technologies for smartphones have also become increasingly sophisticated and popular. But it is noteworthy that the application potential of palmprints for smartphones is seriously underestimated. Studies in the past two decades have shown that palmprints have outstanding merits in uniqueness and permanence, and have high user acceptance. However, currently, studies specializing in palmprint verification for smartphones are still quite sporadic, especially when compared to face- or fingerprint-oriented ones. In this paper, aiming to fill the aforementioned research gap, we conducted a thorough study of palmprint verification on smartphones and our contributions are twofold. First, to facilitate the study of palmprint verification on smartphones, we established an annotated palmprint dataset named MPD, which was collected by multi-brand smartphones in two separate sessions with various backgrounds and illumination conditions. As the largest dataset in this field, MPD contains 16,000 palm images collected from 200 subjects. Second, we built a DCNN-based palmprint verification system named DeepMPV+ for smartphones. In DeepMPV+, two key steps, ROI extraction and ROI matching, are both formulated as learning problems and then solved naturally by modern DCNN models. The efficiency and efficacy of DeepMPV+ have been corroborated by extensive experiments. To make our results fully reproducible, the labeled dataset and the relevant source codes have been made publicly available at https://cslinzhang.github.io/MobilePalmPrint/.
翻訳日:2022-12-18 07:55:02 公開日:2020-08-03
# 進化計算による不均一な生成アンサンブルの再構成

Re-purposing Heterogeneous Generative Ensembles with Evolutionary Computation ( http://arxiv.org/abs/2003.13532v2 )

ライセンス: Link先を確認
Jamal Toutouh, Erik Hemberg, and Una-May O'Reilly(参考訳) Generative Adversarial Networks (GAN) はジェネレーティブモデリングの一般的なツールである。 敵対的学習のダイナミクスは、訓練中のモードや判別器の崩壊などの収束病理を生じさせる。 機械学習では、予測器のアンサンブルは多くのタスクの単一の予測器よりも優れた結果を示す。 本研究では,2つの進化的アルゴリズム(eas)を適用し,1つの目的に最適化された不均一生成器群(フレシェインセプション距離を最小化するなど)を与えられた場合,異なる目的(例えば,生成したサンプルの多様性を最大化する)を最適化するためのアンサンブルを作成する。 第1の方法はアンサンブルの正確なサイズによって制限され、第2の方法はアンサンブルサイズの上限のみを制限する。 MNISTイメージベンチマークの実験分析では、両方のEAアンサンブル生成手法が元の機能を低下させることなくモデルを再使用できることが示されている。 EAベースの手法は、他のヒューリスティックな手法に比べて非常に優れたパフォーマンスを示している。 両方の進化を比較するとき、アンサンブルサイズに束縛された上サイズのみを持つものが最良である。

Generative Adversarial Networks (GANs) are popular tools for generative modeling. The dynamics of their adversarial learning give rise to convergence pathologies during training such as mode and discriminator collapse. In machine learning, ensembles of predictors demonstrate better results than a single predictor for many tasks. In this study, we apply two evolutionary algorithms (EAs) to create ensembles to re-purpose generative models, i.e., given a set of heterogeneous generators that were optimized for one objective (e.g., minimize Frechet Inception Distance), create ensembles of them for optimizing a different objective (e.g., maximize the diversity of the generated samples). The first method is restricted by the exact size of the ensemble and the second method only restricts the upper bound of the ensemble size. Experimental analysis on the MNIST image benchmark demonstrates that both EA ensembles creation methods can re-purpose the models, without reducing their original functionality. The EA-based demonstrate significantly better performance compared to other heuristic-based methods. When comparing both evolutionary, the one with only an upper size bound on the ensemble size is the best.
翻訳日:2022-12-18 06:24:22 公開日:2020-08-03
# BCNet: シングルイメージから身体と衣服の形状を学ぶ

BCNet: Learning Body and Cloth Shape from A Single Image ( http://arxiv.org/abs/2004.00214v2 )

ライセンス: Link先を確認
Boyi Jiang, Juyong Zhang, Yang Hong, Jinhao Luo, Ligang Liu and Hujun Bao(参考訳) 本稿では,1枚の近景RGB画像から衣服や身体の形状を自動再構成する問題を考察する。 この目的のために,SMPL上に重ねられた衣服表現を提案し,ボディメッシュから独立して衣服のスキン重量を斬新にすることで,衣服モデルの表現能力を大幅に向上させる。 既存の手法と比較すると,より多くの衣料品カテゴリをサポートし,より正確な形状を復元できる。 本モデルでは,2つの大規模データセットを,地上の真理体と衣服のジオメトリーとペアカラー画像で構築する。 単一メッシュや非パラメトリック表現と比較して,別々のメッシュでより柔軟な制御が可能であり,再配置や衣服の移動,衣服のテクスチャマッピングといった応用が可能となる。 コードといくつかのデータはhttps://github.com/jby1993/bcnetで入手できる。

In this paper, we consider the problem to automatically reconstruct garment and body shapes from a single near-front view RGB image. To this end, we propose a layered garment representation on top of SMPL and novelly make the skinning weight of garment independent of the body mesh, which significantly improves the expression ability of our garment model. Compared with existing methods, our method can support more garment categories and recover more accurate geometry. To train our model, we construct two large scale datasets with ground truth body and garment geometries as well as paired color images. Compared with single mesh or non-parametric representation, our method can achieve more flexible control with separate meshes, makes applications like re-pose, garment transfer, and garment texture mapping possible. Code and some data is available at https://github.com/jby1993/BCNet.
翻訳日:2022-12-17 19:22:50 公開日:2020-08-03
# 世代交叉神経ネットワークのための細胞訓練の並列/分散実装

Parallel/distributed implementation of cellular training for generative adversarial neural networks ( http://arxiv.org/abs/2004.04633v3 )

ライセンス: Link先を確認
Emiliano Perez, Sergio Nesmachnow, Jamal Toutouh, Erik Hemberg, Una-May O'Reilly(参考訳) generative adversarial network (gans) は、生成モデルを学ぶために広く使われている。 GANはジェネレータと識別器という2つのネットワークから構成され、そのパラメータを最適化するために逆学習を適用する。 本稿では、GANの2つの集団を訓練するための細胞競合共進化手法の並列/分散実装について述べる。 分散メモリ並列実装はハイパフォーマンス/スーパーコンピューティングセンターで実行するために提案される。 手書きディジット(MNISTデータセット)の生成に有効な結果が報告されている。 さらに,提案手法は,トレーニング用グリッドサイズが異なる場合,トレーニング時間を短縮し,適切にスケールすることができる。

Generative adversarial networks (GANs) are widely used to learn generative models. GANs consist of two networks, a generator and a discriminator, that apply adversarial learning to optimize their parameters. This article presents a parallel/distributed implementation of a cellular competitive coevolutionary method to train two populations of GANs. A distributed memory parallel implementation is proposed for execution in high performance/supercomputing centers. Efficient results are reported on addressing the generation of handwritten digits (MNIST dataset samples). Moreover, the proposed implementation is able to reduce the training times and scale properly when considering different grid sizes for training.
翻訳日:2022-12-16 00:06:38 公開日:2020-08-03
# Self6D: 自己監督型モノクロ6Dオブジェクトポス推定

Self6D: Self-Supervised Monocular 6D Object Pose Estimation ( http://arxiv.org/abs/2004.06468v3 )

ライセンス: Link先を確認
Gu Wang, Fabian Manhardt, Jianzhun Shao, Xiangyang Ji, Nassir Navab, Federico Tombari(参考訳) 6Dオブジェクトのポーズ推定はコンピュータビジョンの基本的な問題である。 畳み込みニューラルネットワーク(cnns)は、単眼画像からでも信頼できる6dポーズ推定を予測できることが最近証明されている。 それでも、CNNは極めてデータ駆動であり、適切なアノテーションを取得することは、しばしば非常に時間がかかり、労力がかかる。 この欠点を克服するために,自己教師付き学習による単眼6次元ポーズ推定のアイデアを提案し,実際のアノテーションの必要性を排除した。 提案するネットワークを合成rgbデータで完全に教師ありに訓練した後,近年のニューラルレンダリングの進歩を利用して,無注釈実rgb-dデータに対するモデルの自己監督を行い,視覚的かつ幾何学的に最適なアライメントを求める。 大規模評価の結果,提案する自己スーパービジョンは,合成データやドメイン適応領域からの精巧な手法を用いることで,モデル本来の性能を大幅に向上させることができることがわかった。

6D object pose estimation is a fundamental problem in computer vision. Convolutional Neural Networks (CNNs) have recently proven to be capable of predicting reliable 6D pose estimates even from monocular images. Nonetheless, CNNs are identified as being extremely data-driven, and acquiring adequate annotations is oftentimes very time-consuming and labor intensive. To overcome this shortcoming, we propose the idea of monocular 6D pose estimation by means of self-supervised learning, removing the need for real annotations. After training our proposed network fully supervised with synthetic RGB data, we leverage recent advances in neural rendering to further self-supervise the model on unannotated real RGB-D data, seeking for a visually and geometrically optimal alignment. Extensive evaluations demonstrate that our proposed self-supervision is able to significantly enhance the model's original performance, outperforming all other methods relying on synthetic data or employing elaborate techniques from the domain adaptation realm.
翻訳日:2022-12-13 09:50:04 公開日:2020-08-03
# BURT:BERTにインスパイアされたツイン構造からのユニバーサル表現

BURT: BERT-inspired Universal Representation from Twin Structure ( http://arxiv.org/abs/2004.13947v2 )

ライセンス: Link先を確認
Yian Li and Hai Zhao(参考訳) BERTのような事前訓練された文脈言語モデルは、幅広い下流自然言語処理(NLP)タスクにおいて大きな効果を示している。 しかし、各シーケンスではなく、シーケンス内の各トークンでモデルによって提供される効果的な表現と微調整のステップは、一度に両方のシーケンスの入力を伴い、異なる粒度の様々なシーケンスを満足できない表現に繋がる。 特に、これらのモデルにおけるフルトレーニングの文脈として、文レベルの表現は低レベルの言語単位(フレーズと単語)に劣るパフォーマンスをもたらす。 本研究では,様々な粒度の入力シーケンス,すなわち単語,フレーズ,文に対して,複数の訓練目的を持つ大規模な自然言語推論とパラフレーズデータを用いて,普遍的かつ固定サイズの表現を生成することができるBURT(BERT inspired Universal Representation from Twin Structure)を提案する。 提案するburtは、自然言語推論データセットから文レベルの表現を学習し、パラフレージングデータセットから単語/フレーズレベルの表現をそれぞれ採用する。 我々は、STSタスク、SemEval2013 Task 5(a) など、テキスト類似性タスクの粒度にまたがるBURTの評価を行い、BURTは文レベルのデータセット上で他の表現モデルよりも大幅に優れており、単語/フレーズレベルの表現の大幅な改善を実現している。

Pre-trained contextualized language models such as BERT have shown great effectiveness in a wide range of downstream Natural Language Processing (NLP) tasks. However, the effective representations offered by the models target at each token inside a sequence rather than each sequence and the fine-tuning step involves the input of both sequences at one time, leading to unsatisfying representations of various sequences with different granularities. Especially, as sentence-level representations taken as the full training context in these models, there comes inferior performance on lower-level linguistic units (phrases and words). In this work, we present BURT (BERT inspired Universal Representation from Twin Structure) that is capable of generating universal, fixed-size representations for input sequences of any granularity, i.e., words, phrases, and sentences, using a large scale of natural language inference and paraphrase data with multiple training objectives. Our proposed BURT adopts the Siamese network, learning sentence-level representations from natural language inference dataset and word/phrase-level representations from paraphrasing dataset, respectively. We evaluate BURT across different granularities of text similarity tasks, including STS tasks, SemEval2013 Task 5(a) and some commonly used word similarity tasks, where BURT substantially outperforms other representation models on sentence-level datasets and achieves significant improvements in word/phrase-level representation.
翻訳日:2022-12-08 13:34:37 公開日:2020-08-03
# SLEDGE: 新型コロナウイルスの科学的知識検索のためのシンプルで効果的なベースライン

SLEDGE: A Simple Yet Effective Baseline for COVID-19 Scientific Knowledge Search ( http://arxiv.org/abs/2005.02365v3 )

ライセンス: Link先を確認
Sean MacAvaney, Arman Cohan, Nazli Goharian(参考訳) 重症急性呼吸症候群 コロナウイルス2 (SARS-CoV-2) を取り巻く世界的な懸念から、このウイルスに関する文献は急速に増えている。 臨床医、研究者、政策立案者はこれらの論文を効果的に検索する方法を必要としている。 本研究では,SciBERTを有効活用したSLEDGEという検索システムを提案する。 一般ドメインの回答ランキングデータセット上でモデルをトレーニングし、関連信号をSARS-CoV-2に転送して評価する。 TREC-COVIDイニシアチブ(nDCG@10が0.6844)の強力なベースラインとしてSLEDGEの有効性を観察した。 詳細な分析によって提供される洞察は、日付によるフィルタリングの重要性や、カウント信号に大きく依存するニューラルメソッドの可能性など、探究すべき潜在的な将来方向を提供する。 https://github.com/georgetown-ir-lab/covid-neural-irで、この重要なタスクの将来の作業を容易にするコードをリリースします。

With worldwide concerns surrounding the Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2), there is a rapidly growing body of literature on the virus. Clinicians, researchers, and policy-makers need a way to effectively search these articles. In this work, we present a search system called SLEDGE, which utilizes SciBERT to effectively re-rank articles. We train the model on a general-domain answer ranking dataset, and transfer the relevance signals to SARS-CoV-2 for evaluation. We observe SLEDGE's effectiveness as a strong baseline on the TREC-COVID challenge (topping the learderboard with an nDCG@10 of 0.6844). Insights provided by a detailed analysis provide some potential future directions to explore, including the importance of filtering by date and the potential of neural methods that rely more heavily on count signals. We release the code to facilitate future work on this critical task at https://github.com/Georgetown-IR-Lab/covid-neural-ir
翻訳日:2022-12-06 14:27:46 公開日:2020-08-03
# オンラインフォーラムの対話における質問と回答のマッチング

Matching Questions and Answers in Dialogues from Online Forums ( http://arxiv.org/abs/2005.09276v2 )

ライセンス: Link先を確認
Qi Jia, Mengxue Zhang, Shengyao Zhang, Kenny Q. Zhu(参考訳) 会話における2つのターン間の質問・回答関係のマッチングは、対話構造を解析する最初のステップであるだけでなく、対話システムの訓練にも有用である。 本稿では,距離情報と対話履歴の両方を相互注意と呼ばれる2つの同時注意機構で考慮したqaマッチングモデルを提案する。 各非探索ターン間のトレーニングされたモデルによって計算されたスコアと候補の質問とが与えられた場合、最終的な予測にはグリーディマッチング戦略が使用される。 Ubuntuデータセットのような既存の対話データセットは、QAマッチングタスクには適さないため、さらに1,000のラベル付きダイアログを持つデータセットを作成し、提案したモデルが、特に長距離QAペアのマッチングにおいて、最先端や他の強力なベースラインよりも優れていることを示す。

Matching question-answer relations between two turns in conversations is not only the first step in analyzing dialogue structures, but also valuable for training dialogue systems. This paper presents a QA matching model considering both distance information and dialogue history by two simultaneous attention mechanisms called mutual attention. Given scores computed by the trained model between each non-question turn with its candidate questions, a greedy matching strategy is used for final predictions. Because existing dialogue datasets such as the Ubuntu dataset are not suitable for the QA matching task, we further create a dataset with 1,000 labeled dialogues and demonstrate that our proposed model outperforms the state-of-the-art and other strong baselines, particularly for matching long-distance QA pairs.
翻訳日:2022-12-01 13:58:21 公開日:2020-08-03
# 自動チェックアウトのためのバイアスベースuniversal adversarial patch attack

Bias-based Universal Adversarial Patch Attack for Automatic Check-out ( http://arxiv.org/abs/2005.09257v3 )

ライセンス: Link先を確認
Aishan Liu, Jiakai Wang, Xianglong Liu, Bowen Cao, Chongzhi Zhang, Hang Yu(参考訳) 逆向きの例としては、深層ニューラルネットワーク(dnn)を誤解し易い摂動を伴う入力がある。 近年,小規模かつ局所的なパッチにノイズを限定した対向パッチが現実のシナリオで容易に実現可能であることが指摘されている。 しかし、既存の戦略は強力な一般化能力を持つ敵パッチを生成できなかった。 言い換えると、対向パッチは入力専用であり、訓練中、特に目に見えないすべてのクラスからのイメージを攻撃できなかった。 この問題に対処するため,本論文では,モデルの知覚バイアスと意味バイアスの両方を生かした,強力な一般化能力を持つクラス非依存な普遍的敵パッチを生成するバイアスベースフレームワークを提案する。 知覚バイアスに関しては,dnnはテクスチャに対して強く偏っているため,強いモデルの不確実性を伝えるハードサンプルを活用し,スタイル類似性を用いて先行してテクスチャパッチを抽出する。 パッチの事前設定は、より意思決定の境界に近く、攻撃を促進する。 ユニバーサルアタックのトレーニングにおいて,大量のデータへの重依存をさらに緩和するために,セマンティックバイアスをさらに活用する。 クラスワイドの嗜好として、多クラスマージンを最大化してユニバーサルトレーニングを支援することでプロトタイプを導入し、追求する。 一般的なシナリオとしてAutomaticCheck-out(ACO)を採用することで、デジタルワールド(RPC、最大のACO関連データセット)と物理ワールドシナリオ(世界最大のオンラインショッピングプラットフォームであるTaobaoとJD)の両方において、ホワイトボックスとブラックボックスの設定を含む広範な実験を行う。 実験の結果,提案フレームワークは最先端のパッチ攻撃手法よりも優れていることがわかった。

Adversarial examples are inputs with imperceptible perturbations that easily misleading deep neural networks(DNNs). Recently, adversarial patch, with noise confined to a small and localized patch, has emerged for its easy feasibility in real-world scenarios. However, existing strategies failed to generate adversarial patches with strong generalization ability. In other words, the adversarial patches were input-specific and failed to attack images from all classes, especially unseen ones during training. To address the problem, this paper proposes a bias-based framework to generate class-agnostic universal adversarial patches with strong generalization ability, which exploits both the perceptual and semantic bias of models. Regarding the perceptual bias, since DNNs are strongly biased towards textures, we exploit the hard examples which convey strong model uncertainties and extract a textural patch prior from them by adopting the style similarities. The patch prior is more close to decision boundaries and would promote attacks. To further alleviate the heavy dependency on large amounts of data in training universal attacks, we further exploit the semantic bias. As the class-wise preference, prototypes are introduced and pursued by maximizing the multi-class margin to help universal training. Taking AutomaticCheck-out (ACO) as the typical scenario, extensive experiments including white-box and black-box settings in both digital-world(RPC, the largest ACO related dataset) and physical-world scenario(Taobao and JD, the world' s largest online shopping platforms) are conducted. Experimental results demonstrate that our proposed framework outperforms state-of-the-art adversarial patch attack methods.
翻訳日:2022-12-01 13:49:45 公開日:2020-08-03
# レコメンデーションのための制御可能なマルチ興味フレームワーク

Controllable Multi-Interest Framework for Recommendation ( http://arxiv.org/abs/2005.09347v2 )

ライセンス: Link先を確認
Yukuo Cen, Jianwei Zhang, Xu Zou, Chang Zhou, Hongxia Yang, Jie Tang(参考訳) 近年,ディープラーニングの急速な発展により,eコマースレコメンデーションシステムにおいてニューラルネットワークが広く利用されている。 我々は,ユーザが対話する可能性のある次の項目を予測することを目的とした,逐次的なレコメンデーション問題としてレコメンデータシステムを定式化する。 最近の作業は通常、ユーザの行動シーケンスから全体の埋め込みを提供する。 しかし、統一されたユーザー埋め込みは、ある期間におけるユーザーの複数の関心を反映することができない。 本稿では,ComiRecと呼ばれるシーケンシャルレコメンデーションのための新しい制御可能な多目的フレームワークを提案する。 我々の多目的モジュールは、大規模アイテムプールから候補アイテムを取得するために利用することができる、ユーザの行動シーケンスから複数の興味を捉えます。 これらのアイテムはアグリゲーションモジュールに送られ、全体的なレコメンデーションを得る。 集約モジュールは、レコメンデーションの精度と多様性のバランスをとるために制御可能な要素を利用する。 我々はamazonとtaobaoという2つの実世界のデータセットで逐次レコメンデーションの実験を行う。 実験の結果,我々のフレームワークは最先端モデルよりも大幅に改善されていることがわかった。 私たちのフレームワークは、オフラインのalibaba分散クラウドプラットフォームにもうまくデプロイされています。

Recently, neural networks have been widely used in e-commerce recommender systems, owing to the rapid development of deep learning. We formalize the recommender system as a sequential recommendation problem, intending to predict the next items that the user might be interacted with. Recent works usually give an overall embedding from a user's behavior sequence. However, a unified user embedding cannot reflect the user's multiple interests during a period. In this paper, we propose a novel controllable multi-interest framework for the sequential recommendation, called ComiRec. Our multi-interest module captures multiple interests from user behavior sequences, which can be exploited for retrieving candidate items from the large-scale item pool. These items are then fed into an aggregation module to obtain the overall recommendation. The aggregation module leverages a controllable factor to balance the recommendation accuracy and diversity. We conduct experiments for the sequential recommendation on two real-world datasets, Amazon and Taobao. Experimental results demonstrate that our framework achieves significant improvements over state-of-the-art models. Our framework has also been successfully deployed on the offline Alibaba distributed cloud platform.
翻訳日:2022-12-01 13:39:30 公開日:2020-08-03
# モデル解釈のための逆不整合学習

Adversarial Infidelity Learning for Model Interpretation ( http://arxiv.org/abs/2006.05379v3 )

ライセンス: Link先を確認
Jian Liang, Bing Bai, Yuren Cao, Kun Bai, Fei Wang(参考訳) モデル解釈はデータマイニングと知識発見に不可欠である。 これは本質的なモデルの動作メカニズムを理解し、モデルに望ましくない特性があるかどうかを確認するのに役立つ。 モデル解釈を実行する一般的な方法は、インスタンスワイドな特徴選択(IFS)であり、モデルが特定の出力を生成する方法を説明するために、データサンプルを表す各機能の重要性スコアを提供する。 本稿では,モデルの解釈,正当性,組合せ的ショートカット,モデル識別可能性,情報伝達に関する懸念を緩和するモデル非依存の有効効率直接(MEED)FSフレームワークを提案する。 また、選択した特徴を用いて与えられたモデルの出力を直接予測し、モデル解釈手法の一次評価指標として機能する。 特徴とは別に、より正確な情報に基づいて説明者を学ぶための追加入力として、与えられたモデルの出力を含む。 説明者を学習するために, 忠実性に加えて, 比較的重要でない特徴をスクリーニングすることにより, 説明学習を促進するための逆不忠実性学習(ail)機構を提案する。 理論的および実験的解析により、AIL機構は、選択した特徴と対象間の条件分布を学習するのに役立つことを示す。 さらに,本フレームワークは,効率的な解釈手法を適切な事前として統合することにより,温かいスタートを提供する。 提案手法の有効性と優位性を示すため, 定量的評価と人的評価により, 総合的な実証評価結果が得られた。 私たちのコードはhttps://github.com/langlrsw/meed.comで公開されている。

Model interpretation is essential in data mining and knowledge discovery. It can help understand the intrinsic model working mechanism and check if the model has undesired characteristics. A popular way of performing model interpretation is Instance-wise Feature Selection (IFS), which provides an importance score of each feature representing the data samples to explain how the model generates the specific output. In this paper, we propose a Model-agnostic Effective Efficient Direct (MEED) IFS framework for model interpretation, mitigating concerns about sanity, combinatorial shortcuts, model identifiability, and information transmission. Also, we focus on the following setting: using selected features to directly predict the output of the given model, which serves as a primary evaluation metric for model-interpretation methods. Apart from the features, we involve the output of the given model as an additional input to learn an explainer based on more accurate information. To learn the explainer, besides fidelity, we propose an Adversarial Infidelity Learning (AIL) mechanism to boost the explanation learning by screening relatively unimportant features. Through theoretical and experimental analysis, we show that our AIL mechanism can help learn the desired conditional distribution between selected features and targets. Moreover, we extend our framework by integrating efficient interpretation methods as proper priors to provide a warm start. Comprehensive empirical evaluation results are provided by quantitative metrics and human evaluation to demonstrate the effectiveness and superiority of our proposed method. Our code is publicly available online at https://github.com/langlrsw/MEED.
翻訳日:2022-11-23 14:00:11 公開日:2020-08-03
# OpenDVC:DVCビデオ圧縮法のオープンソース実装

OpenDVC: An Open Source Implementation of the DVC Video Compression Method ( http://arxiv.org/abs/2006.15862v2 )

ライセンス: Link先を確認
Ren Yang, Luc Van Gool, Radu Timofte(参考訳) 本稿では,Deep Video Compression(DVC)方式のオープンソースTensorflowの実装について紹介する。 DVCは、x265(LDP)の非常に高速な設定と、x265(LDP)と同等のPSNR性能(LDP)の非常に高速な設定よりも優れたMS-SSIM性能を実現する、エンドツーエンドで最適化された最初のビデオ圧縮手法である。 このレポートを書く時点では、いくつかの学習ビデオ圧縮手法がDVCよりも優れているが、現時点ではオープンソースコードを提供していない。 弊社のOpenDVCコードは、さらなる開発に有用なモデルを提供し、学習ビデオ圧縮に関する今後の研究を促進することを願っている。 また,PSNRに最適化されたオリジナルのDVCと異なり,PSNRに最適化された再実装だけでなく,MS-SSIMに最適化されたモデルOpenDVC(MS-SSIM)もリリースしている。 我々のOpenDVC(MS-SSIM)モデルは、過去にPSNR最適化DVCとしか比較できないMS-SSIM最適化手法に対して、より説得力のあるベースラインを提供する。 OpenDVCのソースコードと事前訓練されたモデルはhttps://github.com/RenYang-home/OpenDVCで公開されている。

We introduce an open source Tensorflow implementation of the Deep Video Compression (DVC) method in this technical report. DVC is the first end-to-end optimized learned video compression method, achieving better MS-SSIM performance than the Low-Delay P (LDP) very fast setting of x265 and comparable PSNR performance with x265 (LDP very fast). At the time of writing this report, several learned video compression methods are superior to DVC, but currently none of them provides open source codes. We hope that our OpenDVC codes are able to provide a useful model for further development, and facilitate future researches on learned video compression. Different from the original DVC, which is only optimized for PSNR, we release not only the PSNR-optimized re-implementation, denoted by OpenDVC (PSNR), but also the MS-SSIM-optimized model OpenDVC (MS-SSIM). Our OpenDVC (MS-SSIM) model provides a more convincing baseline for MS-SSIM optimized methods, which can only compare with the PSNR optimized DVC in the past. The OpenDVC source codes and pre-trained models are publicly released at https://github.com/RenYang-home/OpenDVC.
翻訳日:2022-11-15 15:06:29 公開日:2020-08-03
# SemEval-2020 Task 4: Commonsense Validation and Explanation

SemEval-2020 Task 4: Commonsense Validation and Explanation ( http://arxiv.org/abs/2007.00236v2 )

ライセンス: Link先を確認
Cunxiang Wang, Shuailong Liang, Yili Jin, Yilong Wang, Xiaodan Zhu and Yue Zhang(参考訳) 本稿では,3つのサブタスクを含むSemEval-2020 Task 4, Commonsense Validation and Explanation(ComVE)を提案する。 特に、私たちの最初のサブタスクでは、参加するシステムは、類似の単語の2つの自然言語ステートメントから選択する必要があります。 2番目のサブタスクは、与えられた文が意味をなさない3つのオプションから重要な理由を選択するようシステムに要求する。 第3のサブタスクでは、参加するシステムが理由を生成する必要があります。 最終的に39チームが3つのサブタスクのうちの少なくとも1つに参加した。 Subtask A と Subtask B では、上位のシステムのパフォーマンスは人間に近い。 しかしSubtask Cでは,システムと人的パフォーマンスの間には,いまだに大きなギャップがある。 タスクで使用されるデータセットはhttps://github.com/wangcunxiang/SemEval2020Task4-Commonsense-Validation-and-Explanation; リーダーボードはhttps://competitions.codalab.org/competitions/21080#results.comで見ることができる。

In this paper, we present SemEval-2020 Task 4, Commonsense Validation and Explanation (ComVE), which includes three subtasks, aiming to evaluate whether a system can distinguish a natural language statement that makes sense to humans from one that does not, and provide the reasons. Specifically, in our first subtask, the participating systems are required to choose from two natural language statements of similar wording the one that makes sense and the one does not. The second subtask additionally asks a system to select the key reason from three options why a given statement does not make sense. In the third subtask, a participating system needs to generate the reason. We finally attracted 39 teams participating at least one of the three subtasks. For Subtask A and Subtask B, the performances of top-ranked systems are close to that of humans. However, for Subtask C, there is still a relatively large gap between systems and human performance. The dataset used in our task can be found at https://github.com/wangcunxiang/SemEval2020- Task4-Commonsense-Validation-and-Explanation; The leaderboard can be found at https://competitions.codalab.org/competitions/21080#results.
翻訳日:2022-11-14 21:50:53 公開日:2020-08-03
# 自己一致による対数損失下でのミニマックスレグレトのタイトバウンド

Tight Bounds on Minimax Regret under Logarithmic Loss via Self-Concordance ( http://arxiv.org/abs/2007.01160v2 )

ライセンス: Link先を確認
Blair Bilodeau, Dylan J. Foster, Daniel M. Roy(参考訳) 対数損失の下での逐次確率割当の古典的な問題を考える一方で、任意の非パラメトリックな専門家のクラスと競合する。 我々は,対数損失の自己一致性を利用する新たなアプローチにより,ミニマックス後悔の厳密な境界を得る。 我々は、(逐次)計量エントロピー $\mathcal{O}(\gamma^{-p})$ at scale $\gamma$ を持つ任意の専門家クラスに対して、ミニマックス後悔は $\mathcal{O}(n^{p/(p+1)})$ であり、検討中のエキスパートクラスについて追加の仮定なしでは改善できないことを示す。 この手法の応用として,非パラメトリックリプシッツクラスの専門家に対するミニマックスの後悔を解消する。

We consider the classical problem of sequential probability assignment under logarithmic loss while competing against an arbitrary, potentially nonparametric class of experts. We obtain tight bounds on the minimax regret via a new approach that exploits the self-concordance property of the logarithmic loss. We show that for any expert class with (sequential) metric entropy $\mathcal{O}(\gamma^{-p})$ at scale $\gamma$, the minimax regret is $\mathcal{O}(n^{p/(p+1)})$, and that this rate cannot be improved without additional assumptions on the expert class under consideration. As an application of our techniques, we resolve the minimax regret for nonparametric Lipschitz classes of experts.
翻訳日:2022-11-14 13:26:03 公開日:2020-08-03
# オブジェクト検出、インスタンス分割、ポーズ推定のためのポイントセットアンカー

Point-Set Anchors for Object Detection, Instance Segmentation and Pose Estimation ( http://arxiv.org/abs/2007.02846v4 )

ライセンス: Link先を確認
Fangyun Wei, Xiao Sun, Hongyang Li, Jingdong Wang, Stephen Lin(参考訳) オブジェクト検出と人間のポーズ推定に対する最近のアプローチは、境界ボックスや人間のキーポイントをオブジェクトや人の中心から引き戻すことである。 この中心点回帰は単純かつ効率的であるが、中心点から抽出された画像の特徴は、物体の変形とスケール/オリエンテーションの変動により、遠方のキーポイントやボックス境界を予測するための限られた情報を含んでいる。 推論を容易にするために,より有利な位置に配置された点集合からの回帰を行うことを提案する。 この点集合は、ポーズ推定のための訓練データにおけるモードのような、与えられたタスクの適切な初期化を反映して配置され、中心点よりも基底真理に近い位置にあり、回帰のためのより有益な特徴を提供する。 点集合の有用性は、そのスケール、アスペクト比、回転が目標とどの程度合っているかに依存するため、これらの変換をサンプリングして追加の点集合候補を生成するアンカーボックス技術を採用する。 我々は、この提案フレームワークであるpoint-set anchorsを、オブジェクト検出、インスタンスセグメンテーション、人間のポーズ推定に適用する。 以上の結果から,この汎用手法は各タスクの最先端手法と競合する性能を達成できることが示唆された。 コードは \url{https://github.com/FangyunWei/PointSetAnchor} で入手できる。

A recent approach for object detection and human pose estimation is to regress bounding boxes or human keypoints from a central point on the object or person. While this center-point regression is simple and efficient, we argue that the image features extracted at a central point contain limited information for predicting distant keypoints or bounding box boundaries, due to object deformation and scale/orientation variation. To facilitate inference, we propose to instead perform regression from a set of points placed at more advantageous positions. This point set is arranged to reflect a good initialization for the given task, such as modes in the training data for pose estimation, which lie closer to the ground truth than the central point and provide more informative features for regression. As the utility of a point set depends on how well its scale, aspect ratio and rotation matches the target, we adopt the anchor box technique of sampling these transformations to generate additional point-set candidates. We apply this proposed framework, called Point-Set Anchors, to object detection, instance segmentation, and human pose estimation. Our results show that this general-purpose approach can achieve performance competitive with state-of-the-art methods for each of these tasks. Code is available at \url{https://github.com/FangyunWei/PointSetAnchor}
翻訳日:2022-11-13 02:44:19 公開日:2020-08-03
# 有限サム凸関数の高速化DFOアルゴリズム

An Accelerated DFO Algorithm for Finite-sum Convex Functions ( http://arxiv.org/abs/2007.03311v2 )

ライセンス: Link先を確認
Yuwen Chen (1), Antonio Orvieto (1), Aurelien Lucchi (1) ((1) ETH Zurich)(参考訳) デリバティブフリー最適化(DFO)は、最近機械学習において多くの勢いを増し、勾配がアクセスできない問題に対してより高速な手法を設計するコミュニティへの関心が高まっている。 DFO文学における加速の概念にいくつかの注意が向けられているが、有限サム構造を持つ対象関数に対する既存の確率的アルゴリズムは、収束の加速率を達成するために理論的に示されていない。 このような設定で加速度を利用するアルゴリズムは不安定になりがちであり、収束が困難である。 本研究では,この目的の有限サム構造を利用して,有意な高速化を実現する分散還元DFOアルゴリズムを設計する。 滑らかな凸と強凸な有限サム目的関数の収束率を証明する。 最後に、いくつかのタスクやデータセットで理論結果を実証的に検証する。

Derivative-free optimization (DFO) has recently gained a lot of momentum in machine learning, spawning interest in the community to design faster methods for problems where gradients are not accessible. While some attention has been given to the concept of acceleration in the DFO literature, existing stochastic algorithms for objective functions with a finite-sum structure have not been shown theoretically to achieve an accelerated rate of convergence. Algorithms that use acceleration in such a setting are prone to instabilities, making it difficult to reach convergence. In this work, we exploit the finite-sum structure of the objective in order to design a variance-reduced DFO algorithm that provably yields acceleration. We prove rates of convergence for both smooth convex and strongly-convex finite-sum objective functions. Finally, we validate our theoretical results empirically on several tasks and datasets.
翻訳日:2022-11-12 20:36:45 公開日:2020-08-03
# デジタル差別を検証するための規範的アプローチ

A Normative approach to Attest Digital Discrimination ( http://arxiv.org/abs/2007.07092v2 )

ライセンス: Link先を確認
Natalia Criado, Xavier Ferrer, Jose M. Such(参考訳) デジタル差別は、ユーザーが機械学習(ml)システムによって、個人データに基づいて不公平、非倫理的、あるいは単に異なる方法で自動的に扱われる差別の一形態である。 デジタル差別の例としては、高利息ローンや低信用スコアを対象とする低所得地区や、オンラインマーケティングにおいて21%の過小評価を受けている女性などが挙げられる。 近年,デジタル差別につながる可能性のあるバイアスを検出する手法やツールが提案されている。 これらのツールは、多くの場合、技術的専門知識の実行と結果の解釈を必要とする。 技術的でないユーザがMLの恩恵を受けるためには、デジタル差別を表現するためのシンプルな概念と概念が必要である。 本稿では,デジタル差別につながる可能性のある異なる状況を表現するために,規範を抽象化として用いる。 特に、MLシステムの文脈における非差別規範を定式化し、MLシステムがこれらの規範に違反しているかどうかを確認するアルゴリズムを提案する。

Digital discrimination is a form of discrimination whereby users are automatically treated unfairly, unethically or just differently based on their personal data by a machine learning (ML) system. Examples of digital discrimination include low-income neighbourhood's targeted with high-interest loans or low credit scores, and women being undervalued by 21% in online marketing. Recently, different techniques and tools have been proposed to detect biases that may lead to digital discrimination. These tools often require technical expertise to be executed and for their results to be interpreted. To allow non-technical users to benefit from ML, simpler notions and concepts to represent and reason about digital discrimination are needed. In this paper, we use norms as an abstraction to represent different situations that may lead to digital discrimination. In particular, we formalise non-discrimination norms in the context of ML systems and propose an algorithm to check whether ML systems violate these norms.
翻訳日:2022-11-10 15:20:33 公開日:2020-08-03
# PP-YOLO:オブジェクト検出器の効率的かつ効率的な実装

PP-YOLO: An Effective and Efficient Implementation of Object Detector ( http://arxiv.org/abs/2007.12099v3 )

ライセンス: Link先を確認
Xiang Long, Kaipeng Deng, Guanzhong Wang, Yang Zhang, Qingqing Dang, Yuan Gao, Hui Shen, Jianguo Ren, Shumin Han, Errui Ding, Shilei Wen(参考訳) 物体検出はコンピュータビジョンにおいて最も重要な領域の1つであり、様々な実用的なシナリオにおいて重要な役割を果たす。 ハードウェアの限界のため、実際に検出器の慣性速度を保証するために精度を犠牲にすることがしばしば必要となる。 したがって、対象検出器の有効性と効率のバランスを考慮する必要がある。 本論文の目的は,新しい検出モデルを提案するのではなく,実際のアプリケーションシナリオに直接適用可能な,比較的バランスの取れた物体検出器の実装である。 YOLOv3が実際に広く利用されていることを踏まえ, YOLOv3に基づく新しい物体検出器を開発した。 我々は,モデルパラメータとフロップ数をほとんど増やさない様々な既存手法を組み合わせることで,速度がほぼ変わらないことを保証しつつ,検出器の精度を可能な限り向上させることを目標としている。 本論文のすべての実験はPaddlePaddleに基づいて行われるので、PP-YOLOと呼ぶ。 複数のトリックを組み合わせることで、PP-YOLOは有効性(45.2% mAP)と効率性(72.9 FPS)のバランスが良くなり、EfficientDetやYOLOv4といった既存の最先端検出器を上回る。

Object detection is one of the most important areas in computer vision, which plays a key role in various practical scenarios. Due to limitation of hardware, it is often necessary to sacrifice accuracy to ensure the infer speed of the detector in practice. Therefore, the balance between effectiveness and efficiency of object detector must be considered. The goal of this paper is to implement an object detector with relatively balanced effectiveness and efficiency that can be directly applied in actual application scenarios, rather than propose a novel detection model. Considering that YOLOv3 has been widely used in practice, we develop a new object detector based on YOLOv3. We mainly try to combine various existing tricks that almost not increase the number of model parameters and FLOPs, to achieve the goal of improving the accuracy of detector as much as possible while ensuring that the speed is almost unchanged. Since all experiments in this paper are conducted based on PaddlePaddle, we call it PP-YOLO. By combining multiple tricks, PP-YOLO can achieve a better balance between effectiveness (45.2% mAP) and efficiency (72.9 FPS), surpassing the existing state-of-the-art detectors such as EfficientDet and YOLOv4.Source code is at https://github.com/PaddlePaddle/PaddleDetection.
翻訳日:2022-11-07 12:49:30 公開日:2020-08-03
# Orpheus: エッジ推論のデプロイと評価を簡単にするための新しいディープラーニングフレームワーク

Orpheus: A New Deep Learning Framework for Easy Deployment and Evaluation of Edge Inference ( http://arxiv.org/abs/2007.13648v2 )

ライセンス: Link先を確認
Perry Gibson, Jos\'e Cano(参考訳) エッジデバイス間でのディープラーニング推論の最適化と、推論時間、メモリフットプリント、消費電力といった最適化ターゲットは、ニューラルネットワークの普及による重要な課題である。 現在、プロダクションディープラーニングフレームワークは、機械学習エンジニアやシステム研究者を支援するために有用な抽象化を提供する。 しかし、それと引き換えに、互換性の問題(特に制約のあるプラットフォームでは)、アクセス不能なコードの複雑さ、あるいはシステムの観点からの研究を制限する設計選択に苦しむ可能性がある。 提案するOrpheusは,推論最適化の容易なプロトタイピング,展開,評価を行うための新しいディープラーニングフレームワークである。 Orpheusは小さなコードベース、最小限の依存関係、他のサードパーティシステムを統合するためのシンプルなプロセスを備えている。 予備評価結果を示す。

Optimising deep learning inference across edge devices and optimisation targets such as inference time, memory footprint and power consumption is a key challenge due to the ubiquity of neural networks. Today, production deep learning frameworks provide useful abstractions to aid machine learning engineers and systems researchers. However, in exchange they can suffer from compatibility challenges (especially on constrained platforms), inaccessible code complexity, or design choices that otherwise limit research from a systems perspective. This paper presents Orpheus, a new deep learning framework for easy prototyping, deployment and evaluation of inference optimisations. Orpheus features a small codebase, minimal dependencies, and a simple process for integrating other third party systems. We present some preliminary evaluation results.
翻訳日:2022-11-07 05:54:32 公開日:2020-08-03
# 回帰型音声強調のための深層ハイブリッドテンソル-ベクトルネットワークアーキテクチャの検討

Exploring Deep Hybrid Tensor-to-Vector Network Architectures for Regression Based Speech Enhancement ( http://arxiv.org/abs/2007.13024v2 )

ライセンス: Link先を確認
Jun Qi, Hu Hu, Yannan Wang, Chao-Han Huck Yang, Sabato Marco Siniscalchi, Chin-Hui Lee(参考訳) 本稿では,複数の深部テンソル-ベクトル回帰モデルを用いて,モデルパラメータ数と拡張音声品質のトレードオフについて検討する。 ハイブリッドアーキテクチャ、すなわちcnn-ttは、モデルパラメータサイズを小さくして優れた品質を維持することができる。 cnn-ttは、音声品質を改善するための特徴抽出のための下部の複数の畳み込み層と、モデルパラメータを減らすために上部のテンソルトレイン(tt)出力層から構成されている。 まず,畳み込みニューラルネットワーク(cnn)に基づくベクトル対ベクトル回帰モデルの一般化力に新たな上限を導出する。 そこで, 単チャンネル音声強調において, CNNはモデルサイズの増大を犠牲にしてDNNより優れていることを示すために, エジンバラ雑音音声コーパスの実験的証拠を提供する。 さらに、CNN-TTは、CNNモデルのパラメータの32倍しか利用せず、CNNよりも若干優れています。 また、cnn-ttパラメータの数をcnnモデルサイズの44\%に増やせば、さらなる性能向上を図ることができる。 最後に,WSJ0コーパスを模擬したマルチチャネル音声強調実験により,提案したハイブリッドCNN-TTアーキテクチャは,DNNモデルとCNNモデルより優れた結果が得られることを示した。

This paper investigates different trade-offs between the number of model parameters and enhanced speech qualities by employing several deep tensor-to-vector regression models for speech enhancement. We find that a hybrid architecture, namely CNN-TT, is capable of maintaining a good quality performance with a reduced model parameter size. CNN-TT is composed of several convolutional layers at the bottom for feature extraction to improve speech quality and a tensor-train (TT) output layer on the top to reduce model parameters. We first derive a new upper bound on the generalization power of the convolutional neural network (CNN) based vector-to-vector regression models. Then, we provide experimental evidence on the Edinburgh noisy speech corpus to demonstrate that, in single-channel speech enhancement, CNN outperforms DNN at the expense of a small increment of model sizes. Besides, CNN-TT slightly outperforms the CNN counterpart by utilizing only 32\% of the CNN model parameters. Besides, further performance improvement can be attained if the number of CNN-TT parameters is increased to 44\% of the CNN model size. Finally, our experiments of multi-channel speech enhancement on a simulated noisy WSJ0 corpus demonstrate that our proposed hybrid CNN-TT architecture achieves better results than both DNN and CNN models in terms of better-enhanced speech qualities and smaller parameter sizes.
翻訳日:2022-11-07 00:35:15 公開日:2020-08-03
# 3次元骨格に基づく行動認識のためのポアンカー{e}形状の混合次元

Mix Dimension in Poincar\'{e} Geometry for 3D Skeleton-based Action Recognition ( http://arxiv.org/abs/2007.15678v2 )

ライセンス: Link先を確認
Wei Peng and Jingang Shi and Zhaoqiang Xia and Guoying Zhao(参考訳) グラフ畳み込みネットワーク(GCN)は、人間の行動認識における骨格データなどの不規則データをモデル化する強力な能力をすでに示しており、グラフの異なる部分に存在するノードに対して、豊富な構造情報を融合するエキサイティングな新しい方法を提供する。 人間の行動認識において、現在の研究は、基礎となるセマンティックスケルトン接続をよりよく捕捉し、パフォーマンスを向上させるために、動的グラフ生成機構を導入している。 本稿では,基礎となる接続を直交的に探究する方法を提案する。 高価な動的グラフ生成パラダイムを導入する代わりに、私たちはリーマン多様体上のより効率的なgcnを構築します。 具体的には,Poincar\'e幾何を用いて定義された新しい時空間GCN(Spatial-temporal GCN)アーキテクチャを提案する。 リーマン空間における最適射影次元をさらに探求するために、多様体上の異なる次元を混合し、各ST-GCN層の次元を探索する効率的な方法を提供する。 最終結果から,NTU RGB+DとNTU RGB+D 120の2つの大規模3Dデータセットに対して,本手法の評価を行った。 その結果, モデルの有効性を実証したGCN法と比較すると, モデルサイズを40倍に抑えれば, 任意の評価指標よりも優れた性能が得られることがわかった。

Graph Convolutional Networks (GCNs) have already demonstrated their powerful ability to model the irregular data, e.g., skeletal data in human action recognition, providing an exciting new way to fuse rich structural information for nodes residing in different parts of a graph. In human action recognition, current works introduce a dynamic graph generation mechanism to better capture the underlying semantic skeleton connections and thus improves the performance. In this paper, we provide an orthogonal way to explore the underlying connections. Instead of introducing an expensive dynamic graph generation paradigm, we build a more efficient GCN on a Riemann manifold, which we think is a more suitable space to model the graph data, to make the extracted representations fit the embedding matrix. Specifically, we present a novel spatial-temporal GCN (ST-GCN) architecture which is defined via the Poincar\'e geometry such that it is able to better model the latent anatomy of the structure data. To further explore the optimal projection dimension in the Riemann space, we mix different dimensions on the manifold and provide an efficient way to explore the dimension for each ST-GCN layer. With the final resulted architecture, we evaluate our method on two current largest scale 3D datasets, i.e., NTU RGB+D and NTU RGB+D 120. The comparison results show that the model could achieve a superior performance under any given evaluation metrics with only 40\% model size when compared with the previous best GCN method, which proves the effectiveness of our model.
翻訳日:2022-11-05 14:36:02 公開日:2020-08-03
# 合成データによるピクセル単位の群衆理解

Pixel-wise Crowd Understanding via Synthetic Data ( http://arxiv.org/abs/2007.16032v2 )

ライセンス: Link先を確認
Qi Wang, Junyu Gao, Wei Lin, Yuan Yuan(参考訳) コンピュータビジョン技術による群衆分析はビデオ監視の分野で重要なトピックであり、群衆の監視、公共の安全、宇宙設計など幅広い応用がある。 画像や静止画の細かな結果が、他の分析タスクよりも優れているため、群衆分析の最も基本的なタスクである。 残念ながら、ピクセルレベルの理解には大量のラベル付きトレーニングデータが必要です。 注釈付けは高価な作業であり、現在の群衆データセットが小さくなっている。 その結果、ほとんどのアルゴリズムは過度に適合し、様々な程度に変化する。 本稿では, 群集数とセグメンテーションを画素単位の群集理解の例として捉え, データと方法論という2つの側面からこれらの問題を治療しようと試みる。 まず,コンピュータゲーム『グランド・セフト・オートV』で合成・ラベル付けされた群衆シーンを生成する無料のデータ収集装置とラベル作成装置を開発し,その上で,大規模かつ多種多様な群衆データセットの構築を行う。 次に, 合成データを利用して, 群集理解性能を向上させるための2つの簡単な手法を提案する。 具体的に言うと 1) 観衆の理解: 合成データに基づいて群集分析モデルを事前訓練し, 実データとラベルを用いて微調整することにより, 実世界において, モデルの性能が向上する。 2) ドメイン適応によるクラウド理解: 合成データをフォトリアリスティックなイメージに変換し、翻訳データとラベルに基づいてモデルをトレーニングする。 その結果、訓練されたモデルは実際の群衆シーンでうまく機能する。

Crowd analysis via computer vision techniques is an important topic in the field of video surveillance, which has wide-spread applications including crowd monitoring, public safety, space design and so on. Pixel-wise crowd understanding is the most fundamental task in crowd analysis because of its finer results for video sequences or still images than other analysis tasks. Unfortunately, pixel-level understanding needs a large amount of labeled training data. Annotating them is an expensive work, which causes that current crowd datasets are small. As a result, most algorithms suffer from over-fitting to varying degrees. In this paper, take crowd counting and segmentation as examples from the pixel-wise crowd understanding, we attempt to remedy these problems from two aspects, namely data and methodology. Firstly, we develop a free data collector and labeler to generate synthetic and labeled crowd scenes in a computer game, Grand Theft Auto V. Then we use it to construct a large-scale, diverse synthetic crowd dataset, which is named as "GCC Dataset". Secondly, we propose two simple methods to improve the performance of crowd understanding via exploiting the synthetic data. To be specific, 1) supervised crowd understanding: pre-train a crowd analysis model on the synthetic data, then fine-tune it using the real data and labels, which makes the model perform better on the real world; 2) crowd understanding via domain adaptation: translate the synthetic data to photo-realistic images, then train the model on translated data and labels. As a result, the trained model works well in real crowd scenes.
翻訳日:2022-11-05 14:35:36 公開日:2020-08-03
# Photon:ロバストなクロスドメインテキスト-SQLシステム

Photon: A Robust Cross-Domain Text-to-SQL System ( http://arxiv.org/abs/2007.15280v2 )

ライセンス: Link先を確認
Jichuan Zeng, Xi Victoria Lin, Caiming Xiong, Richard Socher, Michael R. Lyu, Irwin King, Steven C.H. Hoi(参考訳) データベースへの自然言語インタフェース(NLIDB)は、リレーショナルデータへのエンドユーザーアクセスを民主化する。 自然言語通信とプログラミングの根本的な違いのため、エンドユーザはシステムに不明瞭な質問をしたり、基礎となるクエリ言語のセマンティックスコープから外れたりすることが一般的である。 我々は、sqlマッピングがすぐに決定できない自然言語入力にフラグを付けることができるロバストでモジュラーなクロスドメインnlidbである photon を提案する。 Photonは強力なニューラルネットワークセマンティックパーサ(Spider devベンチマークにおける63.2\%の構造精度)、ヒューマン・イン・ザ・ループの質問訂正器、SQLエグゼキュータ、レスポンスジェネレータで構成される。 質問訂正装置は、入力された質問の混乱範囲を検出し、翻訳可能な入力がユーザによって与えられるか、最大イテレーション数が実行されるまでリフレージングを推奨する識別的ニューラルシーケンスエディタである。 シミュレーションデータを用いた実験により,提案手法は,翻訳不能なユーザ入力に対するテキスト-SQLシステムのロバスト性を効果的に向上することを示した。 私たちのシステムのライブデモはhttp://naturalsql.com.comで公開されている。

Natural language interfaces to databases (NLIDB) democratize end user access to relational data. Due to fundamental differences between natural language communication and programming, it is common for end users to issue questions that are ambiguous to the system or fall outside the semantic scope of its underlying query language. We present Photon, a robust, modular, cross-domain NLIDB that can flag natural language input to which a SQL mapping cannot be immediately determined. Photon consists of a strong neural semantic parser (63.2\% structure accuracy on the Spider dev benchmark), a human-in-the-loop question corrector, a SQL executor and a response generator. The question corrector is a discriminative neural sequence editor which detects confusion span(s) in the input question and suggests rephrasing until a translatable input is given by the user or a maximum number of iterations are conducted. Experiments on simulated data show that the proposed method effectively improves the robustness of text-to-SQL system against untranslatable user input. The live demo of our system is available at http://naturalsql.com.
翻訳日:2022-11-05 13:13:00 公開日:2020-08-03
# Stackelberg学習を用いた移動ロボットの協調制御

Cooperative Control of Mobile Robots with Stackelberg Learning ( http://arxiv.org/abs/2008.00679v1 )

ライセンス: Link先を確認
Joewie J. Koh, Guohui Ding, Christoffer Heckman, Lijun Chen, Alessandro Roncone(参考訳) マルチロボット協調では、エージェントは、能力と個々の目的の非対称性から生じる行動固有の選好を無視しずに、共通の目標に一致した意思決定を行う必要がある。 この目的を達成するために,SLiCC: Stackelberg Learning in Cooperative Controlを提案する。 SLiCCは、この問題をStackelberg bimatrixゲームからなる部分的に観測可能な確率ゲームとしてモデル化し、深い強化学習を用いてこれらのゲームに関連するペイオフ行列を得る。 適切な協調行動は、導出されたスタックルベルク平衡で選択される。 ロボット協調型物体輸送問題を用いて、集中型マルチエージェントQ-ラーニングに対するSLiCCの性能評価を行い、SLiCCがより優れたコンビネーションユーティリティを実現することを示す。

Multi-robot cooperation requires agents to make decisions that are consistent with the shared goal without disregarding action-specific preferences that might arise from asymmetry in capabilities and individual objectives. To accomplish this goal, we propose a method named SLiCC: Stackelberg Learning in Cooperative Control. SLiCC models the problem as a partially observable stochastic game composed of Stackelberg bimatrix games, and uses deep reinforcement learning to obtain the payoff matrices associated with these games. Appropriate cooperative actions are then selected with the derived Stackelberg equilibria. Using a bi-robot cooperative object transportation problem, we validate the performance of SLiCC against centralized multi-agent Q-learning and demonstrate that SLiCC achieves better combined utility.
翻訳日:2022-11-03 07:24:20 公開日:2020-08-03
# Dhrupad Vocal Bandish Audioの構造と自動セグメンテーション

Structure and Automatic Segmentation of Dhrupad Vocal Bandish Audio ( http://arxiv.org/abs/2008.00756v1 )

ライセンス: Link先を確認
Rohit M. A., Preeti Rao(参考訳) Dhrupadボーカルコンサートは、ボーカルとパーカッションとの相互作用を含むリズミカルな活動が増大する即興エピソードに介在する構成部を含む。 曲の土台となる韻律テンポに関連して、リズム密度の変化を追跡することで、コンサート構造における即興セクションの検出とラベリングが容易になる。 この研究は、バンディッシュ(作曲)演奏の時間とともに変化する音楽的に関係するリズム密度を自動的に検出することに関するものである。 Dhrupadバンドのコンサートセクションの注釈付きデータセットが提示される。 局所的なテンポ関係を検知し,時間的スムースに追従するCNNシステムについて検討する。 また,発声者の個人表面密度とパーカッションを検出するための前処理として,音源分離を用いる。 これにより、2人の演奏者のリズミカル相互作用の変化を捉えることで、演奏セクションの完全な音楽的記述が得られる。

A Dhrupad vocal concert comprises a composition section that is interspersed with improvised episodes of increased rhythmic activity involving the interaction between the vocals and the percussion. Tracking the changing rhythmic density, in relation to the underlying metric tempo of the piece, thus facilitates the detection and labeling of the improvised sections in the concert structure. This work concerns the automatic detection of the musically relevant rhythmic densities as they change in time across the bandish (composition) performance. An annotated dataset of Dhrupad bandish concert sections is presented. We investigate a CNN-based system, trained to detect local tempo relationships, and follow it with temporal smoothing. We also employ audio source separation as a pre-processing step to the detection of the individual surface densities of the vocals and the percussion. This helps us obtain the complete musical description of the concert sections in terms of capturing the changing rhythmic interaction of the two performers.
翻訳日:2022-11-03 07:24:06 公開日:2020-08-03
# モノーラル歌声分離のためのマルチレゾリューションプールcnnの進化

Evolving Multi-Resolution Pooling CNN for Monaural Singing Voice Separation ( http://arxiv.org/abs/2008.00816v1 )

ライセンス: Link先を確認
Weitao Yuan, Bofei Dong, Shengbei Wang, Masashi Unoki, and Wenwu Wang(参考訳) モナウラル歌声分離(MSVS)は難しい課題であり、何十年も研究されてきた。 ディープニューラルネットワーク(DNN)はMSVSの最先端の手法である。 しかし、既存のDNNは手動で設計されることが多い。 加えて、ネットワークアーキテクチャは通常事前定義され、トレーニングデータに適合しない。 これらの問題に対処するため,MSVS用DNNの構造設計にニューラルアーキテクチャサーチ(NAS)手法を導入する。 具体的には,マルチレゾリューションプーリングcnn(mrp-cnn)という,マルチレゾリューションプーリング演算子を用いてマルチレゾリューション機能を抽出したmsvsのための,新しいマルチレゾリューション畳み込みニューラルネットワーク(cnn)フレームワークを提案する。 NASに基づいて、遺伝的アルゴリズムを用いて有効なMPP-CNN構造を自動探索し、分離性能のみを考慮した単目的、分離性能とモデル複雑さの両方を考慮した多目的という観点から最適化し、進化するMRP-CNN(Evolving MRP-CNN)を開発する。 多目的E-MRP-CNNはパレート最適化ソリューションのセットを提供し、それぞれが分離性能とモデル複雑性のトレードオフを提供する。 MIR-1KとDSD100データセットの定量的および定性的な評価は、提案フレームワークのいくつかの最近のベースラインに対する利点を示すために用いられる。

Monaural Singing Voice Separation (MSVS) is a challenging task and has been studied for decades. Deep neural networks (DNNs) are the current state-of-the-art methods for MSVS. However, the existing DNNs are often designed manually, which is time-consuming and error-prone. In addition, the network architectures are usually pre-defined, and not adapted to the training data. To address these issues, we introduce a Neural Architecture Search (NAS) method to the structure design of DNNs for MSVS. Specifically, we propose a new multi-resolution Convolutional Neural Network (CNN) framework for MSVS namely Multi-Resolution Pooling CNN (MRP-CNN), which uses various-size pooling operators to extract multi-resolution features. Based on the NAS, we then develop an evolving framework namely Evolving MRP-CNN (E-MRP-CNN), by automatically searching the effective MRP-CNN structures using genetic algorithms, optimized in terms of a single-objective considering only separation performance, or multi-objective considering both the separation performance and the model complexity. The multi-objective E-MRP-CNN gives a set of Pareto-optimal solutions, each providing a trade-off between separation performance and model complexity. Quantitative and qualitative evaluations on the MIR-1K and DSD100 datasets are used to demonstrate the advantages of the proposed framework over several recent baselines.
翻訳日:2022-11-03 07:23:51 公開日:2020-08-03
# 無線フェデレーションエッジ学習のためのクラスタベース協調型空対空デジタルアグリゲーション

Cluster-Based Cooperative Digital Over-the-Air Aggregation for Wireless Federated Edge Learning ( http://arxiv.org/abs/2008.00994v1 )

ライセンス: Link先を確認
Ruichen Jiang, Sheng Zhou(参考訳) 本稿では,エアコン(AirComp)を用いた無線エッジにおけるフェデレーション学習システムについて検討する。 このようなシステムでは、ユーザはメッセージをマルチアクセスチャネル上で同時に送信し、高速なモデル集約を実現する。 近年,デジタル変調に基づくAirComp方式が提案され,ユーザにおける1ビット勾配量子化と切り離されたチャネルインバージョンと,融合センター(FC)における多数投票に基づくデコーダが提案されている。 本稿では,ユーザが位相補正を行い,全電力で送信する送信機の要求を緩和する改良されたディジタルAirComp方式を提案する。 FCにおける復号故障確率を特徴付けるために,ユーザの有効参加率と解釈できる正規化検出信号-雑音比(SNR)を導入する。 無線フェーディングを緩和するため,さらにクラスタベースのシステムを提案し,正規化検出SNRに基づくリレー選択方式を設計する。 各クラスタ内のローカルデータ融合とリレー選択により,提案手法は空間的多様性を完全に活用し,有効投票数を増やし,モデル収束を加速することができる。

In this paper, we study a federated learning system at the wireless edge that uses over-the-air computation (AirComp). In such a system, users transmit their messages over a multi-access channel concurrently to achieve fast model aggregation. Recently, an AirComp scheme based on digital modulation has been proposed featuring one-bit gradient quantization and truncated channel inversion at users and a majority-voting based decoder at the fusion center (FC). We propose an improved digital AirComp scheme to relax its requirements on the transmitters, where users perform phase correction and transmit with full power. To characterize the decoding failure probability at the FC, we introduce the normalized detection signal-to-noise ratio (SNR), which can be interpreted as the effective participation rate of users. To mitigate wireless fading, we further propose a cluster-based system and design the relay selection scheme based on the normalized detection SNR. By local data fusion within each cluster and relay selection, our scheme can fully exploit spatial diversity to increase the effective number of voting users and accelerate model convergence.
翻訳日:2022-11-03 07:23:26 公開日:2020-08-03
# 話者認識のための自己注意符号化とプーリング

Self-attention encoding and pooling for speaker recognition ( http://arxiv.org/abs/2008.01077v1 )

ライセンス: Link先を確認
Pooyan Safari, Miquel India and Javier Hernando(参考訳) モバイルデバイスの計算能力は、ストレージサイズ、処理量、メモリおよびエネルギー消費の点でエンドユーザーアプリケーションを制限する。 これらの限界は、より効率的な深層モデルの設計を研究者に動機付ける。 一方,Transformerアーキテクチャに基づく自己注意ネットワークは,高い並列化能力と,さまざまな自然言語処理(NLP)アプリケーションの性能向上により,目覚ましい関心を集めている。 トランスフォーマーにインスパイアされ,非固定長音声音声の識別話者埋め込みを実現するために,タンデム自己注意符号化(SAEP)機構を提案する。 SAEPは、話者のベクトル表現を作成するために、自己意図と位置指向のフィードフォワードネットワークにのみ依存する同一ブロックのスタックである。 このアプローチは、テキストに依存しない話者検証に使用される話者埋め込みに、短時間の話者スペクトル特徴をエンコードする。 このアプローチをVoxCeleb1と2のデータセットで評価した。 提案したアーキテクチャは、ベースラインのxベクターよりも優れており、モデルサイズの大幅な削減とともに、畳み込みに基づく他のベンチマークと競合する性能を示す。 ResNet-34、ResNet-50、x-vectorと比較すると、94%、95%、および73%のパラメータが採用されている。 提案手法は話者発話から時間不変な特徴を抽出するのに有効であることを示す。

The computing power of mobile devices limits the end-user applications in terms of storage size, processing, memory and energy consumption. These limitations motivate researchers for the design of more efficient deep models. On the other hand, self-attention networks based on Transformer architecture have attracted remarkable interests due to their high parallelization capabilities and strong performance on a variety of Natural Language Processing (NLP) applications. Inspired by the Transformer, we propose a tandem Self-Attention Encoding and Pooling (SAEP) mechanism to obtain a discriminative speaker embedding given non-fixed length speech utterances. SAEP is a stack of identical blocks solely relied on self-attention and position-wise feed-forward networks to create vector representation of speakers. This approach encodes short-term speaker spectral features into speaker embeddings to be used in text-independent speaker verification. We have evaluated this approach on both VoxCeleb1 & 2 datasets. The proposed architecture is able to outperform the baseline x-vector, and shows competitive performance to some other benchmarks based on convolutions, with a significant reduction in model size. It employs 94%, 95%, and 73% less parameters compared to ResNet-34, ResNet-50, and x-vector, respectively. This indicates that the proposed fully attention based architecture is more efficient in extracting time-invariant features from speaker utterances.
翻訳日:2022-11-03 07:23:04 公開日:2020-08-03
# InSARパッチの合成のためのジェネレーティブ・アドバイサル・ネットワーク

Generative Adversarial Networks for Synthesizing InSAR Patches ( http://arxiv.org/abs/2008.01184v1 )

ライセンス: Link先を確認
Philipp Sibler, Yuanyuan Wang, Stefan Auer, Mohsin Ali, Xiao Xiang Zhu(参考訳) GAN(Generative Adversarial Networks)は、光学的および実数値的なSAR強度画像間の画像翻訳タスクで一定の成功を収めている。 応用例としては、人工パッチ生成と自動SAR-光シーンマッチングによるSARシーンの解釈性の支援がある。 人工的複素数値InSAR画像スタックの合成は、知覚的品質に加えて、位相ノイズや位相コヒーレンスといったより厳密な品質指標を求める。 本稿では、生成CNN構造の信号処理モデルを提供し、それらの品質指標に影響を与える影響を記述し、一般的なディープラーニングフレームワークに基づく複素数値データのマッピングスキームを提案する。

Generative Adversarial Networks (GANs) have been employed with certain success for image translation tasks between optical and real-valued SAR intensity imagery. Applications include aiding interpretability of SAR scenes with their optical counterparts by artificial patch generation and automatic SAR-optical scene matching. The synthesis of artificial complex-valued InSAR image stacks asks for, besides good perceptual quality, more stringent quality metrics like phase noise and phase coherence. This paper provides a signal processing model of generative CNN structures, describes effects influencing those quality metrics and presents a mapping scheme of complex-valued data to given CNN structures based on popular Deep Learning frameworks.
翻訳日:2022-11-03 07:22:46 公開日:2020-08-03
# ディープラーニングニューラルネットワークの逆アタックのためのハードウェアアクセラレータ

Hardware Accelerator for Adversarial Attacks on Deep Learning Neural Networks ( http://arxiv.org/abs/2008.01219v1 )

ライセンス: Link先を確認
Haoqiang Guo, Lu Peng, Jian Zhang, Fang Qi, Lide Duan(参考訳) 近年の研究では、深層学習ニューラルネットワーク(dnn)は、人間の視覚システムでは知覚できないが、dnnモデルを騙し、間違ったアウトプットにつながる微妙な摂動に弱いことが示されている。 異なる状況下で堅牢な物理的摂動を生成するために,逆攻撃ネットワークアルゴリズムのクラスが提案されている。 これらのアルゴリズムは、将来の防衛ネットワークを訓練するための道を提供することによって、セキュアな深層学習を前進させる最初の試みである。 本稿では,memristor クロスバーアレイを用いた対向攻撃のためのハードウェアアクセラレータを提案する。 この設計により,視覚障害者摂動システムのスループットが大幅に向上し,将来の深層学習システムのロバスト性と安全性がさらに向上する。 アルゴリズムの一意性に基づき, スループット, エネルギー効率, 計算効率を向上させるために, 逆攻撃加速器 (a^3$) の4つの実装を提案する。

Recent studies identify that Deep learning Neural Networks (DNNs) are vulnerable to subtle perturbations, which are not perceptible to human visual system but can fool the DNN models and lead to wrong outputs. A class of adversarial attack network algorithms has been proposed to generate robust physical perturbations under different circumstances. These algorithms are the first efforts to move forward secure deep learning by providing an avenue to train future defense networks, however, the intrinsic complexity of them prevents their broader usage. In this paper, we propose the first hardware accelerator for adversarial attacks based on memristor crossbar arrays. Our design significantly improves the throughput of a visual adversarial perturbation system, which can further improve the robustness and security of future deep learning systems. Based on the algorithm uniqueness, we propose four implementations for the adversarial attack accelerator ($A^3$) to improve the throughput, energy efficiency, and computational efficiency.
翻訳日:2022-11-03 07:22:34 公開日:2020-08-03
# お互いを知る:人間とロボットのコラボレーションのためのインテント、能力、信頼の校正

Getting to Know One Another: Calibrating Intent, Capabilities and Trust for Human-Robot Collaboration ( http://arxiv.org/abs/2008.00699v1 )

ライセンス: Link先を確認
Joshua Lee, Jeffrey Fong, Bing Cai Kok, Harold Soh(参考訳) 共通の経験から、お互いをよく知っているエージェントが一緒に働くことができることが示される。 本研究では,ロボット協調作業における意図と能力の校正の問題に対処する。 特に、ロボットが直接意思を伝えることができない人間を助けようとしているシナリオに焦点を当てる。 さらに、どちらのエージェントも互いに未知の異なる能力を持っている可能性がある。 我々は,決定論的アプローチを採用し,関連するオンラインソルバを用いて,この設定をモデル化するためのticc-pomdpを提案する。 実験により、シミュレーションと実世界の被験者による研究の両方において、我々のアプローチがより良いチームパフォーマンスをもたらすことが示された。

Common experience suggests that agents who know each other well are better able to work together. In this work, we address the problem of calibrating intention and capabilities in human-robot collaboration. In particular, we focus on scenarios where the robot is attempting to assist a human who is unable to directly communicate her intent. Moreover, both agents may have differing capabilities that are unknown to one another. We adopt a decision-theoretic approach and propose the TICC-POMDP for modeling this setting, with an associated online solver. Experiments show our approach leads to better team performance both in simulation and in a real-world study with human subjects.
翻訳日:2022-11-03 07:18:33 公開日:2020-08-03
# リンク計測による交通行列推定のための学習手法

Learning Based Methods for Traffic Matrix Estimation from Link Measurements ( http://arxiv.org/abs/2008.00905v1 )

ライセンス: Link先を確認
Shenghe Xu, Murali Kodialam, T.V. Lakshman and Shivendra Panwar(参考訳) ネットワークトラフィック需要行列は、キャパシティ計画、異常検出、その他多くのネットワーク管理関連タスクにとって重要な入力である。 需要行列はしばしばリンク負荷測定から計算される。 トラヒックマトリックス(tm)推定問題は、リンク負荷測定値からトラヒック需要行列を決定することである。 リンク負荷とリンク負荷を生成するトラヒック行列の関係は、未決定の線形システムとしてモデル化でき、複数の実現可能な解を持つ。 したがって,交通需要パターンの事前知識は,潜在的に実現可能な需要行列を見つけるために利用する必要がある。 本稿では,需要規模分布に関する情報が得られたTM推定問題について考察する。 この情報は、過去に測定されたいくつかの交通行列の分析やオペレーターの経験から得られる。 我々は,この問題に対する反復射影に基づくアルゴリズムを開発した。 過去の交通行列が多数アクセス可能であれば,GAN(Generative Adversarial Network)に基づく問題解決手法を提案する。 この2つの手法の強みを比較し,過去の様々なデータを用いた複数のネットワークの性能評価を行った。

Network traffic demand matrix is a critical input for capacity planning, anomaly detection and many other network management related tasks. The demand matrix is often computed from link load measurements. The traffic matrix (TM) estimation problem is the determination of the traffic demand matrix from link load measurements. The relationship between the link loads and the traffic matrix that generated the link load can be modeled as an under-determined linear system and has multiple feasible solutions. Therefore, prior knowledge of the traffic demand pattern has to be used in order to find a potentially feasible demand matrix. In this paper, we consider the TM estimation problem where we have information about the distribution of the demand sizes. This information can be obtained from the analysis of a few traffic matrices measured in the past or from operator experience. We develop an iterative projection based algorithm for the solution of this problem. If large number of past traffic matrices are accessible, we propose a Generative Adversarial Network (GAN) based approach for solving the problem. We compare the strengths of the two approaches and evaluate their performance for several networks using varying amounts of past data.
翻訳日:2022-11-03 07:18:21 公開日:2020-08-03
# 楽器アクティベーションを考慮した音源分離のためのマルチタスク学習

Multitask learning for instrument activation aware music source separation ( http://arxiv.org/abs/2008.00616v1 )

ライセンス: Link先を確認
Yun-Ning Hung and Alexander Lerch(参考訳) 音楽ソースの分離は音楽情報検索のコアタスクであり、ここ数年で劇的に改善されてきた。 しかし、既存のシステムのほとんどは、ソース分離自体の問題にのみ焦点を合わせ、他の--------MIRタスクを無視することで、さらなる品質向上につながる可能性がある。 本研究では,機器アクティベーション情報を用いて音源分離性能を向上させるための新しいマルチタスク構造を提案する。 さらに,MedleyDBデータセットとMixing Secretsデータセットを組み合わせることで,広く使用されているMUSDBデータセットに含まれる3つの機器よりも現実的な6つの独立した機器について検討した。 その結果,提案したマルチタスクモデルは,MUSDBデータセットで同等の性能を維持しつつ,MedleyDBデータセットとMedleyDBデータセットを混合したベースラインのOpen-Unmixモデルよりも優れていた。

Music source separation is a core task in music information retrieval which has seen a dramatic improvement in the past years. Nevertheless, most of the existing systems focus exclusively on the problem of source separation itself and ignore the utilization of other~---possibly related---~MIR tasks which could lead to additional quality gains. In this work, we propose a novel multitask structure to investigate using instrument activation information to improve source separation performance. Furthermore, we investigate our system on six independent instruments, a more realistic scenario than the three instruments included in the widely-used MUSDB dataset, by leveraging a combination of the MedleyDB and Mixing Secrets datasets. The results show that our proposed multitask model outperforms the baseline Open-Unmix model on the mixture of Mixing Secrets and MedleyDB dataset while maintaining comparable performance on the MUSDB dataset.
翻訳日:2022-11-03 07:18:06 公開日:2020-08-03
# ファイナンスにおける量子と古典生成モデル

Quantum versus Classical Generative Modelling in Finance ( http://arxiv.org/abs/2008.00691v1 )

ライセンス: Link先を確認
Brian Coyle, Maxwell Henderson, Justin Chan Jin Le, Niraj Kumar, Marco Paini, Elham Kashefi(参考訳) 近い将来、量子コンピュータの具体的なユースケースを見つけることは、まだ未解決の問題であり、機械学習は一般に量子技術に影響されるであろう最初の分野の1つとして評価される。 本研究では,量子モデルと古典モデルの能力を比較し,機械学習における生成的モデリングの課題について検討する。 相関通貨ペアからなる実世界の金融データセットを用いて、結果の分布(制限されたボルツマンマシンと量子回路ボルンマシン)を学習する2つのモデルを比較する。 本研究では,本課題におけるボルツマンマシンの性能に常に適合するシミュレーションボルツマンマシンの数値計算結果を示し,モデル規模が拡大するにつれて性能が向上することを示す。 我々は、Rigetti forestプラットフォームを用いてシミュレーションおよび物理量子チップの実験を行い、量子ハードウェア上での量子回路Bornマシンの現在の最大のインスタンスを部分的にトレーニングすることができる。 最後に、訓練用ボルツマンマシンの絡み合い能力を調べることで、絡み合いは一般にボルツマンマシンよりも有利な問題事例において役割を果たすことが分かる。

Finding a concrete use case for quantum computers in the near term is still an open question, with machine learning typically touted as one of the first fields which will be impacted by quantum technologies. In this work, we investigate and compare the capabilities of quantum versus classical models for the task of generative modelling in machine learning. We use a real world financial dataset consisting of correlated currency pairs and compare two models in their ability to learn the resulting distribution - a restricted Boltzmann machine, and a quantum circuit Born machine. We provide extensive numerical results indicating that the simulated Born machine always at least matches the performance of the Boltzmann machine in this task, and demonstrates superior performance as the model scales. We perform experiments on both simulated and physical quantum chips using the Rigetti forest platform, and also are able to partially train the largest instance to date of a quantum circuit Born machine on quantum hardware. Finally, by studying the entanglement capacity of the training Born machines, we find that entanglement typically plays a role in the problem instances which demonstrate an advantage over the Boltzmann machine.
翻訳日:2022-11-03 07:17:51 公開日:2020-08-03
# レート歪理論とディープラーニングにおける相転移

Phase Transitions in Rate Distortion Theory and Deep Learning ( http://arxiv.org/abs/2008.01011v1 )

ライセンス: Link先を確認
Philipp Grohs, Andreas Klotz, Felix Voigtlaender(参考訳) 速度歪み理論は、与えられた信号クラス $\mathcal{S}$ を$R$ビットの予算で最適に$R\to\infty$ と符号化することに関心がある。 我々は$\mathcal{S}$を$s$で圧縮することができ、$\mathcal{O}(R^{-s})$を符号化するために$\mathcal{O}(R^{-s})$の誤差を達成できるならば、その上限圧縮レートは$s^\ast(\mathcal{S})$と表される。 固定符号スキームが与えられた場合、通常、与えられた符号スキームによって$s^\ast(\mathcal{S})$よりも高い速度で圧縮される$\mathcal{S}$の要素が存在する。 確率測度 $\mathbb{P}$ on $\mathcal{S}$ は、すべての符号化スキーム $\mathcal{C}$ と任意の $s >s^\ast(\mathcal{S})$ に対して、エラー $\mathcal{O}(R^{-s})$ でエンコードされた信号の集合は、$\mathcal{C}$ となる。 特に、この結果は、コンパクトに$L^2(\Omega)$に埋め込まれたベソフ空間とソボレフ空間の球体に適用される。 本研究では,ディープニューラルネットワークを用いた関数近似に関する既存のシャープネスの結果が汎用的にシャープであることを示す。 また、ランダムな$f\in\mathcal{S}$が$R$ビットを用いて精度$\varepsilon$にエンコードできる確率に関する量的および非漸近的境界も提供する。 この結果は、最大$w$非ゼロの重みを持つように制約され、任意の「学習」手順によって生成される(量子化された)ニューラルネットワークによって、精度で$f\in\mathcal{s}$を約$\varepsilon$として表現する問題に適用される。 任意の $s >s^\ast(\mathcal{S})$ に対して、$c,C$ が存在して、「学習」手順をどう選択しても、成功確率は$\min\big\{1,2^{C\cdot W\lceil\log_2(1+W)\rceil^2 -c\cdot\varepsilon^{-1/s}}\big\}$ で上限づけられる。

Rate distortion theory is concerned with optimally encoding a given signal class $\mathcal{S}$ using a budget of $R$ bits, as $R\to\infty$. We say that $\mathcal{S}$ can be compressed at rate $s$ if we can achieve an error of $\mathcal{O}(R^{-s})$ for encoding $\mathcal{S}$; the supremal compression rate is denoted $s^\ast(\mathcal{S})$. Given a fixed coding scheme, there usually are elements of $\mathcal{S}$ that are compressed at a higher rate than $s^\ast(\mathcal{S})$ by the given coding scheme; we study the size of this set of signals. We show that for certain "nice" signal classes $\mathcal{S}$, a phase transition occurs: We construct a probability measure $\mathbb{P}$ on $\mathcal{S}$ such that for every coding scheme $\mathcal{C}$ and any $s >s^\ast(\mathcal{S})$, the set of signals encoded with error $\mathcal{O}(R^{-s})$ by $\mathcal{C}$ forms a $\mathbb{P}$-null-set. In particular our results apply to balls in Besov and Sobolev spaces that embed compactly into $L^2(\Omega)$ for a bounded Lipschitz domain $\Omega$. As an application, we show that several existing sharpness results concerning function approximation using deep neural networks are generically sharp. We also provide quantitative and non-asymptotic bounds on the probability that a random $f\in\mathcal{S}$ can be encoded to within accuracy $\varepsilon$ using $R$ bits. This result is applied to the problem of approximately representing $f\in\mathcal{S}$ to within accuracy $\varepsilon$ by a (quantized) neural network that is constrained to have at most $W$ nonzero weights and is generated by an arbitrary "learning" procedure. We show that for any $s >s^\ast(\mathcal{S})$ there are constants $c,C$ such that, no matter how we choose the "learning" procedure, the probability of success is bounded from above by $\min\big\{1,2^{C\cdot W\lceil\log_2(1+W)\rceil^2 -c\cdot\varepsilon^{-1/s}}\big\}$.
翻訳日:2022-11-03 07:17:32 公開日:2020-08-03
# 水中光リンクにおける構成学習

Configuration Learning in Underwater Optical Links ( http://arxiv.org/abs/2008.01221v1 )

ライセンス: Link先を確認
Xueyuan Zhao, Zhuoran Qi, Dario Pompili(参考訳) 本稿では,構成学習という新たな研究課題について述べる。 構成学習問題に対処するために,新しいアルゴリズムを提案する。 構成学習問題は、信号処理/通信システムにおける送信機構成を最適化するMLパフォーマンスメトリックを最大化するために、機械学習(ML)分類器の最適化として定義される。 具体的には, 物理層通信スループットの信号処理性能指標を用いた水中光通信システムにおいて, この構成学習問題を検討した。 鍵設計パラメータの最適化を交互に行い、学習目的に依存する複数のrecurrent neural network (rnn)分類器を切り替えることで構成学習を行う新しいアルゴリズムを提案する。 提案アルゴリズムは水中光通信システムのデータセットを用いて検証し,競合するMLアルゴリズムと比較する。 性能評価の結果,水中光通信データセットにおけるバイナリおよびマルチクラス構成学習の競合アルゴリズムよりも優れていた。 提案する構成学習フレームワークは、信号処理および通信の幅広いトピックに対して、さらに調査および適用することができる。

A new research problem named configuration learning is described in this work. A novel algorithm is proposed to address the configuration learning problem. The configuration learning problem is defined to be the optimization of the Machine Learning (ML) classifier to maximize the ML performance metric optimizing the transmitter configuration in the signal processing/communication systems. Specifically, this configuration learning problem is investigated in an underwater optical communication system with signal processing performance metric of the physical-layer communication throughput. A novel algorithm is proposed to perform the configuration learning by alternating optimization of key design parameters and switching between several Recurrent Neural Network (RNN) classifiers dependant on the learning objective. The proposed ML algorithm is validated with the datasets of an underwater optical communication system and is compared with competing ML algorithms. Performance results indicate that the proposal outperforms the competing algorithms for binary and multi-class configuration learning in underwater optical communication datasets. The proposed configuration learning framework can be further investigated and applied to a broad range of topics in signal processing and communications.
翻訳日:2022-11-03 07:15:53 公開日:2020-08-03
# 雨天と蒸気によるイメージデライニングの再考

Rethinking Image Deraining via Rain Streaks and Vapors ( http://arxiv.org/abs/2008.00823v1 )

ライセンス: Link先を確認
Yinglong Wang, Yibing Song, Chao Ma, and Bing Zeng(参考訳) 単一画像のデライン化は、入力画像を背景画像、送信マップ、雨天、大気光の融合とみなす。 画像復元(すなわち背景画像生成)には高度なモデルが提案されているが、同じ特性を持つ雨のストリークを送信媒体ではなく背景として捉えている。 蒸気(レインストリークの蓄積や霧のような雨)を透過マップに搬送して換気効果をモデル化するので、雨ストリークと蒸気の融合は自然にレインイメージの形成を反映しない。 本研究では,雨滴を気相とともに透過媒体として再構成し,降雨イメージングをモデル化する。 本稿では,SNet という名前のエンコーダデコーダ CNN を提案する。 雨のストリークは様々な形状や方向で現れるため、SNet内のShuffleNetユニットを用いて異方性表現をキャプチャする。 雨害によって蒸気がもたらされるにつれて, 空間ピラミッドプール (SSP) を含むVNetを提案し, 雨害による蒸気の透過マップを複数スケールで予測する。 一方、ANetというエンコーダCNNを用いて大気光を推定する。 SNet、VNet、ANetは、雨像復元のための送信マップと大気光を予測するために共同で訓練されている。 ベンチマークデータセットの大規模な実験は、雨害や蒸気を予測するために提案された視覚モデルの有効性を示した。 提案手法は最先端のデラライニング手法に対して好適に機能する。

Single image deraining regards an input image as a fusion of a background image, a transmission map, rain streaks, and atmosphere light. While advanced models are proposed for image restoration (i.e., background image generation), they regard rain streaks with the same properties as background rather than transmission medium. As vapors (i.e., rain streaks accumulation or fog-like rain) are conveyed in the transmission map to model the veiling effect, the fusion of rain streaks and vapors do not naturally reflect the rain image formation. In this work, we reformulate rain streaks as transmission medium together with vapors to model rain imaging. We propose an encoder-decoder CNN named as SNet to learn the transmission map of rain streaks. As rain streaks appear with various shapes and directions, we use ShuffleNet units within SNet to capture their anisotropic representations. As vapors are brought by rain streaks, we propose a VNet containing spatial pyramid pooling (SSP) to predict the transmission map of vapors in multi-scales based on that of rain streaks. Meanwhile, we use an encoder CNN named ANet to estimate atmosphere light. The SNet, VNet, and ANet are jointly trained to predict transmission maps and atmosphere light for rain image restoration. Extensive experiments on the benchmark datasets demonstrate the effectiveness of the proposed visual model to predict rain streaks and vapors. The proposed deraining method performs favorably against state-of-the-art deraining approaches.
翻訳日:2022-11-03 07:15:37 公開日:2020-08-03
# マルチスケール深部圧縮イメージング

Multi-Scale Deep Compressive Imaging ( http://arxiv.org/abs/2008.00802v1 )

ライセンス: Link先を確認
Thuong Nguyen Canh, Byeungwoo Jeon(参考訳) 近年,Deep Learning-based compressive Imaging (DCI) は,従来の圧縮画像よりも再現性が高く,実行時間も速い。 マルチスケールはシングルスケールよりも優れた性能を示しているが、DCIの研究はシングルスケールサンプリングに限られている。 シングルスケール画像の訓練にもかかわらず、DCIは従来のマルチスケールサンプリングと同様の低周波成分を好んでいる。 この観点から、ネットワークはマルチスケールサンプリングアーキテクチャを用いて、マルチスケールの機能を学習しやすくする。 本研究では,マルチスケール画像の分解,試料化,再構成を共同学習するマルチスケール深部圧縮イメージング(ms-dci)フレームワークを提案する。 マルチスケールサンプリングの効率を実証し, 再現性の向上を図るため, 初期および2つの拡張再構成フェーズを備えた3段階のエンドツーエンドトレーニングスキームを導入した。 本研究では, ピラミッド, ウェーブレット, スケールスペースを含む分解法, サンプリング行列, 測定値を分析し,ms-dciの従来型および深層学習型アプローチを一貫して上回っている経験的利点を示した。

Recently, deep learning-based compressive imaging (DCI) has surpassed the conventional compressive imaging in reconstruction quality and faster running time. While multi-scale has shown superior performance over single-scale, research in DCI has been limited to single-scale sampling. Despite training with single-scale images, DCI tends to favor low-frequency components similar to the conventional multi-scale sampling, especially at low subrate. From this perspective, it would be easier for the network to learn multi-scale features with a multi-scale sampling architecture. In this work, we proposed a multi-scale deep compressive imaging (MS-DCI) framework which jointly learns to decompose, sample, and reconstruct images at multi-scale. A three-phase end-to-end training scheme was introduced with an initial and two enhance reconstruction phases to demonstrate the efficiency of multi-scale sampling and further improve the reconstruction performance. We analyzed the decomposition methods (including Pyramid, Wavelet, and Scale-space), sampling matrices, and measurements and showed the empirical benefit of MS-DCI which consistently outperforms both conventional and deep learning-based approaches.
翻訳日:2022-11-03 07:09:55 公開日:2020-08-03
# LSOTB-TIR:大規模熱赤外物体追跡ベンチマーク

LSOTB-TIR:A Large-Scale High-Diversity Thermal Infrared Object Tracking Benchmark ( http://arxiv.org/abs/2008.00836v1 )

ライセンス: Link先を確認
Qiao Liu, Xin Li, Zhenyu He, Chenglong Li, Jun Li, Zikun Zhou, Di Yuan, Jing Li, Kai Yang, Nana Fan, Feng Zheng(参考訳) 本稿では,評価データセットと,合計1,400のTIRシーケンスと600Kフレーム以上のトレーニングデータセットから構成されるLSOTBTIRという,大規模かつ多種多種多様なオブジェクト追跡ベンチマークを提案する。 全列の各フレームにオブジェクトのバウンディングボックスをアノテートし、合計で730k以上のバウンディングボックスを生成します。 我々の知る限り、LSOTB-TIRは、これまでで最大かつ最も多様なTIRオブジェクト追跡ベンチマークである。 異なる属性のトラッカーを評価するために,評価データセットで4つのシナリオ属性と12のチャレンジ属性を定義した。 LSOTB-TIRをリリースすることにより、コミュニティはディープラーニングベースのTIRトラッカーを開発し、それらを公平かつ包括的に評価することを奨励する。 我々は,LSOTB-TIR上で30以上のトラッカーを評価し解析し,一連のベースラインを提供することにより,ディープトラッカーが有望な性能を達成することを示す。 さらに, LSOTB-TIRにおける複数の代表的ディープトラッカーの再訓練を行い, 提案したトレーニングデータセットが深部TIRトラッカーの性能を著しく向上することを示す。 コードとデータセットはhttps://github.com/QiaoLiuHit/LSOTB-TIRで公開されている。

In this paper, we present a Large-Scale and high-diversity general Thermal InfraRed (TIR) Object Tracking Benchmark, called LSOTBTIR, which consists of an evaluation dataset and a training dataset with a total of 1,400 TIR sequences and more than 600K frames. We annotate the bounding box of objects in every frame of all sequences and generate over 730K bounding boxes in total. To the best of our knowledge, LSOTB-TIR is the largest and most diverse TIR object tracking benchmark to date. To evaluate a tracker on different attributes, we define 4 scenario attributes and 12 challenge attributes in the evaluation dataset. By releasing LSOTB-TIR, we encourage the community to develop deep learning based TIR trackers and evaluate them fairly and comprehensively. We evaluate and analyze more than 30 trackers on LSOTB-TIR to provide a series of baselines, and the results show that deep trackers achieve promising performance. Furthermore, we re-train several representative deep trackers on LSOTB-TIR, and their results demonstrate that the proposed training dataset significantly improves the performance of deep TIR trackers. Codes and dataset are available at https://github.com/QiaoLiuHit/LSOTB-TIR.
翻訳日:2022-11-03 07:09:35 公開日:2020-08-03
# 深層畳み込みニューラルネットワークを用いた定量的感受性マッピングによる脳白質核の自動セグメンテーション

Automated Segmentation of Brain Gray Matter Nuclei on Quantitative Susceptibility Mapping Using Deep Convolutional Neural Network ( http://arxiv.org/abs/2008.00901v1 )

ライセンス: Link先を確認
Chao Chai, Pengchong Qiao, Bin Zhao, Huiying Wang, Guohua Liu, Hong Wu, E Mark Haacke, Wen Shen, Chen Cao, Xinchen Ye, Zhiyang Liu, Shuang Xia(参考訳) 脳皮質下核の鉄蓄積異常は様々な神経変性疾患と相関することが報告されており、定量的感受性マッピング(QSM)から磁気感受性を測定できる。 磁気感受性を定量的に測定するには、核を正確に区分けする必要がある。 本稿では3次元畳み込みニューラルネットワーク(CNN)をベースとした2分岐残基構造U-Net(DB-ResUNet)を提案する。 セグメント化精度とメモリ効率のトレードオフを改善するため、提案したDB-ResUNetは高解像度のイメージパッチと低解像度のパッチをそれぞれローカルおよびグローバルブランチへの視野を大きくした。 実験結果から,QSMとT$_\text{1}$重み付き画像(T$_\text{1}$WI)を入力として併用することにより,従来のアトラス法および古典的な3D-UNet構造と同様に,単分岐法よりも高いセグメンテーション精度を実現することができた。 また,DB-ResUNetによる測定結果から,手動で注釈付けした領域の値と高い相関性を示すことができた。

Abnormal iron accumulation in the brain subcortical nuclei has been reported to be correlated to various neurodegenerative diseases, which can be measured through the magnetic susceptibility from the quantitative susceptibility mapping (QSM). To quantitively measure the magnetic susceptibility, the nuclei should be accurately segmented, which is a tedious task for clinicians. In this paper, we proposed a double-branch residual-structured U-Net (DB-ResUNet) based on 3D convolutional neural network (CNN) to automatically segment such brain gray matter nuclei. To better tradeoff between segmentation accuracy and the memory efficiency, the proposed DB-ResUNet fed image patches with high resolution and the patches with low resolution but larger field of view into the local and global branches, respectively. Experimental results revealed that by jointly using QSM and T$_\text{1}$ weighted imaging (T$_\text{1}$WI) as inputs, the proposed method was able to achieve better segmentation accuracy over its single-branch counterpart, as well as the conventional atlas-based method and the classical 3D-UNet structure. The susceptibility values and the volumes were also measured, which indicated that the measurements from the proposed DB-ResUNet are able to present high correlation with values from the manually annotated regions of interest.
翻訳日:2022-11-03 07:09:14 公開日:2020-08-03
# シャーレット領域におけるコプラ多変量モデリングに基づく色彩テクスチャ画像検索

Color Texture Image Retrieval Based on Copula Multivariate Modeling in the Shearlet Domain ( http://arxiv.org/abs/2008.00910v1 )

ライセンス: Link先を確認
Sadegh Etemad, Maryam Amirmazlaghani(参考訳) 本稿では,コプラ多変量モデルを用いたシアーレット領域モデリングに基づくカラーテクスチャ画像検索フレームワークを提案する。 提案フレームワークでは,非サブサンプルシーレット変換(NSST)の異なるサブバンド間の依存性をモデル化するためにガウスコピュラを用い,非ガウスモデルを用いて係数の限界モデリングを行う。 さらに,提案手法の類似性を検討するために,KLD(Kullback Leibler Divergence)閉形式を2つのガウスコピュラ関数と非ガウス関数の異なる状況で計算する。 KLDの対称バージョンであるJeffery divergence (JD) criterionは、提案フレームワークの類似性を調べるために使用される。 本研究では4つのテクスチャ画像検索ベンチマークデータセットについて実験を行い,提案手法が既存の最先端手法よりも優れていることを示す。 また,提案フレームワークの検索時間を特徴抽出と類似度マッチングの2段階に分けて分析し,提案フレームワークが適切な検索時間を享受していることを示す。

In this paper, a color texture image retrieval framework is proposed based on Shearlet domain modeling using Copula multivariate model. In the proposed framework, Gaussian Copula is used to model the dependencies between different sub-bands of the Non Subsample Shearlet Transform (NSST) and non-Gaussian models are used for marginal modeling of the coefficients. Six different schemes are proposed for modeling NSST coefficients based on the four types of neighboring defined; moreover, Kullback Leibler Divergence(KLD) close form is calculated in different situations for the two Gaussian Copula and non Gaussian functions in order to investigate the similarities in the proposed retrieval framework. The Jeffery divergence (JD) criterion, which is a symmetrical version of KLD, is used for investigating similarities in the proposed framework. We have implemented our experiments on four texture image retrieval benchmark datasets, the results of which show the superiority of the proposed framework over the existing state-of-the-art methods. In addition, the retrieval time of the proposed framework is also analyzed in the two steps of feature extraction and similarity matching, which also shows that the proposed framework enjoys an appropriate retrieval time.
翻訳日:2022-11-03 07:08:47 公開日:2020-08-03
# 軽量単一画像超解像のためのサブピクセルバックプロジェクションネットワーク

Sub-Pixel Back-Projection Network For Lightweight Single Image Super-Resolution ( http://arxiv.org/abs/2008.01116v1 )

ライセンス: Link先を確認
Supratik Banerjee, Cagri Ozcinar, Aakanksha Rana, Aljosa Smolic and Michael Manzke(参考訳) 畳み込みニューラルネットワーク(CNN)に基づく手法は、単一画像の超解像(SISR)において大きな成功を収めた。 しかし、ほとんどのモデルはモデルパラメータの数を増やしながら復元精度を向上しようと試みている。 本稿では,超解像再構成性能の精度を維持しつつ,CNNに基づくSISR手法のパラメータ数と計算コストの削減について検討する。 この目的のために, SISR のネットワークアーキテクチャを導入し, 再構成品質と計算複雑性の低減を両立させる。 具体的には,デコンボリューション層の代わりにサブピクセル畳み込みを用いた反復的バックプロジェクションアーキテクチャを提案する。 提案モデルの計算精度と再構成精度を定量的・質的評価により評価した。 実験結果から,提案手法は,srベンチマークデータセットの4つよりもパラメータを少なくし,復元精度を維持しつつ計算コストを低減できることが判明した。 コードはhttps://github.com/supratikbanerjee/subpixel-backprojection_super resolution"で入手できる。

Convolutional neural network (CNN)-based methods have achieved great success for single-image superresolution (SISR). However, most models attempt to improve reconstruction accuracy while increasing the requirement of number of model parameters. To tackle this problem, in this paper, we study reducing the number of parameters and computational cost of CNN-based SISR methods while maintaining the accuracy of super-resolution reconstruction performance. To this end, we introduce a novel network architecture for SISR, which strikes a good trade-off between reconstruction quality and low computational complexity. Specifically, we propose an iterative back-projection architecture using sub-pixel convolution instead of deconvolution layers. We evaluate the performance of computational and reconstruction accuracy for our proposed model with extensive quantitative and qualitative evaluations. Experimental results reveal that our proposed method uses fewer parameters and reduces the computational cost while maintaining reconstruction accuracy against state-of-the-art SISR methods over well-known four SR benchmark datasets. Code is available at "https://github.com/supratikbanerjee/SubPixel-BackProjection_SuperResolution".
翻訳日:2022-11-03 07:07:16 公開日:2020-08-03
# ディープラーニングを用いた3次元bモード超音波スペックル低減法

3D B-mode ultrasound speckle reduction using deep learning for 3D registration applications ( http://arxiv.org/abs/2008.01147v1 )

ライセンス: Link先を確認
Hongliang Li, Tal Mezheritsky, Liset Vazquez Romaguera, Samuel Kadoury(参考訳) 超音波スペックル(us speckle)は、画像のセグメンテーションや登録などの後処理タスクを阻害する粒状パターンである。 従来のフィルタリング手法はアメリカのスペックルを除去するのによく使われ、主な欠点は3Dシナリオでの長時間実行である。 深層学習を用いた2次元usスペックルの除去に関する研究はいくつか行われたが,深層学習を用いた3次元bモードusのスペックル低減に関する研究は行われていない。 本研究では,us臨床システムから3次元bモードデータを処理するための3次元高密度u-netモデルを提案する。 モデルの結果は3D登録に適用された。 本研究では,従来のフィルタリング手法 (0.978) と比較した場合, スペックル削減の程度を2桁に抑えつつ, 平均保存指数 (1.066) と同等に抑制できることを示す。 さらに, 深層学習モデルを用いたスペックル削減は, 3次元登録性能の向上に寄与することが判明した。 3d u-netスペックル低減を用いた3dデータに対する3d登録の平均二乗誤差は、スペックルと比較して半減する。

Ultrasound (US) speckles are granular patterns which can impede image post-processing tasks, such as image segmentation and registration. Conventional filtering approaches are commonly used to remove US speckles, while their main drawback is long run-time in a 3D scenario. Although a few studies were conducted to remove 2D US speckles using deep learning, to our knowledge, there is no study to perform speckle reduction of 3D B-mode US using deep learning. In this study, we propose a 3D dense U-Net model to process 3D US B-mode data from a clinical US system. The model's results were applied to 3D registration. We show that our deep learning framework can obtain similar suppression and mean preservation index (1.066) on speckle reduction when compared to conventional filtering approaches (0.978), while reducing the runtime by two orders of magnitude. Moreover, it is found that the speckle reduction using our deep learning model contributes to improving the 3D registration performance. The mean square error of 3D registration on 3D data using 3D U-Net speckle reduction is reduced by half compared to that with speckles.
翻訳日:2022-11-03 07:07:02 公開日:2020-08-03
# hamlet:階層型マルチモーダルアテンションに基づくヒューマンアクティビティ認識アルゴリズム

HAMLET: A Hierarchical Multimodal Attention-based Human Activity Recognition Algorithm ( http://arxiv.org/abs/2008.01148v1 )

ライセンス: Link先を確認
Md Mofijul Islam and Tariq Iqbal(参考訳) ロボットは人間の活動を正確に認識する能力を必要としている。 現代のロボットには様々なセンサーが備わっているが、マルチモーダルデータ融合の難しさから、堅牢な人間活動認識(HAR)は依然としてロボットにとって困難な課題である。 これらの課題に対処するため、我々はディープニューラルネットワークに基づくマルチモーダルHARアルゴリズムHAMLETを導入する。 HAMLETには階層型アーキテクチャが組み込まれており、低層はマルチヘッドの自己認識機構を採用することで、非モーダルデータからの時空間的特徴を符号化する。 上層層における多モーダル特徴を計算するために,有意な単モーダル特徴を分離・融合する新しい多モーダルアテンション機構を開発した。 最後に、マルチモーダル機能は、人間の活動を認識するために完全に接続されたニューラルネットワークで使用される。 このアルゴリズムを,3つのヒューマンアクティビティデータセットを用いた最先端アクティビティ認識アルゴリズムと比較して評価した。 その結果、HAMLETは全てのデータセットとメトリクスで評価されたベースラインを上回り、最高トップ-1の精度は、UTD-MHAD [1]とUT-Kinect [2]データセットで95.12%、F1スコアはUCSD-MIT [3]データセットで81.52%であった。 我々はさらに,HARに関する注意機構の影響を解釈するツールを提供する,一様および多様の注意マップを可視化する。

To fluently collaborate with people, robots need the ability to recognize human activities accurately. Although modern robots are equipped with various sensors, robust human activity recognition (HAR) still remains a challenging task for robots due to difficulties related to multimodal data fusion. To address these challenges, in this work, we introduce a deep neural network-based multimodal HAR algorithm, HAMLET. HAMLET incorporates a hierarchical architecture, where the lower layer encodes spatio-temporal features from unimodal data by adopting a multi-head self-attention mechanism. We develop a novel multimodal attention mechanism for disentangling and fusing the salient unimodal features to compute the multimodal features in the upper layer. Finally, multimodal features are used in a fully connect neural-network to recognize human activities. We evaluated our algorithm by comparing its performance to several state-of-the-art activity recognition algorithms on three human activity datasets. The results suggest that HAMLET outperformed all other evaluated baselines across all datasets and metrics tested, with the highest top-1 accuracy of 95.12% and 97.45% on the UTD-MHAD [1] and the UT-Kinect [2] datasets respectively, and F1-score of 81.52% on the UCSD-MIT [3] dataset. We further visualize the unimodal and multimodal attention maps, which provide us with a tool to interpret the impact of attention mechanisms concerning HAR.
翻訳日:2022-11-03 07:06:40 公開日:2020-08-03
# Lanfrica: アフリカの言語に関する機械翻訳研究のドキュメント化への参加的アプローチ

Lanfrica: A Participatory Approach to Documenting Machine Translation Research on African Languages ( http://arxiv.org/abs/2008.07302v1 )

ライセンス: Link先を確認
Chris C. Emezue and Bonaventure F.P. Dossou(参考訳) 長年にわたり、機械翻訳(MT)や自然言語処理(NLP)全般の研究にアフリカ語を含める運動が続けられてきた。 アフリカは1500-2000の文書言語と多くの未文書または絶滅した言語(Lewis, 2009; Bendor-Samuel, 2017)がある。 これにより、いくつかの目的のために開発されたmt研究、モデル、データセットの追跡が困難になる。 インターネットとソーシャルメディアが世界の半数以上(lin, 2020)とアフリカ人の40%以上(campbell, 2019)の日常生活を構成しているため、オンラインプラットフォームは、これらのアフリカの言語における研究、ベンチマーク、データセットへのアクセシビリティの作成に役立ち、既存の研究とその成果の再現性と共有を改善している。 本稿では,アフリカ言語における研究,プロジェクト,ベンチマーク,データセットの文書化に参加型アプローチを用いた,新たなオンゴーイングフレームワークであるlanfricaを紹介する。

Over the years, there have been campaigns to include the African languages in the growing research on machine translation (MT) in particular, and natural language processing (NLP) in general. Africa has the highest language diversity, with 1500-2000 documented languages and many more undocumented or extinct languages(Lewis, 2009; Bendor-Samuel, 2017). This makes it hard to keep track of the MT research, models and dataset that have been developed for some of them. As the internet and social media make up the daily lives of more than half of the world(Lin, 2020), as well as over 40% of Africans(Campbell, 2019), online platforms can be useful in creating accessibility to researches, benchmarks and datasets in these African languages, thereby improving reproducibility and sharing of existing research and their results. In this paper, we introduce Lanfrica, a novel, on-going framework that employs a participatory approach to documenting researches, projects, benchmarks and dataset on African languages.
翻訳日:2022-11-03 06:59:56 公開日:2020-08-03
# 逆行訓練によるアジャイルロコモーションの学習

Learning Agile Locomotion via Adversarial Training ( http://arxiv.org/abs/2008.00603v1 )

ライセンス: Link先を確認
Yujin Tang, Jie Tan and Tatsuya Harada(参考訳) アジャイルロコモーションのためのコントローラの開発は、脚のあるロボットにとって長年の課題である。 強化学習(RL)と進化戦略(ES)は、そのようなコントローラの設計プロセスを自動化することを約束している。 しかしながら、アジリティを促進するトレーニング環境を設計するには、献身的で慎重な人的努力が必要です。 本稿では,四足歩行ロボット(主人公)が他のロボット(敵)を追いかけるのを学習し,後者が逃げることを学習するマルチエージェント学習システムを提案する。 この敵対的なトレーニングプロセスは、アジャイルの振る舞いを奨励するだけでなく、環境デザインの労力を効果的に軽減する。 1つの敵のみを使った先行作品とは対照的に、異なる脱出戦略を専門とする敵のアンサンブルを訓練することは、主人公が機敏さをマスターするには不可欠である。 広い実験により, 対向訓練により学習した移動制御器は, 慎重に設計したベースラインよりも有意に優れていた。

Developing controllers for agile locomotion is a long-standing challenge for legged robots. Reinforcement learning (RL) and Evolution Strategy (ES) hold the promise of automating the design process of such controllers. However, dedicated and careful human effort is required to design training environments to promote agility. In this paper, we present a multi-agent learning system, in which a quadruped robot (protagonist) learns to chase another robot (adversary) while the latter learns to escape. We find that this adversarial training process not only encourages agile behaviors but also effectively alleviates the laborious environment design effort. In contrast to prior works that used only one adversary, we find that training an ensemble of adversaries, each of which specializes in a different escaping strategy, is essential for the protagonist to master agility. Through extensive experiments, we show that the locomotion controller learned with adversarial training significantly outperforms carefully designed baselines.
翻訳日:2022-11-03 06:59:36 公開日:2020-08-03
# マルチエージェントナビゲーションのためのTheta*,ORCA,Push,Rotateの組み合わせ

A Combination of Theta*, ORCA and Push and Rotate for Multi-agent Navigation ( http://arxiv.org/abs/2008.01227v1 )

ライセンス: Link先を確認
Stepan Dergachev and Konstantin Yakovlev and Ryhor Prakapovich(参考訳) 集中制御器が存在しない静的環境におけるマルチエージェントナビゲーションの問題について検討する。 各エージェントは個別に制御され、目標を達成するために3つのアルゴリズム的コンポーネントに依存し、他のエージェントや障害物との衝突を避けます。 i) Theta* アルゴリズムによりなされる個別の経路計画 二 ORCA*アルゴリズムによる経路の追従時の衝突回避 三 プッシュ・ローテーションアルゴリズムによる局所密閉マルチエージェント経路計画 後者の部品は狭い通路やドアのような狭い場所でのデッドロックを避けるために不可欠である。 提案するコンポーネントがどのように相互作用し、コヒーレントなナビゲーションパイプラインを形成するかを説明する。 シミュレーションにおいて,このパイプラインを広範囲に実験的に評価する。 その結果, 衝突回避のみに依存し, マルチエージェント経路計画成分を含まない手法と比較して, 発生したデッドロックの数が有意に減少することが明らかとなった。

We study the problem of multi-agent navigation in static environments when no centralized controller is present. Each agent is controlled individually and relies on three algorithmic components to achieve its goal while avoiding collisions with the other agents and the obstacles: i) individual path planning which is done by Theta* algorithm; ii) collision avoidance while path following which is performed by ORCA* algorithm; iii) locally-confined multi-agent path planning done by Push and Rotate algorithm. The latter component is crucial to avoid deadlocks in confined areas, such as narrow passages or doors. We describe how the suggested components interact and form a coherent navigation pipeline. We carry out an extensive empirical evaluation of this pipeline in simulation. The obtained results clearly demonstrate that the number of occurring deadlocks significantly decreases enabling more agents to reach their goals compared to techniques that rely on collision-avoidance only and do not include multi-agent path planning component
翻訳日:2022-11-03 06:59:21 公開日:2020-08-03
# 勾配拡大ガウス過程回帰による多元的データ融合

Multifidelity Data Fusion via Gradient-Enhanced Gaussian Process Regression ( http://arxiv.org/abs/2008.01066v1 )

ライセンス: Link先を確認
Yixiang Deng, Guang Lin and Xiu Yang(参考訳) 本稿では,多元性ガウス過程回帰(GPR)フレームワークに基づくデータ融合手法を提案する。 この方法は、利子量(QoI)の利用可能なデータと、その勾配を異なる忠実度レベル、すなわち、グラディエント強化コックリグ法(GE-Cokriging)と組み合わせる。 これはqoiとその勾配の近似と不確実性推定を同時に提供する。 本手法は, 勾配情報を使用しない従来の多元的コクリゲティング法と比較し, ge-コクリゲティング法がqoiとその勾配の予測に有効であることを示唆する。 さらに、GE-Cokriging は共分散行列の特異性のため、Cokriging が貧弱な場合にもより良い一般化結果を示す。 本稿では, GE-Cokrigingの適用事例として, 同時に過負荷発振器の軌道と速度を再現すること, 大規模電力系統における発電機バスの電力入力の変化に対する負荷バスの電力係数の感度について検討する。 また,GE-Cokriging法はCokriging法よりも若干高い計算コストを必要とするが,精度比較の結果,このコストは通常,その価値が高いことが示された。

We propose a data fusion method based on multi-fidelity Gaussian process regression (GPR) framework. This method combines available data of the quantity of interest (QoI) and its gradients with different fidelity levels, namely, it is a Gradient-enhanced Cokriging method (GE-Cokriging). It provides the approximations of both the QoI and its gradients simultaneously with uncertainty estimates. We compare this method with the conventional multi-fidelity Cokriging method that does not use gradients information, and the result suggests that GE-Cokriging has a better performance in predicting both QoI and its gradients. Moreover, GE-Cokriging even shows better generalization result in some cases where Cokriging performs poorly due to the singularity of the covariance matrix. We demonstrate the application of GE-Cokriging in several practical cases including reconstructing the trajectories and velocity of an underdamped oscillator with respect to time simultaneously, and investigating the sensitivity of power factor of a load bus with respect to varying power inputs of a generator bus in a large scale power system. We also show that though GE-Cokriging method requires a little bit higher computational cost than Cokriging method, the result of accuracy comparison shows that this cost is usually worth it.
翻訳日:2022-11-03 06:59:07 公開日:2020-08-03
# 大規模クラウドアプリケーションのためのシンプルで効果的な予測リソーススケーリングヒューリスティック

A simple and effective predictive resource scaling heuristic for large-scale cloud applications ( http://arxiv.org/abs/2008.01215v1 )

ライセンス: Link先を確認
Valentin Flunkert, Quentin Rebjock, Joel Castellon, Laurent Callot, Tim Januschowski(参考訳) 本稿では,クラウド環境で稼働する水平スケーラブルなアプリケーションの予測オートスケーリングに対して,計算リソースを遅延時間で追加し,デプロイメントスループットを制限した上で,シンプルかつ効果的なポリシを提案する。 当社のポリシでは、ワークロードの確率的予測を使用して、アプリケーションのオーナのリスク回避に依存するスケーリング決定を行います。 実世界および合成データを用いた実験において、このポリシーは数学的に洗練されたアプローチと単純なベンチマークポリシーとを好適に比較した。

We propose a simple yet effective policy for the predictive auto-scaling of horizontally scalable applications running in cloud environments, where compute resources can only be added with a delay, and where the deployment throughput is limited. Our policy uses a probabilistic forecast of the workload to make scaling decisions dependent on the risk aversion of the application owner. We show in our experiments using real-world and synthetic data that this policy compares favorably to mathematically more sophisticated approaches as well as to simple benchmark policies.
翻訳日:2022-11-03 06:58:45 公開日:2020-08-03
# ストリーム処理システムの進化に関する調査研究

A Survey on the Evolution of Stream Processing Systems ( http://arxiv.org/abs/2008.00842v1 )

ライセンス: Link先を確認
Marios Fragkoulis, Paris Carbone, Vasiliki Kalavri, Asterios Katsifodimos(参考訳) ストリーム処理は20年以上にわたって活発な研究分野となっているが、近年の研究コミュニティや世界中の多くのオープンソースコミュニティが成功し、その最盛期を目の当たりにしている。 本調査は, ストリーム処理システムの基本的側面と, 外部データ管理, 状態管理, 耐障害性, 高可用性, 負荷管理, 弾力性, 再設定の機能領域におけるその進化を概観する。 注目すべき過去の研究成果を概観し,初期(00~10)と現代(11~18)のストリーミングシステムとの類似点と相違点を概説するとともに,最近のトレンドとオープン問題について考察する。

Stream processing has been an active research field for more than 20 years, but it is now witnessing its prime time due to recent successful efforts by the research community and numerous worldwide open-source communities. This survey provides a comprehensive overview of fundamental aspects of stream processing systems and their evolution in the functional areas of out-of-order data management, state management, fault tolerance, high availability, load management, elasticity, and reconfiguration. We review noteworthy past research findings, outline the similarities and differences between early ('00-'10) and modern ('11-'18) streaming systems, and discuss recent trends and open problems.
翻訳日:2022-11-03 06:58:06 公開日:2020-08-03
# 金利歪曲精度トレードオフ:JPEGケーススタディ

The Rate-Distortion-Accuracy Tradeoff: JPEG Case Study ( http://arxiv.org/abs/2008.00605v1 )

ライセンス: Link先を確認
Xiyang Luo, Hossein Talebi, Feng Yang, Michael Elad, Peyman Milanfar(参考訳) デジタル画像の処理には、効率のよい伝送とストレージを容易にするために、ほとんど常に損失のある圧縮が伴う。 これにより、割り当てられたビット予算(レート)と結果の画像の忠実さとの間の避けられない緊張(歪み)がもたらされる。 さらに複雑な考慮事項は、圧縮が与えられた分類器による認識性能に与える影響である(精度)。 この研究は、このレート歪曲精度のトレードオフを探求することを目的としている。 ケーススタディでは、JPEG圧縮標準における量子化テーブルの設計に焦点をあてる。 本稿では,JPEGエンコーダデコーダとエントロピー推定器の両方の差分実装を利用して,連続最適化によるテーブルの最適チューニングを行う。 これにより、レート、歪み、分類精度の相互作用を考慮した統一的なフレームワークを提供することができる。 これらすべての面で、これらのテーブルの簡易かつ容易に実装された変更により、性能が大幅に向上したことを報告します。

Handling digital images is almost always accompanied by a lossy compression in order to facilitate efficient transmission and storage. This introduces an unavoidable tension between the allocated bit-budget (rate) and the faithfulness of the resulting image to the original one (distortion). An additional complicating consideration is the effect of the compression on recognition performance by given classifiers (accuracy). This work aims to explore this rate-distortion-accuracy tradeoff. As a case study, we focus on the design of the quantization tables in the JPEG compression standard. We offer a novel optimal tuning of these tables via continuous optimization, leveraging a differential implementation of both the JPEG encoder-decoder and an entropy estimator. This enables us to offer a unified framework that considers the interplay between rate, distortion and classification accuracy. In all these fronts, we report a substantial boost in performance by a simple and easily implemented modification of these tables.
翻訳日:2022-11-03 06:57:52 公開日:2020-08-03
# 深層写真クロッパーとエンハンサー

Deep Photo Cropper and Enhancer ( http://arxiv.org/abs/2008.00634v1 )

ライセンス: Link先を確認
Aaron Ott, Amir Mazaheri, Niels D. Lobo, Mubarak Shah(参考訳) 本稿では,新しいタイプの画像強調問題を提案する。 画像の画素ワイドな修正を主眼とする従来の画像強調手法と比較して,画像に埋め込まれた画像を収穫し,画像の品質を高めることが提案課題である。 提案手法をdeep photo cropperとdeep image enhancerの2つの深層ネットワークに分割した。 写真クロッパーネットワークでは,空間変換器を用いて埋め込み画像を抽出する。 画像エンハンサーでは、埋め込み画像の画素数を増加させ、画素の伸縮や歪みの影響を低減させるスーパーレゾリューションを用いる。 画像特徴量と地盤真理とのコサイン距離損失を収穫者に適用し,エンハンサーの平均2乗損失を用いた。 さらに,提案手法を訓練し,テストするためのデータセットを提案する。 最後に,定性評価と定量的評価に関して提案手法を解析する。

This paper introduces a new type of image enhancement problem. Compared to traditional image enhancement methods, which mostly deal with pixel-wise modifications of a given photo, our proposed task is to crop an image which is embedded within a photo and enhance the quality of the cropped image. We split our proposed approach into two deep networks: deep photo cropper and deep image enhancer. In the photo cropper network, we employ a spatial transformer to extract the embedded image. In the photo enhancer, we employ super-resolution to increase the number of pixels in the embedded image and reduce the effect of stretching and distortion of pixels. We use cosine distance loss between image features and ground truth for the cropper and the mean square loss for the enhancer. Furthermore, we propose a new dataset to train and test the proposed method. Finally, we analyze the proposed method with respect to qualitative and quantitative evaluations.
翻訳日:2022-11-03 06:57:39 公開日:2020-08-03
# 映像表現学習のためのメモリ拡張Dense Predictive Coding

Memory-augmented Dense Predictive Coding for Video Representation Learning ( http://arxiv.org/abs/2008.01065v1 )

ライセンス: Link先を確認
Tengda Han, Weidi Xie, Andrew Zisserman(参考訳) 本研究の目的は,映像からの自己教師型学習,特に行動認識のための表現である。 私たちは次のような貢献をします i) タスクのための新しいアーキテクチャと学習フレームワーク Memory-augmented Dense Predictive Coding (MemDPC) を提案する。 圧縮された記憶の集合に対する予測的注意機構によって訓練され、任意の将来の状態は常に凝縮表現の凸結合によって構築され、複数の仮説を効率的に作成することができる。 (II)RGBフレームからの視覚のみの自己教師型ビデオ表現学習,あるいは教師なし光流からの学習,あるいはその両方について検討する。 (3)動作認識,ビデオ検索,アノテーションの少ない学習,意図しない行動分類という4つの下流課題における学習表現の質を徹底的に評価した。 いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。

The objective of this paper is self-supervised learning from video, in particular for representations for action recognition. We make the following contributions: (i) We propose a new architecture and learning framework Memory-augmented Dense Predictive Coding (MemDPC) for the task. It is trained with a predictive attention mechanism over the set of compressed memories, such that any future states can always be constructed by a convex combination of the condense representations, allowing to make multiple hypotheses efficiently. (ii) We investigate visual-only self-supervised video representation learning from RGB frames, or from unsupervised optical flow, or both. (iii) We thoroughly evaluate the quality of learnt representation on four different downstream tasks: action recognition, video retrieval, learning with scarce annotations, and unintentional action classification. In all cases, we demonstrate state-of-the-art or comparable performance over other approaches with orders of magnitude fewer training data.
翻訳日:2022-11-03 06:51:44 公開日:2020-08-03
# 単眼映像からの歩行者行動の認識と3次元局在

Recognition and 3D Localization of Pedestrian Actions from Monocular Video ( http://arxiv.org/abs/2008.01162v1 )

ライセンス: Link先を確認
Jun Hayakawa, Behzad Dariush(参考訳) 歩行者行動の理解と予測は、都市部における安全かつ効果的なナビゲーション戦略を実現するための重要かつ困難な研究分野である。 本稿では,自発的視点からの歩行者行動認識と3次元位置推定に着目し,意図の予測と今後の軌道予測を目的としている。 都市交通現場におけるこの問題に対処する上での課題は、歩行者の予測不能な行動に起因しており、行動や意図が常に変動し、歩行者のポーズや3d空間的関係、他のエージェントや環境との相互作用に依存する。 これらの課題を部分的に解決するために,歩行者行動の認識と3次元位置決めにおけるポーズの重要性を考察する。 特に,トラックされた歩行者の生RGB画像シーケンスに対応する入力と歩行者のポーズを含む2ストリームの時間関係ネットワークを用いた行動認識フレームワークを提案する。 提案手法は,jaad公開データセットを用いた評価に基づいて,単ストリーム時間関係ネットワークを用いた手法よりも優れる。 推定ポーズと関連するボディキーポイントは、ユニークな損失関数を用いて歩行者の3次元位置を推定するネットワークへの入力としても使用される。 KITTIデータセットにおける3次元局所化手法の評価は,既存の最先端手法と比較して平均局所化誤差の改善を示す。 最後に,HRIのH3D駆動データセット上で,動作認識と3D局所化の質的テストを行う。

Understanding and predicting pedestrian behavior is an important and challenging area of research for realizing safe and effective navigation strategies in automated and advanced driver assistance technologies in urban scenes. This paper focuses on monocular pedestrian action recognition and 3D localization from an egocentric view for the purpose of predicting intention and forecasting future trajectory. A challenge in addressing this problem in urban traffic scenes is attributed to the unpredictable behavior of pedestrians, whereby actions and intentions are constantly in flux and depend on the pedestrians pose, their 3D spatial relations, and their interaction with other agents as well as with the environment. To partially address these challenges, we consider the importance of pose toward recognition and 3D localization of pedestrian actions. In particular, we propose an action recognition framework using a two-stream temporal relation network with inputs corresponding to the raw RGB image sequence of the tracked pedestrian as well as the pedestrian pose. The proposed method outperforms methods using a single-stream temporal relation network based on evaluations using the JAAD public dataset. The estimated pose and associated body key-points are also used as input to a network that estimates the 3D location of the pedestrian using a unique loss function. The evaluation of our 3D localization method on the KITTI dataset indicates the improvement of the average localization error as compared to existing state-of-the-art methods. Finally, we conduct qualitative tests of action recognition and 3D localization on HRI's H3D driving dataset.
翻訳日:2022-11-03 06:51:16 公開日:2020-08-03
# 自然言語を用いたテクスチャ記述

Describing Textures using Natural Language ( http://arxiv.org/abs/2008.01180v1 )

ライセンス: Link先を確認
Chenyun Wu, Mikayla Timm, Subhransu Maji(参考訳) 自然画像のテクスチャは、色、形状、内部の要素の周期性、および自然言語を用いて記述できるその他の属性によって特徴づけられる。 本稿では,テクスチャのリッチな記述を含む新しいデータセット上で,テクスチャの視覚的特性を記述する問題について検討し,このデータセット上の画像に対して言語を接地する現在の生成モデルおよび判別モデルについて体系的に検討する。 これらのモデルはテクスチャのいくつかの特性を捉えるが、ドットの色などいくつかの組成特性を捉えることができない。 異なる記述を持つ合成的だが現実的なテクスチャを生成することにより,既存モデルの批判的分析を行う。 我々のデータセットはまた、解釈可能なモデルをトレーニングし、テクスチャが重要な役割を果たすきめ細かな分類のためのディープネットワークによって学習される差別的特徴について言語ベースの説明を生成することができる。 我々は、いくつかのきめ細かいドメインを視覚化し、データセットで学んだテクスチャ属性が、Caltech-UCSD Birdsデータセットのエキスパート設計属性よりも改善できることを示します。

Textures in natural images can be characterized by color, shape, periodicity of elements within them, and other attributes that can be described using natural language. In this paper, we study the problem of describing visual attributes of texture on a novel dataset containing rich descriptions of textures, and conduct a systematic study of current generative and discriminative models for grounding language to images on this dataset. We find that while these models capture some properties of texture, they fail to capture several compositional properties, such as the colors of dots. We provide critical analysis of existing models by generating synthetic but realistic textures with different descriptions. Our dataset also allows us to train interpretable models and generate language-based explanations of what discriminative features are learned by deep networks for fine-grained categorization where texture plays a key role. We present visualizations of several fine-grained domains and show that texture attributes learned on our dataset offer improvements over expert-designed attributes on the Caltech-UCSD Birds dataset.
翻訳日:2022-11-03 06:50:09 公開日:2020-08-03
# フレーズカット:野生の言語に基づくイメージセグメンテーション

PhraseCut: Language-based Image Segmentation in the Wild ( http://arxiv.org/abs/2008.01187v1 )

ライセンス: Link先を確認
Chenyun Wu, Zhe Lin, Scott Cohen, Trung Bui, Subhransu Maji(参考訳) 自然言語のフレーズを与えられた画像領域を分割する問題を考察し,77,262の画像と345,486のフレーズ領域ペアからなる新しいデータセットを用いて検討する。 我々のデータセットはVisual Genomeデータセット上に収集され、既存のアノテーションを使用して、対応する領域が手動で注釈付けされた参照フレーズの挑戦的なセットを生成する。 データセット内のフレーズは、複数の領域に対応し、多数のオブジェクトや物のカテゴリ、色、形、部品、画像内の他のエンティティとの関係などの属性を記述します。 我々の実験は、我々のデータセットにおける概念のスケールと多様性が、既存の最先端に重大な課題をもたらすことを示している。 これらの概念のロングテールな性質を体系的に処理し、既存のアプローチを上回るカテゴリ、属性、関係を組み合わせるためのモジュラーアプローチを提示します。

We consider the problem of segmenting image regions given a natural language phrase, and study it on a novel dataset of 77,262 images and 345,486 phrase-region pairs. Our dataset is collected on top of the Visual Genome dataset and uses the existing annotations to generate a challenging set of referring phrases for which the corresponding regions are manually annotated. Phrases in our dataset correspond to multiple regions and describe a large number of object and stuff categories as well as their attributes such as color, shape, parts, and relationships with other entities in the image. Our experiments show that the scale and diversity of concepts in our dataset poses significant challenges to the existing state-of-the-art. We systematically handle the long-tail nature of these concepts and present a modular approach to combine category, attribute, and relationship cues that outperforms existing approaches.
翻訳日:2022-11-03 06:49:54 公開日:2020-08-03
# 会話音声における句読点予測のためのマルチモーダル半教師付き学習フレームワーク

Multimodal Semi-supervised Learning Framework for Punctuation Prediction in Conversational Speech ( http://arxiv.org/abs/2008.00702v1 )

ライセンス: Link先を確認
Monica Sunkara, Srikanth Ronanki, Dhanush Bekal, Sravan Bodapati, Katrin Kirchhoff(参考訳) 本研究では,大量の音声およびテキストデータから表現を学習し,句読点予測のためのマルチモーダル半教師付き学習手法を提案する。 従来の音声処理では、フレーム音響特徴を単語レベル特徴にエンコーダにエンコーダを強制的にアライメントし、その結果の音響および語彙表現のマルチモーダル融合を行う。 代替案として,注意に基づくマルチモーダル融合を探求し,その性能を強制アライメントに基づく融合と比較する。 Fisher corpus で行った実験により,提案手法は基準文字とASR出力のベースライン BLSTM モデルに対して ~6-9% と ~3-4% の絶対改善(F1スコア)を達成できた。 我々は、N-bestリストでデータ拡張を行い、ASRの出力を最大2-6%改善することで、ASRエラーに対するモデルロバスト性をさらに改善する。 また,コーパスの様々なサイズについてアブレーション研究を行い,半教師付き学習手法の有効性を示す。 1時間の音声とテキストデータでトレーニングすると、提案モデルはベースラインモデルよりも9~18%の絶対的改善を達成した。

In this work, we explore a multimodal semi-supervised learning approach for punctuation prediction by learning representations from large amounts of unlabelled audio and text data. Conventional approaches in speech processing typically use forced alignment to encoder per frame acoustic features to word level features and perform multimodal fusion of the resulting acoustic and lexical representations. As an alternative, we explore attention based multimodal fusion and compare its performance with forced alignment based fusion. Experiments conducted on the Fisher corpus show that our proposed approach achieves ~6-9% and ~3-4% absolute improvement (F1 score) over the baseline BLSTM model on reference transcripts and ASR outputs respectively. We further improve the model robustness to ASR errors by performing data augmentation with N-best lists which achieves up to an additional ~2-6% improvement on ASR outputs. We also demonstrate the effectiveness of semi-supervised learning approach by performing ablation study on various sizes of the corpus. When trained on 1 hour of speech and text data, the proposed model achieved ~9-18% absolute improvement over baseline model.
翻訳日:2022-11-03 06:49:27 公開日:2020-08-03
# 確率的適応指標を用いた繰り返し音声パターンの教師なし発見

Unsupervised Discovery of Recurring Speech Patterns Using Probabilistic Adaptive Metrics ( http://arxiv.org/abs/2008.00731v1 )

ライセンス: Link先を確認
Okko R\"as\"anen and Mar\'ia Andrea Cruz Bland\'on(参考訳) unsupervised spoken term discovery (utd) は、音響音声データのコーパスから繰り返し発生する音声のセグメントを見つけることを目的としている。 この問題に対する潜在的なアプローチの1つは、ダイナミック・タイム・ワープ(DTW)を使用して、音声データから順応パターンを見つけることである。 しかし、DTWアライメントのための初期候補セグメントの自動選択と、信号表現間のペアワイド距離メトリクスのしきい値として運用される、ある種の事前定義された基準を必要とする「十分良い」アライメントの検出は、しばしば必要である。 既存のUTDシステムでは、最適なハイパーパラメータはデータセットによって異なり、新しいコーパスと真に低リソースのシナリオに適用可能である。 本稿では, PDTW をベースとした UTD に対する新しい確率論的アプローチを提案する。 pdtwでは、処理されたコーパスの分布特性をアライメント品質の適応評価に利用し、偶然に期待される類似性を持つパターンペアを体系的に発見する。 我々は、2020年の実装の一環として、zero resource speech challenge 2017データセット上でpdtwをテストする。 その結果,本システムは固定ハイパーパラメータを用いた5つのテスト言語で一貫して動作し,検出されたパターンのカバレッジに関して,DTWベースのシステムよりも明らかに優れていた。

Unsupervised spoken term discovery (UTD) aims at finding recurring segments of speech from a corpus of acoustic speech data. One potential approach to this problem is to use dynamic time warping (DTW) to find well-aligning patterns from the speech data. However, automatic selection of initial candidate segments for the DTW-alignment and detection of "sufficiently good" alignments among those require some type of pre-defined criteria, often operationalized as threshold parameters for pair-wise distance metrics between signal representations. In the existing UTD systems, the optimal hyperparameters may differ across datasets, limiting their applicability to new corpora and truly low-resource scenarios. In this paper, we propose a novel probabilistic approach to DTW-based UTD named as PDTW. In PDTW, distributional characteristics of the processed corpus are utilized for adaptive evaluation of alignment quality, thereby enabling systematic discovery of pattern pairs that have similarity what would be expected by coincidence. We test PDTW on Zero Resource Speech Challenge 2017 datasets as a part of 2020 implementation of the challenge. The results show that the system performs consistently on all five tested languages using fixed hyperparameters, clearly outperforming the earlier DTW-based system in terms of coverage of the detected patterns.
翻訳日:2022-11-03 06:49:04 公開日:2020-08-03
# 説明可能な顔認識

Explainable Face Recognition ( http://arxiv.org/abs/2008.00916v1 )

ライセンス: Link先を確認
Jonathan R. Williford, Brandon B. May, Jeffrey Byrne(参考訳) 説明可能な顔認識は、なぜ顔にマッチするかを説明する問題である。 本稿では,説明可能な顔認識のための最初の総合ベンチマークとベースライン評価を提供する。 95人の被験者の3648個のトリプル(プローブ,メイト,非メイト)の硬化したセットである'inpainting game'と呼ばれる新しい評価プロトコルを定義し,鼻,額,口などの顔の特徴を合成的に塗布することにより,非メイトを塗布する。 説明可能な顔マッチング装置は、プローブ画像内のどの領域が交配画像と合致するかを、トリプレット毎に塗装された非メイトに最もよく説明するネットワークアテンションマップを生成する。 これにより、顔マッチングにどのような画像領域が寄与するかを定量化できる。 さらに,このデータセットの総合的なベンチマークを行い,3つの顔マッチングにおける顔認識におけるネットワーク注意方法の5つの状態を比較した。 このベンチマークには、ネットワーク注意のための2つの新しいアルゴリズム、subtree ebpとdenity-based input sampling for explanation (dise)が含まれている。 最後に,これらのネットワークアテンション手法の質的可視化を新しい画像に示すとともに,これらの説明可能な顔認識モデルが顔マッチング者の透明性と信頼をいかに向上するかを検討する。

Explainable face recognition is the problem of explaining why a facial matcher matches faces. In this paper, we provide the first comprehensive benchmark and baseline evaluation for explainable face recognition. We define a new evaluation protocol called the ``inpainting game'', which is a curated set of 3648 triplets (probe, mate, nonmate) of 95 subjects, which differ by synthetically inpainting a chosen facial characteristic like the nose, eyebrows or mouth creating an inpainted nonmate. An explainable face matcher is tasked with generating a network attention map which best explains which regions in a probe image match with a mated image, and not with an inpainted nonmate for each triplet. This provides ground truth for quantifying what image regions contribute to face matching. Furthermore, we provide a comprehensive benchmark on this dataset comparing five state of the art methods for network attention in face recognition on three facial matchers. This benchmark includes two new algorithms for network attention called subtree EBP and Density-based Input Sampling for Explanation (DISE) which outperform the state of the art by a wide margin. Finally, we show qualitative visualization of these network attention techniques on novel images, and explore how these explainable face recognition models can improve transparency and trust for facial matchers.
翻訳日:2022-11-03 06:43:13 公開日:2020-08-03
# RareAct: 異常なインタラクションのビデオデータセット

RareAct: A video dataset of unusual interactions ( http://arxiv.org/abs/2008.01018v1 )

ライセンス: Link先を確認
Antoine Miech, Jean-Baptiste Alayrac, Ivan Laptev, Josef Sivic, Andrew Zisserman(参考訳) 本稿では,手動でアノテートされたビデオデータセット,すなわちRareActについて紹介し,その中に「ブロンドフォン」「カットキーボード」「マイクロ波シューズ」などのアクションが含まれる。 rareactは、アクション認識モデルのゼロショットおよびマイショット合成性を評価することを目的としている。 howto100mの大規模テキストコーパスでは、動詞と名詞を組み合わせることで得られる122の異なるアクションが含まれているが、しばしば別々に現れる。 我々は、最先端のHowTo100M事前訓練ビデオとテキストモデルを用いてベンチマークを行い、ゼロショットと少数ショットのアクションの合成性が困難な課題であり、未解決の課題であることを示す。

This paper introduces a manually annotated video dataset of unusual actions, namely RareAct, including actions such as "blend phone", "cut keyboard" and "microwave shoes". RareAct aims at evaluating the zero-shot and few-shot compositionality of action recognition models for unlikely compositions of common action verbs and object nouns. It contains 122 different actions which were obtained by combining verbs and nouns rarely co-occurring together in the large-scale textual corpus from HowTo100M, but that frequently appear separately. We provide benchmarks using a state-of-the-art HowTo100M pretrained video and text model and show that zero-shot and few-shot compositionality of actions remains a challenging and unsolved task.
翻訳日:2022-11-03 06:40:47 公開日:2020-08-03
# 擬似3次元CNNを用いた人間の行動認識のための残留フレーム

Residual Frames with Efficient Pseudo-3D CNN for Human Action Recognition ( http://arxiv.org/abs/2008.01057v1 )

ライセンス: Link先を確認
Jiawei Chen, Jenson Hsiao, Chiu Man Ho(参考訳) 人間の行動認識は、監視やビデオ理解といった領域における重要な基盤と見なされている。 映像に基づく動作認識のためのエンドツーエンドソリューションの開発は近年進展しているが、最先端のパフォーマンスを達成するには補助的な手作りのモーション表現(例えば光学フロー)が必要である。 本研究では,残余フレーム(すなわち隣接するRGBフレームの違い)を,有能な動作情報を持ち,計算効率のよい「軽量」な動作表現として用いることを提案する。 さらに, 3次元畳み込みを2次元および1次元畳み込みに分解する疑似3次元畳み込みモジュールを開発した。 提案するモジュールは,特徴空間の残余情報を活用して動作を構造化し,外観と動作の特徴の調整を支援するセルフアテンション機構を備える。 実験により,提案する疑似3次元畳み込みモジュールと同様に,残余フレームの効率と有効性を確認した。

Human action recognition is regarded as a key cornerstone in domains such as surveillance or video understanding. Despite recent progress in the development of end-to-end solutions for video-based action recognition, achieving state-of-the-art performance still requires using auxiliary hand-crafted motion representations, e.g., optical flow, which are usually computationally demanding. In this work, we propose to use residual frames (i.e., differences between adjacent RGB frames) as an alternative "lightweight" motion representation, which carries salient motion information and is computationally efficient. In addition, we develop a new pseudo-3D convolution module which decouples 3D convolution into 2D and 1D convolution. The proposed module exploits residual information in the feature space to better structure motions, and is equipped with a self-attention mechanism that assists to recalibrate the appearance and motion features. Empirical results confirm the efficiency and effectiveness of residual frames as well as the proposed pseudo-3D convolution module.
翻訳日:2022-11-03 06:40:12 公開日:2020-08-03
# 再帰的サブクエリ構築によるワンステージ視覚接地の改善

Improving One-stage Visual Grounding by Recursive Sub-query Construction ( http://arxiv.org/abs/2008.01059v1 )

ライセンス: Link先を確認
Zhengyuan Yang, Tianlang Chen, Liwei Wang, Jiebo Luo(参考訳) 長く複雑なクエリの接地に関する現在の制限に対処し,1段階の視覚接地を改善する。 既存の一段階のメソッドでは、言語クエリ全体を単一の文埋め込みベクトルとしてエンコードしている。 この単一のベクトル表現は、クエリの詳細な記述を見渡す傾向がある。 そこで本研究では,複数のラウンドに対して画像と問合せを理由とし,参照曖昧度を段階的に低減する再帰的サブクエリ構築フレームワークを提案する。 本稿では,ReferItGame,RefCOCO,RefCOCO+,RefCOCOgにおける最先端の1ステージベースラインに対して,それぞれ5.0%,4.5%,7.5%,12.8%の絶対的な改善が得られたことを示す。 特に、より長く複雑なクエリにおける優れたパフォーマンスは、クエリモデリングの有効性を検証する。

We improve one-stage visual grounding by addressing current limitations on grounding long and complex queries. Existing one-stage methods encode the entire language query as a single sentence embedding vector, e.g., taking the embedding from BERT or the hidden state from LSTM. This single vector representation is prone to overlooking the detailed descriptions in the query. To address this query modeling deficiency, we propose a recursive sub-query construction framework, which reasons between image and query for multiple rounds and reduces the referring ambiguity step by step. We show our new one-stage method obtains 5.0%, 4.5%, 7.5%, 12.8% absolute improvements over the state-of-the-art one-stage baseline on ReferItGame, RefCOCO, RefCOCO+, and RefCOCOg, respectively. In particular, superior performances on longer and more complex queries validates the effectiveness of our query modeling.
翻訳日:2022-11-03 06:39:57 公開日:2020-08-03
# サイクリング一貫性をもつシームズネットワークを用いた自己教師対象追跡

Self-supervised Object Tracking with Cycle-consistent Siamese Networks ( http://arxiv.org/abs/2008.00637v1 )

ライセンス: Link先を確認
Weihao Yuan, Michael Yu Wang, Qifeng Chen(参考訳) 視覚的物体追跡のための自己教師型学習は、人間の注記やオンライントレーニングなど、教師型学習に比べて有益である。 本研究では,エンドツーエンドのsiameseネットワークを,オブジェクト追跡のためのサイクル一貫性のある自己教師付きフレームワークとして活用する。 自己スーパービジョンは、前方および後方追跡におけるサイクル一貫性を利用して行うことができる。 ディープ・ネットワークのエンド・ツー・エンド・エンド・ラーニングをよりよく活用するために,トラッキング・フレームワークにSiameseリージョンの提案とマスク回帰ネットワークを統合し,各フレームのアノテーションを使わずに,より高速で正確なトラッカーを学習できるようにすることを提案する。 映像オブジェクト追跡のためのVOTデータセットとビデオオブジェクト分割伝搬のためのDAVISデータセットを用いた実験により,本手法が両タスクの先行手法より優れていることが示された。

Self-supervised learning for visual object tracking possesses valuable advantages compared to supervised learning, such as the non-necessity of laborious human annotations and online training. In this work, we exploit an end-to-end Siamese network in a cycle-consistent self-supervised framework for object tracking. Self-supervision can be performed by taking advantage of the cycle consistency in the forward and backward tracking. To better leverage the end-to-end learning of deep networks, we propose to integrate a Siamese region proposal and mask regression network in our tracking framework so that a fast and more accurate tracker can be learned without the annotation of each frame. The experiments on the VOT dataset for visual object tracking and on the DAVIS dataset for video object segmentation propagation show that our method outperforms prior approaches on both tasks.
翻訳日:2022-11-03 06:34:16 公開日:2020-08-03
# PIC-Net:大規模位置認識のためのポイントクラウドと画像協調ネットワーク

PIC-Net: Point Cloud and Image Collaboration Network for Large-Scale Place Recognition ( http://arxiv.org/abs/2008.00658v1 )

ライセンス: Link先を確認
Yuheng Lu, Fan Yang, Fangping Chen, Don Xie(参考訳) Place recognition is one of the hot research fields in automation technology and is still an open issue, Camera and Lidar are two mainstream sensors used in this task, Camera-based methods are easily affected by illumination and season changes, LIDAR cannot get the rich data as the image could , In this paper, we propose the PIC-Net (Point cloud and Image Collaboration Network), which use attention mechanism to fuse the features of image and point cloud, and mine the complementary information between the two. さらに,夜間の認識性能を向上させるため,夜間のイメージを昼間のスタイルに変換する。 比較の結果,イメージとポイントクラウドの協調は,イメージベースとポイントクラウドベースの手法,注意戦略と昼夜変換によってパフォーマンスがさらに向上する可能性が示唆された。

Place recognition is one of the hot research fields in automation technology and is still an open issue, Camera and Lidar are two mainstream sensors used in this task, Camera-based methods are easily affected by illumination and season changes, LIDAR cannot get the rich data as the image could , In this paper, we propose the PIC-Net (Point cloud and Image Collaboration Network), which use attention mechanism to fuse the features of image and point cloud, and mine the complementary information between the two. Furthermore, in order to improve the recognition performance at night, we transform the night image into the daytime style. Comparison results show that the collaboration of image and point cloud outperform both image-based and point cloud-based method, the attention strategy and day-night-transform could further improve the performance.
翻訳日:2022-11-03 06:34:01 公開日:2020-08-03
# 人文推定のための対人意味データ拡張

Adversarial Semantic Data Augmentation for Human Pose Estimation ( http://arxiv.org/abs/2008.00697v1 )

ライセンス: Link先を確認
Yanrui Bin, Xuan Cao, Xinya Chen, Yanhao Ge, Ying Tai, Chengjie Wang, Jilin Li, Feiyue Huang, Changxin Gao, Nong Sang(参考訳) 人間のポーズ推定は、静止画像から身体のキーポイントをローカライズするタスクである。 最先端の方法は、対称的な外観、重度の咬合、近親者などの困難な症例の不十分な例に苦しむ。 難易度を増大させるため、従来の手法では画像パッチを弱い意味論で切り刻み、ペーストすることで画像を拡大し、非現実的な外観と限定的な多様性をもたらす。 そこで我々は,セマンティックデータ拡張法 (SDA) を提案する。 さらに,生成ネットワークを利用して自動ペースト設定を動的に予測するadversarial semantic data augmentation (asda)を提案する。 判別器としてオフザシェルフポーズ推定ネットワークが与えられた場合、ジェネレータは識別器の損失を増やすために最も混乱した変換を求め、識別器は生成されたサンプルを入力として取り、そこから学習する。 パイプライン全体が逆向きに最適化されている。 最先端の結果は、挑戦的なベンチマークで達成される。

Human pose estimation is the task of localizing body keypoints from still images. The state-of-the-art methods suffer from insufficient examples of challenging cases such as symmetric appearance, heavy occlusion and nearby person. To enlarge the amounts of challenging cases, previous methods augmented images by cropping and pasting image patches with weak semantics, which leads to unrealistic appearance and limited diversity. We instead propose Semantic Data Augmentation (SDA), a method that augments images by pasting segmented body parts with various semantic granularity. Furthermore, we propose Adversarial Semantic Data Augmentation (ASDA), which exploits a generative network to dynamiclly predict tailored pasting configuration. Given off-the-shelf pose estimation network as discriminator, the generator seeks the most confusing transformation to increase the loss of the discriminator while the discriminator takes the generated sample as input and learns from it. The whole pipeline is optimized in an adversarial manner. State-of-the-art results are achieved on challenging benchmarks.
翻訳日:2022-11-03 06:33:50 公開日:2020-08-03
# 医用画像における複雑なシーン登録とマイナショットセグメンテーションのための深部補足関節モデル

Deep Complementary Joint Model for Complex Scene Registration and Few-shot Segmentation on Medical Images ( http://arxiv.org/abs/2008.00710v1 )

ライセンス: Link先を確認
Yuting He, Tiantian Li, Guanyu Yang, Youyong Kong, Yang Chen, Huazhong Shu, Jean-Louis Coatrieux, Jean-Louis Dillenseger, Shuo Li(参考訳) 深層学習に基づく医用画像登録とセグメンテーションジョイントモデルは、相補性(登録からの強化データまたは弱教師付きデータ、セグメンテーションからの領域制約)を利用して、複雑なシーンと少数の状況において相互改善をもたらす。 しかし、ジョイントモデルのさらなる採用は妨げられている。 1)増補データの多様性が低下し、さらなる分節化が抑制される。 2 弱監督データにおける不整合領域が訓練過程を妨害する。 3) ラベルベースの領域制約の欠如により登録性能が制限される。 本稿では,複雑なシーン登録とシーン分割のための新しいDeep Complementary Joint Model (DeepRS)を提案する。 登録に摂動係数を埋め込んで変形の活性を増大させ、増大データの多様性を維持する。 弱教師データ中のアライメント領域を強調するアライメント信頼度マップを抽出するために,画素単位の判別器を用いて,重み付けによりアライメント領域の乱れを抑制する。 セグメンテーションモデルからの出力は、深い領域制約を実装するために利用され、ラベル要求を緩和し、詳細な登録をもたらす。 MM-WHS 2017 ChallengeのCTデータセットに関する大規模な実験は、既存の最先端モデルよりも優れたDeepRSの大きな利点を示している。

Deep learning-based medical image registration and segmentation joint models utilize the complementarity (augmentation data or weakly supervised data from registration, region constraints from segmentation) to bring mutual improvement in complex scene and few-shot situation. However, further adoption of the joint models are hindered: 1) the diversity of augmentation data is reduced limiting the further enhancement of segmentation, 2) misaligned regions in weakly supervised data disturb the training process, 3) lack of label-based region constraints in few-shot situation limits the registration performance. We propose a novel Deep Complementary Joint Model (DeepRS) for complex scene registration and few-shot segmentation. We embed a perturbation factor in the registration to increase the activity of deformation thus maintaining the augmentation data diversity. We take a pixel-wise discriminator to extract alignment confidence maps which highlight aligned regions in weakly supervised data so the misaligned regions' disturbance will be suppressed via weighting. The outputs from segmentation model are utilized to implement deep-based region constraints thus relieving the label requirements and bringing fine registration. Extensive experiments on the CT dataset of MM-WHS 2017 Challenge show great advantages of our DeepRS that outperforms the existing state-of-the-art models.
翻訳日:2022-11-03 06:33:33 公開日:2020-08-03
# The End-of-End-to-End: A Video Understanding Pentathlon Challenge (2020)

The End-of-End-to-End: A Video Understanding Pentathlon Challenge (2020) ( http://arxiv.org/abs/2008.00744v1 )

ライセンス: Link先を確認
Samuel Albanie, Yang Liu, Arsha Nagrani, Antoine Miech, Ernesto Coto, Ivan Laptev, Rahul Sukthankar, Bernard Ghanem, Andrew Zisserman, Valentin Gabeur, Chen Sun, Karteek Alahari, Cordelia Schmid, Shizhe Chen, Yida Zhao, Qin Jin, Kaixu Cui, Hui Liu, Chen Wang, Yudong Jiang, Xiaoshuai Hao(参考訳) 我々は、IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2020と共同で開かれたオープンコンペティションである、新しいビデオ理解ペンタトロンチャレンジを紹介する。 本課題は,自然言語クエリを用いたビデオコーパス内のコンテンツ検索タスクであるテキスト・ビデオ検索の新しい手法を探索し,評価することであった。 本報告では,課題の第1版の結果と参加者の調査結果を要約した。

We present a new video understanding pentathlon challenge, an open competition held in conjunction with the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2020. The objective of the challenge was to explore and evaluate new methods for text-to-video retrieval-the task of searching for content within a corpus of videos using natural language queries. This report summarizes the results of the first edition of the challenge together with the findings of the participants.
翻訳日:2022-11-03 06:32:43 公開日:2020-08-03
# DCSFN: 単一画像降雨除去のための深層クロススケール核融合ネットワーク

DCSFN: Deep Cross-scale Fusion Network for Single Image Rain Removal ( http://arxiv.org/abs/2008.00767v1 )

ライセンス: Link先を確認
Cong Wang, Xiaoying Xing, Zhixun Su, Junyang Chen(参考訳) 他のビジョンやマルチメディアタスクが動作しない可能性のある画像の可視性が著しく低下する可能性があるため、降雨除去は重要ではあるが、コンピュータビジョンの課題である。 従来は特徴抽出や処理,ニューラルネットワーク構造に重点を置いてきたが,現在の降雨除去手法では,クロススケールな関係を考慮せずに単一ネットワーク構造に基づくトレーニングを行えば,情報ドロップアウトが発生する可能性がある。 本稿では,ネットワークとインナースケール・フュージョン・オペレーション間のクロススケール手法を検討し,画像雨除去課題を解決する。 具体的には、異なるスケールで特徴を学習するために、複数のサブネットワーク構造を提案し、これらのサブネットワークをゲートリカレントユニットからインナーリーンへクロススケール方式で融合し、異なるスケールで情報をフル活用する。 さらに,多スケール情報を利用するインナースケール接続ブロックを設計し,雨量表現能力を向上させるために,異なるスケール間での融合方式を特徴とし,インナーコネクションをスキップ接続した密集ブロックを導入する。 合成および実世界の両方のデータセットに対する実験結果から,提案手法が最先端の手法よりも優れていることを示す。 ソースコードはhttps://supercong94.wixsite.com/supercong94で入手できる。

Rain removal is an important but challenging computer vision task as rain streaks can severely degrade the visibility of images that may make other visions or multimedia tasks fail to work. Previous works mainly focused on feature extraction and processing or neural network structure, while the current rain removal methods can already achieve remarkable results, training based on single network structure without considering the cross-scale relationship may cause information drop-out. In this paper, we explore the cross-scale manner between networks and inner-scale fusion operation to solve the image rain removal task. Specifically, to learn features with different scales, we propose a multi-sub-networks structure, where these sub-networks are fused via a crossscale manner by Gate Recurrent Unit to inner-learn and make full use of information at different scales in these sub-networks. Further, we design an inner-scale connection block to utilize the multi-scale information and features fusion way between different scales to improve rain representation ability and we introduce the dense block with skip connection to inner-connect these blocks. Experimental results on both synthetic and real-world datasets have demonstrated the superiority of our proposed method, which outperforms over the state-of-the-art methods. The source code will be available at https://supercong94.wixsite.com/supercong94.
翻訳日:2022-11-03 06:32:33 公開日:2020-08-03
# 多エージェント動作予測のための動的・静的文脈認識LSTM

Dynamic and Static Context-aware LSTM for Multi-agent Motion Prediction ( http://arxiv.org/abs/2008.00777v1 )

ライセンス: Link先を確認
Chaofan Tao, Qinhong Jiang, Lixin Duan, Ping Luo(参考訳) 複雑なシーンで複数のエージェント(例えば歩行者)の将来の軌道を同時に予測することを目的としているため、マルチエージェント動作予測は困難である。 既存の作業は、歩行者のグループの位置で表される社会的空間的相互作用を学習し、時間的コヒーレンスを無視した(\textit{i.e.} )か、複雑なシーンレイアウト(\textit{e.} シーンセグメンテーション)を理解して安全なナビゲーションを確保することによって、この問題に対処した。 しかし、空間的相互作用、時間的コヒーレンス、シーンレイアウトを分離した以前の研究とは異なり、この論文では、これらのリッチな情報を長期記憶(LSTM)に統合するための新しいメカニズムである「textit{i.e.}, Dynamic and Static Context-aware Motion Predictor (DSCMP)」を設計した。 3つの利点がある。 1) DSCMPは, 空間的位置と時間的コヒーレンスの両方を学ぶことによってエージェント間の動的相互作用をモデル化し, 文脈的シーンレイアウトを理解する。 2) フレーム単位で隠れた特徴を伝達して動きを予測する従来のLSTMモデルと異なり,長い軌跡間の相関関係を学習する能力を制限するため,長い軌跡間の相関関係を明示的に記憶し学習できるDSCMPの異なるキュー機構を慎重に設計する。 (3)DSCMPは、意味のあるシーンレイアウトを持つマルチモーダル予測を可能にする潜在変数を推論することで、シーンのコンテキストをキャプチャする。 大規模な実験により、DSCMPはETH-UCYデータセットとSDDデータセットにおける9.05\%と7.62\%の相対的な改善など、最先端の手法よりも大きなマージンで優れていることが示された。

Multi-agent motion prediction is challenging because it aims to foresee the future trajectories of multiple agents (\textit{e.g.} pedestrians) simultaneously in a complicated scene. Existing work addressed this challenge by either learning social spatial interactions represented by the positions of a group of pedestrians, while ignoring their temporal coherence (\textit{i.e.} dependencies between different long trajectories), or by understanding the complicated scene layout (\textit{e.g.} scene segmentation) to ensure safe navigation. However, unlike previous work that isolated the spatial interaction, temporal coherence, and scene layout, this paper designs a new mechanism, \textit{i.e.}, Dynamic and Static Context-aware Motion Predictor (DSCMP), to integrates these rich information into the long-short-term-memory (LSTM). It has three appealing benefits. (1) DSCMP models the dynamic interactions between agents by learning both their spatial positions and temporal coherence, as well as understanding the contextual scene layout.(2) Different from previous LSTM models that predict motions by propagating hidden features frame by frame, limiting the capacity to learn correlations between long trajectories, we carefully design a differentiable queue mechanism in DSCMP, which is able to explicitly memorize and learn the correlations between long trajectories. (3) DSCMP captures the context of scene by inferring latent variable, which enables multimodal predictions with meaningful semantic scene layout. Extensive experiments show that DSCMP outperforms state-of-the-art methods by large margins, such as 9.05\% and 7.62\% relative improvements on the ETH-UCY and SDD datasets respectively.
翻訳日:2022-11-03 06:32:10 公開日:2020-08-03
# 衛星画像の高速超解像のための深部・非深部法の融合

Fusion of Deep and Non-Deep Methods for Fast Super-Resolution of Satellite Images ( http://arxiv.org/abs/2008.00878v1 )

ライセンス: Link先を確認
Gaurav Kumar Nayak, Saksham Jain, R Venkatesh Babu, Anirban Chakraborty(参考訳) 新興の商用宇宙産業では、低コストの衛星画像へのアクセスが大幅に増加している。 衛星画像の価格は、センサーの品質と再訪率に依存する。 本研究は,高解像度(SR)による画質向上により,画質と価格のギャップを埋めることを提案する。 近年,衛星画像を強化するための深層sr技術が提案されている。 しかし、これらの方法はいずれも領域レベルのコンテキスト情報を使用しず、画像の各領域に等しく重要となる。 このことは、ほとんどの最先端のSR手法が複雑で面倒な深層モデルであるため、非常に大きな衛星画像を処理するのに要する時間は不可分に高い。 本稿では,低解像度画像の各パッチ上の地域情報内容を分析し,より複雑な深層モデルを用いて画像上のより構造豊かな領域を超解き,非塩領域における資源集約的非深層メソッドを少なくするsrフレームワークを設計することで,この問題に対処することを提案する。 大規模な衛星画像に対する広範囲な実験により,PSNR,MSE,SSIMなどのいくつかの評価尺度において,既存の深部SR法と同等の性能を示しながら,推測時間の大幅な減少を示す。

In the emerging commercial space industry there is a drastic increase in access to low cost satellite imagery. The price for satellite images depends on the sensor quality and revisit rate. This work proposes to bridge the gap between image quality and the price by improving the image quality via super-resolution (SR). Recently, a number of deep SR techniques have been proposed to enhance satellite images. However, none of these methods utilize the region-level context information, giving equal importance to each region in the image. This, along with the fact that most state-of-the-art SR methods are complex and cumbersome deep models, the time taken to process very large satellite images can be impractically high. We, propose to handle this challenge by designing an SR framework that analyzes the regional information content on each patch of the low-resolution image and judiciously chooses to use more computationally complex deep models to super-resolve more structure-rich regions on the image, while using less resource-intensive non-deep methods on non-salient regions. Through extensive experiments on a large satellite image, we show substantial decrease in inference time while achieving similar performance to that of existing deep SR methods over several evaluation measures like PSNR, MSE and SSIM.
翻訳日:2022-11-03 06:31:08 公開日:2020-08-03
# マルコフ連鎖モンテカルロの適応物理インフォームドニューラルネットワーク

Adaptive Physics-Informed Neural Networks for Markov-Chain Monte Carlo ( http://arxiv.org/abs/2008.01604v1 )

ライセンス: Link先を確認
Mohammad Amin Nabian, Hadi Meidani(参考訳) 本稿では,markov-chain monte carlo (mcmc) を用いたシミュレーションフリーベイズパラメータ推定のための適応物理学インフォームドニューラルネットワーク (apinns) を提案する。 具体的には, PDE の解法を必要とする確率関数の計算を行うパラメータ推定問題に着目する。 提案手法は,(1)フォワードモデルへの近似としてオフラインPINN-UQモデルを構築し,(2)MCMCサンプルから生成されたサンプルを用いて,この近似モデルをフライで精製する。 提案したAPINN法は,この近似モデルを常に改良し,近似誤差がユーザ定義残差誤差閾値以下であることを保証する。 本稿では,ポアソン方程式が支配するシステムのパラメータ推定問題を解くために提案するapinn法の性能を数値的に示す。

In this paper, we propose the Adaptive Physics-Informed Neural Networks (APINNs) for accurate and efficient simulation-free Bayesian parameter estimation via Markov-Chain Monte Carlo (MCMC). We specifically focus on a class of parameter estimation problems for which computing the likelihood function requires solving a PDE. The proposed method consists of: (1) constructing an offline PINN-UQ model as an approximation to the forward model; and (2) refining this approximate model on the fly using samples generated from the MCMC sampler. The proposed APINN method constantly refines this approximate model on the fly and guarantees that the approximation error is always less than a user-defined residual error threshold. We numerically demonstrate the performance of the proposed APINN method in solving a parameter estimation problem for a system governed by the Poisson equation.
翻訳日:2022-11-03 06:24:51 公開日:2020-08-03
# ディープラーニングを用いた金融新興イベントツイートのトピック分析

Deep Learning based Topic Analysis on Financial Emerging Event Tweets ( http://arxiv.org/abs/2008.00670v1 )

ライセンス: Link先を確認
Shaan Aryaman and Nguwi Yok Yen(参考訳) 株式市場の財務分析は、過去の価格やその他の測定可能な指標に基づいて、後続または市場の動きを予測するために、量的アプローチに大きく依存している。 これらの定量的分析は、市場に影響を与える感情や憶測のような、定量化できない側面を見逃したかもしれない。 大量の質的テキストデータを分析してソーシャルメディアプラットフォーム上の世論を理解することは、このギャップに対処するアプローチのひとつだ。 本研究では,28264件の金融ツイートのトピック分析を行った。 この期間に3つの主要な話題が頻繁に議論された。 まず、EPSは投資家の間で頻繁に議論されている指標である。 第二に、株式の短い売却が議論され、しばしばモルガン・スタンレーと共に言及された。 第3に、石油とエネルギー部門は政策とともにしばしば議論された。 これらのツイートは、単語をベクトルにマップする単語埋め込みを得るためにword2vecアルゴリズムからなる方法で意味的にクラスタ化されていた。 その後、セマンティックな単語集合が形成された。 各ツイートは、その単語がどのクラスタにあるかに基づいて、その単語のTF-IDF(Term Frequency-Inverse Document Frequency)値を用いてベクトル化された。 ツイートベクトルは、ディープオートエンコーダをトレーニングすることで圧縮表現に変換される。 その後、K平均クラスターが形成された。 この方法は次元を減少させ、通常のベクトル空間モデルとは対照的に密度の高いベクトルを生成する。 Latent Dirichlet Allocation (LDA)と上位頻繁な単語を用いたトピックモデリングは、クラスタを分析し、出現するイベントを明らかにするために使用された。

Financial analyses of stock markets rely heavily on quantitative approaches in an attempt to predict subsequent or market movements based on historical prices and other measurable metrics. These quantitative analyses might have missed out on un-quantifiable aspects like sentiment and speculation that also impact the market. Analyzing vast amounts of qualitative text data to understand public opinion on social media platform is one approach to address this gap. This work carried out topic analysis on 28264 financial tweets [1] via clustering to discover emerging events in the stock market. Three main topics were discovered to be discussed frequently within the period. First, the financial ratio EPS is a measure that has been discussed frequently by investors. Secondly, short selling of shares were discussed heavily, it was often mentioned together with Morgan Stanley. Thirdly, oil and energy sectors were often discussed together with policy. These tweets were semantically clustered by a method consisting of word2vec algorithm to obtain word embeddings that map words to vectors. Semantic word clusters were then formed. Each tweet was then vectorized using the Term Frequency-Inverse Document Frequency (TF-IDF) values of the words it consisted of and based on which clusters its words were in. Tweet vectors were then converted to compressed representations by training a deep-autoencoder. K-means clusters were then formed. This method reduces dimensionality and produces dense vectors, in contrast to the usual Vector Space Model. Topic modelling with Latent Dirichlet Allocation (LDA) and top frequent words were used to analyze clusters and reveal emerging events.
翻訳日:2022-11-03 06:24:37 公開日:2020-08-03
# LT@Helsinki at SemEval-2020 Task 12: Multilingual or language-specific BERT?

LT@Helsinki at SemEval-2020 Task 12: Multilingual or language-specific BERT? ( http://arxiv.org/abs/2008.00805v1 )

ライセンス: Link先を確認
Marc P\`amies, Emily \"Ohman, Kaisla Kajava, J\"org Tiedemann(参考訳) 本稿では,SemEval 2020 Shared Task 12でLT@Helsinkiチームが提出したさまざまなモデルについて述べる。 研究チームは,攻撃的言語識別と攻撃的ターゲット識別という題名のサブタスクAとCに参加した。 どちらのケースでも、Googleが事前トレーニングし、OLIDデータセットとSOLIDデータセットを微調整した、いわゆるBERT(Bidirectional Encoder Representation from Transformer)を使用しました。 その結果、攻撃的なツイート分類は、BERTが最先端の結果を達成できる言語ベースのタスクの1つであることがわかった。

This paper presents the different models submitted by the LT@Helsinki team for the SemEval 2020 Shared Task 12. Our team participated in sub-tasks A and C; titled offensive language identification and offense target identification, respectively. In both cases we used the so-called Bidirectional Encoder Representation from Transformer (BERT), a model pre-trained by Google and fine-tuned by us on the OLID and SOLID datasets. The results show that offensive tweet classification is one of several language-based tasks where BERT can achieve state-of-the-art results.
翻訳日:2022-11-03 06:24:14 公開日:2020-08-03
# 多次元神経・行動関係解析のためのパラメトリックコプラGPモデル

Parametric Copula-GP model for analyzing multidimensional neuronal and behavioral relationships ( http://arxiv.org/abs/2008.01007v1 )

ライセンス: Link先を確認
Nina Kudryashova, Theoklitos Amvrosiadis, Nathalie Dupuy, Nathalie Rochefort, Arno Onken(参考訳) 現在のシステム神経科学の主な課題の1つは、記録された変数の異なる統計と時間スケールによって特徴づけられる高次元の神経および行動データの分析である。 本研究では,個々の変数の統計をその依存構造から分離し,vine copula 構成を用いて次元の呪いから逃れるパラメトリックコプラモデルを提案する。 連続タスク関連変数に条件付きコプラパラメータにガウス過程(GP)を優先したベイズフレームワークを用いる。 合成データ上でのモデルの有効性を検証し、その性能を比較して、よく使われる非パラメトリックアルゴリズムと相互情報を推定する。 私たちのモデルは、データ内の依存関係がフレームワークで使用されるパラメトリックコプラと一致する場合の正確な情報見積もりを提供します。 パラメトリックモデルによる正確な密度推定が不可能な場合、我々のCopula-GPモデルは、基礎的な真実に近く、ニューラルネットワーク推定器で得られたものと同等の合理的な情報推定を提供することができる。 最後に、覚醒マウスで得られた実際の神経および行動記録に我々の枠組みを適用した。 筆者らは,1)脳間雑音相関や行動変調の分析のための正確かつ解釈可能な二変量モデルを作成する能力を示し,2)100以上の次元に拡張し,全人口統計における情報内容を測定する。 これらの結果から,Copula-GPフレームワークは神経,感覚,行動データ間の複雑な多次元関係の解析に特に有用であることが示唆された。

One of the main challenges in current systems neuroscience is the analysis of high-dimensional neuronal and behavioral data that are characterized by different statistics and timescales of the recorded variables. We propose a parametric copula model which separates the statistics of the individual variables from their dependence structure, and escapes the curse of dimensionality by using vine copula constructions. We use a Bayesian framework with Gaussian Process (GP) priors over copula parameters, conditioned on a continuous task-related variable. We validate the model on synthetic data and compare its performance in estimating mutual information against the commonly used non-parametric algorithms. Our model provides accurate information estimates when the dependencies in the data match the parametric copulas used in our framework. When the exact density estimation with a parametric model is not possible, our Copula-GP model is still able to provide reasonable information estimates, close to the ground truth and comparable to those obtained with a neural network estimator. Finally, we apply our framework to real neuronal and behavioral recordings obtained in awake mice. We demonstrate the ability of our framework to 1) produce accurate and interpretable bivariate models for the analysis of inter-neuronal noise correlations or behavioral modulations; 2) expand to more than 100 dimensions and measure information content in the whole-population statistics. These results demonstrate that the Copula-GP framework is particularly useful for the analysis of complex multidimensional relationships between neuronal, sensory and behavioral data.
翻訳日:2022-11-03 06:23:42 公開日:2020-08-03
# meta soft label correctorによるノイズラベルの純化の学習

Learning to Purify Noisy Labels via Meta Soft Label Corrector ( http://arxiv.org/abs/2008.00627v1 )

ライセンス: Link先を確認
Yichen Wu, Jun Shu, Qi Xie, Qian Zhao and Deyu Meng(参考訳) 最近のディープニューラルネットワーク(DNN)は、ノイズラベルによるバイアス付きトレーニングデータに容易に適合する。 ラベル修正戦略は、疑わしいノイズラベルを識別し、修正する手法を設計することでこの問題を軽減するために一般的に用いられる。 腐敗したラベルを修正する現在のアプローチでは、事前に定義されたラベル修正ルールや手動でハイパーパラメータをプリセットする必要がある。 これらの固定された設定は、具体的な問題、訓練データ、訓練プロセスの動的反復に隠された時間的情報に関連する正確なラベルの修正を行うのが困難である。 この問題に対処するために,ノイズのないメタデータの指導の下で,メタ勾配降下ステップを通じてソフトラベルを推定できるメタラーニングモデルを提案する。 ラベル補正手順をメタプロセスとして,メタリーナーを用いてラベルを自動修正することにより,手動でハイパーパラメータをプリセットすることなく,現在のトレーニング問題に従って反復的に修正されたソフトラベルを適応的に得ることができた。 さらに,本手法はモデルに依存しないため,既存のモデルと簡単に組み合わせることができる。 包括的実験は,現在のsotaラベル補正手法と比較して,ノイズラベルを用いた合成問題と実世界問題の両方において,本手法が優れていることを示す。

Recent deep neural networks (DNNs) can easily overfit to biased training data with noisy labels. Label correction strategy is commonly used to alleviate this issue by designing a method to identity suspected noisy labels and then correct them. Current approaches to correcting corrupted labels usually need certain pre-defined label correction rules or manually preset hyper-parameters. These fixed settings make it hard to apply in practice since the accurate label correction usually related with the concrete problem, training data and the temporal information hidden in dynamic iterations of training process. To address this issue, we propose a meta-learning model which could estimate soft labels through meta-gradient descent step under the guidance of noise-free meta data. By viewing the label correction procedure as a meta-process and using a meta-learner to automatically correct labels, we could adaptively obtain rectified soft labels iteratively according to current training problems without manually preset hyper-parameters. Besides, our method is model-agnostic and we can combine it with any other existing model with ease. Comprehensive experiments substantiate the superiority of our method in both synthetic and real-world problems with noisy labels compared with current SOTA label correction strategies.
翻訳日:2022-11-03 06:22:18 公開日:2020-08-03
# 構成による誤り:有限個の例集合における性能保証のための微調整ニューラルネットワーク

Incorrect by Construction: Fine Tuning Neural Networks for Guaranteed Performance on Finite Sets of Examples ( http://arxiv.org/abs/2008.01204v1 )

ライセンス: Link先を確認
Ivan Papusha, Rosa Wu, Joshua Brul\'e, Yanni Kouskoulas, Daniel Genin, Aurora Schmidt(参考訳) ディープニューラルネットワークの信頼性を保証するための形式的手法の利用には大きな関心がある。 しかし、これらの技術は慎重に選択された入出力ペアを移植するためにも用いられる。 本稿では、SMTソルバを用いてReLUニューラルネットワークの重みを微調整し、特定の例の有限集合に対する結果を保証する新しい手法に関する最初の結果を示す。 この手順は、主要な例のパフォーマンスを保証するために使用できるが、予期せぬパフォーマンスを引き起こす難しい不正確な例を挿入するためにも使用できる。 我々は、MNISTネットワークを微調整して、特定の画像を誤って分類し、自由共有機械学習モデルの信頼性を損なうアプローチの可能性について議論する。

There is great interest in using formal methods to guarantee the reliability of deep neural networks. However, these techniques may also be used to implant carefully selected input-output pairs. We present initial results on a novel technique for using SMT solvers to fine tune the weights of a ReLU neural network to guarantee outcomes on a finite set of particular examples. This procedure can be used to ensure performance on key examples, but it could also be used to insert difficult-to-find incorrect examples that trigger unexpected performance. We demonstrate this approach by fine tuning an MNIST network to incorrectly classify a particular image and discuss the potential for the approach to compromise reliability of freely-shared machine learning models.
翻訳日:2022-11-03 06:16:03 公開日:2020-08-03
# 同時学習による観察による行動クローンの性能向上

Concurrent Training Improves the Performance of Behavioral Cloning from Observation ( http://arxiv.org/abs/2008.01205v1 )

ライセンス: Link先を確認
Zachary W. Robertson, Matthew R. Walter(参考訳) デモから学ぶことは、ロボットが新しいスキルを獲得するための効率的な方法として広く使われている。 しかし、通常、デモは状態とアクションシーケンスへの完全なアクセスを提供する必要がある。 対照的に、観察からの学習は、未ラベルのデモ(例えばビデオ)を利用して模倣学習を行う手段を提供する。 これに対する1つのアプローチは、観察からの行動クローニング(BCO)である。 もともとのBCOの実装は、まず逆ダイナミクスモデルを学び、次にそのモデルを使用してアクションラベルを推定することにより、振る舞いのクローンの問題を減らす。 しかしながら、既存のBCOへのアプローチは、最初のステップで多数の初期相互作用を必要とする。 本稿では,BCO の新たな理論的解析を行い,修正 BCO* を導入し,半教師付き設定において,BCO* が逆ダイナミクスモデルとエキスパートポリシーの両方の見積もりを同時に改善可能であることを示す。 この結果、初期相互作用への依存を取り除き、bcoのサンプル複雑さを劇的に改善することができる。 我々は,様々なベンチマーク領域の実験を通じて,アルゴリズムの有効性を評価する。 その結果,同時学習はBCOの性能を向上するだけでなく,GAILやValue-Diceといった最先端の模倣学習手法と競合する性能も向上することが示された。

Learning from demonstration is widely used as an efficient way for robots to acquire new skills. However, it typically requires that demonstrations provide full access to the state and action sequences. In contrast, learning from observation offers a way to utilize unlabeled demonstrations (e.g., video) to perform imitation learning. One approach to this is behavioral cloning from observation (BCO). The original implementation of BCO proceeds by first learning an inverse dynamics model and then using that model to estimate action labels, thereby reducing the problem to behavioral cloning. However, existing approaches to BCO require a large number of initial interactions in the first step. Here, we provide a novel theoretical analysis of BCO, introduce a modification BCO*, and show that in the semi-supervised setting, BCO* can concurrently improve both its estimate for the inverse dynamics model and the expert policy. This result allows us to eliminate the dependence on initial interactions and dramatically improve the sample complexity of BCO. We evaluate the effectiveness of our algorithm through experiments on various benchmark domains. The results demonstrate that concurrent training not only improves over the performance of BCO but also results in performance that is competitive with state-of-the-art imitation learning methods such as GAIL and Value-Dice.
翻訳日:2022-11-03 06:15:50 公開日:2020-08-03
# サブカテゴリ探索による弱改良セマンティックセマンティックセグメンテーション

Weakly-Supervised Semantic Segmentation via Sub-category Exploration ( http://arxiv.org/abs/2008.01183v1 )

ライセンス: Link先を確認
Yu-Ting Chang, Qiaosong Wang, Wei-Chih Hung, Robinson Piramuthu, Yi-Hsuan Tsai, Ming-Hsuan Yang(参考訳) 画像レベルのアノテーションを使用する既存の弱い教師付きセマンティックセグメンテーションメソッドは、通常、オブジェクト領域を見つけるために初期応答に依存する。 しかし、分類ネットワークが生成するそのような応答マップは、ネットワークが目的関数を最適化するために対象全体を必要としないという事実から、通常判別対象部分に焦点を当てている。 オブジェクトの他の部分に注意を向けるようにネットワークを強制するために,サブカテゴリ情報を利用して自己監督タスクを導入する,シンプルで効果的なアプローチを提案する。 具体的には,画像特徴のクラスタリングを行い,アノテートされた親クラス内の擬似サブカテゴリラベルを生成し,ネットワークをより困難なタスクに割り当てるサブカテゴリの目的を構築する。 画像特徴を反復的にクラスタリングすることで、トレーニングプロセスは最も識別可能な対象部分に制限されないため、応答マップの品質が向上する。 提案手法の有効性を検証し,提案手法が最先端手法に対して良好に機能することを示す。

Existing weakly-supervised semantic segmentation methods using image-level annotations typically rely on initial responses to locate object regions. However, such response maps generated by the classification network usually focus on discriminative object parts, due to the fact that the network does not need the entire object for optimizing the objective function. To enforce the network to pay attention to other parts of an object, we propose a simple yet effective approach that introduces a self-supervised task by exploiting the sub-category information. Specifically, we perform clustering on image features to generate pseudo sub-categories labels within each annotated parent class, and construct a sub-category objective to assign the network to a more challenging task. By iteratively clustering image features, the training process does not limit itself to the most discriminative object parts, hence improving the quality of the response maps. We conduct extensive analysis to validate the proposed method and show that our approach performs favorably against the state-of-the-art approaches.
翻訳日:2022-11-03 06:14:26 公開日:2020-08-03
# Mixup-CAM:不確かさ規則化による弱制御セマンティックセマンティックセグメンテーション

Mixup-CAM: Weakly-supervised Semantic Segmentation via Uncertainty Regularization ( http://arxiv.org/abs/2008.01201v1 )

ライセンス: Link先を確認
Yu-Ting Chang, Qiaosong Wang, Wei-Chih Hung, Robinson Piramuthu, Yi-Hsuan Tsai, Ming-Hsuan Yang(参考訳) 画像レベルのラベルを用いた弱教師付きセマンティックセグメンテーションを実現するためには,オブジェクト応答マップの取得が重要なステップである。 しかし、既存の手法は分類タスクに依存しており、ネットワークが分類損失を最適化するためにオブジェクト全体を見る必要がないため、識別対象領域のみに応答マップを付けることができる。 この問題に対処するため,我々は,ネットワークが対象の他の部分に注意を払いながら,より完全かつ均一な応答マップを作成するための,原則とエンドツーエンドのトレイン可能フレームワークを提案する。 具体的には、分類ネットワークにミックスアップデータ拡張スキームを導入し、ミックスアップ戦略との対話性を高めるために、2つの不確実性正規化項を設計する。 実験では,提案手法を広範囲に分析し,最先端手法に対して良好な性能を示す。

Obtaining object response maps is one important step to achieve weakly-supervised semantic segmentation using image-level labels. However, existing methods rely on the classification task, which could result in a response map only attending on discriminative object regions as the network does not need to see the entire object for optimizing the classification loss. To tackle this issue, we propose a principled and end-to-end train-able framework to allow the network to pay attention to other parts of the object, while producing a more complete and uniform response map. Specifically, we introduce the mixup data augmentation scheme into the classification network and design two uncertainty regularization terms to better interact with the mixup strategy. In experiments, we conduct extensive analysis to demonstrate the proposed method and show favorable performance against state-of-the-art approaches.
翻訳日:2022-11-03 06:14:09 公開日:2020-08-03
# 容積3次元ct手荷物検診画像におけるマルチクラス3次元物体検出

Multi-Class 3D Object Detection Within Volumetric 3D Computed Tomography Baggage Security Screening Imagery ( http://arxiv.org/abs/2008.01218v1 )

ライセンス: Link先を確認
Qian Wang, Neelanjan Bhowmik, Toby P. Breckon(参考訳) 旅客荷物内の禁止対象の自動検出は航空安全にとって重要である。 x線ct(x-ray ct)ベースの3dイメージングは空港の航空防犯スクリーニングに広く使われているが、自動禁止アイテム検出は2dx線画像が中心である。 これらの研究により、深層畳み込みニューラルネットワーク(cnn)による2次元x線画像から体積3次元ct手荷物検診画像への自動禁止項目検出の可能性が証明された。 しかし、以前のバッグセキュリティスクリーニング画像における3Dオブジェクト検出の研究は、特定の種類の物体(例えば、ボトルや拳銃など)の検出に焦点を当てていた。 その結果,複数種類の禁止項目を実際に検出する必要がある場合,複数のモデルが必要となる。 本稿では,一つの統一フレームワークを用いて,関心対象の複数のカテゴリの検出について検討する。 この目的のために,3次元CT画像内により困難な3次元物体検出問題を定式化し,この問題に対処するための実現可能なソリューション(3D RetinaNet)を提案する。 検出性能を向上させるため,データ拡張やバックボーンネットワークの変更など,様々な戦略を検討する。 提案手法を定量的・定性的に評価するために, 3次元ct手荷物検診画像におけるマルチクラス3次元物体検出実験を行った。 実験の結果、3d retinanetと一連の好ましい戦略の組み合わせは、5つのオブジェクトクラス(つまり、ボトル、拳銃、双眼鏡、グロックフレーム、ipod)の平均平均精度(map)を65.3\%達成できることが示されている。 全体的なパフォーマンスは、データ不足とバッグクラッタとの類似性により、 {\it glock frame} と {\it iPods} の低パフォーマンスの影響を受けている。

Automatic detection of prohibited objects within passenger baggage is important for aviation security. X-ray Computed Tomography (CT) based 3D imaging is widely used in airports for aviation security screening whilst prior work on automatic prohibited item detection focus primarily on 2D X-ray imagery. These works have proven the possibility of extending deep convolutional neural networks (CNN) based automatic prohibited item detection from 2D X-ray imagery to volumetric 3D CT baggage security screening imagery. However, previous work on 3D object detection in baggage security screening imagery focused on the detection of one specific type of objects (e.g., either {\it bottles} or {\it handguns}). As a result, multiple models are needed if more than one type of prohibited item is required to be detected in practice. In this paper, we consider the detection of multiple object categories of interest using one unified framework. To this end, we formulate a more challenging multi-class 3D object detection problem within 3D CT imagery and propose a viable solution (3D RetinaNet) to tackle this problem. To enhance the performance of detection we investigate a variety of strategies including data augmentation and varying backbone networks. Experimentation carried out to provide both quantitative and qualitative evaluations of the proposed approach to multi-class 3D object detection within 3D CT baggage security screening imagery. Experimental results demonstrate the combination of the 3D RetinaNet and a series of favorable strategies can achieve a mean Average Precision (mAP) of 65.3\% over five object classes (i.e. {\it bottles, handguns, binoculars, glock frames, iPods}). The overall performance is affected by the poor performance on {\it glock frames} and {\it iPods} due to the lack of data and their resemblance with the baggage clutter.
翻訳日:2022-11-03 06:13:52 公開日:2020-08-03
# 胸部X線画像を用いたマルチタスク駆動型COVID-19説明診断

Multi-Task Driven Explainable Diagnosis of COVID-19 using Chest X-ray Images ( http://arxiv.org/abs/2008.03205v1 )

ライセンス: Link先を確認
Aakarsh Malhotra, Surbhi Mittal, Puspita Majumdar, Saheb Chhabra, Kartik Thakral, Mayank Vatsa, Richa Singh, Santanu Chaudhury, Ashwin Pudrod, Anjali Agrawal(参考訳) 全世界で新型コロナウイルスの感染者が増えている中、各国は検査数を増やしている。 RT-PCRキットはいくつかの国で十分利用できるが、遠隔地ではテストキットや処理センターが限られているという問題に直面している。 このことから研究者は、信頼性が高く、簡単にアクセスでき、より速くテストする方法を見つけるようになった。 胸部X線はスクリーニングモダリティとして受け入れられているモダリティの1つである。 この方向に向けて、論文には2つの主要な貢献がある。 まず,新型コロナウイルススクリーニングのためのエンドツーエンド自動ネットワークであるcovid-19 multi-task networkを提案する。 提案ネットワークは、CXRに新型コロナウイルスの特徴が存在するか否かを予測するだけでなく、興味のある領域のセマンティックセマンティックセグメンテーションを行い、モデルを説明できるようにする。 第2に、医療専門家の助けを借りて、ChestXray-14、CheXpertおよび統合COVID-19データセットから採取した9000個の前頭胸部X線写真から肺領域を手動で注釈する。 さらに、covid-19患者に関する200の胸部x線写真もセマンティックセグメンテーションにアノテートされている。 このデータベースは研究コミュニティにリリースされる予定だ。

With increasing number of COVID-19 cases globally, all the countries are ramping up the testing numbers. While the RT-PCR kits are available in sufficient quantity in several countries, others are facing challenges with limited availability of testing kits and processing centers in remote areas. This has motivated researchers to find alternate methods of testing which are reliable, easily accessible and faster. Chest X-Ray is one of the modalities that is gaining acceptance as a screening modality. Towards this direction, the paper has two primary contributions. Firstly, we present the COVID-19 Multi-Task Network which is an automated end-to-end network for COVID-19 screening. The proposed network not only predicts whether the CXR has COVID-19 features present or not, it also performs semantic segmentation of the regions of interest to make the model explainable. Secondly, with the help of medical professionals, we manually annotate the lung regions of 9000 frontal chest radiographs taken from ChestXray-14, CheXpert and a consolidated COVID-19 dataset. Further, 200 chest radiographs pertaining to COVID-19 patients are also annotated for semantic segmentation. This database will be released to the research community.
翻訳日:2022-11-03 06:13:21 公開日:2020-08-03
# AiRoundとCV-BrCT:シーン分類のための新しいマルチビューデータセット

AiRound and CV-BrCT: Novel Multi-View Datasets for Scene Classification ( http://arxiv.org/abs/2008.01133v1 )

ライセンス: Link先を確認
Gabriel Machado, Edemir Ferreira, Keiller Nogueira, Hugo Oliveira, Pedro Gama and Jefersson A. dos Santos(参考訳) 航空衛星画像が様々なタスクに有用な情報を提供できることは否定できない。 しかし、これらの画像は常に上から見ているので、地上画像などの他の視点から得られる補完的な情報から恩恵を受けるアプリケーションもある。 地理参照写真と空中画像の両方の公開リポジトリは多いが、空中画像と地上画像の利点と相補性を利用するアプローチの開発を可能にするベンチマークデータセットが不足している。 本稿では,<thedataset</the>とCV-BrCTという2つの新しいデータセットを提案する。 1つ目は、世界中の様々な場所から抽出された視点の異なる同じ地理的座標からの3つの画像を含む。 各トリプルトは、空中RGB画像、地上レベルの視点画像、およびセンチネル2サンプルで構成されている。 第2のデータセットは、ブラジル南東部から抽出された空中およびストリートレベルの画像のペアを含んでいる。 本研究では,早期および後期融合を用いた多視点シーン分類に関する実験セットを設計する。 このような実験により,マルチビューデータを用いて画像分類を拡張できることを示した。

It is undeniable that aerial/satellite images can provide useful information for a large variety of tasks. But, since these images are always looking from above, some applications can benefit from complementary information provided by other perspective views of the scene, such as ground-level images. Despite a large number of public repositories for both georeferenced photographs and aerial images, there is a lack of benchmark datasets that allow the development of approaches that exploit the benefits and complementarity of aerial/ground imagery. In this paper, we present two new publicly available datasets named \thedataset~and CV-BrCT. The first one contains triplets of images from the same geographic coordinate with different perspectives of view extracted from various places around the world. Each triplet is composed of an aerial RGB image, a ground-level perspective image, and a Sentinel-2 sample. The second dataset contains pairs of aerial and street-level images extracted from southeast Brazil. We design an extensive set of experiments concerning multi-view scene classification, using early and late fusion. Such experiments were conducted to show that image classification can be enhanced using multi-view data.
翻訳日:2022-11-03 06:07:06 公開日:2020-08-03
# 言語モデルと多言語:多言語テキスト音声のためのメタラーニング

One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech ( http://arxiv.org/abs/2008.00768v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Nekvinda and Ond\v{r}ej Du\v{s}ek(参考訳) 本稿では,文脈パラメータ生成のメタラーニング概念を用いた多言語音声合成手法を提案し,従来の手法よりも多くの言語と少ない訓練データを用いて自然発声多言語音声を生成する。 本モデルでは,完全畳み込み入力テキストエンコーダを持つtacotron 2をベースとし,パラメータ生成ネットワークによって重みが予測される。 音声のクローニングを促進するために、エンコーダから話者固有の情報を除去する勾配反転層を備えた対向話者分類器を使用する。 我々は,(1)低量のデータを用いたトレーニングにおける安定性と性能,(2)コードスイッチング合成における発音精度と音声品質の2つの実験を,言語間パラメータ共有の様々なレベルを用いてベースラインと比較して評価した。 トレーニングには、css10データセットと、5つの言語で共通の音声記録に基づいた新しい小さなデータセットを使用しました。 本モデルは,言語間情報を効果的に共有することを示し,主観的評価テストにより,ベースラインよりも自然で正確なコード交換音声を生成する。

We introduce an approach to multilingual speech synthesis which uses the meta-learning concept of contextual parameter generation and produces natural-sounding multilingual speech using more languages and less training data than previous approaches. Our model is based on Tacotron 2 with a fully convolutional input text encoder whose weights are predicted by a separate parameter generator network. To boost voice cloning, the model uses an adversarial speaker classifier with a gradient reversal layer that removes speaker-specific information from the encoder. We arranged two experiments to compare our model with baselines using various levels of cross-lingual parameter sharing, in order to evaluate: (1) stability and performance when training on low amounts of data, (2) pronunciation accuracy and voice quality of code-switching synthesis. For training, we used the CSS10 dataset and our new small dataset based on Common Voice recordings in five languages. Our model is shown to effectively share information across languages and according to a subjective evaluation test, it produces more natural and accurate code-switching speech than the baselines.
翻訳日:2022-11-03 06:06:29 公開日:2020-08-03
# NFV管理とオーケストレーションにおける高度なインテリジェンスの必要性

The Need for Advanced Intelligence in NFV Management and Orchestration ( http://arxiv.org/abs/2008.00937v1 )

ライセンス: Link先を確認
Dimitrios Michael Manias and Abdallah Shami(参考訳) ネットワークサービスプロバイダ(NSP)は、常時接続の需要があるため、そのネットワークを最適化して、接続需要の増加に対応するために必要な資本と運用費の増大に対応する必要がある。 この課題に対する解決策は network function virtualization (nfv) を通じて提示された。 ネットワークの複雑さが増加し、未来的なネットワークが形になるにつれて、NFV対応ネットワークに運用効率の増大を組み込む必要がある。 そのような技術の一つが機械学習(ML)であり、特にNFVオーケストレータにおいて、NFV対応ネットワークの様々なエンティティに適用されている。 従来のMLは、リアルタイムデータ処理や高ボリュームデータ処理、プライバシ、セキュリティ、スケーラビリティ、転送可能性、コンセプトドリフトといった課題など、膨大な運用効率を提供する。 強化学習や連合学習のような高度な知性技術の導入によって、nspは従来のmlの利点を活用でき、同時に伝統的にそれに関連する主要な課題にも対処できる。 本研究は、これらの高度な技術を採用する利点を示し、潜在的なユースケースと研究トピックのリストを提供し、これらの高度なインテリジェンスの手法をnfvの管理とオーケストレーションに適用するためのボトムアップマイクロファンクショナルアプローチを提案する。

With the constant demand for connectivity at an all-time high, Network Service Providers (NSPs) are required to optimize their networks to cope with rising capital and operational expenditures required to meet the growing connectivity demand. A solution to this challenge was presented through Network Function Virtualization (NFV). As network complexity increases and futuristic networks take shape, NSPs are required to incorporate an increasing amount of operational efficiency into their NFV-enabled networks. One such technique is Machine Learning (ML), which has been applied to various entities in NFV-enabled networks, most notably in the NFV Orchestrator. While traditional ML provides tremendous operational efficiencies, including real-time and high-volume data processing, challenges such as privacy, security, scalability, transferability, and concept drift hinder its widespread implementation. Through the adoption of Advanced Intelligence techniques such as Reinforcement Learning and Federated Learning, NSPs can leverage the benefits of traditional ML while simultaneously addressing the major challenges traditionally associated with it. This work presents the benefits of adopting these advanced techniques, provides a list of potential use cases and research topics, and proposes a bottom-up micro-functionality approach to applying these methods of Advanced Intelligence to NFV Management and Orchestration.
翻訳日:2022-11-03 06:05:41 公開日:2020-08-03
# 新型コロナウイルスパンデミック対策におけるAIとMLの利用実態調査

A Survey on the Use of AI and ML for Fighting the COVID-19 Pandemic ( http://arxiv.org/abs/2008.07449v1 )

ライセンス: Link先を確認
Muhammad Nazrul Islam, Toki Tahmid Inan, Suzzana Rafi, Syeda Sabrina Akter, Iqbal H. Sarker, A. K. M. Najmul Islam(参考訳) 人工知能(ai)と機械学習(ml)は、医療においてパラダイムシフトを行い、最終的には医療データの探索による意思決定支援や予測に使用することができる。 最近の研究によると、AIとMLは新型コロナウイルス(COVID-19)のパンデミックと戦うのに使える。 このレビュー研究の目的は、新型コロナウイルスのパンデミックと戦うことに焦点を当てた最近のAIとMLに基づく研究を要約することである。 634項目の初期セットから、最終的に35項目が広範囲の包括的除外プロセスによって選択された。 本総説では,既存の研究(新型コロナウイルスのパンデミックと戦うAI/MLの役割)の目的と目的,研究の状況(特定の国語や世界的視点に焦点をあてた研究),データセットのタイプとボリューム,予測や診断プロセスで採用される方法論,アルゴリズムやテクニック,予測/分類の正確さを強調するデータ型とアルゴリズムやテクニックのマッピングについて検討した。 我々は特に、新型コロナウイルスと戦うためのAIの最新の進歩を説明するために、パンデミックデータの分析におけるAI/MLの使用に焦点を当て、さらなる研究の範囲を指摘した。

Artificial intelligence (AI) and machine learning (ML) have made a paradigm shift in health care which, eventually can be used for decision support and forecasting by exploring the medical data. Recent studies showed that AI and ML can be used to fight against the COVID-19 pandemic. Therefore, the objective of this review study is to summarize the recent AI and ML based studies that have focused to fight against COVID-19 pandemic. From an initial set of 634 articles, a total of 35 articles were finally selected through an extensive inclusion-exclusion process. In our review, we have explored the objectives/aims of the existing studies (i.e., the role of AI/ML in fighting COVID-19 pandemic); context of the study (i.e., study focused to a specific country-context or with a global perspective); type and volume of dataset; methodology, algorithms or techniques adopted in the prediction or diagnosis processes; and mapping the algorithms/techniques with the data type highlighting their prediction/classification accuracy. We particularly focused on the uses of AI/ML in analyzing the pandemic data in order to depict the most recent progress of AI for fighting against COVID-19 and pointed out the potential scope of further research.
翻訳日:2022-11-03 06:05:18 公開日:2020-08-03
# アルツハイマー病評価のための高次プール付きテンソル化GAN

Tensorizing GAN with High-Order Pooling for Alzheimer's Disease Assessment ( http://arxiv.org/abs/2008.00748v1 )

ライセンス: Link先を確認
Wen Yu, Baiying Lei, Michael K.Ng, Albert C.Cheung, Yanyan Shen, Shuqiang Wang(参考訳) アルツハイマー病(ad)の早期診断に深層学習を適用することは極めて重要である。 本研究では,MCIとADを評価するために,高次プールを用いた新しいテンソル化GANを提案する。 3人のプレイヤーによる協調ゲームベースのフレームワークをテンソル化することにより、提案モデルは脳の構造情報から恩恵を受けることができる。 高次プーリングスキームを分類器に組み込むことにより、提案モデルでは、全体磁気共鳴イメージング(mri)画像の2次統計を十分に活用することができる。 我々の知る限り,提案するテンソルトレイン,ハイプール,セミ教師付き学習ベースGAN(THS-GAN)は,AD診断のためのMRI画像の分類を扱う最初の試みである。 アルツハイマー病神経イメージングイニシアチブ(ADNI)データセットの大規模な実験結果が報告され、提案したTHS-GANが既存の方法と比較して優れた性能を発揮し、テンソルトレインと高次プーリングの両方が分類性能を向上させることを示した。 また,生成したサンプルを可視化することで,半教師あり学習目的のサンプルを生成できることを示した。

It is of great significance to apply deep learning for the early diagnosis of Alzheimer's Disease (AD). In this work, a novel tensorizing GAN with high-order pooling is proposed to assess Mild Cognitive Impairment (MCI) and AD. By tensorizing a three-player cooperative game based framework, the proposed model can benefit from the structural information of the brain. By incorporating the high-order pooling scheme into the classifier, the proposed model can make full use of the second-order statistics of the holistic Magnetic Resonance Imaging (MRI) images. To the best of our knowledge, the proposed Tensor-train, High-pooling and Semi-supervised learning based GAN (THS-GAN) is the first work to deal with classification on MRI images for AD diagnosis. Extensive experimental results on Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset are reported to demonstrate that the proposed THS-GAN achieves superior performance compared with existing methods, and to show that both tensor-train and high-order pooling can enhance classification performance. The visualization of generated samples also shows that the proposed model can generate plausible samples for semi-supervised learning purpose.
翻訳日:2022-11-03 06:04:33 公開日:2020-08-03
# 無からコヒーレンスを作り出す:勾配アライメントの進化を測定する

Making Coherence Out of Nothing At All: Measuring the Evolution of Gradient Alignment ( http://arxiv.org/abs/2008.01217v1 )

ライセンス: Link先を確認
Satrajit Chatterjee, Piotr Zielinski(参考訳) トレーニング中のサンプル毎の勾配のアライメントを実験的に研究するための新しいメトリック(m$-coherence)を提案する。 直観的には、$m$、$m$-コヒーレンス(英: $m$-coherence)は、平均的な1つの例の勾配に沿った小さなステップから得られるサンプルの数である。 他の一般的なメトリクスと比較すると、$m$-coherenceはより解釈可能であり、$O(m^2)$ではなく$O(m)$)と数学的にクリーンである。 (m$-コヒーレンスと勾配の多様性は、以前いくつかの理論的境界で使われた量と密接に関連している。) m$-コヒーレンスを用いて、イメージネット上のResNetおよびインセプションモデルにおけるサンプルごとの勾配のアライメントの進化とラベルノイズを持ついくつかの変種について、特に記憶と一般化のシンプルで統一的な説明を提供するコヒーレント勾配(CG)理論(Chatterjee, ICLR 20)の観点から検討する。 興味深い点がいくつかありますが、最も驚くべき結果は記憶に関するものです。 つまり、完全にランダムなラベルでトレーニングを行う場合、各サンプルは独立して適合するので、$m$-coherence は 1 に近いはずである。 しかし、これはそうではない:$m$-coherenceは、トレーニング中に非常に高い値に達する(100s)。 この現象の詳細な分析は、CGのより深い確認を提供するが、同時に、ニューラルネットワークの一般化の完全な説明を提供するために、理論から欠落しているものを鋭く緩和する。

We propose a new metric ($m$-coherence) to experimentally study the alignment of per-example gradients during training. Intuitively, given a sample of size $m$, $m$-coherence is the number of examples in the sample that benefit from a small step along the gradient of any one example on average. We show that compared to other commonly used metrics, $m$-coherence is more interpretable, cheaper to compute ($O(m)$ instead of $O(m^2)$) and mathematically cleaner. (We note that $m$-coherence is closely connected to gradient diversity, a quantity previously used in some theoretical bounds.) Using $m$-coherence, we study the evolution of alignment of per-example gradients in ResNet and Inception models on ImageNet and several variants with label noise, particularly from the perspective of the recently proposed Coherent Gradients (CG) theory that provides a simple, unified explanation for memorization and generalization [Chatterjee, ICLR 20]. Although we have several interesting takeaways, our most surprising result concerns memorization. Naively, one might expect that when training with completely random labels, each example is fitted independently, and so $m$-coherence should be close to 1. However, this is not the case: $m$-coherence reaches much higher values during training (100s), indicating that over-parameterized neural networks find common patterns even in scenarios where generalization is not possible. A detailed analysis of this phenomenon provides both a deeper confirmation of CG, but at the same point puts into sharp relief what is missing from the theory in order to provide a complete explanation of generalization in neural networks.
翻訳日:2022-11-03 05:57:57 公開日:2020-08-03
# 美の追求:画像ラベルを意味のあるベクトルに変換する

The pursuit of beauty: Converting image labels to meaningful vectors ( http://arxiv.org/abs/2008.00665v1 )

ライセンス: Link先を確認
Savvas Karatsiolis and Andreas Kamilaris(参考訳) コンピュータビジョンコミュニティの課題は、画像のセマンティクスを理解し、既存のハイレベルな特徴に基づいた画像再構成を可能にするか(セミ)ラベル付きデータセットをよりよく分析することである。 本稿では,この課題に対処するために,画像ラベルを意味のある表現に変換し,大量のデータ意味論をキャプチャするオクルージョンベース潜在表現(olr)という手法を提案する。 情報豊かさに加えて、これらの表現は、各画像ラベルが別個のベクトルに符号化される非交叉低次元潜在空間を構成する。 我々は,これらの表現の質を一連の実験で評価し,提案モデルがデータ概念を捕捉し,データ相互関係を発見することを示唆した。

A challenge of the computer vision community is to understand the semantics of an image, in order to allow image reconstruction based on existing high-level features or to better analyze (semi-)labelled datasets. Towards addressing this challenge, this paper introduces a method, called Occlusion-based Latent Representations (OLR), for converting image labels to meaningful representations that capture a significant amount of data semantics. Besides being informational rich, these representations compose a disentangled low-dimensional latent space where each image label is encoded into a separate vector. We evaluate the quality of these representations in a series of experiments whose results suggest that the proposed model can capture data concepts and discover data interrelations.
翻訳日:2022-11-03 05:56:59 公開日:2020-08-03
# GmFace:マルチガウスによる顔画像表現の数学的モデル

GmFace: A Mathematical Model for Face Image Representation Using Multi-Gaussian ( http://arxiv.org/abs/2008.00752v1 )

ライセンス: Link先を確認
Liping Zhang, Weijun Li, Lina Yu, Xiaoli Dong, Linjun Sun, Xin Ning, Jian Xu, and Hong Qin(参考訳) 数学的モデルを確立することは、客観的世界を理解するためのユビキタスで効果的な方法である。 複雑な生理学的構造と動的行動のため、人間の顔の数学的表現は特に難しい課題である。 本稿では,GmFaceと呼ばれる顔画像表現の数学的モデルについて,多ガウス関数の形で提案する。 このモデルは、2次元ガウス関数の利点を利用し、パラメータによって制御できる形状の対称ベル曲面を提供する。 GmNetは、GmFaceパラメータの問題をGmNetのネットワーク最適化問題に変換するために、GmFaceの各パラメータに対応するパラメータを持つニューロンとしてガウス関数を用いて設計される。 顔モデリングプロセスは,(1)GmNetの初期化,(2)顔画像によるGmNetの摂食,(3)収束までのGmNetのトレーニング,(4)GmNetのパラメータ(GmFaceと同じ)の描画,(5)顔モデルGmFaceを記録する。 さらにgmfaceを用いて、簡単なパラメータ計算により複数の顔画像変換演算を数学的に実現することができる。

Establishing mathematical models is a ubiquitous and effective method to understand the objective world. Due to complex physiological structures and dynamic behaviors, mathematical representation of the human face is an especially challenging task. A mathematical model for face image representation called GmFace is proposed in the form of a multi-Gaussian function in this paper. The model utilizes the advantages of two-dimensional Gaussian function which provides a symmetric bell surface with a shape that can be controlled by parameters. The GmNet is then designed using Gaussian functions as neurons, with parameters that correspond to each of the parameters of GmFace in order to transform the problem of GmFace parameter solving into a network optimization problem of GmNet. The face modeling process can be described by the following steps: (1) GmNet initialization; (2) feeding GmNet with face image(s); (3) training GmNet until convergence; (4) drawing out the parameters of GmNet (as the same as GmFace); (5) recording the face model GmFace. Furthermore, using GmFace, several face image transformation operations can be realized mathematically through simple parameter computation.
翻訳日:2022-11-03 05:56:30 公開日:2020-08-03
# Ubicomp Digital 2020 -- 畳み込みリカレントネットワークを用いた手書き分類

Ubicomp Digital 2020 -- Handwriting classification using a convolutional recurrent network ( http://arxiv.org/abs/2008.01078v1 )

ライセンス: Link先を確認
Wei-Cheng Lai, Hendrik Schr\"oter(参考訳) Ubicomp Digital 2020 - STABILOによる時系列分類チャレンジは、多変量時系列分類の課題である。 100人のボランティアライターから収集されたデータには、ペンに複数のセンサーで測定された15の特徴が含まれている。 本稿では,ニューラルネットワークを用いて,アラビア文字の下位と上位の52クラスに分類する。 提案するニューラルネットワーク a のアーキテクチャは CNN-LSTM ネットワークである。 畳み込みニューラルネットワーク(cnn)を短期的コンテキストに、短期的メモリ層(lstm)を長期的依存関係として組み合わせる。 筆者排他テストセットでは68%,ブラインドチャレンジテストセットでは64.6%の精度に達し,第2位となった。

The Ubicomp Digital 2020 -- Time Series Classification Challenge from STABILO is a challenge about multi-variate time series classification. The data collected from 100 volunteer writers, and contains 15 features measured with multiple sensors on a pen. In this paper,we use a neural network to classify the data into 52 classes, that is lower and upper cases of Arabic letters. The proposed architecture of the neural network a is CNN-LSTM network. It combines convolutional neural network (CNN) for short term context with along short term memory layer (LSTM) for also long term dependencies. We reached an accuracy of 68% on our writer exclusive test set and64.6% on the blind challenge test set resulting in the second place.
翻訳日:2022-11-03 05:55:18 公開日:2020-08-03
# 深層強化学習と模倣学習の競合を追跡する -- 拡張バージョン

Tracking the Race Between Deep Reinforcement Learning and Imitation Learning -- Extended Version ( http://arxiv.org/abs/2008.00766v1 )

ライセンス: Link先を確認
Timo P. Gros and Daniel H\"oller and J\"org Hoffmann and Verena Wolf(参考訳) 近年,大規模意思決定問題に対する学習ベースのアプローチが普及している。 得られたエージェントは異なる動作を行い、その特性は基礎となる学習手法に依存する。 本稿では,強化学習領域であるレーストラックのベンチマーク計画問題を検討し,異なる深層学習アプローチから導出されるエージェントの特性について検討する。 本研究では,深い教師付き学習,特に模倣学習のパフォーマンスを,レーストラックモデルの強化学習と比較する。 模倣学習はよりリスクの高い道をたどるエージェントを生み出す。 対照的に、深層強化学習の決定はより先見性があり、致命的な決定がより起こりやすい状態を避ける。 この逐次的意思決定問題では, 模倣学習の最適判断が検討されているにもかかわらず, 深層強化学習が多くの面で最善であることを示す。

Learning-based approaches for solving large sequential decision making problems have become popular in recent years. The resulting agents perform differently and their characteristics depend on those of the underlying learning approach. Here, we consider a benchmark planning problem from the reinforcement learning domain, the Racetrack, to investigate the properties of agents derived from different deep (reinforcement) learning approaches. We compare the performance of deep supervised learning, in particular imitation learning, to reinforcement learning for the Racetrack model. We find that imitation learning yields agents that follow more risky paths. In contrast, the decisions of deep reinforcement learning are more foresighted, i.e., avoid states in which fatal decisions are more likely. Our evaluations show that for this sequential decision making problem, deep reinforcement learning performs best in many aspects even though for imitation learning optimal decisions are considered.
翻訳日:2022-11-03 05:48:05 公開日:2020-08-03
# 誤解、神話、人工知能の望ましい状態の明確化

A clarification of misconceptions, myths and desired status of artificial intelligence ( http://arxiv.org/abs/2008.05607v1 )

ライセンス: Link先を確認
Frank Emmert-Streib, Olli Yli-Harja, Matthias Dehmer(参考訳) 人工知能(AI)は65年以上前に設立された。 大きな希望と野心的な目標から始まったこの分野は、様々な人気の段階を経て、最近ディープニューラルネットワークの形で復活した。 AIのいくつかの問題は、これまでのところ「知性」もAIの目標も、AIを他の分野と比較する際に混乱を引き起こすように正式に定義されていないことである。 本稿では,機械学習と統計に関して,AIの望ましい現状と現状を考察し,一般的な誤解や神話を明らかにする。 私たちの議論は、AIを取り巻く曖昧さのベールを解明して、その真の数量を見ることを目的としています。

The field artificial intelligence (AI) has been founded over 65 years ago. Starting with great hopes and ambitious goals the field progressed though various stages of popularity and received recently a revival in the form of deep neural networks. Some problems of AI are that so far neither 'intelligence' nor the goals of AI are formally defined causing confusion when comparing AI to other fields. In this paper, we present a perspective on the desired and current status of AI in relation to machine learning and statistics and clarify common misconceptions and myths. Our discussion is intended to uncurtain the veil of vagueness surrounding AI to see its true countenance.
翻訳日:2022-11-03 05:47:52 公開日:2020-08-03
# 最近決定論的政策グラディエント

Proximal Deterministic Policy Gradient ( http://arxiv.org/abs/2008.00759v1 )

ライセンス: Link先を確認
Marco Maggipinto and Gian Antonio Susto and Pratik Chaudhari(参考訳) 本稿では,オフポリシー強化学習(rl)アルゴリズムを改善するための2つの簡易手法を提案する。 まず,オフポリシーrlを確率的近位点反復として定式化する。 対象ネットワークは最適化の変数の役割を担い、値ネットワークは近位演算子を演算する。 第二に、最先端のオフポリシーアルゴリズムでよく用いられる2つの値関数を利用して、ブートストラップによる行動価値の推定を改善し、計算資源の増大を抑える。 さらに,標準連続制御RLベンチマークにおいて,最先端アルゴリズムよりも高い性能向上を示す。

This paper introduces two simple techniques to improve off-policy Reinforcement Learning (RL) algorithms. First, we formulate off-policy RL as a stochastic proximal point iteration. The target network plays the role of the variable of optimization and the value network computes the proximal operator. Second, we exploits the two value functions commonly employed in state-of-the-art off-policy algorithms to provide an improved action value estimate through bootstrapping with limited increase of computational resources. Further, we demonstrate significant performance improvement over state-of-the-art algorithms on standard continuous-control RL benchmarks.
翻訳日:2022-11-03 05:46:49 公開日:2020-08-03
# 条件付き潜在ブロックモデル:自律運転検証のための多変量時系列クラスタリングアプローチ

Conditional Latent Block Model: a Multivariate Time Series Clustering Approach for Autonomous Driving Validation ( http://arxiv.org/abs/2008.00946v1 )

ライセンス: Link先を確認
Etienne Goffinet, Anthony Coutant, Mustapha Lebbah, Hanane Azzag and Lo\"ic Giraldi(参考訳) 自動運転システムの検証は、自動車メーカーが安全な自動運転車を提供するために取り組むべき最大の課題の1つだ。 高複雑性は、車両の多重性、組込みシステム、ユースケース、運転システムが人間ドライバーと同じくらい安全であるために必要な信頼性の非常に高いレベルなど、いくつかの要因に起因している。 これらの問題を回避するために、この膨大な物理条件を再現する大規模なシミュレーションが、ドライバーレス車をテストするために集中的に使用されている。 したがって、検証ステップは、処理すべき多くの時間インデクシングデータを含む膨大なデータを生成する。 この文脈では、機能空間の構造を構築するには、様々なシナリオを解釈する必要がある。 本研究では,高次元時系列解析に適応した新しいコクラスタリング手法を提案する。 FunCLBMモデルは最近提案された機能的遅延ブロックモデルを拡張し、行と列クラスタ間の依存関係構造を作成することができる。 この構造化パーティションは、無関係な特徴を識別しながら、データセットの複数のクラスタリングビューを提供する機能選択方法として機能する。 このワークフローでは、時系列は共通の補間された低次元周波数空間に投影され、射影基底を最適化することができる。 さらに、FunCLBMはブロック次元の縮小と特徴選択を行うことで、各潜在ブロックの定義を洗練する。 本稿では,このモデルを推定するsem-gibbsアルゴリズムと,最適ネスト分割を選択するための専用基準を提案する。 シミュレーションおよび実ケースのRenaultデータセットの実験は、提案ツールの有効性とユースケースの妥当性を示している。

Autonomous driving systems validation remains one of the biggest challenges car manufacturers must tackle in order to provide safe driverless cars. The high complexity stems from several factors: the multiplicity of vehicles, embedded systems, use cases, and the very high required level of reliability for the driving system to be at least as safe as a human driver. In order to circumvent these issues, large scale simulations reproducing this huge variety of physical conditions are intensively used to test driverless cars. Therefore, the validation step produces a massive amount of data, including many time-indexed ones, to be processed. In this context, building a structure in the feature space is mandatory to interpret the various scenarios. In this work, we propose a new co-clustering approach adapted to high-dimensional time series analysis, that extends the standard model-based co-clustering. The FunCLBM model extends the recently proposed Functional Latent Block Model and allows to create a dependency structure between row and column clusters. This structured partition acts as a feature selection method, that provides several clustering views of a dataset, while discriminating irrelevant features. In this workflow, times series are projected onto a common interpolated low-dimensional frequency space, which allows to optimize the projection basis. In addition, FunCLBM refines the definition of each latent block by performing block-wise dimension reduction and feature selection. We propose a SEM-Gibbs algorithm to infer this model, as well as a dedicated criterion to select the optimal nested partition. Experiments on both simulated and real-case Renault datasets shows the effectiveness of the proposed tools and the adequacy to our use case.
翻訳日:2022-11-03 05:46:29 公開日:2020-08-03
# Deep Bayesian Bandits: オンラインパーソナライズされたレコメンデーションを探る

Deep Bayesian Bandits: Exploring in Online Personalized Recommendations ( http://arxiv.org/abs/2008.00727v1 )

ライセンス: Link先を確認
Dalin Guo, Sofia Ira Ktena, Ferenc Huszar, Pranay Kumar Myana, Wenzhe Shi, Alykhan Tejani(参考訳) 継続的学習で訓練されたレコメンダシステムは、アルゴリズムバイアスとしても知られるフィードバックループ問題に悩まされている。 これにより、新たに訓練されたモデルが欲張りに行動し、すでにユーザが関与しているアイテムを好むようになる。 この行動は、パーソナライズされた広告レコメンデーションにおいて特に有害である。 explorationは、ユーザの好みを包含する環境に関する新たな情報を提供することで、この制限に対処することを目的としている。 本研究では,コンテクスト・バンディットとしてディスプレイ広告レコメンデータを定式化し,クリックスルーレートの後方分布から計算可能な方法でサンプリングする必要がある探索手法を実装した。 従来の大規模ディープラーニングモデルは、不確実性の推定をデフォルトでは提供しない。 複数のヘッドとドロップアウトユニットを備えたブートストラップモデルを用いて、予測の不確実性の測定を近似する。 我々は,ユーザ-広告のエンゲージメントに関する公開データセットを用いて,オフラインシミュレーション環境で様々なモデルをベンチマークする。 オフラインシミュレーションと大規模生産トラフィックを伴うオンラインAB設定において,提案したディープベイズ帯域幅アルゴリズムを検証し,探索モデルの有効性を実証した。

Recommender systems trained in a continuous learning fashion are plagued by the feedback loop problem, also known as algorithmic bias. This causes a newly trained model to act greedily and favor items that have already been engaged by users. This behavior is particularly harmful in personalised ads recommendations, as it can also cause new campaigns to remain unexplored. Exploration aims to address this limitation by providing new information about the environment, which encompasses user preference, and can lead to higher long-term reward. In this work, we formulate a display advertising recommender as a contextual bandit and implement exploration techniques that require sampling from the posterior distribution of click-through-rates in a computationally tractable manner. Traditional large-scale deep learning models do not provide uncertainty estimates by default. We approximate these uncertainty measurements of the predictions by employing a bootstrapped model with multiple heads and dropout units. We benchmark a number of different models in an offline simulation environment using a publicly available dataset of user-ads engagements. We test our proposed deep Bayesian bandits algorithm in the offline simulation and online AB setting with large-scale production traffic, where we demonstrate a positive gain of our exploration model.
翻訳日:2022-11-03 05:40:33 公開日:2020-08-03
# 重みベクトルの低損失接続:分布に基づくアプローチ

Low-loss connection of weight vectors: distribution-based approaches ( http://arxiv.org/abs/2008.00741v1 )

ライセンス: Link先を確認
Ivan Anokhin, Dmitry Yarotsky(参考訳) 近年の研究では、過パラメータネットワークの損失面の部分レベル集合が、正確には、あるいはほぼ接続されていることが示されている。 この表面の低損失曲線によって2つの低損失点を接続する手法のパネルを実験的に記述し比較する。 我々の方法は正確さと複雑さが異なる。 ほとんどの手法は「マクロ的」分布の仮定に基づいており、接続される点の詳細な性質に敏感なものもある。 いくつかの方法は「グローバル接続モデル」の事前の訓練を必要とし、任意の一対の点に適用できる。 この手法の精度は一般にエンドポイントの細部に対する複雑さと感度に相関する。

Recent research shows that sublevel sets of the loss surfaces of overparameterized networks are connected, exactly or approximately. We describe and compare experimentally a panel of methods used to connect two low-loss points by a low-loss curve on this surface. Our methods vary in accuracy and complexity. Most of our methods are based on "macroscopic" distributional assumptions, and some are insensitive to the detailed properties of the points to be connected. Some methods require a prior training of a "global connection model" which can then be applied to any pair of points. The accuracy of the method generally correlates with its complexity and sensitivity to the endpoint detail.
翻訳日:2022-11-03 05:40:07 公開日:2020-08-03
# 深層強化学習における情報基盤によるダイナミクスの一般化

Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning ( http://arxiv.org/abs/2008.00614v1 )

ライセンス: Link先を確認
Xingyu Lu, Kimin Lee, Pieter Abbeel, Stas Tiomkin(参考訳) 逐次的な意思決定問題の解決における深層強化学習(RL)の著しい進歩にもかかわらず、RLエージェントはトレーニング環境に過度に適合し、新しい目に見えない環境への適応に苦慮することが多い。 これにより、システムダイナミクスがトレーニング設定から大きく逸脱する現実の状況において、rlの堅牢な適用が防止される。 本研究では,情報論的正規化目標とアニーリングに基づく最適化手法を提案し,rlエージェントの一般化能力の向上に寄与する。 我々は,迷路ナビゲーションからロボットタスクまで,さまざまな領域におけるアプローチの極端な一般化の利点を実証し,エージェントがトレーニングパラメータ分布から10以上の標準偏差をテストできることを示す。 本研究は,タスク解決に欠かせない情報を徐々に取り除き,RLの一般化を改善するための原則的手法を提供し,情報理論と機械学習の確立した関係に着目し,学習から極めて異なるテスト環境への一般化の体系的な研究の扉を開く。

Despite the significant progress of deep reinforcement learning (RL) in solving sequential decision making problems, RL agents often overfit to training environments and struggle to adapt to new, unseen environments. This prevents robust applications of RL in real world situations, where system dynamics may deviate wildly from the training settings. In this work, our primary contribution is to propose an information theoretic regularization objective and an annealing-based optimization method to achieve better generalization ability in RL agents. We demonstrate the extreme generalization benefits of our approach in different domains ranging from maze navigation to robotic tasks; for the first time, we show that agents can generalize to test parameters more than 10 standard deviations away from the training parameter distribution. This work provides a principled way to improve generalization in RL by gradually removing information that is redundant for task-solving; it opens doors for the systematic study of generalization from training to extremely different testing settings, focusing on the established connections between information theory and machine learning.
翻訳日:2022-11-03 05:39:48 公開日:2020-08-03
# 結合条件変分オートエンコーダによる一般化ゼロショット領域適応

Generalized Zero-Shot Domain Adaptation via Coupled Conditional Variational Autoencoders ( http://arxiv.org/abs/2008.01214v1 )

ライセンス: Link先を確認
Qian Wang, Toby P. Breckon(参考訳) ドメイン適応アプローチは、教師付き学習例が入手し易いソースドメインから有用な情報を活用することを目的としており、そのような例が利用可能あるいは限定されていないターゲットドメインの学習問題に対処する。 分類問題において、ドメイン適応は様々な教師付き、教師なし、および半教師付き条件下で研究されている。 しかしながら、ラベル付きサンプルがターゲットドメインクラスのサブセットで利用可能になった場合の一般的な状況は見過ごされている。 本稿では、ゼロショット学習のための意味表現としてラベル付きソースドメインサンプルを扱い、この特定の領域適応問題を一般化ゼロショット学習フレームワーク内で定式化する。 この問題に対して、従来のドメイン適応アプローチやゼロショット学習アルゴリズムは直接適用されない。 この一般化されたゼロショット領域適応問題に対処するために、未確認クラスのための合成対象ドメイン特徴をソースドメインから生成できる、結合条件変分自動エンコーダ(CCVAE)を提案する。 航空セキュリティにおける実世界の応用をシミュレートするx線セキュリティチェックポイントデータセットを含む、3つのドメイン適応データセットに関する広範な実験が行われた。 その結果,既存のベンチマークと実世界の適用性の両方の観点から提案手法の有効性が示された。

Domain adaptation approaches aim to exploit useful information from the source domain where supervised learning examples are easier to obtain to address a learning problem in the target domain where there is no or limited availability of such examples. In classification problems, domain adaptation has been studied under varying supervised, unsupervised and semi-supervised conditions. However, a common situation when the labelled samples are available for a subset of target domain classes has been overlooked. In this paper, we formulate this particular domain adaptation problem within a generalized zero-shot learning framework by treating the labelled source domain samples as semantic representations for zero-shot learning. For this particular problem, neither conventional domain adaptation approaches nor zero-shot learning algorithms directly apply. To address this generalized zero-shot domain adaptation problem, we present a novel Coupled Conditional Variational Autoencoder (CCVAE) which can generate synthetic target domain features for unseen classes from their source domain counterparts. Extensive experiments have been conducted on three domain adaptation datasets including a bespoke X-ray security checkpoint dataset to simulate a real-world application in aviation security. The results demonstrate the effectiveness of our proposed approach both against established benchmarks and in terms of real-world applicability.
翻訳日:2022-11-03 05:38:31 公開日:2020-08-03
# 非対称ビット幅オペランド間の高スループット行列-行列乗算

High Throughput Matrix-Matrix Multiplication between Asymmetric Bit-Width Operands ( http://arxiv.org/abs/2008.00638v1 )

ライセンス: Link先を確認
Dibakar Gope, Jesse Beu, Matthew Mattina(参考訳) 非対称ビット幅オペランド、特に8ビットと4ビットのオペランド間の行列乗算は、ニューラルネットワークや機械学習を含む多くの重要なワークロードの基本的なカーネルになる可能性が高い。 対称ビット幅オペランドに対する既存のsimd行列乗算命令は、他のオペランドのサイズにマッチする狭小オペランドをゼロまたは符号で拡張することで、混合精度のオペランドをサポートすることができるが、いずれかのオペランドの狭小ビット幅の利点を活用できない。 入力(8ビットと4ビットのオペランド)に混合精度を使い、製品値をより狭く16ビットの出力アキュムレータに蓄積し、128ビットのベクトル幅でsimd演算を1命令あたりにより多くのデータ要素を処理し、cpuのレジスタ読み取りと書き込みポート帯域幅を増加させることなく処理スループットとメモリ帯域幅使用率を向上させる新しいsimd行列乗算命令を提案する。 提案した非対称オペランドサイズSIMD命令は,既存の対称オペランドサイズ命令を用いて得られたスループットと比較して,行列乗算のスループットを2倍改善すると同時に,16ビットアキュムレータからの負のオーバーフロー(0.05%)を機械学習ワークロードにもたらす。 非対称オペランドサイズ命令は、CPUの行列乗算スループットを改善するだけでなく、最先端のDNNハードウェアアクセラレータ(例えば、Google TPUのシストリックアレイマイクロアーキテクチャなど)の8ビットから4ビットのオペランド間の乗算および累積(MAC)操作をサポートするのにも有効であり、様々な実装制約に違反することなく、同様のマトリックス乗算性能の向上を提供する。 本稿では,非対称型命令をサポートするために,対称型命令用に設計されたシストリック配列アーキテクチャを変更する方法を示す。

Matrix multiplications between asymmetric bit-width operands, especially between 8- and 4-bit operands are likely to become a fundamental kernel of many important workloads including neural networks and machine learning. While existing SIMD matrix multiplication instructions for symmetric bit-width operands can support operands of mixed precision by zero- or sign-extending the narrow operand to match the size of the other operands, they cannot exploit the benefit of narrow bit-width of one of the operands. We propose a new SIMD matrix multiplication instruction that uses mixed precision on its inputs (8- and 4-bit operands) and accumulates product values into narrower 16-bit output accumulators, in turn allowing the SIMD operation at 128-bit vector width to process a greater number of data elements per instruction to improve processing throughput and memory bandwidth utilization without increasing the register read- and write-port bandwidth in CPUs. The proposed asymmetric-operand-size SIMD instruction offers 2x improvement in throughput of matrix multiplication in comparison to throughput obtained using existing symmetric-operand-size instructions while causing negligible (0.05%) overflow from 16-bit accumulators for representative machine learning workloads. The asymmetric-operand-size instruction not only can improve matrix multiplication throughput in CPUs, but also can be effective to support multiply-and-accumulate (MAC) operation between 8- and 4-bit operands in state-of-the-art DNN hardware accelerators (e.g., systolic array microarchitecture in Google TPU, etc.) and offer similar improvement in matrix multiply performance seamlessly without violating the various implementation constraints. We demonstrate how a systolic array architecture designed for symmetric-operand-size instructions could be modified to support an asymmetric-operand-sized instruction.
翻訳日:2022-11-03 05:38:10 公開日:2020-08-03
# 複数のグラフについて

On The Plurality of Graphs ( http://arxiv.org/abs/2008.00920v1 )

ライセンス: Link先を確認
Nicole Fitzgerald and Jacopo Tagliabue(参考訳) 我々は,マルチエージェント創発的コミュニケーションゲームフレームワークの構造的特徴を変化させる効果を実証的に示すために設計された一連の実験を行う。 具体的には、一連のランダムグラフ生成アルゴリズムに基づいて生成されたグラフの構造として、個々のエージェント(ノード)間の相互作用(エッジ)をモデル化する。 10]で提案された仮説を確認すると,本研究で誘発される変動の2つの要因,すなわち, 1)グラフ生成プロセスと 2)どのエッジがサンプリングされるかによる中心性尺度は,実際に,手前の言語出現のダイナミクスを決定する上で重要な役割を担っている。

We conduct a series of experiments designed to empirically demonstrate the effects of varying the structural features of a multi-agent emergent communication game framework. Specifically, we model the interactions (edges) between individual agents (nodes)as the structure of a graph generated according to a series of known random graph generating algorithms. Confirming the hypothesis proposed in [10], we show that the two factors of variation induced in this work, namely 1) the graph-generating process and 2) the centrality measure according to which edges are sampled, in fact play a significant role in determining the dynamics of language emergence within the population at hand.
翻訳日:2022-11-03 05:37:30 公開日:2020-08-03
# 分散共進化型ganトレーニングの構成要素分析

Analyzing the Components of Distributed Coevolutionary GAN Training ( http://arxiv.org/abs/2008.01124v1 )

ライセンス: Link先を確認
Jamal Toutouh, Erik Hemberg, and Una-May O'Reilly(参考訳) 分散共進化型GAN(Generative Adversarial Network)トレーニングは,GANトレーニングパスの克服に成功している。 これは主に、訓練過程における発電機と判別器の集団の多様性の維持のためである。 ここでは, 重なり合うムーア近傍に組織された空間格子の各セルのサブポピュレーションを共進化させる。 共進化中の多様性に影響を与える2つのアルゴリズムコンポーネントの性能への影響について検討し,各サブ人口内の性能ベース選択/置換と,重複する地域間のソリューション(ネットワーク)の移動によるコミュニケーションについて検討する。 MNISTデータセットの実験では、これらの2つのコンポーネントの組み合わせが最良の生成モデルを提供することがわかった。 さらに, サブポピュレーションに選択を適用せずに移行する手法は, セル間の通信を使わずに選択することで性能を低下させる。

Distributed coevolutionary Generative Adversarial Network (GAN) training has empirically shown success in overcoming GAN training pathologies. This is mainly due to diversity maintenance in the populations of generators and discriminators during the training process. The method studied here coevolves sub-populations on each cell of a spatial grid organized into overlapping Moore neighborhoods. We investigate the impact on the performance of two algorithm components that influence the diversity during coevolution: the performance-based selection/replacement inside each sub-population and the communication through migration of solutions (networks) among overlapping neighborhoods. In experiments on MNIST dataset, we find that the combination of these two components provides the best generative models. In addition, migrating solutions without applying selection in the sub-populations achieves competitive results, while selection without communication between cells reduces performance.
翻訳日:2022-11-03 05:37:21 公開日:2020-08-03