このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201228となっている論文です。

PDF登録状況(公開日: 20201228)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子マルコフ圏における逆、分解、ベイズ反転

Inverses, disintegrations, and Bayesian inversion in quantum Markov categories ( http://arxiv.org/abs/2001.08375v3 )

ライセンス: Link先を確認
Arthur J. Parzygnat(参考訳) 量子マルコフ圏を、量子確率と量子情報理論を含むように、確率論と情報理論に合成的アプローチを洗練・拡張する構造として導入する。 このより広い文脈で、可逆性と統計的推論の3つのより一般的な概念(通常の逆数、分解、ベイズ的逆数)を連続的に分析する。 それぞれがある種の部分圏に対する後者の厳密な特殊例であることを証明し、過程を逆転する一般化としてのベイズ反転のカテゴリー的基礎を提供する。 我々はほぼすべての(すなわち)同値のカテゴリーと$c^*$-代数的概念を統一する。 その結果, s-正の圏に対する普遍的非ブロードキャスティング定理, モジュラー圏に対する一般化フィッシャー・ニーマン分解定理, 誤り訂正符号と分解との関係, ベイズ逆変換と梅垣の非可換十分性の関係など多くの結果が得られた。

We introduce quantum Markov categories as a structure that refines and extends a synthetic approach to probability theory and information theory so that it includes quantum probability and quantum information theory. In this broader context, we analyze three successively more general notions of reversibility and statistical inference: ordinary inverses, disintegrations, and Bayesian inverses. We prove that each one is a strictly special instance of the latter for certain subcategories, providing a categorical foundation for Bayesian inversion as a generalization of reversing a process. We unify the categorical and $C^*$-algebraic notions of almost everywhere (a.e.) equivalence. As a consequence, we prove many results including a universal no-broadcasting theorem for S-positive categories, a generalized Fisher--Neyman factorization theorem for a.e. modular categories, a relationship between error correcting codes and disintegrations, and the relationship between Bayesian inversion and Umegaki's non-commutative sufficiency.
翻訳日:2023-06-06 09:02:59 公開日:2020-12-28
# 量子命令による量子コンピュータのプログラミング

Programming a quantum computer with quantum instructions ( http://arxiv.org/abs/2001.08838v3 )

ライセンス: Link先を確認
Morten Kjaergaard, Mollie E. Schwartz, Ami Greene, Gabriel O. Samach, Andreas Bengtsson, Michael O'Keeffe, Christopher M. McNally, Jochen Braum\"uller, David K. Kim, Philip Krantz, Milad Marvian, Alexander Melville, Bethany M. Niedzielski, Youngkyu Sung, Roni Winik, Jonilyn Yoder, Danna Rosenberg, Kevin Obenland, Seth Lloyd, Terry P. Orlando, Iman Marvian, Simon Gustavsson, William D. Oliver(参考訳) プログラムの定義に用いられる命令と命令が動作する入力データとの等価性は、古典的なコンピュータアーキテクチャとプログラミングの基本原理である。 古典的データを量子状態に置き換えることで、多くのアプリケーションに対してスケーリングの利点を持つ基本的な新しい計算能力を実現できる。 しかしながら、これらのモデルでは、量子データは古典的情報のみを使用してコンパイルされるゲートの集合によって変換される。 従来の量子コンピューティングモデルは命令-データ対称性を破り、古典的な命令と量子データは直接交換できない。 本研究では,量子データ上で量子命令を実行するために密度行列指数プロトコルを用いる。 このアプローチでは、古典的に定義されたゲートの固定列は、補助量子命令状態に一意に依存する演算を実行する。 我々の実証は、2つの可変超伝導トランスモン量子ビットを用いて実装された99.7%の忠実度制御相ゲートに依存している。 量子命令の利用は、コストのかかるトモグラフィ状態の再構築と再コンパイルの必要性を排除し、量子主成分分析、絡み合いスペクトルの測定、普遍的な量子エミュレーションを含む幅広いアルゴリズムの指数的な高速化を可能にする。

The equivalence between the instructions used to define programs and the input data on which the instructions operate is a basic principle of classical computer architectures and programming. Replacing classical data with quantum states enables fundamentally new computational capabilities with scaling advantages for many applications, and numerous models have been proposed for realizing quantum computation. However, within each of these models, the quantum data are transformed by a set of gates that are compiled using solely classical information. Conventional quantum computing models thus break the instruction-data symmetry: classical instructions and quantum data are not directly interchangeable. In this work, we use a density matrix exponentiation protocol to execute quantum instructions on quantum data. In this approach, a fixed sequence of classically-defined gates performs an operation that uniquely depends on an auxiliary quantum instruction state. Our demonstration relies on a 99.7% fidelity controlled-phase gate implemented using two tunable superconducting transmon qubits, which enables an algorithmic fidelity surpassing 90% at circuit depths exceeding 70. The utilization of quantum instructions obviates the need for costly tomographic state reconstruction and recompilation, thereby enabling exponential speedup for a broad range of algorithms, including quantum principal component analysis, the measurement of entanglement spectra, and universal quantum emulation.
翻訳日:2023-06-06 04:50:35 公開日:2020-12-28
# デジタル警察における信頼の構築: コミュニティ警察アプリのスコーピングレビュー

Building trust in digital policing: A scoping review of community policing apps ( http://arxiv.org/abs/2006.07140v2 )

ライセンス: Link先を確認
Camilla Elphick, Richard Philpot, Min Zhang, Avelie Stuart, Zoe Walkington, Lara Frumkin, Graham Pike, Kelly Gardner, Mark Lacey, Mark Levine, Blaine Price, Arosha Bandara and Bashar Nuseibeh(参考訳) 警察の信頼度に対する認識は、市民が警察と協力する意思と結びついている。 信頼は、説明責任メカニズムを導入するか、あるいはデジタル的に達成できる共有警察/市民アイデンティティを拡大することによって育むことができる。 デジタルメカニズムは、多様なコミュニティの保護、関与、安心、情報提供、強化のために設計することもできる。 我々は、既存の240のオンライン市民警察および関連するサードパーティ通信アプリを体系的にスコープし、彼らがコミュニティのニーズに合うか、そしてビジョンを警察するかを検討した。 82%が登録やログインの詳細が必要で、55%が匿名の報告が可能で、10%が理解可能なプライバシーポリシーを提供していた。 警察アプリは安心し、保護し、ユーザーに通知する傾向があり、一方、サードパーティアプリはユーザーを力づけようとする傾向が強かった。 設計の貧弱なアプリが不信を増幅し、警察の努力を損なうリスクを負うため、私たちは、目的の警察/市民アプリに高品質で適合したアプリの開発を確実にするための設計上の考慮事項を12つ提案します。

Perceptions of police trustworthiness are linked to citizens' willingness to cooperate with police. Trust can be fostered by introducing accountability mechanisms, or by increasing a shared police/citizen identity, both which can be achieved digitally. Digital mechanisms can also be designed to safeguard, engage, reassure, inform, and empower diverse communities. We systematically scoped 240 existing online citizen-police and relevant third-party communication apps, to examine whether they sought to meet community needs and policing visions. We found that 82% required registration or login details, 55% of those with a reporting mechanism allowed for anonymous reporting, and 10% provided an understandable privacy policy. Police apps were more likely to seek to reassure, safeguard and inform users, while third-party apps were more likely to seek to empower users. As poorly designed apps risk amplifying mistrust and undermining policing efforts, we suggest 12 design considerations to help ensure the development of high quality/fit for purpose Police/Citizen apps.
翻訳日:2023-05-15 22:22:11 公開日:2020-12-28
# デコイ状態bb84 qkdプロトコルパラメータの最適化

Optimizing the Decoy-State BB84 QKD Protocol Parameters ( http://arxiv.org/abs/2006.15962v2 )

ライセンス: Link先を確認
Thomas Attema, Joost Bosman, Niels Neumann(参考訳) QKD実装の性能は、基礎となるセキュリティ分析の厳密さによって決定される。 特に、セキュリティ分析は、鍵レート、すなわち、時間単位ごとに分散できる暗号鍵材料の量を決定する。 今日では、様々なQKDプロトコルのセキュリティ分析がよく理解されている。 デコイ状態の数やその強度といった最適なプロトコルパラメータは、非線形最適化問題を解くことによって得られることが知られている。 この最適化問題の複雑さは、典型的には多くのヒューリスティックな仮定によって処理される。 例えば、デコイ状態の数は1つまたは2つに制限され、デコイ強度のうち1つが固定値に設定され、真空状態は安全な鍵レートに限ってのみ寄与すると仮定されるため無視される。 これらの仮定は最適化問題を単純化し、探索空間のサイズを大幅に削減する。 しかし、それらはセキュリティ解析を非タイトにし、結果として準最適性能をもたらす。 本研究では,最適化問題を記述する線形プログラムと非線形プログラムの両方を用いて,より厳密なアプローチを行う。 提案手法は,Decoy-State BB84プロトコルに着目し,ヒューリスティックな仮定を省略し,より優れたプロトコルパラメータを用いたより厳密なセキュリティ解析を実現する。 ここでは,Decoy-State BB84 QKDプロトコルの性能向上を示す。 さらに,改良された最適化フレームワークは,計算資源が限られている場合でも,ヒューリスティックな仮定をすることなく性能最適化問題の複雑性を処理できることを示した。

The performance of a QKD implementation is determined by the tightness of the underlying security analysis. In particular, the security analyses determines the key-rate, i.e., the amount of cryptographic key material that can be distributed per time unit. Nowadays, the security analyses of various QKD protocols are well understood. It is known that optimal protocol parameters, such as the number of decoy states and their intensities, can be found by solving a nonlinear optimization problem. The complexity of this optimization problem is typically handled by making an number of heuristic assumptions. For instance, the number of decoy states is restricted to only one or two, with one of the decoy intensities set to a fixed value, and vacuum states are ignored as they are assumed to contribute only marginally to the secure key-rate. These assumptions simplify the optimization problem and reduce the size of search space significantly. However, they also cause the security analysis to be non-tight, and thereby result in sub-optimal performance. In this work, we follow a more rigorous approach using both linear and non-linear programs describing the optimization problem. Our approach, focusing on the Decoy-State BB84 protocol, allows heuristic assumptions to be omitted, and therefore results in a tighter security analysis with better protocol parameters. We show an improved performance for the Decoy-State BB84 QKD protocol, demonstrating that the heuristic assumptions typically made are too restrictive. Moreover, our improved optimization frameworks shows that the complexity of the performance optimization problem can also be handled without making heuristic assumptions, even with limited computational resources available.
翻訳日:2023-05-12 03:48:34 公開日:2020-12-28
# 離散時間結晶のインスタントオン様励起

An instanton-like excitation of a discrete time crystal ( http://arxiv.org/abs/2007.08348v3 )

ライセンス: Link先を確認
Xiaoqin Yang and Zi Cai(参考訳) 自発的対称性の破れと初等励起は、互いに密接な関係を持つ凝縮物質物理学の柱の2つである。 対称性とその自発的破れは、初等励起のダイナミクスとスペクトルを制御するだけでなく、その基礎構造を決定する。 本稿では,非平衡量子物質の励起特性,時間変換対称性を自発的に破る離散時間結晶相について検討する。 このような興味深い対称性の破れは、2つの「縮退した」時間結晶相の間のトンネルを表すインスタントンのような励起を可能にする。 さらに、非平衡統計物理学における臨界減速現象の思い出である「サイズ」が分岐する動的遷移点も観察する。 提案方式の位相ダイナミクスを理解するために現象論的理論が提案され, 実験的実現と検出も議論されている。

Spontaneous symmetry breaking and elementary excitation are two of the pillars of condensed matter physics that are closely related to each other. The symmetry and its spontaneous breaking not only control the dynamics and spectrum of elementary excitations, but also determine their underlying structures. In this paper, we study the excitation properties of a non-equilibrium quantum matter: a discrete time crystal phase that spontaneously breaks the temporal translational symmetry. It is shown that such an intriguing symmetry breaking allows an instanton-like excitation that represents a tunneling between two "degenerate" time crystal phases. Furthermore, we also observe a dynamical transition point at which the instanton "size" diverges, a reminiscence of the critical slowing down phenomenon in nonequilibrium statistic physics. A phenomenological theory has been proposed to understand the phase dynamics of the proposed system and the experimental realization and detection have also been discussed.
翻訳日:2023-05-09 07:01:23 公開日:2020-12-28
# ローレンツ共分散と$c \rightarrow \infty $ limitを持つ擬エルミット量子力学に対する群論的アプローチ

Group Theoretical Approach to Pseudo-Hermitian Quantum Mechanics with Lorentz Covariance and $c \rightarrow \infty $ Limit ( http://arxiv.org/abs/2009.07499v2 )

ライセンス: Link先を確認
Suzana Bedi\'c, Otto C. W. Kong and Hock King Ting(参考訳) 本稿では、ローレンツ対称性の下でミンコフスキー四ベクトルとして変換される位置および運動量作用素を持つハイゼンベルク・ワイル対称性からの群理論的構成に基づくローレンツ共変量子力学の定式化について述べる。 基本表現は、本質的に正則表現の既約成分であるコヒーレント状態表現(英語版)(coherent state representation)として識別され、群 $C^*$-algebra の拡張の一致する表現は可観測体の代数を与える。 この定式化の重要な特徴は、ユニタリではなく擬似ユニタリであり、ミンコフスキー時空表現と全く同じ意味である。 擬エルミート量子力学の言語は、状態ベクトルの空間上のミンコフスキー計量の真の表象として得られる計量作用素を用いて、アスペクトの明確な図解として採用される。 明示的な波動関数の記述は、変数領域の制限なしに与えられるが、有限積分内積を持つ。 関連する共変共変振動子フォック状態基底は、ユークリッド位置と任意の「次元」の運動量作用素を持つ調和振動子のものと正確に類似したすべての標準特性を持つ。 ローレンツ対称性のガリレオ極限と古典極限は、位相空間の対称性を通じて記述される力学を含む代数とその表現の適切な対称性収縮を通じて厳密に検索される。

We present in the article the formulation of a version of Lorentz covariant quantum mechanics based on a group theoretical construction from a Heisenberg-Weyl symmetry with position and momentum operators transforming as Minkowski four-vectors under the Lorentz symmetry. The basic representation is identified as a coherent state representation, essentially an irreducible component of the regular representation, with the matching representation of an extension of the group $C^*$-algebra giving the algebra of observables. The key feature of the formulation is that it is not unitary but pseudo-unitary, exactly in the same sense as the Minkowski spacetime representation. The language of pseudo-Hermitian quantum mechanics is adopted for a clear illustration of the aspect, with a metric operator obtained as really the manifestation of the Minkowski metric on the space of the state vectors. Explicit wavefunction description is given without any restriction of the variable domains, yet with a finite integral inner product. The associated covariant harmonic oscillator Fock state basis has all the standard properties in exact analog to those of a harmonic oscillator with Euclidean position and momentum operators of any `dimension'. Galilean limit of the Lorentz symmetry and the classical limit are retrieved rigorously through appropriate symmetry contractions of the algebra and its representation, including the dynamics described through the symmetry of the phase space.
翻訳日:2023-05-02 10:42:57 公開日:2020-12-28
# 変調相関量子電子波束と結合電子状態との共振相互作用

Resonant Interaction of Modulation-correlated Quantum Electron Wavepackets with Bound Electron States ( http://arxiv.org/abs/2010.15756v3 )

ライセンス: Link先を確認
Avraham Gover, Bin Zhang, Du Ran, Reuven Ianconescu, Aharon Friedman, Jacob Scheuer, Amnon Yariv(参考訳) 自由電子境界電子共鳴相互作用 (feberi) は、周期的な密度結合した自由電子と量子2次系との共鳴非弾性相互作用である。 本稿では、電子が量子電子波束(QEW)として表されるモデルにおいて、この相互作用に対する包括的な相対論的量子力学的理論を示す。 解析により,QEWの波動粒子双対性,点-粒子様および波状相互作用状態,および物質との相互作用における波動関数次元の物理的現実性,密度変調特性を明らかにした。 レーザービーム変調多重QEWの変調位相相関解析を行った。 電子波動関数のボルン解釈に基づいて、超放射に類似した2乗電子の数に比例する量子遷移の増大を予測する。

Free-Electron Bound-Electron Resonant Interaction (FEBERI) is the resonant inelastic interaction of periodically density-bunched free electrons with a quantum two level system. We present a comprehensive relativistic quantum mechanical theory for this interaction in a model in which the electrons are represented as quantum electron wavepackets (QEW). The analysis reveals the wave-particle duality nature of the QEW, delineating the point-particle-like and wave-like interaction regimes, and manifesting the physical reality of the wavefunction dimensions and its density modulation characteristics in interaction with matter. The analysis comprehends the case of laser-beam-modulated multiple QEWs that are modulation-phase correlated. Based on the Born interpretation of the electron wavefunction we predict quantum transitions enhancement proportional to the number of electrons squared, analogous to superradiance.
翻訳日:2023-04-27 00:39:22 公開日:2020-12-28
# 連続射影測定における量子ダイナミクス:非エルミート的記述と連続空間極限

Quantum Dynamics under continuous projective measurements: non-Hermitian description and the continuous space limit ( http://arxiv.org/abs/2012.01196v3 )

ライセンス: Link先を確認
Varun Dubey and Cedric Bernardin and Abhishek Dhar(参考訳) 繰り返し測定プロトコルの枠組みにおいて、特定の状態における量子システムの到来時刻の問題は考慮され、特に連続測定の限界について論じる。 系-検出器カップリングの特定の選択に対して、ゼノ効果は避けられ、非エルミート有効ハミルトニアンによりシステムを効果的に記述できることが示されている。 特定の例として、特定の場所での位置測定の対象となる1次元格子上の量子粒子の進化を考える。 対応する非エルミート波動関数進化方程式を解くことで、生存確率と最初の到達時間分布に関する解析的な閉形式結果を示す。 最後に, 消滅格子間隔の限界について考察し, 検出器部位に複雑なロビン境界条件を持つ自由シュロディンガー方程式を用いて粒子が進化する連続体記述を導くことを示した。 この力学に関するいくつかの興味深い物理結果が提示される。

The problem of the time of arrival of a quantum system in a specified state is considered in the framework of the repeated measurement protocol and in particular the limit of continuous measurements is discussed. It is shown that for a particular choice of system-detector coupling, the Zeno effect is avoided and the system can be described effectively by a non-Hermitian effective Hamiltonian. As a specific example we consider the evolution of a quantum particle on a one-dimensional lattice that is subjected to position measurements at a specific site. By solving the corresponding non-Hermitian wave function evolution equation, we present analytic closed-form results on the survival probability and the first arrival time distribution. Finally we discuss the limit of vanishing lattice spacing and show that this leads to a continuum description where the particle evolves via the free Schrodinger equation with complex Robin boundary conditions at the detector site. Several interesting physical results for this dynamics are presented.
翻訳日:2023-04-22 07:56:32 公開日:2020-12-28
# コヒーレント状態の幾何学的集合をもつ高精度ガウス過程トモグラフィ

Highly accurate Gaussian process tomography with geometrical sets of coherent states ( http://arxiv.org/abs/2012.14177v1 )

ライセンス: Link先を確認
Yong Siah Teo, Kimin Park, Seongwook Shin, Hyunseok Jeong, Petr Marek(参考訳) 本稿では,出力状態ヘテロダイン測定による単一モードガウス量子過程の再構成に最適に近い入力コヒーレント状態の集合を選択するための実用的な戦略を提案する。 まず,一般プロセストモグラフィと大規模データの再構成精度を定量化する平均二乗誤差の解析式を導出する。 このような表現を用いることで、トレース保存制約を緩和し、測定データや未知の真のプロセスとは無関係な入力コヒーレント状態のエラー低減セット -- 幾何学的集合 -- を導入する。 このような入力コヒーレント状態からのプロセス再構成は、そのプロセスに関する完全な知識で選択されたコヒーレント状態の最良のセットと同じくらい正確であることを示す。 これにより、合理的に低エネルギーなコヒーレント状態であっても、ガウス過程を効率的に特徴づけることができる。 トレース保存を行わない幾何学的戦略は, 変位成分が大きすぎる場合を除き, 典型的なパラメータ範囲の任意のトレース保存ガウス過程に対する非適応的戦略のすべてを打ち負かすことを数値的に観察する。

We propose a practical strategy for choosing sets of input coherent states that are near-optimal for reconstructing single-mode Gaussian quantum processes with output-state heterodyne measurements. We first derive analytical expressions for the mean squared-error that quantifies the reconstruction accuracy for general process tomography and large data. Using such expressions, upon relaxing the trace-preserving constraint, we introduce an error-reducing set of input coherent states that is independent of the measurement data or the unknown true process -- the geometrical set. We numerically show that process reconstruction from such input coherent states is nearly as accurate as that from the best possible set of coherent states chosen with the complete knowledge about the process. This allows us to efficiently characterize Gaussian processes even with reasonably low-energy coherent states. We numerically observe that the geometrical strategy without trace preservation beats all nonadaptive strategies for arbitrary trace-preserving Gaussian processes of typical parameter ranges so long as the displacement components are not too large.
翻訳日:2023-04-19 01:58:54 公開日:2020-12-28
# 量子源圧縮から量子熱力学へ

From Quantum Source Compression to Quantum Thermodynamics ( http://arxiv.org/abs/2012.14143v1 )

ライセンス: Link先を確認
Zahra Baghali Khanian(参考訳) この論文は量子情報理論の分野における問題に対処する。 論文の第1部は、一般的な量子源モデルとその圧縮の具体的な定義で開かれ、各章は、初期定義された一般モデルの特別な場合として、特定の源モデルの圧縮を扱う。 まず、シュマッカーの純およびアンサンブル源やその他の混合状態アンサンブルモデルのような、以前に研究された全てのモデルを含む一般的な混合状態源の最適圧縮速度を求める。 可視およびブラインド・シューマッハのアンサンブルモデルの補間として、エンタングルメントと量子速度の最適圧縮率領域を求める。 その後,slepian-wolf問題の古典量子変動と量子状態再分配のアンサンブルモデルについて検討し,対応する境界に現れる関数の連続性に一致した,コピー単位の忠実度と1文字到達可能および逆境界を考慮した最適圧縮速度を求める。 論文の第2部は、量子熱力学の情報理論的な視点を中心に取り上げている。 まず、複数の非可換電荷を持つ量子系の資源理論の観点から始める。 続いて,この資源理論の枠組みを適用して,主系,熱浴,電池からなる複数の非可換保存量を有する従来の熱力学構成について検討した。 この系に対する熱力学の法則を述べ、純粋に量子効果が系のいくつかの変換で起こること、すなわち、系の最終状態と熱浴の間に量子的相関が存在する場合にのみ、いくつかの変換が実現可能であることを示す。

This thesis addresses problems in the field of quantum information theory. The first part of the thesis is opened with concrete definitions of general quantum source models and their compression, and each subsequent chapter addresses the compression of a specific source model as a special case of the initially defined general models. First, we find the optimal compression rate of a general mixed state source which includes as special cases all the previously studied models such as Schumacher's pure and ensemble sources and other mixed state ensemble models. For an interpolation between the visible and blind Schumacher's ensemble model, we find the optimal compression rate region for the entanglement and quantum rates. Later, we study the classical-quantum variation of the celebrated Slepian-Wolf problem and the ensemble model of quantum state redistribution for which we find the optimal compression rate considering per-copy fidelity and single-letter achievable and converse bounds matching up to continuity of functions which appear in the corresponding bounds. The second part of the thesis revolves around information theoretical perspective of quantum thermodynamics. We start with a resource theory point of view of a quantum system with multiple non-commuting charges. Subsequently, we apply this resource theory framework to study a traditional thermodynamics setup with multiple non-commuting conserved quantities consisting of a main system, a thermal bath and batteries to store various conserved quantities of the system. We state the laws of the thermodynamics for this system, and show that a purely quantum effect happens in some transformations of the system, that is, some transformations are feasible only if there are quantum correlations between the final state of the system and the thermal bath.
翻訳日:2023-04-19 01:58:18 公開日:2020-12-28
# 時間的ゴーストイメージングを用いた量子鍵分布の量子ハッキング知覚

Quantum hacking perceiving for quantum key distribution using temporal ghost imaging ( http://arxiv.org/abs/2012.14062v1 )

ライセンス: Link先を確認
Fang-Xiang Wang, Juan Wu, Wei Chen, Shuang Wang, De-Yong He, Zhen-Qiang Yin, Chang-Ling Zou, Guang-Can Guo, Zheng-Fu Han(参考訳) 量子鍵分布(QKD)は、量子力学を用いてリモートユーザ間でセキュアな鍵ビットを生成する。 しかし、理論モデルと実践的実現のギャップは、盗聴者が秘密鍵を傍受する機会を与える。 量子ハッキング(quantum hacking)として知られる最も悪質な攻撃は、QKDシステムのサイドチャネルの抜け穴を用いた測定結果に重大な差がない攻撃である。 量子信号、量子チャネル、およびQKDシステムのフルタイムスケールの特徴を抽出することで、悪意のある攻撃を打倒するための正規のユーザーにさらなる能力を提供できる。 時間的ゴーストイメージング(TGI)手法を初めて提案し、時間的指紋による量子ハッキングを知覚し、その妥当性を実験的に検証する。 このスキームは、信号とシステムの新しい視点からQKDの実践的セキュリティを促進するための共通のアプローチを示す。

Quantum key distribution (QKD) can generate secure key bits between remote users with quantum mechanics. However, the gap between the theoretical model and practical realizations gives eavesdroppers opportunities to intercept secret key. The most insidious attacks, known as quantum hacking, are the ones with no significant discrepancy of the measurement results using side-channel loopholes of QKD systems. Depicting full-time-scale characteristics of the quantum signals, the quantum channel, and the QKD system can provide legitimate users extra capabilities to defeat malicious attacks. For the first time, we propose the method exploring temporal ghost imaging (TGI) scheme to perceive quantum hacking with temporal fingerprints and experimentally verify its validity. The scheme presents a common approach to promote QKD's practical security from a new perspective of signals and systems.
翻訳日:2023-04-19 01:57:24 公開日:2020-12-28
# 量子デバイスにおける量子ウォーク過程

Quantum walk processes in quantum devices ( http://arxiv.org/abs/2012.14386v1 )

ライセンス: Link先を確認
Anandu Kalleri Madhu, Alexey A. Melnikov, Leonid E. Fedichkin, Alexander Alodjants, Ray-Kuang Lee(参考訳) 量子ウォーク過程は多くの量子アルゴリズムにおいて基本的なサブルーチンを表し、物理現象の研究において重要な役割を果たす。 量子粒子、光子、電子は、自然にフォトニック導波路や量子ドット系の量子ウォークをシミュレートするのに適している。 単一のレジスタにおけるqubits fidelityとqubits numberが改善され、量子ウォークシミュレーションが大幅に改善される可能性がある。 しかし、量子ウォークを量子レジスターでシミュレートする効率的な方法はまだ検討する必要がある。 ここでは、IBM Qデバイス上で量子ウォークを効率的に実装する様々な可能性について研究する。 グラフ空間から量子レジスタ空間へのマッピングを行い、IBM Q量子コンピュータ上でシミュレーションを行う。 量子ウォークは古典的にシミュレートされた解と比較される。 この研究により、ランダムウォークを組み込んだアルゴリズムに量子優位を示すibm qコンピュータの量子ウォークパラダイムを検討する。 量子ウォークシミュレーションのソリューションを提供すると、量子ウォークに基づく応用量子アルゴリズムへのルートが開く。

The quantum walk process represents a basic subroutine in many quantum algorithms and plays an important role in studying physical phenomena. Quantum particles, photons and electrons, are naturally suited for simulating quantum walks in systems of photonic waveguides and quantum dots. With an increasing improvement in qubits fidelity and qubits number in a single register, there is also potential to substantially improve quantum walks simulations. However, efficient ways to simulate quantum walks in qubit registers still has to be explored. Here different possibilities to efficiently implement quantum walks on IBM Q devices are studied. A mapping from a graph space to quantum register space is provided, and simulations on IBM Q quantum computer are performed. Implemented quantum walks are compared against classically simulated solutions. With this work we examine quantum walks paradigm for IBM Q computer which may exhibit quantum advantage for the algorithms incorporating random walk. Provided solution to quantum walk simulation opens a route to applied quantum algorithms based on quantum walks.
翻訳日:2023-04-19 01:50:21 公開日:2020-12-28
# QBiansは存在しない

QBians Do Not Exist ( http://arxiv.org/abs/2012.14375v1 )

ライセンス: Link先を確認
Christopher A. Fuchs, Blake C. Stacey(参考訳) John Earman の論文 "Quantum Bayesianism Assessed" [The Monist 102 (2019), 403--423] に言及し、量子 '`解釈'' のアーマン批判と QBism として知られる解釈は互いにほとんど関係がないという多くの例を描いている。

We remark on John Earman's paper ``Quantum Bayesianism Assessed'' [The Monist 102 (2019), 403--423], illustrating with a number of examples that the quantum ``interpretation'' Earman critiques and the interpretation known as QBism have almost nothing to do with each other.
翻訳日:2023-04-19 01:50:06 公開日:2020-12-28
# Twitterデータに基づく日本語主観的幸福度指標について

On a Japanese Subjective Well-Being Indicator Based on Twitter data ( http://arxiv.org/abs/2012.14372v1 )

ライセンス: Link先を確認
Tiziana Carpi, Airo Hino, Stefano Maria Iacus, Giuseppe Porro(参考訳) 本研究は,Twitterデータに基づく日本における主観的幸福度指標であるSWB-J指数を初めて提示する。 この指標は主観的幸福感の8次元で構成され、人間の教師付き感情分析を用いてtwitterデータに依存すると推定される。 その後、この指標をイタリアのSWB-I指数と比較し、類似点や文化的差異の検証を行う。 さらに, 構造方程式モデルを用いて, 国の経済状態および健康状態が潜在性変数に与える影響と, この潜在性次元がswb-jおよびswb-i指標にどのように影響するかを仮定する。 予想通り、経済と健康の福祉は、twitterベースの指標が捉えた多次元の幸福の側面の1つにすぎないことが判明した。

This study presents for the first time the SWB-J index, a subjective well-being indicator for Japan based on Twitter data. The index is composed by eight dimensions of subjective well-being and is estimated relying on Twitter data by using human supervised sentiment analysis. The index is then compared with the analogous SWB-I index for Italy, in order to verify possible analogies and cultural differences. Further, through structural equation models, a causal assumption is tested to see whether the economic and health conditions of the country influence the well-being latent variable and how this latent dimension affects the SWB-J and SWB-I indicators. It turns out that, as expected, the economic and health welfare is only one aspect of the multidimensional well-being that is captured by the Twitter-based indicator.
翻訳日:2023-04-19 01:49:57 公開日:2020-12-28
# 近距離量子デバイスにおける絡み合いの検出と定量化

Detecting and quantifying entanglement on near-term quantum devices ( http://arxiv.org/abs/2012.14311v1 )

ライセンス: Link先を確認
Kun Wang, Zhixin Song, Xuanqiang Zhao, Zihe Wang, Xin Wang(参考訳) 量子絡み合いは量子技術の鍵となる資源であり、その量子化は現在のノイズ中間スケール量子(NISQ)時代の重要な課題である。 本稿では, ハイブリッド量子古典計算と準確率分解を組み合わせて, 近距離量子デバイス上での絡み検出と量子化を行う変分量子エンタングルメント検出(VED)と変分対数近似推定(VLNE)という2つの変分量子アルゴリズムを提案する。 VEDは正の写像基準を利用し、以下のように機能する。 まず、正の写像を、短期量子デバイスで実装可能な量子演算の組み合わせに分解する。 そして、ターゲットの状態上でこれらの実装可能な操作を実行し、出力状態の平均化によって得られる最終状態の最小固有値を変動的に推定する。 平均を計算するために決定論的および確率論的手法を提案する。 最終的に、最適化された最小固有値が負であれば、ターゲット状態は絡み合っていると断言する。 VLNEは、パウリ語への変換写像の線形分解と、最近提案されたトレース距離推定アルゴリズムに基づいている。 これは、よく知られた対数的負の絡み合いの測度を変動的に推定し、短期量子デバイス上での絡み合いの定量化に応用できる。 ベル状態、等方性状態、ブリューア状態に関する実験的および数値的な結果は、提案した絡み検出および定量化法の妥当性を示す。

Quantum entanglement is a key resource in quantum technology, and its quantification is a vital task in the current Noisy Intermediate-Scale Quantum (NISQ) era. This paper combines hybrid quantum-classical computation and quasi-probability decomposition to propose two variational quantum algorithms, called Variational Entanglement Detection (VED) and Variational Logarithmic Negativity Estimation (VLNE), for detecting and quantifying entanglement on near-term quantum devices, respectively. VED makes use of the positive map criterion and works as follows. Firstly, it decomposes a positive map into a combination of quantum operations implementable on near-term quantum devices. It then variationally estimates the minimal eigenvalue of the final state, obtained by executing these implementable operations on the target state and averaging the output states. Deterministic and probabilistic methods are proposed to compute the average. At last, it asserts that the target state is entangled if the optimized minimal eigenvalue is negative. VLNE builds upon a linear decomposition of the transpose map into Pauli terms and the recently proposed trace distance estimation algorithm. It variationally estimates the well-known logarithmic negativity entanglement measure and could be applied to quantify entanglement on near-term quantum devices. Experimental and numerical results on the Bell state, isotropic states, and Breuer states show the validity of the proposed entanglement detection and quantification methods.
翻訳日:2023-04-19 01:48:57 公開日:2020-12-28
# 閉じた片方向の均一な文字列の再検討

The closed piecewise uniform string revisited ( http://arxiv.org/abs/2012.14301v1 )

ライセンス: Link先を確認
M. Bordag and I.G. Pirozhenko(参考訳) 真空エネルギーの研究のために導入された複合弦モデル(30年前)を再考する。 モデルはスカラー場からなり、張力と質量密度の異なる片方向の一定区間からなる弦の横振動を記述し、接合部を横断する光の速度を保っている。 我々は、移動行列とチェビシェフ多項式を用いてスペクトルを考えることにより、固有不等式に対する閉公式を得る。 真空エネルギーと自由エネルギーと,このシステムのエントロピーを,輪郭積分とHurwitz zeta関数の2つのアプローチで計算する。 後者は多項式上の有限和の項による表現をもたらす。 例えば、熱核係数で表される高温膨張など、いくつかの制限ケースも考慮されている。 真空エネルギーは紫外線の発散がなく、対応する熱核係数$a_1$は光速の一致によりゼロとなる。 これは、等屈折境界条件を持つマクロ電磁力学における同様の状況と平行である。

We reconsider the composite string model introduced {30 years ago} to study the vacuum energy. The model consists of a scalar field, describing the transversal vibrations of a string consisting of piecewise constant sections with different tensions and mass densities, keeping the speed of light constant across the junctions. We consider the spectrum using transfer matrices and Chebyshev polynomials to get a closed formula for the eigenfrequencies. We calculate vacuum and free energy as well as the entropy of this system in two approaches, one using contour integration and another one using a Hurwitz zeta function. The latter results in a representation in terms of finite sums over polynomials. Several limiting cases are considered as well, for instance, the high-temperature expansion, which is expressed in terms of the heat kernel coefficients. The vacuum energy has no ultraviolet divergences, and the corresponding heat kernel coefficient $a_1$ is zero due to the constancy of the speed of light. This is in parallel to a similar situation in macroscopic electrodynamics with isorefractive boundary conditions.
翻訳日:2023-04-19 01:48:16 公開日:2020-12-28
# 離散位相空間と連続時間相対論的量子力学 i:プランク振動子と閉弦状円軌道

Discrete phase space and continuous time relativistic quantum mechanics I: Planck oscillators and closed string-like circular orbits ( http://arxiv.org/abs/2012.14256v1 )

ライセンス: Link先を確認
Anadijiban Das and Rupak Chatterjee(参考訳) 特性長さ$l$を含む相対論的量子力学の離散位相空間連続時間表現について検討する。 紙のほとんどの部分には$\hbar$、$c$、$l$といった基本的な物理定数が保持される。 プランク発振器のエネルギー固有値問題は、この枠組みで正確に解かれる。 定エネルギーの離散円軌道は、離散(1 + 1)次元位相平面内のラジイ 2E_n =\sqrt{2n+1} の円周 $S^{1}_{n}$ であることが示される。 さらに、これらの軌道の時間発展は、幾何学的実体 $s^{1}_{n} \times \mathbb{r} \subset \mathbb{r}^2$のような世界表を掃き、したがって閉弦のような幾何学的構成として現れる。 位相空間におけるこれらの離散軌道の物理的解釈は、数学的に厳密な方法で示される。 離散位相空間量子力学のアリーナにおけるこれらの閉じた円軌道の存在は、低次展開の非特異性$S^{\#}$行列項で知られているが、現在まで完全には解明されていない。 最後に、離散偏微分Klein-Gordon方程式は連続不均一直交群 $\mathcal{I} [O(3,1)]$ の下で不変であることが示されている。

The discrete phase space continuous time representation of relativistic quantum mechanics involving a characteristic length $l$ is investigated. Fundamental physical constants such as $\hbar$, $c$, and $l$ are retained for most sections of the paper. The energy eigenvalue problem for the Planck oscillator is solved exactly in this framework. Discrete concircular orbits of constant energy are shown to be circles $S^{1}_{n}$ of radii $2E_n =\sqrt{2n+1}$ within the discrete (1 + 1)-dimensional phase plane. Moreover, the time evolution of these orbits sweep out world-sheet like geometrical entities $S^{1}_{n} \times \mathbb{R} \subset \mathbb{R}^2$ and therefore appear as closed string-like geometrical configurations. The physical interpretation for these discrete orbits in phase space as degenerate, string-like phase cells is shown in a mathematically rigorous way. The existence of these closed concircular orbits in the arena of discrete phase space quantum mechanics, known for the non-singular nature of lower order expansion $S^{\#}$ matrix terms, was known to exist but has not been fully explored until now. Finally, the discrete partial difference-differential Klein-Gordon equation is shown to be invariant under the continuous inhomogeneous orthogonal group $\mathcal{I} [O(3,1)]$ .
翻訳日:2023-04-19 01:47:46 公開日:2020-12-28
# 有限次行列の同時ブロック対角化

Simultaneous Block Diagonalization of Matrices of Finite Order ( http://arxiv.org/abs/2012.14440v1 )

ライセンス: Link先を確認
Ingolf Bischer, Christian D\"oring, Andreas Trautner(参考訳) 非正則行列の集合が同時に対角化できることは、行列が可換であることと同値であることがよく知られている。 非可換行列の場合、達成できる最善のものは同時ブロック対角化である。 ここでは、既約ブロック(共通不変部分空間)の分解が他の場所から知られているユニタリ行列の同時ブロック対角化を実現する転送行列を明示的に計算する効率的なアルゴリズムを与える。 我々の主な動機は粒子物理学であり、粒子スペクトル上のパリティ、電荷共役、時間反転などの外部自己同型の作用を不当に決定するために、結果の移動行列を明示的に知る必要がある。

It is well known that a set of non-defect matrices can be simultaneously diagonalized if and only if the matrices commute. In the case of non-commuting matrices, the best that can be achieved is simultaneous block diagonalization. Here we give an efficient algorithm to explicitly compute a transfer matrix which realizes the simultaneous block diagonalization of unitary matrices whose decomposition in irreducible blocks (common invariant subspaces) is known from elsewhere. Our main motivation lies in particle physics, where the resulting transfer matrix must be known explicitly in order to unequivocally determine the action of outer automorphisms such as parity, charge conjugation, or time reversal on the particle spectrum.
翻訳日:2023-04-19 01:40:38 公開日:2020-12-28
# 分岐量子畳み込みニューラルネットワーク

Branching Quantum Convolutional Neural Networks ( http://arxiv.org/abs/2012.14439v1 )

ライセンス: Link先を確認
Ian MacCormack, Conor Delaney, Alexey Galda, Nidhi Aggarwal, and Prineha Narang(参考訳) ニューラルネットワークベースのアルゴリズムは、超高次元データセットから複雑なパターンを学習し、多体量子システムにおける絡み合いと相関の複雑な長距離パターンを分類する能力によって、凝縮物物理学においてかなりの注目を集めている。 大規模な量子コンピュータはすでに、大きな量子と非常に大きな古典的データセットの学習タスクで潜在的に利益を上げている。 特に興味深いアルゴリズムのクラスである量子畳み込みニューラルネットワーク(QCNN)は、量子物質の非自明な位相に二項分類タスクを実行することによって量子データセットの特徴を学習することができる。 この約束に触発されて、分岐量子畳み込みニューラルネットワークであるQCNN(bQCNN)を、はるかに高い表現性で一般化する。 bqcnnの重要な特徴は、プール層で得られる現在の捕捉イオン系で実現可能な中間回路(中間)測定結果を利用して、回路の次の畳み込み層で使用するパラメータのセットを決定することである。 これにより分岐構造が実現され、与えられた回路深さで訓練可能な変動パラメータがより多くなる。 これは現在のNISQデバイスで特に使われており、ゲートノイズによって回路深さが制限されている。 本稿では, アンザッツの構造とスケーリングについて概説し, QCNNと比較して表現性の向上を示す。 人工的に構築した大規模なトレーニング状態のデータセットを概念実証として,bQCNNが通常のQCNNよりも優れるトレーニングタスクの存在を実証する。 最後に,bQCNNにおける古典的分岐構造とトレーニング可能なパラメータの密度の増大が特に重要となる今後の方向性を示す。

Neural network-based algorithms have garnered considerable attention in condensed matter physics for their ability to learn complex patterns from very high dimensional data sets towards classifying complex long-range patterns of entanglement and correlations in many-body quantum systems. Small-scale quantum computers are already showing potential gains in learning tasks on large quantum and very large classical data sets. A particularly interesting class of algorithms, the quantum convolutional neural networks (QCNN) could learn features of a quantum data set by performing a binary classification task on a nontrivial phase of quantum matter. Inspired by this promise, we present a generalization of QCNN, the branching quantum convolutional neural network, or bQCNN, with substantially higher expressibility. A key feature of bQCNN is that it leverages mid-circuit (intermediate) measurement results, realizable on current trapped-ion systems, obtained in pooling layers to determine which sets of parameters will be used in the subsequent convolutional layers of the circuit. This results in a branching structure, which allows for a greater number of trainable variational parameters in a given circuit depth. This is of particular use on current-day NISQ devices, where circuit depth is limited by gate noise. We present an overview of the ansatz structure and scaling, and provide evidence of its enhanced expressibility compared to QCNN. Using artificially-constructed large data sets of training states as a proof-of-concept we demonstrate the existence of training tasks in which bQCNN far outperforms an ordinary QCNN. Finally, we present future directions where the classical branching structure and increased density of trainable parameters in bQCNN would be particularly valuable.
翻訳日:2023-04-19 01:40:24 公開日:2020-12-28
# 都市ボリューム:空間的複雑さとウェイフィンディング、空間構文を三次元空間に拡張する

Urban volumetrics: spatial complexity and wayfinding, extending space syntax to three dimensional space ( http://arxiv.org/abs/2012.14419v1 )

ライセンス: Link先を確認
Lingzhu Zhang, Alain J F Chiaradia(参考訳) 道路探索行動と歩行者移動パターンの研究は、空間構文などの客観的な空間構成表現と分析に依存し、多層建物や都市建築環境における道路探索の難しさを定量化し、制御する。 しかし、空間構文の表現は多層垂直接続を単純化する。 より最近のsegmentとangularによる空間構文へのアプローチは、3次元空間では動作できないままである。 2次元軸マップおよびセグメントマップ線表現をレビューし、それらの拡張を新たな3次元空間線表現へ拡張する。 極端ケーススタディ研究戦略を用いて,大規模複合型屋外・屋内建築環境の4つの表現を歩行者運動パターンN=17,307に対して検証した。 運動パターンとの関係は、表現が定義と完全性の高3次元空間レベルに向かって増加するにつれて着実に増加する。 三次元構築環境の複雑さを客観的に記述するために,新しいハイブリッド角-ユークリッド解析を用いた。 その結果,多層建築環境における歩行者用ウェイフィングと移動パターンの研究は,屋外と屋内の相互依存を伴い,全3次元の線表現を用いるべきであることが示唆された。

Wayfinding behavior and pedestrian movement pattern research relies on objective spatial configuration representation and analysis, such as space syntax, to quantify and control for the difficulty of wayfinding in multi-level buildings and urban built environments. However, the space syntax's representation oversimplifies multi-level vertical connections. The more recent segment and angular approaches to space syntax remain un-operationalizable in three dimensional space. The two dimensional axial-map and segment map line representations are reviewed to determine their extension to a novel three dimensional space line representation. Using an extreme case study research strategy, four representations of a large scale complex multi-level outdoor and indoor built environment are tested against observed pedestrian movement patterns N = 17,307. Association with the movement pattern increases steadily as the representation increases toward high three-dimensional space level of definition and completeness. A novel hybrid angular-Euclidean analysis was used for the objective description of three dimensional built environment complexity. The results suggest that pedestrian wayfinding and movement pattern research in a multi-level built environment should include interdependent outdoor and indoor, and use full three-dimensioanal line representation.
翻訳日:2023-04-19 01:39:18 公開日:2020-12-28
# 欧州連合の人工知能エコシステムに関する調査

A survey of the European Union's artificial intelligence ecosystem ( http://arxiv.org/abs/2101.02039v1 )

ライセンス: Link先を確認
Charlotte Stix(参考訳) 他の世界列強と比較すると、欧州連合(EU)が人工知能(AI)の発展の主導者とみなされることは滅多にない。 これはなぜで、実際にはEUの活動を正確に反映しているのか? EUがAIでより先導的な役割を果たせるためには、何が必要でしょうか? このレポートは、現在のEUのAIエコシステムの中核となるコンポーネントを調査し、これらの質問に答えるための重要な背景を提供する。

Compared to other global powers, the European Union (EU) is rarely considered a leading player in the development of artificial intelligence (AI). Why is this, and does this in fact accurately reflect the activities of the EU? What would it take for the EU to take a more leading role in AI? This report surveys core components of the current AI ecosystem of the EU, providing the crucial background context for answering these questions.
翻訳日:2023-04-19 01:30:15 公開日:2020-12-28
# 高エネルギー物理におけるマルチジェットクラスタリングのための断熱量子アルゴリズム

Adiabatic Quantum Algorithm for Multijet Clustering in High Energy Physics ( http://arxiv.org/abs/2012.14514v1 )

ライセンス: Link先を確認
Diogo Pires, Yasser Omar and Jo\~ao Seixas(参考訳) 現在予測されている高輝度大型ハドロン衝突型加速器(HL-LHC)イベント再構成の計算需要の増加、特にジェットクラスタリングは、現在の計算資源に挑戦し、さらに複雑な組合せ問題となる。 本稿では,新しい量子アニーリングバイナリクラスタリングアルゴリズムを導入することにより,ジジェットイベントクラスタリングに量子アニーリングが取り組むことができることを示す。 ベンチマークされた効率は9,6\%$であり、現在の量子状態よりも大幅に改善されている。 さらに,提案した目的関数をより汎用的な形式に一般化し,マルチジェットイベントにおけるクラスタリング問題を解く方法を示す。

The currently predicted increase in computational demand for the upcoming High-Luminosity Large Hadron Collider (HL-LHC) event reconstruction, and in particular jet clustering, is bound to challenge present day computing resources, becoming an even more complex combinatorial problem. In this paper, we show that quantum annealing can tackle dijet event clustering by introducing a novel quantum annealing binary clustering algorithm. The benchmarked efficiency is of the order of $96\%$, thus yielding substantial improvements over the current quantum state-of-the-art. Additionally, we also show how to generalize the proposed objective function into a more versatile form, capable of solving the clustering problem in multijet events.
翻訳日:2023-04-19 01:30:07 公開日:2020-12-28
# 数値最適化問題としての量子状態トモグラフィー

Quantum state tomography as a numerical optimization problem ( http://arxiv.org/abs/2012.14494v1 )

ライセンス: Link先を確認
Violeta N. Ivanova-Rohling, Guido Burkard, Niklas Rohling(参考訳) 本稿では,最も効率的な量子状態トモグラフィー手法の探索を最適化問題として定式化する枠組みを提案する。 このアプローチは、サブシステムに制限された測定を含む、関連するセットアップの幅広いスペクトルに適用できる。 この方法のパワーを説明するために,N-14核スピンとダイヤモンド中の窒素空孔中心の2つの電子スピン状態によって実現可能な6次元ヒルベルト空間を立方晶系で構成した。 キュービットサブシステムの計測はランク3のプロジェクタ、すなわち半次元部分空間上のプロジェクタによって表現される。 量子ビットのみからなる系では、半次元部分空間上のプロジェクタの集合を量子状態トモグラフィに対して情報的に最適な方法で配置することができ、いわゆる相互偏りのない部分空間を形成することが解析的に示されている。 我々の手法はキュービットのみのシステムを超えており、次元6では、互いに偏りのない部分空間の集合は、実用上無関係な偏差で近似できる。

We present a framework that formulates the quest for the most efficient quantum state tomography scheme as an optimization problem which can be solved numerically. This approach can be applied to a broad spectrum of relevant setups including measurements restricted to a subsystem. To illustrate the power of this method we present results for the six-dimensional Hilbert space constituted by a qubit-qutrit system, which could be realized e.g. by the N-14 nuclear spin-1 and two electronic spin states of a nitrogen-vacancy center in diamond. Measurements of the qubit subsystem are expressed by projectors of rank three, i.e., projectors on half-dimensional subspaces. For systems consisting only of qubits, it was shown analytically that a set of projectors on half-dimensional subspaces can be arranged in an informationally optimal fashion for quantum state tomography, thus forming so-called mutually unbiased subspaces. Our method goes beyond qubits-only systems and we find that in dimension six such a set of mutually-unbiased subspaces can be approximated with a deviation irrelevant for practical applications.
翻訳日:2023-04-19 01:29:55 公開日:2020-12-28
# $\beta$-VAEsにおける帰納正規化について

On Implicit Regularization in $\beta$-VAEs ( http://arxiv.org/abs/2002.00041v4 )

ライセンス: Link先を確認
Abhishek Kumar, Ben Poole(参考訳) 固定生成モデルにおける後部推論に対する変分推論 (VI) の影響は良好であるが, 変分オートエンコーダ (VAE) で使用する場合の学習生成モデルの正則化における役割はよく理解されていない。 生成モデルの学習における変動分布の正則化効果を2つの観点から検討した。 まず, 最適生成モデルの集合を制限して学習モデルに一意性を与えるために, 変分族の選択が果たす役割を解析する。 次に,変形族が復号モデルの局所幾何に及ぼす影響について検討する。 この分析は$\beta$-vaeの目的において暗黙の正規化子を明らかにし、決定論的自己符号化目的とデコードモデルのヘッシアンまたはヤコビアンに依存する解析的正規化子からなる近似に繋がる。 提案する決定論的目的が目的値とサンプル品質の点で$\beta$-VAEと類似した振る舞いを示すことを実証的に検証した。

While the impact of variational inference (VI) on posterior inference in a fixed generative model is well-characterized, its role in regularizing a learned generative model when used in variational autoencoders (VAEs) is poorly understood. We study the regularizing effects of variational distributions on learning in generative models from two perspectives. First, we analyze the role that the choice of variational family plays in imparting uniqueness to the learned model by restricting the set of optimal generative models. Second, we study the regularization effect of the variational family on the local geometry of the decoding model. This analysis uncovers the regularizer implicit in the $\beta$-VAE objective, and leads to an approximation consisting of a deterministic autoencoding objective plus analytic regularizers that depend on the Hessian or Jacobian of the decoding model, unifying VAEs with recent heuristics proposed for training regularized autoencoders. We empirically verify these findings, observing that the proposed deterministic objective exhibits similar behavior to the $\beta$-VAE in terms of objective value and sample quality.
翻訳日:2023-01-05 05:54:53 公開日:2020-12-28
# K-Adapter: アダプタを用いた事前学習モデルへの知識注入

K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters ( http://arxiv.org/abs/2002.01808v5 )

ライセンス: Link先を確認
Ruize Wang, Duyu Tang, Nan Duan, Zhongyu Wei, Xuanjing Huang, Jianshu ji, Guihong Cao, Daxin Jiang, Ming Zhou(参考訳) 本研究では,BERTやRoBERTaといった大規模事前学習モデルに知識を注入する問題について検討する。 既存のメソッドは通常、知識を注入する際、トレーニング済みモデルの元のパラメータを更新する。 しかし、複数の種類の知識が注入されると、歴史的に注入された知識が流出する。 そこで本研究では,事前学習モデルの初期パラメータを固定したフレームワークであるK-Adapterを提案し,多種多様な知識注入モデルの開発を支援する。 RoBERTaをバックボーンモデルとすることで、K-Adapterは、RoBERTaに接続されたプラグインのような、注入された知識ごとにニューラルアダプターを持つ。 異なるアダプタ間の情報フローはなく、複数のアダプタを分散的に効率的にトレーニングすることができる。 本研究の事例として,(1)ウィキペディアとウィキデータに自動的にアライメントされたテキストトリップレットから得られた事実知識,(2)依存関係解析による言語知識の2つの知識を注入する。 関係分類、エンティティタイプ、質問応答を含む3つの知識駆動タスクの結果は、各アダプタのパフォーマンスが向上し、両方のアダプタの組み合わせがさらに改善されることを示している。 さらに分析したところ、K-AdapterはRoBERTaよりも多彩な知識を捉えている。

We study the problem of injecting knowledge into large pre-trained models like BERT and RoBERTa. Existing methods typically update the original parameters of pre-trained models when injecting knowledge. However, when multiple kinds of knowledge are injected, the historically injected knowledge would be flushed away. To address this, we propose K-Adapter, a framework that retains the original parameters of the pre-trained model fixed and supports the development of versatile knowledge-infused model. Taking RoBERTa as the backbone model, K-Adapter has a neural adapter for each kind of infused knowledge, like a plug-in connected to RoBERTa. There is no information flow between different adapters, thus multiple adapters can be efficiently trained in a distributed way. As a case study, we inject two kinds of knowledge in this work, including (1) factual knowledge obtained from automatically aligned text-triplets on Wikipedia and Wikidata and (2) linguistic knowledge obtained via dependency parsing. Results on three knowledge-driven tasks, including relation classification, entity typing, and question answering, demonstrate that each adapter improves the performance and the combination of both adapters brings further improvements. Further analysis indicates that K-Adapter captures versatile knowledge than RoBERTa.
翻訳日:2023-01-03 20:52:56 公開日:2020-12-28
# 有向グラフによる分散確率学習の量子化

Quantized Decentralized Stochastic Learning over Directed Graphs ( http://arxiv.org/abs/2002.09964v5 )

ライセンス: Link先を確認
Hossein Taheri, Aryan Mokhtari, Hamed Hassani, Ramtin Pedarsani(参考訳) 本稿では,データポイントを有向グラフ上で通信するノード間で分散する分散確率学習問題を考察する。 モデルのサイズが大きくなるにつれて、分散学習は、各ノードが隣人に大きなメッセージ(モデル更新)を送信するため、通信負荷の重い大きなボトルネックに直面します。 このボトルネックに対処するために、分散コンセンサス最適化におけるプッシュサムアルゴリズムに基づく有向グラフ上の量子化確率学習アルゴリズムを提案する。 さらに, このアルゴリズムは, 凸損失と非凸損失の双方に対して, 正確なコミュニケーションを伴う分散確率学習アルゴリズムと同じ収束率を実現する。 数値評価により, 主な理論結果が一致し, 正確な通信方法に比べ, 大幅な高速化が示された。

We consider a decentralized stochastic learning problem where data points are distributed among computing nodes communicating over a directed graph. As the model size gets large, decentralized learning faces a major bottleneck that is the heavy communication load due to each node transmitting large messages (model updates) to its neighbors. To tackle this bottleneck, we propose the quantized decentralized stochastic learning algorithm over directed graphs that is based on the push-sum algorithm in decentralized consensus optimization. More importantly, we prove that our algorithm achieves the same convergence rates of the decentralized stochastic learning algorithm with exact-communication for both convex and non-convex losses. Numerical evaluations corroborate our main theoretical results and illustrate significant speed-up compared to the exact-communication methods.
翻訳日:2022-12-29 09:59:19 公開日:2020-12-28
# 非パラメトリックメソッドはいつロバストなのか?

When are Non-Parametric Methods Robust? ( http://arxiv.org/abs/2003.06121v2 )

ライセンス: Link先を確認
Robi Bhattacharjee and Kamalika Chaudhuri(参考訳) 増大する研究機関は、多くの分類器が、誤分類につながる入力をテストするための小さな戦略的な修正である {\em{adversarial example}} の影響を受けやすいことを示した。 本研究では, 一般的な非パラメトリックな手法について検討し, これらの修正に頑健な場合の理解に向けて考察する。 非パラメトリックな手法がr一貫性を持つような一般的な条件を、サンプル限界の最適にロバストで正確な分類器に収束するという意味で確立する。 具体的には, データの分離が良好である場合, 隣人やカーネルの分類器はrと一致し, ヒストグラムは一致しないことを示す。 一般的なデータ分布については、データを適切に分離するAdversarial Pruning(Yang et. al., 2019)による前処理が、隣人やカーネルの分類器に次いでr一貫性をもたらすことを証明します。

A growing body of research has shown that many classifiers are susceptible to {\em{adversarial examples}} -- small strategic modifications to test inputs that lead to misclassification. In this work, we study general non-parametric methods, with a view towards understanding when they are robust to these modifications. We establish general conditions under which non-parametric methods are r-consistent -- in the sense that they converge to optimally robust and accurate classifiers in the large sample limit. Concretely, our results show that when data is well-separated, nearest neighbors and kernel classifiers are r-consistent, while histograms are not. For general data distributions, we prove that preprocessing by Adversarial Pruning (Yang et. al., 2019) -- that makes data well-separated -- followed by nearest neighbors or kernel classifiers also leads to r-consistency.
翻訳日:2022-12-24 01:04:21 公開日:2020-12-28
# 階層的部分視点による細粒度3次元形状分類

Fine-Grained 3D Shape Classification with Hierarchical Part-View Attentions ( http://arxiv.org/abs/2005.12541v2 )

ライセンス: Link先を確認
Xinhai Liu, Zhizhong Han, Yu-Shen Liu, Matthias Zwicker(参考訳) 細粒度3次元形状分類は形状理解と解析において重要であり, 困難な研究課題となっている。 しかし,細粒度3d形状ベンチマークの欠如により,細粒度3d形状分類の研究はほとんど行われていない。 この問題に対処するために、飛行機、車、椅子を含む3つのカテゴリからなる、きめ細かいクラスラベルを持つ新しい3D形状データセット(FG3Dデータセット)を導入する。 各カテゴリは、きめ細かいレベルでいくつかのサブカテゴリから構成される。 この細粒度データセットによる実験により,同カテゴリのサブカテゴリ間の小さな分散により,最先端の手法が著しく制限されていることがわかった。 この問題を解決するため,我々はfg3d-netという新しい細粒度3d形状分類法を提案し,複数のレンダリングビューから3d形状の細粒度を捉えた。 具体的には、まず地域提案ネットワーク(RPN)をトレーニングし、一般的に意味的部分検出のベンチマークに基づいて、複数のビュー内の一般的な意味的部分を検出する。 そこで我々は,3次元形状の局所的な詳細を保存した,一般的な意味的特徴を集約することでグローバルな形状表現を学習する階層的な部分ビューアテンションアグリゲーションモジュールを設計する。 part-view attentionモジュールは、part-levelとview-level attentionを階層的に活用して、機能の識別性を高めます。 部分レベルの注目は各ビューの重要な部分を強調し、ビューレベルの注目は同一オブジェクトのすべてのビューの差別的なビューを強調します。 さらに、リカレントニューラルネットワーク(RNN)を統合し、異なる視点から逐次的なビュー間の空間的関係をキャプチャする。 細粒度3d形状データセットで得られた結果から,本手法は他の最先端手法よりも優れていた。

Fine-grained 3D shape classification is important for shape understanding and analysis, which poses a challenging research problem. However, the studies on the fine-grained 3D shape classification have rarely been explored, due to the lack of fine-grained 3D shape benchmarks. To address this issue, we first introduce a new 3D shape dataset (named FG3D dataset) with fine-grained class labels, which consists of three categories including airplane, car and chair. Each category consists of several subcategories at a fine-grained level. According to our experiments under this fine-grained dataset, we find that state-of-the-art methods are significantly limited by the small variance among subcategories in the same category. To resolve this problem, we further propose a novel fine-grained 3D shape classification method named FG3D-Net to capture the fine-grained local details of 3D shapes from multiple rendered views. Specifically, we first train a Region Proposal Network (RPN) to detect the generally semantic parts inside multiple views under the benchmark of generally semantic part detection. Then, we design a hierarchical part-view attention aggregation module to learn a global shape representation by aggregating generally semantic part features, which preserves the local details of 3D shapes. The part-view attention module hierarchically leverages part-level and view-level attention to increase the discriminability of our features. The part-level attention highlights the important parts in each view while the view-level attention highlights the discriminative views among all the views of the same object. In addition, we integrate a Recurrent Neural Network (RNN) to capture the spatial relationships among sequential views from different viewpoints. Our results under the fine-grained 3D shape dataset show that our method outperforms other state-of-the-art methods.
翻訳日:2022-11-29 00:24:58 公開日:2020-12-28
# STDI-Net:自転車共有需要予測のための動的インターバルマッピングを用いた時空間ネットワーク

STDI-Net: Spatial-Temporal Network with Dynamic Interval Mapping for Bike Sharing Demand Prediction ( http://arxiv.org/abs/2006.04089v3 )

ライセンス: Link先を確認
Weiguo Pian, Yingbo Wu, Ziyi Kou(参考訳) 共有交通の経済的かつ健全な形態として、自転車シェアリングシステム(BSS)は多くの大都市で急速に発展している。 正確な予測手法は,ユーザの要求に応えるため,BSSが事前にリソースをスケジュールし,その運用効率を確実に向上させる。 しかし,既存の手法の多くは,空間的・時間的情報を独立に利用しているだけである。 どちらも考慮すべき方法がいくつかあるが、単一の場所や位置ペア間の需要予測のみに焦点を当てている。 本稿では,Spatial-Temporal Dynamic Interval Network (STDI-Net)と呼ばれる新しい深層学習手法を提案する。 共同空間-時空間情報のモデル化により、近い将来に複数の接続局の貸し出しと返却の回数を予測する。 さらに,異なる時間間隔に対して動的に学習可能なマッピングを生成するモジュールを組み込んで,異なる時間間隔がbssの需要予測に強く影響する要因を含める。 提案手法が既存の手法よりも優れていることを示すため,nyc 自転車データセットを用いた広範囲な実験を行った。

As an economical and healthy mode of shared transportation, Bike Sharing System (BSS) develops quickly in many big cities. An accurate prediction method can help BSS schedule resources in advance to meet the demands of users, and definitely improve operating efficiencies of it. However, most of the existing methods for similar tasks just utilize spatial or temporal information independently. Though there are some methods consider both, they only focus on demand prediction in a single location or between location pairs. In this paper, we propose a novel deep learning method called Spatial-Temporal Dynamic Interval Network (STDI-Net). The method predicts the number of renting and returning orders of multiple connected stations in the near future by modeling joint spatial-temporal information. Furthermore, we embed an additional module that generates dynamical learnable mappings for different time intervals, to include the factor that different time intervals have a strong influence on demand prediction in BSS. Extensive experiments are conducted on the NYC Bike dataset, the results demonstrate the superiority of our method over existing methods.
翻訳日:2022-11-24 07:19:04 公開日:2020-12-28
# 通常の境界を超えたpac-bayes解析

PAC-Bayes Analysis Beyond the Usual Bounds ( http://arxiv.org/abs/2006.13057v3 )

ライセンス: Link先を確認
Omar Rivasplata, Ilja Kuzborskij, Csaba Szepesvari, John Shawe-Taylor(参考訳) 本研究では,学習者が学習例の有限集合を観察し,学習過程の出力が仮説空間上のデータ依存分布である確率的学習モデルに焦点を当てる。 学習したデータ依存分布を用いてランダムな予測を行い、ここでの高レベルなテーマは、トレーニング中に見られなかった例、すなわち一般化に対する予測の質を保証することである。 この設定において、未知の量の興味はデータ依存ランダム化予測器の期待されるリスクであり、その上限はPAC-Bayes解析によって導き出され、PAC-Bayes境界となる。 具体的には、確率核に対する基本的なPAC-Bayesの不等式を示し、そこから様々な既知のPAC-Bayes境界の拡張と新しい境界を導出することができる。 固定された「データフリー」事前要求、有界損失、すなわちデータの役割を明らかにする。 これらの条件は指数モーメント項の上界に使われたが、pac-ベイズ定理はこれらの制限なしでは有効である。 有界二乗損失(unbounded square loss)を含む,データ依存の先行値の使用を示す境界を3つ提示する。

We focus on a stochastic learning model where the learner observes a finite set of training examples and the output of the learning process is a data-dependent distribution over a space of hypotheses. The learned data-dependent distribution is then used to make randomized predictions, and the high-level theme addressed here is guaranteeing the quality of predictions on examples that were not seen during training, i.e. generalization. In this setting the unknown quantity of interest is the expected risk of the data-dependent randomized predictor, for which upper bounds can be derived via a PAC-Bayes analysis, leading to PAC-Bayes bounds. Specifically, we present a basic PAC-Bayes inequality for stochastic kernels, from which one may derive extensions of various known PAC-Bayes bounds as well as novel bounds. We clarify the role of the requirements of fixed 'data-free' priors, bounded losses, and i.i.d. data. We highlight that those requirements were used to upper-bound an exponential moment term, while the basic PAC-Bayes theorem remains valid without those restrictions. We present three bounds that illustrate the use of data-dependent priors, including one for the unbounded square loss.
翻訳日:2022-11-17 22:33:03 公開日:2020-12-28
# 極端学習マシンとしてのMIMO

Massive MIMO As an Extreme Learning Machine ( http://arxiv.org/abs/2007.00221v2 )

ライセンス: Link先を確認
Dawei Gao, Qinghua Guo and Yonina C. Eldar(参考訳) この研究は、低分解能アナログ-デジタル変換器(ADC)を備えたMIMO(Multiple-input multiple-output)システムが自然極端学習機械(ELM)を形成することを示す。 基地局の受信アンテナはELMの隠れノードとして機能し、低解像度のADCはELM活性化機能として機能する。 受信した信号にランダムバイアスを加えてELM出力の重みを最適化することにより、パワーアンプの非線形性や低分解能ADCなどのハードウェア障害に効果的に取り組むことができる。 さらに、EMMの高速適応機能により、MIMOチャネルの時間変化に対処する適応受信機の設計が可能となる。 シミュレーションにより,従来の受信機と比較して,EMMベースの受信機の性能が期待できることを示す。

This work shows that a massive multiple-input multiple-output (MIMO) system with low-resolution analog-to-digital converters (ADCs) forms a natural extreme learning machine (ELM). The receive antennas at the base station serve as the hidden nodes of the ELM, and the low-resolution ADCs act as the ELM activation function. By adding random biases to the received signals and optimizing the ELM output weights, the system can effectively tackle hardware impairments, such as the nonlinearity of power amplifiers and the low-resolution ADCs. Moreover, the fast adaptive capability of ELM allows the design of an adaptive receiver to address time-varying effects of MIMO channels. Simulations demonstrate the promising performance of the ELM-based receiver compared to conventional receivers in dealing with hardware impairments.
翻訳日:2022-11-14 23:47:06 公開日:2020-12-28
# 離散および構造化潜在変数の疎通による効率よい連成化

Efficient Marginalization of Discrete and Structured Latent Variables via Sparsity ( http://arxiv.org/abs/2007.01919v3 )

ライセンス: Link先を確認
Gon\c{c}alo M. Correia, Vlad Niculae, Wilker Aziz, Andr\'e F. T. Martins(参考訳) 離散的な(カテゴリー的または構造化された)潜伏変数を持つニューラルネットワークモデルを訓練することは、大きなあるいは組合せ集合の余分化を必要とするため、計算的に困難である。 この問題を回避するために、典型的には真辺のサンプリングに基づく近似に頼り、ノイズのある勾配推定器(例えば、スコア関数推定器)や低分散のパラメータ化勾配(例えば、Gumbel-Softmax)による連続緩和を必要とする。 本稿では,これらの推定器を,正確にかつ効率的なマージン化に置き換える新しいトレーニング戦略を提案する。 これを達成するために、微分可能なスパースマッピング(sparsemaxとその構造対応)を用いて、潜在代入上の離散分布をパラメータ化する。 結果として、これらの分布のサポートは大幅に削減され、効率的な辺縁化が可能になる。 半教師付き深層生成モデル,潜時通信ゲーム,ビットベクトル潜時表現付き生成モデルという,潜時変動モデリングの応用範囲をカバーする3つのタスクの成果を報告する。 いずれの場合も,サンプリングに基づく近似の実用性を維持しつつ,良好な性能が得られる。

Training neural network models with discrete (categorical or structured) latent variables can be computationally challenging, due to the need for marginalization over large or combinatorial sets. To circumvent this issue, one typically resorts to sampling-based approximations of the true marginal, requiring noisy gradient estimators (e.g., score function estimator) or continuous relaxations with lower-variance reparameterized gradients (e.g., Gumbel-Softmax). In this paper, we propose a new training strategy which replaces these estimators by an exact yet efficient marginalization. To achieve this, we parameterize discrete distributions over latent assignments using differentiable sparse mappings: sparsemax and its structured counterparts. In effect, the support of these distributions is greatly reduced, which enables efficient marginalization. We report successful results in three tasks covering a range of latent variable modeling applications: a semisupervised deep generative model, a latent communication game, and a generative model with a bit-vector latent representation. In all cases, we obtain good performance while still achieving the practicality of sampling-based approximations.
翻訳日:2022-11-14 04:43:53 公開日:2020-12-28
# マイクロ表現スポッティング:新しいベンチマーク

Micro-expression spotting: A new benchmark ( http://arxiv.org/abs/2007.12421v2 )

ライセンス: Link先を確認
Thuong-Khanh Tran, Quang-Nhat Vo, Xiaopeng Hong, Xiaobai Li and Guoying Zhao(参考訳) マイクロ表現(ME)は、人々が本当の感情を隠そうとしたり、感情を隠そうとするときに起こる、簡潔で不随意の表情である。 心理学的な研究に基づいて、MEは真の感情を理解する上で重要な役割を果たす。 そのため、ME分析は心理学、法執行、心理療法など様々な研究分野において魅力的なトピックとなっている。 コンピュータビジョン分野において、MEの研究は、ビデオ中のMEの位置を特定し、検出されたMEの感情カテゴリーを決定するために使用されるスポッティングと認識の2つの主要なタスクに分けられる。 近年、多くの研究が行われているが、mes分析のための完全に自動的なシステムは、主に2つの理由でまだ実用レベルに構築されていない: mesに関する研究のほとんどは、スポッティングタスクを放棄しながら認識部分のみに焦点を当てている。 本稿では,(1)MEスポッティングのための新しいベンチマークであるSMIC-E-Longデータベースの拡張,(2)MEスポッティング技術の比較を標準化する新しい評価プロトコルを提案する,(3)SMIC-E-Longデータベースに対する手工的・ディープラーニング的アプローチによる広範な実験を行い,ベースライン評価を行う。

Micro-expressions (MEs) are brief and involuntary facial expressions that occur when people are trying to hide their true feelings or conceal their emotions. Based on psychology research, MEs play an important role in understanding genuine emotions, which leads to many potential applications. Therefore, ME analysis has become an attractive topic for various research areas, such as psychology, law enforcement, and psychotherapy. In the computer vision field, the study of MEs can be divided into two main tasks, spotting and recognition, which are used to identify positions of MEs in videos and determine the emotion category of the detected MEs, respectively. Recently, although much research has been done, no fully automatic system for analyzing MEs has yet been constructed on a practical level for two main reasons: most of the research on MEs only focuses on the recognition part, while abandoning the spotting task; current public datasets for ME spotting are not challenging enough to support developing a robust spotting algorithm. The contributions of this paper are threefold: (1) we introduce an extension of the SMIC-E database, namely the SMIC-E-Long database, which is a new challenging benchmark for ME spotting; (2) we suggest a new evaluation protocol that standardizes the comparison of various ME spotting techniques; (3) extensive experiments with handcrafted and deep learning-based approaches on the SMIC-E-Long database are performed for baseline evaluation.
翻訳日:2022-11-07 06:48:08 公開日:2020-12-28
# TextDecepter: テキスト分類器に対するハードラベルブラックボックス攻撃

TextDecepter: Hard Label Black Box Attack on Text Classifiers ( http://arxiv.org/abs/2008.06860v6 )

ライセンス: Link先を確認
Sachin Saxena(参考訳) 機械学習は、敵の例として知られる、慎重に作られたサンプルに影響を受けやすいことが証明されている。 これらの敵対的な例の生成は、モデルをより堅牢にし、これらのモデルの根底にある意思決定に関する洞察を与えてくれる。 長年にわたって、研究者はホワイトボックスとブラックボックスの両方で画像分類器を攻撃してきた。 しかし、これらの方法はテキストデータが離散的であるため、直接テキストに適用できない。 近年,テキスト応用に対する逆例作成の研究が盛んに行われている。 本稿では,NLP(Natural Language Processing, 自然言語処理)分類器に対するハードラベルブラックボックス攻撃に対して,モデル情報が開示されず,攻撃者がモデルに問い合わせて最終決定を下すだけで,関連するクラスの信頼性スコアが得られない,新たなアプローチを提案する。 このような攻撃シナリオは、感情分析や有害なコンテンツ検出といったセキュリティに敏感なアプリケーションに使われている現実世界のブラックボックスモデルにも適用される。

Machine learning has been proven to be susceptible to carefully crafted samples, known as adversarial examples. The generation of these adversarial examples helps to make the models more robust and gives us an insight into the underlying decision-making of these models. Over the years, researchers have successfully attacked image classifiers in both, white and black-box settings. However, these methods are not directly applicable to texts as text data is discrete. In recent years, research on crafting adversarial examples against textual applications has been on the rise. In this paper, we present a novel approach for hard-label black-box attacks against Natural Language Processing (NLP) classifiers, where no model information is disclosed, and an attacker can only query the model to get a final decision of the classifier, without confidence scores of the classes involved. Such an attack scenario applies to real-world black-box models being used for security-sensitive applications such as sentiment analysis and toxic content detection.
翻訳日:2022-10-28 09:06:11 公開日:2020-12-28
# ジェネレーティブ・ディバイサル・ネットワークの強化による自己監督型人間活動認識

Self-Supervised Human Activity Recognition by Augmenting Generative Adversarial Networks ( http://arxiv.org/abs/2008.11755v2 )

ライセンス: Link先を確認
Mohammad Zaki Zadeh, Ashwin Ramesh Babu, Ashish Jaiswal, Fillia Makedon(参考訳) 本稿では,人間活動認識などの下流タスクに有用な映像表現を符号化する能力を向上させるために,GAN(Generative Adversarial Network)を自己指導タスクで拡張する手法を提案する。 提案手法では, フレームの回転, 翻訳, せん断などの異なる空間変換や, フレームの時間順序のシャッフルなどの時間変換によって, 入力ビデオフレームをランダムに変換する。 そして、補助損失を導入することにより、適用された変換を予測するように判別する。 提案手法は,kth,utf101,ball-dropなどのデータセット上での人間の行動認識に有用な映像表現を提供するため,ベースライン法よりも優れていることが示された。 Ball-Dropデータセットは、身体的および認知的に要求されるタスクを通じて、子供の実行機能を測定するために特別に設計されたデータセットである。 ベースライン法の代わりに提案手法の特徴を用いることで,トップ1分類精度は4%以上向上した。 さらに, 下流タスクにおける異なる変換の寄与を検討するため, アブレーション研究を行った。

This article proposes a novel approach for augmenting generative adversarial network (GAN) with a self-supervised task in order to improve its ability for encoding video representations that are useful in downstream tasks such as human activity recognition. In the proposed method, input video frames are randomly transformed by different spatial transformations, such as rotation, translation and shearing or temporal transformations such as shuffling temporal order of frames. Then discriminator is encouraged to predict the applied transformation by introducing an auxiliary loss. Subsequently, results prove superiority of the proposed method over baseline methods for providing a useful representation of videos used in human activity recognition performed on datasets such as KTH, UCF101 and Ball-Drop. Ball-Drop dataset is a specifically designed dataset for measuring executive functions in children through physically and cognitively demanding tasks. Using features from proposed method instead of baseline methods caused the top-1 classification accuracy to increase by more then 4%. Moreover, ablation study was performed to investigate the contribution of different transformations on downstream task.
翻訳日:2022-10-24 21:57:02 公開日:2020-12-28
# 特有な3次元局所深層ディスクリプタ

Distinctive 3D local deep descriptors ( http://arxiv.org/abs/2009.00258v2 )

ライセンス: Link先を確認
Fabio Poiesi and Davide Boscaini(参考訳) 本稿では,初期アライメントを必要とせず,ポイントクラウドの登録に使用可能な,特異な3dローカルディープディスクリプタ(dips)を学習するための単純かつ効果的な手法を提案する。 ポイントクラウドパッチを抽出し、推定された局所参照フレームに対して正準化し、ポイントネットベースのディープニューラルネットワークにより回転不変コンパクトディスクリプタに符号化する。 ディップは、局所的およびランダムにサンプリングされた点からエンドツーエンドに学習されるため、異なるセンサモダリティを効果的に一般化することができる。 DIPは局所幾何学的情報のみを符号化するので、乱雑、隠蔽、欠落する領域に対して堅牢である。 異なるセンサを用いて再構成された点雲からなる屋内および屋外のいくつかのデータセットにおける,手作りおよび深層ディスクリプタに対するディップの評価と比較を行った。 結果から ディップスは (i)RGB-D屋内シーン(DMatchデータセット)に匹敵する結果が得られる。 (ii)レーザースキャン屋外シーン(ethデータセット)のマージンを大きく上回っていること、及び (III)Android ARCoreのVisual-SLAMシステムで再構成された屋内シーンを一般化する。 ソースコード: https://github.com/fabiopoiesi/dip。

We present a simple but yet effective method for learning distinctive 3D local deep descriptors (DIPs) that can be used to register point clouds without requiring an initial alignment. Point cloud patches are extracted, canonicalised with respect to their estimated local reference frame and encoded into rotation-invariant compact descriptors by a PointNet-based deep neural network. DIPs can effectively generalise across different sensor modalities because they are learnt end-to-end from locally and randomly sampled points. Because DIPs encode only local geometric information, they are robust to clutter, occlusions and missing regions. We evaluate and compare DIPs against alternative hand-crafted and deep descriptors on several indoor and outdoor datasets consisting of point clouds reconstructed using different sensors. Results show that DIPs (i) achieve comparable results to the state-of-the-art on RGB-D indoor scenes (3DMatch dataset), (ii) outperform state-of-the-art by a large margin on laser-scanner outdoor scenes (ETH dataset), and (iii) generalise to indoor scenes reconstructed with the Visual-SLAM system of Android ARCore. Source code: https://github.com/fabiopoiesi/dip.
翻訳日:2022-10-23 01:18:49 公開日:2020-12-28
# 条件付き生成逆ネットワークを用いたカラーファウンダス画像上のマキュラの高度再構成

Heightmap Reconstruction of Macula on Color Fundus Images Using Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2009.01601v4 )

ライセンス: Link先を確認
Peyman Tahghighi, Reza A.Zoroofi, Sare Safi and Alireza Ramezani(参考訳) 網膜の3D形状は、しばしば構造情報を提供し、眼科医が病気の診断を助ける。 しかし、網膜の診断において最も一般的なスクリーニングモードである眼底画像は、その2dの性質からこの情報を欠いている。 したがって、本研究では、この3D情報や、より具体的には高さを推測しようと試みる。 近年,高所を再現するためにシェーディング情報を用いたが,その出力は十分ではないため正確ではない。 さらに、他の方法は、実際には利用できない複数の眼の画像の可用性に依存していた。 本稿では,条件付き生成型adversarial network (cgans) と深い教師付きネットワークの成功に動機づけられた,一連のステップにおける詳細化を実現するジェネレータのための新しいアーキテクチャを提案する。 比較の結果,提案手法は,画像の翻訳や医用画像の翻訳において最先端の手法を上回っていることが示された。 また,本手法は眼科医に診断のための追加情報を提供できることが示唆された。

For screening, 3D shape of the eye retina often provides structural information and can assist ophthalmologists to diagnose diseases. However, fundus images which are one the most common screening modalities for retina diagnosis lack this information due to their 2D nature. Hence, in this work, we try to infer about this 3D information or more specifically its heights. Recent approaches have used shading information for reconstructing the heights but their output is not accurate since the utilized information is not sufficient. Additionally, other methods were dependent on the availability of more than one image of the eye which is not available in practice. In this paper, motivated by the success of Conditional Generative Adversarial Networks(cGANs) and deeply supervised networks, we propose a novel architecture for the generator which enhances the details in a sequence of steps. Comparisons on our dataset illustrate that the proposed method outperforms all of the state-of-the-art methods in image translation and medical image translation on this particular task. Additionally, clinical studies also indicate that the proposed method can provide additional information for ophthalmologists for diagnosis.
翻訳日:2022-10-22 08:03:31 公開日:2020-12-28
# 生成読解のためのマルチスパンスタイル抽出

Multi-span Style Extraction for Generative Reading Comprehension ( http://arxiv.org/abs/2009.07382v2 )

ライセンス: Link先を確認
Junjie Yang, Zhuosheng Zhang, Hai Zhao(参考訳) 生成機械読解(MRC)は、良好な解答を生成するためのモデルを必要とする。 この種のMRCでは,応答生成法がモデル性能に不可欠である。 しかしながら、タスクに適したモデルであるはずの生成モデルは、一般的にはパフォーマンスが悪くなります。 同時に、単一スパン抽出モデルが抽出MCCに有効であることが証明され、その解答は通路内の1つのスパンに制限される。 それにもかかわらず、それらは通常、生成mrcに適用される場合、不完全な回答や冗長な単語の導入に苦しむ。 そこで,本手法をマルチスパン抽出に拡張し,生成的MRCをマルチスパン抽出としてスムーズに解ける新しいフレームワークを提案する。 徹底した実験により、この新しいアプローチは生成モデルと単一スパンモデルの間のジレンマを緩和し、より良い構文と意味論で答えを生み出すことができる。

Generative machine reading comprehension (MRC) requires a model to generate well-formed answers. For this type of MRC, answer generation method is crucial to the model performance. However, generative models, which are supposed to be the right model for the task, in generally perform poorly. At the same time, single-span extraction models have been proven effective for extractive MRC, where the answer is constrained to a single span in the passage. Nevertheless, they generally suffer from generating incomplete answers or introducing redundant words when applied to the generative MRC. Thus, we extend the single-span extraction method to multi-span, proposing a new framework which enables generative MRC to be smoothly solved as multi-span extraction. Thorough experiments demonstrate that this novel approach can alleviate the dilemma between generative models and single-span models and produce answers with better-formed syntax and semantics.
翻訳日:2022-10-18 06:16:38 公開日:2020-12-28
# 単純なニューラルネットワーク

Simplicial Neural Networks ( http://arxiv.org/abs/2010.03633v2 )

ライセンス: Link先を確認
Stefania Ebli, Micha\"el Defferrard, Gard Spreemann(参考訳) 本稿では,SNN(Simplicial Neural Network)を,Simplicial Complex(simplicial Complex)と呼ばれるトポロジカル空間のクラスに存在するデータに一般化した。 これらは対関係だけでなく、頂点間の高次相互作用をエンコードするグラフの自然な多次元拡張であり、ベクトル場やn$-foldコラボレーションネットワークを含むよりリッチなデータを考えることができる。 所望の畳み込みニューラルネットワークを構築するために利用する畳み込みの適切な概念を定義する。 共著者複体に関するデータの欠落を暗示するタスクでsnsをテストする。

We present simplicial neural networks (SNNs), a generalization of graph neural networks to data that live on a class of topological spaces called simplicial complexes. These are natural multi-dimensional extensions of graphs that encode not only pairwise relationships but also higher-order interactions between vertices - allowing us to consider richer data, including vector fields and $n$-fold collaboration networks. We define an appropriate notion of convolution that we leverage to construct the desired convolutional neural networks. We test the SNNs on the task of imputing missing data on coauthorship complexes.
翻訳日:2022-10-09 22:55:11 公開日:2020-12-28
# 画像のパワー:ml支援画像生成を用いた複雑な社会科学問題における群衆の関与

The power of pictures: using ML assisted image generation to engage the crowd in complex socioscientific problems ( http://arxiv.org/abs/2010.12324v2 )

ライセンス: Link先を確認
Janet Rafner, Lotte Philipsen, Sebastian Risi, Joel Simon, Jacob Sherson(参考訳) generative adversarial network (gans) を用いたヒューマンコンピュータ画像生成は,カジュアルエンタテインメントとオープンアート探索の確立された方法論になりつつある。 本稿では, ml支援画像生成の活動を, 国連持続可能な開発目標(sdgs)や研究参加の入り口として, 大規模社会科学的な複雑な問題に対する, 大衆的な対話の触媒として, 注意深く構造化されたデザイン要素を織り込むことにより, インタラクションをさらに進めていく。

Human-computer image generation using Generative Adversarial Networks (GANs) is becoming a well-established methodology for casual entertainment and open artistic exploration. Here, we take the interaction a step further by weaving in carefully structured design elements to transform the activity of ML-assisted imaged generation into a catalyst for large-scale popular dialogue on complex socioscientific problems such as the United Nations Sustainable Development Goals (SDGs) and as a gateway for public participation in research.
翻訳日:2022-10-07 05:03:39 公開日:2020-12-28
# Lipschitzの継続性のないRegret境界: 相対的Lipschitz損失によるオンライン学習

Regret Bounds without Lipschitz Continuity: Online Learning with Relative-Lipschitz Losses ( http://arxiv.org/abs/2010.12033v2 )

ライセンス: Link先を確認
Yihan Zhou, Victor S. Portella, Mark Schmidt, Nicholas J. A. Harvey(参考訳) オンライン凸最適化 (OCO) において、関数のリプシッツ連続性は、サブ線形後悔を得るために一般的に仮定される。 さらに、多くのアルゴリズムは、これらの関数が強い凸であるときにのみ対数的後悔を持つ。 近年、凸最適化の研究者は「相対的リプシッツ連続性」と「相対的強い凸性」の概念を提案した。 どちらの概念も古典的概念の一般化である。 相対的な設定における下位段階の手法は、古典的な設定における性能に類似した性能を有することが示されている。 本研究では,相対リプシッツ関数と相対強凸関数に対するocoを考える。 古典的ocoアルゴリズムの既知の後悔の限界を相対的な設定に拡張する。 具体的には、正規化リーダアルゴリズムとオンラインミラー降下の変種に従うことに対する後悔の限界を示す。 これらの手法の一般化により、これらの結果は様々なOCOアルゴリズムに対する後悔の限界をもたらす。 さらに、正規化双対平均化のような余分な正規化を伴うアルゴリズムに結果をさらに拡張する。

In online convex optimization (OCO), Lipschitz continuity of the functions is commonly assumed in order to obtain sublinear regret. Moreover, many algorithms have only logarithmic regret when these functions are also strongly convex. Recently, researchers from convex optimization proposed the notions of "relative Lipschitz continuity" and "relative strong convexity". Both of the notions are generalizations of their classical counterparts. It has been shown that subgradient methods in the relative setting have performance analogous to their performance in the classical setting. In this work, we consider OCO for relative Lipschitz and relative strongly convex functions. We extend the known regret bounds for classical OCO algorithms to the relative setting. Specifically, we show regret bounds for the follow the regularized leader algorithms and a variant of online mirror descent. Due to the generality of these methods, these results yield regret bounds for a wide variety of OCO algorithms. Furthermore, we further extend the results to algorithms with extra regularization such as regularized dual averaging.
翻訳日:2022-10-04 08:20:49 公開日:2020-12-28
# PyLightcurve-torch: PyTorchのディープラーニングアプリケーションのためのトランジットモデリングパッケージ

PyLightcurve-torch: a transit modelling package for deep learning applications in PyTorch ( http://arxiv.org/abs/2011.02030v2 )

ライセンス: Link先を確認
Mario Morvan, Angelos Tsiaras, Nikolaos Nikolaou and Ingo P. Waldmann(参考訳) 我々は,pylightcurve と pytorch をベースにした新しいオープンソースの python パッケージを提案する。 実装されたクラスと関数は完全にベクトル化され、gpu互換であり、恒星や惑星のパラメーターに対して微分可能である。 これにより、PyLightcurve-torchはトランジットの従来の前方計算に適しているが、物理モデルの勾配にアクセスする必要のある推論と最適化アルゴリズムにより、可能なアプリケーションの範囲を広げる。 この取り組みは、太陽系外惑星研究における深層学習の活用を促進することを目的としており、恒星の光曲線データの増加と、検出とキャラクタリゼーション技術の改善のための様々なインセンティブによって動機付けられている。

We present a new open source python package, based on PyLightcurve and PyTorch, tailored for efficient computation and automatic differentiation of exoplanetary transits. The classes and functions implemented are fully vectorised, natively GPU-compatible and differentiable with respect to the stellar and planetary parameters. This makes PyLightcurve-torch suitable for traditional forward computation of transits, but also extends the range of possible applications with inference and optimisation algorithms requiring access to the gradients of the physical model. This endeavour is aimed at fostering the use of deep learning in exoplanets research, motivated by an ever increasing amount of stellar light curves data and various incentives for the improvement of detection and characterisation techniques.
翻訳日:2022-09-30 06:28:34 公開日:2020-12-28
# Hi-UCD:リモートセンシング画像における都市セマンティック変化検出のための大規模データセット

Hi-UCD: A Large-scale Dataset for Urban Semantic Change Detection in Remote Sensing Imagery ( http://arxiv.org/abs/2011.03247v7 )

ライセンス: Link先を確認
Shiqi Tian, Ailong Ma, Zhuo Zheng, Yanfei Zhong(参考訳) 都市拡張の加速により、都市変化検出(ucd)は重要かつ効果的なアプローチとして、動的都市分析のための地理空間オブジェクトに関する変更情報を提供することができる。 しかし、既存のデータセットには、(1)高解像度画像の欠如、(2)意味アノテーションの欠如、(3)長距離多時間画像の欠如、の3つのボトルネックがある。 本稿では,Hi-UCDと呼ばれる大規模ベンチマークデータセットを提案する。 このデータセットは、エストニア土地委員会が3回の位相を含む0.1mの空間分解能を持つ空中画像を使用し、9種類の土地被覆を意味的に注釈付けして地上物体の変化の方向を求める。 精製された都市の変化の検出と分析に使用できる。 バイナリとマルチクラスの変更検出において,古典的な手法を用いてデータセットをベンチマークする。 実験の結果,Hi-UCDは難しいが有用であることがわかった。 Hi-UCDが将来の研究を加速する強力なベンチマークになることを期待している。

With the acceleration of the urban expansion, urban change detection (UCD), as a significant and effective approach, can provide the change information with respect to geospatial objects for dynamical urban analysis. However, existing datasets suffer from three bottlenecks: (1) lack of high spatial resolution images; (2) lack of semantic annotation; (3) lack of long-range multi-temporal images. In this paper, we propose a large scale benchmark dataset, termed Hi-UCD. This dataset uses aerial images with a spatial resolution of 0.1 m provided by the Estonia Land Board, including three-time phases, and semantically annotated with nine classes of land cover to obtain the direction of ground objects change. It can be used for detecting and analyzing refined urban changes. We benchmark our dataset using some classic methods in binary and multi-class change detection. Experimental results show that Hi-UCD is challenging yet useful. We hope the Hi-UCD can become a strong benchmark accelerating future research.
翻訳日:2022-09-29 05:15:51 公開日:2020-12-28
# ディープラーニングを用いた非線形コルモゴロフ方程式の大次元解法:離散化スキームの数値比較

Solving non-linear Kolmogorov equations in large dimensions by using deep learning: a numerical comparison of discretization schemes ( http://arxiv.org/abs/2012.07747v2 )

ライセンス: Link先を確認
Nicolas Macris and Raffaele Marino(参考訳) 非線形偏微分コルモゴロフ方程式は、自然科学、工学、あるいはファイナンスにおいて、幅広い時間依存現象を記述するのに有用である。 例えば、物理系では、アレン・カーン方程式は相転移に関連するパターン形成を記述する。 金融学において、ブラック・スコレス方程式は、派生投資器の価格の進化を記述する。 このような現代的な応用は、古典的アプローチが有効でない高次元のレジームにおいてこれらの方程式を解く必要がある。 近年,E,Han,Jentzen [1][2]により,ディープラーニングに基づく興味深い新しいアプローチが導入された。 主なアイデアは、コルモゴロフ方程式の基礎となる離散確率微分方程式のサンプルから訓練された深いネットワークを構築することである。 このネットワークは、少なくとも空間領域全体の多項式複雑性を持つコルモゴロフ方程式の解を近似することができる。 このコントリビューションでは、確率微分方程式の異なる離散化スキームを用いてディープネットワークの変種を研究する。 ベンチマークの例を用いて,関連するネットワークの性能を比較することで,計算複雑性に影響を与えずに精度を向上させることができることを示す。

Non-linear partial differential Kolmogorov equations are successfully used to describe a wide range of time dependent phenomena, in natural sciences, engineering or even finance. For example, in physical systems, the Allen-Cahn equation describes pattern formation associated to phase transitions. In finance, instead, the Black-Scholes equation describes the evolution of the price of derivative investment instruments. Such modern applications often require to solve these equations in high-dimensional regimes in which classical approaches are ineffective. Recently, an interesting new approach based on deep learning has been introduced by E, Han, and Jentzen [1][2]. The main idea is to construct a deep network which is trained from the samples of discrete stochastic differential equations underlying Kolmogorov's equation. The network is able to approximate, numerically at least, the solutions of the Kolmogorov equation with polynomial complexity in whole spatial domains. In this contribution we study variants of the deep networks by using different discretizations schemes of the stochastic differential equation. We compare the performance of the associated networks, on benchmarked examples, and show that, for some discretization schemes, improvements in the accuracy are possible without affecting the observed computational complexity.
翻訳日:2021-05-16 01:46:03 公開日:2020-12-28
# sentinel-1合成開口レーダ画像と数値標高モデルを用いた水位推定

Water Level Estimation Using Sentinel-1 Synthetic Aperture Radar Imagery And Digital Elevation Models ( http://arxiv.org/abs/2012.07627v2 )

ライセンス: Link先を確認
Thai-Bao Duong-Nguyen, Thien-Nu Hoang, Phong Vo and Hoai-Bac Le(参考訳) 水力発電ダムと貯水池は、自然の水循環を再定義する主な要因である。 したがって、貯水池の水位モニタリングは、干ばつや洪水の予測と同様に、水資源の計画と管理において重要な役割を担っている。 この作業は伝統的に、メンテナンスコスト、アクセシビリティ、世界的なカバレッジに複数の欠点がある近くの水域にセンサーステーションを設置することで行われてきた。 これらの問題に対処するために、オブジェクトや領域に関する情報を接触することなく取得する科学として知られるリモートセンシングが、多くのアプリケーションで活発に研究されている。 本論文では,センチネル-1合成開口レーダ画像と数値標高モデルデータセットを用いた水位抽出手法を提案する。 実験の結果、このアルゴリズムは世界中の3つの貯水池で0.93mの低い平均誤差を達成し、広く適用される可能性を示し、さらに研究された。

Hydropower dams and reservoirs have been identified as the main factors redefining natural hydrological cycles. Therefore, monitoring water status in reservoirs plays a crucial role in planning and managing water resources, as well as forecasting drought and flood. This task has been traditionally done by installing sensor stations on the ground nearby water bodies, which has multiple disadvantages in maintenance cost, accessibility, and global coverage. And to cope with these problems, Remote Sensing, which is known as the science of obtaining information about objects or areas without making contact with them, has been actively studied for many applications. In this paper, we propose a novel water level extracting approach, which employs Sentinel-1 Synthetic Aperture Radar imagery and Digital Elevation Model data sets. Experiments show that the algorithm achieved a low average error of 0.93 meters over three reservoirs globally, proving its potential to be widely applied and furthermore studied.
翻訳日:2021-05-11 02:49:23 公開日:2020-12-28
# 連合学習のためのプライバシ保護型分散アグリゲーション

Privacy-preserving Decentralized Aggregation for Federated Learning ( http://arxiv.org/abs/2012.07183v2 )

ライセンス: Link先を確認
Beomyeol Jeon, S.M. Ferdous, Muntasir Raihan Rahman, Anwar Walid(参考訳) フェデレーション学習は、複数のリージョンにまたがる分散データを学習するための有望なフレームワークである。 このアプローチは、高価な集中トレーニングデータ集約コストを回避し、分散サイトがプライバシに敏感なデータを公開する必要がないため、プライバシを改善する。 本稿では,フェデレーション学習のためのプライバシ保護型分散集約プロトコルを開発する。 分散アグリゲーションプロトコルをALMM(Alternating Direction Method of Multiplier)で定式化し、そのプライバシーの弱点について検討する。 プライバシに差分プライバシーや準同型暗号を使用する先行業務とは異なり,各ラウンドの参加者間のコミュニケーションを制御し,プライバシリークを最小限に抑えるプロトコルを開発した。 正直な反逆者に対するプライバシーの保証を確立します。 また,コンビネートブロック設計理論に触発された通信パターンを構築するための効率的なアルゴリズムを提案する。 この新たなグループ通信パターン設計に基づくセキュアアグリゲーションプロトコルは,プライバシ保証付きフェデレーショントレーニングの効率的なアルゴリズムを実現する。 画像分類と次単語予測に関するフェデレーショントレーニングアルゴリズムを,9~15の分散サイトを用いたベンチマークデータセット上で評価した。 評価の結果,プライバシを保ちながら,標準集中型フェデレーション学習法と互換性があり,テスト精度の劣化は0.73%に過ぎなかった。

Federated learning is a promising framework for learning over decentralized data spanning multiple regions. This approach avoids expensive central training data aggregation cost and can improve privacy because distributed sites do not have to reveal privacy-sensitive data. In this paper, we develop a privacy-preserving decentralized aggregation protocol for federated learning. We formulate the distributed aggregation protocol with the Alternating Direction Method of Multiplier (ADMM) and examine its privacy weakness. Unlike prior work that use Differential Privacy or homomorphic encryption for privacy, we develop a protocol that controls communication among participants in each round of aggregation to minimize privacy leakage. We establish its privacy guarantee against an honest-but-curious adversary. We also propose an efficient algorithm to construct such a communication pattern, inspired by combinatorial block design theory. Our secure aggregation protocol based on this novel group communication pattern design leads to an efficient algorithm for federated training with privacy guarantees. We evaluate our federated training algorithm on image classification and next-word prediction applications over benchmark datasets with 9 and 15 distributed sites. Evaluation results show that our algorithm performs comparably to the standard centralized federated learning method while preserving privacy; the degradation in test accuracy is only up to 0.73%.
翻訳日:2021-05-09 12:39:06 公開日:2020-12-28
# 子どもの経営機能評価のためのタンデム歩行自動計測システム

Automated system to measure Tandem Gait to assess executive functions in children ( http://arxiv.org/abs/2012.08662v2 )

ライセンス: Link先を確認
Mohammad Zaki Zadeh, Ashwin Ramesh Babu, Ashish Jaiswal, Maria Kyrarini, Morris Bell, Fillia Makedon(参考訳) 近年、モバイル技術が普及し、コンピュータベースの認知テストが普及し、効率的になっている。 本研究では,子どもの歩行動作を分析し,運動機能の評価に焦点をあてる。 歩行分析のための自動アセスメントシステムを設計する研究は数多く行われているが、これらの取り組みの多くは体の動きを測定するために強迫性ウェアラブルセンサーを使用している。 我々は,学校や家庭環境において採用しやすいカメラのみを必要とするコンピュータビジョンに基づくアセスメントシステムを開発した。 データセットが作成され、27人の子供がテストを行います。 さらに、システムの精度を向上させるために、NTU-RGB+D 120データセットでディープラーニングベースモデルを事前訓練し、歩行データセットで微調整した。 その結果,76.61%の分類精度を達成し,子どものパフォーマンス評価の自動化に向けた提案作業の有効性を強調した。

As mobile technologies have become ubiquitous in recent years, computer-based cognitive tests have become more popular and efficient. In this work, we focus on assessing motor function in children by analyzing their gait movements. Although there has been a lot of research on designing automated assessment systems for gait analysis, most of these efforts use obtrusive wearable sensors for measuring body movements. We have devised a computer vision-based assessment system that only requires a camera which makes it easier to employ in school or home environments. A dataset has been created with 27 children performing the test. Furthermore in order to improve the accuracy of the system, a deep learning based model was pre-trained on NTU-RGB+D 120 dataset and then it was fine-tuned on our gait dataset. The results highlight the efficacy of proposed work for automating the assessment of children's performances by achieving 76.61% classification accuracy.
翻訳日:2021-05-07 05:18:11 公開日:2020-12-28
# (参考訳) 画像復元のためのメモリ効率の高い階層型ニューラルネットワーク探索

Memory-Efficient Hierarchical Neural Architecture Search for Image Restoration ( http://arxiv.org/abs/2012.13212v2 )

ライセンス: CC BY 4.0
Haokui Zhang, Ying Li, Chengrong Gong, Hao Chen, Zongwen Bai, Chunhua Shen(参考訳) 近年,高レベル視覚タスクにおいて,手作業で設計したアーキテクチャを上回っているニューラル・アーキテクチャ・サーチ(nas)アプローチに注目が集まっている。 そこで我々はNAS技術を活用し,低レベル画像復元作業のための効率的なネットワークアーキテクチャを設計する。 本稿では,メモリ効率の高い階層型NAS HiNAS(HiNAS)を提案する。 hinasは勾配に基づく検索戦略を採用し、内部検索空間と外部検索空間を含む柔軟な階層検索空間を構築し、それぞれセルアーキテクチャの設計とセル幅の決定を担当している。 内部探索空間に対して,レイヤワイドアーキテクチャ共有戦略(LWAS)を提案する。 外部探索空間に対しては,メモリを節約し,検索速度を大幅に高速化するセル共有戦略を提案する。 提案したHiNASはメモリと計算の効率が良い。 単一のgtx1080ti gpuで、bsd 500でデノイジングネットワークを探すのに1時間、div2kで超解像構造を探すのに3.5時間しかかからない。 実験結果から,HiNASが検出したアーキテクチャはパラメータが少なく,推論速度も高速であり,最先端の手法と比較して高い競争性能が得られた。

Recently, much attention has been spent on neural architecture search (NAS) approaches, which often outperform manually designed architectures on highlevel vision tasks. Inspired by this, we attempt to leverage NAS technique to automatically design efficient network architectures for low-level image restoration tasks. In this paper, we propose a memory-efficient hierarchical NAS HiNAS (HiNAS) and apply to two such tasks: image denoising and image super-resolution. HiNAS adopts gradient based search strategies and builds an flexible hierarchical search space, including inner search space and outer search space, which in charge of designing cell architectures and deciding cell widths, respectively. For inner search space, we propose layerwise architecture sharing strategy (LWAS), resulting in more flexible architectures and better performance. For outer search space, we propose cell sharing strategy to save memory, and considerably accelerate the search speed. The proposed HiNAS is both memory and computation efficient. With a single GTX1080Ti GPU, it takes only about 1 hour for searching for denoising network on BSD 500 and 3.5 hours for searching for the super-resolution structure on DIV2K. Experimental results show that the architectures found by HiNAS have fewer parameters and enjoy a faster inference speed, while achieving highly competitive performance compared with state-of-the-art methods.
翻訳日:2021-04-25 15:10:52 公開日:2020-12-28
# 私は魚、特にイルカが好き:対話モデリングにおける矛盾に対処する

I like fish, especially dolphins: Addressing Contradictions in Dialogue Modeling ( http://arxiv.org/abs/2012.13391v2 )

ライセンス: Link先を確認
Yixin Nie, Mary Williamson, Mohit Bansal, Douwe Kiela, Jason Weston(参考訳) 自然言語理解モデルが一般的な会話における一貫性をいかに捉えるかを定量化するために、DECODE(DialoguE Contradiction Detection Task)と、人間-人間-ロボットの相反する対話を含む新しい会話データセットを導入する。 次に、事前学習したトランスフォーマーモデルを用いて、定型的非構造的アプローチと矛盾検出を行う構造的発話に基づくアプローチを比較する。 その結果, (i) 新たに収集したデータセットは, 対話領域をカバーすることを目的とした既存のNLIデータよりも, 対話矛盾検出タスクの監視を行うのが効果的である。 また,我々の最善の矛盾検出モデルは,人間の判断とよく相関し,最先端のチャットボットの一貫性を自動評価し,改善する上で,その利用の証拠を提供する。

To quantify how well natural language understanding models can capture consistency in a general conversation, we introduce the DialoguE COntradiction DEtection task (DECODE) and a new conversational dataset containing both human-human and human-bot contradictory dialogues. We then compare a structured utterance-based approach of using pre-trained Transformer models for contradiction detection with the typical unstructured approach. Results reveal that: (i) our newly collected dataset is notably more effective at providing supervision for the dialogue contradiction detection task than existing NLI data including those aimed to cover the dialogue domain; (ii) the structured utterance-based approach is more robust and transferable on both analysis and out-of-distribution dialogues than its unstructured counterpart. We also show that our best contradiction detection model correlates well with human judgments and further provide evidence for its usage in both automatically evaluating and improving the consistency of state-of-the-art generative chatbots.
翻訳日:2021-04-25 08:28:35 公開日:2020-12-28
# VAEによる言語意味論の分離とある建築的選択

Disentangling semantics in language through VAEs and a certain architectural choice ( http://arxiv.org/abs/2012.13031v2 )

ライセンス: Link先を確認
Ghazi Felhi, Joseph Le Roux, Djam\'e Seddah(参考訳) 本稿では,意味コンテンツの単一抽出を行う文の異節表現を得るための教師なし手法を提案する。 修飾トランスフォーマーをビルディングブロックとして使用し、可変オートエンコーダを訓練して、文を階層的に構造化された潜在変数の固定数に変換する。 本研究では,各潜在変数が文の係り受け構造に及ぼす影響と,オープン情報抽出モデルによって得られる述語構造について検討した。 我々のモデルは、動詞、主語、直接オブジェクト、前置詞オブジェクトを我々が識別した潜在変数に分離することができる。 文中のこれらの要素は,対応する潜伏変数によって変化し,複数の文間でスワップすることで,予測される部分的セマンティックスワップが生じることを示す。

We present an unsupervised method to obtain disentangled representations of sentences that single out semantic content. Using modified Transformers as building blocks, we train a Variational Autoencoder to translate the sentence to a fixed number of hierarchically structured latent variables. We study the influence of each latent variable in generation on the dependency structure of sentences, and on the predicate structure it yields when passed through an Open Information Extraction model. Our model could separate verbs, subjects, direct objects, and prepositional objects into latent variables we identified. We show that varying the corresponding latent variables results in varying these elements in sentences, and that swapping them between couples of sentences leads to the expected partial semantic swap.
翻訳日:2021-04-25 08:25:20 公開日:2020-12-28
# ゼロアウト:モデル選択のための非クロスバリデーションアプローチ

Leave Zero Out: Towards a No-Cross-Validation Approach for Model Selection ( http://arxiv.org/abs/2012.13309v2 )

ライセンス: Link先を確認
Weikai Li, Chuanxing Geng, and Songcan Chen(参考訳) モデル選択の主要なワークホースとして、Cross Validation (CV)はその単純さと直感性のために実証的な成功を収めた。 しかし、そのユビキタスな役割にもかかわらず、CVはしばしば以下の悪名高いジレンマに陥る。 一方、小さなデータの場合、CVは、限られたデータの一部が検証のために保たなければならないため、保守的にバイアスのある推定に悩まされる。 一方、大規模データの場合、CVはトレーニング手順が繰り返されているため、不寛容な時間の浪費など、非常に煩雑な傾向にある。 CVの直接的な野望は、与えられたデータセット全体をトレーニングにフル活用しながら、はるかに少ない計算コストでモデルを検証することである。 そこで本稿では,所定のデータを保持する代わりに,安価で理論的に保証された補助的/補助的検証を戦略的に導出する。 このような恥ずかしい単純な戦略は、与えられたデータセット全体のモデルを一度だけ訓練する必要があり、モデル選択をかなり効率的にする。 さらに,本提案手法は,学習過程における拡張性およびアウト・オブ・サンプル推定の両方の独立性から,幅広い学習環境に適している。 最後に,複数のデータセット,モデル,タスクを広範囲に評価することにより,提案手法の精度と計算効率を実証する。

As the main workhorse for model selection, Cross Validation (CV) has achieved an empirical success due to its simplicity and intuitiveness. However, despite its ubiquitous role, CV often falls into the following notorious dilemmas. On the one hand, for small data cases, CV suffers a conservatively biased estimation, since some part of the limited data has to hold out for validation. On the other hand, for large data cases, CV tends to be extremely cumbersome, e.g., intolerant time-consuming, due to the repeated training procedures. Naturally, a straightforward ambition for CV is to validate the models with far less computational cost, while making full use of the entire given data-set for training. Thus, instead of holding out the given data, a cheap and theoretically guaranteed auxiliary/augmented validation is derived strategically in this paper. Such an embarrassingly simple strategy only needs to train models on the entire given data-set once, making the model-selection considerably efficient. In addition, the proposed validation approach is suitable for a wide range of learning settings due to the independence of both augmentation and out-of-sample estimation on learning process. In the end, we demonstrate the accuracy and computational benefits of our proposed method by extensive evaluation on multiple data-sets, models and tasks.
翻訳日:2021-04-25 08:10:47 公開日:2020-12-28
# (参考訳) マルコフ決定プロセスのためのブラックウェルオンライン学習

Blackwell Online Learning for Markov Decision Processes ( http://arxiv.org/abs/2012.14043v1 )

ライセンス: CC BY 4.0
Tao Li, Guanze Peng, Quanyan Zhu(参考訳) 本研究は,オンライン最適化の観点からのマルコフ決定過程(mdp)の新しい解釈を提供する。 このようなオンライン最適化コンテキストでは、mdpのポリシーは決定変数と見なされ、対応する値関数は環境からの報酬フィードバックとして扱われる。 この解釈に基づいて,後悔の最小化,ブラックウェル接近可能性理論,MDPの学習理論のギャップを埋める,MDPによって誘導されるブラックウェルゲームを構築する。 具体的には,1)オフライン計画のためのblackwell値反復と,2)mdpにおけるオンライン学習のためのblackwell $q-$learningを提案する。 我々の理論的保証は数値実験によって裏付けられている。

This work provides a novel interpretation of Markov Decision Processes (MDP) from the online optimization viewpoint. In such an online optimization context, the policy of the MDP is viewed as the decision variable while the corresponding value function is treated as payoff feedback from the environment. Based on this interpretation, we construct a Blackwell game induced by MDP, which bridges the gap among regret minimization, Blackwell approachability theory, and learning theory for MDP. Specifically, from the approachability theory, we propose 1) Blackwell value iteration for offline planning and 2) Blackwell $Q-$learning for online learning in MDP, both of which are shown to converge to the optimal solution. Our theoretical guarantees are corroborated by numerical experiments.
翻訳日:2021-04-24 19:00:30 公開日:2020-12-28
# (参考訳) 不均一グラフ上の結合振動子の同期予測学習

Learning to predict synchronization of coupled oscillators on heterogeneous graphs ( http://arxiv.org/abs/2012.14048v1 )

ライセンス: CC BY 4.0
Hardeep Bassi, Richard Yim, Rohith Kodukula, Joshua Vendrow, Cherlin Zhu, Hanbaek Lyu(参考訳) 任意のグラフ上の結合発振器の系が、ある期間のシステムの軌道と共に与えられると仮定する。 システムが最終的に同期するかどうか予測できますか? これは、特に基礎となるグラフの構造が非常に異なる場合に、重要なが分析的に難解な問題である。 本研究では,初期ダイナミクスと組んだグラフ群を「同期化」または「非同期化」という2つのクラスに分類する問題として,「同期化予測のための学習」(l2psync)と呼ぶ,まったく異なるアプローチを採用する。 我々の結論は、不均一なグラフ集合上での同期と非同期のダイナミクスの十分なデータセットで訓練された場合、多くのバイナリ分類アルゴリズムが驚くべき精度で未知のシステムの将来を予測できるということである。 また,複数のランダムサブグラフから観測されるダイナミクスのトレーニングにより,提案手法を大規模グラフにスケールアップする「センスブル予測」アルゴリズムを提案する。 多くの場合、ダイナミクスの最初の数回のイテレーションは、グラフの静的な特徴よりもはるかに重要であることが分かりました。 連続・離散結合発振器の3つのモデル - 倉本モデル, ホタルセルオートマトン, グリーンバーグ・ハスティングスモデル - について本手法を実証する。

Suppose we are given a system of coupled oscillators on an arbitrary graph along with the trajectory of the system during some period. Can we predict whether the system will eventually synchronize? This is an important but analytically intractable question especially when the structure of the underlying graph is highly varied. In this work, we take an entirely different approach that we call "learning to predict synchronization" (L2PSync), by viewing it as a classification problem for sets of graphs paired with initial dynamics into two classes: `synchronizing' or `non-synchronizing'. Our conclusion is that, once trained on large enough datasets of synchronizing and non-synchronizing dynamics on heterogeneous sets of graphs, a number of binary classification algorithms can successfully predict the future of an unknown system with surprising accuracy. We also propose an "ensemble prediction" algorithm that scales up our method to large graphs by training on dynamics observed from multiple random subgraphs. We find that in many instances, the first few iterations of the dynamics are far more important than the static features of the graphs. We demonstrate our method on three models of continuous and discrete coupled oscillators -- The Kuramoto model, the Firefly Cellular Automata, and the Greenberg-Hastings model.
翻訳日:2021-04-24 18:43:43 公開日:2020-12-28
# (参考訳) 医療データの多種分類における畳み込みニューラルネットワーク

Convolutional Neural Networks in Multi-Class Classification of Medical Data ( http://arxiv.org/abs/2012.14059v1 )

ライセンス: CC BY 4.0
YuanZheng Hu, Marina Sokolova(参考訳) 畳み込みニューラルネットワーク(CNN)の大規模医療データセットの多分類分類への応用について報告する。 我々は、CNNモデルとデータ前処理の変化が分類結果に与える影響を詳細に論じる。 最後に,深層学習(CNN)と浅層学習(Gradient Boosting)の両方からなるアンサンブルモデルを導入する。 本手法は,本研究で達成した最高3クラス分類精度である64.93の精度を実現する。 以上の結果から,CNNとアンサンブルは精度よりも高いリコールが得られることがわかった。 最も高いリコールは68.87で、最高精度は65.04である。

We report applications of Convolutional Neural Networks (CNN) to multi-classification classification of a large medical data set. We discuss in detail how changes in the CNN model and the data pre-processing impact the classification results. In the end, we introduce an ensemble model that consists of both deep learning (CNN) and shallow learning models (Gradient Boosting). The method achieves Accuracy of 64.93, the highest three-class classification accuracy we achieved in this study. Our results also show that CNN and the ensemble consistently obtain a higher Recall than Precision. The highest Recall is 68.87, whereas the highest Precision is 65.04.
翻訳日:2021-04-24 18:25:27 公開日:2020-12-28
# (参考訳) 分子設計のための深層進化学習

Deep Evolutionary Learning for Molecular Design ( http://arxiv.org/abs/2102.01011v1 )

ライセンス: CC BY 4.0
Yifeng Li, Hsu Kiang Ooi, Alain Tchagang(参考訳) 本稿では,分子設計のための断片ベース深層生成モデルと多目的進化計算を統合した深層進化学習(DEL)プロセスを提案する。 本手法により,(1)構造空間ではなく潜在空間における進化操作により,新しい分子構造を創り出すことができ,(2)新たに生成した高品質試料を用いた生成モデルの微調整が可能となった。 このように、DELはサンプル人口と生成モデル学習の両方を改善するデータモデル共進化の概念を実装している。 2つの公開データセットに関する実験は、delによって得られたサンプル集団が特性分布を改善し、多目的ベイズ最適化アルゴリズムによって生成されたサンプルを支配していることを示している。

In this paper, we propose a deep evolutionary learning (DEL) process that integrates fragment-based deep generative model and multi-objective evolutionary computation for molecular design. Our approach enables (1) evolutionary operations in the latent space of the generative model, rather than the structural space, to generate novel promising molecular structures for the next evolutionary generation, and (2) generative model fine-tuning using newly generated high-quality samples. Thus, DEL implements a data-model co-evolution concept which improves both sample population and generative model learning. Experiments on two public datasets indicate that sample population obtained by DEL exhibits improved property distributions, and dominates samples generated by multi-objective Bayesian optimization algorithms.
翻訳日:2021-04-24 18:03:10 公開日:2020-12-28
# (参考訳) Pivot through English: 文書検索なしで多言語質問に確実に答える

Pivot Through English: Reliably Answering Multilingual Questions without Document Retrieval ( http://arxiv.org/abs/2012.14094v1 )

ライセンス: CC BY 4.0
Ivan Montero, Shayne Longpre, Ni Lao, Andrew J. Frank, Christopher DuBois(参考訳) 低資源言語 (LRL) における解答の解答法は英語よりかなり遅れている。 それらは非英語の文書検索の欠点に苦しむだけでなく、タスクや翻訳の言語固有の監督に依存しています。 利用可能なリソースに対してより現実的なタスク設定を定式化し、文書検索を回避し、知識を英語から低リソース言語に確実に伝達する。 強固な英語質問応答モデルまたはデータベースを仮定して、英語をピボットする手法を比較し分析する: 外部クエリを英語にマップし、その後、英語回答を対象言語回答に戻す。 このタスク設定内では、再ランク付き英語トレーニングセットのセマンティック類似性検索に類似したReranked Multilingual Maximal Inner Product Search (RM-MIPS)を提案し、XQuADでは2.7%、MKQAでは6.2%で最強のベースラインを上回ります。 分析は、低リソース言語、広範囲なイントラクタデータ、クエリ分散のミスアライメントといった、挑戦的な設定における最先端の代替手段に対するこの戦略の有効性を示す。 検索を回避して,本手法は,対象言語で追加のトレーニングデータを必要とせずに,ほぼすべての言語に迅速な応答生成を提供する。

Existing methods for open-retrieval question answering in lower resource languages (LRLs) lag significantly behind English. They not only suffer from the shortcomings of non-English document retrieval, but are reliant on language-specific supervision for either the task or translation. We formulate a task setup more realistic to available resources, that circumvents document retrieval to reliably transfer knowledge from English to lower resource languages. Assuming a strong English question answering model or database, we compare and analyze methods that pivot through English: to map foreign queries to English and then English answers back to target language answers. Within this task setup we propose Reranked Multilingual Maximal Inner Product Search (RM-MIPS), akin to semantic similarity retrieval over the English training set with reranking, which outperforms the strongest baselines by 2.7% on XQuAD and 6.2% on MKQA. Analysis demonstrates the particular efficacy of this strategy over state-of-the-art alternatives in challenging settings: low-resource languages, with extensive distractor data and query distribution misalignment. Circumventing retrieval, our analysis shows this approach offers rapid answer generation to almost any language off-the-shelf, without the need for any additional training data in the target language.
翻訳日:2021-04-24 18:02:01 公開日:2020-12-28
# (参考訳) リスクに敏感なdeep rl: 分散制約されたアクター-クリティックはグローバルに最適なポリシーを見つける

Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy ( http://arxiv.org/abs/2012.14098v1 )

ライセンス: CC BY 4.0
Han Zhong, Ethan X. Fang, Zhuoran Yang, Zhaoran Wang(参考訳) 深層強化学習は様々なアプリケーションで大きな成功を収めてきたが、既存の作品の多くは、総リターンの期待値の最大化にのみ焦点を合わせ、本質的な確率性を無視している。 このような確率性はアレエータ的不確実性としても知られ、リスクの概念と密接に関連している。 本研究では,分散リスク基準を用いて平均報酬設定下で,リスクに敏感な深層強化学習を初めて研究する。 特に,長期平均報酬の期待値を最大化する政策を,平均報酬の長期分散がしきい値に上限づけられているという制約を条件として,目標とする分散制約付き政策最適化問題に焦点をあてる。 ラグランジアンとフェンシェルの双対性を利用して、元の問題を制約のないサドルポイントポリシー最適化問題に変換し、ポリシー、ラグランジュ乗算器、フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。 値関数とポリシ関数が多層オーバーパラメータ化ニューラルネットワークで表される場合、アクター・クリティカルなアルゴリズムは、サブ線形レートでグローバルに最適なポリシを求める一連のポリシーを生成することを証明します。

While deep reinforcement learning has achieved tremendous successes in various applications, most existing works only focus on maximizing the expected value of total return and thus ignore its inherent stochasticity. Such stochasticity is also known as the aleatoric uncertainty and is closely related to the notion of risk. In this work, we make the first attempt to study risk-sensitive deep reinforcement learning under the average reward setting with the variance risk criteria. In particular, we focus on a variance-constrained policy optimization problem where the goal is to find a policy that maximizes the expected value of the long-run average reward, subject to a constraint that the long-run variance of the average reward is upper bounded by a threshold. Utilizing Lagrangian and Fenchel dualities, we transform the original problem into an unconstrained saddle-point policy optimization problem, and propose an actor-critic algorithm that iteratively and efficiently updates the policy, the Lagrange multiplier, and the Fenchel dual variable. When both the value and policy functions are represented by multi-layer overparameterized neural networks, we prove that our actor-critic algorithm generates a sequence of policies that finds a globally optimal policy at a sublinear rate.
翻訳日:2021-04-24 17:45:24 公開日:2020-12-28
# (参考訳) 新型コロナウイルス画像の診断・診断 : 課題, 機会, 応用

Diagnosis/Prognosis of COVID-19 Images: Challenges, Opportunities, and Applications ( http://arxiv.org/abs/2012.14106v1 )

ライセンス: CC BY 4.0
Arash Mohammadi, Yingxu Wang, Nastaran Enshaei, Parnian Afshar, Farnoosh Naderkhani, Anastasia Oikonomou, Moezedin Javad Rafiee, Helder C. R. Oliveira, Svetlana Yanushkevich, and Konstantinos N. Plataniotis(参考訳) 新型コロナウイルス(covid-19)は、われわれが2020年に知っていたように急速に世界を変えた。 これは一般には解析疫学や特定の信号処理理論に対する最も先行しない挑戦となる。 このパンデミックを克服し、将来に備えるための効率的な処理/学習モデルを開発することが重要である。 この点において、医療画像はcovid-19の管理において重要な役割を担っている。 しかし、人間中心の医療画像の解釈は退屈であり、主観的である。 この結果、医学画像の分析と解釈のためのRadiomicsモデルの開発への関心が高まった。 信号処理(SP)とディープラーニング(DL)モデルは、診断・予後、重症度評価、治療反応、および新型コロナウイルス患者のモニタリングのための堅牢な放射能ソリューションの開発を支援する。 本稿では、新型コロナウイルスの診断(スクリーニング/モニタリング)と予後(アウトカム予測と重症度評価)のためのsp/dl-empoweredモデルの開発の現状、課題、機会について概説する。 より具体的には、この記事は、COVID-19の分析疫学と超信号処理の理論的枠組みに関する最新の開発から始まる。 その後、covid-19のイメージングモダリティと放射線学的特徴について論じる。 次に、sl/dlに基づくcovid-19感染の解析に関する放射線モデルについて、covid-19病変の分節化、アウトカム予測の予測モデル、重症度評価、診断/分類モデルという4つの領域について述べる。 最後に、オープンな問題と機会を詳細に示す。

The novel Coronavirus disease, COVID-19, has rapidly and abruptly changed the world as we knew in 2020. It becomes the most unprecedent challenge to analytic epidemiology in general and signal processing theories in specific. Given its high contingency nature and adverse effects across the world, it is important to develop efficient processing/learning models to overcome this pandemic and be prepared for potential future ones. In this regard, medical imaging plays an important role for the management of COVID-19. Human-centered interpretation of medical images is, however, tedious and can be subjective. This has resulted in a surge of interest to develop Radiomics models for analysis and interpretation of medical images. Signal Processing (SP) and Deep Learning (DL) models can assist in development of robust Radiomics solutions for diagnosis/prognosis, severity assessment, treatment response, and monitoring of COVID-19 patients. In this article, we aim to present an overview of the current state, challenges, and opportunities of developing SP/DL-empowered models for diagnosis (screening/monitoring) and prognosis (outcome prediction and severity assessment) of COVID-19 infection. More specifically, the article starts by elaborating the latest development on the theoretical framework of analytic epidemiology and hypersignal processing for COVID-19. Afterwards, imaging modalities and Radiological characteristics of COVID-19 are discussed. SL/DL-based Radiomic models specific to the analysis of COVID-19 infection are then described covering the following four domains: Segmentation of COVID-19 lesions; Predictive models for outcome prediction; Severity assessment, and; Diagnosis/classification models. Finally, open problems and opportunities are presented in detail.
翻訳日:2021-04-24 17:44:17 公開日:2020-12-28
# (参考訳) セマンティクスセグメンテーションのスペクトル解析 : 特徴の切り込みと弱いアノテーションへの応用

Spectral Analysis for Semantic Segmentation with Applications on Feature Truncation and Weak Annotation ( http://arxiv.org/abs/2012.14123v1 )

ライセンス: CC BY 4.0
Li-Wei Chen, Wei-Chen Chiu, Chin-Tien Wu(参考訳) セマンティックセグメンテーションのための現在のニューラルネットワークは、高密度マップの計算コストを軽減するために、画像のダウンサンプルグリッド上のピクセルワイズセマンティクスを予測する。 しかし、結果のセグメンテーションマップの精度は、特に物体の境界付近の領域で低下することがある。 本稿では, ダウンサンプリンググリッドのサンプリング効率について, より深く検討する。 周波数領域におけるネットワークバック伝搬過程を解析するスペクトル解析を適用することで、クロスエントロピーは、主にセグメンテーションマップの低周波成分とCNNの特徴の成分によって寄与されることが分かる。 ネットワーク性能は、ダウンサンプルグリッドの解像度がカットオフ周波数を満たしている限り維持される。 このような発見により、cnnの機能サイズを制限し、関連する高周波成分を除去する、単純かつ効果的な機能切断法が提案される。 この方法は計算コストを削減できるだけでなく,セマンティックセグメンテーションネットワークの性能も維持できる。 さらに、この手法を典型的なネットワークプルーニング手法とシームレスに統合することで、さらなるモデル削減が可能となる。 一方,セグメンテーションマップの低周波情報を取り込み,収集が容易な意味セグメンテーションのためのブロック方向の弱いアノテーションを従業員に提供する。 提案手法を用いることで,ブロックワイズアノテーションと特徴トランケーション手法の有効性を容易に推定できる。

The current neural networks for semantic segmentation usually predict the pixel-wise semantics on the down-sampled grid of images to alleviate the computational cost for dense maps. However, the accuracy of resultant segmentation maps may also be down graded particularly in the regions near object boundaries. In this paper, we advance to have a deeper investigation on the sampling efficiency of the down-sampled grid. By applying the spectral analysis that analyze on the network back propagation process in frequency domain, we discover that cross-entropy is mainly contributed by the low-frequency components of segmentation maps, as well as that of the feature in CNNs. The network performance maintains as long as the resolution of the down sampled grid meets the cut-off frequency. Such finding leads us to propose a simple yet effective feature truncation method that limits the feature size in CNNs and removes the associated high-frequency components. This method can not only reduce the computational cost but also maintain the performance of semantic segmentation networks. Moreover, one can seamlessly integrate this method with the typical network pruning approaches for further model reduction. On the other hand, we propose to employee a block-wise weak annotation for semantic segmentation that captures the low-frequency information of the segmentation map and is easy to collect. Using the proposed analysis scheme, one can easily estimate the efficacy of the block-wise annotation and the feature truncation method.
翻訳日:2021-04-24 16:24:14 公開日:2020-12-28
# (参考訳) biレベル特徴冗長性低減による教師なしドメイン適応の改善

Improving Unsupervised Domain Adaptation by Reducing Bi-level Feature Redundancy ( http://arxiv.org/abs/2012.15732v1 )

ライセンス: CC BY 4.0
Mengzhu Wang, Xiang Zhang, Long Lan, Wei Wang, Huibin Tan, Zhigang Luo(参考訳) 特徴冗長性の低減はディープラーニングモデルの精度向上に有効な効果を示しており、教師なしドメイン適応(UDA)モデルにも不可欠である。 しかし、UDA分野における最近の取り組みはこの点を無視している。 さらに、UDAから独立してこれを実現できる主要なスキームは、純粋に単一のドメインを含むため、クロスドメインタスクには有効ではないかもしれない。 本稿では,UDAを両面的に改善する上で,特徴冗長性を低減することの重要性を強調した。 第1のレベルでは、sequel domain-invarianceにおける機能冗長性の副作用を緩和しながら、特定のドメイン情報を保存しながら、転送可能なdecorrelated normalizationモジュールでコンパクトなドメイン固有の機能を保証する。 第2のレベルでは、ドメイン共有表現によって生じるドメイン不変の特徴冗長性は、より良い一般化のために代替ブランド直交によってさらに緩和される。 これら2つの新しい側面は、BNベースのバックボーンニューラルネットワークに簡単に接続できる。 具体的には、単にresnet50に適用するだけで、5つの人気のあるベンチマークで最先端のパフォーマンスを達成できます。 私たちのコードはhttps://github.com/dreamkily/gudaで入手できる。

Reducing feature redundancy has shown beneficial effects for improving the accuracy of deep learning models, thus it is also indispensable for the models of unsupervised domain adaptation (UDA). Nevertheless, most recent efforts in the field of UDA ignores this point. Moreover, main schemes realizing this in general independent of UDA purely involve a single domain, thus might not be effective for cross-domain tasks. In this paper, we emphasize the significance of reducing feature redundancy for improving UDA in a bi-level way. For the first level, we try to ensure compact domain-specific features with a transferable decorrelated normalization module, which preserves specific domain information whilst easing the side effect of feature redundancy on the sequel domain-invariance. In the second level, domain-invariant feature redundancy caused by domain-shared representation is further mitigated via an alternative brand orthogonality for better generalization. These two novel aspects can be easily plugged into any BN-based backbone neural networks. Specifically, simply applying them to ResNet50 has achieved competitive performance to the state-of-the-arts on five popular benchmarks. Our code will be available at https://github.com/dreamkily/gUDA.
翻訳日:2021-04-20 15:17:38 公開日:2020-12-28
# (参考訳) 深層学習による高度地図再構成によるカラーファウンダス画像上のマキュラの解析

Analysis of Macula on Color Fundus Images Using Heightmap Reconstruction Through Deep Learning ( http://arxiv.org/abs/2012.14140v1 )

ライセンス: CC BY 4.0
Peyman Tahghighi, Reza A.Zoroofi, Sare Safi, Alireza Ramezani(参考訳) 網膜画像に基づく診断には、しばしば3次元構造の明確な理解が必要であるが、撮像された画像の2次元的な性質のため、その情報は推測できない。 しかし, 3次元再構成法を用いて, 眼底画像から黄斑領域の高さ情報を復元し, 黄斑疾患の診断・スクリーニングに役立てることができる。 近年の手法ではシェーディング情報をハイトマップ予測に用いているが、その出力は近くのピクセル間の依存性を無視し、シェーディング情報のみを利用するため正確ではなかった。 さらに、他の方法は、実際には利用できない複数の網膜の画像の可用性に依存していた。 本稿では,条件付き生成型adversarial network (cgans) と深い教師付きネットワークの成功に動機づけられ,カラーファンデース画像上のmaculaの高さ情報を再構築するために,段階的な改良と深層監視を用いて,出力の詳細と品質を向上させる新しいジェネレータのアーキテクチャを提案する。 独自のデータセットで比較した結果,提案手法は,画像翻訳や医用画像翻訳において最先端の手法のすべてに勝っていることがわかった。 また,提案手法が眼科医に診断のための追加情報を提供できることも示唆された。

For medical diagnosis based on retinal images, a clear understanding of 3D structure is often required but due to the 2D nature of images captured, we cannot infer that information. However, by utilizing 3D reconstruction methods, we can recover the height information of the macula area on a fundus image which can be helpful for diagnosis and screening of macular disorders. Recent approaches have used shading information for heightmap prediction but their output was not accurate since they ignored the dependency between nearby pixels and only utilized shading information. Additionally, other methods were dependent on the availability of more than one image of the retina which is not available in practice. In this paper, motivated by the success of Conditional Generative Adversarial Networks(cGANs) and deeply supervised networks, we propose a novel architecture for the generator which enhances the details and the quality of output by progressive refinement and the use of deep supervision to reconstruct the height information of macula on a color fundus image. Comparisons on our own dataset illustrate that the proposed method outperforms all of the state-of-the-art methods in image translation and medical image translation on this particular task. Additionally, perceptual studies also indicate that the proposed method can provide additional information for ophthalmologists for diagnosis.
翻訳日:2021-04-20 13:24:53 公開日:2020-12-28
# (参考訳) Google Earth Engine対応Pythonによる人為的パレオ・ランドスケープの特徴の同定

A Google Earth Engine-enabled Python approach to improve identification of anthropogenic palaeo-landscape features ( http://arxiv.org/abs/2012.14180v1 )

ライセンス: CC BY 4.0
Filippo Brandolini, Guillem Domingo Ribas, Andrea Zerboni, Sam Turner(参考訳) 近年、景観の持続可能な発展の必要性が重要なテーマとなっている。 現在の手法は、景観遺産に対する全体論的アプローチを採用し、補完的な景観管理戦略を促進するための学際対話を促進する。 自然と文化の景観遺産の社会経済的価値が世界的に認知されるようになり、リモートセンシングツールは風景遺産の記録と管理を促進するためにますます使われている。 衛星リモートセンシング技術はランドスケープ研究に大きな改善をもたらした。 Google Earth Engineのクラウドベースのプラットフォームが出現したことで、LandsatやCopernicus Sentinelといった衛星画像の迅速な探索と処理が可能になった。 本稿では,古河流域の地形の識別におけるセンチネル-2衛星データの利用について,完新世中期以降の人的搾取の特徴から,po平野で評価した。 スペクトル指数とスペクトル分解分析と共に埋没水文・人為的特徴を検出するための衛星画像の可能性を調べるために、多時期的手法が採用されている。 この研究は、ランドスケープ研究におけるGEE Python APIの最初の応用の1つである。 ここで提案された完全なFOSS-クラウドプロトコルは、Google Colabで開発されたPythonのスクリプトで構成されている。

The necessity of sustainable development for landscapes has emerged as an important theme in recent decades. Current methods take a holistic approach to landscape heritage and promote an interdisciplinary dialogue to facilitate complementary landscape management strategies. With the socio-economic values of the natural and cultural landscape heritage increasingly recognised worldwide, remote sensing tools are being used more and more to facilitate the recording and management of landscape heritage. Satellite remote sensing technologies have enabled significant improvements in landscape research. The advent of the cloud-based platform of Google Earth Engine has allowed the rapid exploration and processing of satellite imagery such as the Landsat and Copernicus Sentinel datasets. In this paper, the use of Sentinel-2 satellite data in the identification of palaeo-riverscape features has been assessed in the Po Plain, selected because it is characterized by human exploitation since the Mid-Holocene. A multi-temporal approach has been adopted to investigate the potential of satellite imagery to detect buried hydrological and anthropogenic features along with Spectral Index and Spectral Decomposition analysis. This research represents one of the first applications of the GEE Python API in landscape studies. The complete FOSS-cloud protocol proposed here consists of a Python code script developed in Google Colab which could be simply adapted and replicated in different areas of the world
翻訳日:2021-04-20 13:10:28 公開日:2020-12-28
# (参考訳) 大きなインデックスサイズに対する高密度低次元情報検索の呪い

The Curse of Dense Low-Dimensional Information Retrieval for Large Index Sizes ( http://arxiv.org/abs/2012.14210v1 )

ライセンス: CC BY-SA 4.0
Nils Reimers and Iryna Gurevych(参考訳) 近年,密集した低次元表現を用いた情報検索が普及し,BM25のような従来のスパース表現に優れていた。 しかし、密度表現が大きなインデックスサイズでどのように振る舞うか、以前の研究は調査されなかった。 指数の大きさを増加させるため,密度表現の性能はスパース表現よりも速く低下することを示す。 極端なケースでは、あるインデックスサイズでスパース表現が密接な表現よりも優れるティッピングポイントに繋がることもある。 この挙動は表現の次元の数(次元が小さいほど、偽陽性の確率が高くなる)と強く結びついていることを示している。 無関係な書類を返します

Information Retrieval using dense low-dimensional representations recently became popular and showed out-performance to traditional sparse-representations like BM25. However, no previous work investigated how dense representations perform with large index sizes. We show theoretically and empirically that the performance for dense representations decreases quicker than sparse representations for increasing index sizes. In extreme cases, this can even lead to a tipping point where at a certain index size sparse representations outperform dense representations. We show that this behavior is tightly connected to the number of dimensions of the representations: The lower the dimension, the higher the chance for false positives, i.e. returning irrelevant documents.
翻訳日:2021-04-20 13:08:40 公開日:2020-12-28
# (参考訳) フェイクニュース(オンライン偽情報)検出のための高度な機械学習技術:システムマッピング研究

Advanced Machine Learning Techniques for Fake News (Online Disinformation) Detection: A Systematic Mapping Study ( http://arxiv.org/abs/2101.01142v1 )

ライセンス: CC BY 4.0
Michal Choras, Konstantinos Demestichas, Agata Gielczyk, Alvaro Herrero, Pawel Ksieniewicz, Konstantina Remoundou, Daniel Urda, Michal Wozniak(参考訳) フェイクニュースは今や社会にとって大きな問題となり、偽情報と戦う人々にとって大きな課題となった。 この現象は、民主的な選挙、個人や組織の評判を悩ませ、米国やブラジルでのCOVID-19パンデミックなど、市民に悪影響を及ぼした。 したがって、高度な機械学習(ML)手法を用いてこの現象に対処する効果的なツールを開発することは、大きな課題となる。 下記の論文では、偽情報との戦いにおける知的ツールの適用に関する現在の知識体系を示す。 情報戦争における偽ニュースの歴史的展望と現在の役割を示すことから始まった。 専門家の仕事のみに基づく提案された解が分析され、誤情報源の検出におけるインテリジェントシステムの適用の最も重要な方向が指摘される。 さらに,本論文では,フェールニュース検出のためのMLソリューションの評価に有用なデータセット(主にデータセット)を提示し,本課題に関連するR&Dプロジェクトについて概説する。 この研究の主な目的は、偽ニュースの検出における知識の現状を分析することである。一方、可能な解決策を示すためであり、一方、将来の研究を動機付ける主な課題と方法論的ギャップを特定することである。

Fake news has now grown into a big problem for societies and also a major challenge for people fighting disinformation. This phenomenon plagues democratic elections, reputations of individual persons or organizations, and has negatively impacted citizens, (e.g., during the COVID-19 pandemic in the US or Brazil). Hence, developing effective tools to fight this phenomenon by employing advanced Machine Learning (ML) methods poses a significant challenge. The following paper displays the present body of knowledge on the application of such intelligent tools in the fight against disinformation. It starts by showing the historical perspective and the current role of fake news in the information war. Proposed solutions based solely on the work of experts are analysed and the most important directions of the application of intelligent systems in the detection of misinformation sources are pointed out. Additionally, the paper presents some useful resources (mainly datasets useful when assessing ML solutions for fake news detection) and provides a short overview of the most important R&D projects related to this subject. The main purpose of this work is to analyse the current state of knowledge in detecting fake news; on the one hand to show possible solutions, and on the other hand to identify the main challenges and methodological gaps to motivate future research.
翻訳日:2021-04-20 13:01:37 公開日:2020-12-28
# (参考訳) FOREST: 正規表現のための対話型マルチツリー合成器

FOREST: An Interactive Multi-tree Synthesizer for Regular Expressions ( http://arxiv.org/abs/2012.14235v1 )

ライセンス: CC BY-SA 4.0
Margarida Ferreira and Miguel Terra-Neves and Miguel Ventura and In\^es Lynce and Ruben Martins(参考訳) 正規表現に基づくフォームバリデータはしばしば、ユーザが間違ったフォーマットにデータを挿入しないようにデジタル形式で使用される。 しかし、これらのバリデータを書くことは、一部のユーザーに挑戦をもたらす可能性がある。 本稿では,デジタル形式検証のための正規表現合成器FOESTを提案する。 FORESTは、入力値の所望のパターンと入力内の整数値の有効性を保証するグループをキャプチャする条件のセットとを一致させる正規表現を生成する。 合成手順は列挙探索に基づいており、探索空間を探索・プルークするためにSMT(Satisfiability Modulo Theories)ソルバを用いている。 本稿では,正規表現合成のための新しい表現であるmulti-treeを提案する。 また、与えられた正規表現のキャプチャ条件を合成する新しいSMT符号化を提案する。 合成正規表現の信頼性を高めるために,入力の識別に基づくユーザインタラクションを実装した。 正規表現を用いた実世界のフォームバリデーションインスタンスにおけるforestの評価を行った。 実験の結果、FOESTは72%のインスタンスで所望の正規表現を返却し、最先端の正規表現シンセサイザーであるREGELを上回った。

Form validators based on regular expressions are often used on digital forms to prevent users from inserting data in the wrong format. However, writing these validators can pose a challenge to some users. We present FOREST, a regular expression synthesizer for digital form validations. FOREST produces a regular expression that matches the desired pattern for the input values and a set of conditions over capturing groups that ensure the validity of integer values in the input. Our synthesis procedure is based on enumerative search and uses a Satisfiability Modulo Theories (SMT) solver to explore and prune the search space. We propose a novel representation for regular expressions synthesis, multi-tree, which induces patterns in the examples and uses them to split the problem through a divide-and-conquer approach. We also present a new SMT encoding to synthesize capture conditions for a given regular expression. To increase confidence in the synthesized regular expression, we implement user interaction based on distinguishing inputs. We evaluated FOREST on real-world form-validation instances using regular expressions. Experimental results show that FOREST successfully returns the desired regular expression in 72% of the instances and outperforms REGEL, a state-of-the-art regular expression synthesizer.
翻訳日:2021-04-20 12:28:43 公開日:2020-12-28
# (参考訳) 方言シナリオにおける文脈認識的パーソナリティ推論 : UDIVAデータセットの導入

Context-Aware Personality Inference in Dyadic Scenarios: Introducing the UDIVA Dataset ( http://arxiv.org/abs/2012.14259v1 )

ライセンス: CC BY 4.0
Cristina Palmero, Javier Selva, Sorina Smeureanu, Julio C. S. Jacques Junior, Albert Clap\'es, Alexa Mosegu\'i, Zejian Zhang, David Gallardo, Georgina Guilera, David Leiva, Sergio Escalera(参考訳) 本稿では,顔と顔の対話の非作用データセットである UDIVA について紹介する。 データセットは188セッションに配布された147人の参加者の90.5時間のdyadicインタラクションで構成され、複数の視聴覚および生理的センサーを用いて記録される。 現在、社会デモグラフィ、自己およびピアレポートされたパーソナリティ、内部状態、および参加者からの関係のプロファイリングが含まれている。 UDIVAの初期分析として,両対話者からの視聴覚データと異なるコンテキストソースを用いて,対象者の性格特性を抑圧する,自己申告型性格推定手法を提案する。 インクリメンタルな研究による予備的な結果は、利用可能なすべてのコンテキスト情報を使用することで一貫した改善を示す。

This paper introduces UDIVA, a new non-acted dataset of face-to-face dyadic interactions, where interlocutors perform competitive and collaborative tasks with different behavior elicitation and cognitive workload. The dataset consists of 90.5 hours of dyadic interactions among 147 participants distributed in 188 sessions, recorded using multiple audiovisual and physiological sensors. Currently, it includes sociodemographic, self- and peer-reported personality, internal state, and relationship profiling from participants. As an initial analysis on UDIVA, we propose a transformer-based method for self-reported personality inference in dyadic scenarios, which uses audiovisual data and different sources of context from both interlocutors to regress a target person's personality traits. Preliminary results from an incremental study show consistent improvements when using all available context information.
翻訳日:2021-04-20 12:13:48 公開日:2020-12-28
# (参考訳) マルチアーマッドバンドにおける生涯学習

Lifelong Learning in Multi-Armed Bandits ( http://arxiv.org/abs/2012.14264v1 )

ライセンス: CC BY 4.0
Matthieu Jedor, Jonathan Lou\"edec, Vianney Perchet(参考訳) 将来のパフォーマンスを改善するために、以前のタスクから蓄積した知識を継続的に学習し、活用することは、長く続く機械学習の問題である。 本稿では,一連のタスクにおいて生じた後悔の総量を最小限に抑えるため,マルチアームバンディットフレームワークの問題点を考察する。 ほとんどのバンディットアルゴリズムは、最悪のケースの後悔を低く抑えるように設計されていますが、ここでは、以前の分布から引き出されたバンディットインスタンスに対する平均的な後悔について調べます。 UCBアルゴリズムの信頼区間調整に特に着目する。 欲望のあるアルゴリズムを用いたbandit over banditアプローチを提案し,静止環境と非定常環境の両方において広範囲な実験評価を行う。 我々はさらに,これまでの作業よりも経験的な改善を示した,死のバンディット問題に対するソリューションを応用した。

Continuously learning and leveraging the knowledge accumulated from prior tasks in order to improve future performance is a long standing machine learning problem. In this paper, we study the problem in the multi-armed bandit framework with the objective to minimize the total regret incurred over a series of tasks. While most bandit algorithms are designed to have a low worst-case regret, we examine here the average regret over bandit instances drawn from some prior distribution which may change over time. We specifically focus on confidence interval tuning of UCB algorithms. We propose a bandit over bandit approach with greedy algorithms and we perform extensive experimental evaluations in both stationary and non-stationary environments. We further apply our solution to the mortal bandit problem, showing empirical improvement over previous work.
翻訳日:2021-04-20 12:11:24 公開日:2020-12-28
# (参考訳) 認識・再識別モデルの性能向上のための適応閾値

Adaptive Threshold for Better Performance of the Recognition and Re-identification Models ( http://arxiv.org/abs/2012.14305v1 )

ライセンス: CC BY 4.0
Bharat Bohara(参考訳) 決定しきい値を選択することは、どの分類タスクでも難しい仕事の1つです。 モデルがどの程度正確かは、決定された境界が慎重に拾われなければ、パフォーマンス全体が無駄になります。 一方,一方のクラスが他方よりも優勢な不均衡分類では,従来のしきい値選択法に依存すると性能が低下する。 しきい値や決定境界が、SVMや決定木といった機械学習戦略に基づいて適切に選択されたとしても、動的に変化するデータベースや、顔認識や人物の再識別モデルなど、ほぼ類似したアイデンティティ機能では、何らかの点で失敗する。 これにより、不均衡分類とインクリメンタルデータベースサイズに対する決定しきい値選択の適応性が必要となり、lfwデータセットおよび自己準備アスリートデータセット上でオンライン最適化に基づく統計的特徴学習適応技術が開発・テストされる。 この適応しきい値を採用する手法は、どの分類や識別タスクにおいても、通常hit-and-trial法で取られる固定しきい値 {0.3,0.5,0.7} と比較して、モデルの精度が12-45%向上した。 完全なアルゴリズムのソースコードは、https://github.com/Varat7v2/adaptive-thresholdで入手できる。

Choosing a decision threshold is one of the challenging job in any classification tasks. How much the model is accurate, if the deciding boundary is not picked up carefully, its entire performance would go in vain. On the other hand, for imbalance classification where one of the classes is dominant over another, relying on the conventional method of choosing threshold would result in poor performance. Even if the threshold or decision boundary is properly chosen based on machine learning strategies like SVM and decision tree, it will fail at some point for dynamically varying databases and in case of identity-features that are more or less similar, like in face recognition and person re-identification models. Hence, with the need for adaptability of the decision threshold selection for imbalanced classification and incremental database size, an online optimization-based statistical feature learning adaptive technique is developed and tested on the LFW datasets and self-prepared athletes datasets. This method of adopting adaptive threshold resulted in 12-45% improvement in the model accuracy compared to the fixed threshold {0.3,0.5,0.7} that are usually taken via the hit-and-trial method in any classification and identification tasks. Source code for the complete algorithm is available at: https://github.com/Varat7v2/adaptive-threshold
翻訳日:2021-04-20 11:35:22 公開日:2020-12-28
# (参考訳) panarchy: 境界概念の波及

Panarchy: ripples of a boundary concept ( http://arxiv.org/abs/2012.14312v1 )

ライセンス: CC BY 4.0
Juan Rocha, Linda Luvuno, Jesse Rieb, Erin Crockett, Katja Malmborg, Michael Schoon, Garry Peterson(参考訳) 社会生態システムは時間とともにどのように変化するのか? 2002年、ホリングらはパナーキーの概念を提案し、社会生態学的システムを適応サイクルの相互作用の集合として提示した。 当初は概念の枠組みとメタファーのセットとして紹介され、パナーキーは多くの分野の学者の関心を集め、その考えはさらなる概念発展を刺激し続けている。 この概念が導入されてから20年近く経ち、どのように使われ、テストされ、拡張され、修正されたのかをレビューします。 定性的手法と機械学習を組み合わせることでこれを行う。 文書分析は科学的文献(n = 42)で一般的に使用されるパナーキーの特徴をコードするために用いられ、質的分析は2177の文書のトピックモデリングと相補された。 適応サイクルが最も注目を集めているパナキズムの特徴であることに気付きました。 しかし、最近の理論と経験的な研究は、将来の研究にいくつかの道筋を与えている。

How do social-ecological systems change over time? In 2002 Holling and colleagues proposed the concept of Panarchy, which presented social-ecological systems as an interacting set of adaptive cycles, each of which is produced by the dynamic tensions between novelty and efficiency at multiple scales. Initially introduced as a conceptual framework and set of metaphors, panarchy has gained the attention of scholars across many disciplines and its ideas continue to inspire further conceptual developments. Almost twenty years after this concept was introduced we review how it has been used, tested, extended and revised. We do this by combining qualitative methods and machine learning. Document analysis was used to code panarchy features that are commonly used in the scientific literature (N = 42), a qualitative analysis that was complemented with topic modeling of 2177 documents. We find that the adaptive cycle is the feature of panarchy that has attracted the most attention. Challenges remain in empirically grounding the metaphor, but recent theoretical and empirical work offers some avenues for future research.
翻訳日:2021-04-20 11:23:45 公開日:2020-12-28
# (参考訳) ディープニューラルネットワークのための一般化量子損失

Generalized Quantile Loss for Deep Neural Networks ( http://arxiv.org/abs/2012.14348v1 )

ライセンス: CC BY 4.0
Dvir Ben Or, Michael Kolomenkin, Gil Shabat(参考訳) このノートは、回帰ニューラルネットワークにカウント(または量子)制約を加える簡単な方法を示し、トレーニングセットに$n$サンプルが与えられた場合、$m<n$サンプルの予測が実際の値(ラベル)よりも大きくなることを保証している。 標準分位レグレッションネットワークとは異なり、提案手法は任意の損失関数に適用できるが、標準分位レグレッション損失は必ずしも適用できず、平均絶対差を最小化することができる。 このカウント制約はほとんどどこでもゼロ勾配を持つので、標準勾配降下法では最適化できない。 この問題を解決するために、標準的なニューラルネットワーク最適化手順に基づく変更スキームを理論的解析により提示する。

This note presents a simple way to add a count (or quantile) constraint to a regression neural net, such that given $n$ samples in the training set it guarantees that the prediction of $m<n$ samples will be larger than the actual value (the label). Unlike standard quantile regression networks, the presented method can be applied to any loss function and not necessarily to the standard quantile regression loss, which minimizes the mean absolute differences. Since this count constraint has zero gradients almost everywhere, it cannot be optimized using standard gradient descent methods. To overcome this problem, an alternation scheme, which is based on standard neural network optimization procedures, is presented with some theoretical analysis.
翻訳日:2021-04-20 11:14:39 公開日:2020-12-28
# (参考訳) 色識別と色構成のための深層神経モデル

Deep Neural Models for color discrimination and color constancy ( http://arxiv.org/abs/2012.14402v1 )

ライセンス: CC BY 4.0
Alban Flachot, Arash Akbarinia, Heiko H. Sch\"utt, Roland W. Fleming, Felix A. Wichmann, Karl R. Gegenfurtner(参考訳) 色コンステンシーは、様々な照度で一定の色を知覚する能力です。 そこで我々は,深層ニューラルネットワークのカラー定数をトレーニングし,その性能を様々な方法で評価した。 ネットワークへの入力は、2115の異なる3d形状の3dレンダリング画像の円錐励起と1600のマンセルチップのスペクトル反射、そして278の異なる自然照度の下で照らされた。 モデルはオブジェクトの反射率を分類するために訓練された。 1つのネットワーク、deep65はd65照明の下で訓練され、deepccは様々な照明の下で訓練された。 試験は4つの新しい照明で行われ、CIEL*a*b*色度が等間隔で、日光の軌跡に沿って2つ、直交して2つだった。 We found a high degree of color constancy for DeepCC, and constancy was higher along the daylight locus。 シーンから徐々に手がかりを取り除くと、一貫性は低下した。 異なるdnnアーキテクチャで高いレベルのカラーコンステンシーが達成された。 ResNetsも古典的なConvNetsも、複雑さの度合いが異なる。 しかし、畳み込みネットワークであるDeepCCは人間の色覚の3色次元に沿って色を表現し、ResNetsはより複雑な表現を示した。

Color constancy is our ability to perceive constant colors across varying illuminations. Here, we trained deep neural networks to be color constant and evaluated their performance with varying cues. Inputs to the networks consisted of the cone excitations in 3D-rendered images of 2115 different 3D-shapes, with spectral reflectances of 1600 different Munsell chips, illuminated under 278 different natural illuminations. The models were trained to classify the reflectance of the objects. One network, Deep65, was trained under a fixed daylight D65 illumination, while DeepCC was trained under varying illuminations. Testing was done with 4 new illuminations with equally spaced CIEL*a*b* chromaticities, 2 along the daylight locus and 2 orthogonal to it. We found a high degree of color constancy for DeepCC, and constancy was higher along the daylight locus. When gradually removing cues from the scene, constancy decreased. High levels of color constancy were achieved with different DNN architectures. Both ResNets and classical ConvNets of varying degrees of complexity performed well. However, DeepCC, a convolutional network, represented colors along the 3 color dimensions of human color vision, while ResNets showed a more complex representation.
翻訳日:2021-04-19 13:54:57 公開日:2020-12-28
# (参考訳) 太陽フレア予測のための形状に基づく特徴工学

Shape-based Feature Engineering for Solar Flare Prediction ( http://arxiv.org/abs/2012.14405v1 )

ライセンス: CC BY 4.0
Varad Deshmukh, Thomas Berger, James Meiss, and Elizabeth Bradley(参考訳) 太陽フレアは、太陽の表面にある活動領域(AR)の磁気的噴火によって引き起こされる。 これらの出来事は人間の活動に大きな影響を与え、その多くが良い予測から十分な事前警告で緩和することができる。 これまで、機械学習に基づくフレア予測手法では、AR画像の物理特性を特徴として用いてきたが、最近ではディープラーニング(畳み込みニューラルネットワークなど)によって自動的に推定される特徴を利用する研究も行われている。 計算トポロジと計算幾何学のツールを用いて、太陽の磁気画像から抽出した新しい形状に基づく特徴群について述べる。 これらの特徴を多層パーセプトロン(mlp)ニューラルネットワークの文脈で評価し,それらの性能を従来の物理特性と比較した。 これらの抽象的な形状に基づく特徴は、人間の専門家が選択した特徴よりも優れており、2つの特徴の組み合わせにより予測能力はさらに向上することを示す。

Solar flares are caused by magnetic eruptions in active regions (ARs) on the surface of the sun. These events can have significant impacts on human activity, many of which can be mitigated with enough advance warning from good forecasts. To date, machine learning-based flare-prediction methods have employed physics-based attributes of the AR images as features; more recently, there has been some work that uses features deduced automatically by deep learning methods (such as convolutional neural networks). We describe a suite of novel shape-based features extracted from magnetogram images of the Sun using the tools of computational topology and computational geometry. We evaluate these features in the context of a multi-layer perceptron (MLP) neural network and compare their performance against the traditional physics-based attributes. We show that these abstract shape-based features outperform the features chosen by the human experts, and that a combination of the two feature sets improves the forecasting capability even further.
翻訳日:2021-04-19 13:28:06 公開日:2020-12-28
# (参考訳) N-gram 配列分解とマルチタスク学習による手書き文字認識の強化

Enhancing Handwritten Text Recognition with N-gram sequence decomposition and Multitask Learning ( http://arxiv.org/abs/2012.14459v1 )

ライセンス: CC BY 4.0
Vasiliki Tassopoulou, George Retsinas, Petros Maragos(参考訳) 手書き文字認識の分野における最先端のアプローチは、1igram, character level target unit で主に単一のタスクである。 本研究では,マルチタスク学習方式を用いて,ターゲット配列の分解を微粒度から粗度まで異なる対象単位で行うように訓練する。 本手法は,学習過程において暗黙的にn-gram情報を利用する方法であり,ユニグラム出力のみを用いて最終認識を行う。 このようなマルチタスクアプローチにおける内部Unigramデコーディングの違いを強調するために、トレーニングステップで異なるn-gramによって課される学習内部表現の能力を強調した。 対象単位としてn-gramを選択し,ユニグラムから4-gram,すなわちサブワードレベルの粒度を実験した。 これらの多重分解は、タスク固有のCTC損失を伴うネットワークから学習される。 ネットワークアーキテクチャに関しては,階層型とブロックマルチタスクという2つの選択肢を提案する。 全体として,提案手法はユニグラムタスクでのみ評価されるが,絶対2.52 % WER と 1.02 % CER の計算オーバーヘッドを伴わず,暗黙的な言語モデルの導入に成功するためのヒントとなる。

Current state-of-the-art approaches in the field of Handwritten Text Recognition are predominately single task with unigram, character level target units. In our work, we utilize a Multi-task Learning scheme, training the model to perform decompositions of the target sequence with target units of different granularity, from fine to coarse. We consider this method as a way to utilize n-gram information, implicitly, in the training process, while the final recognition is performed using only the unigram output. % in order to highlight the difference of the internal Unigram decoding of such a multi-task approach highlights the capability of the learned internal representations, imposed by the different n-grams at the training step. We select n-grams as our target units and we experiment from unigrams to fourgrams, namely subword level granularities. These multiple decompositions are learned from the network with task-specific CTC losses. Concerning network architectures, we propose two alternatives, namely the Hierarchical and the Block Multi-task. Overall, our proposed model, even though evaluated only on the unigram task, outperforms its counterpart single-task by absolute 2.52\% WER and 1.02\% CER, in the greedy decoding, without any computational overhead during inference, hinting towards successfully imposing an implicit language model.
翻訳日:2021-04-19 13:14:56 公開日:2020-12-28
# (参考訳) SASSI -- 超画像化適応スペクトルイメージング

SASSI -- Super-Pixelated Adaptive Spatio-Spectral Imaging ( http://arxiv.org/abs/2012.14495v1 )

ライセンス: CC BY 4.0
Vishwanath Saragadam, Michael DeZeeuw, Richard Baraniuk, Ashok Veeraraghavan, and Aswin Sankaranarayanan(参考訳) 空間分解能と時間分解能を有する新しいビデオレートハイパースペクトル画像装置を提案する。 我々のキーとなる仮説は、過剰な画像の超画素におけるピクセルのスペクトルプロファイルは、非常によく似ているということだ。 したがって、その超画素分割画像で導かれるハイパースペクトルシーンのシーン適応型空間サンプリングにより、高品質な再構成を得ることができる。 これを実現するために、シーンのRGB画像を取得し、その超画素を計算し、高分解能スペクトルを測定する場所の空間マスクを生成する。 rgb画像とスペクトル測定を学習可能なフィルタリング手法を用いて融合することにより、ハイパースペクトル画像を推定する。 スーパーピクセル推定ステップの計算量が少ないため、従来のスナップショットハイパースペクトルカメラよりもオーバーヘッドが少ないが、空間解像度とスペクトル解像度がかなり高いシーンのハイパースペクトル画像をキャプチャできる。 提案手法を広範にシミュレーションし,900ドル画素の空間分解能で超スペクトルビデオを計測し,可視光帯域上で10nmのスペクトル分解能でフレームレートを18ドルfpsで達成する実験室プロトタイプとともに検証した。

We introduce a novel video-rate hyperspectral imager with high spatial, and temporal resolutions. Our key hypothesis is that spectral profiles of pixels in a super-pixel of an oversegmented image tend to be very similar. Hence, a scene-adaptive spatial sampling of an hyperspectral scene, guided by its super-pixel segmented image, is capable of obtaining high-quality reconstructions. To achieve this, we acquire an RGB image of the scene, compute its super-pixels, from which we generate a spatial mask of locations where we measure high-resolution spectrum. The hyperspectral image is subsequently estimated by fusing the RGB image and the spectral measurements using a learnable guided filtering approach. Due to low computational complexity of the superpixel estimation step, our setup can capture hyperspectral images of the scenes with little overhead over traditional snapshot hyperspectral cameras, but with significantly higher spatial and spectral resolutions. We validate the proposed technique with extensive simulations as well as a lab prototype that measures hyperspectral video at a spatial resolution of $600 \times 900$ pixels, at a spectral resolution of 10 nm over visible wavebands, and achieving a frame rate at $18$fps.
翻訳日:2021-04-19 13:03:58 公開日:2020-12-28
# (参考訳) 逆順序を持つ非置換k平均クラスタリング

No-substitution k-means Clustering with Adversarial Order ( http://arxiv.org/abs/2012.14512v1 )

ライセンス: CC BY 4.0
Robi Bhattacharjee and Michal Moshkovitz(参考訳) 入力が \emph{arbitrary} 順に届くとき、オンラインの非置換設定で$k$-meansクラスタリングを調べる。 この設定では、点が次々に到達し、次の点を観測する前に現在の点を中心とするかどうかを即座に決定する必要がある。 決定は無効である。 目標は、センターの数と$k$-meansのコストを最小化することだ。 この設定における以前の作業は、入力の順序がランダムであるか、または入力のアスペクト比が境界であると仮定していた。 順序が任意であり、入力に仮定がない場合、任意のアルゴリズムが全ての点を中心としなければならないことが知られている。 さらに、境界アスペクト比が制限的すぎると仮定すると、混合モデルから生成された自然な入力は含まれない。 任意の順序で到着するデータセットのクラスタリングの難しさを定量化する新しい複雑性尺度を提案する。 我々は、新しいランダムアルゴリズムを設計し、複雑さを$d$とするデータに適用すると、アルゴリズムは$O(d\log(n) k\log(k))$centerを取り、$O(k^3)$-approximationであることを示す。 また、データが$k$ gaussian の混合のような ``natural" 分布からサンプリングされた場合、新しい複雑性測度は $o(k^2\log(n))$ に等しいことが証明される。 これは、これらの分布から生成されたデータに対して、我々の新しいアルゴリズムは$\text{poly}(k\log(n))$centerのみを取り、$\text{poly}(k)$-approximationであることを意味する。 負の結果に関して、$\alpha$-近似を達成するために必要な中心の数が少なくとも$\Omega\left(\frac{d}{k\log(n\alpha)}\right)$であることを証明する。

We investigate $k$-means clustering in the online no-substitution setting when the input arrives in \emph{arbitrary} order. In this setting, points arrive one after another, and the algorithm is required to instantly decide whether to take the current point as a center before observing the next point. Decisions are irrevocable. The goal is to minimize both the number of centers and the $k$-means cost. Previous works in this setting assume that the input's order is random, or that the input's aspect ratio is bounded. It is known that if the order is arbitrary and there is no assumption on the input, then any algorithm must take all points as centers. Moreover, assuming a bounded aspect ratio is too restrictive -- it does not include natural input generated from mixture models. We introduce a new complexity measure that quantifies the difficulty of clustering a dataset arriving in arbitrary order. We design a new random algorithm and prove that if applied on data with complexity $d$, the algorithm takes $O(d\log(n) k\log(k))$ centers and is an $O(k^3)$-approximation. We also prove that if the data is sampled from a ``natural" distribution, such as a mixture of $k$ Gaussians, then the new complexity measure is equal to $O(k^2\log(n))$. This implies that for data generated from those distributions, our new algorithm takes only $\text{poly}(k\log(n))$ centers and is a $\text{poly}(k)$-approximation. In terms of negative results, we prove that the number of centers needed to achieve an $\alpha$-approximation is at least $\Omega\left(\frac{d}{k\log(n\alpha)}\right)$.
翻訳日:2021-04-19 12:28:06 公開日:2020-12-28
# (参考訳) 超音波画像による乳腺腫瘍分類のためのcnnの比較

Comparison of different CNNs for breast tumor classification from ultrasound images ( http://arxiv.org/abs/2012.14517v1 )

ライセンス: CC BY 4.0
Jorge F. Lazo, Sara Moccia, Emanuele Frontoni and Elena De Momi(参考訳) 乳がんは世界で最も致命的ながんの1つである。 タイムリーな検出は死亡率を減少させる可能性がある。 臨床的ルーチンでは,超音波画像から良性腫瘍と悪性腫瘍を分類することは重要であるが困難な課題である。 したがって、データの変動に対処できる自動化手法が必要である。 本稿では,乳腺腫瘍の自動分類作業において,異なる畳み込みニューラルネットワーク(CNN)と伝達学習法を比較した。 本研究のアーキテクチャはVGG-16とInception V3である。 1つは事前訓練されたモデルを特徴抽出器として使用し、2つ目は事前訓練されたモデルを微調整することであった。 画像は合計947枚, 良性腫瘍は587枚, 悪性腫瘍は360枚であった。 678枚の画像がトレーニングと検証に使われ、269枚の画像がモデルの試験に使用された。 受信機動作特性曲線(AUC)の精度と面積を性能指標として用いた。 最高の性能は、精度0.919とauc0.934のvgg-16の微調整によって得られた。 得られた結果は、がん検出の改善の観点から、さらなる調査の機会を開く。

Breast cancer is one of the deadliest cancer worldwide. Timely detection could reduce mortality rates. In the clinical routine, classifying benign and malignant tumors from ultrasound (US) imaging is a crucial but challenging task. An automated method, which can deal with the variability of data is therefore needed. In this paper, we compared different Convolutional Neural Networks (CNNs) and transfer learning methods for the task of automated breast tumor classification. The architectures investigated in this study were VGG-16 and Inception V3. Two different training strategies were investigated: the first one was using pretrained models as feature extractors and the second one was to fine-tune the pre-trained models. A total of 947 images were used, 587 corresponded to US images of benign tumors and 360 with malignant tumors. 678 images were used for the training and validation process, while 269 images were used for testing the models. Accuracy and Area Under the receiver operating characteristic Curve (AUC) were used as performance metrics. The best performance was obtained by fine tuning VGG-16, with an accuracy of 0.919 and an AUC of 0.934. The obtained results open the opportunity to further investigation with a view of improving cancer detection.
翻訳日:2021-04-19 12:05:32 公開日:2020-12-28
# 深層学習を用いた空中画像パイル燃焼検出:FLAMEデータセット

Aerial Imagery Pile burn detection using Deep Learning: the FLAME dataset ( http://arxiv.org/abs/2012.14036v1 )

ライセンス: Link先を確認
Alireza Shamsoshoara, Fatemeh Afghah, Abolfazl Razi, Liming Zheng, Peter Z Ful\'e, Erik Blasch(参考訳) 森林火災は米国で最も費用がかかる自然災害の1つで、何百万ヘクタールもの森林資源が被害を受け、人や動物の命が脅かされている。 特に重要なのは消防士や作戦部隊に対するリスクであり、人や財産の危険を最小限に抑えるために技術を活用する必要性を強調している。 flame(fire luminosity airborne-based machine learning evaluation)は、火災の空中画像のデータセットと、消防士や研究者が最適な火災管理戦略を開発するのに役立つ火災検出とセグメンテーションの方法を提供する。 本論文は,アリゾナ松林において,所定の燃えるデトリタスの間,ドローンが収集した火災画像データセットを提供する。 このデータセットには、赤外線カメラが捉えたビデオ記録と熱熱マップが含まれている。 撮影されたビデオと画像は、フレームごとにアノテートされラベル付けされ、研究者が火災検出とモデリングのアルゴリズムを簡単に適用できるようにする。 本論文は,(1)火炎の存在と不在に基づくビデオフレームの2次分類という2つの機械学習問題に対する解決策を強調する。 76%の分類精度を達成した人工ニューラルネットワーク(ann)法を開発した。 2) 火災境界を正確に決定するためのセグメンテーション法による火災検知 u-net up-sampling and down-samplingアプローチに基づいて、ビデオフレームから火のマスクを抽出するディープラーニング手法を設計する。 FLAME法では精度92%,リコール84%であった。 今後の研究は, 熱画像を用いた自由燃焼放火技術の拡大である。

Wildfires are one of the costliest and deadliest natural disasters in the US, causing damage to millions of hectares of forest resources and threatening the lives of people and animals. Of particular importance are risks to firefighters and operational forces, which highlights the need for leveraging technology to minimize danger to people and property. FLAME (Fire Luminosity Airborne-based Machine learning Evaluation) offers a dataset of aerial images of fires along with methods for fire detection and segmentation which can help firefighters and researchers to develop optimal fire management strategies. This paper provides a fire image dataset collected by drones during a prescribed burning piled detritus in an Arizona pine forest. The dataset includes video recordings and thermal heatmaps captured by infrared cameras. The captured videos and images are annotated and labeled frame-wise to help researchers easily apply their fire detection and modeling algorithms. The paper also highlights solutions to two machine learning problems: (1) Binary classification of video frames based on the presence [and absence] of fire flames. An Artificial Neural Network (ANN) method is developed that achieved a 76% classification accuracy. (2) Fire detection using segmentation methods to precisely determine fire borders. A deep learning method is designed based on the U-Net up-sampling and down-sampling approach to extract a fire mask from the video frames. Our FLAME method approached a precision of 92% and a recall of 84%. Future research will expand the technique for free burning broadcast fire using thermal images.
翻訳日:2021-04-19 11:15:08 公開日:2020-12-28
# GAKP:複数物体追跡のためのGRUアソシエーションとカルマン予測

GAKP: GRU Association and Kalman Prediction for Multiple Object Tracking ( http://arxiv.org/abs/2012.14314v1 )

ライセンス: Link先を確認
Zhen Li, Sunzeng Cai, Xiaoyi Wang, Zhe Liu and Nian Xue(参考訳) マルチオブジェクトトラッキング(MOT)は、ビデオ監視、インテリジェント小売、スマートシティなど、多くの現実世界のアプリケーションにおいて有用だが困難なタスクである。 長期的な依存関係を効率的にモデル化する方法が課題だ。 最近の研究では、Recurrent Neural Networks (RNN) が優れたパフォーマンスを得るために使われているが、大量のトレーニングデータが必要である。 本稿では,予測のための自動チューニングカルマン法とゲートリカレントユニット(gru)を統合し,少量のトレーニングデータで近似最適化を実現する新しい追跡手法を提案する。 実験の結果,本アルゴリズムは最先端のrnnベースのオンラインmotアルゴリズムよりも高速で頑健なmotベンチマークで性能を発揮できることが判明した。

Multiple Object Tracking (MOT) has been a useful yet challenging task in many real-world applications such as video surveillance, intelligent retail, and smart city. The challenge is how to model long-term temporal dependencies in an efficient manner. Some recent works employ Recurrent Neural Networks (RNN) to obtain good performance, which, however, requires a large amount of training data. In this paper, we proposed a novel tracking method that integrates the auto-tuning Kalman method for prediction and the Gated Recurrent Unit (GRU) and achieves a near-optimum with a small amount of training data. Experimental results show that our new algorithm can achieve competitive performance on the challenging MOT benchmark, and faster and more robust than the state-of-the-art RNN-based online MOT algorithms.
翻訳日:2021-04-19 11:14:44 公開日:2020-12-28
# Commonsense Visual Sense Making for autonomous Driving: On Generalized Neurosymbolic Online Abduction Integrating Vision and Semantics

Commonsense Visual Sensemaking for Autonomous Driving: On Generalised Neurosymbolic Online Abduction Integrating Vision and Semantics ( http://arxiv.org/abs/2012.14359v1 )

ライセンス: Link先を確認
Jakob Suchan and Mehul Bhatt and Srikrishna Varadarajan(参考訳) 自律運転の背景において,視覚認識のためのシステム統合視覚とセマンティックスソリューションの必要性と可能性を示す。 応答集合プログラミング(ASP)を用いたオンライン視覚認識のための一般的なニューロシンボリック手法を体系的に定式化し、完全に実装する。 この手法はビジュアルコンピューティングにおける最先端技術を統合し、リアルタイムの知覚と制御のためのハイブリッドアーキテクチャで一般的に使用可能なモジュラーフレームワークとして開発されている。 我々は,コミュニティが確立したKITTIMOD,MOT-2017,MOT-2020の評価と実証を行った。 利用事例として,安全クリティカルな自律運転環境において,人間中心の視覚感覚-意味表現と説明可能性,質問・回答,常識の補間など-が重要であることに注目した。 開発されたニューロシンボリック・フレームワークはドメイン非依存であり、自律運転の場合、人間中心のAI技術設計の背景にある様々な認知的相互作用設定におけるオンライン視覚的創造の模範として機能するように設計されている。 キーワード:認知的ビジョン、深い意味論、宣言的空間的推論、知識表現と推論、常識推論、視覚的アブダクション、回答セットプログラミング、自動運転、人間中心のコンピューティングと設計、運転技術の標準化、空間認知、ai。

We demonstrate the need and potential of systematically integrated vision and semantics solutions for visual sensemaking in the backdrop of autonomous driving. A general neurosymbolic method for online visual sensemaking using answer set programming (ASP) is systematically formalised and fully implemented. The method integrates state of the art in visual computing, and is developed as a modular framework that is generally usable within hybrid architectures for realtime perception and control. We evaluate and demonstrate with community established benchmarks KITTIMOD, MOT-2017, and MOT-2020. As use-case, we focus on the significance of human-centred visual sensemaking -- e.g., involving semantic representation and explainability, question-answering, commonsense interpolation -- in safety-critical autonomous driving situations. The developed neurosymbolic framework is domain-independent, with the case of autonomous driving designed to serve as an exemplar for online visual sensemaking in diverse cognitive interaction settings in the backdrop of select human-centred AI technology design considerations. Keywords: Cognitive Vision, Deep Semantics, Declarative Spatial Reasoning, Knowledge Representation and Reasoning, Commonsense Reasoning, Visual Abduction, Answer Set Programming, Autonomous Driving, Human-Centred Computing and Design, Standardisation in Driving Technology, Spatial Cognition and AI.
翻訳日:2021-04-19 11:14:29 公開日:2020-12-28
# 対話政策学習のための過度反復ペナルティによるカリキュラム自動学習

Automatic Curriculum Learning With Over-repetition Penalty for Dialogue Policy Learning ( http://arxiv.org/abs/2012.14072v1 )

ライセンス: Link先を確認
Yangyang Zhao, Zhenyu Wang and Zhenhua Huang(参考訳) 強化学習に基づく対話政策学習は,コストが高いため,実ユーザに対して対話エージェントをスクラッチから訓練することは困難である。 対話エージェントがトレーニングするランダムなユーザ目標を選択するユーザシミュレータは、実際のユーザにとって手頃な代用だと考えられている。 しかし、このランダムサンプリング法は人間の学習法則を無視し、学習された対話ポリシーを非効率で不安定にする。 本稿では,従来のランダムサンプリング手法を教師ポリシーモデルに置き換え,自動カリキュラム学習のための対話ポリシーを実現する新しいフレームワークであるDeep Q-Network (ACL-DQN)を提案する。 教師モデルは、有意義な順序付きカリキュラムを配置し、対話エージェントの学習進捗と過剰反復ペナルティを事前の知識を必要とせずに監視し、自動的に調整する。 対話エージェントの学習の進捗は,対話エージェントの能力とサンプル効率に対するサンプルゴールの難易度との関係を反映している。 過剰反復罰はサンプルの多様性を保証する。 実験により,ACL-DQNは,統計的に有意なマージンを有する対話タスクの有効性と安定性を著しく向上することが示された。 さらに、異なるカリキュラムスケジュールを採用してフレームワークをさらに改善することができ、フレームワークが強力な汎用性を持つことを実証する。

Dialogue policy learning based on reinforcement learning is difficult to be applied to real users to train dialogue agents from scratch because of the high cost. User simulators, which choose random user goals for the dialogue agent to train on, have been considered as an affordable substitute for real users. However, this random sampling method ignores the law of human learning, making the learned dialogue policy inefficient and unstable. We propose a novel framework, Automatic Curriculum Learning-based Deep Q-Network (ACL-DQN), which replaces the traditional random sampling method with a teacher policy model to realize the dialogue policy for automatic curriculum learning. The teacher model arranges a meaningful ordered curriculum and automatically adjusts it by monitoring the learning progress of the dialogue agent and the over-repetition penalty without any requirement of prior knowledge. The learning progress of the dialogue agent reflects the relationship between the dialogue agent's ability and the sampled goals' difficulty for sample efficiency. The over-repetition penalty guarantees the sampled diversity. Experiments show that the ACL-DQN significantly improves the effectiveness and stability of dialogue tasks with a statistically significant margin. Furthermore, the framework can be further improved by equipping with different curriculum schedules, which demonstrates that the framework has strong generalizability.
翻訳日:2021-04-19 11:14:06 公開日:2020-12-28
# 人工陰性例を用いたニューラルテキスト生成

Neural Text Generation with Artificial Negative Examples ( http://arxiv.org/abs/2012.14124v1 )

ライセンス: Link先を確認
Keisuke Shirai, Kazuma Hashimoto, Akiko Eriguchi, Takashi Ninomiya, Shinsuke Mori(参考訳) 入力の条件付け(例えば、ニューラルネットワークの生成モデル)。 機械翻訳と画像キャプション)は通常、ターゲットテキストの最大推定によって訓練される。 しかし、トレーニングされたモデルは、推論時に様々なタイプのエラーに苦しむ。 本稿では,テキスト生成モデルを強化学習フレームワークでトレーニングし,対象の誤りを含む参照と文を識別可能な学習可能な報酬関数を用いて任意のタイプの誤りを抑制することを提案する。 対象とするエラーを参照に人工的に注入することで、このようなネガティブな例を生成する。 実験では,モデル生成テキストにおけるトークンの繰り返しと削除という2つのエラータイプに注目した。 実験の結果,提案手法は生成誤差を抑え,2つの機械翻訳と2つの画像キャプションタスクにおいて大幅な改善が得られた。

Neural text generation models conditioning on given input (e.g. machine translation and image captioning) are usually trained by maximum likelihood estimation of target text. However, the trained models suffer from various types of errors at inference time. In this paper, we propose to suppress an arbitrary type of errors by training the text generation model in a reinforcement learning framework, where we use a trainable reward function that is capable of discriminating between references and sentences containing the targeted type of errors. We create such negative examples by artificially injecting the targeted errors to the references. In experiments, we focus on two error types, repeated and dropped tokens in model-generated text. The experimental results show that our method can suppress the generation errors and achieve significant improvements on two machine translation and two image captioning tasks.
翻訳日:2021-04-19 11:13:45 公開日:2020-12-28
# 注意をそらす:視覚的説明手法によるCNN分類器の堅牢な訓練に向けて

Playing to distraction: towards a robust training of CNN classifiers through visual explanation techniques ( http://arxiv.org/abs/2012.14173v1 )

ライセンス: Link先を確認
David Morales, Estefania Talavera, Beatriz Remeseiro(参考訳) ディープラーニングの分野は、より効率的なトレーニング戦略を必要とするため、さまざまな方向に進化しています。 そこで本研究では,視覚説明手法を学習プロセスに統合した新しいロバストな学習手法を提案する。 画像の関連部分に焦点をあてる注意機構とは違って,他の領域にも注意を払って,モデルの堅牢性を向上させることを目指している。 大まかに言えば、学習過程の分類器に注意を向けさせ、関連する地域だけでなく、優先順位がクラスを識別するのにはあまり役に立たない地域にも集中させるという考え方である。 提案手法を畳み込みニューラルネットワークの学習プロセスに組み込んで,スタンフォードカーとfgvc-aircraftという2つのよく知られたデータセットの解析と分類を行った。 さらに, エゴセントリック画像の分類に関する実例シナリオを用いて評価を行い, 生活習慣に関する関連情報を得ることができた。 特に、EgoFoodPlacesデータセットに挑戦し、より低いレベルの複雑さで最先端の結果を達成する。 その結果,画像分類のためのトレーニングスキームの適合性を示し,最終モデルの堅牢性を改善した。

The field of deep learning is evolving in different directions, with still the need for more efficient training strategies. In this work, we present a novel and robust training scheme that integrates visual explanation techniques in the learning process. Unlike the attention mechanisms that focus on the relevant parts of images, we aim to improve the robustness of the model by making it pay attention to other regions as well. Broadly speaking, the idea is to distract the classifier in the learning process to force it to focus not only on relevant regions but also on those that, a priori, are not so informative for the discrimination of the class. We tested the proposed approach by embedding it into the learning process of a convolutional neural network for the analysis and classification of two well-known datasets, namely Stanford cars and FGVC-Aircraft. Furthermore, we evaluated our model on a real-case scenario for the classification of egocentric images, allowing us to obtain relevant information about peoples' lifestyles. In particular, we work on the challenging EgoFoodPlaces dataset, achieving state-of-the-art results with a lower level of complexity. The obtained results indicate the suitability of our proposed training scheme for image classification, improving the robustness of the final model.
翻訳日:2021-04-19 11:13:34 公開日:2020-12-28
# 帰属ロバストネスのための強化正則化器

Enhanced Regularizers for Attributional Robustness ( http://arxiv.org/abs/2012.14395v1 )

ライセンス: Link先を確認
Anindya Sarkar, Anirban Sarkar, Vineeth N Balasubramanian(参考訳) ディープニューラルネットワークは、コンピュータビジョンタスクのための学習モデルのデフォルト選択である。 近年,分類などの視覚タスクの深層モデルについて,広範囲にわたる研究が進められている。 しかし、近年の研究では、2つの非常に類似した画像がネットワークに渡された場合でも、これらのモデルが実質的に異なる帰属マップを作成することが可能であることが示され、信頼性に関する深刻な疑問が提起されている。 そこで本研究では,ディープニューラルネットワークの帰属的ロバスト性を改善するためのロバスト帰属訓練戦略を提案する。 本手法は帰属的ロバストネスの要件を慎重に分析し,攻撃時にモデルの帰属マップを保存する2つの新しい正規化器を導入する。 提案手法は,MNIST,FMNIST,Flower,GTSRBなどの複数のデータセットに対する帰属ロバストネス測定において,最先端の帰属ロバストネス法を約3%から9%のマージンで上回っている。

Deep neural networks are the default choice of learning models for computer vision tasks. Extensive work has been carried out in recent years on explaining deep models for vision tasks such as classification. However, recent work has shown that it is possible for these models to produce substantially different attribution maps even when two very similar images are given to the network, raising serious questions about trustworthiness. To address this issue, we propose a robust attribution training strategy to improve attributional robustness of deep neural networks. Our method carefully analyzes the requirements for attributional robustness and introduces two new regularizers that preserve a model's attribution map during attacks. Our method surpasses state-of-the-art attributional robustness methods by a margin of approximately 3% to 9% in terms of attribution robustness measures on several datasets including MNIST, FMNIST, Flower and GTSRB.
翻訳日:2021-04-19 11:13:15 公開日:2020-12-28
# 物理力学の教師なし分解による因果世界モデル

Causal World Models by Unsupervised Deconfounding of Physical Dynamics ( http://arxiv.org/abs/2012.14228v1 )

ライセンス: Link先を確認
Minne Li, Mengyue Yang, Furui Liu, Xu Chen, Zhitang Chen, Jun Wang(参考訳) 世界の精神モデルで内部を想像する能力は、人間の認知にとって極めて重要である。 マシンインテリジェントなエージェントが世界モデルを学び、"恐ろしい"環境を作ることができれば、内部で何の質問 -- 過去に経験されていない代替の未来をシミュレート -- を行い、それに応じて最適な決定を行うことができます。 既存の世界モデルは通常、状態遷移ダイナミクスに影響を与える要因を考慮せずに、過去の感覚信号から埋め込まれた時空間正規性を学習することによって確立される。 そのため、特定の行動方針が取られた場合、「何が起こったのか」という批判的な反事実的疑問に答えられなかった。 本稿では,潜伏要因の推定器を学習することにより,干渉観測と代替未来との関係を教師なしでモデル化できる因果世界モデル(CWMs)を提案する。 本手法を実証的に評価し,様々な物理的推論環境での有効性を実証する。 具体的には,強化学習タスクにおけるサンプル複雑性の低減と,反事実的物理的推論の改善を示す。

The capability of imagining internally with a mental model of the world is vitally important for human cognition. If a machine intelligent agent can learn a world model to create a "dream" environment, it can then internally ask what-if questions -- simulate the alternative futures that haven't been experienced in the past yet -- and make optimal decisions accordingly. Existing world models are established typically by learning spatio-temporal regularities embedded from the past sensory signal without taking into account confounding factors that influence state transition dynamics. As such, they fail to answer the critical counterfactual questions about "what would have happened" if a certain action policy was taken. In this paper, we propose Causal World Models (CWMs) that allow unsupervised modeling of relationships between the intervened observations and the alternative futures by learning an estimator of the latent confounding factors. We empirically evaluate our method and demonstrate its effectiveness in a variety of physical reasoning environments. Specifically, we show reductions in sample complexity for reinforcement learning tasks and improvements in counterfactual physical reasoning.
翻訳日:2021-04-19 11:12:21 公開日:2020-12-28
# LookHops: グラフ分類のための軽量多階畳み込みとプール

LookHops: light multi-order convolution and pooling for graph classification ( http://arxiv.org/abs/2012.15741v1 )

ライセンス: Link先を確認
Zhangyang Gao, Haitao Lin, Stan. Z Li(参考訳) 畳み込みとプーリングはグラフ分類の階層的表現を学習する鍵となる演算であり、より表現力のある$k$-order($k>1$)法では計算コストが増加し、さらなるアプリケーションを制限する。 本稿では,近隣情報ゲインを介して$k$を選択する戦略を考察し,性能向上にともなうパラメータの少ない軽量$k$-order畳み込みとプーリングを提案する。 6つのグラフ分類ベンチマークによる包括的かつ公正な実験では、1) パフォーマンス改善は$k$-order情報ゲインと一致している。 2) 提案する畳み込みは, 競合的な結果を与える一方で, パラメータを少なくする。 3) 提案手法は効率と性能の点でSOTAアルゴリズムより優れている。

Convolution and pooling are the key operations to learn hierarchical representation for graph classification, where more expressive $k$-order($k>1$) method requires more computation cost, limiting the further applications. In this paper, we investigate the strategy of selecting $k$ via neighborhood information gain and propose light $k$-order convolution and pooling requiring fewer parameters while improving the performance. Comprehensive and fair experiments through six graph classification benchmarks show: 1) the performance improvement is consistent to the $k$-order information gain. 2) the proposed convolution requires fewer parameters while providing competitive results. 3) the proposed pooling outperforms SOTA algorithms in terms of efficiency and performance.
翻訳日:2021-04-19 11:11:50 公開日:2020-12-28
# TextGraphs 2020のRed Dragon AI共有タスク:マルチホップ説明ランク付けのためのLSTMインターリーブ変換器

Red Dragon AI at TextGraphs 2020 Shared Task: LIT : LSTM-Interleaved Transformer for Multi-Hop Explanation Ranking ( http://arxiv.org/abs/2012.14164v1 )

ライセンス: Link先を確認
Yew Ken Chia and Sam Witteveen and Martin Andrews(参考訳) 科学的な疑問に答える説明可能な質問は、大量の事実文に対してマルチホップ推論を必要とする課題である。 クエリとドキュメントのペアを個別に見る方法の制限に対処するため,マルチホップランキングを改善するために,クロスドキュメントインタラクションを組み込んだLSTM-Interleaved Transformerを提案する。 LITアーキテクチャは、再ランク設定において、事前のランキング位置を利用することができる。 私たちのモデルは、現在のTextGraphs 2020共有タスクのリーダーボードで競争力があり、テストセットMAPの0.5607を達成しています。 私たちのコード実装はhttps://github.com/mdda/worldtree_corpus/tree/textgraphs_2020で利用可能です。

Explainable question answering for science questions is a challenging task that requires multi-hop inference over a large set of fact sentences. To counter the limitations of methods that view each query-document pair in isolation, we propose the LSTM-Interleaved Transformer which incorporates cross-document interactions for improved multi-hop ranking. The LIT architecture can leverage prior ranking positions in the re-ranking setting. Our model is competitive on the current leaderboard for the TextGraphs 2020 shared task, achieving a test-set MAP of 0.5607, and would have gained third place had we submitted before the competition deadline. Our code implementation is made available at https://github.com/mdda/worldtree_corpus/tree/textgraphs_2020
翻訳日:2021-04-19 11:11:35 公開日:2020-12-28
# 任意の規範によるマニフォールド学習

Manifold learning with arbitrary norms ( http://arxiv.org/abs/2012.14172v1 )

ライセンス: Link先を確認
Joe Kileel, Amit Moscovich, Nathan Zelesko, Amit Singer(参考訳) マニフォールド学習法は, 非線形次元減少や, 内在次元の低い高次元データセットを含むタスクにおいて, 顕著な役割を担っている。 これらの手法の多くはグラフベースであり、頂点を各データポイントと各閉点間の重み付きエッジに関連付ける。 既存の理論は、ある条件下で、構築されたグラフのラプラシアン行列がデータ多様体のラプラス・ベルトラミ作用素に収束することを示している。 しかし、この結果はユークリッドノルムが距離を測定するために使われると仮定する。 本稿では、$\textit{any}$ norm を用いて構築したグラフラプラシアンに対する制限微分作用素を決定する。 この証明は、基礎多様体の第2基本形式とノルムの単位球の凸幾何学の間の微妙な相互作用を含む。 非ユークリッドノルムの使用を動機づけるために、アースモーバー距離に基づく多様体学習は、サンプル複雑性と計算複雑性の両方の観点から、分子形状空間を学習するための標準ユークリッド変量より優れていることを示す数値シミュレーションで示す。

Manifold learning methods play a prominent role in nonlinear dimensionality reduction and other tasks involving high-dimensional data sets with low intrinsic dimensionality. Many of these methods are graph-based: they associate a vertex with each data point and a weighted edge between each pair of close points. Existing theory shows, under certain conditions, that the Laplacian matrix of the constructed graph converges to the Laplace-Beltrami operator of the data manifold. However, this result assumes the Euclidean norm is used for measuring distances. In this paper, we determine the limiting differential operator for graph Laplacians constructed using $\textit{any}$ norm. The proof involves a subtle interplay between the second fundamental form of the underlying manifold and the convex geometry of the norm's unit ball. To motivate the use of non-Euclidean norms, we show in a numerical simulation that manifold learning based on Earthmover's distances outperforms the standard Euclidean variant for learning molecular shape spaces, in terms of both sample complexity and computational complexity.
翻訳日:2021-04-19 11:11:21 公開日:2020-12-28
# 壊滅的なフィッシャー爆発:初期フィッシャーマトリックスが一般化に影響を及ぼす

Catastrophic Fisher Explosion: Early Phase Fisher Matrix Impacts Generalization ( http://arxiv.org/abs/2012.14193v1 )

ライセンス: Link先を確認
Stanislaw Jastrzebski, Devansh Arpit, Oliver Astrand, Giancarlo Kerg, Huan Wang, Caiming Xiong, Richard Socher, Kyunghyun Cho, Krzysztof Geras(参考訳) トレーニングの初期段階は、ディープニューラルネットワークの2つの方法において重要であることが示されている。 まず、この段階における正規化の度合いは最終一般化に大きく影響する。 第二に、正規化選択の影響による局所的損失曲率の急激な変化が伴う。 これら2つの知見を結びつけて,確率勾配降下(SGD)が訓練開始からFIM(Fiher Information Matrix)の痕跡を暗黙的に遡上することを示した。 sgd における暗黙の正規化であり、fim のトレースを明示的にペナルティ化することで一般化を大幅に改善できることを示す。 さらに、FIMのトレースの初期値は、最終一般化と強く相関していることを示す。 暗黙的あるいは明示的な正則化がない場合、FIMの痕跡は訓練の早い段階で大きな値に増大し、これは破滅的なフィッシャー爆発である。 最後に, FIMのトレースをペナライズする正規化効果について考察するため, 1) クリーンなサンプルよりもノイズの多いラベルを持つサンプルの学習速度を減らし, メモリ化を制限すること, 2) 平坦なミニマにおいてFIMのエンドの初期トレースが低いトラジェクトリについて考察した。

The early phase of training has been shown to be important in two ways for deep neural networks. First, the degree of regularization in this phase significantly impacts the final generalization. Second, it is accompanied by a rapid change in the local loss curvature influenced by regularization choices. Connecting these two findings, we show that stochastic gradient descent (SGD) implicitly penalizes the trace of the Fisher Information Matrix (FIM) from the beginning of training. We argue it is an implicit regularizer in SGD by showing that explicitly penalizing the trace of the FIM can significantly improve generalization. We further show that the early value of the trace of the FIM correlates strongly with the final generalization. We highlight that in the absence of implicit or explicit regularization, the trace of the FIM can increase to a large value early in training, to which we refer as catastrophic Fisher explosion. Finally, to gain insight into the regularization effect of penalizing the trace of the FIM, we show that 1) it limits memorization by reducing the learning speed of examples with noisy labels more than that of the clean examples, and 2) trajectories with a low initial trace of the FIM end in flat minima, which are commonly associated with good generalization.
翻訳日:2021-04-19 11:11:02 公開日:2020-12-28
# コンセプトシフトのオンラインテスト

Testing for concept shift online ( http://arxiv.org/abs/2012.14246v1 )

ライセンス: Link先を確認
Vladimir Vovk(参考訳) このノートは、交換性マリンタレ、すなわち、観測のための交換性分布の下でマーチンタレとなる過程の研究を継続する。 このようなプロセスは、機械学習で一般的に行われるiid仮定の違反を検出するために使用することができる。 iid仮定の違反はデータセットシフトと呼ばれることもあり、データセットシフトは概念シフトや共変シフトなどに分割されることもある。 我々の主な関心は概念シフトであるが、概念シフトを検出する2つのコンポーネントに完全に分解する交換可能性マーチンガレットと、ラベルシフトと呼ばれるものを検出する2つのコンポーネントについても議論する。 我々の手法は共形予測の手法に基づいている。

This note continues study of exchangeability martingales, i.e., processes that are martingales under any exchangeable distribution for the observations. Such processes can be used for detecting violations of the IID assumption, which is commonly made in machine learning. Violations of the IID assumption are sometimes referred to as dataset shift, and dataset shift is sometimes subdivided into concept shift, covariate shift, etc. Our primary interest is in concept shift, but we will also discuss exchangeability martingales that decompose perfectly into two components one of which detects concept shift and the other detects what we call label shift. Our methods will be based on techniques of conformal prediction.
翻訳日:2021-04-19 11:10:36 公開日:2020-12-28
# データ拡張と画像理解

Data augmentation and image understanding ( http://arxiv.org/abs/2012.14185v1 )

ライセンス: Link先を確認
Alex Hernandez-Garcia(参考訳) 学際研究は、しばしば科学的進歩の核心にある。 この論文は、機械学習、認知科学、神経科学の間の有利なシナジーを探求している。 特にこの論文は視覚と画像に焦点を当てている。 視覚は多くの人の支配的な感覚であるため、人間の視覚システムは行動と神経科学の両方の観点から広く研究されてきた。 逆に、機械ビジョンは研究の活発な領域であり、現在は人工ニューラルネットワークによって支配されている。 この研究は、視覚知覚と生物学的ビジョンとより整合した学習表現に焦点を当てている。 その目的のために、認知科学や計算神経科学からツールや側面を研究し、それらを視覚の機械学習モデルに組み込もうとしました。 この論文の中心的なテーマは、画像の変換を通じてデータセットのサイズを増強するために、人工ニューラルネットワークをトレーニングするための一般的なテクニックであるdata augmentationである。 しばしば見過ごされるが、データ拡張は、視覚の世界で見られる変換 – 例えば視点や照明の変化 – に対応するため、知覚的に妥当な変換を実装している。 さらに、神経科学者は、脳がこれらの変換の下で不変に物体を表現していることを発見した。 この論文を通して、私はこれらの洞察を用いて、特に有用な帰納的バイアス、より効果的なニューラルネットワークの正規化法、知覚可能な変換への視覚モデルの不変性の分析と改善のためのフレームワークとしてデータ拡張を分析する。 全体として、この研究は、データ拡張の特性にさらなる光を当て、学際研究の可能性を示すことを目的としている。

Interdisciplinary research is often at the core of scientific progress. This dissertation explores some advantageous synergies between machine learning, cognitive science and neuroscience. In particular, this thesis focuses on vision and images. The human visual system has been widely studied from both behavioural and neuroscientific points of view, as vision is the dominant sense of most people. In turn, machine vision has also been an active area of research, currently dominated by the use of artificial neural networks. This work focuses on learning representations that are more aligned with visual perception and the biological vision. For that purpose, I have studied tools and aspects from cognitive science and computational neuroscience, and attempted to incorporate them into machine learning models of vision. A central subject of this dissertation is data augmentation, a commonly used technique for training artificial neural networks to augment the size of data sets through transformations of the images. Although often overlooked, data augmentation implements transformations that are perceptually plausible, since they correspond to the transformations we see in our visual world -- changes in viewpoint or illumination, for instance. Furthermore, neuroscientists have found that the brain invariantly represents objects under these transformations. Throughout this dissertation, I use these insights to analyse data augmentation as a particularly useful inductive bias, a more effective regularisation method for artificial neural networks, and as the framework to analyse and improve the invariance of vision models to perceptually plausible transformations. Overall, this work aims to shed more light on the properties of data augmentation and demonstrate the potential of interdisciplinary research.
翻訳日:2021-04-19 11:10:25 公開日:2020-12-28
# segis-netを用いた経時的拡散mri解析 : 同時セグメンテーションと登録のための1ステップディープラーニングフレームワーク

Longitudinal diffusion MRI analysis using Segis-Net: a single-step deep-learning framework for simultaneous segmentation and registration ( http://arxiv.org/abs/2012.14230v1 )

ライセンス: Link先を確認
Bo Li, Wiro J. Niessen, Stefan Klein, Marius de Groot, M. Arfan Ikram, Meike W. Vernooij, Esther E. Bron(参考訳) 本稿では,縦型画像解析のための一段階ディープラーニングフレームワークsegis-netについて述べる。 縦断データに利用可能な情報を最適に活用するために、マルチクラスセグメンテーションと非線形登録を同時に学習する。 セグメンテーションと登録は畳み込みニューラルネットワークを用いてモデル化され、相互利益のために同時に最適化される。 時間点を越えたセグメント構造に対する空間対応を最適化する目的関数を提案する。 高齢者3249名のn=8045縦型脳mriデータから,segis-netを用いて白質路の解析を行った。 Segis-Netアプローチは2つのマルチステージパイプラインと比較して,登録精度,時空間分割整合性,再現性が大きく向上した。 これはまた、トラクション特異的な測定において同じ統計力を達成するために必要とされるサンプルサイズの大幅な削減につながった。 したがって、segis-netは、経時的イメージング研究を支援する新しい信頼できるツールとなり、時間とともに、マクロおよびミクロ組織的脳変化を調査できることを期待している。

This work presents a single-step deep-learning framework for longitudinal image analysis, coined Segis-Net. To optimally exploit information available in longitudinal data, this method concurrently learns a multi-class segmentation and nonlinear registration. Segmentation and registration are modeled using a convolutional neural network and optimized simultaneously for their mutual benefit. An objective function that optimizes spatial correspondence for the segmented structures across time-points is proposed. We applied Segis-Net to the analysis of white matter tracts from N=8045 longitudinal brain MRI datasets of 3249 elderly individuals. Segis-Net approach showed a significant increase in registration accuracy, spatio-temporal segmentation consistency, and reproducibility comparing with two multistage pipelines. This also led to a significant reduction in the sample-size that would be required to achieve the same statistical power in analyzing tract-specific measures. Thus, we expect that Segis-Net can serve as a new reliable tool to support longitudinal imaging studies to investigate macro- and microstructural brain changes over time.
翻訳日:2021-04-19 11:10:03 公開日:2020-12-28
# dalex: pythonのインタラクティブな説明性と公平性を備えた責任ある機械学習

dalex: Responsible Machine Learning with Interactive Explainability and Fairness in Python ( http://arxiv.org/abs/2012.14406v1 )

ライセンス: Link先を確認
Hubert Baniecki, Wojciech Kretowicz, Piotr Piatyszek, Jakub Wisniewski, Przemyslaw Biecek(参考訳) 利用可能なデータ量の増加、計算能力の向上、パフォーマンス向上の追求により、予測モデルの複雑さが増大する。 ブラックボックスの性質は不透明な負債現象を引き起こし、差別のリスクの増加、再現性の欠如、データドリフトによるパフォーマンス低下をもたらす。 これらのリスクを管理するため、優れたMLOpsプラクティスでは、モデルパフォーマンスと公正性、説明可能性の向上、継続的な監視の検証が求められている。 より深いモデル透明性の必要性は、科学や社会の領域だけでなく、人工知能に関する新しい法律や規則にも現れている。 責任ある機械学習モデルの開発を容易にするため,対話型モデル探索のためのモデル非依存インタフェースを実装したPythonパッケージであるdalexを紹介した。 機械学習に責任を持つさまざまなツールの開発を通じて作られたデザインを採用しており、既存のソリューションの統合を目指している。 このライブラリのソースコードとドキュメントは、https://python.drwhy.ai/で公開されている。

The increasing amount of available data, computing power, and the constant pursuit for higher performance results in the growing complexity of predictive models. Their black-box nature leads to opaqueness debt phenomenon inflicting increased risks of discrimination, lack of reproducibility, and deflated performance due to data drift. To manage these risks, good MLOps practices ask for better validation of model performance and fairness, higher explainability, and continuous monitoring. The necessity of deeper model transparency appears not only from scientific and social domains, but also emerging laws and regulations on artificial intelligence. To facilitate the development of responsible machine learning models, we showcase dalex, a Python package which implements the model-agnostic interface for interactive model exploration. It adopts the design crafted through the development of various tools for responsible machine learning; thus, it aims at the unification of the existing solutions. This library's source code and documentation are available under open license at https://python.drwhy.ai/.
翻訳日:2021-04-19 11:09:05 公開日:2020-12-28
# オンラインテンソル独立成分分析のための確率近似

Stochastic Approximation for Online Tensorial Independent Component Analysis ( http://arxiv.org/abs/2012.14415v1 )

ライセンス: Link先を確認
Chris Junchi Li, Michael I. Jordan(参考訳) 独立成分分析(ICA)は統計機械学習や信号処理において一般的な次元削減ツールである。 本稿では,この問題を非凸確率近似問題として見ることにより,オンラインテンソルicaアルゴリズムの収束解析を行う。 1つの成分を推定するために, オンラインテンソルicaアルゴリズムがステップライズの選択により, 鋭い有限サンプル誤差バウンドを達成することを証明するために, ダイナミクスに基づく解析を行う。 特に、データ生成分布とスケーリング条件について、$d^4 / T$がデータ次元$d$とサンプルサイズ$T$の多対数係数まで十分に小さいという軽微な仮定の下で、鋭い有限サンプル誤差の$\tilde O(\sqrt{d / T})$を得ることができる。 副産物として,複数の独立成分を並列に推定し,各独立成分推定器に対して所望の有限サンプル誤差を求めるオンラインテンソルicaアルゴリズムを設計する。

Independent component analysis (ICA) has been a popular dimension reduction tool in statistical machine learning and signal processing. In this paper, we present a convergence analysis for an online tensorial ICA algorithm, by viewing the problem as a nonconvex stochastic approximation problem. For estimating one component, we provide a dynamics-based analysis to prove that our online tensorial ICA algorithm with a specific choice of stepsize achieves a sharp finite-sample error bound. In particular, under a mild assumption on the data-generating distribution and a scaling condition such that $d^4 / T$ is sufficiently small up to a polylogarithmic factor of data dimension $d$ and sample size $T$, a sharp finite-sample error bound of $\tilde O(\sqrt{d / T})$ can be obtained. As a by-product, we also design an online tensorial ICA algorithm that estimates multiple independent components in parallel, achieving desirable finite-sample error bound for each independent component estimator.
翻訳日:2021-04-19 11:08:49 公開日:2020-12-28
# Straggler-Resilient Federated Learning: 統計的精度とシステム不均一性の相互作用を活用する

Straggler-Resilient Federated Learning: Leveraging the Interplay Between Statistical Accuracy and System Heterogeneity ( http://arxiv.org/abs/2012.14453v1 )

ライセンス: Link先を確認
Amirhossein Reisizadeh, Isidoros Tziotis, Hamed Hassani, Aryan Mokhtari, Ramtin Pedarsani(参考訳) フェデレーション学習(federated learning)は、データをローカルに保持しながら、大規模なクライアントネットワークに分散したデータサンプルから学習する、新たなパラダイムである。 しかし、フェデレーション学習は、クライアントが異なる計算能力と通信能力を持つシステムの不均一性を含む、複数のシステム課題に直面することが知られている。 このようなクライアントの計算速度の不均一性は、フェデレートされた学習アルゴリズムのスケーラビリティに悪影響を及ぼし、ストラグラーの存在により実行時にかなりのスローダウンを引き起こす。 本稿では,学習手順を高速化するために,クライアントデータの統計的特徴を取り入れてクライアントを適応的に選択する,ストラグラー・レジリエントなフェデレーション学習手法を提案する。 提案アルゴリズムの主な考え方は,現在のノードに対応するデータの統計的精度に到達すると,より高速なノードでトレーニング手順を開始し,モデルトレーニングにおいて徐々に遅いノードを巻き込むことである。 提案手法は,各ステージの解が次のステージの解に近く,より多くのサンプルを持ち,ウォームスタートとして使用できるため,すべてのノードのデータの統計的精度を達成するために必要な全体のランタイムを削減する。 また,本実験では,強凸目標に対する標準フェデレートベンチマークと比較した高速化効果を特徴とし,ストラグラー・レジリエント法におけるフェデレート学習ベンチマークと比較して,壁時計時間における高速化効果を数値実験により示している。

Federated Learning is a novel paradigm that involves learning from data samples distributed across a large network of clients while the data remains local. It is, however, known that federated learning is prone to multiple system challenges including system heterogeneity where clients have different computation and communication capabilities. Such heterogeneity in clients' computation speeds has a negative effect on the scalability of federated learning algorithms and causes significant slow-down in their runtime due to the existence of stragglers. In this paper, we propose a novel straggler-resilient federated learning method that incorporates statistical characteristics of the clients' data to adaptively select the clients in order to speed up the learning procedure. The key idea of our algorithm is to start the training procedure with faster nodes and gradually involve the slower nodes in the model training once the statistical accuracy of the data corresponding to the current participating nodes is reached. The proposed approach reduces the overall runtime required to achieve the statistical accuracy of data of all nodes, as the solution for each stage is close to the solution of the subsequent stage with more samples and can be used as a warm-start. Our theoretical results characterize the speedup gain in comparison to standard federated benchmarks for strongly convex objectives, and our numerical experiments also demonstrate significant speedups in wall-clock time of our straggler-resilient method compared to federated learning benchmarks.
翻訳日:2021-04-19 11:08:27 公開日:2020-12-28
# Lesion Net-Coordinate ConvolutionとDeep Residual Unitsを用いた皮膚病変分割

Lesion Net -- Skin Lesion Segmentation Using Coordinate Convolution and Deep Residual Units ( http://arxiv.org/abs/2012.14249v1 )

ライセンス: Link先を確認
Sabari Nathan, Priya Kansal(参考訳) 皮膚悪性黒色腫の診断過程において,皮膚病変の分節は重要なステップである。 しかし, メラノーマ皮膚病変の分画精度は, トレーニングデータが少なく, 不規則な形状, 境界が不明瞭で, 肌の色が異なるため, 極めて難しい課題である。 提案手法は皮膚病変分節の精度を向上させるのに役立つ。 まず、入力画像をエンコーダに渡す前に座標畳み込み層を導入する。 この層はネットワークが翻訳不変性に関する特徴を決定するのに役立ち、モデルの一般化能力をさらに向上させる。 第二に、我々は畳み込み層とともに深部残留単位の特性を利用した。 最終的に、クロスエントロピーやサイスロスのみを使用する代わりに、2ロス関数を組み合わせてトレーニングメトリクスを最適化し、損失をより迅速かつスムーズに収束できるようにしました。 提案されたモデルをISIC 2018(列車セットの60%+検証セットの20%)でトレーニングし、検証した後、トレーニングされたモデルの堅牢性をISIC 2018(テストセットの20%)、ISIC 2017、2016、PH2データセットといったさまざまなデータセットでテストしました。 以上の結果から,提案モデルが既存の皮膚病変の分画法と同等以上の性能を示した。

Skin lesions segmentation is an important step in the process of automated diagnosis of the skin melanoma. However, the accuracy of segmenting melanomas skin lesions is quite a challenging task due to less data for training, irregular shapes, unclear boundaries, and different skin colors. Our proposed approach helps in improving the accuracy of skin lesion segmentation. Firstly, we have introduced the coordinate convolutional layer before passing the input image into the encoder. This layer helps the network to decide on the features related to translation invariance which further improves the generalization capacity of the model. Secondly, we have leveraged the properties of deep residual units along with the convolutional layers. At last, instead of using only cross-entropy or Dice-loss, we have combined the two-loss functions to optimize the training metrics which helps in converging the loss more quickly and smoothly. After training and validating the proposed model on ISIC 2018 (60% as train set + 20% as validation set), we tested the robustness of our trained model on various other datasets like ISIC 2018 (20% as test-set) ISIC 2017, 2016 and PH2 dataset. The results show that the proposed model either outperform or at par with the existing skin lesion segmentation methods.
翻訳日:2021-04-19 11:07:58 公開日:2020-12-28
# 病的歩行と正常歩行の分類 : アンケート調査

Classification of Pathological and Normal Gait: A Survey ( http://arxiv.org/abs/2012.14465v1 )

ライセンス: Link先を確認
Ryan C. Saxe, Samantha Kappagoda, David K.A. Mordecai(参考訳) 歩行認識とは、コンピュータ科学分野における識別問題と呼ばれる用語である。 動作パターンに基づいて個人を識別できる様々な方法やモデルが存在する。 本稿では,歩行認識に関する現在の文献を調査し,個人間の歩行運動のパターンやモードに関するデータ収集と分析のための適切な指標,デバイス,アルゴリズムの同定を試みる。 さらに、この調査は、国家間の歩行の摂動に関する縦断的分析の幅広い範囲への関心を動機付けようとしている。 生理的、動機的、および/または認知状態)。 より広義には、通常の歩行パターンと病的歩行パターンへの推論は、縦型と非縦型の両方の分類に基づいている。 これは、疲労の定量化のためのアルゴリズムメトリクスの作成や、エピソード障害の予測モデルなど、有望な研究方向と実験的設計を示す可能性がある。 さらに、他の生理的・環境的条件の測定と合わせて、病状状態のシンドロミック監視や認知障害の推測に病理学的歩行分類を適用することができる。

Gait recognition is a term commonly referred to as an identification problem within the Computer Science field. There are a variety of methods and models capable of identifying an individual based on their pattern of ambulatory locomotion. By surveying the current literature on gait recognition, this paper seeks to identify appropriate metrics, devices, and algorithms for collecting and analyzing data regarding patterns and modes of ambulatory movement across individuals. Furthermore, this survey seeks to motivate interest in a broader scope of longitudinal analysis regarding the perturbations in gait across states (i.e. physiological, emotive, and/or cognitive states). More broadly, inferences to normal versus pathological gait patterns can be attributed, based on both longitudinal and non-longitudinal forms of classification. This may indicate promising research directions and experimental designs, such as creating algorithmic metrics for the quantification of fatigue, or models for forecasting episodic disorders. Furthermore, in conjunction with other measurements of physiological and environmental conditions, pathological gait classification might be applicable to inference for syndromic surveillance of infectious disease states or cognitive impairment.
翻訳日:2021-04-19 11:07:34 公開日:2020-12-28
# 構文強化プレトレーニングモデル

Syntax-Enhanced Pre-trained Model ( http://arxiv.org/abs/2012.14116v1 )

ライセンス: Link先を確認
Zenan Xu, Daya Guo, Duyu Tang, Qinliang Su, Linjun Shou, Ming Gong, Wanjun Zhong, Xiaojun Quan, Nan Duan and Daxin Jiang(参考訳) 本研究では, BERT や RoBERTa などの事前学習モデルを強化するために, テキストの構文構造を活用するという課題について検討する。 既存の手法では、事前学習段階または微調整段階のいずれかでテキストの構文を利用しており、両者の区別に苦しむ。 このような問題は、既存のメソッドの幅広いシナリオへの適用を制限する、人間に注釈をつけた構文情報を持つことの必要性につながる。 そこで本研究では,事前学習と微調整の両方でテキストの構文を利用するモデルを提案する。 我々のモデルは、テキストの依存性ツリーを考慮に入れた構文対応の注意層を備えたTransformerに基づいている。 さらに,依存ツリー内のトークン間の構文距離を予測するための事前学習タスクを導入する。 我々は,関係分類,エンティティタイピング,質問応答を含む3つの下流タスクのモデルを評価する。 その結果,本モデルが6つの公開ベンチマークデータセット上での最先端性能を実現することがわかった。 主な発見は2つある。 まず,テキストの自動生成構文が事前学習モデルを改善することを示す。 第2に、トークン間のグローバル構文距離は、連続したトークン間のローカルなヘッドリレーションよりも大きなパフォーマンス向上をもたらす。

We study the problem of leveraging the syntactic structure of text to enhance pre-trained models such as BERT and RoBERTa. Existing methods utilize syntax of text either in the pre-training stage or in the fine-tuning stage, so that they suffer from discrepancy between the two stages. Such a problem would lead to the necessity of having human-annotated syntactic information, which limits the application of existing methods to broader scenarios. To address this, we present a model that utilizes the syntax of text in both pre-training and fine-tuning stages. Our model is based on Transformer with a syntax-aware attention layer that considers the dependency tree of the text. We further introduce a new pre-training task of predicting the syntactic distance among tokens in the dependency tree. We evaluate the model on three downstream tasks, including relation classification, entity typing, and question answering. Results show that our model achieves state-of-the-art performance on six public benchmark datasets. We have two major findings. First, we demonstrate that infusing automatically produced syntax of text improves pre-trained models. Second, global syntactic distances among tokens bring larger performance gains compared to local head relations between contiguous tokens.
翻訳日:2021-04-19 11:06:58 公開日:2020-12-28
# 長文の拡張要約の作成について

On Generating Extended Summaries of Long Documents ( http://arxiv.org/abs/2012.14136v1 )

ライセンス: Link先を確認
Sajad Sotudeh, Arman Cohan, Nazli Goharian(参考訳) 文書要約における先行研究は、主に文書の短い要約を生成することに焦点を当てている。 このタイプの要約は、あるドキュメントの高レベルなビューを得るのに役立ちますが、短い要約には当てはまらない、その優れたポイントに関するより詳細な情報を知ることが望ましい場合もあります。 これは通常、研究用紙、法的文書、書籍のようなより長い文書の場合である。 本稿では,長文の拡張要約を生成するための新しい手法を提案する。 提案手法は文書の階層構造を利用して,マルチタスク学習手法を用いて抽出的要約モデルに組み込む。 次に,3つの長い要約データセット,arXiv-Long,PubMed-Long,Longsummについて報告する。 提案手法は, 強いベースラインの性能に優れ, 適合する。 さらに, 得られた結果について総合的な分析を行い, 長文要約生成課題の今後の研究について考察する。 提案手法は,複数節にまたがる要約文に対して,抽出確率分布を調整可能であることを示す。 私たちのデータセットとコードはhttps://github.com/Georgetown-IR-Lab/ExtendedSummで公開されています。

Prior work in document summarization has mainly focused on generating short summaries of a document. While this type of summary helps get a high-level view of a given document, it is desirable in some cases to know more detailed information about its salient points that can't fit in a short summary. This is typically the case for longer documents such as a research paper, legal document, or a book. In this paper, we present a new method for generating extended summaries of long papers. Our method exploits hierarchical structure of the documents and incorporates it into an extractive summarization model through a multi-task learning approach. We then present our results on three long summarization datasets, arXiv-Long, PubMed-Long, and Longsumm. Our method outperforms or matches the performance of strong baselines. Furthermore, we perform a comprehensive analysis over the generated results, shedding insights on future research for long-form summary generation task. Our analysis shows that our multi-tasking approach can adjust extraction probability distribution to the favor of summary-worthy sentences across diverse sections. Our datasets, and codes are publicly available at https://github.com/Georgetown-IR-Lab/ExtendedSumm
翻訳日:2021-04-19 11:06:42 公開日:2020-12-28
# 逆三重項埋め込みによる人物識別

Person Re-identification with Adversarial Triplet Embedding ( http://arxiv.org/abs/2012.14057v1 )

ライセンス: Link先を確認
Xinglu Wang(参考訳) 人物再特定は重要な課題であり、公共の安全のためのビデオ監視に広く応用されている。 近年,三重項損失を伴うディープラーニングネットワークが,この問題に対して人気を博している。 しかし、三重項の損失は通常、地域の最適性に乏しく、ハード・サンプル・マイニングの戦略に大きく依存する。 本稿では, 逆三重項埋め込み (ATE) と呼ばれる新しい深層学習手法を用いてこの問題に対処し, 同時に逆三重項と識別的特徴を統一されたフレームワークに埋め込む手法を提案する。 特に、adversarial tripletは、トレーニングプロセスにadversarial perturbationを導入することによって生成される。 この逆ゲームは、理論的な観点から最適な解を得るためにミニマックス問題に変換される。 いくつかのベンチマークデータセットに対する大規模な実験は、最先端の文献に対するアプローチの有効性を示している。

Person re-identification is an important task and has widespread applications in video surveillance for public security. In the past few years, deep learning network with triplet loss has become popular for this problem. However, the triplet loss usually suffers from poor local optimal and relies heavily on the strategy of hard example mining. In this paper, we propose to address this problem with a new deep metric learning method called Adversarial Triplet Embedding (ATE), in which we simultaneously generate adversarial triplets and discriminative feature embedding in an unified framework. In particular, adversarial triplets are generated by introducing adversarial perturbations into the training process. This adversarial game is converted into a minimax problem so as to have an optimal solution from the theoretical view. Extensive experiments on several benchmark datasets demonstrate the effectiveness of the approach against the state-of-the-art literature.
翻訳日:2021-04-19 11:05:03 公開日:2020-12-28
# 人物再識別のための多人数特徴学習

Adversarial Multi-scale Feature Learning for Person Re-identification ( http://arxiv.org/abs/2012.14061v1 )

ライセンス: Link先を確認
Xinglu Wang(参考訳) 個人再識別(Person ReID)は知的監視とコンピュータビジョンにおいて重要なトピックである。 2つの画像が同一人物に対応するか否かを判断するために、人物画像間の視覚的類似性を正確に測定することを目的とする。 視覚的類似性を正確に測定するための鍵は、異なる空間スケールからの手がかりをキャプチャするだけでなく、複数のスケールで共同推論し、各手がかりの信頼性とid-相対性を決定する能力を持つ、識別的特徴の学習である。 これらの目標を達成するために,2つの観点からPerson ReIDシステムの性能を改善することを提案する。 クロススケール情報伝達 (CSIP) とマルチスケール特徴融合 (MSFF) から構成されるマルチスケール特徴学習 (MSFL) により, 動的に異なるスケールを融合する。 マルチスケール勾配正規化器(MSGR)は,ID関連因子を強調し,非関連因子を逆向きに無視する。 提案手法はMSFLとMSGRを組み合わせることで,テスト時間計算のオーバーヘッドを無視できる4つの個人ReIDデータセットの最先端性能を実現する。

Person Re-identification (Person ReID) is an important topic in intelligent surveillance and computer vision. It aims to accurately measure visual similarities between person images for determining whether two images correspond to the same person. The key to accurately measure visual similarities is learning discriminative features, which not only captures clues from different spatial scales, but also jointly inferences on multiple scales, with the ability to determine reliability and ID-relativity of each clue. To achieve these goals, we propose to improve Person ReID system performance from two perspective: \textbf{1).} Multi-scale feature learning (MSFL), which consists of Cross-scale information propagation (CSIP) and Multi-scale feature fusion (MSFF), to dynamically fuse features cross different scales.\textbf{2).} Multi-scale gradient regularizor (MSGR), to emphasize ID-related factors and ignore irrelevant factors in an adversarial manner. Combining MSFL and MSGR, our method achieves the state-of-the-art performance on four commonly used person-ReID datasets with neglectable test-time computation overhead.
翻訳日:2021-04-19 11:04:50 公開日:2020-12-28
# 顔形状に基づくフーリエディスクリプタ融合を用いた人間の表情認識

Human Expression Recognition using Facial Shape Based Fourier Descriptors Fusion ( http://arxiv.org/abs/2012.14097v1 )

ライセンス: Link先を確認
Ali Raza Shahid, Sheheryar Khan, Hong Yan(参考訳) 動的表情認識は、ソーシャルネットワーク、マルチメディアコンテンツ分析、セキュリティシステムなど、多くの有用な応用がある。 この困難なプロセスは、部分的オクルージョンで変化する画像照明と低分解能の繰り返しの問題の下で行う必要がある。 本稿では,顔の筋肉の変化に基づく新しい表情認識法を提案する。 幾何学的特徴は、口、目、鼻などの顔領域を特定するために用いられる。 楕円フーリエ形状記述子と組み合わせた汎用フーリエ形状記述子は、周波数スペクトルの特徴の下で異なる感情を表現する属性として用いられる。 その後、7つの人間の表現の分類にマルチクラスサポートベクターマシンが適用される。 統計的解析により, 顔表情データセット上での精度の高い5倍クロス検証により, 総合的コンピテント認識が得られた。

Dynamic facial expression recognition has many useful applications in social networks, multimedia content analysis, security systems and others. This challenging process must be done under recurrent problems of image illumination and low resolution which changes at partial occlusions. This paper aims to produce a new facial expression recognition method based on the changes in the facial muscles. The geometric features are used to specify the facial regions i.e., mouth, eyes, and nose. The generic Fourier shape descriptor in conjunction with elliptic Fourier shape descriptor is used as an attribute to represent different emotions under frequency spectrum features. Afterwards a multi-class support vector machine is applied for classification of seven human expression. The statistical analysis showed our approach obtained overall competent recognition using 5-fold cross validation with high accuracy on well-known facial expression dataset.
翻訳日:2021-04-19 11:04:29 公開日:2020-12-28
# ラベルや衝突のないカテゴリー拡張オブジェクト検出器を目指して

Towards A Category-extended Object Detector without Relabeling or Conflicts ( http://arxiv.org/abs/2012.14115v1 )

ライセンス: Link先を確認
Bowen Zhao, Chen Chen, Wanpeng Xiao, Xi Xiao, Qi Ju, Shutao Xia(参考訳) オブジェクト検出器は通常、あらかじめ定義されたカテゴリを固定した完全なアノテーション付きトレーニングデータに基づいて学習される。 しかし、多くの現実的なアプリケーションでクラスを段階的に増やすことがしばしば要求されるため、興味のあるすべてのカテゴリを事前に知ることはできない。 このようなシナリオでは、古いクラスに注釈付けされた元のトレーニングセットと、新しいクラスにラベル付けされた新しいトレーニングデータのみが利用可能です。 本稿では,手作業を必要とせずに,限られたデータセットに基づいてすべてのカテゴリを処理可能な,強力な統一型検出器の傾きを目標とする。 ラベルの曖昧さを考慮しないバニラ合同トレーニングは、不完全なアノテーションのため、大きなバイアスとパフォーマンスの低下につながる。 このような状況を避けるために,我々は,ベースモデルの改善,ラベルなし地中マイニング戦略の改善,擬似アノテーションによる再トレーニング方法の改善という3つの側面に注目した実践的枠組みを提案する。 まず、使用可能なベース検出器を得るために、競合のない損失を提案する。 次に,モンテカルロ・ドロップアウトを用いて局所化信頼度と分類信頼度を組み合わせ,より正確な境界ボックスをマイニングする。 第3に,再トレーニング中に擬似アノテーションをより有効に活用して,より強力な検出を実現するためのいくつかの戦略を検討する。 複数のデータセット上で行った広範囲な実験は、カテゴリ拡張オブジェクト検出器に対するフレームワークの有効性を実証している。

Object detectors are typically learned based on fully-annotated training data with fixed pre-defined categories. However, not all possible categories of interest can be known beforehand, as classes are often required to be increased progressively in many realistic applications. In such scenario, only the original training set annotated with the old classes and some new training data labeled with the new classes are available. In this paper, we aim at leaning a strong unified detector that can handle all categories based on the limited datasets without extra manual labor. Vanilla joint training without considering label ambiguity leads to heavy biases and poor performance due to the incomplete annotations. To avoid such situation, we propose a practical framework which focuses on three aspects: better base model, better unlabeled ground-truth mining strategy and better retraining method with pseudo annotations. First, a conflict-free loss is proposed to obtain a usable base detector. Second, we employ Monte Carlo Dropout to calculate the localization confidence, combined with the classification confidence, to mine more accurate bounding boxes. Third, we explore several strategies for making better use of pseudo annotations during retraining to achieve more powerful detectors. Extensive experiments conducted on multiple datasets demonstrate the effectiveness of our framework for category-extended object detectors.
翻訳日:2021-04-19 11:04:17 公開日:2020-12-28
# 色化のためのジョイントイントインテンシティ勾配誘導生成モデル

Joint Intensity-Gradient Guided Generative Modeling for Colorization ( http://arxiv.org/abs/2012.14130v1 )

ライセンス: Link先を確認
Kai Hong, Jin Li, Wanyun Li, Cailian Yang, Minghui Zhang, Yuhao Wang and Qiegen Liu(参考訳) 本稿では,自動着色問題を解決するための反復生成モデルを提案する。 従来の研究では、可塑性色を生成する能力が示されていたが、エッジ色オーバーフローと参照画像の要求がまだ残っている。 本研究における教師なし学習の出発点は、勾配写像が画像の潜在情報を持っているという観察である。 したがって、生成モデリングの推論過程は、合同強度勾配領域で行われる。 具体的には、ネットワーク入力として、強度勾配の高次元テンソルの集合を用いて、トレーニングフェーズで強力な雑音条件スコアネットワークをトレーニングする。 さらに,反復発色段階における生成モデル内の自由度を制限するため,データ忠実性項における合同強度勾配制約を提案し,エッジ保存に寄与する。 広範な実験により、定量的比較やユーザ研究において、システムは最先端の手法よりも優れていた。

This paper proposes an iterative generative model for solving the automatic colorization problem. Although previous researches have shown the capability to generate plausible color, the edge color overflow and the requirement of the reference images still exist. The starting point of the unsupervised learning in this study is the observation that the gradient map possesses latent information of the image. Therefore, the inference process of the generative modeling is conducted in joint intensity-gradient domain. Specifically, a set of intensity-gradient formed high-dimensional tensors, as the network input, are used to train a powerful noise conditional score network at the training phase. Furthermore, the joint intensity-gradient constraint in data-fidelity term is proposed to limit the degree of freedom within generative model at the iterative colorization stage, and it is conducive to edge-preserving. Extensive experiments demonstrated that the system outperformed state-of-the-art methods whether in quantitative comparisons or user study.
翻訳日:2021-04-19 11:03:56 公開日:2020-12-28
# Deep Graph Normalizer: 接続型脳テンプレート推定のための幾何学的深層学習手法

Deep Graph Normalizer: A Geometric Deep Learning Approach for Estimating Connectional Brain Templates ( http://arxiv.org/abs/2012.14131v1 )

ライセンス: Link先を確認
Mustafa Burak Gurbuz and Islem Rekik(参考訳) 接続型脳テンプレート(cbt)は、平均的なコネクトームと見なされる脳ネットワーク群を正規化したグラフベース表現である。 CBTは、典型的および非典型的集団における脳接続の代表的なマップを作成するための強力なツールである。 特に、多視点脳ネットワーク(mvbn)の個体群に対する、よく中央集権的で代表的なcbtの推定は、複雑な多様体上にあり、異なる異種ネットワークビューを融合する簡単な方法がないため、より困難である。 この問題は、コネクトーム間の関係が概ね線型であるという仮定に根ざした最近のいくつかの研究を除いては未解明のままである。 しかし、そのような仮定は複雑なパターンや個人間での非線形変動を捉えない。 さらに、既存の手法はフィードバック機構のないシーケンシャルMVBN処理ブロックで構成されており、エラーの蓄積につながる。 これらの問題に対処するため,1つの接続脳テンプレートに統合することでMVBNの集団を正規化するための最初の幾何学的深層学習(GDL)アーキテクチャであるDeep Graph Normalizer (DGN)を提案する。 我々のエンドツーエンドのDGNは、被験者間の非線形パターンを捉え、グラフ畳み込みニューラルネットワークを利用して脳のグラフトポロジ特性を保存しながら、マルチビューの脳ネットワークを融合する方法を学ぶ。 また,MVBNと推定CBT間の距離を最小化するために,正規化器としても機能するランダム化重み付き損失関数を導入する。 我々は,DGNが,各脳ネットワークの個体群に特異的な結合性を識別し,その代表性と識別性の両方の観点から,小規模および大規模接続データセット上でCBTを推定する既存の最先端手法を著しく上回っていることを実証した。

A connectional brain template (CBT) is a normalized graph-based representation of a population of brain networks also regarded as an average connectome. CBTs are powerful tools for creating representative maps of brain connectivity in typical and atypical populations. Particularly, estimating a well-centered and representative CBT for populations of multi-view brain networks (MVBN) is more challenging since these networks sit on complex manifolds and there is no easy way to fuse different heterogeneous network views. This problem remains unexplored with the exception of a few recent works rooted in the assumption that the relationship between connectomes are mostly linear. However, such an assumption fails to capture complex patterns and non-linear variation across individuals. Besides, existing methods are simply composed of sequential MVBN processing blocks without any feedback mechanism, leading to error accumulation. To address these issues, we propose Deep Graph Normalizer (DGN), the first geometric deep learning (GDL) architecture for normalizing a population of MVBNs by integrating them into a single connectional brain template. Our end-to-end DGN learns how to fuse multi-view brain networks while capturing non-linear patterns across subjects and preserving brain graph topological properties by capitalizing on graph convolutional neural networks. We also introduce a randomized weighted loss function which also acts as a regularizer to minimize the distance between the population of MVBNs and the estimated CBT, thereby enforcing its centeredness. We demonstrate that DGN significantly outperforms existing state-of-the-art methods on estimating CBTs on both small-scale and large-scale connectomic datasets in terms of both representativeness and discriminability (i.e., identifying distinctive connectivities fingerprinting each brain network population).
翻訳日:2021-04-19 11:03:41 公開日:2020-12-28
# Deep Visual Domain Adaptation

Deep Visual Domain Adaptation ( http://arxiv.org/abs/2012.14176v1 )

ライセンス: Link先を確認
Gabriela Csurka(参考訳) ドメイン適応(DA)は、異なるが関連するソースドメインに含まれる知識を転送することで、ターゲットドメインにおけるモデルの性能を改善することを目的としている。 近年,極めてデータ不足の深い学習モデルの進歩に伴い,過去10年間で視覚的DAへの関心が著しく増加し,現場における関連研究が爆発的に増えている。 そこで本稿は,コンピュータビジョンアプリケーションのための深部領域適応法を包括的に概観することを目的としている。 まず、ドメイン適応のためにディープアーキテクチャを利用するさまざまな方法の詳細と比較を行う。 そこで我々は,近年のディープビジュアルDAの動向について概説する。 最後に,これらのモデルに適用可能な,これらの手法と直交するいくつかの改善戦略について述べる。 我々は主に画像分類に焦点をあてるが、セマンティックセグメンテーション、オブジェクト検出、人物の再識別など、これらのアイデアを他のアプリケーションに拡張する論文にポインタを与える。

Domain adaptation (DA) aims at improving the performance of a model on target domains by transferring the knowledge contained in different but related source domains. With recent advances in deep learning models which are extremely data hungry, the interest for visual DA has significantly increased in the last decade and the number of related work in the field exploded. The aim of this paper, therefore, is to give a comprehensive overview of deep domain adaptation methods for computer vision applications. First, we detail and compared different possible ways of exploiting deep architectures for domain adaptation. Then, we propose an overview of recent trends in deep visual DA. Finally, we mention a few improvement strategies, orthogonal to these methods, that can be applied to these models. While we mainly focus on image classification, we give pointers to papers that extend these ideas for other applications such as semantic segmentation, object detection, person re-identifications, and others.
翻訳日:2021-04-19 11:02:49 公開日:2020-12-28
# カーネル型グラフ畳み込みネットワークによる行動認識

Action Recognition with Kernel-based Graph Convolutional Networks ( http://arxiv.org/abs/2012.14186v1 )

ライセンス: Link先を確認
Hichem Sahbi(参考訳) 学習グラフ畳み込みネットワーク(GCN)は、任意の非正規領域にディープラーニングを一般化することを目的とした新興分野である。 既存のGCNのほとんどは、平均化やソート操作を使用して隣接ノード表現を集約することで、ノードの表現を再帰的に取得する、近傍集約スキームに従っている。 しかし、これらの操作は不適格であるか弱いか、トレーニングパラメータの数を増加させ、計算の複雑さと過剰適合のリスクを増大させる。 本稿では、再生カーネルヒルベルト空間(RKHS)における空間グラフ畳み込みを実現する新しいGCNフレームワークを提案する。 後者では、暗黙のカーネル表現、畳み込みグラフフィルタを、トレーニングパラメータの数を増やすことなく高次元でより識別可能な空間で設計することができる。 また、GCNモデルの特異性は、学習したグラフフィルタの受容領域内のノードを入力グラフのそれと明示的に認識することなく畳み込みを達成できるため、畳み込みを非依存かつ適切に定義することができる。 骨格に基づく行動認識の課題に対して行われた実験は,提案手法が異なるベースラインと関連する作業に対して優れていることを示す。

Learning graph convolutional networks (GCNs) is an emerging field which aims at generalizing deep learning to arbitrary non-regular domains. Most of the existing GCNs follow a neighborhood aggregation scheme, where the representation of a node is recursively obtained by aggregating its neighboring node representations using averaging or sorting operations. However, these operations are either ill-posed or weak to be discriminant or increase the number of training parameters and thereby the computational complexity and the risk of overfitting. In this paper, we introduce a novel GCN framework that achieves spatial graph convolution in a reproducing kernel Hilbert space (RKHS). The latter makes it possible to design, via implicit kernel representations, convolutional graph filters in a high dimensional and more discriminating space without increasing the number of training parameters. The particularity of our GCN model also resides in its ability to achieve convolutions without explicitly realigning nodes in the receptive fields of the learned graph filters with those of the input graphs, thereby making convolutions permutation agnostic and well defined. Experiments conducted on the challenging task of skeleton-based action recognition show the superiority of the proposed method against different baselines as well as the related work.
翻訳日:2021-04-19 11:02:34 公開日:2020-12-28
# DeepSurfels: オンライン外観融合を学ぶ

DeepSurfels: Learning Online Appearance Fusion ( http://arxiv.org/abs/2012.14240v1 )

ライセンス: Link先を確認
Marko Mihajlovic, Silvan Weder, Marc Pollefeys, Martin R. Oswald(参考訳) 幾何情報と外観情報のための新しいハイブリッドシーン表現であるdeepsurfelsを提案する。 DeepSurfelsは、明示的およびニューラルなビルディングブロックを組み合わせて、幾何学と外観情報を共同でエンコードする。 確立された表現とは対照的に、DeepSurfelsは高周波テクスチャをよりよく表現し、外観情報のオンライン更新に適しており、機械学習手法と簡単に組み合わせることができる。 さらに,提案するシーン表現にrgb画像が提供する情報を融合し,入力画像に対して再投影誤差によって課される自己スーパービジョンを用いて訓練する,エンドツーエンドのトレーニング可能なオンライン外観融合パイプラインを提案する。 提案手法は,従来のテクスチャマッピング手法や最近提案された学習手法とよく比較できる。 さらに,ランタイムの低下,一般化能力の向上,既存手法と比較して拡張性の向上が図られている。

We present DeepSurfels, a novel hybrid scene representation for geometry and appearance information. DeepSurfels combines explicit and neural building blocks to jointly encode geometry and appearance information. In contrast to established representations, DeepSurfels better represents high-frequency textures, is well-suited for online updates of appearance information, and can be easily combined with machine learning methods. We further present an end-to-end trainable online appearance fusion pipeline that fuses information provided by RGB images into the proposed scene representation and is trained using self-supervision imposed by the reprojection error with respect to the input images. Our method compares favorably to classical texture mapping approaches as well as recently proposed learning-based techniques. Moreover, we demonstrate lower runtime, improved generalization capabilities, and better scalability to larger scenes compared to existing methods.
翻訳日:2021-04-19 11:01:54 公開日:2020-12-28
# Few-Shot Point Cloud Semantic Segmentationのためのマルチビュー比較による合成プロトタイプネットワーク

Compositional Prototype Network with Multi-view Comparision for Few-Shot Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2012.14255v1 )

ライセンス: Link先を確認
Xiaoyu Chen, Chi Zhang, Guosheng Lin, Jing Han(参考訳) ポイントクラウドセグメンテーションは、3dビジョンにおける基本的なビジュアル理解タスクである。 完全に教師ありのポイントクラウドセグメンテーションネットワークは、多くの場合、ポイントワイズアノテーションを持つ大量のデータを必要とする。 本研究では,少数のラベル付きトレーニングデータのみを用いて,ポイントクラウドセグメンテーションを実施可能なコンポジションプロトタイプネットワークを提案する。 画像中の少数の学習文献にインスパイアされた我々のネットワークは、限られたトレーニングデータからラベル付きテストデータに直接ラベル情報を転送して予測する。 このネットワークは、複雑なポイントクラウドデータの表現を局所的な表現の集合に分解し、それらを用いて視覚概念の合成プロトタイプを計算する。 私たちのネットワークには、サポートセットの冗長なビューを利用する重要なマルチビュー比較コンポーネントが含まれています。 提案手法を評価するため,新しいセグメンテーションベンチマークデータセットであるScanNet-$6^i$を作成し,ScanNetデータセット上に構築する。 大規模な実験により,本手法はベースラインよりも優れた性能を示した。 さらに、完全な教師付きポイントクラウドセグメンテーションデータセットにおけるロングテール問題に対処するためにネットワークを使用する場合、少数クラスのパフォーマンスを効果的に向上させることができます。

Point cloud segmentation is a fundamental visual understanding task in 3D vision. A fully supervised point cloud segmentation network often requires a large amount of data with point-wise annotations, which is expensive to obtain. In this work, we present the Compositional Prototype Network that can undertake point cloud segmentation with only a few labeled training data. Inspired by the few-shot learning literature in images, our network directly transfers label information from the limited training data to unlabeled test data for prediction. The network decomposes the representations of complex point cloud data into a set of local regional representations and utilizes them to calculate the compositional prototypes of a visual concept. Our network includes a key Multi-View Comparison Component that exploits the redundant views of the support set. To evaluate the proposed method, we create a new segmentation benchmark dataset, ScanNet-$6^i$, which is built upon ScanNet dataset. Extensive experiments show that our method outperforms baselines with a significant advantage. Moreover, when we use our network to handle the long-tail problem in a fully supervised point cloud segmentation dataset, it can also effectively boost the performance of the few-shot classes.
翻訳日:2021-04-19 11:01:40 公開日:2020-12-28
# ロボットにおけるドメインシフトによるオンライン物体検出のためのデータ効率の弱教師付き学習

Data-efficient Weakly-supervised Learning for On-line Object Detection under Domain Shift in Robotics ( http://arxiv.org/abs/2012.14345v1 )

ライセンス: Link先を確認
Elisa Maiettini and Raffaello Camoriano and Giulia Pasquale and Vadim Tikhanoff and Lorenzo Rosasco and Lorenzo Natale(参考訳) 近年,Deep Convolutional Neural Networks (DCNN) に基づくオブジェクト検出手法が提案されている。 このようなアーキテクチャは、計算コストのかかるバッチトレーニングと広範囲なラベリングを犠牲にして、優れた性能を発揮することが示されている。 オフラインデータのみに基づく学習はバイアス(いわゆるドメインシフト)をもたらし、新しいタスクへの適応を防ぐ。 本研究では,これらの問題に対して弱い教師付き学習がどう対処できるかを検討する。 検出パイプラインにおける弱教師付き学習のいくつかの手法を比較し,精度を損なうことなくモデル(再学習)コストを削減する。 特に、アクティブな学習クエリ構築のための多様性サンプリングと自己教師付き学習のための強陽性選択により、大幅なアノテーションの節約とドメインシフト適応の改善が可能であることを示す。 我々の戦略をハイブリッドDCNN/FALKONオンライン検出パイプライン[1]に統合することにより、従来の作業の限界を克服し、少数のラベルで効率的にトレーニングし、更新することができる。 ドメインシフト下でのロボット物体検出課題に対して,提案手法を実験的に検証し,ベンチマークを行った。

Several object detection methods have recently been proposed in the literature, the vast majority based on Deep Convolutional Neural Networks (DCNNs). Such architectures have been shown to achieve remarkable performance, at the cost of computationally expensive batch training and extensive labeling. These methods have important limitations for robotics: Learning solely on off-line data may introduce biases (the so-called domain shift), and prevents adaptation to novel tasks. In this work, we investigate how weakly-supervised learning can cope with these problems. We compare several techniques for weakly-supervised learning in detection pipelines to reduce model (re)training costs without compromising accuracy. In particular, we show that diversity sampling for constructing active learning queries and strong positives selection for self-supervised learning enable significant annotation savings and improve domain shift adaptation. By integrating our strategies into a hybrid DCNN/FALKON on-line detection pipeline [1], our method is able to be trained and updated efficiently with few labels, overcoming limitations of previous work. We experimentally validate and benchmark our method on challenging robotic object detection tasks under domain shift.
翻訳日:2021-04-19 11:01:22 公開日:2020-12-28
# 電子カルテからの死亡予測のための不均一グラフ埋め込みを用いた深層学習

Deep Learning with Heterogeneous Graph Embeddings for Mortality Prediction from Electronic Health Records ( http://arxiv.org/abs/2012.14065v1 )

ライセンス: Link先を確認
Tingyi Wanyan, Hossein Honarvar, Ariful Azad, Ying Ding, Benjamin S. Glicksberg(参考訳) 集中治療ユニットの設定における院内死亡率の計算的予測は、臨床医が治療を指導し、介入の早期決定を行うのに役立つ。 臨床データの構造とコンポーネントは複雑で多様であるため、最適な結果をモデル化できるアーキテクチャを特定するには、モデリング戦略の継続的な革新が必要である。 本研究では,電子健康記録データに基づく異種グラフモデル(hgm)を訓練し,その埋め込みベクトルを畳み込みニューラルネットワーク(cnn)モデルに追加情報として用いることにより,病院内死亡率を予測する。 組込みのベクターとしての時間を含む付加情報が,医療概念,検査,診断の関係を捉え,予測性能を高めることを示す。 cnnモデルにhgmを添加すると死亡率予測精度が最大4\%向上することがわかった。 このフレームワークは、重要な医療予測タスクに様々なehrデータ型を含む将来の実験の基礎となる。

Computational prediction of in-hospital mortality in the setting of an intensive care unit can help clinical practitioners to guide care and make early decisions for interventions. As clinical data are complex and varied in their structure and components, continued innovation of modeling strategies is required to identify architectures that can best model outcomes. In this work, we train a Heterogeneous Graph Model (HGM) on Electronic Health Record data and use the resulting embedding vector as additional information added to a Convolutional Neural Network (CNN) model for predicting in-hospital mortality. We show that the additional information provided by including time as a vector in the embedding captures the relationships between medical concepts, lab tests, and diagnoses, which enhances predictive performance. We find that adding HGM to a CNN model increases the mortality prediction accuracy up to 4\%. This framework serves as a foundation for future experiments involving different EHR data types on important healthcare prediction tasks.
翻訳日:2021-04-19 11:00:26 公開日:2020-12-28
# ディープニューラルネットワークの拡散変換ダイザー変調透かし

Spread-Transform Dither Modulation Watermarking of Deep Neural Network ( http://arxiv.org/abs/2012.14171v1 )

ライセンス: Link先を確認
Yue Li, Benedetta Tondi and Mauro Barni(参考訳) DNNの透かしは、DNNモデルに関連する知的財産権を保護する適切な手段として注目されている。 これまで提案されてきたいくつかの手法は、DNNモデルの重みのプロジェクションに透かしビットを擬似ランダムシーケンスに埋め込む、人気のあるスプレッドスペクトル(SS)パラダイムにインスパイアされている。 本稿では、サイド情報パラダイムを用いた透かしを利用した新しいDNN透かしアルゴリズムを提案し、透かしの難易度を低減し、ペイロードを増加させる。 特に,ST-DM(Spread Transform Dither Modulation)による電子透かし方式は,従来のSSに基づく最近提案されたアルゴリズムの性能向上に寄与する。 提案手法を異なるモデルの透かしに適用し,従来のSSに基づくベースライン方式よりもネットワーク精度への影響の低い高いペイロードを,良好なロバスト性を維持しつつ提供できることを実証した。

DNN watermarking is receiving an increasing attention as a suitable mean to protect the Intellectual Property Rights associated to DNN models. Several methods proposed so far are inspired to the popular Spread Spectrum (SS) paradigm according to which the watermark bits are embedded into the projection of the weights of the DNN model onto a pseudorandom sequence. In this paper, we propose a new DNN watermarking algorithm that leverages on the watermarking with side information paradigm to decrease the obtrusiveness of the watermark and increase its payload. In particular, the new scheme exploits the main ideas of ST-DM (Spread Transform Dither Modulation) watermarking to improve the performance of a recently proposed algorithm based on conventional SS. The experiments we carried out by applying the proposed scheme to watermark different models, demonstrate its capability to provide a higher payload with a lower impact on network accuracy than a baseline method based on conventional SS, while retaining a satisfactory level of robustness.
翻訳日:2021-04-19 10:59:22 公開日:2020-12-28
# 制約に対する解の数を数える

Counting the Number of Solutions to Constraints ( http://arxiv.org/abs/2012.14366v1 )

ライセンス: Link先を確認
Jian Zhang, Cunjing Ge, Feifei Ma(参考訳) 制約満足度問題と比較して、問題のカウントは注目されていない。 本稿では,制約に対する解の数をカウントする問題に関する調査研究を行う。 制約は、命題論理の論理式、実数や整数上の線型不等式、線形制約のブール結合など、様々な形式をとることができる。 計算問題を解くためのいくつかの技術やツール、アプリケーション(例えば、自動推論、プログラム解析、形式的検証、情報セキュリティなど)について述べる。

Compared with constraint satisfaction problems, counting problems have received less attention. In this paper, we survey research works on the problems of counting the number of solutions to constraints. The constraints may take various forms, including, formulas in the propositional logic, linear inequalities over the reals or integers, Boolean combination of linear constraints. We describe some techniques and tools for solving the counting problems, as well as some applications (e.g., applications to automated reasoning, program analysis, formal verification and information security).
翻訳日:2021-04-19 10:59:05 公開日:2020-12-28
# 報奨機による視覚ロボットの絡み合った計画と制御

Disentangled Planning and Control in Vision Based Robotics via Reward Machines ( http://arxiv.org/abs/2012.14464v1 )

ライセンス: Link先を確認
Alberto Camacho, Jacob Varley, Deepali Jain, Atil Iscen and Dmitry Kalashnikov(参考訳) 本研究では,ロボットタスクの視覚ベースのポリシを学習する速度を高めるために,Deep Q-Learning AgentをReward Machine (DQRM)で強化し,DQNの制約を克服し,高品質なポリシに収束することを防ぐ。 報酬機(英: reward machine、RM)は、タスクを個別の計画グラフに分解し、エージェントに報酬関数を付与してタスク完了に向けて誘導する有限状態機械である。 報酬マシンは、報酬のシェーピングと、現在どのような抽象状態にあるかをポリシーに通知するために使用できる。 抽象状態は、タスクに関連する機能の観点から定義された、現在の状態の高レベルな単純化である。 これら2つの報酬形成信号と報奨機からの現在の抽象状態の知識は相互に補完し、複数の視覚に基づくロボットピック・アンド・プレイス・タスクで示されるように、ポリシー性能の向上に利用することができる。 特にビジョンベースのロボティクスアプリケーションでは、この構造を使わずにタスクを学習するためのポリシーを得るよりも、報酬機を構築する方が容易であることが多い。

In this work we augment a Deep Q-Learning agent with a Reward Machine (DQRM) to increase speed of learning vision-based policies for robot tasks, and overcome some of the limitations of DQN that prevent it from converging to good-quality policies. A reward machine (RM) is a finite state machine that decomposes a task into a discrete planning graph and equips the agent with a reward function to guide it toward task completion. The reward machine can be used for both reward shaping, and informing the policy what abstract state it is currently at. An abstract state is a high level simplification of the current state, defined in terms of task relevant features. These two supervisory signals of reward shaping and knowledge of current abstract state coming from the reward machine complement each other and can both be used to improve policy performance as demonstrated on several vision based robotic pick and place tasks. Particularly for vision based robotics applications, it is often easier to build a reward machine than to try and get a policy to learn the task without this structure.
翻訳日:2021-04-19 10:58:57 公開日:2020-12-28
# 遺伝子と言語が共有する進化のメカニズム

Mechanism of Evolution Shared by Gene and Language ( http://arxiv.org/abs/2012.14309v1 )

ライセンス: Link先を確認
Li-Min Wang, Hsing-Yi Lai, Sun-Ting Tsai, Shan-Jyun Wu, Meng-Xue Tsai, Daw-Wei Wang, Yi-Ching Su, Chen Siang Ng, and Tzay-Ming Hong(参考訳) 遺伝子と言語の多様性を説明するための進化の一般的なメカニズムを提案する。 共通の特徴を定量化し, 隠蔽構造を明らかにするために, ランク解析と呼ばれる新しい手法を用いて, 統計特性とパターンについて検討した。 古典的対応である「ドメインは遺伝子言語において単語の役割を担う」は厳密ではなく、ドメインをタンパク質に置き換えることを提案している。 さらに,新たな進化単位であるsylgramを考案し,話し言葉と書き言葉の特徴を包含する。 タンパク質, ドメイン) と (単語, シルグラム) の対応から, 遺伝子と言語が共通のスケーリング構造とスケールフリーネットワークを共有していることが判明した。 ロゼッタ石と同様に、この研究は非コードDNAや未知の言語の背後にある秘密を解読するのに役立つかもしれない。

We propose a general mechanism for evolution to explain the diversity of gene and language. To quantify their common features and reveal the hidden structures, several statistical properties and patterns are examined based on a new method called the rank-rank analysis. We find that the classical correspondence, "domain plays the role of word in gene language", is not rigorous, and propose to replace domain by protein. In addition, we devise a new evolution unit, syllgram, to include the characteristics of spoken and written language. Based on the correspondence between (protein, domain) and (word, syllgram), we discover that both gene and language shared a common scaling structure and scale-free network. Like the Rosetta stone, this work may help decipher the secret behind non-coding DNA and unknown languages.
翻訳日:2021-04-19 10:58:25 公開日:2020-12-28
# 共有構造をもつ多重ネットワークの潜在空間モデル

Latent space models for multiplex networks with shared structure ( http://arxiv.org/abs/2012.14409v1 )

ライセンス: Link先を確認
Peter W. MacDonald, Elizaveta Levina, Ji Zhu(参考訳) 遅延空間モデルは単層ネットワークのモデリングによく使われ、確率ブロックモデルやランダムドット積グラフのような多くの一般的な特殊ケースを含む。 しかし、それらはより複雑なネットワーク構造のために十分に開発されていない。 本稿では、共有ノード集合上で観測される多重異種ネットワークという、多重ネットワークのための新しい潜在空間モデルを提案する。 多重ネットワークは、共有ノードラベルを持つネットワークサンプル、時間とともに進化するネットワーク、複数のタイプのエッジを持つネットワークを表現できる。 私たちのモデルの主な特徴は、レイヤー間でネットワーク構造がどの程度共有されているかデータから学び、レイヤ間で情報を適切にプールすることです。 共有部分空間と個々の潜在部分空間との間に十分な分離がある限り、識別可能性を確立し、核規範ペナルティと組み合わせて凸最適化を用いた適合手順を開発し、潜在位置の回復を保証する。 シミュレーションネットワークやマルチプレックスネットワークにおいて,農作物の世界的な取引を記述したモデルと競合する手法を比較した。

Latent space models are frequently used for modeling single-layer networks and include many popular special cases, such as the stochastic block model and the random dot product graph. However, they are not well-developed for more complex network structures, which are becoming increasingly common in practice. Here we propose a new latent space model for multiplex networks: multiple, heterogeneous networks observed on a shared node set. Multiplex networks can represent a network sample with shared node labels, a network evolving over time, or a network with multiple types of edges. The key feature of our model is that it learns from data how much of the network structure is shared between layers and pools information across layers as appropriate. We establish identifiability, develop a fitting procedure using convex optimization in combination with a nuclear norm penalty, and prove a guarantee of recovery for the latent positions as long as there is sufficient separation between the shared and the individual latent subspaces. We compare the model to competing methods in the literature on simulated networks and on a multiplex network describing the worldwide trade of agricultural products.
翻訳日:2021-04-19 10:58:12 公開日:2020-12-28
# 宇宙へ向けて:コモディティWiFiを用いた3D移動型人間の視点推定

From Point to Space: 3D Moving Human Pose Estimation Using Commodity WiFi ( http://arxiv.org/abs/2012.14066v1 )

ライセンス: Link先を確認
Yiming Wang, Lingchao Guo, Zhaoming Lu, Xiangming Wen, Shuang Zhou, and Wanyu Meng(参考訳) 本稿では,コモディティWiFiを用いた最初の3次元移動型ポーズ推定システムであるWi-Moseを提案する。 これまでのWiFiベースの作品は2Dと3Dのポーズ推定に成功している。 これらのソリューションは、ある視点からポーズを捉えたり、一定地点にいる人々のポーズを構築したりすることで、日々のシナリオで広く採用されるのを防ぐ。 固定点ではなく空間中を移動する人々の3Dポーズを再構成するために、振幅と位相をチャネル状態情報(CSI)画像に融合し、ポーズ情報と位置情報の両方を提供する。 さらに,CSI画像からのポーズのみに関連する特徴を抽出し,その特徴をキーポイント座標に変換するニューラルネットワークを設計する。 実験結果から,Wi-Moseは29.7mm,37.8mmProcrustes解析により,Line of Sight(LoS),Non-Line of Sight(NLoS)シナリオにおけるP-MPJPE(P-MPJPE)の平均値でキーポイントをローカライズできることがわかった。 その結果,Wi-Moseは空間全体の高精度な3Dポーズをキャプチャできることがわかった。

In this paper, we present Wi-Mose, the first 3D moving human pose estimation system using commodity WiFi. Previous WiFi-based works have achieved 2D and 3D pose estimation. These solutions either capture poses from one perspective or construct poses of people who are at a fixed point, preventing their wide adoption in daily scenarios. To reconstruct 3D poses of people who move throughout the space rather than a fixed point, we fuse the amplitude and phase into Channel State Information (CSI) images which can provide both pose and position information. Besides, we design a neural network to extract features that are only associated with poses from CSI images and then convert the features into key-point coordinates. Experimental results show that Wi-Mose can localize key-point with 29.7mm and 37.8mm Procrustes analysis Mean Per Joint Position Error (P-MPJPE) in the Line of Sight (LoS) and Non-Line of Sight (NLoS) scenarios, respectively, achieving higher performance than the state-of-the-art method. The results indicate that Wi-Mose can capture high-precision 3D human poses throughout the space.
翻訳日:2021-04-19 10:57:54 公開日:2020-12-28
# シミュレータとディープラーニングによる深部宇宙探査のためのモデル最適化

Model Optimization for Deep Space Exploration via Simulators and Deep Learning ( http://arxiv.org/abs/2012.14092v1 )

ライセンス: Link先を確認
James Bird, Kellan Colburn, Linda Petzold, Philip Lubin(参考訳) 機械学習、そして最終的には真の人工知能技術は、天体物理学と天文学において極めて重要な進歩である。 ニューラルネットワークを用いた深層学習の応用を探求し、将来の探査ミッションにおける天体の自動検出、例えば、生命の署名や適合性を探究するミッション等について検討する。 画像を取得し、分析し、重要なものを送信する能力は、ディープラーニングアルゴリズムによって決定されるように、帯域制限されたアプリケーションにおいて重要である。 これまでの基礎研究により、シミュレーション画像と深層学習を用いて惑星を検出するという概念が固まった。 このプロセスの最適化は、わずかな精度の損失でさえ、居住可能な惑星の捕獲と完全に欠落の違いである可能性があるため、極めて重要である。 コンピュータビジョン,深層学習,シミュレータを用いて,外惑星の検出を最適化する手法を提案する。 複数のモデルアーキテクチャにおいて、比較的小さなトレーニングセットであっても、達成された最大精度が98%以上に達することを示す。

Machine learning, and eventually true artificial intelligence techniques, are extremely important advancements in astrophysics and astronomy. We explore the application of deep learning using neural networks in order to automate the detection of astronomical bodies for future exploration missions, such as missions to search for signatures or suitability of life. The ability to acquire images, analyze them, and send back those that are important, as determined by the deep learning algorithm, is critical in bandwidth-limited applications. Our previous foundational work solidified the concept of using simulator images and deep learning in order to detect planets. Optimization of this process is of vital importance, as even a small loss in accuracy might be the difference between capturing and completely missing a possibly-habitable nearby planet. Through computer vision, deep learning, and simulators, we introduce methods that optimize the detection of exoplanets. We show that maximum achieved accuracy can hit above 98% for multiple model architectures, even with a relatively small training set.
翻訳日:2021-04-19 10:57:31 公開日:2020-12-28
# Delayed-Enhancement Cardiac MRIによる自動心筋梗塞分離のためのカスケード畳み込みニューラルネットワーク

Cascaded Convolutional Neural Network for Automatic Myocardial Infarction Segmentation from Delayed-Enhancement Cardiac MRI ( http://arxiv.org/abs/2012.14128v1 )

ライセンス: Link先を確認
Yichi Zhang(参考訳) 心筋梗塞の定量的評価には, 心筋輪郭の自動分画と, 虚血や非逆流などの関連領域が重要である。 そこで本研究では,遅延心MRIによる自動心筋梗塞セグメンテーションのためのカスケード畳み込みニューラルネットワークを提案する。 まず,2次元U-Netを用いてスライス内情報に着目し,予備セグメンテーションを行う。 その後,3次元U-Netを用いて空間情報を微妙なセグメンテーションに利用した。 本手法は,MICCAI 2020 EMIDECチャレンジデータセットを用いて評価し,心筋,梗塞,非リフローの平均Diceスコア0.8786,0.7124,0.7851を達成し,セグメンテーションコンテストの他チームよりも優れていた。

Automatic segmentation of myocardial contours and relevant areas like infraction and no-reflow is an important step for the quantitative evaluation of myocardial infarction. In this work, we propose a cascaded convolutional neural network for automatic myocardial infarction segmentation from delayed-enhancement cardiac MRI. We first use a 2D U-Net to focus on the intra-slice information to perform a preliminary segmentation. After that, we use a 3D U-Net to utilize the volumetric spatial information for a subtle segmentation. Our method is evaluated on the MICCAI 2020 EMIDEC challenge dataset and achieves average Dice score of 0.8786, 0.7124 and 0.7851 for myocardium, infarction and no-reflow respectively, outperforms all the other teams of the segmentation contest.
翻訳日:2021-04-19 10:57:15 公開日:2020-12-28
# 自己教師型サイクロンによる知覚一貫性超音波画像超解像

Perception Consistency Ultrasound Image Super-resolution via Self-supervised CycleGAN ( http://arxiv.org/abs/2012.14142v1 )

ライセンス: Link先を確認
Heng Liu, Jianyong Liu, Tao Tao, Shudong Hou and Jungong Han(参考訳) センサの限界、透過媒質、超音波の内在特性などにより、超音波画像の画質は常に理想的ではなく、特に低空間分解能である。 この状況を改善するため,超音波画像超解像(SR)のための深層学習ネットワークが最近開発された。 しかし、現在のSR法の多くは、医用画像のサンプルは常に稀であり、現実には低分解能(LR)と高分解能(HR)のトレーニングペアは存在しないため、超音波医療画像には適していない。 本研究では,自己スーパービジョンとサイクル生成逆数ネットワーク(CycleGAN)に基づいて,LR超音波データのみを必要とする認識整合性超音波画像超解像(SR)法を提案し,生成したSR画像の再生成画像が元のLR画像と整合していることを保証する。 まず、画像強調により検査用超音波LR画像のHR父子とLR子を生成し、次に、LR-SR-LRとHR-LR-SRのサイクル損失と識別器の対角特性をフル活用して、より知覚的に整合したSR結果を生成する。 提案手法は,PSNR/IFC/SSIMの評価,ベンチマークCCA-USおよびCAA-USデータセットによる推論効率と視覚効果により,他の最先端手法よりも効果的かつ優れていることを示す。

Due to the limitations of sensors, the transmission medium and the intrinsic properties of ultrasound, the quality of ultrasound imaging is always not ideal, especially its low spatial resolution. To remedy this situation, deep learning networks have been recently developed for ultrasound image super-resolution (SR) because of the powerful approximation capability. However, most current supervised SR methods are not suitable for ultrasound medical images because the medical image samples are always rare, and usually, there are no low-resolution (LR) and high-resolution (HR) training pairs in reality. In this work, based on self-supervision and cycle generative adversarial network (CycleGAN), we propose a new perception consistency ultrasound image super-resolution (SR) method, which only requires the LR ultrasound data and can ensure the re-degenerated image of the generated SR one to be consistent with the original LR image, and vice versa. We first generate the HR fathers and the LR sons of the test ultrasound LR image through image enhancement, and then make full use of the cycle loss of LR-SR-LR and HR-LR-SR and the adversarial characteristics of the discriminator to promote the generator to produce better perceptually consistent SR results. The evaluation of PSNR/IFC/SSIM, inference efficiency and visual effects under the benchmark CCA-US and CCA-US datasets illustrate our proposed approach is effective and superior to other state-of-the-art methods.
翻訳日:2021-04-19 10:57:00 公開日:2020-12-28
# CTおよびPET画像における頭頸部腫瘍分節に対するCNNとHybrid Active Contourの併用

Combining CNN and Hybrid Active Contours for Head and Neck Tumor Segmentation in CT and PET images ( http://arxiv.org/abs/2012.14207v1 )

ライセンス: Link先を確認
Jun Ma, Xiaoping Yang(参考訳) 頭頸部腫瘍の自動切除は放射線学的解析において重要な役割を担っている。 本稿では,畳み込みニューラルネットワーク(CNN)とハイブリッド能動輪郭を組み合わせたPET画像とCT画像から頭頸部腫瘍の自動分離法を提案する。 具体的には,腫瘍をPET画像とCT画像で分割する多チャンネル3D U-Netを提案する。 次に,モデルアンサンブルによるセグメンテーションの不確かさを推定し,セグメンテーション品質スコアを定義し,不確実度の高いケースを選択する。 最後に,高不確かさを解消するためのハイブリッド型アクティブ輪郭モデルを開発した。 MCCAI 2020 HECKTORでは,平均Dice similarity Coefficient, precision, recallが0.752, 0.838, 0.717で2位となった。

Automatic segmentation of head and neck tumors plays an important role in radiomics analysis. In this short paper, we propose an automatic segmentation method for head and neck tumors from PET and CT images based on the combination of convolutional neural networks (CNNs) and hybrid active contours. Specifically, we first introduce a multi-channel 3D U-Net to segment the tumor with the concatenated PET and CT images. Then, we estimate the segmentation uncertainty by model ensembles and define a segmentation quality score to select the cases with high uncertainties. Finally, we develop a hybrid active contour model to refine the high uncertainty cases. Our method ranked second place in the MICCAI 2020 HECKTOR challenge with average Dice Similarity Coefficient, precision, and recall of 0.752, 0.838, and 0.717, respectively.
翻訳日:2021-04-19 10:55:56 公開日:2020-12-28
# 階層的ピラミッド畳み込みと自己注意による唇読解

Lip-reading with Hierarchical Pyramidal Convolution and Self-Attention ( http://arxiv.org/abs/2012.14360v1 )

ライセンス: Link先を確認
Hang Chen, Jun Du, Yu Hu, Li-Rong Dai, Chin-Hui Lee, Bao-Cai Yin(参考訳) 本稿では,単語レベルの唇読解を改善するための新しいディープラーニングアーキテクチャを提案する。 一方,我々はまず,唇読解のための空間特徴抽出にマルチスケール処理を導入する。 特に,原モジュールの標準畳み込みを代替する階層的ピラミッド畳み込み (HPConv) を提案し, より微細な唇運動の発見能力の向上に寄与した。 一方,自己着脱を利用して,時系列のすべての時間ステップで情報をマージし,モデルが関連するフレームにもっと注意を払うようにした。 これら2つの利点を組み合わせて、モデルの分類能力をさらに強化する。 野生(lrw)のリップリーディング実験では,提案モデルが86.83%の精度を達成し,現状よりも1.53%の絶対的改善が得られた。 また,提案モデルの振る舞いをよりよく理解するための広範な実験を行った。

In this paper, we propose a novel deep learning architecture to improving word-level lip-reading. On the one hand, we first introduce the multi-scale processing into the spatial feature extraction for lip-reading. Specially, we proposed hierarchical pyramidal convolution (HPConv) to replace the standard convolution in original module, leading to improvements over the model's ability to discover fine-grained lip movements. On the other hand, we merge information in all time steps of the sequence by utilizing self-attention, to make the model pay more attention to the relevant frames. These two advantages are combined together to further enhance the model's classification power. Experiments on the Lip Reading in the Wild (LRW) dataset show that our proposed model has achieved 86.83% accuracy, yielding 1.53% absolute improvement over the current state-of-the-art. We also conducted extensive experiments to better understand the behavior of the proposed model.
翻訳日:2021-04-19 10:55:39 公開日:2020-12-28
# フーリエ積分定理とフーリエ核による多変量平滑化

Multivariate Smoothing via the Fourier Integral Theorem and Fourier Kernel ( http://arxiv.org/abs/2012.14482v1 )

ライセンス: Link先を確認
Nhat Ho and Stephen G. Walker(参考訳) フーリエ積分定理から始め、密度、混合密度、遷移密度、回帰関数を含む多変量関数の自然なモンテカルロ推定器、および多変量密度関数のモードの探索(モーダル回帰)を示す。 収束速度は確立されており、多くの場合、カーネル密度推定器やカーネル回帰関数など、カーネルに基づくような現在の標準推定器よりも優れている。 数値図が提示される。

Starting with the Fourier integral theorem, we present natural Monte Carlo estimators of multivariate functions including densities, mixing densities, transition densities, regression functions, and the search for modes of multivariate density functions (modal regression). Rates of convergence are established and, in many cases, provide superior rates to current standard estimators such as those based on kernels, including kernel density estimators and kernel regression functions. Numerical illustrations are presented.
翻訳日:2021-04-19 10:55:23 公開日:2020-12-28
# 符号付きグラフ拡散ネットワーク

Signed Graph Diffusion Network ( http://arxiv.org/abs/2012.14191v1 )

ライセンス: Link先を確認
Jinhong Jung, Jaemin Yoo, U Kang(参考訳) サイン付きソーシャルグラフが与えられたら、適切なノード表現を学習すれば、エッジの欠落の兆候を推測できるだろうか? サイン入りソーシャルグラフは信頼関係のモデル化にかなりの注目を集めている。 ノード表現の学習はグラフデータを効果的に解析するために重要であり、符号付きグラフの学習にはネットワーク埋め込みやグラフ畳み込みネットワーク(GCN)といった様々な手法が提案されている。 しかし、従来のネットワーク埋め込み手法はリンクサイン予測のような特定のタスクのエンドツーエンドではないため、GCNベースの手法は深さが大きくなると性能劣化に悩まされる。 本稿では,サイン付きソーシャルグラフにおけるリンクサイン予測のためのエンドツーエンドノード表現学習を実現する新しいグラフニューラルネットワークであるSigned Graph Diffusion Network (SGDNet)を提案する。 本稿では,SGDNetが隠れノード機能を効果的に拡散させるために,署名付きグラフ用に特別に設計されたランダムウォーク手法を提案する。 広範な実験を通じて,sgdnetがリンク符号予測精度で最先端モデルを上回ることを実証した。

Given a signed social graph, how can we learn appropriate node representations to infer the signs of missing edges? Signed social graphs have received considerable attention to model trust relationships. Learning node representations is crucial to effectively analyze graph data, and various techniques such as network embedding and graph convolutional network (GCN) have been proposed for learning signed graphs. However, traditional network embedding methods are not end-to-end for a specific task such as link sign prediction, and GCN-based methods suffer from a performance degradation problem when their depth increases. In this paper, we propose Signed Graph Diffusion Network (SGDNet), a novel graph neural network that achieves end-to-end node representation learning for link sign prediction in signed social graphs. We propose a random walk technique specially designed for signed graphs so that SGDNet effectively diffuses hidden node features. Through extensive experiments, we demonstrate that SGDNet outperforms state-of-the-art models in terms of link sign prediction accuracy.
翻訳日:2021-04-19 10:55:13 公開日:2020-12-28
# 差別化可能なフィルターのトレーニング方法

How to Train Your Differentiable Filter ( http://arxiv.org/abs/2012.14313v1 )

ライセンス: Link先を確認
Alina Kloss, Georg Martius and Jeannette Bohg(参考訳) 多くのロボットアプリケーションにおいて、計画と意思決定のインプットとして機能し、タスク実行中にフィードバックを提供するシステムの状態に対する信念を維持することが不可欠である。 ベイズフィルタアルゴリズムはこの状態推定問題に対処するが、プロセス力学と感覚観測のモデルとこれらのモデルのそれぞれのノイズ特性を必要とする。 近年、複数の研究が再帰的フィルタリングアルゴリズムの微分可能なバージョンを通して、これらのモデルをエンドツーエンドのトレーニングによって学習できることを実証している。 本研究では,非構造化学習アプローチと手動調整フィルタリングアルゴリズムに対する微分可能フィルタ(dfs)のアドバンテージを調査し,そのような微分可能フィルタの適用に関心のある研究者に実用的なガイダンスを提供する。 そこで我々は,4つの異なるフィルタリングアルゴリズムを用いてDFを実装し,実験を行った。 具体的には、(i)異なる実施選択とトレーニングアプローチを評価し、(ii)DFにおいて不確実性の複雑なモデルがどのように学習できるかを調査し、(iii)DFによるエンドツーエンドトレーニングの効果を評価し、(iv)DFと非構造化LSTMモデルを比較した。

In many robotic applications, it is crucial to maintain a belief about the state of a system, which serves as input for planning and decision making and provides feedback during task execution. Bayesian Filtering algorithms address this state estimation problem, but they require models of process dynamics and sensory observations and the respective noise characteristics of these models. Recently, multiple works have demonstrated that these models can be learned by end-to-end training through differentiable versions of recursive filtering algorithms. In this work, we investigate the advantages of differentiable filters (DFs) over both unstructured learning approaches and manually-tuned filtering algorithms, and provide practical guidance to researchers interested in applying such differentiable filters. For this, we implement DFs with four different underlying filtering algorithms and compare them in extensive experiments. Specifically, we (i) evaluate different implementation choices and training approaches, (ii) investigate how well complex models of uncertainty can be learned in DFs, (iii) evaluate the effect of end-to-end training through DFs and (iv) compare the DFs among each other and to unstructured LSTM models.
翻訳日:2021-04-19 10:54:56 公開日:2020-12-28
# メール埋め込みによるフィッシング検出

Phishing Detection through Email Embeddings ( http://arxiv.org/abs/2012.14488v1 )

ライセンス: Link先を確認
Luis Felipe Guti\'errez, Faranak Abri, Miriam Armstrong, Akbar Siami Namin, Keith S. Jones(参考訳) 機械学習技術によるフィッシングメール検出の問題点は文献で広く議論されている。 従来および最先端の機械学習アルゴリズムは、高い精度で分類器を構築する可能性を実証している。 既存の研究は、フィッシングと本物のeメールを一般的な指標で扱うため、フィッシング機能が分類器のバリエーションにどのように寄与しているかは正確には分かっていない。 本稿では,電子メールの埋め込み,すなわちベクトル化によってこれらの手がかりが捕捉されるか無視されるかを調べるために,同様の指標を用いたフィッシングと正当性メールのセットを構築した。 次に、慎重に構築されたメールで機械学習の分類器を入力し、開発したEメールの埋め込みのパフォーマンスを調べました。 これらの指標を用いて電子メールをフィッシングや正当と分類する手法が有効であることを示す。

The problem of detecting phishing emails through machine learning techniques has been discussed extensively in the literature. Conventional and state-of-the-art machine learning algorithms have demonstrated the possibility of building classifiers with high accuracy. The existing research studies treat phishing and genuine emails through general indicators and thus it is not exactly clear what phishing features are contributing to variations of the classifiers. In this paper, we crafted a set of phishing and legitimate emails with similar indicators in order to investigate whether these cues are captured or disregarded by email embeddings, i.e., vectorizations. We then fed machine learning classifiers with the carefully crafted emails to find out about the performance of email embeddings developed. Our results show that using these indicators, email embeddings techniques is effective for classifying emails as phishing or legitimate.
翻訳日:2021-04-19 10:54:37 公開日:2020-12-28
# Pool-seqデータを用いた適応集団間選択SNPの同定

Deep Unsupervised Identification of Selected SNPs between Adapted Populations on Pool-seq Data ( http://arxiv.org/abs/2101.00004v1 )

ライセンス: Link先を確認
Julia Siekiera and Stefan Kramer(参考訳) 異なるシークエンシング集団プール(pool-seq)間の遺伝的多様性を特定するための選択された単一ヌクレオチド多型(snps)の探索は、遺伝子研究の基本的な課題である。 塩基配列の読み取りとそのアライメントはエラーを起こしやすく、単変量統計解はゲノムの個々の位置のみを考慮に入れているため、選択されたSNPの同定は難しい過程である。 convolutional neural networks(cnns)のようなディープラーニングモデルは、彼らの決定において大きな入力領域を考慮できる。 教師なしパイプラインは、ほとんど知られていない根拠の真理から独立していると提案する。 異なる集団からアライメントを区別するために教師付き判別器cnnを訓練し、説明可能な人工知能手法を適用して教師なしsnp呼び出しのモデルを利用する。 提案する多変量法は主に2つの仮定に基づいている: (i) 識別可能な高い予測的確実性を有するインスタンスが遺伝的変異を含む可能性が高いこと, (ii) 選択されたsnpがモデル決定プロセスに最も影響を及ぼす入力特徴を持つ領域に位置すること。 本手法を2つの異なるpool-seqデータセット上の統計結果と直接比較し,統計結果を拡張できることを示す。

The exploration of selected single nucleotide polymorphisms (SNPs) to identify genetic diversity between different sequencing population pools (Pool-seq) is a fundamental task in genetic research. As underlying sequence reads and their alignment are error-prone and univariate statistical solutions only take individual positions of the genome into account, the identification of selected SNPs remains a challenging process. Deep learning models like convolutional neural networks (CNNs) are able to consider large input areas in their decisions. We suggest an unsupervised pipeline to be independent of a rarely known ground truth. We train a supervised discriminator CNN to distinguish alignments from different populations and utilize the model for unsupervised SNP calling by applying explainable artificial intelligence methods. Our proposed multivariate method is based on two main assumptions: We assume (i) that instances having a high predictive certainty of being distinguishable are likely to contain genetic variants, and (ii) that selected SNPs are located at regions with input features having the highest influence on the model's decision process. We directly compare our method with statistical results on two different Pool-seq datasets and show that our solution is able to extend statistical results.
翻訳日:2021-04-19 10:54:12 公開日:2020-12-28
# 回路下限からの学習アルゴリズム

Learning algorithms from circuit lower bounds ( http://arxiv.org/abs/2012.14095v1 )

ライセンス: Link先を確認
J\'an Pich(参考訳) 擬似乱数生成器を分割する識別器や、ハード関数を計算しようとする小さな回路の誤りを見つける効率的な目撃アルゴリズムなど、構成的回路下限の様々な概念から、効率的な学習アルゴリズムの既知の構成を再検討する。 その結果,特定の対話的な方法で,難解な問題を解こうとする多数のpサイズ回路の誤りを効率的に見つけることができれば,pサイズ回路は,サブ指数サイズの回路によって,メンバシップクエリによる一様分布上で学習できることがわかった。 逆の意味でも同様である。 これは学習アルゴリズムの新たな特徴付けを提供し、RazborovとRudichの自然証明障壁を拡張する。 この証明は、Kraj\'{i}\v{c}ek (2010) が導入したニサン・ウィグダーソン発生器を利用する方法に基づいており、有界算術における回路下界の複雑さを解析するために用いられる。 回路下界からの学習アルゴリズムの既知の構築の興味深い結果は、Oliveira と Santhanam (2016) の学習スピードアップである。 本稿では,この現象の代替的な証明を示し,硬度拡大プログラムの進展可能性について考察する。

We revisit known constructions of efficient learning algorithms from various notions of constructive circuit lower bounds such as distinguishers breaking pseudorandom generators or efficient witnessing algorithms which find errors of small circuits attempting to compute hard functions. As our main result we prove that if it is possible to find efficiently, in a particular interactive way, errors of many p-size circuits attempting to solve hard problems, then p-size circuits can be PAC learned over the uniform distribution with membership queries by circuits of subexponential size. The opposite implication holds as well. This provides a new characterisation of learning algorithms and extends the natural proofs barrier of Razborov and Rudich. The proof is based on a method of exploiting Nisan-Wigderson generators introduced by Kraj\'{i}\v{c}ek (2010) and used to analyze complexity of circuit lower bounds in bounded arithmetic. An interesting consequence of known constructions of learning algorithms from circuit lower bounds is a learning speedup of Oliveira and Santhanam (2016). We present an alternative proof of this phenomenon and discuss its potential to advance the program of hardness magnification.
翻訳日:2021-04-19 10:53:50 公開日:2020-12-28
# ロバスト適応ビームフォーミングのための低コスト最大エントロピー共分散行列再構成アルゴリズム

Low-Cost Maximum Entropy Covariance Matrix Reconstruction Algorithm for Robust Adaptive Beamforming ( http://arxiv.org/abs/2012.14338v1 )

ライセンス: Link先を確認
S. Mohammadzadeh, V. H. Nascimento, R. C. de Lamare(参考訳) 本稿では,行列反転を避けるために確率勾配アルゴリズムを用いた新しい低複素適応ビームフォーミング手法を提案する。 提案手法では,最大エントロピーパワースペクトル(meps)に基づくアルゴリズムを用いてノイズプラス干渉共分散行列(meps-npic)を推定し,ビームフォーミング重みを適応的に更新することで計算量を大幅に削減する。 MEPSはさらに、所望の信号共分散行列を再構成し、所望の信号の操舵ベクトル(SV)の推定を改善するために使用される。 シミュレーションにより,従来提案していたビームフォーマに対するmeps-npicアプローチの優位性が示された。

In this letter, we present a novel low-complexity adaptive beamforming technique using a stochastic gradient algorithm to avoid matrix inversions. The proposed method exploits algorithms based on the maximum entropy power spectrum (MEPS) to estimate the noise-plus-interference covariance matrix (MEPS-NPIC) so that the beamforming weights are updated adaptively, thus greatly reducing the computational complexity. MEPS is further used to reconstruct the desired signal covariance matrix and to improve the estimate of the desired signals's steering vector (SV). Simulations show the superiority of the proposed MEPS-NPIC approach over previously proposed beamformers.
翻訳日:2021-04-19 10:53:13 公開日:2020-12-28