このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201115となっている論文です。

PDF登録状況(公開日: 20201115)

TitleAuthorsAbstract論文公表日・翻訳日
# ランダム Oracle を用いた逐次盲点量子計算

Succinct Blind Quantum Computation Using a Random Oracle ( http://arxiv.org/abs/2004.12621v14 )

ライセンス: Link先を確認
Jiayu Zhang(参考訳) ユニバーサルブラインド量子計算問題において、クライアントは1つの量子サーバーを使用して、$c$が任意の量子回路である場合、$c$を秘密にしつつ$c|0\rangle$を評価する。 クライアントの目標は、可能な限り少ないリソースを使用することです。 この問題は、Broadbent, Fitzsimons and Kashefi (FOCS09, arXiv:0807.4154] による代表的プロトコルによって、量子暗号の研究の基礎となった。 この問題に関する既知のプロトコルは、主に情報理論(IT)のセキュリティか、トラップドアの仮定(公開鍵暗号)に基づいている。 本稿では、ランダムなオラクルによってモデル化された対称鍵プリミティブの可用性が、普遍的なブラインド量子計算の複雑さをどう変えるかを検討する。 我々は新しい普遍的な盲点量子計算プロトコルを提供する。 it-secure protocol(例えばbfk [focs09, arxiv:0807.4154])の以前の作業と同様に、プロトコルは2つのフェーズに分けられる。 第1フェーズでは、クライアントは比較的単純な量子ゲートを備えた量子ガジェットを用意してサーバに送信し、第2フェーズではクライアントは完全に古典的 – 量子ストレージさえ必要としない。 重要なことに、プロトコルの最初のフェーズは簡潔であり、その複雑さは回路サイズとは無関係である。 セキュリティパラメータ$\kappa$を考えると、その複雑性は$\kappa$の固定多項式に過ぎず、任意の回路(または複数の回路)を$\kappa$のサブ指数まで評価するのに使うことができる。 対照的に、既知のスキームでは、クライアントが回路のサイズに合わせてスケールする量子計算を実行する必要がある [FOCS09, arXiv:0807.4154] か、トラップドア仮定を必要とする [Mahadev, FOCS18, arXiv:1708.02130] 。

In the universal blind quantum computation problem, a client wants to make use of a single quantum server to evaluate $C|0\rangle$ where $C$ is an arbitrary quantum circuit while keeping $C$ secret. The client's goal is to use as few resources as possible. This problem, with a representative protocol by Broadbent, Fitzsimons and Kashefi [FOCS09, arXiv:0807.4154], has become fundamental to the study of quantum cryptography, not only because of its own importance, but also because it provides a testbed for new techniques that can be later applied to related problems (for example, quantum computation verification). Known protocols on this problem are mainly either information-theoretically (IT) secure or based on trapdoor assumptions (public key encryptions). In this paper we study how the availability of symmetric-key primitives, modeled by a random oracle, changes the complexity of universal blind quantum computation. We give a new universal blind quantum computation protocol. Similar to previous works on IT-secure protocols (for example, BFK [FOCS09, arXiv:0807.4154]), our protocol can be divided into two phases. In the first phase the client prepares some quantum gadgets with relatively simple quantum gates and sends them to the server, and in the second phase the client is entirely classical -- it does not even need quantum storage. Crucially, the protocol's first phase is succinct, that is, its complexity is independent of the circuit size. Given the security parameter $\kappa$, its complexity is only a fixed polynomial of $\kappa$, and can be used to evaluate any circuit (or several circuits) of size up to a subexponential of $\kappa$. In contrast, known schemes either require the client to perform quantum computations that scale with the size of the circuit [FOCS09, arXiv:0807.4154], or require trapdoor assumptions [Mahadev, FOCS18, arXiv:1708.02130].
翻訳日:2023-05-22 00:29:26 公開日:2020-11-15
# 量子光学実験の効率的な逆設計による概念理解

Conceptual understanding through efficient inverse-design of quantum optical experiments ( http://arxiv.org/abs/2005.06443v3 )

ライセンス: Link先を確認
Mario Krenn, Jakob Kottmann, Nora Tischler, Al\'an Aspuru-Guzik(参考訳) 人工知能研究における重要な問題のひとつは、この技術が新しい科学的概念やアイデアの発見にどのように役立つかである。 我々は、概念レベルで科学に貢献できる説明可能なAIアルゴリズムであるTheseusを紹介する。 この作品には4つの大きな貢献がある。 (i)アルゴリズムを用いた量子光学実験の解釈可能表現について紹介する。 (ii)新しい量子実験のための逆設計手法を開発し,従来の手法よりも桁違いに高速化した。 (iii)フォトニック技術の進歩が期待されている量子光学におけるいくつかの重要なオープン問題を解く。 最後に 最も重要なのは (4)解釈可能な表現と劇的なスピードアップは、人間の科学者が直接解釈して新しい科学的概念を発見できるソリューションを生み出す。 我々は、他の量子物理分野に適用可能な量子光学やフォトニックハードウェアにおいて、テーセウスが不可欠なツールになることを期待している。

One crucial question within artificial intelligence research is how this technology can be used to discover new scientific concepts and ideas. We present Theseus, an explainable AI algorithm that can contribute to science at a conceptual level. This work entails four significant contributions. (i) We introduce an interpretable representation of quantum optical experiments amenable to algorithmic use. (ii) We develop an inverse-design approach for new quantum experiments, which is orders of magnitudes faster than the best previous methods. (iii) We solve several crucial open questions in quantum optics, which is expected to advance photonic technology. Finally, and most importantly, (iv) the interpretable representation and drastic speedup produce solutions that a human scientist can interpret outright to discover new scientific concepts. We anticipate that Theseus will become an essential tool in quantum optics and photonic hardware, with potential applicability to other quantum physical disciplines.
翻訳日:2023-05-20 07:40:26 公開日:2020-11-15
# 最適ベル不等式の一般化

Generalizing optimal Bell inequalities ( http://arxiv.org/abs/2005.08687v2 )

ライセンス: Link先を確認
Fabian Bernards, Otfried G\"uhne(参考訳) ベルの不等式は非局所相関とその量子情報処理への応用を研究するための中心的なツールである。 しかし、多くの粒子や測定値の不等式を特定することは、局所相関の集合を特徴づける計算の複雑さのために困難である。 制約下でベルの不等式を特徴付ける手法を開発し,対称性や他の線形条件によって与えられる。 これにより、与えられたベルの不等式をより多くの当事者に一般化するために体系的に探索することができる。 一例として、フロイサール(il nuovo cimento b64, 241 (1981))による2粒子不等式(英語版)のすべての可能な一般化が、i3322不等式としても知られる3つの粒子へと導かれる。 これらの最も単純な不等式について、それらの量子力学的性質を研究し、それらが量子状態の非局所性を検出するという意味で、それらが関係していることを示す。

Bell inequalities are central tools for studying nonlocal correlations and their applications in quantum information processing. Identifying inequalities for many particles or measurements is, however, difficult due to the computational complexity of characterizing the set of local correlations. We develop a method to characterize Bell inequalities under constraints, which may be given by symmetry or other linear conditions. This allows to search systematically for generalizations of given Bell inequalities to more parties. As an example, we find all possible generalizations of the two-particle inequality by Froissart [Il Nuovo Cimento B64, 241 (1981)], also known as I3322 inequality, to three particles. For the simplest of these inequalities, we study their quantum mechanical properties and demonstrate that they are relevant, in the sense that they detect nonlocality of quantum states, for which all two-setting inequalities fail to do so.
翻訳日:2023-05-19 11:24:26 公開日:2020-11-15
# ハートマン-ハーン二重共鳴における不安定性

Instability in the Hartmann--Hahn double resonance ( http://arxiv.org/abs/2005.09298v3 )

ライセンス: Link先を確認
Roei Levi, Sergei Masis and Eyal Buks(参考訳) ハートマン・ハーン法は、研究中のスピンを外部に駆動される他のスピン種に結合することで、磁気共鳴イメージングと分光の感度の向上を可能にする。 ここでは、結合スピンの動力学を理論的に研究し、ある領域の駆動パラメータが不安定になることを見出す。 この不安定な領域を実験的に利用できるようにするために必要な条件について論じる。

The Hartmann-Hahn technique allows sensitivity enhancement of magnetic resonance imaging and spectroscopy by coupling the spins under study to another spin species that is externally driven. Here we theoretically study the coupled spins' dynamics, and find that for a certain region of driving parameters the system becomes unstable. The required conditions for making this region of instability becoming experimentally accessible are discussed.
翻訳日:2023-05-19 08:23:51 公開日:2020-11-15
# 最適化問題に対するVQEアルゴリズムの問題固有パラメータ化量子回路

Problem-specific Parameterized Quantum Circuits of the VQE Algorithm for Optimization Problems ( http://arxiv.org/abs/2006.05643v2 )

ライセンス: Link先を確認
Atsushi Matsuo, Yudai Suzuki, Shigeru Yamashita(参考訳) 変分量子固有解法(VQE)アルゴリズムは、現在の限られた量子デバイスを利用するために多くの注目を集めている。 VQEアルゴリズムは、量子状態を作成するためにパラメータ化量子回路(PQC)と呼ばれるパラメータを持つ量子回路を必要とし、量子状態は与えられたハミルトンの期待値を計算するために使用される。 収束速度の観点からは、洗練されたPQCを作成することが重要である。 そこで本稿では,最適化問題に対するVQEアルゴリズムのPQCを提案する。 我々の考えは最適化問題の制約を反映したPQCを動的に作成することである。 問題固有のPQCでは、VQEアルゴリズムに有利なユニタリ変換を制限することにより、探索空間を縮小することができる。 結果として、VQEアルゴリズムの収束を高速化することができる。 実験の結果,提案したPQCsの収束速度は最先端のPQCよりもかなり速いことがわかった。

The Variational Quantum Eigensolver (VQE) algorithm is attracting much attention to utilize current limited quantum devices. The VQE algorithm requires a quantum circuit with parameters, called a parameterized quantum circuit (PQC), to prepare a quantum state, and the quantum state is used to calculate the expectation value of a given Hamiltonian. Creating sophisticated PQCs is important from the perspective of the convergence speed. Thus, we propose problem-specific PQCs of the VQE algorithm for optimization problems. Our idea is to dynamically create a PQC that reflects the constraints of an optimization problem. With a problem-specific PQC, it is possible to reduce a search space by restricting unitary transformations in favor of the VQE algorithm. As a result, we can speed up the convergence of the VQE algorithm. Experimental results show that the convergence speed of the proposed PQCs is significantly faster than that of the state-of-the-art PQC.
翻訳日:2023-05-16 02:58:53 公開日:2020-11-15
# デコヒーレンスのフィードバック補償による測定の不確かさの直接評価

Direct evaluation of measurement uncertainties by feedback compensation of decoherence ( http://arxiv.org/abs/2006.13402v4 )

ライセンス: Link先を確認
Holger F. Hofmann(参考訳) 測定結果と測定量のより正確な値を比較するために同じ物理系で第2の基準測定を行うことができないため、量子測定の精度を評価することは困難である。 ここでは,測定結果を用いてプローブキュービット内で発生した少量のデコヒーレンスをシステムと慎重に制御することで,測定の不確かさの直接評価が可能であることを示す。 目標観測可能な本来の不確実性は、プローブキュービットの変動位相シフトを引き起こすため、基準キュービットに条件位相シフトを適用することにより、目標観測可能について得られた追加情報を用いてデコヒーレンスの一部を補償することができる。 この負のフィードバックの大きさは、対象の観測可能な推定値に対応し、補正されていないデコヒーレンスはその推定値の不確実性を定義する。 分析の結果,小沢がフィスで導入した不確実性から推定値の不確かさが示唆された。 A67,042105(2003)および最適推定値は、異なる測定結果に関連する弱い値によって与えられる。 したがって、デコヒーレンスのフィードバック補償は、入力状態の初期情報と各測定結果によって提供される追加情報を組み合わせた誤差の定義と推定の実証的妥当性を示す。

It is difficult to evaluate the precision of quantum measurements because it is not possible to conduct a second reference measurement on the same physical system to compare the measurement outcome with a more accurate value of the measured quantity. Here, I show that a direct evaluation of measurement uncertainties is possible when the measurement outcomes are used to compensate the small amount of decoherence induced in a probe qubit by carefully controlled interactions with the system. Since the original uncertainty of the target observable causes fluctuating phase shifts in the probe qubit, any additional information obtained about the target observable can be used to compensate a part of the decoherence by applying a conditional phase shift to the reference qubit. The magnitude of this negative feedback corresponds to an estimate of the target observable, and the uncompensated decoherence defines the uncertainty of that estimate. The results of the analysis show that the uncertainties of the estimates are given by the uncertainties introduced by Ozawa in Phys. Rev. A 67, 042105 (2003) and the optimal estimates are given by the weak values associated with the different measurement outcomes. Feedback compensation of decoherence therefore demonstrates the empirical validity of definitions of errors and estimates that combine the initial information of the input state with the additional information provided by each measurement outcome.
翻訳日:2023-05-12 22:43:59 公開日:2020-11-15
# 2ターゲット核前方散乱における時間遅延磁気制御とx線周波数スペクトルの狭化

Time-Delayed Magnetic Control and Narrowing of X-Ray frequency Spectra in Two-Target Nuclear Forward Scattering ( http://arxiv.org/abs/2010.10230v2 )

ライセンス: Link先を確認
Po-Han Lin, Yen-Yu Fu, and Wen-Te Liao(参考訳) 磁気摂動2ターゲット核前方散乱におけるx線周波数スペクトルの制御と狭義化を理論的に研究した。 核ターゲットにおける磁場の1つまたは複数のスイッチングによって、異なる硬x線スペクトル再分配が達成できることを示す。 提案手法では,10倍強度のx線スペクトル線を生成でき,スペクトル幅は原子核自然線幅の4倍に狭くなる。 この結果は、現代のシンクロトロン放射を用いた核共鳴の精密分光のための、より明るく柔軟なX線源への道を開いた。

Controlling and narrowing x-ray frequency spectra in magnetically perturbed two-target nuclear forward scattering is theoretically studied. We show that different hard-x-ray spectral redistributions can be achieved by single or multiple switching of magnetic field in nuclear targets. Our scheme can generate x-ray spectral lines with tenfold intensity enhancement and spectral width narrower than four times the nuclear natural linewidth. The present results pave the way towards a brighter and flexible x-ray source for precision spectroscopy of nuclear resonances using modern synchrotron radiation.
翻訳日:2023-04-28 05:52:14 公開日:2020-11-15
# 行列積状態表現によるグロス・ネヴェウモデルの状態進化のシミュレーション

Simulation of state evolutions in Gross-Neveu model by matrix product state representation ( http://arxiv.org/abs/2011.07538v1 )

ライセンス: Link先を確認
De-Sheng Li, Hao Wang, Chu Guo, Ming Zhong and Ping-Xing Chen(参考訳) 二変量Gross-Neveuモデルのリアルタイムダイナミクスをシミュレートする量子アルゴリズムをSchrodinger図に示す。 行列積状態表現を応用し,古典計算機上でのシミュレーションを実現する。 サイト上の初期状態における最大4つの粒子のリアルタイムな進化は、時空座標で解かれる。 状態の進化は、モデルのフェルミオン質量とカップリング定数によって効果的に影響を受ける。 特にフェルミオンの質量が十分に小さく、結合が十分に強い場合、基本フェルミオンは2フェルミオンと4フェルミオンの初期状態から空間内で同期的に進化する。 これらはまた、基本フェルミオン対からなる結合状態が文学で自動的に現れるという条件でもある。

A quantum algorithm to simulate the real time dynamics of two-flavor massive Gross-Neveu model is presented in Schrodinger picture. We implement the simulation on a classic computer by applying the matrix product state representation. The real time evolutions of up to four particles on a site in initial state are figured out in space-time coordinate. The state evolutions are effectively affected by fermion mass and coupling constant of the model. Especially when the mass of fermion is small enough and the coupling is strong enough, the fundamental fermions evolve synchronistically in space from the two-fermion and four-fermion initial states. These are also the conditions on which the bound states made up of fundamental fermion pairs were found to arise automatically in the literatures.
翻訳日:2023-04-24 01:47:31 公開日:2020-11-15
# 拡張Flicov-Kimballモデル:Hartree-Fock対DMFTアプローチ

Extended Falicov-Kimball model: Hartree-Fock vs DMFT approach ( http://arxiv.org/abs/2011.07493v1 )

ライセンス: Link先を確認
Konrad Jerzy Kapcia (Institute of Nuclear Physics, Polish Academy of Sciences), Romuald Lema\'nski (Institute of Low Temperature and Structure Research, Polish Academy of Sciences), Marcin Jakub Zygmunt (Institute of Mathematics, University of Silesia)(参考訳) 本研究では,hartree-fockアプローチ (hfa) 内の半充填状態における拡張フェリコフ・キムボールモデル(種々の結晶格子について)について検討し,力学平均場理論 (dmft) で導出される厳密なモデルと比較した。 モデルでは、スピン-$\downarrow$の電子がイテラント(ホッピング振幅$t$の電子)であるのに対し、スピン-$\uparrow$の電子はローカライズされるシステムを記述する。 粒子はオンサイト$u$とインターサイト$v$密度密度クーロン相互作用を介して相互作用する。 モデルにおける基底状態特性のhfa記述は正確なdmft解と同値であり, 温度が小さい範囲においても定性的に正しい画像が得られることを示した。 順序相間の不連続遷移を小さな温度で u=2v$ で捉え、連続次不連続遷移の正確な特徴を捉える。 しかし、hfaは不連続境界が(液体ガスタイプの)孤立臨界点で終わることを予測し、連続境界と合流しない。 このアプローチは、DMFT内の様々な金属絶縁体遷移と同様に、大きな$V$の連続遷移の順序を適切に記述することはできない。

In this work, we study the extended Falicov-Kimball model at half-filling within the Hartree-Fock approach (HFA) (for various crystal lattices) and compare the results obtained with the rigorous ones derived within the dynamical mean field theory (DMFT). The model describes a system, where electrons with spin-$\downarrow$ are itinerant (with hopping amplitude $t$), whereas those with spin-$\uparrow$ are localized. The particles interact via on-site $U$ and intersite $V$ density-density Coulomb interactions. We show that the HFA description of the ground state properties of the model is equivalent to the exact DMFT solution and provides a qualitatively correct picture also for a range of small temperatures. It does capture the discontinuous transition between ordered phases at $U=2V$ for small temperatures as well as correct features of the continuous order-disorder transition. However, the HFA predicts that the discontinuous boundary ends at the isolated-critical point (of the liquid-gas type) and it does not merge with the continuous boundary. This approach cannot also describe properly a change of order of the continuous transition for large $V$ as well as various metal-insulator transitions found within the DMFT.
翻訳日:2023-04-24 01:47:17 公開日:2020-11-15
# 損失非エルミート格子上の量子力学

Quantum dynamics on a lossy non-Hermitian lattice ( http://arxiv.org/abs/2011.07441v1 )

ライセンス: Link先を確認
Li Wang, Qing Liu, Yunbo Zhang(参考訳) 有限二部格子上の量子ウォーカーの量子力学について検討し、2つの部分格子のうちの1つを訪れると粒子が一定の速度で漏れ出すことができる。 当初、非リーキー部位の1つである量子ウォーカーは、進化期間の長い後に完全に消失し、各単位セルにおける崩壊確率の分布が得られる。 1つのレジームにおいて、結果分布は、初期サイトからの距離が大きくなるにつれて、期待される減少挙動を示す。 しかし, 他方では, 局所減衰確率の分布は, 量子ウォーカーの開始点から最も遠いエッジ単位セルに比較的高い減衰確率の個体群が現れるという直観に反することが判明した。 次に, 純損失を持つ非エルミート格子のエネルギースペクトルを解析し, 結果として生じる減衰確率分布の興味深い挙動は, 位相的に保護され, 非ブロッホ巻数でよく予測できるエッジ状態の存在と特異性と密接な関係にあることを見出した。 エキゾチックダイナミクスは結合共振器光導波路のアレイで実験的に観察することができる。

We investigate quantum dynamics of a quantum walker on a finite bipartite non-Hermitian lattice, in which the particle can leak out with certain rate whenever it visits one of the two sublattices. Quantum walker initially located on one of the non-leaky sites will finally totally disappear after a length of evolution time and the distribution of decay probability on each unit cell is obtained. In one regime, the resultant distribution shows an expected decreasing behavior as the distance from the initial site increases. However, in the other regime, we find that the resultant distribution of local decay probability is very counterintuitive, in which a relatively high population of decay probability appears on the edge unit cell which is the farthest from the starting point of the quantum walker. We then analyze the energy spectrum of the non-Hermitian lattice with pure loss, and find that the intriguing behavior of the resultant decay probability distribution is intimately related to the existence and specific property of edge states, which are topologically protected and can be well predicted by the non-Bloch winding number. The exotic dynamics may be observed experimentally with arrays of coupled resonator optical waveguides.
翻訳日:2023-04-24 01:46:14 公開日:2020-11-15
# 時間的量子相関は一般に一夫一婦制ではないか?

Are temporal quantum correlations generally non-monogamous? ( http://arxiv.org/abs/2011.08437v1 )

ライセンス: Link先を確認
Marcin Nowakowski(参考訳) 本稿では,時間的相関の基底となる量子構造に着目し,空間的量子相関と区別する特異な性質を示す。 量子プロパゲータに関連付けられる特定の絡み合った歴史は、時間を通してその一貫性を維持するために一夫一婦制であることを示す。 しかし、進化するシステムはベルのような多時間不等式に反する。 この二分法は時間相関の新しい特徴であり、絡み合った歴史の束によって議論される測定過程自体にそのルーツを持つ。 本稿では,空間的様ベル型単元不等式がさらに破られる理由を明らかにすることにより,量子過程の確率的混合の概念を考察する。 テンポラリベル様不等式に束縛されたtsirelson が、絡み合ったヒストリーのアプローチから導出できることを証明し、一般化として、多時間ベル様不等式に対する量子束を導出する。 また、時間的絡み合いのモノガミーの違反を模倣するものは、実際には時間的なポリアモリーの一種であるが、特定の進化のためのモノガミーが今も残っていることも指摘されている。

In this paper we focus on the underlying quantum structure of temporal correlations and show their peculiar nature which differentiate them from spatial quantum correlations. We show rigorously that a particular entangled history, which can be associated with a quantum propagator, is monogamous to conserve its consistency throughout time. Yet evolving systems violate monogamous Bell-like multi-time inequalities. This dichotomy, being a novel feature of temporal correlations, has its roots in the measurement process itself which is discussed by means of the bundles of entangled histories. We introduce and discuss a concept of a probabilistic mixture of quantum processes by means of which we clarify why the spatial-like Bell-type monogamous inequalities are further violated. We prove that Tsirelson bound on temporal Bell-like inequalities can be derived from the entangled histories approach and as a generalization, we derive the quantum bound for multi-time Bell-like inequalities. It is also pointed out that what mimics violation of monogamy of temporal entanglement is actually just a kind of polyamory in time but monogamy of entanglement for a particular evolution still holds.
翻訳日:2023-04-24 01:42:30 公開日:2020-11-15
# 導波路アレイにおける離散ソリトンを用いた光の絡み合い状態の生成

Generation of entangled states of light using discrete solitons in waveguide arrays ( http://arxiv.org/abs/2011.07662v1 )

ライセンス: Link先を確認
V. O. Martynov, V. O. Munyaev and L. A. Smirnov(参考訳) 非線形導波路の配列を伝播し、離散ソリトンを形成する光の量子特性を調べる。 我々は、あるタイプの準ソリトンを用いて、ある一対の導波路の間に絡み合う連続変数を形成できることを実証する。 この絡み合い生成過程は、レーザー磁場中に非常に多くの光子が存在する場合でも起こるため、非常に高い非線形係数を持つ特別な材料を必要としない。 また、導波路媒体の吸収は、あまり影響しない。

We study the quantum properties of light propagating through an array of coupled nonlinear waveguides and forming a discrete soliton. We demonstrate that it is possible to use certain types of quasi-solitons to form continuous variables entanglement between the certain pair of waveguides. This entanglement generation process occurs even with a very large number of photons in the laser field used, so it does not require a special material with an extremely high nonlinearity coefficient. Also absorption in the waveguide media does not influence it too much.
翻訳日:2023-04-24 01:42:08 公開日:2020-11-15
# 2次元カイラル導波路量子電磁力学:長距離量子ビット相関と平面帯暗偏光子

Two-dimensional chiral waveguide quantum electrodynamics: long range qubit correlations and flat-band dark polaritons ( http://arxiv.org/abs/2011.07646v1 )

ライセンス: Link先を確認
Y. Marques, I. A. Shelykh, I. V. Iorsh(参考訳) 1次元導波路量子電磁力学の二次元拡張を考察し、カイラル導波路のネットワークと結合した量子ビットの2次元配列における線形励起の性質を調べる。 我々は、キラリティと長距離光子を介するクビット-クビット相互作用の複合効果により、偏光スペクトルにおける2次元平面バンドの出現が遅く強い相関光に対応することを示す。

We consider a two-dimensional extension of the 1D waveguide quantum electrodynamics and investigate the nature of linear excitations in two-dimensional arrays of qubits coupled to networks of chiral waveguides. We show that the combined effects of chirality and long-range photon mediated qubit-qubit interactions lead to the emergence of the two-dimensional flat bands in the polaritonic spectrum, corresponding to slow strongly correlated light.
翻訳日:2023-04-24 01:41:58 公開日:2020-11-15
# 素粒子の磁気電荷における非結合性水素と上界の基底状態

The ground state of non-associative hydrogen and upper bounds on the magnetic charge of elementary particles ( http://arxiv.org/abs/2011.07596v1 )

ライセンス: Link先を確認
Martin Bojowald, Suddhasattwa Brahma, Umut Buyukcam, Martijn van Kuppeveld(参考訳) 量子力学のヒルベルト空間の定式化における磁気単極子の定式化は、ディラックの磁気電荷の量子化条件を必要とする。 しかし、非結合量子力学の代数的定式化は、小さな値の分数磁気電荷と数学的に一致する。 ここでは、非結合性量子力学におけるスペクトル特性が導出され、磁気を帯びた核を持つ水素の基底状態に適用される。 結果として生じるエネルギーは、ミューオンや反陽子のような水素のような原子の核として現れる様々な素粒子の磁気電荷の新しい強い上界につながる。

Formulations of magnetic monopoles in a Hilbert-space formulation of quantum mechanics require Dirac's quantization condition of magnetic charge, which implies a large value that can easily be ruled out for elementary particles by standard atomic spectroscopy. However, an algebraic formulation of non-associative quantum mechanics is mathematically consistent with fractional magnetic charges of small values. Here, spectral properties in non-associative quantum mechanics are derived, applied to the ground state of hydrogen with a magnetically charged nucleus. The resulting energy leads to new strong upper bounds for the magnetic charge of various elementary particles that can appear as the nucleus of hydrogen-like atoms, such as the muon or the antiproton.
翻訳日:2023-04-24 01:40:59 公開日:2020-11-15
# ソフトウェアは学術研究の重要な成果として認識されなければならない

Software must be recognised as an important output of scholarly research ( http://arxiv.org/abs/2011.07571v1 )

ライセンス: Link先を確認
Caroline Jay, Robert Haines, Daniel S. Katz(参考訳) 今やソフトウェアは学術研究の中心にある。 ここでは、方法論的な観点から重要なだけでなく、ソフトウェアは、多くの場合、学術論文と同等の研究成果として認識されるべきである、と論じる。 この記事では、ソフトウェアが研究で果たすさまざまな役割について論じ、ソフトウェアと研究の持続可能性と再現性の関係を強調する。 これは、ソフトウェアを引用し、レビューするプロセスに関連する課題を記述している。 ソフトウェアアウトプットは、現在の出版モデルに必ずしも快適にフィットするとは限らないが、この問題に影響を及ぼす可能性のある多くのポジティブな作業が進行中である、と結論付けている。

Software now lies at the heart of scholarly research. Here we argue that as well as being important from a methodological perspective, software should, in many instances, be recognised as an output of research, equivalent to an academic paper. The article discusses the different roles that software may play in research and highlights the relationship between software and research sustainability and reproducibility. It describes the challenges associated with the processes of citing and reviewing software, which differ from those used for papers. We conclude that whilst software outputs do not necessarily fit comfortably within the current publication model, there is a great deal of positive work underway that is likely to make an impact in addressing this.
翻訳日:2023-04-24 01:40:47 公開日:2020-11-15
# 医療MLのためのコンプライアンスデータ管理システムを目指して

Towards Compliant Data Management Systems for Healthcare ML ( http://arxiv.org/abs/2011.07555v1 )

ライセンス: Link先を確認
Goutham Ramakrishnan, Aditya Nori, Hannah Murfet, Pashmina Cameron(参考訳) マシンラーニングアプローチの人気が高まり、データ保護とデータのプライバシに対する意識が高まり、真に安全で信頼できる医療システムを構築する機会が生まれる。 GDPRやHIPAAなどの規制は幅広いガイドラインやフレームワークを提示するが、実装は技術的な課題を提示することができる。 準拠したデータ管理システムには、多くの技術および管理上の保護措置が要求される。 ポリシーは両方のセーフガードに設定できるが、コンプライアンスをリアルタイムで理解するための可用性は限られている。 ますます、機械学習の実践者たちは、センシティブなデータの追跡の重要性を認識し始めている。 個人を識別し、健康や商業に敏感な情報よりも敏感な場合には、よりダイナミックな方法でデータのフローを評価することに価値があるだろう。 我々は、医療における機械学習プロジェクト内のデータの流れを、ソースからストレージまで、トレーニングアルゴリズムなどに用いる方法についてレビューする。 これに基づいて、データのバージョニングのためのエンジニアリング仕様とソリューションを設計する。 私たちの目標は、プロジェクトのライフサイクル全体にわたって、マシンとユーザ間の機密データを検出および追跡し、効率性、一貫性、使いやすさを優先するツールを設計することです。 私たちは、このドメインの難しさを示すソリューションのプロトタイプを構築します。 これらは共に、医療機械学習プロジェクトのためのコンプライアンスデータ管理システムを構築するための最初の取り組みである。

The increasing popularity of machine learning approaches and the rising awareness of data protection and data privacy presents an opportunity to build truly secure and trustworthy healthcare systems. Regulations such as GDPR and HIPAA present broad guidelines and frameworks, but the implementation can present technical challenges. Compliant data management systems require enforcement of a number of technical and administrative safeguards. While policies can be set for both safeguards there is limited availability to understand compliance in real time. Increasingly, machine learning practitioners are becoming aware of the importance of keeping track of sensitive data. With sensitivity over personally identifiable, health or commercially sensitive information there would be value in understanding assessment of the flow of data in a more dynamic fashion. We review how data flows within machine learning projects in healthcare from source to storage to use in training algorithms and beyond. Based on this, we design engineering specifications and solutions for versioning of data. Our objective is to design tools to detect and track sensitive data across machines and users across the life cycle of a project, prioritizing efficiency, consistency and ease of use. We build a prototype of the solution that demonstrates the difficulties in this domain. Together, these represent first efforts towards building a compliant data management system for healthcare machine learning projects.
翻訳日:2023-04-24 01:40:21 公開日:2020-11-15
# 量子クローンによる3つのパーティ量子ネットワーク

Three Party Quantum Networks Created by Quantum Cloning ( http://arxiv.org/abs/2011.07554v1 )

ライセンス: Link先を確認
Manish Kumar Shukla, Minyi Huang, Indranil Chakrabarty, Junde Wu(参考訳) 量子技術の発展に伴い、量子ネットワークの分野は重要な研究分野として浮上している。 ここ数年、量子ネットワークに存在する相関関係を理解することはかなり進歩している。 本稿では,より大規模なネットワークを創出するための3つのパーティ量子ネットワークを創出する手法としてクローンについて検討する。 クローン変換を用いて生成できる様々な量子ネットワークトポロジを解析する。 これは、絡み合ったペアの可用性が制限された状況において有用である。 さらに,クローンによって生成されたネットワークと,独立に生成した絡み合ったペアを分散して生成したネットワークを区別する問題にも注目する。 フィンナーの不等式を用いて標準的な方法で区別できない状態がいくつか存在することが分かる。 このような状態に対して,ネットワークトポロジに応じて観測者の数を3から4から6に増やすことにより,既存の三角形ネットワークの不等式の拡張を提案する。 これは、クローンネットワークの場合に存在する追加の相関を考慮に入れている。 記事の最後の部分では、クローンネットワークと独立したソースによって生成されたネットワークを区別するために、トリパーティイト相互情報を使用し、クローンネットワークの依存量を定量化するための手段として、さらにスクワッドエンタングルメントを用いている。

With progress in quantum technologies, the field of quantum networks has emerged as an important area of research. In the last few years, there has been substantial progress in understanding the correlations present in quantum networks. In this article, we study cloning as a prospective method to generate three party quantum networks which can be further used to create larger networks. We analyze various quantum network topologies that can be created using cloning transformations. This would be useful in the situations wherever the availability of entangled pairs is limited. In addition to that we focus on the problem of distinguishing networks created by cloning from those which are created by distributing independently generated entangled pairs. We find that there are several states which cannot be distinguished using the Finner inequalities in the standard way. For such states, we propose an extension to the existing Finner inequality for triangle networks by further increasing the number of observers from three to four or six depending on the network topology. This takes into account the additional correlations that exist in the case of cloned networks. In the last part of the article we have used tripartite mutual information to distinguish cloned networks from networks created by independent sources and have further used squashed entanglement as a measure to quantify the amount of dependence in the cloned networks.
翻訳日:2023-04-24 01:40:03 公開日:2020-11-15
# ディープラーニングを用いた画像分割:調査

Image Segmentation Using Deep Learning: A Survey ( http://arxiv.org/abs/2001.05566v5 )

ライセンス: Link先を確認
Shervin Minaee, Yuri Boykov, Fatih Porikli, Antonio Plaza, Nasser Kehtarnavaz, and Demetri Terzopoulos(参考訳) 画像分割は画像処理やコンピュータビジョンにおいて重要なテーマであり、シーン理解、医用画像分析、ロボット知覚、ビデオ監視、拡張現実、画像圧縮などの応用がある。 画像分割のための様々なアルゴリズムが文献で開発されている。 近年,多岐にわたる視覚応用におけるディープラーニングモデルの成功により,ディープラーニングモデルを用いた画像分割手法の開発を目的とした研究が数多く行われている。 本稿では,本論文の執筆時点での文献を包括的にレビューし,完全畳み込みピクセルラベルネットワーク,エンコーダ・デコーダアーキテクチャ,マルチスケールおよびピラミッドベースアプローチ,リカレントネットワーク,視覚的注意モデル,対向的設定における生成モデルなど,セマンティックおよびインスタンスレベルのセグメンテーションの先駆的な研究の幅広い範囲について紹介する。 本稿では,これらの深層学習モデルの類似性,強み,課題について検討し,最も広く使われているデータセットを調査し,性能を報告し,この分野における将来的な研究方向性について議論する。

Image segmentation is a key topic in image processing and computer vision with applications such as scene understanding, medical image analysis, robotic perception, video surveillance, augmented reality, and image compression, among many others. Various algorithms for image segmentation have been developed in the literature. Recently, due to the success of deep learning models in a wide range of vision applications, there has been a substantial amount of works aimed at developing image segmentation approaches using deep learning models. In this survey, we provide a comprehensive review of the literature at the time of this writing, covering a broad spectrum of pioneering works for semantic and instance-level segmentation, including fully convolutional pixel-labeling networks, encoder-decoder architectures, multi-scale and pyramid based approaches, recurrent networks, visual attention models, and generative models in adversarial settings. We investigate the similarity, strengths and challenges of these deep learning models, examine the most widely used datasets, report performances, and discuss promising future research directions in this area.
翻訳日:2023-01-11 06:07:05 公開日:2020-11-15
# グラフ注意ネットワークを用いたスーパーピクセル画像分類

Superpixel Image Classification with Graph Attention Networks ( http://arxiv.org/abs/2002.05544v2 )

ライセンス: Link先を確認
Pedro H. C. Avelar, Anderson R. Tavares, Thiago L. T. da Silveira, Cl\'audio R. Jung, Lu\'is C. Lamb(参考訳) 本稿では,グラフニューラルネットワーク(GNN)モデルを用いた画像分類手法を提案する。 入力画像を領域隣接グラフ(rag)に変換し,その領域がスーパーピクセルであり,エッジが隣接スーパーピクセルを接続する。 本実験は,グラフ畳み込みと自己注意機構を組み合わせたグラフ注意ネットワーク(GAT)が,他のGNNモデルより優れていることを示唆する。 生画像分類器はrag生成時の情報損失によりgatsよりも優れた性能を示すが,360度視野パノラマのような矩形格子画像以外の深層学習に関する興味深い研究の道を開く。 現在の最先端手法の伝統的な畳み込みカーネルはパノラマを処理できないが、適応したスーパーピクセルアルゴリズムと結果として生じる領域隣接グラフはトポロジーの問題なく自然にgnnを供給できる。

This paper presents a methodology for image classification using Graph Neural Network (GNN) models. We transform the input images into region adjacency graphs (RAGs), in which regions are superpixels and edges connect neighboring superpixels. Our experiments suggest that Graph Attention Networks (GATs), which combine graph convolutions with self-attention mechanisms, outperforms other GNN models. Although raw image classifiers perform better than GATs due to information loss during the RAG generation, our methodology opens an interesting avenue of research on deep learning beyond rectangular-gridded images, such as 360-degree field of view panoramas. Traditional convolutional kernels of current state-of-the-art methods cannot handle panoramas, whereas the adapted superpixel algorithms and the resulting region adjacency graphs can naturally feed a GNN, without topology issues.
翻訳日:2023-01-01 09:34:09 公開日:2020-11-15
# ScopeIt: ドキュメントにおけるタスク関連文のスコーピング

ScopeIt: Scoping Task Relevant Sentences in Documents ( http://arxiv.org/abs/2003.04988v2 )

ライセンス: Link先を確認
Vishwas Suryanarayanan, Barun Patra, Pamela Bhattacharya, Chala Fufa, Charles Lee(参考訳) Cortana、Siri、Alexa、Google Assistantといったインテリジェントなアシスタントは、会話が同期的で短いときに情報を解析するように訓練されているが、電子メールベースの会話エージェントでは、コミュニケーションは非同期であり、アシスタントとは無関係な情報を含んでいることが多い。 これによりシステムは、インテントを正確に検出し、そのインテントに関連するエンティティを抽出し、望ましいアクションを実行することが難しくなる。 本稿では,エージェントの関連情報を大きなクエリから抽出するニューラルモデルを提案する。 事前処理のステップとして使用すると、意図検出とエンティティ抽出の両方の性能が向上することを示す。 モデルがスケジューラに与える影響を実証する(cortanaはエージェントのペルソナであり、スケジューラはサービスの名前です。この論文の文脈で相互に使用します。) - メールを介してユーザと非同期にやり取りする仮想会話型ミーティングスケジューリングアシスタントです。 このモデルはスケジューラが要求するエンティティ抽出およびインテント検出タスクを、リコールをすることなく、平均35%の精度で達成するのに役立つ。 さらに,署名ブロックの識別など,大規模文書のコンポーネントレベル解析にも同様の手法が適用可能であることを示す。

Intelligent assistants like Cortana, Siri, Alexa, and Google Assistant are trained to parse information when the conversation is synchronous and short; however, for email-based conversational agents, the communication is asynchronous, and often contains information irrelevant to the assistant. This makes it harder for the system to accurately detect intents, extract entities relevant to those intents and thereby perform the desired action. We present a neural model for scoping relevant information for the agent from a large query. We show that when used as a preprocessing step, the model improves performance of both intent detection and entity extraction tasks. We demonstrate the model's impact on Scheduler (Cortana is the persona of the agent, while Scheduler is the name of the service. We use them interchangeably in the context of this paper.) - a virtual conversational meeting scheduling assistant that interacts asynchronously with users through email. The model helps the entity extraction and intent detection tasks requisite by Scheduler achieve an average gain of 35% in precision without any drop in recall. Additionally, we demonstrate that the same approach can be used for component level analysis in large documents, such as signature block identification.
翻訳日:2022-12-29 09:02:23 公開日:2020-11-15
# 空中知覚による地上車両位置推定改善のためのクロスビューマッチングの評価

Evaluation of Cross-View Matching to Improve Ground Vehicle Localization with Aerial Perception ( http://arxiv.org/abs/2003.06515v4 )

ライセンス: Link先を確認
Deeksha Dixit, Surabhi Verma, Pratap Tokekar(参考訳) クロスビューマッチング(cross-view matching)とは、与えられた問合せグランドビュー画像のデータベースから最も近いマッチングを見つける問題である。 航空画像がジオタグされている場合、最も近い航空画像を使用して、クエリグラウンドビューイメージをローカライズすることができる。 近年のディープラーニング手法の成功により,複数のクロスビューマッチング手法が提案されている。 これらのアプローチは、孤立したクエリ画像のマッチングにうまく機能する。 しかし、軌道に対する評価は限られている。 本稿では,より長い軌道上での地上車両の位置決め作業に対するクロスビューマッチングの評価を行う。 これらのクロスビューマッチングを粒子フィルタを用いて融合したセンサ測定として扱う。 本手法は, 空中画像の高さ, 空中カメラマウントのピッチ, 地上カメラのfov, 粒子フィルタのクロスビュー計測を活用した手法の4つのパラメータを用いて, フォトリアリスティックシミュレーションで収集した都市全体のデータセットを用いて性能評価を行う。 また,Googleストリートビューと衛星ビューAPIを用いて収集した実世界のデータセット上で,パイプラインを用いて得られた結果を報告する。

Cross-view matching refers to the problem of finding the closest match for a given query ground view image to one from a database of aerial images. If the aerial images are geotagged, then the closest matching aerial image can be used to localize the query ground view image. Due to the recent success of deep learning methods, several cross-view matching techniques have been proposed. These approaches perform well for the matching of isolated query images. However, their evaluation over a trajectory is limited. In this paper, we evaluate cross-view matching for the task of localizing a ground vehicle over a longer trajectory. We treat these cross-view matches as sensor measurements that are fused using a particle filter. We evaluate the performance of this method using a city-wide dataset collected in a photorealistic simulation by varying four parameters: height of aerial images, the pitch of the aerial camera mount, FOV of the ground camera, and the methodology of fusing cross-view measurements in the particle filter. We also report the results obtained using our pipeline on a real-world dataset collected using Google Street View and satellite view APIs.
翻訳日:2022-12-24 02:24:35 公開日:2020-11-15
# 解釈予測のための最適局所記述器集約

Optimal Local Explainer Aggregation for Interpretable Prediction ( http://arxiv.org/abs/2003.09466v2 )

ライセンス: Link先を確認
Qiaomei Li and Rachel Cummings and Yonatan Mintz(参考訳) ブラックボックスマシンを学習したモデルを実践する際の意思決定者にとって重要な課題は、これらのモデルが提供する予測を理解することだ。 提案手法の1つは、より複雑なモデルに近似した代理説明モデルの訓練である。 説明手法は、一般的に、説明すべきデータ空間のどの部分かによって、ローカルまたはグローバルに分類される。 グローバルな説明者のカバレッジの改善は、通常、説明者の忠実さを犠牲にしている。 両方のアプローチの利点を交換する方法の1つは、複数のローカルな説明者を単一の説明モデルにまとめ、カバレッジを改善することである。 しかし、これらの局所的な説明を集約する問題は計算的に困難であり、既存の手法はヒューリスティックスのみを用いてこれらの集約を形成する。 本稿では,非凸最適化を用いた局所説明器を選択する局所説明器集約手法を提案する。 他のヒューリスティック手法とは対照的に、局所的な説明器を準グロバルな集合の説明器に結合するために整数最適化フレームワークを用いる。 我々のフレームワークは、最適化問題のパラメータを通して、意思決定者が直接、結果の集約のカバレッジと忠実さをトレードオフすることができる。 また,情報フィルタリングに基づく新しい局所的説明アルゴリズムを提案する。 われわれは,Parkinson's Progression Marker Initiative(PPMI)データセットと老年期のモビリティデータセットの2つの医療データセットに対するアルゴリズムフレームワークの評価を行った。 提案手法は, 従来のグローバルな説明手法よりも忠実度と包括性の両方の観点から, 既存の局所的説明手法よりも優れており, 特に, 最先端の手法が70%を達成し, 90%を達成できるマルチクラス設定において, 忠実度の向上を図っている。

A key challenge for decision makers when incorporating black box machine learned models into practice is being able to understand the predictions provided by these models. One proposed set of methods is training surrogate explainer models which approximate the more complex model. Explainer methods are generally classified as either local or global, depending on what portion of the data space they are purported to explain. The improved coverage of global explainers usually comes at the expense of explainer fidelity. One way of trading off the advantages of both approaches is to aggregate several local explainers into a single explainer model with improved coverage. However, the problem of aggregating these local explainers is computationally challenging, and existing methods only use heuristics to form these aggregations. In this paper we propose a local explainer aggregation method which selects local explainers using non-convex optimization. In contrast to other heuristic methods, we use an integer optimization framework to combine local explainers into a near-global aggregate explainer. Our framework allows a decision-maker to directly tradeoff coverage and fidelity of the resulting aggregation through the parameters of the optimization problem. We also propose a novel local explainer algorithm based on information filtering. We evaluate our algorithmic framework on two healthcare datasets---the Parkinson's Progression Marker Initiative (PPMI) data set and a geriatric mobility dataset---which is motivated by the anticipated need for explainable precision medicine. Our method outperforms existing local explainer aggregation methods in terms of both fidelity and coverage of classification and improves on fidelity over existing global explainer methods, particularly in multi-class settings where state-of-the-art methods achieve 70% and ours achieves 90%.
翻訳日:2022-12-21 22:17:52 公開日:2020-11-15
# uniconv:マルチドメインタスク指向対話のための統一対話型ニューラルアーキテクチャ

UniConv: A Unified Conversational Neural Architecture for Multi-domain Task-oriented Dialogues ( http://arxiv.org/abs/2004.14307v2 )

ライセンス: Link先を確認
Hung Le, Doyen Sahoo, Chenghao Liu, Nancy F. Chen, Steven C.H. Hoi(参考訳) マルチドメインタスク指向対話のためのエンドツーエンド対話エージェントの構築は,2つの主な理由から,オープンな課題となっている。 まず、対話エージェントは関連するすべてのドメインから完全な状態を取得しなければならないため、複数のドメインの対話状態を追跡することは簡単ではない。 第2に、対話エージェントは、対話コンテキスト、対話状態、データベースなど、ドメイン間で様々な種類の情報を処理して、ユーザに対する自然な応答を生成する必要がある。 各モジュールを個別にトレーニングするためにしばしば設計された既存のアプローチとは異なり、我々は、マルチドメインタスク指向対話におけるエンドツーエンド会話システムのための新しい統一ニューラルアーキテクチャである「uniconv」を提案する。 (i)スロットレベルとドメインレベルでそれぞれ独立して信号を学習して対話状態を追跡するバイレベル状態追跡装置 二 様々な入力成分からの情報を組み込んだ共同対話行為及び応答発生装置であって、対話行為及び対象応答をモデル化すること。 我々は、マルチウォズ2.1ベンチマークにおいて、対話状態追跡、コンテキスト・ツー・テキスト、エンドツーエンド設定の包括的な実験を行い、競合ベースラインよりも優れたパフォーマンスを達成する。

Building an end-to-end conversational agent for multi-domain task-oriented dialogues has been an open challenge for two main reasons. First, tracking dialogue states of multiple domains is non-trivial as the dialogue agent must obtain complete states from all relevant domains, some of which might have shared slots among domains as well as unique slots specifically for one domain only. Second, the dialogue agent must also process various types of information across domains, including dialogue context, dialogue states, and database, to generate natural responses to users. Unlike the existing approaches that are often designed to train each module separately, we propose "UniConv" -- a novel unified neural architecture for end-to-end conversational systems in multi-domain task-oriented dialogues, which is designed to jointly train (i) a Bi-level State Tracker which tracks dialogue states by learning signals at both slot and domain level independently, and (ii) a Joint Dialogue Act and Response Generator which incorporates information from various input components and models dialogue acts and target responses simultaneously. We conduct comprehensive experiments in dialogue state tracking, context-to-text, and end-to-end settings on the MultiWOZ2.1 benchmark, achieving superior performance over competitive baselines.
翻訳日:2022-12-08 12:49:59 公開日:2020-11-15
# StackOverflowにおけるコードと名前付きエンティティ認識

Code and Named Entity Recognition in StackOverflow ( http://arxiv.org/abs/2005.01634v3 )

ライセンス: Link先を確認
Jeniya Tabassum, Mounica Maddela, Wei Xu, Alan Ritter(参考訳) インターネット上では、大量のプログラミングテキストのコーパスが利用可能になるにつれて、自然言語とコンピュータコードの研究への関心が高まっている。 例えば、StackOverflowは現在850万人のユーザーが書いた1500万以上のプログラミング関連の質問がある。 一方で、コードトークンや、自然言語文に現れるソフトウェア関連の名前付きエンティティを識別するための基本的なnlp技術が不足している。 本稿では,20種類の微粒なエンティティ型を付加した15,372文からなる,コンピュータプログラミング領域のための新しい名前付きエンティティ認識コーパスを提案する。 StackOverflowから1億5200万の文に対して,ドメイン内のBERT表現(BERTOverflow)をトレーニングした。 また、コードに対する79.10 F$_1$スコアとStackOverflowデータに対する名前付きエンティティ認識を実現するSoftNERモデルを提案する。 我々のSoftNERモデルは、BERTベースのタグ付けモデルを改善するために、コーパスレベルの機能を備えた文脈非依存のコードトークン分類器を組み込んでいる。 私たちのコードとデータは、https://github.com/jeniyat/StackOverflowNER/で利用可能です。

There is an increasing interest in studying natural language and computer code together, as large corpora of programming texts become readily available on the Internet. For example, StackOverflow currently has over 15 million programming related questions written by 8.5 million users. Meanwhile, there is still a lack of fundamental NLP techniques for identifying code tokens or software-related named entities that appear within natural language sentences. In this paper, we introduce a new named entity recognition (NER) corpus for the computer programming domain, consisting of 15,372 sentences annotated with 20 fine-grained entity types. We trained in-domain BERT representations (BERTOverflow) on 152 million sentences from StackOverflow, which lead to an absolute increase of +10 F-1 score over off-the-shelf BERT. We also present the SoftNER model which achieves an overall 79.10 F$_1$ score for code and named entity recognition on StackOverflow data. Our SoftNER model incorporates a context-independent code token classifier with corpus-level features to improve the BERT-based tagging model. Our code and data are available at: https://github.com/jeniyat/StackOverflowNER/
翻訳日:2022-12-07 00:56:40 公開日:2020-11-15
# BayesRace: 事前の経験から自律的なレースを学ぶ

BayesRace: Learning to race autonomously using prior experience ( http://arxiv.org/abs/2005.04755v2 )

ライセンス: Link先を確認
Achin Jain, Matthew O'Kelly, Pratik Chaudhari, Manfred Morari(参考訳) 自律レースカーには知覚、推定、計画、制御モジュールが必要であり、これは車両のハンドリング能力の限界で運転しながら非同期に動作する。 これらのソフトウェアコンポーネントを設計する際の根本的な課題は、車両の将来の状態(例えば、位置、方向、速度)を高い精度で予測することである。 根本原因は、横タイヤスリップの効果を捉える車両モデルパラメータを特定するのが困難である。 本稿では,システム同定と制御設計に要する労力を大幅に削減する自律走行のためのモデルベース計画制御フレームワークを提案する。 本手法は,車載センサ計測から学習することで,シミュレーションベースコントローラ設計によるギャップを軽減する。 この研究の主な焦点は経験的であり、検証された1:43と1:10スケールの自律レースシミュレーションの実験による貢献を実証する。

Autonomous race cars require perception, estimation, planning, and control modules which work together asynchronously while driving at the limit of a vehicle's handling capability. A fundamental challenge encountered in designing these software components lies in predicting the vehicle's future state (e.g. position, orientation, and speed) with high accuracy. The root cause is the difficulty in identifying vehicle model parameters that capture the effects of lateral tire slip. We present a model-based planning and control framework for autonomous racing that significantly reduces the effort required in system identification and control design. Our approach alleviates the gap induced by simulation-based controller design by learning from on-board sensor measurements. A major focus of this work is empirical, thus, we demonstrate our contributions by experiments on validated 1:43 and 1:10 scale autonomous racing simulations.
翻訳日:2022-12-05 02:18:10 公開日:2020-11-15
# メモリ制約デバイスにおける画像分類手法の定量的解析

Quantitative Analysis of Image Classification Techniques for Memory-Constrained Devices ( http://arxiv.org/abs/2005.04968v4 )

ライセンス: Link先を確認
Sebastian M\"uksch, Theo Olausson, John Wilhelm, Pavlos Andreadis(参考訳) 畳み込みニューラルネットワーク(英: Convolutional Neural Networks、CNN)は、画像分類の最先端技術であるが、通常、大きなメモリフットプリントのコストがかかる。 これにより、メモリが希少なリソースである組み込みデバイスに依存するアプリケーションでの有用性が制限される。 近年,メモリ制限されたデバイスにおける画像分類の分野では,ProtoNNやBonsai,FastGRNNといった新しいコントリビューションによって大きな進歩を遂げている。 これらはmnist-10を用いた光文字認識において最大98.2%の精度に達し、メモリフットプリントは最大6kbである。 しかし、より複雑なマルチクラスおよびマルチチャネル画像分類の可能性はまだ決定されていない。 本稿では,CNNとProtoNN,Bonsai,FastGRNNを比較し,CIFAR-10を用いた3チャンネル画像分類に適用する。 我々は,既存のDirect Convolutionアルゴリズムを用いてCNNをメモリ最適化して実装し,FastGRNNモデルをマルチチャネル画像で動作するように調整する方法を提案する。 我々は,各アルゴリズムの評価を 8KB, 16KB, 32KB, 64KB, 128KB のメモリサイズ予算まで拡張し,ダイレクトコンボリューション CNN が選択した全ての予算に対して最高の性能を示し,最高性能は 58.23KB のメモリフットプリントで65.7% の精度で達成した。

Convolutional Neural Networks, or CNNs, are the state of the art for image classification, but typically come at the cost of a large memory footprint. This limits their usefulness in applications relying on embedded devices, where memory is often a scarce resource. Recently, there has been significant progress in the field of image classification on such memory-constrained devices, with novel contributions like the ProtoNN, Bonsai and FastGRNN algorithms. These have been shown to reach up to 98.2% accuracy on optical character recognition using MNIST-10, with a memory footprint as little as 6KB. However, their potential on more complex multi-class and multi-channel image classification has yet to be determined. In this paper, we compare CNNs with ProtoNN, Bonsai and FastGRNN when applied to 3-channel image classification using CIFAR-10. For our analysis, we use the existing Direct Convolution algorithm to implement the CNNs memory-optimally and propose new methods of adjusting the FastGRNN model to work with multi-channel images. We extend the evaluation of each algorithm to a memory size budget of 8KB, 16KB, 32KB, 64KB and 128KB to show quantitatively that Direct Convolution CNNs perform best for all chosen budgets, with a top performance of 65.7% accuracy at a memory footprint of 58.23KB.
翻訳日:2022-12-04 20:01:38 公開日:2020-11-15
# ScriptWriter: ナラティブガイドによるスクリプト生成

ScriptWriter: Narrative-Guided Script Generation ( http://arxiv.org/abs/2005.10331v2 )

ライセンス: Link先を確認
Yutao Zhu, Ruihua Song, Zhicheng Dou, Jian-Yun Nie, Jin Zhou(参考訳) ストーリーラインからストーリーやスクリプトを自動生成するシステムを持つことは、まだ私たちの手の届かないところにあるが、魅力的である。 対話システムでは、対話計画によって対話を駆動することも有用である。 本稿では,これらのアプリケーションにおける重要な課題である物語による対話の誘導について述べる。 提案するモデルスクリプトライターは、与えられたナラティブだけでなく文脈に適合する候補の中から最適な応答を選択する。 物語の中で何が語られているのか、何を語るべきなのかを追跡する。 物語は、現在の対話システムで一般的に使用される文脈(例えば、以前の発話)とは異なる役割を演じている。 この新しいアプリケーションではデータが利用できないため、エンドユーザーが映画を見る際に自由に物語をアップロードできる映画webサイトから、大規模なデータ収集グラフを新たに構築する。 データセットを用いた実験の結果,提案手法は,物語を文脈として使用するベースラインを有意に上回っていることがわかった。

It is appealing to have a system that generates a story or scripts automatically from a story-line, even though this is still out of our reach. In dialogue systems, it would also be useful to drive dialogues by a dialogue plan. In this paper, we address a key problem involved in these applications -- guiding a dialogue by a narrative. The proposed model ScriptWriter selects the best response among the candidates that fit the context as well as the given narrative. It keeps track of what in the narrative has been said and what is to be said. A narrative plays a different role than the context (i.e., previous utterances), which is generally used in current dialogue systems. Due to the unavailability of data for this new application, we construct a new large-scale data collection GraphMovie from a movie website where end-users can upload their narratives freely when watching a movie. Experimental results on the dataset show that our proposed approach based on narratives significantly outperforms the baselines that simply use the narrative as a kind of context.
翻訳日:2022-12-01 05:31:00 公開日:2020-11-15
# SoftFlow: マニフォールドフローの正規化のための確率的フレームワーク

SoftFlow: Probabilistic Framework for Normalizing Flow on Manifolds ( http://arxiv.org/abs/2006.04604v4 )

ライセンス: Link先を確認
Hyeongju Kim, Hyeonseung Lee, Woo Hyun Kang, Joun Yeop Lee, Nam Soo Kim(参考訳) フローベース生成モデルは、同じ次元の2つのランダム変数間の可逆変換からなる。 したがって、データ分布の次元が基礎となるターゲット分布の次元と一致しない場合、フローベースモデルは適切に訓練できない。 本論文では,多様体上のフローを正規化するための確率的フレームワークであるSoftFlowを提案する。 次元ミスマッチ問題を回避するため、softflowはデータ分布を直接学習するのではなく、摂動入力データの条件分布を推定する。 実験により,SoftFlowは従来のフローベースモデルとは異なり,多様体データの固有構造を捕捉し,高品質なサンプルを生成することができることを示した。 さらに,フローベースモデルにおける細い構造形成の難しさを軽減するため,提案手法を3次元点雲に適用した。 提案した3Dポイントクラウドモデル、すなわちSoftPointFlowは、様々な形状の分布をより正確に推定し、ポイントクラウド生成における最先端の性能を達成する。

Flow-based generative models are composed of invertible transformations between two random variables of the same dimension. Therefore, flow-based models cannot be adequately trained if the dimension of the data distribution does not match that of the underlying target distribution. In this paper, we propose SoftFlow, a probabilistic framework for training normalizing flows on manifolds. To sidestep the dimension mismatch problem, SoftFlow estimates a conditional distribution of the perturbed input data instead of learning the data distribution directly. We experimentally show that SoftFlow can capture the innate structure of the manifold data and generate high-quality samples unlike the conventional flow-based models. Furthermore, we apply the proposed framework to 3D point clouds to alleviate the difficulty of forming thin structures for flow-based models. The proposed model for 3D point clouds, namely SoftPointFlow, can estimate the distribution of various shapes more accurately and achieves state-of-the-art performance in point cloud generation.
翻訳日:2022-11-24 01:18:39 公開日:2020-11-15
# 雑音相互作用ニューロンの浅部および深部一般化線形モデル学習のための新しい推論手法

A new inference approach for training shallow and deep generalized linear models of noisy interacting neurons ( http://arxiv.org/abs/2006.06497v3 )

ライセンス: Link先を確認
Gabriel Mahuas, Giulio Isacchini, Olivier Marre, Ulisse Ferrari and Thierry Mora(参考訳) 一般化線形モデルは、外部刺激に応答してニューロンネットワークの相関した確率的活動を予測するための最も効率的なパラダイムの1つであり、多くの脳領域で応用されている。 しかし、複雑な刺激を扱う場合、推定されたカップリングパラメータは、異なる刺激統計をまたいで一般化しないことが多く、パフォーマンスの低下や不安定化に繋がる。 本稿では,各学習ステップにおける刺激の相関効果とネットワーク相互作用の影響を明示的に分離することにより,相互作用ニューロンのロバストな一般化線形モデルを訓練できる2段階推定手法を開発した。 このアプローチを網膜神経節細胞の複雑な視覚刺激に対する反応に適用することにより、古典的手法と比較して、この方法で訓練されたモデルは、より安定した性能を示し、堅牢な相互作用ネットワークを形成し、複雑な視覚統計をまたいでうまく一般化できることが示されている。 この方法は深い畳み込みニューラルネットワークに拡張することができ、ニューロンの発射速度とそれらの相関について高い予測精度を持つモデルに繋がる。

Generalized linear models are one of the most efficient paradigms for predicting the correlated stochastic activity of neuronal networks in response to external stimuli, with applications in many brain areas. However, when dealing with complex stimuli, the inferred coupling parameters often do not generalize across different stimulus statistics, leading to degraded performance and blowup instabilities. Here, we develop a two-step inference strategy that allows us to train robust generalized linear models of interacting neurons, by explicitly separating the effects of correlations in the stimulus from network interactions in each training step. Applying this approach to the responses of retinal ganglion cells to complex visual stimuli, we show that, compared to classical methods, the models trained in this way exhibit improved performance, are more stable, yield robust interaction networks, and generalize well across complex visual statistics. The method can be extended to deep convolutional neural networks, leading to models with high predictive accuracy for both the neuron firing rates and their correlations.
翻訳日:2022-11-22 14:53:06 公開日:2020-11-15
# プレトレーニングとセルフトレーニングの再考

Rethinking Pre-training and Self-training ( http://arxiv.org/abs/2006.06882v2 )

ライセンス: Link先を確認
Barret Zoph, Golnaz Ghiasi, Tsung-Yi Lin, Yin Cui, Hanxiao Liu, Ekin D. Cubuk, Quoc V. Le(参考訳) 事前学習はコンピュータビジョンにおいて支配的なパラダイムである。 例えば、教師付きImageNet事前トレーニングは、オブジェクト検出とセグメンテーションモデルのバックボーンの初期化に一般的に使用される。 しかし、彼は、ImageNet事前トレーニングがCOCOオブジェクト検出に限られた影響を与えるという驚くべき結果を示した。 本稿では、同じ設定で追加データを利用する別の方法として自己学習を調査し、ImageNet事前学習と対比する。 本研究は,自己学習の汎用性と柔軟性を,さらに3つの洞察で明らかにする。 1) 強化データとラベル付きデータにより事前学習の価値はさらに低下する。 2) 事前学習と異なり, 自己学習は低データと高データの両方において, より強固なデータ拡張を用いた場合, 常に有用である。 3)事前訓練が有効である場合は,自己訓練は事前訓練により改善される。 例えば、COCOオブジェクト検出データセットでは、ラベル付きデータの5分の1を使用すると事前トレーニングのメリットがあり、ラベル付きデータのすべてを使用すると精度が低下します。 一方、自己学習はすべてのデータセットサイズに対して+1.3から+3.4APに肯定的な改善を示す。 言い換えれば、自己学習は(イメージネットを使ってCOCOを助ける)事前トレーニングが機能しないのと同じセットアップでうまく機能する。 COCOよりもはるかに小さなデータセットであるPASCALセグメンテーションデータセットでは、事前トレーニングは、事前トレーニングモデルによって大幅に改善される。 COCOオブジェクト検出では、最強のSpineNetモデルに対して+1.5APの改善である54.3APを達成する。 PASCALセグメンテーションでは、DeepLabv3+による従来の最先端結果よりも+1.5%mIOUの改善となる90.5mIOUを達成する。

Pre-training is a dominant paradigm in computer vision. For example, supervised ImageNet pre-training is commonly used to initialize the backbones of object detection and segmentation models. He et al., however, show a surprising result that ImageNet pre-training has limited impact on COCO object detection. Here we investigate self-training as another method to utilize additional data on the same setup and contrast it against ImageNet pre-training. Our study reveals the generality and flexibility of self-training with three additional insights: 1) stronger data augmentation and more labeled data further diminish the value of pre-training, 2) unlike pre-training, self-training is always helpful when using stronger data augmentation, in both low-data and high-data regimes, and 3) in the case that pre-training is helpful, self-training improves upon pre-training. For example, on the COCO object detection dataset, pre-training benefits when we use one fifth of the labeled data, and hurts accuracy when we use all labeled data. Self-training, on the other hand, shows positive improvements from +1.3 to +3.4AP across all dataset sizes. In other words, self-training works well exactly on the same setup that pre-training does not work (using ImageNet to help COCO). On the PASCAL segmentation dataset, which is a much smaller dataset than COCO, though pre-training does help significantly, self-training improves upon the pre-trained model. On COCO object detection, we achieve 54.3AP, an improvement of +1.5AP over the strongest SpineNet model. On PASCAL segmentation, we achieve 90.5 mIOU, an improvement of +1.5% mIOU over the previous state-of-the-art result by DeepLabv3+.
翻訳日:2022-11-22 09:28:16 公開日:2020-11-15
# 薬物再配置のためのハイブリッド注意記憶ネットワーク

Hybrid Attentional Memory Network for Computational drug repositioning ( http://arxiv.org/abs/2006.06910v2 )

ライセンス: Link先を確認
Jieyue He and Xinxing Yang (Equal contributor) and Zhuo Gong and lbrahim Zamit(参考訳) 薬物再配置は、薬物発見の重要かつ効率的な方法である既知の薬物の新しい用途を発見するために設計された。 研究者は、現在、薬物再配置に特定の種類の協調フィルタリング(CF)モデルしか使用していない。例えば、強力な薬物放出関連団体のほとんどに含まれるローカル情報をマイニングする地区ベースのアプローチや、薬物放出関連団体の大多数が共有するグローバル情報を効果的にキャプチャする潜在因子ベースのモデルなどである。 これら2種類のCFモデルを組み合わせてハイブリッドモデルを導出する研究者はほとんどいない。 さらに、コールドスタート問題は、関連するモデルの推論能力を制限する計算薬物再配置の分野において、常に大きな課題であった。 メモリネットワークに触発されて,ハイブリッド・アテンション・メモリ・ネットワーク(hamn)モデルを提案する。 まず、メモリユニットとアテンション機構を結合して近傍の寄与表現を生成し、強力な薬物放出関連性の少ない局所構造を捕捉する。 次に、オートエンコーダの変種を用いて、薬物や疾患の潜伏因子を抽出し、薬物・疾患関連団体の大多数が共有する全体的な情報を取得する。 このプロセスでは、薬や病気の補助的な情報がコールドスタート問題を軽減するのに役立ちます。 最後に、予測段階において、近隣貢献表現と薬物潜伏因子と疾患潜伏因子とを組み合わせることにより、予測値を生成する。 2つの実データ集合に対する総合的な実験結果から,提案したHAMNモデルは,AUC,AUPR,HR指標による他の比較モデルよりも優れていることが示された。

Drug repositioning is designed to discover new uses of known drugs, which is an important and efficient method of drug discovery. Researchers only use one certain type of Collaborative Filtering (CF) models for drug repositioning currently, like the neighborhood based approaches which are good at mining the local information contained in few strong drug-disease associations, or the latent factor based models which are effectively capture the global information shared by a majority of drug-disease associations. Few researchers have combined these two types of CF models to derive a hybrid model with the advantages of both of them. Besides, the cold start problem has always been a major challenge in the field of computational drug repositioning, which restricts the inference ability of relevant models. Inspired by the memory network, we propose the Hybrid Attentional Memory Network (HAMN) model, a deep architecture combines two classes of CF model in a nonlinear manner. Firstly, the memory unit and the attention mechanism are combined to generate the neighborhood contribution representation to capture the local structure of few strong drug-disease associations. Then a variant version of the autoencoder is used to extract the latent factor of drugs and diseases to capture the overall information shared by a majority of drug-disease associations. In that process, ancillary information of drugs and diseases can help to alleviate the cold start problem. Finally, in the prediction stage, the neighborhood contribution representation is combined with the drug latent factor and disease latent factor to produce the predicted value. Comprehensive experimental results on two real data sets show that our proposed HAMN model is superior to other comparison models according to the AUC, AUPR and HR indicators.
翻訳日:2022-11-22 02:32:00 公開日:2020-11-15
# Windows マルウェア分類における機械学習手法と課題

A Survey of Machine Learning Methods and Challenges for Windows Malware Classification ( http://arxiv.org/abs/2006.09271v2 )

ライセンス: Link先を確認
Edward Raff, Charles Nicholas(参考訳) マルウェアの分類は難しい問題であり、機械学習手法が何十年にもわたって適用されてきた。 しかし、データ収集、ラベリング、特徴生成と選択、モデル選択、評価など、機械学習システムの開発の全段階を通じて発生するタスクに特有の困難がいくつかあるため、進捗が遅いことが多い。 本調査では,データ収集,特徴抽出,モデル構築,評価など,マルウェア分類に関する現在の方法と課題について概説する。 私たちの議論には、このドメインの機械学習ベースのソリューションでは考慮すべき制約についての考えが含まれますが、機械学習がソリューションを提供する可能性のある問題には取り組んでいません。 この調査は、マルウェア問題に機械学習を適用する方法についてより深く学びたいサイバーセキュリティ実践者や、データサイエンティストにこの独特な複雑な領域における課題に対する必要な背景を与えるために有用である。

Malware classification is a difficult problem, to which machine learning methods have been applied for decades. Yet progress has often been slow, in part due to a number of unique difficulties with the task that occur through all stages of the developing a machine learning system: data collection, labeling, feature creation and selection, model selection, and evaluation. In this survey we will review a number of the current methods and challenges related to malware classification, including data collection, feature extraction, and model construction, and evaluation. Our discussion will include thoughts on the constraints that must be considered for machine learning based solutions in this domain, and yet to be tackled problems for which machine learning could also provide a solution. This survey aims to be useful both to cybersecurity practitioners who wish to learn more about how machine learning can be applied to the malware problem, and to give data scientists the necessary background into the challenges in this uniquely complicated space.
翻訳日:2022-11-21 03:58:43 公開日:2020-11-15
# モジュールに注目したリカレントニューラルネットワークにおけるトップダウン信号とボトムアップ信号の結合学習

Learning to Combine Top-Down and Bottom-Up Signals in Recurrent Neural Networks with Attention over Modules ( http://arxiv.org/abs/2006.16981v3 )

ライセンス: Link先を確認
Sarthak Mittal, Alex Lamb, Anirudh Goyal, Vikram Voleti, Murray Shanahan, Guillaume Lajoie, Michael Mozer, Yoshua Bengio(参考訳) ロバスト知覚はボトムアップ信号とトップダウン信号の両方に依存する。 ボトムアップ信号は感覚を通して直接観測される信号からなる。 トップダウン信号は、過去の経験と短期記憶に基づく信念と期待で構成され、例えば「ピーナッツバターと~...」というフレーズが完成する。 ボトムアップとトップダウンの情報の組み合わせは依然としてオープンな問題だが、組み合わせの方法は動的で、コンテキストとタスクに依存する必要がある。 利用可能な潜在的なトップダウン情報の富を効果的に活用し、双方向アーキテクチャにおける混在信号のカコフォニーを防止するためには、情報フローを制限するメカニズムが必要である。 ボトムアップ信号とトップダウン信号が動的に結合されるディープリカレントニューラルネットワークアーキテクチャについて検討する。 アーキテクチャのモジュール化は、情報の共有と通信をさらに制限します。 注意とモジュール性によって直接的な情報フローが向上し、知覚的および言語的タスクのパフォーマンスが向上し、特に邪魔や騒がしいデータに対する堅牢性が向上する。 本稿では,言語モデリング,逐次画像分類,映像予測,強化学習における様々なベンチマークについて,強いベースライン上での情報フローが改善できることを実証する。

Robust perception relies on both bottom-up and top-down signals. Bottom-up signals consist of what's directly observed through sensation. Top-down signals consist of beliefs and expectations based on past experience and short-term memory, such as how the phrase `peanut butter and~...' will be completed. The optimal combination of bottom-up and top-down information remains an open question, but the manner of combination must be dynamic and both context and task dependent. To effectively utilize the wealth of potential top-down information available, and to prevent the cacophony of intermixed signals in a bidirectional architecture, mechanisms are needed to restrict information flow. We explore deep recurrent neural net architectures in which bottom-up and top-down signals are dynamically combined using attention. Modularity of the architecture further restricts the sharing and communication of information. Together, attention and modularity direct information flow, which leads to reliable performance improvements in perceptual and language tasks, and in particular improves robustness to distractions and noisy data. We demonstrate on a variety of benchmarks in language modeling, sequential image classification, video prediction and reinforcement learning that the \emph{bidirectional} information flow can improve results over strong baselines.
翻訳日:2022-11-15 04:19:03 公開日:2020-11-15
# 生成逆ネットワークを用いた衛星画像の教師なし変化検出

Unsupervised Change Detection in Satellite Images with Generative Adversarial Network ( http://arxiv.org/abs/2009.03630v2 )

ライセンス: Link先を確認
Caijun Ren, Xiangyu Wang, Jian Gao and Huanhuan Chen(参考訳) 対の衛星画像における変化領域の検出は、多くのリモートセンシングアプリケーションにおいて重要な役割を果たす。 The evolution of recent techniques could provide satellite images with very high spatial resolution (VHR) but made it challenging to apply image coregistration, and many change detection methods are dependent on its accuracy.Two images of the same scene taken at different time or from different angle would introduce unregistered objects and the existence of both unregistered areas and actual changed areas would lower the performance of many change detection algorithms in unsupervised condition.To alleviate the effect of unregistered objects in the paired images, we propose a novel change detection framework utilizing a special neural network architecture -- Generative Adversarial Network (GAN) to generate many better coregistered images. 本稿では,提案する拡張戦略を用いて学習セットを作成し,設計目的関数を最適化することにより,ganモデルが一対の画像に対して訓練可能であることを示す。 The optimized GAN model would produce better coregistered images where changes can be easily spotted and then the change map can be presented through a comparison strategy using these generated images explicitly.Compared to other deep learning-based methods, our method is less sensitive to the problem of unregistered images and makes most of the deep learning structure.Experimental results on synthetic images and real data with many different scenes could demonstrate the effectiveness of the proposed approach.

Detecting changed regions in paired satellite images plays a key role in many remote sensing applications. The evolution of recent techniques could provide satellite images with very high spatial resolution (VHR) but made it challenging to apply image coregistration, and many change detection methods are dependent on its accuracy.Two images of the same scene taken at different time or from different angle would introduce unregistered objects and the existence of both unregistered areas and actual changed areas would lower the performance of many change detection algorithms in unsupervised condition.To alleviate the effect of unregistered objects in the paired images, we propose a novel change detection framework utilizing a special neural network architecture -- Generative Adversarial Network (GAN) to generate many better coregistered images. In this paper, we show that GAN model can be trained upon a pair of images through using the proposed expanding strategy to create a training set and optimizing designed objective functions. The optimized GAN model would produce better coregistered images where changes can be easily spotted and then the change map can be presented through a comparison strategy using these generated images explicitly.Compared to other deep learning-based methods, our method is less sensitive to the problem of unregistered images and makes most of the deep learning structure.Experimental results on synthetic images and real data with many different scenes could demonstrate the effectiveness of the proposed approach.
翻訳日:2022-10-20 21:31:44 公開日:2020-11-15
# Few-Shot 自然言語分類タスクのための自己教師付きメタラーニング

Self-Supervised Meta-Learning for Few-Shot Natural Language Classification Tasks ( http://arxiv.org/abs/2009.08445v2 )

ライセンス: Link先を確認
Trapit Bansal, Rishikesh Jha, Tsendsuren Munkhdalai, Andrew McCallum(参考訳) 変圧器モデルの自己教師付き事前学習はnlp応用に革命をもたらした。 このような言語モデリング目的の事前トレーニングは、微調整で新しいタスクにうまく一般化するパラメータのための有用な初期点を提供する。 しかし、微調整はまだデータ効率が悪く、ラベル付きの例が少ない場合、精度が低くなります。 データ効率は、将来的な微調整のために事前学習を直接最適化することで改善され、メタラーニング問題として扱うことができる。 しかし、標準的なメタ学習技術は、一般化するために多くのトレーニングタスクを必要とするが、残念ながら、そのような教師付きタスクの多様なセットを見つけることは、通常困難である。 本稿では,ラベルなしテキストから大規模でリッチなメタ学習タスク分布を生成するための自己教師あり手法を提案する。 これはclozeスタイルの目的を使って実現されるが、一握りの語彙用語から切り離されたトークンを収集することで、別個のマルチクラス分類タスクを作成する。 これは語彙項のサブセットの数と同じくらい多くのユニークなメタトレーニングタスクをもたらす。 我々は,近年のメタ学習フレームワークを用いて,タスクの分散に関するトランスフォーマーモデルをメタトレーニングする。 17のNLPタスクにおいて、このメタトレーニングは、言語モデル事前学習の後に微調整を行うよりも、数ショットの一般化につながることを示す。 さらに, 自己教師付きタスクと教師付きタスクを組み合わせることによって, 従来の教師付きメタ学習よりも精度が向上することを示す。

Self-supervised pre-training of transformer models has revolutionized NLP applications. Such pre-training with language modeling objectives provides a useful initial point for parameters that generalize well to new tasks with fine-tuning. However, fine-tuning is still data inefficient -- when there are few labeled examples, accuracy can be low. Data efficiency can be improved by optimizing pre-training directly for future fine-tuning with few examples; this can be treated as a meta-learning problem. However, standard meta-learning techniques require many training tasks in order to generalize; unfortunately, finding a diverse set of such supervised tasks is usually difficult. This paper proposes a self-supervised approach to generate a large, rich, meta-learning task distribution from unlabeled text. This is achieved using a cloze-style objective, but creating separate multi-class classification tasks by gathering tokens-to-be blanked from among only a handful of vocabulary terms. This yields as many unique meta-training tasks as the number of subsets of vocabulary terms. We meta-train a transformer model on this distribution of tasks using a recent meta-learning framework. On 17 NLP tasks, we show that this meta-training leads to better few-shot generalization than language-model pre-training followed by finetuning. Furthermore, we show how the self-supervised tasks can be combined with supervised tasks for meta-learning, providing substantial accuracy gains over previous supervised meta-learning.
翻訳日:2022-10-17 08:26:21 公開日:2020-11-15
# ゼロショットMEG予測による脳内意味表現に対するタスク効果のモデル化

Modeling Task Effects on Meaning Representation in the Brain via Zero-Shot MEG Prediction ( http://arxiv.org/abs/2009.08424v2 )

ライセンス: Link先を確認
Mariya Toneva, Otilia Stretcu, Barnabas Poczos, Leila Wehbe, Tom M. Mitchell(参考訳) 脳内でどのように意味が表現されるかは、神経科学における大きな疑問の1つだ。 ある単語(例えば、鳥)は、常に同じ表現を持っているのか、それとも、その単語が処理されるタスクはその表現を変えているのか("あなたはそれを食べることができるのか?"と「飛ぶことができるのか?")? 同じ単語を読みながら異なる意味タスクを実行している被験者の脳活動は、タスクによって異なることが示されている。 しかし、そのタスク自体がこの違いにどのように貢献するかはまだ分かっていない。 本研究は,脳磁図(MEG)を用いて,具体名詞に関する質問への回答を行う。 課題(質問された質問)が具体的な名詞の処理に与える影響を,数ミリ秒分解能MEG記録を名詞の意味論とタスクの意味論の両方の関数として予測することにより検討する。 提案手法を用いて,新しいタスクや名詞に対するゼロショット予測を比較し,タスク刺激相互作用に関するいくつかの仮説を検証した。 タスクセマンティクスを取り入れることで、参加者間でのMEG記録の予測が大幅に改善されることがわかった。 改善は、参加者が最初に単語を見た後に475-550msで行われ、これは単語の意味処理の終了時間と考えられるものに対応する。 これらの結果は, 単語の意味処理の終了がタスク依存であり, 課題と刺激の関数として, 初期のタスク効果の新しい仮説を定式化することが今後の研究の課題であることを示唆している。

How meaning is represented in the brain is still one of the big open questions in neuroscience. Does a word (e.g., bird) always have the same representation, or does the task under which the word is processed alter its representation (answering "can you eat it?" versus "can it fly?")? The brain activity of subjects who read the same word while performing different semantic tasks has been shown to differ across tasks. However, it is still not understood how the task itself contributes to this difference. In the current work, we study Magnetoencephalography (MEG) brain recordings of participants tasked with answering questions about concrete nouns. We investigate the effect of the task (i.e. the question being asked) on the processing of the concrete noun by predicting the millisecond-resolution MEG recordings as a function of both the semantics of the noun and the task. Using this approach, we test several hypotheses about the task-stimulus interactions by comparing the zero-shot predictions made by these hypotheses for novel tasks and nouns not seen during training. We find that incorporating the task semantics significantly improves the prediction of MEG recordings, across participants. The improvement occurs 475-550ms after the participants first see the word, which corresponds to what is considered to be the ending time of semantic processing for a word. These results suggest that only the end of semantic processing of a word is task-dependent, and pose a challenge for future research to formulate new hypotheses for earlier task effects as a function of the task and stimuli.
翻訳日:2022-10-17 07:59:07 公開日:2020-11-15
# MixCo: ビジュアル表現のための混合コントラスト学習

MixCo: Mix-up Contrastive Learning for Visual Representation ( http://arxiv.org/abs/2010.06300v2 )

ライセンス: Link先を確認
Sungnyun Kim, Gihun Lee, Sangmin Bae, Se-Young Yun(参考訳) コントラスト学習は、視覚表現に対する近年の自己指導的アプローチにおいて顕著な結果を示している。 正の対を対応する負の対と対比することにより、人間のアノテーションなしでよい視覚表現を訓練することができる。 本稿では, 正と負の混合画像から符号化された半正に, 対照的な学習概念を拡張するMixCo(Mix-up Contrast)を提案する。 MixCoは表現の相対的な類似性を学ぶことを目的としており、混合画像が元の正の値を持っていることを反映している。 我々は,TinyImageNet,CIFAR10,CIFAR100上での線形評価プロトコルを用いて,近年の自己教師付き学習アルゴリズムに適用したMixCoの有効性を検証する。 実験では、mixcoは一貫してテスト精度を向上させる。 驚くべきことに、学習能力(例えばモデルサイズ)が限られている場合、改善はより重要であり、mixcoは現実世界のシナリオでより役に立つかもしれない。 コードはhttps://github.com/lee-gihun/mixco-mixup-contrastで入手できる。

Contrastive learning has shown remarkable results in recent self-supervised approaches for visual representation. By learning to contrast positive pairs' representation from the corresponding negatives pairs, one can train good visual representations without human annotations. This paper proposes Mix-up Contrast (MixCo), which extends the contrastive learning concept to semi-positives encoded from the mix-up of positive and negative images. MixCo aims to learn the relative similarity of representations, reflecting how much the mixed images have the original positives. We validate the efficacy of MixCo when applied to the recent self-supervised learning algorithms under the standard linear evaluation protocol on TinyImageNet, CIFAR10, and CIFAR100. In the experiments, MixCo consistently improves test accuracy. Remarkably, the improvement is more significant when the learning capacity (e.g., model size) is limited, suggesting that MixCo might be more useful in real-world scenarios. The code is available at: https://github.com/Lee-Gihun/MixCo-Mixup-Contrast.
翻訳日:2022-10-08 00:06:50 公開日:2020-11-15
# SidechainNet: 機械学習のための全原子タンパク質構造データセット

SidechainNet: An All-Atom Protein Structure Dataset for Machine Learning ( http://arxiv.org/abs/2010.08162v2 )

ライセンス: Link先を確認
Jonathan E. King, David Ryan Koes(参考訳) タンパク質構造の予測と表現のためのディープラーニング手法の最近の進歩にもかかわらず、タンパク質バックボーンと側鎖構造情報の同時包含と予測にはほとんど焦点が当てられていない。 我々は、proteinnetデータセットを直接拡張する新しいデータセットであるsidechainnetを提案する。 sidechainnetには、各タンパク質構造のすべての重原子を記述できる角度と原子座標情報が含まれている。 本稿では,タンパク質構造データの可用性とタンパク質ネットの意義に関する背景情報を提供する。 その後、sidechainnetを通じたサイドチェーン情報の潜在的に有益な包含を主張し、sidechainnetを組織するプロセスを説明し、機械学習モデルによるデータ操作とトレーニングのためのソフトウェアパッケージ(https://github.com/jonathanking/sidechainnet)を提供する。

Despite recent advancements in deep learning methods for protein structure prediction and representation, little focus has been directed at the simultaneous inclusion and prediction of protein backbone and sidechain structure information. We present SidechainNet, a new dataset that directly extends the ProteinNet dataset. SidechainNet includes angle and atomic coordinate information capable of describing all heavy atoms of each protein structure. In this paper, we provide background information on the availability of protein structure data and the significance of ProteinNet. Thereafter, we argue for the potentially beneficial inclusion of sidechain information through SidechainNet, describe the process by which we organize SidechainNet, and provide a software package (https://github.com/jonathanking/sidechainnet) for data manipulation and training with machine learning models.
翻訳日:2022-10-06 21:59:34 公開日:2020-11-15
# 深部生成モデルによる3次元分子構造の連続表現の学習

Learning a Continuous Representation of 3D Molecular Structures with Deep Generative Models ( http://arxiv.org/abs/2010.08687v3 )

ライセンス: Link先を確認
Matthew Ragoza, Tomohide Masuda, David Ryan Koes(参考訳) 薬物発見における機械学習は、識別モデルを用いた分子ライブラリの仮想スクリーニングに焦点を当てている。 生成モデルは、連続的な潜伏空間における分子の表現と最適化を学ぶ全く異なるアプローチである。 これらの手法はSMILES文字列や分子グラフとして2次元分子を生成することに成功している。 本稿では,原子密度格子を用いた3次元分子構造の深い生成モデルと,連続格子を離散的分子構造に変換する新しい適合アルゴリズムについて述べる。 我々のモデルは、補間によって探索できる潜在空間における薬物様分子とその配座を共同で表現する。 また、与えられた入力化合物に基づいて様々な分子をサンプリングし、有効な薬物様分子を作る確率を高めることができる。

Machine learning in drug discovery has been focused on virtual screening of molecular libraries using discriminative models. Generative models are an entirely different approach that learn to represent and optimize molecules in a continuous latent space. These methods have been increasingly successful at generating two dimensional molecules as SMILES strings and molecular graphs. In this work, we describe deep generative models of three dimensional molecular structures using atomic density grids and a novel fitting algorithm for converting continuous grids to discrete molecular structures. Our models jointly represent drug-like molecules and their conformations in a latent space that can be explored through interpolation. We are also able to sample diverse sets of molecules based on a given input compound and increase the probability of creating valid, drug-like molecules.
翻訳日:2022-10-06 12:23:42 公開日:2020-11-15
# 遺伝的アルゴリズムによる衛星オートノミーへのアプローチ

A Genetic Algorithm Based Approach for Satellite Autonomy ( http://arxiv.org/abs/2011.05281v2 )

ライセンス: Link先を確認
Sidhdharth Sikka, Harshvardhan Sikka(参考訳) 進化的アルゴリズムを用いた自律型宇宙船操縦計画について検討した。 模擬宇宙船は4つの異なる初期軌道に配置された。 それぞれが正と負のx、y、zの6つのカルテジアン方向で30回のデルタ-Vインパルス操作を許された。 宇宙船の操縦系統の目的は、非極軌道から始まり、宇宙船を極性の低い離心率の低い軌道に配置することであった。 インパルス文字列の交配,適合性,突然変異,クロスオーバースキームを用いて遺伝的アルゴリズムを実装した。 遺伝的アルゴリズムは、全ての開始軌道でこの結果を生成することに成功した。 パフォーマンスや今後の作業についても論じる。

Autonomous spacecraft maneuver planning using an evolutionary algorithmic approach is investigated. Simulated spacecraft were placed into four different initial orbits. Each was allowed a string of thirty delta-v impulse maneuvers in six cartesian directions, the positive and negative x, y and z directions. The goal of the spacecraft maneuver string was to, starting from some non-polar starting orbit, place the spacecraft into a polar, low eccentricity orbit. A genetic algorithm was implemented, using a mating, fitness, mutation and crossover scheme for impulse strings. The genetic algorithm was successfully able to produce this result for all the starting orbits. Performance and future work is also discussed.
翻訳日:2022-10-02 11:04:21 公開日:2020-11-15
# 混合データセット学習によるWild内映像の統一品質評価

Unified Quality Assessment of In-the-Wild Videos with Mixed Datasets Training ( http://arxiv.org/abs/2011.04263v2 )

ライセンス: Link先を確認
Dingquan Li, Tingting Jiang, Ming Jiang(参考訳) 映像品質評価(VQA)はコンピュータビジョンにおいて重要な問題である。 コンピュータビジョンアプリケーションのビデオは通常、野生で撮影される。 我々は,参照ビデオの欠如,歪みの複雑さ,映像内容の多様性など,難題である,Wild動画の品質を自動評価することに注力する。 さらに、既存のデータセット間のビデオの内容と歪みが全く異なり、データセット間評価設定におけるデータ駆動手法の性能が低下する。 品質評価モデルの性能向上のために、人間の知覚、特に人間の視覚系におけるコンテンツ依存と時間記憶の影響から直観を借りる。 データセット間評価の課題に対処するために、複数のデータセットで単一のVQAモデルをトレーニングするための混合データセットトレーニング戦略を検討する。 提案した統合フレームワークは,相対品質評価器,非線形マッピング,データセット固有の知覚スケールアライメントという3つの段階を明示的に含み,相対品質,知覚品質,主観品質を共同で予測する。 実験は、live-vqc、live-qualcomm、konvid-1k、cvd2014の4つのvqaの公開データセットで行われている。 実験結果は,混合データセットトレーニング戦略の有効性を検証するとともに,最先端モデルと比較して統合モデルの優れた性能を示す。 再現可能な研究のために、我々のメソッドのPyTorch実装をhttps://github.com/lidq92/MDTVSFAで公開します。

Video quality assessment (VQA) is an important problem in computer vision. The videos in computer vision applications are usually captured in the wild. We focus on automatically assessing the quality of in-the-wild videos, which is a challenging problem due to the absence of reference videos, the complexity of distortions, and the diversity of video contents. Moreover, the video contents and distortions among existing datasets are quite different, which leads to poor performance of data-driven methods in the cross-dataset evaluation setting. To improve the performance of quality assessment models, we borrow intuitions from human perception, specifically, content dependency and temporal-memory effects of human visual system. To face the cross-dataset evaluation challenge, we explore a mixed datasets training strategy for training a single VQA model with multiple datasets. The proposed unified framework explicitly includes three stages: relative quality assessor, nonlinear mapping, and dataset-specific perceptual scale alignment, to jointly predict relative quality, perceptual quality, and subjective quality. Experiments are conducted on four publicly available datasets for VQA in the wild, i.e., LIVE-VQC, LIVE-Qualcomm, KoNViD-1k, and CVD2014. The experimental results verify the effectiveness of the mixed datasets training strategy and prove the superior performance of the unified model in comparison with the state-of-the-art models. For reproducible research, we make the PyTorch implementation of our method available at https://github.com/lidq92/MDTVSFA.
翻訳日:2022-09-28 02:28:33 公開日:2020-11-15
# 注意的ソーシャルレコメンデーション : ユーザとアイテムの多様性を目指して

Attentive Social Recommendation: Towards User And Item Diversities ( http://arxiv.org/abs/2011.04797v2 )

ライセンス: Link先を確認
Dongsheng Luo, Yuchen Bian, Xiang Zhang, Jun Huan(参考訳) ソーシャルレコメンデーションシステムは,ユーザ・ユーザ間の社会的関係とユーザ・イテム評価を利用して,未観測のユーザ・イテム評価値を予測する。 しかし,ソーシャルレコメンデーションにおけるユーザ/イテムの多様性は文献ではあまり利用されていない。 特に、因子間関係(社会的・格付け的要因)と異なる格付け値が考慮される必要がある。 本稿では,この課題を2つの側面から解決するための注意型ソーシャルレコメンデーションシステム(asr)を提案する。 まず、ASRでは、Rec-convグラフネットワーク層が、ソーシャルファクター、ユーザレーティング、アイテムレーティングの要素を抽出し、自動的にコントリビューション重みを割り当て、これらの因子をユーザ/イットム埋め込みベクトルに集約する。 第二に、様々な格付け値に対して異化戦略が適用される。 ベンチマークに関する広範な実験は、asrの有効性と利点を示しています。

Social recommendation system is to predict unobserved user-item rating values by taking advantage of user-user social relation and user-item ratings. However, user/item diversities in social recommendations are not well utilized in the literature. Especially, inter-factor (social and rating factors) relations and distinct rating values need taking into more consideration. In this paper, we propose an attentive social recommendation system (ASR) to address this issue from two aspects. First, in ASR, Rec-conv graph network layers are proposed to extract the social factor, user-rating and item-rated factors and then automatically assign contribution weights to aggregate these factors into the user/item embedding vectors. Second, a disentangling strategy is applied for diverse rating values. Extensive experiments on benchmarks demonstrate the effectiveness and advantages of our ASR.
翻訳日:2022-09-28 01:19:28 公開日:2020-11-15
# 診断時間における性差の探索

Exploring Gender Disparities in Time to Diagnosis ( http://arxiv.org/abs/2011.06100v2 )

ライセンス: Link先を確認
Tony Y. Sun, Oliver J. Bear Don't Walk IV, Jennifer L. Chen, Harry Reyes Nieva, No\'emie Elhadad(参考訳) 性別と性別に基づく医療格差は、健康結果の違いに寄与する。 対象はttd(time to diagnosis)で,29例,195k例の男女で2つの大規模,補完的な解析を行った。 まず最初に、女性は男性よりも長いTTDを経験する傾向が強く、同じ条件を呈している。 さらに, 診断情報の増加とともに, 性別非依存性疾患分類器を評価することにより, 性差が性別間の診断性能に与える影響について検討した。 両方のフェアネス分析において、この診断プロセスは男性よりも男性を優先しており、女性が男性よりも早く関連する症状を示すという以前の観察と矛盾している。 これらの分析から、TTDは性差を研究する上で重要かつ複雑な側面であることが示唆され、さらなる調査が保証される。

Sex and gender-based healthcare disparities contribute to differences in health outcomes. We focus on time to diagnosis (TTD) by conducting two large-scale, complementary analyses among men and women across 29 phenotypes and 195K patients. We first find that women are consistently more likely to experience a longer TTD than men, even when presenting with the same conditions. We further explore how TTD disparities affect diagnostic performance between genders, both across and persistent to time, by evaluating gender-agnostic disease classifiers across increasing diagnostic information. In both fairness analyses, the diagnostic process favors men over women, contradicting the previous observation that women may demonstrate relevant symptoms earlier than men. These analyses suggest that TTD is an important yet complex aspect when studying gender disparities, and warrants further investigation.
翻訳日:2022-09-27 01:10:31 公開日:2020-11-15
# 音響事象表現の教師なしコントラスト学習

Unsupervised Contrastive Learning of Sound Event Representations ( http://arxiv.org/abs/2011.07616v1 )

ライセンス: Link先を確認
Eduardo Fonseca, Diego Ortego, Kevin McGuinness, Noel E. O'Connor, Xavier Serra(参考訳) 自己教師あり表現学習は、手作業でラベル付けされたデータが少ないがラベルなしのデータが少ない認識タスクの制限を軽減できる。 本研究では,音声イベント表現を学習する手段として,教師なしのコントラスト学習を検討する。 そこで本研究では,音声イベントの異なる拡張ビューを対比するテキストタスクを提案する。 ビューは、主にトレーニング例と無関係なバックグラウンドを混合し、他のデータ拡張によって計算される。 本手法の主成分をアブレーション実験により解析する。 線形評価と2つのドメイン内下流音声イベント分類タスク、すなわち、限られた手動ラベル付きデータとノイズ付きラベル付きデータを用いて学習された表現を評価する。 その結果,教師なしコントラストプレトレーニングは,データ不足の影響を軽減し,雑音ラベルに対する頑健性を高め,教師なしベースラインよりも優れることが示唆された。

Self-supervised representation learning can mitigate the limitations in recognition tasks with few manually labeled data but abundant unlabeled data---a common scenario in sound event research. In this work, we explore unsupervised contrastive learning as a way to learn sound event representations. To this end, we propose to use the pretext task of contrasting differently augmented views of sound events. The views are computed primarily via mixing of training examples with unrelated backgrounds, followed by other data augmentations. We analyze the main components of our method via ablation experiments. We evaluate the learned representations using linear evaluation, and in two in-domain downstream sound event classification tasks, namely, using limited manually labeled data, and using noisy labeled data. Our results suggest that unsupervised contrastive pre-training can mitigate the impact of data scarcity and increase robustness against noisy labels, outperforming supervised baselines.
翻訳日:2022-09-25 07:54:22 公開日:2020-11-15
# 音響・韻律的特徴を用いた電話音声からの呼吸距離検出

Respiratory Distress Detection from Telephone Speech using Acoustic and Prosodic Features ( http://arxiv.org/abs/2011.09270v1 )

ライセンス: Link先を確認
Meemnur Rashid, Kaisar Ahmed Alman, Khaled Hasan, John H.L. Hansen and Taufiq Hasan(参考訳) 遠隔医療サービスの普及に伴い、電話による健康状態の自動評価は公衆衛生に大きな影響を及ぼす可能性がある。 本研究は,よく知られた音響・韻律的特徴を用いた呼吸困難の自動検出に関する予備的知見を要約する。 音声サンプルはバングラデシュの医療機関から未確認の遠隔医療電話から収集される。 録音には、軽度または重度の呼吸困難または喘息症状を示す医師と話している患者の会話音声サンプルが含まれる。 呼吸困難は音声品質,発話パターン,ラウドネス,発話停止時間などの音声特徴を変化させる可能性があると仮定した。 これらの変動を捉えるために,支援ベクターマシン(svm)分類器を用いて,呼吸困難の有無を検出するための音響的特徴と韻律的特徴のセットを用いた。 患者非依存のデータ分割を確実にする3次元クロスバリデーションスキームを用いて実験的評価を行う。 音響特徴セットを用いた音声記録から呼吸困難の検出において,86.4\%の総合的精度を得た。 相関分析の結果, 発声時間, 発声時間, 発声時間, 発声時間, 発声時間, 発声時間,

With the widespread use of telemedicine services, automatic assessment of health conditions via telephone speech can significantly impact public health. This work summarizes our preliminary findings on automatic detection of respiratory distress using well-known acoustic and prosodic features. Speech samples are collected from de-identified telemedicine phonecalls from a healthcare provider in Bangladesh. The recordings include conversational speech samples of patients talking to doctors showing mild or severe respiratory distress or asthma symptoms. We hypothesize that respiratory distress may alter speech features such as voice quality, speaking pattern, loudness, and speech-pause duration. To capture these variations, we utilize a set of well-known acoustic and prosodic features with a Support Vector Machine (SVM) classifier for detecting the presence of respiratory distress. Experimental evaluations are performed using a 3-fold cross-validation scheme, ensuring patient-independent data splits. We obtained an overall accuracy of 86.4\% in detecting respiratory distress from the speech recordings using the acoustic feature set. Correlation analysis reveals that the top-performing features include loudness, voice rate, voice duration, and pause duration.
翻訳日:2022-09-25 07:53:50 公開日:2020-11-15
# 熱帯代数を用いた形態的ニューラルネットワークの訓練, 刈り取り, 形状制約の実施の進展

Advances in the training, pruning and enforcement of shape constraints of Morphological Neural Networks using Tropical Algebra ( http://arxiv.org/abs/2011.07643v1 )

ライセンス: Link先を確認
Nikolaos Dimitriadis, Petros Maragos(参考訳) 本稿では,拡張と浸食の形態的演算子に基づくニューラルネットワークの新しいクラスについて検討する。 これらのネットワークを熱帯幾何学的観点から数学的に探索し,数学的形態を考察する。 私たちの貢献は3倍です。 まず、差分凸法を用いて形態ネットワークのトレーニングを行い、二項形態素分類器をマルチクラスタスクに拡張する。 第2に,勾配降下アルゴリズムによって訓練された密集した形態素ネットワークのスパース性に着目し,その性能を重い刈り取り下での線形ネットワークと比較し,形態素ネットワークの処理能力がはるかに向上し,優れた圧縮能力を有することを示す。 提案手法は,使用するトレーニングオプティマイザの効果を取り入れ,定量的かつ定性的な説明を提供する。 最後に,形態ネットワークの構造構造が形状制約にどのように影響するかを,単調性に着目して検討する。 Maslov Dequantizationでは、既知のアーキテクチャのソフト化バージョンを取得し、このアプローチがトレーニングの収束とパフォーマンスを改善する方法を示している。

In this paper we study an emerging class of neural networks based on the morphological operators of dilation and erosion. We explore these networks mathematically from a tropical geometry perspective as well as mathematical morphology. Our contributions are threefold. First, we examine the training of morphological networks via Difference-of-Convex programming methods and extend a binary morphological classifier to multiclass tasks. Second, we focus on the sparsity of dense morphological networks trained via gradient descent algorithms and compare their performance to their linear counterparts under heavy pruning, showing that the morphological networks cope far better and are characterized with superior compression capabilities. Our approach incorporates the effect of the training optimizer used and offers quantitative and qualitative explanations. Finally, we study how the architectural structure of a morphological network can affect shape constraints, focusing on monotonicity. Via Maslov Dequantization, we obtain a softened version of a known architecture and show how this approach can improve training convergence and performance.
翻訳日:2022-09-25 07:50:09 公開日:2020-11-15
# 連合学習に対する動的バックドア攻撃

Dynamic backdoor attacks against federated learning ( http://arxiv.org/abs/2011.07429v1 )

ライセンス: Link先を確認
Anbu Huang(参考訳) フェデレーション学習(federated learning, fl)は,数百万の参加者が,データのプライバシとセキュリティを損なうことなく協調的にマシンラーニングモデルをトレーニング可能な,新たなマシンラーニングフレームワークである。 各クライアントの独立性と機密性のため、flはすべてのクライアントが設計上正直であることを保証するものではない。 In this paper, we focus on dynamic backdoor attacks under FL setting, where the goal of the adversary is to reduce the performance of the model on targeted tasks while maintaining a good performance on the main task, current existing studies are mainly focused on static backdoor attacks, that is the poison pattern injected is unchanged, however, FL is an online learning framework, and adversarial targets can be changed dynamically by attacker, traditional algorithms require learning a new targeted task from scratch, which could be computationally expensive and require a large number of adversarial training examples, to avoid this, we bridge meta-learning and backdoor attacks under FL setting, in which case we can learn a versatile model from previous experiences, and fast adapting to new adversarial tasks with a few of examples. 我々は,アルゴリズムを異なるデータセット上で評価し,動的バックドア攻撃に対して良好な結果が得られることを示す。 私たちの知る限りでは、fl設定下での動的バックドアアタック研究に焦点を当てた最初の論文です。

Federated Learning (FL) is a new machine learning framework, which enables millions of participants to collaboratively train machine learning model without compromising data privacy and security. Due to the independence and confidentiality of each client, FL does not guarantee that all clients are honest by design, which makes it vulnerable to adversarial attack naturally. In this paper, we focus on dynamic backdoor attacks under FL setting, where the goal of the adversary is to reduce the performance of the model on targeted tasks while maintaining a good performance on the main task, current existing studies are mainly focused on static backdoor attacks, that is the poison pattern injected is unchanged, however, FL is an online learning framework, and adversarial targets can be changed dynamically by attacker, traditional algorithms require learning a new targeted task from scratch, which could be computationally expensive and require a large number of adversarial training examples, to avoid this, we bridge meta-learning and backdoor attacks under FL setting, in which case we can learn a versatile model from previous experiences, and fast adapting to new adversarial tasks with a few of examples. We evaluate our algorithm on different datasets, and demonstrate that our algorithm can achieve good results with respect to dynamic backdoor attacks. To the best of our knowledge, this is the first paper that focus on dynamic backdoor attacks research under FL setting.
翻訳日:2022-09-25 07:49:34 公開日:2020-11-15
# Echo-CGC:シングルホップ無線ネットワークにおける通信効率の良いビザンチン耐性分散機械学習アルゴリズム

Echo-CGC: A Communication-Efficient Byzantine-tolerant Distributed Machine Learning Algorithm in Single-Hop Radio Network ( http://arxiv.org/abs/2011.07447v1 )

ライセンス: Link先を確認
Qinzi Zhang, Lewis Tseng(参考訳) 本稿では,パラメータサーバ計算のパラダイムであるDMLフレームワークと,ラウンドを継続する反復学習アルゴリズムに注目した。 シングルホップ無線ネットワークにおけるビザンチン耐性DMLアルゴリズムの通信複雑性を低減することを目的としている。 我々は, Gupta と Vaidya が開発した CGC フィルタ, PODC 2020 にヒントを得て,勾配降下に基づくアルゴリズム Echo-CGC を提案する。 我々の主な新規性は、無線ネットワークの放送特性を利用して生勾配(フル$d$次元ベクトル)を伝送しないメカニズムである。 無線ネットワークでは、各ワーカーはパラメータサーバに送信された以前の勾配をオーバーハーサルすることができる。 おおまかに言えば、Echo-CGCでは、作業者が事前の勾配と組み合わせて“アグリ”すると、生の局所勾配の代わりに“echo message”をブロードキャストする。 echoメッセージには、係数のベクトル(最大でn$)と、2つの勾配(フロート)間の大きさの比率が含まれている。 対照的に、従来のアプローチでは各ラウンドにn$の局所勾配を送る必要があり、各勾配は典型的には超高次元空間のベクトル(d\gg n$)である。 このアルゴリズムの通信複雑性の改善は、ノード数、実行中の障害のあるワーカー数、コスト関数など、複数の要因に依存する。 改良点を数値的に解析し,多数のノードにおいて,Echo-CGCは標準的な仮定で通信の80\%を削減できることを示す。

In this paper, we focus on a popular DML framework -- the parameter server computation paradigm and iterative learning algorithms that proceed in rounds. We aim to reduce the communication complexity of Byzantine-tolerant DML algorithms in the single-hop radio network. Inspired by the CGC filter developed by Gupta and Vaidya, PODC 2020, we propose a gradient descent-based algorithm, Echo-CGC. Our main novelty is a mechanism to utilize the broadcast properties of the radio network to avoid transmitting the raw gradients (full $d$-dimensional vectors). In the radio network, each worker is able to overhear previous gradients that were transmitted to the parameter server. Roughly speaking, in Echo-CGC, if a worker "agrees" with a combination of prior gradients, it will broadcast the "echo message" instead of the its raw local gradient. The echo message contains a vector of coefficients (of size at most $n$) and the ratio of the magnitude between two gradients (a float). In comparison, the traditional approaches need to send $n$ local gradients in each round, where each gradient is typically a vector in an ultra-high dimensional space ($d\gg n$). The improvement on communication complexity of our algorithm depends on multiple factors, including number of nodes, number of faulty workers in an execution, and the cost function. We numerically analyze the improvement, and show that with a large number of nodes, Echo-CGC reduces $80\%$ of the communication under standard assumptions.
翻訳日:2022-09-25 07:48:53 公開日:2020-11-15
# 多重グラフによる分子構造のための分子力学駆動型グラフニューラルネットワーク

Molecular Mechanics-Driven Graph Neural Network with Multiplex Graph for Molecular Structures ( http://arxiv.org/abs/2011.07457v1 )

ライセンス: Link先を確認
Shuo Zhang, Yang Liu, Lei Xie(参考訳) 分子構造からの物理化学的性質の予測は、人工知能による分子設計の重要な課題である。 この課題に対処するために、グラフニューラルネットワーク(GNN)の数が増えている。 これらのモデルは、必然的に計算の複雑さを増加させながら、分子に補助情報を組み込むことで表現力を向上させる。 本研究では,分子構造に対して強力かつ効率の良いGNNを設計することを目的とする。 この目的を達成するために,まず各分子を2層多重グラフとして表現し,一方の層が共有結合を主に捉える局所接続のみを含み,もう一方の層が非共有相互作用をシミュレートする大域接続を含む分子力学駆動アプローチを提案する。 そして、各層に対して、表現力と計算複雑性のトレードオフのバランスをとるために、対応するメッセージパッシングモジュールを提案する。 これら2つのモジュールに基づいて、Multiformx Molecular Graph Neural Network (MXMNet)を構築する。 小分子のQM9データセットとタンパク質-リガンド複合体のPDBBindデータセットによって検証されると、MXMNetは制限されたリソースの下で既存の最先端モデルよりも優れた結果が得られる。

The prediction of physicochemical properties from molecular structures is a crucial task for artificial intelligence aided molecular design. A growing number of Graph Neural Networks (GNNs) have been proposed to address this challenge. These models improve their expressive power by incorporating auxiliary information in molecules while inevitably increase their computational complexity. In this work, we aim to design a GNN which is both powerful and efficient for molecule structures. To achieve such goal, we propose a molecular mechanics-driven approach by first representing each molecule as a two-layer multiplex graph, where one layer contains only local connections that mainly capture the covalent interactions and another layer contains global connections that can simulate non-covalent interactions. Then for each layer, a corresponding message passing module is proposed to balance the trade-off of expression power and computational complexity. Based on these two modules, we build Multiplex Molecular Graph Neural Network (MXMNet). When validated by the QM9 dataset for small molecules and PDBBind dataset for large protein-ligand complexes, MXMNet achieves superior results to the existing state-of-the-art models under restricted resources.
翻訳日:2022-09-25 07:48:27 公開日:2020-11-15
# siameseネットワークを用いた音声-スコアアライメントのための学習フレーム類似性

Learning Frame Similarity using Siamese networks for Audio-to-Score Alignment ( http://arxiv.org/abs/2011.07546v1 )

ライセンス: Link先を確認
Ruchit Agrawal, Simon Dixon(参考訳) オーディオ・トゥ・スコアアライメントは、演奏音声と曲のスコアの正確なマッピングを生成することを目的としている。 標準アライメント法は動的時間ウォーピング(DTW)に基づいており、異なる音響条件に適応できない手作りの特徴を用いる。 そこで本研究では,学習フレームの類似性を用いて,この制限を克服する手法を提案する。 ピアノ音楽のオフラインオーディオ・スコアアライメントに焦点を当てる。 音響条件の異なる音楽データに対する実験により,本手法は手作り特徴を用いた標準的なDTW法よりも高いアライメント精度を実現し,同時に異なるドメインに適応しながらロバストなアライメントを生成することを示す。

Audio-to-score alignment aims at generating an accurate mapping between a performance audio and the score of a given piece. Standard alignment methods are based on Dynamic Time Warping (DTW) and employ handcrafted features, which cannot be adapted to different acoustic conditions. We propose a method to overcome this limitation using learned frame similarity for audio-to-score alignment. We focus on offline audio-to-score alignment of piano music. Experiments on music data from different acoustic conditions demonstrate that our method achieves higher alignment accuracy than a standard DTW-based method that uses handcrafted features, and generates robust alignments whilst being adaptable to different domains at the same time.
翻訳日:2022-09-25 07:48:07 公開日:2020-11-15
# 心臓MRIにおける領域シフト下におけるセマンティックセグメンテーションのロバスト性の検討

Studying Robustness of Semantic Segmentation under Domain Shift in cardiac MRI ( http://arxiv.org/abs/2011.07592v1 )

ライセンス: Link先を確認
Peter M. Full, Fabian Isensee, Paul F. J\"ager, and Klaus Maier-Hein(参考訳) 心臓磁気共鳴画像(cMRI)は多くの心臓疾患において診断の不可欠な部分である。 近年,ディープニューラルネットは自動セグメンテーションを成功させ,心構造の時間を要する手作業の負担を軽減している。 さらに、nnU-Netのようなフレームワークは、未確認のデータセットに完全に自動的なモデル構成を提供し、非専門家でも使えるようにしている。 しかし、近年の研究では、スキャナやイメージングプロトコルのずれなど、異なる領域のデータにトレーニング済みのネットワークを適用するという、臨床的に現実的なシナリオは無視されている。 これは、現実のアプリケーションにおけるディープラーニングモデルの予期せぬパフォーマンス低下につながる可能性がある。 本研究では,複数の臨床センターやスキャナーベンダーの画像間でのドメイン転送の課題と機会を体系的に検討する。 既定のユーザビリティを維持するために,nnu-netフレームワークによって構成された固定u-netアーキテクチャを基盤として,さまざまなデータ拡張技術とバッチ正規化レイヤを,容易にカスタマイズ可能なパイプラインコンポーネントとして調査し,既存のディープラーニング手法におけるドメイン一般化能力を改善するための一般的なガイドラインを提供する。 提案手法はm&m(multi-centre, multi-vendor & multi-disease heart image segmentation challenge)の1位である。

Cardiac magnetic resonance imaging (cMRI) is an integral part of diagnosis in many heart related diseases. Recently, deep neural networks have demonstrated successful automatic segmentation, thus alleviating the burden of time-consuming manual contouring of cardiac structures. Moreover, frameworks such as nnU-Net provide entirely automatic model configuration to unseen datasets enabling out-of-the-box application even by non-experts. However, current studies commonly neglect the clinically realistic scenario, in which a trained network is applied to data from a different domain such as deviating scanners or imaging protocols. This potentially leads to unexpected performance drops of deep learning models in real life applications. In this work, we systematically study challenges and opportunities of domain transfer across images from multiple clinical centres and scanner vendors. In order to maintain out-of-the-box usability, we build upon a fixed U-Net architecture configured by the nnU-net framework to investigate various data augmentation techniques and batch normalization layers as an easy-to-customize pipeline component and provide general guidelines on how to improve domain generalizability abilities in existing deep learning methods. Our proposed method ranked first at the Multi-Centre, Multi-Vendor & Multi-Disease Cardiac Image Segmentation Challenge (M&Ms).
翻訳日:2022-09-25 07:41:40 公開日:2020-11-15
# 中間観察機構を用いた効率的な医用画像分割

Efficient Medical Image Segmentation with Intermediate Supervision Mechanism ( http://arxiv.org/abs/2012.03673v1 )

ライセンス: Link先を確認
Di Yuan, Junyang Chen, Zhenghua Xu, Thomas Lukasiewicz, Zhigang Fu, Guizhi Xu(参考訳) U-Netの拡張経路は小目標の特性を無視する可能性があるため、中間監視機構が提案される。 元のマスクも中間出力のラベルとしてネットワークに入力される。 しかし、U-Netは主にセグメンテーションに従事しており、抽出された特徴もセグメンテーション位置情報をターゲットにしており、入力と出力が異なる。 私たちが必要とするラベルは、入力と出力の両方がオリジナルのマスクであり、リファクタリングプロセスとより類似しているため、別の中間的な監視機構を提案することである。 しかし、この中間監視機構の収縮経路によって抽出される特徴は必ずしも一致しない。 例えば、u-netの収縮経路は横方向の特徴を抽出し、auto-encoderは縦方向の特徴を抽出し、拡張経路の出力はラベルと矛盾する可能性がある。 そこで我々は,共有重み付きデコーダモジュールの中間管理機構を推し進めた。 中間監視機構はセグメンテーション精度を向上させるが、余分な入力と複数の損失関数によりトレーニング時間が長すぎる。 これらの問題の1つとして、タイトウェイトデコーダを導入しました。 モデルの冗長性を低減するため,共有重み付きデコーダモジュールと結合重み付きデコーダモジュールを組み合わせる。

Because the expansion path of U-Net may ignore the characteristics of small targets, intermediate supervision mechanism is proposed. The original mask is also entered into the network as a label for intermediate output. However, U-Net is mainly engaged in segmentation, and the extracted features are also targeted at segmentation location information, and the input and output are different. The label we need is that the input and output are both original masks, which is more similar to the refactoring process, so we propose another intermediate supervision mechanism. However, the features extracted by the contraction path of this intermediate monitoring mechanism are not necessarily consistent. For example, U-Net's contraction path extracts transverse features, while auto-encoder extracts longitudinal features, which may cause the output of the expansion path to be inconsistent with the label. Therefore, we put forward the intermediate supervision mechanism of shared-weight decoder module. Although the intermediate supervision mechanism improves the segmentation accuracy, the training time is too long due to the extra input and multiple loss functions. For one of these problems, we have introduced tied-weight decoder. To reduce the redundancy of the model, we combine shared-weight decoder module with tied-weight decoder module.
翻訳日:2022-09-25 07:41:15 公開日:2020-11-15
# 画像の価値:経験的類似性を持つロジスティック回帰モデルにおけるn次元オーバーラップの可視化

A Picture's Worth a Thousand Words: Visualizing n-dimensional Overlap in Logistic Regression Models with Empirical Likelihood ( http://arxiv.org/abs/2011.07614v1 )

ライセンス: Link先を確認
Paul A. Roediger(参考訳) 本稿では,多次元予測器における最大推定値の存在と特異性について,感度テストの観点から2値応答モデルを導入する。 シルヴァプルのよく知られた条件は、既存のR符号で重なり合う状態を評価する過程を機械化する経験的極大化に変換される。 この変換は、2つの予測群の幾何学的性質によって定義される重なり合いの意味を、凸円錐の交叉から、その差の凸殻が0を含むというより理解しやすい要求へとシフトさせる。 コードは、最小の重複構造を調べ、それらを4つ未満の次元でカタログ化することで重なり合う特性を明らかにするために適用される。 オーバーラップを考慮した最小の高次元構造を生成するルールが提供される。 追加資料はオンラインで入手できる。

In this note, conditions for the existence and uniqueness of the maximum likelihood estimate for multidimensional predictor, binary response models are introduced from a sensitivity testing point of view. The well known condition of Silvapulle is translated to be an empirical likelihood maximization which, with existing R code, mechanizes the process of assessing overlap status. The translation shifts the meaning of overlap, defined by geometrical properties of the two-predictor groups, from the intersection of their convex cones is non-empty to the more understandable requirement that the convex hull of their differences contains zero. The code is applied to reveal the character of overlap by examining minimal overlapping structures and cataloging them in dimensions fewer than four. Rules to generate minimal higher dimensional structures which account for overlap are provided. Supplementary materials are available online.
翻訳日:2022-09-25 07:40:20 公開日:2020-11-15
# 時間分解分光法のための効率的なラベルフリー分析アルゴリズム

An efficient label-free analyte detection algorithm for time-resolved spectroscopy ( http://arxiv.org/abs/2011.07470v1 )

ライセンス: Link先を確認
Stefano Rini and Hirotsugu Hiramatsu(参考訳) 時間分解スペクトル技術は、物理化学から生物医学まで、多くの文脈で重要な分析ツールとなる。 伝統的に、分析のラベルなし検出は、主成分分析(PCA)や非負行列因子化(NMF)といった古典的な次元性推論手法によって専門家によって手動で行われる。 未知のアナライト検出に対する専門家分析への根本的な依存は、これらの手法の適用可能性とスループットを著しく阻害する。 そこで本稿では,この検出問題を教師なし学習問題として定式化し,ラベルなしアナライト検出のための新しい機械学習アルゴリズムを提案する。 提案手法の有効性を示すために,ラマン分光法(LC-Raman)を併用した液体クロマトグラフィーにおけるアミノ酸検出の問題を検討する。

Time-resolved spectral techniques play an important analysis tool in many contexts, from physical chemistry to biomedicine. Customarily, the label-free detection of analytes is manually performed by experts through the aid of classic dimensionality-reduction methods, such as Principal Component Analysis (PCA) and Non-negative Matrix Factorization (NMF). This fundamental reliance on expert analysis for unknown analyte detection severely hinders the applicability and the throughput of these such techniques. For this reason, in this paper, we formulate this detection problem as an unsupervised learning problem and propose a novel machine learning algorithm for label-free analyte detection. To show the effectiveness of the proposed solution, we consider the problem of detecting the amino-acids in Liquid Chromatography coupled with Raman spectroscopy (LC-Raman).
翻訳日:2022-09-25 07:39:52 公開日:2020-11-15
# 2CP:ブロックチェーン統合学習環境における貢献度を透過的に評価する分散プロトコル

2CP: Decentralized Protocols to Transparently Evaluate Contributivity in Blockchain Federated Learning Environments ( http://arxiv.org/abs/2011.07516v1 )

ライセンス: Link先を確認
Harry Cai and Daniel Rueckert and Jonathan Passerat-Palmbach(参考訳) Federated Learningは複数のソースからのデータを活用して単一のモデルを構築する。 初期モデルは、トレーニングのためにアクターがネットワークに導入する可能性があるが、フェデレートラーニングによるトレーニングモデルのオーナシップは、依然としてオープンな問題である。 本稿では、フェデレートラーニングでトレーニングされたモデルの進化的オーナシップを決定するために、ブロックチェーン(特にEthereum)をどのように使用できるかを検討する。 まず,フェデレート学習プロセスにおける参加者の相対的貢献度を評価するために,ステップバイステップ評価指標を用いる。 次に,2cpという,ブロックチェーン型フェデレーション学習のための2つの新たなプロトコルを紹介する。 crowdsourceプロトコルでは、アクタがトレーニングのためにモデルを前進させ、自身のデータを使用して貢献度を評価することができる。 潜在的なトレーナーは、信頼できない環境でも、結果のモデルの公平なシェアを保証されます。 Consortium Protocolは、初期モデルを所有しておらず、評価者がいない場合でも、トレーナーに同じ保証を与える。 mnistデータセットを用いて実験を行い、モデルの共有度が大きい大きなデータセットを報奨することにより、両方のプロトコルから生じる音の帰結スコアを明らかにした。 また, 2cpとロバストなモデル集約機構を組み合わせることで, モデル中毒攻撃による低品質入力を破棄する必要性を示した。

Federated Learning harnesses data from multiple sources to build a single model. While the initial model might belong solely to the actor bringing it to the network for training, determining the ownership of the trained model resulting from Federated Learning remains an open question. In this paper we explore how Blockchains (in particular Ethereum) can be used to determine the evolving ownership of a model trained with Federated Learning. Firstly, we use the step-by-step evaluation metric to assess the relative contributivities of participants in a Federated Learning process. Next, we introduce 2CP, a framework comprising two novel protocols for Blockchained Federated Learning, which both reward contributors with shares in the final model based on their relative contributivity. The Crowdsource Protocol allows an actor to bring a model forward for training, and use their own data to evaluate the contributions made to it. Potential trainers are guaranteed a fair share of the resulting model, even in a trustless setting. The Consortium Protocol gives trainers the same guarantee even when no party owns the initial model and no evaluator is available. We conduct experiments with the MNIST dataset that reveal sound contributivity scores resulting from both Protocols by rewarding larger datasets with greater shares in the model. Our experiments also showed the necessity to pair 2CP with a robust model aggregation mechanism to discard low quality inputs coming from model poisoning attacks.
翻訳日:2022-09-25 07:39:18 公開日:2020-11-15
# 予測整合を考慮した埋め込みによる領域適応ゲズ推定

Domain Adaptation Gaze Estimation by Embedding with Prediction Consistency ( http://arxiv.org/abs/2011.07526v1 )

ライセンス: Link先を確認
Zidong Guo, Zejian Yuan, Chong Zhang, Wanchao Chi, Yonggen Ling, and Shenghao Zhang(参考訳) 迷路は人間の注意の本質である。 近年,視線推定の精度が向上している。 しかし、対人差は被写体非依存の視線推定誤差の減少を制限する。 本稿では,個人間多様性の影響をなくすために,領域適応視線推定手法を提案する。 ドメイン適応では、異なる領域における視線方向間の線形関係が、視線空間と埋め込み空間上で一貫性を保つように、予測一貫性を備えた埋め込み表現を設計する。 具体的には,対象領域の予測毎に局所線形表現を形成するために,ソースアイズを用いる。 次に、同じ線形結合を埋め込み空間に適用し、対象領域サンプルに対する仮説埋め込みを生成し、予測一貫性を保ち続ける。 予測及び仮説埋め込みを対象ドメインサンプルに近似することにより、対象ドメインとソースドメインとのずれを低減する。 提案手法により,予測整合性のある埋め込みを学習し,MPIIGazeとEYEDIAPの両方のデータセットで最先端の結果を得るドメイン適応ゲイズ推定ネットワーク(DAGEN)を設計する。

Gaze is the essential manifestation of human attention. In recent years, a series of work has achieved high accuracy in gaze estimation. However, the inter-personal difference limits the reduction of the subject-independent gaze estimation error. This paper proposes an unsupervised method for domain adaptation gaze estimation to eliminate the impact of inter-personal diversity. In domain adaption, we design an embedding representation with prediction consistency to ensure that the linear relationship between gaze directions in different domains remains consistent on gaze space and embedding space. Specifically, we employ source gaze to form a locally linear representation in the gaze space for each target domain prediction. Then the same linear combinations are applied in the embedding space to generate hypothesis embedding for the target domain sample, remaining prediction consistency. The deviation between the target and source domain is reduced by approximating the predicted and hypothesis embedding for the target domain sample. Guided by the proposed strategy, we design Domain Adaptation Gaze Estimation Network(DAGEN), which learns embedding with prediction consistency and achieves state-of-the-art results on both the MPIIGaze and the EYEDIAP datasets.
翻訳日:2022-09-25 07:33:07 公開日:2020-11-15
# 痛みのない効果的な唇読解モデルを学ぶ

Learn an Effective Lip Reading Model without Pains ( http://arxiv.org/abs/2011.07557v1 )

ライセンス: Link先を確認
Dalu Feng, Shuang Yang, Shiguang Shan, Xilin Chen(参考訳) 視覚的音声認識としても知られるリップ読み取りは、リップダイナミックスを分析してビデオから音声の内容を認識することを目的としている。 近年、急速に開発されたディープラーニング技術や、近年の大規模リップリーディングデータセットの恩恵を受け、魅力的な進歩がいくつかある。 既存の手法の多くは、複雑なニューラルネットワークを構築し、いくつかのカスタマイズされたトレーニング戦略と共に、非常に短い説明やソースコードにのみ示されるなど、高いパフォーマンスを達成している。 これらの戦略を適切に利用すれば、モデルを大きく変えることなく、常にエキサイティングな改善が得られます。 本研究は,これらの戦略の非無視効果と,有効な唇読解モデルを訓練するための既存の難易度を考慮し,総合的な定量的研究と比較分析を行い,その効果を初めて明らかにした。 ベースラインパイプラインに手軽に改良を加えるだけで、パフォーマンスが83.7%から88.4%に、38.2%から55.7%に、それぞれlrwとlrw-1000という2つの大きなリップリーディングデータセットで明らかに向上した。 それらは同等であり、既存の最先端の結果を超えている。

Lip reading, also known as visual speech recognition, aims to recognize the speech content from videos by analyzing the lip dynamics. There have been several appealing progress in recent years, benefiting much from the rapidly developed deep learning techniques and the recent large-scale lip-reading datasets. Most existing methods obtained high performance by constructing a complex neural network, together with several customized training strategies which were always given in a very brief description or even shown only in the source code. We find that making proper use of these strategies could always bring exciting improvements without changing much of the model. Considering the non-negligible effects of these strategies and the existing tough status to train an effective lip reading model, we perform a comprehensive quantitative study and comparative analysis, for the first time, to show the effects of several different choices for lip reading. By only introducing some easy-to-get refinements to the baseline pipeline, we obtain an obvious improvement of the performance from 83.7% to 88.4% and from 38.2% to 55.7% on two largest public available lip reading datasets, LRW and LRW-1000, respectively. They are comparable and even surpass the existing state-of-the-art results.
翻訳日:2022-09-25 07:32:47 公開日:2020-11-15
# w-net:多次元注意とカスケード多スケール畳み込みを伴う二重教師付き医用画像分割モデル

w-Net: Dual Supervised Medical Image Segmentation Model with Multi-Dimensional Attention and Cascade Multi-Scale Convolution ( http://arxiv.org/abs/2012.03674v1 )

ライセンス: Link先を確認
Bo Wang, Lei Wang, Junyang Chen, Zhenghua Xu, Thomas Lukasiewicz and Zhigang Fu(参考訳) 深層学習に基づく医用画像分割技術は、医用画像上のオブジェクトの自動認識と注釈化を目的としている。 マルチスケール手法による非局所的注意と特徴学習は、医用画像セグメンテーションの進展を促進するネットワークのモデル化に広く用いられている。 しかし,これらの注意機構は,医用画像中の小物体に対する非局所受容野の強化接続が弱い。 そして、抽象的または粗い特徴写像における重要な小さなオブジェクトの特徴は捨てられ、不満足なパフォーマンスをもたらす。 さらに、既存のマルチスケール手法は、小さなオブジェクトのセグメンテーションに十分ではないスパースなマルチスケール機能を持つ、ビューの異なるサイズにのみフォーカスする。 本研究では,医療画像中の小物体の正確なセグメンテーションを予測するために,カスケード多スケール畳み込みを伴う多次元注意セグメンテーションモデルを提案する。 重み関数として、多次元アテンションモジュールは、重要な/不変小物体の特徴に対する係数修正を提供する。 さらに、各スキップ接続経路のカスケードマルチスケール畳み込みモジュールを利用して、異なる意味深さのマルチスケール特徴をキャプチャする。 提案手法は,KiTS19,Deathlon-10のPancreas CT,MICCAI 2018 LiTS Challengeの3つのデータセットで評価され,最先端のベースラインよりもセグメンテーション性能が向上した。

Deep learning-based medical image segmentation technology aims at automatic recognizing and annotating objects on the medical image. Non-local attention and feature learning by multi-scale methods are widely used to model network, which drives progress in medical image segmentation. However, those attention mechanism methods have weakly non-local receptive fields' strengthened connection for small objects in medical images. Then, the features of important small objects in abstract or coarse feature maps may be deserted, which leads to unsatisfactory performance. Moreover, the existing multi-scale methods only simply focus on different sizes of view, whose sparse multi-scale features collected are not abundant enough for small objects segmentation. In this work, a multi-dimensional attention segmentation model with cascade multi-scale convolution is proposed to predict accurate segmentation for small objects in medical images. As the weight function, multi-dimensional attention modules provide coefficient modification for significant/informative small objects features. Furthermore, The cascade multi-scale convolution modules in each skip-connection path are exploited to capture multi-scale features in different semantic depth. The proposed method is evaluated on three datasets: KiTS19, Pancreas CT of Decathlon-10, and MICCAI 2018 LiTS Challenge, demonstrating better segmentation performances than the state-of-the-art baselines.
翻訳日:2022-09-25 07:32:01 公開日:2020-11-15
# 良いプロクターか "ビッグブラザー"? ai倫理とオンライン試験監督技術

Good proctor or "Big Brother"? AI Ethics and Online Exam Supervision Technologies ( http://arxiv.org/abs/2011.07647v1 )

ライセンス: Link先を確認
Simon Coghlan and Tim Miller and Jeannie Paterson(参考訳) 本稿は、新型コロナウイルス(covid-19)のパンデミックによるキャンパスロックダウンやオンラインコースの需要の高まりにより注目を浴びているオンライン受験監督技術を哲学的に分析する。 オンライン受験技術は、人工知能(ai)システムと人間のインビゲータを使用して、オンライン受験を行う学生の効果的な監視を提供する。 このような技術は「ビッグブラザー」とみなす学生を驚かせたが、一部の大学は司法的利用を擁護している。 オンライン推論技術の批判的倫理評価は過剰である。 この記事では、これらの技術を哲学的に分析し、学術的完全性、公正性、非効率性、透明性、プライバシー、自主性、自由、信頼という倫理的概念に注目します。 これらの概念の多くは、AI倫理の新しい分野において顕著であり、すべて教育の文脈に関係している。 このエッセイは、教育機関が特定のオンライン生産技術の展開と統治のために選択する前に慎重に検討する必要があるという倫理的考察を提供する。

This article philosophically analyzes online exam supervision technologies, which have been thrust into the public spotlight due to campus lockdowns during the COVID-19 pandemic and the growing demand for online courses. Online exam proctoring technologies purport to provide effective oversight of students sitting online exams, using artificial intelligence (AI) systems and human invigilators to supplement and review those systems. Such technologies have alarmed some students who see them as `Big Brother-like', yet some universities defend their judicious use. Critical ethical appraisal of online proctoring technologies is overdue. This article philosophically analyzes these technologies, focusing on the ethical concepts of academic integrity, fairness, non-maleficence, transparency, privacy, respect for autonomy, liberty, and trust. Most of these concepts are prominent in the new field of AI ethics and all are relevant to the education context. The essay provides ethical considerations that educational institutions will need to carefully review before electing to deploy and govern specific online proctoring technologies.
翻訳日:2022-09-25 07:30:47 公開日:2020-11-15
# 一般ソーシャルネットワークにおける分散プライバシ保存学習ダイナミクス

A Distributed Privacy-Preserving Learning Dynamics in General Social Networks ( http://arxiv.org/abs/2011.09845v1 )

ライセンス: Link先を確認
Youming Tao, Shuzhen Chen, Feng Li, Dongxiao Yu, Jiguo Yu, Hao Sheng(参考訳) 本稿では,一般ソーシャルネットワークにおける分散プライバシー保護学習問題について検討する。 具体的には、与えられたマルチホップソーシャルネットワーク内のエージェントが、未知の確率的品質信号によって特徴付けられる一連のオプションの中から選択する順番を決定する必要がある、非常に一般的な問題設定を考える。 各エージェントはマルチホップ通信を通じて仲間と対話するが、プライバシーは保持される。 以上の目的を達成するために,4段階の分散社会学習アルゴリズムを提案する。 一言で言えば、我々のアルゴリズムは反復的に進行し、各ラウンドごとにそれぞれのエージェントが 一 プライバシ保全目的にランダムに採用する。 二 ランダムな歩行を通じて、ほぼ均一な方法で、ソーシャルネットワーク上の混乱した採用を広めること。 三 仲間の最新の養子縁組に言及して選択肢を選択すること。 四 選択したオプションを最新の品質信号に応じて採用するか否かを決定すること。 筆者らは,4段階アルゴリズムの性能に関する2つの基本的なアルゴリズム的疑問に対する回答を提供する。一方,ソーシャルネットワークに十分な数のエージェントが存在する場合,そのそれぞれが入力として不完全かつ混乱した知識を持つ場合,アルゴリズムの収束を示す。 また,理論解析を検証し,アルゴリズムの有効性を検証するために,広範なシミュレーションを行う。

In this paper, we study a distributed privacy-preserving learning problem in general social networks. Specifically, we consider a very general problem setting where the agents in a given multi-hop social network are required to make sequential decisions to choose among a set of options featured by unknown stochastic quality signals. Each agent is allowed to interact with its peers through multi-hop communications but with its privacy preserved. To serve the above goals, we propose a four-staged distributed social learning algorithm. In a nutshell, our algorithm proceeds iteratively, and in every round, each agent i) randomly perturbs its adoption for privacy-preserving purpose, ii) disseminates the perturbed adoption over the social network in a nearly uniform manner through random walking, iii) selects an option by referring to its peers' perturbed latest adoptions, and iv) decides whether or not to adopt the selected option according to its latest quality signal. By our solid theoretical analysis, we provide answers to two fundamental algorithmic questions about the performance of our four-staged algorithm: on one hand, we illustrate the convergence of our algorithm when there are a sufficient number of agents in the social network, each of which are with incomplete and perturbed knowledge as input; on the other hand, we reveal the quantitative trade-off between the privacy loss and the communication overhead towards the convergence. We also perform extensive simulations to validate our theoretical analysis and to verify the efficacy of our algorithm.
翻訳日:2022-09-25 07:30:27 公開日:2020-11-15
# SAG-GAN:医療画像データ強化のための半監督型注意誘導型GAN

SAG-GAN: Semi-Supervised Attention-Guided GANs for Data Augmentation on Medical Images ( http://arxiv.org/abs/2011.07534v1 )

ライセンス: Link先を確認
Chang Qi, Junyang Chen, Guizhi Xu, Zhenghua Xu, Thomas Lukasiewicz, Yang Liu(参考訳) 最近のディープラーニング手法、特に畳み込みニューラルネットワーク(cnns)は、コンピュータビジョンの範囲において大きなブレークスルーをもたらした。 また、大規模なアノテートデータセットは、トレーニング手順を成功させる上で必須の鍵である。 しかし、このようなデータセットを医療領域で取得することは大きな課題です。 本研究では,gans(cycle-consistency generative adversarial networks)を用いた合成医用画像生成のためのデータ拡張手法を提案する。 半教師付きアテンションモジュールを加えて、説得力のある詳細画像を生成する。 腫瘍像と正常像を2つの領域として扱う。 提案モデルでは,正常画像から腫瘍画像を生成することができ,腫瘍画像から正常画像を生成することもできる。 さらに,医療画像分類におけるresnet18の性能向上のために,生成した医用画像が有効であることを示す。 腫瘍MRI画像の3つの限られたデータセットに適用した。 まず,限られたデータセットからMRI画像を生成し,腫瘍分類の最良のモデルを得るために3つの一般的な分類モデルを訓練した。 最後に,実画像を用いた分類モデルを古典的データ拡張法と合成画像を用いた分類モデルを用いて訓練する。 これらのモデルの分類結果から,提案したSAG-GANデータ拡張法により精度が向上し,AUCが従来のデータ拡張法と比較できることが示された。 提案手法は,他の医療画像領域に適用でき,コンピュータ支援診断の精度が向上すると考えられる。

Recently deep learning methods, in particular, convolutional neural networks (CNNs), have led to a massive breakthrough in the range of computer vision. Also, the large-scale annotated dataset is the essential key to a successful training procedure. However, it is a huge challenge to get such datasets in the medical domain. Towards this, we present a data augmentation method for generating synthetic medical images using cycle-consistency Generative Adversarial Networks (GANs). We add semi-supervised attention modules to generate images with convincing details. We treat tumor images and normal images as two domains. The proposed GANs-based model can generate a tumor image from a normal image, and in turn, it can also generate a normal image from a tumor image. Furthermore, we show that generated medical images can be used for improving the performance of ResNet18 for medical image classification. Our model is applied to three limited datasets of tumor MRI images. We first generate MRI images on limited datasets, then we trained three popular classification models to get the best model for tumor classification. Finally, we train the classification model using real images with classic data augmentation methods and classification models using synthetic images. The classification results between those trained models showed that the proposed SAG-GAN data augmentation method can boost Accuracy and AUC compare with classic data augmentation methods. We believe the proposed data augmentation method can apply to other medical image domains, and improve the accuracy of computer-assisted diagnosis.
翻訳日:2022-09-25 07:30:09 公開日:2020-11-15
# ハプティック誘導ステアリングシステムにおける意図に基づくレーン変更とレーン維持

Intention-Based Lane Changing and Lane Keeping Haptic Guidance Steering System ( http://arxiv.org/abs/2011.07424v1 )

ライセンス: Link先を確認
Zhanhong Yan, Kaiming Yang, Zheng Wang, Bo Yang, Tsutomu Kaizuka, Kimihiko Nakano(参考訳) 共有操縦支援システムにおけるハプティックガイダンスは、車両制御における相互通信能力のため、インテリジェントな車両分野において大きな注目を集めている。 ステアリングホイールに連続トルクを付与することにより、ドライバと支援システムの両方が車両の側面制御を共有することができる。 しかし、現在の触覚誘導ステアリングシステムは車線変更の補助にいくつかの欠陥がある。 本研究では,意図に基づく触覚共有ステアリングシステムの設計と評価を含む,新たなステアリングインタラクション手法を検討した。 このような意図に基づく方法は、運転車線変更意図を検出することにより、車線保持と車線変更支援の両方を支援することができる。 ディープラーニング法を用いて車線交差に関するドライバ決定タイミングをモデル化し, ステアリング制御系を実現するための適応利得制御法を提案した。 運転者とシステムが同一目標軌道に対して動作しているかどうかを検知し,運転者の意図を正確に把握するための意図整合性手法が提案された。 システム性能をテストするために運転シミュレータ実験を行った。 参加者は補助的な方法による6つの試行と、援助なしで1つの試行を行う必要があった。 その結果,車線維持作業における車線離脱リスクを低減し,高速で安定した車線変更作業を支援することができた。

Haptic guidance in a shared steering assistance system has drawn significant attention in intelligent vehicle fields, owing to its mutual communication ability for vehicle control. By exerting continuous torque on the steering wheel, both the driver and support system can share lateral control of the vehicle. However, current haptic guidance steering systems demonstrate some deficiencies in assisting lane changing. This study explored a new steering interaction method, including the design and evaluation of an intention-based haptic shared steering system. Such an intention-based method can support both lane keeping and lane changing assistance, by detecting a driver lane change intention. By using a deep learning-based method to model a driver decision timing regarding lane crossing, an adaptive gain control method was proposed for realizing a steering control system. An intention consistency method was proposed to detect whether the driver and the system were acting towards the same target trajectories and to accurately capture the driver intention. A driving simulator experiment was conducted to test the system performance. Participants were required to perform six trials with assistive methods and one trial without assistance. The results demonstrated that the supporting system decreased the lane departure risk in the lane keeping tasks and could support a fast and stable lane changing maneuver.
翻訳日:2022-09-25 07:23:36 公開日:2020-11-15
# 形態認識型単語レベル翻訳

Morphologically Aware Word-Level Translation ( http://arxiv.org/abs/2011.07593v1 )

ライセンス: Link先を確認
Paula Czarnowska, Sebastian Ruder, Ryan Cotterell, Ann Copestake(参考訳) 本稿では,レキセメ翻訳と屈折形態を構造的にモデル化したバイリンガルレキシコン誘導のための新しい形態論的確率モデルを提案する。 我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かし、屈折形態学は追加の構文情報を提供する。 このアプローチはパフォーマンスが大幅に向上する - 6つの言語ペアで平均19%の精度向上が,教師あり設定における技術状態よりも向上し,弱い教師付き設定では16%向上する。 もう1つの貢献として,変形形態を無視することに起因する現代bliに関連する問題点を強調し,タスク改善のための3つの提案を提案する。

We propose a novel morphologically aware probability model for bilingual lexicon induction, which jointly models lexeme translation and inflectional morphology in a structured way. Our model exploits the basic linguistic intuition that the lexeme is the key lexical unit of meaning, while inflectional morphology provides additional syntactic information. This approach leads to substantial performance improvements - 19% average improvement in accuracy across 6 language pairs over the state of the art in the supervised setting and 16% in the weakly supervised setting. As another contribution, we highlight issues associated with modern BLI that stem from ignoring inflectional morphology, and propose three suggestions for improving the task.
翻訳日:2022-09-25 07:23:18 公開日:2020-11-15
# カオスシステムの伝達学習

Transfer learning of chaotic systems ( http://arxiv.org/abs/2011.09970v1 )

ライセンス: Link先を確認
Yali Guo, Han Zhang, Liang Wang, Huawei Fan, and Xingang Wang(参考訳) システムAの時系列によってトレーニングされたニューラルネットワークは、システムBの進化を予測するために使用できるか? この問題は、広い意味でのトランスファーラーニングとして知られ、機械学習とデータマイニングにおいて非常に重要であるが、カオスシステムには対処されていない。 本稿では,カオスシステムaを訓練したリザーバコンピュータを用いてカオスシステムbの非測定変数を推定し,aはパラメータとダイナミクスのいずれにおいてもbとは異なる,カオスシステムの伝達学習を同期ベース状態推論の観点から検討する。 システムAとBがパラメータが異なる場合、貯水池コンピュータはシステムBと適切に同期することができるが、システムAとBが動的に異なる場合、貯水池コンピュータは一般にシステムBと同期しない。 連結型貯水池コンピュータのチェーンに沿った知識伝達についても検討し, 貯水池コンピュータは異なるシステムで訓練されているものの, 遠隔型貯水池コンピュータでは未測定の変数を推測することができた。 最後に,カオス的振り子実験により,モデリングシステムから得られた知識を実験システムの進化予測に利用できることを示す。

Can a neural network trained by the time series of system A be used to predict the evolution of system B? This problem, knowing as transfer learning in a broad sense, is of great importance in machine learning and data mining, yet has not been addressed for chaotic systems. Here we investigate transfer learning of chaotic systems from the perspective of synchronization-based state inference, in which a reservoir computer trained by chaotic system A is used to infer the unmeasured variables of chaotic system B, while A is different from B in either parameter or dynamics. It is found that if systems A and B are different in parameter, the reservoir computer can be well synchronized to system B. However, if systems A and B are different in dynamics, the reservoir computer fails to synchronize with system B in general. Knowledge transfer along a chain of coupled reservoir computers is also studied, and it is found that, although the reservoir computers are trained by different systems, the unmeasured variables of the driving system can be successfully inferred by the remote reservoir computer. Finally, by an experiment of chaotic pendulum, we show that the knowledge learned from the modeling system can be used to predict the evolution of the experimental system.
翻訳日:2022-09-25 07:23:06 公開日:2020-11-15
# MiniZincにおける大規模スケジューリングの自動化

Automated Large-scale Class Scheduling in MiniZinc ( http://arxiv.org/abs/2011.07507v1 )

ライセンス: Link先を確認
Md. Mushfiqur Rahman, Sabah Binte Noor, Fazlul Hasan Siddiqui(参考訳) クラススケジューリングは非常に制約の多いタスクです。 教育機関は、すべての要件を満たす十分なスケジュールを見つけるために、時間と手動の計算という形で、多くのリソースを費やします。 満足度の高い授業スケジュールは、生徒全員に都合の良いタイミングで希望するコースを順守する。 スケジューラは、与えられたスロット上のコース教師の可用性も考慮する必要がある。 利用可能な教室の制限が増えると、この巨大な検索空間におけるすべての制約を満たす解の数はさらに減少する。 本稿では,典型的な大学のニーズをすべて満たせる授業スケジュールを生成するための効率的なシステムを提案する。 主に固定クレジットのスケジューラであるが、オープンクレジットのシステムでも調整できる。 このモデルはMiniZincで設計され、様々な既製の解法を用いて解かれる。 提案するスケジューリングシステムは、1分以内に中規模教育機関のバランスのとれたスケジュールを見つけることができる。

Class Scheduling is a highly constrained task. Educational institutes spend a lot of resources, in the form of time and manual computation, to find a satisficing schedule that fulfills all the requirements. A satisficing class schedule accommodates all the students to all their desired courses at convenient timing. The scheduler also needs to take into account the availability of course teachers on the given slots. With the added limitation of available classrooms, the number of solutions satisfying all constraints in this huge search-space, further decreases. This paper proposes an efficient system to generate class schedules that can fulfill every possible need of a typical university. Though it is primarily a fixed-credit scheduler, it can be adjusted for open-credit systems as well. The model is designed in MiniZinc and solved using various off-the-shelf solvers. The proposed scheduling system can find a balanced schedule for a moderate-sized educational institute in less than a minute.
翻訳日:2022-09-25 07:22:48 公開日:2020-11-15
# MiniZincによる自動断面積管理

Automated Intersection Management with MiniZinc ( http://arxiv.org/abs/2011.07509v1 )

ライセンス: Link先を確認
Md. Mushfiqur Rahman, Nahian Muhtasim Zahin, Kazi Raiyan Mahmud, Md. Azmaeen Bin Ansar(参考訳) 都市部における交通問題の増加の主な要因は、非最適の交通量と不要なデッドロックである。 本稿では,センサのグリッドからデータを抽出し,信号制御により交通の流れを最適化する自動交差点管理システムを提案する。 データ抽出機構は最適化アルゴリズムとは独立であり,本論文は主に後者を強調する。 我々はMiniZincモデリング言語を用いて,本システムの制約満足度問題として定義した。 提案システムは,現在使用されているシステムよりも性能が優れている。 本システムでは,車両の待ち時間の平均時間と標準偏差を低減し,デッドロックを回避する。

Ill-managed intersections are the primary reasons behind the increasing traffic problem in urban areas, leading to nonoptimal traffic-flow and unnecessary deadlocks. In this paper, we propose an automated intersection management system that extracts data from a well-defined grid of sensors and optimizes traffic flow by controlling traffic signals. The data extraction mechanism is independent of the optimization algorithm and this paper primarily emphasizes the later one. We have used MiniZinc modeling language to define our system as a constraint satisfaction problem which can be solved using any off-the-shelf solver. The proposed system performs much better than the systems currently in use. Our system reduces the mean waiting time and standard deviation of the waiting time of vehicles and avoids deadlocks.
翻訳日:2022-09-25 07:22:33 公開日:2020-11-15
# 痛みレベル認識における影響の計算

Accounting for Affect in Pain Level Recognition ( http://arxiv.org/abs/2011.07421v1 )

ライセンス: Link先を確認
Md Taufeeq Uddin, Shaun Canavan, Ghada Zamzmi(参考訳) 本稿では,痛み自動評価における影響の重要性と実環境における影響について考察する。 そこで本研究では,生体内に存在する痛みと感情のデータセットを融合して,新しい生理的データセットを収集する。 次に,被験者の自然情緒行動をシミュレートしたこのデータセット上での痛みレベル認識について検討した。 以上より,痛みアセスメントへの影響を認めることが重要であることが示された。 影響の有無をシミュレートする際の認識性能の低下を観察し、それを考慮していない痛み評価モデルを検証する。 逆に、影響を考慮した場合、認識が向上するのを観察する。

In this work, we address the importance of affect in automated pain assessment and the implications in real-world settings. To achieve this, we curate a new physiological dataset by merging the publicly available bioVid pain and emotion datasets. We then investigate pain level recognition on this dataset simulating participants' naturalistic affective behaviors. Our findings demonstrate that acknowledging affect in pain assessment is essential. We observe degradation in recognition performance when simulating the existence of affect to validate pain assessment models that do not account for it. Conversely, we observe a performance boost in recognition when we account for affect.
翻訳日:2022-09-25 07:22:22 公開日:2020-11-15
# 微調整された深層畳み込みニューラルネットワークを用いた花粉粒微細画像分類

Pollen Grain Microscopic Image Classification Using an Ensemble of Fine-Tuned Deep Convolutional Neural Networks ( http://arxiv.org/abs/2011.07428v1 )

ライセンス: Link先を確認
Amirreza Mahbod, Gerald Schaefer, Rupert Ecker, Isabella Ellinger(参考訳) 花粉のマイクログラフ分類は、医学と生物学に複数の応用がある。 自動花粉画像分類は、主観性や時間制約といった手動分類の問題を軽減することができる。 この課題を遂行するために,多くのコンピュータ・ベースの手法が文献で紹介されているが,これらの手法が実際に有用であるためには,分類性能の改善が必要である。 本稿では,花粉粒微細化のためのアンサンブルアプローチを4つのカテゴリに分けて紹介する。corylus avellana well- developeded pollen grain, corylus avellana anomalous pollen grain, alnus well- developeded pollen grain, non-pollen (debris) instance。 本研究では,最先端の細調整型畳み込みニューラルネットワーク(EfficientNetB0,EfficientNetB1,EfficientNetB2,SeResNeXt-50)を融合した分類戦略を開発する。 これらのモデルは3つの固定サイズ(224x224,240x240,260x260ピクセル)の画像で訓練され、その予測確率ベクトルをアンサンブル法で融合させて、与えられた花粉粒画像の最終分類ベクトルを形成する。 提案手法は,5次元クロスバリデーションに基づくicpr 2020花粉分類チャレンジトレーニングデータセットにおいて,94.48%の精度と94.54%の重み付きf1-scoreを得た。 テストセットで評価したところ,本手法は,精度が96.28%,重み付きf1-scoreが96.30%の上位のアプローチと比較して,非常に競争力の高い結果を得た。

Pollen grain micrograph classification has multiple applications in medicine and biology. Automatic pollen grain image classification can alleviate the problems of manual categorisation such as subjectivity and time constraints. While a number of computer-based methods have been introduced in the literature to perform this task, classification performance needs to be improved for these methods to be useful in practice. In this paper, we present an ensemble approach for pollen grain microscopic image classification into four categories: Corylus Avellana well-developed pollen grain, Corylus Avellana anomalous pollen grain, Alnus well-developed pollen grain, and non-pollen (debris) instances. In our approach, we develop a classification strategy that is based on fusion of four state-of-the-art fine-tuned convolutional neural networks, namely EfficientNetB0, EfficientNetB1, EfficientNetB2 and SeResNeXt-50 deep models. These models are trained with images of three fixed sizes (224x224, 240x240, and 260x260 pixels) and their prediction probability vectors are then fused in an ensemble method to form a final classification vector for a given pollen grain image. Our proposed method is shown to yield excellent classification performance, obtaining an accuracy of of 94.48% and a weighted F1-score of 94.54% on the ICPR 2020 Pollen Grain Classification Challenge training dataset based on five-fold cross-validation. Evaluated on the test set of the challenge, our approach achieved a very competitive performance in comparison to the top ranked approaches with an accuracy and a weighted F1-score of 96.28% and 96.30%, respectively.
翻訳日:2022-09-25 07:22:13 公開日:2020-11-15
# 知識蒸留を用いたオンラインアンサンブルモデル圧縮

Online Ensemble Model Compression using Knowledge Distillation ( http://arxiv.org/abs/2011.07449v1 )

ライセンス: Link先を確認
Devesh Walawalkar, Zhiqiang Shen, Marios Savvides(参考訳) 本稿では,学生アンサンブルからなる知識蒸留に基づく新しいモデル圧縮フレームワークを提案する。 これにより、圧縮された各学生モデルに同時に学習した知識を蒸留することができる。 各モデルは、独自のアーキテクチャのため、データ分散からユニークな表現を学習する。 このことは、すべてのモデルの知識を組み合わせることで、アンサンブルの一般化に役立つ。 蒸留した生徒とアンサンブルの教師は、事前訓練された体重を必要とせずに同時に訓練される。 さらに,本提案手法は,異なるシナリオに対して効率的かつ柔軟な,シングルトレーニングによるマルチ圧縮学習を実現する。 我々は,最先端の分類モデルを用いた包括的実験を行い,フレームワークの有効性を検証する。 特に、当社のフレームワークを使用して97%の圧縮されたresnet110学生モデルは、cifar100データセット上の個々のベースライントレーニングよりも10.64%の精度向上を達成しました。 同様に95%の圧縮密度ネットbc(k=12)モデルが8.17%の精度向上を達成した。

This paper presents a novel knowledge distillation based model compression framework consisting of a student ensemble. It enables distillation of simultaneously learnt ensemble knowledge onto each of the compressed student models. Each model learns unique representations from the data distribution due to its distinct architecture. This helps the ensemble generalize better by combining every model's knowledge. The distilled students and ensemble teacher are trained simultaneously without requiring any pretrained weights. Moreover, our proposed method can deliver multi-compressed students with single training, which is efficient and flexible for different scenarios. We provide comprehensive experiments using state-of-the-art classification models to validate our framework's effectiveness. Notably, using our framework a 97% compressed ResNet110 student model managed to produce a 10.64% relative accuracy gain over its individual baseline training on CIFAR100 dataset. Similarly a 95% compressed DenseNet-BC(k=12) model managed a 8.17% relative accuracy gain.
翻訳日:2022-09-25 07:21:39 公開日:2020-11-15
# 勾配更新と内部特徴分布の整合によるマルチモーダルシーケンスのデータ効率アライメント

Data-efficient Alignment of Multimodal Sequences by Aligning Gradient Updates and Internal Feature Distributions ( http://arxiv.org/abs/2011.07517v1 )

ライセンス: Link先を確認
Jianan Wang, Boyang Li, Xiangyu Fan, Jing Lin and Yanwei Fu(参考訳) ビデオおよびテキストシーケンスアライメントのタスクは、映画ビデオとスクリーンプレイの合同理解に向けた必須ステップである。 しかし、教師付きメソッドは、制限された現実的なトレーニングデータの障害に直面している。 本稿では,エンドツーエンドアライメントネットワークであるNeuMATCH [15]のデータ効率の向上を試みる。 最近の研究 [56] は、異なるモダリティを扱うネットワークコンポーネントが、異なる速度で過度に適合し、一般化し、トレーニングの困難を生んでいることを示唆している。 本稿では,(1)異なる層における勾配更新の大きさを調整し,学習速度のバランスをとるための層別適応レートスケーリング (lars) と,(2)異なるモダリティから内部特徴分布を整合させるsequence-wise batch normalization (sbn) を提案する。 最後に,入力特徴の次元性を低減するためにランダムプロジェクションを利用する。 YouTube Movie Summaryデータセットでは、これらのテクニックを組み合わせることで、LCMDCデータセットの事前トレーニングが省略され、最先端の結果が得られ、パフォーマンスギャップを埋める。 広範な経験的比較と分析により、これらの手法が最適化を改善し、ネットワークを2つの異なる層正規化のセットアップよりも効果的に規則化することが明らかになった。

The task of video and text sequence alignment is a prerequisite step toward joint understanding of movie videos and screenplays. However, supervised methods face the obstacle of limited realistic training data. With this paper, we attempt to enhance data efficiency of the end-to-end alignment network NeuMATCH [15]. Recent research [56] suggests that network components dealing with different modalities may overfit and generalize at different speeds, creating difficulties for training. We propose to employ (1) layer-wise adaptive rate scaling (LARS) to align the magnitudes of gradient updates in different layers and balance the pace of learning and (2) sequence-wise batch normalization (SBN) to align the internal feature distributions from different modalities. Finally, we leverage random projection to reduce the dimensionality of input features. On the YouTube Movie Summary dataset, the combined use of these technique closes the performance gap when the pretraining on the LSMDC dataset is omitted and achieves the state-of-the-art result. Extensive empirical comparisons and analysis reveal that these techniques improve optimization and regularize the network more effectively than two different setups of layer normalization.
翻訳日:2022-09-25 07:21:17 公開日:2020-11-15
# Adversary レンズによる音声・視覚イベント認識

Audio-Visual Event Recognition through the lens of Adversary ( http://arxiv.org/abs/2011.07430v1 )

ライセンス: Link先を確認
Juncheng B Li, Kaixin Ma, Shuhui Qu, Po-Yao Huang, Florian Metze(参考訳) 音声・視覚分類モデルは,大規模コンテンツフィルタリングなどのセンシティブなタスクに広く展開されているため,その頑健さと精度の向上が重要である。 本研究は, 対向雑音のレンズによるマルチモーダル学習に関するいくつかの重要な課題を研究することを目的とする。 1)初期/中期/後期核融合の強固性と正確性に及ぼすトレードオフ 2) 周波数/時間特性の違いはロバスト性にどのように寄与するか? 3) 異なる神経モジュールが対向性雑音にどのように寄与するか? 実験では,Google AudioSetでトレーニングした最先端のニューラルモデルを攻撃するために,逆例を構築した。 我々は、異なる$L_p$ノルムを使用して、サイズ$\epsilon$の対向的摂動の観点から、どの程度のアタック能を比較します。 敵のノイズを使ってマルチモーダルモデルを省略することで、モデルパラメータ/精度とロバストネスのトレードオフをバランスさせ、ロバストな特徴と、さまざまなニューラルネットワークモデルが学習する非ロバスト特徴を区別するための、最良の核融合戦略について洞察することができる。

As audio/visual classification models are widely deployed for sensitive tasks like content filtering at scale, it is critical to understand their robustness along with improving the accuracy. This work aims to study several key questions related to multimodal learning through the lens of adversarial noises: 1) The trade-off between early/middle/late fusion affecting its robustness and accuracy 2) How do different frequency/time domain features contribute to the robustness? 3) How do different neural modules contribute to the adversarial noise? In our experiment, we construct adversarial examples to attack state-of-the-art neural models trained on Google AudioSet. We compare how much attack potency in terms of adversarial perturbation of size $\epsilon$ using different $L_p$ norms we would need to "deactivate" the victim model. Using adversarial noise to ablate multimodal models, we are able to provide insights into what is the best potential fusion strategy to balance the model parameters/accuracy and robustness trade-off and distinguish the robust features versus the non-robust features that various neural networks model tend to learn.
翻訳日:2022-09-25 07:14:19 公開日:2020-11-15
# 医用画像における訓練可能な衛生マップを目指して

Towards Trainable Saliency Maps in Medical Imaging ( http://arxiv.org/abs/2011.07482v1 )

ライセンス: Link先を確認
Mehak Aggarwal, Nishanth Arun, Sharut Gupta, Ashwin Vaswani, Bryan Chen, Matthew Li, Ken Chang, Jay Patel, Katherine Hoebel, Mishka Gidwani, Jayashree Kalpathy-Cramer, Praveer Singh(参考訳) 自動化診断におけるDeep Learning (DL) の成功は、特に医師へのアクセスがほとんど、あるいは全くない人々にとって、医学的な実践に転換することができるが、その広範な受容性は、固有のブラックボックス決定と安全でない障害モードによって著しく制限される。 衛生的手法は医療以外の文脈でこの問題に対処しようとするが、アプリオリの説明は医療用具にうまく移行しない。 本研究では、アーキテクチャの複雑さとモデルタスクの両方に非依存なモデル設計要素を検証するとともに、この要素の導入が本質的に自己説明型モデルを実現する方法を示す。 本研究は,RSNA Pneumonia Datasetにおける非訓練性塩分濃度マップの現状と比較し,より高い局所化効果を示した。 また、完全に教師されたベースラインと比較し、高いデータラベリングオーバーヘッドに対する合理的な代替手段を提供します。 さらに,専門家による質的評価を通して,クレームの妥当性について検討する。

While success of Deep Learning (DL) in automated diagnosis can be transformative to the medicinal practice especially for people with little or no access to doctors, its widespread acceptability is severely limited by inherent black-box decision making and unsafe failure modes. While saliency methods attempt to tackle this problem in non-medical contexts, their apriori explanations do not transfer well to medical usecases. With this study we validate a model design element agnostic to both architecture complexity and model task, and show how introducing this element gives an inherently self-explanatory model. We compare our results with state of the art non-trainable saliency maps on RSNA Pneumonia Dataset and demonstrate a much higher localization efficacy using our adopted technique. We also compare, with a fully supervised baseline and provide a reasonable alternative to it's high data labelling overhead. We further investigate the validity of our claims through qualitative evaluation from an expert reader.
翻訳日:2022-09-25 07:14:02 公開日:2020-11-15
# Pix2Streams:衛星LiDAR融合による動的水文学マップ

Pix2Streams: Dynamic Hydrology Maps from Satellite-LiDAR Fusion ( http://arxiv.org/abs/2011.07584v1 )

ライセンス: Link先を確認
Dolores Garcia, Gonzalo Mateo-Garcia, Hannes Bernhardt, Ron Hagensieker, Ignacio G. Lopez Francos, Jonathan Stock, Guy Schumann, Kevin Dobbs, Freddie Kalaitzis(参考訳) 地球の流れは今どこに流れていますか。 内陸の表層水は洪水や干ばつで広がるので、我々の流れの地図は一つもない。 現在の衛星のアプローチは、最も広いストリームのみをマップする月間観測に限られている。 これらは樹状表面ネットワークの大部分を構成するが、流れが観測されていない小さな支流によって供給される。 毎日の海水の完全な地図は、干ばつがどこで生えているのかという早期の警告を与えてくれる。 何年にもわたって地図に映し出され、水がどこにあるのか、どこにないのかがわかるのです。 そのために、最新の高解像度センサデータを複数のディープラーニングモデルに供給し、これらの流れのネットワークを毎日マッピングし、長年にわたって時系列マップを積み重ねる。 具体的には i) 水のセグメンテーションを50ドル/cm/ピクセル分解能、60ドル/times$の改善に拡張する。 U-Netは、30-40cmのWorldView3画像でトレーニングされ、1-3m (30-60$\times$ over SOTA)の狭いストリームを検出できる。 マルチセンサーでマルチレゾのWasserNetzは、1mのLiDARデータで3mのPlanetScope画像のマルチデイウィンドウを融合し、ストリームの幅5-7mを検出する。 どちらのU-Netも画素レベルで水確率マップを生成する。 ii) この水図をdemから派生した合成谷ネットワークマップ上で統合し, 流れのスナップショットを作成する。 iii) このパイプラインはPix2Streamsと呼ばれ、米国内の3つの流域の2年ごとのPlanetScopeの時系列に応用し、ストリーム流速の最初の高忠実度ダイナミックマップを作成する。 最終的には、全国規模で適用すれば、世界中の水資源の管理方法を根本的に改善できる新しい地図が完成する。

Where are the Earth's streams flowing right now? Inland surface waters expand with floods and contract with droughts, so there is no one map of our streams. Current satellite approaches are limited to monthly observations that map only the widest streams. These are fed by smaller tributaries that make up much of the dendritic surface network but whose flow is unobserved. A complete map of our daily waters can give us an early warning for where droughts are born: the receding tips of the flowing network. Mapping them over years can give us a map of impermanence of our waters, showing where to expect water, and where not to. To that end, we feed the latest high-res sensor data to multiple deep learning models in order to map these flowing networks every day, stacking the times series maps over many years. Specifically, i) we enhance water segmentation to $50$ cm/pixel resolution, a 60$\times$ improvement over previous state-of-the-art results. Our U-Net trained on 30-40cm WorldView3 images can detect streams as narrow as 1-3m (30-60$\times$ over SOTA). Our multi-sensor, multi-res variant, WasserNetz, fuses a multi-day window of 3m PlanetScope imagery with 1m LiDAR data, to detect streams 5-7m wide. Both U-Nets produce a water probability map at the pixel-level. ii) We integrate this water map over a DEM-derived synthetic valley network map to produce a snapshot of flow at the stream level. iii) We apply this pipeline, which we call Pix2Streams, to a 2-year daily PlanetScope time-series of three watersheds in the US to produce the first high-fidelity dynamic map of stream flow frequency. The end result is a new map that, if applied at the national scale, could fundamentally improve how we manage our water resources around the world.
翻訳日:2022-09-25 07:13:26 公開日:2020-11-15
# エンコーダ・デコーダニューラルネットワークを用いた地震波の2成分セグメンテーション

Binary Segmentation of Seismic Facies Using Encoder-Decoder Neural Networks ( http://arxiv.org/abs/2012.03675v1 )

ライセンス: Link先を確認
Gefersom Lima, Gabriel Ramos, Sandro Rigo, Felipe Zeiser, Ariane da Silveira(参考訳) 地震データの解釈は地質学の分野で堆積物の形状を特徴づけるのに不可欠である。 地震解析において、深層学習は、手作りのファシーセグメンテーション幾何学への依存度と地質学領域の研究に要する時間を減らすのに有用である。 本研究は, 耐震フェーシセグメンテーションのためのDeep Neural Network for Facies Segmentation (DNFS) を提案し, 耐震フェーシセグメンテーションの最先端結果を得る。 DNFSはクロスエントロピーとジャカード損失関数を組み合わせて訓練されている。 以上の結果から,DNFS は StNet や U-Net よりも少ないパラメータを用いて, 震度セグメンテーションの高精度な予測を行うことができた。

The interpretation of seismic data is vital for characterizing sediments' shape in areas of geological study. In seismic interpretation, deep learning becomes useful for reducing the dependence on handcrafted facies segmentation geometry and the time required to study geological areas. This work presents a Deep Neural Network for Facies Segmentation (DNFS) to obtain state-of-the-art results for seismic facies segmentation. DNFS is trained using a combination of cross-entropy and Jaccard loss functions. Our results show that DNFS obtains highly detailed predictions for seismic facies segmentation using fewer parameters than StNet and U-Net.
翻訳日:2022-09-25 07:12:54 公開日:2020-11-15
# 文脈確率ブロックモデル:シャープ閾値と連続性

Contextual Stochastic Block Model: Sharp Thresholds and Contiguity ( http://arxiv.org/abs/2011.09841v1 )

ライセンス: Link先を確認
Chen Lu, Subhabrata Sen(参考訳) コンテクスト確率ブロックモデルarxiv:1807.09596 [cs.si], arxiv:1607.02675 [stat.me]におけるコミュニティ検出について検討した。 arXiv:1807.09596 [cs.SI] において、第2の著者は高次元ノード共変量を持つスパースグラフの設定においてこの問題を研究した。 統計物理学の非リゴラスキャビティ法を用いて、彼らはこの設定におけるコミュニティ検出の鋭い限界を予想した。 さらに、観測されたグラフの平均度が大きいと仮定して、情報理論しきい値が検証された。 予想は、平均次数が 1 を超えるとすぐに成立し、グラフが巨大な成分を持つことが期待される。 我々はこの予想を確立し、検出と弱い回復のための鋭い閾値を特徴づける。

We study community detection in the contextual stochastic block model arXiv:1807.09596 [cs.SI], arXiv:1607.02675 [stat.ME]. In arXiv:1807.09596 [cs.SI], the second author studied this problem in the setting of sparse graphs with high-dimensional node-covariates. Using the non-rigorous cavity method from statistical physics, they conjectured the sharp limits for community detection in this setting. Further, the information theoretic threshold was verified, assuming that the average degree of the observed graph is large. It is expected that the conjecture holds as soon as the average degree exceeds one, so that the graph has a giant component. We establish this conjecture, and characterize the sharp threshold for detection and weak recovery.
翻訳日:2022-09-25 07:12:07 公開日:2020-11-15
# 精度リコール曲線(prc)分類木

Precision-Recall Curve (PRC) Classification Trees ( http://arxiv.org/abs/2011.07640v1 )

ライセンス: Link先を確認
Jiaju Miao, Wei Zhu(参考訳) 不均衡データの分類は、比較的バランスの取れたクラス分布を持つデータのためにしばしば設計されたほとんどのよく知られた分類アルゴリズムにとって大きな課題となった。 それでも、スキュートクラス分布は現実世界の問題では一般的な特徴である。 機械学習がとても必要であり、疾患の診断、不正検出、破産予測、被疑者識別などのより良い予測分析が必要とされる特定のアプリケーション領域では特に一般的である。 本稿では,分類文脈における変数選択のための精度リコール曲線(auprc)下の領域に基づく新しい木ベースアルゴリズムを提案する。 提案手法は"precision-recall curve classification tree"あるいは単に"prc classification tree"と呼ばれ,木構築における2つの重要な段階を修飾する。 第1段階は、ノード変数選択における精度再呼び出し曲線の下の領域を最大化することである。 第2段階は、閾値選択のためのリコールと精度の調和平均を最大化することである。 提案したPRC分類木とその拡張であるPRC乱林は,特にクラス不均衡データセットに対して有効であることがわかった。 我々は,本手法が,合成データと実データの両方において,従来のCARTやランダムフォレストよりも優れていることを示した。 また,本研究で提案するroc分類木は,従来,不均衡データの性能が良好であった。 PRC-ROCツリーと組み合わせることで、マイノリティクラスを特定することにも大きな期待が持てる。

The classification of imbalanced data has presented a significant challenge for most well-known classification algorithms that were often designed for data with relatively balanced class distributions. Nevertheless skewed class distribution is a common feature in real world problems. It is especially prevalent in certain application domains with great need for machine learning and better predictive analysis such as disease diagnosis, fraud detection, bankruptcy prediction, and suspect identification. In this paper, we propose a novel tree-based algorithm based on the area under the precision-recall curve (AUPRC) for variable selection in the classification context. Our algorithm, named as the "Precision-Recall Curve classification tree", or simply the "PRC classification tree" modifies two crucial stages in tree building. The first stage is to maximize the area under the precision-recall curve in node variable selection. The second stage is to maximize the harmonic mean of recall and precision (F-measure) for threshold selection. We found the proposed PRC classification tree, and its subsequent extension, the PRC random forest, work well especially for class-imbalanced data sets. We have demonstrated that our methods outperform their classic counterparts, the usual CART and random forest for both synthetic and real data. Furthermore, the ROC classification tree proposed by our group previously has shown good performance in imbalanced data. The combination of them, the PRC-ROC tree, also shows great promise in identifying the minority class.
翻訳日:2022-09-25 07:06:06 公開日:2020-11-15
# 乳幼児の顔の老化シミュレーションにおける性別とアイデンティティの保存性の向上

Enhance Gender and Identity Preservation in Face Aging Simulation for Infants and Toddlers ( http://arxiv.org/abs/2011.07431v1 )

ライセンス: Link先を確認
Yao Xiao and Yijun Zhao(参考訳) 現実的な年齢差の写真は、幅広いアプリケーションで貴重な生体情報を提供する。 近年、深層学習に基づくアプローチは、人間の顔の老化過程のモデリングにおいて顕著な進歩を遂げている。 それでも、幼児や幼児の写真から正確な年齢差の顔を生成することは難しい課題だ。 特に、視覚的に検出可能な性別特性の欠如と、初期生活における劇的な外観変化が課題の難しさに寄与している。 条件付きadversarial autoencoder(caae, 2017)モデルに触発された新しいディープラーニング手法を提案する。 このアプローチでは、CAAEアーキテクチャを拡張します。 1)性別情報を取り入れ、 2) モデル全体のアーキテクチャを顔の特徴に基づいたアイデンティティ保護コンポーネントで拡張する。 UTKFaceデータセットを用いてモデルをトレーニングし,男性1,156名,女性1,207名,幼児1,207名を対象に,100年間の老化をシミュレーションした。 CAAEアプローチと比較して、我々の新しいモデルは目立った視覚的改善を示す。 本モデルでは,性別分類器を用いて,年齢スペクトルにおける男女比の77.0% (男性) と13.8% (女性) の総合的な増加を示す。 また, 顔認証ニューラルネットワークを用いて, 身元保持率の22.4%向上を示す。

Realistic age-progressed photos provide invaluable biometric information in a wide range of applications. In recent years, deep learning-based approaches have made remarkable progress in modeling the aging process of the human face. Nevertheless, it remains a challenging task to generate accurate age-progressed faces from infant or toddler photos. In particular, the lack of visually detectable gender characteristics and the drastic appearance changes in early life contribute to the difficulty of the task. We propose a new deep learning method inspired by the successful Conditional Adversarial Autoencoder (CAAE, 2017) model. In our approach, we extend the CAAE architecture to 1) incorporate gender information, and 2) augment the model's overall architecture with an identity-preserving component based on facial features. We trained our model using the publicly available UTKFace dataset and evaluated our model by simulating up to 100 years of aging on 1,156 male and 1,207 female infant and toddler face photos. Compared to the CAAE approach, our new model demonstrates noticeable visual improvements. Quantitatively, our model exhibits an overall gain of 77.0% (male) and 13.8% (female) in gender fidelity measured by a gender classifier for the simulated photos across the age spectrum. Our model also demonstrates a 22.4% gain in identity preservation measured by a facial recognition neural network.
翻訳日:2022-09-25 07:05:25 公開日:2020-11-15
# スケジュールするか否か:タスク固有の時間的実体の抽出と関連する否定制約

To Schedule or not to Schedule: Extracting Task Specific Temporal Entities and Associated Negation Constraints ( http://arxiv.org/abs/2012.02594v1 )

ライセンス: Link先を確認
Barun Patra, Chala Fufa, Pamela Bhattacharya and Charles Lee(参考訳) テキストから日時エンティティを抽出する技術研究の現状はタスク非依存である。 したがって、文献で提案される手法は、テキストからの一般的な日時抽出に適しているが、テキストに存在する日時エンティティのサブセットだけがタスクの解決に関係しているタスク固有の日時エンティティ抽出にはあまり役に立たない。 さらに、あるタスクは、時間とともに正しく推論するために、日付のエンティティに関連する否定の制約を特定する必要がある。 タスク固有の日時エンティティとその否定制約を抽出するための新しいモデルを示す。 本稿では,メールベースのデジタルAIスケジューリングアシスタントにおける会議スケジュールにおける日時理解の課題に対する手法の有効性を示す。 本手法は,スケジュールミーティングに関連する日時エンティティの検出において,ベースライン法と比較して,絶対値が19\%f-score点となり,日時エンティティに対するネゲーション制約を検出するベースライン法よりも4\%向上する。

State of the art research for date-time entity extraction from text is task agnostic. Consequently, while the methods proposed in literature perform well for generic date-time extraction from texts, they don't fare as well on task specific date-time entity extraction where only a subset of the date-time entities present in the text are pertinent to solving the task. Furthermore, some tasks require identifying negation constraints associated with the date-time entities to correctly reason over time. We showcase a novel model for extracting task-specific date-time entities along with their negation constraints. We show the efficacy of our method on the task of date-time understanding in the context of scheduling meetings for an email-based digital AI scheduling assistant. Our method achieves an absolute gain of 19\% f-score points compared to baseline methods in detecting the date-time entities relevant to scheduling meetings and a 4\% improvement over baseline methods for detecting negation constraints over date-time entities.
翻訳日:2022-09-25 07:04:51 公開日:2020-11-15
# 理論的保証によるスパース深層学習の効率的な変分推論

Efficient Variational Inference for Sparse Deep Learning with Theoretical Guarantee ( http://arxiv.org/abs/2011.07439v1 )

ライセンス: Link先を確認
Jincheng Bai, Qifan Song, Guang Cheng(参考訳) スパースディープラーニングは、ディープニューラルネットワークによる巨大なストレージ消費の課題に対処し、ターゲット関数のスパース構造を回復することを目的としている。 膨大な経験的成功をおさめてきたが、殆どのディープラーニングアルゴリズムには理論的なサポートが欠けている。 一方、別の一連の研究は、計算不可能な理論的枠組みを提案している。 本稿では,スパイク・アンド・スラブ前処理による疎いディープニューラルネットワークの訓練を行い,ベルヌーイ分布の連続緩和による計算効率の良い変分推論のセットを開発する。 提案した変分ベイズ法の整合性を正当化する変動後収縮速度が提供される。 特に,本手法はベイズ予測分布の観点から不確かさを定量化し,分散多層ニューラルネットワークを訓練することで一貫した変数選択を実現することができることを示した。

Sparse deep learning aims to address the challenge of huge storage consumption by deep neural networks, and to recover the sparse structure of target functions. Although tremendous empirical successes have been achieved, most sparse deep learning algorithms are lacking of theoretical support. On the other hand, another line of works have proposed theoretical frameworks that are computationally infeasible. In this paper, we train sparse deep neural networks with a fully Bayesian treatment under spike-and-slab priors, and develop a set of computationally efficient variational inferences via continuous relaxation of Bernoulli distribution. The variational posterior contraction rate is provided, which justifies the consistency of the proposed variational Bayes method. Notably, our empirical results demonstrate that this variational procedure provides uncertainty quantification in terms of Bayesian predictive distribution and is also capable to accomplish consistent variable selection by training a sparse multi-layer neural network.
翻訳日:2022-09-25 07:03:21 公開日:2020-11-15
# カバーに基づく書籍ジャンル分類のための深層マルチモーダルネットワーク

Deep multi-modal networks for book genre classification based on its cover ( http://arxiv.org/abs/2011.07658v1 )

ライセンス: Link先を確認
Chandra Kundu, Lukun Zheng(参考訳) 書籍の表紙は通常読者にとって最初の印象であり、しばしば本の内容に関する重要な情報を伝える。 書籍の完全なデジタル化が極めて高価な作業であることを考えると、その表紙に基づく書籍ジャンル分類は、多くの現代の検索システムにとって全く有益である。 同時に、下記の理由から、非常に困難な課題でもある:第一に、多種多様な書風があり、その多くは具体的には定義されていない。 第2に、同じジャンルの本であっても、グラフィックデザインとしての書籍カバーは、色、スタイル、テキスト情報など、さまざまな方法で異なる。 第3に、書籍の表紙デザインは、国、文化、読者のターゲットなど、多くの外部要因によって異なる可能性がある。 書籍業界における競争力の高まりに伴い、この本はデザイナーやタイポグラファーが売り上げを惹きつけることを期待してカバーデザインを限界まで押し上げた。 カバーベースの書籍分類システムは近年,特にエキサイティングな研究トピックとなっている。 本稿では,この問題を解決するためのマルチモーダルディープラーニングフレームワークを提案する。 この論文の貢献は4つある。 まず,本書カバーからテキストを自動的に抽出することにより,追加のモダリティを付加する。 第2に,書籍の表紙分類作業において,画像ベース,テキストベース,最先端モデルの評価を行った。 第3に,カバーにのみ表示される画像とテキストに基づいて,効率的かつ検証可能なマルチモーダルフレームワークを開発する。 第4に,実験結果を徹底的に分析し,性能向上に向けた今後の課題を提案する。 その結果、マルチモーダルフレームワークは、現在の最先端の画像ベースモデルを大きく上回っている。 しかしながら、この分類タスクが満足のいくレベルに達するためには、より多くの努力とリソースが必要である。

Book covers are usually the very first impression to its readers and they often convey important information about the content of the book. Book genre classification based on its cover would be utterly beneficial to many modern retrieval systems, considering that the complete digitization of books is an extremely expensive task. At the same time, it is also an extremely challenging task due to the following reasons: First, there exists a wide variety of book genres, many of which are not concretely defined. Second, book covers, as graphic designs, vary in many different ways such as colors, styles, textual information, etc, even for books of the same genre. Third, book cover designs may vary due to many external factors such as country, culture, target reader populations, etc. With the growing competitiveness in the book industry, the book cover designers and typographers push the cover designs to its limit in the hope of attracting sales. The cover-based book classification systems become a particularly exciting research topic in recent years. In this paper, we propose a multi-modal deep learning framework to solve this problem. The contribution of this paper is four-fold. First, our method adds an extra modality by extracting texts automatically from the book covers. Second, image-based and text-based, state-of-the-art models are evaluated thoroughly for the task of book cover classification. Third, we develop an efficient and salable multi-modal framework based on the images and texts shown on the covers only. Fourth, a thorough analysis of the experimental results is given and future works to improve the performance is suggested. The results show that the multi-modal framework significantly outperforms the current state-of-the-art image-based models. However, more efforts and resources are needed for this classification task in order to reach a satisfactory level.
翻訳日:2022-09-25 06:56:49 公開日:2020-11-15
# ヨルバ埋め込みにおけるダイアクリティックの課題

The Challenge of Diacritics in Yoruba Embeddings ( http://arxiv.org/abs/2011.07605v1 )

ライセンス: Link先を確認
Tosin P. Adewumi, Foteini Liwicki and Marcus Liwicki(参考訳) この研究の主な貢献は、未分類(正規化)データセットからのYoruba埋め込みのより良いパフォーマンスの実証的確立と、評価のための新しいアナロジーセットの提供である。 ヨルバ語は声調言語であり、ダイアクリティカルス(音節記号)を表記形式で用いている。 これは、全く同じウィキペディアデータセットから埋め込みを生成することで、埋め込み性能に影響を与えるが、2番目は正規化され、未記述であることを示す。 平均固有性能と他の2つの作業(類似テストセットとWordSim)を比較し,WordSimとそれに対応するSpearman相関の最適性能を得る。

The major contributions of this work include the empirical establishment of a better performance for Yoruba embeddings from undiacritized (normalized) dataset and provision of new analogy sets for evaluation. The Yoruba language, being a tonal language, utilizes diacritics (tonal marks) in written form. We show that this affects embedding performance by creating embeddings from exactly the same Wikipedia dataset but with the second one normalized to be undiacritized. We further compare average intrinsic performance with two other work (using analogy test set & WordSim) and we obtain the best performance in WordSim and corresponding Spearman correlation.
翻訳日:2022-09-25 06:56:27 公開日:2020-11-15
# 循環強化学習と模擬アニーリングを用いた集積回路の配置

Placement in Integrated Circuits using Cyclic Reinforcement Learning and Simulated Annealing ( http://arxiv.org/abs/2011.07577v1 )

ライセンス: Link先を確認
Dhruv Vashisht, Harshit Rampal, Haiguang Liao, Yang Lu, Devika Shanbhag, Elias Fallon, Levent Burak Kara(参考訳) IC技術の高度化が着実に進んでいるため、IC(Integrated Circuits)の物理的設計と製造はますます困難になりつつある。 配置は、IC物理設計における最も重要なステップの1つです。 数十年にわたる研究を通じて、パーティションベース、分析ベース、およびアニーリングベースのプレイサーは、プレースメントソリューションツールボックスを充実させてきた。 しかし、長期化や一般化能力の欠如といったオープンな課題は、既存の配置ツールの幅広い応用を制限し続けている。 強化学習(RL)とシミュレート・アニーリング(SA)の循環的応用に基づく学習ベースの配置ツールを,RLの進歩を活用して開発する。 結果は、RLモジュールがSAのより優れた初期化を提供することができ、したがって最終的な配置設計がより良くなることを示している。 近年の学習ベースプレーサーと比較して,本手法はRLとSAの組合せとは大きく異なる。 これは、RLモデルのトレーニング後の良い粗いソリューションを素早く得る能力と、ソリューションの欲求的な改善を実現するヒューリスティックな能力を活用する。

Physical design and production of Integrated Circuits (IC) is becoming increasingly more challenging as the sophistication in IC technology is steadily increasing. Placement has been one of the most critical steps in IC physical design. Through decades of research, partition-based, analytical-based and annealing-based placers have been enriching the placement solution toolbox. However, open challenges including long run time and lack of ability to generalize continue to restrict wider applications of existing placement tools. We devise a learning-based placement tool based on cyclic application of Reinforcement Learning (RL) and Simulated Annealing (SA) by leveraging the advancement of RL. Results show that the RL module is able to provide a better initialization for SA and thus leads to a better final placement design. Compared to other recent learning-based placers, our method is majorly different with its combination of RL and SA. It leverages the RL model's ability to quickly get a good rough solution after training and the heuristic's ability to realize greedy improvements in the solution.
翻訳日:2022-09-25 06:56:02 公開日:2020-11-15
# 雑音ラベルに対するニューラルネットワークのロバストトレーニングのためのコアセット

Coresets for Robust Training of Neural Networks against Noisy Labels ( http://arxiv.org/abs/2011.07451v1 )

ライセンス: Link先を確認
Baharan Mirzasoleiman, Kaidi Cao, Jure Leskovec(参考訳) 現代のニューラルネットワークは、実世界のデータセットでよく見られるノイズの多いラベルに適合する能力を持っている。 大きな進歩はあったが、既存の技術はノイズラベルで訓練されたニューラルネットワークの性能に関する理論的保証を提供するのに制限されている。 本稿では,雑音ラベルで学習したディープネットワークの堅牢なトレーニングを理論的に保証する新しい手法を提案する。 この手法の背後にある重要なアイデアは、ほぼ低ランクのヤコビ行列を提供するクリーンデータポイントの重み付き部分集合(コアセット)を選択することである。 すると、その部分集合に適用された勾配降下が雑音ラベルに収まらないことを証明する。 我々の広範な実験は、我々の理論を裏付け、我々のサブセットで訓練されたディープネットワークは、最先端技術(例えば、80%ノイズラベルを持つCIFAR-10の精度が6%向上し、ミニWebvisionの精度が7%向上するなど)と比較して、非常に優れた性能を達成することを示した。

Modern neural networks have the capacity to overfit noisy labels frequently found in real-world datasets. Although great progress has been made, existing techniques are limited in providing theoretical guarantees for the performance of the neural networks trained with noisy labels. Here we propose a novel approach with strong theoretical guarantees for robust training of deep networks trained with noisy labels. The key idea behind our method is to select weighted subsets (coresets) of clean data points that provide an approximately low-rank Jacobian matrix. We then prove that gradient descent applied to the subsets do not overfit the noisy labels. Our extensive experiments corroborate our theory and demonstrate that deep networks trained on our subsets achieve a significantly superior performance compared to state-of-the art, e.g., 6% increase in accuracy on CIFAR-10 with 80% noisy labels, and 7% increase in accuracy on mini Webvision.
翻訳日:2022-09-25 06:55:29 公開日:2020-11-15
# ニューラルネットワークにおける逆ロバスト性の規則化の理解に向けて

Towards Understanding the Regularization of Adversarial Robustness on Neural Networks ( http://arxiv.org/abs/2011.07478v1 )

ライセンス: Link先を確認
Yuxin Wen, Shuai Li, Kui Jia(参考訳) 敵の例の問題は、現代のニューラルネットワーク(NN)モデルは、かなり脆弱であることを示している。 この問題を解決するためのより確立された手法の1つは、モデルを {\it $\epsilon$-adversarially robust} (AR) であると要求することである。 しかし、そのような手法が標準的な性能劣化、すなわち自然例の劣化を引き起こすことが観察された。 本研究では,正規化の観点から劣化について検討する。 我々は、NNの一般化解析から量を特定するとともに、すべての方向において、ほとんどの層の特徴空間(インスタンス空間の変化によって引き起こされる)の変化をスムーズにすることで、NNをより信頼性の低い解に規則化/偏在させることによってARが達成されることを経験的に見出した。 しかし、そのような平滑化の最終的な結果は、決定境界に関するサンプルに集中し、信頼性の低いソリューションとなり、標準性能が悪化する。 我々の研究は、問題のある正規化を避けるために、NNにARを組み込む方法を考えるかもしれないことを示唆している。

The problem of adversarial examples has shown that modern Neural Network (NN) models could be rather fragile. Among the more established techniques to solve the problem, one is to require the model to be {\it $\epsilon$-adversarially robust} (AR); that is, to require the model not to change predicted labels when any given input examples are perturbed within a certain range. However, it is observed that such methods would lead to standard performance degradation, i.e., the degradation on natural examples. In this work, we study the degradation through the regularization perspective. We identify quantities from generalization analysis of NNs; with the identified quantities we empirically find that AR is achieved by regularizing/biasing NNs towards less confident solutions by making the changes in the feature space (induced by changes in the instance space) of most layers smoother uniformly in all directions; so to a certain extent, it prevents sudden change in prediction w.r.t. perturbations. However, the end result of such smoothing concentrates samples around decision boundaries, resulting in less confident solutions, and leads to worse standard performance. Our studies suggest that one might consider ways that build AR into NNs in a gentler way to avoid the problematic regularization.
翻訳日:2022-09-25 06:55:12 公開日:2020-11-15
# ディープラーニングを用いた騒音時系列データの長期依存性の検出

Discovering long term dependencies in noisy time series data using deep learning ( http://arxiv.org/abs/2011.07551v1 )

ライセンス: Link先を確認
Alexey Kurochkin(参考訳) 時系列モデリングは、予測メンテナンス、品質管理、最適化といったタスクの解決に不可欠である。 ディープラーニングはそのような問題を解決するために広く使われている。 ニューラルネットワークを使って複雑な製造プロセスを管理する場合、エンジニアは機械学習モデルがなぜ特定の決定を下したのか、モデル推奨の結果は何かを知る必要がある。 本稿では,ディープニューラルネットワークを用いて時系列データの時間依存性をキャプチャし,説明し,様々な合成および実世界のデータセット上でテストするフレームワークを開発する。

Time series modelling is essential for solving tasks such as predictive maintenance, quality control and optimisation. Deep learning is widely used for solving such problems. When managing complex manufacturing process with neural networks, engineers need to know why machine learning model made specific decision and what are possible outcomes of following model recommendation. In this paper we develop framework for capturing and explaining temporal dependencies in time series data using deep neural networks and test it on various synthetic and real world datasets.
翻訳日:2022-09-25 06:54:35 公開日:2020-11-15
# Hyper-sinh:TensorFlowとKerasの浅層から深層学習までの正確で信頼性の高い機能

hyper-sinh: An Accurate and Reliable Function from Shallow to Deep Learning in TensorFlow and Keras ( http://arxiv.org/abs/2011.07661v1 )

ライセンス: Link先を確認
Luca Parisi, Renfei Ma, Narrendar RaviChandran and Matteo Lanzillotta(参考訳) 本稿では,畳み込みニューラルネットワーク(cnn)のような教師付き学習のための深層学習アルゴリズムに適したm-arcsinh活性化関数の変種である「ハイパーシン」を提案する。 オープンソースのpythonライブラリtensorflowとkerasで開発されたhyper-sinhは、浅層ニューラルネットワークと深層ニューラルネットワークの両方の正確かつ信頼性の高いアクティベーション関数として記述され、検証される。 Kerasから利用可能な5つのベンチマークデータセット(N = 5)における画像およびテキスト分類タスクの精度の向上と信頼性について論じる。 実験の結果、浅層と深層の両方のニューラルネットワークの全体的な競合的分類性能が得られた。 この機能はゴールド標準活性化関数について評価され、画像とテキストの分類における全体的な競合の正確性と信頼性を示している。

This paper presents the 'hyper-sinh', a variation of the m-arcsinh activation function suitable for Deep Learning (DL)-based algorithms for supervised learning, such as Convolutional Neural Networks (CNN). hyper-sinh, developed in the open source Python libraries TensorFlow and Keras, is thus described and validated as an accurate and reliable activation function for both shallow and deep neural networks. Improvements in accuracy and reliability in image and text classification tasks on five (N = 5) benchmark data sets available from Keras are discussed. Experimental results demonstrate the overall competitive classification performance of both shallow and deep neural networks, obtained via this novel function. This function is evaluated with respect to gold standard activation functions, demonstrating its overall competitive accuracy and reliability for both image and text classification.
翻訳日:2022-09-25 06:48:47 公開日:2020-11-15
# ArraMon: 動的環境における共同ナビゲーションアセンブリ命令解釈タスク

ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in Dynamic Environments ( http://arxiv.org/abs/2011.07660v1 )

ライセンス: Link先を確認
Hyounghun Kim, Abhay Zala, Graham Burri, Hao Tan, Mohit Bansal(参考訳) 実施エージェントにとって、ナビゲーションは重要な能力であるが、孤立した目標ではない。 エージェントは、オブジェクトを拾い上げ、特定のアレンジメントに組み立てるなど、ターゲットの場所に到達すると、特定のタスクを実行することも期待されている。 視覚と言語によるナビゲーション,収集されたオブジェクトの組み立て,オブジェクト参照表現の理解を組み合わせることで,arramonと呼ばれる新しいジョイントナビゲーション・アンド・アセンブリタスクを作成する。 この作業中、エージェント(ポケモンGOプレイヤーに似た)は、複雑で現実的な屋外環境において自然言語命令に基づいてナビゲートすることで、異なるターゲットオブジェクトを1つずつ発見・収集するように求められ、さらに、収集したオブジェクトをエゴセントリックグリッドレイアウト環境で部分的にARRAngeする。 この課題を支援するために,3次元動的環境シミュレータを実装し,人手によるナビゲーションと組立命令によるデータセット(英語,ヒンディー語にも拡張)とそれに対応する地上真実軌跡を収集する。 また、収集した命令を検証段階を通じてフィルタリングし、合計7.7Kのタスクインスタンス(30.8Kの命令とパス)を生成する。 我々は、いくつかのベースラインモデル(統合およびバイアス)とメトリクス(ndtw、ctc、rpod、ptc)について結果を示し、大きなモデル・ヒューマンパフォーマンスギャップは、我々の課題が困難であることを示し、今後の作業に幅広いスコープを提供する。 私たちのデータセット、シミュレータ、コードは、https://arramonunc.github.ioで公開されています。

For embodied agents, navigation is an important ability but not an isolated goal. Agents are also expected to perform specific tasks after reaching the target location, such as picking up objects and assembling them into a particular arrangement. We combine Vision-and-Language Navigation, assembling of collected objects, and object referring expression comprehension, to create a novel joint navigation-and-assembly task, named ArraMon. During this task, the agent (similar to a PokeMON GO player) is asked to find and collect different target objects one-by-one by navigating based on natural language instructions in a complex, realistic outdoor environment, but then also ARRAnge the collected objects part-by-part in an egocentric grid-layout environment. To support this task, we implement a 3D dynamic environment simulator and collect a dataset (in English; and also extended to Hindi) with human-written navigation and assembling instructions, and the corresponding ground truth trajectories. We also filter the collected instructions via a verification stage, leading to a total of 7.7K task instances (30.8K instructions and paths). We present results for several baseline models (integrated and biased) and metrics (nDTW, CTC, rPOD, and PTC), and the large model-human performance gap demonstrates that our task is challenging and presents a wide scope for future work. Our dataset, simulator, and code are publicly available at: https://arramonunc.github.io
翻訳日:2022-09-25 06:48:30 公開日:2020-11-15
# DORB: 複数のリワードをバンドで動的に最適化する

DORB: Dynamically Optimizing Multiple Rewards with Bandits ( http://arxiv.org/abs/2011.07635v1 )

ライセンス: Link先を確認
Ramakanth Pasunuru, Han Guo, Mohit Bansal(参考訳) 政策勾配に基づく強化学習は、言語生成タスクの非微分可能評価指標を直接最適化するための有望なアプローチであることが証明されている。 しかし、特定のメトリックに対する報酬の最適化は、そのメトリックのみの改善につながり、モデルは、しばしば実際の定性的な改善を達成することなく、特定の方法でそのメトリックの定式化をゲームしていることを示唆している。 したがって、モデルを複数の多様な計量報酬を共同で最適化することがより有益である。 アピールする一方で、これは難しい。なぜなら、これらのメトリック報酬の重要性とスケーリングの重みを手動で決める必要があるからだ。 さらに、時間とともに柔軟に変化するメトリック報酬の動的組み合わせとカリキュラムの使用を検討することが重要である。 以上の点を考慮し,本研究では,マルチアームバンディットアプローチ(dorb)を用いて,複数のメトリック報酬の最適化を自動化し,各ラウンドにおいて,期待されるアームゲインに基づいて,次に最適化するメトリック報酬を選択する。 バンドイットにはexp3アルゴリズムを使用し,バンドイット報酬には(1)単一マルチリワードバンドイット(sm-bandit),(2)階層的マルチリワードバンドイット(hm-bandit)の2つのアプローチを定式化する。 我々は、様々な自動メトリクスと2つの重要なnlgタスク(質問生成とデータからテキストへの生成)における人間による評価を通して、我々のアプローチの有効性を実証的に示す。 最後に,最適化した報酬に対して,学習したバンディットカリキュラムの解釈可能な分析を行う。

Policy gradients-based reinforcement learning has proven to be a promising approach for directly optimizing non-differentiable evaluation metrics for language generation tasks. However, optimizing for a specific metric reward leads to improvements in mostly that metric only, suggesting that the model is gaming the formulation of that metric in a particular way without often achieving real qualitative improvements. Hence, it is more beneficial to make the model optimize multiple diverse metric rewards jointly. While appealing, this is challenging because one needs to manually decide the importance and scaling weights of these metric rewards. Further, it is important to consider using a dynamic combination and curriculum of metric rewards that flexibly changes over time. Considering the above aspects, in our work, we automate the optimization of multiple metric rewards simultaneously via a multi-armed bandit approach (DORB), where at each round, the bandit chooses which metric reward to optimize next, based on expected arm gains. We use the Exp3 algorithm for bandits and formulate two approaches for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit); (2) Hierarchical Multi-reward Bandit (HM-Bandit). We empirically show the effectiveness of our approaches via various automatic metrics and human evaluation on two important NLG tasks: question generation and data-to-text generation, including on an unseen-test transfer setup. Finally, we present interpretable analyses of the learned bandit curriculum over the optimized rewards.
翻訳日:2022-09-25 06:47:43 公開日:2020-11-15
# FAIR: 敵インスタンスの再重み付け

FAIR: Fair Adversarial Instance Re-weighting ( http://arxiv.org/abs/2011.07495v1 )

ライセンス: Link先を確認
Andrija Petrovi\'c, Mladen Nikoli\'c, Sandro Radovanovi\'c, Boris Deliba\v{s}i\'c, Milo\v{s} Jovanovi\'c(参考訳) 人工知能の社会的影響に対する認識が高まり、公正さは機械学習アルゴリズムの重要な側面となっている。 問題は、人種や性別などのセンシティブな特徴によって定義される特定の集団に対する人間の偏見が、データ収集とラベル付けを通じてトレーニングデータに導入されたことだ。 公正性確保研究における2つの重要な方向性 (i)より偏りのあるインスタンスの影響を減らすために重み付けを行う。 (ii)対象変数に情報を与えるが、機密性の高い属性には役立たないデータ表現を構築するための敵対的トレーニング。 本稿では,公平な予測を保証するインスタンス重み付け関数を学習するために,逆訓練を用いたfair(fair)手法を提案する。 2つのパラダイムを組み合わせることで、再重み付けの解釈可能性と、逆行訓練のエンドツーエンドのトレーニング可能性の両方から望ましい特性を継承する。 本稿では,この手法の4つの異なる変種を提案するとともに,その手法を完全確率的枠組みでキャスティングする方法を実証する。 さらに、FAIRモデルの性質の理論解析が広く研究されている。 我々は、FAIRモデルを他の7つの関連する最先端モデルと比較し、FAIRが正確性と不公平性のトレードオフをより良く達成できることを示す。 我々の知る限りでは、これは個々のインスタンスの公平性に関する解釈可能な情報を提供する重み付け関数によって、再重み付けと敵対的アプローチを統合する最初のモデルである。

With growing awareness of societal impact of artificial intelligence, fairness has become an important aspect of machine learning algorithms. The issue is that human biases towards certain groups of population, defined by sensitive features like race and gender, are introduced to the training data through data collection and labeling. Two important directions of fairness ensuring research have focused on (i) instance weighting in order to decrease the impact of more biased instances and (ii) adversarial training in order to construct data representations informative of the target variable, but uninformative of the sensitive attributes. In this paper we propose a Fair Adversarial Instance Re-weighting (FAIR) method, which uses adversarial training to learn instance weighting function that ensures fair predictions. Merging the two paradigms, it inherits desirable properties from both -- interpretability of reweighting and end-to-end trainability of adversarial training. We propose four different variants of the method and, among other things, demonstrate how the method can be cast in a fully probabilistic framework. Additionally, theoretical analysis of FAIR models' properties have been studied extensively. We compare FAIR models to 7 other related and state-of-the-art models and demonstrate that FAIR is able to achieve a better trade-off between accuracy and unfairness. To the best of our knowledge, this is the first model that merges reweighting and adversarial approaches by means of a weighting function that can provide interpretable information about fairness of individual instances.
翻訳日:2022-09-25 06:47:17 公開日:2020-11-15
# メタ直交化による畳み込みニューラルネットワークの劣化

Debiasing Convolutional Neural Networks via Meta Orthogonalization ( http://arxiv.org/abs/2011.07453v1 )

ライセンス: Link先を確認
Kurtis Evan David, Qiang Liu, Ruth Fong(参考訳) ディープラーニングモデルは、しばしば強いタスクパフォーマンスを達成するが、その成功は、保護属性(例えば、人種、性別など)を使用して意思決定を行う場合など、因果関係から急激な相関関係を解き放つことができないために妨げられる。 本研究では,このような場合において,畳み込みニューラルネットワーク(CNN)の偏りに対処する。 単語の埋め込みとモデルの解釈性に関する既存の研究から、メタオルソゴン化手法は、下流のタスク性能を強く保ちながら、アクティベーション空間において異なる概念(例えば、性別やクラスラベル)のCNN表現を互いに直交するように促す。 様々な実験を通じて,提案手法を体系的にテストし,モデルのバイアスを著しく軽減し,現在の逆バイアス法と競合することを実証した。

While deep learning models often achieve strong task performance, their successes are hampered by their inability to disentangle spurious correlations from causative factors, such as when they use protected attributes (e.g., race, gender, etc.) to make decisions. In this work, we tackle the problem of debiasing convolutional neural networks (CNNs) in such instances. Building off of existing work on debiasing word embeddings and model interpretability, our Meta Orthogonalization method encourages the CNN representations of different concepts (e.g., gender and class labels) to be orthogonal to one another in activation space while maintaining strong downstream task performance. Through a variety of experiments, we systematically test our method and demonstrate that it significantly mitigates model bias and is competitive against current adversarial debiasing methods.
翻訳日:2022-09-25 06:46:53 公開日:2020-11-15
# 感情の強さの直接分類

Direct Classification of Emotional Intensity ( http://arxiv.org/abs/2011.07460v1 )

ライセンス: Link先を確認
Jacob Ouyang, Isaac R Galatzer-Levy, Vidya Koesmahargyo, Li Zhang(参考訳) 本稿では、アクション単位から導出するのではなく、映像入力から感情強度スコアを直接予測できるモデルを提案する。 動的感情情報を組み込んだ3次元DNNを用いて、0-10から強度スコアを出力する異なる人のビデオを用いてモデルを訓練する。 各ビデオは、正規化されたアクションユニットベースの強度スコアを使用してフレーム単位でラベル付けされる。 このモデルでは,適応型学習手法を用いて,新しい課題の処理性能を向上させる。 他のモデルと比較して、我々のモデルは異なる人物間の一般化に優れており、感情の強さを直接分類する新しい枠組みを提供する。

In this paper, we present a model that can directly predict emotion intensity score from video inputs, instead of deriving from action units. Using a 3d DNN incorporated with dynamic emotion information, we train a model using videos of different people smiling that outputs an intensity score from 0-10. Each video is labeled framewise using a normalized action-unit based intensity score. Our model then employs an adaptive learning technique to improve performance when dealing with new subjects. Compared to other models, our model excels in generalization between different people as well as provides a new framework to directly classify emotional intensity.
翻訳日:2022-09-25 06:46:36 公開日:2020-11-15
# BirdSLAM:Bird-Eye Viewにおける単眼多体SLAM

BirdSLAM: Monocular Multibody SLAM in Bird's-Eye View ( http://arxiv.org/abs/2011.07613v1 )

ライセンス: Link先を確認
Swapnil Daga, Gokul B. Nair, Anirudha Ramesh, Rahul Sajnani, Junaid Ahmed Ansari and K. Madhava Krishna(参考訳) 本稿では,単眼カメラのみを搭載した自律走行プラットフォームの挑戦的なシナリオを実現するために,新しい位置対応マッピングシステムであるBirdSLAMを提案する。 BirdSLAMは、他の単分子SLAMシステム(モノクル再構成におけるスケールの曖昧さ、動的オブジェクトの局所化、特徴表現の不確実性など)が直面している課題に、ローカライズとマッピングを行う構成空間として、ホログラフィック(鳥の目)ビューを用いて取り組む。 地上のエゴカメラの高さだけを仮定することで、BirdSLAMはワンビューのメトロジーの手がかりを活用して、エゴ車両や他の鳥眼ビューの全ての交通参加者を正確にローカライズする。 我々は,より厳密な情報を用いた先行作業よりも優れた性能を示し,アブレーション解析による設計決定の関連性を明らかにする。

In this paper, we present BirdSLAM, a novel simultaneous localization and mapping (SLAM) system for the challenging scenario of autonomous driving platforms equipped with only a monocular camera. BirdSLAM tackles challenges faced by other monocular SLAM systems (such as scale ambiguity in monocular reconstruction, dynamic object localization, and uncertainty in feature representation) by using an orthographic (bird's-eye) view as the configuration space in which localization and mapping are performed. By assuming only the height of the ego-camera above the ground, BirdSLAM leverages single-view metrology cues to accurately localize the ego-vehicle and all other traffic participants in bird's-eye view. We demonstrate that our system outperforms prior work that uses strictly greater information, and highlight the relevance of each design decision via an ablation analysis.
翻訳日:2022-09-25 06:46:28 公開日:2020-11-15