このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201203となっている論文です。

PDF登録状況(公開日: 20201203)

TitleAuthorsAbstract論文公表日・翻訳日
# 文脈的客観的枠組みにおける量子フォーマリズムの補完

Completing the quantum formalism in a contextually objective framework ( http://arxiv.org/abs/2003.03121v3 )

ライセンス: Link先を確認
Philippe Grangier(参考訳) 標準量子力学(英語版)(QM)において、状態ベクトル $| \psi \rangle$ はヒルベルト空間の次元$N$が少なくとも3である限り、無限に多くの直交基底に属することができる。 一方、完全な物理観測可能な$a$(退化性は残っていない)は固有ベクトルのn$-次元直交基底と関連付けられる。 理想化された場合、$A$を何度も測定すると、同じ固有値で同じ結果が繰り返される。 この反復可能な結果を modality $\mu$ と呼び、対応する固有状態 $| \psi \rangle$ とする。 質問は次の通りである: $| \psi \rangle$ は $\mu$ の完全な記述を与えるか? なぜなら、$| \psi \rangle$ は、$\mu$ を得ることができる完全な可観測値 $a$ を規定していないため、$| \psi \rangle$ で与えられる物理的な記述は、アインシュタイン、podolsky、ローゼンが1935年に有名な記事で主張したように不完全である。 もし$| \psi \rangle$ が$\mu$の不完全な記述であるなら、それは何を表現しているのか? 完全に記述できるのか 代数的なのか? 結論として, 標準qmの不完全性は, コンテクストのないシステムを記述する試みによるものであるが, 両者は常に必要である。

In standard quantum mechanics (QM), a state vector $| \psi \rangle$ may belong to infinitely many different orthogonal bases, as soon as the dimension $N$ of the Hilbert space is at least three. On the other hand, a complete physical observable $A$ (with no degeneracy left) is associated with a $N$-dimensional orthogonal basis of eigenvectors. In an idealized case, measuring $A$ again and again will give repeatedly the same result, with the same eigenvalue. Let us call this repeatable result a modality $\mu$, and the corresponding eigenstate $| \psi \rangle$. A question is then: does $| \psi \rangle$ give a complete description of $\mu$ ? The answer is obviously no, since $| \psi \rangle$ does not specify the full observable $A$ that allowed us to obtain $\mu$; hence the physical description given by $| \psi \rangle$ is incomplete, as claimed by Einstein, Podolsky and Rosen in their famous article in 1935. Here we want to spell out this provocative statement, and in particular to answer the questions: if $| \psi \rangle$ is an incomplete description of $\mu$, what does it describe ? is it possible to obtain a complete description, maybe algebraic ? Our conclusion is that the incompleteness of standard QM is due to its attempt to describe systems without contexts, whereas both are always required, even if they can be separated outside the measurement periods.
翻訳日:2023-05-30 08:56:49 公開日:2020-12-03
# 一般開放量子系に対する熱力学的不確かさ関係

Thermodynamic uncertainty relation for general open quantum systems ( http://arxiv.org/abs/2003.08557v4 )

ライセンス: Link先を確認
Yoshihiko Hasegawa(参考訳) 一般開放量子力学に対する熱力学的不確実性関係を,システムと環境からなる複合システム上での連立ユニタリ進化によって記述する。 システム環境相互作用後の環境状態を計測することにより,生存活動によって環境中の観測可能な数を限定し,古典マルコフ過程の動的活動に還元する。 ここで導かれる関係は、任意のカウント可能な可観測状態と任意の初期状態を持つ一般開量子系に対して成り立つ。 したがって、任意の時間依存遷移率と初期状態を持つ古典マルコフ過程において、我々の関係は満たされる。 我々は,連続計測と量子ウォークとの関係を応用し,システムの量子性が精度を向上できることを見いだす。 また,適切な連続測定を行うことで,下限を任意に小さくすることができる。

We derive a thermodynamic uncertainty relation for general open quantum dynamics, described by a joint unitary evolution on a composite system comprising a system and an environment. By measuring the environmental state after the system-environment interaction, we bound the counting observables in the environment by the survival activity, which reduces to the dynamical activity in classical Markov processes. Remarkably, the relation derived herein holds for general open quantum systems with any counting observable and any initial state. Therefore, our relation is satisfied for classical Markov processes with arbitrary time-dependent transition rates and initial states. We apply our relation to continuous measurement and the quantum walk to find that the quantum nature of the system can enhance the precision. Moreover, we can make the lower bound arbitrarily small by employing appropriate continuous measurement.
翻訳日:2023-05-28 17:59:14 公開日:2020-12-03
# 素状態とその量子親類

The Prime state and its quantum relatives ( http://arxiv.org/abs/2005.02422v3 )

ライセンス: Link先を確認
D. Garc\'ia-Mart\'in, E. Ribas, S. Carrazza, J.I. Latorre and G. Sierra(参考訳) n$ qubits, $|\mathbb{P}_n\rangle$ の素状態は、2^n$未満の素数に対応する全ての計算基底状態の均一重ね合わせとして定義される。 この状態は、量子力学的に素数の算術的性質を符号化する。 最初に、素状態の量子フーリエ変換が素数の分布におけるチェビシェフのようなバイアスに直接アクセスすることを示した。 次に、$|\mathbb{p}_n\rangle$最大$n=30$ qubitsの絡み合いエントロピーを調べ、そのスケーリングと平方自由整数の密度のシャノンエントロピーの関係を見いだす。 この関係はまた、素状態がキュディト基底を用いて構成されるときにも成り立ち、この性質が素数の分布に固有のものであることを示す。 同じ特徴は、算術進行における素数の重ね合わせから構築された状態を考えるときに見出される。 最後に、奇数合成数、二乗自由整数、スターリー素数から定義されるような、他の数論的な量子状態の性質を調べる。 本研究では,任意の精度のフロートを用いて行列を対角化するオープンソースライブラリを開発した。

The Prime state of $n$ qubits, $|\mathbb{P}_n\rangle$, is defined as the uniform superposition of all the computational-basis states corresponding to prime numbers smaller than $2^n$. This state encodes, quantum mechanically, arithmetic properties of the primes. We first show that the Quantum Fourier Transform of the Prime state provides a direct access to Chebyshev-like biases in the distribution of prime numbers. We next study the entanglement entropy of $|\mathbb{P}_n\rangle$ up to $n=30$ qubits, and find a relation between its scaling and the Shannon entropy of the density of square-free integers. This relation also holds when the Prime state is constructed using a qudit basis, showing that this property is intrinsic to the distribution of primes. The same feature is found when considering states built from the superposition of primes in arithmetic progressions. Finally, we explore the properties of other number-theoretical quantum states, such as those defined from odd composite numbers, square-free integers and starry primes. For this study, we have developed an open-source library that diagonalizes matrices using floats of arbitrary precision.
翻訳日:2023-05-21 02:51:39 公開日:2020-12-03
# 2量子ビットゲートの最適数を持つcnot-dihedral回路の合成

Synthesis of CNOT-Dihedral circuits with optimal number of two qubit gates ( http://arxiv.org/abs/2006.12042v2 )

ライセンス: Link先を確認
Shelly Garion and Andrew W. Cross(参考訳) 本稿では、量子ゲート [x, t, cx, cs] の生成集合を用いて、最小数の制御s (cs) と制御x (cx) ゲートを持つ2量子ビット cnot-dihedral 群のすべての元に対する明示的な正準形式を示す。 我々は、最適数の制御X(CX)ゲートを主張するn-qubit CNOT-Dihedral群を逐次構築するアルゴリズムを提供する。 これらの結果は、非cliffordランダム化ベンチマークによってゲートエラーを推定するために必要であり、フォールトトレラントゲートセット上の回路最適化にさらに応用することができる。

In this note we present explicit canonical forms for all the elements in the two-qubit CNOT-Dihedral group, with minimal numbers of controlled-S (CS) and controlled-X (CX) gates, using the generating set of quantum gates [X, T, CX, CS]. We provide an algorithm to successively construct the n-qubit CNOT-Dihedral group, asserting an optimal number of controlled-X (CX) gates. These results are needed to estimate gate errors via non-Clifford randomized benchmarking and may have further applications to circuit optimization over fault-tolerant gate sets.
翻訳日:2023-05-13 05:18:51 公開日:2020-12-03
# 散乱における相対エントロピーとS行列ブートストラップ

Relative entropy in scattering and the S-matrix bootstrap ( http://arxiv.org/abs/2006.12213v5 )

ライセンス: Link先を確認
Anjishnu Bose, Parthiv Haldar, Aninda Sinha, Pritish Sinha and Shaswat S Tiwari(参考訳) 量子場理論における2-2散乱における絡み合い測度について検討し、2つの異なる密度行列を区別する相対エントロピーに着目した。 相対エントロピーは、ピオン散乱とII型超弦理論におけるディラトン散乱を記述するキラル摂動理論(\chi PT$)を含むいくつかのケースで研究されている。 大規模QFTにおける弾性微分断面上の既知の境界を用いて、相対エントロピー上の高エネルギーを導出する。 $\chi pt$ では、しきい値に近い相対エントロピーは散乱長さの比で単純な表現を持つ。 特定の場合において、相対エントロピーの通常の肯定値以上の相対エントロピーに対して明確な符号特性が見つかる。 次に、ピオン散乱の文脈でS行列ブートストラップの最近の数値的な研究に目を向ける。 これらの符号制約と$\rho$共振を課すことで、許容されるs行列に対する制限が見つかる。 相対エントロピーを用いて仮説テストを行うことにより、実験に匹敵する散乱長を与える境界上に存在する2つのS-行列を分離するが、そのうちの1つは1ループ$\chi PT$Adler 0から遠く離れている。 拡張マンデルスタム領域内の正の積と弾性ユニタリ性を含むアイデアを用いて、許容空間をさらに制限する予備解析を行う。

We consider entanglement measures in 2-2 scattering in quantum field theories, focusing on relative entropy which distinguishes two different density matrices. Relative entropy is investigated in several cases which include $\phi^4$ theory, chiral perturbation theory ($\chi PT$) describing pion scattering and dilaton scattering in type II superstring theory. We derive a high energy bound on the relative entropy using known bounds on the elastic differential cross-sections in massive QFTs. In $\chi PT$, relative entropy close to threshold has simple expressions in terms of ratios of scattering lengths. Definite sign properties are found for the relative entropy which are over and above the usual positivity of relative entropy in certain cases. We then turn to the recent numerical investigations of the S-matrix bootstrap in the context of pion scattering. By imposing these sign constraints and the $\rho$ resonance, we find restrictions on the allowed S-matrices. By performing hypothesis testing using relative entropy, we isolate two sets of S-matrices living on the boundary which give scattering lengths comparable to experiments but one of which is far from the 1-loop $\chi PT$ Adler zeros. We perform a preliminary analysis to constrain the allowed space further, using ideas involving positivity inside the extended Mandelstam region, and elastic unitarity.
翻訳日:2023-05-13 05:09:38 公開日:2020-12-03
# 時間多重単一光子源を用いたサブショットノイズ伝達測定方式

Scheme for sub-shot-noise transmission measurement using a time multiplexed single-photon source ( http://arxiv.org/abs/2007.15842v2 )

ライセンス: Link先を確認
Agustina G. Magnoni, Laura T. Knoll, Miguel A. Larotonda(参考訳) 光量子計測から得られる有望な結果は、透過または吸収測定においてサブショットノイズ性能を達成する能力である。 これは、量子ビームの古典的な強度に対する光強度の不確実性が著しく低いためである。 本研究では,連続的自発的パラメトリックダウン変換(spdc)によるペア生成に基づく多重化単一光子源を用いた実験の結果をシミュレーションし,複数種類の実験損失を考慮した二元時分割戦略による時間多重化設定を行った。 このようなソースでは、出力信号のサブポアソニアン統計がサブショットノイズ性能を達成する鍵となる。 数値結果と、ショットノイズ限界(コヒーレントソースで達成)と量子限界(入力ソースとして理想光子数フォック状態を持つ)の2つのパラダイム的限界を比較した。 また,しきい値検出器の使用条件と入力光のゆらぎが測定誤差に及ぼす影響についても検討した。 以上の結果から,1.5~2の範囲で,数分解検出器を使わずに,サブショットノイズ性能を達成できることが示唆された。 この技術は、超低光強度と生物学的または他の脆弱な標本の最小破壊を用いて、適切な不確実性のある試料の光学吸収を測定することができる。

A promising result from optical quantum metrology is the ability to achieve sub-shot-noise performance in transmission or absorption measurements. This is due to the significantly lower uncertainty in light intensity of quantum beams with respect to their classical counterparts. In this work, we simulate the outcome of an experiment that uses a multiplexed single-photon source based on pair generation by continuous spontaneous parametric down conversion (SPDC) followed by a time multiplexing set-up with a binary temporal division strategy, considering several types of experimental losses. With such source, the sub-Poissonian statistics of the output signal is the key for achieving sub-shot-noise performance. We compare the numerical results with two paradigmatic limits: the shot-noise limit (achieved using coherent sources) and the quantum limit (obtained with an ideal photon-number Fock state as the input source). We also investigate conditions in which threshold detectors can be used, and the effect of input light fluctuations on the measurement error. Results show that sub-shot-noise performance can be achieved, even without using number-resolving detectors, with improvement factors that range from 1.5 to 2. This technique would allow measurements of optical absorption of a sample with reasonable uncertainty using ultra-low light intensity and minimum disruption of biological or other fragile specimens.
翻訳日:2023-05-07 12:52:01 公開日:2020-12-03
# シングルキュービットチャネルのsolovay-kitaev分解のスピン軌道実装

Spin-orbit implementation of Solovay-Kitaev decomposition of single-qubit channels ( http://arxiv.org/abs/2008.02631v2 )

ライセンス: Link先を確認
M. H. M. Passos, A. de Oliveira Junior, M. C. de Oliveira, A. Z. Khoury, J. A. O Huguenin(参考訳) ソロヴェイ=キタエフの定理により、任意の単一量子ビットゲートを任意の精度で、普遍的なゲート集合から基本操作の有限列で近似することができる。 この分解に着想を得て,完全正のトレース保存マップを実装可能な量子チャネルシミュレータを提案する。 我々の実現は、レーザービーム(軌道自由度)の横モードで符号化された1つの補助量子ビット、その偏光(スピン)で符号化される1つの量子ビットシステム、スピン軌道cnotゲート、プリズムと偏光成分で実行される4つのシングル量子ビット演算からなる。 本研究は,光子偏光における単一量子チャネルの任意の実装を,逆モードを補助量子ビットとして記述する。

The Solovay-Kitaev theorem allows us to approximate any single-qubit gate to arbitrary accuracy with a finite sequence of fundamental operations from a universal set of gates. Inspired by this decomposition, we present a quantum channel simulator capable of implementing any completely positive trace-preserving map. Our realization consists of one ancillary qubit, encoded in the transverse mode of a laser beam (orbital degree of freedom), one qubit system, encoded in its polarization (spin), one spin-orbit CNOT gate and four single-qubit operations performed with prisms and polarization components. Our results describe the implementation of arbitrary single-qubit channels on the photon polarization using the transverse mode as the ancillary qubit.
翻訳日:2023-05-07 00:09:48 公開日:2020-12-03
# 自己二重衝突イジングモデルにおけるスペクトル形状因子の統計

Statistics of the Spectral Form Factor in the Self-Dual Kicked Ising Model ( http://arxiv.org/abs/2009.03199v2 )

ライセンス: Link先を確認
Ana Flack, Bruno Bertini, Tomaz Prosen(参考訳) 我々は,各モーメントに対して正確な下界を与え,後者が飽和していることを数値的に検証することにより,自己双発蹴りアイシングモデルにおけるスペクトル形状係数の完全な確率分布を計算する。 確率分布がランダム行列の適切なアンサンブルを特定すると、確率分布はランダム行列理論の予測と正確に一致することを示す。 このアンサンブルは、対称ランダムユニタリ行列(英語版)で構成され、時間反転不変進化作用素(英語版)(time-reversal-invariant evolution operator)と関連づけられた円形直交行列ではなく、より制限された対称空間上のランダム行列のアンサンブルである(サイト数のパリティに依存する)この空間は${sp(n)/u(n)$ あるいは${o(2n)/{o(n)\! タイムズ! O(N)}}$。 後者のアンサンブルが円形の直交アンサンブルと同じ平均スペクトル形状因子を生成しても、実質的に強い変動を示す。 この挙動は、最近同定された自己双対蹴りイジングモデルの反単位対称性によるものである。

We compute the full probability distribution of the spectral form factor in the self-dual kicked Ising model by providing an exact lower bound for each moment and verifying numerically that the latter is saturated. We show that at large enough times the probability distribution agrees exactly with the prediction of Random Matrix Theory if one identifies the appropriate ensemble of random matrices. We find that this ensemble is not the circular orthogonal one - composed of symmetric random unitary matrices and associated with time-reversal-invariant evolution operators - but is an ensemble of random matrices on a more restricted symmetric space (depending on the parity of the number of sites this space is either ${Sp(N)/U(N)}$ or ${O(2N)/{O(N)\!\times\!O(N)}}$). Even if the latter ensembles yield the same averaged spectral form factor as the circular orthogonal ensemble they show substantially enhanced fluctuations. This behaviour is due to a recently identified additional anti-unitary symmetry of the self-dual kicked Ising model.
翻訳日:2023-05-03 07:23:47 公開日:2020-12-03
# 極端量子状態

Extremal quantum states ( http://arxiv.org/abs/2010.04732v2 )

ライセンス: Link先を確認
Aaron Z. Goldberg, Andrei B. Klimov, Markus Grassl, Gerd Leuchs and Luis L. S\'anchez-Soto(参考訳) 量子系と古典系の驚くべき違いは破壊的量子技術である。 量子性は、位相空間の定式化に焦点をあて、様々な観点で解釈する。 フシミ$Q$函数の対称性変換特性は、これを基本ツールにする。 後者の観点では、任意の量子状態の内在的性質に結びついているWehrlエントロピー、逆参加比、累積多極分布、およびメートルロジカルパワーなどの量を調べる。 これらの量を用いて極端原理を定式化し、どの状態が最もかつ最小の「量子」であるかを定式化し、それぞれの極端原理の対応する性質と潜在的有用性について詳細に調べる。 極端は連続変数系にほぼ一致するが、スピン系の解析により、極端原理を新しい文脈に適用する場合に注意が必要であることが示されている。

The striking differences between quantum and classical systems predicate disruptive quantum technologies. We peruse quantumness from a variety of viewpoints, concentrating on phase-space formulations because they can be applied beyond particular symmetry groups. The symmetry-transcending properties of the Husimi $Q$ function make it our basic tool. In terms of the latter, we examine quantities such as the Wehrl entropy, inverse participation ratio, cumulative multipolar distribution, and metrological power, which are linked to intrinsic properties of any quantum state. We use these quantities to formulate extremal principles and determine in this way which states are the most and least "quantum;" the corresponding properties and potential usefulness of each extremal principle are explored in detail. While the extrema largely coincide for continuous-variable systems, our analysis of spin systems shows that care must be taken when applying an extremal principle to new contexts.
翻訳日:2023-04-29 13:21:54 公開日:2020-12-03
# IBM量子デバイスにおけるフラグベースの耐故障性試験

Testing of flag-based fault-tolerance on IBM quantum devices ( http://arxiv.org/abs/2011.03224v3 )

ライセンス: Link先を確認
Anirudh Lanka(参考訳) NISQデバイスにおける理論的量子優位性を達成するのは難しい。 誤り軽減と動的疎結合によるエラー低減の試みに加えて、従来のスキームのオーバーヘッドを少なくする小さな量子誤り補正とフォールトトレラントスキームも提案されている。 近年の耐故障性の向上により,フラグを用いたアクビット数の最小化が可能となった。 これらのスキームの実装はまだ不可能だが、NISQ時代とFTQC時代の間のギャップを埋める価値はある。 そこで本研究では,NISQ デバイス上での[5,1,3] 符号のフラグによるフォールトトレラントな量子誤り訂正のベンチマーク手法を提案する。 ibmのqasmシミュレータと15キュービットメルボルンプロセッサを用いて得られた結果に基づき、このフラグ付きスキームがノイズ発生時に中間状態のサブスペースが期待状態とどの程度重なるかをチェックすることにより、nisqデバイス上でテスト可能であることを示す。

It is hard to achieve a theoretical quantum advantage on NISQ devices. Besides the attempts to reduce error using error mitigation and dynamical decoupling, small quantum error correction and fault-tolerant schemes that reduce the high overhead of traditional schemes have also been proposed. According to the recent advancements in fault tolerance, it is possible to minimize the number of ancillary qubits using flags. While implementing those schemes is still impossible, it is worthwhile to bridge the gap between the NISQ era and the FTQC era. Here, we introduce a benchmarking method to test fault-tolerant quantum error correction with flags for the [[5,1,3]] code on NISQ devices. Based on results obtained using IBM's qasm simulator and its 15-qubit Melbourne processor, we show that this flagged scheme is testable on NISQ devices by checking how much the subspace of intermediate state overlaps with the expected state in the presence of noise.
翻訳日:2023-04-25 03:23:32 公開日:2020-12-03
# 単粒子の絡み合いは、単粒子ステアリングのような真に非局所的な効果をもたらす

Single-particle entanglement gives rise to truly nonlocal effects like single-particle steering ( http://arxiv.org/abs/2011.08286v3 )

ライセンス: Link先を確認
L. M. Ar\'evalo Aguilar(参考訳) 1927年、ソルヴェイ会議でアインシュタインは、量子力学の不完全性を示す第一の意図について思考実験を行った。 この歴史的出来事は、量子力学の不完全性に対する有名なアインシュタイン=ポドルスク=ローゼンの批判に先行している。 本稿では,stern-gerlach実験(sge)を用いて,波動関数の崩壊の瞬時非局所的特徴と単粒子の絡み合いを用いて,ステアリングの非局所的効果を生成する方法を示す。 ステアリングプロセスにおいて、bobは観測可能なaliceが計測を決定するかによって量子状態を得る。 これを実現するために, 単一粒子の絡み合った波動関数の拡散(大距離にわたって)を十分に活用する。 特に、単粒子エンタングルメントの非局所性は、アリスがボブの状態を知るためにどの検出器を使っているかを粒子が知ることができることを実証する。 したがって,強い反論にもかかわらず,一粒子の絡み合いが2つの離れた場所で真に非局所的な効果をもたらすことが証明される。 このことは、真の非局所的なタスクを実装するために単一粒子の絡み合いを利用する可能性を開く。

In 1927, at the Solvay conference, Einstein posed a thought experiment with the primary intention of showing the incompleteness of quantum mechanics; to prove it, he uses the instantaneous nonlocal effects caused by the collapse of the wave function of a single particle -the spooky action at a distance-, when a measurement is done. This historical event precede the well-know Einstein-Podolsk-Rosen criticism over the incompleteness of quantum mechanics. Here, by using the Stern-Gerlach experiment (SGE), we demonstrate how the instantaneous nonlocal feature of the collapse of the wave function together with the single-particle entanglement can be used to produce the nonlocal effect of steering. In the steering process Bob gets a quantum state depending on which observable Alice decides to measure. To accomplish this, we fully exploit the spreading (over large distances) of the entangled wave function of the single-particle. In particular, we demonstrate that the nonlocality of the single-particle entanglement allows the particle to know which detector Alice is using to steer Bob's state. Therefore, notwithstanding strong counterarguments, we prove that the single-particle entanglement gives rise to truly nonlocal effects at two far a away places. This open the possibility of using the single-particle entanglement for implementing truly nonlocal task.
翻訳日:2023-04-23 23:23:38 公開日:2020-12-03
# 近fewestソート原子移動を用いた2次元欠陥フリーアトムアレイの効率的作製

Efficient preparation of 2D defect-free atom arrays with near-fewest sorting-atom moves ( http://arxiv.org/abs/2011.10390v2 )

ライセンス: Link先を確認
Cheng Sheng, Jiayi Hou, Xiaodong He, Peng Xu, Kunpeng Wang, Jun Zhuang, Xiao Li, Min Liu, Jin Wang, and Mingsheng Zhan(参考訳) 補助移動tweezerを介して光学トウェザアレイに確率的にロードされる原子の選別は、任意の測地において中間スケールの欠陥のない原子配列を作成するための効率的なアプローチである。 しかし、原子単位アセンブラの高充填率は、特にシステムサイズをより大きな原子数にスケールするために、不完全な原子輸送を伴う冗長なソート動作によって妨げられる。 そこで本研究では, 配向原子アセンブラ方式において, ほぼ北西に移動可能な新しいソートアルゴリズム(ヒューリスティッククラスタアルゴリズム, HCA)を提案し, 98.4(7)$\%$の補間サイクルに対する5\times6$欠陥のない原子配列を実験的に示す。 移動数$N_{m}\approx N$(N$は満たすべき欠陥点数)というHCAの特徴は、原子アセンブラのサイズが大きくなるにつれて充填率を均一にする。 本手法は, ボトムアップ量子計算, 量子シミュレーション, 精度測定のために, 数百個の原子をスケールするために必要である。

Sorting atoms stochastically loaded in optical tweezer arrays via an auxiliary mobile tweezer is an efficient approach to preparing intermediate-scale defect-free atom arrays in arbitrary geometries. However, high filling fraction of atom-by-atom assemblers is impeded by redundant sorting moves with imperfect atom transport, especially for scaling the system size to larger atom numbers. Here, we propose a new sorting algorithm (heuristic cluster algorithm, HCA) which provides near-fewest moves in our tailored atom assembler scheme and experimentally demonstrate a $5\times6$ defect-free atom array with 98.4(7)$\%$ filling fraction for one rearrangement cycle. The feature of HCA that the number of moves $N_{m}\approx N$ ($N$ is the number of defect sites to be filled) makes the filling fraction uniform as the size of atom assembler enlarged. Our method is essential to scale hundreds of assembled atoms for bottom-up quantum computation, quantum simulation and precision measurement.
翻訳日:2023-04-23 15:04:58 公開日:2020-12-03
# 状態準備なしでの$\mathbb{Z}_2$ゲージ理論の量子シミュレーションに向けて

Toward Quantum Simulations of $\mathbb{Z}_2$ Gauge Theory Without State Preparation ( http://arxiv.org/abs/2011.11677v2 )

ライセンス: Link先を確認
Erik J. Gustafson and Henry Lamm(参考訳) 量子コンピュータ上に強く結合した粒子状態を作るには、大量の資源が必要である。 本稿では、量子コンピュータ上でこれらの状態を明示的に準備することなく、ミンコフスキー行列要素を計算するために、古典的なサンプリングと射影演算子を組み合わせる方法を示す。 これを量子シミュレータを用いて小格子上の 2+1d $\mathbb{z}_2$ 格子ゲージ理論で証明する。

Preparing strongly-coupled particle states on quantum computers requires large resources. In this work, we show how classical sampling coupled with projection operators can be used to compute Minkowski matrix elements without explicitly preparing these states on the quantum computer. We demonstrate this for the 2+1d $\mathbb{Z}_2$ lattice gauge theory on small lattices with a quantum simulator.
翻訳日:2023-04-23 08:51:30 公開日:2020-12-03
# スーパーデンス符号化の剛性

Rigidity of superdense coding ( http://arxiv.org/abs/2012.01672v1 )

ライセンス: Link先を確認
Ashwin Nayak and Henry Yuen(参考訳) bennett と wiesner の有名な superdense 符号化プロトコルは、1つの qubit だけを送信し、共有 epr ペアを使って2ビットの古典情報を伝えることができることを実証している。 最初の結果は、このタスクを達成するための任意のプロトコル(送信者のエンコーディング操作や共有されたエンタングル状態の次元に仮定がない)が、標準のbennett-wiesnerプロトコルと局所的に等価であるということです。 言い換えれば、超高次符号化タスクは厳格である。 特に,送信側と受信側は,古典的ランダム性の源として,追加の絡み合い(EPRペア以外の)のみを使用することを示す。 次に、$d^2$ 可能なメッセージの1つを$d$-dimensional 量子状態を送信することで通信することを目的としている高次元のスーパーデンス符号化が、すべての$d \geq 2$ に対して厳格であるかどうかを調べる。 直交ユニタリベースの選択により、d$-dimensional superdense 符号化は厳密であると仮定し、すべての$d > 2$ に対して非同値ユニタリベースを具体的構成する。 最後に、符号化演算子がユニタリ群上のハール測度から独立にサンプリングされるスーパーデンス符号化プロトコルの性能を分析する。 我々の分析は、無作為な最大絡み合った状態の区別可能性の有界化を伴う。

The famous superdense coding protocol of Bennett and Wiesner demonstrates that it is possible to communicate two bits of classical information by sending only one qubit and using a shared EPR pair. Our first result is that an arbitrary protocol for achieving this task (where there are no assumptions on the sender's encoding operations or the dimension of the shared entangled state) are locally equivalent to the canonical Bennett-Wiesner protocol. In other words, the superdense coding task is rigid. In particular, we show that the sender and receiver only use additional entanglement (beyond the EPR pair) as a source of classical randomness. We then explore whether higher-dimensional superdense coding, where the goal is to communicate one of $d^2$ possible messages by sending a $d$-dimensional quantum state, is rigid for all $d \geq 2$. We conjecture that $d$-dimensional superdense coding is rigid up to the choice of orthogonal unitary bases, and present concrete constructions of inequivalent unitary bases for all $d > 2$. Finally, we analyze the performance of superdense coding protocols where the encoding operators are independently sampled from the Haar measure on the unitary group. Our analysis involves bounding the distinguishability of random maximally entangled states, which may be of independent interest.
翻訳日:2023-04-22 05:50:16 公開日:2020-12-03
# 光子を用いた量子計算の利点

Quantum computational advantage using photons ( http://arxiv.org/abs/2012.01625v1 )

ライセンス: Link先を確認
Han-Sen Zhong, Hui Wang, Yu-Hao Deng, Ming-Cheng Chen, Li-Chao Peng, Yi-Han Luo, Jian Qin, Dian Wu, Xing Ding, Yi Hu, Peng Hu, Xiao-Yan Yang, Wei-Jun Zhang, Hao Li, Yuxuan Li, Xiao Jiang, Lin Gan, Guangwen Yang, Lixing You, Zhen Wang, Li Li, Nai-Le Liu, Chao-Yang Lu, Jian-Wei Pan(参考訳) ガウス・ボソンサンプリングは、圧縮状態を利用して量子計算の利点を示す非常に効率的な方法を提供する。 完全接続性とランダム変換を備えた100モード超低損失干渉計に供給され,100個の高効率単光子検出器を用いて試料を採取した。 全光セットアップは位相ロックされ、全ての光子数状態の重ね合わせの間の高いコヒーレンスを維持する。 我々は76個の出力光子クリックを観測し、出力状態空間次元は10^{30}$、サンプリングレートは10^{14}$で、最先端のシミュレーション戦略やスーパーコンピュータよりも高速である。 得られた試料は、熱状態、識別可能な光子、均一分布を含む様々な仮説に対して検証される。

Gaussian boson sampling exploits squeezed states to provide a highly efficient way to demonstrate quantum computational advantage. We perform experiments with 50 input single-mode squeezed states with high indistinguishability and squeezing parameters, which are fed into a 100-mode ultralow-loss interferometer with full connectivity and random transformation, and sampled using 100 high-efficiency single-photon detectors. The whole optical set-up is phase-locked to maintain a high coherence between the superposition of all photon number states. We observe up to 76 output photon-clicks, which yield an output state space dimension of $10^{30}$ and a sampling rate that is $10^{14}$ faster than using the state-of-the-art simulation strategy and supercomputers. The obtained samples are validated against various hypotheses including using thermal states, distinguishable photons, and uniform distribution.
翻訳日:2023-04-22 05:49:53 公開日:2020-12-03
# 量子ブロックルックアヘッド加算器とマジック状態の待ち行列

Quantum block lookahead adders and the wait for magic states ( http://arxiv.org/abs/2012.01624v1 )

ライセンス: Link先を確認
Craig Gidney(参考訳) 低深度量子加算器のトッフォリ数を改善し、その時空コストが限られた数のマジックステートファクトリーとどのように反応するかを分析する。 我々は、全ビットに代えて$b$というサイズのビットのブロックを並列化するブロックルックアヘッドアダを示します。 block lookahead adderは、toffoliカウントが3n + 5n/b$ for out of place addition (vs 4n$ in previous work by thapliyal et al)、そして5n + 8n/b$ for in place addition (vs 7n$ in previous work by thapliyal et al)である。 トレードオフは、これらの回路の反応深さが直線的に$b$に依存し、追加のワークスペースを使用することである。 本研究では, これらの加算器の時空体積と, 各種レジスタサイズ, 工場数について, 表面コードおよび超伝導量子ビットに基づく大規模量子コンピュータの仮定として推定する。

We improve the Toffoli count of low depth quantum adders, and analyze how their spacetime cost reacts to having a limited number of magic state factories. We present a block lookahead adder that parallelizes across blocks of bits of size $b$, instead of over all bits. The block lookahead adder achieves a Toffoli count of $3n + 5n/b$ for out of place addition (vs $4n$ in previous work by Thapliyal et al) and $5n + 8n/b$ for in place addition (vs $7n$ in previous work by Thapliyal et al). The tradeoff is that the reaction depth of these circuits depends linearly on $b$, and they use additional workspace. We estimate the spacetime volume of these adders, and adders from previous work, for various register sizes and factory counts under plausible assumptions for a large scale quantum computer based on the surface code and superconducting qubits.
翻訳日:2023-04-22 05:49:36 公開日:2020-12-03
# 偏光エンタングル光子をもつ非局所性のモデル独立研究

A model independent study of nonlocality with polarization entangled photons ( http://arxiv.org/abs/2012.01739v1 )

ライセンス: Link先を確認
Boya Xie and Sheng Feng(参考訳) 量子力学の基本的な側面としての非局所性はベルの不等式やその変種に違反し、関連するすべての研究が局所的現実的な理論によって示されるいくつかの相関を仮定している。 ベルの定理の戦略は、絡み合った系の非局所的な性質に関して、局所現実理論と量子力学を区別するいくつかの基準を確立することである。 ここでは、期待される非局所効果の観測が機械的に単純であるので、局所理論を仮定する必要のない非局所性に関するモデル独立研究を提案する。 提案手法は,空間状距離のパートナーが別のCP状態に検出された場合に,光子1個が直ちに円偏光(CP)状態に還元される二部分極結合系を含む。 CP光子が角運動量を持ち、機械的な運動が測定可能な半波長板上でトルクを発揮するため、量子力学によってよく説明され、局所的な現実的な仮定とは無関係に、光子の状態の減少を機械的に監視することができる。

Nonlocality as a fundamental aspect of quantum mechanics is witnessed by violation of Bell inequality or its variants, for which all relevant studies assume some correlations exhibited by local realistic theories. The strategy of Bell's theorem is to establish some criteria to distinguish local realistic theories from quantum mechanics with respect to the nonlocal nature of entangled systems. Here we propose a model independent study of nonlocality that needs not to assume any local theory since observation of the expected nonlocal effect is straightforward quantum mechanically. Our proposal involves a bipartite polarization-entangled system in which one photon immediately reduces into a circular-polarization (CP) state when its partner at a space-like distance is detected in another CP state. The state reduction of the photon can be mechanically monitored because a CP photon carries angular momentum and exerts a torque on a half-wave plate whose mechanical motion is measurable, which is well described by quantum mechanics and independent of any local realistic assumption.
翻訳日:2023-04-22 05:45:53 公開日:2020-12-03
# 単層グラフェンを用いた自己相似多バリア構造の熱電効果

Thermoelectric effects in selfsimilar multibarrier structure based on monolayer graphene ( http://arxiv.org/abs/2012.01680v1 )

ライセンス: Link先を確認
M.Miniya, O.Oubram, A.G.Reynaud Morales, I.Rodriguez-Vargas, L.M.Gaggero Sager(参考訳) 近年、物理学者や技術者から熱電効果が注目されている。 本研究では, 単層グラフェン系構造物の熱電効果における自己相似パターンを, 量子相対論的ディラック方程式を用いて検討する。 伝送係数を計算するために転送行列法が用いられている。 コンダクタンス,シーベック係数,パワー係数の計算には,landauer buttiker 形式と cutler mott 公式を用いた。 輸送特性と熱電特性の世代間における自己相似挙動とスケール因子を見いだす。 さらに,このようなスケール不変性を一般的なスケーリングルールとして実装する。 本稿では,seebeck係数の自己相似性の新たな解析的実証を行う。 これらの知見は、実験者が熱電デバイスを開発するための際立った視点を開くことができる。

Thermoelectric effects have attracted wide attention in recent years from physicists and engineers. In this work, we explore the selfsimilar patterns in the thermoelectric effects of monolayer graphene based structures, by using the quantum relativistic Dirac equation. The transfer matrix method has been used to calculate the transmission coefficient. The Landauer Buttiker formalism and the Cutler Mott formula were used to calculate the conductance, the Seebeck coefficient, and the power factor. We find selfsimilar behavior and the scale factors between generations in the transport and thermoelectric properties. Furthermore, we implement these scale invariances as general scaling rules. We present a new analytical demonstration of selfsimilarity in the Seebeck coefficient. These findings can open outstanding perspectives for experimentalists to develop thermoelectric devices.
翻訳日:2023-04-22 05:43:51 公開日:2020-12-03
# 隠れ信号源の局所化のための複雑なネットワークにおけるセンサ配置の最適化

Optimizing sensors placement in complex networks for localization of hidden signal source: A review ( http://arxiv.org/abs/2012.01876v1 )

ライセンス: Link先を確認
Robert Paluch, {\L}ukasz G. Gajewski, Janusz A. Ho{\l}yst, Boleslaw K. Szymanski(参考訳) 世界がますます相互に結びつくようになるにつれて、私たちの日常のオブジェクトはモノのインターネットの一部となり、私たちの生活はますますバーチャルリアリティーに反映されていく。 このような非制御的な拡散を抑制するためには、そのような悪意ある情報を追跡できる効率的なコンピュータシステムとアルゴリズムを開発する必要がある。 現在、ソースローカライゼーションの最も効果的な方法は、--spreadを検出する時間を提供するセンサーに基づいている。 複雑なネットワークにおけるセンサの最適配置の問題を調査し、他の4つの指標と比較した「コレクティブ・インターフェクション」と呼ばれる新しいグラフ尺度を提案する。 センサの密度や信号の確率の広い範囲にわたって、様々な種類の複雑なネットワーク上で広範な数値実験が行われる。 そこで,本実験では,実およびスケールフリー合成ネットワークと狭い分布ネットワークとの最適配置法の比較性能の違いを明らかにした。 前者は、パフォーマンスマップが均質でない後者とは対照的に、任意のメソッドの支配に対して明確な領域を持つ。 ベストな方法を選ぶことは、非常にネットワーク的で、広く依存するものですが、一貫して際立った方法が2つあります。 高変動オブザーバは低確率で拡散するのに対して,本論文で紹介した集合的Betwennessは,拡散が予測不可能なときに成長する。

As the world becomes more and more interconnected, our everyday objects become part of the Internet of Things, and our lives get more and more mirrored in virtual reality, where every piece of~information, including misinformation, fake news and malware, can spread very fast practically anonymously. To suppress such uncontrolled spread, efficient computer systems and algorithms capable to~track down such malicious information spread have to be developed. Currently, the most effective methods for source localization are based on sensors which provide the times at which they detect the~spread. We investigate the problem of the optimal placement of such sensors in complex networks and propose a new graph measure, called Collective Betweenness, which we compare against four other metrics. Extensive numerical tests are performed on different types of complex networks over the wide ranges of densities of sensors and stochasticities of signal. In these tests, we discovered clear difference in comparative performance of the investigated optimal placement methods between real or scale-free synthetic networks versus narrow degree distribution networks. The former have a clear region for any given method's dominance in contrast to the latter where the performance maps are less homogeneous. We find that while choosing the best method is very network and spread dependent, there are two methods that consistently stand out. High Variance Observers seem to do very well for spread with low stochasticity whereas Collective Betwenness, introduced in this paper, thrives when the spread is highly unpredictable.
翻訳日:2023-04-22 05:38:14 公開日:2020-12-03
# タニアとジェフリー・バブの完全ランダム:なぜ誰も量子力学を理解できないのか:絡み合いに関する真剣なコミック

Essay Review of Tanya and Jeffrey Bub's Totally Random: Why Nobody Understands Quantum Mechanics: A Serious Comic on Entanglement ( http://arxiv.org/abs/2012.01860v1 )

ライセンス: Link先を確認
Michael E. Cuffaro and Emerson P. Doyle(参考訳) これはタンヤとジェフリー・バブの『Totally Random: Why Nobody Understands Quantum Mechanics: A serious comic on entanglement』のエッセイの延長版である。 Princeton and Oxford: Princeton University Press (2018), ISBN: 9780691176956, 272 pp。 7×10インチ。 254b/w illus。 ポンド18.99 / $222.95 (ペーパーバック)。 本書の哲学的側面を概観し,本書をクラス設定でどのように使うかのインストラクターに提案し,漫画理論の文脈における著者の芸術的選択を評価する。

This is an extended essay review of Tanya and Jeffrey Bub's Totally Random: Why Nobody Understands Quantum Mechanics: A serious comic on entanglement. Princeton and Oxford: Princeton University Press (2018), ISBN: 9780691176956, 272 pp., 7x10 in., 254 b/w illus., {\pounds}18.99 / $22.95 (paperback). We review the philosophical aspects of the book, provide suggestions for instructors on how to use the book in a class setting, and evaluate the authors' artistic choices in the context of comics theory.
翻訳日:2023-04-22 05:37:34 公開日:2020-12-03
# 新型コロナウイルス検査のデジタル景観 : 課題と機会

Digital Landscape of COVID-19 Testing: Challenges and Opportunities ( http://arxiv.org/abs/2012.01772v1 )

ライセンス: Link先を確認
Darshan Gandhi, Rohan Sukumaran, Priyanshi Katiyar, Alex Radunsky, Sunaina Anand, Shailesh Advani, Jil Kothari, Kasia Jakimowicz, Sheshank Shankar, Sethuraman T. V., Krutika Misra, Aishwarya Saxena, Sanskruti Landage, Richa Sonker, Parth Patwa, Aryan Mahindra, Mikhail Dmitrienko, Kanishka Vaish, Ashley Mehra, Srinidhi Murali, Rohan Iyer, Joseph Bae, Vivek Sharma, Abhishek Singh, Rachel Barbar and Ramesh Raskar(参考訳) 新型コロナウイルス(COVID-19)パンデミック(パンデミック)は、生活の損失、経済の衰退、旅行制限、貿易赤字、不動産、雇用の損失、健康上の利益の損失、医療やサービスへのアクセスの質の低下、生活の全体的な品質など、世界中で壊滅的な道を歩んでいる。 予想されるワクチンからの免疫は、パンデミックを乗り越え、正常化に戻るためのスタンドアロンのガイドラインではない。 効果的な公衆衛生介入の4つの柱は、無症候性および症状性両方の診断検査、接触追跡、症状またはcovid-19に晒された個人の隔離、個人およびコミュニティレベルでの厳格な衛生基準の維持である。 現在新型コロナウイルス(COVID-19)検査に使われているデジタル技術には、特定のモバイルアプリ、Webダッシュボード、オンライン自己評価ツールなどがある。 本稿では,大学,企業,その他の組織にまたがるコミュニティが採用する様々なデジタルソリューションについて考察する。 我々は,これらのツールを用いて経験した課題を,情報の質,プライバシ,ユーザ中心の問題などの観点から要約する。 多くのデジタルソリューションが利用可能であり、開発されているにもかかわらず、品質と量の両方で共有される情報については、多くの点で異なる。 デジタルレンズによるテスト環境の理解は、データプライバシやコスト、誤ったコミュニケーションなど、私たちが直面するさまざまな課題に対する明確な洞察を与えてくれます。 新型コロナウイルス(covid-19)の検査をナビゲートするのはデジタル化の運命です。 ブロックチェーンベースのシステムは、プライバシ保護とデータの所有権の確保に使用することができる。 もう1つの解決策は、関連する情報と正しい情報を持つデジタルヘルスパスポートを持つことだ。 この初期ドラフトでは、課題を要約し、同じ問題に対処する可能な解決策を提案する。

The COVID-19 Pandemic has left a devastating trail all over the world, in terms of loss of lives, economic decline, travel restrictions, trade deficit, and collapsing economy including real-estate, job loss, loss of health benefits, the decline in quality of access to care and services and overall quality of life. Immunization from the anticipated vaccines will not be the stand-alone guideline that will help surpass the pandemic and return to normalcy. Four pillars of effective public health intervention include diagnostic testing for both asymptomatic and symptomatic individuals, contact tracing, quarantine of individuals with symptoms or who are exposed to COVID-19, and maintaining strict hygiene standards at the individual and community level. Digital technology, currently being used for COVID-19 testing include certain mobile apps, web dashboards, and online self-assessment tools. Herein, we look into various digital solutions adapted by communities across universities, businesses, and other organizations. We summarize the challenges experienced using these tools in terms of quality of information, privacy, and user-centric issues. Despite numerous digital solutions available and being developed, many vary in terms of information being shared in terms of both quality and quantity, which can be overwhelming to the users. Understanding the testing landscape through a digital lens will give a clear insight into the multiple challenges that we face including data privacy, cost, and miscommunication. It is the destiny of digitalization to navigate testing for COVID-19. Block-chain based systems can be used for privacy preservation and ensuring ownership of the data to remain with the user. Another solution involves having digital health passports with relevant and correct information. In this early draft, we summarize the challenges and propose possible solutions to address the same.
翻訳日:2023-04-22 05:35:18 公開日:2020-12-03
# ランダムな探索による量子状態の最初の検出時間

The first detection time of a quantum state under random probing ( http://arxiv.org/abs/2012.01763v1 )

ライセンス: Link先を確認
David A. Kessler, Eli Barkai, Klaus Ziegler(参考訳) 我々は、独立に分散したランダム時間間隔で投射的な測定を受ける場合、特定の所望の状態で量子系の最初の検出の統計を解く。 我々は,$n$th の試みにおける検出確率の式を提示した。 最初の検出試行の成功回数と最初の検出までの平均と平均の2乗をともに計算する。 我々は, 検出間隔が指数関数的に分布する場合に, 任意の任意の地点で観測された, サイズ$l$のリング上の部位に初期局在した粒子について, 明示的な結果を示す。 すべての区間分布と有限次元ハミルトニアンに対して、平均検出時間は、試行の間の平均時間間隔の平均試行回数倍に等しいことが証明される。 さらに,初期状態と目標状態が同一である場合の帰納問題に対して,全検出確率は一様であり,検出までの平均試行はヒルベルト空間の大きさである整数であることが証明される(対象状態に関する対称性)。 一定時間間隔の場合と時間間隔の指数分布との補間について,平均値と幅の異なるガンマ分布を用いて検討した。 平均間隔の関数としての平均到着時間は、サンプリングのランダム性によって共鳴が消去されるので、非常に狭い(デルタピーク)から指数関数への対数時間分布をチューニングするにつれて定性的に変化する。

We solve for the statistics of the first detection of a quantum system in a particular desired state, when the system is subject to a projective measurement at independent identically distributed random time intervals. We present formulas for the probability of detection in the $n$th attempt. We calculate as well the mean and mean square both of the number of the first successful detection attempt and the time till first detection. We present explicit results for a particle initially localized at a site on a ring of size $L$, probed at some arbitrary given site, in the case when the detection intervals are distributed exponentially. We prove that, for all interval distributions and finite-dimensional Hamiltonians, the mean detection time is equal to the mean attempt number times the mean time interval between attempts. We further prove that for the return problem when the initial and target state are identical, the total detection probability is unity and the mean attempts till detection is an integer, which is the size of the Hilbert space (symmetrized about the target state). We study an interpolation between the fixed time interval case to an exponential distribution of time intervals via the Gamma distribution with constant mean and varying width. The mean arrival time as a function of the mean interval changes qualitatively as we tune the inter-arrival time distribution from very narrow (delta peaked) to exponential, as resonances are wiped out by the randomness of the sampling.
翻訳日:2023-04-22 05:34:49 公開日:2020-12-03
# 多層ネットワーク上のソース位置

Source location on multilayer networks ( http://arxiv.org/abs/2012.02023v1 )

ライセンス: Link先を確認
Robert Paluch, {\L}ukasz G. Gajewski, K. Suchecki, Janusz A. Ho{\l}yst(参考訳) 今日では、多層ネットワークの拡散に対処しなければならないことは珍しくなく、その伝播源を見つけることが重要な課題である。 本稿では,多層グラフ上での操作を拡張可能な最大可能性アプローチを用いて,この問題に対処する。 合成ネットワーク上でのソース位置推定の手法を検証し,その潜在的な強度と限界について概説する。 また、システム側が結果の悪化を観測するほど、より多くのレイヤの形で問題が複雑化することによって、パフォーマンスが実際に向上する、非自明でおそらく驚くべき現象も観察します。

Nowadays it is not uncommon to have to deal with dissemination on multi-layered networks and often finding the source of said propagation can be a crucial task. In this paper we tackle this exact problem with a maximum likelihood approach that we extend to be operational on multi-layered graphs. We test our method for source location estimation on synthetic networks and outline its potential strengths and limitations. We also observe some non-trivial and perhaps surprising phenomena where the more of the system one observes the worse the results become whereas increased problem complexity in the form of more layers can actually improve our performance.
翻訳日:2023-04-22 05:27:29 公開日:2020-12-03
# 幾何位相をもつqmcシミュラビリティの決定

Determining QMC simulability with geometric phases ( http://arxiv.org/abs/2012.02022v1 )

ライセンス: Link先を確認
Itay Hen(参考訳) 確率的ハミルトニアンは符号プロブレムのない量子モンテカルロ (QMC) 技術でシミュレート可能であることが知られているが、ハミルトニアンの非確率性は必ずしもQMC符号問題の存在を示唆するものではない。 随伴行列がハミルトニアンである重み付きグラフの弦なしサイクルに関連する幾何学的位相の観点から、ハミルトニアンの qmc-simulability に対する十分かつ必要条件を与える。 そこで本研究では,QMCシミュレーション可能な量子多体モデルの構築について検討した。 また、確率化ハミルトニアンのQMC重みを用いた真手代数学モデルのシミュレーションが一般に準最適であることを示す。 私たちは優れた代替手段を提供する。

Although stoquastic Hamiltonians are known to be simulable via sign-problem-free quantum Monte Carlo (QMC) techniques, the non-stoquasticity of a Hamiltonian does not necessarily imply the existence of a QMC sign problem. We give a sufficient and necessary condition for the QMC-simulability of Hamiltonians in a fixed basis in terms of geometric phases associated with the chordless cycles of the weighted graphs whose adjacency matrices are the Hamiltonians. We use our findings to provide a construction for non-stoquastic, yet sign-problem-free and hence QMC-simulable, quantum many-body models. We also demonstrate why the simulation of truly sign-problematic models using the QMC weights of the stoquasticized Hamiltonian is generally sub-optimal. We offer a superior alternative.
翻訳日:2023-04-22 05:27:10 公開日:2020-12-03
# 駆動散逸格子モデルの完全量子スケーラブル記述

Fully quantum scalable description of driven dissipative lattice models ( http://arxiv.org/abs/2012.02014v1 )

ライセンス: Link先を確認
Piotr Deuar, Alex Ferrier, Micha{\l} Matuszewski, Giuliano Orso, Marzena H. Szyma\'nska(参考訳) 多くのフォトニックプラットフォームにおける最近の実験的進歩により、大規模駆動散逸量子系をモデル化する手法が急激になりつつある。 本研究では,この目的に理想的となる正のp法を多種多様なパラメータで示し,原型駆動散逸型ボース・ハバードモデルに焦点をあてた。 特にこれらのパラメータは、相互作用と散逸が同等の中間的な状態、特に一般的な半古典的近似が崩壊する低い職業の場合に含まれる。 散逸の存在は、閉じた系で起こることが知られている方法の不安定性を緩和し、定常状態までのダイナミクスのシミュレーションを可能にする。 モデルのパラメータ空間全体を通して、この手法を有用かつ安定させるのに十分な散逸の大きさを判定し、切断されたウィグナーのそれと相補的な適用範囲を見いだす。 次に,数万のサイトを持つ大規模かつ高度に非一様システムにおける緊急のオープン問題を解くデモを含む,非自明な量子相関を持ついくつかの例でその利用を実証する。

Methods for modeling large driven dissipative quantum systems are becoming increasingly urgent due to recent experimental progress in a number of photonic platforms. We demonstrate the positive-P method to be ideal for this purpose across a wide range of parameters, focusing on the archetypal driven dissipative Bose-Hubbard model. Notably, these parameters include intermediate regimes where interactions and dissipation are comparable, and especially cases with low occupations for which common semiclassical approximations can break down. The presence of dissipation can alleviate instabilities in the method that are known to occur for closed systems, allowing the simulation of dynamics up to and including the steady state. Throughout the parameter space of the model, we determine the magnitude of dissipation that is sufficient to make the method useful and stable, finding its region of applicability to be complementary to that of truncated Wigner. We then demonstrate its use in a number of examples with nontrivial quantum correlations, including a demonstration of solving the urgent open problem of large and highly non-uniform systems with even tens of thousands of sites.
翻訳日:2023-04-22 05:26:47 公開日:2020-12-03
# 量子系による量子系のロバスト制御

Robust control of quantum systems by quantum systems ( http://arxiv.org/abs/2012.01998v1 )

ライセンス: Link先を確認
Thomas Konrad, Amy Rouillard, Michael Kastner and Hermann Uys(参考訳) 量子システムは、他の量子系によって可逆的に制御でき、システムコントローラの外部に情報を漏らすことなく制御できる。 このようなコヒーレントな量子制御は決定論的であり、測定に基づくフィードバック制御よりもノイズが少なく、量子計算、量子通信、量子メトロロジーなど様々な量子技術で潜在的な応用がある。 ここでは、任意の初期状態からターゲット状態に向かって量子システムを操縦する、制御量子システムと同一の相互作用からなるコヒーレントフィードバックプロトコルを紹介する。 我々は、目標状態への収束を達成するようなコヒーレントなフィードバックチャネルの幅広いクラスを決定し、それを安定化させ、ノイズから保護する。 この結果から, システム・コントローラの弱い相互作用も, 高周波数で発生するとノイズに対処できることがわかった。 我々は,コントローラにエンコードされた対象状態の知識を必要とせず,量子計算の結果となる制御スキームの例を示す。 これにより、自律的、純粋に量子閉ループ制御のメカニズムを提供する。

Quantum systems can be controlled by other quantum systems in a reversible way, without any information leaking to the outside of the system-controller compound. Such coherent quantum control is deterministic, is less noisy than measurement-based feedback control, and has potential applications in a variety of quantum technologies, including quantum computation, quantum communication and quantum metrology. Here we introduce a coherent feedback protocol, consisting of a sequence of identical interactions with controlling quantum systems, that steers a quantum system from an arbitrary initial state towards a target state. We determine the broad class of such coherent feedback channels that achieve convergence to the target state, and then stabilise as well as protect it against noise. Our results imply that also weak system-controller interactions can counter noise if they occur with suitably high frequency. We provide an example of a control scheme that does not require knowledge of the target state encoded in the controllers, which could be the result of a quantum computation. It thus provides a mechanism for autonomous, purely quantum closed-loop control.
翻訳日:2023-04-22 05:26:22 公開日:2020-12-03
# 2つの異なる符号化チャネルのコヒーレント重ね合わせを持つ量子メソロジー

Quantum Metrology with Coherent Superposition of Two Different Coded Channels ( http://arxiv.org/abs/2012.01899v1 )

ライセンス: Link先を確認
Dong Xie, Chunling Xu, An Min Wang(参考訳) 量子メソロジーにおける2つの異なる符号化チャネルのコヒーレント重ね合わせの利点について検討する。 連続変数系において、ハイゼンベルク極限1/N$は不定因数順序の助けなしにコヒーレント重ね合わせによって打ち負かすことができることを示す。 そしてパラメータ推定において、コヒーレント重ね合わせによる戦略は、不定因果順序を生成する量子 \textsc{switch} の戦略よりもうまく機能することを示す。 我々は,量子フィッシャー情報を用いて推定精度の一般形態を解析的に求め,さらに非線形ハミルトニアンが推定精度を向上し,測定の不確かさを1/n^m$ for $m\geq2$とすることを示した。 この結果は,結合強度の検出,時間拡張試験,標準通勤関係の修正に応用できる高精度測定装置の構築に役立てることができる。

We investigate the advantage of coherent superposition of two different coded channels in quantum metrology. In a continuous variable system, we show that the Heisenberg limit $1/N$ can be beaten by the coherent superposition without the help of indefinite causal order. And in parameter estimation, we demonstrate that the strategy with the coherent superposition can perform better than the strategy with quantum \textsc{switch} which can generate indefinite causal order. We analytically obtain the general form of estimation precision in terms of the quantum Fisher information and further prove that the nonlinear Hamiltonian can improve the estimation precision and make the measurement uncertainty scale as $1/N^m$ for $m\geq2$. Our results can help to construct a high-precision measurement equipment, which can be applied to the detection of coupling strength and the test of time dilation and the modification of the canonical commutation relation.
翻訳日:2023-04-22 05:25:54 公開日:2020-12-03
# PT対称キャビティマグノニクス系におけるパラメータ推定と量子絡み合い

Parameter estimation and quantum entanglement in PT symmetrical cavity magnonics system ( http://arxiv.org/abs/2012.01890v1 )

ライセンス: Link先を確認
Dong Xie, Chunling Xu, An min Wang(参考訳) マグノンキャビティ・マグノン結合系におけるパラメータ推定について検討した。 共振磁場モードの断熱除去により、利得磁性材料にPT対称2つのマグノン系を形成することができる。 量子揺らぎが例外点において最強であることから、最適推定が例外点に現れないことが示される。 さらに, 異常点における測定は, 準備時間の増加とともに最適であることを示した。 そして、直接光子検出は真空入力状態の初期状態の最適測定である。 開pt対称2マグノン系では、量子揺らぎは絡み合いの程度を大幅に減少させる。 最後に,pt対称2マグノン系における1マグノンの周波数を測定することにより,より高い推定磁気感度が得られることを示す。

We investigate the parameter estimation in a magnon-cavity-magnon coupled system. PT symmetrical two magnons system can be formed in the gain magnetic materials by the adiabatic elimination of the cavity field mode. We show that the optimal estimation will not appear at the exceptional point due to that the quantum fluctuations are the strongest at the exceptional point. Moreover, we demonstrate that the measurements at the exceptional point tend to be optimal with the increase of prepared time. And the direct photon detection is the optimal measurement for the initial state in the vacuum input state. For the open PT symmetrical two magnons system, the quantum fluctuations will greatly reduce the degree of entanglement. Finally, we show that a higher estimated magnetic sensitivity can be obtained by measuring the frequency of one magnon in the PT symmetrical two magnons system.
翻訳日:2023-04-22 05:25:24 公開日:2020-12-03
# 電子二重スリット実験におけるモメンタム交換

Momentum exchange in the electron double-slit experiment ( http://arxiv.org/abs/2012.02141v1 )

ライセンス: Link先を確認
H. Batelaan, Eric Jones, Wayne Cheng-Wei Huang, Roger Bach(参考訳) 電子二重スリット実験における個々の事象に対して運動量が保存されるという主張を支持する。 自然の帰結は、物理機構がこの運動量交換の原因であるが、基本機構が電子結晶の回折とカピツァ・ディラック効果で知られているとしても、ナノ加工された二重スリットからの電子回折は未知である。 真空場によって影響を受ける粒子軌道の観点での提案に向けた研究について述べる。 二重スリット回折の油滴類似の文脈において, トラジェクトリーの競合的な利用について論じる。

We provide support for the claim that momentum is conserved for individual events in the electron double slit experiment. The natural consequence is that a physical mechanism is responsible for this momentum exchange, but that even if the fundamental mechanism is known for electron crystal diffraction and the Kapitza-Dirac effect, it is unknown for electron diffraction from nano-fabricated double slits. Work towards a proposed explanation in terms of particle trajectories affected by a vacuum field is discussed. The contentious use of trajectories is discussed within the context of oil droplet analogues of double slit diffraction.
翻訳日:2023-04-22 05:17:17 公開日:2020-12-03
# 現実世界における倫理的テスト: 対人機械学習の身体的テストの評価

Ethical Testing in the Real World: Evaluating Physical Testing of Adversarial Machine Learning ( http://arxiv.org/abs/2012.02048v1 )

ライセンス: Link先を確認
Kendra Albert, Maggie Delano, Jonathon Penney, Afsaneh Rigot and Ram Shankar Siva Kumar(参考訳) 本稿では,人間を含むコンピュータビジョンシステムに対する様々な機械学習(ml)攻撃に対する物理領域テストの妥当性と代表性について批判的に評価する。 このような攻撃を展開する多くの論文は、自らを「現実世界」と特徴づけている。 しかし、このフレーミングにもかかわらず、実際のテストは最小限であり、被験者についてはほとんど詳細を示さず、後述や実演としてしばしば行われた。 代表的トライアルやテストのない敵対的ML研究は、倫理的、科学的、健康・安全の問題であり、真の損害を引き起こす可能性がある。 この問題と方法論を紹介し,その分野の論文で採用されている物理ドメインテスト方法論を批判する。 次に、敵mlにおけるより包括的な物理的テストに対するさまざまな障壁を調査し、これらの課題にかかわらず、このようなテストを改善するための推奨を提供する。

This paper critically assesses the adequacy and representativeness of physical domain testing for various adversarial machine learning (ML) attacks against computer vision systems involving human subjects. Many papers that deploy such attacks characterize themselves as "real world." Despite this framing, however, we found the physical or real-world testing conducted was minimal, provided few details about testing subjects and was often conducted as an afterthought or demonstration. Adversarial ML research without representative trials or testing is an ethical, scientific, and health/safety issue that can cause real harms. We introduce the problem and our methodology, and then critique the physical domain testing methodologies employed by papers in the field. We then explore various barriers to more inclusive physical testing in adversarial ML and offer recommendations to improve such testing notwithstanding these challenges.
翻訳日:2023-04-22 05:16:14 公開日:2020-12-03
# 複雑なネットワークにおける相互作用信号源の同定

Locating the source of interacting signal in complex networks ( http://arxiv.org/abs/2012.02039v1 )

ライセンス: Link先を確認
Robert Paluch, Krzysztof Suchecki, Janusz A. Ho{\l}yst(参考訳) 本研究では,複雑なネットワーク上での自己対話的信号伝達源の同定について検討する。 私たちは、自己相互作用を伴うプロセスの例として、よく知られた噂モデルを使用します。 SIR流行のダイナミクスに基づくこのモデルによれば、感染したノードは相互作用し、確率$\alpha$のゴシップを阻止することができる。 我々はPinto-Thiran-Vettarli(LPTV)とGradient Maximum Likelihood(GMLA)の3つのソースローカライゼーションアルゴリズムを比較した。 数値シミュレーションの結果,感染ノード間の相互作用がLPTVとピアソンの品質を低下させることが示された。 gmlaは自己相互作用の有害な影響に対して最も耐性があり、拡散速度が0.5未満の場合には特に中・高レベルの確率性を示す。 この理由はgmlaが最も近い観察者のみを使用しており、感染したノード間の相互作用の影響を受けにくいためかもしれない。

We investigate the problem of locating the source of a self-interacting signal spreading in a complex networks. We use a well-known rumour model as an example of the process with self-interaction. According to this model based on the SIR epidemic dynamics, the infected nodes may interact and discourage each other from gossiping with probability $\alpha$. We compare three algorithms of source localization: Limited Pinto-Thiran-Vettarli (LPTV), Gradient Maximum Likelihood (GMLA) and one based on Pearson correlation between time and distance. The results of numerical simulations show that additional interactions between infected nodes decrease the quality of LPTV and Pearson. GMLA is the most resistant to harmful effects of the self-interactions, which is especially visible for medium and high level of stochasticity of the process, when spreading rate is below 0.5. The reason for this may be the fact that GMLA uses only the nearest observers, which are much less likely affected by the interactions between infected nodes, because these contacts become important as the epidemics develops and the number of infected agents increases.
翻訳日:2023-04-22 05:16:01 公開日:2020-12-03
# eParticipationにおける適応性とパーソナライゼーションのシナリオ

Adaptivity and Personalization Application Scenarios in eParticipation ( http://arxiv.org/abs/2012.02571v1 )

ライセンス: Link先を確認
Babis Magoutas, Gregoris Mentzas(参考訳) 適応性とパーソナライズ技術は、現在まで参加型プロジェクトにはあまり使われていないようである。 これらの技術は、エンドユーザーに関するより良い知識を取得し、サービス提供を最適化するために、情報やサービス提供者のオーバーフローを克服するために一般的に使われます。 本稿では,eParticipation分野,具体的にはeParticipation Webサイトに適用された適応性とパーソナライゼーションの原則と技術の可能性を検討する。 民主的意思決定における政策関与と市民の積極的な参加という文脈におけるこれらの技術の潜在的応用シナリオを定義し,その参加意識への影響を検討した。

Adaptivity and personalization technologies appear not to be very much used in eparticipation projects to date. These technologies are commonly used to overcome the overflow of information and service providers adopt them in order to acquire a better knowledge of their end-users and optimize their service offerings. In this paper we investigate the potential of adaptivity and personalization principles and technologies when applied to the eParticipation field and more specifically, to eParticipation websites. Potential application scenarios of these technologies in the context of policy engagement and active participation of citizens in democratic decision-making are defined and their impact in eParticipation is examined.
翻訳日:2023-04-22 05:08:18 公開日:2020-12-03
# スダルシャン型量子古典ハイブリッド系のガリレオ共分散

Galilean covariance of quantum-classical hybrid systems of the Sudarshan type ( http://arxiv.org/abs/2012.02324v1 )

ライセンス: Link先を確認
A. D. Berm\'udez Manjarres and N. Mar\'in-Medina(参考訳) 我々はガリレオ共分散の光の下でスダルシャン型の量子-古典ハイブリッド系を再検討する。 この種のハイブリッドはガリレイ群のユニタリ表現として与えられず、同時に相互作用項が相対正準速度にのみ依存しない限り、全線型運動量を保存することを示す。

We revisit quantum-classical hybrid systems of the Sudarshan type under the light of Galilean covariance. We show that these kind of hybrids cannot be given as a unitary representation of the Galilei group and at the same time conserve the total linear momentum unless the interaction term only depends on the relative canonical velocities.
翻訳日:2023-04-22 05:07:30 公開日:2020-12-03
# Anyonic partial Transpose I: Quantum Information aspects

Anyonic Partial Transpose I: Quantum Information Aspects ( http://arxiv.org/abs/2012.02222v1 )

ライセンス: Link先を確認
Hassan Shapourian, Roger S. K. Mong, Shinsei Ryu(参考訳) 混合量子状態における絡み合いの基本的な診断は部分変換と呼ばれ、対応する絡み合い尺度は対数負性と呼ばれる。 ボソニック多体系を特徴付ける対数ネガティクスの大きな成功にもかかわらず、フェルミ統計を説明する新しい定義が提唱されるまで、フェルミイオン系への部分的転置を一般化することは技術的な課題であった。 本稿では,部分転置とブレイディング操作との明らかな類似性に基づいて,(非可換な)分数統計量を持つアノンへの部分転置を一般化する方法を提案する。 次に、対数ネガティビティのanyonicバージョンを定義し、単調性のような標準条件を満たすことをエンタングルメント測度として示す。 特に、様々なカテゴリ内の1対のエノンのおもちゃ密度行列について計算することにより、アノニカル対数ネガティビティの性質を解明する。 対数否定性を持つ状態の部分空間は、この部分空間が有限体積を占める通常の量子ビット系とは対照的に、正準状態全体の空間における測度ゼロの集合である。 多重度自由圏に対するこの予想を証明する。

A basic diagnostic of entanglement in mixed quantum states is known as the partial transpose and the corresponding entanglement measure is called the logarithmic negativity. Despite the great success of logarithmic negativity in characterizing bosonic many-body systems, generalizing the partial transpose to fermionic systems remained a technical challenge until recently when a new definition that accounts for the Fermi statistics was put forward. In this paper, we propose a way to generalize the partial transpose to anyons with (non-Abelian) fractional statistics based on the apparent similarity between the partial transpose and the braiding operation. We then define the anyonic version of the logarithmic negativity and show that it satisfies the standard requirements such as monotonicity to be an entanglement measure. In particular, we elucidate the properties of the anyonic logarithmic negativity by computing it for a toy density matrix of a pair of anyons within various categories. We conjecture that the subspace of states with a vanishing logarithmic negativity is a set of measure zero in the entire space of anyonic states, in contrast with the ordinary qubit systems where this subspace occupies a finite volume. We prove this conjecture for multiplicity-free categories.
翻訳日:2023-04-22 05:06:58 公開日:2020-12-03
# 偽の$\chi$-gan

The Counterfactual $\chi$-GAN ( http://arxiv.org/abs/2001.03115v2 )

ライセンス: Link先を確認
Amelia J. Averitt, Natnicha Vanitchanant, Rajesh Ranganath, and Adler J. Perotte(参考訳) 因果推論は、しばしば反ファクト的枠組みに依存し、治療の割り当ては、強い無知(strong ignorability)として知られる結果とは独立である必要がある。 観測データの因果解析における強い無知化へのアプローチには、重み付けとマッチング方法が含まれる。 平均処理効果 (ATE) などの効果推定は, 再加重分布, 整合分布, Pの予測値として推定される。 p の選択は重要であり、効果推定の解釈と効果推定のばらつきに影響を与える可能性がある。 本研究では, P を指定せずに, 範囲を最大化し, ATE 推定値の分散を最小化する分布を学習する。 この分布を学習するために,本研究では,特徴バランスの重み付けも学習し,観測不能な条件下での因果推定を支援するCGAN(Counterfactual $\chi$-GAN)と呼ばれる,GANに基づく生成的敵ネットワーク(Generative Adversarial Network, GAN)モデルを提案する。 我々のモデルはPearson $\chi^2$分散を最小化し、同時にカバレッジを最大化し、重要サンプリング推定のばらつきを最小化する。 私たちの知る限り、これはピアソン$\chi^2$分散の最初の応用である。 シミュレーションおよび実世界の医療データを用いて, 確立された重み付け手法と比較して, 特徴バランス達成におけるcGANの有効性を示す。

Causal inference often relies on the counterfactual framework, which requires that treatment assignment is independent of the outcome, known as strong ignorability. Approaches to enforcing strong ignorability in causal analyses of observational data include weighting and matching methods. Effect estimates, such as the average treatment effect (ATE), are then estimated as expectations under the reweighted or matched distribution, P . The choice of P is important and can impact the interpretation of the effect estimate and the variance of effect estimates. In this work, instead of specifying P, we learn a distribution that simultaneously maximizes coverage and minimizes variance of ATE estimates. In order to learn this distribution, this research proposes a generative adversarial network (GAN)-based model called the Counterfactual $\chi$-GAN (cGAN), which also learns feature-balancing weights and supports unbiased causal estimation in the absence of unobserved confounding. Our model minimizes the Pearson $\chi^2$ divergence, which we show simultaneously maximizes coverage and minimizes the variance of importance sampling estimates. To our knowledge, this is the first such application of the Pearson $\chi^2$ divergence. We demonstrate the effectiveness of cGAN in achieving feature balance relative to established weighting methods in simulation and with real-world medical data.
翻訳日:2023-01-13 04:32:05 公開日:2020-12-03
# 条件付き逆カメラモデル匿名化

Conditional Adversarial Camera Model Anonymization ( http://arxiv.org/abs/2002.07798v3 )

ライセンス: Link先を確認
Jerone T. A. Andrews, Yidan Zhang, Lewis D. Griffin(参考訳) 特定の写真画像(モデル属性)をキャプチャするために使用されたカメラのモデルは、通常、画像内に存在する高周波モデル固有のアーティファクトから推測される。 モデル匿名化は、これらのアーティファクトを、明らかなキャプチャモデルを変更するように変換するプロセスである。 このような変換を学習するための条件付き逆法を提案する。 先行研究とは対照的に,高空間周波数情報と低空間周波数情報の両方を変換するプロセスとしてモデル匿名化を行った。 学習済みの2ストリームモデル属性分類器の損失により目的を増強し,生成ネットワークを制約し,人工物の全範囲を変換する。 定量的比較は,非対話的ブラックボックス設定における枠組みの有効性を示す。

The model of camera that was used to capture a particular photographic image (model attribution) is typically inferred from high-frequency model-specific artifacts present within the image. Model anonymization is the process of transforming these artifacts such that the apparent capture model is changed. We propose a conditional adversarial approach for learning such transformations. In contrast to previous works, we cast model anonymization as the process of transforming both high and low spatial frequency information. We augment the objective with the loss from a pre-trained dual-stream model attribution classifier, which constrains the generative network to transform the full range of artifacts. Quantitative comparisons demonstrate the efficacy of our framework in a restrictive non-interactive black-box setting.
翻訳日:2022-12-30 20:37:37 公開日:2020-12-03
# 畳み込みニューラルネットワークを用いたバリオン音響振動再構成

Baryon acoustic oscillations reconstruction using convolutional neural networks ( http://arxiv.org/abs/2002.10218v3 )

ライセンス: Link先を確認
Tian-Xiang Mao, Jie Wang, Baojiu Li, Yan-Chuan Cai, Bridget Falck, Mark Neyrinck and Alex Szalay(参考訳) 本稿では,深部畳み込みニューラルネットワーク(CNN)に基づく重要な宇宙情報を含むバリオン音響振動(BAO)信号の再構成手法を提案する。 実際の初期条件と再構成された初期条件の相関係数は$k\leq 0.2 h\mathrm{mpc}^{-1}$で$90\%$となり、bao信号対雑音比が$k\simeq0.4h\mathrm{mpc}^{-1}$に大幅に改善される可能性がある。 この新方式はサブボックスの構成空間密度場に基づいており,本実験で確認したように,局所的かつサーベイバウンダリの影響が少ない。 ある宇宙論で訓練されたネットワークは、他の宇宙論とは無関係な非線形性に失われる情報を回復するBAOピークを再構築することができる。 復元されたbaoピーク位置の精度は、トレーニングとテストのための宇宙論モデルの違いによって引き起こされるものよりもはるかに低いため、異なるモデルが効率的に識別できることが示唆された。 我々の計画が、現在および将来の大きな銀河探査から宇宙情報を抽出する別の方法を提供することは、非常に有望である。

We propose a new scheme to reconstruct the baryon acoustic oscillations (BAO) signal, which contains key cosmological information, based on deep convolutional neural networks (CNN). Trained with almost no fine-tuning, the network can recover large-scale modes accurately in the test set: the correlation coefficient between the true and reconstructed initial conditions reaches $90\%$ at $k\leq 0.2 h\mathrm{Mpc}^{-1}$, which can lead to significant improvements of the BAO signal-to-noise ratio down to $k\simeq0.4h\mathrm{Mpc}^{-1}$. Since this new scheme is based on the configuration-space density field in sub-boxes, it is local and less affected by survey boundaries than the standard reconstruction method, as our tests confirm. We find that the network trained in one cosmology is able to reconstruct BAO peaks in the others, i.e. recovering information lost to non-linearity independent of cosmology. The accuracy of recovered BAO peak positions is far less than that caused by the difference in the cosmology models for training and testing, suggesting that different models can be distinguished efficiently in our scheme. It is very promising that Our scheme provides a different new way to extract the cosmological information from the ongoing and future large galaxy surveys.
翻訳日:2022-12-29 04:42:40 公開日:2020-12-03
# KEML: 語彙関係分類のための知識豊富なメタ学習フレームワーク

KEML: A Knowledge-Enriched Meta-Learning Framework for Lexical Relation Classification ( http://arxiv.org/abs/2002.10903v2 )

ライセンス: Link先を確認
Chengyu Wang, Minghui Qiu, Jun Huang, Xiaofeng He(参考訳) 語彙関係は三重関係の形で、概念がどのように意味論的に関連しているかを記述する。 概念間の語彙関係の正確な予測は、そのような関係の存在を示すパターンのスパーシティのため困難である。 本稿では,語彙関係分類の課題に対処する知識強化メタラーニング(KEML)フレームワークを提案する。 KEMLでは、LKB-BERT(Lexical Knowledge Base-BERT)モデルは、遠隔監視によって注入された豊富な語彙知識を用いて、大量のテキストコーパスから概念表現を学ぶために提示される。 補助タスクの確率分布は、モデルの異なる種類の語彙関係を認識する能力を高めるために定義される。 さらに,補助タスク分散上でのメタ学習プロセスと教師付き学習を組み合わせることで,神経語彙関係分類器を訓練する。 複数のデータセットに対する実験では、KEMLが最先端のメソッドより優れていることが示されている。

Lexical relations describe how concepts are semantically related, in the form of relation triples. The accurate prediction of lexical relations between concepts is challenging, due to the sparsity of patterns indicating the existence of such relations. We propose the Knowledge-Enriched Meta-Learning (KEML) framework to address the task of lexical relation classification. In KEML, the LKB-BERT (Lexical Knowledge Base-BERT) model is presented to learn concept representations from massive text corpora, with rich lexical knowledge injected by distant supervision. A probabilistic distribution of auxiliary tasks is defined to increase the model's ability to recognize different types of lexical relations. We further combine a meta-learning process over the auxiliary task distribution and supervised learning to train the neural lexical relation classifier. Experiments over multiple datasets show that KEML outperforms state-of-the-art methods.
翻訳日:2022-12-28 21:38:51 公開日:2020-12-03
# 逆分岐訓練を用いたロバストな教師なしニューラルマシン翻訳

Robust Unsupervised Neural Machine Translation with Adversarial Denoising Training ( http://arxiv.org/abs/2002.12549v2 )

ライセンス: Link先を確認
Haipeng Sun, Rui Wang, Kehai Chen, Xugang Lu, Masao Utiyama, Eiichiro Sumita, and Tiejun Zhao(参考訳) unsupervised neural machine translation (UNMT)は、最近機械翻訳コミュニティに大きな関心を集めている。 unmtの主な利点は、翻訳タスクで高価な注釈付き翻訳ペアを必要とする教師付きニューラルマシン翻訳よりもわずかに悪いパフォーマンスで、必要な大規模なテキスト文の収集が容易であることだ。 多くの研究において、UMNTはノイズの多いデータに対する堅牢性を考慮せずにクリーンなデータで訓練されている。 しかし、実世界のシナリオでは、UNMTが入力文の小さな摂動に敏感であるため、通常、収集された入力文には、翻訳システムの性能を低下させるノイズが存在する。 本稿では,unmtベースのシステムのロバスト性を改善するため,ノイズのあるデータを明示的に検討する。 まず,訓練文中の2種類の雑音,すなわち単語雑音と単語順雑音を明確に定義し,unmtにおけるその効果を実験的に検討し,unmtにおける非有意化過程を伴う敵対的学習法を提案する。 複数の言語ペアを用いた実験により,提案手法が従来のunmtシステムの頑健性を大幅に改善したことを示す。

Unsupervised neural machine translation (UNMT) has recently attracted great interest in the machine translation community. The main advantage of the UNMT lies in its easy collection of required large training text sentences while with only a slightly worse performance than supervised neural machine translation which requires expensive annotated translation pairs on some translation tasks. In most studies, the UMNT is trained with clean data without considering its robustness to the noisy data. However, in real-world scenarios, there usually exists noise in the collected input sentences which degrades the performance of the translation system since the UNMT is sensitive to the small perturbations of the input sentences. In this paper, we first time explicitly take the noisy data into consideration to improve the robustness of the UNMT based systems. First of all, we clearly defined two types of noises in training sentences, i.e., word noise and word order noise, and empirically investigate its effect in the UNMT, then we propose adversarial training methods with denoising process in the UNMT. Experimental results on several language pairs show that our proposed methods substantially improved the robustness of the conventional UNMT systems in noisy scenarios.
翻訳日:2022-12-28 02:14:01 公開日:2020-12-03
# レイアウトからのオブジェクト中心画像生成

Object-Centric Image Generation from Layouts ( http://arxiv.org/abs/2003.07449v2 )

ライセンス: Link先を確認
Tristan Sylvain and Pengchuan Zhang and Yoshua Bengio and R Devon Hjelm and Shikhar Sharma(参考訳) 単一オブジェクトおよび単一ドメイン画像生成に関する最近の印象的な結果にもかかわらず、複数のオブジェクトを持つ複雑なシーンの生成は依然として困難である。 本稿では、モデルが複雑なシーンをうまく生成するために、個々のオブジェクトとオブジェクト間の関係を理解できなければならないという考えから始める。 オブジェクト中心生成型逆ネットワーク(oc-gan)と呼ぶレイアウト・ツー・イメージ生成法は,新たなシーングラフ類似モジュール(sgsm)に依存している。 sgsmはシーン内のオブジェクト間の空間的関係の表現を学習し、このモデルによるレイアウト忠実性の向上に繋がる。 また,オブジェクトインスタンス認識性を向上させるジェネレータのコンディショニング機構の変更も提案する。 画像品質の改善以外にも,従来の手法では,(1)対応するバウンディングボックスを使わずに生成するスプリアスオブジェクト,(2)イメージ内のマージしたオブジェクトに重なり合うバウンディングボックスの2つの障害モードが緩和されている。 広範囲な定量的評価とアブレーション研究は,ココスタフと視覚ゲノムデータセットの両方に対するこれまでの最先端アプローチを上回って,我々の貢献が与えた影響を実証する。 最後に,マルチオブジェクト画像に適した一般的なfr{\'e}chetインセプション距離メトリックのオブジェクト中心適応であるscenefidを導入することで,先行研究で使用されている評価指標の重要な制限に対処する。

Despite recent impressive results on single-object and single-domain image generation, the generation of complex scenes with multiple objects remains challenging. In this paper, we start with the idea that a model must be able to understand individual objects and relationships between objects in order to generate complex scenes well. Our layout-to-image-generation method, which we call Object-Centric Generative Adversarial Network (or OC-GAN), relies on a novel Scene-Graph Similarity Module (SGSM). The SGSM learns representations of the spatial relationships between objects in the scene, which lead to our model's improved layout-fidelity. We also propose changes to the conditioning mechanism of the generator that enhance its object instance-awareness. Apart from improving image quality, our contributions mitigate two failure modes in previous approaches: (1) spurious objects being generated without corresponding bounding boxes in the layout, and (2) overlapping bounding boxes in the layout leading to merged objects in images. Extensive quantitative evaluation and ablation studies demonstrate the impact of our contributions, with our model outperforming previous state-of-the-art approaches on both the COCO-Stuff and Visual Genome datasets. Finally, we address an important limitation of evaluation metrics used in previous works by introducing SceneFID -- an object-centric adaptation of the popular Fr{\'e}chet Inception Distance metric, that is better suited for multi-object images.
翻訳日:2022-12-23 03:15:26 公開日:2020-12-03
# auto-ensemble:deep learning model ensemblingを用いた適応学習率スケジューリング

Auto-Ensemble: An Adaptive Learning Rate Scheduling based Deep Learning Model Ensembling ( http://arxiv.org/abs/2003.11266v2 )

ライセンス: Link先を確認
Jun Yang, Fei Wang(参考訳) ディープラーニングモデルの組み立ては、ニューラルネットワークのチューニングや損失、トレーニングアルゴリズムをゼロから回避できる新しいシナリオにおける実装を促進するショートカットである。 しかし、一度の訓練で十分な正確で多様なモデルを収集することは困難である。 本稿では,適応学習率スケジューリングアルゴリズムを用いて,ディープラーニングモデルのチェックポイントを収集し,自動的にアンサンブルするオートセンスブル(ae)を提案する。 この手法の利点は、一度のトレーニングで学習率をスケジューリングすることで、モデルを様々な局所最適化に収束させることである。 lo-cal最適解の数が飽和する傾向がある場合、収集されたチェックポイントはすべてアンサンブルに使用される。 我々の手法は普遍的であり、様々なシナリオに適用できる。 複数のデータセットとニューラルネットワークで実験した結果、その効果と競争力が実証された。 また,モデル間の距離を測定する手法を提案した。 収集したモデルの正確性と多様性を保証できます。

Ensembling deep learning models is a shortcut to promote its implementation in new scenarios, which can avoid tuning neural networks, losses and training algorithms from scratch. However, it is difficult to collect sufficient accurate and diverse models through once training. This paper proposes Auto-Ensemble (AE) to collect checkpoints of deep learning model and ensemble them automatically by adaptive learning rate scheduling algorithm. The advantage of this method is to make the model converge to various local optima by scheduling the learning rate in once training. When the number of lo-cal optimal solutions tends to be saturated, all the collected checkpoints are used for ensemble. Our method is universal, it can be applied to various scenarios. Experiment results on multiple datasets and neural networks demonstrate it is effective and competitive, especially on few-shot learning. Besides, we proposed a method to measure the distance among models. Then we can ensure the accuracy and diversity of collected models.
翻訳日:2022-12-20 02:48:46 公開日:2020-12-03
# VaB-AL:アクティブラーニングのためのクラス不均衡と変分ベイの難しさ

VaB-AL: Incorporating Class Imbalance and Difficulty with Variational Bayes for Active Learning ( http://arxiv.org/abs/2003.11249v2 )

ライセンス: Link先を確認
Jongwon Choi, Kwang Moo Yi, Jihoon Kim, Jinho Choo, Byoungjip Kim, Jin-Yeop Chang, Youngjune Gwon, Hyung Jin Chang(参考訳) 識別モデルのアクティブラーニングは、クラスがどのように分散しているか、どのクラスを扱うのが難しいかに重点を置きながら、個別のサンプルにフォーカスして研究されてきた。 この本では、これは有害であることを示している。 本研究では,自然にクラス不均衡をアクティブラーニングフレームワークに組み込むことのできるベイズ規則に基づく手法を提案する。 我々は,与えられたサンプルに対して誤りを行う分類器の確率を推定する場合,三つの項を一緒に考えるべきであることを導出する。 一 クラスを誤認するおそれがあること。 二 予測クラスが与えられたデータの可能性、及び 三 予測されたクラスの数についての事前の確率 これらの用語を実装するには、生成モデルと難解な確率推定が必要である。 そこで我々は,この目的のために変分オートエンコーダ(VAE)を訓練する。 VAEを分類器と結びつけて、VAE訓練を促進するために、分類器の深い特徴表現をVAEへの入力として使用する。 これら3つの確率,中でもデータ不均衡を考慮し,データ予算の制限の下で既存の手法の可能性を大幅に改善することができる。 我々の手法は、複数の異なるデータセットの分類タスクに適用可能であることを示し、その中には、重いデータ不均衡を持つ実世界のデータセットも含まれており、技術の現状を大幅に上回っている。

Active Learning for discriminative models has largely been studied with the focus on individual samples, with less emphasis on how classes are distributed or which classes are hard to deal with. In this work, we show that this is harmful. We propose a method based on the Bayes' rule, that can naturally incorporate class imbalance into the Active Learning framework. We derive that three terms should be considered together when estimating the probability of a classifier making a mistake for a given sample; i) probability of mislabelling a class, ii) likelihood of the data given a predicted class, and iii) the prior probability on the abundance of a predicted class. Implementing these terms requires a generative model and an intractable likelihood estimation. Therefore, we train a Variational Auto Encoder (VAE) for this purpose. To further tie the VAE with the classifier and facilitate VAE training, we use the classifiers' deep feature representations as input to the VAE. By considering all three probabilities, among them especially the data imbalance, we can substantially improve the potential of existing methods under limited data budget. We show that our method can be applied to classification tasks on multiple different datasets -- including one that is a real-world dataset with heavy data imbalance -- significantly outperforming the state of the art.
翻訳日:2022-12-20 02:29:54 公開日:2020-12-03
# style-transfer と paraphrase: 意味的類似性指標を求める

Style-transfer and Paraphrase: Looking for a Sensible Semantic Similarity Metric ( http://arxiv.org/abs/2004.05001v3 )

ライセンス: Link先を確認
Ivan P. Yamshchikov, Viacheslav Shibaev, Nikolay Khlebnikov, Alexey Tikhonov(参考訳) スタイル転送、パラフレーズ、機械翻訳といった自然言語処理タスクの急速な発展は、しばしば意味的類似性メトリクスの使用を要求する。 近年,2つの短いテキストの意味的類似性を測定する手法が開発されている。 本稿では,10以上の手法について包括的解析を行う。 意味的類似性に応じた1万4千文対の新たなデータセットを用いて,これらのタスクにおいて,文献で広く用いられている指標は,人間の判断に十分に近いものではないことを実証する。 最近提案されたいくつかの指標は、同等の結果を提供するが、Word Mover Distanceは、現在修正されたテキストのセマンティックな類似度を測定する最も合理的なソリューションである。

The rapid development of such natural language processing tasks as style transfer, paraphrase, and machine translation often calls for the use of semantic similarity metrics. In recent years a lot of methods to measure the semantic similarity of two short texts were developed. This paper provides a comprehensive analysis for more than a dozen of such methods. Using a new dataset of fourteen thousand sentence pairs human-labeled according to their semantic similarity, we demonstrate that none of the metrics widely used in the literature is close enough to human judgment in these tasks. A number of recently proposed metrics provide comparable results, yet Word Mover Distance is shown to be the most reasonable solution to measure semantic similarity in reformulated texts at the moment.
翻訳日:2022-12-14 20:26:22 公開日:2020-12-03
# autotune:転送学習を改善するための畳み込みニューラルネットワークの自動チューニング

AutoTune: Automatically Tuning Convolutional Neural Networks for Improved Transfer Learning ( http://arxiv.org/abs/2005.02165v2 )

ライセンス: Link先を確認
S.H.Shabbeer Basha, Sravan Kumar Vinakota, Viswanath Pulabaigari, Snehasis Mukherjee, Shiv Ram Dubey(参考訳) 転送学習は、大規模なデータセットでトレーニングされたトレーニング済みのディープネットワークを使用することで、限られたデータを持つ特定のタスクを解決することができる。 通常、学習した知識をソースタスクからターゲットタスクに転送する一方で、最後の数層はターゲットデータセット上で微調整(再トレーニング)される。 しかし、これらのレイヤは元々、ターゲットタスクに適さないソースタスクのために設計されている。 本稿では,伝達学習を改善するために,畳み込みニューラルネットワーク(CNN)を自動チューニングする機構を提案する。 事前学習されたcnn層は、ベイズ最適化を用いてターゲットデータからの知識で調整される。 まず,ソフトマックス層内のニューロン数を目標タスクに関連するクラス数に置き換えることで,ベースCNNモデルの最終層を訓練する。 次に、検証データ(欲求基準)の分類性能を観察して、事前訓練されたCNNを自動的に調整する。 提案手法の性能を評価するため,CalTech-101,CalTech-256,Stanford Dogsの3つのベンチマークデータセットを用いて実験を行った。 提案したAutoTune法により得られた分類結果は,CalTech-101,CalTech-256,Stanford Dogsに対して,9.5.92\%,8.6.54\%,8.67\%の精度で,標準ベースライン転送学習法よりも優れている。 本研究では,事前学習したCNN層を目標データセットからの知識でチューニングすることで,伝達学習能力の向上を図った。 ソースコードはhttps://github.com/JekyllAndHyde8999/AutoTune_CNN_TransferLearningで公開されている。

Transfer learning enables solving a specific task having limited data by using the pre-trained deep networks trained on large-scale datasets. Typically, while transferring the learned knowledge from source task to the target task, the last few layers are fine-tuned (re-trained) over the target dataset. However, these layers are originally designed for the source task that might not be suitable for the target task. In this paper, we introduce a mechanism for automatically tuning the Convolutional Neural Networks (CNN) for improved transfer learning. The pre-trained CNN layers are tuned with the knowledge from target data using Bayesian Optimization. First, we train the final layer of the base CNN model by replacing the number of neurons in the softmax layer with the number of classes involved in the target task. Next, the pre-trained CNN is tuned automatically by observing the classification performance on the validation data (greedy criteria). To evaluate the performance of the proposed method, experiments are conducted on three benchmark datasets, e.g., CalTech-101, CalTech-256, and Stanford Dogs. The classification results obtained through the proposed AutoTune method outperforms the standard baseline transfer learning methods over the three datasets by achieving $95.92\%$, $86.54\%$, and $84.67\%$ accuracy over CalTech-101, CalTech-256, and Stanford Dogs, respectively. The experimental results obtained in this study depict that tuning of the pre-trained CNN layers with the knowledge from the target dataset confesses better transfer learning ability. The source codes are available at https://github.com/JekyllAndHyde8999/AutoTune_CNN_TransferLearning.
翻訳日:2022-12-09 21:26:22 公開日:2020-12-03
# データ効率学習に向けて: COVID-19 CT肺と感染症分離のベンチマーク

Towards Data-Efficient Learning: A Benchmark for COVID-19 CT Lung and Infection Segmentation ( http://arxiv.org/abs/2004.12537v2 )

ライセンス: Link先を確認
Jun Ma, Yixin Wang, Xingle An, Cheng Ge, Ziqi Yu, Jianan Chen, Qiongjie Zhu, Guoqiang Dong, Jian He, Zhiqiang He, Yuntao Zhu, Ziwei Nie, Xiaoping Yang(参考訳) 目的: 患者の定量的管理において, 正確な肺分画, 感染状況の把握が重要な役割を担っている。 既存の研究のほとんどは、特定の機関、特に放射線科医が新型コロナウイルスと闘っているときに入手できない、大規模でプライベートな注釈付きデータセットに基づいている。 さらに、異なるデータセット上で開発され、異なる設定でトレーニングされ、異なるメトリクスで評価されるため、現在のCOVID-19 CTセグメンテーション手法を比較するのは難しい。 方法】本研究は,データ効率のよい深層学習手法の開発を促進するため,70例の注釈付きCOVID-19患者を対象に,肺と感染症のセグメンテーションのための3つのベンチマークを構築した。 異なるセグメンテーション手法の公正な比較のために、標準的なトレーニング、検証とテストの分割、評価メトリクス、対応するコードも提供します。 結果: 最先端のネットワークに基づいて,40以上のトレーニング済みベースラインモデルを提供し,アウトオブボックスセグメンテーションツールとして機能するだけでなく,新型コロナウイルスの肺や感染症セグメンテーションに関心のある研究者の計算時間を短縮する。 Dice similarity Coefficient (DSC) scores of 97.3\%, 97.7\%, and 67.3\% and average Normalized Surface Dice (NSD) scores of 90.6\%, 91.4\%, and 70.0\% for left lung, right lung, and infection。 結論:我々の知る限りでは、この研究は医療用画像のセグメンテーションのための最初のデータ効率の高い学習ベンチマークであり、これまでのトレーニング済みモデルの最大数を示す。 これらのリソースはすべて公開されており、私たちの研究は、限られたデータによる効率的なCOVID-19 CTセグメンテーションのためのディープラーニング手法の開発を促進する基盤となっている。

Purpose: Accurate segmentation of lung and infection in COVID-19 CT scans plays an important role in the quantitative management of patients. Most of the existing studies are based on large and private annotated datasets that are impractical to obtain from a single institution, especially when radiologists are busy fighting the coronavirus disease. Furthermore, it is hard to compare current COVID-19 CT segmentation methods as they are developed on different datasets, trained in different settings, and evaluated with different metrics. Methods: To promote the development of data-efficient deep learning methods, in this paper, we built three benchmarks for lung and infection segmentation based on 70 annotated COVID-19 cases, which contain current active research areas, e.g., few-shot learning, domain generalization, and knowledge transfer. For a fair comparison among different segmentation methods, we also provide standard training, validation and testing splits, evaluation metrics and, the corresponding code. Results: Based on the state-of-the-art network, we provide more than 40 pre-trained baseline models, which not only serve as out-of-the-box segmentation tools but also save computational time for researchers who are interested in COVID-19 lung and infection segmentation. We achieve average Dice Similarity Coefficient (DSC) scores of 97.3\%, 97.7\%, and 67.3\% and average Normalized Surface Dice (NSD) scores of 90.6\%, 91.4\%, and 70.0\% for left lung, right lung, and infection, respectively. Conclusions: To the best of our knowledge, this work presents the first data-efficient learning benchmark for medical image segmentation and the largest number of pre-trained models up to now. All these resources are publicly available, and our work lays the foundation for promoting the development of deep learning methods for efficient COVID-19 CT segmentation with limited data.
翻訳日:2022-12-09 05:03:46 公開日:2020-12-03
# ニューラルマシン翻訳による正確な単語アライメント誘導

Accurate Word Alignment Induction from Neural Machine Translation ( http://arxiv.org/abs/2004.14837v2 )

ライセンス: Link先を確認
Yun Chen, Yang Liu, Guanhua Chen, Xin Jiang, Qun Liu(参考訳) 共同でアライメントと翻訳を学ぶという当初の目標にもかかわらず、以前の研究はTransformerがアライメントメカニズムを通じて単語のアライメントを弱めることを示唆していた。 本稿では,注目重みDOが正確な単語アライメントをキャプチャし,Shift-AttとShift-AETの2つの新しい単語アライメント誘導手法を提案する。 主なアイデアは、to-be-alignedターゲットトークンが以前の作業のようにデコーダ出力ではなくデコーダ入力であるステップでアライメントを誘導することである。 Shift-AttはTransformerの注目度からアライメントを誘導する解釈手法であり、パラメータ更新やアーキテクチャの変更を必要としない。 shift-aetは、トランスフォーマーに密に統合され、対称性のシフト-アットアライメントからの監督と分離して訓練された追加アライメントモジュールからアライメントを抽出する。 3つの公開データセットの実験では、どちらの手法も対応する神経ベースラインよりも優れており、Shift-AETはGIZA++を1.4-4.8 AERポイントで大幅に上回っている。

Despite its original goal to jointly learn to align and translate, prior researches suggest that Transformer captures poor word alignments through its attention mechanism. In this paper, we show that attention weights DO capture accurate word alignments and propose two novel word alignment induction methods Shift-Att and Shift-AET. The main idea is to induce alignments at the step when the to-be-aligned target token is the decoder input rather than the decoder output as in previous work. Shift-Att is an interpretation method that induces alignments from the attention weights of Transformer and does not require parameter update or architecture change. Shift-AET extracts alignments from an additional alignment module which is tightly integrated into Transformer and trained in isolation with supervision from symmetrized Shift-Att alignments. Experiments on three publicly available datasets demonstrate that both methods perform better than their corresponding neural baselines and Shift-AET significantly outperforms GIZA++ by 1.4-4.8 AER points.
翻訳日:2022-12-08 03:14:21 公開日:2020-12-03
# Quda:ビジュアルデータ分析のための自然言語クエリ

Quda: Natural Language Queries for Visual Data Analytics ( http://arxiv.org/abs/2005.03257v5 )

ライセンス: Link先を確認
Siwei Fu, Kai Xiong, Xiaodong Ge, Siliang Tang, Wei Chen, Yingcai Wu(参考訳) 可視化指向自然言語インタフェース(V-NLI)では,自由テキストから解析タスクを識別することが重要である。 しかし、人間の言語の曖昧さと複雑さが原因で困難である。 この課題に対処するために、我々は、v-nlisが、最先端のマルチラベル分類モデルを訓練し、評価することで、自由形式の自然言語から分析タスクを認識できるようにする、qudaと呼ばれる新しいデータセットを提案する。 当社のデータセットには14,035ドルの多様なユーザクエリが含まれており、それぞれに1つまたは複数の分析タスクをアノテートしています。 この目的を達成するために、まずデータアナリストとシードクエリを収集し、その後、パラフレーズ生成と検証に広範囲のクラウドフォースを採用する。 3つの応用を通してQudaの有用性を示す。 この研究は、解析的タスクを認識するための大規模コーパスを構築する最初の試みである。 Qudaのリリースにより、データ分析と視覚化におけるV-NLIの研究と開発が促進されることを願っています。

The identification of analytic tasks from free text is critical for visualization-oriented natural language interfaces (V-NLIs) to suggest effective visualizations. However, it is challenging due to the ambiguity and complexity nature of human language. To address this challenge, we present a new dataset, called Quda, that aims to help V-NLIs recognize analytic tasks from free-form natural language by training and evaluating cutting-edge multi-label classification models. Our dataset contains $14,035$ diverse user queries, and each is annotated with one or multiple analytic tasks. We achieve this goal by first gathering seed queries with data analysts and then employing extensive crowd force for paraphrase generation and validation. We demonstrate the usefulness of Quda through three applications. This work is the first attempt to construct a large-scale corpus for recognizing analytic tasks. With the release of Quda, we hope it will boost the research and development of V-NLIs in data analysis and visualization.
翻訳日:2022-12-05 23:52:06 公開日:2020-12-03
# 野生におけるテキスト認識:サーベイ

Text Recognition in the Wild: A Survey ( http://arxiv.org/abs/2005.03492v3 )

ライセンス: Link先を確認
Xiaoxue Chen, Lianwen Jin, Yuanzhi Zhu, Canjie Luo, and Tianwei Wang(参考訳) テキストの歴史は何千年にもわたって遡ることができる。 テキストが持つリッチで正確な意味情報は、幅広い視覚ベースのアプリケーションシナリオにおいて重要である。 そのため、自然界におけるテキスト認識はコンピュータビジョンやパターン認識において活発な研究分野となっている。 近年、ディープラーニングの興隆と発展に伴い、多くの手法が革新、実践、効率の面で有望であることが示されている。 本稿では,(1)シーンのテキスト認識に関する基本的な問題と現状を要約すること,(2)新しい洞察とアイデアの導入,(3)公開リソースの総合的なレビュー,(4)今後の作業の方向性について述べることを目的とする。 要約して,本文献レビューはシーンテキスト認識の分野の全体像を提示しようとするものである。 この分野に参入する人々への包括的な参照を提供し、将来の研究を刺激するのに役立ちます。 関連リソースはGithubリポジトリで公開されています。

The history of text can be traced back over thousands of years. Rich and precise semantic information carried by text is important in a wide range of vision-based application scenarios. Therefore, text recognition in natural scenes has been an active research field in computer vision and pattern recognition. In recent years, with the rise and development of deep learning, numerous methods have shown promising in terms of innovation, practicality, and efficiency. This paper aims to (1) summarize the fundamental problems and the state-of-the-art associated with scene text recognition; (2) introduce new insights and ideas; (3) provide a comprehensive review of publicly available resources; (4) point out directions for future work. In summary, this literature review attempts to present the entire picture of the field of scene text recognition. It provides a comprehensive reference for people entering this field, and could be helpful to inspire future research. Related resources are available at our Github repository: https://github.com/HCIILAB/Scene-Text-Recognition.
翻訳日:2022-12-05 23:44:05 公開日:2020-12-03
# オブジェクト検出のための簡易半教師付き学習フレームワーク

A Simple Semi-Supervised Learning Framework for Object Detection ( http://arxiv.org/abs/2005.04757v2 )

ライセンス: Link先を確認
Kihyuk Sohn, Zizhao Zhang, Chun-Liang Li, Han Zhang, Chen-Yu Lee, and Tomas Pfister(参考訳) semi-supervised learning (ssl) はラベルなしのデータを用いた機械学習モデルの予測性能を向上させる可能性がある。 近年は顕著に進歩しているものの、sslのデモンストレーションのスコープは主に画像分類のタスクである。 本稿では,データ拡張戦略とともに,視覚オブジェクト検出のための簡易かつ効果的なSSLフレームワークSTACを提案する。 STACは、ラベルのないイメージから、高度に信頼性の高いローカライズドオブジェクトの擬似ラベルをデプロイし、強力な拡張を通じて一貫性を強制することによってモデルを更新する。 我々は,MS-COCOを用いた半教師対象検出の性能評価と,MS-COCOおよびVOC07におけるSTACの有効性を示す実験的プロトコルを提案する。 VOC07では、STACがAP$^{0.5}$を76.30ドルから79.08ドルに改善し、MS-COCOでは、ラベル付きデータで23.86\%となる教師付きベースラインよりもわずか5.38 mAPで24.38 mAPを達成し、より高いデータ効率を示す。 コードはhttps://github.com/google-research/ssl_detection/で入手できる。

Semi-supervised learning (SSL) has a potential to improve the predictive performance of machine learning models using unlabeled data. Although there has been remarkable recent progress, the scope of demonstration in SSL has mainly been on image classification tasks. In this paper, we propose STAC, a simple yet effective SSL framework for visual object detection along with a data augmentation strategy. STAC deploys highly confident pseudo labels of localized objects from an unlabeled image and updates the model by enforcing consistency via strong augmentations. We propose experimental protocols to evaluate the performance of semi-supervised object detection using MS-COCO and show the efficacy of STAC on both MS-COCO and VOC07. On VOC07, STAC improves the AP$^{0.5}$ from $76.30$ to $79.08$; on MS-COCO, STAC demonstrates $2{\times}$ higher data efficiency by achieving 24.38 mAP using only 5\% labeled data than supervised baseline that marks 23.86\% using 10\% labeled data. The code is available at https://github.com/google-research/ssl_detection/.
翻訳日:2022-12-05 02:07:04 公開日:2020-12-03
# マトリックステンソル製品の情報理論限界

Information-Theoretic Limits for the Matrix Tensor Product ( http://arxiv.org/abs/2005.11273v2 )

ライセンス: Link先を確認
Galen Reeves(参考訳) 本稿ではランダム行列の行列テンソル積を含む高次元推論問題について検討する。 この問題は、スパース主成分分析で使われるスパイク行列モデルや共分散推定、ネットワーク分析で使われる確率ブロックモデルなど、現代のデータサイエンスの問題の多くを一般化する。 主な結果は、全てのランダム量の分布が知られているベイズ最適設定における相互情報と最小平均二乗誤差(MMSE)に対するシングルレター式(すなわち、数値的に近似できる解析式)である。 非漸近的境界を提供し、我々の公式が、ある$$\alpha < 1/20$に対して$d = O(n^\alpha)$で行数$n$と列数$d$スケールを持つ高次元状態において、相互情報およびMMSEの先頭項を正確に記述していることを示す。 本稿では,高次元行列値信号の解析のための新しい手法を提案する。 具体的には、順序保存正半定値補間経路を用いる適応補間法の新たな拡張や、連続時間I-MMSE関係に基づく重なり合いと自由エネルギーの分散不等式が含まれる。

This paper studies a high-dimensional inference problem involving the matrix tensor product of random matrices. This problem generalizes a number of contemporary data science problems including the spiked matrix models used in sparse principal component analysis and covariance estimation and the stochastic block model used in network analysis. The main results are single-letter formulas (i.e., analytical expressions that can be approximated numerically) for the mutual information and the minimum mean-squared error (MMSE) in the Bayes optimal setting where the distributions of all random quantities are known. We provide non-asymptotic bounds and show that our formulas describe exactly the leading order terms in the mutual information and MMSE in the high-dimensional regime where the number of rows $n$ and number of columns $d$ scale with $d = O(n^\alpha)$ for some $\alpha < 1/20$. On the technical side, this paper introduces some new techniques for the analysis of high-dimensional matrix-valued signals. Specific contributions include a novel extension of the adaptive interpolation method that uses order-preserving positive semidefinite interpolation paths, and a variance inequality between the overlap and the free energy that is based on continuous-time I-MMSE relations.
翻訳日:2022-11-30 09:42:02 公開日:2020-12-03
# セルエンコーディングの遺伝子発現プログラミングによる進化的NAS

Evolutionary NAS with Gene Expression Programming of Cellular Encoding ( http://arxiv.org/abs/2005.13110v2 )

ライセンス: Link先を確認
Clifford Broni-Bediako, Yuki Murata, Luiz Henrique Mormille and Masayasu Atsumi(参考訳) ニューラルアーキテクチャサーチ(NAS)のルネッサンスは、遺伝的アルゴリズム(GA)や遺伝的プログラミング(GP)といった古典的な手法が、畳み込みニューラルネットワーク(CNN)アーキテクチャに活用されている。 最近の研究は視覚知覚タスクにおいて有望な性能を達成したが、GAとGPの直接符号化方式は機能的複雑性に欠けており、CNNのような大規模アーキテクチャではうまくスケールしない。 そこで我々は,線形固定長文字列の染色体に局所グラフ変換を埋め込み,遺伝子発現プログラミングの進化過程を通じて変異型形状とサイズをcnnアーキテクチャで構築する,単純かつ強力な手法である $symbolic\ linear\ generative\ encoding$ (slge) を提案する。 実験では、CIFAR-10およびCIFAR-100画像分類タスクにおける最先端の手作りCNNアーキテクチャの性能を向上させるアーキテクチャの発見においてSLGEの有効性を示し、GPUリソースの少ない既存のNAS手法と競合する分類誤差率を達成する。

The renaissance of neural architecture search (NAS) has seen classical methods such as genetic algorithms (GA) and genetic programming (GP) being exploited for convolutional neural network (CNN) architectures. While recent work have achieved promising performance on visual perception tasks, the direct encoding scheme of both GA and GP has functional complexity deficiency and does not scale well on large architectures like CNN. To address this, we present a new generative encoding scheme -- $symbolic\ linear\ generative\ encoding$ (SLGE) -- simple, yet powerful scheme which embeds local graph transformations in chromosomes of linear fixed-length string to develop CNN architectures of variant shapes and sizes via evolutionary process of gene expression programming. In experiments, the effectiveness of SLGE is shown in discovering architectures that improve the performance of the state-of-the-art handcrafted CNN architectures on CIFAR-10 and CIFAR-100 image classification tasks; and achieves a competitive classification error rate with the existing NAS methods using less GPU resources.
翻訳日:2022-11-28 08:01:58 公開日:2020-12-03
# 継続的な行動を伴う効率的なコンテキスト帯域

Efficient Contextual Bandits with Continuous Actions ( http://arxiv.org/abs/2006.06040v2 )

ライセンス: Link先を確認
Maryam Majzoubi, Chicheng Zhang, Rajan Chari, Akshay Krishnamurthy, John Langford, Aleksandrs Slivkins(参考訳) 未知構造を持つ連続的な動作を持つ文脈的バンディットに対する計算可能なアルゴリズムを作成する。 我々の還元型アルゴリズムは教師付き学習表現で構成する。 汎用的な動作を証明し,大規模な実験によって新機能を検証する。

We create a computationally tractable algorithm for contextual bandits with continuous actions having unknown structure. Our reduction-style algorithm composes with most supervised learning representations. We prove that it works in a general sense and verify the new functionality with large-scale experiments.
翻訳日:2022-11-23 04:47:52 公開日:2020-12-03
# FLeet: 静的認識とパフォーマンス予測によるオンラインフェデレーション学習

FLeet: Online Federated Learning via Staleness Awareness and Performance Prediction ( http://arxiv.org/abs/2006.07273v2 )

ライセンス: Link先を確認
Georgios Damaskinos, Rachid Guerraoui, Anne-Marie Kermarrec, Vlad Nitu, Rhicheek Patra, Francois Taiani(参考訳) 基本的に、グローバルなモデルは、ユーザのデータをローカルに保持しながら、モバイルデバイスで計算されたアップデートでトレーニングされる。 しかし、標準的なFLインフラストラクチャは、モバイルデバイスにエネルギーやパフォーマンスに影響を与えないように設計されているため、ニュースレコメンデータのような頻繁な(オンライン)モデル更新を必要とするアプリケーションには適さない。 本稿では,android osと機械学習アプリケーション間のミドルウェアとして機能する,初のオンラインflシステムであるfleetを提案する。 FLeetは、Standard FLのプライバシーとオンライン学習の精度を2つのコアコンポーネントによって組み合わせている。 (i)新しい軽量プロファイラi-profは、モバイルデバイスにおける学習タスクの影響を予測・制御する。 (ii) AdaSGDは、遅延更新に耐性を持つ新しい適応学習アルゴリズムである。 当社の広範な評価から、fleetが実装したオンラインflは、標準flと比べて2.3倍の品質向上を実現していますが、1日あたりのバッテリー消費量は0.036%に過ぎません。 I-Profは、予測精度を3.6倍(計算時間)、最大19倍(エネルギー)まで改善することで、学習タスクの影響を正確に制御することができる。 AdaSGDは異種データの収束速度において代替FLのアプローチを18.4%上回る。

Federated Learning (FL) is very appealing for its privacy benefits: essentially, a global model is trained with updates computed on mobile devices while keeping the data of users local. Standard FL infrastructures are however designed to have no energy or performance impact on mobile devices, and are therefore not suitable for applications that require frequent (online) model updates, such as news recommenders. This paper presents FLeet, the first Online FL system, acting as a middleware between the Android OS and the machine learning application. FLeet combines the privacy of Standard FL with the precision of online learning thanks to two core components: (i) I-Prof, a new lightweight profiler that predicts and controls the impact of learning tasks on mobile devices, and (ii) AdaSGD, a new adaptive learning algorithm that is resilient to delayed updates. Our extensive evaluation shows that Online FL, as implemented by FLeet, can deliver a 2.3x quality boost compared to Standard FL, while only consuming 0.036% of the battery per day. I-Prof can accurately control the impact of learning tasks by improving the prediction accuracy up to 3.6x (computation time) and up to 19x (energy). AdaSGD outperforms alternative FL approaches by 18.4% in terms of convergence speed on heterogeneous data.
翻訳日:2022-11-22 03:42:15 公開日:2020-12-03
# 部分依存ラベルノイズ : インスタンス依存ラベルノイズに向けて

Part-dependent Label Noise: Towards Instance-dependent Label Noise ( http://arxiv.org/abs/2006.07836v2 )

ライセンス: Link先を確認
Xiaobo Xia, Tongliang Liu, Bo Han, Nannan Wang, Mingming Gong, Haifeng Liu, Gang Niu, Dacheng Tao, Masashi Sugiyama(参考訳) 実世界の騒音をモデル化することが難しいため, ラベルノイズをtextit{instance-dependent} で学習することは困難である。 心理学的、生理学的な証拠は、人間がそれらを部品に分解することで事例を知覚していることを示している。 従ってアノテーションは、インスタンス全体ではなく、部分に基づいてインスタンスをアノテートする傾向があり、部品からクラスへの間違ったマッピングがインスタンス依存のラベルノイズを引き起こす可能性がある。 本稿では,この人間の認知に動機づけられて,文脈依存ラベルノイズを<textit{part-dependent}ラベルノイズを用いて近似する。 具体的には、インスタンスは部品の組み合わせでほぼ再構築できるので、インスタンスの部分の遷移行列の組み合わせによってインスタンスのインスタンス依存の \textit{transition matrix} を近似する。 部品の遷移行列は、アンカー点(すなわち、ほぼ確実に特定のクラスに属するデータ点)を利用して学習することができる。 合成および実世界のデータセットの実証評価により,本手法は実例依存ラベルノイズから学習するための最先端手法よりも優れていることが示された。

Learning with the \textit{instance-dependent} label noise is challenging, because it is hard to model such real-world noise. Note that there are psychological and physiological evidences showing that we humans perceive instances by decomposing them into parts. Annotators are therefore more likely to annotate instances based on the parts rather than the whole instances, where a wrong mapping from parts to classes may cause the instance-dependent label noise. Motivated by this human cognition, in this paper, we approximate the instance-dependent label noise by exploiting \textit{part-dependent} label noise. Specifically, since instances can be approximately reconstructed by a combination of parts, we approximate the instance-dependent \textit{transition matrix} for an instance by a combination of the transition matrices for the parts of the instance. The transition matrices for parts can be learned by exploiting anchor points (i.e., data points that belong to a specific class almost surely). Empirical evaluations on synthetic and real-world datasets demonstrate our method is superior to the state-of-the-art approaches for learning from the instance-dependent label noise.
翻訳日:2022-11-21 10:02:04 公開日:2020-12-03
# DisARM: バイナリ潜伏変数に対する抗原勾配推定器

DisARM: An Antithetic Gradient Estimator for Binary Latent Variables ( http://arxiv.org/abs/2006.10680v2 )

ライセンス: Link先を確認
Zhe Dong, Andriy Mnih, George Tucker(参考訳) 勾配を正確に推定することが困難であるため、離散潜伏変数を持つ訓練モデルは困難である。 最近の進歩の多くは、常に利用可能あるいは可能ではないシステムの継続的な緩和を生かして達成されている。 Augment-REINFORCE-Merge (ARM) 推定器は、緩和の代わりに継続的拡張を使用する代替手段を提供する。 拡張変数にアンチセティックサンプリングを適用すると、バイナリ潜在変数を持つ任意のモデルに適用できる比較的低分散で偏りのない推定器が得られる。 しかし、アンチテティックサンプリングは分散を減少させるが、増強過程は分散を増加させる。 本研究では, 増大過程によって生じるランダム性を解析的に統合することにより, ARMの性能向上が可能であることを示す。 我々の推定器であるDisARMは実装が簡単で、ARMと同じ計算コストを持つ。 いくつかの生成的モデリングベンチマークでDisARMを評価し、分散とログライクな両方の点でARMと強力な独立したサンプルベースラインを一貫して上回っていることを示す。 さらに,マルチサンプル変動境界を最適化するために設計されたローカルバージョンの DisARM を提案し,現在の最先端手法である VIMCO よりも優れていることを示す。

Training models with discrete latent variables is challenging due to the difficulty of estimating the gradients accurately. Much of the recent progress has been achieved by taking advantage of continuous relaxations of the system, which are not always available or even possible. The Augment-REINFORCE-Merge (ARM) estimator provides an alternative that, instead of relaxation, uses continuous augmentation. Applying antithetic sampling over the augmenting variables yields a relatively low-variance and unbiased estimator applicable to any model with binary latent variables. However, while antithetic sampling reduces variance, the augmentation process increases variance. We show that ARM can be improved by analytically integrating out the randomness introduced by the augmentation process, guaranteeing substantial variance reduction. Our estimator, DisARM, is simple to implement and has the same computational cost as ARM. We evaluate DisARM on several generative modeling benchmarks and show that it consistently outperforms ARM and a strong independent sample baseline in terms of both variance and log-likelihood. Furthermore, we propose a local version of DisARM designed for optimizing the multi-sample variational bound, and show that it outperforms VIMCO, the current state-of-the-art method.
翻訳日:2022-11-19 12:56:26 公開日:2020-12-03
# エコー状態ネットワーククロスバリデーションの効率的な実装

Efficient implementations of echo state network cross-validation ( http://arxiv.org/abs/2006.11282v2 )

ライセンス: Link先を確認
Mantas Luko\v{s}evi\v{c}ius and Arnas Uselis(参考訳) バックグラウンド/インロダクション: クロスバリデーション(CV)は、時系列モデリングではまだ珍しくない。 Echo State Networks (ESN) はReservoir Computing (RC) モデルの主要な例として、高速で正確なワンショット学習で知られており、しばしば優れたハイパーパラメータチューニングの恩恵を受けている。 これにより現状を変えるのが理想的だ。 方法: 具体的な時間間隔を予測するための時系列のCVについて検討し, クロスバリデーションESNのいくつかのスキームを提案し, 実装のための効率的なアルゴリズムを提案する。 このアルゴリズムは、$k$-fold CVの最適化の2つのレベルとして示される。 RCモデルのトレーニングは通常、2つのステージで構成される。 (i)データで貯水池を動かし、 (ii) 最適な読み出しの計算。 最適化の第1段階は 計算コストが最も高く (i) であり、k$ に関係なく一定である。 RCシステムの任意の種類の貯水池計算を劇的に減らし、$k$が小さければ十分である。 最適化の第2のレベルも (ii)アウトプットの次元が小さい限り、大きな$k$に関係なく、部分は常に一定である。 提案手法がいつ有効になるか,最終モデル作成の3つの選択肢,実世界の6つのデータセット上での検証,実証計算実験,などについて論じる。 コードはオンラインリポジトリで提供します。 結果:提案するcvスキームは,6つの実世界のデータセット,3つのタスクタイプにおいて,より優れた,より安定したテストパフォーマンスを提供する。 経験的な実行時間は、複雑性分析を確認します。 結論: ほとんどの場合、ESNや他のRCモデルの$k$-fold CVは、単純な単一分割検証と同じ時間と空間の複雑さで実行できます。 これによりCVはRCの標準練習となる。

Background/introduction: Cross-Validation (CV) is still uncommon in time series modeling. Echo State Networks (ESNs), as a prime example of Reservoir Computing (RC) models, are known for their fast and precise one-shot learning, that often benefit from good hyper-parameter tuning. This makes them ideal to change the status quo. Methods: We discuss CV of time series for predicting a concrete time interval of interest, suggest several schemes for cross-validating ESNs and introduce an efficient algorithm for implementing them. This algorithm is presented as two levels of optimizations of doing $k$-fold CV. Training an RC model typically consists of two stages: (i) running the reservoir with the data and (ii) computing the optimal readouts. The first level of our optimization addresses the most computationally expensive part (i) and makes it remain constant irrespective of $k$. It dramatically reduces reservoir computations in any type of RC system and is enough if $k$ is small. The second level of optimization also makes the (ii) part remain constant irrespective of large $k$, as long as the dimension of the output is low. We discuss when the proposed validation schemes for ESNs could be beneficial, three options for producing the final model and empirically investigate them on six different real-world datasets, as well as do empirical computation time experiments. We provide the code in an online repository. Results: Proposed CV schemes give better and more stable test performance in all the six different real-world datasets, three task types. Empirical run times confirm our complexity analysis. Conclusions: In most situations $k$-fold CV of ESNs and many other RC models can be done for virtually the same time and space complexity as a simple single-split validation. This enables CV to become a standard practice in RC.
翻訳日:2022-11-19 03:23:03 公開日:2020-12-03
# 相対的ランダムウォークとしての時空間対応

Space-Time Correspondence as a Contrastive Random Walk ( http://arxiv.org/abs/2006.14613v2 )

ライセンス: Link先を確認
Allan Jabri, Andrew Owens, Alexei A. Efros(参考訳) 本稿では,生映像から視覚対応表現を学習するための単純自己教師あり手法を提案する。 ビデオから構築した時空間グラフにおいて,リンクの予測として対応性を示す。 このグラフでは、各フレームからノードをサンプリングし、隣接するノードは有向エッジを共有することができる。 我々は、ランダムウォークの遷移確率を定義するペアワイズ類似性の表現を学習し、長距離対応をグラフに沿ってウォークとして計算する。 類似性の経路に沿って高い確率を示すために表現を最適化する。 学習の目的は、フレームのパリンドロームから構築されたグラフに沿って歩くときに初期ノードに戻る可能性を最大化することである。 したがって、単一の経路レベルの制約は、中間比較の連鎖を暗黙的に監督する。 適応のない類似度メトリクスとして使用する場合、学習表現は、オブジェクト、意味部分、ポーズを含むラベル伝搬タスクにおいて、自己教師あり状態よりも優れる。 さらに,我々がエッジドロップアウトと呼ぶ手法と,テスト時の自己教師付き適応によって,オブジェクト中心対応の転送がさらに向上することを示す。

This paper proposes a simple self-supervised approach for learning a representation for visual correspondence from raw video. We cast correspondence as prediction of links in a space-time graph constructed from video. In this graph, the nodes are patches sampled from each frame, and nodes adjacent in time can share a directed edge. We learn a representation in which pairwise similarity defines transition probability of a random walk, so that long-range correspondence is computed as a walk along the graph. We optimize the representation to place high probability along paths of similarity. Targets for learning are formed without supervision, by cycle-consistency: the objective is to maximize the likelihood of returning to the initial node when walking along a graph constructed from a palindrome of frames. Thus, a single path-level constraint implicitly supervises chains of intermediate comparisons. When used as a similarity metric without adaptation, the learned representation outperforms the self-supervised state-of-the-art on label propagation tasks involving objects, semantic parts, and pose. Moreover, we demonstrate that a technique we call edge dropout, as well as self-supervised adaptation at test-time, further improve transfer for object-centric correspondence.
翻訳日:2022-11-17 03:59:04 公開日:2020-12-03
# TURL:表現学習による表理解

TURL: Table Understanding through Representation Learning ( http://arxiv.org/abs/2006.14806v2 )

ライセンス: Link先を確認
Xiang Deng, Huan Sun, Alyssa Lees, You Wu, Cong Yu(参考訳) web上のリレーショナルテーブルには、膨大な知識があります。 このような表の豊かさから、表理解の分野では様々なタスクが多大な進歩を遂げている。 しかしながら、既存の作業は一般的に、高度に設計されたタスク固有の機能とモデルアーキテクチャに依存している。 本稿では,リレーショナルWebテーブルに事前学習/微調整パラダイムを導入する新しいフレームワークであるTURLを提案する。 事前トレーニング中に、このフレームワークは、教師なしの方法でリレーショナルテーブルの深いコンテキスト化表現を学習します。 事前訓練された表現を持つユニバーサルモデル設計は、タスク固有の微調整を最小限にした幅広いタスクに適用することができる。 具体的には、リレーショナルテーブルの行列構造をモデル化する構造対応トランスフォーマーエンコーダを提案し、大規模未ラベルデータにおける意味と知識を事前学習するための新しいMasked Entity Recovery(MER)の目標を提案する。 我々は,テーブル理解のための6つのタスク(関係抽出,セル充填など)からなるベンチマークを用いて,TURLを体系的に評価した。 我々は,TURLがすべてのタスクを一般化し,既存のメソッドをほぼすべてのインスタンスで大幅に上回ることを示す。

Relational tables on the Web store a vast amount of knowledge. Owing to the wealth of such tables, there has been tremendous progress on a variety of tasks in the area of table understanding. However, existing work generally relies on heavily-engineered task-specific features and model architectures. In this paper, we present TURL, a novel framework that introduces the pre-training/fine-tuning paradigm to relational Web tables. During pre-training, our framework learns deep contextualized representations on relational tables in an unsupervised manner. Its universal model design with pre-trained representations can be applied to a wide range of tasks with minimal task-specific fine-tuning. Specifically, we propose a structure-aware Transformer encoder to model the row-column structure of relational tables, and present a new Masked Entity Recovery (MER) objective for pre-training to capture the semantics and knowledge in large-scale unlabeled data. We systematically evaluate TURL with a benchmark consisting of 6 different tasks for table understanding (e.g., relation extraction, cell filling). We show that TURL generalizes well to all tasks and substantially outperforms existing methods in almost all instances.
翻訳日:2022-11-16 21:56:26 公開日:2020-12-03
# FracBits: 分数ビット幅による混合精度量子化

FracBits: Mixed Precision Quantization via Fractional Bit-Widths ( http://arxiv.org/abs/2007.02017v2 )

ライセンス: Link先を確認
Linjie Yang, Qing Jin(参考訳) モデル量子化は、ディープニューラルネットワークのモデルサイズとレイテンシを削減するのに役立つ。 混合精度量子化は、最大効率を達成するために、複数のビット幅での算術演算をサポートするカスタマイズハードウェアで好ましい。 対象の計算制約とモデルサイズに基づいて,混合精度モデルをエンドツーエンドに導出する新しい学習アルゴリズムを提案する。 最適化の間、モデル内の各層/カーネルのビット幅は、徐々に調整できる2つの連続したビット幅の分数状態となる。 微分正則化項では、最適化された混合精度モデルをもたらす量子化対応トレーニング中にリソース制約を満たすことができる。 さらに,提案手法はチャネルプルーニングと自然に組み合わせて計算コストの割当を改善することができる。 最終モデルは,imagenetデータセット上の異なるリソース制約下で,mobilenetv1/v2,resnet18の混合精度で,従来の量子化法と同等あるいは優れた性能を実現する。

Model quantization helps to reduce model size and latency of deep neural networks. Mixed precision quantization is favorable with customized hardwares supporting arithmetic operations at multiple bit-widths to achieve maximum efficiency. We propose a novel learning-based algorithm to derive mixed precision models end-to-end under target computation constraints and model sizes. During the optimization, the bit-width of each layer / kernel in the model is at a fractional status of two consecutive bit-widths which can be adjusted gradually. With a differentiable regularization term, the resource constraints can be met during the quantization-aware training which results in an optimized mixed precision model. Further, our method can be naturally combined with channel pruning for better computation cost allocation. Our final models achieve comparable or better performance than previous quantization methods with mixed precision on MobilenetV1/V2, ResNet18 under different resource constraints on ImageNet dataset.
翻訳日:2022-11-13 13:47:03 公開日:2020-12-03
# 局所因子ダイナミクスを用いた実測データ拡張

Counterfactual Data Augmentation using Locally Factored Dynamics ( http://arxiv.org/abs/2007.02863v2 )

ライセンス: Link先を確認
Silviu Pitis, Elliot Creager, Animesh Garg(参考訳) ロボット制御と強化学習(RL)の一般的なシナリオを含む多くの動的プロセスは、相互作用するサブプロセスのセットを含む。 サブプロセスは独立ではないが、相互作用はしばしば疎結合であり、任意の時間ステップにおけるダイナミクスは、しばしば局所的に独立した因果機構に分解される。 このような局所因果構造を利用して、シーケンス予測とオフポリシー強化学習のサンプル効率を向上させることができる。 状態空間のサブセットに条件付けすることで大域因果モデルから誘導される局所因果モデル(LCM)を導入することでこれを形式化する。 本稿では,これらの構造をオブジェクト指向の状態表現として推定する手法と,CoDA(Coerfactual Data Augmentation)のための新しいアルゴリズムを提案する。 CoDAは、グローバルモデルにおいて因果的に有効な反ファクト体験を生成するために、ローカル構造と経験リプレイを使用する。 CoDAはバッチ制約やゴール条件の設定を含むローカルファクタリングタスクにおけるRLエージェントの性能を大幅に改善する。

Many dynamic processes, including common scenarios in robotic control and reinforcement learning (RL), involve a set of interacting subprocesses. Though the subprocesses are not independent, their interactions are often sparse, and the dynamics at any given time step can often be decomposed into locally independent causal mechanisms. Such local causal structures can be leveraged to improve the sample efficiency of sequence prediction and off-policy reinforcement learning. We formalize this by introducing local causal models (LCMs), which are induced from a global causal model by conditioning on a subset of the state space. We propose an approach to inferring these structures given an object-oriented state representation, as well as a novel algorithm for Counterfactual Data Augmentation (CoDA). CoDA uses local structures and an experience replay to generate counterfactual experiences that are causally valid in the global model. We find that CoDA significantly improves the performance of RL agents in locally factored tasks, including the batch-constrained and goal-conditioned settings.
翻訳日:2022-11-13 01:07:17 公開日:2020-12-03
# LoCAレグレット:強化学習におけるモデルに基づく行動評価の一貫した基準

The LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in Reinforcement Learning ( http://arxiv.org/abs/2007.03158v2 )

ライセンス: Link先を確認
Harm van Seijen and Hadi Nekoei and Evan Racah and Sarath Chandar(参考訳) 深層モデルに基づく強化学習(RL)は,深部RLのサンプル効率を大幅に向上させる可能性がある。 様々な課題が長年持ちこたえてきたが、多くの論文が最近、ディープモデルベースの手法で成功を報告している。 これは大きな発展であるが、そのような手法を評価するための一貫した基準が欠如しているため、様々な手法を比較することは困難である。 例えば、一般的なシングルタスクのサンプル効率測定基準は、モデルベース学習による改善と、表現学習などの様々な側面を融合させ、モデルベースRLの真の進歩を評価するのが困難になる。 そこで本研究では,人間や動物におけるモデルベース行動の検出に関する神経科学の研究から着想を得た,モデルベース行動評価のための実験装置を提案する。 この設定に基づく測定基準であるlocal change adapt (loca) regretは、rlメソッドが環境のローカルな変更にどの程度迅速に適応するかを測定します。 提案手法では, モデルに基づく振る舞いを, たとえ表現が貧弱であったとしても識別し, 最適なモデルベース行動から, メソッドの振る舞いがいかに近いかの洞察を与える。 我々は、従来のマウンテンカータスクのバリエーションに基づいて、MuZeroのモデルに基づく振る舞いを評価するためにセットアップを使用する。

Deep model-based Reinforcement Learning (RL) has the potential to substantially improve the sample-efficiency of deep RL. While various challenges have long held it back, a number of papers have recently come out reporting success with deep model-based methods. This is a great development, but the lack of a consistent metric to evaluate such methods makes it difficult to compare various approaches. For example, the common single-task sample-efficiency metric conflates improvements due to model-based learning with various other aspects, such as representation learning, making it difficult to assess true progress on model-based RL. To address this, we introduce an experimental setup to evaluate model-based behavior of RL methods, inspired by work from neuroscience on detecting model-based behavior in humans and animals. Our metric based on this setup, the Local Change Adaptation (LoCA) regret, measures how quickly an RL method adapts to a local change in the environment. Our metric can identify model-based behavior, even if the method uses a poor representation and provides insight in how close a method's behavior is from optimal model-based behavior. We use our setup to evaluate the model-based behavior of MuZero on a variation of the classic Mountain Car task.
翻訳日:2022-11-12 18:23:02 公開日:2020-12-03
# 条件付き生成逆ネットワークを用いたcovid-19ct画像合成

COVID-19 CT Image Synthesis with a Conditional Generative Adversarial Network ( http://arxiv.org/abs/2007.14638v2 )

ライセンス: Link先を確認
Yifan Jiang, Han Chen, Murray Loew, and Hanseok Ko(参考訳) コロナウイルス感染症2019(COVID-19)は、2019年12月以降急速に拡大している世界的なパンデミックである。 リアルタイム逆転写ポリメラーゼ鎖反応 (rRT-PCR) と胸部CT画像撮影はどちらも新型コロナウイルスの診断において重要な役割を担っている。 胸部CT画像は、迅速な報告、低コスト、肺感染症の検出に対する高感度の利点を提供する。 近年,X線,磁気共鳴画像,CT画像などの医用画像の応用において,ディープラーニングを用いたコンピュータビジョンが大いに期待されている。 しかし、ディープラーニングモデルのトレーニングには大量のデータが必要であり、感染症の感染率が高いため、医療スタッフは新型コロナウイルスのctデータを収集するリスクが高い。 もうひとつの問題は、データラベリングに専門家がいないことだ。 本研究は、新型コロナウイルスのct画像に対するデータ要求を満たすために、高画質でリアルなcovid-19 ct画像を効果的に生成し、ディープラーニングに基づく医用画像処理に活用できる条件付き生成逆ネットワークに基づくct画像合成手法を提案する。 実験結果から, 提案手法は, 生成したCOVID-19 CT画像で他の最先端画像合成法よりも優れており, セマンティックセグメンテーションや分類などの機械学習応用に期待できることを示す。

Coronavirus disease 2019 (COVID-19) is an ongoing global pandemic that has spread rapidly since December 2019. Real-time reverse transcription polymerase chain reaction (rRT-PCR) and chest computed tomography (CT) imaging both play an important role in COVID-19 diagnosis. Chest CT imaging offers the benefits of quick reporting, a low cost, and high sensitivity for the detection of pulmonary infection. Recently, deep-learning-based computer vision methods have demonstrated great promise for use in medical imaging applications, including X-rays, magnetic resonance imaging, and CT imaging. However, training a deep-learning model requires large volumes of data, and medical staff faces a high risk when collecting COVID-19 CT data due to the high infectivity of the disease. Another issue is the lack of experts available for data labeling. In order to meet the data requirements for COVID-19 CT imaging, we propose a CT image synthesis approach based on a conditional generative adversarial network that can effectively generate high-quality and realistic COVID-19 CT images for use in deep-learning-based medical imaging tasks. Experimental results show that the proposed method outperforms other state-of-the-art image synthesis methods with the generated COVID-19 CT images and indicates promising for various machine learning applications including semantic segmentation and classification.
翻訳日:2022-11-05 20:11:02 公開日:2020-12-03
# 模倣学習の一般化保証

Generalization Guarantees for Imitation Learning ( http://arxiv.org/abs/2008.01913v2 )

ライセンス: Link先を確認
Allen Z. Ren, Sushant Veer, Anirudha Majumdar(参考訳) 模倣学習からの制御ポリシーは、不完全な実演や模倣学習アルゴリズムが専門家のポリシーを正確に推測できないために、しばしば新しい環境への一般化に失敗する。 本稿では,おそらくほぼ正しい(pac)-bayesフレームワークを用いて,新しい環境における政策の期待コストを上限として,模倣学習に対する厳密な一般化保証を提案する。 条件付き変分オートエンコーダを用いて, 潜在ポリシー分布をマルチモーダルエキスパート動作に組み込む2段階のトレーニング手法を提案し, 一般化境界を明示的に最適化するために, 新たなトレーニング環境において「微調整」を行う。 シミュレーションにおける経験的性能に対する強い一般化限界とその密接性を示す。 (i)多様なマグカップをつかむこと。 (二)視覚フィードバックによる平面プッシュ、及び (iii)視覚に基づく屋内ナビゲーションと,2つの操作タスクのハードウェア実験。

Control policies from imitation learning can often fail to generalize to novel environments due to imperfect demonstrations or the inability of imitation learning algorithms to accurately infer the expert's policies. In this paper, we present rigorous generalization guarantees for imitation learning by leveraging the Probably Approximately Correct (PAC)-Bayes framework to provide upper bounds on the expected cost of policies in novel environments. We propose a two-stage training method where a latent policy distribution is first embedded with multi-modal expert behavior using a conditional variational autoencoder, and then "fine-tuned" in new training environments to explicitly optimize the generalization bound. We demonstrate strong generalization bounds and their tightness relative to empirical performance in simulation for (i) grasping diverse mugs, (ii) planar pushing with visual feedback, and (iii) vision-based indoor navigation, as well as through hardware experiments for the two manipulation tasks.
翻訳日:2022-11-02 19:04:11 公開日:2020-12-03
# NASirt: インスタンスレベルの複雑性情報を用いたオートMLベースの学習

NASirt: AutoML based learning with instance-level complexity information ( http://arxiv.org/abs/2008.11846v2 )

ライセンス: Link先を確認
Habib Asseiss Neto and Ronnie C. O. Alves and Sergio V. A. Campos(参考訳) 適切な正確なニューラルネットワークの設計は難しい作業であり、高度に専門的な人材によって行われることが多い。 AutoMLは機械学習の分野であり、優れたモデルを自動で生成することを目指している。 生物学的分析から得られたスペクトルデータは一般に多くの重要な情報であり、これらのデータは画像のような形状のために畳み込みニューラルネットワーク(CNN)に特に適している。 本研究では,NAS(Neural Architecture Search)に基づくAutoML方法論であるNASirtを提案する。 提案手法は,識別や難易度といったインスタンスレベルから特性を得るための項目応答理論(irt)に依存しており,上位実行サブモデルのランクを定義することができる。 スペクトルデータセットの異なる手法の性能を示すために、いくつかの実験が行われた。 精度は、高性能で手作業によるCNNやAuto-Keras AutoMLツールなど、他のベンチマーク手法と比較される。 その結果,本手法はベンチマークよりも精度が良く,平均精度は97.40%であることがわかった。

Designing adequate and precise neural architectures is a challenging task, often done by highly specialized personnel. AutoML is a machine learning field that aims to generate good performing models in an automated way. Spectral data such as those obtained from biological analysis have generally a lot of important information, and these data are specifically well suited to Convolutional Neural Networks (CNN) due to their image-like shape. In this work we present NASirt, an AutoML methodology based on Neural Architecture Search (NAS) that finds high accuracy CNN architectures for spectral datasets. The proposed methodology relies on the Item Response Theory (IRT) for obtaining characteristics from an instance level, such as discrimination and difficulty, and it is able to define a rank of top performing submodels. Several experiments are performed in order to demonstrate the methodology's performance with different spectral datasets. Accuracy results are compared to other benchmarks methods, such as a high performing, manually crafted CNN and the Auto-Keras AutoML tool. The results show that our method performs, in most cases, better than the benchmarks, achieving average accuracy as high as 97.40%.
翻訳日:2022-10-24 21:01:01 公開日:2020-12-03
# CNNでは各レイヤは非自明か?

Is Each Layer Non-trivial in CNN? ( http://arxiv.org/abs/2009.09938v2 )

ライセンス: Link先を確認
Wei Wang, Yanjie Zhu, Zhuoxu Cui, Dong Liang(参考訳) 畳み込みニューラルネットワーク(CNN)モデルは、多くの分野で大きな成功を収めている。 ResNetの出現により、実際に使われているネットワークはより深くなりつつある。 しかし、各層はネットワークにおいて非自明か? この質問に答えるために、トレーニングセット上でネットワークをトレーニングし、ネットワーク畳み込みカーネルをゼロに置き換え、テストセット上で結果モデルをテストする。 実験結果とベースラインを比較した結果,類似あるいは同一のパフォーマンスに到達できることが判明した。 畳み込みカーネルはネットワークのコアであるが、そのうちのいくつかはresnetにおいて自明で正規である。

Convolutional neural network (CNN) models have achieved great success in many fields. With the advent of ResNet, networks used in practice are getting deeper and wider. However, is each layer non-trivial in networks? To answer this question, we trained a network on the training set, then we replace the network convolution kernels with zeros and test the result models on the test set. We compared experimental results with baseline and showed that we can reach similar or even the same performances. Although convolution kernels are the cores of networks, we demonstrate that some of them are trivial and regular in ResNet.
翻訳日:2022-10-20 11:49:15 公開日:2020-12-03
# CorDEL: エンティティリンケージのための対照的なディープラーニングアプローチ

CorDEL: A Contrastive Deep Learning Approach for Entity Linkage ( http://arxiv.org/abs/2009.07203v3 )

ライセンス: Link先を確認
Zhengyang Wang, Bunyamin Sisman, Hao Wei, Xin Luna Dong, Shuiwang Ji(参考訳) エンティティリンケージ(EL)は、データのクリーニングと統合において重要な問題である。 過去数十年間、ELは通常、手作業による入力に大きく依存する、ルールベースのシステムや手作業による特徴を持つ従来の機械学習モデルによって行われてきた。 新たなデータの増加に伴い、ディープラーニング(DL)ベースのアプローチが提案され、従来のモデルに関連するELの高コスト化が図られている。 ELのための既存のDLモデルの探索は、よく知られたツインネットワークアーキテクチャに厳密に従っている。 しかし、ツインネットワークアーキテクチャはELに準最適であり、既存のモデルに固有の欠点をもたらすと論じる。 この欠点に対処するため,EL のための新規かつ汎用的な DL フレームワークを提案する。 提案手法は,構文的および意味的一致信号の両方を捉えることができ,微妙だが重要な差異に注意を向ける。 このフレームワークに基づいて,CorDELと呼ばれる3つの強力な変種を持つELのための対照的なDLアプローチを開発した。 我々はCorDELを、公開ベンチマークデータセットと実世界のデータセットの両方で広範な実験により評価する。 CorDELは、従来の最先端モデルを公開ベンチマークデータセットで5.2%上回っている。 さらに、CorDELは、現在の最高のDLモデルよりも2.4%改善され、トレーニングパラメータの数を97.6%削減した。

Entity linkage (EL) is a critical problem in data cleaning and integration. In the past several decades, EL has typically been done by rule-based systems or traditional machine learning models with hand-curated features, both of which heavily depend on manual human inputs. With the ever-increasing growth of new data, deep learning (DL) based approaches have been proposed to alleviate the high cost of EL associated with the traditional models. Existing exploration of DL models for EL strictly follows the well-known twin-network architecture. However, we argue that the twin-network architecture is sub-optimal to EL, leading to inherent drawbacks of existing models. In order to address the drawbacks, we propose a novel and generic contrastive DL framework for EL. The proposed framework is able to capture both syntactic and semantic matching signals and pays attention to subtle but critical differences. Based on the framework, we develop a contrastive DL approach for EL, called CorDEL, with three powerful variants. We evaluate CorDEL with extensive experiments conducted on both public benchmark datasets and a real-world dataset. CorDEL outperforms previous state-of-the-art models by 5.2% on public benchmark datasets. Moreover, CorDEL yields a 2.4% improvement over the current best DL model on the real-world dataset, while reducing the number of training parameters by 97.6%.
翻訳日:2022-10-18 06:50:17 公開日:2020-12-03
# ニューラルネットワークにおける情報伝達の測定

Measuring Information Transfer in Neural Networks ( http://arxiv.org/abs/2009.07624v2 )

ライセンス: Link先を確認
Xiao Zhang, Xingjian Li, Dejing Dou, Ji Wu(参考訳) ニューラルネットワークモデルにおける情報内容の定量化は、本質的にモデルのコルモゴロフ複雑性を推定する。 最近のニューラルネットワークでの事前エンコーディングの成功は、モデルの効率的な記述長を導出する有望な経路を示している。 本稿では,情報転送(l_{it}$)と呼ぶ前空間符号化に基づくニューラルネットワークモデルにおける一般化可能な情報の実用的尺度を提案する。 理論的には、$L_{IT}$はモデルの情報内容の一般化可能な部分を推定する。 実験では、$L_{IT}$は一般化可能な情報と一貫して相関し、モデルやデータセットのパターンや「知識」の尺度として使用できることを示す。 したがって、$L_{IT}$はディープラーニングの有用な分析ツールとして機能する。 本稿では,データセットにおける情報の比較と識別,転送学習における表現モデルの評価,破滅的忘れと連続学習アルゴリズムの解析に$L_{IT}$を適用する。 L_{IT}$は、ニューラルネットワーク学習に関する新たな洞察を見つけるのに役立つ情報視点を提供する。

Quantifying the information content in a neural network model is essentially estimating the model's Kolmogorov complexity. Recent success of prequential coding on neural networks points to a promising path of deriving an efficient description length of a model. We propose a practical measure of the generalizable information in a neural network model based on prequential coding, which we term Information Transfer ($L_{IT}$). Theoretically, $L_{IT}$ is an estimation of the generalizable part of a model's information content. In experiments, we show that $L_{IT}$ is consistently correlated with generalizable information and can be used as a measure of patterns or "knowledge" in a model or a dataset. Consequently, $L_{IT}$ can serve as a useful analysis tool in deep learning. In this paper, we apply $L_{IT}$ to compare and dissect information in datasets, evaluate representation models in transfer learning, and analyze catastrophic forgetting and continual learning algorithms. $L_{IT}$ provides an information perspective which helps us discover new insights into neural network learning.
翻訳日:2022-10-17 23:09:23 公開日:2020-12-03
# 学習と推定のためのpanプライバシーとshuffleプライバシーの限界

The Limits of Pan Privacy and Shuffle Privacy for Learning and Estimation ( http://arxiv.org/abs/2009.08000v3 )

ライセンス: Link先を確認
Albert Cheu and Jonathan Ullman(参考訳) 完全な信頼された中央データコレクタの必要性をなくしながら、ローカルな差分プライバシの制限を克服する、ディファレンシャルプライバシのための中間信頼モデルに対する近年の関心が高まっている。 この関心はシャッフルモデルの導入(Cheu et al., EUROCRYPT 2019, Erlingsson et al., SODA 2019)と、パンプライベートモデルの再検討(Dwork et al., ITCS 2010)につながっている。 この一連の作業のメッセージは、数、平均、ヒストグラムなど、さまざまな低次元の問題に対して、これらの中間モデルが中央微分プライバシーと同程度のパワーを提供する、というものだ。 しかし、これらのモデルを用いた高次元学習および推定問題に対する成功例は極めて少ない。 本研究では,様々な高次元学習および推定問題に対して,シャッフルモデルとパンプライベートモデルの両方が,本質的に中央モデルに対するサンプル複雑性の指数関数的価格を伴っていることを示す。 例えば、$d$bit 上のパリティ関数のプライベート非依存学習では、これらのモデルで $\omega(2^{d/2})$ のサンプルが必要であり、$d$ の一連の選択から最も一般的な属性をプライベートに選択するには$\omega(d^{1/2})$ のサンプルが必要であり、どちらも中央モデルからの指数的分離である。 我々の研究は、パンプライベートモデルと一般的なマルチメッセージシャッフルモデルの両方に対して、これらの問題に対する最初の非自明な下界を与える。

There has been a recent wave of interest in intermediate trust models for differential privacy that eliminate the need for a fully trusted central data collector, but overcome the limitations of local differential privacy. This interest has led to the introduction of the shuffle model (Cheu et al., EUROCRYPT 2019; Erlingsson et al., SODA 2019) and revisiting the pan-private model (Dwork et al., ITCS 2010). The message of this line of work is that, for a variety of low-dimensional problems -- such as counts, means, and histograms -- these intermediate models offer nearly as much power as central differential privacy. However, there has been considerably less success using these models for high-dimensional learning and estimation problems. In this work, we show that, for a variety of high-dimensional learning and estimation problems, both the shuffle model and the pan-private model inherently incur an exponential price in sample complexity relative to the central model. For example, we show that, private agnostic learning of parity functions over $d$ bits requires $\Omega(2^{d/2})$ samples in these models, and privately selecting the most common attribute from a set of $d$ choices requires $\Omega(d^{1/2})$ samples, both of which are exponential separations from the central model. Our work gives the first non-trivial lower bounds for these problems for both the pan-private model and the general multi-message shuffle model.
翻訳日:2022-10-17 12:13:26 公開日:2020-12-03
# deep encoder-decoder netwokを用いた脳波チャネル補間

EEG Channel Interpolation Using Deep Encoder-decoder Netwoks ( http://arxiv.org/abs/2009.12244v2 )

ライセンス: Link先を確認
Sari Saba-Sadiya, Tuka Alhanai, Taosheng Liu, Mohammad M. Ghassemi(参考訳) 電極「ポップ」アーティファクトは、表面と電極との接続が自然に失われることに由来する。 脳電図(EEG)は、密度の高い電極配列を使用するため、脳波データの収集において最も広く見られるアーティファクトの一つである。 多くの場合、脳波データの連続性は下流アプリケーション(例えば脳機械インタフェース)にとって重要であり、ポップアップしたセグメントを正確に補間する必要がある。 本稿では,ディープエンコーダデコーダネットワークを用いて,補間問題を自己学習タスクとする。 脳波データセット上での現代の補間手法に対する我々のアプローチを比較した。 提案手法は, モデルトレーニングで使用しなかった課題や課題に対して, 現代的アプローチよりも15%程度改善した。 トランスファー学習を用いて,新しい課題や課題に対して,モデルの性能がさらに向上することを示す。 この研究に関連するすべてのコードとデータは、拡張性と実用性を容易にするためのオープンソースである。 我々の知る限り、この研究は深層学習を用いた脳波補間問題に対する最初の解決策である。

Electrode "pop" artifacts originate from the spontaneous loss of connectivity between a surface and an electrode. Electroencephalography (EEG) uses a dense array of electrodes, hence "popped" segments are among the most pervasive type of artifact seen during the collection of EEG data. In many cases, the continuity of EEG data is critical for downstream applications (e.g. brain machine interface) and requires that popped segments be accurately interpolated. In this paper we frame the interpolation problem as a self-learning task using a deep encoder-decoder network. We compare our approach against contemporary interpolation methods on a publicly available EEG data set. Our approach exhibited a minimum of ~15% improvement over contemporary approaches when tested on subjects and tasks not used during model training. We demonstrate how our model's performance can be enhanced further on novel subjects and tasks using transfer learning. All code and data associated with this study is open-source to enable ease of extension and practical use. To our knowledge, this work is the first solution to the EEG interpolation problem that uses deep learning.
翻訳日:2022-10-16 05:54:26 公開日:2020-12-03
# Citation Recommendationのためのデュアルアテンションモデル

Dual Attention Model for Citation Recommendation ( http://arxiv.org/abs/2010.00182v5 )

ライセンス: Link先を確認
Yang Zhang, Qiang Ma(参考訳) 学術論文の数が指数関数的に増加していることから,包括的かつ適切なリソースの発見と引用は,非自明な作業となっている。 従来の引用推薦手法は深刻な情報損失に悩まされる。 例えば、ユーザが書いている論文のセクションや、引用を見つける必要がある部分、ローカルコンテキストにおける単語間の関連性(引用を記述したテキストスパン)、あるいはローカルコンテキストからの各単語の重要性を考慮していない。 これらの欠点は、学術写本への適切な引用を推奨するには不十分である。 本研究では,本書作成中に引用を推薦する"dual attention model for citation recommendation (dacr)"と呼ばれる埋め込み型ニューラルネットワークを提案する。 本手法は,局所的文脈における単語,構造的文脈,ユーザが作業している部分の3次元のセマンティック情報の埋め込みに適応する。 ニューラルネットワークは、3つの入力(ローカルコンテキストワード、セクション、構造コンテキスト)の埋め込みと、コンテキストに現れるターゲットの引用との類似性を最大化するように設計されている。 ニューラルネットワークのコアは自己注意と付加的注意で構成されており、前者は文脈語と構造的文脈の関係性を捉えることを目的としており、後者はそれらの重要性を学ぶことを目的としている。 実世界のデータセットを用いた実験は,提案手法の有効性を示す。

Based on an exponentially increasing number of academic articles, discovering and citing comprehensive and appropriate resources has become a non-trivial task. Conventional citation recommender methods suffer from severe information loss. For example, they do not consider the section of the paper that the user is writing and for which they need to find a citation, the relatedness between the words in the local context (the text span that describes a citation), or the importance on each word from the local context. These shortcomings make such methods insufficient for recommending adequate citations to academic manuscripts. In this study, we propose a novel embedding-based neural network called "dual attention model for citation recommendation (DACR)" to recommend citations during manuscript preparation. Our method adapts embedding of three dimensions of semantic information: words in the local context, structural contexts, and the section on which a user is working. A neural network is designed to maximize the similarity between the embedding of the three input (local context words, section and structural contexts) and the target citation appearing in the context. The core of the neural network is composed of self-attention and additive attention, where the former aims to capture the relatedness between the contextual words and structural context, and the latter aims to learn the importance of them. The experiments on real-world datasets demonstrate the effectiveness of the proposed approach.
翻訳日:2022-10-12 07:28:15 公開日:2020-12-03
# ニューラルネットワークによるマルチタスクシーン理解のための半教師付き学習

Semi-Supervised Learning for Multi-Task Scene Understanding by Neural Graph Consensus ( http://arxiv.org/abs/2010.01086v2 )

ライセンス: Link先を確認
Marius Leordeanu, Mihai Pirvu, Dragos Costea, Alina Marcu, Emil Slusanschi and Rahul Sukthankar(参考訳) ニューラルネットワークのグラフにコンセンサスを見出すことにより、世界の複数の視覚的解釈の文脈における半教師あり学習の課題に対処する。 各グラフノードはシーン解釈層であり、各エッジはひとつのノードのレイヤを別のノードから別のレイヤに変換するディープネットである。 制御されたフェーズエッジネットワークは独立してトレーニングされる。 次の未管理段階の間、エッジネットは、ネットの開始ノードと終了ノードに到達する複数のパス間のコンセンサスによって提供される擬似地上真実に基づいて訓練される。 これらの経路は任意のエッジのアンサンブル教師として機能し、強いコンセンサスは高信頼の監督信号に使用される。 教師なしの学習プロセスは数世代にわたって繰り返され、各エッジは「学生」となり、他の学生を訓練するための異なるアンサンブル「教師」の一部となる。 異なる経路間のコンセンサスを最適化することで、未知のラベルに直面して、グラフは複数の解釈と世代にわたって一貫性と堅牢性に到達する。 提案するアイデアを理論的に正当化し,大規模データセット上で検証する。 本研究では, 深度, セマンティックセグメンテーション, 表面正規化, RGB入力からのポーズなどの異なる表現の予測が, グラフ内の自己教師型コンセンサスによって効果的に学習可能であることを示す。 また,マルチタスクと半教師付き学習の最先端手法を比較し,優れた性能を示す。

We address the challenging problem of semi-supervised learning in the context of multiple visual interpretations of the world by finding consensus in a graph of neural networks. Each graph node is a scene interpretation layer, while each edge is a deep net that transforms one layer at one node into another from a different node. During the supervised phase edge networks are trained independently. During the next unsupervised stage edge nets are trained on the pseudo-ground truth provided by consensus among multiple paths that reach the nets' start and end nodes. These paths act as ensemble teachers for any given edge and strong consensus is used for high-confidence supervisory signal. The unsupervised learning process is repeated over several generations, in which each edge becomes a "student" and also part of different ensemble "teachers" for training other students. By optimizing such consensus between different paths, the graph reaches consistency and robustness over multiple interpretations and generations, in the face of unknown labels. We give theoretical justifications of the proposed idea and validate it on a large dataset. We show how prediction of different representations such as depth, semantic segmentation, surface normals and pose from RGB input could be effectively learned through self-supervised consensus in our graph. We also compare to state-of-the-art methods for multi-task and semi-supervised learning and show superior performance.
翻訳日:2022-10-12 01:50:14 公開日:2020-12-03
# 正規化逆強化学習

Regularized Inverse Reinforcement Learning ( http://arxiv.org/abs/2010.03691v2 )

ライセンス: Link先を確認
Wonseok Jeon, Chen-Yang Su, Paul Barde, Thang Doan, Derek Nowrouzezahrai, Joelle Pineau(参考訳) Inverse Reinforcement Learning (IRL) は、専門家の判断を説明する報酬関数を取得することによって、専門家の行動を模倣する学習者の能力を促進することを目的としている。 正規化IRLは、任意の一定の報酬によって合理的化される専門家の振る舞いを避けるために、学習者のポリシーに強い凸正則化器を適用する。 正規化IRLのためのトラクタブルソリューションとそれを得るための実用的な方法を提案する。 現在の手法は最大エントロピーirlフレームワークに制限されており、シャノンエントロピー正規化器に制限されている。 本稿では,提案するirl法を離散制御と連続制御の両方に適用し,様々なタスクにおける性能を実証的に検証する理論的支援を行う。

Inverse Reinforcement Learning (IRL) aims to facilitate a learner's ability to imitate expert behavior by acquiring reward functions that explain the expert's decisions. Regularized IRL applies strongly convex regularizers to the learner's policy in order to avoid the expert's behavior being rationalized by arbitrary constant rewards, also known as degenerate solutions. We propose tractable solutions, and practical methods to obtain them, for regularized IRL. Current methods are restricted to the maximum-entropy IRL framework, limiting them to Shannon-entropy regularizers, as well as proposing the solutions that are intractable in practice. We present theoretical backing for our proposed IRL method's applicability for both discrete and continuous controls, empirically validating our performance on a variety of tasks.
翻訳日:2022-10-09 23:56:25 公開日:2020-12-03
# cpu系エッジデバイスにおけるサーマルスロットリングが長期視覚推定に及ぼす影響

Impact of Thermal Throttling on Long-Term Visual Inference in a CPU-based Edge Device ( http://arxiv.org/abs/2010.06291v2 )

ライセンス: Link先を確認
Th\'eo Benoit-Cattin, Delia Velasco-Montero and Jorge Fern\'andez-Berni(参考訳) ロボット工学や環境モニタリングなど、エッジビジュアル推論の多くのアプリケーションシナリオは、最終的には長期にわたる継続的な運用を必要とする。 このような期間において、プロセッサ温度は所定のフレームレートを維持するために重要な役割を果たす。 特に、畳み込みニューラルネットワーク(CNN)の重い計算負荷は、熱収縮を引き起こし、数秒で性能が低下する可能性がある。 本稿では,4つのソフトウェアフレームワークと2つのオペレーティングシステム上で5つのCNNモデルを実行した80のケースの長期的パフォーマンスを報告し,解析する。 本研究は, Raspberry Pi 4B (RPi4B) という低コストのエッジプラットフォーム上で, 安定した室内環境下で実施された。 その結果, ヒステリシス系アクティブ冷却はすべてのケースで熱スロットリングを防止し, スループットを90%まで向上させた。 興味深いことに、アクティブ冷却時のファンの使用範囲は33%から65%に変化した。 ファンがシステム全体の消費電力に与える影響を考えると、これらの結果はcnnモデルとソフトウェアコンポーネントの適切な選択の重要性を強調している。 屋外応用における性能を評価するため, 外部温度センサをRPi4Bに統合し, 22 {\deg}Cから36 {\deg}Cまで広い範囲で, アクティブ冷却のない一連の実験を行った。 この区間で達成された最大スループットに関して、最大27.7%の変動が測定された。 これは、アクティブ冷却が適用できない場合、環境温度が重要なパラメータであることを示している。

Many application scenarios of edge visual inference, e.g., robotics or environmental monitoring, eventually require long periods of continuous operation. In such periods, the processor temperature plays a critical role to keep a prescribed frame rate. Particularly, the heavy computational load of convolutional neural networks (CNNs) may lead to thermal throttling and hence performance degradation in few seconds. In this paper, we report and analyze the long-term performance of 80 different cases resulting from running 5 CNN models on 4 software frameworks and 2 operating systems without and with active cooling. This comprehensive study was conducted on a low-cost edge platform, namely Raspberry Pi 4B (RPi4B), under stable indoor conditions. The results show that hysteresis-based active cooling prevented thermal throttling in all cases, thereby improving the throughput up to approximately 90% versus no cooling. Interestingly, the range of fan usage during active cooling varied from 33% to 65%. Given the impact of the fan on the power consumption of the system as a whole, these results stress the importance of a suitable selection of CNN model and software components. To assess the performance in outdoor applications, we integrated an external temperature sensor with the RPi4B and conducted a set of experiments with no active cooling in a wide interval of ambient temperature, ranging from 22 {\deg}C to 36 {\deg}C. Variations up to 27.7% were measured with respect to the maximum throughput achieved in that interval. This demonstrates that ambient temperature is a critical parameter in case active cooling cannot be applied.
翻訳日:2022-10-07 23:55:14 公開日:2020-12-03
# ReviewRobot:知識合成に基づく説明可能な論文レビュー生成

ReviewRobot: Explainable Paper Review Generation based on Knowledge Synthesis ( http://arxiv.org/abs/2010.06119v3 )

ライセンス: Link先を確認
Qingyun Wang, Qi Zeng, Lifu Huang, Kevin Knight, Heng Ji, Nazneen Fatema Rajani(参考訳) 人間のレビュープロセスを支援するために,レビューロボットを構築し,レビュースコアを自動的に割り当て,新規性や意味のある比較などの複数のカテゴリのコメントを書く。 良いレビューは理解しやすく、すなわち、論文を改善するためにコメントが建設的で情報的であること、そして詳細な証拠を提供することで説明できることが必要です。 reviewrobotは,(1)レビュー対象紙から知識グラフ(kg)を構築するためにドメイン固有情報抽出を行う,(2)対象紙から引用した文書から関連する作業kg,2)ドメイン内の大量の論文から背景kgを行う,という3つのステップでこれらの目標を達成している。 2) これら3つのKGを比較して,レビュースコアと詳細な構造化知識を,各レビューカテゴリの証拠として予測する。 3)人間のレビュー文をテンプレートに慎重に選択・一般化し,これらのテンプレートを用いてレビュースコアとエビデンスを自然言語コメントに変換する。 実験の結果,レビュースコア予測器の精度は71.4%-100%であった。 ドメインの専門家によるヒューマン・アセスメントによると、reviewrobotが生成したコメントの41.7%-70.5%は有効で建設的であり、20%は人間が書いたコメントよりも優れている。 したがって、ReviewRobotはペーパーレビュアー、プログラムチェア、著者のアシスタントとして機能する。

To assist human review process, we build a novel ReviewRobot to automatically assign a review score and write comments for multiple categories such as novelty and meaningful comparison. A good review needs to be knowledgeable, namely that the comments should be constructive and informative to help improve the paper; and explainable by providing detailed evidence. ReviewRobot achieves these goals via three steps: (1) We perform domain-specific Information Extraction to construct a knowledge graph (KG) from the target paper under review, a related work KG from the papers cited by the target paper, and a background KG from a large collection of previous papers in the domain. (2) By comparing these three KGs, we predict a review score and detailed structured knowledge as evidence for each review category. (3) We carefully select and generalize human review sentences into templates, and apply these templates to transform the review scores and evidence into natural language comments. Experimental results show that our review score predictor reaches 71.4%-100% accuracy. Human assessment by domain experts shows that 41.7%-70.5% of the comments generated by ReviewRobot are valid and constructive, and better than human-written ones for 20% of the time. Thus, ReviewRobot can serve as an assistant for paper reviewers, program chairs and authors.
翻訳日:2022-10-07 22:35:30 公開日:2020-12-03
# 残留フィードバックによる一点微分自由オンライン最適化の促進

Boosting One-Point Derivative-Free Online Optimization via Residual Feedback ( http://arxiv.org/abs/2010.07378v3 )

ライセンス: Link先を確認
Yan Zhang, Yi Zhou, Kaiyi Ji, Michael M. Zavlanos(参考訳) ゼロ階最適化(ZO)は通常、目的関数の未知の勾配を推定するために2点フィードバックに依存する。 それにもかかわらず、2点フィードバックは、各時間ステップで関数値の単一のクエリのみが可能な、時間変化対象関数のオンライン最適化には使用できない。 本研究では,2つのフィードバック点間の残差を連続する瞬間に推定するオンライン最適化のための新しい一点フィードバック手法を提案する。 さらに、凸および非凸のオンライン最適化問題に対する残差フィードバックを持つZOに対する後悔境界を開発する。 具体的には、決定論的および確率的問題とリプシッツ関数と滑らかな目的関数の両方について、残差フィードバックを用いることで、従来の一点フィードバック法に比べてより小さな分散で勾配推定ができることを示す。 その結果、従来の一点フィードバックによるZOに対する既存の後悔境界に比べて、我々の後悔境界ははるかに厳格であり、残差フィードバックによるZOは、オンライン最適化問題の最適化をより良く追跡できることを示している。 さらに、私たちの後悔の限界は、従来の一点フィードバック法よりも弱い仮定に依存している。 数値実験により, 残差フィードバックを持つZOは, 既存の一点フィードバック法よりも有意に優れていた。

Zeroth-order optimization (ZO) typically relies on two-point feedback to estimate the unknown gradient of the objective function. Nevertheless, two-point feedback can not be used for online optimization of time-varying objective functions, where only a single query of the function value is possible at each time step. In this work, we propose a new one-point feedback method for online optimization that estimates the objective function gradient using the residual between two feedback points at consecutive time instants. Moreover, we develop regret bounds for ZO with residual feedback for both convex and nonconvex online optimization problems. Specifically, for both deterministic and stochastic problems and for both Lipschitz and smooth objective functions, we show that using residual feedback can produce gradient estimates with much smaller variance compared to conventional one-point feedback methods. As a result, our regret bounds are much tighter compared to existing regret bounds for ZO with conventional one-point feedback, which suggests that ZO with residual feedback can better track the optimizer of online optimization problems. Additionally, our regret bounds rely on weaker assumptions than those used in conventional one-point feedback methods. Numerical experiments show that ZO with residual feedback significantly outperforms existing one-point feedback methods also in practice.
翻訳日:2022-10-07 14:30:54 公開日:2020-12-03
# auto seg-loss: 意味セグメンテーションのためのメトリックサーロゲートの探索

Auto Seg-Loss: Searching Metric Surrogates for Semantic Segmentation ( http://arxiv.org/abs/2010.07930v2 )

ライセンス: Link先を確認
Hao Li, Chenxin Tao, Xizhou Zhu, Xiaogang Wang, Gao Huang, Jifeng Dai(参考訳) ディープネットワークのトレーニングには,適切な損失関数の設計が不可欠である。 特にセマンティクスセグメンテーションの分野では、様々なシナリオで様々な評価指標が提案されている。 広く採用されているクロスエントロピー損失とその変種の成功にもかかわらず、損失関数と評価指標のミスアライメントはネットワーク性能を低下させる。 一方、特定のメトリクスごとに損失関数を手動で設計するには、専門知識と重要なマンパワーが必要です。 本稿では,各計量に対する異なる代理損失を探索することにより,計量固有損失関数の設計を自動化することを提案する。 パラメータ化関数でメトリクスの微分不可能な操作を代用し、パラメータ探索を行い、損失面の形状を最適化する。 探索空間を規則化し、探索を効率化するために2つの制約を導入する。 PASCAL VOCとCityscapesの大規模な実験により、探索されたサロゲート損失は手動で設計した損失関数よりも優れていた。 検索された損失は他のデータセットやネットワークによく当てはまる。 コードは解放される。

Designing proper loss functions is essential in training deep networks. Especially in the field of semantic segmentation, various evaluation metrics have been proposed for diverse scenarios. Despite the success of the widely adopted cross-entropy loss and its variants, the mis-alignment between the loss functions and evaluation metrics degrades the network performance. Meanwhile, manually designing loss functions for each specific metric requires expertise and significant manpower. In this paper, we propose to automate the design of metric-specific loss functions by searching differentiable surrogate losses for each metric. We substitute the non-differentiable operations in the metrics with parameterized functions, and conduct parameter search to optimize the shape of loss surfaces. Two constraints are introduced to regularize the search space and make the search efficient. Extensive experiments on PASCAL VOC and Cityscapes demonstrate that the searched surrogate losses outperform the manually designed loss functions consistently. The searched losses can generalize well to other datasets and networks. Code shall be released.
翻訳日:2022-10-07 04:28:34 公開日:2020-12-03
# 畳み込み活性化マップを用いたフルリファレンス画像品質評価手法

A combined full-reference image quality assessment approach based on convolutional activation maps ( http://arxiv.org/abs/2010.09361v3 )

ライセンス: Link先を確認
Domonkos Varga(参考訳) フルリファレンス画像品質評価(FR-IQA)の目標は、人間の観察者が認識する画像の品質を、そのプリスタントな基準値を用いて予測することである。 本研究では,畳み込みアクティベーションマップから特徴ベクトルをコンパイルすることにより,歪み画像の知覚的品質を予測する,新しい組み合わせアプローチを提案する。 より具体的には、予め訓練された畳み込みニューラルネットワークを介して参照歪画像ペアを実行し、アクティベーションマップを従来の画像類似度メトリクスと比較する。 その後、訓練されたサポートベクターレグレッサの助けを借りて、得られた特徴ベクトルを知覚品質スコアにマッピングする。 また,提案手法の設計選択を推論する詳細なパラメータスタディも提示した。 さらに,トレーニング画像の量と予測性能の関係について検討した。 具体的には,提案手法を少ないデータ量で訓練し,高い予測性能が得られることを示した。 私たちのベストな提案であるActMapFeatは、KADID-10k、TID2013、TID2008、MDID、CSIQ、VCL-FERといった6つの公開ベンチマークIQAデータベースの最先端と比較されます。 特に,本手法は,ベンチマークデータベースの最先端を著しく上回ることができる。

The goal of full-reference image quality assessment (FR-IQA) is to predict the quality of an image as perceived by human observers with using its pristine, reference counterpart. In this study, we explore a novel, combined approach which predicts the perceptual quality of a distorted image by compiling a feature vector from convolutional activation maps. More specifically, a reference-distorted image pair is run through a pretrained convolutional neural network and the activation maps are compared with a traditional image similarity metric. Subsequently, the resulted feature vector is mapped onto perceptual quality scores with the help of a trained support vector regressor. A detailed parameter study is also presented in which the design choices of the proposed method is reasoned. Furthermore, we study the relationship between the amount of training images and the prediction performance. Specifically, it is demonstrated that the proposed method can be trained with few amount of data to reach high prediction performance. Our best proposal - ActMapFeat - is compared to the state-of-the-art on six publicly available benchmark IQA databases, such as KADID-10k, TID2013, TID2008, MDID, CSIQ, and VCL-FER. Specifically, our method is able to significantly outperform the state-of-the-art on these benchmark databases.
翻訳日:2022-10-05 22:50:27 公開日:2020-12-03
# ドイツの次世代言語モデル

German's Next Language Model ( http://arxiv.org/abs/2010.10906v4 )

ライセンス: Link先を確認
Branden Chan, Stefan Schweter, Timo M\"oller(参考訳) 本稿では,GBERT と GELECTRA をベースとしたドイツ語モデル GBERT と GELECTRA の作成に繋がる実験について述べる。 入力トレーニングデータ,モデルサイズ,およびWWM(Whole Word Masking)の存在によって,文書分類と名前付きエンティティ認識(NER)タスクをベースモデルと大規模モデルの両方で,SoTAのパフォーマンスを達成できた。 我々は,これらのモデルのトレーニングに評価駆動アプローチを採用し,データの追加とWWMの利用がモデル性能を向上させることを示す。 既存のドイツモデルと比較すると、これらのモデルがこれまでで最高のドイツモデルであることが分かる。 トレーニングされたモデルは研究コミュニティに公開される予定だ。

In this work we present the experiments which lead to the creation of our BERT and ELECTRA based German language models, GBERT and GELECTRA. By varying the input training data, model size, and the presence of Whole Word Masking (WWM) we were able to attain SoTA performance across a set of document classification and named entity recognition (NER) tasks for both models of base and large size. We adopt an evaluation driven approach in training these models and our results indicate that both adding more data and utilizing WWM improve model performance. By benchmarking against existing German models, we show that these models are the best German models to date. Our trained models will be made publicly available to the research community.
翻訳日:2022-10-04 22:48:14 公開日:2020-12-03
# 決算報告から企業のデジタル戦略を測定するためのディープラーニングフレームワーク

Deep Learning Framework for Measuring the Digital Strategy of Companies from Earnings Calls ( http://arxiv.org/abs/2010.12418v2 )

ライセンス: Link先を確認
Ahmed Ghanim Al-Ali, Robert Phaal, Donald Sull(参考訳) 今日の企業は、人工知能、ブロックチェーン、クラウドコンピューティングなど、最新のデジタル技術を活用しようとしている。 しかし、多くの企業は、彼らの戦略が期待した事業結果を達成できなかったと報告している。 この研究は、企業が採用しているデジタル戦略パターンの異なるクラスタを理解するために、非構造化データにNLPモデルを適用する最初のものである。 これを2015年から2019年にかけて、fortune global 500企業の決算報告を分析して達成しました。 テキスト分類にはTransformerベースのアーキテクチャを使用し、会話コンテキストの理解を深める。 次に,クラスタリング分析を用いてデジタル戦略パターンを検討する。 当社の調査結果は、fortune 500企業がプロダクトリード、顧客エクスペリエンスリード、サービスリード、効率リードという4つの異なる戦略を使用していることを示唆している。 この研究は、企業や研究者がこの分野の理解を深めるための経験的ベースラインを提供する。

Companies today are racing to leverage the latest digital technologies, such as artificial intelligence, blockchain, and cloud computing. However, many companies report that their strategies did not achieve the anticipated business results. This study is the first to apply state of the art NLP models on unstructured data to understand the different clusters of digital strategy patterns that companies are Adopting. We achieve this by analyzing earnings calls from Fortune Global 500 companies between 2015 and 2019. We use Transformer based architecture for text classification which show a better understanding of the conversation context. We then investigate digital strategy patterns by applying clustering analysis. Our findings suggest that Fortune 500 companies use four distinct strategies which are product led, customer experience led, service led, and efficiency led. This work provides an empirical baseline for companies and researchers to enhance our understanding of the field.
翻訳日:2022-10-03 22:09:42 公開日:2020-12-03
# マルチエージェント集団におけるゼロショット創発的コミュニケーションの探索

Exploring Zero-Shot Emergent Communication in Embodied Multi-Agent Populations ( http://arxiv.org/abs/2010.15896v2 )

ライセンス: Link先を確認
Kalesha Bullard, Franziska Meier, Douwe Kiela, Joelle Pineau, and Jakob Foerster(参考訳) 効果的なコミュニケーションは,マルチエージェント環境での情報交換と協調を可能にする上で重要なスキルである。 実際、創発的コミュニケーションは今や活発な研究分野であり、個別の安価トークチャネルを含む共通の設定がある。 この設定の1つの制限は、緊急プロトコルがトレーニングパートナーを超えて一般化できないことである。 さらに、これまでの創発的な通信は主にシンボリックチャネルの使用に焦点が当てられている。 本研究では,3次元環境において関節を作動させることでコミュニケーションを学ぶエージェントの研究を通じて,この作業ラインを新たなモダリティへと拡張する。 現実的な仮定、意図の非一様分布、共通知識エネルギーコストにおいて、これらのエージェントは新規パートナーに一般化するプロトコルを見つけることができる。 また、実際にこれらのソリューションを見つけることに関連する特定の困難を探索し分析する。 最後に,これらの課題に対処するための初期トレーニング改善の提案と評価を行い,具体的なトレーニングカリキュラムと,トレーニング中に調整可能な潜在機能の提供について述べる。

Effective communication is an important skill for enabling information exchange and cooperation in multi-agent settings. Indeed, emergent communication is now a vibrant field of research, with common settings involving discrete cheap-talk channels. One limitation of this setting is that it does not allow for the emergent protocols to generalize beyond the training partners. Furthermore, so far emergent communication has primarily focused on the use of symbolic channels. In this work, we extend this line of work to a new modality, by studying agents that learn to communicate via actuating their joints in a 3D environment. We show that under realistic assumptions, a non-uniform distribution of intents and a common-knowledge energy cost, these agents can find protocols that generalize to novel partners. We also explore and analyze specific difficulties associated with finding these solutions in practice. Finally, we propose and evaluate initial training improvements to address these challenges, involving both specific training curricula and providing the latent feature that can be coordinated on during training.
翻訳日:2022-10-01 23:28:14 公開日:2020-12-03
# 独立ガウス分布からクルバック・リーブラー(KL)の分散を最小化する独立ガウス分布

Independent Gaussian Distributions Minimize the Kullback-Leibler (KL) Divergence from Independent Gaussian Distributions ( http://arxiv.org/abs/2011.02560v2 )

ライセンス: Link先を確認
Song Fang and Quanyan Zhu(参考訳) このショートノートはクルバック・リーバー(KL)の発散性に関するもので、独立ガウス分布は与えられた独立ガウス分布からのKL発散を最小化することを示している。 このメモの主な目的は、この財産を完全にまたは部分的に利用する必要がある書類の参照である。

This short note is on a property of the Kullback-Leibler (KL) divergence which indicates that independent Gaussian distributions minimize the KL divergence from given independent Gaussian distributions. The primary purpose of this note is for the referencing of papers that need to make use of this property entirely or partially.
翻訳日:2022-09-29 23:23:40 公開日:2020-12-03
# FastFCNを用いた衛星画像のセマンティックセグメンテーションによるLULC分類

LULC classification by semantic segmentation of satellite images using FastFCN ( http://arxiv.org/abs/2011.06825v2 )

ライセンス: Link先を確認
Md. Saif Hassan Onim, Aiman Rafeed Ehtesham, Amreen Anbar, A. K. M. Nazrul Islam, A. K. M. Mahbubur Rahman(参考訳) 本稿では,FastFCN(Fast Fully Convolutional Network)が衛星画像のセマンティックセグメンテーションをいかに優れているかを分析し,Land Use/Land Cover(LULC)クラスを分類する。 Fast-FCN は Gaofen-2 Image Dataset (GID-2) で、ビルトアップ、メドウ、ファームランド、ウォーター、フォレストという5つのクラスに分類された。 その結果,fcn-8やecognitionなど他の手法よりも精度 (0.93), 精度 (0.99), リコール (0.98) および平均交点 (miou)(0.97) が向上した。 結果の比較を行った。 我々はfastfcnを,既存のlulc分類法よりも高速かつ高精度な自動化手法として提案する。

This paper analyses how well a Fast Fully Convolutional Network (FastFCN) semantically segments satellite images and thus classifies Land Use/Land Cover(LULC) classes. Fast-FCN was used on Gaofen-2 Image Dataset (GID-2) to segment them in five different classes: BuiltUp, Meadow, Farmland, Water and Forest. The results showed better accuracy (0.93), precision (0.99), recall (0.98) and mean Intersection over Union (mIoU)(0.97) than other approaches like using FCN-8 or eCognition, a readily available software. We presented a comparison between the results. We propose FastFCN to be both faster and more accurate automated method than other existing methods for LULC classification.
翻訳日:2022-09-25 23:45:54 公開日:2020-12-03
# CL-IMS @ DIACR-Ita: Volente o Nolente: BERTは意味的変化検出においてSGNSを上回っない

CL-IMS @ DIACR-Ita: Volente o Nolente: BERT does not outperform SGNS on Semantic Change Detection ( http://arxiv.org/abs/2011.07247v2 )

ライセンス: Link先を確認
Severin Laicher, Gioia Baldissin, Enrique Casta\~neda, Dominik Schlechtweg, Sabine Schulte im Walde(参考訳) イタリア語の語彙意味変化検出におけるDIACR-Ita共有タスクへの参加について報告する。 我々は、トークンベースのBERT埋め込みの平均ペアワイズ距離をタイムポイントとランク5(8)の間の公式ランキングで利用し、精度は.72ドルである。 SemEval-2020 Task 1の英語データセットにパラメータをチューニングし、高いパフォーマンスを実現するが、これはイタリアのDIACR-Itaデータセットには当てはまらない。 以上の結果から,語彙的意味変化検出においてBERTの埋め込みをうまく活用する方法が見つからないことがわかった。

We present the results of our participation in the DIACR-Ita shared task on lexical semantic change detection for Italian. We exploit Average Pairwise Distance of token-based BERT embeddings between time points and rank 5 (of 8) in the official ranking with an accuracy of $.72$. While we tune parameters on the English data set of SemEval-2020 Task 1 and reach high performance, this does not translate to the Italian DIACR-Ita data set. Our results show that we do not manage to find robust ways to exploit BERT embeddings in lexical semantic change detection.
翻訳日:2022-09-25 13:27:59 公開日:2020-12-03
# オンライン行動検出のための予備知識蒸留

Privileged Knowledge Distillation for Online Action Detection ( http://arxiv.org/abs/2011.09158v2 )

ライセンス: Link先を確認
Peisen Zhao, Lingxi Xie, Ya Zhang, Yanfeng Wang, Qi Tian(参考訳) ビデオ中のオンラインアクション検出(OAD)は、以前のビデオフレームと現在のビデオフレームしか取得できないリアルタイム予測タスクに対処するために、フレームごとのラベル付けタスクとして提案されている。 本稿では,学習段階においてのみ観察可能な未来フレームを特権的情報として扱う,オンライン行動検出のための新しい学習経験ベースフレームワークを提案する。 知識蒸留を用いて、特権情報をオフラインの教師からオンラインの学生に転送する。 教師と生徒のモデルの違いは主にネットワークアーキテクチャではなく入力データにあるため、この設定は従来のkdとは異なることに留意する。 我々はPKD(Privleged Knowledge Distillation)を提案する。 i)カリキュラムの学習手順をスケジュールし、 (ii)情報ギャップを縮小し、学習性能を向上させるため、補助ノードを学生モデルに挿入する。 将来のフレームを明示的に予測する他のOAD手法と比較して、我々の手法は予測不能な不整合な視覚内容の学習を回避し、2つのOADベンチマークであるTVSeriesとTHUMOS14で最先端の精度を実現する。

Online Action Detection (OAD) in videos is proposed as a per-frame labeling task to address the real-time prediction tasks that can only obtain the previous and current video frames. This paper presents a novel learning-with-privileged based framework for online action detection where the future frames only observable at the training stages are considered as a form of privileged information. Knowledge distillation is employed to transfer the privileged information from the offline teacher to the online student. We note that this setting is different from conventional KD because the difference between the teacher and student models mostly lies in input data rather than the network architecture. We propose Privileged Knowledge Distillation (PKD) which (i) schedules a curriculum learning procedure and (ii) inserts auxiliary nodes to the student model, both for shrinking the information gap and improving learning performance. Compared to other OAD methods that explicitly predict future frames, our approach avoids learning unpredictable unnecessary yet inconsistent visual contents and achieves state-of-the-art accuracy on two popular OAD benchmarks, TVSeries and THUMOS14.
翻訳日:2022-09-24 04:31:47 公開日:2020-12-03
# StyleSpace解析:StyleGAN画像生成のためのアンタングル制御

StyleSpace Analysis: Disentangled Controls for StyleGAN Image Generation ( http://arxiv.org/abs/2011.12799v2 )

ライセンス: Link先を確認
Zongze Wu, Dani Lischinski, Eli Shechtman(参考訳) 画像生成のための最先端アーキテクチャであるStyleGAN2の潜在スタイル空間を,複数のデータセットで事前学習したモデルを用いて探索,解析する。 まず, チャネルワイズ型パラメータの空間であるスタイル空間が, 先行研究で検討された他の中間的潜在空間よりもかなり不連続であることを示す。 次に,異なる視覚的属性を高度に局所的かつ不連続的に制御する,多数のスタイルチャネル群を探索する手法について述べる。 第3に,事前学習した分類器や少数のサンプル画像を用いて,特定の属性を制御するスタイルチャネルの同定方法を提案する。 これらのStyleSpaceコントロールによる視覚属性の操作は、以前の研究で提案されたものよりも、より不整合であることが示されている。 これを示すために、新しく提案された属性依存性メトリックを利用する。 最後に,実画像の操作に対するスタイルスペース制御の適用性を示す。 本研究は, 意味的に意味のある画像操作を, シンプルかつ直感的に行う方法である。

We explore and analyze the latent style space of StyleGAN2, a state-of-the-art architecture for image generation, using models pretrained on several different datasets. We first show that StyleSpace, the space of channel-wise style parameters, is significantly more disentangled than the other intermediate latent spaces explored by previous works. Next, we describe a method for discovering a large collection of style channels, each of which is shown to control a distinct visual attribute in a highly localized and disentangled manner. Third, we propose a simple method for identifying style channels that control a specific attribute, using a pretrained classifier or a small number of example images. Manipulation of visual attributes via these StyleSpace controls is shown to be better disentangled than via those proposed in previous works. To show this, we make use of a newly proposed Attribute Dependency metric. Finally, we demonstrate the applicability of StyleSpace controls to the manipulation of real images. Our findings pave the way to semantically meaningful and well-disentangled image manipulations via simple and intuitive interfaces.
翻訳日:2022-09-21 02:39:42 公開日:2020-12-03
# ディジタル画像における局所分岐数生成のためのリーフとトポロジーのアプローチ

A Sheaf and Topology Approach to Generating Local Branch Numbers in Digital Images ( http://arxiv.org/abs/2011.13580v2 )

ライセンス: Link先を確認
Chuan-Shen Hu, Yu-Min Chung(参考訳) 本稿では、トポロジカルデータ解析(TDA)とせん断理論を組み合わせた理論的アプローチについて述べる。 トポロジカルデータ解析(英語版)は、数学と計算機科学における隆起する分野であり、データの形状に関係しており、多くの科学分野において有効であることが証明されている。 代数幾何学における数学の主題であるシーフ理論は、幾何学的対象の局所的な一貫性を記述するための枠組みを提供する。 永続ホモロジー(PH)は、TDAの主要な駆動力の1つであり、幾何学的対象の変化を異なるスケールで追跡することを目的としている。 パーシステンスダイアグラム(PD)は、PHの情報を多重集合の形で要約する。 While PD provides useful information about the underlying objects, it lacks fine relations about the local consistency of specific pairs of generators in PD, such as the merging relation between two connected components in the PH. The sheaf structure provides a novel point of view for describing the merging relation of local objects in PH. It is the goal of this paper to establish a theoretic framework that utilizes the sheaf theory to uncover finer information from the PH. We also show that the proposed theory can be applied to identify the branch numbers of local objects in digital images.

This paper concerns a theoretical approach that combines topological data analysis (TDA) and sheaf theory. Topological data analysis, a rising field in mathematics and computer science, concerns the shape of the data and has been proven effective in many scientific disciplines. Sheaf theory, a mathematics subject in algebraic geometry, provides a framework for describing the local consistency in geometric objects. Persistent homology (PH) is one of the main driving forces in TDA, and the idea is to track changes of geometric objects at different scales. The persistence diagram (PD) summarizes the information of PH in the form of a multi-set. While PD provides useful information about the underlying objects, it lacks fine relations about the local consistency of specific pairs of generators in PD, such as the merging relation between two connected components in the PH. The sheaf structure provides a novel point of view for describing the merging relation of local objects in PH. It is the goal of this paper to establish a theoretic framework that utilizes the sheaf theory to uncover finer information from the PH. We also show that the proposed theory can be applied to identify the branch numbers of local objects in digital images.
翻訳日:2022-09-20 02:39:12 公開日:2020-12-03
# (参考訳) 機械学習を用いた短期フローベース帯域予測

Short-Term Flow-Based Bandwidth Forecasting using Machine Learning ( http://arxiv.org/abs/2011.14421v2 )

ライセンス: CC BY 4.0
Maxime Labonne, Jorge L\'opez, Claude Poletti, Jean-Baptiste Munier(参考訳) 本稿では,トラヒックフローの帯域幅を事前に予測する新しい枠組みを提案する。 現代のネットワーク管理システムは共通の問題を共有しており、決定が下された瞬間と行動(計数)が適用された瞬間の間にネットワーク状況が進化する。 このフレームワークは、パケットを実際のトラフィックから関連する機能を含むフローに変換する。 Decision Tree、Random Forest、XGBoost、Deep Neural Networkといった機械学習モデルは、これらのデータに基づいてトレーニングされ、各フローの次回インスタンスの帯域幅を予測する。 予測は、より正確なネットワーク状態を決定するために、現在のフロー帯域ではなく、管理システムに送信することができる。 981,774流と15の異なる時間窓(0.03から4s)で実験を行った。 彼らはランダムフォレストが、現在の帯域幅(平均絶対誤差は+19.73%、根平均二乗誤差は+18.00%)よりも常に優れた予測性能を持つ、最高の性能と信頼性のあるモデルであることを示した。 実験の結果,このフレームワークは予測されたネットワーク状態を用いてネットワーク管理システムがより情報的な決定を下すのに役立つことが示唆された。

This paper proposes a novel framework to predict traffic flows' bandwidth ahead of time. Modern network management systems share a common issue: the network situation evolves between the moment the decision is made and the moment when actions (countermeasures) are applied. This framework converts packets from real-life traffic into flows containing relevant features. Machine learning models, including Decision Tree, Random Forest, XGBoost, and Deep Neural Network, are trained on these data to predict the bandwidth at the next time instance for every flow. Predictions can be fed to the management system instead of current flows bandwidth in order to take decisions on a more accurate network state. Experiments were performed on 981,774 flows and 15 different time windows (from 0.03s to 4s). They show that the Random Forest is the best performing and most reliable model, with a predictive performance consistently better than relying on the current bandwidth (+19.73% in mean absolute error and +18.00% in root mean square error). Experimental results indicate that this framework can help network management systems to take more informed decisions using a predicted network state.
翻訳日:2021-06-07 09:48:54 公開日:2020-12-03
# 動的量子化を用いたオンラインツリー回帰器の分割試行

Using dynamical quantization to perform split attempts in online tree regressors ( http://arxiv.org/abs/2012.00083v2 )

ライセンス: Link先を確認
Saulo Martiello Mastelini, Andre Carlos Ponce de Leon Ferreira de Carvalho(参考訳) オンライン決定ツリーソリューションの中心的な側面は、入ってくるデータを評価し、モデルの成長を可能にすることである。 そのため、ツリーはさまざまな種類の入力機能に対処し、データから学ぶために分割する。 数値的な特徴は例外ではなく、分割決定を行う最良のポイントを選択するための簡単な戦略がないため、他の種類の特徴と比較して、さらなる課題を引き起こす。 この問題は、機能とターゲットの両方が連続しているため、回帰タスクにおいてさらに難しい。 典型的なオンラインソリューションは、リアルタイムアプリケーションで生じる制約に反する分割試行で監視されるすべてのポイントを評価し、保存する。 本稿では,オンラインツリー回帰器の数値的特徴における分割点候補の監視と評価を行う,単純かつ効果的なハッシュベースアルゴリズムである量子化オブザーバ(QO)を提案する。 QOはHoeffding Treesのようなインクリメンタルな決定木に簡単に統合でき、インスタンス毎に$O(1)$の監視コストと、分割候補を評価するためのサブ線形コストがある。 以前のソリューションは挿入あたり$O(\log n)$コスト(最良の場合)と分割点を評価する線形コスト(英語版)を備えていた。 実験では,qoの有効性を強調するとともに,メモリ使用時間と処理時間を大幅に削減した。

A central aspect of online decision tree solutions is evaluating the incoming data and enabling model growth. For such, trees much deal with different kinds of input features and partition them to learn from the data. Numerical features are no exception, and they pose additional challenges compared to other kinds of features, as there is no trivial strategy to choose the best point to make a split decision. The problem is even more challenging in regression tasks because both the features and the target are continuous. Typical online solutions evaluate and store all the points monitored between split attempts, which goes against the constraints posed in real-time applications. In this paper, we introduce the Quantization Observer (QO), a simple yet effective hashing-based algorithm to monitor and evaluate split point candidates in numerical features for online tree regressors. QO can be easily integrated into incremental decision trees, such as Hoeffding Trees, and it has a monitoring cost of $O(1)$ per instance and sub-linear cost to evaluate split candidates. Previous solutions had a $O(\log n)$ cost per insertion (in the best case) and a linear cost to evaluate split points. Our extensive experimental setup highlights QO's effectiveness in providing accurate split point suggestions while spending much less memory and processing time than its competitors.
翻訳日:2021-06-06 14:39:47 公開日:2020-12-03
# 画像処理前処理変換器

Pre-Trained Image Processing Transformer ( http://arxiv.org/abs/2012.00364v2 )

ライセンス: Link先を確認
Hanting Chen, Yunhe Wang, Tianyu Guo, Chang Xu, Yiping Deng, Zhenhua Liu, Siwei Ma, Chunjing Xu, Chao Xu, Wen Gao(参考訳) 現代のハードウェアのコンピューティング能力が強まるにつれて、大規模なデータセットで学習された事前学習されたディープラーニングモデル(bert、gpt-3など)は、従来の方法よりも有効性を示している。 大きな進歩は、主にトランスフォーマーとその変種アーキテクチャの表現能力に寄与している。 本稿では,低レベルコンピュータビジョンタスク(例えば,デノイング,超解像,デライニング)について検討し,新たな事前学習モデルである画像処理変換器(IPT)を開発する。 変圧器の能力を最大限に掘り下げるために,imagenetベンチマークを用いて画像ペアを大量に生成する手法を提案する。 IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。 また、異なる画像処理タスクにうまく適応するために、コントラスト学習を導入する。 したがって、事前訓練されたモデルは、微調整後の所望のタスクに効率的に適用することができる。 事前訓練されたモデルが1つしかないため、ICTは様々な低レベルベンチマークで最先端の手法より優れている。

As the computing power of modern hardware is increasing strongly, pre-trained deep learning models (e.g., BERT, GPT-3) learned on large-scale datasets have shown their effectiveness over conventional methods. The big progress is mainly contributed to the representation ability of transformer and its variant architectures. In this paper, we study the low-level computer vision task (e.g., denoising, super-resolution and deraining) and develop a new pre-trained model, namely, image processing transformer (IPT). To maximally excavate the capability of transformer, we present to utilize the well-known ImageNet benchmark for generating a large amount of corrupted image pairs. The IPT model is trained on these images with multi-heads and multi-tails. In addition, the contrastive learning is introduced for well adapting to different image processing tasks. The pre-trained model can therefore efficiently employed on desired task after fine-tuning. With only one pre-trained model, IPT outperforms the current state-of-the-art methods on various low-level benchmarks.
翻訳日:2021-05-30 20:01:59 公開日:2020-12-03
# 構造知識による学習:MIMO-OFDM検出のためのニューラルネットワークによるアプローチ

Learning with Knowledge of Structure: A Neural Network-Based Approach for MIMO-OFDM Detection ( http://arxiv.org/abs/2012.00711v2 )

ライセンス: Link先を確認
Zhou Zhou, Shashank Jere, Lizhong Zheng, Lingjia Liu(参考訳) 本稿では,MIMO-OFDMシステムにおけるシンボル検出のためのニューラルネットワークに基づく戦略について検討する。 シンボル検出に対する貯水池計算(RC)に基づくアプローチに基づいて,MIMO-OFDMシステムに固有の構造知識を活用するために,対称二分決定ニューラルネットワークを導入する。 具体的には、星座の知識を利用した二分決定ニューラルネットワークを周波数領域に追加する。 提案する対称型ニューラルネットワークは,元の$m$-ary検出問題を一連のバイナリ分類タスクに分解し,ニューラルネットワーク検出器の複雑性を著しく低減すると同時に,トレーニングオーバーヘッドの少ない一般化性能を提供する。 数値評価により,導入したrc-binary decision detection frameworkは,不完全チャネル状態情報(csi)を用いた低snrレジームにおけるシンボル誤り率の観点から,最大ラピッドモデルに基づくシンボル検出手法に近い性能を示す。

In this paper, we explore neural network-based strategies for performing symbol detection in a MIMO-OFDM system. Building on a reservoir computing (RC)-based approach towards symbol detection, we introduce a symmetric and decomposed binary decision neural network to take advantage of the structure knowledge inherent in the MIMO-OFDM system. To be specific, the binary decision neural network is added in the frequency domain utilizing the knowledge of the constellation. We show that the introduced symmetric neural network can decompose the original $M$-ary detection problem into a series of binary classification tasks, thus significantly reducing the neural network detector complexity while offering good generalization performance with limited training overhead. Numerical evaluations demonstrate that the introduced hybrid RC-binary decision detection framework performs close to maximum likelihood model-based symbol detection methods in terms of symbol error rate in the low SNR regime with imperfect channel state information (CSI).
翻訳日:2021-05-30 19:28:55 公開日:2020-12-03
# NeurIPS 2019 Workshop on Artificial Intelligence for Humanitarian Assistance and Disaster Response に参加して

Proceedings of NeurIPS 2019 Workshop on Artificial Intelligence for Humanitarian Assistance and Disaster Response ( http://arxiv.org/abs/2012.01022v2 )

ライセンス: Link先を確認
Ritwik Gupta, Eric T. Heim(参考訳) これは、2019年12月13日にカナダのバンクーバーで開催された第1回AI + HADRワークショップの"成果"である。 これらは非アーキヴァルであり、ワークショップに受け入れられたすべての論文の照合としてのみ機能する。

These are the "proceedings" of the 1st AI + HADR workshop which was held in Vancouver, Canada on December 13, 2019 as part of the Neural Information Processing Systems conference. These are non-archival and serve solely as a collation of all the papers accepted to the workshop.
翻訳日:2021-05-25 03:49:55 公開日:2020-12-03
# (参考訳) アルゴリズムの実行時間とモデル非多項関数を決定するための分節微分可能二次関数の構成

Constructing Segmented Differentiable Quadratics to Determine Algorithmic Run Times and Model Non-Polynomial Functions ( http://arxiv.org/abs/2012.01420v1 )

ライセンス: CC BY 4.0
Ananth Goyal(参考訳) 提案手法は,未知の最大インデックスを持つデータ構造を扱う場合や,入力サイズ以外の複数の変数に依存するアルゴリズムを扱う場合,時間的複雑性の標準的な計算の代替として,アルゴリズム効率の連続的な進行を決定する手法である。 提案手法は,任意の指数$x$における実行時挙動$F$と,1つあるいは複数の引数のみの関数として,ラグランジアン多項式の原理とそれぞれのセカント線に基づいて,$\frac{n}{2}$2次セグメントを組み合わせることで,有効に決定できる。 提案手法は, 計算アルゴリズムの有効性を解析するために設計されているが, 関数の振る舞いをモデル化し, 自然パターンを再帰的に再帰させる, 分割微分可能な2次関数の系列として, $\log_2{n}$ や $\frac{n+1}{n-2}$ などの非ポリノミカル関数を構成する新しい方法として, 純粋数理場内で用いられる。 実験後,本手法は機能的類似度について平均99\%以上の精度を示した。

We propose an approach to determine the continual progression of algorithmic efficiency, as an alternative to standard calculations of time complexity, likely, but not exclusively, when dealing with data structures with unknown maximum indexes and with algorithms that are dependent on multiple variables apart from just input size. The proposed method can effectively determine the run time behavior $F$ at any given index $x$ , as well as $\frac{\partial F}{\partial x}$, as a function of only one or multiple arguments, by combining $\frac{n}{2}$ quadratic segments, based upon the principles of Lagrangian Polynomials and their respective secant lines. Although the approach used is designed for analyzing the efficacy of computational algorithms, the proposed method can be used within the pure mathematical field as a novel way to construct non-polynomial functions, such as $\log_2{n}$ or $\frac{n+1}{n-2}$, as a series of segmented differentiable quadratics to model functional behavior and reoccurring natural patterns. After testing, our method had an average accuracy of above of 99\% with regard to functional resemblance.
翻訳日:2021-05-24 05:01:18 公開日:2020-12-03
# (参考訳) ソフトウェアエンジニアリングのための説明可能なAI

Explainable AI for Software Engineering ( http://arxiv.org/abs/2012.01614v1 )

ライセンス: CC BY 4.0
Chakkrit Tantithamthavorn, Jirayus Jiarpakdee, John Grundy(参考訳) 人工知能/機械学習技術は、ソフトウェア開発において開発者の生産性、ソフトウェアシステムの品質、意思決定を改善するために広く使われている。 しかし、ソフトウェアエンジニアリングのためのこのようなAI/MLモデルは、まだ実用的ではなく、説明不能であり、実行不可能である。 これらの懸念はしばしば、ソフトウェアエンジニアリングプラクティスにおけるAI/MLモデルの採用を妨げる。 この記事では、ソフトウェア工学における説明可能なAIの必要性を強調します。 次に、ソフトウェア欠陥予測モデルをより実用的、説明可能、かつ実行可能なものにすることで、上記の課題に対処するために、説明可能なai技術をどのように利用できるかに関する3つのケーススタディを要約する。

Artificial Intelligence/Machine Learning techniques have been widely used in software engineering to improve developer productivity, the quality of software systems, and decision-making. However, such AI/ML models for software engineering are still impractical, not explainable, and not actionable. These concerns often hinder the adoption of AI/ML models in software engineering practices. In this article, we first highlight the need for explainable AI in software engineering. Then, we summarize three successful case studies on how explainable AI techniques can be used to address the aforementioned challenges by making software defect prediction models more practical, explainable, and actionable.
翻訳日:2021-05-24 04:48:00 公開日:2020-12-03
# (参考訳) 円は楕円形か、楕円形は円形か? 静的および文脈的埋め込みの非対称性の測定とその表現学習への応用

Circles are like Ellipses, or Ellipses are like Circles? Measuring the Degree of Asymmetry of Static and Contextual Embeddings and the Implications to Representation Learning ( http://arxiv.org/abs/2012.01631v1 )

ライセンス: CC BY 4.0
Wei Zhang and Murray Campbell and Yang Yu and Sadhana Kumaravel(参考訳) 単語類似性の人間の判断は、単語埋め込みの品質を評価する一般的な方法である。 しかし、非対称性などの幾何学的性質を測定することができない。 例えば、"Ellipss are like Circles"は"Circles are like Ellipses"よりも、"Ellipss are like Circles"と言う方が自然である。 このような非対称性は、単語誘発実験と呼ばれる精神分析テストから観察され、ある単語が別の単語を思い出すのに使われる。 有用ではあるが, 埋込み品質の測定には, このような実験データが著しく検討されている。 本稿では,埋め込みの非対称性符号化に関する洞察を得るために,よく知られた3つの実行データセットを用いる。 BERTのような静的埋め込みとコンテキスト埋め込みの両方について検討する。 BERT の非対称性を評価することは、一般に埋め込みの動的な性質のために難しい。 そこで我々は,多くのウィキペディア文脈を用いて,BERTの条件付き確率(言語モデル)を探索し,理論的に正当化可能なベイズ非対称性スコアを導出する。 その結果, 文脈埋め込みは, 類似性判定に静的埋め込みよりもランダム性を示し, 非対称性判定によく対応し, テキスト分類などの「外部評価」に強く対応していることがわかった。 非対称性判断とベイズ的アプローチは、内在的評価に文脈埋め込みを組み込む新しい視点を与え、類似性評価との比較は、現在および表現学習の将来についての議論で、我々の研究を結論づける。

Human judgments of word similarity have been a popular method of evaluating the quality of word embedding. But it fails to measure the geometry properties such as asymmetry. For example, it is more natural to say "Ellipses are like Circles" than "Circles are like Ellipses". Such asymmetry has been observed from a psychoanalysis test called word evocation experiment, where one word is used to recall another. Although useful, such experimental data have been significantly understudied for measuring embedding quality. In this paper, we use three well-known evocation datasets to gain insights into asymmetry encoding of embedding. We study both static embedding as well as contextual embedding, such as BERT. Evaluating asymmetry for BERT is generally hard due to the dynamic nature of embedding. Thus, we probe BERT's conditional probabilities (as a language model) using a large number of Wikipedia contexts to derive a theoretically justifiable Bayesian asymmetry score. The result shows that contextual embedding shows randomness than static embedding on similarity judgments while performing well on asymmetry judgment, which aligns with its strong performance on "extrinsic evaluations" such as text classification. The asymmetry judgment and the Bayesian approach provides a new perspective to evaluate contextual embedding on intrinsic evaluation, and its comparison to similarity evaluation concludes our work with a discussion on the current state and the future of representation learning.
翻訳日:2021-05-24 04:41:29 公開日:2020-12-03
# (参考訳) スター先生って何なの? オンライン教育における教師のパフォーマンス評価のための階層型BERTモデル

What Makes a Star Teacher? A Hierarchical BERT Model for Evaluating Teacher's Performance in Online Education ( http://arxiv.org/abs/2012.01633v1 )

ライセンス: CC BY 4.0
Wen Wang, Honglei Zhuang, Mi Zhou, Hanyu Liu, Beibei Li(参考訳) 教育は社会と個人の生活に大きな影響を与えている。 テクノロジーの発展に伴い、オンライン教育はこの10年間で急速に成長してきた。 学生行動分析、コースコンセプトマイニング、コースレコメンデーションに関するオンライン教育研究はいくつかある(Feng, Tang, Liu 2019; Pan et al)。 2017年) オンライン教育における教員のパフォーマンス評価についてはほとんど研究されていない。 本稿では,1,085のオンラインコースの字幕を用いて,教師の成績を理解し,効果的に予測する体系的な研究を行う。 モデルフリー分析の結果,教師の言語指導方法(質問戦略,感情的魅力,ヘッジなど)とコース構造設計は,教師のパフォーマンス評価と大きく相関していることがわかった。 これらの知見に基づいて,オンライン教育における教師のパフォーマンスを予測するための階層的なBERTモデルを提案する。 提案モデルでは,各コース内の階層構造と,コース内容から抽出した深い意味的特徴を捉えることができる。 実験の結果,提案手法は最先端手法に比べて有意な利得が得られた。 本研究は,教師の授業スタイルの改善と,より効果的なオンライン授業のための教材デザインの強化に,社会的に大きな影響を与える。

Education has a significant impact on both society and personal life. With the development of technology, online education has been growing rapidly over the past decade. While there are several online education studies on student behavior analysis, the course concept mining, and course recommendations (Feng, Tang, and Liu 2019; Pan et al. 2017), there is little research on evaluating teachers' performance in online education. In this paper, we conduct a systematic study to understand and effectively predict teachers' performance using the subtitles of 1,085 online courses. Our model-free analysis shows that teachers' verbal cues (e.g., question strategy, emotional appealing, and hedging) and their course structure design are both significantly correlated with teachers' performance evaluation. Based on these insights, we then propose a hierarchical course BERT model to predict teachers' performance in online education. Our proposed model can capture the hierarchical structure within each course as well as the deep semantic features extracted from the course content. Experiment results show that our proposed method achieves significant gain over several state-of-the-art methods. Our study provides a significant social impact in helping teachers improve their teaching style and enhance their instructional material design for more effective online teaching in the future.
翻訳日:2021-05-24 04:14:47 公開日:2020-12-03
# (参考訳) マルチシフト全荷車経路問題に対するハイブリッド価格とカット手法

A Hybrid Pricing and Cutting Approach for the Multi-Shift Full Truckload Vehicle Routing Problem ( http://arxiv.org/abs/2012.06538v1 )

ライセンス: CC BY 4.0
Ning Xue, Ruibin Bai, Rong Qu, Uwe Aickelin(参考訳) 貨物コンテナの形でのフルトラック積載輸送(FTL)は、国際貿易において最も重要な輸送手段の1つである。 ボリュームと規模が大きいため、FTLではデリバリ時間が重要ではなく、コストとサービス品質が重要になります。 したがって、大規模な多重シフトFTL問題を効率的に解くことがますます重要になり、さらなる研究が必要である。 先行研究の一つとして,マルチシフトFTL問題に対して,集合被覆モデルと3段階解法を開発した。 本稿では,提案手法をメタヒューリスティックス (可変近傍探索と遺伝的アルゴリズム) を用いた価格とカット戦略のハイブリッド化により, より効率的な手法を提案する。 メタヒューリスティックは価格によって導かれる有望な列(車両経路)を見つけるために採用され、非互換商品によって引き起こされる実行不能なフロー割り当てを排除するためにカットが動的に生成される。 実時間および人工ベンチマークFTL問題に対する計算実験では,従来のMIPベースの3段階法と2つのメタヒューリスティクスと比較して,計算時間と解法品質の両面で優れた性能を示した。 提案手法は,大規模実生活FTL問題を効率的に解決する。

Full truckload transportation (FTL) in the form of freight containers represents one of the most important transportation modes in international trade. Due to large volume and scale, in FTL, delivery time is often less critical but cost and service quality are crucial. Therefore, efficiently solving large scale multiple shift FTL problems is becoming more and more important and requires further research. In one of our earlier studies, a set covering model and a three-stage solution method were developed for a multi-shift FTL problem. This paper extends the previous work and presents a significantly more efficient approach by hybridising pricing and cutting strategies with metaheuristics (a variable neighbourhood search and a genetic algorithm). The metaheuristics were adopted to find promising columns (vehicle routes) guided by pricing and cuts are dynamically generated to eliminate infeasible flow assignments caused by incompatible commodities. Computational experiments on real-life and artificial benchmark FTL problems showed superior performance both in terms of computational time and solution quality, when compared with previous MIP based three-stage methods and two existing metaheuristics. The proposed cutting and heuristic pricing approach can efficiently solve large scale real-life FTL problems.
翻訳日:2021-05-24 03:24:15 公開日:2020-12-03
# (参考訳) 間隔値データを用いた集合ファジィ数のランク付け法

Methods of ranking for aggregated fuzzy numbers from interval-valued data ( http://arxiv.org/abs/2012.02194v1 )

ライセンス: CC BY 4.0
Justin Kane Gunn, Hadi Akbarzadeh Khorshidi, Uwe Aickelin(参考訳) 本論文は、主に、IAA(Interval Agreement Approach)を用いて、間隔から集約されたファジィ数をランク付けする2つの方法を示す。 本研究で提案された2つのランク付け手法は,前述した類似度尺度の組み合わせと適用,および区間値データから集計したファジィ数と異なる属性を含む。 提案手法の改善とともに, 先行手法の欠点は, 合成と実世界の応用の両方を用いて示される。 実世界のアプリケーションでは,従来の手法と新しく提案された手法の両方を含むように改良されたTOPSISアルゴリズムが検討されている。

This paper primarily presents two methods of ranking aggregated fuzzy numbers from intervals using the Interval Agreement Approach (IAA). The two proposed ranking methods within this study contain the combination and application of previously proposed similarity measures, along with attributes novel to that of aggregated fuzzy numbers from interval-valued data. The shortcomings of previous measures, along with the improvements of the proposed methods, are illustrated using both a synthetic and real-world application. The real-world application regards the Technique for Order of Preference by Similarity to Ideal Solution (TOPSIS) algorithm, modified to include both the previous and newly proposed methods.
翻訳日:2021-05-24 03:23:15 公開日:2020-12-03
# (参考訳) Lookahead Optimizationrは自然画像再構成のための畳み込みオートエンコーダの性能を改善する

Lookahead optimizer improves the performance of Convolutional Autoencoders for reconstruction of natural images ( http://arxiv.org/abs/2012.05694v1 )

ライセンス: CC BY 4.0
Sayan Nag(参考訳) オートエンコーダ(autoencoder)は、近年多くの注目を集めているニューラルネットワークのクラスである。 オートエンコーダのエンコーダブロックを使用すると、入力画像は意味のある表現に圧縮される。 次にデコーダを用いて圧縮された表現を、入力画像のように見えるバージョンに再構成する。 データ圧縮やデノイジングの分野では、多くのアプリケーションがあります。 オートエンコーダ(AE)の別のバージョンは、変分AE(VAE)と呼ばれ、GANのような生成モデルとして機能する。 近年、AdamとSGDの性能を大幅に向上させるルックアヘッドオプティマイザと呼ばれるオプティマイザが導入されている。 本稿では,CAE(Convolutional Autoencoders)とCVAE(Convolutional Variational Autoencoders)をルックアヘッドオプティマイザ(Adam)に実装し,Adamオプティマイザ(Adamのみ)と比較する。 この目的のために、我々は、前者の自然画像と後者のCIFAR100からなる映画データセットを使用した。 我々は,自然画像の再構成のためのCAEの性能向上を図るために,ルックアヘッドオプティマイザ(Adam)を併用した。

Autoencoders are a class of artificial neural networks which have gained a lot of attention in the recent past. Using the encoder block of an autoencoder the input image can be compressed into a meaningful representation. Then a decoder is employed to reconstruct the compressed representation back to a version which looks like the input image. It has plenty of applications in the field of data compression and denoising. Another version of Autoencoders (AE) exist, called Variational AE (VAE) which acts as a generative model like GAN. Recently, an optimizer was introduced which is known as lookahead optimizer which significantly enhances the performances of Adam as well as SGD. In this paper, we implement Convolutional Autoencoders (CAE) and Convolutional Variational Autoencoders (CVAE) with lookahead optimizer (with Adam) and compare them with the Adam (only) optimizer counterparts. For this purpose, we have used a movie dataset comprising of natural images for the former case and CIFAR100 for the latter case. We show that lookahead optimizer (with Adam) improves the performance of CAEs for reconstruction of natural images.
翻訳日:2021-05-24 03:12:12 公開日:2020-12-03
# (参考訳) MelGlow: 位置可変畳み込みに基づく効率的な波形生成ネットワーク

MelGlow: Efficient Waveform Generative Network Based on Location-Variable Convolution ( http://arxiv.org/abs/2012.01684v1 )

ライセンス: CC BY 4.0
Zhen Zeng, Jianzong Wang, Ning Cheng, Jing Xiao(参考訳) 最近のニューラルボコーダは、波形の長期的な依存性を捉えるためにウェーブネットのようなネットワークを使用するが、優れたモデリング能力を得るためには多数のパラメータが必要である。 本稿では,波形の依存性をモデル化するために,位置可変畳み込みと呼ばれる効率的なネットワークを提案する。 任意の波形の依存関係を捉えるためにWaveNetで統一された畳み込みカーネルを使用するのと異なり、位置可変畳み込みはカーネル予測器を使用してメルスペクトルに基づいて複数の畳み込みカーネルを生成し、各組の畳み込みカーネルは関連する波形間隔で畳み込み操作を行う。 WaveGlowと位置変化可能な畳み込みを組み合わせることで、MelGlowという名前の効率的なヴォコーダが設計されている。 LJSpeechデータセットの実験では、小さなモデルサイズで、MelGlowはWaveGlowよりも優れたパフォーマンスを実現しており、位置可変畳み込みの有効性と潜在的な最適化空間を検証する。

Recent neural vocoders usually use a WaveNet-like network to capture the long-term dependencies of the waveform, but a large number of parameters are required to obtain good modeling capabilities. In this paper, an efficient network, named location-variable convolution, is proposed to model the dependencies of waveforms. Different from the use of unified convolution kernels in WaveNet to capture the dependencies of arbitrary waveforms, location-variable convolutions utilizes a kernel predictor to generate multiple sets of convolution kernels based on the mel-spectrum, where each set of convolution kernels is used to perform convolution operations on the associated waveform intervals. Combining WaveGlow and location-variable convolutions, an efficient vocoder, named MelGlow, is designed. Experiments on the LJSpeech dataset show that MelGlow achieves better performance than WaveGlow at small model sizes, which verifies the effectiveness and potential optimization space of location-variable convolutions.
翻訳日:2021-05-24 03:08:26 公開日:2020-12-03
# (参考訳) 技能前提条件に対する関係学習

Relational Learning for Skill Preconditions ( http://arxiv.org/abs/2012.01693v1 )

ライセンス: CC BY 4.0
Mohit Sharma, Oliver Kroemer(参考訳) 任意の環境でスキルが実行可能かどうかを判断するには、ロボットはそのスキルの前提条件を学習する必要がある。 ロボットが動的で非構造的な環境で動き始めると、プリコンディションモデルは様々な形状と大きさのオブジェクトに一般化する必要がある。 本研究では,制約のない環境における操作スキルの事前条件モデルの学習に焦点をあてる。 我々の研究は、複数のオブジェクトを持つ複雑な操作タスクが、より複雑なペアワイドなオブジェクト関係に焦点を合わせることで、単純化できるという直感に動機付けられている。 対関係関係の連続表現を学習するオブジェクト関係モデルを提案する。 我々のオブジェクト関係モデルはシミュレーションで完全に訓練され、一度学習されると、実世界のタスクのスキル前提条件を予測するために別の前提条件モデルによって使用される。 私たちは、スイープ、カット、アンスタックという3ドルの異なる操作タスクで前提条件モデルを評価します。 提案手法は,異なる形状や大きさのオブジェクトに対して,3つのタスクの事前条件を予測する上で,大幅な改善をもたらすことを示す。

To determine if a skill can be executed in any given environment, a robot needs to learn the preconditions for the skill. As robots begin to operate in dynamic and unstructured environments, precondition models will need to generalize to variable number of objects with different shapes and sizes. In this work, we focus on learning precondition models for manipulation skills in unconstrained environments. Our work is motivated by the intuition that many complex manipulation tasks, with multiple objects, can be simplified by focusing on less complex pairwise object relations. We propose an object-relation model that learns continuous representations for these pairwise object relations. Our object-relation model is trained completely in simulation, and once learned, is used by a separate precondition model to predict skill preconditions for real world tasks. We evaluate our precondition model on $3$ different manipulation tasks: sweeping, cutting, and unstacking. We show that our approach leads to significant improvements in predicting preconditions for all 3 tasks, across objects of different shapes and sizes.
翻訳日:2021-05-24 02:55:08 公開日:2020-12-03
# (参考訳) 構成関数のニューラルネットワーク近似と力学系への応用

Neural Network Approximations of Compositional Functions With Applications to Dynamical Systems ( http://arxiv.org/abs/2012.01698v1 )

ライセンス: CC BY 4.0
Wei Kang and Qi Gong(参考訳) 実生活の多くの領域で示されているように、ニューラルネットワークは高次元データを扱う能力を持っている。 最適制御と力学系の分野において、同じ能力が近年公表された多くの結果において研究され検証された。 ニューラルネットワークが高次元の問題を解決することができる理由を明らかにすることを目的として,構成関数の代数的フレームワークと近似理論とそのニューラルネットワーク近似を開発した。 理論的な基礎は、入力-出力関係として関数の誤差解析をサポートするだけでなく、数値アルゴリズムとしても開発されている。 この能力は、微分方程式や最適制御のような解析解が利用できない問題に対する近似誤差の解析を可能にするため、重要である。 構成関数の重要な特徴の集合と,ニューラルネットワークの特徴と複雑性の関係を同定する。 関数近似に加えて、微分方程式、最適化、最適制御の解を近似するニューラルネットワークの誤差上限の式をいくつか証明する。

As demonstrated in many areas of real-life applications, neural networks have the capability of dealing with high dimensional data. In the fields of optimal control and dynamical systems, the same capability was studied and verified in many published results in recent years. Towards the goal of revealing the underlying reason why neural networks are capable of solving some high dimensional problems, we develop an algebraic framework and an approximation theory for compositional functions and their neural network approximations. The theoretical foundation is developed in a way so that it supports the error analysis for not only functions as input-output relations, but also numerical algorithms. This capability is critical because it enables the analysis of approximation errors for problems for which analytic solutions are not available, such as differential equations and optimal control. We identify a set of key features of compositional functions and the relationship between the features and the complexity of neural networks. In addition to function approximations, we prove several formulae of error upper bounds for neural networks that approximate the solutions to differential equations, optimization, and optimal control.
翻訳日:2021-05-24 02:12:17 公開日:2020-12-03
# (参考訳) ゼロショットインテント検出のための学習不連続インテント表現

Learning Disentangled Intent Representations for Zero-shot Intent Detection ( http://arxiv.org/abs/2012.01721v1 )

ライセンス: CC BY 4.0
Qingyi Si, Yuanxin Liu, Peng Fu, Jiangnan Li, Zheng Lin and Weiping Wang(参考訳) ゼロショットインテント検出(ZSID)は、注釈付きトレーニングデータなしで継続的に現れるインテントに対処することを目的としている。 しかし、既存のZSIDシステムには2つの制限がある: 1) ラベル名が生のフレーズや文の形で与えられる場合、目に見える意図と見えない意図の関係をモデル化するのが得意ではない。 2)一般化意図検出(GZSID)設定下では,見当たらない意図を効果的に認識することはできない。 これらの制限の背後にある重要な要因は、訓練段階では学べない、目に見えない意図の表現である。 この問題に対処するために,未確認のクラスラベルを用いてDIR(Disentangled Intent Representations)を学習するクラストランスダクティブフレームワークを提案する。 具体的には, 入力発話として対応するラベル名を用いて, 学習段階における無意識意図の予測を可能にする。 本枠組みでは,意図の区別をモデルが学習することを奨励するマルチタスク学習目標と,学習意図の表現に基づいて意図間の関係をより正確に推定する類似度スコアラを導入する。 DIRの目的は、より良い意図表現を提供することであり、既存のZSIDおよびGZSIDメソッドと容易に統合できる。 2つの実世界のデータセットの実験では、モデルアーキテクチャやゼロショット学習戦略に関わらず、提案されたフレームワークがベースラインシステムに一貫した改善をもたらすことが示されている。

Zero-shot intent detection (ZSID) aims to deal with the continuously emerging intents without annotated training data. However, existing ZSID systems suffer from two limitations: 1) They are not good at modeling the relationship between seen and unseen intents, when the label names are given in the form of raw phrases or sentences. 2) They cannot effectively recognize unseen intents under the generalized intent detection (GZSID) setting. A critical factor behind these limitations is the representations of unseen intents, which cannot be learned in the training stage. To address this problem, we propose a class-transductive framework that utilizes unseen class labels to learn Disentangled Intent Representations (DIR). Specifically, we allow the model to predict unseen intents in the training stage, with the corresponding label names serving as input utterances. Under this framework, we introduce a multi-task learning objective, which encourages the model to learn the distinctions among intents, and a similarity scorer, which estimates the connections among intents more accurately based on the learned intent representations. Since the purpose of DIR is to provide better intent representations, it can be easily integrated with existing ZSID and GZSID methods. Experiments on two real-world datasets show that the proposed framework brings consistent improvement to the baseline systems, regardless of the model architectures or zero-shot learning strategies.
翻訳日:2021-05-24 02:11:18 公開日:2020-12-03
# (参考訳) トリプルトエントロピー損失:短い音声言語識別システムの一般化の改善

Triplet Entropy Loss: Improving The Generalisation of Short Speech Language Identification Systems ( http://arxiv.org/abs/2012.03775v1 )

ライセンス: CC BY 4.0
Ruan van der Merwe(参考訳) 言語識別システム(LID)を新しい話者や新しいドメインに一般化するためのいくつかの手法を提案する。 これらの手法には、トレーニング中の周波数帯や時間帯にスペクトルを隠蔽するスペクトル拡張と、Imagenetデータセットで事前トレーニングされたCNNアーキテクチャが含まれる。 また,クロスエントロピーと三重項損失を用いてネットワークを訓練する新しい三重項エントロピー損失訓練法も紹介する。 その結果、3つの手法がいずれもモデルの一般化を改善した。 三重項エントロピー損失を用いて訓練されたモデルは、言語をよりよく理解し、高い精度を示したが、モデルは、言語の微妙なニュアンスを学ぶよりも、スペクトログラムに存在する単語パターンを記憶しているように見える。 この研究は、三重項エントロピー損失には大きな可能性があり、言語識別タスクだけでなく、分類タスクにおいても研究されるべきであることを示している。

We present several methods to improve the generalisation of language identification (LID) systems to new speakers and to new domains. These methods involve Spectral augmentation, where spectrograms are masked in the frequency or time bands during training and CNN architectures that are pre-trained on the Imagenet dataset. The paper also introduces the novel Triplet Entropy Loss training method, which involves training a network simultaneously using Cross Entropy and Triplet loss. It was found that all three methods improved the generalisation of the models, though not significantly. Even though the models trained using Triplet Entropy Loss showed a better understanding of the languages and higher accuracies, it appears as though the models still memorise word patterns present in the spectrograms rather than learning the finer nuances of a language. The research shows that Triplet Entropy Loss has great potential and should be investigated further, not only in language identification tasks but any classification task.
翻訳日:2021-05-24 01:54:55 公開日:2020-12-03
# (参考訳) 分散トンプソンサンプリング

Distributed Thompson Sampling ( http://arxiv.org/abs/2012.01789v1 )

ライセンス: CC BY 4.0
Jing Dong, Tan Li, Shaolei Ren, Linqi Song(参考訳) 我々はMエージェントとKアームを用いた協調マルチエージェントマルチアームバンドの研究を行った。 エージェントの目標は、累積的後悔を最小限にすることである。 分布環境下で従来のトンプソンサンプリングalgoirthmを適応させる。 しかし,エージェントのコミュニケーション能力により,分散トンプソンサンプリング手法における後悔の上限がさらに小さくなる可能性があることに留意する。 分散トンプソンサンプリングの性能をさらに向上させるために,エージェントが協調的に学習できる分散除去型トンプソンサンプリングアルゴリズムを提案する。 ベルヌーイ報酬の下でアルゴリズムを分析し,累積的後悔の上限に依存する問題を導出した。

We study a cooperative multi-agent multi-armed bandits with M agents and K arms. The goal of the agents is to minimized the cumulative regret. We adapt a traditional Thompson Sampling algoirthm under the distributed setting. However, with agent's ability to communicate, we note that communication may further reduce the upper bound of the regret for a distributed Thompson Sampling approach. To further improve the performance of distributed Thompson Sampling, we propose a distributed Elimination based Thompson Sampling algorithm that allow the agents to learn collaboratively. We analyse the algorithm under Bernoulli reward and derived a problem dependent upper bound on the cumulative regret.
翻訳日:2021-05-24 01:32:16 公開日:2020-12-03
# (参考訳) FAT:Federated Adversarial Training

FAT: Federated Adversarial Training ( http://arxiv.org/abs/2012.01791v1 )

ライセンス: CC BY 4.0
Giulio Zizzo, Ambrish Rawat, Mathieu Sinn, Beat Buesser(参考訳) フェデレートラーニング(FL)は、機械学習(ML)におけるプライバシとデータガバナンスの問題に対処する最も重要なパラダイムの1つである。 MLモデルにおける回避的脅威に対する最も有望なアプローチとして、敵のトレーニングがこれまで現れてきた。 本稿では,FAT(Federated Adversarial Training)とFAT(Federated Adversarial Training)の2つの手法を組み合わせて,トレーニング中のデータのプライバシを保護しながら,推論時の回避の脅威を軽減する。 我々は,MNIST,Fashion-MNIST,CIFAR10を用いたフェデレーション設定のためのFATプロトコルの有効性について検討し,フェデレーション学習環境を特にエミュレートしたLEAFベンチマークデータセット上でのトレーニングの安定化に関する最初の知見を提供する。 我々は,この対向訓練の自然な拡張による課題を特定し,対向ロバスト性の実現と,モデル収束を損なうクライアントの存在下での理想化された設定について検討する。 トリミング平均法とブリャン防衛法は妥協可能であり,本モデルでは単純な攻撃修正に対する堅牢性の提供に失敗する一方で,明らかに「ロバスト」なモデルをディフェンダーに提示する新たな蒸留ベースの攻撃でクルムを倒すことができた。

Federated learning (FL) is one of the most important paradigms addressing privacy and data governance issues in machine learning (ML). Adversarial training has emerged, so far, as the most promising approach against evasion threats on ML models. In this paper, we take the first known steps towards federated adversarial training (FAT) combining both methods to reduce the threat of evasion during inference while preserving the data privacy during training. We investigate the effectiveness of the FAT protocol for idealised federated settings using MNIST, Fashion-MNIST, and CIFAR10, and provide first insights on stabilising the training on the LEAF benchmark dataset which specifically emulates a federated learning environment. We identify challenges with this natural extension of adversarial training with regards to achieved adversarial robustness and further examine the idealised settings in the presence of clients undermining model convergence. We find that Trimmed Mean and Bulyan defences can be compromised and we were able to subvert Krum with a novel distillation based attack which presents an apparently "robust" model to the defender while in fact the model fails to provide robustness against simple attack modifications.
翻訳日:2021-05-24 01:25:59 公開日:2020-12-03
# (参考訳) 解釈可能性と説明可能性: 機械学習のZoo Mini-Tour

Interpretability and Explainability: A Machine Learning Zoo Mini-tour ( http://arxiv.org/abs/2012.01805v1 )

ライセンス: CC BY 4.0
Ri\v{c}ards Marcinkevi\v{c}s and Julia E. Vogt(参考訳) 本稿では,解釈可能かつ説明可能な機械学習モデルの設計問題について検討する。 解釈可能性と説明可能性は、医学、経済学、法学、自然科学における多くの機械学習および統計応用の中核にある。 解釈可能性と説明可能性は明らかに普遍的な定義を免れたが、これらの特性に動機づけられた多くの技術は、過去30年間で開発され、現在ディープラーニングの手法に焦点が移っている。 本稿では,解釈可能性と説明可能性の相違を強調し,これら2つの研究方向について,その具体例を示す。 このレビューは、ロジスティック回帰やランダムな森林変数の重要性を超えた解釈と説明の問題を探求することに関心を持つ一般機械学習の聴衆を対象としている。 この研究は、徹底した文献調査ではなく、著者が興味をそそる、あるいは有意義な研究に選択的に焦点を絞ったプライマーである。

In this review, we examine the problem of designing interpretable and explainable machine learning models. Interpretability and explainability lie at the core of many machine learning and statistical applications in medicine, economics, law, and natural sciences. Although interpretability and explainability have escaped a clear universal definition, many techniques motivated by these properties have been developed over the recent 30 years with the focus currently shifting towards deep learning methods. In this review, we emphasise the divide between interpretability and explainability and illustrate these two different research directions with concrete examples of the state-of-the-art. The review is intended for a general machine learning audience with interest in exploring the problems of interpretation and explanation beyond logistic regression or random forest variable importance. This work is not an exhaustive literature survey, but rather a primer focusing selectively on certain lines of research which the authors found interesting or informative.
翻訳日:2021-05-24 00:47:42 公開日:2020-12-03
# (参考訳) 多言語BERTを用いた移動学習によるベンガル語の知覚分析

Sentiment analysis in Bengali via transfer learning using multi-lingual BERT ( http://arxiv.org/abs/2012.07538v1 )

ライセンス: CC BY 4.0
Khondoker Ittehadul Islam, Md. Saiful Islam and Md Ruhul Amin(参考訳) ベンガル語における感情分析(sa)は、このインド・アーリア語の高度に屈折した性質が160以上の動詞の屈折形と36種類の名詞と24種類の代名詞を持つため、困難である。 ベンガル領域における標準ラベル付きデータセットの欠如は、SAのタスクをさらに難しくする。 本稿では,bengaliの2クラスおよび3クラスのsaデータセットを手作業でタグ付けする。 また、関連する拡張を伴う多言語BERTモデルは、これらの新しいデータセットよりも伝達学習のアプローチにより、感情分類タスクにおける最先端のパフォーマンスを向上させることができることを示した。 この深層学習モデルは,現在最先端の68%と比較して,2クラス感情分類の精度が71.%である。 また、3 クラスの手動タグ付きデータセットに対する最初の bengali sa 分類器を提示し,提案手法により 60\% の精度を実現する。 さらにこのモデルを用いて、オンライン日刊紙における公開コメントの感情を分析する。 我々の分析によると、人々は政治やスポーツのニュースに対して否定的なコメントを投稿することが多い。 データセットとコードはhttps://github.com/KhondokerIslam/Bengali\_Sentimentで公開されている。

Sentiment analysis (SA) in Bengali is challenging due to this Indo-Aryan language's highly inflected properties with more than 160 different inflected forms for verbs and 36 different forms for noun and 24 different forms for pronouns. The lack of standard labeled datasets in the Bengali domain makes the task of SA even harder. In this paper, we present manually tagged 2-class and 3-class SA datasets in Bengali. We also demonstrate that the multi-lingual BERT model with relevant extensions can be trained via the approach of transfer learning over those novel datasets to improve the state-of-the-art performance in sentiment classification tasks. This deep learning model achieves an accuracy of 71\% for 2-class sentiment classification compared to the current state-of-the-art accuracy of 68\%. We also present the very first Bengali SA classifier for the 3-class manually tagged dataset, and our proposed model achieves an accuracy of 60\%. We further use this model to analyze the sentiment of public comments in the online daily newspaper. Our analysis shows that people post negative comments for political or sports news more often, while the religious article comments represent positive sentiment. The dataset and code is publicly available at https://github.com/KhondokerIslam/Bengali\_Sentiment.
翻訳日:2021-05-24 00:12:02 公開日:2020-12-03
# (参考訳) SemMT: 機械翻訳システムのセマンティックなテスト手法

SemMT: A Semantic-based Testing Approach for Machine Translation Systems ( http://arxiv.org/abs/2012.01815v1 )

ライセンス: CC BY 4.0
Jialun Cao and Meiziniu Li and Yeting Li and Ming Wen and Shing-Chi Cheung(参考訳) 機械翻訳は日常生活に幅広い応用がある。 公式文書の翻訳のようなミッションクリティカルな応用では、誤った翻訳は不快あるいは破滅的な結果をもたらすことがある。 これは機械翻訳システムの試験方法に関する最近の研究を動機付けている。 既存の方法論は主に、翻訳結果の正確性を決定するために、テキストレベル(例えば、レベンシュテイン距離)または構文レベル(例えば文法構造間の距離)で設計された変成関係に依存する。 しかし、これらの変成関係は、原文と翻訳文が同じ意味(セマンティック類似性)を持つかどうかを考慮していない。 そこで本稿では,意味的類似性チェックに基づく機械翻訳システムのための自動テスト手法であるsemmtを提案する。 semmtは往復翻訳を行い、原文と翻訳文の意味的類似性を測定する。 我々の見識では、文中の論理と数値制約によって表現される意味論は、効率的な等価/類似性チェックアルゴリズムが利用できる正規表現(あるいは決定論的有限オートマトン)を用いて捉えることができる。 そこで本研究では,3つの意味的類似度指標を提案し,SemMTで実装する。 実験の結果,SemMTは最先端の作業に比べて高い有効性を実現でき,精度は21%,Fスコアは23%向上した。 また、メトリクスの適切な組み合わせを採用する際に達成できる潜在的な改善についても検討する。 最後に、この不審な旅行を往復翻訳で見つける方法について議論し、さらなる探索に光を放つ可能性がある。

Machine translation has wide applications in daily life. In mission-critical applications such as translating official documents, incorrect translation can have unpleasant or sometimes catastrophic consequences. This motivates recent research on testing methodologies for machine translation systems. Existing methodologies mostly rely on metamorphic relations designed at the textual level (e.g., Levenshtein distance) or syntactic level (e.g., the distance between grammar structures) to determine the correctness of translation results. However, these metamorphic relations do not consider whether the original and translated sentences have the same meaning (i.e., Semantic similarity). Therefore, in this paper, we propose SemMT, an automatic testing approach for machine translation systems based on semantic similarity checking. SemMT applies round-trip translation and measures the semantic similarity between the original and translated sentences. Our insight is that the semantics expressed by the logic and numeric constraint in sentences can be captured using regular expressions (or deterministic finite automata) where efficient equivalence/similarity checking algorithms are available. Leveraging the insight, we propose three semantic similarity metrics and implement them in SemMT. The experiment result reveals SemMT can achieve higher effectiveness compared with state-of-the-art works, achieving an increase of 21% and 23% on accuracy and F-Score, respectively. We also explore potential improvements that can be achieved when proper combinations of metrics are adopted. Finally, we discuss a solution to locate the suspicious trip in round-trip translation, which may shed lights on further exploration.
翻訳日:2021-05-24 00:03:39 公開日:2020-12-03
# (参考訳) SMDS-Net:Hyperspectral Image Denoisingのためのモデルガイドスペクトル空間ネットワーク

SMDS-Net: Model Guided Spectral-Spatial Network for Hyperspectral Image Denoising ( http://arxiv.org/abs/2012.01829v1 )

ライセンス: CC BY 4.0
Fengchao Xiong, Jun Zhou, Jianfeng Lu, and Yuntao Qian(参考訳) ディープ・ラーニング (DL) に基づくハイパースペクトル画像 (HSI) 法は、観測されたノイズ画像と基礎となるクリーン画像との間の非線形マッピングを直接学習する。 彼らは通常、HSIの物理的特性を考慮しないので、その認知メカニズムを理解する上で鍵となる解釈可能性の欠如をもたらす。 そこで本研究では,hsiデノイジングのための新しいモデル誘導型解釈ネットワークを提案する。 具体的には、HSIの空間冗長性、スペクトル低ランク性、スペクトル空間特性を十分に考慮し、まず、部分空間に基づく多次元スパースモデルを構築する。 このモデルはまず観測されたHSIを低次元直交部分空間に射影し、それから多次元辞書で投影された画像を表現する。 その後、モデルはsmds-netと呼ばれるエンドツーエンドネットワークに展開され、基本モジュールはモデルのデノイジング手順と最適化とシームレスに接続される。 これによりSMDS-Netは明確な物理的意味、すなわちHSIの低ランク性と疎さを学ぶことができる。 最後に、辞書や閾値パラメータを含むすべてのキー変数は、エンドツーエンドのトレーニングによって取得される。 広汎な実験と包括的分析により,最先端HSI復調法に対する本法の有効性と解釈性が確認された。

Deep learning (DL) based hyperspectral images (HSIs) denoising approaches directly learn the nonlinear mapping between observed noisy images and underlying clean images. They normally do not consider the physical characteristics of HSIs, therefore making them lack of interpretability that is key to understand their denoising mechanism.. In order to tackle this problem, we introduce a novel model guided interpretable network for HSI denoising. Specifically, fully considering the spatial redundancy, spectral low-rankness and spectral-spatial properties of HSIs, we first establish a subspace based multi-dimensional sparse model. This model first projects the observed HSIs into a low-dimensional orthogonal subspace, and then represents the projected image with a multidimensional dictionary. After that, the model is unfolded into an end-to-end network named SMDS-Net whose fundamental modules are seamlessly connected with the denoising procedure and optimization of the model. This makes SMDS-Net convey clear physical meanings, i.e., learning the low-rankness and sparsity of HSIs. Finally, all key variables including dictionaries and thresholding parameters are obtained by the end-to-end training. Extensive experiments and comprehensive analysis confirm the denoising ability and interpretability of our method against the state-of-the-art HSI denoising methods.
翻訳日:2021-05-23 23:38:27 公開日:2020-12-03
# (参考訳) 周波数領域プリエントを用いた画像インペインティング

Image inpainting using frequency domain priors ( http://arxiv.org/abs/2012.01832v1 )

ライセンス: CC BY 4.0
Hiya Roy, Subhajit Chaudhury, Toshihiko Yamasaki, Tatsuaki Hashimoto(参考訳) 本稿では,周波数領域情報を用いた新しい画像塗装手法を提案する。 予めは、空間領域情報のみを使用してニューラルネットワークをトレーニングすることで、欠落画素を予測するイメージインペインティングに取り組んでいる。 しかし、これらの手法は依然として実際の複雑なシーンの高周波のディテールを再構築するのに苦労しており、色、境界アーティファクト、歪んだパターン、ぼやけたテクスチャの相違を引き起こしている。 これらの問題を解決するために,空間領域情報とともに周波数領域情報(離散フーリエ変換)を用いてネットワークを訓練することにより,よりよい性能を得ることができるか検討する。 そこで本研究では,高周波成分を選択的に再構成しながら,ネットワークがグローバルコンテキストを学習できる周波数ベースのデコンボリューションモジュールを提案する。 提案手法は,CelebA,Paris Streetview,DTDテクスチャデータセットの公開データセット上で評価し,その手法が定性的かつ定量的に,現在の最先端画像塗装技術より優れていることを示す。

In this paper, we present a novel image inpainting technique using frequency domain information. Prior works on image inpainting predict the missing pixels by training neural networks using only the spatial domain information. However, these methods still struggle to reconstruct high-frequency details for real complex scenes, leading to a discrepancy in color, boundary artifacts, distorted patterns, and blurry textures. To alleviate these problems, we investigate if it is possible to obtain better performance by training the networks using frequency domain information (Discrete Fourier Transform) along with the spatial domain information. To this end, we propose a frequency-based deconvolution module that enables the network to learn the global context while selectively reconstructing the high-frequency components. We evaluate our proposed method on the publicly available datasets CelebA, Paris Streetview, and DTD texture dataset, and show that our method outperforms current state-of-the-art image inpainting techniques both qualitatively and quantitatively.
翻訳日:2021-05-23 23:17:29 公開日:2020-12-03
# (参考訳) 逆行訓練による多対多の歌声変換に基づく音韻後音素

Phonetic Posteriorgrams based Many-to-Many Singing Voice Conversion via Adversarial Training ( http://arxiv.org/abs/2012.01837v1 )

ライセンス: CC BY 4.0
Haohan Guo, Heng Lu, Na Hu, Chunlei Zhang, Shan Yang, Lei Xie, Dan Su, Dong Yu(参考訳) 本稿では,エンドツーエンドの歌唱音声変換(EA-SVC)手法について述べる。 内容を表すPPG、ピッチを表すF0、音色を表す話者埋め込みにより、任意の歌唱波形を直接生成することができる。 提案システムは3つのモジュールで構成されている: generator $g$, audio generation discriminator $d_{a}$, feature disentanglement discriminator $d_f$。 ジェネレータ$g$は特徴を並列にエンコードし、逆変換して対象波形に変換する。 音色変換をより安定かつ制御可能にするため、話者埋め込みは異なる音色クラスタを表す訓練可能なベクトル群の重み付け和にさらに分解される。 さらに、よりロバストで正確な歌声変換を実現するために、符号化ppgに残されているピッチおよび音色関連情報を除去するために、ディエンタングルメント判別器$d_f$を提案する。 最後に、安定して効果的な対向訓練プロセスを維持するために、2段階の訓練を行う。 主観評価の結果,提案手法の有効性が示された。 提案システムは、歌声品質と歌手の類似性の両方の観点から、従来のカスケードアプローチとWaveNetに基づくエンドツーエンドアプローチより優れている。 さらなる客観的な分析により、提案された2段階のトレーニング戦略で訓練されたモデルは、より滑らかで鋭いフォルマントを生成でき、高いオーディオ品質をもたらすことが判明した。

This paper describes an end-to-end adversarial singing voice conversion (EA-SVC) approach. It can directly generate arbitrary singing waveform by given phonetic posteriorgram (PPG) representing content, F0 representing pitch, and speaker embedding representing timbre, respectively. Proposed system is composed of three modules: generator $G$, the audio generation discriminator $D_{A}$, and the feature disentanglement discriminator $D_F$. The generator $G$ encodes the features in parallel and inversely transforms them into the target waveform. In order to make timbre conversion more stable and controllable, speaker embedding is further decomposed to the weighted sum of a group of trainable vectors representing different timbre clusters. Further, to realize more robust and accurate singing conversion, disentanglement discriminator $D_F$ is proposed to remove pitch and timbre related information that remains in the encoded PPG. Finally, a two-stage training is conducted to keep a stable and effective adversarial training process. Subjective evaluation results demonstrate the effectiveness of our proposed methods. Proposed system outperforms conventional cascade approach and the WaveNet based end-to-end approach in terms of both singing quality and singer similarity. Further objective analysis reveals that the model trained with the proposed two-stage training strategy can produce a smoother and sharper formant which leads to higher audio quality.
翻訳日:2021-05-23 23:00:27 公開日:2020-12-03
# (参考訳) アクティブドメイン適応のための確率的逆勾配埋め込み

Stochastic Adversarial Gradient Embedding for Active Domain Adaptation ( http://arxiv.org/abs/2012.01843v1 )

ライセンス: CC BY 4.0
Victor Bouvier, Philippe Very, Cl\'ement Chastagnol, Myriam Tami, C\'eline Hudelot(参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用可能なソースドメインと、非ラベル付きデータでのみ表現されるターゲットドメインの間のギャップを埋めることを目的としている。 ドメイン不変表現がモデルの適応性を劇的に改善したならば、それらの優れた転送可能性を保証することは難しい問題である。 本稿では、アクティブラーニングを用いて目標データの小さな予算をアノテートすることでこの問題に対処する。 この設定は、ADA(Active Domain Adaptation)と呼ばれ、UDAの標準設定から逸脱するが、この状況には幅広い実用的な応用が直面している。 この目的のために、ADAに3つの貢献をするフレームワークであるtextit{Stochastic Adversarial Gradient Embedding} (SAGE)を紹介します。 まず, 伝達性損失勾配の変動前後の変動を計測することにより, 表現の伝達性が向上する可能性のあるアノテーション対象サンプルを選択した。 第2に、異なる勾配方向を推し進めることでサンプリングの多様性を高める。 第3に、不変表現を学習する際にターゲットサンプルを積極的に取り入れる新しい訓練手順を導入する。 SAGEは固体理論に基づいており、いくつかのベースラインに対して様々なUDAベンチマークで検証されている。 我々は,SAGEが不確実な<textit{vs} 多様性サンプリングを最大限に活用し,表現の伝達性を大幅に向上することを示す。

Unsupervised Domain Adaptation (UDA) aims to bridge the gap between a source domain, where labelled data are available, and a target domain only represented with unlabelled data. If domain invariant representations have dramatically improved the adaptability of models, to guarantee their good transferability remains a challenging problem. This paper addresses this problem by using active learning to annotate a small budget of target data. Although this setup, called Active Domain Adaptation (ADA), deviates from UDA's standard setup, a wide range of practical applications are faced with this situation. To this purpose, we introduce \textit{Stochastic Adversarial Gradient Embedding} (SAGE), a framework that makes a triple contribution to ADA. First, we select for annotation target samples that are likely to improve the representations' transferability by measuring the variation, before and after annotation, of the transferability loss gradient. Second, we increase sampling diversity by promoting different gradient directions. Third, we introduce a novel training procedure for actively incorporating target samples when learning invariant representations. SAGE is based on solid theoretical ground and validated on various UDA benchmarks against several baselines. Our empirical investigation demonstrates that SAGE takes the best of uncertainty \textit{vs} diversity samplings and improves representations transferability substantially.
翻訳日:2021-05-23 22:33:21 公開日:2020-12-03
# (参考訳) ワンショットビデオのオブジェクトセグメンテーションを効率良くする

Make One-Shot Video Object Segmentation Efficient Again ( http://arxiv.org/abs/2012.01866v1 )

ライセンス: CC BY 4.0
Tim Meinhardt and Laura Leal-Taixe(参考訳) ビデオオブジェクトセグメンテーション(VOS)は、ビデオの各フレームにオブジェクトの集合をセグメンテーションするタスクを記述する。 半教師付き設定では、各オブジェクトの第1マスクがテスト時に提供される。 ワンショットの原則に従って、細調整のVOSメソッドは、それぞれのオブジェクトマスク上でセグメンテーションモデルを個別に訓練する。 しかし、最近、VOSコミュニティはこのようなテスト時間の最適化とテストランタイムへの影響を不可能とみなした。 従来の微調整手法の非効率性を軽減するため,効率の良いワンショットビデオオブジェクトセグメンテーション(e-OSVOS)を提案する。 多くのVOSアプローチとは対照的に、e-OSVOSはオブジェクト検出タスクを分離し、Mask R-CNNの修正版を適用してローカルセグメンテーションマスクのみを予測する。 ワンショットテストランタイムとパフォーマンスは、面倒で手作りのハイパーパラメータ検索なしで最適化される。 この目的のために、テスト時間最適化のためのモデル初期化と学習率をメタ学習する。 最適な学習行動を実現するために,ニューロンレベルで個々の学習率を予測する。 さらに、フレーム間バウンディングボックスの伝搬によって支持された以前のマスク予測に基づいてモデルを連続的に微調整することにより、シーケンス全体の共通性能劣化に対処するオンライン適応を適用する。 e-OSVOSはDAVIS 2016、DAVIS 2017、YouTube-VOSに対して、テストランタイムを大幅に削減しながらワンショットの微調整方法に関する最先端の結果を提供する。 コードはhttps://github.com/dvl-tum/e-osvosで入手できる。

Video object segmentation (VOS) describes the task of segmenting a set of objects in each frame of a video. In the semi-supervised setting, the first mask of each object is provided at test time. Following the one-shot principle, fine-tuning VOS methods train a segmentation model separately on each given object mask. However, recently the VOS community has deemed such a test time optimization and its impact on the test runtime as unfeasible. To mitigate the inefficiencies of previous fine-tuning approaches, we present efficient One-Shot Video Object Segmentation (e-OSVOS). In contrast to most VOS approaches, e-OSVOS decouples the object detection task and predicts only local segmentation masks by applying a modified version of Mask R-CNN. The one-shot test runtime and performance are optimized without a laborious and handcrafted hyperparameter search. To this end, we meta learn the model initialization and learning rates for the test time optimization. To achieve optimal learning behavior, we predict individual learning rates at a neuron level. Furthermore, we apply an online adaptation to address the common performance degradation throughout a sequence by continuously fine-tuning the model on previous mask predictions supported by a frame-to-frame bounding box propagation. e-OSVOS provides state-of-the-art results on DAVIS 2016, DAVIS 2017, and YouTube-VOS for one-shot fine-tuning methods while reducing the test runtime substantially. Code is available at https://github.com/dvl-tum/e-osvos.
翻訳日:2021-05-23 22:32:21 公開日:2020-12-03
# (参考訳) 仮想知識グラフのためのマッピングパターン

Mapping Patterns for Virtual Knowledge Graphs ( http://arxiv.org/abs/2012.01917v1 )

ライセンス: CC BY 4.0
Diego Calvanese and Avigdor Gal and Davide Lanti and Marco Montali and Alessandro Mosca and Roee Shraga(参考訳) 仮想知識グラフ(VKG)は、レガシーデータソースの統合とアクセスのための最も有望なパラダイムの1つである。 統合プロセスにおける重要なボトルネックは、データソースをドメインオントロジーにリンクするマッピングの定義、検証、保守である。 ライフサイクル全体を通してマッピングの管理を支援するため,データベースとオントロジをリンクする場合に現れる高度なマッピングパターンの包括的カタログを提案する。 そのために私たちは、データ管理、データ分析、概念モデリングで研究されている確立された方法論とパターンに基づいています。 これらは、具体的なVKGベンチマークと実世界のユースケースを分析し、データソースとオントロジー間の固有のインピーダンスミスマッチを考慮して拡張され、洗練される。 検討したVKGシナリオに基づいて,私たちのカタログを検証し,そのパターンの大部分をカバーすることを示す。

Virtual Knowledge Graphs (VKG) constitute one of the most promising paradigms for integrating and accessing legacy data sources. A critical bottleneck in the integration process involves the definition, validation, and maintenance of mappings that link data sources to a domain ontology. To support the management of mappings throughout their entire lifecycle, we propose a comprehensive catalog of sophisticated mapping patterns that emerge when linking databases to ontologies. To do so, we build on well-established methodologies and patterns studied in data management, data analysis, and conceptual modeling. These are extended and refined through the analysis of concrete VKG benchmarks and real-world use cases, and considering the inherent impedance mismatch between data sources and ontologies. We validate our catalog on the considered VKG scenarios, showing that it covers the vast majority of patterns present therein.
翻訳日:2021-05-23 22:07:25 公開日:2020-12-03
# (参考訳) 薬物4コービッド:科学論文に基づく薬物駆動の知識爆発

Drugs4Covid: Drug-driven Knowledge Exploitation based on Scientific Publications ( http://arxiv.org/abs/2012.01953v1 )

ライセンス: CC BY 4.0
Carlos Badenes-Olmedo, David Chaves-Fraga, Mar\'Ia Poveda-Villal\'On, Ana Iglesias-Molina, Pablo Calleja, Socorro Bernardos, Patricia Mart\'In-Chozas, Alba Fern\'andez-Izquierdo, Elvira Amador-Dom\'inguez, Paola Espinoza-Arias, Luis Pozo, Edna Ruckhaus, Esteban Gonz\'alez-Guardia, Raquel Cedazo, Beatriz L\'opez-Centeno, and Oscar Corcho(参考訳) 需要の増加により十分な薬剤が不足しているため、廃薬が採用されているか、病院薬剤師が使用可能な薬の投与量を変更している。 代替薬の使用に関するいくつかの証拠は、そのような決定を補助する既存の科学文献に見ることができる。 しかし、大量の文書を効率的に利用することは容易ではない、なぜなら薬物はテキストに明示的に関連付けられておらず、異なるブランド名で言及される可能性があるからである。 drugs4covidは、単語埋め込み技術とセマンティックウェブ技術を組み合わせて、大規模な医学文献の薬物指向の探索を可能にする。 薬物と疾患は、それぞれATC分類とMeSH分類に基づいて識別される。 新型コロナウイルス(COVID-19)やSARS(SARS)などの関連コロナウイルスに関する情報とともに、CORD-19コーパスから60万件以上が処理された。 薬のオープンカタログが作成され、その結果はドラッグブラウザ、キーワード誘導テキストエクスプローラー、知識グラフを通じて公開されている。

In the absence of sufficient medication for COVID patients due to the increased demand, disused drugs have been employed or the doses of those available were modified by hospital pharmacists. Some evidences for the use of alternative drugs can be found in the existing scientific literature that could assist in such decisions. However, exploiting large corpus of documents in an efficient manner is not easy, since drugs may not appear explicitly related in the texts and could be mentioned under different brand names. Drugs4Covid combines word embedding techniques and semantic web technologies to enable a drug-oriented exploration of large medical literature. Drugs and diseases are identified according to the ATC classification and MeSH categories respectively. More than 60K articles and 2M paragraphs have been processed from the CORD-19 corpus with information of COVID-19, SARS, and other related coronaviruses. An open catalogue of drugs has been created and results are publicly available through a drug browser, a keyword-guided text explorer, and a knowledge graph.
翻訳日:2021-05-23 21:47:40 公開日:2020-12-03
# (参考訳) セグメンテーションアノテーションの変動に関する小注釈

A small note on variation in segmentation annotations ( http://arxiv.org/abs/2012.01975v1 )

ライセンス: CC BY-SA 4.0
Silas Nyboe {\O}rting(参考訳) 本報告は,2020年デンマークバイオイメージングネットワーク会議において,機械学習によるセグメント化に関するワークショップで実施された,少人数のクラウドソーシング実験の結果について報告する。 ワークショップでは、参加者に3つの2dパッチでミトコンドリアを手動で分割するように求めました。 この実験の目的は、手動のアノテーションは基礎的な真実ではなく、相当な変動の対象となる参照標準と見なすべきであることを示すことである。 本稿では, セグメンテーションにおいて観測した大きな変動を, 最悪のペアワイド一致でアノテータを除去することで低減できることを示す。 最低性能のアノテータを除去し、残りの分散は意味論的に意味があり、細胞境界と細胞内部のセグメンテーションを得るために利用することができることを示す。

We report on the results of a small crowdsourcing experiment conducted at a workshop on machine learning for segmentation held at the Danish Bio Imaging network meeting 2020. During the workshop we asked participants to manually segment mitochondria in three 2D patches. The aim of the experiment was to illustrate that manual annotations should not be seen as the ground truth, but as a reference standard that is subject to substantial variation. In this note we show how the large variation we observed in the segmentations can be reduced by removing the annotators with worst pair-wise agreement. Having removed the annotators with worst performance, we illustrate that the remaining variance is semantically meaningful and can be exploited to obtain segmentations of cell boundary and cell interior.
翻訳日:2021-05-23 21:36:23 公開日:2020-12-03
# (参考訳) 厚膜血腫におけるマラリア寄生虫と白血球の局在

Localization of Malaria Parasites and White Blood Cells in Thick Blood Smears ( http://arxiv.org/abs/2012.01994v1 )

ライセンス: CC BY 4.0
Rose Nakasi, Aminah Zawedde, Ernest Mwebaze, Jeremy Francis Tusubira, Gilbert Maiga(参考訳) マラリア寄生虫症を効果的に判定することは、臨床医が病気の重症度を正確に判定し、高品質な治療を提供するために重要な側面である。 厚いスミアの血液スミアに顕微鏡を適用することはマラリア寄生虫症判定の事実上の方法である。 しかし、寄生虫症の手作業による定量化は時間がかかり、手間がかかり、特に高度で資源の少ない地域では不十分な相当な専門知識を必要とする。 本研究は, マラリア原虫および白血球の局在と定量化のためのエンド・ツー・エンドアプローチであり, 血液中寄生虫の定量値, 寄生虫の定量化に有効であることを示す。 太い血液スメアの画像のスライスのデータセット上に,得られたデジタル画像を分析するモデルを構築した。 データセットのサイズ制限によるモデル性能向上のために,データ拡張を適用した。 予備的な結果から,我々の深層学習アプローチは,高い精度でマラリア原虫とWBCの数を確実に検出し,返却することを示した。 また,人間のエキスパートに対するシステムを評価し,我々のディープラーニングモデル数と手作業のエキスパート数(寄生虫p=0.998,wbcsp=0.987)との間に強い相関関係を示した。 このアプローチはマラリア寄生虫の診断、特に十分なマイクロスコピストを欠いた状況でのサポートに応用できる可能性がある。

Effectively determining malaria parasitemia is a critical aspect in assisting clinicians to accurately determine the severity of the disease and provide quality treatment. Microscopy applied to thick smear blood smears is the de facto method for malaria parasitemia determination. However, manual quantification of parasitemia is time consuming, laborious and requires considerable trained expertise which is particularly inadequate in highly endemic and low resourced areas. This study presents an end-to-end approach for localisation and count of malaria parasites and white blood cells (WBCs) which aid in the effective determination of parasitemia; the quantitative content of parasites in the blood. On a dataset of slices of images of thick blood smears, we build models to analyse the obtained digital images. To improve model performance due to the limited size of the dataset, data augmentation was applied. Our preliminary results show that our deep learning approach reliably detects and returns a count of malaria parasites and WBCs with a high precision and recall. We also evaluate our system against human experts and results indicate a strong correlation between our deep learning model counts and the manual expert counts (p=0.998 for parasites, p=0.987 for WBCs). This approach could potentially be applied to support malaria parasitemia determination especially in settings that lack sufficient Microscopists.
翻訳日:2021-05-23 21:33:33 公開日:2020-12-03
# (参考訳) 自動句読点挿入による終端ASRシステム

End to End ASR System with Automatic Punctuation Insertion ( http://arxiv.org/abs/2012.02012v1 )

ライセンス: CC BY 4.0
Yushi Guan(参考訳) 最近の自動音声認識システムは、一緒に訓練できるエンドツーエンドシステムに向かっている。 CNNによる特徴抽出、コンテキストキャプチャとRNNによる音響特徴モデリング、Connectionist Temporal Classificationsを用いた入力シーケンスと出力シーケンスの自動アライメント、従来のn-gram言語モデルをRNN言語モデルに置き換えるなど、最近提案された多くのテクニックによってこの傾向が実現された。 歴史的に、テキストや音声からテキストへの自動句読点に多くの関心が寄せられている。 しかし、英語の音声コーパスの欠如や句読点の欠如などもあり、新たなニューラルネットワークに基づくエンドツーエンド音声認識システムに自動句読点を導入することにはほとんど関心がないようである。 本研究では,TED.com から入手可能な transcript を用いて TEDLium データセットの句読点書き起こしを生成する手法を提案する。 また,音声信号から単語と句を同時に出力するエンドツーエンドのASRシステムを提案する。 Damerau Levenshtein Distanceとスロットエラー率をDLev-SERに組み合わせることで、仮説テキストが参照と完全に一致していない場合の句読点誤り率の測定を可能にする。 従来の手法と比較して,スロットエラー率は0.497から0.341に減少する。

Recent Automatic Speech Recognition systems have been moving towards end-to-end systems that can be trained together. Numerous techniques that have been proposed recently enabled this trend, including feature extraction with CNNs, context capturing and acoustic feature modeling with RNNs, automatic alignment of input and output sequences using Connectionist Temporal Classifications, as well as replacing traditional n-gram language models with RNN Language Models. Historically, there has been a lot of interest in automatic punctuation in textual or speech to text context. However, there seems to be little interest in incorporating automatic punctuation into the emerging neural network based end-to-end speech recognition systems, partially due to the lack of English speech corpus with punctuated transcripts. In this study, we propose a method to generate punctuated transcript for the TEDLIUM dataset using transcripts available from ted.com. We also propose an end-to-end ASR system that outputs words and punctuations concurrently from speech signals. Combining Damerau Levenshtein Distance and slot error rate into DLev-SER, we enable measurement of punctuation error rate when the hypothesis text is not perfectly aligned with the reference. Compared with previous methods, our model reduces slot error rate from 0.497 to 0.341.
翻訳日:2021-05-23 21:13:45 公開日:2020-12-03
# (参考訳) 情報バイアス検出における文脈

Context in Informational Bias Detection ( http://arxiv.org/abs/2012.02015v1 )

ライセンス: CC BY 4.0
Esther van den Berg and Katja Markert(参考訳) 情報バイアス(英: Informational bias)とは、読者の意見を実体に向ける具体的な、投機的、背景的な情報を提供する文や節を通じて伝達されるバイアスである。 本質的には、情報バイアスは文脈依存であるが、情報バイアス検出に関する以前の研究は、文を超えて文脈の役割を探求していない。 本稿では,英語ニュース記事における情報バイアスの文脈について,近隣の文,全文,他のニュース発行者による同一イベントの記事,同一ドメインからの記事(潜在的に異なるイベント)の4種について検討する。 イベントコンテキストの統合は、非常に強力なベースライン上での分類性能を改善する。 また,このタスクにおいて,モデルの最初の誤差解析を行う。 もっとも優れた文脈包摂的モデルは、より長い文と政治的中心的な記事の文のベースラインを上回ります。

Informational bias is bias conveyed through sentences or clauses that provide tangential, speculative or background information that can sway readers' opinions towards entities. By nature, informational bias is context-dependent, but previous work on informational bias detection has not explored the role of context beyond the sentence. In this paper, we explore four kinds of context for informational bias in English news articles: neighboring sentences, the full article, articles on the same event from other news publishers, and articles from the same domain (but potentially different events). We find that integrating event context improves classification performance over a very strong baseline. In addition, we perform the first error analysis of models on this task. We find that the best-performing context-inclusive model outperforms the baseline on longer sentences, and sentences from politically centrist articles.
翻訳日:2021-05-23 21:04:12 公開日:2020-12-03
# (参考訳) 航空画像のピクセルレベルセグメンテーション

Aerial Imagery Pixel-level Segmentation ( http://arxiv.org/abs/2012.02024v1 )

ライセンス: CC BY 4.0
Michael R. Heffels and Joaquin Vanschoren(参考訳) 航空画像は世界規模の重要な研究に利用することができる。 それでも、ニューラルネットワークアーキテクチャを使用したデータ分析は、PASCAL VOC、CityScapes、Camvidといった一般的なデータセットの最先端に遅れを取っている。 本稿では,これらの一般的なデータセットと航空画像データ間のパフォーマンスギャップを橋渡しする。 最先端のニューラルネットワークアーキテクチャを複数クラスに設定した,空中画像に関する作業はほとんど行われない。 データ拡張、正規化、画像サイズ、損失関数に関する実験は、航空画像セグメンテーションデータセットの高性能設定に関する洞察を与える。 最先端のdeeplabv3+xception65アーキテクチャを使用して、dronedeployバリデーションセットで平均70%のiouを達成しています。 その結果、現在公開されている最先端の検証セットmIOU(65%)のパフォーマンスを5%で上回りました。 さらに、私たちの知る限り、テストセットのmIOUベンチマークはありません。 そこで我々は,miouスコア52.5%のdeeplabv3+xception65アーキテクチャを用いて,dronedeployテストセットの新しいベンチマークを提案する。

Aerial imagery can be used for important work on a global scale. Nevertheless, the analysis of this data using neural network architectures lags behind the current state-of-the-art on popular datasets such as PASCAL VOC, CityScapes and Camvid. In this paper we bridge the performance-gap between these popular datasets and aerial imagery data. Little work is done on aerial imagery with state-of-the-art neural network architectures in a multi-class setting. Our experiments concerning data augmentation, normalisation, image size and loss functions give insight into a high performance setup for aerial imagery segmentation datasets. Our work, using the state-of-the-art DeepLabv3+ Xception65 architecture, achieves a mean IOU of 70% on the DroneDeploy validation set. With this result, we clearly outperform the current publicly available state-of-the-art validation set mIOU (65%) performance with 5%. Furthermore, to our knowledge, there is no mIOU benchmark for the test set. Hence, we also propose a new benchmark on the DroneDeploy test set using the best performing DeepLabv3+ Xception65 architecture, with a mIOU score of 52.5%.
翻訳日:2021-05-23 20:50:36 公開日:2020-12-03
# (参考訳) 人間グリッドオペレータのためのAIアシスタントを目指して

Towards an AI assistant for human grid operators ( http://arxiv.org/abs/2012.02026v1 )

ライセンス: CC BY 4.0
Antoine Marot, Alexandre Rozier, Matthieu Dussartre, Laure Crochepierre, Benjamin Donnot(参考訳) 電力システムは、デジタル時代の運用がより複雑になっている。 その結果、人間のオペレータがより多くの情報、不確実性、より多くのアプリケーション、より多くの協調を扱わなければならないため、リアルタイムな意思決定はますます困難になっています。 監視は主に、過去数十年にわたって意思決定を支援するために使用されてきたが、もはや合理的なスケールアップには至っていない。 より統一的でインタラクティブなフレームワークの下で、ヒューマンマシンインターフェースを再考する必要がある。 人間と機械の相互作用と人工知能の最新の進歩を利用して、ハイパービジョンインターフェースとより広い双方向インタラクションに依存する新しいアシスタントフレームワークのビジョンを共有します。 我々は,現在提示している補助的設計と支援機能を駆動する意思決定の既知の原則について検討する。 最終的に、このようなアシスタントの開発に向けて進むためのガイドラインを共有します。

Power systems are becoming more complex to operate in the digital age. As a result, real-time decision-making is getting more challenging as the human operator has to deal with more information, more uncertainty, more applications and more coordination. While supervision has been primarily used to help them make decisions over the last decades, it cannot reasonably scale up anymore. There is a great need for rethinking the human-machine interface under more unified and interactive frameworks. Taking advantage of the latest developments in Human-machine Interactions and Artificial intelligence, we share the vision of a new assistant framework relying on an hypervision interface and greater bidirectional interactions. We review the known principles of decision-making that drives the assistant design and supporting assistance functions we present. We finally share some guidelines to make progress towards the development of such an assistant.
翻訳日:2021-05-23 20:27:45 公開日:2020-12-03
# (参考訳) traffic4cast 2020 -- graph ensemble netと交通予測のための特徴と損失関数設計の重要性

Traffic4cast 2020 -- Graph Ensemble Net and the Importance of Feature And Loss Function Design for Traffic Prediction ( http://arxiv.org/abs/2012.02115v1 )

ライセンス: CC BY 4.0
Qi Qi, Pak Hay Kwok(参考訳) 本稿では、traffic4cast 2020のソリューションについて詳述する。 traffic4cast 2019と同様に、traffic4cast 2020は、大都市の将来の交通状況を予測するアルゴリズムの開発に挑戦した。 私たちのチームはこの挑戦を2つの面で取り組んだ。 機能と損失関数の設計の重要性を調査し、昨年から最高のパフォーマンスのu-netソリューションに対して大きな改善を達成しました。 また、グラフニューラルネットワークの利用について検討し、昨年よりGNNソリューションよりも優れた新しいアンサンブルGNNアーキテクチャを導入した。 我々のGNNは改善されたが、それでもU-Netのパフォーマンスと一致せず、この欠点の潜在的な理由が議論された。 最後のソリューションであるU-NetとGNNのアンサンブルは、Traffic4cast 2020で4位になった。

This paper details our solution to Traffic4cast 2020. Similar to Traffic4cast 2019, Traffic4cast 2020 challenged its contestants to develop algorithms that can predict the future traffic states of big cities. Our team tackled this challenge on two fronts. We studied the importance of feature and loss function design, and achieved significant improvement to the best performing U-Net solution from last year. We also explored the use of Graph Neural Networks and introduced a novel ensemble GNN architecture which outperformed the GNN solution from last year. While our GNN was improved, it was still unable to match the performance of U-Nets and the potential reasons for this shortfall were discussed. Our final solution, an ensemble of our U-Net and GNN, achieved the 4th place solution in Traffic4cast 2020.
翻訳日:2021-05-23 20:00:33 公開日:2020-12-03
# (参考訳) 抽出要約には、トランスフォーマーにこれほど多くのパラメータが必要ですか? Discourse Can Help!

Do We Really Need That Many Parameters In Transformer For Extractive Summarization? Discourse Can Help ! ( http://arxiv.org/abs/2012.02144v1 )

ライセンス: CC BY 4.0
Wen Xiao, Patrick Huber, Giuseppe Carenini(参考訳) 一般的なトランスモデルのマルチヘッド自己アテンションは自然言語処理(NLP)において広く使われており、抽出的要約のタスクも含んでいる。 パラメータ重自己注意機構の解析と解析を目的とし、パラメータ軽自己意識の代替案を提案する複数のアプローチが存在する。 本稿では,談話先行情報を用いたパラメータリーン自己認識機構を提案する。 我々の新しいツリー自己注意は文書レベルの談話情報に基づいており、最近提案された"シンセサイザー"フレームワークを別の軽量な代替手段で拡張している。 本研究は,本手法が抽出要約作業における競合的ROUGEスコアを達成できることを示す。 従来の単頭変圧器モデルと比較すると,注目成分のパラメータが著しく減少しているにもかかわらず,木注目アプローチはEDUと文レベルの両方で同様の性能に達する。 さらに、よりバランスの取れたハイパーパラメータ設定を適用する場合、文レベルで8ヘッドトランスフォーマーモデルを大きく上回り、桁違いなパラメータを必要とする。

The multi-head self-attention of popular transformer models is widely used within Natural Language Processing (NLP), including for the task of extractive summarization. With the goal of analyzing and pruning the parameter-heavy self-attention mechanism, there are multiple approaches proposing more parameter-light self-attention alternatives. In this paper, we present a novel parameter-lean self-attention mechanism using discourse priors. Our new tree self-attention is based on document-level discourse information, extending the recently proposed "Synthesizer" framework with another lightweight alternative. We show empirical results that our tree self-attention approach achieves competitive ROUGE-scores on the task of extractive summarization. When compared to the original single-head transformer model, the tree attention approach reaches similar performance on both, EDU and sentence level, despite the significant reduction of parameters in the attention component. We further significantly outperform the 8-head transformer model on sentence level when applying a more balanced hyper-parameter setting, requiring an order of magnitude less parameters.
翻訳日:2021-05-23 19:31:47 公開日:2020-12-03
# (参考訳) Dr-COVID:SARS-CoV-2ドラッグリサイクルのためのグラフニューラルネットワーク

Dr-COVID: Graph Neural Networks for SARS-CoV-2 Drug Repurposing ( http://arxiv.org/abs/2012.02151v1 )

ライセンス: CC BY 4.0
Siddhant Doshi and Sundeep Prabhakar Chepuri(参考訳) 2019年の新型コロナウイルス(SARS-CoV-2)パンデミックは、世界中で100万人以上の死者、高い死亡率、経済的な苦悩をもたらした。 新型コロナウイルス(COVID-19)などの新規疾患を治療・予防する薬剤の特定が急務である。 医薬品の再利用は、新しい薬剤の設計や発見と比較して、コスト、安全性、迅速な結果に関していくつかの利点があるため、既存の承認薬の新しい医学的適応を見つける有望な戦略である。 本研究では,薬物再資源化のための計算データ駆動手法について検討し,薬物再資源化モデルであるDr-COVIDを提案する。 予測薬をcovid-19のために詳細に分析するが、このモデルは汎用的であり、あらゆる新しい疾患に使用できる。 薬物, 疾患, 遺伝子, 解剖学間の複雑な相互作用をモデル化するための4層ヘテロジニアスグラフを構築した。 リンク予測問題として薬物再導入を提案する。 具体的には,スケーラブルなインセプティブグラフニューラルネットワーク(sign)に基づくエンコーダを設計し,4層グラフ内のすべてのノードへの埋め込みを生成し,疾患の治療予測のためのデコーダとして二次ノルムスコアラを提案する。 我々は、Dr-COVID for COVID-19(例えば、コルチコステロイド、抗ウイルス薬、抗寄生虫薬)によって予測される150種類の薬物(デキサメタゾン、イヴェルメクチンなど)の詳細な分析を行う。 この150薬のうち46薬が現在臨床試験中である。 Dr-COVIDは、その予測性能と、既知の疾患の治療薬をできるだけ高くランク付けする能力で評価されている。 ほとんどの疾患では、Dr-COVIDは治療薬をトップ15にランク付けしている。

The 2019 novel coronavirus (SARS-CoV-2) pandemic has resulted in more than a million deaths, high morbidities, and economic distress worldwide. There is an urgent need to identify medications that would treat and prevent novel diseases like the 2019 coronavirus disease (COVID-19). Drug repurposing is a promising strategy to discover new medical indications of the existing approved drugs due to several advantages in terms of the costs, safety factors, and quick results compared to new drug design and discovery. In this work, we explore computational data-driven methods for drug repurposing and propose a dedicated graph neural network (GNN) based drug repurposing model, called Dr-COVID. Although we analyze the predicted drugs in detail for COVID-19, the model is generic and can be used for any novel diseases. We construct a four-layered heterogeneous graph to model the complex interactions between drugs, diseases, genes, and anatomies. We pose drug repurposing as a link prediction problem. Specifically, we design an encoder based on the scalable inceptive graph neural network (SIGN) to generate embeddings for all the nodes in the four-layered graph and propose a quadratic norm scorer as a decoder to predict treatment for a disease. We provide a detailed analysis of the 150 potential drugs (such as Dexamethasone, Ivermectin) predicted by Dr-COVID for COVID-19 from different pharmacological classes (e.g., corticosteroids, antivirals, antiparasitic). Out of these 150 drugs, 46 drugs are currently in clinical trials. Dr-COVID is evaluated in terms of its prediction performance and its ability to rank the known treatment drugs for diseases as high as possible. For a majority of the diseases, Dr-COVID ranks the actual treatment drug in the top 15.
翻訳日:2021-05-23 19:18:11 公開日:2020-12-03
# (参考訳) 帰属誘導因子化による自己監督型ニューラルネットワークの可視化

Visualization of Supervised and Self-Supervised Neural Networks via Attribution Guided Factorization ( http://arxiv.org/abs/2012.02166v1 )

ライセンス: CC BY 4.0
Shir Gur, Ameen Ali, Lior Wolf(参考訳) ニューラルネットワークの可視化技術は、ネットワークの分類に関連して、画像の位置をマークする。 既存の手法は、結果の分類に最も影響を及ぼす領域を強調するのに有効である。 しかし、これらの方法が示すように、代替分類のサポートを識別する能力は限定的であり、その効果は「サリエンシバイアス」仮説と命名される。 本研究では,グラデーションベース手法と属性ベース手法の2つの手法を統合し,クラスごとの説明可能性を提供するアルゴリズムを開発した。 アルゴリズムは、ピクセル当たりの局所的な影響を局所的な帰属によって導かれる方法でバックプロジェクションし、それ以外は説明のバイアスとなるような特徴を補正する。 大規模な実験では,予測されたラベルだけでなく,クラス固有の視覚化能力を示す。 注目すべきは、勾配に基づく手法に一般的に適用されるベンチマークや、主に帰属法を評価するために使用されるベンチマークにおいて、技術結果の状態を取得することである。 また,新しい教師なし手法を用いて,自己教師付き手法が意味情報を学ぶことを示す。

Neural network visualization techniques mark image locations by their relevancy to the network's classification. Existing methods are effective in highlighting the regions that affect the resulting classification the most. However, as we show, these methods are limited in their ability to identify the support for alternative classifications, an effect we name {\em the saliency bias} hypothesis. In this work, we integrate two lines of research: gradient-based methods and attribution-based methods, and develop an algorithm that provides per-class explainability. The algorithm back-projects the per pixel local influence, in a manner that is guided by the local attributions, while correcting for salient features that would otherwise bias the explanation. In an extensive battery of experiments, we demonstrate the ability of our methods to class-specific visualization, and not just the predicted label. Remarkably, the method obtains state of the art results in benchmarks that are commonly applied to gradient-based methods as well as in those that are employed mostly for evaluating attribution methods. Using a new unsupervised procedure, our method is also successful in demonstrating that self-supervised methods learn semantic information.
翻訳日:2021-05-23 19:00:24 公開日:2020-12-03
# (参考訳) DeepVideoMVS: Recurrent Spatio-Temporal Fusionによるビデオのマルチビューステレオ

DeepVideoMVS: Multi-View Stereo on Video with Recurrent Spatio-Temporal Fusion ( http://arxiv.org/abs/2012.02177v1 )

ライセンス: CC BY 4.0
Arda D\"uz\c{c}eker, Silvano Galliani, Christoph Vogel, Pablo Speciale, Mihai Dusmanu, Marc Pollefeys(参考訳) 本研究では,前回の時間ステップで計算されたシーン形状情報を,現在時間ステップに効率的かつ幾何学的に妥当な方法で伝搬する,ポーズ付きビデオストリームに対するオンラインマルチビュー深度予測手法を提案する。 私たちのアプローチのバックボーンは、画像ペアから計算したコストボリュームに依存する、リアルタイムで、軽量なエンコーダ・デコーダです。 我々は、ConvLSTMセルをボトルネック層に配置することで拡張し、任意の量の過去の情報をその状態に圧縮する。 新規性は、時間ステップ間の視点変化を考慮し、細胞の隠れた状態を伝播することにある。 所定の時間ステップで、前回の深度予測を使用して、現在のカメラプレーンに以前の隠れ状態を警告します。 我々の拡張は計算時間とメモリ消費のオーバーヘッドを少なく抑えつつ、深さ予測を大幅に改善する。 その結果,既存のマルチビューステレオ手法よりも,実時間性能を維持しつつ,数百の屋内シーンで評価された指標のほとんどを上回ります。 コード提供: https://github.com/ardaduz/deep-video-mvs

We propose an online multi-view depth prediction approach on posed video streams, where the scene geometry information computed in the previous time steps is propagated to the current time step in an efficient and geometrically plausible way. The backbone of our approach is a real-time capable, lightweight encoder-decoder that relies on cost volumes computed from pairs of images. We extend it by placing a ConvLSTM cell at the bottleneck layer, which compresses an arbitrary amount of past information in its states. The novelty lies in propagating the hidden state of the cell by accounting for the viewpoint changes between time steps. At a given time step, we warp the previous hidden state into the current camera plane using the previous depth prediction. Our extension brings only a small overhead of computation time and memory consumption, while improving the depth predictions significantly. As a result, we outperform the existing state-of-the-art multi-view stereo methods on most of the evaluated metrics in hundreds of indoor scenes while maintaining a real-time performance. Code available: https://github.com/ardaduz/deep-video-mvs
翻訳日:2021-05-23 18:48:36 公開日:2020-12-03
# (参考訳) 非線形共役勾配型適応運動量を用いた確率勾配降下

Stochastic Gradient Descent with Nonlinear Conjugate Gradient-Style Adaptive Momentum ( http://arxiv.org/abs/2012.02188v1 )

ライセンス: CC0 1.0
Bao Wang, Qiang Ye(参考訳) Momentumは、ディープニューラルネットワーク(DNN)のトレーニングを加速または改善するための確率勾配に基づく最適化アルゴリズムにおいて重要な役割を果たす。 ディープラーニングの実践では、運動量はよく校正された定数によって重み付けされる。 しかし、運動量に対するハイパーパラメータのチューニングは重要な計算負荷となる。 本稿では、DNNのトレーニングを改善するための新しい「emph{adaptive momentum}」を提案する。この適応運動量は、運動量に関連するハイパーパラメータを必要としないが、非線形共役勾配(NCG)法によって動機付けられる。 新しい適応運動量による確率勾配降下(SGD)は運動量ハイパーパラメータ校正の必要性を排除し、学習率を大幅に向上させ、DNNトレーニングを加速し、訓練されたDNNの最終的な精度と堅牢性を向上させる。 例えば、この適応運動量を持つSGDは、CIFAR10とCIFAR100のResNet110のトレーニングの分類誤差を、それぞれ5.25\%$から4.64\%$、23.75\%$から20.03\%$に下げる。 さらに、新たな適応運動量を持つSGDは、訓練されたDNNの敵対的堅牢性を向上させる。

Momentum plays a crucial role in stochastic gradient-based optimization algorithms for accelerating or improving training deep neural networks (DNNs). In deep learning practice, the momentum is usually weighted by a well-calibrated constant. However, tuning hyperparameters for momentum can be a significant computational burden. In this paper, we propose a novel \emph{adaptive momentum} for improving DNNs training; this adaptive momentum, with no momentum related hyperparameter required, is motivated by the nonlinear conjugate gradient (NCG) method. Stochastic gradient descent (SGD) with this new adaptive momentum eliminates the need for the momentum hyperparameter calibration, allows a significantly larger learning rate, accelerates DNN training, and improves final accuracy and robustness of the trained DNNs. For instance, SGD with this adaptive momentum reduces classification errors for training ResNet110 for CIFAR10 and CIFAR100 from $5.25\%$ to $4.64\%$ and $23.75\%$ to $20.03\%$, respectively. Furthermore, SGD with the new adaptive momentum also benefits adversarial training and improves adversarial robustness of the trained DNNs.
翻訳日:2021-05-23 18:06:24 公開日:2020-12-03
# (参考訳) バングラデシュにおける車両ナンバープレート検出と認識による交通監視

Traffic Surveillance using Vehicle License Plate Detection and Recognition in Bangladesh ( http://arxiv.org/abs/2012.02218v1 )

ライセンス: CC BY 4.0
Md. Saif Hassan Onim, Muhaiminul Islam Akash, Mahmudul Haque, Raiyan Ibne Hafiz(参考訳) 深層学習(DL)技術と組み合わせたコンピュータビジョンは、交通制御、監視、法執行活動の分野で大きな可能性をもたらす。 本稿では,バングラデシュの車両のライセンスプレートを検出し,検出されたライセンスプレートからtesseractを用いて文字を認識するために,畳み込みニューラルネットワーク(cnn)を訓練し,チューニングしたyolov4オブジェクト検出モデルを提案する。 ここでは、ピソンパッケージであるTkinterをベースにしたグラフィカルユーザインタフェース(GUI)を紹介する。 ライセンスプレート検出モデルは平均平均精度(mAP)90.50%でトレーニングされ、リアルタイムビデオ映像で平均14フレーム/秒(fps)の単一のTESLA T4 GPUで実行される。

Computer vision coupled with Deep Learning (DL) techniques bring out a substantial prospect in the field of traffic control, monitoring and law enforcing activities. This paper presents a YOLOv4 object detection model in which the Convolutional Neural Network (CNN) is trained and tuned for detecting the license plate of the vehicles of Bangladesh and recognizing characters using tesseract from the detected license plates. Here we also present a Graphical User Interface (GUI) based on Tkinter, a python package. The license plate detection model is trained with mean average precision (mAP) of 90.50% and performed in a single TESLA T4 GPU with an average of 14 frames per second (fps) on real time video footage.
翻訳日:2021-05-23 17:28:36 公開日:2020-12-03
# (参考訳) COVID-CLNet: 深層学習による新型コロナ検出

COVID-CLNet: COVID-19 Detection with Compressive Deep Learning Approaches ( http://arxiv.org/abs/2012.02234v1 )

ライセンス: CC BY 4.0
Khalfalla Awedat and Almabrok Essa(参考訳) 世界保健機関の最も深刻な脅威は、新型コロナウイルスのパンデミックだ。 診断の改善と診断能力の向上を重視することは、その拡散を著しく阻止するのに役立つ。 そこで, 放射線技師や他の医療従事者が, 最短時間で新型コロナウイルスの症例を検出し, 特定するのを助けるために, CTスキャン画像を用いたコンピュータ支援検出システム(CADe)を提案する。 提案する強化深層学習ネットワーク(CLNet)は,圧縮学習(CL)の補完として,深層学習(DL)ネットワークの実装に基づいている。 我々は,畳み込みニューラルネットワークにアクセスする前に,データ特徴を新しい空間に表現するためにCLを用いた測定領域における開始特徴抽出技術を利用する。 オリジナルの特徴はすべて、センシング行列を用いて新しい空間に等しく寄与されている。 異なる圧縮法で行った実験は、新型コロナウイルスの検出に有望な結果を示している。 また,新しい重み付け法として,ブースト特徴を捉えた異なるセンシング行列を用いた場合,提案手法の性能が向上することを示す。

One of the most serious global health threat is COVID-19 pandemic. The emphasis on improving diagnosis and increasing the diagnostic capability helps stopping its spread significantly. Therefore, to assist the radiologist or other medical professional to detect and identify the COVID-19 cases in the shortest possible time, we propose a computer-aided detection (CADe) system that uses the computed tomography (CT) scan images. This proposed boosted deep learning network (CLNet) is based on the implementation of Deep Learning (DL) networks as a complementary to the Compressive Learning (CL). We utilize our inception feature extraction technique in the measurement domain using CL to represent the data features into a new space with less dimensionality before accessing the Convolutional Neural Network. All original features have been contributed equally in the new space using a sensing matrix. Experiments performed on different compressed methods show promising results for COVID-19 detection. In addition, our novel weighted method based on different sensing matrices that used to capture boosted features demonstrates an improvement in the performance of the proposed method.
翻訳日:2021-05-23 17:21:44 公開日:2020-12-03
# (参考訳) 因果属性を用いたトロイの木馬DNNの検出

Detecting Trojaned DNNs Using Counterfactual Attributions ( http://arxiv.org/abs/2012.02275v1 )

ライセンス: CC BY 4.0
Karan Sikka, Indranil Sur, Susmit Jha, Anirban Roy and Ajay Divakaran(参考訳) DNNにおけるトロイの木馬やバックドアの発見を目標としている。 このようなモデルは通常、典型的な入力で振る舞うが、トロイの木馬のトリガーで汚染された入力の特定の誤った予測を生成する。 我々のアプローチは、トリガー行動がトリガーパターンを活性化し、活性化時の間違った決定に対する異常な高い相対的帰属を示すいくつかのゴーストニューロンに依存するという新しい観察に基づいている。 さらに、これらのトリガーニューロンは標的クラスの正常な入力でも活動する。 そこで我々は,これらのゴーストニューロンをクリーンな入力から局所化し,それを漸進的に励起し,モデルの精度の変化を観察する。 我々はこの情報を、モデルクラスやアーキテクチャの数に不変なディープセットエンコーダを用いてトロイの木馬検出に利用する。 私たちのアプローチは、ディープラーニングにおける信頼性、レジリエンス、解釈可能性の課題間の相乗効果を活用するTrinityAIツールに実装されています。 モデルアーキテクチャやトリガなどにおいて、高い多様性を持つベンチマークに対するアプローチを評価します。 我々は、特定の敵攻撃に対するdnnの感受性に依存する最先端の手法に対して、一貫性のある利益(+10%)を示し、トロイの木馬攻撃の性質に強い仮定を必要とする。

We target the problem of detecting Trojans or backdoors in DNNs. Such models behave normally with typical inputs but produce specific incorrect predictions for inputs poisoned with a Trojan trigger. Our approach is based on a novel observation that the trigger behavior depends on a few ghost neurons that activate on trigger pattern and exhibit abnormally higher relative attribution for wrong decisions when activated. Further, these trigger neurons are also active on normal inputs of the target class. Thus, we use counterfactual attributions to localize these ghost neurons from clean inputs and then incrementally excite them to observe changes in the model's accuracy. We use this information for Trojan detection by using a deep set encoder that enables invariance to the number of model classes, architecture, etc. Our approach is implemented in the TrinityAI tool that exploits the synergies between trustworthiness, resilience, and interpretability challenges in deep learning. We evaluate our approach on benchmarks with high diversity in model architectures, triggers, etc. We show consistent gains (+10%) over state-of-the-art methods that rely on the susceptibility of the DNN to specific adversarial attacks, which in turn requires strong assumptions on the nature of the Trojan attack.
翻訳日:2021-05-23 16:56:16 公開日:2020-12-03
# (参考訳) 平均圧力周波数応答のモデル化のためのフィードフォワードニューラルネットワーク

A feedforward neural network for modelling of average pressure frequency response ( http://arxiv.org/abs/2012.02276v1 )

ライセンス: CC BY 4.0
Klas Pettersson, Andrey Karzhou, and Irina Pettersson(参考訳) ヘルムホルツ方程式は調和負荷下での音圧場をモデル化するために用いられる。 ヘルムホルツ方程式の解法によって調和音圧場を計算することは、周波数の範囲で多くの異なるジオメトリを研究しようとすると、すぐに実現不可能になる。 本稿では,周波数範囲の平均音圧を計算するための機械学習手法,すなわちフィードフォワード高密度ニューラルネットワークを提案する。 データは、平均音圧の応答を、圧力の固有モード分解によって数値計算することにより、有限要素で生成される。 近似の精度を分析し、平均的な圧力応答の予測において一定の精度に達するために訓練データが必要かどうかを判定する。

The Helmholtz equation has been used for modelling the sound pressure field under a harmonic load. Computing harmonic sound pressure fields by means of solving Helmholtz equation can quickly become unfeasible if one wants to study many different geometries for ranges of frequencies. We propose a machine learning approach, namely a feedforward dense neural network, for computing the average sound pressure over a frequency range. The data is generated with finite elements, by numerically computing the response of the average sound pressure, by an eigenmode decomposition of the pressure. We analyze the accuracy of the approximation and determine how much training data is needed in order to reach a certain accuracy in the predictions of the average pressure response.
翻訳日:2021-05-23 16:37:29 公開日:2020-12-03
# 適応と適応:多言語音声認識のロングテール問題を克服する

Adapt-and-Adjust: Overcoming the Long-Tail Problem of Multilingual Speech Recognition ( http://arxiv.org/abs/2012.01687v1 )

ライセンス: Link先を確認
Genta Indra Winata, Guangsen Wang, Caiming Xiong, Steven Hoi(参考訳) 実世界の多言語音声認識における重要な課題の1つは、英語のようなリソース豊富な言語が豊富な訓練データを持っているが、低リソース言語の長い尾は限られた訓練データしか持たない長期分布問題である。 本稿では,エンドツーエンドの多言語音声認識のためのトランスフォーマーベースマルチタスク学習フレームワークAdapt-and-Adjust(A2)を提案する。 A2フレームワークは,(1) 訓練済み多言語言語モデル (mBERT) を利用して低リソース言語の性能を向上させる,(2) 言語固有の適応と言語に依存しない2つのアダプタを最小限の追加パラメータで提案する,(3) クラス不均衡を克服する,という3つの手法で解決する。 コモンボイスコーパスの広範な実験は、a2が従来のアプローチを大きく上回っていることを示している。

One crucial challenge of real-world multilingual speech recognition is the long-tailed distribution problem, where some resource-rich languages like English have abundant training data, but a long tail of low-resource languages have varying amounts of limited training data. To overcome the long-tail problem, in this paper, we propose Adapt-and-Adjust (A2), a transformer-based multi-task learning framework for end-to-end multilingual speech recognition. The A2 framework overcomes the long-tail problem via three techniques: (1) exploiting a pretrained multilingual language model (mBERT) to improve the performance of low-resource languages; (2) proposing dual adapters consisting of both language-specific and language-agnostic adaptation with minimal additional parameters; and (3) overcoming the class imbalance, either by imposing class priors in the loss during training or adjusting the logits of the softmax output during inference. Extensive experiments on the CommonVoice corpus show that A2 significantly outperforms conventional approaches.
翻訳日:2021-05-23 15:17:27 公開日:2020-12-03
# DialogBERT: 学習による発話認識応答生成による発話の検索とランク付け

DialogBERT: Discourse-Aware Response Generation via Learning to Recover and Rank Utterances ( http://arxiv.org/abs/2012.01775v1 )

ライセンス: Link先を確認
Xiaodong Gu, Kang Min Yoo, Jung-Woo Ha(参考訳) 事前学習言語モデルの最近の進歩は、神経応答生成を著しく改善した。 しかしながら、既存のメソッドは通常、対話コンテキストをトークンの線形シーケンスとみなし、トークンレベルの自己認識を通じて次の単語を生成することを学ぶ。 このようなトークンレベルの符号化は、発話間の談話レベルの一貫性の探索を妨げる。 本稿では,従来の PLM に基づく対話モデルを強化した対話応答生成モデルである DialogBERT を提案する。 DialogBERTは階層型トランスフォーマーアーキテクチャを採用している。 本研究では,発話間の発話レベルのコヒーレンスを効率的に把握するために,マスキング発話回帰と分散発話順序ランキングを含む2つの学習目標を提案する。 3つのマルチターン会話データセットの実験により,BARTやDialoGPTなどのベースラインの定量的評価において,我々のアプローチが著しく優れていることが示された。 人間の評価は、DialogBERTが有意なマージンを持つベースラインよりも、より一貫性があり、情報的で、人間的な反応を生成することを示唆している。

Recent advances in pre-trained language models have significantly improved neural response generation. However, existing methods usually view the dialogue context as a linear sequence of tokens and learn to generate the next word through token-level self-attention. Such token-level encoding hinders the exploration of discourse-level coherence among utterances. This paper presents DialogBERT, a novel conversational response generation model that enhances previous PLM-based dialogue models. DialogBERT employs a hierarchical Transformer architecture. To efficiently capture the discourse-level coherence among utterances, we propose two training objectives, including masked utterance regression and distributed utterance order ranking in analogy to the original BERT training. Experiments on three multi-turn conversation datasets show that our approach remarkably outperforms the baselines, such as BART and DialoGPT, in terms of quantitative evaluation. The human evaluation suggests that DialogBERT generates more coherent, informative, and human-like responses than the baselines with significant margins.
翻訳日:2021-05-23 15:17:07 公開日:2020-12-03
# FairBatch: モデルフェアネスのためのバッチ選択

FairBatch: Batch Selection for Model Fairness ( http://arxiv.org/abs/2012.01696v1 )

ライセンス: Link先を確認
Yuji Roh, Kangwook Lee, Steven Euijong Whang, Changho Suh(参考訳) 人口格差を防止するためには、公平な機械学習モデルのトレーニングが不可欠である。 モデルの公平性を改善する既存の技術では、データ前処理とモデルトレーニングの両方に広範な変更が必要であり、すでに複雑な機械学習システムでは採用が難しい。 我々はこの問題を双レベル最適化のレンズを通して解決する。 標準のトレーニングアルゴリズムをインナーオプティマイザとして保持しながら、内部問題にさらなる機能を持たせるために、外部オプティマイザを組み込んで、モデルフェア性を改善するために、ミニバッチサイズを適応的に選択する。 バッチ選択アルゴリズムはFairBatchと呼ばれ、この最適化を実装し、均等な機会、等化確率、人口統計等等の顕著な公正度対策をサポートします。 fairbatchには、データプリプロセッシングやモデルトレーニングの変更を必要としない、重要な実装上のメリットがある。 例えば、モデルトレーニングsufficeのバッチ選択部分をfairbatchに置き換えるためのpytorchコードの単一行の変更などだ。 私たちの実験は、合成データとベンチマーク実データの両方で実施し、fairbatchが最先端の芸術と同等(あるいはそれ以上)のパフォーマンスを達成しながら、このような機能を提供できることを示した。 さらに、FairBatchは、任意の事前訓練されたモデルの公正性を簡単に改善することができる。 また、より高速な収束など、異なる目的のために意図された既存のバッチ選択技術とも互換性がある。

Training a fair machine learning model is essential to prevent demographic disparity. Existing techniques for improving model fairness require broad changes in either data preprocessing or model training, rendering themselves difficult-to-adopt for potentially already complex machine learning systems. We address this problem via the lens of bilevel optimization. While keeping the standard training algorithm as an inner optimizer, we incorporate an outer optimizer so as to equip the inner problem with an additional functionality: Adaptively selecting minibatch sizes for the purpose of improving model fairness. Our batch selection algorithm, which we call FairBatch, implements this optimization and supports prominent fairness measures: equal opportunity, equalized odds, and demographic parity. FairBatch comes with a significant implementation benefit -- it does not require any modification to data preprocessing or model training. For instance, a single-line change of PyTorch code for replacing batch selection part of model training suffices to employ FairBatch. Our experiments conducted both on synthetic and benchmark real data demonstrate that FairBatch can provide such functionalities while achieving comparable (or even greater) performances against the state of the arts. Furthermore, FairBatch can readily improve fairness of any pre-trained model simply via fine-tuning. It is also compatible with existing batch selection techniques intended for different purposes, such as faster convergence, thus gracefully achieving multiple purposes.
翻訳日:2021-05-23 15:16:50 公開日:2020-12-03
# 再帰型マルチチェーンMDPの検証計画

Verifiable Planning in Expected Reward Multichain MDPs ( http://arxiv.org/abs/2012.02178v1 )

ライセンス: Link先を確認
George K. Atia, Andre Beckus, Ismail Alkhouri, Alvaro Velasquez(参考訳) 計画領域は意思決定政策の形式的な合成への関心が高まっている。 この形式合成は典型的には、線形時間論理(LTL)や計算木論理(CTL)など、明確に定義された論理の形で形式仕様を満たすポリシーを見つけることを必要とする。 このような論理は望ましいエージェントの振る舞いを捉える能力において非常に強力で表現力があるが、その価値は特定の種類の漸近的行動を満たす意思決定ポリシーを導出する場合に限られる。 特に,エージェントの定常的な動作に関する制約を特定することに関心を持ち,エージェントが環境と無期限に相互作用する際に各状態において費やす時間の割合をキャプチャする。 これはエージェントの平均行動や期待行動と呼ばれることもある。 本稿では,エージェントに対する意思決定方針を導出する定常的計画問題について考察し,その定常的行動に対する制約が満たされることを示す。 マルチチェーンマルコフ決定過程(MDPs)の一般事例に対する線形プログラミング解を提案し,提案プログラムの最適解が厳密な動作保証を伴う定常的ポリシーをもたらすことを証明した。

The planning domain has experienced increased interest in the formal synthesis of decision-making policies. This formal synthesis typically entails finding a policy which satisfies formal specifications in the form of some well-defined logic, such as Linear Temporal Logic (LTL) or Computation Tree Logic (CTL), among others. While such logics are very powerful and expressive in their capacity to capture desirable agent behavior, their value is limited when deriving decision-making policies which satisfy certain types of asymptotic behavior. In particular, we are interested in specifying constraints on the steady-state behavior of an agent, which captures the proportion of time an agent spends in each state as it interacts for an indefinite period of time with its environment. This is sometimes called the average or expected behavior of the agent. In this paper, we explore the steady-state planning problem of deriving a decision-making policy for an agent such that constraints on its steady-state behavior are satisfied. A linear programming solution for the general case of multichain Markov Decision Processes (MDPs) is proposed and we prove that optimal solutions to the proposed programs yield stationary policies with rigorous guarantees of behavior.
翻訳日:2021-05-23 15:16:28 公開日:2020-12-03
# ラベル保存型損失関数による信頼性モデル圧縮

Reliable Model Compression via Label-Preservation-Aware Loss Functions ( http://arxiv.org/abs/2012.01604v1 )

ライセンス: Link先を確認
Vinu Joseph, Shoaib Ahmed Siddiqui, Aditya Bhaskara, Ganesh Gopalakrishnan, Saurav Muralidharan, Michael Garland, Sheraz Ahmed, Andreas Dengel(参考訳) モデル圧縮は、パワーとレイテンシの制約のあるエッジデバイスに現代のディープラーニングのパワーをもたらす、ユビキタスなツールである。 モデル圧縮の目標は、大きな参照ニューラルネットワークを取り込み、その参照と機能的に等価な小型で安価な圧縮ネットワークを出力することである。 圧縮は通常、プルーニングと/または量子化を伴い、続いて参照精度を維持するために再トレーニングを行う。 しかし、圧縮は参照と圧縮モデルによって生成されるラベルにかなりのミスマッチをもたらし、バイアスと信頼性の低下をもたらすことが観察されている。 これに対抗するために,教師の学習パラダイムを用いてラベルをよりよく保存するフレームワークを提案する。 損失関数に対する追加項の役割を調査し,関連するパラメータを自動的にチューニングする方法を示す。 8種類の実世界のネットワークアーキテクチャを用いて,複数の圧縮スキームと精度回復アルゴリズムに対して定量的かつ定性的にアプローチの有効性を示す。 圧縮モデルと参照モデルとのミスマッチ数の最大4.1倍、参照モデルが正しい予測を行う場合の最大5.7倍の大幅な削減が得られる。

Model compression is a ubiquitous tool that brings the power of modern deep learning to edge devices with power and latency constraints. The goal of model compression is to take a large reference neural network and output a smaller and less expensive compressed network that is functionally equivalent to the reference. Compression typically involves pruning and/or quantization, followed by re-training to maintain the reference accuracy. However, it has been observed that compression can lead to a considerable mismatch in the labels produced by the reference and the compressed models, resulting in bias and unreliability. To combat this, we present a framework that uses a teacher-student learning paradigm to better preserve labels. We investigate the role of additional terms to the loss function and show how to automatically tune the associated parameters. We demonstrate the effectiveness of our approach both quantitatively and qualitatively on multiple compression schemes and accuracy recovery algorithms using a set of 8 different real-world network architectures. We obtain a significant reduction of up to 4.1X in the number of mismatches between the compressed and reference models, and up to 5.7X in cases where the reference model makes the correct prediction.
翻訳日:2021-05-23 15:16:09 公開日:2020-12-03
# NICER: ループの中の人間による美的イメージ強調

NICER: Aesthetic Image Enhancement with Humans in the Loop ( http://arxiv.org/abs/2012.01778v1 )

ライセンス: Link先を確認
Michael Fischer, Konstantin Kobs, Andreas Hotho(参考訳) 全自動または半自動画像強調ソフトウェアは、ユーザーが写真の視覚的魅力を高めるのに役立ち、手動画像編集の深い知識を必要としない。 しかし、完全に自動的なアプローチは、通常、画像をブラックボックス方式で強化するので、ユーザーは最適化プロセスを制御できなくなり、おそらく、主観的にユーザーにアピールしない編集された画像に繋がる可能性がある。 半自動的な手法は、ユーザーが創造性や明るさやコントラストなどの詳細な調整を行う能力に制限のある、事前定義された編集ステップを制御できる。 自動強調手法によってユーザの好みを取り入れることで、画像編集が簡単になり、ユーザに対する強調の焦点が増すことを論じる。 この研究は、対話的でユーザ中心の完全な半自動または完全な手動プロセスにおいて、ノン参照画像拡張に対するニューラルネットワークベースのアプローチである、Neural Image Correction & Enhancement Routine(NICER)を提案する。 NICERは画像のスタイルや内容に基づいて美的スコアを最大化するために、画像編集パラメータを反復的に調整する。 ユーザはこれらのパラメータをいつでも変更でき、最適化プロセスを望ましい方向に導くことができる。 このインタラクティブワークフローは、画像エンハンスメントタスクのためのヒューマンコンピュータインタラクションの分野における斬新さである。 ユーザスタディでは、NICERはユーザインタラクションなしで画像の美学を向上することができ、ユーザインタラクションを可能にすることによって、未編集画像よりも強く好まれる多様な改善結果が得られることを示す。 この方向のさらなる研究を促進するために、コードを公開しています。

Fully- or semi-automatic image enhancement software helps users to increase the visual appeal of photos and does not require in-depth knowledge of manual image editing. However, fully-automatic approaches usually enhance the image in a black-box manner that does not give the user any control over the optimization process, possibly leading to edited images that do not subjectively appeal to the user. Semi-automatic methods mostly allow for controlling which pre-defined editing step is taken, which restricts the users in their creativity and ability to make detailed adjustments, such as brightness or contrast. We argue that incorporating user preferences by guiding an automated enhancement method simplifies image editing and increases the enhancement's focus on the user. This work thus proposes the Neural Image Correction & Enhancement Routine (NICER), a neural network based approach to no-reference image enhancement in a fully-, semi-automatic or fully manual process that is interactive and user-centered. NICER iteratively adjusts image editing parameters in order to maximize an aesthetic score based on image style and content. Users can modify these parameters at any time and guide the optimization process towards a desired direction. This interactive workflow is a novelty in the field of human-computer interaction for image enhancement tasks. In a user study, we show that NICER can improve image aesthetics without user interaction and that allowing user interaction leads to diverse enhancement outcomes that are strongly preferred over the unedited image. We make our code publicly available to facilitate further research in this direction.
翻訳日:2021-05-23 15:15:52 公開日:2020-12-03
# sb-mtl:クロスドメイン・マイズショット学習のためのスコアベースメタトランスファー学習

SB-MTL: Score-based Meta Transfer-Learning for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2012.01784v1 )

ライセンス: Link先を確認
John Cai, Bill Cai, Sheng Mei Shen(参考訳) 多くのディープラーニング手法は、ドメイン適応と少数ショット学習の問題を個別に扱う上で大きな成功を収めてきたが、クロスドメインなFew-Shot Learning(CD-FSL)において、両方の問題に共同で取り組むことのできる方法は、はるかに少ない。 この問題は、一般的なコンピュータビジョンアプリケーションを典型化する鋭い領域シフトの下で悪化する。 本稿では,CD-FSL問題に対処する新しい,フレキシブルで効果的な手法を提案する。 我々の手法はScore-based Meta Transfer-Learning (SB-MTL) と呼ばれ、MAML最適化機能エンコーダとスコアベースグラフニューラルネットワークを用いてトランスファーラーニングとメタラーニングを組み合わせる。 まず、特定のレイヤを微調整するように設計された機能エンコーダがあります。 そこで我々は, 1次MAMLアルゴリズムを適用し, 優れた初期化を求める。 第二に、微調整後に直接分類スコアを取る代わりに、事前ソフトマックス分類スコアを計量空間にマッピングすることで、スコアを座標として解釈する。 その後、グラフニューラルネットワークを用いて、サポートセットからスコアベースのメトリック空間のクエリセットにラベル情報を伝達する。 我々は,miniimagenetソースドメインと非常に異なる異なるターゲットドメインを含む,クロスドメイン・マイズショット・ラーニング(bscd-fsl)ベンチマークの広範な研究に基づいて本モデルをテストする。 5,20,50ショット,および4つのターゲットドメインにおいて,精度の大幅な向上が観察された。 平均精度では,従来の移動学習手法を5.93%,従来のメタ学習手法を14.28%上回った。

While many deep learning methods have seen significant success in tackling the problem of domain adaptation and few-shot learning separately, far fewer methods are able to jointly tackle both problems in Cross-Domain Few-Shot Learning (CD-FSL). This problem is exacerbated under sharp domain shifts that typify common computer vision applications. In this paper, we present a novel, flexible and effective method to address the CD-FSL problem. Our method, called Score-based Meta Transfer-Learning (SB-MTL), combines transfer-learning and meta-learning by using a MAML-optimized feature encoder and a score-based Graph Neural Network. First, we have a feature encoder with specific layers designed to be fine-tuned. To do so, we apply a first-order MAML algorithm to find good initializations. Second, instead of directly taking the classification scores after fine-tuning, we interpret the scores as coordinates by mapping the pre-softmax classification scores onto a metric space. Subsequently, we apply a Graph Neural Network to propagate label information from the support set to the query set in our score-based metric space. We test our model on the Broader Study of Cross-Domain Few-Shot Learning (BSCD-FSL) benchmark, which includes a range of target domains with highly varying dissimilarity to the miniImagenet source domain. We observe significant improvements in accuracy across 5, 20 and 50 shot, and on the four target domains. In terms of average accuracy, our model outperforms previous transfer-learning methods by 5.93% and previous meta-learning methods by 14.28%.
翻訳日:2021-05-23 15:15:28 公開日:2020-12-03
# 抽象視覚推論のためのマルチラベルコントラスト学習

Multi-Label Contrastive Learning for Abstract Visual Reasoning ( http://arxiv.org/abs/2012.01944v1 )

ライセンス: Link先を確認
Miko{\l}aj Ma{\l}ki\'nski, Jacek Ma\'ndziuk(参考訳) 長い間、抽象的推論タスクを解く能力は人間の知能の目印の一つと考えられてきた。 ディープラーニング(DL)手法の適用の最近の進歩は、他の多くの領域と同様に、人間の抽象的推論性能、特に最も一般的なタイプの問題であるレイブンの進歩的行列(RPM)に勝るに至った。 DLシステムの有効性は確かに印象的だが、RPMにアプローチする方法は人間のものとは大きく異なる。 rpmを解決する最先端のシステムは、巨大なパターンベースのトレーニングに依存し、データセット内のバイアスを悪用することもあるが、人間はrpmの基盤となるルールや概念(あるいは一般的には視覚的な推論タスク)の特定に集中している。 この認知的差異によって動機づけられたこの研究は、DLと人間の方法でRPMを解き、両方の世界を最大限に活用することを目的としている。 具体的には、各RPMを多ラベルデータポイントと見なすマルチラベル分類フレームワークに、RPMの根底にある抽象ルールの集合によってラベルが決定される。 システムの効率的なトレーニングのために,マルチラベルサンプルの場合のノイズコントラスト推定アルゴリズムの一般化を提案する。 さらに,新たな学習アルゴリズムの他に,最先端の性能向上に寄与する鍵となる,rpmsのためのスパースルール符号化方式を提案する。 提案手法は,最も人気のある2つのベンチマークデータセット (balanced-raven と pgm) で評価され,いずれも現在の結果よりも優れていることを示す。 他の領域で報告される対照的な学習方法の応用とは対照的に、論文で報告されている最先端のパフォーマンスは、大きなバッチサイズや強いデータ拡張を必要としない。

For a long time the ability to solve abstract reasoning tasks was considered one of the hallmarks of human intelligence. Recent advances in application of deep learning (DL) methods led, as in many other domains, to surpassing human abstract reasoning performance, specifically in the most popular type of such problems - the Raven's Progressive Matrices (RPMs). While the efficacy of DL systems is indeed impressive, the way they approach the RPMs is very different from that of humans. State-of-the-art systems solving RPMs rely on massive pattern-based training and sometimes on exploiting biases in the dataset, whereas humans concentrate on identification of the rules / concepts underlying the RPM (or generally a visual reasoning task) to be solved. Motivated by this cognitive difference, this work aims at combining DL with human way of solving RPMs and getting the best of both worlds. Specifically, we cast the problem of solving RPMs into multi-label classification framework where each RPM is viewed as a multi-label data point, with labels determined by the set of abstract rules underlying the RPM. For efficient training of the system we introduce a generalisation of the Noise Contrastive Estimation algorithm to the case of multi-label samples. Furthermore, we propose a new sparse rule encoding scheme for RPMs which, besides the new training algorithm, is the key factor contributing to the state-of-the-art performance. The proposed approach is evaluated on two most popular benchmark datasets (Balanced-RAVEN and PGM) and on both of them demonstrates an advantage over the current state-of-the-art results. Contrary to applications of contrastive learning methods reported in other domains, the state-of-the-art performance reported in the paper is achieved with no need for large batch sizes or strong data augmentation.
翻訳日:2021-05-23 15:14:59 公開日:2020-12-03
# 新生児術後痛評価のためのマルチモーダル時空間深層学習アプローチ

Multimodal Spatio-Temporal Deep Learning Approach for Neonatal Postoperative Pain Assessment ( http://arxiv.org/abs/2012.02175v1 )

ライセンス: Link先を確認
Md Sirajus Salekin, Ghada Zamzmi, Dmitry Goldgof, Rangachar Kasturi, Thao Ho, Yu Sun(参考訳) 新生児術後の痛みを評価するための現在の実践は、ベッドサイド介護者に依存している。 この習慣は主観的で、一貫性がなく、遅く、不連続である。 信頼性の高い医学的解釈を開発するため、いくつかの自動化アプローチが提案されている。 これらのアプローチは単調であり、主に新生児手続き(acute)の痛みを評価することに焦点を当てている。 痛みはしばしば複数のモダリティを通して表されるマルチモーダル感情であるため、特に術後(急性長期)の痛みの場合、痛みのマルチモーダル評価が必要である。 さらに、時空間解析は時間とともに安定であり、誤分類誤りを最小化するのに非常に有効であることが証明されている。 本稿では,視覚と声の信号を統合し,新生児の術後痛の評価に利用するマルチモーダル時空間アプローチを提案する。 提案手法の有効性を検討するため,総合的な実験を行った。 マルチモーダルとユニモーダルの術後痛覚評価の性能を比較し,時間的情報統合の効果を測定した。 実世界のデータセットを用いた実験の結果、提案されたマルチモーダル時空間アプローチは、平均6.67%と6.33%の高いAUC(0.87)と精度(79%)を達成することが示された。 また, 時間的情報の統合は, 痛みのダイナミックな変化を捉えた非時間的アプローチと比較して, パフォーマンスを著しく改善することを示した。 以上の結果から,本手法は手作業による評価の代替として有用であり,臨床現場,ポイント・オブ・ケア・テスト,在宅における痛みモニタリングの完全自動化への道が開ける可能性が示唆された。

The current practice for assessing neonatal postoperative pain relies on bedside caregivers. This practice is subjective, inconsistent, slow, and discontinuous. To develop a reliable medical interpretation, several automated approaches have been proposed to enhance the current practice. These approaches are unimodal and focus mainly on assessing neonatal procedural (acute) pain. As pain is a multimodal emotion that is often expressed through multiple modalities, the multimodal assessment of pain is necessary especially in case of postoperative (acute prolonged) pain. Additionally, spatio-temporal analysis is more stable over time and has been proven to be highly effective at minimizing misclassification errors. In this paper, we present a novel multimodal spatio-temporal approach that integrates visual and vocal signals and uses them for assessing neonatal postoperative pain. We conduct comprehensive experiments to investigate the effectiveness of the proposed approach. We compare the performance of the multimodal and unimodal postoperative pain assessment, and measure the impact of temporal information integration. The experimental results, on a real-world dataset, show that the proposed multimodal spatio-temporal approach achieves the highest AUC (0.87) and accuracy (79%), which are on average 6.67% and 6.33% higher than unimodal approaches. The results also show that the integration of temporal information markedly improves the performance as compared to the non-temporal approach as it captures changes in the pain dynamic. These results demonstrate that the proposed approach can be used as a viable alternative to manual assessment, which would tread a path toward fully automated pain monitoring in clinical settings, point-of-care testing, and homes.
翻訳日:2021-05-23 15:14:16 公開日:2020-12-03
# 活性化解析による深部神経分類器の予測

Explaining Predictions of Deep Neural Classifier via Activation Analysis ( http://arxiv.org/abs/2012.02248v1 )

ライセンス: Link先を確認
Martin Stano, Wanda Benesova, Lukas Samuel Martak(参考訳) 多くの実用的な応用において、ディープニューラルネットワークはブラックボックス予測器として運用されるのが一般的である。 解釈可能性への高い取り組みとこれらのシステムの信頼性への高い要求にもかかわらず、彼らは通常、決定を検証し、予測不能な失敗と予期せぬコーナーケースを処理するために、ループに人間のアクターを含める必要がある。 これは特に、医療診断のような障害クリティカルなアプリケーションドメインに当てはまる。 本稿では,畳み込みニューラルネットワーク(CNN)に基づくディープラーニングシステムを実行する人間専門家に対して,意思決定プロセスの説明と支援を行う新しいアプローチを提案する。 ガウス混合モデル(GMM)を介して訓練されたCNNの層上でのアクティベーション統計をモデル化することにより、入力サンプルがどのようにCNNによって処理されるかを記述するバイナリベクトル空間における新しい知覚コードを開発する。 この知覚的符号化空間におけるサンプルのペア間距離を測定することで、任意の新しい入力サンプルに対して、ラベル付きサンプルの既存のアトラスから最も知覚的に類似した異種サンプルの集合を検索し、CNNモデルによる決定を支持し、明確化することができる。 このアプローチの考えられる用途には、例えば、磁気共鳴画像(mri)やctスキャンなどの医療画像データを扱うコンピュータ支援診断(cad)システムなどがある。 患者診断のための医用画像領域における本手法の有効性を, 類似した真理領域の例(例)を用いた意思決定方法として示す。 既存の診断アーカイブから)は、手術中の医療関係者によって解釈される。 以上の結果から,本手法は既存のアトラスから最も類似した予測を識別できる別個の予測戦略を検出することができることが示された。

In many practical applications, deep neural networks have been typically deployed to operate as a black box predictor. Despite the high amount of work on interpretability and high demand on the reliability of these systems, they typically still have to include a human actor in the loop, to validate the decisions and handle unpredictable failures and unexpected corner cases. This is true in particular for failure-critical application domains, such as medical diagnosis. We present a novel approach to explain and support an interpretation of the decision-making process to a human expert operating a deep learning system based on Convolutional Neural Network (CNN). By modeling activation statistics on selected layers of a trained CNN via Gaussian Mixture Models (GMM), we develop a novel perceptual code in binary vector space that describes how the input sample is processed by the CNN. By measuring distances between pairs of samples in this perceptual encoding space, for any new input sample, we can now retrieve a set of most perceptually similar and dissimilar samples from an existing atlas of labeled samples, to support and clarify the decision made by the CNN model. Possible uses of this approach include for example Computer-Aided Diagnosis (CAD) systems working with medical imaging data, such as Magnetic Resonance Imaging (MRI) or Computed Tomography (CT) scans. We demonstrate the viability of our method in the domain of medical imaging for patient condition diagnosis, as the proposed decision explanation method via similar ground truth domain examples (e.g. from existing diagnosis archives) will be interpretable by the operating medical personnel. Our results indicate that our method is capable of detecting distinct prediction strategies that enable us to identify the most similar predictions from an existing atlas.
翻訳日:2021-05-23 15:13:52 公開日:2020-12-03
# 意味解析とニューロシンボリック推論を用いた知識ベースからの質問応答

Question Answering over Knowledge Bases by Leveraging Semantic Parsing and Neuro-Symbolic Reasoning ( http://arxiv.org/abs/2012.01707v1 )

ライセンス: Link先を確認
Pavan Kapanipathi, Ibrahim Abdelaziz, Srinivas Ravishankar, Salim Roukos, Alexander Gray, Ramon Astudillo, Maria Chang, Cristina Cornelio, Saswati Dana, Achille Fokoue, Dinesh Garg, Alfio Gliozzo, Sairam Gurajada, Hima Karanam, Naweed Khan, Dinesh Khandelwal, Young-Suk Lee, Yunyao Li, Francois Luus, Ndivhuwo Makondo, Nandana Mihindukulasooriya, Tahira Naseem, Sumit Neelam, Lucian Popa, Revanth Reddy, Ryan Riegel, Gaetano Rossiello, Udit Sharma, G P Shrivatsa Bhargav, Mo Yu(参考訳) 知識ベース質問応答(KBQA)は自然言語処理において重要な課題である。 既存のアプローチは、複雑な質問理解、推論の必要性、大規模なトレーニングデータセットの欠如など、重要な課題に直面している。 In this work, we propose a semantic parsing and reasoning-based Neuro-Symbolic Question Answering(NSQA) system, that leverages (1) Abstract Meaning Representation (AMR) parses for task-independent question under-standing; (2) a novel path-based approach to transform AMR parses into candidate logical queries that are aligned to the KB; (3) a neuro-symbolic reasoner called Logical Neural Net-work (LNN) that executes logical queries and reasons over KB facts to provide an answer; (4) system of systems approach,which integrates multiple, reusable modules that are trained specifically for their individual tasks (e.g. セマンティック解析、エンティティリンク、リレーションシップリンク)は、エンドツーエンドのトレーニングデータを必要としない。 NSQAはQALD-9とLC-QuAD 1.0で最先端のパフォーマンスを実現する。 NSQAの新規性はモジュラー・ニューロシンボリック・アーキテクチャと自然言語の問題を解釈するためのタスク・ジェネリック・アプローチにある。

Knowledge base question answering (KBQA) is an important task in Natural Language Processing. Existing approaches face significant challenges including complex question understanding, necessity for reasoning, and lack of large training datasets. In this work, we propose a semantic parsing and reasoning-based Neuro-Symbolic Question Answering(NSQA) system, that leverages (1) Abstract Meaning Representation (AMR) parses for task-independent question under-standing; (2) a novel path-based approach to transform AMR parses into candidate logical queries that are aligned to the KB; (3) a neuro-symbolic reasoner called Logical Neural Net-work (LNN) that executes logical queries and reasons over KB facts to provide an answer; (4) system of systems approach,which integrates multiple, reusable modules that are trained specifically for their individual tasks (e.g. semantic parsing,entity linking, and relationship linking) and do not require end-to-end training data. NSQA achieves state-of-the-art performance on QALD-9 and LC-QuAD 1.0. NSQA's novelty lies in its modular neuro-symbolic architecture and its task-general approach to interpreting natural language questions.
翻訳日:2021-05-23 15:13:23 公開日:2020-12-03
# bengali abstractive news summarization(bans: a neural attention approach)

Bengali Abstractive News Summarization(BANS): A Neural Attention Approach ( http://arxiv.org/abs/2012.01747v1 )

ライセンス: Link先を確認
Prithwiraj Bhattacharjee, Avi Mallick, Md Saiful Islam, Marium-E-Jannat(参考訳) 抽象要約は、文脈を維持しつつ、原文文書から抽出された情報に基づいて、新規な文を生成する過程である。 抽象的要約の根底にある複雑さのため、過去の研究のほとんどは抽出的要約アプローチで行われている。 それでも、Sequence-to-Sequence(seq2seq)モデルの勝利により、抽象的な要約がより可能になる。 英語では抽象的な要約に基づく顕著な研究が数多く行われているが、ベンガルの抽象的なニュース要約(BANS)についての研究はいくつかしか行われていない。 本稿では,エンコーダデコーダに着目したSeq2seqベースのLong Short-Term Memory(LSTM)ネットワークモデルを提案する。 提案システムでは,原文の有意な情報と,明快で人文的な文を含む長い単語列を生成する,局所的注意に基づくモデルを構築した。 我々はまた、現在ベンガルのニュース文書要約の最も広範なデータセットであるbangla.bdnews24.com1から収集された19k以上の記事とそれに対応する人文要約のデータセットを作成し、Kaggle2で公開しました。 モデルを質的・定量的に評価し,他の論文と比較した。 BANSに対する最先端アプローチによる人的評価スコアの大幅な改善が見られた。

Abstractive summarization is the process of generating novel sentences based on the information extracted from the original text document while retaining the context. Due to abstractive summarization's underlying complexities, most of the past research work has been done on the extractive summarization approach. Nevertheless, with the triumph of the sequence-to-sequence (seq2seq) model, abstractive summarization becomes more viable. Although a significant number of notable research has been done in the English language based on abstractive summarization, only a couple of works have been done on Bengali abstractive news summarization (BANS). In this article, we presented a seq2seq based Long Short-Term Memory (LSTM) network model with attention at encoder-decoder. Our proposed system deploys a local attention-based model that produces a long sequence of words with lucid and human-like generated sentences with noteworthy information of the original document. We also prepared a dataset of more than 19k articles and corresponding human-written summaries collected from bangla.bdnews24.com1 which is till now the most extensive dataset for Bengali news document summarization and publicly published in Kaggle2. We evaluated our model qualitatively and quantitatively and compared it with other published results. It showed significant improvement in terms of human evaluation scores with state-of-the-art approaches for BANS.
翻訳日:2021-05-23 15:13:04 公開日:2020-12-03
# BERT-hLSTMs:ビジュアルストーリーテリングのためのBERTと階層LSTMs

BERT-hLSTMs: BERT and Hierarchical LSTMs for Visual Storytelling ( http://arxiv.org/abs/2012.02128v1 )

ライセンス: Link先を確認
Jing Su, Qingyun Dai, Frank Guerin, Mian Zhou(参考訳) ビジュアルストーリーテリングは創造的で困難なタスクであり、一連の画像のストーリーのような記述を自動的に生成することを目的としている。 従来のビジュアルストーリーテリング手法による記述は、単語レベルのシーケンス生成手法を用いており、文レベルの依存性を適切に考慮していないため、コヒーレンスを欠いている。 そこで本研究では,文レベルと単語レベルのセマンティクスを別々にモデル化する階層的ビジュアルストーリーテリングフレームワークを提案する。 文や単語の埋め込みを得るためにトランスフォーマティブベースのbertを使用する。 次に,下位LSTMはBERTから文ベクトル表現を入力として受信し,画像に対応する文間の依存関係を学習し,上位LSTMは下位LSTMから入力を受けて対応する単語ベクトル表現を生成する。 実験結果から,我々のモデルはBLEUとCIDErの自動評価基準において,最も密接なベースラインよりも優れており,人的評価による手法の有効性も示された。

Visual storytelling is a creative and challenging task, aiming to automatically generate a story-like description for a sequence of images. The descriptions generated by previous visual storytelling approaches lack coherence because they use word-level sequence generation methods and do not adequately consider sentence-level dependencies. To tackle this problem, we propose a novel hierarchical visual storytelling framework which separately models sentence-level and word-level semantics. We use the transformer-based BERT to obtain embeddings for sentences and words. We then employ a hierarchical LSTM network: the bottom LSTM receives as input the sentence vector representation from BERT, to learn the dependencies between the sentences corresponding to images, and the top LSTM is responsible for generating the corresponding word vector representations, taking input from the bottom LSTM. Experimental results demonstrate that our model outperforms most closely related baselines under automatic evaluation metrics BLEU and CIDEr, and also show the effectiveness of our method with human evaluation.
翻訳日:2021-05-23 15:12:46 公開日:2020-12-03
# 3D-NVS: 次のビュー選択のための3Dスーパービジョンアプローチ

3D-NVS: A 3D Supervision Approach for Next View Selection ( http://arxiv.org/abs/2012.01743v1 )

ライセンス: Link先を確認
Kumar Ashutosh, Saurabh Kumar, Subhasis Chaudhuri(参考訳) そこで本研究では,次の最良視点選択のための分類に基づく手法を提案する。 提案手法はエンドツーエンドのトレーニングが可能で,受動的に取得した2次元ビューを用いて,最高の3次元再構成品質を実現することを目的としている。 提案モデルは2つの段階から構成される: 分類器と再構成器ネットワークは, 地中真理ボクセルからの間接的な3D監視を通して共同で訓練される。 テスト中,提案手法は,次のベストビューを選択するための基礎となる3次元形状の事前知識を前提としない。 合成画像と実画像の詳細な実験により,提案手法の有効性を実証し,既存の3D再構成技術や次の最良のビュー予測技術よりも優れた再現性を実現する方法を示す。

We present a classification based approach for the next best view selection and show how we can plausibly obtain a supervisory signal for this task. The proposed approach is end-to-end trainable and aims to get the best possible 3D reconstruction quality with a pair of passively acquired 2D views. The proposed model consists of two stages: a classifier and a reconstructor network trained jointly via the indirect 3D supervision from ground truth voxels. While testing, the proposed method assumes no prior knowledge of the underlying 3D shape for selecting the next best view. We demonstrate the proposed method's effectiveness via detailed experiments on synthetic and real images and show how it provides improved reconstruction quality than the existing state of the art 3D reconstruction and the next best view prediction techniques.
翻訳日:2021-05-23 15:12:04 公開日:2020-12-03
# マルチモーダル年代関連黄斑変性分類のための2ストリームCNN学習

Learning Two-Stream CNN for Multi-Modal Age-related Macular Degeneration Categorization ( http://arxiv.org/abs/2012.01879v1 )

ライセンス: Link先を確認
Weisen Wang, Xirong Li, Zhiyan Xu, Weihong Yu, Jianchun Zhao, Dayong Ding, Youxin Chen(参考訳) 本稿では50歳以上の男性に共通する黄斑疾患である老化関連黄斑変性症(AMD)の自動分類に取り組む。 これまでの研究は主に、単モード入力によるamdの分類に焦点を当てており、カラーベースイメージやoctイメージとしていた。 対照的に,多モード入力によるAMD分類は臨床的に有意だがほとんど探索されていない方向である。 従来の特徴抽出と協調最適化ができない分類器トレーニングを取り入れた手法とは対照的に,我々はエンドツーエンドのマルチモーダル畳み込みニューラルネットワーク(MM-CNN)を選択する。 MM-CNNは2ストリームCNNでインスタンス化され,空間的不変な融合により基礎とCTストリームからの情報を組み合わせる。 最終的な予測に対する個々のモダリティの寄与を視覚的に解釈するために,クラスアクティベーションマッピング(CAM)手法をマルチモーダルシナリオに拡張する。 MM-CNNの効果的な訓練のために,2つのデータ拡張手法を開発した。 ひとつは、高分解能画像から画像への変換 GAN の条件入力として CAM を用いた GAN-based fundus / OCT 画像合成である。 もう1つの方法はルースペアリング(Loose Pairing)であり、眼の身元ではなく、クラスに基づいて基礎画像とCT画像をペアリングする。 1,099個の異なる眼から得られた1,099色眼底画像と1,290 oct画像からなる臨床データセットを用いた実験により,マルチモーダルamd分類法の有効性が検証された。

This paper tackles automated categorization of Age-related Macular Degeneration (AMD), a common macular disease among people over 50. Previous research efforts mainly focus on AMD categorization with a single-modal input, let it be a color fundus image or an OCT image. By contrast, we consider AMD categorization given a multi-modal input, a direction that is clinically meaningful yet mostly unexplored. Contrary to the prior art that takes a traditional approach of feature extraction plus classifier training that cannot be jointly optimized, we opt for end-to-end multi-modal Convolutional Neural Networks (MM-CNN). Our MM-CNN is instantiated by a two-stream CNN, with spatially-invariant fusion to combine information from the fundus and OCT streams. In order to visually interpret the contribution of the individual modalities to the final prediction, we extend the class activation mapping (CAM) technique to the multi-modal scenario. For effective training of MM-CNN, we develop two data augmentation methods. One is GAN-based fundus / OCT image synthesis, with our novel use of CAMs as conditional input of a high-resolution image-to-image translation GAN. The other method is Loose Pairing, which pairs a fundus image and an OCT image on the basis of their classes instead of eye identities. Experiments on a clinical dataset consisting of 1,099 color fundus images and 1,290 OCT images acquired from 1,099 distinct eyes verify the effectiveness of the proposed solution for multi-modal AMD categorization.
翻訳日:2021-05-23 15:11:52 公開日:2020-12-03
# CUT:コントロール可能な教師なしテキストの簡略化

CUT: Controllable Unsupervised Text Simplification ( http://arxiv.org/abs/2012.01936v1 )

ライセンス: Link先を確認
Oleg Kariuk and Dima Karamshuk(参考訳) 本稿では,教師なしの設定で制御可能なテキスト簡易化を学ぶことの課題に焦点を当てる。 従来,教師なし学習アルゴリズムではこの問題が議論されてきたが,教師なし手法の類似性に関する文献は乏しい。 生成したテキストの出力複雑性を制御するための2つの教師なしメカニズム,すなわち,制御トークンを用いた逆変換(学習ベースアプローチ)と簡易ビームサーチ(復号ベースアプローチ)を提案する。 このアルゴリズムは,テキストのノイズ翻訳と比較して,テキストの相対的単純さを理解するために,バック翻訳アルゴリズムをヌードすることにより,所望の複雑さの出力を生成する。 SARIスコアは46.88%、FKGLは3.65%、Newselaデータセットは3.65%である。

In this paper, we focus on the challenge of learning controllable text simplifications in unsupervised settings. While this problem has been previously discussed for supervised learning algorithms, the literature on the analogies in unsupervised methods is scarse. We propose two unsupervised mechanisms for controlling the output complexity of the generated texts, namely, back translation with control tokens (a learning-based approach) and simplicity-aware beam search (decoding-based approach). We show that by nudging a back-translation algorithm to understand the relative simplicity of a text in comparison to its noisy translation, the algorithm self-supervises itself to produce the output of the desired complexity. This approach achieves competitive performance on well-established benchmarks: SARI score of 46.88% and FKGL of 3.65% on the Newsela dataset.
翻訳日:2021-05-23 15:11:24 公開日:2020-12-03
# GottBERT: 純粋なドイツ語モデル

GottBERT: a pure German Language Model ( http://arxiv.org/abs/2012.02110v1 )

ライセンス: Link先を確認
Raphael Scheible, Fabian Thomczyk, Patric Tippmann, Victor Jaravine, Martin Boeker(参考訳) 近年、訓練済みの言語モデルは自然言語処理(NLP)の分野で進歩している。 変換器用双方向エンコーダ(BERT)と最適化されたバージョンRoBERTaの導入は、事前訓練されたモデルの関連性を高めた。 まず、この分野の研究は英語データから始められ、その後多言語テキストコーパスで訓練されたモデルが続いた。 しかし、最近の研究では、多言語モデルは単言語モデルよりも劣っていることが示されている。 現在、ドイツの単一言語RoBERTaモデルはまだ公開されておらず、GottBERT(source)で紹介する。 OSCARデータセットのドイツ語部分はテキストコーパスとして使用された。 評価では、名前付きエンティティ認識(NER)タスクのConll 2003 と GermEval 2014 と、GermEval 2018 (微細で粗い) と GNAD のテキスト分類タスクと、既存のドイツの単一言語 BERT モデルと2つの多言語タスクのパフォーマンスを比較した。 GottBERTは、Fairseqを使用してオリジナルのRoBERTaモデルに関連して事前訓練された。 下流の全てのタスクは、ドイツのBERTのベンチマークから得られたハイパーパラメータプリセットを使用して訓練された。 実験は農場を利用して行われた。 パフォーマンスは$f_{1}$スコアで測定された。 GottBERTはRoBERTa BASEアーキテクチャを使って256コアのTPUポッドで事前訓練に成功した。 大規模なハイパーパラメータ最適化がなくても、すべてのNERと1つのテキスト分類タスクにおいて、GottBERTはテスト済みの他のドイツおよび多言語モデルよりも優れていた。 ドイツのNLP分野をサポートするため、我々はGottBERTをAGPLv3ライセンス下で公開する。

Lately, pre-trained language models advanced the field of natural language processing (NLP). The introduction of Bidirectional Encoders for Transformers (BERT) and its optimized version RoBERTa have had significant impact and increased the relevance of pre-trained models. First, research in this field mainly started on English data followed by models trained with multilingual text corpora. However, current research shows that multilingual models are inferior to monolingual models. Currently, no German single language RoBERTa model is yet published, which we introduce in this work (GottBERT). The German portion of the OSCAR data set was used as text corpus. In an evaluation we compare its performance on the two Named Entity Recognition (NER) tasks Conll 2003 and GermEval 2014 as well as on the text classification tasks GermEval 2018 (fine and coarse) and GNAD with existing German single language BERT models and two multilingual ones. GottBERT was pre-trained related to the original RoBERTa model using fairseq. All downstream tasks were trained using hyperparameter presets taken from the benchmark of German BERT. The experiments were setup utilizing FARM. Performance was measured by the $F_{1}$ score. GottBERT was successfully pre-trained on a 256 core TPU pod using the RoBERTa BASE architecture. Even without extensive hyper-parameter optimization, in all NER and one text classification task, GottBERT already outperformed all other tested German and multilingual models. In order to support the German NLP field, we publish GottBERT under the AGPLv3 license.
翻訳日:2021-05-23 15:11:07 公開日:2020-12-03
# 不完全なターゲットドメインによるドメイン適応

Domain Adaptation with Incomplete Target Domains ( http://arxiv.org/abs/2012.01606v1 )

ライセンス: Link先を確認
Zhenpeng Li, Jianan Jiang, Yuhong Guo, Tiantian Tang, Chengxiang Zhuo, Jieping Ye(参考訳) ドメイン適応は、既存のラベル付きデータを補助ソースドメインに活用することにより、対象ドメインのアノテーションコストを低減させるタスクとして、研究コミュニティで注目されている。 しかし、標準的なドメイン適応は両方のドメインで完全に観測されたデータを想定しているが、現実のアプリケーションでは欠落データの存在が一般的である。 本稿では、部分的に観測されたデータを持つ不完全なターゲットドメインを持つドメイン適応シナリオに挑戦する。 本稿では、この新たなドメイン適応問題に対処するために、不完全データインプットに基づく Adversarial Network (IDIAN) モデルを提案する。 提案するモデルでは,対象領域における部分的観測に基づいて欠落する特徴値を満たすためのデータインプテーションモジュールを設計し,その2つの領域を深い逆適応によって整合させる。 我々は、クロスドメインベンチマークタスクと、不完全なターゲットドメインを用いた実世界適応タスクの両方で実験を行う。 実験の結果,提案手法の有効性が示された。

Domain adaptation, as a task of reducing the annotation cost in a target domain by exploiting the existing labeled data in an auxiliary source domain, has received a lot of attention in the research community. However, the standard domain adaptation has assumed perfectly observed data in both domains, while in real world applications the existence of missing data can be prevalent. In this paper, we tackle a more challenging domain adaptation scenario where one has an incomplete target domain with partially observed data. We propose an Incomplete Data Imputation based Adversarial Network (IDIAN) model to address this new domain adaptation challenge. In the proposed model, we design a data imputation module to fill the missing feature values based on the partial observations in the target domain, while aligning the two domains via deep adversarial adaption. We conduct experiments on both cross-domain benchmark tasks and a real world adaptation task with imperfect target domains. The experimental results demonstrate the effectiveness of the proposed method.
翻訳日:2021-05-23 15:10:43 公開日:2020-12-03
# DeepCrawl: ターンベースの戦略ゲームのための深層強化学習

DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games ( http://arxiv.org/abs/2012.01914v1 )

ライセンス: Link先を確認
Alessandro Sestini, Alexander Kuhnle and Andrew D. Bagdanov(参考訳) 本稿では,すべてのエージェントが,deep reinforcement learning(drl)を用いてトレーニングされたポリシネットワークによって制御される,iosおよびandroid用のフルプレイ可能なrogueライクなプロトタイプであるdeepcrawlを紹介する。 本研究の目的は、DRLの最近の進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効かどうかを理解することである。 まず,ゲーム開発に効果的に適用するために,このようなaiシステムが満足すべき要件を分析し,deepcrawlプロトタイプで使用されるdrlモデルの要素を同定する。 DeepCrawlの成功と限界は、最終ゲームで行われた一連のプレイ容易性テストを通じて文書化されている。 私たちが提案する技術は、ビデオゲームにおける非プレイヤーキャラクターの行動発達のための革新的な新しい道の洞察を与えてくれると信じている。

In this paper we introduce DeepCrawl, a fully-playable Roguelike prototype for iOS and Android in which all agents are controlled by policy networks trained using Deep Reinforcement Learning (DRL). Our aim is to understand whether recent advances in DRL can be used to develop convincing behavioral models for non-player characters in videogames. We begin with an analysis of requirements that such an AI system should satisfy in order to be practically applicable in video game development, and identify the elements of the DRL model used in the DeepCrawl prototype. The successes and limitations of DeepCrawl are documented through a series of playability tests performed on the final game. We believe that the techniques we propose offer insight into innovative new avenues for the development of behaviors for non-player characters in video games, as they offer the potential to overcome critical issues with
翻訳日:2021-05-23 15:10:15 公開日:2020-12-03
# 機械学習アルゴリズムの予測可能性を高める新しいインデックスベース多次元データ構成モデル

A Novel index-based multidimensional data organization model that enhances the predictability of the machine learning algorithms ( http://arxiv.org/abs/2012.02007v1 )

ライセンス: Link先を確認
Mahbubur Rahman(参考訳) 多次元データから学ぶことは、機械学習の分野で興味深い概念である。 しかし、そのような学習は、高価なデータ処理、次元数の増加に伴う操作のため、困難、複雑、高価である。 その結果、順序付きデータセットは順序なしデータよりも簡単かつ効率的なアクセスを提供するため、順序付きインデックスベースのデータ組織モデルを導入し、最終的には学習を改善することができる。 順序付けは、多次元データセットを縮小空間にマッピングし、学習に関連する情報を効率的に取り出すことができるようにする。 このような多次元データストレージは、教師なしと教師なしの両方の機械学習アルゴリズムの予測可能性を高めることができる。

Learning from the multidimensional data has been an interesting concept in the field of machine learning. However, such learning can be difficult, complex, expensive because of expensive data processing, manipulations as the number of dimension increases. As a result, we have introduced an ordered index-based data organization model as the ordered data set provides easy and efficient access than the unordered one and finally, such organization can improve the learning. The ordering maps the multidimensional dataset in the reduced space and ensures that the information associated with the learning can be retrieved back and forth efficiently. We have found that such multidimensional data storage can enhance the predictability for both the unsupervised and supervised machine learning algorithms.
翻訳日:2021-05-23 15:10:01 公開日:2020-12-03
# 深層学習の創造性:概念化と評価

Creativity of Deep Learning: Conceptualization and Assessment ( http://arxiv.org/abs/2012.02282v1 )

ライセンス: Link先を確認
Johannes Schneider and Marcus Basalla(参考訳) 簡単なタスクを自動化するためのディープラーニング(DL)の可能性はすでによく研究されているが、最近の研究は、完全な人工物作成と創造プロセスにおける人のサポートの両方のために、Deep Learningを用いた創造的デザインの研究を開始した。 本稿では,文献レビューで特定された創造的領域における生成的深層学習の現在の応用を概念化し,評価するために,計算的創造性からの洞察を用いる。 我々は、現在のシステムと人間の創造性の異なるモデルとそれらの欠点の類似点を強調している。 ディープラーニングは高品質画像などの高価値な結果をもたらすが、トレーニングデータや人間によって定義された概念空間に結びつくという複数の理由から、その新しさは一般的に制限される。 現在のDL法では、内部の問題表現の変更も許可されておらず、どちらも人間の創造性の主要な要因と見なされる、非常に異なるドメイン間の接続を識別する能力が欠如している。

While the potential of deep learning(DL) for automating simple tasks is already well explored, recent research started investigating the use of deep learning for creative design, both for complete artifact creation and supporting humans in the creation process. In this paper, we use insights from computational creativity to conceptualize and assess current applications of generative deep learning in creative domains identified in a literature review. We highlight parallels between current systems and different models of human creativity as well as their shortcomings. While deep learning yields results of high value, such as high quality images, their novelity is typically limited due to multiple reasons such a being tied to a conceptual space defined by training data and humans. Current DL methods also do not allow for changes in the internal problem representation and they lack the capability to identify connections across highly different domains, both of which are seen as major drivers of human creativity.
翻訳日:2021-05-23 15:09:48 公開日:2020-12-03
# 線形回帰モデルのためのオンライン忘れるプロセス

Online Forgetting Process for Linear Regression Models ( http://arxiv.org/abs/2012.01668v1 )

ライセンス: Link先を確認
Yuantong Li, Chi-hua Wang, Guang Cheng(参考訳) EUの“Right To Be Forgotten”規制により、ユーザのデータが限られた期間のみアクセス可能な統計的データ削除問題の研究を開始します。 この設定は、オンライン教師付き学習タスクとして \textit{constant memory limit} で定式化される。 低次元の場合、削除認識アルゴリズム \texttt{fifd-ols} を提案し、データ削除操作による壊滅的なランク振れ現象を目撃し、統計的に非効率となる。 本稿では,新しいオンライン正規化手法を用いて,削除の不確実性を効果的に相殺する「texttt{FIFD-Adaptive Ridge}」アルゴリズムを提案する。 理論的には、両オンライン忘れアルゴリズムの累積的後悔上限を提供する。 実験では, {\displaystyle \texttt{FIFD-Adaptive Ridge} が一定の正規化レベルでリッジ回帰アルゴリズムより優れており,より複雑な統計モデルに光を当てることが期待できる。

Motivated by the EU's "Right To Be Forgotten" regulation, we initiate a study of statistical data deletion problems where users' data are accessible only for a limited period of time. This setting is formulated as an online supervised learning task with \textit{constant memory limit}. We propose a deletion-aware algorithm \texttt{FIFD-OLS} for the low dimensional case, and witness a catastrophic rank swinging phenomenon due to the data deletion operation, which leads to statistical inefficiency. As a remedy, we propose the \texttt{FIFD-Adaptive Ridge} algorithm with a novel online regularization scheme, that effectively offsets the uncertainty from deletion. In theory, we provide the cumulative regret upper bound for both online forgetting algorithms. In the experiment, we showed \texttt{FIFD-Adaptive Ridge} outperforms the ridge regression algorithm with fixed regularization level, and hopefully sheds some light on more complex statistical models.
翻訳日:2021-05-23 15:09:33 公開日:2020-12-03
# dynamicsによるオンライン学習:minimaxパースペクティブ

Online learning with dynamics: A minimax perspective ( http://arxiv.org/abs/2012.01705v1 )

ライセンス: Link先を確認
Kush Bhatia, Karthik Sridharan(参考訳) 本研究では,複数ラウンドにわたって学習者がステートフルな環境と対話するダイナミクスを用いたオンライン学習の課題について検討する。 インタラクションの各ラウンドで、学習者は、選択されたポリシーと世界の現在の状態の両方に依存するコストを発生させるポリシーを選択します。 状態進化のダイナミクスとコストは、おそらく敵対的な方法で、時間変化が許される。 本稿では,政策後悔の最小化の問題について検討し,その問題に対するミニマックスレートの非建設的上限を与える。 本研究の主な成果は,オンライン学習能力に十分な条件を提供することである。 このレートは,1)状態変化のダイナミクスの下で,基礎となる政策クラスの表現性を捉える複雑性項と,2)ある対物的損失からの即時損失の偏差を測定する動的安定項とを特徴とする。 さらに、両方の複雑性項が本当に必要であることを示す、一致する下限を提供する。 提案手法は,メモリを用いたオンライン学習,線形二次規制のオンライン制御,オンラインマルコフ決定プロセス,敵対的目標の追跡など,よく研究されている問題に対する後悔を回復する一元的分析を提供する。 さらに,新たな問題(非線形ダイナミクスと非凸損失)に対する厳密な後悔の限界を得る上で,我々のツールがどのように役立つかを示す。

We study the problem of online learning with dynamics, where a learner interacts with a stateful environment over multiple rounds. In each round of the interaction, the learner selects a policy to deploy and incurs a cost that depends on both the chosen policy and current state of the world. The state-evolution dynamics and the costs are allowed to be time-varying, in a possibly adversarial way. In this setting, we study the problem of minimizing policy regret and provide non-constructive upper bounds on the minimax rate for the problem. Our main results provide sufficient conditions for online learnability for this setup with corresponding rates. The rates are characterized by 1) a complexity term capturing the expressiveness of the underlying policy class under the dynamics of state change, and 2) a dynamics stability term measuring the deviation of the instantaneous loss from a certain counterfactual loss. Further, we provide matching lower bounds which show that both the complexity terms are indeed necessary. Our approach provides a unifying analysis that recovers regret bounds for several well studied problems including online learning with memory, online control of linear quadratic regulators, online Markov decision processes, and tracking adversarial targets. In addition, we show how our tools help obtain tight regret bounds for a new problems (with non-linear dynamics and non-convex losses) for which such bounds were not known prior to our work.
翻訳日:2021-05-23 15:09:17 公開日:2020-12-03
# 深部表現と浅部探索によるニューラルコンテクスト帯域

Neural Contextual Bandits with Deep Representation and Shallow Exploration ( http://arxiv.org/abs/2012.01780v1 )

ライセンス: Link先を確認
Pan Xu and Zheng Wen and Handong Zhao and Quanquan Gu(参考訳) 本研究では,各コンテキスト・アクション・ペアが生の特徴ベクトルに関連付けられているが,報酬生成関数は未知である。 本稿では,deep reluニューラルネットワークの最後の隠れ層(deep representation learning)を用いて生特徴ベクトルを変換し,uper confidence bound(ucb)アプローチを用いて最後の線形層を探索する新しい学習アルゴリズムを提案する。 標準的な仮定の下では、提案アルゴリズムは学習時間の地平線として$\tilde{O}(\sqrt{T})$ finite-time regret(英語版)を達成する。 既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。

We study a general class of contextual bandits, where each context-action pair is associated with a raw feature vector, but the reward generating function is unknown. We propose a novel learning algorithm that transforms the raw feature vector using the last hidden layer of a deep ReLU neural network (deep representation learning), and uses an upper confidence bound (UCB) approach to explore in the last linear layer (shallow exploration). We prove that under standard assumptions, our proposed algorithm achieves $\tilde{O}(\sqrt{T})$ finite-time regret, where $T$ is the learning time horizon. Compared with existing neural contextual bandit algorithms, our approach is computationally much more efficient since it only needs to explore in the last layer of the deep neural network.
翻訳日:2021-05-23 15:08:30 公開日:2020-12-03
# 可積分非パラメトリック流れ

Integrable Nonparametric Flows ( http://arxiv.org/abs/2012.02035v1 )

ライセンス: Link先を確認
David Pfau, Danilo Rezende(参考訳) 無限小正規化フローを(多分非正規化の)確率分布への無限小変化のみによって再構成する方法を提案する。 これは、未知のターゲット分布からサンプルが与えられるのではなく、その分布を近似するフローを学ぶという従来のタスクを逆転させ、初期分布に摂動を与え、既知の摂動分布からサンプルを生成するフローを再構築することを目的としている。 これは未決定の問題であるが、積分可能ベクトル場としての流れを選択すると静電気と密接に関連する解が得られ、解はグリーン関数の方法によって計算できる。 従来の正規化フローとは異なり、このフローは完全に非パラメトリックな方法で表現できる。 この導出を低次元問題に適用し,量子モンテカルロ問題と機械学習の潜在的な応用について議論する。

We introduce a method for reconstructing an infinitesimal normalizing flow given only an infinitesimal change to a (possibly unnormalized) probability distribution. This reverses the conventional task of normalizing flows -- rather than being given samples from a unknown target distribution and learning a flow that approximates the distribution, we are given a perturbation to an initial distribution and aim to reconstruct a flow that would generate samples from the known perturbed distribution. While this is an underdetermined problem, we find that choosing the flow to be an integrable vector field yields a solution closely related to electrostatics, and a solution can be computed by the method of Green's functions. Unlike conventional normalizing flows, this flow can be represented in an entirely nonparametric manner. We validate this derivation on low-dimensional problems, and discuss potential applications to problems in quantum Monte Carlo and machine learning.
翻訳日:2021-05-23 15:08:14 公開日:2020-12-03
# 雑音ラベルを用いたロバスト連合学習

Robust Federated Learning with Noisy Labels ( http://arxiv.org/abs/2012.01700v1 )

ライセンス: Link先を確認
Seunghan Yang, Hyoungseob Park, Junyoung Byun, Changick Kim(参考訳) フェデレーション学習(federated learning)は、データ分散とプライベートを維持しながら、ローカルデバイスが共同でサーバモデルをトレーニングできるパラダイムである。 フェデレーション学習では、ローカルデータはクライアントによって収集されるため、データが正しくアノテートされることは保証されない。 これらのノイズデータに頑健なネットワークを集中的にトレーニングするために多くの研究が行われてきたが、これらのアルゴリズムはいまだに連合学習のノイズラベルに苦しんでいる。 集中的な設定と比較して、クライアントのデータはラベルシステムの変化やユーザのバックグラウンド知識によって異なるノイズ分布を持つことができる。 その結果、局所モデルは一貫性のない決定境界を形成し、それらの重みは互いに激しく分岐し、連合学習において深刻な問題となる。 これらの問題を解決するために,サーバがローカルモデルと協調して一貫した決定境界を維持するための,クラスワイドセントロイドの相互交換による新しいフェデレート学習手法を提案する。 これらのcentroidは、各デバイス上のローカルデータの中心的な機能であり、通信ラウンド毎にサーバにアライメントされる。 アライメントされたcentroidsでローカルモデルを更新することは、クライアントのデータ内のノイズ分布が互いに異なるにもかかわらず、ローカルモデル間で一貫した決定境界を形成するのに役立つ。 局所モデルの性能を向上させるために,ラベル付きモデル更新に使用される自信あるサンプルを選択する新しい手法を提案する。 さらに,グローバルモデルを活用し,信頼できないサンプルのラベルを更新できるグローバルガイド付き擬似ラベル法を提案する。 CIFAR-10データセットとClothing1Mデータセットによる実験結果から,本手法は雑音ラベルを用いたフェデレーション学習において顕著に有効であることが示された。

Federated learning is a paradigm that enables local devices to jointly train a server model while keeping the data decentralized and private. In federated learning, since local data are collected by clients, it is hardly guaranteed that the data are correctly annotated. Although a lot of studies have been conducted to train the networks robust to these noisy data in a centralized setting, these algorithms still suffer from noisy labels in federated learning. Compared to the centralized setting, clients' data can have different noise distributions due to variations in their labeling systems or background knowledge of users. As a result, local models form inconsistent decision boundaries and their weights severely diverge from each other, which are serious problems in federated learning. To solve these problems, we introduce a novel federated learning scheme that the server cooperates with local models to maintain consistent decision boundaries by interchanging class-wise centroids. These centroids are central features of local data on each device, which are aligned by the server every communication round. Updating local models with the aligned centroids helps to form consistent decision boundaries among local models, although the noise distributions in clients' data are different from each other. To improve local model performance, we introduce a novel approach to select confident samples that are used for updating the model with given labels. Furthermore, we propose a global-guided pseudo-labeling method to update labels of unconfident samples by exploiting the global model. Our experimental results on the noisy CIFAR-10 dataset and the Clothing1M dataset show that our approach is noticeably effective in federated learning with noisy labels.
翻訳日:2021-05-23 15:08:01 公開日:2020-12-03
# 潜在空間最適化を用いた3次元人行動における無印関節軌跡の復元

Recovering Trajectories of Unmarked Joints in 3D Human Actions Using Latent Space Optimization ( http://arxiv.org/abs/2012.02043v1 )

ライセンス: Link先を確認
Suhas Lohit, Rushil Anirudh, Pavan Turaga(参考訳) モーションキャプチャ(モキャップ)と飛行時間に基づく人間の行動の検知は、ロバストな活動分析を行うために人気が高まっている。 アプリケーションは、行動認識から健康アプリケーションにおける運動品質の定量化まで幅広い。 マーカーレスモーションキャプチャーは大きな進歩を遂げているが、医療などの重要な分野では、マーカーベースのシステム、特にアクティブマーカーはゴールドスタンダードとみなされている。 しかしながら、可視性、追跡エラー、単にマーカー設定を便利に維持する必要性など、両方のモダリティにはいくつかの実用的な課題がある。 これは、特定の関節位置がマークアップされないことを意味するため、全身運動の下流解析は困難である。 このギャップに対処するために,まず,符号なしのジョイントデータを不適切な線形逆問題として再構成する問題を提案する。 我々は、人間の行動の多様体に投影することで、与えられた行動に対して欠落した関節を復元し、深層オートエンコーダの潜伏空間表現を最適化することで達成する。 mocap と kinect のデータセットでの実験により、提案手法が関節の動作と動態のセマンティクスを回復するのに非常に有効であることが明確に示されている。 すべてのコードとモデルを公開します。

Motion capture (mocap) and time-of-flight based sensing of human actions are becoming increasingly popular modalities to perform robust activity analysis. Applications range from action recognition to quantifying movement quality for health applications. While marker-less motion capture has made great progress, in critical applications such as healthcare, marker-based systems, especially active markers, are still considered gold-standard. However, there are several practical challenges in both modalities such as visibility, tracking errors, and simply the need to keep marker setup convenient wherein movements are recorded with a reduced marker-set. This implies that certain joint locations will not even be marked-up, making downstream analysis of full body movement challenging. To address this gap, we first pose the problem of reconstructing the unmarked joint data as an ill-posed linear inverse problem. We recover missing joints for a given action by projecting it onto the manifold of human actions, this is achieved by optimizing the latent space representation of a deep autoencoder. Experiments on both mocap and Kinect datasets clearly demonstrate that the proposed method performs very well in recovering semantics of the actions and dynamics of missing joints. We will release all the code and models publicly.
翻訳日:2021-05-23 15:06:41 公開日:2020-12-03
# テキスト分類のためのキャラクタレベル畳み込みニューラルネットワークの進化

Evolving Character-level Convolutional Neural Networks for Text Classification ( http://arxiv.org/abs/2012.02223v1 )

ライセンス: Link先を確認
Trevor Londt, Xiaoying Gao, Bing Xue, Peter Andreae(参考訳) 文字レベルの畳み込みニューラルネットワーク(char-CNN)は、それらが分類する言語のセマンティック構造や構文構造に関する知識を必要としない。 この特性は実装を単純化するが、分類精度は低下する。 char-cnnアーキテクチャの深さを増加しても、ブレークスルー精度は向上しない。 テキスト分類作業に最適なChar-CNNアーキテクチャは確立されていない。 char-cnnの手動設計とトレーニングは、専門家のドメイン知識を必要とする反復的かつ時間のかかるプロセスである。 シュロゲートベースのバージョンを含む進化的ディープラーニング(EDL)技術は、画像解析タスクの高性能CNNアーキテクチャの自動検索に成功している。 研究者は、テキスト分類タスクのためにchar-CNNのアーキテクチャ空間を探索するためにEDL技術を適用していない。 本稿では,遺伝子プログラミングに基づく新しいEDLアルゴリズム,間接符号化モデル,サロゲートモデルを用いたシャル・CNNアーキテクチャの進化における最初の成果を紹介する。 このアルゴリズムは8つのテキスト分類データセットで評価され、5つの手動設計のCNNアーキテクチャと1つの長期記憶(LSTM)アーキテクチャに対してベンチマークされる。 実験結果から,LSTMを分類精度で上回るアーキテクチャと,分類精度とパラメータ数で手作業で設計したCNNアーキテクチャの5つを改良できることが示された。

Character-level convolutional neural networks (char-CNN) require no knowledge of the semantic or syntactic structure of the language they classify. This property simplifies its implementation but reduces its classification accuracy. Increasing the depth of char-CNN architectures does not result in breakthrough accuracy improvements. Research has not established which char-CNN architectures are optimal for text classification tasks. Manually designing and training char-CNNs is an iterative and time-consuming process that requires expert domain knowledge. Evolutionary deep learning (EDL) techniques, including surrogate-based versions, have demonstrated success in automatically searching for performant CNN architectures for image analysis tasks. Researchers have not applied EDL techniques to search the architecture space of char-CNNs for text classification tasks. This article demonstrates the first work in evolving char-CNN architectures using a novel EDL algorithm based on genetic programming, an indirect encoding and surrogate models, to search for performant char-CNN architectures automatically. The algorithm is evaluated on eight text classification datasets and benchmarked against five manually designed CNN architecture and one long short-term memory (LSTM) architecture. Experiment results indicate that the algorithm can evolve architectures that outperform the LSTM in terms of classification accuracy and five of the manually designed CNN architectures in terms of classification accuracy and parameter count.
翻訳日:2021-05-23 15:06:22 公開日:2020-12-03
# 遺伝的プログラミングを用いた文字レベルDenseNetアーキテクチャの進化

Evolving Character-Level DenseNet Architectures using Genetic Programming ( http://arxiv.org/abs/2012.02327v1 )

ライセンス: Link先を確認
Trevor Londt, Xiaoying Gao, Peter Andreae(参考訳) DenseNetアーキテクチャは画像分類タスクにおいて顕著な性能を示しているが、文字レベルのDenseNet(char-DenseNet)アーキテクチャをテキスト分類タスクに使用するための限定的な研究がなされている。 DenseNetアーキテクチャがテキスト分類タスクに最適であるかは不明だ。 char-DenseNetsの設計、トレーニング、テストの反復的なタスクは、専門家のドメイン知識を必要とするNP-Hard問題である。 進化的ディープラーニング(EDL)は、画像分類領域のCNNアーキテクチャを自動設計するために使われ、専門家のドメイン知識の必要性を軽減している。 本研究は, テキスト分類タスクにおいて, EDL を用いて char-DenseNet アーキテクチャを進化させる最初の試みを示す。 遺伝的プログラミングに基づく新しいアルゴリズム (GP-Dense) と間接エンコード方式を組み合わせることで、高性能なChar DenseNetアーキテクチャの進化を促進する。 このアルゴリズムは2つの一般的なテキストデータセットで評価され、最も進化したモデルは現在の4つのキャラクタレベルCNNとDenseNetモデルに対してベンチマークされる。 このアルゴリズムは、モデル精度で最先端モデルの2つ、パラメータサイズで最先端モデルの3つを上回り、両方のデータセットのパフォーマンスモデルを進化させることを示す。

DenseNet architectures have demonstrated impressive performance in image classification tasks, but limited research has been conducted on using character-level DenseNet (char-DenseNet) architectures for text classification tasks. It is not clear what DenseNet architectures are optimal for text classification tasks. The iterative task of designing, training and testing of char-DenseNets is an NP-Hard problem that requires expert domain knowledge. Evolutionary deep learning (EDL) has been used to automatically design CNN architectures for the image classification domain, thereby mitigating the need for expert domain knowledge. This study demonstrates the first work on using EDL to evolve char-DenseNet architectures for text classification tasks. A novel genetic programming-based algorithm (GP-Dense) coupled with an indirect-encoding scheme, facilitates the evolution of performant char DenseNet architectures. The algorithm is evaluated on two popular text datasets, and the best-evolved models are benchmarked against four current state-of-the-art character-level CNN and DenseNet models. Results indicate that the algorithm evolves performant models for both datasets that outperform two of the state-of-the-art models in terms of model accuracy and three of the state-of-the-art models in terms of parameter size.
翻訳日:2021-05-23 15:06:00 公開日:2020-12-03
# radar artifact labeling framework (ralf) データセットにおけるレーダ検出の可能性

Radar Artifact Labeling Framework (RALF): Method for Plausible Radar Detections in Datasets ( http://arxiv.org/abs/2012.01993v1 )

ライセンス: Link先を確認
Simon T. Isele, Marcel P. Schilling, Fabian E. Klein, Sascha Saralajew, J. Marius Zoellner(参考訳) 自動運転のローカライズと認識に関する研究は、主にカメラとlidarデータセットに焦点を当てている。 スパースレーダポイントクラウドの手動ラベリングは難しい。 データセット生成のためのクロスセンサであるRadar Artifact Labeling Framework (RALF)を提案する。 自動生成された自動車レーダーデータのラベルは、人工知能の応用のためのアーティファクトのようなレーダーの欠点の解決に役立つ。 RALFは、レーダー生検のための可視性ラベルを提供し、アーティファクトとターゲットを区別する。 光学評価バックボーンは、サラウンドビューカメラとLiDARスキャンの一般化された単眼深度画像推定からなる。 現代の車載センサーセットとLiDARは、画像に基づく相対深度情報を重なり合う感知領域でキャリブレーションすることができる。 K-Nearest Neighborsマッチングは、光知覚点雲と生のレーダー検出を関連付ける。 並行して、時間追跡評価部は、レーダ検出の過渡行動を考慮する。 センサとモデルの不確実性の両方を尊重する一致距離に基づいて,レーダ検出毎の可視性評価を提案する。 3.28\cdot10^6$点の半自動ラベル付き基底真理データセットの誤差メトリクスを評価することにより、結果を検証する。 実用的なレーダ検出に加えて、このフレームワークは認識と自動運転学習タスクの応用のために、さらにラベル付き低レベルレーダ信号データセットを可能にする。

Research on localization and perception for Autonomous Driving is mainly focused on camera and LiDAR datasets, rarely on radar data. Manually labeling sparse radar point clouds is challenging. For a dataset generation, we propose the cross sensor Radar Artifact Labeling Framework (RALF). Automatically generated labels for automotive radar data help to cure radar shortcomings like artifacts for the application of artificial intelligence. RALF provides plausibility labels for radar raw detections, distinguishing between artifacts and targets. The optical evaluation backbone consists of a generalized monocular depth image estimation of surround view cameras plus LiDAR scans. Modern car sensor sets of cameras and LiDAR allow to calibrate image-based relative depth information in overlapping sensing areas. K-Nearest Neighbors matching relates the optical perception point cloud with raw radar detections. In parallel, a temporal tracking evaluation part considers the radar detections' transient behavior. Based on the distance between matches, respecting both sensor and model uncertainties, we propose a plausibility rating of every radar detection. We validate the results by evaluating error metrics on semi-manually labeled ground truth dataset of $3.28\cdot10^6$ points. Besides generating plausible radar detections, the framework enables further labeled low-level radar signal datasets for applications of perception and Autonomous Driving learning tasks.
翻訳日:2021-05-23 15:04:44 公開日:2020-12-03
# 説明可能なAIによる信用スコアの解釈

Explainable AI for Interpretable Credit Scoring ( http://arxiv.org/abs/2012.03749v1 )

ライセンス: Link先を確認
Lara Marie Demajo, Vince Vella and Alexiei Dingli(参考訳) 人工知能(AI)の進歩と近年の金融技術(FinTech)への熱意の高まりにより、信用スコアなどの応用は学術的な関心を集めている。 信用スコアは、金融専門家がデフォルトの確率の高いローンが受け入れられないようなローン申請を受理するかどうかについてより良い判断を下すのに役立つ。 このような信用スコアリングモデルが直面する騒々しく非常に不均衡なデータ課題とは別に、GDPR(General Data Protection Regulation)やECOA(Equal Credit Opportunity Act)によって導入された「説明権」のような最近の規制は、アルゴリズム的な決定が理解可能で一貫性のあるものであることを保証するためのモデル解釈性の必要性を追加している。 最近導入された興味深い概念は、ブラックボックスモデルをより解釈しやすいものにすることに焦点を当てた説明可能なai(xai)である。 本研究では,正確かつ解釈可能な信用スコアリングモデルを提案する。 分類には, エクストリーム・グラディエント・ブースティング(XGBoost)モデルを用いて, HELOC(Hotel Equity Line of Credit)とLC(Lending Club)データセットの最先端性能を実現する。 モデルはさらに360度説明フレームワークによって拡張され、異なる説明(つまり)を提供する。 異なる状況の異なる人々によって要求されるグローバル、ローカル機能ベース、およびローカルインスタンスベース)。 機能的接地分析,応用接地分析,人間接地分析による評価は,提示された説明が単純であり,一貫性があり,かつ,正確性,有効性,理解の容易さ,詳細な満足度,信頼性の6つの所定の仮説を満たしていることを示している。

With the ever-growing achievements in Artificial Intelligence (AI) and the recent boosted enthusiasm in Financial Technology (FinTech), applications such as credit scoring have gained substantial academic interest. Credit scoring helps financial experts make better decisions regarding whether or not to accept a loan application, such that loans with a high probability of default are not accepted. Apart from the noisy and highly imbalanced data challenges faced by such credit scoring models, recent regulations such as the `right to explanation' introduced by the General Data Protection Regulation (GDPR) and the Equal Credit Opportunity Act (ECOA) have added the need for model interpretability to ensure that algorithmic decisions are understandable and coherent. An interesting concept that has been recently introduced is eXplainable AI (XAI), which focuses on making black-box models more interpretable. In this work, we present a credit scoring model that is both accurate and interpretable. For classification, state-of-the-art performance on the Home Equity Line of Credit (HELOC) and Lending Club (LC) Datasets is achieved using the Extreme Gradient Boosting (XGBoost) model. The model is then further enhanced with a 360-degree explanation framework, which provides different explanations (i.e. global, local feature-based and local instance-based) that are required by different people in different situations. Evaluation through the use of functionallygrounded, application-grounded and human-grounded analysis show that the explanations provided are simple, consistent as well as satisfy the six predetermined hypotheses testing for correctness, effectiveness, easy understanding, detail sufficiency and trustworthiness.
翻訳日:2021-05-23 15:04:01 公開日:2020-12-03
# 基本的特徴:ロバストコンテンツ対応画像前処理による対向的摂動の攻撃面の低減

Essential Features: Reducing the Attack Surface of Adversarial Perturbations with Robust Content-Aware Image Preprocessing ( http://arxiv.org/abs/2012.01699v1 )

ライセンス: Link先を確認
Ryan Feng, Wu-chi Feng, Atul Prakash(参考訳) 画像に摂動を加えることで、不正な機械学習モデルに誤った予測を加えることができる。 このような摂動から防御する一つのアプローチは、摂動の影響を取り除くために画像前処理関数を適用することである。 既存のアプローチは画像の内容と直交して設計されがちであり、適応攻撃によって打ち負かすことができる。 本稿では,画像の主成分を保存しつつ,摂動の影響を著しく低減するロバストな特徴空間へ変換する,本質的特徴量と呼ばれる新しい画像前処理手法を提案する。 具体的には、k平均色低減手法とともに、元のオブジェクトの主エッジ特徴を保存する適応的ぼかし戦略を用いて、画像を最も代表的な色に単純化する。 このアプローチは、元の画像の関連する特徴を保ちながら色を調整する能力を制限することにより、敵に対する攻撃面を著しく制限する。 さらに、いくつかのアダプティブアタックを設計し、我々のアプローチが以前のベースラインよりも堅牢であることを確認する。 CIFAR-10では64%の堅牢性と58.13%の堅牢性をRESISC45で達成し、適応的なホワイトボックスやブラックボックス攻撃に対する最先端の対人訓練技術に対して10%以上の堅牢性を向上した。 以上の結果から,コンテンツ適応処理による画像に不可欠な特徴を保ち続ける戦略は,敵対的入力に対する堅牢性を高めるための敵対的トレーニングの補完となる可能性が示唆された。

Adversaries are capable of adding perturbations to an image to fool machine learning models into incorrect predictions. One approach to defending against such perturbations is to apply image preprocessing functions to remove the effects of the perturbation. Existing approaches tend to be designed orthogonally to the content of the image and can be beaten by adaptive attacks. We propose a novel image preprocessing technique called Essential Features that transforms the image into a robust feature space that preserves the main content of the image while significantly reducing the effects of the perturbations. Specifically, an adaptive blurring strategy that preserves the main edge features of the original object along with a k-means color reduction approach is employed to simplify the image to its k most representative colors. This approach significantly limits the attack surface for adversaries by limiting the ability to adjust colors while preserving pertinent features of the original image. We additionally design several adaptive attacks and find that our approach remains more robust than previous baselines. On CIFAR-10 we achieve 64% robustness and 58.13% robustness on RESISC45, raising robustness by over 10% versus state-of-the-art adversarial training techniques against adaptive white-box and black-box attacks. The results suggest that strategies that retain essential features in images by adaptive processing of the content hold promise as a complement to adversarial training for boosting robustness against adversarial inputs.
翻訳日:2021-05-23 15:02:46 公開日:2020-12-03
# AutoInt: 高速なニューラルボリュームレンダリングのための自動統合

AutoInt: Automatic Integration for Fast Neural Volume Rendering ( http://arxiv.org/abs/2012.01714v1 )

ライセンス: Link先を確認
David B. Lindell, Julien N. P. Martel, Gordon Wetzstein(参考訳) 数値積分は科学計算における基礎技術であり、多くのコンピュータビジョンアプリケーションの中核である。 これらのアプリケーションの中で、暗黙的なニューラルボリュームレンダリングがビュー合成の新しいパラダイムとして提案され、フォトリアリスティックな画質を実現している。 しかし、これらの手法を実用化するための基本的な障害は、訓練と推論中にレンダリングされた線に沿って必要な体積積分によって生じる極端な計算とメモリ要求である。 モンテカルロサンプリングとの統合を近似するためには、数百の前方通過を必要とする数百万光線が必要になります。 本稿では,暗黙的ニューラルネットワークを用いて,効率的な閉形式解法を積分に学習するための新しいフレームワークであるautomatic integrationを提案する。 学習のために、暗黙の神経表現の導出に対応する計算グラフをインスタンス化する。 グラフは信号に合致して統合する。 最適化後、グラフを再組み立てして、抗誘導体を表すネットワークを得る。 計算の基本定理により、これはネットワークの2つの評価における任意の定積分の計算を可能にする。 このアプローチを用いて,計算要求の10倍以上の改善を実証し,高速なニューラルボリュームレンダリングを実現する。

Numerical integration is a foundational technique in scientific computing and is at the core of many computer vision applications. Among these applications, implicit neural volume rendering has recently been proposed as a new paradigm for view synthesis, achieving photorealistic image quality. However, a fundamental obstacle to making these methods practical is the extreme computational and memory requirements caused by the required volume integrations along the rendered rays during training and inference. Millions of rays, each requiring hundreds of forward passes through a neural network are needed to approximate those integrations with Monte Carlo sampling. Here, we propose automatic integration, a new framework for learning efficient, closed-form solutions to integrals using implicit neural representation networks. For training, we instantiate the computational graph corresponding to the derivative of the implicit neural representation. The graph is fitted to the signal to integrate. After optimization, we reassemble the graph to obtain a network that represents the antiderivative. By the fundamental theorem of calculus, this enables the calculation of any definite integral in two evaluations of the network. Using this approach, we demonstrate a greater than 10x improvement in computation requirements, enabling fast neural volume rendering.
翻訳日:2021-05-23 15:02:18 公開日:2020-12-03
# Scan2Cap: RGB-Dスキャンでコンテキスト対応のDense Captioning

Scan2Cap: Context-aware Dense Captioning in RGB-D Scans ( http://arxiv.org/abs/2012.02206v1 )

ライセンス: Link先を確認
Dave Zhenyu Chen, Ali Gholami, Matthias Nie{\ss}ner, Angel X. Chang(参考訳) 本稿では,コモディティRGB-Dセンサの3Dスキャンにおける高密度キャプションの課題を紹介する。 入力として、3Dシーンの点雲を仮定し、期待される出力は、基礎となるオブジェクトの記述とともに境界ボックスである。 3Dオブジェクトの検出と記述の問題に対処するために,入力シーン内のオブジェクトを検出し,それらを自然言語で記述する,エンドツーエンドの訓練手法であるScan2Capを提案する。 ローカルコンテキストにおける関連コンポーネントを参照しながら,記述トークンを生成するアテンション機構を用いる。 対象の関係(つまり)を反映する 生成されたキャプションの相対空間関係)では、メッセージパッシンググラフモジュールを使用して、オブジェクト関係の特徴を学習する。 提案手法は,ScanReferデータセットのシーンにおける3Dオブジェクトのローカライズと記述を効果的に行うことができ,2Dベースライン法を顕著なマージン(27.61% CiDEr@0.5IoUimprovement)で上回っている。

We introduce the task of dense captioning in 3D scans from commodity RGB-D sensors. As input, we assume a point cloud of a 3D scene; the expected output is the bounding boxes along with the descriptions for the underlying objects. To address the 3D object detection and description problems, we propose Scan2Cap, an end-to-end trained method, to detect objects in the input scene and describe them in natural language. We use an attention mechanism that generates descriptive tokens while referring to the related components in the local context. To reflect object relations (i.e. relative spatial relations) in the generated captions, we use a message passing graph module to facilitate learning object relation features. Our method can effectively localize and describe 3D objects in scenes from the ScanRefer dataset, outperforming 2D baseline methods by a significant margin (27.61% CiDEr@0.5IoUimprovement).
翻訳日:2021-05-23 15:02:04 公開日:2020-12-03
# EVRNet:エッジデバイス上での効率的なビデオ復元

EVRNet: Efficient Video Restoration on Edge Devices ( http://arxiv.org/abs/2012.02228v1 )

ライセンス: Link先を確認
Sachin Mehta and Amit Kumar and Fitsum Reda and Varun Nasery and Vikram Mulukutla and Rakesh Ranjan and Vikas Chandra(参考訳) ビデオ送信アプリケーション(例えば会議)は、特に世界的な健康のパンデミックの時期に勢いを増している。 ビデオ信号は損失の多いチャンネルで送信され、低品質の受信信号が得られる。 受信者エッジデバイス上の映像をリアルタイムに復元するために,効率的な映像復元ネットワークevrnetを導入する。 evrnetはアライメント、ディファレンシャル、フュージョンモジュールを使用してネットワーク内のパラメータを効率的に割り当てる。 ビデオ復元タスク(デブロッキング、デノイング、超解像)の広範な実験により、EVRNetは、パラメータやMACが大幅に少ない既存のメソッドに競合性能を提供することを示した。 例えば、EVRNetはパラメータの260倍、MACの958倍、変形可能な畳み込みベースのビデオ復元ネットワーク(EDVR)の4倍、SSIMスコアはEDVRの0.018倍である。 また,evrnetの性能を未取得データセットの複数の歪み下で評価し,カメラと物体の動きの両方で可変長シーケンスをモデル化する能力を示す。

Video transmission applications (e.g., conferencing) are gaining momentum, especially in times of global health pandemic. Video signals are transmitted over lossy channels, resulting in low-quality received signals. To restore videos on recipient edge devices in real-time, we introduce an efficient video restoration network, EVRNet. EVRNet efficiently allocates parameters inside the network using alignment, differential, and fusion modules. With extensive experiments on video restoration tasks (deblocking, denoising, and super-resolution), we demonstrate that EVRNet delivers competitive performance to existing methods with significantly fewer parameters and MACs. For example, EVRNet has 260 times fewer parameters and 958 times fewer MACs than enhanced deformable convolution-based video restoration network (EDVR) for 4 times video super-resolution while its SSIM score is 0.018 less than EDVR. We also evaluated the performance of EVRNet under multiple distortions on unseen dataset to demonstrate its ability in modeling variable-length sequences under both camera and object motion.
翻訳日:2021-05-23 15:01:46 公開日:2020-12-03
# 圧縮民営化:局所微分プライバシー下での分散分布推定

Compressive Privatization: Sparse Distribution Estimation under Locally Differentially Privacy ( http://arxiv.org/abs/2012.02081v1 )

ライセンス: Link先を確認
Zhongzheng Xiong, Zengfeng Huang, Xiaojun Mao, Jian Wang, Shan Ying(参考訳) 地域差分プライバシー下での離散分布推定の問題点を考察する。 分布推定は最も基本的な推定問題の1つであり、非プライベートとプライベートの両方で広く研究されている。 局所モデルでは、最適なサンプル複雑性を証明できるプライベートメカニズムが知られている。 サンプルの複雑さは宇宙全体のサイズに比例しており、実際には巨大なもの(例えば、全てのipアドレス)である。 対象の分布がスパースまたはほぼスパースである限り(例えば、高度スキュード)、必要なサンプルの数は大幅に削減できることを示した。 新しいメカニズムのサンプルの複雑さは、ターゲット分布のスパース性によって特徴づけられ、宇宙の大きさに弱いだけである。 我々のメカニズムは民営化と次元化を同時に行い、サンプルの複雑さは次元化の減少にのみ依存する。 元の分布は圧縮センシングのツールを使って回収される。 理論的結果を補完するため,本手法の利点を明確に示す実験を行い,理論的な結果を確認する。

We consider the problem of discrete distribution estimation under locally differential privacy. Distribution estimation is one of the most fundamental estimation problems, which is widely studied in both non-private and private settings. In the local model, private mechanisms with provably optimal sample complexity are known. However, they are optimal only in the worst-case sense; their sample complexity is proportional to the size of the entire universe, which could be huge in practice (e.g., all IP addresses). We show that as long as the target distribution is sparse or approximately sparse (e.g., highly skewed), the number of samples needed could be significantly reduced. The sample complexity of our new mechanism is characterized by the sparsity of the target distribution and only weakly depends on the size the universe. Our mechanism does privatization and dimensionality reduction simultaneously, and the sample complexity will only depend on the reduced dimensionality. The original distribution is then recovered using tools from compressive sensing. To complement our theoretical results, we conduct experimental studies, the results of which clearly demonstrate the advantages of our method and confirm our theoretical findings.
翻訳日:2021-05-23 15:01:17 公開日:2020-12-03
# ユーモア認識のための多角的選好による連合学習

Federated Learning with Diversified Preference for Humor Recognition ( http://arxiv.org/abs/2012.01675v1 )

ライセンス: Link先を確認
Xu Guo, Pengwei Xing, Siwei Feng, Boyang Li, Chunyan Miao(参考訳) ユーモアを理解することは創造的な言語モデリングにとって重要であり、人間とAIの相互作用に多くの応用がある。 しかし、観客の認知システムの違いにより、ユーモアの知覚は極めて主観的になる可能性がある。 したがって、ある節は異なる読者によって異なる程度に面白いと見なすことができる。 これにより、多様なユーモアの好みに適応できるユーモラステキスト認識モデルのトレーニングが極めて困難になる。 本稿では,フェデレートラーニング(FL)を通してユーモラステキストをパーソナライズされた方法で認識するためのFedHumorアプローチを提案する。 ユーモアスコアの全体分布と、与えられたテキストに対する個人によるユーモアラベルを共同で検討できる連合BERTモデルである。 幅広い実験は、9つの最先端のユーモア認識アプローチと比較して、多様なユーモア嗜好を持つ人々に対するユーモア内容の正確な認識において、FedHumorの顕著な利点を示している。

Understanding humor is critical to creative language modeling with many applications in human-AI interaction. However, due to differences in the cognitive systems of the audience, the perception of humor can be highly subjective. Thus, a given passage can be regarded as funny to different degrees by different readers. This makes training humorous text recognition models that can adapt to diverse humor preferences highly challenging. In this paper, we propose the FedHumor approach to recognize humorous text contents in a personalized manner through federated learning (FL). It is a federated BERT model capable of jointly considering the overall distribution of humor scores with humor labels by individuals for given texts. Extensive experiments demonstrate significant advantages of FedHumor in recognizing humor contents accurately for people with diverse humor preferences compared to 9 state-of-the-art humor recognition approaches.
翻訳日:2021-05-23 15:01:02 公開日:2020-12-03
# 多言語神経rst談話解析

Multilingual Neural RST Discourse Parsing ( http://arxiv.org/abs/2012.01704v1 )

ライセンス: Link先を確認
Zhengyuan Liu, Ke Shi, Nancy F. Chen(参考訳) 自然言語における情報の流れや議論的構造を理解する上で,文言解析は重要な役割を果たす。 RST(Rhetorical Structure Theory)の下でのこれまでの研究は、主にイギリスのツリーバンクのモデルの作成と評価に重点を置いてきた。 しかし、ドイツ語、オランダ語、ポルトガル語などの他の言語に対する構文解析タスクは、注釈付きデータの不足のため依然として困難である。 本研究では,(1)多言語ベクトル表現を活用すること,(2)ソースコンテンツのセグメントレベルの翻訳を採用することによる,ニューラルな言語間対話パーサを確立するための2つの手法について検討する。 実験結果から,両手法は訓練データに制限があっても有効であり,すべてのサブタスクにおいて,言語横断で文書レベルの言論解析を行う上で,最先端の性能を実現することができることがわかった。

Text discourse parsing plays an important role in understanding information flow and argumentative structure in natural language. Previous research under the Rhetorical Structure Theory (RST) has mostly focused on inducing and evaluating models from the English treebank. However, the parsing tasks for other languages such as German, Dutch, and Portuguese are still challenging due to the shortage of annotated data. In this work, we investigate two approaches to establish a neural, cross-lingual discourse parser via: (1) utilizing multilingual vector representations; and (2) adopting segment-level translation of the source content. Experiment results show that both methods are effective even with limited training data, and achieve state-of-the-art performance on cross-lingual, document-level discourse parsing on all sub-tasks.
翻訳日:2021-05-23 15:00:48 公開日:2020-12-03
# 不均一グラフ注意ネットワークを用いたラベル強化イベント検出

Label Enhanced Event Detection with Heterogeneous Graph Attention Networks ( http://arxiv.org/abs/2012.01878v1 )

ライセンス: Link先を確認
Shiyao Cui, Bowen Yu, Xin Cong, Tingwen Liu, Quangang Li and Jinqiao Shi(参考訳) Event Detection (ED)は、テキスト内の特定の種類のイベントトリガーのインスタンスを認識することを目的としている。 英語のEDと異なり、中国語のEDは、不確実な単語境界のため、単語・トリガーミスマッチの問題に悩まされている。 文字レベルのモデルに単語情報を注入する既存のアプローチは、この問題を軽減するために有望な進歩を遂げてきたが、2つの問題によって制限されている。 第一に、文字と語彙の相互作用は完全には利用されない。 次に、イベントラベルが提供する意味情報を無視する。 そこで我々はラベル拡張型グラフアテンションネットワーク(l-hgat)という新しいアーキテクチャを提案する。 具体的には、各文を、文字ノードと単語ノードが異なる種類のエッジに接続されたグラフに変換することにより、単語と文字の相互作用が完全に確保される。 異種グラフアテンションネットワークを導入し、リレーショナルメッセージを伝達し、情報相互作用を強化する。 さらに、各ラベルをトリガプロトタイプベースの埋め込みに変換し、マージン損失を設計することで、混乱したイベントラベルを区別する。 2つのベンチマークデータセットの実験により、我々のモデルは、競争力のあるベースライン手法よりも大幅に改善されていることが示された。

Event Detection (ED) aims to recognize instances of specified types of event triggers in text. Different from English ED, Chinese ED suffers from the problem of word-trigger mismatch due to the uncertain word boundaries. Existing approaches injecting word information into character-level models have achieved promising progress to alleviate this problem, but they are limited by two issues. First, the interaction between characters and lexicon words is not fully exploited. Second, they ignore the semantic information provided by event labels. We thus propose a novel architecture named Label enhanced Heterogeneous Graph Attention Networks (L-HGAT). Specifically, we transform each sentence into a graph, where character nodes and word nodes are connected with different types of edges, so that the interaction between words and characters is fully reserved. A heterogeneous graph attention networks is then introduced to propagate relational message and enrich information interaction. Furthermore, we convert each label into a trigger-prototype-based embedding, and design a margin loss to guide the model distinguish confusing event labels. Experiments on two benchmark datasets show that our model achieves significant improvement over a range of competitive baseline methods.
翻訳日:2021-05-23 15:00:05 公開日:2020-12-03
# Rel3D:3次元における接地空間関係の最小コントラストベンチマーク

Rel3D: A Minimally Contrastive Benchmark for Grounding Spatial Relations in 3D ( http://arxiv.org/abs/2012.01634v1 )

ライセンス: Link先を確認
Ankit Goyal, Kaiyu Yang, Dawei Yang, Jia Deng(参考訳) 視覚入力における空間関係(例えば「テーブル上のラップトップ」)の理解は人間とロボットの両方にとって重要である。 既存のデータセットは、空間関係の学習に欠かせない大規模で高品質な3D基底真理情報を欠いているため、不十分である。 本稿では,空間関係を3dで接地する最初の大規模・人間注釈データセットrel3dを構築し,そのギャップを埋める。 rel3dは、大規模ヒトデータにおける空間関係の予測における3次元情報の有効性を定量化する。 さらに,データセットバイアスを低減する新たなクラウドソーシング手法として,最小限のコントラストデータ収集を提案する。 データセットの3Dシーンは、最小限の対照的なペアで構成されている。ペア内の2つのシーンはほぼ同じだが、空間的関係は1つに留まり、もう1つに失敗する。 我々は、最小限の対照的な例が、現在の関係検出モデルにおける問題を診断し、サンプル効率のトレーニングにつながることを実証的に検証する。 コードとデータはhttps://github.com/princeton-vl/rel3dで入手できる。

Understanding spatial relations (e.g., "laptop on table") in visual input is important for both humans and robots. Existing datasets are insufficient as they lack large-scale, high-quality 3D ground truth information, which is critical for learning spatial relations. In this paper, we fill this gap by constructing Rel3D: the first large-scale, human-annotated dataset for grounding spatial relations in 3D. Rel3D enables quantifying the effectiveness of 3D information in predicting spatial relations on large-scale human data. Moreover, we propose minimally contrastive data collection -- a novel crowdsourcing method for reducing dataset bias. The 3D scenes in our dataset come in minimally contrastive pairs: two scenes in a pair are almost identical, but a spatial relation holds in one and fails in the other. We empirically validate that minimally contrastive examples can diagnose issues with current relation detection models as well as lead to sample-efficient training. Code and data are available at https://github.com/princeton-vl/Rel3D.
翻訳日:2021-05-23 14:59:28 公開日:2020-12-03
# ファウショット分類のためのメタ生成深度測定

Meta-Generating Deep Attentive Metric for Few-shot Classification ( http://arxiv.org/abs/2012.01641v1 )

ライセンス: Link先を確認
Lei Zhang, Fei Zhou, Wei Wei and Yanning Zhang(参考訳) タスク認識ベース学習者を生成する学習は,FSL問題に対処するための有望な方向性を示す。 既存の手法は主に、固定されたメートル法(例えば、コサイン距離)で近似された埋め込みモデルを生成することに焦点を当てている。 しかし、そのような単純な計量や分類器の限定的な識別能力のため、これらの手法は問題のあるケースに適切に一般化できない。 この問題を軽減するために,タスク記述(例:いくつかのラベル付きサンプル)に基づいて,新しいFSLタスクの特定のメトリックを適応的に生成する,直交方向へ変換する新しいディープメトリックメタジェネレーション手法を提案する。 本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。 さらに,ネットワーク生成のためにラベル付きサンプルに条件付けされた一様重量分布を利用する既存の方法とは異なり,提案メタラーナーは,各クラス毎の特定のクラス間差分統計を別々に取得し,各クラス毎の統計を計量生成に組み込むことができるようにして,クロスクラスサンプル対に条件付けされた多モード重量分布を確立する。 これにより、生成したメトリックを新たなFSLタスクに適切に適合させ、一般化性能を満足させることができる。 これを示すために、提案手法を4つのベンチマークFSLデータセットで検証し、特に難易度の高い場合、特にミニイメージネットの20ウェイ1ショットタスクでは26.14%から46.69%に精度を向上し、FC100の5ウェイ1ショットタスクでは45.2%から68.72%に精度を向上した。 コードはhttps://github.com/nwpuzhoufei/dam。

Learning to generate a task-aware base learner proves a promising direction to deal with few-shot learning (FSL) problem. Existing methods mainly focus on generating an embedding model utilized with a fixed metric (eg, cosine distance) for nearest neighbour classification or directly generating a linear classier. However, due to the limited discriminative capacity of such a simple metric or classifier, these methods fail to generalize to challenging cases appropriately. To mitigate this problem, we present a novel deep metric meta-generation method that turns to an orthogonal direction, ie, learning to adaptively generate a specific metric for a new FSL task based on the task description (eg, a few labelled samples). In this study, we structure the metric using a three-layer deep attentive network that is flexible enough to produce a discriminative metric for each task. Moreover, different from existing methods that utilize an uni-modal weight distribution conditioned on labelled samples for network generation, the proposed meta-learner establishes a multi-modal weight distribution conditioned on cross-class sample pairs using a tailored variational autoencoder, which can separately capture the specific inter-class discrepancy statistics for each class and jointly embed the statistics for all classes into metric generation. By doing this, the generated metric can be appropriately adapted to a new FSL task with pleasing generalization performance. To demonstrate this, we test the proposed method on four benchmark FSL datasets and gain surprisingly obvious performance improvement over state-of-the-art competitors, especially in the challenging cases, eg, improve the accuracy from 26.14% to 46.69% in the 20-way 1-shot task on miniImageNet, while improve the accuracy from 45.2% to 68.72% in the 5-way 1-shot task on FC100. Code is available: https://github.com/NWPUZhoufei/DAM.
翻訳日:2021-05-23 14:59:11 公開日:2020-12-03
# ゲート型バッチ正規化による複数対向摂動の回避に向けて

Towards Defending Multiple Adversarial Perturbations via Gated Batch Normalization ( http://arxiv.org/abs/2012.01654v1 )

ライセンス: Link先を確認
Aishan Liu, Shiyu Tang, Xianglong Liu, Xinyun Chen, Lei Huang, Zhuozhuo Tu, Dawn Song, Dacheng Tao(参考訳) 現在、ディープニューラルネットワークが敵の例に弱いことを示し、敵の攻撃に対する防御の開発を動機付けている。 しかし、既存の敵対的防御は、個々の摂動タイプに対するモデルのロバスト性を改善する。 最近の手法では、複数の$\ell_p$球における敵攻撃に対するモデルロバスト性を改善するが、各摂動型に対するそれらの性能は、まだ十分ではない。 この現象をよりよく理解するために、異なる種類の逆摂動が異なる領域から引き起こされるという、 \emph{multi-domain}仮説を提案する。 マルチドメイン仮説を用いて,複数の摂動型に対するロバスト性を改善するディープニューラルネットワークのための新しいビルディングブロックである \emph{Gated Batch Normalization (GBN)} を提案する。 GBNは、ゲートサブネットワークとマルチブランチバッチ正規化(BN)層で構成され、ゲートサブネットワークは異なる摂動型を分離し、それぞれのBNブランチは単一の摂動型を扱い、入力変換のためのドメイン固有の統計学を学ぶ。 そして、異なるブランチのフィーチャは、続くレイヤのドメイン不変表現としてアラインされる。 我々は,MNIST,CIFAR-10,Tiny-ImageNetに対する我々のアプローチを広範囲に評価し,GBNが従来の複数の摂動型に対する防御提案,すなわち$\ell_1$,$\ell_2$,$\ell_{\infty}$摂動を10~20\%で上回っていることを示す。

There is now extensive evidence demonstrating that deep neural networks are vulnerable to adversarial examples, motivating the development of defenses against adversarial attacks. However, existing adversarial defenses typically improve model robustness against individual specific perturbation types. Some recent methods improve model robustness against adversarial attacks in multiple $\ell_p$ balls, but their performance against each perturbation type is still far from satisfactory. To better understand this phenomenon, we propose the \emph{multi-domain} hypothesis, stating that different types of adversarial perturbations are drawn from different domains. Guided by the multi-domain hypothesis, we propose \emph{Gated Batch Normalization (GBN)}, a novel building block for deep neural networks that improves robustness against multiple perturbation types. GBN consists of a gated sub-network and a multi-branch batch normalization (BN) layer, where the gated sub-network separates different perturbation types, and each BN branch is in charge of a single perturbation type and learns domain-specific statistics for input transformation. Then, features from different branches are aligned as domain-invariant representations for the subsequent layers. We perform extensive evaluations of our approach on MNIST, CIFAR-10, and Tiny-ImageNet, and demonstrate that GBN outperforms previous defense proposals against multiple perturbation types, i.e, $\ell_1$, $\ell_2$, and $\ell_{\infty}$ perturbations, by large margins of 10-20\%.
翻訳日:2021-05-23 14:57:59 公開日:2020-12-03
# 単ショット物体検出のための並列残差二フュージョン特徴ピラミッドネットワーク

Parallel Residual Bi-Fusion Feature Pyramid Network for Accurate Single-Shot Object Detection ( http://arxiv.org/abs/2012.01724v1 )

ライセンス: Link先を確認
Ping-Yang Chen, Ming-Ching Chang, Jun-Wei Hsieh, Yong-Sheng Chen(参考訳) 高速かつ高精度な単発物体検出のための並列残差二フュージョン特徴ピラミッドネットワーク(PRB-FPN)を提案する。 特徴ピラミッド (FP) は近年の視覚的検出において広く用いられているが, FP のトップダウン経路はプールシフトによる正確な位置決めを保たない。 FPの利点は、より多くの層を持つ深いバックボーンを使用することによって弱まる。 この問題に対処するために,双方向(トップダウンおよびボトムアップ)融合と関連する改良を加えて,高精度なローカライゼーションを実現するための並列FP構造を提案する。 本手法は小型物体の検出に好適である。 1) ボトムアップ・フュージョン・モジュール (BFM) を用いた並列拡散FP構造を用いて, 小型・大型両方の物体を同時に高精度に検出する。 2) 結合再編成(core)モジュールは,機能融合のためのボトムアップ経路を提供し,低層特徴マップから失われた情報を復元する双方向融合fpを実現する。 (3) CORE 機能はよりリッチなコンテキスト情報を保持するためにさらに浄化される。 このような浄化は、トップダウンとボトムアップの両方の経路において、COREで数回繰り返し実行される。 (4) COREへの残留設計の追加は、広範囲(ディーパーまたは軽量)のバックボーンとのトレーニングと統合を容易にする新しいRe-COREモジュールにつながる。 提案ネットワークは,UAVDT17およびMS COCOデータセットの最先端性能を実現する。

We propose the Parallel Residual Bi-Fusion Feature Pyramid Network (PRB-FPN) for fast and accurate single-shot object detection. Feature Pyramid (FP) is widely used in recent visual detection, however the top-down pathway of FP cannot preserve accurate localization due to pooling shifting. The advantage of FP is weaken as deeper backbones with more layers are used. To address this issue, we propose a new parallel FP structure with bi-directional (top-down and bottom-up) fusion and associated improvements to retain high-quality features for accurate localization. Our method is particularly suitable for detecting small objects. We provide the following design improvements: (1) A parallel bifusion FP structure with a Bottom-up Fusion Module (BFM) to detect both small and large objects at once with high accuracy. (2) A COncatenation and RE-organization (CORE) module provides a bottom-up pathway for feature fusion, which leads to the bi-directional fusion FP that can recover lost information from lower-layer feature maps. (3) The CORE feature is further purified to retain richer contextual information. Such purification is performed with CORE in a few iterations in both top-down and bottom-up pathways. (4) The adding of a residual design to CORE leads to a new Re-CORE module that enables easy training and integration with a wide range of (deeper or lighter) backbones. The proposed network achieves state-of-the-art performance on UAVDT17 and MS COCO datasets.
翻訳日:2021-05-23 14:57:06 公開日:2020-12-03
# 文脈適応型トランスネットワークを用いた歩行者軌跡予測

Pedestrian Trajectory Prediction using Context-Augmented Transformer Networks ( http://arxiv.org/abs/2012.01757v1 )

ライセンス: Link先を確認
Khaled Saleh(参考訳) 共有都市交通環境における歩行者の軌道予測は、自動運転車(AV)の開発に直面する課題の1つと考えられている。 文献では、この問題はリカレントニューラルネットワーク(RNN)を用いて取り組まれることが多い。 歩行者の移動軌跡における時間的依存を捕捉するRNNの強力な能力にもかかわらず、より長いシーケンシャルなデータを扱う際には、それらが課題であると主張した。 そこで本研究では,近年,多くの逐次的タスクにおいてより効率的かつ高性能なrnnを実現するために,トランスフォーマーネットワークに基づくフレームワークを導入する。 我々は,歩行者の頑健な軌道予測を実現するため,過去の位置情報,エージェントインタラクション情報,シーン物理的意味情報の融合を枠組みへの入力として用いた。 共有都市交通環境における歩行者の2つの実生活データセットの枠組みを評価し,短期的および長期的予測の両面で比較ベースラインアプローチを上回った。

Forecasting the trajectory of pedestrians in shared urban traffic environments is still considered one of the challenging problems facing the development of autonomous vehicles (AVs). In the literature, this problem is often tackled using recurrent neural networks (RNNs). Despite the powerful capabilities of RNNs in capturing the temporal dependency in the pedestrians' motion trajectories, they were argued to be challenged when dealing with longer sequential data. Thus, in this work, we are introducing a framework based on the transformer networks that were shown recently to be more efficient and outperformed RNNs in many sequential-based tasks. We relied on a fusion of the past positional information, agent interactions information and scene physical semantics information as an input to our framework in order to provide a robust trajectory prediction of pedestrians. We have evaluated our framework on two real-life datasets of pedestrians in shared urban traffic environments and it has outperformed the compared baseline approaches in both short-term and long-term prediction horizons.
翻訳日:2021-05-23 14:56:19 公開日:2020-12-03
# 猫と犬を超えて:過剰クラスタリングによるファジィラベルの半教師付き分類

Beyond Cats and Dogs: Semi-supervised Classification of fuzzy labels with overclustering ( http://arxiv.org/abs/2012.01768v1 )

ライセンス: Link先を確認
Lars Schmarje and Johannes Br\"unger and Monty Santarossa and Simon-Martin Schr\"oder and Rainer Kiko and Reinhard Koch(参考訳) ディープラーニングの長年の課題は、大規模で一貫性のあるラベル付きデータセットの必要性だ。 半教師あり学習における現在の研究は、注釈付きデータの必要な量を10以上減らすことができるが、それでも猫や犬のような異なるクラスを使っている。 しかし、現実世界では、異なる専門家が異なる意見を持つ問題にしばしば遭遇し、ファジィなラベルを生み出します。 ファジィラベルの半教師付き分類を扱うための新しい枠組みを提案する。 本フレームワークは,これらのファジィラベルのサブ構造を検出するためのオーバークラスタリングの考え方に基づいている。 我々は,このフレームワークのオーバークラスタ機能を改善するための新たな損失を提案し,従来よりも高速かつ優れたオーバークラスタ性能を有する共通画像分類データセットstl-10を提示する。 実世界のプランクトンデータセットでは、ファジィラベルに対するオーバークラスタリングの利点を説明し、従来の最先端の半教師付き手法に勝っていることを示す。 さらに,下位構造のより一貫性のある予測を5~10%獲得する。

A long-standing issue with deep learning is the need for large and consistently labeled datasets. Although the current research in semi-supervised learning can decrease the required amount of annotated data by a factor of 10 or even more, this line of research still uses distinct classes like cats and dogs. However, in the real-world we often encounter problems where different experts have different opinions, thus producing fuzzy labels. We propose a novel framework for handling semi-supervised classifications of such fuzzy labels. Our framework is based on the idea of overclustering to detect substructures in these fuzzy labels. We propose a novel loss to improve the overclustering capability of our framework and show on the common image classification dataset STL-10 that it is faster and has better overclustering performance than previous work. On a real-world plankton dataset, we illustrate the benefit of overclustering for fuzzy labels and show that we beat previous state-of-the-art semisupervised methods. Moreover, we acquire 5 to 10% more consistent predictions of substructures.
翻訳日:2021-05-23 14:56:03 公開日:2020-12-03
# 生成的対立ネットワークによる顔生成の属性

Attributes Aware Face Generation with Generative Adversarial Networks ( http://arxiv.org/abs/2012.01782v1 )

ライセンス: Link先を確認
Zheng Yuan, Jie Zhang, Shiguang Shan, Xilin Chen(参考訳) 最近の研究では、顔画像の世代で顕著な成功を収めている。 しかし、既存の手法のほとんどはランダムノイズからのみ顔画像を生成し、特定の属性に従って顔画像を生成することはできない。 本稿では,属性に対応する特定の特徴を持つ顔を生成することを目的とした属性からの顔合成の問題に焦点をあてる。 そこで本研究では,AFGANと呼ばれる生成対向ネットワークを用いた新たな属性認識顔画像生成手法を提案する。 具体的には,まず,バイナリ属性ベクトルをリッチ属性に変換する2パス埋め込み層と自己アテンション機構を提案する。 3つのスタックジェネレータは属性機能を入力として、それぞれ64 \times 64$、128 \times 128$と256 \times 256$のフェイスイメージを生成する。 さらに、生成した画像と入力属性の相関性を高めるために、画像-属性マッチング損失を提案する。 CelebAに関する大規模な実験は、定性評価と定量的評価の両方の観点からAFGANの優位性を示している。

Recent studies have shown remarkable success in face image generations. However, most of the existing methods only generate face images from random noise, and cannot generate face images according to the specific attributes. In this paper, we focus on the problem of face synthesis from attributes, which aims at generating faces with specific characteristics corresponding to the given attributes. To this end, we propose a novel attributes aware face image generator method with generative adversarial networks called AFGAN. Specifically, we firstly propose a two-path embedding layer and self-attention mechanism to convert binary attribute vector to rich attribute features. Then three stacked generators generate $64 \times 64$, $128 \times 128$ and $256 \times 256$ resolution face images respectively by taking the attribute features as input. In addition, an image-attribute matching loss is proposed to enhance the correlation between the generated images and input attributes. Extensive experiments on CelebA demonstrate the superiority of our AFGAN in terms of both qualitative and quantitative evaluations.
翻訳日:2021-05-23 14:55:47 公開日:2020-12-03
# D-Unet:イメージスプライシングフォージェリ検出とローカライゼーションのためのデュアルエンコーダU-Net

D-Unet: A Dual-encoder U-Net for Image Splicing Forgery Detection and Localization ( http://arxiv.org/abs/2012.01821v1 )

ライセンス: Link先を確認
Xiuli Bi, Yanbin Liu, Bin Xiao, Weisheng Li, Chi-Man Pun, Guoyin Wang, and Xinbo Gao(参考訳) 近年,画像スプライシング偽造検出のための畳み込みニューラルネットワーク(cnns)に基づく検出手法が多数提案されている。 これらの検出手法のほとんどは、ローカルパッチやローカルオブジェクトにフォーカスする。 実際、画像スプライシング偽造検出は、画像指紋によって改ざんされた領域と非スタンプ領域を区別するグローバルバイナリ分類タスクである。 しかし、特定の画像内容はCNNベースの検出ネットワークではほとんど保持されないが、含めればネットワークの検出精度が向上する。 そこで本稿では,未固定エンコーダと固定エンコーダを用いた画像スプライシング偽造検出のための,デュアルエンコーダu-net (d-unet) と呼ばれる新しいネットワークを提案する。 非固定エンコーダは、改ざんされた領域と非タンパリング領域とを区別する画像指紋を自律的に学習するが、固定エンコーダは故意にネットワークの学習および検出を支援する方向情報を提供する。 このデュアルエンコーダは、より正確に改ざんされた領域と非改ざん領域を分類するためのD-Unetのグローバルな洞察を拡大する空間ピラミッドグローバルフィーチャー抽出モジュールが続く。 D-Unetと最先端の手法の実験的比較研究において、D-Unetは多数の偽画像の事前訓練や訓練を必要とせず、画像レベルおよび画素レベルの検出において他の手法よりも優れていた。 さらに、異なる攻撃に対して安定的に頑健であった。

Recently, many detection methods based on convolutional neural networks (CNNs) have been proposed for image splicing forgery detection. Most of these detection methods focus on the local patches or local objects. In fact, image splicing forgery detection is a global binary classification task that distinguishes the tampered and non-tampered regions by image fingerprints. However, some specific image contents are hardly retained by CNN-based detection networks, but if included, would improve the detection accuracy of the networks. To resolve these issues, we propose a novel network called dual-encoder U-Net (D-Unet) for image splicing forgery detection, which employs an unfixed encoder and a fixed encoder. The unfixed encoder autonomously learns the image fingerprints that differentiate between the tampered and non-tampered regions, whereas the fixed encoder intentionally provides the direction information that assists the learning and detection of the network. This dual-encoder is followed by a spatial pyramid global-feature extraction module that expands the global insight of D-Unet for classifying the tampered and non-tampered regions more accurately. In an experimental comparison study of D-Unet and state-of-the-art methods, D-Unet outperformed the other methods in image-level and pixel-level detection, without requiring pre-training or training on a large number of forgery images. Moreover, it was stably robust to different attacks.
翻訳日:2021-05-23 14:55:32 公開日:2020-12-03
# co-mining:sparsely annotated object detectionのための自己教師付き学習

Co-mining: Self-Supervised Learning for Sparsely Annotated Object Detection ( http://arxiv.org/abs/2012.01950v1 )

ライセンス: Link先を確認
Tiancai Wang, Tong Yang, Jiale Cao, Xiangyu Zhang(参考訳) オブジェクト検出器は通常、完全なインスタンスアノテーションの監督で有望な結果を達成する。 しかし、それらのパフォーマンスはスパースインスタンスアノテーションに満足できない。 sparsely annotated object detectionの既存の方法の多くは、ハードネガティブなサンプルの損失を再強調するか、ラベルなしのインスタンスを無視された領域に変換して偽陰性の干渉を減らすかのどちらかである。 これらの戦略は、アノテーションの欠如によるネガティブな影響をほとんど軽減できないため、不十分であると主張する。 本稿では,簡潔にアノテーションを付加したオブジェクト検出のための,Co-miningと呼ばれるシンプルで効果的な機構を提案する。 共同マイニングでは、シームズネットワークの2つのブランチが互いに擬似ラベルセットを予測する。 マルチビュー学習を強化し、ラベルなしのインスタンスをより良くマイニングするために、元の画像と対応する拡張画像がそれぞれ、シームズネットワークの2つのブランチの入力として使用される。 コマイニングは現代のほとんどの物体検出器に適用される一般的な訓練機構として機能する。 実験は、アンカーベース検出器RetinaNetとアンカーフリー検出器FCOSの2つの典型的なフレームワークを使用して、3つの異なるアノテートされた設定でMS COCOデータセット上で実施される。 実験結果から、RetinaNetとのコマイニングは、異なるベースラインと比較して1.4%~2.1%の改善を実現し、同じ簡潔なアノテート条件下で既存のメソッドを上回ります。

Object detectors usually achieve promising results with the supervision of complete instance annotations. However, their performance is far from satisfactory with sparse instance annotations. Most existing methods for sparsely annotated object detection either re-weight the loss of hard negative samples or convert the unlabeled instances into ignored regions to reduce the interference of false negatives. We argue that these strategies are insufficient since they can at most alleviate the negative effect caused by missing annotations. In this paper, we propose a simple but effective mechanism, called Co-mining, for sparsely annotated object detection. In our Co-mining, two branches of a Siamese network predict the pseudo-label sets for each other. To enhance multi-view learning and better mine unlabeled instances, the original image and corresponding augmented image are used as the inputs of two branches of the Siamese network, respectively. Co-mining can serve as a general training mechanism applied to most of modern object detectors. Experiments are performed on MS COCO dataset with three different sparsely annotated settings using two typical frameworks: anchor-based detector RetinaNet and anchor-free detector FCOS. Experimental results show that our Co-mining with RetinaNet achieves 1.4%~2.1% improvements compared with different baselines and surpasses existing methods under the same sparsely annotated setting.
翻訳日:2021-05-23 14:54:25 公開日:2020-12-03
# 脳腫瘍検出・分節のためのマルチタスク型アトラス残像ネットワーク

A Multi-task Contextual Atrous Residual Network for Brain Tumor Detection & Segmentation ( http://arxiv.org/abs/2012.02073v1 )

ライセンス: Link先を確認
Ngan Le, Kashu Yamazaki, Dat Truong, Kha Gia Quach, Marios Savvides(参考訳) 近年、深層ニューラルネットワークは、脳腫瘍のセグメンテーションを含む医療画像における様々な認識とセグメンテーションタスクにおいて最先端のパフォーマンスを達成している。 背景クラス(非腫瘍画素)に属する画素数(非腫瘍画素)が前景クラス(腫瘍画素)に属する画素数よりはるかに大きい不均衡データ問題に脳腫瘍のセグメント化が直面している。 この問題に対処するために,カスケード構造として形成されるマルチタスクネットワークを提案する。 本モデルは,脳腫瘍領域を効果的に識別し,脳腫瘍マスクを推定する2つのターゲットから構成される。 第1の目的は,脳腫瘍検出ネットワークとして注目ゲートの役割を担い,腫瘍との相関が低い遠方の背景を無視しながら,脳腫瘍周辺の領域に焦点をあてることである。 第2の目的は、大小のオブジェクト(脳腫瘍)を効果的に分割するために、3次元のアラス残留ネットワークとエンコード・デコードネットワークに基づいて構築される。 我々の3Dアラス残差ネットワークは、深い層からの勾配を浅い層に直接伝播させるためにスキップ接続で設計されており、異なる深さの特徴を保存し、互いに精製するために使用される。 ボリュームMRIデータからより大きなコンテキスト情報を組み込むため,我々のネットワークでは,様々なカーネルサイズを持つ3次元アトラス畳み込みを利用してフィルタの受容場を拡大する。 提案するネットワークは,BRATS2015,BRATS2017,BRATS2018の各データセットを検証セットとテストセットで評価した。 私たちのパフォーマンスは、地域ベースのメトリクスと表面ベースのメトリクスの両方でベンチマークされています。 また,最先端手法との比較を行った。

In recent years, deep neural networks have achieved state-of-the-art performance in a variety of recognition and segmentation tasks in medical imaging including brain tumor segmentation. We investigate that segmenting a brain tumor is facing to the imbalanced data problem where the number of pixels belonging to the background class (non tumor pixel) is much larger than the number of pixels belonging to the foreground class (tumor pixel). To address this problem, we propose a multi-task network which is formed as a cascaded structure. Our model consists of two targets, i.e., (i) effectively differentiate the brain tumor regions and (ii) estimate the brain tumor mask. The first objective is performed by our proposed contextual brain tumor detection network, which plays a role of an attention gate and focuses on the region around brain tumor only while ignoring the far neighbor background which is less correlated to the tumor. The second objective is built upon a 3D atrous residual network and under an encode-decode network in order to effectively segment both large and small objects (brain tumor). Our 3D atrous residual network is designed with a skip connection to enables the gradient from the deep layers to be directly propagated to shallow layers, thus, features of different depths are preserved and used for refining each other. In order to incorporate larger contextual information from volume MRI data, our network utilizes the 3D atrous convolution with various kernel sizes, which enlarges the receptive field of filters. Our proposed network has been evaluated on various datasets including BRATS2015, BRATS2017 and BRATS2018 datasets with both validation set and testing set. Our performance has been benchmarked by both region-based metrics and surface-based metrics. We also have conducted comparisons against state-of-the-art approaches.
翻訳日:2021-05-23 14:53:34 公開日:2020-12-03
# RGB-D スキャンのパートベース理解に向けて

Towards Part-Based Understanding of RGB-D Scans ( http://arxiv.org/abs/2012.02094v1 )

ライセンス: Link先を確認
Alexey Bokhovkin, Vladislav Ishimtsev, Emil Bogomolov, Denis Zorin, Alexey Artemov, Evgeny Burnaev, Angela Dai(参考訳) 近年の3次元セマンティック・シーン理解の進歩は、3次元のインスタンス・セグメンテーションの顕著な進歩を示し、3次元のシーンに関するオブジェクトレベルの推論を可能にしている。 そこで我々は,シーンのRGB-Dスキャンからオブジェクトを検出し,各オブジェクトが幾何学的な部分マスクに分解することを予測し,観察対象の完全な形状を合成する,実世界の3D環境をパートベースで理解するタスクを提案する。 我々は、中間部分グラフ表現を活用して、ロバストな補完と、最終的な部分マスク予測を構築するために使用する部分事前の構築を可能にする。 実験により,パートグラフから事前予測への部分理解が,意味的部分補完のタスクに対する代替アプローチを大幅に上回ることを示した。

Recent advances in 3D semantic scene understanding have shown impressive progress in 3D instance segmentation, enabling object-level reasoning about 3D scenes; however, a finer-grained understanding is required to enable interactions with objects and their functional understanding. Thus, we propose the task of part-based scene understanding of real-world 3D environments: from an RGB-D scan of a scene, we detect objects, and for each object predict its decomposition into geometric part masks, which composed together form the complete geometry of the observed object. We leverage an intermediary part graph representation to enable robust completion as well as building of part priors, which we use to construct the final part mask predictions. Our experiments demonstrate that guiding part understanding through part graph to part prior-based predictions significantly outperforms alternative approaches to the task of semantic part completion.
翻訳日:2021-05-23 14:53:07 公開日:2020-12-03
# MakeupBag: メイクアップの抽出と応用

MakeupBag: Disentangling Makeup Extraction and Application ( http://arxiv.org/abs/2012.02157v1 )

ライセンス: Link先を確認
Dokhyam Hoshen(参考訳) 本稿では,自動メイクスタイル転送方式であるMakeupBagを紹介する。 提案手法は,新しいメイクスタイルを基準顔画像からこれまで見られなかった別の顔写真に転送することができる。 2つのタスクを絡める他の深い方法とは対照的に,化粧の絡み合いや顔のメイクアップを分離可能な目的として解決する。 MakeupBagは、現在の方法では不可能な、抽出したメイクスタイルのカスタマイズとピクセル固有の修正を可能にするため、我々のアプローチにとって大きな利点である。 本手法により得られた画像の品質と精度を,定性的かつ数値的に検証した。 さらに、他のほとんどの方法とは対照的に、MakeupBagは古典的、極端な化粧品の移り変わりに対処している。 比較分析では、MakeupBagは現在の最先端のアプローチより優れていることが示されている。

This paper introduces MakeupBag, a novel method for automatic makeup style transfer. Our proposed technique can transfer a new makeup style from a reference face image to another previously unseen facial photograph. We solve makeup disentanglement and facial makeup application as separable objectives, in contrast to other current deep methods that entangle the two tasks. MakeupBag presents a significant advantage for our approach as it allows customization and pixel specific modification of the extracted makeup style, which is not possible using current methods. Extensive experiments, both qualitative and numerical, are conducted demonstrating the high quality and accuracy of the images produced by our method. Furthermore, in contrast to most other current methods, MakeupBag tackles both classical and extreme and costume makeup transfer. In a comparative analysis, MakeupBag is shown to outperform current state-of-the-art approaches.
翻訳日:2021-05-23 14:52:08 公開日:2020-12-03
# セルフラベル条件付きgan

Self-labeled Conditional GANs ( http://arxiv.org/abs/2012.02162v1 )

ライセンス: Link先を確認
Mehdi Noroozi(参考訳) 本稿では,データからラベルを自動取得する条件付きgan学習のための新しい教師なしフレームワークを提案する。 我々は、クラスタリングネットワークを標準的な条件付きGANフレームワークに組み込み、差別化と対戦する。 ジェネレータは、偽のラベルと偽のイメージを関連付けるための共有構造化マッピングを見つけることを目的としている。 当社のジェネレータは、ImageNetやLSUNといった大規模データセットに対して、大きなマージンを持つFIDの観点から非条件GANよりも優れています。 また、cifar10とcifar100の人間のラベルでトレーニングされたクラス条件付きganよりも優れており、細かいアノテーションやクラスごとの大量のサンプルは利用できない。 さらに、クラスタリングネットワークは、CIFAR100クラスタリングの最先端を超えています。

This paper introduces a novel and fully unsupervised framework for conditional GAN training in which labels are automatically obtained from data. We incorporate a clustering network into the standard conditional GAN framework that plays against the discriminator. With the generator, it aims to find a shared structured mapping for associating pseudo-labels with the real and fake images. Our generator outperforms unconditional GANs in terms of FID with significant margins on large scale datasets like ImageNet and LSUN. It also outperforms class conditional GANs trained on human labels on CIFAR10 and CIFAR100 where fine-grained annotations or a large number of samples per class are not available. Additionally, our clustering network exceeds the state-of-the-art on CIFAR100 clustering.
翻訳日:2021-05-23 14:51:54 公開日:2020-12-03
# BoxInst: Boxアノテーションによる高性能インスタンスセグメンテーション

BoxInst: High-Performance Instance Segmentation with Box Annotations ( http://arxiv.org/abs/2012.02310v1 )

ライセンス: Link先を確認
Zhi Tian, Chunhua Shen, Xinlong Wang, Hao Chen(参考訳) トレーニング用バウンディングボックスアノテーションのみを用いて,マスクレベルのインスタンスセグメンテーションを実現する高性能な手法を提案する。 この設定は文献で研究されているが、単純な設計(例えば、前回報告されたマスクapの21.1%をhsu等で劇的に改善するなど)で大幅に性能が向上している。 (2019) - COCOデータセットで31.6%。 私たちの核となるアイデアは、セグメンテーションネットワーク自体を変更することなく、インスタンスセグメンテーションにおける学習マスクの損失を再設計することです。 新しいロス機能は、マスクアノテーションに頼ることなく、マスクトレーニングを監視できる。 これにより、2つの損失項、すなわち1)接地箱の投影と予測マスクとの差を最小限に抑えるサロゲート項、2)類似色を持つ近位画素が同じカテゴリラベルを持つ可能性が非常に高いという先行を生かすことができる対方向の損失という2つの損失項が実現される。 再設計されたマスクの損失は、ボックスアノテーションだけで驚くほど高品質なインスタンスマスクを生み出すことができる。 例えば、マスクアノテーションを一切使わずに、ResNet-101のバックボーンと3xのトレーニングスケジュールを持ち、COCOテストデブ分割(vs.39.1%)で33.2%のマスクAPを達成する。 COCO と Pascal VOC の優れた実験結果から,本手法は弱小と完全教師付きインスタンスセグメンテーション間の性能ギャップを劇的に狭めることが示唆された。 コードは、https://git.io/AdelaiDet.comで入手できる。

We present a high-performance method that can achieve mask-level instance segmentation with only bounding-box annotations for training. While this setting has been studied in the literature, here we show significantly stronger performance with a simple design (e.g., dramatically improving previous best reported mask AP of 21.1% in Hsu et al. (2019) to 31.6% on the COCO dataset). Our core idea is to redesign the loss of learning masks in instance segmentation, with no modification to the segmentation network itself. The new loss functions can supervise the mask training without relying on mask annotations. This is made possible with two loss terms, namely, 1) a surrogate term that minimizes the discrepancy between the projections of the ground-truth box and the predicted mask; 2) a pairwise loss that can exploit the prior that proximal pixels with similar colors are very likely to have the same category label. Experiments demonstrate that the redesigned mask loss can yield surprisingly high-quality instance masks with only box annotations. For example, without using any mask annotations, with a ResNet-101 backbone and 3x training schedule, we achieve 33.2% mask AP on COCO test-dev split (vs. 39.1% of the fully supervised counterpart). Our excellent experiment results on COCO and Pascal VOC indicate that our method dramatically narrows the performance gap between weakly and fully supervised instance segmentation. Code is available at: https://git.io/AdelaiDet
翻訳日:2021-05-23 14:51:28 公開日:2020-12-03
# 畳み込み共有によるエッジでの協調映像センシングの実現

Enabling Collaborative Video Sensing at the Edge through Convolutional Sharing ( http://arxiv.org/abs/2012.08643v1 )

ライセンス: Link先を確認
Kasthuri Jayarajah, Dhanuja Wanniarachchige, Archan Misra(参考訳) Deep Neural Network(DNN)モデルは、マシンビジョン機能に顕著な進歩をもたらしたが、その高い計算複雑性とモデルサイズは、AIoTベースのセンシングアプリケーションにデプロイする上で、重大な障害となる。 本稿では,ネットワーク内のピアノードが協調して,人物検出における精度を向上させる新しいパラダイムを提案する。 提案手法は,DNNの再学習を必要とせず,かつ,協調者からシーン要約を抽出し,参照カメラのDNNにオンザフライで注入することにより,最小の処理遅延を発生させる。 初期の結果は、ベンチマークデータセット上で、単一のコラボレータで最大10%のリコールの改善を約束している。

While Deep Neural Network (DNN) models have provided remarkable advances in machine vision capabilities, their high computational complexity and model sizes present a formidable roadblock to deployment in AIoT-based sensing applications. In this paper, we propose a novel paradigm by which peer nodes in a network can collaborate to improve their accuracy on person detection, an exemplar machine vision task. The proposed methodology requires no re-training of the DNNs and incurs minimal processing latency as it extracts scene summaries from the collaborators and injects back into DNNs of the reference cameras, on-the-fly. Early results show promise with improvements in recall as high as 10% with a single collaborator, on benchmark datasets.
翻訳日:2021-05-23 14:50:42 公開日:2020-12-03
# レーザー誘起破壊分光のためのディープスペクトルCNN

Deep Spectral CNN for Laser Induced Breakdown Spectroscopy ( http://arxiv.org/abs/2012.01653v1 )

ライセンス: Link先を確認
Juan Castorena, Diane Oyen, Ann Ollila, Carey Legget and Nina Lanza(参考訳) 本研究は,レーザー誘起分解スペクトル(libs)信号に作用するスペクトル畳み込みニューラルネットワーク(cnn)を提案し,(1)センサの不確かさの源(すなわち,前処理)からスペクトル信号を不連続化すること,(2)スペクトル信号(すなわちカリブレート)が与えられた試料の化学成分の質的・定量的測定を行うことを学習する。 スペクトルcnnがトレーニングされると、単一のフィードフォワードパスを通じて、リアルタイムのメリットとダーク電流、システム応答、温度、ターゲット範囲などの追加のサイド情報要求なしで、どちらのタスクも達成できる。 提案手法は,火星探査機「キュリオシティ(curiosity)」によるリモートセンシング観測の前処理とキャリブレーションに使用される既存の手法を上回っている。

This work proposes a spectral convolutional neural network (CNN) operating on laser induced breakdown spectroscopy (LIBS) signals to learn to (1) disentangle spectral signals from the sources of sensor uncertainty (i.e., pre-process) and (2) get qualitative and quantitative measures of chemical content of a sample given a spectral signal (i.e., calibrate). Once the spectral CNN is trained, it can accomplish either task through a single feed-forward pass, with real-time benefits and without any additional side information requirements including dark current, system response, temperature and detector-to-target range. Our experiments demonstrate that the proposed method outperforms the existing approaches used by the Mars Science Lab for pre-processing and calibration for remote sensing observations from the Mars rover, 'Curiosity'.
翻訳日:2021-05-23 14:50:30 公開日:2020-12-03
# クロスロス影響関数を用いたディープネットワーク表現の解説

Using Cross-Loss Influence Functions to Explain Deep Network Representations ( http://arxiv.org/abs/2012.01685v1 )

ライセンス: Link先を確認
Andrew Silva, Rohit Chopra, and Matthew Gombolay(参考訳) 機械学習が現実世界にますます導入されるにつれて、トレーニングするモデルの意思決定基準を理解することがますます重要になります。 近年、深層ニューラルネットワークの分類精度に対するトレーニングサンプルの効果を近似するために、サンプルインパクトの統計的尺度である影響関数が拡張される可能性が示されている。 しかしながら、事前の作業は、トレーニングとテストが目的関数を共有する教師付き学習設定にのみ適用される。 教師なし学習、自己教師型学習、モデル事前学習の増加にもかかわらず、現在、トレーニングやテストを行わないディープネットワークの影響を推定するための適切な技術は存在しない。 この制限を克服するために、我々は、影響関数がミスマッチしたトレーニングとテストの設定を扱うように拡張できる、最初の理論的および実証的な実証を提供する。 その結果, 教師なし, 自己監督型トレーニング例の影響を, 教師付きテスト対象に対して計算できることがわかった。 この手法を合成データセットと2つのSkip-gram言語モデルで実証し、クラスタメンバシップと不要なバイアス源について検討する。

As machine learning is increasingly deployed in the real world, it is ever more vital that we understand the decision-criteria of the models we train. Recently, researchers have shown that influence functions, a statistical measure of sample impact, may be extended to approximate the effects of training samples on classification accuracy for deep neural networks. However, prior work only applies to supervised learning setups where training and testing share an objective function. Despite the rise in unsupervised learning, self-supervised learning, and model pre-training, there are currently no suitable technologies for estimating influence of deep networks that do not train and test on the same objective. To overcome this limitation, we provide the first theoretical and empirical demonstration that influence functions can be extended to handle mismatched training and testing settings. Our result enables us to compute the influence of unsupervised and self-supervised training examples with respect to a supervised test objective. We demonstrate this technique on a synthetic dataset as well as two Skip-gram language model examples to examine cluster membership and sources of unwanted bias.
翻訳日:2021-05-23 14:50:13 公開日:2020-12-03
# 自己回帰学習と非自己回帰学習に関する研究

A Study on the Autoregressive and non-Autoregressive Multi-label Learning ( http://arxiv.org/abs/2012.01711v1 )

ライセンス: Link先を確認
Elham J. Barezi, Iacer Calixto, Kyunghyun Cho, Pascale Fung(参考訳) 極端分類タスクは、非常に多くのラベル(タグ)を持つマルチラベルタスクである。 これらのタスクは、ラベル空間は通常(i)非常に大きいので難しい。 何千、何百万というラベル(ii)は非常にまばらです。 非常に少数のラベルが各入力文書に適用され、(iii)高い相関関係があり、1つのラベルの存在が他のすべてのラベルを予測する可能性を変化させます。 本研究では,ラベルとラベルの依存関係を共同で抽出し,与えられた入力に対してラベルを予測するために,自己アテンションに基づく変分エンコーダモデルを提案する。 より詳しくは、非自己回帰潜在変数モデルを提案し、前述した全てのラベルに基づいてラベルを予測する強力な自己回帰ベースラインと比較する。 そこで本モデルでは,ラベルラベルとラベル機能の両方の依存性を潜伏変数を通じて含みながら,すべてのラベルを並列に予測することができる。 我々は,4つの標準極端分類自然言語データセットと,セマンティック概念の語彙からラベルの自動検出のためのニュースビデオデータセットに適用した。 実験結果から,チェーン順ラベルの予測にラベルの所定の順序を使用する自己回帰モデルは,小規模ラベルや高ランクラベルの予測に優れるが,我々の非自己回帰モデルは,より多くのラベルを予測する必要がある場合,約2%から6%の精度でラベルを上回り,データセットはより多くのラベルを持つことがわかった。

Extreme classification tasks are multi-label tasks with an extremely large number of labels (tags). These tasks are hard because the label space is usually (i) very large, e.g. thousands or millions of labels, (ii) very sparse, i.e. very few labels apply to each input document, and (iii) highly correlated, meaning that the existence of one label changes the likelihood of predicting all other labels. In this work, we propose a self-attention based variational encoder-model to extract the label-label and label-feature dependencies jointly and to predict labels for a given input. In more detail, we propose a non-autoregressive latent variable model and compare it to a strong autoregressive baseline that predicts a label based on all previously generated labels. Our model can therefore be used to predict all labels in parallel while still including both label-label and label-feature dependencies through latent variables, and compares favourably to the autoregressive baseline. We apply our models to four standard extreme classification natural language data sets, and one news videos dataset for automated label detection from a lexicon of semantic concepts. Experimental results show that although the autoregressive models, where use a given order of the labels for chain-order label prediction, work great for the small scale labels or the prediction of the highly ranked label, but our non-autoregressive model surpasses them by around 2% to 6% when we need to predict more labels, or the dataset has a larger number of the labels.
翻訳日:2021-05-23 14:49:57 公開日:2020-12-03
# ニューラルアーキテクチャサーチを用いた自動ランタビリティ予測器の開発

Automatic Routability Predictor Development Using Neural Architecture Search ( http://arxiv.org/abs/2012.01737v1 )

ライセンス: Link先を確認
Jingyu Pan, Chen-Chia Chang, Tunhou Zhang, Zhiyao Xie, Jiang Hu, Weiyi Qi, Chung-Wei Lin, Rongjian Liang, Joydeep Mitra, Elias Fallon and Yiran Chen(参考訳) 機械学習技術の台頭は、電子設計自動化(EDA)におけるその応用のブームを呼び起こし、チップ設計における自動化の度合いを向上させる。 しかしながら、手作業による機械学習モデルは、広範な人間的専門知識と膨大なエンジニアリング努力を必要とする。 本研究では,ニューラルネットワーク探索(NAS)を活用して,セル配置をルータブルな解へ誘導するルタビリティ予測のための高品質なニューラルアーキテクチャを自動開発する。 実験結果は、自動生成されたニューラルネットワークが手動のソリューションを明らかに上回っていることを示している。 手動設計モデルの平均ケースと比較して、NAS生成モデルは、DRCホットスポット検出において、DRC違反のネット数を予測する際に、Kendallの$\tau$5.6\%、ROC曲線(ROC-AUC)より大きい領域を1.95\%に達する。

The rise of machine learning technology inspires a boom of its applications in electronic design automation (EDA) and helps improve the degree of automation in chip designs. However, manually crafted machine learning models require extensive human expertise and tremendous engineering efforts. In this work, we leverage neural architecture search (NAS) to automatically develop high-quality neural architectures for routability prediction, which guides cell placement toward routable solutions. Experimental results demonstrate that the automatically generated neural architectures clearly outperform the manual solutions. Compared to the average case of manually designed models, NAS-generated models achieve $5.6\%$ higher Kendall's $\tau$ in predicting the number of nets with DRC violations and $1.95\%$ larger area under ROC curve (ROC-AUC) in DRC hotspots detection.
翻訳日:2021-05-23 14:49:33 公開日:2020-12-03
# ディープニューラルネットワークにおけるブラックボックス攻撃に対する導出自由最適化アルゴリズムの実証的研究

An Empirical Study of Derivative-Free-Optimization Algorithms for Targeted Black-Box Attacks in Deep Neural Networks ( http://arxiv.org/abs/2012.01901v1 )

ライセンス: Link先を確認
Giuseppe Ughi, Vinayak Abrol, Jared Tanner(参考訳) 本稿では,Deep Neural Network (DNN) 分類器に対するターゲットブラックボックス攻撃に対する微分自由最適化(DFO)アルゴリズムの性能について,摂動エネルギーが$\ell_\infty$制約で制限され,ネットワークへのクエリ数が制限されていることを前提として総合的に検討する。 本稿では,モデルベースDFO法であるBOBYQAに基づく新しいアルゴリズムの導入とともに,既存のDFOベースの4つのアルゴリズムについて考察する。 我々はこれらのアルゴリズムを、DNNに最大数のクエリを付与した画像を誤分類した数に応じて、様々な設定で比較する。 BOBYQAをベースとしたアルゴリズムは、特に小さな摂動エネルギーに対して有効であるのに対して、$\ell^\infty$制約の頂点に対する逆例の探索を制限するアルゴリズムは、特に構造的な防御なしにうまく機能する。 この性能のばらつきは、様々な設定における最先端のアルゴリズムと比較される新しいアルゴリズムの重要性と、可能な限り幅広いアルゴリズムを用いてテストされる敵防衛の有効性を強調している。

We perform a comprehensive study on the performance of derivative free optimization (DFO) algorithms for the generation of targeted black-box adversarial attacks on Deep Neural Network (DNN) classifiers assuming the perturbation energy is bounded by an $\ell_\infty$ constraint and the number of queries to the network is limited. This paper considers four pre-existing state-of-the-art DFO-based algorithms along with the introduction of a new algorithm built on BOBYQA, a model-based DFO method. We compare these algorithms in a variety of settings according to the fraction of images that they successfully misclassify given a maximum number of queries to the DNN. The experiments disclose how the likelihood of finding an adversarial example depends on both the algorithm used and the setting of the attack; algorithms limiting the search of adversarial example to the vertices of the $\ell^\infty$ constraint work particularly well without structural defenses, while the presented BOBYQA based algorithm works better for especially small perturbation energies. This variance in performance highlights the importance of new algorithms being compared to the state-of-the-art in a variety of settings, and the effectiveness of adversarial defenses being tested using as wide a range of algorithms as possible.
翻訳日:2021-05-23 14:49:15 公開日:2020-12-03
# 知的ディジタルツインの実現手段としてのトランスファーラーニング

Transfer Learning as an Enabler of the Intelligent Digital Twin ( http://arxiv.org/abs/2012.01913v1 )

ライセンス: Link先を確認
Benjamin Maschler, Dominik Braun, Nasser Jazdi, Michael Weyrich(参考訳) デジタル双子は、仮想コミッション、障害予測、再構成計画など、多くの分野で有益であると説明されている。 人工知能機能を備えたDigital Twinsの買収は、これらの有益なアプリケーションを大きく拡大したり、全く新しい分野のアプリケーションを開くことができる。 機械学習の文脈では、トランスファーラーニングは、以前に獲得した知識に基づいて新しいタスクを学習するための一連のアプローチである。 ここでは、機械学習アルゴリズムのトレーニングに必要なデータや時間を減らすために、知識をライフサイクルフェーズから別のフェーズに転送する。 インテリジェントなデジタルツインを使用すると、学習アルゴリズムは物理システムが存在する前に設計フェーズで設計、構成、テストされ、実際のデータが収集できます。 実際のデータが利用可能になったら、アルゴリズムは単に微調整されなければならず、コミッショニングが大幅にスピードアップし、コストのかかる修正の可能性が低下する。 さらに、Digital Twinのシミュレーション機能を使用することで、アルゴリズムの応答をトレーニングしたり、強化学習を使用するために、稀な障害を事実上注入する。 ロボットを教えることで 現実的に実現できます 本稿では,知的デジタルツインを用いた多段階産業移行学習のユースケースについて述べる。 ロボットアームを備えた自動溶接機と自動誘導車両とからなる実際のサイバー物理生産システムを用いて、それぞれの利点を説明する。

Digital Twins have been described as beneficial in many areas, such as virtual commissioning, fault prediction or reconfiguration planning. Equipping Digital Twins with artificial intelligence functionalities can greatly expand those beneficial applications or open up altogether new areas of application, among them cross-phase industrial transfer learning. In the context of machine learning, transfer learning represents a set of approaches that enhance learning new tasks based upon previously acquired knowledge. Here, knowledge is transferred from one lifecycle phase to another in order to reduce the amount of data or time needed to train a machine learning algorithm. Looking at common challenges in developing and deploying industrial machinery with deep learning functionalities, embracing this concept would offer several advantages: Using an intelligent Digital Twin, learning algorithms can be designed, configured and tested in the design phase before the physical system exists and real data can be collected. Once real data becomes available, the algorithms must merely be fine-tuned, significantly speeding up commissioning and reducing the probability of costly modifications. Furthermore, using the Digital Twin's simulation capabilities virtually injecting rare faults in order to train an algorithm's response or using reinforcement learning, e.g. to teach a robot, become practically feasible. This article presents several cross-phase industrial transfer learning use cases utilizing intelligent Digital Twins. A real cyber physical production system consisting of an automated welding machine and an automated guided vehicle equipped with a robot arm is used to illustrate the respective benefits.
翻訳日:2021-05-23 14:48:54 公開日:2020-12-03
# バイオメディカルデータのための近似kNN分類

Approximate kNN Classification for Biomedical Data ( http://arxiv.org/abs/2012.02149v1 )

ライセンス: Link先を確認
Panagiotis Anagnostou, Petros T. Barmbas, Aristidis G. Vrahatis and Sotiris K. Tasoulis(参考訳) ビッグデータ分析が様々なバイオメディカル現象の解釈方法を変えた時代であり、生成されたデータが増えるにつれて、この進化を扱うための新しい機械学習手法の必要性が高まっています。 例えば、単一細胞RNA-seq (scRNA-seq) は、期待できる能力を持つが、大規模に生成されたデータによる計算上の大きな課題を持つ新しいDNAシークエンシング技術である。 scrna-seqデータの分類プロセスについては、その単純性、最小パラメータ化、モデルフリーな性質から、通常大規模予測タスクに使用されるため、k近傍 (knn) 分類法が適当である。 しかし、scRNA-seqを特徴付ける超高次元性は計算ボトルネックを課し、予測力は「次元の曲線」の影響を受けうる。 本研究では,cRNA-seqデータにおけるkNN分類のタスクに近接した近傍探索アルゴリズムを用いて,高次元データに適した特定の手法を提案する。 緩和された近似解でさえ予測性能に大きな影響を与えない。 実験結果は, 広く適用可能な可能性を提供することにより, 当初の仮定を確認した。

We are in the era where the Big Data analytics has changed the way of interpreting the various biomedical phenomena, and as the generated data increase, the need for new machine learning methods to handle this evolution grows. An indicative example is the single-cell RNA-seq (scRNA-seq), an emerging DNA sequencing technology with promising capabilities but significant computational challenges due to the large-scaled generated data. Regarding the classification process for scRNA-seq data, an appropriate method is the k Nearest Neighbor (kNN) classifier since it is usually utilized for large-scale prediction tasks due to its simplicity, minimal parameterization, and model-free nature. However, the ultra-high dimensionality that characterizes scRNA-seq impose a computational bottleneck, while prediction power can be affected by the "Curse of Dimensionality". In this work, we proposed the utilization of approximate nearest neighbor search algorithms for the task of kNN classification in scRNA-seq data focusing on a particular methodology tailored for high dimensional data. We argue that even relaxed approximate solutions will not affect the prediction performance significantly. The experimental results confirm the original assumption by offering the potential for broader applicability.
翻訳日:2021-05-23 14:48:32 公開日:2020-12-03
# 最適政策ツリー

Optimal Policy Trees ( http://arxiv.org/abs/2012.02279v1 )

ライセンス: Link先を確認
Maxime Amram, Jack Dunn, Ying Daisy Zhuo(参考訳) 本研究では,データから直接木ベース処方ポリシーを学習する手法を提案し,因果推論文献からの反事実推定法とグローバル最適決定木訓練の最近の進歩を組み合わせた。 得られたメソッドであるOptimal Policy Treesは解釈可能な処方薬ポリシーを出力し、高度にスケーラブルで、離散的および連続的な処理を処理します。 合成と実世界の両方のデータセットについて広範な実験を行い、これらの木が様々な問題に対して最高の性能を提供することを示した。

We propose an approach for learning optimal tree-based prescription policies directly from data, combining methods for counterfactual estimation from the causal inference literature with recent advances in training globally-optimal decision trees. The resulting method, Optimal Policy Trees, yields interpretable prescription policies, is highly scalable, and handles both discrete and continuous treatments. We conduct extensive experiments on both synthetic and real-world datasets and demonstrate that these trees offer best-in-class performance across a wide variety of problems.
翻訳日:2021-05-23 14:48:14 公開日:2020-12-03
# ReMix: ディープラーニングにおけるクラス不均衡のための校正リサンプリング

ReMix: Calibrated Resampling for Class Imbalance in Deep learning ( http://arxiv.org/abs/2012.02312v1 )

ライセンス: Link先を確認
Colin Bellinger, Roberto Corizzo, Nathalie Japkowicz(参考訳) 授業不均衡は、健康、医療、交通、金融といった重要な分野において、訓練されたモデルが意思決定支援や自動決定に活用される、応用深層学習において重要な問題である。 不均衡なトレーニングデータから深層モデルを学ぶという課題は依然として高く、最先端のソリューションは一般的にデータに依存し、主に画像データに焦点を当てている。 しかし、実世界の不均衡な分類問題はより多様であり、表、画像、テキストデータに適用できる一般的な解を必要とする。 本稿では,不均衡学習のためのロバストな深層モデルの導入を可能にするために,バッチ再サンプリング,インスタンス混合,ソフトラベルを活用したトレーニング手法であるremixを提案する。 以上の結果から,ReMixでトレーニングした高密度ネットとCNNは,g平均値より優れ,バランスの取れたBrierスコアより校正性がよいことがわかった。

Class imbalance is a problem of significant importance in applied deep learning where trained models are exploited for decision support and automated decisions in critical areas such as health and medicine, transportation, and finance. The challenge of learning deep models from imbalanced training data remains high, and the state-of-the-art solutions are typically data dependent and primarily focused on image data. Real-world imbalanced classification problems, however, are much more diverse thus necessitating a general solution that can be applied to tabular, image and text data. In this paper, we propose ReMix, a training technique that leverages batch resampling, instance mixing and soft-labels to enable the induction of robust deep models for imbalanced learning. Our results show that dense nets and CNNs trained with ReMix generally outperform the alternatives according to the g-mean and are better calibrated according to the balanced Brier score.
翻訳日:2021-05-23 14:48:05 公開日:2020-12-03
# TRACE : Transformer-Enhanced Feature Embedding による慢性腎臓病の早期診断

TRACE: Early Detection of Chronic Kidney Disease Onset with Transformer-Enhanced Feature Embedding ( http://arxiv.org/abs/2012.03729v1 )

ライセンス: Link先を確認
Yu Wang, Ziqiao Guan, Wei Hou, Fusheng Wang(参考訳) 慢性腎疾患(CKD)は、過剰な危険因子とそれに関連する合併症により予後不良である。 CKDの早期発見は、陽性患者の医療史と複雑な危険因子の不足に直面する。 本稿では,患者の医療履歴データを用いたエンドツーエンド予測モデルであるTRACE(Transformer-RNN Autoencoder-enhanced CKD Detector)フレームワークを提案する。 TRACEは、新しいキーコンポーネントであるTransformer-RNNオートエンコーダを備えた包括的医療史表現を提供する。 オートエンコーダは、病院訪問毎にトランスフォーマーによる医療概念の埋め込みと、全訪問にわたる患者の医療歴を要約した潜在表現を共同で学習する。 実世界の医療記録から得られたデータセットにおけるトレースと最先端の複数の手法を比較した。 提案手法は0.5708 auprcを達成し,2.31%の相対的改善が得られた。 また,可視化や症例スタディを通じて,学習した埋め込みの臨床的意義を検証し,一般的な疾患予測モデルとしてのTRACEの可能性を示した。

Chronic kidney disease (CKD) has a poor prognosis due to excessive risk factors and comorbidities associated with it. The early detection of CKD faces challenges of insufficient medical histories of positive patients and complicated risk factors. In this paper, we propose the TRACE (Transformer-RNN Autoencoder-enhanced CKD Detector) framework, an end-to-end prediction model using patients' medical history data, to deal with these challenges. TRACE presents a comprehensive medical history representation with a novel key component: a Transformer-RNN autoencoder. The autoencoder jointly learns a medical concept embedding via Transformer for each hospital visit, and a latent representation which summarizes a patient's medical history across all the visits. We compared TRACE with multiple state-of-the-art methods on a dataset derived from real-world medical records. Our model has achieved 0.5708 AUPRC with a 2.31% relative improvement over the best-performing method. We also validated the clinical meaning of the learned embeddings through visualizations and a case study, showing the potential of TRACE to serve as a general disease prediction model.
翻訳日:2021-05-23 14:47:49 公開日:2020-12-03
# 建設・工学分野における物理・金融サプライチェーン統合へのブロックチェーン型暗号通貨資産の適用

The Application of Blockchain-Based Crypto Assets for Integrating the Physical and Financial Supply Chains in the Construction & Engineering Industry ( http://arxiv.org/abs/2012.02147v1 )

ライセンス: Link先を確認
Hesam Hamledari and Martin Fischer(参考訳) サプライチェーンの統合は、建設とエンジニアリング産業にとって大きな目標である。 フラグメンテーションの高度化と、サードパーティの金融機関への依存が、物理的なサプライチェーンと金融サプライチェーンを解体させた。 この論文は、ブロックチェーンベースの暗号通貨資産(暗号化通貨と暗号化トークン)が、製品のフローに基づいた資金の流れの条件付けに使用される場合、この制限にどのように対処できるかを示す。 この論文は、金融通貨と暗号資産に依存するサプライチェーンにおける現金と製品フローの統合を対照的にしている。 さらに2つの暗号資産対応統合、原子性、粒度が導入された。 この論文は建設進捗の支払いの文脈で検証されている。 無人航空機と地上車両が収集したas構築データは、暗号通貨と暗号通貨トークンを決済決済に利用する自律型スマートコントラクトベースの手法に渡され、その結果得られた支払いデータセットはethereumブロックチェーンに書き込まれ、製品とキャッシュフローの統合の観点から分析された。 研究は、業界への発見とその影響に関する議論で締めくくられている。

Supply chain integration remains an elusive goal for the construction and engineering industry. The high degree of fragmentation and the reliance on third-party financial institutions has pushed the physical and financial supply chains apart. The paper demonstrates how blockchain-based crypto assets (crypto currencies and crypto tokens) can address this limitation when used for conditioning the flow of funds based on the flow of products. The paper contrasts the integration between cash and product flows in supply chains that rely on fiat currencies and crypto assets for their payment settlement. Two facets of crypto asset-enabled integration, atomicity and granularity, are further introduced. The thesis is validated in the context of construction progress payments. The as-built data captured by unmanned aerial and ground vehicles was passed to an autonomous smart contract-based method that utilizes crypto-currencies and crypto tokens for payment settlement; the resulting payment datasets, written to the Ethereum blockchain, were analyzed in terms of their integration of product and cash flow. The work is concluded with a discussion of findings and their implications for the industry.
翻訳日:2021-05-23 14:46:55 公開日:2020-12-03
# 教師なし音響単語埋め込みのための対応変分オートエンコーダ

A Correspondence Variational Autoencoder for Unsupervised Acoustic Word Embeddings ( http://arxiv.org/abs/2012.02221v1 )

ライセンス: Link先を確認
Puyuan Peng, Herman Kamper, Karen Livescu(参考訳) 本稿では,可変デュレーション音声セグメントを定次元表現にマッピングする新しい教師なしモデルを提案する。 結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語の検索、発見、インデックスシステムの基礎を形成することができる。 我々のモデルは、最大サンプリング対応変分オートエンコーダ(MCVAE)と呼ばれ、同じ単語の異なるインスタンスの埋め込み間の整合性を促進する新しい自己教師付き対応損失をトレーニングしたリカレントニューラルネットワーク(RNN)である。 提案手法は, 近似後部分布から得られた複数のサンプルの利用と比較により, 従来の対応訓練手法の改良を行う。 ゼロリソース設定では、MCVAEは、教師なし項発見システムを介して発見された単語のようなセグメントを使用することで、基幹語対なしで教師なしの方法で訓練することができる。 この設定と半教師付き低リソース設定(接頭辞対の限られたセット)の両方において、MCVAEはシームズ、CAE、VAEベースのRNNといった従来の最先端モデルよりも優れている。

We propose a new unsupervised model for mapping a variable-duration speech segment to a fixed-dimensional representation. The resulting acoustic word embeddings can form the basis of search, discovery, and indexing systems for low- and zero-resource languages. Our model, which we refer to as a maximal sampling correspondence variational autoencoder (MCVAE), is a recurrent neural network (RNN) trained with a novel self-supervised correspondence loss that encourages consistency between embeddings of different instances of the same word. Our training scheme improves on previous correspondence training approaches through the use and comparison of multiple samples from the approximate posterior distribution. In the zero-resource setting, the MCVAE can be trained in an unsupervised way, without any ground-truth word pairs, by using the word-like segments discovered via an unsupervised term discovery system. In both this setting and a semi-supervised low-resource setting (with a limited set of ground-truth word pairs), the MCVAE outperforms previous state-of-the-art models, such as Siamese-, CAE- and VAE-based RNNs.
翻訳日:2021-05-23 14:46:37 公開日:2020-12-03
# GraphPB:音声合成における韻律境界のグラフ表現

GraphPB: Graphical Representations of Prosody Boundary in Speech Synthesis ( http://arxiv.org/abs/2012.02626v1 )

ライセンス: Link先を確認
Aolan Sun, Jianzong Wang, Ning Cheng, Huayi Peng, Zhen Zeng, Lingwei Kong, Jing Xiao(参考訳) 本稿では,中国語音声合成作業における韻律境界(GraphPB)のグラフィカルな表現手法を提案する。 グラフ埋め込みのノードは韻律語で形成され、エッジは他の韻律境界、すなわち韻律句境界(PPH)とイントネーション句境界(IPH)によって形成される。 Ged Graph Neural Network (GGNN) や Graph Long Short-Term Memory (G-LSTM) のようなグラフニューラルネットワーク(GNN) はグラフエンコーダとして使われ、グラフィカルな韻律境界情報を利用する。 グラフ列モデルを提案し,グラフエンコーダと注意デコーダによって構成する。 逐次情報をgraph-to-sequence text-to-speechモデルに埋め込むための2つの手法を提案する。 実験の結果,提案手法は発話の音韻リズムと韻律リズムを符号化できることがわかった。 これらのGNNモデルの平均世論スコア(MOS)は、韻律的側面においてより優れた性能を有する最先端のシーケンス・ツー・シーケンスモデルと比較結果を示す。 これは、エンドツーエンド音声合成における韻律モデリングの代替アプローチを提供する。

This paper introduces a graphical representation approach of prosody boundary (GraphPB) in the task of Chinese speech synthesis, intending to parse the semantic and syntactic relationship of input sequences in a graphical domain for improving the prosody performance. The nodes of the graph embedding are formed by prosodic words, and the edges are formed by the other prosodic boundaries, namely prosodic phrase boundary (PPH) and intonation phrase boundary (IPH). Different Graph Neural Networks (GNN) like Gated Graph Neural Network (GGNN) and Graph Long Short-term Memory (G-LSTM) are utilised as graph encoders to exploit the graphical prosody boundary information. Graph-to-sequence model is proposed and formed by a graph encoder and an attentional decoder. Two techniques are proposed to embed sequential information into the graph-to-sequence text-to-speech model. The experimental results show that this proposed approach can encode the phonetic and prosody rhythm of an utterance. The mean opinion score (MOS) of these GNN models shows comparative results with the state-of-the-art sequence-to-sequence models with better performance in the aspect of prosody. This provides an alternative approach for prosody modelling in end-to-end speech synthesis.
翻訳日:2021-05-23 14:46:18 公開日:2020-12-03
# 回帰学習を伴わない混合戦略の収束不可能性について

On the Impossibility of Convergence of Mixed Strategies with No Regret Learning ( http://arxiv.org/abs/2012.02125v1 )

ライセンス: Link先を確認
Vidya Muthukumar, Soham Phade, Anant Sahai(参考訳) ステージゲームが2対2の競争ゲーム(すなわち2対2の競争ゲーム)の繰り返しゲーム設定において、最適無後悔学習戦略の一般的なクラスから生じる混合戦略の収束性について検討する。 ゲームのすべてのナッシュ平衡(ne)が完全に混合されるゲーム。 我々は,各ステップに設定された情報を,平均ベース戦略と呼ぶ対戦相手の達成したプレイ(およびステップ番号)の経験平均とする戦略の類型を考える。 まず,各ステップでナッシュ平衡混合戦略を行う相手に対して,その混合戦略が(確率的に)収束する結果となるプレイヤー1に対して,最適無後悔,平均ベース戦略が存在しないことを示す。 次に、プレイヤー2が最小のランダム性特性を持つ任意の適応戦略を使用する場合、この最後の反復的発散が必然的に起こることを示す。 この性質は例えば、NEに収束するプレイヤー2の混合戦略の任意の固定列によって満たされる。 この性質は、双方のプレイヤーが互いに最適な無後悔学習戦略を使うときに成り立ち、混合戦略が正の確率で分岐することにつながると推測する。 最後に,決定論的min max最適化における最後の反復収束を導いた,連続バイアスを用いた平均ベース戦略の変種が,この反復的分岐に繋がることを示す。 これは、相手のミキシングと、戦略を更新するために実現することの間の結果に重大な違いを示す。

We study convergence properties of the mixed strategies that result from a general class of optimal no regret learning strategies in a repeated game setting where the stage game is any 2 by 2 competitive game (i.e. game for which all the Nash equilibria (NE) of the game are completely mixed). We consider the class of strategies whose information set at each step is the empirical average of the opponent's realized play (and the step number), that we call mean based strategies. We first show that there does not exist any optimal no regret, mean based strategy for player 1 that would result in the convergence of her mixed strategies (in probability) against an opponent that plays his Nash equilibrium mixed strategy at each step. Next, we show that this last iterate divergence necessarily occurs if player 2 uses any adaptive strategy with a minimal randomness property. This property is satisfied, for example, by any fixed sequence of mixed strategies for player 2 that converges to NE. We conjecture that this property holds when both players use optimal no regret learning strategies against each other, leading to the divergence of the mixed strategies with a positive probability. Finally, we show that variants of mean based strategies using recency bias, which have yielded last iterate convergence in deterministic min max optimization, continue to lead to this last iterate divergence. This demonstrates a crucial difference in outcomes between using the opponent's mixtures and realizations to make strategy updates.
翻訳日:2021-05-23 14:45:59 公開日:2020-12-03
# 階層における書き換えの可逆性と構成

Reversibility and Composition of Rewriting in Hierarchies ( http://arxiv.org/abs/2012.01661v1 )

ライセンス: Link先を確認
Russ Harmer (Univ Lyon, EnsL, UCBL, CNRS, LIP, France), Eugenia Oshurko (Univ Lyon, EnsL, UCBL, CNRS, LIP, France)(参考訳) 本稿では,Sesqui-pushoutリライトに基づくグラフ変換の逆変換と,書き直しの構成について検討する。 このような可逆性と構成を,個々のグラフとグラフ階層の監査証跡システムの設計に利用できることを示す。 これにより、複数のバージョンを含むオブジェクトの更新履歴を維持するためのコンパクトな方法が提供されます。 設計フレームワークの主なアプリケーションは、グラフの階層によって表される知識への更新の監査証跡である。 そこで本研究では,階層構造全体の変換を表わすルール階層の概念を導入し,ルール階層を階層構造に適用し,この適用が可逆である条件を分析する。 次に,階層構造を連続的に書き換える理論を提案する。 ReGraph Pythonライブラリの一部として,属性付き単純なグラフ階層の変換を行うためのプロトタイプ監査証跡システムを実装した。

In this paper, we study how graph transformations based on sesqui-pushout rewriting can be reversed and how the composition of rewrites can be constructed. We illustrate how such reversibility and composition can be used to design an audit trail system for individual graphs and graph hierarchies. This provides us with a compact way to maintain the history of updates of an object, including its multiple versions. The main application of the designed framework is an audit trail of updates to knowledge represented by hierarchies of graphs. Therefore, we introduce the notion of rule hierarchy that represents a transformation of the entire hierarchy, study how rule hierarchies can be applied to hierarchies and analyse the conditions under which this application is reversible. We then present a theory for constructing the composition of consecutive hierarchy rewrites. The prototype audit trail system for transformations in hierarchies of simple graphs with attributes is implemented as part of the ReGraph Python library.
翻訳日:2021-05-23 14:45:34 公開日:2020-12-03
# サイバー物理生産システムにおけるCAAIの認知能力

Cognitive Capabilities for the CAAI in Cyber-Physical Production Systems ( http://arxiv.org/abs/2012.01823v1 )

ライセンス: Link先を確認
Jan Strohschein, Andreas Fischbach, Andreas Bunte, Heide Faeskorn-Woyke, Natalia Moriz, Thomas Bartz-Beielstein(参考訳) 本稿では,サイバー物理生産システム(CPPS)における人工知能(CAAI)の認知モジュールについて述べる。 このアーキテクチャの目的は、CPPSにおける人工知能(AI)アルゴリズムの実装労力を減らすことである。 宣言的なユーザ目標とアルゴリズム知識ベースによって、動的パイプラインのオーケストレーションと設定が可能になる。 ビッグデータプラットフォーム(BDP)はパイプラインをインスタンス化し、CPPSパフォーマンスを監視し、認知モジュールを通じてさらなる評価を行う。 このように、cognitive moduleは、さまざまなユースケースにおいて、プロセスパイプラインの実行可能でロバストな構成を選択できる。 さらに、モデルの品質とリソース消費に基づいて、モデルとアルゴリズムを自動的に適応する。 認知モジュールはまた、異なるクラスからアルゴリズムをテストするための追加パイプラインをインスタンス化する。 CAAIは、モジュールの追加と実装の労力を減らすために、明確に定義されたインターフェイスに依存しています。 最後に、個々のモジュールの仮想化とオーケストレーションのためのDocker、Kubernetes、Kafkaをベースとした実装と、モジュール通信のためのメッセージングテクノロジを使用して、実際のユースケースを評価する。

This paper presents the cognitive module of the cognitive architecture for artificial intelligence (CAAI) in cyber-physical production systems (CPPS). The goal of this architecture is to reduce the implementation effort of artificial intelligence (AI) algorithms in CPPS. Declarative user goals and the provided algorithm-knowledge base allow the dynamic pipeline orchestration and configuration. A big data platform (BDP) instantiates the pipelines and monitors the CPPS performance for further evaluation through the cognitive module. Thus, the cognitive module is able to select feasible and robust configurations for process pipelines in varying use cases. Furthermore, it automatically adapts the models and algorithms based on model quality and resource consumption. The cognitive module also instantiates additional pipelines to test algorithms from different classes. CAAI relies on well-defined interfaces to enable the integration of additional modules and reduce implementation effort. Finally, an implementation based on Docker, Kubernetes, and Kafka for the virtualization and orchestration of the individual modules and as messaging-technology for module communication is used to evaluate a real-world use case.
翻訳日:2021-05-23 14:45:22 公開日:2020-12-03
# ブラインドハイパースペクトル画像の超解像に対する教師なし交互最適化

Unsupervised Alternating Optimization for Blind Hyperspectral Imagery Super-resolution ( http://arxiv.org/abs/2012.01745v1 )

ライセンス: Link先を確認
Jiangtao Nie, Lei Zhang, Wei Wei, Zhiqiang Lang, Yanning Zhang(参考訳) シミュレーションデータに対するハイパースペクトル画像(HSI)超解像(SR)のディープモデルの成功にもかかわらず、そのほとんどは実データに適用した場合、特に教師なしHSI SR法では不満足に機能する。 主な理由の1つは、事前定義された退化モデル(例)が原因である。 空間領域のぼやけ) ほとんどのHSI SR法で利用される手法は、しばしば実データと大きな相違点が存在し、結果としてこれらの深いモデルが過度に適合し、最終的に実データ上での性能が低下する。 このような問題をうまく緩和するために、教師なしブラインドHSI SR法について検討する。 具体的には,空間領域とスペクトル領域の縮退モデルをそれぞれ効果的に得る方法について検討し,融合型sr再構成モデルとの適合性を高める。 そこで本研究では,まず,デジェネレーションモデル推定とhsi再構成が相互に促進できる,デジェネレーションモデルの推定と潜在画像の再構成のための,交互最適化に基づく深層フレームワークを提案する。 さらに,ネットワークを事前学習するためにメタラーニングに基づく機構が提案され,複雑な変性に適応する速度と一般化能力が効果的に向上する。 3つのベンチマークhsi srデータセットにおける実験では,提案手法が他の競合手法よりもブラインドhsi融合問題に優れていることが報告されている。

Despite the great success of deep model on Hyperspectral imagery (HSI) super-resolution(SR) for simulated data, most of them function unsatisfactory when applied to the real data, especially for unsupervised HSI SR methods. One of the main reason comes from the fact that the predefined degeneration models (e.g. blur in spatial domain) utilized by most HSI SR methods often exist great discrepancy with the real one, which results in these deep models overfit and ultimately degrade their performance on real data. To well mitigate such a problem, we explore the unsupervised blind HSI SR method. Specifically, we investigate how to effectively obtain the degeneration models in spatial and spectral domain, respectively, and makes them can well compatible with the fusion based SR reconstruction model. To this end, we first propose an alternating optimization based deep framework to estimate the degeneration models and reconstruct the latent image, with which the degeneration models estimation and HSI reconstruction can mutually promotes each other. Then, a meta-learning based mechanism is further proposed to pre-train the network, which can effectively improve the speed and generalization ability adapting to different complex degeneration. Experiments on three benchmark HSI SR datasets report an excellent superiority of the proposed method on handling blind HSI fusion problem over other competing methods.
翻訳日:2021-05-23 14:45:08 公開日:2020-12-03
# マルチコントラストMRI画像変換のためのフローベース変形誘導法

Flow-based Deformation Guidance for Unpaired Multi-Contrast MRI Image-to-Image Translation ( http://arxiv.org/abs/2012.01777v1 )

ライセンス: Link先を確認
Toan Duc Bui, Manh Nguyen, Ngan Le, Khoa Luu(参考訳) 画像合成は、多くの神経疾患で利用可能な診断情報の多様性を高める。 近年,画像と画像の翻訳は,GAN(Generative Adversarial Network)の成功から,複数の領域に拡張された循環的制約の導入に至るまで,医学研究において大きな関心を集めている。 しかし、現在のアプローチでは、2つのイメージドメイン間のマッピングが一意であるか一対一かは保証されていない。 本稿では,非可逆的アーキテクチャに基づく画像から画像への翻訳手法を提案する。 フローベースアーキテクチャの可逆性は、余分な損失関数なしで画像間変換のサイクル整合性を保証する。 連続したスライス間の時間的情報を利用して,非ペア容積医療画像において,ある領域から別の領域への変換の最適化により多くの制約を与える。 医用画像の時間的構造を捉えるために,連続スライス間の変位を変形場を用いて検討する。 本手法では, 変形場は, 翻訳されたスライドをリアルに保ち, 翻訳全体で一貫性を保つためのガイダンスとして用いられる。 実験の結果,提案手法を用いて合成した画像は,従来の3つの標準データセットの深層学習法と比較して,平均二乗誤差,ピーク信号-雑音比,構造的類似度指数で競合性能をアーカイブできることがわかった。 HCP、MRBrainS13、Brats2019。

Image synthesis from corrupted contrasts increases the diversity of diagnostic information available for many neurological diseases. Recently the image-to-image translation has experienced significant levels of interest within medical research, beginning with the successful use of the Generative Adversarial Network (GAN) to the introduction of cyclic constraint extended to multiple domains. However, in current approaches, there is no guarantee that the mapping between the two image domains would be unique or one-to-one. In this paper, we introduce a novel approach to unpaired image-to-image translation based on the invertible architecture. The invertible property of the flow-based architecture assures a cycle-consistency of image-to-image translation without additional loss functions. We utilize the temporal information between consecutive slices to provide more constraints to the optimization for transforming one domain to another in unpaired volumetric medical images. To capture temporal structures in the medical images, we explore the displacement between the consecutive slices using a deformation field. In our approach, the deformation field is used as a guidance to keep the translated slides realistic and consistent across the translation. The experimental results have shown that the synthesized images using our proposed approach are able to archive a competitive performance in terms of mean squared error, peak signal-to-noise ratio, and structural similarity index when compared with the existing deep learning-based methods on three standard datasets, i.e. HCP, MRBrainS13, and Brats2019.
翻訳日:2021-05-23 14:44:44 公開日:2020-12-03
# 自動走行のための魚眼カメラの汎用物体検出:データセット,表現,ベースライン

Generalized Object Detection on Fisheye Cameras for Autonomous Driving: Dataset, Representations and Baseline ( http://arxiv.org/abs/2012.02124v1 )

ライセンス: Link先を確認
Hazem Rashed, Eslam Mohamed, Ganesh Sistu, Varun Ravi Kumar, Ciaran Eising, Ahmad El-Sallab and Senthil Yogamani(参考訳) 物体検出は自動運転において包括的に研究されている問題である。 しかし、魚眼カメラについては、比較的研究が進んでいない。 標準のバウンディングボックスは魚眼カメラでは、特に画像の周囲において強い放射歪のために故障する。 本研究では,魚眼画像における物体検出のための配向境界ボックス,楕円,ジェネリックポリゴンなどの表現について検討する。 我々は、IoU計量を用いて、これらの表現を正確なインスタンス分割基底真理を用いて比較する。 魚眼歪モデルに最適な特性を有する新しい曲面境界ボックスモデルを設計する。 また,多角形頂点を得るための曲率適応ペリメータサンプリング法を設計し,一様サンプリングに比べて相対的なmAPスコアが4.9%向上した。 全体として、提案されたポリゴンモデルはmIoU相対精度を40.3%向上させる。 これは、我々の知る限り、自律走行シナリオのための魚眼カメラによる物体検出に関する初めての詳細な研究である。 1万枚の画像とすべてのオブジェクト表現の基盤となる真実からなるデータセットは、さらなる研究を促進するために公開される予定だ。 われわれの研究成果は、https://youtu.be/iLkOzvJpL-Aで質的な結果を得た短いビデオで要約する。

Object detection is a comprehensively studied problem in autonomous driving. However, it has been relatively less explored in the case of fisheye cameras. The standard bounding box fails in fisheye cameras due to the strong radial distortion, particularly in the image's periphery. We explore better representations like oriented bounding box, ellipse, and generic polygon for object detection in fisheye images in this work. We use the IoU metric to compare these representations using accurate instance segmentation ground truth. We design a novel curved bounding box model that has optimal properties for fisheye distortion models. We also design a curvature adaptive perimeter sampling method for obtaining polygon vertices, improving relative mAP score by 4.9% compared to uniform sampling. Overall, the proposed polygon model improves mIoU relative accuracy by 40.3%. It is the first detailed study on object detection on fisheye cameras for autonomous driving scenarios to the best of our knowledge. The dataset comprising of 10,000 images along with all the object representations ground truth will be made public to encourage further research. We summarize our work in a short video with qualitative results at https://youtu.be/iLkOzvJpL-A.
翻訳日:2021-05-23 14:44:00 公開日:2020-12-03
# 局所表現学習と大域表現学習を併用したデュエット推薦アルゴリズム

A Duet Recommendation Algorithm Based on Jointly Local and Global Representation Learning ( http://arxiv.org/abs/2012.01635v1 )

ライセンス: Link先を確認
Xiaoming Liu, Shaocong Wu, Zhaohan Zhang, Zhanwei Zhang, Yu Lan, Chao Shen(参考訳) 知識グラフ(KG)は,推薦システムにおいて,項目/ユーザの意味表現を学習するために広く利用されている。 従来のレコメンデーションアルゴリズムは、通常、ユーザとイテムのインタラクションにのみ依存するが、アプリケーションの性能を大幅に改善するために知識グラフ埋め込み(KGE)法で定式化されるアイテム/ユーザを記述する固有のWeb情報を無視している。 本論文では,異種情報から局所的およびグローバルな表現学習を捉えるための知識認識に基づく推薦アルゴリズムを提案する。 具体的には、ローカルモデルとグローバルモデルにより、コンテンツに基づく異種情報の内部パターンとユーザとアイテム間のインタラクティブな振る舞いを自然に表現することができる。 注意機構を有するグラフ畳み込みネットワークで局所表現と大域表現を併用して学習する手法に基づき、完全連結ニューラルネットワークにより最終推奨確率を算出する。 提案したアルゴリズムの検証を検証するために、2つの実世界のデータセットで大規模な実験を行う。 評価結果から,提案アルゴリズムは,MAE,RMSE,AUC,F1スコアの各測定値において,それぞれ10.0 %$,5.1 %$,2.5 %$,1.8 %$を超えていることがわかった。 重要な改善は、ユーザ/イテムを効果的に推奨する提案の能力を示しています。

Knowledge graph (KG), as the side information, is widely utilized to learn the semantic representations of item/user for recommendation system. The traditional recommendation algorithms usually just depend on user-item interactions, but ignore the inherent web information describing the item/user, which could be formulated by the knowledge graph embedding (KGE) methods to significantly improve applications' performance. In this paper, we propose a knowledge-aware-based recommendation algorithm to capture the local and global representation learning from heterogeneous information. Specifically, the local model and global model can naturally depict the inner patterns in the content-based heterogeneous information and interactive behaviors among the users and items. Based on the method that local and global representations are learned jointly by graph convolutional networks with attention mechanism, the final recommendation probability is calculated by a fully-connected neural network. Extensive experiments are conducted on two real-world datasets to verify the proposed algorithm's validation. The evaluation results indicate that the proposed algorithm surpasses state-of-arts by $10.0\%$, $5.1\%$, $2.5\%$ and $1.8\%$ in metrics of MAE, RMSE, AUC and F1-score at least, respectively. The significant improvements reveal the capacity of our proposal to recommend user/item effectively.
翻訳日:2021-05-23 14:43:27 公開日:2020-12-03
# ResPerfNet:ディープニューラルネットワークの回帰性能モデリングのための深層残留学習

ResPerfNet: Deep Residual Learning for Regressional Performance Modeling of Deep Neural Networks ( http://arxiv.org/abs/2012.01671v1 )

ライセンス: Link先を確認
Chuan-Chi Wang, Ying-Chiao Liao, Chia-Heng Tu, Ming-Chang Kao, Wen-Yew Liang, Shih-Hao Hung(参考訳) コンピューティング技術の急速な進歩は、多様なディープラーニングアプリケーションの開発を促進する。 残念ながら、並列コンピューティングインフラストラクチャの効率は、ニューラルネットワークモデルによって大きく異なり、特定のアプリケーションのための特定のコンピューティングプラットフォーム上で高性能なニューラルネットワークアーキテクチャを見つけるための設計スペースの探索を妨げる。 そこで本研究では,ニューラルネットワークの性能を予測するために,目的とするプラットフォーム上で得られた代表データセットを用いて,残留ニューラルネットワークを訓練する深層学習に基づく手法であるresperfnetを提案する。 実験の結果、resperfnetは様々なプラットフォーム上で個々のニューラルネットワーク層とフルネットワークモデルの実行時間を正確に予測できることがわかった。 特にResPerfNetは、NVIDIA GTX 1080Ti上で、LeNet、AlexNet、VGG16の平均絶対パーセンテージエラーの8.4%を達成した。

The rapid advancements of computing technology facilitate the development of diverse deep learning applications. Unfortunately, the efficiency of parallel computing infrastructures varies widely with neural network models, which hinders the exploration of the design space to find high-performance neural network architectures on specific computing platforms for a given application. To address such a challenge, we propose a deep learning-based method, ResPerfNet, which trains a residual neural network with representative datasets obtained on the target platform to predict the performance for a deep neural network. Our experimental results show that ResPerfNet can accurately predict the execution time of individual neural network layers and full network models on a variety of platforms. In particular, ResPerfNet achieves 8.4% of mean absolute percentage error for LeNet, AlexNet and VGG16 on the NVIDIA GTX 1080Ti, which is substantially lower than the previously published works.
翻訳日:2021-05-23 14:43:01 公開日:2020-12-03
# FenceBox: データ拡張技術で敵の例を定義するプラットフォーム

FenceBox: A Platform for Defeating Adversarial Examples with Data Augmentation Techniques ( http://arxiv.org/abs/2012.01701v1 )

ライセンス: Link先を確認
Han Qiu, Yi Zeng, Tianwei Zhang, Yong Jiang, and Meikang Qiu(参考訳) Deep Neural Networks (DNNs) がAdversarial Examples (AEs) に弱いことが広く研究されている。 より高度な対向攻撃法が開発され、それに対応する多くの防御ソリューションがdnnモデルの堅牢性を高めるために設計された。 逆摂動を取り除くために推論する前に入力サンプルの前処理にデータ拡張技術を活用することが人気になっている。 DNNモデルの勾配を曖昧にすることで、これらのアプローチは、かなり多くの従来の攻撃を破ることができる。 残念ながら、これらの前処理効果を無効にする高度な勾配に基づく攻撃技術(bpdaやeotなど)が導入された。 本稿では,様々な敵攻撃を克服する包括的フレームワークであるFenceBoxを提案する。 FenceBoxには、3つのカテゴリから15のデータ拡張方法がある。 我々は,これらの手法が様々な敵攻撃を効果的に軽減できることを包括的に評価した。 任意のプリプロセッシングメソッドを選択するか、高度な敵攻撃下であっても、より堅牢性を保証する関数の組み合わせを選択することができる。 われわれはFenceBoxをオープンソースとして公開し、敵の攻撃や防御の研究を容易にするための標準ツールキットとして利用できると期待している。

It is extensively studied that Deep Neural Networks (DNNs) are vulnerable to Adversarial Examples (AEs). With more and more advanced adversarial attack methods have been developed, a quantity of corresponding defense solutions were designed to enhance the robustness of DNN models. It has become a popularity to leverage data augmentation techniques to preprocess input samples before inference to remove adversarial perturbations. By obfuscating the gradients of DNN models, these approaches can defeat a considerable number of conventional attacks. Unfortunately, advanced gradient-based attack techniques (e.g., BPDA and EOT) were introduced to invalidate these preprocessing effects. In this paper, we present FenceBox, a comprehensive framework to defeat various kinds of adversarial attacks. FenceBox is equipped with 15 data augmentation methods from three different categories. We comprehensively evaluated that these methods can effectively mitigate various adversarial attacks. FenceBox also provides APIs for users to easily deploy the defense over their models in different modes: they can either select an arbitrary preprocessing method, or a combination of functions for a better robustness guarantee, even under advanced adversarial attacks. We open-source FenceBox, and expect it can be used as a standard toolkit to facilitate the research of adversarial attacks and defenses.
翻訳日:2021-05-23 14:42:46 公開日:2020-12-03
# 強化学習による新型コロナウイルス治療の展望

Designing a Prospective COVID-19 Therapeutic with Reinforcement Learning ( http://arxiv.org/abs/2012.01736v1 )

ライセンス: Link先を確認
Marcin J. Skwark, Nicol\'as L\'opez Carranza, Thomas Pierrot, Joe Phillips, Slim Said, Alexandre Laterre, Amine Kerkeni, U\u{g}ur \c{S}ahin, Karim Beguir(参考訳) SARS-CoV-2パンデミックは、治療のための世界的なレースを生み出した。 1つのアプローチは、SARS-CoV-2スパイクタンパク質により強く結合し、ヒト細胞から分離するヒトアンジオテンシン変換酵素2(ACE2)の新規な変異体を設計することに焦点を当てている。 ここでは強化学習問題として新しいタンパク質設計枠組みを定式化する。 高速で生物学的な報酬関数とシーケンシャルな行動空間の定式化を組み合わせて,新しいデザインを効率的に生成する。 ポリシーグラディエントの使用により、一貫した高品質な設計に到達するために必要な計算予算を、標準手法に比べて少なくとも桁違いに削減できる。 この方法で設計された錯体は分子動力学シミュレーションによって検証され、安定性が増すことが確認された。 これは、主要なタンパク質設計法と現代の深層強化学習を組み合わせることは、新型コロナウイルスの治療法の発見に有効な経路であり、他の疾患に対するペプチドベースの治療法の設計を加速する可能性があることを示唆している。

The SARS-CoV-2 pandemic has created a global race for a cure. One approach focuses on designing a novel variant of the human angiotensin-converting enzyme 2 (ACE2) that binds more tightly to the SARS-CoV-2 spike protein and diverts it from human cells. Here we formulate a novel protein design framework as a reinforcement learning problem. We generate new designs efficiently through the combination of a fast, biologically-grounded reward function and sequential action-space formulation. The use of Policy Gradients reduces the compute budget needed to reach consistent, high-quality designs by at least an order of magnitude compared to standard methods. Complexes designed by this method have been validated by molecular dynamics simulations, confirming their increased stability. This suggests that combining leading protein design methods with modern deep reinforcement learning is a viable path for discovering a Covid-19 cure and may accelerate design of peptide-based therapeutics for other diseases.
翻訳日:2021-05-23 14:42:29 公開日:2020-12-03
# 制約学習によるサービス指向車両ネットワークの動的RANスライシング

Dynamic RAN Slicing for Service-Oriented Vehicular Networks via Constrained Learning ( http://arxiv.org/abs/2012.01991v1 )

ライセンス: Link先を確認
Wen Wu, Nan Chen, Conghao Zhou, Mushu Li, Xuemin Shen, Weihua Zhuang, Xu Li(参考訳) 本稿では,QoS(Quality of Service)要件の異なる車両用インターネット(IoV)サービスにおけるLANスライシング問題について検討し,複数の論理的に分離されたスライスを共通の道路側ネットワーク基盤上に構築する。 動的RANスライシングフレームワークは、無線スペクトルと計算資源を動的に割り当て、スライスのための計算ワークロードを分散する。 車両交通密度の時空間動態を調節する最適なRANスライシングポリシを得るために,まず,長期システムコストを最小限に抑えるために,制約付きRANスライシング問題を定式化する。 この問題は、決定間の複雑な結合制約のため、従来の強化学習(RL)アルゴリズムでは直接解決できない。 そこで我々は,この問題をリソース割り当て部分問題とワークロード分散部分問題に分離し,リソース割り当てとワークロード分散(raws)という2層制約付きrlアルゴリズムを提案する。 具体的には、まず外部層がRLアルゴリズムを介してリソース割り当て決定を行い、次いで内部層が最適化サブルーチンを介してワークロード分布決定を行う。 広範なトレース駆動シミュレーションは、ベンチマークと比較してqos要件を高い確率で満たしながら、rawがシステムコストを効果的に削減することを示している。

In this paper, we investigate a radio access network (RAN) slicing problem for Internet of vehicles (IoV) services with different quality of service (QoS) requirements, in which multiple logically-isolated slices are constructed on a common roadside network infrastructure. A dynamic RAN slicing framework is presented to dynamically allocate radio spectrum and computing resource, and distribute computation workloads for the slices. To obtain an optimal RAN slicing policy for accommodating the spatial-temporal dynamics of vehicle traffic density, we first formulate a constrained RAN slicing problem with the objective to minimize long-term system cost. This problem cannot be directly solved by traditional reinforcement learning (RL) algorithms due to complicated coupled constraints among decisions. Therefore, we decouple the problem into a resource allocation subproblem and a workload distribution subproblem, and propose a two-layer constrained RL algorithm, named Resource Allocation and Workload diStribution (RAWS) to solve them. Specifically, an outer layer first makes the resource allocation decision via an RL algorithm, and then an inner layer makes the workload distribution decision via an optimization subroutine. Extensive trace-driven simulations show that the RAWS effectively reduces the system cost while satisfying QoS requirements with a high probability, as compared with benchmarks.
翻訳日:2021-05-23 14:41:26 公開日:2020-12-03
# sim2実効転写のための介入設計

Intervention Design for Effective Sim2Real Transfer ( http://arxiv.org/abs/2012.02055v1 )

ライセンス: Link先を確認
Melissa Mozifian, Amy Zhang, Joelle Pineau, and David Meger(参考訳) この研究の目標は、最近のsim2real設定におけるドメインのランダム化とデータ拡張の成功に対処することである。 因果推論や位置決めドメインのランダム化,データ拡張などを通じて,無関係な特徴の分散を促進する環境への介入として,この成功を説明する。 このような介入には、報酬やダイナミクスに影響を与えない視覚摂動が含まれる。 これにより、学習アルゴリズムはこの種のバリエーションに対して堅牢であり、タスクを解決するための真の因果的メカニズムへの参加を学ぶことができる。 この関係は,(1) 環境への摂動は現実的である必要はないが, 実世界でも異なる次元に沿った変化を示すだけであり, (2) 明示的な不変性誘導目的を用いることで, 単にデータ拡張やドメインランダム化のみに対するsim2simおよびsim2real転送設定の一般化が向上する。 画素観察から学習した7DoF Jacoアーム上でロボットアームの到達タスクをゼロショット転送することで,本手法の有効性を示す。

The goal of this work is to address the recent success of domain randomization and data augmentation for the sim2real setting. We explain this success through the lens of causal inference, positioning domain randomization and data augmentation as interventions on the environment which encourage invariance to irrelevant features. Such interventions include visual perturbations that have no effect on reward and dynamics. This encourages the learning algorithm to be robust to these types of variations and learn to attend to the true causal mechanisms for solving the task. This connection leads to two key findings: (1) perturbations to the environment do not have to be realistic, but merely show variation along dimensions that also vary in the real world, and (2) use of an explicit invariance-inducing objective improves generalization in sim2sim and sim2real transfer settings over just data augmentation or domain randomization alone. We demonstrate the capability of our method by performing zero-shot transfer of a robot arm reach task on a 7DoF Jaco arm learning from pixel observations.
翻訳日:2021-05-23 14:41:05 公開日:2020-12-03
# 高次元ロボットの高速反応性確率的運動計画

Fast-reactive probabilistic motion planning for high-dimensional robots ( http://arxiv.org/abs/2012.02118v1 )

ライセンス: Link先を確認
Siyu Dai, Andreas Hofmann and Brian C. Williams(参考訳) 高次元ヒューマノイドロボットを含む現実のロボット操作の多くは、衝突リスクに対する障害計画や確率的保証のために高速反応を必要とするが、自動車のようなロボット向けに開発された確率論的運動計画アプローチは、高次元ロボットに直接適用することはできない。 本稿では,プロセスノイズや観測ノイズに苦しむ高次元ロボットに対して,安全性を保証できる高速応答型モーションプランニングシステムであるchekov (p-chekov)を提案する。 p-Chekovは, 複雑な環境下での高次元ロボット運動計画タスクにおいて, 衝突回避能力と計画速度の観点から, トラジェクトリ最適化をスパース・ロードマップ・フレームワークに統合する決定論的運動計画法を応用し, その優位性を実証した。 本稿では, p-Chekov がロボット操作作業における衝突リスクに対するユーザ指定確率制約を効果的に満たすことを示す。

Many real-world robotic operations that involve high-dimensional humanoid robots require fast-reaction to plan disturbances and probabilistic guarantees over collision risks, whereas most probabilistic motion planning approaches developed for car-like robots can not be directly applied to high-dimensional robots. In this paper, we present probabilistic Chekov (p-Chekov), a fast-reactive motion planning system that can provide safety guarantees for high-dimensional robots suffering from process noises and observation noises. Leveraging recent advances in machine learning as well as our previous work in deterministic motion planning that integrated trajectory optimization into a sparse roadmap framework, p-Chekov demonstrates its superiority in terms of collision avoidance ability and planning speed in high-dimensional robotic motion planning tasks in complex environments without the convexification of obstacles. Comprehensive theoretical and empirical analysis provided in this paper shows that p-Chekov can effectively satisfy user-specified chance constraints over collision risk in practical robotic manipulation tasks.
翻訳日:2021-05-23 14:40:30 公開日:2020-12-03
# ディープニューラルネットワークを用いた光量子状態の分類と再構成

Classification and reconstruction of optical quantum states with deep neural networks ( http://arxiv.org/abs/2012.02185v1 )

ライセンス: Link先を確認
Shahnawaz Ahmed, Carlos S\'anchez Mu\~noz, Franco Nori, Anton Frisk Kockum(参考訳) 量子状態の分類と再構成にディープニューラルネットワークに基づく手法を適用する。 ノイズの存在下でも,データ量が少なく,高い分類精度と再構成能力を示す。 光学量子状態を例として、まず畳み込みニューラルネットワーク(CNN)が、加法的ガウスノイズや光子損失などによって歪んだ複数の状態の分類に成功していることを示す。 さらに,ノイズのある入力を訓練したcnnは,データ中の最も重要な領域を識別することを学び,適応的データ収集を導くことで,トモグラフィのコストを低減できることを示した。 次に,量子物理知識を組み込んだニューラルネットワークを用いて,量子状態密度行列の再構成を示す。 この知識は、標準フィードフォワードニューラルネットワークからの出力を量子状態の有効な記述に変換するカスタムニューラルネットワーク層として実装されている。 任意の標準フィードフォワードニューラルネットワークアーキテクチャを量子状態トモグラフィ(qst)に適用することができる。 本稿では,条件付き生成対向ネットワーク(QST-CGAN)を用いた [arXiv:2008.03240] QST手法のさらなる実演を行う。 学習可能な損失関数の選択は,QST-CGANが,標準的な損失関数で訓練された生成ネットワークにおいて,様々なシナリオにおいて,より優れた性能を発揮することを実証することによって動機づける。 加法的あるいは畳み込み的なガウス雑音を持つ純粋な状態の場合、QST-CGANはノイズに適応し、基礎となる状態を再構築することができる。 QST-CGANは、標準イテレーティブ最大可能性 (iMLE) 法よりも最大で2桁少ない反復ステップを用いて状態を再構成する。 さらに、QST−CGANは、iMLEよりも桁違いに選択された2つのデータポイントから純粋な状態と混合状態の両方を再構成することができる。

We apply deep-neural-network-based techniques to quantum state classification and reconstruction. We demonstrate high classification accuracies and reconstruction fidelities, even in the presence of noise and with little data. Using optical quantum states as examples, we first demonstrate how convolutional neural networks (CNNs) can successfully classify several types of states distorted by, e.g., additive Gaussian noise or photon loss. We further show that a CNN trained on noisy inputs can learn to identify the most important regions in the data, which potentially can reduce the cost of tomography by guiding adaptive data collection. Secondly, we demonstrate reconstruction of quantum-state density matrices using neural networks that incorporate quantum-physics knowledge. The knowledge is implemented as custom neural-network layers that convert outputs from standard feedforward neural networks to valid descriptions of quantum states. Any standard feed-forward neural-network architecture can be adapted for quantum state tomography (QST) with our method. We present further demonstrations of our proposed [arXiv:2008.03240] QST technique with conditional generative adversarial networks (QST-CGAN). We motivate our choice of a learnable loss function within an adversarial framework by demonstrating that the QST-CGAN outperforms, across a range of scenarios, generative networks trained with standard loss functions. For pure states with additive or convolutional Gaussian noise, the QST-CGAN is able to adapt to the noise and reconstruct the underlying state. The QST-CGAN reconstructs states using up to two orders of magnitude fewer iterative steps than a standard iterative maximum likelihood (iMLE) method. Further, the QST-CGAN can reconstruct both pure and mixed states from two orders of magnitude fewer randomly chosen data points than iMLE.
翻訳日:2021-05-23 14:40:12 公開日:2020-12-03
# 体力予測のためのグラフ畳み込みニューラルネットワーク

Graph Convolutional Neural Networks for Body Force Prediction ( http://arxiv.org/abs/2012.02232v1 )

ライセンス: Link先を確認
Francis Ogoke, Kazem Meidani, Amirreza Hashemi, Amir Barati Farimani(参考訳) 多くの科学的および工学的プロセスは、空間的に非構造化データを生成する。 しかしながら、ほとんどのデータ駆動モデルは、各サンプルのセット番号と機能の順序の両方を強制する機能マトリックスを必要とします。 したがって、非構造化データセットのために簡単に構築することはできない。 したがって、グラフ畳み込みニューラルネットワーク(GCNN)を用いて、非構造化メッシュ上で定義されたフィールドの推論を行うグラフベースのデータ駆動モデルを示す。 空間的不規則な測定から高精度にグローバルな特性を予測できる能力は,飛散速度測定から翼まわりの層流に付随する抗力を予測することで実証された。 ネットワークは異なる解像度でフィールドサンプルから推測することができ、各サンプル内の測定値が提示される順序に不変である。 GCNN法は、帰納的畳み込み層と適応プーリングを用いて、空間構造に依存することなく、0.98以上のR^{2}$と0.01以下の正規化平均二乗誤差でこの量を予測することができる。

Many scientific and engineering processes produce spatially unstructured data. However, most data-driven models require a feature matrix that enforces both a set number and order of features for each sample. They thus cannot be easily constructed for an unstructured dataset. Therefore, a graph based data-driven model to perform inference on fields defined on an unstructured mesh, using a Graph Convolutional Neural Network (GCNN) is presented. The ability of the method to predict global properties from spatially irregular measurements with high accuracy is demonstrated by predicting the drag force associated with laminar flow around airfoils from scattered velocity measurements. The network can infer from field samples at different resolutions, and is invariant to the order in which the measurements within each sample are presented. The GCNN method, using inductive convolutional layers and adaptive pooling, is able to predict this quantity with a validation $R^{2}$ above 0.98, and a Normalized Mean Squared Error below 0.01, without relying on spatial structure.
翻訳日:2021-05-23 14:39:46 公開日:2020-12-03
# あらゆる企業が画像を所有している:畳み込みニューラルネットワークによる信用格付け

Every Corporation Owns Its Image: Corporate Credit Ratings via Convolutional Neural Networks ( http://arxiv.org/abs/2012.03744v1 )

ライセンス: Link先を確認
Bojing Feng, Wenfang Xue, Bindang Xue, Zeyu Liu(参考訳) 信用格付けは、投資におけるリスクと信頼性のレベルを反映した、企業に関連する信用リスクの分析である。 企業信用格付けを扱うための機械学習技術を実装する多くの研究が生まれている。 しかし、これらのモデルの能力は財務報告の膨大なデータによって制限されている。 本研究では、従来の機械学習モデルの性能を分析し、企業の信用格付けを予測する。 本稿では,強力な畳み込みニューラルネットワークと巨大な財務データを活用するために,畳み込みニューラルネットワークを用いた新たなエンドツーエンド手法であるCCR-CNNを提案する。 提案したモデルでは、各企業がイメージに変換される。 この画像に基づいて、CNNはデータの複雑な特徴的相互作用をキャプチャすることができる。 CCR-CNNは、私たちが構築した企業評価データセットで実施された大規模な実験によって、最先端の手法を一貫して上回っていることが証明された。

Credit rating is an analysis of the credit risks associated with a corporation, which reflect the level of the riskiness and reliability in investing. There have emerged many studies that implement machine learning techniques to deal with corporate credit rating. However, the ability of these models is limited by enormous amounts of data from financial statement reports. In this work, we analyze the performance of traditional machine learning models in predicting corporate credit rating. For utilizing the powerful convolutional neural networks and enormous financial data, we propose a novel end-to-end method, Corporate Credit Ratings via Convolutional Neural Networks, CCR-CNN for brevity. In the proposed model, each corporation is transformed into an image. Based on this image, CNN can capture complex feature interactions of data, which are difficult to be revealed by previous machine learning models. Extensive experiments conducted on the Chinese public-listed corporate rating dataset which we build, prove that CCR-CNN outperforms the state-of-the-art methods consistently.
翻訳日:2021-05-23 14:39:12 公開日:2020-12-03
# 累積デカップリング学習:層間モデル並列化における勾配定常性の緩和

Accumulated Decoupled Learning: Mitigating Gradient Staleness in Inter-Layer Model Parallelization ( http://arxiv.org/abs/2012.03747v1 )

ライセンス: Link先を確認
Huiping Zhuang, Zhiping Lin, Kar-Ann Toh(参考訳) 分離学習(英: Decoupled learning)とは、複数のモジュールに分割することで、ネットワークのトレーニングを並列化するモデル並列化の一分野である。 分離学習のテクニックは、通常、非同期実装のため、安定した勾配効果をもたらすため、パフォーマンスが低下する。 本稿では, 定常勾配効果を緩和するために, 勾配累積手法を取り入れた累積非結合学習(ADL)を提案する。 グラデーション・ステイレネスの低減方法に関する理論的および実証的な証拠を提示する。 提案手法は, 非同期性にもかかわらず, 臨界点, すなわち勾配が0に収束することを示す。 実験的な検証は、深層畳み込みニューラルネットワークをトレーニングして、CIFAR-10とImageNetデータセットの分類タスクを実行することによって提供される。 ADLは分類タスクにおいていくつかの最先端技術よりも優れており、比較手法の中では最速である。

Decoupled learning is a branch of model parallelism which parallelizes the training of a network by splitting it depth-wise into multiple modules. Techniques from decoupled learning usually lead to stale gradient effect because of their asynchronous implementation, thereby causing performance degradation. In this paper, we propose an accumulated decoupled learning (ADL) which incorporates the gradient accumulation technique to mitigate the stale gradient effect. We give both theoretical and empirical evidences regarding how the gradient staleness can be reduced. We prove that the proposed method can converge to critical points, i.e., the gradients converge to 0, in spite of its asynchronous nature. Empirical validation is provided by training deep convolutional neural networks to perform classification tasks on CIFAR-10 and ImageNet datasets. The ADL is shown to outperform several state-of-the-arts in the classification tasks, and is the fastest among the compared methods.
翻訳日:2021-05-23 14:38:57 公開日:2020-12-03
# IMAGO:20世紀の社会史分析のための家族写真アルバムデータセット

IMAGO: A family photo album dataset for a socio-historical analysis of the twentieth century ( http://arxiv.org/abs/2012.01955v1 )

ライセンス: Link先を確認
Lorenzo Stacchio, Alessia Angeli, Giuseppe Lisanti, Daniela Calanca, Gustavo Marfia(参考訳) 19世紀の終わりから最も人気のある写真技術の一つであったが、家族の写真アルバムに対する学術的な関心の高まりは1980年代初期までさかのぼる。 このような写真集は、特定の文化や時代に関する社会学的、歴史的洞察を明らかにする可能性がある。 しかし、たいていの場合、個人家庭に散在し、紙や写真フィルムでしか利用できないため、歴史学者、社会文化人類学者、文化理論家などの学者による分析は非常に面倒である。 本稿では,2004年以降,ボローニャ大学のリミニキャンパスで収集された家族アルバムの写真を含むIMAGOデータセットを分析した。 深層学習に基づくアプローチに続いて、IMAGOデータセットは、1845年から2009年の間に撮影された写真を、他の情報源を使わずに、画像の日付と社会史的文脈を評価することを目的として実験する機会を提供している。 当初,このような分析は,本研究で採用されるアプローチの性能だけでなく,社会史研究の利益に期待できる意味や利用の観点からも,その意義を明らかにしている。 私たちの知る限りでは、これは文学におけるこの道を歩む最初の作品です。

Although one of the most popular practices in photography since the end of the 19th century, an increase in scholarly interest in family photo albums dates back to the early 1980s. Such collections of photos may reveal sociological and historical insights regarding specific cultures and times. They are, however, in most cases scattered among private homes and only available on paper or photographic film, thus making their analysis by academics such as historians, social-cultural anthropologists and cultural theorists very cumbersome. In this paper, we analyze the IMAGO dataset including photos belonging to family albums assembled at the University of Bologna's Rimini campus since 2004. Following a deep learning-based approach, the IMAGO dataset has offered the opportunity of experimenting with photos taken between year 1845 and year 2009, with the goals of assessing the dates and the socio-historical contexts of the images, without use of any other sources of information. Exceeding our initial expectations, such analysis has revealed its merit not only in terms of the performance of the approach adopted in this work, but also in terms of the foreseeable implications and use for the benefit of socio-historical research. To the best of our knowledge, this is the first work that moves along this path in literature.
翻訳日:2021-05-23 14:38:25 公開日:2020-12-03
# 画像誘導インターベンションのための拡張現実登録手法のマルチセンター評価

Multicenter Assessment of Augmented Reality Registration Methods for Image-guided Interventions ( http://arxiv.org/abs/2012.02319v1 )

ライセンス: Link先を確認
Ningcheng Li, Jonathan Wakim, Yilun Koethe, Timothy Huber, Terence Gade, Stephen Hunt, Brian Park(参考訳) 目的: ホログラフィック3次元(3D)モデルを実環境にアライメントする際に, 手動および自動登録時間と拡張現実による精度を評価すること。 方法: HoloLens 2拡張現実ヘッドセットを3回連続して3次元CTファントムモデルをCTグリッドに登録した。 登録期間と精度は, 異なる登録方法(ハンドジェスチャー, xboxコントローラ, 自動登録), 臨床経験レベル, 連続試行で比較した。 登録期間もhololens 1のデータと比較された。 結果: 片手ジェスチャ, 両手ジェスチャ, xboxコントローラでは, 平均マニュアル登録時間は27.7秒, 24.3秒, 72.8秒であり, 自動登録時間は5.3秒であった(anova p<0.0001)。 参加者,住民,フェロー,医学生の間では,登録期間に有意な差は認められなかった (p>0.05)。 ハンドジェスチャを用いた連続的試みにおいて,登録時間の大幅な改善が認められた(p<0.01。 前回報告されたhololens 1の体験と比較して、ハンドジェスチャの登録時間は81.7%速く(p<0.05)。 登録精度は手動の登録方法によって大きく異なり、片手ジェスチャー、片手ジェスチャー、Xboxコントローラー(p>0.05)で5.9、9.5、8.6mmであった。 結論: 手動の登録時間はHoloLens 2とHoloLens 1で更新された手動操作によって大幅に減少した。 これらの結果は、手続き医療におけるHoloLens 2の広範な臨床統合を促進する。

Purpose: To evaluate manual and automatic registration times as well as accuracy with augmented reality during alignment of a holographic 3-dimensional (3D) model onto the real-world environment. Method: 18 participants in various stages of clinical training across two academic centers registered a 3D CT phantom model onto a CT grid using the HoloLens 2 augmented reality headset 3 consecutive times. Registration times and accuracy were compared among different registration methods (hand gesture, Xbox controller, and automatic registration), levels of clinical experience, and consecutive attempts. Registration times were also compared with prior HoloLens 1 data. Results: Mean aggregate manual registration times were 27.7, 24.3, and 72.8 seconds for one-handed gesture, two-handed gesture, and Xbox controller, respectively; mean automatic registration time was 5.3s (ANOVA p<0.0001). No significant difference in registration times was found among attendings, residents and fellows, and medical students (p>0.05). Significant improvements in registration times were detected across consecutive attempts using hand gestures (p<0.01). Compared with previously reported HoloLens 1 experience, hand gesture registration times were 81.7% faster (p<0.05). Registration accuracies were not significantly different across manual registration methods, measuring at 5.9, 9.5, and 8.6 mm with one-handed gesture, two-handed gesture, and Xbox controller, respectively (p>0.05). Conclusions: Manual registration times decreased significantly with updated hand gesture maneuvers on HoloLens 2 versus HoloLens 1, approaching the registration times of automatic registration and outperforming Xbox controller mediated registration. These results will encourage wider clinical integration of HoloLens 2 in procedural medical care.
翻訳日:2021-05-23 14:38:06 公開日:2020-12-03
# Mapperグラフのホットスポット同定

Hotspot identification for Mapper graphs ( http://arxiv.org/abs/2012.01868v1 )

ライセンス: Link先を確認
Ciara Frances Loughrey, Nick Orr, Anna Jurek-Loughrey, and Pawe{\l} D{\l}otko(参考訳) Mapperアルゴリズムは、ループ、フレア、クラスタなどの構造的に興味深い特徴をキャプチャする高次元データのグラフベースの表現を構築するために使用できる。 グラフはさらに、特別な興味のある領域の位置を指定できるように、頂点のさらなる色付けで注釈を付けることができる。 例えば、精密医療などの多くのアプリケーションにおいて、Mapperグラフはデータセット内の未知のコンパクトな局所化部分領域を識別するために使われてきた。 このタスクは研究者がこれまで行ってきたもので、ホットスポット分析を使って自動化することができる。 本研究では,マッパーグラフ中のホットスポットを検出する新しいアルゴリズムを提案する。 ホットスポット検出プロセスの自動化を可能にする。 本稿では,人工および実世界のデータセット上でのアルゴリズムの性能を示す。 さらに、我々のアルゴリズムがMapperレンズ関数の自動選択にどのように使えるかを示す。

Mapper algorithm can be used to build graph-based representations of high-dimensional data capturing structurally interesting features such as loops, flares or clusters. The graph can be further annotated with additional colouring of vertices allowing location of regions of special interest. For instance, in many applications, such as precision medicine, Mapper graph has been used to identify unknown compactly localized subareas within the dataset demonstrating unique or unusual behaviours. This task, performed so far by a researcher, can be automatized using hotspot analysis. In this work we propose a new algorithm for detecting hotspots in Mapper graphs. It allows automatizing of the hotspot detection process. We demonstrate the performance of the algorithm on a number of artificial and real world datasets. We further demonstrate how our algorithm can be used for the automatic selection of the Mapper lens functions.
翻訳日:2021-05-23 14:37:38 公開日:2020-12-03
# オーバー・ザ・カウンタ信用デフォルトスワップ市場の競争分析

Competition analysis on the over-the-counter credit default swap market ( http://arxiv.org/abs/2012.01883v1 )

ライセンス: Link先を確認
Louis Abraham(参考訳) 我々は、EMIR規制の一部として収集されたデータを用いて、OCC CDS市場における競合に関する2つの質問を調査した。 まず,両立要件による中央対立の競合について検討する。 初期マージン要件をうまく見積もるモデルを提案する。 しかし,OCC市場における候補によるCCP選択の予測モデルへの入力として使用するには,我々の推定精度は十分ではない。 第2に,新たな半教師付き予測タスクを用いて,インターディーラー市場での対向選択をモデル化する。 本手法は,条件エントロピーをモデル非依存アプローチを通じてデータから知識を導き出す指標として用いる前に,モデル解釈可能性に関する文献の一部として提示する。 特に、実世界のデータセットの条件付きエントロピーを測定するためにディープニューラルネットワークの使用を正当化する。 我々はアルゴリズム情報理論の枠組みを用いて$\textit{Razor entropy}$を作成し、半教師付きトレーニング目標と同一の明示的な公式を導出する。 最後に、ゲーム理論から概念を借りて$\textit{top-k Shapley value}$を定義する。 この新たなペイオフ分布法は、シャプリー値の性質の大部分を満足し、値関数が単調部分モジュラーであるときに特に興味深い。 古典的なシェープリー値とは異なり、トップkシェープリー値は指数関数ではなく2次時間で計算できる。 方法論を実装し、選択した特定のタスクについて結果を報告する。 最後に、例えばインターメディエーションのさらなる研究に使用できる$\textit{node2vec}$アルゴリズムの改善を示す。 バイアスドウォークの生成に使用される隣接サンプリングは, スケールが良くない現在の実装とは異なり, 準線形時間前計算を用いて対数時間で実行可能であることを示す。

We study two questions related to competition on the OTC CDS market using data collected as part of the EMIR regulation. First, we study the competition between central counterparties through collateral requirements. We present models that successfully estimate the initial margin requirements. However, our estimations are not precise enough to use them as input to a predictive model for CCP choice by counterparties in the OTC market. Second, we model counterpart choice on the interdealer market using a novel semi-supervised predictive task. We present our methodology as part of the literature on model interpretability before arguing for the use of conditional entropy as the metric of interest to derive knowledge from data through a model-agnostic approach. In particular, we justify the use of deep neural networks to measure conditional entropy on real-world datasets. We create the $\textit{Razor entropy}$ using the framework of algorithmic information theory and derive an explicit formula that is identical to our semi-supervised training objective. Finally, we borrow concepts from game theory to define $\textit{top-k Shapley values}$. This novel method of payoff distribution satisfies most of the properties of Shapley values, and is of particular interest when the value function is monotone submodular. Unlike classical Shapley values, top-k Shapley values can be computed in quadratic time of the number of features instead of exponential. We implement our methodology and report the results on our particular task of counterpart choice. Finally, we present an improvement to the $\textit{node2vec}$ algorithm that could for example be used to further study intermediation. We show that the neighbor sampling used in the generation of biased walks can be performed in logarithmic time with a quasilinear time pre-computation, unlike the current implementations that do not scale well.
翻訳日:2021-05-23 14:37:28 公開日:2020-12-03
# 量子学習アルゴリズムは下限を巡回する

Quantum learning algorithms imply circuit lower bounds ( http://arxiv.org/abs/2012.01920v1 )

ライセンス: Link先を確認
Srinivasan Arunachalam, Alex B. Grilo, Tom Gur, Igor C. Oliveira, Aarthi Sundaram(参考訳) 量子アルゴリズムの設計と回路下界との間の最初の一般的な接続を確立する。 具体的には、$\mathfrak{C}$ を多項式サイズの概念のクラスとし、$\mathfrak{C}$ を誤差 $1/2 - \gamma$ の均一分布の下でメンバシップクエリで PAC を学習できると仮定する。 もし$\gamma^2 \cdot t \ll 2^n/n$なら、$\mathsf{bqe} \nsubseteq \mathfrak{c}$、ただし$\mathsf{bqe} = \mathsf{bqtime}[2^{o(n)}]$は$\mathsf{bqp}$の指数時間類似である。 この結果は、クラス$\mathfrak{C}$を(古典的な)時間$T = 2^n$(誤りのない)あるいは量子時間$T = \mathsf{poly}(n)$を最大1/2 - \Omega(2^{-n/2})$でフーリエサンプリングすることによって学習することが難しいため、$\gamma$と$T$の両方で最適である。 言い換えれば、これらの一般的な学習アルゴリズムに対する限界的な改善でさえ、複雑性理論において大きな結果をもたらすだろう。 本証明は,学習理論,擬似ランダム性,計算複雑性に関するいくつかの研究と,oliveira と santhanam (ccc 2017) によって確立された非自明な古典的学習アルゴリズムと回路下限との関係を基礎としている。 量子学習アルゴリズムへのアプローチを拡張することで、大きな課題が生まれる。 そこで本研究では, 擬似乱数生成器が汎用的な方法で学習・下界接続を示唆し, 均一な量子計算に対して確保された最初の条件付き擬似乱数生成器を構築し, 微妙な解析によりImpagliazzo, Jaiswal, Kabanets, Wigderson (SICOMP 2010) の局所的リスト復号アルゴリズムを拡張した。 これらの貢献は独立した関心事であり、他の応用を見出すかもしれないと信じています。

We establish the first general connection between the design of quantum algorithms and circuit lower bounds. Specifically, let $\mathfrak{C}$ be a class of polynomial-size concepts, and suppose that $\mathfrak{C}$ can be PAC-learned with membership queries under the uniform distribution with error $1/2 - \gamma$ by a time $T$ quantum algorithm. We prove that if $\gamma^2 \cdot T \ll 2^n/n$, then $\mathsf{BQE} \nsubseteq \mathfrak{C}$, where $\mathsf{BQE} = \mathsf{BQTIME}[2^{O(n)}]$ is an exponential-time analogue of $\mathsf{BQP}$. This result is optimal in both $\gamma$ and $T$, since it is not hard to learn any class $\mathfrak{C}$ of functions in (classical) time $T = 2^n$ (with no error), or in quantum time $T = \mathsf{poly}(n)$ with error at most $1/2 - \Omega(2^{-n/2})$ via Fourier sampling. In other words, even a marginal improvement on these generic learning algorithms would lead to major consequences in complexity theory. Our proof builds on several works in learning theory, pseudorandomness, and computational complexity, and crucially, on a connection between non-trivial classical learning algorithms and circuit lower bounds established by Oliveira and Santhanam (CCC 2017). Extending their approach to quantum learning algorithms turns out to create significant challenges. To achieve that, we show among other results how pseudorandom generators imply learning-to-lower-bound connections in a generic fashion, construct the first conditional pseudorandom generator secure against uniform quantum computations, and extend the local list-decoding algorithm of Impagliazzo, Jaiswal, Kabanets and Wigderson (SICOMP 2010) to quantum circuits via a delicate analysis. We believe that these contributions are of independent interest and might find other applications.
翻訳日:2021-05-23 14:36:59 公開日:2020-12-03