このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211006となっている論文です。

PDF登録状況(公開日: 20211006)

TitleAuthorsAbstract論文公表日・翻訳日
# 一般化消去チャネルを用いた量子容量の正負性および非付加性

Positivity and nonadditivity of quantum capacities using generalized erasure channels ( http://arxiv.org/abs/2003.00583v2 )

ライセンス: Link先を確認
Vikesh Siddhu, Robert B. Griffiths(参考訳) 我々は、2つ以上の相補的な量子チャネル対 $(\mathcal{b},\mathcal{c})$ を合成して合成を形成する過程の様々な形式を考える。 グルーイングの1つのタイプは、完全チャネルと第二チャンネルを結合して \emph{generalized erasure channel} pair $(\mathcal{b}_g,\mathcal{c}_g)$を生成する。 第2チャンネルが2つの場合を考える。 (i)振幅減衰、または (ii)位相減衰クビットチャネル (ii) は Leditzky et al の \emph{dephrasure channel} である。 二人とも (i)および (ii), $(\mathcal{B}_g,\mathcal{C}_g)$ はダンピングパラメータ $0\leq p\leq 1$ と、グルリングプロセスを特徴づけるパラメータ $0 \leq \lambda \leq 1$ に依存する。 どちらの場合も、$Q^{(1)}(\mathcal{B}_g)$と$Q^{(1)}(\mathcal{C}_g)$の研究を行い、$Q^{(1)}$はチャネルコヒーレントな情報であり、$(p,\lambda)$プレーン内の各領域は0または正の値であり、前の結果を確認する。 (ii) q^{(1)}(\mathcal{c}_g)$ は$p=0$ のとき$\lambda \leq 1/2$ に対して 0 であるが、$p$ が最小の値であっても$\lambda> 0$ の全ての値に対して厳密に正(ただし非常に小さい)である。 さらに、2つの同一のチャネルに対して、並列に$q^{(1)}(\mathcal{b}_g)$ の非加法性の研究を行う。 これは$(p,\lambda)$ 平面の well-defined 領域で発生します。 (i)。 場合 (ii)非加法性が発生する場合の$(p,\lambda)$の全範囲を識別することなく、dephrasureチャネルの以前の結果を拡張した。 また、直感的な説明が欠けている。

We consider various forms of a process, which we call {\em gluing}, for combining two or more complementary quantum channel pairs $(\mathcal{B},\mathcal{C})$ to form a composite. One type of gluing combines a perfect channel with a second channel to produce a \emph{generalized erasure channel} pair $(\mathcal{B}_g,\mathcal{C}_g)$. We consider two cases in which the second channel is (i) an amplitude-damping, or (ii) a phase-damping qubit channel; (ii) is the \emph{dephrasure channel} of Leditzky et al. For both (i) and (ii), $(\mathcal{B}_g,\mathcal{C}_g)$ depends on the damping parameter $0\leq p\leq 1$ and a parameter $0 \leq \lambda \leq 1$ that characterizes the gluing process. In both cases we study $Q^{(1)}(\mathcal{B}_g)$ and $Q^{(1)}(\mathcal{C}_g)$, where $Q^{(1)}$ is the channel coherent information, and determine the regions in the $(p,\lambda)$ plane where each is zero or positive, confirming previous results for (ii). A somewhat surprising result for which we lack any intuitive explanation is that $Q^{(1)}(\mathcal{C}_g)$ is zero for $\lambda \leq 1/2$ when $p=0$, but is strictly positive (though perhaps extremely small) for all values of $\lambda> 0$ when $p$ is positive by even the smallest amount. In addition we study the nonadditivity of $Q^{(1)}(\mathcal{B}_g)$ for two identical channels in parallel. It occurs in a well-defined region of the $(p,\lambda)$ plane in case (i). In case (ii) we have extended previous results for the dephrasure channel without, however, identifying the full range of $(p,\lambda)$ values where nonadditivity occurs. Again, an intuitive explanation is lacking.
翻訳日:2023-06-01 03:35:06 公開日:2021-10-06
# T数に対する多項式時間と空間ヒューリスティックアルゴリズム

A polynomial time and space heuristic algorithm for T-count ( http://arxiv.org/abs/2006.12440v3 )

ライセンス: Link先を確認
Michele Mosca and Priyanka Mukhopadhyay(参考訳) この研究は、最先端のフォールトトレラントな量子エラー訂正符号を使用する場合の量子アルゴリズムの実装の物理的コストの低減に焦点を当て、特にTゲートを実装する場合、ゲートセットの他のゲートよりもはるかに多くのリソースを消費する。 より具体的には、clifford+t ゲート集合、つまりユニバーサルゲート集合からなる量子回路によって正確に実装できるユニタリのグループを考える。 我々の一番の関心は与えられた$n$-qubitのユニタリU$の回路を、最小の可能なTゲート数(TカウントのユニタリU$)を使って計算することである。 最適化版であるCOUNT-Tは、$U$のTカウントを見つけることを目的としている。 決定版では、T カウントが正の整数 $m$ であるかどうかを決定することが目的である。 COUNT-T のオラクルが与えられると、T カウントの時間多項式における T カウント最適回路を計算でき、次元は$U$である。 我々は COUNT-T (決定) を時間 $O\left(N^{2(c-1)\lceil\frac{m}{c}\rceil}\text{poly}(m,N)\right)$ と space $O\left(N^{2\lceil\frac{m}{c}\rceil}\text{poly}(m,N)\right)$ で解く証明可能な古典的アルゴリズムを与える。 これにより、中間的手法の変種でこの問題を解決するための時空トレードオフが得られる。 また、全体的な複雑性の係数を$N^{0.7457}$にする漸近的に高速な乗法も導入する。 最後に、厳密なアルゴリズムの改善以外にも、いくつかの仮定の下で、t-count-optimal回路を出力するヒューリスティックなアルゴリズムを与え、空間と時間の複雑さを$\text{poly}(m,n)$とする。 我々のヒューリスティックな方法はまだ量子ビットの数で指数関数的にスケールする(ただし指数関数は低いが、指数関数から多項式へのスケーリングは$m$で大きく改善されている)。

This work focuses on reducing the physical cost of implementing quantum algorithms when using the state-of-the-art fault-tolerant quantum error correcting codes, in particular, those for which implementing the T gate consumes vastly more resources than the other gates in the gate set. More specifically, we consider the group of unitaries that can be exactly implemented by a quantum circuit consisting of the Clifford+T gate set, a universal gate set. Our primary interest is to compute a circuit for a given $n$-qubit unitary $U$, using the minimum possible number of T gates (called the T-count of unitary $U$). We consider the problem COUNT-T, the optimization version of which aims to find the T-count of $U$. In its decision version the goal is to decide if the T-count is at most some positive integer $m$. Given an oracle for COUNT-T, we can compute a T-count-optimal circuit in time polynomial in the T-count and dimension of $U$. We give a provable classical algorithm that solves COUNT-T (decision) in time $O\left(N^{2(c-1)\lceil\frac{m}{c}\rceil}\text{poly}(m,N)\right)$ and space $O\left(N^{2\lceil\frac{m}{c}\rceil}\text{poly}(m,N)\right)$, where $N=2^n$ and $c\geq 2$. This gives a space-time trade-off for solving this problem with variants of meet-in-the-middle techniques. We also introduce an asymptotically faster multiplication method that shaves a factor of $N^{0.7457}$ off of the overall complexity. Lastly, beyond our improvements to the rigorous algorithm, we give a heuristic algorithm that outputs a T-count-optimal circuit and has space and time complexity $\text{poly}(m,N)$, under some assumptions. While our heuristic method still scales exponentially with the number of qubits (though with a lower exponent, there is a large improvement by going from exponential to polynomial scaling with $m$.
翻訳日:2023-05-13 04:49:52 公開日:2021-10-06
# 地球重力における量子スイッチ

Quantum switch in the gravity of Earth ( http://arxiv.org/abs/2012.03989v3 )

ライセンス: Link先を確認
Nat\'alia S. M\'oller, Bruna Sahdo and Nelson Yokomizo(参考訳) 我々は,球面質量の重力場における量子スイッチのプロトコルを導入し,その実現に必要な時間間隔を地球の重力で決定する。 不定順序で演算を行うエージェントの1つは、経路重ね合わせ状態の量子システムである。 適切な時間と位置の絡み合いは、量子スイッチの実装のためのリソースとして検討される。 提案されたプロトコルの実現は、まだ実験的に研究されていない曲面時空上で量子力学によって記述された物理状態を調べるであろう。

We introduce a protocol for a quantum switch in the gravitational field of a spherical mass and determine the time interval required for its realization in the gravity of Earth. One of the agents that perform operations with indefinite order is a quantum system in a path superposition state. Entanglement between its proper time and position is explored as a resource for the implementation of the quantum switch. The realization of the proposed protocol would probe the physical regime described by quantum mechanics on curved spacetimes, which has not yet been explored experimentally.
翻訳日:2023-04-21 20:46:34 公開日:2021-10-06
# 動的に補正された断熱ホロノミック量子ゲート

Dynamically Corrected Nonadiabatic Holonomic Quantum Gates ( http://arxiv.org/abs/2012.09034v2 )

ライセンス: Link先を確認
Sai Li, Zheng-Yuan Xue(参考訳) フォールトトレラント量子計算を実現する鍵は、すべての量子ビットの一貫性を維持することにある。 有望なアプローチの1つは、ある種の局所雑音に対する固有のロバスト性のため、普遍量子ゲートの構築に幾何学的位相を使用することである。 しかし、従来の実装では制限があったため、非線形ホロノミック量子計算(NHQC)の耐雑音性は改善される必要がある。 ここでは, 動的補正手法と組み合わせ, 簡易制御による普遍的NHQCの一般的なプロトコルを提案し, 付随するX誤差の影響を大幅に抑制し, 幾何学的量子演算の主な利点を保っている。 数値シミュレーションにより、我々のゲートの性能は以前のプロトコルよりもずっと良いことが示されている。 驚くべきことに、集合的デファクトノイズに対してデコヒーレンスフリーな部分空間エンコーディングを組み込む場合、このスキームは関連するzエラーに対して頑健である。 さらに、xとzの両方のエラーに影響を受けないプロトコルの物理的実装についても概説する。 そこで本プロトコルは,スケーラブルなフォールトトレラント量子計算のための有望な戦略を提供する。

The key for realizing fault-tolerant quantum computation lies in maintaining the coherence of all qubits so that high-fidelity and robust quantum manipulations on them can be achieved. One of the promising approaches is to use geometric phases in the construction of universal quantum gates, due to their intrinsic robustness against certain types of local noises. However, due to limitations in previous implementations, the noise-resilience feature of nonadiabatic holonomic quantum computation (NHQC) still needs to be improved. Here, combining with the dynamical correction technique, we propose a general protocol of universal NHQC with simplified control, which can greatly suppress the effect of the accompanied X errors, retaining the main merit of geometric quantum operations. Numerical simulation shows that the performance of our gate can be much better than previous protocols. Remarkably, when incorporating a decoherence-free subspace encoding for the collective dephasing noise, our scheme can also be robust against the involved Z errors. In addition, we also outline the physical implementation of the protocol that is insensitive to both X and Z errors. Therefore, our protocol provides a promising strategy for scalable fault-tolerant quantum computation.
翻訳日:2023-04-20 11:12:16 公開日:2021-10-06
# 拡張Hubbardモデルの体中心キュービック量子シミュレータにおけるフェルミオンペアリング

Fermion pairing in body-centered-cubic quantum simulators of extended Hubbard models ( http://arxiv.org/abs/2102.07744v3 )

ライセンス: Link先を確認
Ganiyu D. Adebanjo, P.E. Kornilovitch and J.P. Hague(参考訳) 本研究では,体中心立方体(BCC)光学格子を用いた拡張ハバードモデル(UV$モデル)用冷原子量子シミュレータにおけるフェルミオン対の生成と凝縮について検討し,小対と軽対を予測する。 ペア質量、半径、結合条件が計算され、遷移温度を計算するために使用される。 私たちはそれを予測します (a)bcc光学格子で形成される局所対であって、結合エネルギーが大きいもの (b)オンサイト$u$とインターサイト$v$が類似のサイズで魅力的である場合において、ペアは小さくて軽い。 (c)$^6$Li原子の対 Bose--Einstein condense の温度は約10nKである。

We investigate formation and condensation of fermion pairs in cold-atom quantum simulators for extended Hubbard models ($UV$ models) with body-centered-cubic (BCC) optical lattices in the dilute limit, predicting small and light pairs. Pair mass, radius, and binding conditions are calculated, and used to compute transition temperatures. We predict that: (a) local pairs form in BCC optical lattices and binding energies can be large; (b) for particular cases where onsite $U$ and intersite $V$ are attractive with similar size, pairs are both small and light; and (c) pairs of $^6$Li atoms Bose--Einstein condense at temperatures of around 10 nK.
翻訳日:2023-04-11 02:10:03 公開日:2021-10-06
# 量子コンピューティング応用のための電子構造ハミルトニアンの1ノルム低減のための軌道変換

Orbital transformations to reduce the 1-norm of the electronic structure Hamiltonian for quantum computing applications ( http://arxiv.org/abs/2103.14753v3 )

ライセンス: Link先を確認
Emiel Koridon, Saad Yalouz, Bruno Senjean, Francesco Buda, Thomas E. O'Brien and Lucas Visscher(参考訳) 量子化学問題を扱うために量子アルゴリズムの複雑さを減らすことは、ノイズ-中間スケール量子(nisq)デバイスが古典的デバイスより優れていることを示すために不可欠である。 u(t) = e^{i\mathcal{\hat{h}}t}$ where $\mathcal{\hat{h}}$ is the electronic structure hamiltonian, or simulation $\mathcal{\hat{h}}$ direct (ユニタリの線形結合として書く場合) ブロックエンコーディングや「量子化」技術を用いて、時間発展演算子 $u(t) = e^{i\mathcal{\hat{h}}t}$ where $\mathcal{\hat{h}}$ をシミュレートする。 これらの量子アルゴリズムの実用的実装の複雑さを定量化する基本的な尺度は、ハミルトニアンの量子ビット表現のいわゆる「1-ノルム」であり、ハミルトニアンの因子化形式やテンソル超縮約形式を記述することで減少することができる。 本研究では,電子構造ハミルトニアン表現の古典的事前最適化が1-ノルム上の単一粒子基底変換に及ぼす影響について検討する。 具体的には,複数の局所化スキームを用いて,異なる大きさのシステム (原子数と活性空間サイズ) の1-ノルムをベンチマークする。 また、電子積分の関数として1-ノルムの新しい式を導出し、この量を局所化スキームよりも優れた軌道最適化スキームのコスト関数として用いる。 本稿では、量子化学における量子コンピューティングにおける1ノルムの重要性についてより深い洞察を与え、量子アルゴリズムの複雑さを減らすために、その価値を下げる簡単な方法を提供する。

Reducing the complexity of quantum algorithms to treat quantum chemistry problems is essential to demonstrate an eventual quantum advantage of Noisy-Intermediate Scale Quantum (NISQ) devices over their classical counterpart. Significant improvements have been made recently to simulate the time-evolution operator $U(t) = e^{i\mathcal{\hat{H}}t}$ where $\mathcal{\hat{H}}$ is the electronic structure Hamiltonian, or to simulate $\mathcal{\hat{H}}$ directly (when written as a linear combination of unitaries) by using block encoding or "qubitization" techniques. A fundamental measure quantifying the practical implementation complexity of these quantum algorithms is the so-called "1-norm" of the qubit-representation of the Hamiltonian, which can be reduced by writing the Hamiltonian in factorized or tensor-hypercontracted forms for instance. In this work, we investigate the effect of classical pre-optimization of the electronic structure Hamiltonian representation, via single-particle basis transformation, on the 1-norm. Specifically, we employ several localization schemes and benchmark the 1-norm of several systems of different sizes (number of atoms and active space sizes). We also derive a new formula for the 1-norm as a function of the electronic integrals, and use this quantity as a cost function for an orbital-optimization scheme that improves over localization schemes. This paper gives more insights about the importance of the 1-norm in quantum computing for quantum chemistry, and provides simple ways of decreasing its value to reduce the complexity of quantum algorithms.
翻訳日:2023-04-06 19:00:37 公開日:2021-10-06
# 軸対称によるキャビティの次元還元:光ファイバがほぼ1次元である場合の完全な解析

Dimensional reduction of cavities with axial symmetry: A complete analysis of when an optical fiber is approximately one-dimensional ( http://arxiv.org/abs/2104.00745v2 )

ライセンス: Link先を確認
Daniel Grimmer, Richard Lopp and Eduardo Mart\'in-Mart\'inez(参考訳) 直観は、非常に長く非常に薄い空洞(例えば光ファイバーケーブル)をおよそ1次元のシステムとしてモデル化できると規定している。 本稿では,局所的なプローブ結合からキャビティ内の量子場(例えば,光ファイバーケーブル内の原子やunruh-dewitt粒子検出器)への直観的結合の観点から,その妥当性を厳密に検討する。 そのため、軸対称な空洞内の$d+1$ 次元の量子場を無限に結合しない1+1$ 次元の場の集まりに還元できる部分場分解の概念を導入する。 1+1$のモデルで高次元のシナリオを近似できる能力は、高次元空間におけるプローブの形状を一定に変化させることと等価であることを示す。 この形状の変化が「十分小さい」とき、近似は正当化される。 この光では、これらのプローブ形状の変化の大きさを判断すべき、動的に関連するノルムを同定する。 最後に、量子光学および超伝導回路に対応する特にこの近似を考察する。

Intuition dictates that a very long, very thin cavity (e.g., a fiber optic cable) could perhaps be modeled as an approximately one dimensional system. In this paper we rigorously explore the validity of such intuition from the perspective of a localized probe coupling to a quantum field inside a cavity (e.g., an atom or an Unruh-DeWitt particle detector in a fiber optic cable). To do so, we introduce the notion of subfield decomposition in which a $D+1$ dimensional quantum field in an axially-symmetric cavity can be reduced to an infinite collection of uncoupled, massive $1+1$ dimensional fields. We show that the ability to approximate a higher-dimensional scenario by a $1+1$ dimensional model is equivalent to making a certain change of the probe's shape in the higher-dimensional space. The approximation is justified whenever this change of shape is "small enough". In this light, we identify the dynamically relevant norm by which the magnitude of these changes in probe shape ought to be judged. Finally, we explore this approximation in particular setups corresponding to quantum optics and superconducting circuits.
翻訳日:2023-04-05 22:01:13 公開日:2021-10-06
# 光の絡み合ったリップルとねじれ:ラゲール・ガウスモードのラジアルおよびアジムタールの絡み合い

Entangled ripples and twists of light: Radial and azimuthal Laguerre-Gaussian mode entanglement ( http://arxiv.org/abs/2104.04506v2 )

ライセンス: Link先を確認
Natalia Herrera Valencia, Vatshal Srivastav, Saroch Leedumrongwatthanakun, Will McCutcheon, Mehul Malik(参考訳) 光子は「ツイスト」または「リップド」波面に似た空間構造を持つことができることはよく知られている。 このような構造された光場は、古典物理学と量子物理学の両方に大きな関心を呼んだ。 量子領域におけるラゲール・ガウシアン(lg)基底を用いた逆空間フォトニック符号化の利点を最大限に活用するには、光子のアジムタール(twisted)とラジアル(rippled)の両方を制御する必要がある。 しかしながら、ラジアルフォトニック度-フリーダムの正確な測定は、主にその横振幅構造のために実験的に困難であることが証明されている。 ここでは、テレコム体制における自然パラメトリックダウンコンバージョンによって生成される光子対間のフルフィールドラゲール・ガウス交絡の生成と証明を示す。 状態生成と収集のための光学系パラメータを正確に調整し,最近開発された精密空間モード計測技術を採用することにより,43次元の放射状および方位LGモード空間において,最大85%の忠実度と最大26までの絡み合い次元を証明できる。 さらに,9種類のlgモード群間の2光子量子相関の研究を行い,モード群秩序とモード間クロストークに関連する相関構造を示した。 また,高次元エンタングルメント認証のノイズロバスト性が,複数のlg非バイアスベースにおける測定値を用いて著しく向上することを示す。 本研究は、量子情報処理および通信技術を強化するために、2光子場の空間構造がもたらす可能性を示す。

It is well known that photons can carry a spatial structure akin to a "twisted" or "rippled" wavefront. Such structured light fields have sparked significant interest in both classical and quantum physics, with applications ranging from dense communications to light-matter interaction. Harnessing the full advantage of transverse spatial photonic encoding using the Laguerre-Gaussian (LG) basis in the quantum domain requires control over both the azimuthal (twisted) and radial (rippled) components of photons. However, precise measurement of the radial photonic degree-of-freedom has proven to be experimentally challenging primarily due to its transverse amplitude structure. Here we demonstrate the generation and certification of full-field Laguerre-Gaussian entanglement between photons pairs generated by spontaneous parametric down-conversion in the telecom regime. By precisely tuning the optical system parameters for state generation and collection, and adopting recently developed techniques for precise spatial mode measurement, we are able to certify fidelities up to 85% and entanglement dimensionalities up to 26 in a 43-dimensional radial and azimuthal LG mode space. Furthermore, we study two-photon quantum correlations between 9 LG mode groups, demonstrating a correlation structure related to mode group order and inter-modal cross-talk. In addition, we show how the noise-robustness of high-dimensional entanglement certification can be significantly increased by using measurements in multiple LG mutually unbiased bases. Our work demonstrates the potential offered by the full spatial structure of the two-photon field for enhancing technologies for quantum information processing and communication.
翻訳日:2023-04-04 07:34:57 公開日:2021-10-06
# 実効音を用いた香港・奥羽・マンデル干渉の工学

Engineering of Hong-Ou-Mandel interference with effective noise ( http://arxiv.org/abs/2105.12442v2 )

ライセンス: Link先を確認
Olli Siltanen, Tom Kuusela, and Jyrki Piilo(参考訳) ホン・ウー・マンデル効果は量子干渉法の中心にあり、量子情報処理の分野で複数の応用があり、古典的応用はない。 その人気にもかかわらず、干渉計内での偏波と周波数の相互作用を考える作品はごくわずかである。 本稿では、このギャップを埋めます。 我々の関心の系は、両屈折媒質を介して伝播する光子と同じ光子の周波数状態に絡み合うことにより、効果的な劣化ノイズを経験する一般的な双光子偏光状態である。 光子はビームスプリッターで出会うが、そこでは偶然か束縛が起こり、その後に偏光-周波数相互作用が出力経路で続く。 一致確率と異なる分極状態に関する広範な理論的解析を行うとともに、ベル状態の構成から代替の遅延選択量子消去器まで、様々な興味深い応用を概説する。

The Hong-Ou-Mandel effect lies at the heart of quantum interferometry, having multiple applications in the field of quantum information processing and no classical counterpart. Despite its popularity, only a few works have considered polarization-frequency interaction within the interferometer. In this paper, we fill this gap. Our system of interest is a general biphoton polarization state that experiences effective dephasing noise by becoming entangled with the same photons' frequency state, as the photons propagate through birefringent media. The photons then meet at a beam splitter, where either coincidence or bunching occurs, after which the polarization-frequency interaction continues on the output paths. Alongside performing extensive theoretical analysis on the coincidence probability and different polarization states, we outline multiple interesting applications that range from constructing Bell states to an alternative delayed choice quantum eraser.
翻訳日:2023-03-29 11:51:49 公開日:2021-10-06
# 空間分解コヒーレント検出によるバイナリソースのサブレイリー特性評価

Sub-Rayleigh characterization of a binary source by spatially demultiplexed coherent detection ( http://arxiv.org/abs/2106.09557v2 )

ライセンス: Link先を確認
Chandan Datta, Yink Loong Len, Karol {\L}ukanowski, Konrad Banaszek, Marcin Jarzyna(参考訳) 画像平面内の相互直交空間モード群上に同時に実装した理論的にコヒーレント検出をレイリー限界以下の複合熱源の特性を特徴付ける手法として検討する。 画像平面で測定された複素場振幅に対する音源面の強度分布と共分散行列との一般関係を導出した。 2次元対称二成分源のパラメータを推定するアルゴリズムをモンテカルロシミュレーションを用いて考案し,高比の信号検出ノイズ(SNR)に対する超解能を実現する。 具体的には、画像システムの伝達関数の空間拡散によって決定される単位において、2つの点源間の分離を$\textrm{SNR}^{-1/2}$に有意に決定することができる。 提案アルゴリズムは, サブレイリー領域で測定したデータをほぼ最適に利用することを示した。

We investigate theoretically coherent detection implemented simultaneously on a set of mutually orthogonal spatial modes in the image plane as a method to characterize properties of a composite thermal source below the Rayleigh limit. A general relation between the intensity distribution in the source plane and the covariance matrix for the complex field amplitudes measured in the image plane is derived. An algorithm to estimate parameters of a two-dimensional symmetric binary source is devised and verified using Monte Carlo simulations to provide super-resolving capability for high ratio of signal to detection noise (SNR). Specifically, the separation between two point sources can be meaningfully determined down to $\textrm{SNR}^{-1/2}$ in the units determined by the spatial spread of the transfer function of the imaging system. The presented algorithm is shown to make a nearly optimal use of the measured data in the sub-Rayleigh region.
翻訳日:2023-03-26 15:13:34 公開日:2021-10-06
# シリコン中の通信波長単一光子エミッタの同定

Identification of a telecom wavelength single photon emitter in silicon ( http://arxiv.org/abs/2106.13578v2 )

ライセンス: Link先を確認
P\'eter Udvarhelyi, B\'alint Somogyi, Gerg\H{o} Thiering, and Adam Gali(参考訳) 本稿では,シリコン中のG光発光中心の微細構造を,光通信波長単一光子源である自己持続多体摂動法を含む第一原理計算により同定する。 この欠陥は、$\text{c}_\text{c}_\text{c}_\text{i}$ carbon不純物が$\text{c}_\text{s}-\text{si}_\text{i}-\text{c}_\text{s}$ の中性チャージ状態における構成である。 観測された光学信号の微細構造は、欠陥の非熱的回転再配向に由来することが判明した。 光学的に検出された磁気共鳴測定で報告される単斜晶対称性を極低温でのトンネル速度の低減に分類した。 熱的に活性化される運動量平均化の欠陥特性と量子状態の性質について論じる。

We identify the exact microscopic structure of the G photoluminescence center in silicon by first principles calculations with including a self-consistent many-body perturbation method, which is a telecommunication wavelength single photon source. The defect constitutes of $\text{C}_\text{s}\text{C}_\text{i}$ carbon impurities in its $\text{C}_\text{s}-\text{Si}_\text{i}-\text{C}_\text{s}$ configuration in the neutral charge state, where $s$ and $i$ stand for the respective substitutional and interstitial positions in the Si lattice. We reveal that the observed fine structure of its optical signals originates from the athermal rotational reorientation of the defect. We attribute the monoclinic symmetry reported in optically detected magnetic resonance measurements to the reduced tunneling rate at very low temperatures. We discuss the thermally activated motional averaging of the defect properties and the nature of the qubit state.
翻訳日:2023-03-25 13:57:22 公開日:2021-10-06
# 連続量子熱機関の熱力学:人口とコヒーレンスとの相互作用

Thermodynamics of a continuous quantum heat engine: Interplay between population and coherence ( http://arxiv.org/abs/2107.05952v2 )

ライセンス: Link先を確認
Pablo Bayona-Pena, Kazutaka Takahashi(参考訳) 熱水貯留層と冷水貯留層とを連続的に結合した3段量子熱機関の詳細な熱力学解析を行った。 この系は振動する外部場によって駆動され、マルコフ量子マスター方程式によって記述される。 熱力学と整合した散逸器の一般形を用いる。 熱エンジン運転システムの熱・電力・効率を計算し,熱力学的不確かさの関係について検討する。 システムの効率は散逸器の構造に大きく依存しており、異なるレベル間の相関は理想的な操作の障害となる可能性がある。 量子系では、熱流束は集団とコヒーレントな部分に分解される。 コヒーレント部分(coherent part)は量子系に特有であり、集団部分とは対照的に、線形-応答系における単純な級数展開では表現できない。 個体群とコヒーレント部品の相互作用がヒートエンジンの性能に与える影響について考察する。

We present a detailed thermodynamic analysis of a three-level quantum heat engine coupled continuously to hot and cold reservoirs. The system is driven by an oscillating external field and is described by the Markovian quantum master equation. We use the general form of the dissipator which is consistent with thermodynamics. We calculate the heat, power, and efficiency of the system for the heat-engine operating regime and also examine the thermodynamic uncertainty relation. The efficiency of the system is strongly dependent on the structure of the dissipator, and the correlations between different levels can be an obstacle for ideal operation. In quantum systems, the heat flux is decomposed into the population and coherent parts. The coherent part is specific to quantum systems, and in contrast to the population part, it cannot be expressed by a simple series expansion in the linear-response regime. We discuss how the interplay between the population and coherent parts affects the performance of the heat engine.
翻訳日:2023-03-22 11:56:18 公開日:2021-10-06
# 超高速ホロノミック量子ゲート

Ultrafast Holonomic Quantum Gates ( http://arxiv.org/abs/2108.01531v2 )

ライセンス: Link先を確認
Pu Shen, Tao Chen, and Zheng-Yuan Xue(参考訳) 幾何位相に基づく量子計算は、一般に従来の動的戦略よりも特定の誤差やノイズに対して堅牢であると考えられている。 しかし、デコヒーレンス効果によるゲート誤差は避けられないため、より高速なゲート操作が望まれる。 そこで本研究では, 時間-最適制御手法と時間非依存のデチューニング調整を併用して, ハードウェア制限下でのゲート時間を大幅に短縮し, 高忠実度ゲートを得ることのできる非古典的ホロノミック量子計算(NHQC)手法を提案する。 一方, 数値シミュレーションにより, ゲートロバスト性も従来のスキームよりも強いことが示された。 最後に,従来の研究を単純化したパラメトリック波長可変結合法を基礎として,デコヒーレンスフリーな部分空間符号化を用いた超伝導量子回路の実装を提案する。 したがって,本プロトコルは将来的なフォールトトレラント量子計算の代替として有望である。

Quantum computation based on geometric phase is generally believed to be more robust against certain errors or noises than the conventional dynamical strategy. However, the gate error caused by the decoherence effect is inevitable, and thus faster gate operations are highly desired. Here, we propose a nonadiabatic holonomic quantum computation (NHQC) scheme with detuned interactions on $\Delta$-type three-level system, which combines the time-optimal control technique with the time-independent detuning adjustment to further accelerate universal gate operations, {so that the gate-time can be greatly shortened within the hardware limitation}, and thus high-fidelity gates can be obtained. Meanwhile, our numerical simulations show that the gate robustness is also stronger than previous schemes. Finally, we present an implementation of our proposal on superconducting quantum circuits, with a decoherence-free subspace encoding, based on the experimentally demonstrated parametrically tunable coupling technique, which simplifies previous investigations. Therefore, our protocol provides a more promising alternative for future fault-tolerant quantum computation.
翻訳日:2023-03-20 00:45:35 公開日:2021-10-06
# SU($N$)フェルミ-ハッバード模型の普遍熱力学

Universal thermodynamics of an SU($N$) Fermi-Hubbard Model ( http://arxiv.org/abs/2108.04153v2 )

ライセンス: Link先を確認
Eduardo Ibarra-Garc\'ia-Padilla, Sohail Dasgupta, Hao-Tian Wei, Shintaro Taie, Yoshiro Takahashi, Richard T. Scalettar, Kaden R. A. Hazzard(参考訳) SU(2)対称フェルミ-ハバードモデル(FHM)は強相関フェルミオン多体系において重要な役割を果たす。 サイトごとの粒子と強く相互作用する極限${U/t \gg 1}$では、ハイゼンベルク・ハミルトニアンによって効果的に記述される。 この極限において、スピンを拡大し、典型的な SU(2) 対称性を SU($N$) に拡張すると、基底状態において物質のエキゾチックな位相を与え、$N$に複雑な依存を与えると予測されている。 このことは、これらの相の、特に超交換エネルギーの近傍またはそれ以上の実験的な状態において、どのような(もし)温度が有限のシグネチャであるのかという疑問を提起する。 本研究では,SU($N$)FHMの熱力学を,量子モンテカルロ法と数値リンククラスタ展開法を用いて,一点あたりの粒子密度付近の2次元正方格子内で数値計算することによって熱力学観測値を求める。 興味深いことに、相関長が短いスーパー交換エネルギーを超える温度では、エネルギー、オンサイトペアの数、運動エネルギーは、n$の普遍関数である。 研究対象の物理は低次の高温級数で捉えられるものよりもはるかに多いが, スケーリングの解析的な記述は, 1点と2点のみの計算で可能であることを示す。

The SU(2) symmetric Fermi-Hubbard model (FHM) plays an essential role in strongly correlated fermionic many-body systems. In the one particle per site and strongly interacting limit ${U/t \gg 1}$, it is effectively described by the Heisenberg Hamiltonian. In this limit, enlarging the spin and extending the typical SU(2) symmetry to SU($N$) has been predicted to give exotic phases of matter in the ground state, with a complicated dependence on $N$. This raises the question of what -- if any -- are the finite-temperature signatures of these phases, especially in the currently experimentally relevant regime near or above the superexchange energy. We explore this question for thermodynamic observables by numerically calculating the thermodynamics of the SU($N$) FHM in the two-dimensional square lattice near densities of one particle per site, using determinant Quantum Monte Carlo and Numerical Linked Cluster Expansion. Interestingly, we find that for temperatures above the superexchange energy, where the correlation length is short, the energy, number of on-site pairs, and kinetic energy are universal functions of $N$. Although the physics in the regime studied is well beyond what can be captured by low-order high-temperature series, we show that an analytic description of the scaling is possible in terms of only one- and two-site calculations.
翻訳日:2023-03-18 23:27:47 公開日:2021-10-06
# 低温超精密温度測定用熱測定機

Thermometric machine for ultraprecise thermometry of low temperatures ( http://arxiv.org/abs/2108.10469v2 )

ライセンス: Link先を確認
Ivan Henao, Karen V. Hovhannisyan, and Raam Uzdin(参考訳) 熱平衡状態は極低温では指数関数的に区別が難しいため、この状態の平衡量子温度測定は厳しい課題である。 本研究では,温度が測定された試料と熱分解しない2レベルプローブを用いて,この制限を回避する熱量測定手法を提案する。 これは、プローブと試料とを結合する適切な相互作用と、より高温にあることが知られている補助熱浴とにより可能となる。 サンプルの温度の合理的な上限を与えると、結果として生じる「熱測定機」はプローブを、信号対雑音比が$\mathcal{o}(1/t)$ 以上の値が得られる定常状態へと駆動する。 また,熱分解プローブの最適測定値と比較して,プローブの過渡状態を特徴付け,与えられた精度を達成するために測定回数を極端に減少させることを数値的に示す。

Thermal equilibrium states are exponentially hard to distinguish at very low temperatures, making equilibrium quantum thermometry in this regime a formidable task. We present a thermometric scheme that circumvents this limitation, by using a two-level probe that does not thermalize with the sample whose temperature is measured. This is made possible thanks to a suitable interaction that couples the probe to the sample and to an auxiliary thermal bath known to be at a higher temperature. Provided a reasonable upper bound on the temperature of the sample, the resulting 'thermometric machine' drives the probe towards a steady state whose signal-to-noise ratio can achieve values as high as $\mathcal{O}(1/T)$. We also characterize the transient state of the probe and numerically illustrate an extreme reduction in the number of measurements to attain a given precision, as compared to optimal measurements on a thermalized probe.
翻訳日:2023-03-17 07:53:01 公開日:2021-10-06
# フィルタリングによる平均型格子問題の変数の量子アルゴリズム

Quantum Algorithms for Variants of Average-Case Lattice Problems via Filtering ( http://arxiv.org/abs/2108.11015v2 )

ライセンス: Link先を確認
Yilei Chen and Qipeng Liu and Mark Zhandry(参考訳) 例えば, (*) 公開行列が非常に広く, 係数は多項式的に大きい素数であり, 無限小ノルムの境界は定数を除いた定数の半分に設定されている, 無限大ノルムの下での短い整数解(SIS)問題である。 (*) 多項式的に大きなモジュライを持つLWE型量子状態と、有界均一分布やラプラス分布を含む特定の誤差分布を与えられた誤差(LWE)問題による学習。 (*)特定のパラメータを持つ2面コセット外挿問題(EDCP)。 SIS、LWEおよびEDCPの標準形式における問題は、最悪の場合において格子問題を解くのと同じくらい難しい。 しかし、我々が解決できる変種は、最悪の格子問題の解決ほど難しいパラメータ構造では知られていない。 それでも、SISとLWEの変種について古典的あるいは量子的多項式時間アルゴリズムは知られていない。 EDCPの場合、我々の量子アルゴリズムはIvanyos et al. (2018) の結果をわずかに拡張する。 SIS と EDCP の変種に対する我々のアルゴリズムは、これらの問題から LWE への既存の量子還元を使い、より正確には LWE のような量子状態から LWE を解く問題を解く。 我々の主な貢献は、LWEに似た量子状態と興味深いパラメータをフィルタリング技術を用いて解くことである。

We show polynomial-time quantum algorithms for the following problems: (*) Short integer solution (SIS) problem under the infinity norm, where the public matrix is very wide, the modulus is a polynomially large prime, and the bound of infinity norm is set to be half of the modulus minus a constant. (*) Learning with errors (LWE) problem given LWE-like quantum states with polynomially large moduli and certain error distributions, including bounded uniform distributions and Laplace distributions. (*) Extrapolated dihedral coset problem (EDCP) with certain parameters. The SIS, LWE, and EDCP problems in their standard forms are as hard as solving lattice problems in the worst case. However, the variants that we can solve are not in the parameter regimes known to be as hard as solving worst-case lattice problems. Still, no classical or quantum polynomial-time algorithms were known for the variants of SIS and LWE we consider. For EDCP, our quantum algorithm slightly extends the result of Ivanyos et al. (2018). Our algorithms for variants of SIS and EDCP use the existing quantum reductions from those problems to LWE, or more precisely, to the problem of solving LWE given LWE-like quantum states. Our main contribution is solving LWE given LWE-like quantum states with interesting parameters using a filtering technique.
翻訳日:2023-03-17 05:36:08 公開日:2021-10-06
# デバイス非依存量子ネットワークを用いた実験対称プライベート情報検索

Experimental symmetric private information retrieval with measurement-device-independent quantum network ( http://arxiv.org/abs/2109.12827v2 )

ライセンス: Link先を確認
Chao Wang, Wen Yu Kon, Hong Jie Ng, and Charles C.-W. Lim(参考訳) セキュアな情報検索は、今日の高度デジタル化社会において不可欠な課題である。 一部のアプリケーションでは、ユーザクエリのプライバシとデータベースコンテンツのセキュリティが強制される必要がある。 これらの設定では、対称な秘密情報検索(SPIR)を用いることができるが、その実装は要求され、鍵交換ネットワークをベース層として必要とされている。 本稿では、量子セキュアな鍵交換ネットワークによって支持された証明可能なセキュアなSPIRの実現を初めて報告する。 SPIRスキームはバイオメトリックセキュリティに注目し、800のエントリを持つデータベースから582バイトの指紋ファイルをセキュアに検索する。 実験により,SPIRの量子セキュア通信の実現可能性を明らかにし,将来的な量子インターネット上でのセキュアな分散データストレージとクラウドコンピューティングの可能性を明らかにする。

Secure information retrieval is an essential task in today's highly digitised society. In some applications, it may be necessary that user query's privacy and database content's security are enforced. For these settings, symmetric private information retrieval (SPIR) could be employed, but its implementation is known to be demanding, requiring a private key-exchange network as the base layer. Here, we report for the first time a realisation of provably-secure SPIR supported by a quantum-secure key-exchange network. The SPIR scheme looks at biometric security, offering secure retrieval of 582-byte fingerprint files from a database with 800 entries. Our experimental results clearly demonstrate the feasibility of SPIR with quantum secure communications, thereby opening up new possibilities in secure distributed data storage and cloud computing over the future Quantum Internet.
翻訳日:2023-03-13 12:10:47 公開日:2021-10-06
# 量子学部教育と科学教育

Quantum Undergraduate Education and Scientific Training ( http://arxiv.org/abs/2109.13850v2 )

ライセンス: Link先を確認
Justin K. Perron, Charles DeLeone, Shahed Sharif, Tom Carter, Joshua M. Grossman, Gina Passante, and Joshua Sack(参考訳) 現在、量子情報科学と技術(QIST)の教育と労働トレーニングは、主に大学院と卒後レベルに存在し、これらの成果から発展し始めている学部生はほとんどいない。 期待される量子労働力のニーズを満たし、人口統計学的にすべての地域社会に包括的であることを保証するために、アメリカは、より大きな博士号付与機関で起きていることを超えて、これらの取り組みを学部レベルで拡大し、量子情報科学を全国の大学機関(puis)のカリキュラムに組み込む必要がある。 2021年6月3日と4日、量子学部教育科学研修(QUEST)ワークショップが事実上開催され、PUIから教員をまとめて、学部のQIST教育の状況を学び、PUIにおけるQISTカリキュラムの実施に伴う課題を特定し、これらの課題に対処するための戦略とソリューションを開発することを目的としていた。 本書は, 量子情報科学をカリキュラムに組み込もうとするpuisの学部を支援すべく, ワークショップの成果を要約したものである。

Currently, education and workforce training in quantum information science and technology (QIST) exists primarily at the graduate and postdoctoral levels, with few undergraduate efforts beginning to grow out of these. In order to meet the anticipated quantum workforce needs and to ensure that the workforce is demographically representative and inclusive to all communities, the United States must expand these efforts at the undergraduate level beyond what is occurring at larger PhD granting institutions and incorporate quantum information science into the curriculum at the nation's predominantly undergraduate institutions (PUIs). On June 3rd and 4th, 2021 the Quantum Undergraduate Education and Scientific Training (QUEST) workshop was held virtually with the goal of bringing together faculty from PUIs to learn the state of undergraduate QIST education, identify challenges associated with implementing QIST curriculum at PUIs, and to develop strategies and solutions to deal with these challenges. This manuscript summarizes the results of workshop discussions with the hope of assisting faculty at PUIs attempting to incorporate quantum information science into their curriculum.
翻訳日:2023-03-13 07:28:19 公開日:2021-10-06
# 信頼できるデータストアとisda共通ドメインモデルを用いたデリバティブ・ポストトレードサービスのシミュレーション

Simulation of Derivatives Post-Trade Services using an Authoritative Data Store and the ISDA Common Domain Model ( http://arxiv.org/abs/2110.02571v1 )

ライセンス: Link先を確認
Vikram A. Bakshi, Aishwarya Nair, Lee Braine(参考訳) 本稿では,金利スワップのためのポストトレーダサービスの設計と実装について,実行から成熟までについて概説する。 我々は、将来的なアーキテクチャをシミュレートするために、権威データストア(ADS)と国際スワップ・デリバティブ・アソシエーション(ISDA)共通ドメインモデル(CDM)を使用します。 まず、cdmの概要と金利スワップのライフサイクルについて簡単に説明する。 次に、シミュレーションされた将来の状態アーキテクチャと典型的な状態アーキテクチャを比較します。 次に,シミュレーションシステムの主な要件,いくつかの適切な設計パターン,実装の概要について述べる。 このシミュレーションは、cdmを使用して、一貫性のないプロセスと一貫性のないデータの業界問題に対処するとともに、重複したデータの業界問題に対処するための権威あるデータストアを使用する。

In this paper, we present a summary of the design and implementation of a simulation of post-trade services for interest rate swaps, from execution to maturity. We use an authoritative data store (ADS) and the International Swaps and Derivatives Association (ISDA) Common Domain Model (CDM) to simulate a potential future architecture. We start by providing a brief overview of the CDM and the lifecycle of an interest rate swap. We then compare our simulated future state architecture with a typical current state architecture. Next, we present the key requirements of the simulated system, several suitable design patterns, and a summary of the implementation. The simulation uses the CDM to address the industry problems of inconsistent processes and inconsistent data, and an authoritative data store to address the industry problem of duplicated data.
翻訳日:2023-03-12 08:26:08 公開日:2021-10-06
# 弱い重力場の量子的性質を検出できるのか?

Can we detect the quantum nature of weak gravitational fields? ( http://arxiv.org/abs/2110.02542v1 )

ライセンス: Link先を確認
Francesco Coradeschi, Antonia Micol Frassino, Thiago Guerreiro, Jennifer Rittenhouse West and Enrico Junior Schioppa(参考訳) 重力の量子化の理論的な枠組みは、量子論と一般相対性理論の誕生以来、発見的な聖杯である。 科学者の世代は、この深い謎に対する解決策を試みてきたが、実験的な証拠によって重力が定量化されるかどうかを判断できるという考え方に基づいている。 重力の量子化に関する問題に対する実験的な答えの可能性は、重力波検出器の時代への新たな関心である。 本稿では, 現象量子重力の重要な部分集合について検討し, テーブルトップ実験および干渉計における弱い重力場の量子シグネチャを検出する。

A theoretical framework for the quantization of gravity has been an elusive Holy Grail since the birth of quantum theory and general relativity. While generations of scientists have attempted solutions to this deep riddle, an alternative path built upon the idea that experimental evidence could determine whether gravity is quantized has been decades in the making. The possibility of an experimental answer to the question of the quantization of gravity is of renewed interest in the era of gravitational wave detectors. We review and investigate an important subset of phenomenological quantum gravity, detecting quantum signatures of weak gravitational fields in table-top experiments and interferometers.
翻訳日:2023-03-12 08:25:45 公開日:2021-10-06
# 量子結晶学N-表現性

Quantum Crystallography N-Representability ( http://arxiv.org/abs/2110.02494v1 )

ライセンス: Link先を確認
Cherif F. Matta, Lulu Huang, Lou Massa(参考訳) ライナス・ポーリングの貢献は、構造生物学、化学、量子力学理論、原子価結合理論、核物理学にまで及んでいる。 パウリングが開発・使用した主なツールはX線、電子、回折である。 ポーリング・オーヴルの拡張の1つとして、結晶学と量子力学の結婚が挙げられる。 このような試みは60年代にさかのぼり、現在では量子結晶学と呼ばれるサブフィールド全体へと発展した。 量子結晶学は、実験データと一致したN-表現可能な密度行列を得るためにクリントン方程式を適用することで達成できる。 クリントン方程式の実装は、小システムと大システムでは定性的に異なる。 小さなシステムでは、X線データから量子力学を抽出し、大きなシステムでは、量子力学をシステムに注入する。 どちらの場合も、Nrepresentabilityはクリントン方程式を用いて課される。

Linus Pauling contributions span structural biology, chemistry in its broadest definition, quantum mechanical theory, valence bond theory, and even nuclear physics. A principal tool developed and used by Pauling is Xray, and electron, diffraction. One possible extension of the Pauling oeuvre could be the marriage of crystallography and quantum mechanics. Such an effort dates back to the sixties and has now flourished into an entire subfield termed quantum crystallography. Quantum crystallography could be achieved through the application of Clinton equations to yield N-representable density matrices consistent with experimental data. The implementation of the Clinton equations is qualitatively different for small and for large systems. For a small system, quantum mechanics is extracted from Xray data while for a large system, the quantum mechanics is injected into the system. In both cases, Nrepresentability is imposed by the use of the Clinton equations.
翻訳日:2023-03-12 08:25:35 公開日:2021-10-06
# 自由電子を用いた非弾性マッハ-ツェンダー干渉計

Inelastic Mach-Zehnder Interferometry with Free Electrons ( http://arxiv.org/abs/2110.02468v1 )

ライセンス: Link先を確認
Cameron W. Johnson, Amy E. Turner, F. Javier Garc\'ia de Abajo, and Benjamin J. McMorran(参考訳) 従来の透過型電子顕微鏡で作製した新しい走査型電子マッシュ・ツェーダー干渉計を用いて,自由電子を用いた非弾性干渉イメージングを行う。 電子波動関数は金ナノ粒子の反対側を通る2つの経路で作成され、プラズモンは電子干渉を起こすために再結合する前に励起される。 測定されたスペクトルは理論的予測と一致しており、特に非弾性散乱電子による干渉信号は、弾性散乱電子によって形成される干渉信号に対して位相外piであることが示されている。 この技術は、干渉信号が送信された電子のかなりの部分を占めるため、局所光学モードの位相に敏感である。 したがって, 走査型電子マッシュ-ゼーダー干渉計を用いた非弾性干渉イメージングは, 自由電子の逆運動量制御とナノスケールでのコヒーレント電子-物質相互作用の研究のための新しいプラットフォームを提供する。

We use a novel scanning electron Mach-Zehnder interferometer constructed in a conventional transmission electron microscope to perform inelastic interferometric imaging with free electrons. An electron wave function is prepared in two paths that pass on opposite sides of a gold nanoparticle, where plasmons are excited before the paths are recombined to produce electron interference. We show that the measured spectra are consistent with theoretical predictions, specifically that the interference signal formed by inelastically scattered electrons is pi out of phase with respect to that formed by elastically scattered electrons. This technique is sensitive to the phase of localized optical modes because the interference signal amounts to a substantial fraction of the transmitted electrons. We thus argue that inelastic interferometric imaging with our scanning electron Mach-Zehnder interferometer provides a new platform for controlling the transverse momentum of a free electron and studying coherent electron-matter interactions at the nanoscale.
翻訳日:2023-03-12 08:25:23 公開日:2021-10-06
# 2色線形偏極磁場により励起された$^{133}$csの磁場非感受性コヒーレント・ポピュレーション・トラッピング共鳴

Magnetic-field-insensitive coherent-population-trapping resonances excited by bichromatic linearly polarized fields on the $D_1$ line of $^{133}$Cs ( http://arxiv.org/abs/2110.02466v1 )

ライセンス: Link先を確認
K. Matsumoto, S. Kagami, A. Kirihara, S. Yanagimachi, T. Ikegami and A. Morinaga(参考訳) 磁場非感応性コヒーレント・ポピュレーション・トッピング (CPT) 共鳴は, リン || リン分極に励起された2光子$\Lambda$スキームを用いて, D_1$線上の基底超微細度の間で発生することを示した。 CPT共鳴の周波数シフトは、1$\mu$Tの「磁気」磁場での偏差が139$\mu$Tの0.04Hzであり、クロック動作の典型的なバイアス磁場における従来のクロック遷移の50倍小さい。 リン || リン分極により励起されるCPTスペクトルの振幅は、励起強度が増加するにつれて増大し、トラップレベルのない3レベルモデルでよく説明される。 したがって、単純な lin || lin スキームに励起される$^{133}$Cs 原子の$D_1$ライン上のCPT共鳴は、小型原子時計の周波数参照の最もよい候補の一つである。

We have experimentally demonstrated that magnetic-field-insensitive coherent-population-trapping (CPT) resonances are generated between the ground hyperfine levels on the $D_1$ line of $^{133}$Cs using a two-photon $\Lambda$ scheme excited by lin || lin polarizations. The frequency shift of the CPT resonance is 0.04 Hz for the deviation of 1 $\mu$T at a "magic" magnetic field of 139 $\mu$T and is 50 times smaller than that of the conventional clock transition at a typical bias magnetic field for the clock operation. The amplitude of the CPT spectrum excited by lin || lin polarizations is enhanced as the excitation intensity increases and is well explained by the three-level model without trap levels. Thus, the CPT resonance on the $D_1$ line of $^{133}$Cs atom excited by a simple lin || lin scheme will be one of the best candidates for frequency reference of miniature atomic clocks.
翻訳日:2023-03-12 08:25:05 公開日:2021-10-06
# 圧縮量子場の固有エントロピーと宇宙論的摂動の非平衡量子力学

Intrinsic Entropy of Squeezed Quantum Fields and Nonequilibrium Quantum Dynamics of Cosmological Perturbations ( http://arxiv.org/abs/2110.02757v1 )

ライセンス: Link先を確認
Jen-Tsung Hsiang and Bei-Lok Hu(参考訳) 宇宙の密度コントラストは、ゲージ不変変数で表されるとき、スカラー計量摂動の古典成分とインフロン場ゆらぎの量子成分を含むスカラー宇宙論的摂動によって制御される。 量子場への宇宙展開の影響は、長い間、スクイーズに等しいことが知られている。 したがって、宇宙論的摂動のエントロピーは、それらを圧縮された量子系の枠組みで扱うことで研究することができる。 自由場のエントロピーは一見単純だが微妙な問題である。 本稿では,従来の処理と異なり,このようなシステムに対する非平衡量子場理論の定式化によってこの問題に対処する。 パラメトリック量子場の共分散行列要素を計算し、密度行列要素とウィグナー関数の進化を解き、それらからフォン・ノイマンのエントロピーを導出する。 次に, 圧縮・閉系のエントロピーがゼロである理由を明確に示すが, 粒子対間の相関関係を粗粒化することによって生じる粒子数に比例する。 また,量子場理論の結果と,初期の著者による古典確率場の確率分布との橋渡しも構築した。 このことから、量子場の絡み合いやコヒーレンスといったいくつかの重要な量子特性において後者が欠落しているため、確率的古典場処理に対する量子場理論的なアプローチの明確な利点を見ることができる。

Density contrasts in the universe are governed by scalar cosmological perturbations which, when expressed in terms of gauge-invariant variables, contain a classical component from scalar metric perturbations and a quantum component from inflaton field fluctuations. It has long been known that the effect of cosmological expansion on a quantum field amounts to squeezing. Thus the entropy of cosmological perturbations can be studied by treating them in the framework of squeezed quantum systems. Entropy of a free quantum field is a seemingly simple yet subtle issue. In this paper, as different from previous treatments, we tackle this issue with a fully developed nonequilibrium quantum field theory formalism for such systems. We compute the covariance matrix elements of the parametric quantum field and solve for the evolution of the density matrix elements and the Wigner functions, and, from them, derive the von Neumann entropy. We then show explicitly why the entropy for the squeezed yet closed system is zero, but is proportional to the particle number produced upon coarse-graining out the correlation between the particle pairs. We also construct the bridge between our quantum field-theoretic results and those using probability distribution of classical stochastic fields by earlier authors. From this we can see the clear advantages of the quantum field-theoretical approach over the stochastic classical field treatment since the latter misses out in some important quantum properties, such as entanglement and coherence, of the quantum field.
翻訳日:2023-03-12 08:20:37 公開日:2021-10-06
# カップレート格子におけるクーパー問題

Cooper problem in a cuprate lattice ( http://arxiv.org/abs/2110.02734v1 )

ライセンス: Link先を確認
Ali Sanayei and Ludwig Mathey(参考訳) 3バンドモデルを用いてカップレート格子内のクーパー問題を解く。 パルスオンサイト相互作用のためのクーパー対の基底状態を決定し、対応する波動関数が軌道 $d_{x^2-y^2}$ 対称性を持つことを示す。 本稿では, クーパー対の解に対するnext-nearest-neighborトンネルの効果, 特に, ホールドープ系に対する$d$-waveペアを持つためのnext-nearest-neighborトンネルの必要性について考察する。 また,カップレート格子内のコールド原子系に対する$d$-wave Cooperペアの実験的なシグネチャも提案する。

We solve the Cooper problem in a cuprate lattice by utilizing a three-band model. We determine the ground state of a Cooper pair for repulsive on-site interactions, and demonstrate that the corresponding wave function has an orbital $d_{x^2-y^2}$ symmetry. We discuss the influence of next-nearest-neighbor tunneling on the Cooper pair solution, in particular the necessity of next-nearest-neighbor tunneling for having $d$-wave pairs for hole-doped systems. We also propose experimental signatures of the $d$-wave Cooper pairs for a cold-atom system in a cuprate lattice.
翻訳日:2023-03-12 08:20:12 公開日:2021-10-06
# メソスコピック系におけるショットノイズ:単一粒子から量子液体へ

Shot Noise in Mesoscopic Systems: from Single Particles to Quantum Liquids ( http://arxiv.org/abs/2110.02697v1 )

ライセンス: Link先を確認
Kensuke Kobayashi and Masayuki Hashisaka(参考訳) 電荷の離散的な性質に由来するショットノイズは、散乱過程によって発生する。 ショットノイズ測定により、様々な量子輸送現象における電荷の微視的ダイナミクスが明らかになった。 特に、単粒子画像を超えて、そのような測定は量子液体中の電子相関を調べる強力な方法であることが証明されている。 本稿では,メソスコピック物理におけるショットノイズ測定の最近の進歩について概説する。 本稿では,Landauer-B\"{u}ttikerフォーマリズムに基づくショットノイズ理論の基礎,従来研究で用いた測定技術,電子散乱過程に関する最近の実験について概説する。 次に, 近藤効果, 分数量子ホール効果, 超伝導の3種類の量子液体について考察した。 最後に、非平衡統計物理学の枠組みにおける現在のノイズについて論じ、関連する実験をレビューする。 このレビューは、凝縮物質物理学の幅広い研究者にショットノイズ測定の意義を伝えることを期待している。

Shot noise, originating from the discrete nature of electric charge, is generated by scattering processes. Shot-noise measurements have revealed microscopic charge dynamics in various quantum transport phenomena. In particular, beyond the single-particle picture, such measurements have proved to be powerful ways to investigate electron correlation in quantum liquids. Here, we review the recent progress of shot-noise measurements in mesoscopic physics. This review summarizes the basics of shot-noise theory based on the Landauer-B\"{u}ttiker formalism, measurement techniques used in previous studies, and several recent experiments demonstrating electron scattering processes. We then discuss three different kinds of quantum liquids, namely those formed by, respectively, the Kondo effect, the fractional quantum Hall effect, and superconductivity. Finally, we discuss current noise within the framework of nonequilibrium statistical physics and review related experiments. We hope that this review will convey the significance of shot-noise measurements to a broad range of researchers in condensed matter physics.
翻訳日:2023-03-12 08:19:41 公開日:2021-10-06
# 計測を用いた量子回路記述言語の具体的分類モデル

Concrete Categorical Model of a Quantum Circuit Description Language with Measurement ( http://arxiv.org/abs/2110.02691v1 )

ライセンス: Link先を確認
Dongho Lee, Valentin Perrelle, Beno\^it Valiron and Zhaowei Xu(参考訳) 本稿では,量子回路記述言語に対して,proto-quipper言語アプローチに従って動的浮揚を導入する。 動的リフティングにより、プログラムは量子データ -- 量子ビット -- を古典データ -- ブールデータ -- に転送することができる。 本稿では,言語に対する型システムと操作意味論を提案し,安全性特性を述べる。 次に,Rios\&Selinger for Proto-Quipper-Mの最近のモデルに基づく,提案言語のための具体的な分類的セマンティクスを提案する。 提案手法は,量子メモリから古典的コンテンツを抽出する作用の副作用として,Kleisli圏を計測した回路の具体的なカテゴリ上に構築することである。 次に、この意味論の健全性結果を示す。

In this paper, we introduce dynamic lifting to a quantum circuit-description language, following the Proto-Quipper language approach. Dynamic lifting allows programs to transfer the result of measuring quantum data -- qubits -- into classical data -- booleans -- . We propose a type system and an operational semantics for the language and we state safety properties. Next, we introduce a concrete categorical semantics for the proposed language, basing our approach on a recent model from Rios\&Selinger for Proto-Quipper-M. Our approach is to construct on top of a concrete category of circuits with measurements a Kleisli category, capturing as a side effect the action of retrieving classical content out of a quantum memory. We then show a soundness result for this semantics.
翻訳日:2023-03-12 08:19:26 公開日:2021-10-06
# schr\"odinger cat state の真空中での公開とヴェイリング

Unveiling and veiling a Schr\"odinger cat state from the vacuum ( http://arxiv.org/abs/2110.02674v1 )

ライセンス: Link先を確認
Roberto Stassi, Mauro Cirio, Ken Funo, Neill Lambert, Jorge Puebla, Franco Nori(参考訳) 超強光物質結合系において、キャビティモードと相互作用する2レベル原子の基底状態は、光と物質の間の「仮想的な」シュリンガー猫の絡み合った状態になると予測されている。 最適選択パルスで原子を駆動することにより、このシュリンガー猫状態を仮想状態から実状態へ、そして再び戻す方法を提案する。 この系は4レベル原子から構成されており、これら2つのレベルはキャビティモードに超強結合している。 理想的超高速パルスかマルチトン {\pi}パルスのいずれかを使用することで、schr\"odinger cat状態が仮想と実の間で変換可能であることを示す。 これらの特異な仮想状態を観測できるだけでなく、量子情報処理の要求に応じて絡み合った猫の状態を生成するためにも使用できる。

Deep in the ultrastrong light-matter coupling regime, it has been predicted that the ground state of a two-level atom interacting with a cavity mode takes the form of a "virtual" Schr\"odinger cat entangled state between light and matter. We propose a method to convert this Schr\"odinger cat state from virtual to real, and back again, by driving the atom with optimally chosen pulses. Our system consists of a four-level atom, with two of these levels ultrastrongly coupled to a cavity mode. We show that the Schr\"odinger cat state can be converted between virtual and real by making use of either an ideal ultrafast pulse or a multi-tone {\pi}-pulse. In addition to allowing us to observe these unusual virtual states this method could also be used to generate entangled cat states on demand for quantum information processing.
翻訳日:2023-03-12 08:19:13 公開日:2021-10-06
# デジタル分割とプライバシー保護の社会的ジレンマ

Digital Divide and Social Dilemma of Privacy Preservation ( http://arxiv.org/abs/2110.02669v1 )

ライセンス: Link先を確認
Hamoud Alhazmi, Ahmed Imran, Mohammad Abu Alsheikh(参考訳) 過去における情報通信技術(ICT)へのアクセスに焦点をあてたデジタルディバイジョン研究は、プライバシなどの他の関連分野への影響力は、人々や社会に多大な影響を与えている。 例えば、政府の法律のさまざまなレベルと世界中の情報プライバシーのコンプライアンスは、プライバシー保護ドメインにおけるデジタル分割の新しい時代を生み出した。 本稿では、異なる国の地政学的位置に基づく個人のプライバシー保護におけるギャップを記述すべく、デジタルプライバシー分割(dpd)の概念を導入する。 DPD現象をよりよく理解するために、我々はオンラインアンケートを作成し、ホフステデの個人主義対集団主義社会という2つの文化的指向から生まれた4カ国(米国、ドイツ、バングラデシュ、インド)から700人以上の回答者から回答を集めた。 しかし, 興味深い結果が得られた。 DPDはホフステデの文化志向に依存していない。 例えば、ドイツやバングラデシュに住む個人は、同様のプライバシー上の懸念を共有しているが、米国やインドに住む個人にはかなりの類似性がある。 さらに、ほとんどの回答者は、デジタルプライバシーを保護するためのプライバシー法の重要性を認めているが、経済、雇用、犯罪防止の利益がある場合、国内企業や組織が自国の国外に居住する個人データを集めることを政府に許すことは気にしていない。 これらの結果は、政府の法律や国の文化的指向以外の多くの文脈的要因に依存し得るプライバシー保護の認識における社会的ジレンマを示唆している。

While digital divide studies primarily focused on access to information and communications technology (ICT) in the past, its influence on other associated dimensions such as privacy is becoming critical with a far-reaching impact on the people and society. For example, the various levels of government legislation and compliance on information privacy worldwide have created a new era of digital divide in the privacy preservation domain. In this article, the concept "digital privacy divide (DPD)" is introduced to describe the perceived gap in the privacy preservation of individuals based on the geopolitical location of different countries. To better understand the DPD phenomenon, we created an online questionnaire and collected answers from more than 700 respondents from four different countries (the United States, Germany, Bangladesh, and India) who come from two distinct cultural orientations as per Hofstede's individualist vs. collectivist society. However, our results revealed some interesting findings. DPD does not depend on Hofstede's cultural orientation of the countries. For example, individuals residing in Germany and Bangladesh share similar privacy concerns, while there is a significant similarity among individuals residing in the United States and India. Moreover, while most respondents acknowledge the importance of privacy legislation to protect their digital privacy, they do not mind their governments to allow domestic companies and organizations collecting personal data on individuals residing outside their countries, if there are economic, employment, and crime prevention benefits. These results suggest a social dilemma in the perceived privacy preservation, which could be dependent on many other contextual factors beyond government legislation and countries' cultural orientation.
翻訳日:2023-03-12 08:18:58 公開日:2021-10-06
# 補助キャビティ補助光機械システムにおける冷凍・絡み合いの著しい向上

Significant enhancement in refrigeration and entanglement in auxiliary-cavity-assisted optomechanical systems ( http://arxiv.org/abs/2110.02663v1 )

ライセンス: Link先を確認
Deng-Gao Lai, Wei Qin, Bang-Pin Hou, Adam Miranowicz, and Franco Nori(参考訳) 本稿では, ポンプ付補助空洞を光学的空洞に結合することにより, 量子冷凍・絡み合いを著しく向上させる方法を提案する。 解析結果と数値結果の両方を得るとともに,補助キャビティアシスト(aca)機構下での最適冷媒および絡み合い条件を求める。 提案手法は, ネット冷蔵率の大幅な向上につながっており, 非アシストの場合と比較してACAエンタングルメントの耐雑音性に優れていることが判明した。 aca機構を適切に設計することにより、効果的な機械的感受性を適切に調整することができ、冷却キャビティ光子、補助キャビティ光子、フォノンの真の三部絡みが発生し得る。 具体的には, 補助キャビティの青調駆動では光機械的冷蔵と絡み合いが著しく向上するが, 赤調の場合では抑制されることを示した。 我々の研究は、マクロ力学系のさらなる量子制御と脆弱な量子資源の強化と保護への道を開く。

We propose how to achieve significantly enhanced quantum refrigeration and entanglement by coupling a pumped auxiliary cavity to an optomechanical cavity. We obtain both analytical and numerical results, and find optimal-refrigeration and -entanglement conditions under the auxiliary-cavity-assisted (ACA) mechanism. Our method leads to a giant amplification in the net refrigeration rate, and reveals that the ACA entanglement has a much stronger noise-tolerant ability in comparison with the unassisted case. By appropriately designing the ACA mechanism, an effective mechanical susceptibility can be well adjusted, and a genuine tripartite entanglement of cooling-cavity photons, auxiliary-cavity photons, and phonons could be generated. Specifically, we show that both optomechanical refrigeration and entanglement can be greatly enhanced for the blue-detuned driving of the auxiliary cavity but suppressed for the red-detuned case. Our work paves a way towards further quantum control of macroscopic mechanical systems and the enhancement and protection of fragile quantum resources.
翻訳日:2023-03-12 08:18:31 公開日:2021-10-06
# オープンマイクロキャビティにおける量子ドットを用いたキラル一次元原子

A chiral one-dimensional atom using a quantum dot in an open microcavity ( http://arxiv.org/abs/2110.02650v1 )

ライセンス: Link先を確認
Nadia O. Antoniadis, Natasha Tomm, Tomasz Jakubczyk, R\"udiger Schott, Sascha R. Valentin, Andreas D. Wieck, Arne Ludwig, Richard J. Warburton, and Alisa Javadi(参考訳) ナノ構造では、光と物質との相互作用はキラルに設計できる。 完全な量子状態において、ある方向に伝播するキラル1次元原子は原子と相互作用するが、他方方向に伝播する光子は相互作用しない。 キラル量子光学はナノスコピック単一光子ルータ、サーキュレータ、位相シフト器および2光子ゲートの作成に応用されている。 さらに、キラル系における多くのエミッタ間の方向光子交換は、非常にエキゾチックな量子状態の生成を可能にする。 ここでは、オープンマイクロキャビティにおいて低ノイズ量子ドットを用いたカイラル量子光学を実装する新しい方法を提案する。 具体的には、単一光子ダイオードである単一光子の非逆吸収を示す。 非相反性(逆方向の伝送に対する前方方向の伝送の比率)は10.7dbであり、光子-エミッターカップリングを最適な動作条件($\beta = 0.5$)に調整することにより、最適化された$\textit{in situ}$となる。 非相反性が単一量子エミッタから生じていることの証明は、入力レーザーパワーの増加に伴う非線形性であり、光子統計において、ダイオードの逆方向に伝播する超低出力レーザー光は、高い束縛出力(g^{(2)}(0) = 101$)をもたらす。 結果は、単一光子位相シフト器への道を舗装し、量子ドットスピンを利用して、2光子ゲートと量子非劣化単光子検出器に道を譲る。

In nanostructures, the light-matter interaction can be engineered to be chiral. In the fully quantum regime, a chiral one-dimensional atom, a photon propagating in one direction interacts with the atom; a photon propagating in the other direction does not. Chiral quantum optics has applications in creating nanoscopic single-photon routers, circulators, phase-shifters and two-photon gates. Furthermore, the directional photon-exchange between many emitters in a chiral system may enable the creation of highly exotic quantum states. Here, we present a new way of implementing chiral quantum optics $-$ we use a low-noise quantum dot in an open microcavity. Specifically, we demonstrate the non-reciprocal absorption of single photons, a single-photon diode. The non-reciprocity, the ratio of the transmission in the forward-direction to the transmission in the reverse direction, is as high as 10.7 dB, and is optimised $\textit{in situ}$ by tuning the photon-emitter coupling to the optimal operating condition ($\beta = 0.5$). Proof that the non-reciprocity arises from a single quantum emitter lies in the nonlinearity with increasing input laser power, and in the photon statistics $-$ ultralow-power laser light propagating in the diode's reverse direction results in a highly bunched output ($g^{(2)}(0) = 101$), showing that the single-photon component is largely removed. The results pave the way to a single-photon phase shifter, and, by exploiting a quantum dot spin, to two-photon gates and quantum non-demolition single-photon detectors.
翻訳日:2023-03-12 08:18:10 公開日:2021-10-06
# 量子力学資源の抽出:ノイズ低減のための非マルコフ性の利用

Extracting Quantum Dynamical Resources: Consumption of Non-Markovianity for Noise Reduction ( http://arxiv.org/abs/2110.02613v1 )

ライセンス: Link先を確認
Graeme D. Berk, Simon Milz, Felix A. Pollock, Kavan Modi(参考訳) ノイズはおそらく量子技術にとって最も強力な課題である。 そのため、ノイズ低減のための手法の開発に多大な労力が費やされている。 この方向の顕著な成果は動的疎結合であり、量子ノイズの影響に対抗するための明確な命令セットを詳述している。 しかし、適用範囲は、高速制御が可能なデバイスに限定されている。 実際には、これは非常に制限され、より良いノイズ低減ツールの必要性が高まっている。 ここでは,ノイズ抑制に必要な重要な成分を同定し,従来の動的デカップリング法をはるかに上回る手法の開発により,この方向への大きな一歩を踏み出す。 資源理論を用いて、動的疎結合とその関連プロトコルの有効性に寄与する鍵となる資源が非マルコビアン性(時間的相関)であることを示す。 この知見を用いて,ノイズ低減のための最適なパルスシーケンスを同定する2つの手法を提案する。 明示的な例として,提案手法は時間的相関をより最適に活用できることを示すとともに,雑音抑圧が可能となる時間スケールを少なくとも2桁拡張する。 重要なことに、対応するツールは運用上の基盤の上に構築されており、現在の世代の量子デバイスで容易に実装できる。

Noise is possibly the most formidable challenge for quantum technologies. As such, a great deal of effort is dedicated to developing methods for noise reduction. One remarkable achievement in this direction is dynamical decoupling; it details a clear set of instructions for counteracting the effects of quantum noise. Yet, the domain of its applicability remains limited to devices where exercising fast control is possible. In practical terms, this is highly limiting and there is a growing need for better noise reduction tools. Here we take a significant step in this direction, by identifying the crucial ingredients required for noise suppression and the development of methods that far outperform traditional dynamical decoupling techniques. Using resource theoretic methods, we show that the key resource responsible for the efficacy of dynamical decoupling, and related protocols, is non-Markovianity (or temporal correlations). Using this insight, we then propose two methods to identify optimal pulse sequences for noise reduction. With an explicit example, we show that our methods enable a more optimal exploitation of temporal correlations, and extend the timescales at which noise suppression is viable by at least two orders of magnitude. Importantly, the corresponding tools are built on operational grounds and are easily implemented in the current generation of quantum devices.
翻訳日:2023-03-12 08:17:40 公開日:2021-10-06
# 数層黒リン平面ジョセフソン接合におけるジョセフソンカップリングの証拠

Evidence of Josephson coupling in a few-layer black phosphorus planar Josephson junction ( http://arxiv.org/abs/2110.02877v1 )

ライセンス: Link先を確認
Francesca Telesio, Matteo Carrega, Giulio Cappelli, Andrea Iorio, Alessandro Crippa, Elia Strambini, Francesco Giazotto, Manuel Serrano-Ruiz, Maurizio Peruzzini, and Stefan Heun(参考訳) ファンデルワールス材料に強いジョセフソン結合を超伝導体に近接させることは、基礎物理学を検査し、新しい低温量子技術を開発するためのいくつかの機会を与える。 ここでは、平面多層黒リン接合におけるジョセフソン結合の証拠を示す。 平面幾何学により、異なるキャリア濃度で外部ゲートを用いて接合挙動を探索することができる。 ジョセフソンカップリングの明確なシグネチャは、ミリケルビン温度でのジャンクション内の超電流流を測定することによって示される。 また, フラウンホーファーパターンの逆磁場による操作も報告し, ジョセフソン結合を確認した。 これらの結果は、グラフェン以外のファンデルワールス物質に基づく平面接合における近接ジョセフソンカップリングの最初の証拠を示し、新たな研究への道を開き、剥離された黒リン薄片の特異な性質を活用した。

Setting up strong Josephson coupling in van der Waals materials in close proximity to superconductors offers several opportunities both to inspect fundamental physics and to develop novel cryogenic quantum technologies. Here we show evidence of Josephson coupling in a planar few-layer black Phosphorus junction. The planar geometry allows us to probe the junction behavior by means of external gates, at different carrier concentrations. Clear signatures of Josephson coupling are demonstrated by measuring supercurrent flow through the junction at milli Kelvin temperatures. Manifestation of Fraunhofer pattern with a transverse magnetic field is also reported, confirming the Josephson coupling. These findings represent the first evidence of proximity Josephson coupling in a planar junction based on a van der Waals material beyond graphene and open the way to new studies, exploiting the peculiar properties of exfoliated black phosphorus thin flakes.
翻訳日:2023-03-12 08:11:02 公開日:2021-10-06
# 最適制御による効率的な量子ゲート探索

Efficient Quantum Gate Discovery with Optimal Control ( http://arxiv.org/abs/2110.02849v1 )

ライセンス: Link先を確認
Paul Kairys and Travis S. Humble(参考訳) 最適制御理論は、量子論理ゲートを実装するデバイス制御の数値的な発見のためのフレームワークを提供するが、最適化に使用される共通の目的関数は、しばしば任意に高いコストを他の有用な制御に割り当てる。 本稿では,エコーパルスや局所等価ゲートなどの新しいゲート設計を可能にする目的関数設計フレームワークを提案する。 超伝導トランスモンアーキテクチャのためのエンタングルゲートとして機能するマイクロ波のみのパルスを設計することで,新しい目的関数の有効性を数値シミュレーションで実証する。 提案した目的関数が従来の目的関数よりも少ない最適化繰り返しにおいて高い忠実度制御をもたらすことを観察する。

Optimal control theory provides a framework for numerical discovery of device controls that implement quantum logic gates, but common objective functions used for optimization often assign arbitrarily high costs to otherwise useful controls. We propose a framework for designing objective functions that permit novel gate designs such as echo pulses or locally-equivalent gates. We use numerical simulations to demonstrate the efficacy of the new objective functions by designing microwave-only pulses that act as entangling gates for superconducting transmon architectures. We observe that the proposed objective functions lead to higher fidelity controls in fewer optimization iterations than obtainable by traditional objective functions.
翻訳日:2023-03-12 08:10:28 公開日:2021-10-06
# SiV中心の安定スピンスクイーズ状態の散逸支援

Dissipation-assisted preparation of steady spin-squeezed states of SiV centers ( http://arxiv.org/abs/2110.02837v1 )

ライセンス: Link先を確認
Jia-Qiang Chen, Yi-Fan Qiao, Xing-Liang Dong, Xin-Lei Hei, and Peng-Bo Li(参考訳) 本研究では,siv中心のアンサンブルと強減衰ナノメカニカル共振器を結合したスピンメカニカルハイブリッドシステムにおいて,定常状態のスピン配列状態を生成する効率的な手法を提案する。 系には集団定常状態が存在し、これは機械モードのゼロ励起状態に加えて集団スピン状態によって正確に形成される。 定常スピンスキー状態の生成は、機械的散逸が正の役割を果たすが、ターゲット状態を破壊することなく、散逸量子力学過程に基づいている。 スピンスクイーズされた定常状態は、N がスピンの数である理想の場合、最適スピンスクイーズが 4/N となるような散逸手段によって決定的に生成できることを実証する。 この研究は、量子情報処理と量子メトロロジーに有望なプラットフォームを提供する。

We propose an efficient scheme for generating spin-squeezed states at steady state in a spin-mechanical hybrid system, where an ensemble of SiV centers are coupled to a strongly damped nanomechanical resonator. We show that,there exists a collective steady state in the system, which is exactly formed by the collective spin states plus the zero excitation state of the mechanical mode. The generation of the steady spin-squeezed state is based on a dissipative quantum dynamical process in which the mechanical dissipation plays a positive role but without destroying the target state. We demonstrate that the spin-squeezed steady state can be deterministically prepared via dissipative means, with the optimal spin squeezing up to 4/N in the ideal case, where N is the number of spins. This work provides a promising platform for quantum information processing and quantum metrology.
翻訳日:2023-03-12 08:10:05 公開日:2021-10-06
# 対称スキーム上の量子攻撃における二次速度の超越性

Beyond quadratic speedups in quantum attacks on symmetric schemes ( http://arxiv.org/abs/2110.02836v1 )

ライセンス: Link先を確認
Xavier Bonnetain, Andr\'e Schrottenloher, Ferdinand Sibleyras(参考訳) 本稿では,古典的問合せのみを用いた対称ブロック暗号設計における最初の量子鍵回復攻撃を,古典的攻撃に比べて2倍以上の速さで報告する。 本稿ではGa\v{z}i と Tessaro (EUROCRYPT~2012) の 2XOR-Cascade 構成について検討する。 これは、2nビットの鍵を持つnビットブロック暗号から5n/2ビットのセキュリティを持つnビットブロック暗号を提供し、理想的なモデルのセキュリティ証明を提供する鍵長拡張技術である。 ボネテン等(ASIACRYPT~2019)のオフライン-サイモンアルゴリズムは、特に量子時間 \~O($2^n$) でこの構造を攻撃することができ、古典的攻撃に対して2.5量子スピードアップを提供する。 対称暗号の量子後セキュリティについては、鍵サイズを倍にすることが十分な予防策であると一般的に仮定される。 これは、グローバーの量子探索アルゴリズムとその導関数が、最大で2倍のスピードアップにしか到達できないためである。 我々の攻撃は、いくつかの対称構造の構造をこの限界を克服するために活用できることを示しています。 特に、2XOR-Cascadeはブロック暗号自体と同じセキュリティを提供するため、量子敵に対するブロック暗号の一般的な強化には使用できない。

In this paper, we report the first quantum key-recovery attack on a symmetric block cipher design, using classical queries only, with a more than quadratic time speedup compared to the best classical attack. We study the 2XOR-Cascade construction of Ga\v{z}i and Tessaro (EUROCRYPT~2012). It is a key length extension technique which provides an n-bit block cipher with 5n/2 bits of security out of an n-bit block cipher with 2n bits of key, with a security proof in the ideal model. We show that the offline-Simon algorithm of Bonnetain et al. (ASIACRYPT~2019) can be extended to, in particular, attack this construction in quantum time \~O($2^n$), providing a 2.5 quantum speedup over the best classical attack. Regarding post-quantum security of symmetric ciphers, it is commonly assumed that doubling the key sizes is a sufficient precaution. This is because Grover's quantum search algorithm, and its derivatives, can only reach a quadratic speedup at most. Our attack shows that the structure of some symmetric constructions can be exploited to overcome this limit. In particular, the 2XOR-Cascade cannot be used to generically strengthen block ciphers against quantum adversaries, as it would offer only the same security as the block cipher itself.
翻訳日:2023-03-12 08:09:49 公開日:2021-10-06
# 非線形導波路に結合したNV中心による集団放射

Collective radiance with NV centers coupled to nonlinear phononic waveguides ( http://arxiv.org/abs/2110.02825v1 )

ライセンス: Link先を確認
Jia-Qiang Chen, Yi-Fan Qiao, Xing-Liang Dong, Cai-Peng Shen, Xin-Lei Hei, and Peng-Bo Li(参考訳) 集団放射は量子光学の基本的な現象である。 しかし、これらの放射効果は量子音響学の分野でほとんど解明されていない。 本研究では,NV中心と結合した非線形導波路の超相関放射効果について検討する。 スピンの周波数が散乱連続体より低いとき、フォノン導波管の有界バンド内では、単一のNV中心はゆっくりと散逸するが、2つのNV中心は急激な指数減衰を示す。 複数のNVスピンを考慮すると、超相関放射はディック超放射よりもN倍速い速度で発生する。 超相関放射光における状態分布のピークは、超放射光におけるピークの連続的なシフトと区別され、直接的に$|m=n/2\rangle$から$|m=-n/2\rangle$に変化する。 この研究は集団放射線効果に関する深い洞察を与え、量子情報処理における興味深い応用を見出すかもしれない。

Collective radiance is a fundamental phenomenon in quantum optics. However, these radiation effects remain largely unexplored in the field of quantum acoustics. In this work, we investigate the supercorrelated radiation effects in a nonlinear phononic waveguide that is coupled with NV centers. When the spin's frequency is below the scattering continuum but within the bound-state band of the phonon waveguide, a single NV center dissipates slowly, but two NV centers can exhibit a rapid exponential decay. When multiple NV spins are considered, supercorrelated radiance occurs at a rate N times faster than Dicke superradiance. The peak of the state distribution in supercorrelated radiance jumps directly from $|m=N/2\rangle$ to $|m=-N/2\rangle$, distinguished from the continuous shift of the peak in superradiance. This work provides deeper insight into the collective radiation effect and may find interesting applications in quantum information processing.
翻訳日:2023-03-12 08:09:27 公開日:2021-10-06
# デコヒーレンス保護量子ビット上の頑健な断熱ホロノミック量子ゲート

Robust Nonadiabatic Holonomic Quantum Gates on Decoherence-Protected Qubits ( http://arxiv.org/abs/2110.02812v1 )

ライセンス: Link先を確認
Zhi-Cheng He and Zheng-Yuan Xue(参考訳) 高忠実で堅牢な量子ゲートを得ることは、スケーラブルな量子計算の鍵であり、有望な方法の1つは、局所ノイズの影響を大幅に低減できる幾何学的位相を用いた量子ゲートを実装することである。 本稿では, 量子ゲートのロバスト化を実現するために, 幾何位相アプローチと動的補正手法を組み合わせることで, 不完全化制御によるXエラーを大幅に抑制できる量子演算手法を提案する。 さらに、デコヒーレンス効果やランダム化されたクビット周波数シフトZ-エラーに対して頑健であるために、この手法は偏光子量子ビット、光-物質相互作用の固有状態に基づいて提案される。 最後に,従来の実装を単純化した超伝導回路上に実装する。 本提案では, 主な誤差を大幅に低減できるため, スケーラブルなソリッドステートフォールトトレラント量子計算のための有望な戦略を提供する。

Obtaining high-fidelity and robust quantum gates is the key for scalable quantum computation, and one of the promising ways is to implement quantum gates using geometric phases, where the influence of local noises can be greatly reduced. To obtain robust quantum gates, we here propose a scheme for quantum manipulation by combining the geometric phase approach with the dynamical correction technique, where the imperfection control induced X-error can be greatly suppressed. Moreover, to be robust against the decoherence effect and the randomized qubit-frequency shift Z-error, our scheme is also proposed based on the polariton qubit, the eigenstates of the light-matter interaction, which is immune to both errors up to the second order, due to its near symmetric energy spectrum. Finally, our scheme is implemented on the superconducting circuits, which also simplifies previous implementations. Since the main errors can be greatly reduced in our proposal, it provides a promising strategy for scalable solid-state fault-tolerant quantum computation.
翻訳日:2023-03-12 08:09:13 公開日:2021-10-06
# ドメイン適応のための量子分類器

Quantum classifiers for domain adaptation ( http://arxiv.org/abs/2110.02808v1 )

ライセンス: Link先を確認
Xi He, Feiyu Du, Mingyuan Xue, Xiaogang Du, Tao Lei, A. K. Nandi(参考訳) 機械学習の重要なサブフィールドであるトランスファーラーニング(TL)は、ソースドメインの取得した知識を用いて、ターゲットドメイン内のタスクを達成することを目的としている。 具体的には、効果的なドメイン適応(DA)は、2つのドメインのすべてのデータサンプルが同じ特徴空間に分散されているTLタスクの配信を容易にする。 本稿では,古典的DA分類器と比較して,2つのDA分類器の量子的実装を量子スピードアップで示す。 1つの実装、量子基本線型代数サブルーチン(QBLAS)ベースの分類器は、与えられたデータの数と次元に対数資源を持つ対象領域データのラベルを予測することができる。 他の実装は、変分型ハイブリッド量子古典的手順により、DAタスクを効率的に達成する。

Transfer learning (TL), a crucial subfield of machine learning, aims to accomplish a task in the target domain with the acquired knowledge of the source domain. Specifically, effective domain adaptation (DA) facilitates the delivery of the TL task where all the data samples of the two domains are distributed in the same feature space. In this paper, two quantum implementations of the DA classifier are presented with quantum speedup compared with the classical DA classifier. One implementation, the quantum basic linear algebra subroutines (QBLAS)-based classifier, can predict the labels of the target domain data with logarithmic resources in the number and dimension of the given data. The other implementation efficiently accomplishes the DA task through a variational hybrid quantum-classical procedure.
翻訳日:2023-03-12 08:08:54 公開日:2021-10-06
# クリフォードランダムテンソルネットワークと監視量子回路の統計力学モデル

Statistical Mechanics Model for Clifford Random Tensor Networks and Monitored Quantum Circuits ( http://arxiv.org/abs/2110.02988v1 )

ライセンス: Link先を確認
Yaodong Li, Romain Vasseur, Matthew P. A. Fisher, Andreas W. W. Ludwig(参考訳) 我々は,clifford (stabilizer) random tensor networks (rtns) と監視量子回路の正確なマッピングを統計力学モデルに導入する。 ハールユニタリでは、テンソル積上のユニタリの作用に通勤するすべての作用素はテンソル因子の置換(「シュール・ワイル双対性」)から生じるので、基本自由度(スピン)は置換である。 より小さなクリフォード群に制限されたユニタリに対して、通勤作用素の集合である「可換」は、新しい「スピン」自由度を形成する。 我々は、Gross et al., Comm によるこの通勤の最近の完全な特徴を利用する。 数学 Phys 385, 1325 (2021) は、素数$p$のパワーであるオンサイトヒルベルト空間次元のクリフォード統計力学モデルを構築するためのものである。 ボルツマン重みは、有限数体 ${\bf f}_p$ のエントリを持つ直交行列を含む対称性群の下で不変であることを示す。 これは対称性群、したがってクリフォード回路とrtnにおける絡み合い遷移のすべての普遍的性質は一般に、素数 $p$ にのみ依存することを意味する。 オンサイトヒルベルト空間次元 $d=p^m$ を持つクリフォード監視回路は、極限 $d \to \infty$ at におけるパーコレーションによって記述される。 (a)$p=$固定,$m\to \infty$, at (b)$M=1$だが$p \to \infty$である。 限界は (a)有効中心電荷を計算し、限度内で (b) 遷移において、次の普遍最小カットエンタングルメントエントロピー$S_A =(\sqrt{3}/\pi)\ln p \ln L_A$ for $d=p$ large を導出する。 これらの予測を数値的に検証し,実数実数ヒルベルト空間における監視クリフォード回路の遷移における臨界指数に対して,様々な異なる値の p$ に対して $d=p$ を計算し,最大$p$ のパーコレーション値に接近することを示す。

We introduce an exact mapping of Clifford (stabilizer) random tensor networks (RTNs) and monitored quantum circuits, onto a statistical mechanics model. With Haar unitaries, the fundamental degrees of freedom ('spins') are permutations because all operators commuting with the action of the unitaries on a tensor product arise from permutations of the tensor factors ('Schur-Weyl duality'). For unitaries restricted to the smaller Clifford group, the set of commuting operators, the 'commutant', forming the new 'spin' degrees of freedom, will be larger. We use the recent full characterization of this commutant by Gross et al., Comm. Math. Phys. 385, 1325 (2021), to construct the Clifford statistical mechanics models for on-site Hilbert space dimensions which are powers of a prime number $p$. We show that the Boltzmann weights are invariant under a symmetry group involving orthogonal matrices with entries in the finite number field ${\bf F}_p$. This implies that the symmetry group, and consequently all universal properties of entanglement transitions in Clifford circuits and RTNs will in general depend on, and only on the prime $p$. We show that Clifford monitored circuits with on-site Hilbert space dimension $d=p^M$ are described by percolation in the limits $d \to \infty$ at (a) $p=$ fixed but $M\to \infty$, and at (b) $M= 1$ but $p \to \infty$. In the limit (a) we calculate the effective central charge, and in the limit (b) we derive the following universal minimal cut entanglement entropy $S_A =(\sqrt{3}/\pi)\ln p \ln L_A$ for $d=p$ large at the transition. We verify those predictions numerically, and present extensive numerical results for critical exponents at the transition in monitored Clifford circuits for prime number on-site Hilbert space dimension $d=p$ for a variety of different values of $p$, and find that they approach percolation values at large $p$.
翻訳日:2023-03-12 08:02:20 公開日:2021-10-06
# 量子コンピュータにおける量子プロセストモグラフィの古典的影

Classical Shadows for Quantum Process Tomography on Near-term Quantum Computers ( http://arxiv.org/abs/2110.02965v1 )

ライセンス: Link先を確認
Ryan Levy, Di Luo, Bryan K. Clark(参考訳) 量子プロセストモグラフィーは、量子チャネルを理解し、量子デバイスの特性を特徴づける強力なツールである。 量子状態トモグラフィにおける古典的影を用いた最近の進歩に触発されて,量子過程トモグラフィのための古典的影法shadowqptを開発した。 シャドウQPTは、固定サイズの縮小プロセスの効率的な再構成を含む一元的および非単元的プロセスに対するChoi行列の再構成を可能にし、任意の状態と異なる任意の状態における量子チャネルの出力との重なりを予測する方法を示す。 本稿では,ancilla qubitsを用いたスキームと,チャネル前後のユニタリを用いた双方向スキームについて紹介する。 量子チャネルの復元精度を著しく向上させる一連の後処理技術やペア分解クリフォードシャドーの使用など、さらに多くの近似や改善がなされている。 大規模システムの理論的スケーリングとNISQ時代のハードウェア上でのシャドウトモグラフィーの実用性について考察する。 提案アルゴリズムは,量子処理用イオン量子コンピュータIonQ(英語版)を用いて,最大$n=4$ qubits(量子状態トモグラフィ用$n=8$ qubitsの実験的複雑さと同程度)で実装され,良好な性能を示した。

Quantum process tomography is a powerful tool for understanding quantum channels and characterizing properties of quantum devices. Inspired by recent advances using classical shadows in quantum state tomography[1], we have developed a classical shadow method, ShadowQPT, for quantum process tomography. ShadowQPT allows for the reconstruction of the Choi matrix for unitary and non-unitary processes including an efficient reconstruction of fixed-sized reduced processes; we also show how to predict the overlap between any arbitrary state and the output of the quantum channel on a different arbitrary state. We introduce both a scheme using ancilla qubits as well as a two-sided scheme with unitaries before and after the channel. A number of additional approximations and improvements are developed including the use of a pair-factorized Clifford shadow and a series of post-processing techniques which significantly enhance the accuracy for recovering the quantum channel. Both the theoretical scaling for large systems and the practicality of using shadow tomography on NISQ-era hardware are considered. Our algorithms have been implemented with both Pauli and Clifford measurements on the IonQ trapped ion quantum computer for quantum processes up to $n=4$ qubits (equivalent to the experimental complexity of $n=8$ qubits for quantum state tomography) and achieved good performance.
翻訳日:2023-03-12 08:00:33 公開日:2021-10-06
# 加熱状態とブラックホール放射における境界絡み

Bound entanglement in thermalized states and black hole radiation ( http://arxiv.org/abs/2110.02959v1 )

ライセンス: Link先を確認
Shreya Vardhan, Jonah Kudler-Flam, Hassan Shapourian, Hong Liu(参考訳) 最近開発された$\textit{equilibrium approximation}$を用いて、カオス量子多体系の混合状態絡み合い構造の研究を行った。 この手法を一般化して、多種多様な熱処理状態の普遍性クラスに対する対数ネガティビティを評価する際に、豊富な絡み合い位相図が現れる。 無限温度の場合とは異なり、有限温度でエネルギー制約を課すと、対数的負の位相図と相互情報の相違が生じる。 特に, 負性度が広く, 相互情報はサブエクスパンジブであり, 大量の$\textit{bound entanglement}$を示す。 ブラックホールの蒸発に応用すると、これらの結果はホーキング放射に量子的絡み合いがあることを示しているが、この絡み合いはEPR対に蒸留できない可能性がある。

We study the mixed-state entanglement structure of chaotic quantum many-body systems at late times using the recently developed $\textit{equilibrium approximation}$. A rich entanglement phase diagram emerges when we generalize this technique to evaluate the logarithmic negativity for various universality classes of macroscopically thermalized states. Unlike in the infinite temperature case, when we impose energy constraints at finite temperature, the phase diagrams for the logarithmic negativity and the mutual information become distinct. In particular, we identify a regime where the negativity is extensive but the mutual information is sub-extensive, indicating a large amount of $\textit{bound entanglement}$. When applied to evaporating black holes, these results imply that there is quantum entanglement within the Hawking radiation long before the Page time, although this entanglement may not be distillable into EPR pairs.
翻訳日:2023-03-12 07:59:51 公開日:2021-10-06
# 非漸近的ハイゼンベルクスケーリング--幅広い資源領域に対する実験的気象学

Non-asymptotic Heisenberg scaling: experimental metrology for a wide resources range ( http://arxiv.org/abs/2110.02908v1 )

ライセンス: Link先を確認
Valeria Cimini, Emanuele Polino, Federico Belliardo, Francesco Hoch, Bruno Piccirillo, Nicol\`o Spagnolo, Vittorio Giovannetti, Fabio Sciarrino(参考訳) パラメータ推定に量子リソースを採用することで、標準量子限界を超える感度で動作する量子センサを実現することができる。 このような手法は、推定過程において採用リソース$N$の関数として、ベーシックなハイゼンベルクスケーリングに到達することを約束する。 以前の実験ではハイゼンベルク限界性能に接近する精度のスケーリングが実証されたが、n$ の範囲での計算には至らなかった。 本稿では,パラメータに関する事前情報なしに,ハイゼンベルクスケーリングに到達可能なリソースを適切に割り当てる手法を示す。 回転角の測定において,このような利点を実験的に示す。 我々は,高次軌道角運動量を持つ単一光子状態を用いて,ハイゼンベルクのスケーリングをある程度の$N$で定量的に検証し,標準量子限界以下で10$dB以上の誤差低減を実現する。 このような結果は異なるシナリオに適用でき、量子センシングにおけるリソースの最適化への道を開くことができる。

Adopting quantum resources for parameter estimation discloses the possibility to realize quantum sensors operating at a sensitivity beyond the standard quantum limit. Such approach promises to reach the fundamental Heisenberg scaling as a function of the employed resources $N$ in the estimation process. Although previous experiments demonstrated precision scaling approaching Heisenberg-limited performances, reaching such regime for a wide range of $N$ remains hard to accomplish. Here, we show a method which suitably allocates the available resources reaching Heisenberg scaling without any prior information on the parameter. We demonstrate experimentally such an advantage in measuring a rotation angle. We quantitatively verify Heisenberg scaling for a considerable range of $N$ by using single-photon states with high-order orbital angular momentum, achieving an error reduction greater than $10$ dB below the standard quantum limit. Such results can be applied to different scenarios, opening the way to the optimization of resources in quantum sensing.
翻訳日:2023-03-12 07:59:18 公開日:2021-10-06
# 非バニッシュレスト質量をもつ2次元縮退ガス中の散逸

Dissipation in 2D degenerate gases with non-vanishing rest mass ( http://arxiv.org/abs/2110.03402v1 )

ライセンス: Link先を確認
A. R. Mendez and A. L. Garcia-Perciante and G. Chacon-Acosta(参考訳) 2次元相対論的縮退気体の輸送係数の完全集合は、粒子とエネルギーのフレームの両方を考慮して、運動理論における緩和近似の中で導かれる。 Marle と Anderson-Witting のモデルとの徹底的な比較を行い、後者とボルツマン方程式の双方と比較して、前者の欠点を指摘し、非退化極限をもたらす。 このようなタスクは、相対論的 uehling-uhlenbeck 方程式を粒子とエネルギーのフレームの両方で解き、熱流束とナビエテンソルの構成方程式を、そのような表現における輸送係数の解析式とともに確立することで達成される。 特に熱伝導率(一般化された熱力)とバルクおよびせん断粘度の温度依存性を両モデルおよび非退化・非相対論的・超相対論的限界において解析・比較した。

The complete set of transport coefficients for two dimensional relativistic degenerate gases is derived within a relaxation approximation in kinetic theory, by considering both the particle and energy frames. A thorough comparison between Marle and Anderson-Witting's models is carried out, pointing out the drawbacks of the former when compared both to the latter and to the full Boltzmann equation results in the non-degenerate limit. Such task is accomplished by solving the relativistic Uehling-Uhlenbeck equation, in both the particle and energy frames, in order to establish the constitutive equations for the heat flux and the Navier tensor together with analytical expressions for the transport coefficients in such representations. In particular, the temperature dependence of the thermal conductivity (associated with a generalized thermal force) and the bulk and shear viscosities are analyzed and compared within both models and with the non-degenerate, non-relativistic and ultra-relativistic limits.
翻訳日:2023-03-12 07:52:30 公開日:2021-10-06
# 配向分散を有する非線形導波路における1光子と2光子の完全変換

Complete conversion between one and two photons in nonlinear waveguides with tailored dispersion ( http://arxiv.org/abs/2110.03110v1 )

ライセンス: Link先を確認
Alexander S. Solntsev, Sergey V. Batalov, Nathan K. Langford, Andrey A. Sukhorukov(参考訳) 高効率光子対生成は、多くの光量子技術の長年の目標であり、コヒーレント光子変換プロセスは、これを達成するための候補である。 非線形光導波路における狭帯域ポンプ光子と広帯域光子対のコヒーレント変換を、広帯域量子周波数混合のための周波数分散を調整して制御する方法を理論的に示す。 ポンプ光子再生と同様に完全決定論的変換を有限伝播距離で達成できることが判明した。 また, 長い伝搬距離で高い変換効率を実現することが可能である。 これらの結果は、分散工学がコヒーレント光子変換過程をチューニングし最適化する有望な方法であることを示している。

High-efficiency photon-pair production is a long-sought-after goal for many optical quantum technologies, and coherent photon conversion processes are promising candidates for achieving this. We show theoretically how to control coherent conversion between a narrow-band pump photon and broadband photon pairs in nonlinear optical waveguides by tailoring frequency dispersion for broadband quantum frequency mixing. We reveal that complete deterministic conversion as well as pump-photon revival can be achieved at a finite propagation distance. We also find that high conversion efficiencies can be realised robustly over long propagation distances. These results demonstrate that dispersion engineering is a promising way to tune and optimise the coherent photon conversion process.
翻訳日:2023-03-12 07:52:12 公開日:2021-10-06
# 相互に偏った量子オブザーバブル

Mutually Unbiased Quantum Observables ( http://arxiv.org/abs/2110.03099v1 )

ライセンス: Link先を確認
Stan Gudder(参考訳) まず、有限次元ヒルベルト空間上で相互非バイアス(MU)可観測性を定義する。 また、より一般的な MU 観測可能な部分の概念についても検討する。 MU可観測物, 値補観測物, その他の2つの可観測物の逐次積を含む条件の関係について論じる。 次に、有限位置と運動量観測という、MU可観測の特別な動機付け事例を示す。 これらは有限フーリエ変換によって関連づけられた原子観測量である。 有限位置と運動量観測器は、価値補足的でないMU観測器の一部と価値補足的でないものを例示するために用いられる。 これらの概念にまつわる様々なオープンな問題を提示する。 これらの問題は主に、この研究をシャープな観測可能からアンシャープな観測可能へと拡張することを含む。

We begin by defining mutually unbiased (MU) observables on a finite dimensional Hilbert space. We also consider the more general concept of parts of MU observables. The relationships between MU observables, value-complementary observables and two other conditions involving sequential products of observables are discussed. We next present a special motivating case of MU observables called finite position and momentum observables. These are atomic observables related by a finite Fourier transform. Finite position and momentum observables are employed to give examples of parts of MU observables that are value-complementary and those that are not value-complementary. Various open problems involving these concepts are presented. These problems mainly involve extending this work from sharp observables to unsharp observables.
翻訳日:2023-03-12 07:51:58 公開日:2021-10-06
# 四面体レーザービーム幾何における$\lambda$-enhanced gray molasses

$\Lambda$-enhanced gray molasses in a tetrahedral laser beam geometry ( http://arxiv.org/abs/2110.03064v1 )

ライセンス: Link先を確認
D. S. Barker, E. B. Norrgard, N. N. Klimov, J. A. Fedchak, J. Scherschligt, S. Eckel(参考訳) ナノファブリケート回折格子で作製した不規則なテトラエドラルレーザービームアレンジメントを用いたリチウムのサブドップラー冷却の観察を行った。 我々は、リチウム原子の11(2)%を格子状磁気光学トラップから、$\Lambda$-enhanced $D_1$ gray molassesに捕獲することができる。 モラセは捕獲された原子を放射温度60(9)$\mu$K、軸温度23(3)$\mu$Kに冷却する。 従来の逆伝搬ビーム配置の結果とは対照的に,光学場がラマン共鳴から脱離した場合の冷却は観測されない。 冷却ダイナミクスの光学ブロッホ方程式シミュレーションは、我々のデータと一致する。 以上の結果から,光磁気トラップはトワイザーアレイ実験や原子チップ実験において,明るい光分子のサブドップラー冷却に適さない場合においても,強固な冷原子源として機能することが示された。

We report observation of sub-Doppler cooling of lithium using an irregular-tetrahedral laser beam arrangement, which is produced by a nanofabricated diffraction grating. We are able to capture 11(2) % of the lithium atoms from a grating magneto-optical trap into $\Lambda$-enhanced $D_1$ gray molasses. The molasses cools the captured atoms to a radial temperature of 60(9) $\mu$K and an axial temperature of 23(3) $\mu$K. In contrast to results from conventional counterpropagating beam configurations, we do not observe cooling when our optical fields are detuned from Raman resonance. An optical Bloch equation simulation of the cooling dynamics agrees with our data. Our results show that grating magneto-optical traps can serve as a robust source of cold atoms for tweezer-array and atom-chip experiments, even when the atomic species is not amenable to sub-Doppler cooling in bright optical molasses.
翻訳日:2023-03-12 07:51:36 公開日:2021-10-06
# 小型ペニングトラップにおける第2スケール$^9\text{Be}^+$スピンコヒーレンス

Second-Scale $^9\text{Be}^+$ Spin Coherence in a Compact Penning Trap ( http://arxiv.org/abs/2110.03053v1 )

ライセンス: Link先を確認
Brian J. McMahon and Brian C. Sawyer(参考訳) 我々は, コンパクト永久磁石を用いたペニングイオントラップ内で, 共トラッピングされた$^9\text{Be}^+$および$^{40}\text{Ca}^+$のマイクロ波分光を報告する。 このトラップは、$^9\text{Be}^+$の0.6774-T磁場非感応超微細転移に近い0.654T磁場を与えるNdFeB環の再構成可能な配列で構成される。 この超微細構造遷移でラムゼー分光法を行い、コントラスト崩壊時間 > 1 s の核スピンコヒーレンスを示す。 この$^9\text{be}^+$は、$^{40}\text{ca}^+$のクーロン結晶によって同情的に冷却され、$^9\text{be}^+$の照明を最小化し、反応損失を緩和する。 729~nmのシェルビングレーザーを使わずにスピン状態の読み出しを行う。 我々は,20 ppb (<13 nT)以下で,磁気遮蔽を伴わず,受動熱分離のみを伴わず,平均43秒の静磁場不安定性を記録した。 このコンパクトで再構成可能なペニングトラップの潜在的な応用について論じる。

We report microwave spectroscopy of co-trapped $^9\text{Be}^+$ and $^{40}\text{Ca}^+$ within a compact permanent-magnet-based Penning ion trap. The trap is constructed with a reconfigurable array of NdFeB rings providing a 0.654 T magnetic field that is near the 0.6774-T magnetic-field-insensitive hyperfine transition in $^9\text{Be}^+$. Performing Ramsey spectroscopy on this hyperfine transition, we demonstrate nuclear spin coherence with a contrast decay time of >1 s. The $^9\text{Be}^+$ is sympathetically cooled by a Coulomb crystal of $^{40}\text{Ca}^+$, which minimizes $^9\text{Be}^+$ illumination and thus mitigates reactive loss. Introducing a unique high-magnetic-field optical detection scheme for $^{40}\text{Ca}^+$, we perform spin state readout without a 729~nm shelving laser. We record a fractional trap magnetic field instability below 20 ppb (<13 nT) at 43 s of averaging time with no magnetic shielding and only passive thermal isolation. We discuss potential applications of this compact, reconfigurable Penning trap.
翻訳日:2023-03-12 07:50:55 公開日:2021-10-06
# ai-hri分野の指導ライトとしての人間能力:工学教育からの洞察

Human Capabilities as Guiding Lights for the Field of AI-HRI: Insights from Engineering Education ( http://arxiv.org/abs/2110.03026v1 )

ライセンス: Link先を確認
Tom Williams and Ruchen Wen(参考訳) 社会正義志向の工学教育の枠組みが開発され、より良く公平な社会を作るために、どのプロジェクトが人間のニーズに真に対処するかに関する工学生の判断を導くのに役立った。 本稿では,これらの理論がAI-HRIの分野で果たす役割を考察し,我々のコミュニティがこれらの勧告に合致する程度(あるいはそうではない)について考察し,研究コミュニティがこれらの理論から指導を受ける未来を構想する。 特に,最近のAI-HRI(2020 AI-HRI論文の分析を通じて)を分析し,AI-HRIの将来について考察する。 どちらの活動も「engineering for social justice」(e4sj)フレームワークのレンズを通して導かれる。 私たちの分析は、現在のai-hri研究は、社会正義のためのエンジニアリングの原則とよく一致していないことを示唆している。 したがって、E4SJフレームワークによる将来の作業のモチベーションは、研究者が実際により公平な世界につながる技術を開発していることを確実にするのに役立つと提案する。

Social Justice oriented Engineering Education frameworks have been developed to help guide engineering students' decisions about which projects will genuinely address human needs to create a better and more equitable society. In this paper, we explore the role such theories might play in the field of AI-HRI, consider the extent to which our community is (or is not) aligned with these recommendations, and envision a future in which our research community takes guidance from these theories. In particular, we analyze recent AI-HRI (through analysis of 2020 AI-HRI papers) and consider possible futures of AI-HRI (through a speculative ethics exercise). Both activities are guided through the lens of the Engineering for Social Justice (E4SJ) framework, which centers contextual listening and enhancement of human capabilities. Our analysis suggests that current AI-HRI research is not well aligned with the guiding principles of Engineering for Social Justice, and as such, does not obviously meet the needs of the communities we could be helping most. As such, we suggest that motivating future work through the E4SJ framework could help to ensure that we as researchers are developing technologies that will actually lead to a more equitable world.
翻訳日:2023-03-12 07:50:33 公開日:2021-10-06
# 経路計画を伴う連続制御タスクのための機能分解階層の学習

Learning Functionally Decomposed Hierarchies for Continuous Control Tasks with Path Planning ( http://arxiv.org/abs/2002.05954v4 )

ライセンス: Link先を確認
Sammy Christen, Lukas Jendele, Emre Aksan, Otmar Hilliges(参考訳) 長方形制御タスクをうまく解決し,未認識のテストシナリオに一般化した,新しい階層型強化学習アーキテクチャであるhidを提案する。 計画と低レベルの制御の間の機能的な分解は、階層全体にわたる状態-アクション空間を明示的に分離することで達成される。 制御層が目標条件の制御ポリシを学習している間に,階層の計画層の情報を効率的に活用するRLベースのプランナを提案する。 階層は共同で訓練されるが、異なるエージェントの階層間でポリシー層のモジュラー転送を可能にする。 実験により,本手法は未知のテスト環境をまたいで一般化し,学習法と非学習法の両方と比較して3倍の地平線長まで拡張できることを示した。 ナビゲーションやロボット操作など,微妙な報酬を伴う複雑な連続制御タスクについて評価する。

We present HiDe, a novel hierarchical reinforcement learning architecture that successfully solves long horizon control tasks and generalizes to unseen test scenarios. Functional decomposition between planning and low-level control is achieved by explicitly separating the state-action spaces across the hierarchy, which allows the integration of task-relevant knowledge per layer. We propose an RL-based planner to efficiently leverage the information in the planning layer of the hierarchy, while the control layer learns a goal-conditioned control policy. The hierarchy is trained jointly but allows for the modular transfer of policy layers across hierarchies of different agents. We experimentally show that our method generalizes across unseen test environments and can scale to 3x horizon length compared to both learning and non-learning based methods. We evaluate on complex continuous control tasks with sparse rewards, including navigation and robot manipulation.
翻訳日:2023-01-01 03:36:50 公開日:2021-10-06
# マイクロ教師付き外乱学習 : 表現確率分布の観点から

Micro-supervised Disturbance Learning: A Perspective of Representation Probability Distribution ( http://arxiv.org/abs/2003.06321v2 )

ライセンス: Link先を確認
Jielei Chu, Jing Liu, Hongjun Wang, Meng Hua, Zhiguo Gong and Tianrui Li(参考訳) この不安定性は、広い条件下でのユークリッド距離に基づく既存の表現学習法で示される。 さらに,ラベルの不足とコストの高まりから,ラベルに依存した表現学習手法を可能な限り探究することが可能となった。 これらの問題に対処するために、まず表現確率分布に基づく表現学習モデルに小摂動イデオロギーを導入する。 各クラスタの2つのラベルにのみ依存する正の小摂動情報(SPI)を用いて表現確率分布を刺激し、RBMの予測表現分布、すなわちマイクロ教師付き外乱GRBM(Micro-DGRBM)とマイクロ教師付き外乱ROM(Micro-supervised external RBM)モデルを微調整する2つのモデルを提案する。 コントラッシブ・ディバージェンス(CD)学習において、SPIのKL(Kulback-Leibler)分散は、表現確率分布を促進するために同じクラスタ内で最小化される。 対照的に、SPIのKL分散は異なるクラスタで最大化され、表現確率分布を強制し、CD学習においてより異なるものとなる。 マイクロDGRBMモデルとマイクロDRBMモデルに基づく深層マイクロ教師付き外乱学習(Micro-DL)フレームワークについて,SPIの連続的刺激下での表現学習能力について検討し,外部刺激のない類似の深部構造と比較した。 実験の結果,提案する深層マイクロdlアーキテクチャは,ベースライン法,最も関連する浅層モデル,クラスタリングのための深層フレームワークと比較して優れた性能を示すことがわかった。

The instability is shown in the existing methods of representation learning based on Euclidean distance under a broad set of conditions. Furthermore, the scarcity and high cost of labels prompt us to explore more expressive representation learning methods which depends on the labels as few as possible. To address these issues, the small-perturbation ideology is firstly introduced on the representation learning model based on the representation probability distribution. The positive small-perturbation information (SPI) which only depend on two labels of each cluster is used to stimulate the representation probability distribution and then two variant models are proposed to fine-tune the expected representation distribution of RBM, namely, Micro-supervised Disturbance GRBM (Micro-DGRBM) and Micro-supervised Disturbance RBM (Micro-DRBM) models. The Kullback-Leibler (KL) divergence of SPI is minimized in the same cluster to promote the representation probability distributions to become more similar in Contrastive Divergence(CD) learning. In contrast, the KL divergence of SPI is maximized in the different clusters to enforce the representation probability distributions to become more dissimilar in CD learning. To explore the representation learning capability under the continuous stimulation of the SPI, we present a deep Micro-supervised Disturbance Learning (Micro-DL) framework based on the Micro-DGRBM and Micro-DRBM models and compare it with a similar deep structure which has not any external stimulation. Experimental results demonstrate that the proposed deep Micro-DL architecture shows better performance in comparison to the baseline method, the most related shallow models and deep frameworks for clustering.
翻訳日:2022-12-24 01:14:48 公開日:2021-10-06
# 飛行データにおける異常検出のためのインクリメンタルクラスタリング法

An Incremental Clustering Method for Anomaly Detection in Flight Data ( http://arxiv.org/abs/2005.09874v4 )

ライセンス: Link先を確認
Weizun Zhao (1), Lishuai Li (2 and 1), Sameer Alam (3), Yanjun Wang (4) ((1) Department of Systems Engineering and Engineering Management, City University of Hong Kong, (2) Air Transport and Operations, Faculty of Aerospace Engineering, Delft University of Technology, (3) School of Mechanical & Aerospace Engineering, Nanyang Technological University, (4) College of Civil Aviation, Nanjing University of Aeronautics and Astronautics)(参考訳) 安全は民間航空にとって最優先事項である。 パイロットの操作を監視し、そのような飛行データからリスクを検出するために、主にクラスタリング手法による新しい異常検出法が開発されている。 しかしながら、既存の異常検出手法はすべてofflline learning – モデルが一度履歴データを使用してトレーニングされ、将来のすべての予測に使用される。 実際には、新しいフライトデータは継続的に蓄積され、毎月航空会社で分析される。 このような動的に成長するデータのクラスタリングはofflline法では、新しいデータが現れる度にモデルを再トレーニングするのはメモリと時間を要するため、難しい。 モデルの再トレーニングがなければ、モデルがデータパターンの変化を反映できないため、誤報やエラー検出が増加する可能性がある。 この問題に対処するために,Gaussian Mixture Model(GMM)に基づく新たな漸進的異常検出手法を提案する。 これは飛行操作の確率的クラスタリングモデルであり、スクラッチからすべてのデータを再クラスタする代わりに、新しいデータに基づいてクラスタを漸進的に更新することができる。 歴史的なoffllineデータに基づいて初期gmmモデルをトレーニングする。 そして、予測最大化(EM)アルゴリズムにより、新しい入ってくるデータポイントに継続的に適応する。 飛行動作パターンの変化を追跡するには、モデルパラメータのみを保存する必要がある。 提案手法はシミュレーションデータ3セットと実世界の飛行データ2セットを用いて実験を行った。 従来のオフラインGMM法と比較して,提案手法は,処理時間(テストセットの57 %~99%)とメモリ使用量(テストセットの91 %~95 %)を大幅に削減した類似のクラスタリング結果を生成することができる。 予備結果は,インクリメンタル・ラーニング・スキームが飛行データ解析において動的に増大するデータを扱うのに有効であることを示している。

Safety is a top priority for civil aviation. New anomaly detection methods, primarily clustering methods, have been developed to monitor pilot operations and detect any risks from such flight data. However, all existing anomaly detection methods are offlline learning - the models are trained once using historical data and used for all future predictions. In practice, new flight data are accumulated continuously and analyzed every month at airlines. Clustering such dynamically growing data is challenging for an offlline method because it is memory and time intensive to re-train the model every time new data come in. If the model is not re-trained, false alarms or missed detections may increase since the model cannot reflect changes in data patterns. To address this problem, we propose a novel incremental anomaly detection method based on Gaussian Mixture Model (GMM) to identify common patterns and detect outliers in flight operations from digital flight data. It is a probabilistic clustering model of flight operations that can incrementally update its clusters based on new data rather than to re-cluster all data from scratch. It trains an initial GMM model based on historical offlline data. Then, it continuously adapts to new incoming data points via an expectation-maximization (EM) algorithm. To track changes in flight operation patterns, only model parameters need to be saved. The proposed method was tested on three sets of simulation data and two sets of real-world flight data. Compared with the traditional offline GMM method, the proposed method can generate similar clustering results with significantly reduced processing time (57 % - 99 % time reduction in testing sets) and memory usage (91 % - 95 % memory usage reduction in testing sets). Preliminary results indicate that the incremental learning scheme is effective in dealing with dynamically growing data in flight data analytics.
翻訳日:2022-12-01 04:47:18 公開日:2021-10-06
# DeBERTa: 絡み合った注意を伴うデコード強化BERT

DeBERTa: Decoding-enhanced BERT with Disentangled Attention ( http://arxiv.org/abs/2006.03654v6 )

ライセンス: Link先を確認
Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen(参考訳) 事前学習されたニューラルネットワークモデルの最近の進歩は、多くの自然言語処理(NLP)タスクの性能を大幅に改善した。 本稿では、2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャであるDeBERTaを提案する。 1つ目は、各単語をそれぞれ内容と位置を符号化した2つのベクトルを用いて表現し、各単語の注意重みを、その内容と相対位置の非絡み行列を用いて計算する非絡み注意機構である。 第二に、拡張マスクデコーダを用いてデコード層に絶対位置を組み込んで、モデル事前学習におけるマスク付きトークンを予測する。 さらに、モデル一般化を改善するために、ファインチューニングに新しい仮想対角訓練法を用いる。 これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。 RoBERTa-Largeと比較して、トレーニングデータの半分でトレーニングされたDeBERTaモデルは、広範囲のNLPタスクにおいて、MNLIを+0.9%(90.2%対91.1%)、SQuAD v2.0を+2.3%(88.4%対90.7%)、RACを+3.6%(83.2%対86.8%)改善した。 特に、48のトランスフォーム層と15億のパラメータからなる大きなバージョンをトレーニングすることで、DeBERTaをスケールアップしています。 大幅なパフォーマンス向上により、1つのdebertaモデルは、マクロ平均スコア(89.9対89.8)の点で初めてスーパーグルーベンチマーク(wang et al., 2019a)の人間のパフォーマンスを上回り、アンサンブルのdebertaモデルは2021年1月6日時点でスーパーグルーのリーダーボードの上に置かれ、人間のベースラインをまともなマージン(90.3対89.8)で達成している。

Recent progress in pre-trained neural language models has significantly improved the performance of many natural language processing (NLP) tasks. In this paper we propose a new model architecture DeBERTa (Decoding-enhanced BERT with disentangled attention) that improves the BERT and RoBERTa models using two novel techniques. The first is the disentangled attention mechanism, where each word is represented using two vectors that encode its content and position, respectively, and the attention weights among words are computed using disentangled matrices on their contents and relative positions, respectively. Second, an enhanced mask decoder is used to incorporate absolute positions in the decoding layer to predict the masked tokens in model pre-training. In addition, a new virtual adversarial training method is used for fine-tuning to improve models' generalization. We show that these techniques significantly improve the efficiency of model pre-training and the performance of both natural language understanding (NLU) and natural langauge generation (NLG) downstream tasks. Compared to RoBERTa-Large, a DeBERTa model trained on half of the training data performs consistently better on a wide range of NLP tasks, achieving improvements on MNLI by +0.9% (90.2% vs. 91.1%), on SQuAD v2.0 by +2.3% (88.4% vs. 90.7%) and RACE by +3.6% (83.2% vs. 86.8%). Notably, we scale up DeBERTa by training a larger version that consists of 48 Transform layers with 1.5 billion parameters. The significant performance boost makes the single DeBERTa model surpass the human performance on the SuperGLUE benchmark (Wang et al., 2019a) for the first time in terms of macro-average score (89.9 versus 89.8), and the ensemble DeBERTa model sits atop the SuperGLUE leaderboard as of January 6, 2021, out performing the human baseline by a decent margin (90.3 versus 89.8).
翻訳日:2022-11-25 02:40:27 公開日:2021-10-06
# HittER:知識グラフ埋め込みのための階層変換器

HittER: Hierarchical Transformers for Knowledge Graph Embeddings ( http://arxiv.org/abs/2008.12813v2 )

ライセンス: Link先を確認
Sanxing Chen, Xiaodong Liu, Jianfeng Gao, Jian Jiao, Ruofei Zhang and Yangfeng Ji(参考訳) 本稿では,複合多関係知識グラフにおけるエンティティと関係の学習表現の課題について検討する。 そこで本稿では,エンティティ関係合成と関係文脈化を共学で学習する階層的トランスフォーマモデルhitterを提案する。 提案モデルは2つの異なるトランスフォーマーブロックから構成される: ボトムブロックはソースエンティティの局所近傍にある各エンティティ-リレーションペアの特徴を抽出し、トップブロックはボトムブロックの出力から関係情報を集約する。 さらに、関係コンテキストとソースエンティティ自体からの情報のバランスをとるために、マスク付きエンティティ予測タスクを設計する。 実験の結果,hitterは複数のリンク予測データセットで新たな最先端結果を得ることができた。 また,HittERをBERTに統合する簡単な手法を提案し,その有効性を2つのFreebaseファクトイド質問応答データセットで示す。

This paper examines the challenging problem of learning representations of entities and relations in a complex multi-relational knowledge graph. We propose HittER, a Hierarchical Transformer model to jointly learn Entity-relation composition and Relational contextualization based on a source entity's neighborhood. Our proposed model consists of two different Transformer blocks: the bottom block extracts features of each entity-relation pair in the local neighborhood of the source entity and the top block aggregates the relational information from outputs of the bottom block. We further design a masked entity prediction task to balance information from the relational context and the source entity itself. Experimental results show that HittER achieves new state-of-the-art results on multiple link prediction datasets. We additionally propose a simple approach to integrate HittER into BERT and demonstrate its effectiveness on two Freebase factoid question answering datasets.
翻訳日:2022-10-24 01:19:22 公開日:2021-10-06
# morph-dslam:物理ベースの変形可能なスラムのモデルオーダー低減

MORPH-DSLAM: Model Order Reduction for PHysics-based Deformable SLAM ( http://arxiv.org/abs/2009.00576v2 )

ライセンス: Link先を確認
Alberto Badias, Iciar Alfaro, David Gonzalez, Francisco Chinesta and Elias Cueto(参考訳) 標準単眼カメラを用いて,ビデオシーケンスから変形可能な物体の3次元変位場を推定する手法を提案する。 実物理で制約された画像の変位と一致したひずみ場と応力場を適切に記述するために, 完全(おそらく粘性)超弾性問題をリアルタイムに解く。 実および完備の力学問題は解かれているので、外部表面におけるアドホックな事前やエネルギーの最小化は一切行わない。 これはまた、外面と物質の性質と幾何学の知識を観察するだけで、閉塞された領域でさえも、物体の内部状態を推定できることを意味する。 現実的な構成法則(通常は非線形)を用いて、この問題をリアルタイムで解決することは、現在のシステムには及ばない。 この課題を克服するために,問題の各変動源を新しいパラメータとして考慮し,その結果,定式化における新たな次元として仮定したパラメータ化問題をオフラインで解く。 モデル次数削減法により,高次元空間における解の可視化を保ちながら,問題の次元性や計算コストを低減できる。 これにより、物体の変形を正確に推定することができ、3次元点推定の堅牢性も向上する。

We propose a new methodology to estimate the 3D displacement field of deformable objects from video sequences using standard monocular cameras. We solve in real time the complete (possibly visco-)hyperelasticity problem to properly describe the strain and stress fields that are consistent with the displacements captured by the images, constrained by real physics. We do not impose any ad-hoc prior or energy minimization in the external surface, since the real and complete mechanics problem is solved. This means that we can also estimate the internal state of the objects, even in occluded areas, just by observing the external surface and the knowledge of material properties and geometry. Solving this problem in real time using a realistic constitutive law, usually non-linear, is out of reach for current systems. To overcome this difficulty, we solve off-line a parametrized problem that considers each source of variability in the problem as a new parameter and, consequently, as a new dimension in the formulation. Model Order Reduction methods allow us to reduce the dimensionality of the problem, and therefore, its computational cost, while preserving the visualization of the solution in the high-dimensionality space. This allows an accurate estimation of the object deformations, improving also the robustness in the 3D points estimation.
翻訳日:2022-10-23 01:27:41 公開日:2021-10-06
# 条件生成モデルを用いた標的特性を持つ新規分子の生成

Generate Novel Molecules With Target Properties Using Conditional Generative Models ( http://arxiv.org/abs/2009.12368v2 )

ライセンス: Link先を確認
Abhinav Sagar(参考訳) ディープラーニングを使った創薬は、高い効率、手作業による推測の少ない、より速いプロセス時間といった明らかな利点があるため、最近多くの注目を集めている。 本稿では、トレーニングセット内の分子に似た小さな分子を生成する新しいニューラルネットワークを提案する。 本ネットワークは,入力サンプルを潜時空間に変換するためのバイGRU層からなるエンコーダと,1D-CNN層からなるエンコーダの能力向上のための予測器と,潜時空間表現からサンプルを再構成するためのユニGRU層からなるデコーダからなる。 潜在空間における条件ベクトルは、所望の性質を持つ分子を生成するために用いられる。 本稿では,ネットワークのトレーニングに使用する損失関数,実験の詳細,特性予測指標について述べる。 評価指標として,分子量,logp,薬物類似度の定量的推定を用いた従来の手法を上回っている。

Drug discovery using deep learning has attracted a lot of attention of late as it has obvious advantages like higher efficiency, less manual guessing and faster process time. In this paper, we present a novel neural network for generating small molecules similar to the ones in the training set. Our network consists of an encoder made up of bi-GRU layers for converting the input samples to a latent space, predictor for enhancing the capability of encoder made up of 1D-CNN layers and a decoder comprised of uni-GRU layers for reconstructing the samples from the latent space representation. Condition vector in latent space is used for generating molecules with the desired properties. We present the loss functions used for training our network, experimental details and property prediction metrics. Our network outperforms previous methods using Molecular weight, LogP and Quantitative Estimation of Drug-likeness as the evaluation metrics.
翻訳日:2022-10-18 06:58:14 公開日:2021-10-06
# 時間依存鏡を用いた一般鏡の線形収束

Linear Convergence of Generalized Mirror Descent with Time-Dependent Mirrors ( http://arxiv.org/abs/2009.08574v2 )

ライセンス: Link先を確認
Adityanarayanan Radhakrishnan and Mikhail Belkin and Caroline Uhler(参考訳) Polyak-Lojasiewicz (PL) の不等式は、非凸条件においても勾配降下の線形収束を確立するのに十分な条件である。 確率的勾配降下法の線形収束を確立するためにpl解析を用いた最近の研究はいくつかあるが、より一般的な最適化法で同様の解析が行えるかどうかという疑問が残る。 本稿では,時間依存ミラーを用いたミラー降下の一般化である一般化ミラー降下(gmd)の線形収束に関するplに基づく解析について述べる。 GMDは、勾配降下、ミラー降下、およびAdagradのような条件付き勾配降下方法を含む一般的な一階最適化手法を仮定する。 標準PL解析はGMDから確率的GMDへ自然に拡張できないので、テイラー級数に基づく解析を行い、確率的GMDの線形収束に十分な条件を確立する。 その結果,十分条件が確立され,確率的ミラー降下とアダグラードの線形収束の学習率が得られた。 最後に、局所 PL* である関数に対して、我々の解析は補間解の存在と、この解への GMD の収束を示唆する。

The Polyak-Lojasiewicz (PL) inequality is a sufficient condition for establishing linear convergence of gradient descent, even in non-convex settings. While several recent works use a PL-based analysis to establish linear convergence of stochastic gradient descent methods, the question remains as to whether a similar analysis can be conducted for more general optimization methods. In this work, we present a PL-based analysis for linear convergence of generalized mirror descent (GMD), a generalization of mirror descent with a possibly time-dependent mirror. GMD subsumes popular first order optimization methods including gradient descent, mirror descent, and preconditioned gradient descent methods such as Adagrad. Since the standard PL analysis cannot be extended naturally from GMD to stochastic GMD, we present a Taylor-series based analysis to establish sufficient conditions for linear convergence of stochastic GMD. As a corollary, our result establishes sufficient conditions and provides learning rates for linear convergence of stochastic mirror descent and Adagrad. Lastly, for functions that are locally PL*, our analysis implies existence of an interpolating solution and convergence of GMD to this solution.
翻訳日:2022-10-17 02:23:43 公開日:2021-10-06
# 光場超解像のための深部選択的組合せ埋め込みと一貫性規則化

Deep Selective Combinatorial Embedding and Consistency Regularization for Light Field Super-resolution ( http://arxiv.org/abs/2009.12537v2 )

ライセンス: Link先を確認
Jing Jin and Junhui Hou and Zhiyu Zhu and Jie Chen and Sam Kwong(参考訳) ハンドヘルドデバイスによって取得される光電界(lf)画像は、限られた検出器解像度を角次元と共有しなければならないため、通常は低い空間分解能に苦しむ。 したがって、LF空間超解像(SR)はLFカメラ処理パイプラインの必須部分となる。 LF画像の高次元特性と複雑な幾何学構造は、従来の単一像SRよりも難しい。 既存の手法の性能は、lfサブアパーチャ画像(sais)間のコヒーレンスを徹底的に探索できず、シーンのパララックス構造を正確に保存できないため、まだ限られている。 この課題に対処するために,新しい学習ベースLF空間SRフレームワークを提案する。 具体的には、LF画像の各SAIは、選択的な組合せ幾何学的埋め込みを用いてSAI間の相補的な情報を探索することにより、まず粗く個別に超解される。 補間情報の効率的かつ効果的な選択を実現するために, パッチセレクタはオフラインの差分推定に基づいて類似画像パッチを検索するオプションを提供し, SAIセレクタは適応的に, 柔軟に最も情報性の高いSAIを選択し, 埋め込み効率を向上させる。 再構成されたSAI間のパララックス構造を維持するために、構造認識損失関数で訓練された整合性正規化ネットワークを付加し、粗い推定に関するパララックス関係を洗練する。 さらに,提案手法を不規則なLFデータに拡張する。 我々の知る限りでは、不規則なLFデータに対する学習ベースのSR法としてはこれが初めてである。 合成および実世界のLFデータセットに対する実験結果は、最先端手法に対する我々のアプローチの大きな利点を示している。

Light field (LF) images acquired by hand-held devices usually suffer from low spatial resolution as the limited detector resolution has to be shared with the angular dimension. LF spatial super-resolution (SR) thus becomes an indispensable part of the LF camera processing pipeline. The high-dimensionality characteristic and complex geometrical structure of LF images make the problem more challenging than traditional single-image SR. The performance of existing methods is still limited as they fail to thoroughly explore the coherence among LF sub-aperture images (SAIs) and are insufficient in accurately preserving the scene's parallax structure. To tackle this challenge, we propose a novel learning-based LF spatial SR framework. Specifically, each SAI of an LF image is first coarsely and individually super-resolved by exploring the complementary information among SAIs with selective combinatorial geometry embedding. To achieve efficient and effective selection of the complementary information, we propose two novel sub-modules conducted hierarchically: the patch selector provides an option of retrieving similar image patches based on offline disparity estimation to handle large-disparity correlations; and the SAI selector adaptively and flexibly selects the most informative SAIs to improve the embedding efficiency. To preserve the parallax structure among the reconstructed SAIs, we subsequently append a consistency regularization network trained over a structure-aware loss function to refine the parallax relationships over the coarse estimation. In addition, we extend the proposed method to irregular LF data. To the best of our knowledge, this is the first learning-based SR method for irregular LF data. Experimental results over both synthetic and real-world LF datasets demonstrate the significant advantage of our approach over state-of-the-art methods.
翻訳日:2022-10-14 09:13:08 公開日:2021-10-06
# 画像分類アーキテクチャ強化のための類似性に基づくクラスタリング

Similarity-Based Clustering for Enhancing Image Classification Architectures ( http://arxiv.org/abs/2011.04728v3 )

ライセンス: Link先を確認
Dishant Parikh(参考訳) 畳み込みネットワークは、幅広い事業のためにクラスで最高のコンピュータビジョンアプリケーションの中心にある。 2014年以降、多くの作業が畳み込みアーキテクチャの改善に取り組み始め、様々なベンチマークで寛大な追加をもたらした。 モデルのサイズと計算コストは、たいていの業務において即時品質向上を意味するが、アーキテクチャはパフォーマンス向上のために追加情報を必要とする。 コンテンツベースの画像類似性とディープラーニングモデルが融合することで,クラスタ化学習を可能にするための情報の流れを提供できることを示す。 本稿では,サブデータセットクラスタのトレーニングによって計算コストが削減されるだけでなく,与えられたデータセット上でモデルの評価とチューニングのスピードも向上することを示す。

Convolutional networks are at the center of best-in-class computer vision applications for a wide assortment of undertakings. Since 2014, a profound amount of work began to make better convolutional architectures, yielding generous additions in different benchmarks. Albeit expanded model size and computational cost will, in general, mean prompt quality increases for most undertakings but, the architectures now need to have some additional information to increase the performance. I show evidence that with the amalgamation of content-based image similarity and deep learning models, we can provide the flow of information which can be used in making clustered learning possible. The paper shows how training of sub-dataset clusters not only reduces the cost of computation but also increases the speed of evaluating and tuning a model on the given dataset.
翻訳日:2022-09-30 04:45:27 公開日:2021-10-06
# LIDSNet:Deep Siamese Networkを用いた軽量オンデバイスインテント検出モデル

LIDSNet: A Lightweight on-device Intent Detection model using Deep Siamese Network ( http://arxiv.org/abs/2110.15717v1 )

ライセンス: Link先を確認
Vibhav Agarwal, Sudeep Deepak Shivnikar, Sourav Ghosh, Himanshu Arora, Yashwant Saini(参考訳) Intent Detectionは、自然言語理解(NLU)システムにおいて重要なタスクであり、タスク指向対話システムの基盤を形成する。 エッジデバイスのための高品質な現実世界の会話ソリューションを構築するには、デバイスに意図検出モデルをデプロイする必要がある。 これは、リソース制約のある環境で効率的に実行できる軽量で高速で正確なモデルを必要とする。 そこで本研究では,Deep Siamese Networkを用いて,より優れた文表現を学習することにより,メッセージの意図を正確に予測する,軽量なオンデバイスインテント検出モデルLIDSNetを提案する。 文字レベルの特徴を利用して文レベルの表現を豊かにし,事前学習による伝達学習の利点を実証的に示す。 さらに, 本アーキテクチャにおけるモジュールの有効性を検討するため, アブレーション研究を行い, 最適モデルに到達した。 実験の結果、LIDSNetはSNIPSとATISの公開データセットでそれぞれ98.00%と95.97%の最先端の競合精度を0.59M以下のパラメータで達成している。 さらに、細調整されたBERTに対してLIDSNetをベンチマークし、我々のモデルはSamsung Galaxy S20デバイス上でのMobileBERTよりも41倍、30倍高速であることを示す。

Intent detection is a crucial task in any Natural Language Understanding (NLU) system and forms the foundation of a task-oriented dialogue system. To build high-quality real-world conversational solutions for edge devices, there is a need for deploying intent detection model on device. This necessitates a light-weight, fast, and accurate model that can perform efficiently in a resource-constrained environment. To this end, we propose LIDSNet, a novel lightweight on-device intent detection model, which accurately predicts the message intent by utilizing a Deep Siamese Network for learning better sentence representations. We use character-level features to enrich the sentence-level representations and empirically demonstrate the advantage of transfer learning by utilizing pre-trained embeddings. Furthermore, to investigate the efficacy of the modules in our architecture, we conduct an ablation study and arrive at our optimal model. Experimental results prove that LIDSNet achieves state-of-the-art competitive accuracy of 98.00% and 95.97% on SNIPS and ATIS public datasets respectively, with under 0.59M parameters. We further benchmark LIDSNet against fine-tuned BERTs and show that our model is at least 41x lighter and 30x faster during inference than MobileBERT on Samsung Galaxy S20 device, justifying its efficiency on resource-constrained edge devices.
翻訳日:2021-11-07 12:03:06 公開日:2021-10-06
# HIRE-SNN: 入力音の学習によるエネルギー効率の高いディープスパイクニューラルネットワークの遺伝的ロバスト性

HIRE-SNN: Harnessing the Inherent Robustness of Energy-Efficient Deep Spiking Neural Networks by Training with Crafted Input Noise ( http://arxiv.org/abs/2110.11417v1 )

ライセンス: Link先を確認
Souvik Kundu, Massoud Pedram, Peter A. Beerel(参考訳) 低レイテンシディープスパイクニューラルネットワーク(SNN)は、イベント駆動型ニューロモルフィックハードウェアのエネルギー効率向上の可能性から、従来の人工ニューラルネットワーク(ANN)に代わる有望な選択肢となっている。 しかし、SNNを含むニューラルネットワークは、様々な敵攻撃を受けており、多くのアプリケーションにおいてそのような攻撃に対して回復力を維持するよう訓練されなければならない。 それでも、SNNのトレーニングコストが著しく高いため、様々な敵攻撃下での深いSNNの分析と最適化は見過ごされている。 本稿では,まず,人気のある勾配に基づく攻撃に対する低遅延snsの固有ロバスト性,すなわち高速勾配符号法(fgsm)と投影勾配降下法(pgd)の詳細な解析を行った。 この分析に動機づけられて,これらの攻撃に対するモデルのロバスト性を活用するために,入力雑音を用いたsnnトレーニングアルゴリズムを提案する。 提案アルゴリズムの有効性を評価するため,CIFAR-10とCIFAR-100の両方のデータセット上で,VGGとResNetの変種を用いた広範な実験を行った。 通常の訓練された直接入力SNNと比較して、トレーニングされたモデルでは、FGSMおよびPGD攻撃生成画像の分類精度が最大13.7%と10.1%向上し、クリーンな画像精度は無視できない。 また,本モデルでは,それぞれ25倍,4.6倍のレイテンシと計算エネルギーを有しながら,攻撃生成画像の分類性能が向上または類似したレートコード入力を訓練した堅牢なSNNよりも優れていた。

Low-latency deep spiking neural networks (SNNs) have become a promising alternative to conventional artificial neural networks (ANNs) because of their potential for increased energy efficiency on event-driven neuromorphic hardware. Neural networks, including SNNs, however, are subject to various adversarial attacks and must be trained to remain resilient against such attacks for many applications. Nevertheless, due to prohibitively high training costs associated with SNNs, analysis, and optimization of deep SNNs under various adversarial attacks have been largely overlooked. In this paper, we first present a detailed analysis of the inherent robustness of low-latency SNNs against popular gradient-based attacks, namely fast gradient sign method (FGSM) and projected gradient descent (PGD). Motivated by this analysis, to harness the model robustness against these attacks we present an SNN training algorithm that uses crafted input noise and incurs no additional training time. To evaluate the merits of our algorithm, we conducted extensive experiments with variants of VGG and ResNet on both CIFAR-10 and CIFAR-100 datasets. Compared to standard trained direct input SNNs, our trained models yield improved classification accuracy of up to 13.7% and 10.1% on FGSM and PGD attack-generated images, respectively, with negligible loss in clean image accuracy. Our models also outperform inherently robust SNNs trained on rate-coded inputs with improved or similar classification performance on attack-generated images while having up to 25x and 4.6x lower latency and computation energy, respectively.
翻訳日:2021-10-31 09:25:47 公開日:2021-10-06
# 視覚トランスフォーマーを用いた画像から画像への変換

Tensor-to-Image: Image-to-Image Translation with Vision Transformers ( http://arxiv.org/abs/2110.08037v1 )

ライセンス: Link先を確認
Yi\u{g}it G\"und\"u\c{c}(参考訳) トランスフォーマーは、最初に導入されて以来、大きな注目を集め、幅広い応用がある。 トランスフォーマーはディープラーニングのあらゆる領域を乗っ取り始め、ビジョントランスフォーマーの論文はコンピュータビジョンタスクにも使えることを証明した。 本稿では,視覚変換器を用いたテンソル・ツー・イメージモデルを用いて画像変換を行った。 自己注意の助けを借りて、我々のモデルは1つの修正なしに様々な問題に一般化および適用することができた。

Transformers gain huge attention since they are first introduced and have a wide range of applications. Transformers start to take over all areas of deep learning and the Vision transformers paper also proved that they can be used for computer vision tasks. In this paper, we utilized a vision transformer-based custom-designed model, tensor-to-image, for the image to image translation. With the help of self-attention, our model was able to generalize and apply to different problems without a single modification.
翻訳日:2021-10-24 04:33:31 公開日:2021-10-06
# 時間依存型脳グラフ評価軌道予測のための繰り返し脳グラフマッパー

Recurrent Brain Graph Mapper for Predicting Time-Dependent Brain Graph Evaluation Trajectory ( http://arxiv.org/abs/2110.11237v1 )

ライセンス: Link先を確認
Alpay Tekin, Ahmed Nebli and Islem Rekik(参考訳) いくつかの脳障害は、脳の構造的および機能的結合の変化を観察することで検出することができる。 神経学的所見は、軽度認知障害(mci)などの脳疾患の早期診断がアルツハイマー病(ad)の発症を予防し、逆にする可能性を示唆している。 この文脈において、最近の研究は、脳画像に作用する機械学習モデルを提案することによって、時間とともに脳の結合性の進化を予測することを目的としている。 しかし、そのようなアプローチはコストと時間を要する。 そこで本研究では,複数の脳領域間の相互結合性を特徴付ける大きな相互結合グラフとして,時間依存型脳障害診断のより効率的な代替手段として,脳コネクティビティを用いることを提案する。 提案手法であるRBGM(Recurrent Brain Graph Mapper)は,脳グラフの時間依存性評価軌跡を単一のベースラインから予測する,エッジベースリカレントグラフニューラルネットワークである。 当社のrbgmには、各時点毎に、再帰的なニューラルネットワークにインスパイアされたマッパーセットが含まれており、各マッパーは、次の時点に地上の脳グラフを投影することを目指している。 教師強制法を活用し,学習を増強し,発達した脳グラフの質を向上させる。 予測された脳グラフと対応する脳幹グラフとのトポロジ的整合性を維持するため,さらにトポロジ的損失を積分する。 また、l1ロスを用いて時間依存性を捕捉し、正規化のための連続時間点における脳グラフ間の距離を最小化する。 RBGMと最先端手法のいくつかの変種に対するベンチマークでは、脳グラフの進化をより効率的に予測し、新しいグラフニューラルネットワークアーキテクチャと高効率なトレーニングスキームの道を開くことができる。

Several brain disorders can be detected by observing alterations in the brain's structural and functional connectivities. Neurological findings suggest that early diagnosis of brain disorders, such as mild cognitive impairment (MCI), can prevent and even reverse its development into Alzheimer's disease (AD). In this context, recent studies aimed to predict the evolution of brain connectivities over time by proposing machine learning models that work on brain images. However, such an approach is costly and time-consuming. Here, we propose to use brain connectivities as a more efficient alternative for time-dependent brain disorder diagnosis by regarding the brain as instead a large interconnected graph characterizing the interconnectivity scheme between several brain regions. We term our proposed method Recurrent Brain Graph Mapper (RBGM), a novel efficient edge-based recurrent graph neural network that predicts the time-dependent evaluation trajectory of a brain graph from a single baseline. Our RBGM contains a set of recurrent neural network-inspired mappers for each time point, where each mapper aims to project the ground-truth brain graph onto its next time point. We leverage the teacher forcing method to boost training and improve the evolved brain graph quality. To maintain the topological consistency between the predicted brain graphs and their corresponding ground-truth brain graphs at each time point, we further integrate a topological loss. We also use l1 loss to capture time-dependency and minimize the distance between the brain graph at consecutive time points for regularization. Benchmarks against several variants of RBGM and state-of-the-art methods prove that we can achieve the same accuracy in predicting brain graph evolution more efficiently, paving the way for novel graph neural network architecture and a highly efficient training scheme.
翻訳日:2021-10-24 04:32:48 公開日:2021-10-06
# 集団駆動テンプレートを用いた代表ショット学習と脳接続分類と進化予測への応用

One Representative-Shot Learning Using a Population-Driven Template with Application to Brain Connectivity Classification and Evolution Prediction ( http://arxiv.org/abs/2110.11238v1 )

ライセンス: Link先を確認
Umut Guvercin, Mohammed Amine Gharsallaoui and Islem Rekik(参考訳) 少数ショット学習は、ターゲットクラスを表すいくつかのトレーニングサンプル上で差別モデルを訓練する上で難しいパラダイムである。 しかし、深層学習に基づく分類法は、一発学習だけでなく、大量のトレーニングデータを必要とするため、このような学習には不適である。 近年、グラフニューラルネットワーク(GNN)がネットワーク神経科学の分野に導入され、脳の接続性はグラフに符号化されている。 しかし、特に希少な疾患や低リソース臨床施設の神経画像データセットが不足しているため、そのようなデータ破壊アーキテクチャーは目標とする課題を学習するのに失敗する可能性がある。 本稿では、GNNのトレーニングにおいて非常に異なるアプローチを取り、ひとつのサンプルで学習し、最高のパフォーマンスを達成することを目指しています。 具体的には、GNNが単一の集団駆動型テンプレート、すなわちコネクショナル脳テンプレート(CBT)でトレーニングされる最初のワンショットパラダイムを示す。 cbtは、個人間で共有されるユニークな接続パターンを捉える脳グラフの集団のコンパクトな表現である。 神経画像データセットのための脳画像アトラスと類似している。 一つの表現型CBTをトレーニングサンプルとして使用することにより,GNNモデルのトレーニング負荷を軽減するとともに,さまざまな分類タスクや回帰タスクにおける性能を向上させる。 本手法は,従来のトレーニング戦略と競合しながら,ダウンストリーム分類と時間依存型脳グラフデータ予測タスクを用いた単発学習手法のベンチマークを有意に上回っていた。 ソースコードはhttps://github.com/basiralab/one-representative-shot-learningにあります。

Few-shot learning presents a challenging paradigm for training discriminative models on a few training samples representing the target classes to discriminate. However, classification methods based on deep learning are ill-suited for such learning as they need large amounts of training data --let alone one-shot learning. Recently, graph neural networks (GNNs) have been introduced to the field of network neuroscience, where the brain connectivity is encoded in a graph. However, with scarce neuroimaging datasets particularly for rare diseases and low-resource clinical facilities, such data-devouring architectures might fail in learning the target task. In this paper, we take a very different approach in training GNNs, where we aim to learn with one sample and achieve the best performance --a formidable challenge to tackle. Specifically, we present the first one-shot paradigm where a GNN is trained on a single population-driven template --namely a connectional brain template (CBT). A CBT is a compact representation of a population of brain graphs capturing the unique connectivity patterns shared across individuals. It is analogous to brain image atlases for neuroimaging datasets. Using a one-representative CBT as a training sample, we alleviate the training load of GNN models while boosting their performance across a variety of classification and regression tasks. We demonstrate that our method significantly outperformed benchmark one-shot learning methods with downstream classification and time-dependent brain graph data forecasting tasks while competing with the train-on-all conventional training strategy. Our source code can be found at https://github.com/basiralab/one-representative-shot-learning.
翻訳日:2021-10-24 04:32:15 公開日:2021-10-06
# (参考訳) 画像分割によるプロットデータのクラスタリング

Clustering Plotted Data by Image Segmentation ( http://arxiv.org/abs/2110.05187v1 )

ライセンス: CC BY 4.0
Tarek Naous, Srinjay Sarkar, Abubakar Abid, James Zou(参考訳) クラスタリングアルゴリズムは、ラベルなしデータのパターンを検出する主要な分析手法の1つである。 既存のクラスタリング手法は通常、データセットのサンプルを計量空間の点として扱い、距離を計算して類似点をグループ化する。 本稿では,2次元空間におけるクラスタリングポイントについて,人間のクラスタ化の方法に着想を得て,ニューラルネットワークをトレーニングして,プロットされたデータに対してインスタンス分割を行う方法を提案する。 私たちのアプローチであるビジュアルクラスタリングは、従来のクラスタリングアルゴリズムよりもいくつかの利点があります。既存のほとんどのクラスタリングアルゴリズムよりもはるかに高速(非常に大きなデータセットに適している)で、クラスタの人間の直観と強く一致しており、デフォルトではハイパーパラメータフリーです(ハイパーパラメータの追加ステップはアルゴリズムのさらなる制御のために導入できますが)。 本手法を合成データ上の他の10種類のクラスタリング手法と比較し,その利点と欠点を説明する。 次に,我々のアプローチを高次元データに拡張し,実世界データでの性能を示す。 Visual Clusteringの実装は公開されており、任意のデータセットに数行のコードで適用することができる。

Clustering algorithms are one of the main analytical methods to detect patterns in unlabeled data. Existing clustering methods typically treat samples in a dataset as points in a metric space and compute distances to group together similar points. In this paper, we present a wholly different way of clustering points in 2-dimensional space, inspired by how humans cluster data: by training neural networks to perform instance segmentation on plotted data. Our approach, Visual Clustering, has several advantages over traditional clustering algorithms: it is much faster than most existing clustering algorithms (making it suitable for very large datasets), it agrees strongly with human intuition for clusters, and it is by default hyperparameter free (although additional steps with hyperparameters can be introduced for more control of the algorithm). We describe the method and compare it to ten other clustering methods on synthetic data to illustrate its advantages and disadvantages. We then demonstrate how our approach can be extended to higher dimensional data and illustrate its performance on real-world data. The implementation of Visual Clustering is publicly available and can be applied to any dataset in a few lines of code.
翻訳日:2021-10-17 14:43:02 公開日:2021-10-06
# (参考訳) 2レベル単調多段推薦システム

Two-level monotonic multistage recommender systems ( http://arxiv.org/abs/2110.06116v1 )

ライセンス: CC BY 4.0
Ben Dai, Xiaotong Shen, and Wei Pan(参考訳) 推薦システムは,ユーザの好みや意図を複数の項目に対して同時に予測し,比較的少数の観察結果に基づいてパーソナライズされたレコメンデーションを作成する。 中心的な問題は、イベントの単調連鎖に対するユーザ-イテムステージ依存性と呼ばれる3方向のインタラクションをどのように活用し、予測精度を高めるかである。 例えば、記事共有データセットでは、`follow'' アクションは ``like'' アクションを意味し、結果として ``view' アクションを意味する。 本稿では,イベントの単調連鎖を特徴付ける2段階の単調性を利用した多段階レコメンダシステムを構築し,パーソナライズド予測を行う。 特に,非負の付加的潜在因子モデルに基づく大きなマージン分類器を導出し,欠落する観測値,特にステージ間において,予測一貫性を保証しながらパーソナライズされた予測のためのモデルパラメータの数を減少させる。 そこで本研究では,異なる段階におけるユーザ固有の振る舞いを学習するための正規化コスト関数を導出し,決定関数を数値的および分類的共変量にリンクし,ユーザ-イテム-ステージ相互作用をモデル化する。 計算学的には,ブロックワイド座標降下に基づくアルゴリズムを導出する。 理論的には,2段階の単調性は,各段階を個別に扱う標準的な方法や,1段階の単調性のみを利用する順序法と比較して,学習の精度を高める。 最後に,提案手法を既存のシミュレーション手法や記事共有データセットと比較した。

A recommender system learns to predict the user-specific preference or intention over many items simultaneously for all users, making personalized recommendations based on a relatively small number of observations. One central issue is how to leverage three-way interactions, referred to as user-item-stage dependencies on a monotonic chain of events, to enhance the prediction accuracy. A monotonic chain of events occurs, for instance, in an article sharing dataset, where a ``follow'' action implies a ``like'' action, which in turn implies a ``view'' action. In this article, we develop a multistage recommender system utilizing a two-level monotonic property characterizing a monotonic chain of events for personalized prediction. Particularly, we derive a large-margin classifier based on a nonnegative additive latent factor model in the presence of a high percentage of missing observations, particularly between stages, reducing the number of model parameters for personalized prediction while guaranteeing prediction consistency. On this ground, we derive a regularized cost function to learn user-specific behaviors at different stages, linking decision functions to numerical and categorical covariates to model user-item-stage interactions. Computationally, we derive an algorithm based on blockwise coordinate descent. Theoretically, we show that the two-level monotonic property enhances the accuracy of learning as compared to a standard method treating each stage individually and an ordinal method utilizing only one-level monotonicity. Finally, the proposed method compares favorably with existing methods in simulations and an article sharing dataset.
翻訳日:2021-10-17 14:36:05 公開日:2021-10-06
# (参考訳) オブジェクト中心プロセスマイニングにおける精度とフィットネス

Precision and Fitness in Object-Centric Process Mining ( http://arxiv.org/abs/2110.05375v1 )

ライセンス: CC BY 4.0
Jan Niklas Adams and Wil M.P. van der Aalst(参考訳) 伝統的なプロセスマイニングは、単一のケース概念のみを考慮し、これに基づいてモデルを発見し、分析する。 しかし、単一のケース概念は実際には現実的な仮定ではないことが多い。 複数のケース概念がプロセス内で相互に作用し、影響する可能性がある。 オブジェクト中心のプロセスマイニングは、複数のケース概念を扱う技術と概念を導入します。 これまでのところ、このようなイベントログは標準化されており、新しいプロセスモデル発見技術が提案されている。 しかし、モデルの品質を評価するための概念は欠落している。 これらは、オブジェクト中心の発見を改善するための将来の研究を可能にし、モデル品質の客観的評価を提供するために必要である。 本稿では,オブジェクト中心のイベントログに対して,オブジェクト中心のペトリネットの精度と適合性を示す概念を提案する。 形式的な定義を与え、これに例を添えます。 さらに,これらの品質指標を計算するアルゴリズムを提案する。 異なるモデルを用いたイベントログに基づく正確性と適合性の概念について論じる。 我々の精度と適合度の概念は、複数のケース概念、それらの依存関係、およびそれらの相互作用を考慮できるので、品質測定をオブジェクト中心の設定に一般化する適切な方法である。

Traditional process mining considers only one single case notion and discovers and analyzes models based on this. However, a single case notion is often not a realistic assumption in practice. Multiple case notions might interact and influence each other in a process. Object-centric process mining introduces the techniques and concepts to handle multiple case notions. So far, such event logs have been standardized and novel process model discovery techniques were proposed. However, notions for evaluating the quality of a model are missing. These are necessary to enable future research on improving object-centric discovery and providing an objective evaluation of model quality. In this paper, we introduce a notion for the precision and fitness of an object-centric Petri net with respect to an object-centric event log. We give a formal definition and accompany this with an example. Furthermore, we provide an algorithm to calculate these quality measures. We discuss our precision and fitness notion based on an event log with different models. Our precision and fitness notions are an appropriate way to generalize quality measures to the object-centric setting since we are able to consider multiple case notions, their dependencies and their interactions.
翻訳日:2021-10-17 12:58:01 公開日:2021-10-06
# (参考訳) テキスト専用データを用いたエンドツーエンド音声認識のための内部言語モデル適応

Internal Language Model Adaptation with Text-Only Data for End-to-End Speech Recognition ( http://arxiv.org/abs/2110.05354v1 )

ライセンス: CC BY 4.0
Zhong Meng, Yashesh Gaur, Naoyuki Kanda, Jinyu Li, Xie Chen, Yu Wu, Yifan Gong(参考訳) エンドツーエンド(E2E)モデルのテキストのみの適応は、自動音声認識(ASR)において難しい課題である。 言語モデル(lm) 融合ベースのアプローチでは、推論中に追加の外部lmが必要となり、計算コストが大幅に増加する。 そこで本研究では,テキストのみのデータを用いたE2Eモデルの内部LM適応(ILMA)を提案する。 E2Eモデルでは、エンコーダコントリビューションをゼロにした後、E2Eモデル出力によって近似されるトークンシーケンス確率を特徴付ける内部LMを暗黙的に学習する。 ILMA中は、内部のLM、すなわちエンコーダを除くE2E成分を微調整し、クロスエントロピー損失を最小限に抑える。 ILMAを効果的にするためには、標準のE2E損失に加えて内部のLM損失でE2Eモデルをトレーニングすることが不可欠である。 さらに,適応型および未適応型内部LMの出力分布間のKullback-Leiblerのばらつきを最小化し,ILMAの正則化を提案する。 ILMAは, 関節ネットワークの最後の線形層のみを更新する場合が最も有効である。 ILMAは、実行時の計算コストを増大させることなく、E2Eモデルの高速テキストのみの適応を可能にする。 ILMAは30K時間トレーニングされたトランスデューサモデルを用いて実験し、適応していないベースラインから34.9%の単語誤り率を減少させる。

Text-only adaptation of an end-to-end (E2E) model remains a challenging task for automatic speech recognition (ASR). Language model (LM) fusion-based approaches require an additional external LM during inference, significantly increasing the computation cost. To overcome this, we propose an internal LM adaptation (ILMA) of the E2E model using text-only data. Trained with audio-transcript pairs, an E2E model implicitly learns an internal LM that characterizes the token sequence probability which is approximated by the E2E model output after zeroing out the encoder contribution. During ILMA, we fine-tune the internal LM, i.e., the E2E components excluding the encoder, to minimize a cross-entropy loss. To make ILMA effective, it is essential to train the E2E model with an internal LM loss besides the standard E2E loss. Furthermore, we propose to regularize ILMA by minimizing the Kullback-Leibler divergence between the output distributions of the adapted and unadapted internal LMs. ILMA is the most effective when we update only the last linear layer of the joint network. ILMA enables a fast text-only adaptation of the E2E model without increasing the run-time computational cost. Experimented with 30K-hour trained transformer transducer models, ILMA achieves up to 34.9% relative word error rate reduction from the unadapted baseline.
翻訳日:2021-10-17 12:23:54 公開日:2021-10-06
# (参考訳) 若年者および成人に対するディープスラップ指紋セグメンテーション

Deep Slap Fingerprint Segmentation for Juveniles and Adults ( http://arxiv.org/abs/2110.04067v1 )

ライセンス: CC BY 4.0
M. G. Sarwar Murshed, Robert Kline, Keivan Bahmani, Faraz Hussain, Stephanie Schuckers(参考訳) 多くの指紋認識システムは、1つの画像に4つの指紋をキャプチャする。 このようなシステムでは、指紋処理パイプラインはまず4本の指紋を個々の指紋に分割しなければならない。 現在の指紋分割アルゴリズムは成人の指紋データのみを用いて設計・評価されている。 本研究では,4歳から12歳までの小児から採取した成人標本が9084例,成人標本が6706例である15790スラップの人為的注釈付き社内データセットを開発した。 その後、NISTが開発したスラップ指紋分割システムであるNFSEGの成人および若年者のスラップにおけるマッチング性能を評価するためにデータセットが使用される。 その結果,若年者のスラップに対するnfsegの低下が確認された。 最後に、新しいデータセットを用いて、Mask-RCNNベースのClarkson Fingerprint Segmentation (CFSEG)を開発した。 Verifinger 指紋マーカを用いたマッチングの結果,CFSEG は成人,若年者ともに NFSEG よりも優れていた。 CFSEGモデルは \url{https://github.com/keivanB/Clarkson_Finger_Segment} で公開されている。

Many fingerprint recognition systems capture four fingerprints in one image. In such systems, the fingerprint processing pipeline must first segment each four-fingerprint slap into individual fingerprints. Note that most of the current fingerprint segmentation algorithms have been designed and evaluated using only adult fingerprint datasets. In this work, we have developed a human-annotated in-house dataset of 15790 slaps of which 9084 are adult samples and 6706 are samples drawn from children from ages 4 to 12. Subsequently, the dataset is used to evaluate the matching performance of the NFSEG, a slap fingerprint segmentation system developed by NIST, on slaps from adults and juvenile subjects. Our results reveal the lower performance of NFSEG on slaps from juvenile subjects. Finally, we utilized our novel dataset to develop the Mask-RCNN based Clarkson Fingerprint Segmentation (CFSEG). Our matching results using the Verifinger fingerprint matcher indicate that CFSEG outperforms NFSEG for both adults and juvenile slaps. The CFSEG model is publicly available at \url{https://github.com/keivanB/Clarkson_Finger_Segment}
翻訳日:2021-10-12 09:49:58 公開日:2021-10-06
# (参考訳) mtofnet: 移動時間データによるオブジェクトのスプーフィング

MToFNet: Object Anti-Spoofing with Mobile Time-of-Flight Data ( http://arxiv.org/abs/2110.04066v1 )

ライセンス: CC BY 4.0
Yonghyun Jeong, Doyeon Kim, Jaehyeon Lee, Minki Hong, Solbi Hwang, Jongwon Choi(参考訳) オンライン市場では、売り手はディスプレイ画面上で他人の画像を悪質に捉え直してスプーフ画像として利用することができるため、人間の目では区別が難しい可能性がある。 このような危害を防止するため,モバイルカメラがタイム・オブ・ファイトセンサーで提供する対のrgb画像と深度マップを用いたアンチ・スプーフィング手法を提案する。 画像がディスプレイ画面で再キャプチャされると、moir\'eパターンとして知られる画面によって異なる様々なパターンがspoofイメージにキャプチャされる。 これらのパターンにより、アンチスプーフィングモデルが過度に適合し、未発見のメディアで再捕獲されたスプーフィング画像を検出することができない。 この問題を回避するため、2つの埋め込みモデルからなる新しい表現モデルを構築し、再構成された画像を考慮することなく訓練することができる。 また,最大かつ多種多様なオブジェクトアンチスプーフィングデータセットであるmToFデータセットを新たに導入し,ToFデータを初めて利用した。 実験により,本モデルが未確認領域をまたいでも堅牢な一般化を実現することを確認した。

In online markets, sellers can maliciously recapture others' images on display screens to utilize as spoof images, which can be challenging to distinguish in human eyes. To prevent such harm, we propose an anti-spoofing method using the paired rgb images and depth maps provided by the mobile camera with a Time-of-Fight sensor. When images are recaptured on display screens, various patterns differing by the screens as known as the moir\'e patterns can be also captured in spoof images. These patterns lead the anti-spoofing model to be overfitted and unable to detect spoof images recaptured on unseen media. To avoid the issue, we build a novel representation model composed of two embedding models, which can be trained without considering the recaptured images. Also, we newly introduce mToF dataset, the largest and most diverse object anti-spoofing dataset, and the first to utilize ToF data. Experimental results confirm that our model achieves robust generalization even across unseen domains.
翻訳日:2021-10-12 09:42:43 公開日:2021-10-06
# マルチ解像度脳グラフアライメントと合成のためのstairwaygraphnet

StairwayGraphNet for Inter- and Intra-modality Multi-resolution Brain Graph Alignment and Synthesis ( http://arxiv.org/abs/2110.04279v1 )

ライセンス: Link先を確認
Islem Mhiri, Mohamed Ali Mahjoub and Islem Rekik(参考訳) 多要素医療データの合成は、補完的な知識を提供し、医師が正確な臨床決定を行うのを助ける。 有望ではあるが、既存のマルチモーダル脳グラフ合成フレームワークにはいくつかの制限がある。 第一に、それらは主に1つの問題(intra- or inter-modality)に取り組み、それらの一般化可能性を制限する。 第2に、単一のモダリティ(すなわちイントラモダリティ)内で低解像度の脳グラフをスーパーレゾリューションする手法は少ないが、モダリティ間のグラフスーパーレゾリューションはまだ検討されていない。 さらに重要なことに、ターゲットドメインとソースドメインの両方が異なる分布を持つ可能性がある。 これらのギャップを埋めるために、我々は、与えられたモダリティと、インタードメインとイントラドメインの両方における超解像脳グラフに基づいて、目標グラフのモダリティを共同で推測するマルチレゾリューションのStairwayGraphNet(SG-Net)フレームワークを提案する。 私たちのsg-netの主な貢献は3つあります。 一 対象グラフを、インター(形態的機能)及びイントラ(機能的機能)の両領域において、新規なグラフ生成敵ネットワークに基づいて、ソースグラフから予測すること。 (ii)時間と高価なmri処理工程を使わずに高分解能脳グラフを生成すること、及び (iii)ロス関数を緩和して最適化するために、モダリティ間調整器を用いて、基底真理グラフと一致させるようにソース分布を強制する。 さらに,地中真理脳グラフのトポロジ構造をより正確に学習するために,両ジェネレータを誘導する新たな地中真理保存損失関数を設計する。 マルチレゾリューション階段を用いた音源グラフからのターゲット脳グラフの予測に関する総合的な実験は,その変種や最先端手法と比較して,本手法の高性能性を示した。

Synthesizing multimodality medical data provides complementary knowledge and helps doctors make precise clinical decisions. Although promising, existing multimodal brain graph synthesis frameworks have several limitations. First, they mainly tackle only one problem (intra- or inter-modality), limiting their generalizability to synthesizing inter- and intra-modality simultaneously. Second, while few techniques work on super-resolving low-resolution brain graphs within a single modality (i.e., intra), inter-modality graph super-resolution remains unexplored though this would avoid the need for costly data collection and processing. More importantly, both target and source domains might have different distributions, which causes a domain fracture between them. To fill these gaps, we propose a multi-resolution StairwayGraphNet (SG-Net) framework to jointly infer a target graph modality based on a given modality and super-resolve brain graphs in both inter and intra domains. Our SG-Net is grounded in three main contributions: (i) predicting a target graph from a source one based on a novel graph generative adversarial network in both inter (e.g., morphological-functional) and intra (e.g., functional-functional) domains, (ii) generating high-resolution brain graphs without resorting to the time consuming and expensive MRI processing steps, and (iii) enforcing the source distribution to match that of the ground truth graphs using an inter-modality aligner to relax the loss function to optimize. Moreover, we design a new Ground Truth-Preserving loss function to guide both generators in learning the topological structure of ground truth brain graphs more accurately. Our comprehensive experiments on predicting target brain graphs from source graphs using a multi-resolution stairway showed the outperformance of our method in comparison with its variants and state-of-the-art method.
翻訳日:2021-10-11 14:34:34 公開日:2021-10-06
# 人体の3次元メッシュで計算した体次元から学習する神経人類学

A Neural Anthropometer Learning from Body Dimensions Computed on Human 3D Meshes ( http://arxiv.org/abs/2110.04064v1 )

ライセンス: Link先を確認
Yansel Gonz\'alez Tejeda and Helmut A. Mayer(参考訳) 人間の形状推定は、例えば3dメッシュ推定、距離衣料製造、計算科学などにおいて、理論的にも実際にも重要になっている。 さらなる専門化として、 \emph{Human Body Dimensions Estimation} (HBDE) は、通常、教師付き学習アプローチを用いて、画像や3Dメッシュから肩幅や胸部周囲などの人体計測を推定することに焦点を当てている。 この状況における主な障害は、データ不足の問題である。 この障害は、3次元メッシュからリアルな人間の測定値を取得することで克服できる。 しかし、 a) 3DメッシュからHBDを計算する方法が確立されていないこと。 b) HBDEタスクの結果を適切に比較するベンチマークは存在しない。 私たちの貢献は2倍です。 本研究では, 医用, 仮想試用, 距離調整に焦点をあてた3次元メッシュから, 左右腕長, 肩幅, インシーム(クロッチ高さ)を計算する手法を提案する。 一方、最近発表された手法を用いて計算された4つの追加の体次元を用いて、8つの体次元の集合を組み立て、これら次元を推定できる畳み込みニューラルネットワークであるニューラル・アントロポメータの監視信号として使用する。 評価のために,HBDを計算し,ネットワーク全体の平均推定誤差が20.89$ mm(相対誤差2.84\%)であることを確認する3次元メッシュの合成画像を用いてニューラル・アンロポメータを訓練した。 本研究は,HBDEの課題に対する研究の基準として,完全に再現可能であり,かつ,コミュニティに価値ある方法を可能にするものである。

Human shape estimation has become increasingly important both theoretically and practically, for instance, in 3D mesh estimation, distance garment production and computational forensics, to mention just a few examples. As a further specialization, \emph{Human Body Dimensions Estimation} (HBDE) focuses on estimating human body measurements like shoulder width or chest circumference from images or 3D meshes usually using supervised learning approaches. The main obstacle in this context is the data scarcity problem, as collecting this ground truth requires expensive and difficult procedures. This obstacle can be overcome by obtaining realistic human measurements from 3D human meshes. However, a) there are no well established methods to calculate HBDs from 3D meshes and b) there are no benchmarks to fairly compare results on the HBDE task. Our contribution is twofold. On the one hand, we present a method to calculate right and left arm length, shoulder width, and inseam (crotch height) from 3D meshes with focus on potential medical, virtual try-on and distance tailoring applications. On the other hand, we use four additional body dimensions calculated using recently published methods to assemble a set of eight body dimensions which we use as a supervision signal to our Neural Anthropometer: a convolutional neural network capable of estimating these dimensions. To assess the estimation, we train the Neural Anthropometer with synthetic images of 3D meshes, from which we calculated the HBDs and observed that the network's overall mean estimate error is $20.89$ mm (relative error of 2.84\%). The results we present are fully reproducible and establish a fair baseline for research on the task of HBDE, therefore enabling the community with a valuable method.
翻訳日:2021-10-11 13:38:23 公開日:2021-10-06
# 共変量シフトのためのテスト時間バッチ統計校正

Test-time Batch Statistics Calibration for Covariate Shift ( http://arxiv.org/abs/2110.04065v1 )

ライセンス: Link先を確認
Fuming You, Jingjing Li, Zhou Zhao(参考訳) 深層ニューラルネットワークは,共変量シフトにより,未知の環境に適用すると明らかに劣化する。 ドメイン適応のような従来のアプローチでは、実世界のアプリケーションでは実用的でない反復トレーニングのために事前に収集されたターゲットデータを必要とする。 本稿では,推論中に深層モデルを新しい環境に適応させる手法を提案する。 以前の解決策はテスト時間正規化であり、BN層のソース統計をターゲットのバッチ統計に置き換えるものである。 しかし,テスト時間正規化は,対象のバッチ統計値とソースパラメータとのミスマッチにより識別構造が劣化する可能性が示唆された。 そこで本論文では,ドメインシフトの緩和と識別構造保存の両面において,ソースとターゲット統計を混合することにより,バッチ統計を校正するための一般的な定式化として$\alpha$-BNを提案する。 さらに、$\alpha$-bnに基づいて、ペアワイズクラス相関オンライン最適化を実行する統一テスト時間適応フレームワークコアを形成するための新しい損失関数を提案する。 大規模な実験により,画像分類とセマンティックセグメンテーションの領域一般化など,3つのトピックから得られた12のデータセットの最先端性能が得られた。 特に、我々の$\alpha$-bnは、トレーニングなしで、gta5$\rightarrow$ cityscapesで28.4\%から43.9\%に改善します。

Deep neural networks have a clear degradation when applying to the unseen environment due to the covariate shift. Conventional approaches like domain adaptation requires the pre-collected target data for iterative training, which is impractical in real-world applications. In this paper, we propose to adapt the deep models to the novel environment during inference. An previous solution is test time normalization, which substitutes the source statistics in BN layers with the target batch statistics. However, we show that test time normalization may potentially deteriorate the discriminative structures due to the mismatch between target batch statistics and source parameters. To this end, we present a general formulation $\alpha$-BN to calibrate the batch statistics by mixing up the source and target statistics for both alleviating the domain shift and preserving the discriminative structures. Based on $\alpha$-BN, we further present a novel loss function to form a unified test time adaptation framework Core, which performs the pairwise class correlation online optimization. Extensive experiments show that our approaches achieve the state-of-the-art performance on total twelve datasets from three topics, including model robustness to corruptions, domain generalization on image classification and semantic segmentation. Particularly, our $\alpha$-BN improves 28.4\% to 43.9\% on GTA5 $\rightarrow$ Cityscapes without any training, even outperforms the latest source-free domain adaptation method.
翻訳日:2021-10-11 13:37:57 公開日:2021-10-06
# QTN-VQC:量子ニューラルネットワークのためのエンドツーエンド学習フレームワーク

QTN-VQC: An End-to-End Learning framework for Quantum Neural Networks ( http://arxiv.org/abs/2110.03861v1 )

ライセンス: Link先を確認
Jun Qi, Chao-Han Huck Yang, Pin-Yu Chen(参考訳) ノイズの多い中間スケール量子(nisq)コンピュータの出現は、完全な量子学習タスクのために量子ニューラルネットワークを設計するための重要な課題を提起する。 このギャップを埋めるために、変分量子回路(VQC)に量子埋め込みを行うトレーニング可能な量子テンソルネットワーク(QTN)を導入することにより、QTN-VQCと呼ばれるエンドツーエンドの学習フレームワークを提案する。 QTNのアーキテクチャは、特徴抽出のためのパラメトリックテンソルトレインネットワークと、量子符号化のためのテンソル積符号化からなる。 量子埋め込みのqtnについて,(1)入力特徴の表現力を分析して理論的にqtnを特徴づける,(2)qtnは量子埋め込みの生成から出力計測まで,エンドツーエンドのパラメトリックモデルパイプラインを可能にする,という2つの観点で強調する。 MNISTデータセットに対する我々の実験は、他の量子埋め込み手法に対する量子埋め込みに対するQTNの利点を実証している。

The advent of noisy intermediate-scale quantum (NISQ) computers raises a crucial challenge to design quantum neural networks for fully quantum learning tasks. To bridge the gap, this work proposes an end-to-end learning framework named QTN-VQC, by introducing a trainable quantum tensor network (QTN) for quantum embedding on a variational quantum circuit (VQC). The architecture of QTN is composed of a parametric tensor-train network for feature extraction and a tensor product encoding for quantum encoding. We highlight the QTN for quantum embedding in terms of two perspectives: (1) we theoretically characterize QTN by analyzing its representation power of input features; (2) QTN enables an end-to-end parametric model pipeline, namely QTN-VQC, from the generation of quantum embedding to the output measurement. Our experiments on the MNIST dataset demonstrate the advantages of QTN for quantum embedding over other quantum embedding approaches.
翻訳日:2021-10-11 13:18:05 公開日:2021-10-06
# リアルタイム鉄鉱石フィード負荷推定のための新しい弱教師付き学習手法

A New Weakly Supervised Learning Approach for Real-time Iron Ore Feed Load Estimation ( http://arxiv.org/abs/2110.04063v1 )

ライセンス: Link先を確認
Li Guo, Yonghong Peng, Rui Qin, Bingyu Liu(参考訳) 鉄鉱石供給負荷制御はミネラル研削プロセスにおいて最も重要な設定の1つであり、最終製品の品質に直接影響を及ぼす。 供給負荷の設定は主として鉱石ペレットの特性によって決定される。 しかし、鉱石の特徴付けは多くの生産環境での獲得が困難であり、供給負荷設定の低さと生産プロセスの非効率化につながる。 本稿では, 深層学習モデルを用いて, 鉱石ペレット画像からの直接の鉱石供給負荷推定を行う。 フルオールペレット画像の大型化と正確な注釈付きデータの不足による課題に対処するため、モデリングプロセス全体を弱い教師付き学習問題として扱う。 2段階モデルトレーニングアルゴリズムと2つのニューラルネットワークアーキテクチャを提案する。 実験結果は, 競合モデルの性能を示し, 訓練されたモデルを用いてリアルタイムフィード負荷推定を行った。

Iron ore feed load control is one of the most critical settings in a mineral grinding process, directly impacting the quality of final products. The setting of the feed load is mainly determined by the characteristics of the ore pellets. However, the characterisation of ore is challenging to acquire in many production environments, leading to poor feed load settings and inefficient production processes. This paper presents our work using deep learning models for direct ore feed load estimation from ore pellet images. To address the challenges caused by the large size of a full ore pellets image and the shortage of accurately annotated data, we treat the whole modelling process as a weakly supervised learning problem. A two-stage model training algorithm and two neural network architectures are proposed. The experiment results show competitive model performance, and the trained models can be used for real-time feed load estimation for grind process optimisation.
翻訳日:2021-10-11 13:16:51 公開日:2021-10-06
# (参考訳) ディープラーニングモデルキャリブレーションは,クラス不均衡医用画像分類の性能を改善するか?

Does deep learning model calibration improve performance in class-imbalanced medical image classification? ( http://arxiv.org/abs/2110.00918v2 )

ライセンス: CC BY 4.0
Sivaramakrishnan Rajaraman, Prasanth Ganesan, Sameer Antani(参考訳) 医用画像分類では、正常なサンプルの数は異常なサンプル数をはるかに超えることが一般的である。 このようなクラス不均衡な状況下では、ディープニューラルネットワークの信頼性の高いトレーニングが引き続き大きな課題である。 このような状況下では、予測されたクラス確率は多数派に偏っている可能性がある。 校正はこれらの効果を緩和するために提案されている。 しかし、モデルのキャリブレーションがパフォーマンスを改善するのに有用かどうかを説明する分析が不十分である。 本研究では,様々なディープラーニング分類器バックボーンを用いて,胸部x線像と眼底像の2つの医用画像モダリティに対するモデル校正の効果を体系的に解析する。 このために、私たちは以下のバリエーションを研究します。 (i) 訓練に使用するデータセットにおける不均衡の程度 (ii)校正方法、及び 3)2つの分類しきい値,すなわち0.5のデフォルト決定しきい値,精度・リコール曲線からの最適しきい値。 その結果, 0.5の既定動作閾値では, キャリブレーションにより達成される性能は, 未校正確率よりも有意に優れていた(p < 0.05)。 しかし、PR誘導閾値では、これらの利得は大きな違いはない(p > 0.05)。 この発見は、画像のモダリティと様々な不均衡の度合いの両方に当てはまる。

In medical image classification tasks, it is common to find that the number of normal samples far exceeds the number of abnormal samples. In such class-imbalanced situations, reliable training of deep neural networks continues to be a major challenge. Under these circumstances, the predicted class probabilities may be biased toward the majority class. Calibration has been suggested to alleviate some of these effects. However, there is insufficient analysis explaining when and whether calibrating a model would be beneficial in improving performance. In this study, we perform a systematic analysis of the effect of model calibration on its performance on two medical image modalities, namely, chest X-rays and fundus images, using various deep learning classifier backbones. For this, we study the following variations: (i) the degree of imbalances in the dataset used for training; (ii) calibration methods; and (iii) two classification thresholds, namely, default decision threshold of 0.5, and optimal threshold from precision-recall curves. Our results indicate that at the default operating threshold of 0.5, the performance achieved through calibration is significantly superior (p < 0.05) to using uncalibrated probabilities. However, at the PR-guided threshold, these gains are not significantly different (p > 0.05). This finding holds for both image modalities and at varying degrees of imbalance.
翻訳日:2021-10-10 09:19:54 公開日:2021-10-06
# (参考訳) 双対性を用いた線形整流ユニットによる深部ニューラルネットワークの遠方化

Disentangling deep neural networks with rectified linear units using duality ( http://arxiv.org/abs/2110.03403v1 )

ライセンス: CC BY 4.0
Chandrashekar Lakshminarayanan and Amit Vikram Singh(参考訳) 彼らの成功にもかかわらず、ディープニューラルネットワーク(DNN)は依然としてブラックボックスと見なされている。 主な問題は、線形および非線形操作がすべての層に絡み合っており、隠された層出力の解釈が難しいことである。 本稿では,修正線形単位(ReLU)を持つDNNを考察し,ReLUのゲーティング特性(on/off状態)に着目した。 本稿では,近年開発された2つの視点を拡張し,ゲート内の学習がより重要であることを示すために,入力とゲートに依存するいわゆるニューラルパスカーネル(npk)を用いて,ゲートに与えられた重みを解析的に学習する。 本稿では,グローバルプールとスキップ接続との畳み込みがNPKにそれぞれ回転不変性およびアンサンブル構造をもたらすことを示す新しい結果を示す。 ブラックボックス」ネスに対処するため,ReLUs(Deep linearly gated Network, DLGN)を用いた新しいDNNの解釈可能な手法を提案し, ゲートへの事前アクティベーションはディープリニアネットワークによって生成され, ゲートは外部マスクとして適用され, 異なるネットワークで重みを学習する。 DLGNは、それ自体が代替アーキテクチャではなく、ReLUを持つDNN内の計算の切り離しと解釈可能な再配列である。 DLGNは計算を2つの「数学的」解釈可能な線形性に分解する (i)ゲーティングネットワークにおける入力と事前活性化との間の「一次」線形性と (2)NPKによって特徴づけられる重み付けネットワークにおける経路空間の「双対」線型性。 CIFAR-10およびCIFAR-100におけるDNN, DGN, DLGNの性能を比較して, DLGNは最先端DNNの性能の83.5\%以上を回復することを示した。 これは「DLGNは普遍スペクトル近似器か?」という興味深い疑問をもたらす。

Despite their success deep neural networks (DNNs) are still largely considered as black boxes. The main issue is that the linear and non-linear operations are entangled in every layer, making it hard to interpret the hidden layer outputs. In this paper, we look at DNNs with rectified linear units (ReLUs), and focus on the gating property (`on/off' states) of the ReLUs. We extend the recently developed dual view in which the computation is broken path-wise to show that learning in the gates is more crucial, and learning the weights given the gates is characterised analytically via the so called neural path kernel (NPK) which depends on inputs and gates. In this paper, we present novel results to show that convolution with global pooling and skip connection provide respectively rotational invariance and ensemble structure to the NPK. To address `black box'-ness, we propose a novel interpretable counterpart of DNNs with ReLUs namely deep linearly gated networks (DLGN): the pre-activations to the gates are generated by a deep linear network, and the gates are then applied as external masks to learn the weights in a different network. The DLGN is not an alternative architecture per se, but a disentanglement and an interpretable re-arrangement of the computations in a DNN with ReLUs. The DLGN disentangles the computations into two `mathematically' interpretable linearities (i) the `primal' linearity between the input and the pre-activations in the gating network and (ii) the `dual' linearity in the path space in the weights network characterised by the NPK. We compare the performance of DNN, DGN and DLGN on CIFAR-10 and CIFAR-100 to show that, the DLGN recovers more than $83.5\%$ of the performance of state-of-the-art DNNs. This brings us to an interesting question: `Is DLGN a universal spectral approximator?'
翻訳日:2021-10-09 13:42:00 公開日:2021-10-06
# (参考訳) FinCausal 2021におけるNUS-IDS: グラフニューラルネットワークの依存性ツリーによる原因検出

NUS-IDS at FinCausal 2021: Dependency Tree in Graph Neural Network for Better Cause-Effect Span Detection ( http://arxiv.org/abs/2110.02991v1 )

ライセンス: CC BY 4.0
Fiona Anting Tan, See-Kiong Ng(参考訳) 財務事象につながる要因の因果モデリングや理解には, 財務文書の因果関係の自動同定が重要である。 単語が係り受け木で同じ因果効果型を持つ他の単語とより結びつくという観察を生かすために,グラフニューラルネットワークによる係り受け関係の特徴を取り入れ,有用なグラフ埋め込みを構築する。 我々のモデルは、Viterbiデコード付きベースラインBERTトークン分類器の上に構築され、クロスバリデーションおよび競合の間、このベースラインよりも優れています。 フィンカウサル2021のオフィシャルランでは、95.56%、95.56%、95.57%、95.57%の精度、リコール、f1スコアがそれぞれ第1位、そして86.05%の正確なマッチスコアが第3位であった。

Automatic identification of cause-effect spans in financial documents is important for causality modelling and understanding reasons that lead to financial events. To exploit the observation that words are more connected to other words with the same cause-effect type in a dependency tree, we construct useful graph embeddings by incorporating dependency relation features through a graph neural network. Our model builds on a baseline BERT token classifier with Viterbi decoding, and outperforms this baseline in cross-validation and during the competition. In the official run of FinCausal 2021, we obtained Precision, Recall, and F1 scores of 95.56%, 95.56% and 95.57% that all ranked 1st place, and an Exact Match score of 86.05% which ranked 3rd place.
翻訳日:2021-10-09 13:16:12 公開日:2021-10-06
# (参考訳) 非剛性形状マッチングのための正規埋め込み学習

Learning Canonical Embedding for Non-rigid Shape Matching ( http://arxiv.org/abs/2110.02994v1 )

ライセンス: CC BY 4.0
Abhishek Sharma, Maks Ovsjanikov(参考訳) 本稿では,非剛体形状マッチングのための標準埋め込み学習フレームワークを提案する。 この方向での以前の作業とは対照的に、このフレームワークはエンドツーエンドでトレーニングされており、一般的に使用されているlaplace-beltrami基底やシーケンシャル最適化スキームに関連する不安定性と制約を避けています。 複数のデータセットにおいて,深層関数マップを用いた自己対称性マップの学習は,単純最寄り探索による非剛性形状対応を容易にする低次元正準埋め込みに3次元形状を投影する。 FAUST と SHREC のベンチマークでは,計算コストが低く,データ効率が良く,頑健である。

This paper provides a novel framework that learns canonical embeddings for non-rigid shape matching. In contrast to prior work in this direction, our framework is trained end-to-end and thus avoids instabilities and constraints associated with the commonly-used Laplace-Beltrami basis or sequential optimization schemes. On multiple datasets, we demonstrate that learning self symmetry maps with a deep functional map projects 3D shapes into a low dimensional canonical embedding that facilitates non-rigid shape correspondence via a simple nearest neighbor search. Our framework outperforms multiple recent learning based methods on FAUST and SHREC benchmarks while being computationally cheaper, data-efficient, and robust.
翻訳日:2021-10-09 13:07:48 公開日:2021-10-06
# (参考訳) 最適輸送図を用いた生成モデル

Generative Modeling with Optimal Transport Maps ( http://arxiv.org/abs/2110.02999v1 )

ライセンス: CC BY 4.0
Litu Rout and Alexander Korotin and Evgeny Burnaev(参考訳) Wasserstein GANの発見により、最適輸送(OT)は大規模生成モデリングタスクの強力なツールとなった。 これらのタスクでは、一般的にOTコストがGANのトレーニングの損失として使用される。 このアプローチとは対照的に、OTマップ自体が生成モデルとして利用でき、同等の性能を提供できることを示す。 以前の類似したアプローチでは、OT写像は、元の高次元の周囲空間における性能が劣る故に、潜在空間においてのみ生成モデルとみなす。 対照的に、ot写像は周囲の空間、例えば高次元画像の空間に直接適用する。 まず,2次コスト (Wasserstein-2 距離) で効率的に OT マップを計算するための min-max 最適化アルゴリズムを導出する。 次に、入力分布と出力分布が異なる次元の空間内にあり、計算されたOTマップの誤差境界を導出する場合にアプローチを拡張する。 画像生成および非ペア画像復元タスクにおけるアルゴリズムを評価する。 特に、出力(復元)画像が入力(劣化)画像に近いことが期待されるため、復元マップの最適性が所望の属性であるデノイジング、カラー化、インパインティングについて検討する。

With the discovery of Wasserstein GANs, Optimal Transport (OT) has become a powerful tool for large-scale generative modeling tasks. In these tasks, OT cost is typically used as the loss for training GANs. In contrast to this approach, we show that the OT map itself can be used as a generative model, providing comparable performance. Previous analogous approaches consider OT maps as generative models only in the latent spaces due to their poor performance in the original high-dimensional ambient space. In contrast, we apply OT maps directly in the ambient space, e.g., a space of high-dimensional images. First, we derive a min-max optimization algorithm to efficiently compute OT maps for the quadratic cost (Wasserstein-2 distance). Next, we extend the approach to the case when the input and output distributions are located in the spaces of different dimensions and derive error bounds for the computed OT map. We evaluate the algorithm on image generation and unpaired image restoration tasks. In particular, we consider denoising, colorization, and inpainting, where the optimality of the restoration map is a desired attribute, since the output (restored) image is expected to be close to the input (degraded) one.
翻訳日:2021-10-09 12:53:18 公開日:2021-10-06
# (参考訳) baum-welchアルゴリズムを用いたマルコフ決定過程のアクティブ学習(拡張)

Active Learning of Markov Decision Processes using Baum-Welch algorithm (Extended) ( http://arxiv.org/abs/2110.03014v1 )

ライセンス: CC BY 4.0
Giovanni Bacci, Anna Ing\'olfsd\'ottir, Kim Larsen, Rapha\"el Reynouard(参考訳) サイバー物理システム(cpss)は、非決定論的かつ確率的ダイナミクスを持つリアクティブシステムとして自然にモデル化される。 モデルに基づく検証技術は安全クリティカルなCPSの展開に有効であることが証明された。 このような手法をうまく応用するための中心は、システムのための正確な形式モデルの構築である。 手動構築は、リソースの要求とエラーを起こしやすいプロセスであり、自動学習アルゴリズムの設計を動機付け、観測されたシステムの振る舞いからシステムモデルを合成する。 本稿では,マルコフ決定過程とマルコフ連鎖を学習するためのBaum-Welchアルゴリズムを再検討し,適応する。 通常、より多くの観測を必要とするMDPの場合、現在のモデル仮説の最も有益な例を選択するモデルベースのアクティブラーニングサンプリング戦略を示す。 本手法を最先端ツールと比較し,提案手法が正確なモデルを得るのに必要な観察回数を大幅に削減できることを実証する。

Cyber-physical systems (CPSs) are naturally modelled as reactive systems with nondeterministic and probabilistic dynamics. Model-based verification techniques have proved effective in the deployment of safety-critical CPSs. Central for a successful application of such techniques is the construction of an accurate formal model for the system. Manual construction can be a resource-demanding and error-prone process, thus motivating the design of automata learning algorithms to synthesise a system model from observed system behaviours. This paper revisits and adapts the classic Baum-Welch algorithm for learning Markov decision processes and Markov chains. For the case of MDPs, which typically demand more observations, we present a model-based active learning sampling strategy that choses examples which are most informative w.r.t.\ the current model hypothesis. We empirically compare our approach with state-of-the-art tools and demonstrate that the proposed active learning procedure can significantly reduce the number of observations required to obtain accurate models.
翻訳日:2021-10-09 12:27:27 公開日:2021-10-06
# (参考訳) Tribuo: Javaでのプロヴァンスによる機械学習

Tribuo: Machine Learning with Provenance in Java ( http://arxiv.org/abs/2110.03022v1 )

ライセンス: CC BY 4.0
Adam Pocock(参考訳) 機械学習モデルは、幅広い産業に展開され、幅広いタスクを実行します。 これらのモデルを追跡し、適切に振る舞うことを保証することは、デプロイされたモデルの数が増えるにつれてますます難しくなっている。 MLシステムには新たな規制上の負担があり、リスクの高い状況では、モデルとトレーニングデータの間にリンクが必要である。 現在のML監視システムは、しばしばMLライブラリの上の層として証明と実験の追跡を提供し、追跡されたオブジェクトとメタデータの間の不完全なトラッキングとスキューのスペースを可能にする。 本稿では,モデルトレーニング,推論,強力な型安全性,実行時チェック,自動証明記録をひとつのフレームワークに統合したJava MLライブラリTribuoを紹介する。 Tribuoのモデルと評価はすべて、トレーニングアルゴリズム、ハイパーパラメータ、データ変換ステップとともに、入力データの完全な処理パイプラインを自動で記録する。 証明はモデルオブジェクト内に存在し、共通のマークアップフォーマットを使用して別々に永続化できる。 Tribuoは、XGBoost、TensorFlow、ONNX Runtimeのインターフェースとともに、分類、回帰、クラスタリング、マルチラベル分類、異常検出のための多くの一般的なMLアルゴリズムを実装している。 TribuoのソースコードはApache 2.0ライセンスでhttps://github.com/oracle/tribuoで入手できる。

Machine Learning models are deployed across a wide range of industries, performing a wide range of tasks. Tracking these models and ensuring they behave appropriately is becoming increasingly difficult as the number of deployed models increases. There are also new regulatory burdens for ML systems which affect human lives, requiring a link between a model and its training data in high-risk situations. Current ML monitoring systems often provide provenance and experiment tracking as a layer on top of an ML library, allowing room for imperfect tracking and skew between the tracked object and the metadata. In this paper we introduce Tribuo, a Java ML library that integrates model training, inference, strong type-safety, runtime checking, and automatic provenance recording into a single framework. All Tribuo's models and evaluations record the full processing pipeline for input data, along with the training algorithms, hyperparameters and data transformation steps automatically. The provenance lives inside the model object and can be persisted separately using common markup formats. Tribuo implements many popular ML algorithms for classification, regression, clustering, multi-label classification and anomaly detection, along with interfaces to XGBoost, TensorFlow and ONNX Runtime. Tribuo's source code is available at https://github.com/oracle/tribuo under an Apache 2.0 license with documentation and tutorials available at https://tribuo.org.
翻訳日:2021-10-09 12:11:25 公開日:2021-10-06
# (参考訳) 低リソースダブルボンド:低リソース機械翻訳におけるプルーニングの実証的研究

The Low-Resource Double Bind: An Empirical Study of Pruning for Low-Resource Machine Translation ( http://arxiv.org/abs/2110.03036v1 )

ライセンス: CC BY 4.0
Orevaoghene Ahia, Julia Kreutzer, Sara Hooker(参考訳) ディープニューラルネットワークのパラメータ数の増加によって、最先端のネットワークを計算制限された環境でアクセス可能にすることがますます難しくなっている。 圧縮技術はギャップを埋める手段として重要視されている。 しかし、一般的な圧縮技術によるトレードオフの評価は、高リソースデータセットを中心に行われている。 本研究では,データ制限方式における圧縮の影響について考察する。 本稿では,データ制限と計算資源制約の共起を指すために,低リソースのダブルバインドという用語を導入する。 これは低リソース言語のNLPでは一般的な設定だが、性能上のトレードオフは十分に研究されていない。 本研究は,機械翻訳作業におけるデータ制限レジームにおけるキャパシティと一般化の関係について,驚くべき知見を与える。 ヨルバ語、ハウサ語、イグボ語、ドイツ語への翻訳のための大まかなプルーニング実験では、低資源体制では、スパーサリティは頻繁な文のパフォーマンスを保っているが、頻度の低い文には異なる影響があることが示されている。 しかし、特にトレーニング分布と非常に異なるデータセットに対して、分散外シフトに対する堅牢性が向上する。 以上の結果から,スパーシティは低周波特性の記憶抑制に有益であり,低リソースの二重結合に対する有望な解決法であることが示唆された。

A "bigger is better" explosion in the number of parameters in deep neural networks has made it increasingly challenging to make state-of-the-art networks accessible in compute-restricted environments. Compression techniques have taken on renewed importance as a way to bridge the gap. However, evaluation of the trade-offs incurred by popular compression techniques has been centered on high-resource datasets. In this work, we instead consider the impact of compression in a data-limited regime. We introduce the term low-resource double bind to refer to the co-occurrence of data limitations and compute resource constraints. This is a common setting for NLP for low-resource languages, yet the trade-offs in performance are poorly studied. Our work offers surprising insights into the relationship between capacity and generalization in data-limited regimes for the task of machine translation. Our experiments on magnitude pruning for translations from English into Yoruba, Hausa, Igbo and German show that in low-resource regimes, sparsity preserves performance on frequent sentences but has a disparate impact on infrequent ones. However, it improves robustness to out-of-distribution shifts, especially for datasets that are very distinct from the training distribution. Our findings suggest that sparsity can play a beneficial role at curbing memorization of low frequency attributes, and therefore offers a promising solution to the low-resource double bind.
翻訳日:2021-10-09 12:03:54 公開日:2021-10-06
# (参考訳) 深層強化学習を用いた最適レコメンダシステム

Optimized Recommender Systems with Deep Reinforcement Learning ( http://arxiv.org/abs/2110.03039v1 )

ライセンス: CC BY 4.0
Lucas Farris(参考訳) Recommender Systemsはオンライン小売の基盤となっている。 従来はルール、適合度スコア、ランキングアルゴリズム、教師付き学習アルゴリズムに基づいていたが、現在では強化学習アルゴリズムを使用して有意義な推奨を生成することは可能である。 本研究は,再現性テストベッドの設置方法を調査し,現実的な環境下での異なる技術アルゴリズムの状態を評価する。 提案、文献レビュー、方法論、結果、コメントが含まれています。

Recommender Systems have been the cornerstone of online retailers. Traditionally they were based on rules, relevance scores, ranking algorithms, and supervised learning algorithms, but now it is feasible to use reinforcement learning algorithms to generate meaningful recommendations. This work investigates and develops means to setup a reproducible testbed, and evaluate different state of the art algorithms in a realistic environment. It entails a proposal, literature review, methodology, results, and comments.
翻訳日:2021-10-09 11:41:37 公開日:2021-10-06
# (参考訳) エンドツーエンドASRにおけるカテゴリ的特徴の統合

Integrating Categorical Features in End-to-End ASR ( http://arxiv.org/abs/2110.03047v1 )

ライセンス: CC BY 4.0
Rongqing Huang(参考訳) all-neural, end-to-end asrシステムは音声認識コミュニティから急速に注目を集めた。 このようなシステムは、単一のトレーニング可能なニューラルネットワークモデルを用いて、音声入力をテキスト単位に変換する。 E2Eモデルは、入手するのに高価な大量のペア音声テキストデータを必要とする。 利用可能なデータの量は言語や方言によって異なる。 これらのデータをすべて利用すれば、低リソース言語と高リソース言語の両方を改善することが可能になります。 新しいアプリケーションドメインのためにasrシステムをデプロイしたい場合、ドメイン固有のトレーニングデータの量は非常に限られています。 既存のドメインからのデータを活用できることは、新しいドメインにおけるASRの精度にとって重要である。 本稿では,これら全ての側面をASRシステムにおける分類情報として扱うとともに,分類的特徴をE2Eモデルに統合する簡易かつ効果的な方法を提案する。 様々なトレーニング戦略に関する詳細な分析を行い,複数の個別学習モデルよりもカテゴリ的特徴を含むジョイントモデルの構築が正確であることを見出した。

All-neural, end-to-end ASR systems gained rapid interest from the speech recognition community. Such systems convert speech input to text units using a single trainable neural network model. E2E models require large amounts of paired speech text data that is expensive to obtain. The amount of data available varies across different languages and dialects. It is critical to make use of all these data so that both low resource languages and high resource languages can be improved. When we want to deploy an ASR system for a new application domain, the amount of domain specific training data is very limited. To be able to leverage data from existing domains is important for ASR accuracy in the new domain. In this paper, we treat all these aspects as categorical information in an ASR system, and propose a simple yet effective way to integrate categorical features into E2E model. We perform detailed analysis on various training strategies, and find that building a joint model that includes categorical features can be more accurate than multiple independently trained models.
翻訳日:2021-10-09 11:40:49 公開日:2021-10-06
# (参考訳) 単一パス不確実性推定のための証拠深層学習に関する調査

A Survey on Evidential Deep Learning For Single-Pass Uncertainty Estimation ( http://arxiv.org/abs/2110.03051v1 )

ライセンス: CC BY 4.0
Dennis Ulmer(参考訳) ディープニューラルネットワークにおける予測の不確かさを定量化するための一般的なアプローチは、例えば ensembling や monte carlo dropout といった、重みやモデルセットを含むことが多い。 これらの手法は通常、複数のモデルインスタンスをトレーニングしたり、非常に多様な予測を行なわなくてもオーバーヘッドが発生する。 この調査は、Evidential Deep Learningという概念に基づいた、別のモデルのクラスを読者に親しみやすくすることを目的としている。 さらに、単一のモデルにおける不確実性の推定と、分布上の分布のパラメータ化によるフォワードパスを可能にする。 この調査は、分類設定における実装に焦点をあて、既存の作業を再カプセル化する。 最後に、回帰問題に対する同じパラダイムの適用について調査する。 また,上記のアプローチの強みと弱みを,既存のアプローチと比較して考察し,今後の研究を知らせるために最も中心的な理論結果を提供する。

Popular approaches for quantifying predictive uncertainty in deep neural networks often involve a set of weights or models, for instance via ensembling or Monte Carlo Dropout. These techniques usually produce overhead by having to train multiple model instances or do not produce very diverse predictions. This survey aims to familiarize the reader with an alternative class of models based on the concept of Evidential Deep Learning: For unfamiliar data, they admit "what they don't know" and fall back onto a prior belief. Furthermore, they allow uncertainty estimation in a single model and forward pass by parameterizing distributions over distributions. This survey recapitulates existing works, focusing on the implementation in a classification setting. Finally, we survey the application of the same paradigm to regression problems. We also provide a reflection on the strengths and weaknesses of the mentioned approaches compared to existing ones and provide the most central theoretical results in order to inform future research.
翻訳日:2021-10-09 11:32:44 公開日:2021-10-06
# (参考訳) システムから見たフェデレーション学習ハイパーパラメータの自動チューニング

Automatic Tuning of Federated Learning Hyper-Parameters from System Perspective ( http://arxiv.org/abs/2110.03061v1 )

ライセンス: CC BY 4.0
Huanle Zhang and Mi Zhang and Xin Liu and Prasant Mohapatra and Michael DeLucia(参考訳) Federated Learning(FL)は、クライアントのデータプライバシを保存する分散モデルトレーニングパラダイムである。 FLハイパーパラメータは、時間、計算、通信の点でトレーニングのオーバーヘッドに大きく影響する。 しかし、FLハイパーパラメーターを手動で選択する現在の実践は、様々なアプリケーションで異なるトレーニング嗜好が好まれるため、FL実践者に高い負担を与える。 本稿では,FLトレーニングの多様なシステム要件に合わせて自動FLハイパーパラメータチューニングアルゴリズムであるFedTuningを提案する。 fedtuningは軽量でフレキシブルであり、固定flハイパーパラメータと比較して、時間、計算、通信の異なるトレーニング好みに対して平均41%の改善を達成している。 FedTuningはhttps://github.com/dtczhl/FedTuning.comで入手できる。

Federated learning (FL) is a distributed model training paradigm that preserves clients' data privacy. FL hyper-parameters significantly affect the training overheads in terms of time, computation, and communication. However, the current practice of manually selecting FL hyper-parameters puts a high burden on FL practitioners since various applications prefer different training preferences. In this paper, we propose FedTuning, an automatic FL hyper-parameter tuning algorithm tailored to applications' diverse system requirements of FL training. FedTuning is lightweight and flexible, achieving an average of 41% improvement for different training preferences on time, computation, and communication compared to fixed FL hyper-parameters. FedTuning is available at https://github.com/dtczhl/FedTuning.
翻訳日:2021-10-09 11:00:32 公開日:2021-10-06
# (参考訳) ニューラルネットワーク翻訳における文構造変化に不変なニューロンについて

On Neurons Invariant to Sentence Structural Changes in Neural Machine Translation ( http://arxiv.org/abs/2110.03067v1 )

ライセンス: CC BY 4.0
Gal Patel, Leshem Choshen and Omri Abend(参考訳) 神経細胞の役割を解明するために、我々は、意味保存パラフレーズ(例えば、アクティブパス)に対応する活性化パターンを研究する。 英語の文法的パラフレーズのデータセットを、その参照ドイツ語翻訳でコンパイルし、トランスフォーマー翻訳モデルを用いてモデル非依存のアプローチを実証する。 まず、パラフラスにまたがって相関するニューロンを同定し、観測された相関を考えられるコンファンスに分類する。 低レベルのコンポーネントは類似したアクティベーションの原因として見出されるが、文レベルのセマンティクスや構文はローカルに検出されない。 その後、ニューロン活性化を操り、特定の構文形式への翻訳に影響を与える。 単純な値シフトは有効であり、多くのニューロンが修正されるとより効果的になる。 これらは、複雑な構文構成が実際にモデルにコード化されていることを示唆する。 結論として,最初に得られた相関を用いてよりうまく操作する方法について論じた。

To gain insight into the role neurons play, we study the activation patterns corresponding to meaning-preserving paraphrases (e.g., active-passive). We compile a dataset of controlled syntactic paraphrases in English with their reference German translations and demonstrate our model-agnostic approach with the Transformer translation model. First, we identify neurons that correlate across paraphrases and dissect the observed correlation into possible confounds. Although lower-level components are found as the cause of similar activations, no sentence-level semantics or syntax are detected locally. Later, we manipulate neuron activations to influence translation towards a particular syntactic form. We find that a simple value shift is effective, and more so when many neurons are modified. These suggest that complex syntactic constructions are indeed encoded in the model. We conclude by discussing how to better manipulate it using the correlations we first obtained.
翻訳日:2021-10-09 10:46:06 公開日:2021-10-06
# (参考訳) 学習ディスクリプタを用いた大規模地形レーダ定位

Large-Scale Topological Radar Localization Using Learned Descriptors ( http://arxiv.org/abs/2110.03081v1 )

ライセンス: CC BY 4.0
Jacek Komorowski, Monika Wysoczanska, Tomasz Trzcinski(参考訳) 本研究では,学習用ディスクリプタを用いたレーダスキャン画像に基づく大規模トポロジカルローカライズ手法を提案する。 本稿では、レーダースキャン画像から回転不変なグローバルディスクリプタを計算するための、単純かつ効率的なディープネットワークアーキテクチャを提案する。 提案手法の性能と一般化能力を,MulRanとOxford Radar RobotCarの2つの大規模運転データセットで実験的に評価した。 さらに,学習したグローバルディスクリプタを用いたレーダベースとLiDARベースのローカライゼーションの比較評価を行った。 私たちのコードとトレーニングされたモデルはプロジェクトのWebサイトで公開されています。

In this work, we propose a method for large-scale topological localization based on radar scan images using learned descriptors. We present a simple yet efficient deep network architecture to compute a rotationally invariant discriminative global descriptor from a radar scan image. The performance and generalization ability of the proposed method is experimentally evaluated on two large scale driving datasets: MulRan and Oxford Radar RobotCar. Additionally, we present a comparative evaluation of radar-based and LiDAR-based localization using learned global descriptors. Our code and trained models are publicly available on the project website.
翻訳日:2021-10-09 10:21:03 公開日:2021-10-06
# (参考訳) DNNはどのショートカットキューツを選ぶのか? パラメータ空間の観点からの考察

Which Shortcut Cues Will DNNs Choose? A Study from the Parameter-Space Perspective ( http://arxiv.org/abs/2110.03095v1 )

ライセンス: CC BY 4.0
Luca Scimeca, Seong Joon Oh, Sanghyuk Chun, Michael Poli, Sangdoo Yun(参考訳) ディープニューラルネットワーク(DNN)は、手前の問題に必ずしも必須ではない、容易に学習できる識別機能(cue)に依存していることが多い。 例えば、画像の中のアヒルは、湖や小川のような典型的な背景風景に基づいて認識される。 この現象はショートカット学習としても知られ、現在の世代の機械学習モデルの鍵となる限界として現れつつある。 本研究では,ショートカット学習の理解を深めるための一連の実験とその意義について紹介する。 wcst-mlと名づけたいくつかのショートカットキューを用いたトレーニングセットをデザインし,それぞれのキューが目の視覚認識問題に対して等しく帰結する。 機会が等しくても,(1)特定のキューが他より望ましいこと,(2)学習しやすいキューに偏った解が損失面上の比較的平坦なミニマに収束する傾向,(3)好まれるキューに焦点を絞った解がパラメータ空間においてはるかに豊富であること,などが観察される。 そこで,Kolmogorov-simple cues に対応する解はパラメータ空間に豊富であり,DNN に好まれる。 本研究は,合成データセットDSpritesと顔データセットUTKFaceに基づく。 WCST-MLでは、モデルの生まれながらの偏見が、色や民族といった単純な手がかりに傾いていることが観察されている。 本研究は,社会に悪影響を及ぼす可能性のある内因性モデルバイアスを除去する活動的介入の重要性を強調した。

Deep neural networks (DNNs) often rely on easy-to-learn discriminatory features, or cues, that are not necessarily essential to the problem at hand. For example, ducks in an image may be recognized based on their typical background scenery, such as lakes or streams. This phenomenon, also known as shortcut learning, is emerging as a key limitation of the current generation of machine learning models. In this work, we introduce a set of experiments to deepen our understanding of shortcut learning and its implications. We design a training setup with several shortcut cues, named WCST-ML, where each cue is equally conducive to the visual recognition problem at hand. Even under equal opportunities, we observe that (1) certain cues are preferred to others, (2) solutions biased to the easy-to-learn cues tend to converge to relatively flat minima on the loss surface, and (3) the solutions focusing on those preferred cues are far more abundant in the parameter space. We explain the abundance of certain cues via their Kolmogorov (descriptional) complexity: solutions corresponding to Kolmogorov-simple cues are abundant in the parameter space and are thus preferred by DNNs. Our studies are based on the synthetic dataset DSprites and the face dataset UTKFace. In our WCST-ML, we observe that the inborn bias of models leans toward simple cues, such as color and ethnicity. Our findings emphasize the importance of active human intervention to remove the inborn model biases that may cause negative societal impacts.
翻訳日:2021-10-09 10:09:51 公開日:2021-10-06
# (参考訳) 深層学習を用いたSWAT流域モデル校正

SWAT Watershed Model Calibration using Deep Learning ( http://arxiv.org/abs/2110.03097v1 )

ライセンス: CC BY 4.0
M. K. Mudunuru, K. Son, P. Jiang, X. Chen(参考訳) 土壌および水質評価ツール(swat)のような流域モデルは、高次元の物理的および経験的パラメータで構成されている。 これらのパラメータは、流量、蒸発散、積雪水等価量、および栄養負荷の信頼できる予測を生成するモデルに対して正確に調整する必要がある。 既存のパラメータ推定法は、時間消費、非効率、計算集約であり、高次元パラメータを推定する際に精度が低下する。 本稿では,深層学習(DL)を用いてSWATモデル(21パラメータ)を校正する,高速で正確かつ信頼性の高い手法を提案する。 畳み込みニューラルネットワークに基づくDL対応逆モデルを構築し,ストリームフローデータを取り込み,SWATモデルパラメータを推定する。 最適ニューラルネットワークアーキテクチャと次の9つのベスト候補を特定するために、ハイパーパラメータチューニングが実行される。 以上のDLモデルのトレーニング,検証,テストには,アンサンブルSWATシミュレーションを用いる。 観測データを用いてSWATモデルの実際のパラメータを推定した。 太平洋北西部のヤキマ川流域に位置するアメリカン川流域において,提案したDL手法を検証,検証した。 その結果,DLモデルに基づくキャリブレーションは,一般化された不確実性推定(GLUE)のような従来のパラメータ推定手法よりも優れていることがわかった。 DLにより推定される行動パラメータ集合はGLUEよりも狭く、相対的誤差が高い場合であってもサンプリング範囲内で値を生成する。 この狭い範囲のパラメータは、ノイズ下であっても精度の高いパラメータを正確に推定するワークフローの信頼性を示す。 プロセスパラメータの迅速かつ合理的な推定のため,提案するDLワークフローは,大規模な空間的応用のための統合水理モデルの校正に有用である。

Watershed models such as the Soil and Water Assessment Tool (SWAT) consist of high-dimensional physical and empirical parameters. These parameters need to be accurately calibrated for models to produce reliable predictions for streamflow, evapotranspiration, snow water equivalent, and nutrient loading. Existing parameter estimation methods are time-consuming, inefficient, and computationally intensive, with reduced accuracy when estimating high-dimensional parameters. In this paper, we present a fast, accurate, and reliable methodology to calibrate the SWAT model (i.e., 21 parameters) using deep learning (DL). We develop DL-enabled inverse models based on convolutional neural networks to ingest streamflow data and estimate the SWAT model parameters. Hyperparameter tuning is performed to identify the optimal neural network architecture and the nine next best candidates. We use ensemble SWAT simulations to train, validate, and test the above DL models. We estimated the actual parameters of the SWAT model using observational data. We test and validate the proposed DL methodology on the American River Watershed, located in the Pacific Northwest-based Yakima River basin. Our results show that the DL models-based calibration is better than traditional parameter estimation methods, such as generalized likelihood uncertainty estimation (GLUE). The behavioral parameter sets estimated by DL have narrower ranges than GLUE and produce values within the sampling range even under high relative observational errors. This narrow range of parameters shows the reliability of the proposed workflow to estimate sensitive parameters accurately even under noise. Due to its fast and reasonably accurate estimations of process parameters, the proposed DL workflow is attractive for calibrating integrated hydrologic models for large spatial-scale applications.
翻訳日:2021-10-09 09:50:29 公開日:2021-10-06
# (参考訳) トラベリングセールスマン問題最適化のためのハイブリッドポインタネットワーク

Hybrid Pointer Networks for Traveling Salesman Problems Optimization ( http://arxiv.org/abs/2110.03104v1 )

ライセンス: CC BY 4.0
Ahmed Stohy, Heba-Tullah Abdelhakam, Sayed Ali, Mohammed Elhenawy, Abdallah A Hassan, Mahmoud Masoud, Sebastien Glaser and Andry Rakotonirainy(参考訳) 本稿では,ハイブリッドネットワークである組合せ最適化問題に対して,優れた結果をもたらす新たなアイデアを提案する。 この手法をグラフポインタネットワーク[1]に適用し,その能力をより高いレベルまで拡張した。 強化学習によって学習されるセールスマン問題を解くためのハイブリッドポインターネットワーク(hpn)を提案する。 さらに、HPNはグラフ埋め込み層を付加したポインタネットワークの拡張であるグラフポインタネットワークの上に構築する。 HPNは、ハイブリッドエンコーダにより、グラフポインタネットワークのソリューション品質よりも優れており、モデルに検証エンコーディング型を提供し、より優れたポリシーに収束することができる。 我々のネットワークは2opt, Pointer Network, Attention Model, および広範囲のモデルを用いずに, TSP50の性能を5.959から5.706に向上させ, 高度に調整されたアルゴリズムに匹敵する結果をもたらす。 データやモデル,コードなどが公開されています[2]。

In this work, a novel idea is presented for combinatorial optimization problems, a hybrid network, which results in a superior outcome. We applied this method to graph pointer networks [1], expanding its capabilities to a higher level. We proposed a hybrid pointer network (HPN) to solve the travelling salesman problem trained by reinforcement learning. Furthermore, HPN builds upon graph pointer networks which is an extension of pointer networks with an additional graph embedding layer. HPN outperforms the graph pointer network in solution quality due to the hybrid encoder, which provides our model with a verity encoding type, allowing our model to converge to a better policy. Our network significantly outperforms the original graph pointer network for small and large-scale problems increasing its performance for TSP50 from 5.959 to 5.706 without utilizing 2opt, Pointer networks, Attention model, and a wide range of models, producing results comparable to highly tuned and specialized algorithms. We make our data, models, and code publicly available [2].
翻訳日:2021-10-09 09:22:51 公開日:2021-10-06
# (参考訳) 物体検出のためのメタ認知の学習

Learning a Metacognition for Object Detection ( http://arxiv.org/abs/2110.03105v1 )

ライセンス: CC BY 4.0
Marlene Berke, Mario Belledonne, Zhangir Azerbayez, Julian Jara-Ettinger(参考訳) 物体認識モデルとは対照的に、人類は世界の表現を構築する際に自分の知覚を盲目的に信頼せず、その代わりにメタ認知を雇い、信頼できない、または偽の知覚を検出する。 本稿ではメタ認知によりオブジェクト認識モデルを強化する教師なしモデルであるMeTAGENを提案する。 物体検出モデルからノイズが生じると、METAGENは知覚システムがどのように機能するかのメタ表現を学び、検出に責任がある世界の物体を推測する。 メタゲンは、人間の幼児でも理解できる対象の基本的な原理(オブジェクトの永続性、凝集性、時空間連続性)に基づいて推論を行うことでこれを達成する。 我々は、様々な最先端物体検出ニューラルネットワーク上でMETAGENをテストする。 我々は,METAGENがニューラルネットワークの正確なメタ認知表現を素早く学習し,検出モデルが見逃したオブジェクトを埋め込んで幻覚オブジェクトを除去することにより検出精度を向上させることを発見した。 このアプローチは、サンプル外データの一般化を可能にし、メタ認知に欠ける比較モデルを上回る。

In contrast to object recognition models, humans do not blindly trust their perception when building representations of the world, instead recruiting metacognition to detect percepts that are unreliable or false, such as when we realize that we mistook one object for another. We propose METAGEN, an unsupervised model that enhances object recognition models through a metacognition. Given noisy output from an object-detection model, METAGEN learns a meta-representation of how its perceptual system works and uses it to infer the objects in the world responsible for the detections. METAGEN achieves this by conditioning its inference on basic principles of objects that even human infants understand (known as Spelke principles: object permanence, cohesion, and spatiotemporal continuity). We test METAGEN on a variety of state-of-the-art object detection neural networks. We find that METAGEN quickly learns an accurate metacognitive representation of the neural network, and that this improves detection accuracy by filling in objects that the detection model missed and removing hallucinated objects. This approach enables generalization to out-of-sample data and outperforms comparison models that lack a metacognition.
翻訳日:2021-10-09 09:12:03 公開日:2021-10-06
# (参考訳) 深部モデルに対する一貫した対策

Consistent Counterfactuals for Deep Models ( http://arxiv.org/abs/2110.03109v1 )

ライセンス: CC BY 4.0
Emily Black, Zifan Wang, Matt Fredrikson and Anupam Datta(参考訳) 反事実例は、金融や医療診断といった重要な分野における機械学習モデルの予測を説明する最も一般的な方法の1つである。 反事実はしばしば、使用するモデルが静的であるという仮定の下で議論されるが、デプロイメントモデルでは定期的に再訓練されるか、微調整される可能性がある。 本稿では,モデル展開時に発生する重み初期化やデータ残量変動など,初期トレーニング条件の小さな変化下でのディープネットワークの反実例におけるモデル予測の一貫性について検討する。 実験により、深層モデルの反実例は、このような小さな変化に対して矛盾しがちであり、より単純なモデルの文脈における先行研究によって提案される安定性向上緩和は、深部ネットワークにおいて信頼性の高いヒューリスティックではないことを示す。 むしろ,モデルの局所的なリプシッツ連続性が関連モデル間の一貫性の鍵であることを示す。 そこで本研究では,より一貫した反事実的説明を生成する方法として,Stable Neighbor Searchを提案し,本手法の有効性をいくつかのベンチマークデータセットで示す。

Counterfactual examples are one of the most commonly-cited methods for explaining the predictions of machine learning models in key areas such as finance and medical diagnosis. Counterfactuals are often discussed under the assumption that the model on which they will be used is static, but in deployment models may be periodically retrained or fine-tuned. This paper studies the consistency of model prediction on counterfactual examples in deep networks under small changes to initial training conditions, such as weight initialization and leave-one-out variations in data, as often occurs during model deployment. We demonstrate experimentally that counterfactual examples for deep models are often inconsistent across such small changes, and that increasing the cost of the counterfactual, a stability-enhancing mitigation suggested by prior work in the context of simpler models, is not a reliable heuristic in deep networks. Rather, our analysis shows that a model's local Lipschitz continuity around the counterfactual is key to its consistency across related models. To this end, we propose Stable Neighbor Search as a way to generate more consistent counterfactual explanations, and illustrate the effectiveness of this approach on several benchmark datasets.
翻訳日:2021-10-09 08:57:17 公開日:2021-10-06
# (参考訳) cut the carp: ゼロショットストーリー評価のための釣り

Cut the CARP: Fishing for zero-shot story evaluation ( http://arxiv.org/abs/2110.03111v1 )

ライセンス: CC BY 4.0
Shahbuland Matiana, JR Smith, Ryan Teehan, Louis Castricato, Stella Biderman, Leo Gao, Spencer Frazier(参考訳) 大規模言語モデル(raffel et al., 2019; brown et al., 2020)の最近の進歩は、機械駆動テキスト生成に大きな質的かつ定量的な改善をもたらした。 それにもかかわらず、機械による物語文の生成と評価は依然として難しい問題である。 計算的に生成されたストーリーの客観的な評価は、制限的に高価であるか、注意深い注釈付きデータセットを必要とするか、あるいは生成されたストーリーのナラトロジー構造の論理的コヒーレンスを適切に測定できないかである。 コントラスト学習の最近の進歩 (Radford et al., 2021) により, 質的に優れた物語のゼロショット評価を行うスケーラブルで効率的な手法であるContrastive Authoring and Reviewing Pairing (CARP) を提案する。 本稿では,物語の人的評価とCARPの人的評価との間に強い相関関係を示す。 モデル出力は、ファインチューニングやプロンプトエンジニアリングアプローチを利用した言語モデルに基づく手法よりも、対応する人間の入力とより大きく相関する。 我々はまた、8万以上のストーリーから派生した130万のストーリー批判ペアからなる新しいコーパスであるStory-Critique Datasetを提示、分析した。 このコーパスはNLP研究者にとって大きな関心を持つだろう。

Recent advances in large-scale language models (Raffel et al., 2019; Brown et al., 2020) have brought significant qualitative and quantitative improvements in machine-driven text generation. Despite this, generation and evaluation of machine-generated narrative text remains a challenging problem. Objective evaluation of computationally-generated stories may be prohibitively expensive, require meticulously annotated datasets, or may not adequately measure the logical coherence of a generated story's narratological structure. Informed by recent advances in contrastive learning (Radford et al., 2021), we present Contrastive Authoring and Reviewing Pairing (CARP): a scalable, efficient method for performing qualitatively superior, zero-shot evaluation of stories. We show a strong correlation between human evaluation of stories and those of CARP. Model outputs more significantly correlate with corresponding human input than those language-model based methods which utilize finetuning or prompt engineering approaches. We also present and analyze the Story-Critique Dataset, a new corpora composed of 1.3 million aligned story-critique pairs derived from over 80,000 stories. We expect this corpus to be of interest to NLP researchers.
翻訳日:2021-10-09 08:15:00 公開日:2021-10-06
# 確率的ビデオ予測のための階層的変動型ニューラル不確かさモデル

A Hierarchical Variational Neural Uncertainty Model for Stochastic Video Prediction ( http://arxiv.org/abs/2110.03446v1 )

ライセンス: Link先を確認
Moitreya Chatterjee and Narendra Ahuja and Anoop Cherian(参考訳) ビデオの未来を予測することは難しい課題であり、その原因は確率的な現実世界の現象にある。 この課題を解く以前のアプローチは、典型的には、この確率性を特徴づける潜在的事前を推定するが、(深層学習)モデルの予測的不確実性は考慮しない。 このようなアプローチは、生成したフレームと地上の真実の間の平均二乗誤差(MSE)からトレーニング信号を導出することが多く、特に予測の不確実性が高い場合には、準最適トレーニングにつながる可能性がある。 この目的に向けて、予測不確実性の確率的定量化であるニューラル不確実性量子化器(NUQ)を導入し、MSE損失を測定する。 本稿では,深いベイズ図形モデルを用いて,NUQを原理的に導出する階層的・変動的枠組みを提案する。 4つのベンチマーク確率的ビデオ予測データセットを用いた実験により、提案手法は最先端のモデル(特にトレーニングセットが小さい場合)と比較して効果的にトレーニングし、ビデオ生成の品質と多様性をいくつかの評価指標と比較した。

Predicting the future frames of a video is a challenging task, in part due to the underlying stochastic real-world phenomena. Prior approaches to solve this task typically estimate a latent prior characterizing this stochasticity, however do not account for the predictive uncertainty of the (deep learning) model. Such approaches often derive the training signal from the mean-squared error (MSE) between the generated frame and the ground truth, which can lead to sub-optimal training, especially when the predictive uncertainty is high. Towards this end, we introduce Neural Uncertainty Quantifier (NUQ) - a stochastic quantification of the model's predictive uncertainty, and use it to weigh the MSE loss. We propose a hierarchical, variational framework to derive NUQ in a principled manner using a deep, Bayesian graphical model. Our experiments on four benchmark stochastic video prediction datasets show that our proposed framework trains more effectively compared to the state-of-the-art models (especially when the training sets are small), while demonstrating better video generation quality and diversity against several evaluation metrics.
翻訳日:2021-10-08 16:12:54 公開日:2021-10-06
# Black-box Sequence DesignとBeyondによるLikelihood-free推論の統一

Unifying Likelihood-free Inference with Black-box Sequence Design and Beyond ( http://arxiv.org/abs/2110.03372v1 )

ライセンス: Link先を確認
Dinghuai Zhang, Jie Fu, Yoshua Bengio, Aaron Courville(参考訳) 生物配列設計のためのブラックボックス最適化の定式化は、製薬業界に有望な影響を及ぼす可能性から近年注目されている。 本研究では,確率的枠組みの下で,確率的推論とブラックボックスシーケンス設計という,一見異なる2つの世界を統合することを提案する。 この枠組みに基づき,様々なシーケンス設計手法を構築するためのレシピを提供する。 我々は,従来の薬物発見手法を我々の枠組みで「再発明」し,新たな確率論的シーケンス設計アルゴリズムを提案する。 大規模な実験は提案手法の利点を実証している。

Black-box optimization formulations for biological sequence design have drawn recent attention due to their promising potential impact on the pharmaceutical industry. In this work, we propose to unify two seemingly distinct worlds: likelihood-free inference and black-box sequence design, under one probabilistic framework. In tandem, we provide a recipe for constructing various sequence design methods based on this framework. We show how previous drug discovery approaches can be "reinvented" in our framework, and further propose new probabilistic sequence design algorithms. Extensive experiments illustrate the benefits of the proposed methodology.
翻訳日:2021-10-08 16:12:06 公開日:2021-10-06
# ディープニューラルネットワークにおける異常検出のための一様枠組み

A Uniform Framework for Anomaly Detection in Deep Neural Networks ( http://arxiv.org/abs/2110.03092v1 )

ライセンス: Link先を確認
Fangzhen Zhao, Chenyi Zhang, Naipeng Dong, Zefeng You, Zhenxin Wu(参考訳) 深層ニューラルネットワーク(DNN)は、トレーニングセットと同じ分布から得られるIn-Distribution(ID)データに適用した場合、高いパフォーマンスを達成することができる。 id からの異常入力が提示された場合、dnn の出力は無意味と見なされるべきである。 しかし、現代のDNNは、しばしば異常入力を高い信頼度を持つIDクラスとして予測し、危険で誤解を招く。 本研究では,(1)DNNと異なる分布からの自然な入力をトレーニングし,そのサンプルをOOD(Out-of-Distribution)、(2)攻撃者によるIDから生成された入力をAD(Adversarial)サンプル,(3)無意味なデータから生成されたノイズ(NS)サンプルという,3種類の異常入力を考察する。 事前学習したDNNに対して,これらの異常を検知するフレームワークを提案する。 既存の研究と異なり、我々の手法は入力データの事前処理を必要としないし、既知のOODセットや敵攻撃アルゴリズムにも依存しない。 上記の異常検出のための様々なdnnモデルに関する広範囲な実験を通じて,本手法が3種類の異常の同定において最先端の異常検出法を上回っていることを示す。

Deep neural networks (DNN) can achieve high performance when applied to In-Distribution (ID) data which come from the same distribution as the training set. When presented with anomaly inputs not from the ID, the outputs of a DNN should be regarded as meaningless. However, modern DNN often predict anomaly inputs as an ID class with high confidence, which is dangerous and misleading. In this work, we consider three classes of anomaly inputs, (1) natural inputs from a different distribution than the DNN is trained for, known as Out-of-Distribution (OOD) samples, (2) crafted inputs generated from ID by attackers, often known as adversarial (AD) samples, and (3) noise (NS) samples generated from meaningless data. We propose a framework that aims to detect all these anomalies for a pre-trained DNN. Unlike some of the existing works, our method does not require preprocessing of input data, nor is it dependent to any known OOD set or adversarial attack algorithm. Through extensive experiments over a variety of DNN models for the detection of aforementioned anomalies, we show that in most cases our method outperforms state-of-the-art anomaly detection methods in identifying all three classes of anomalies.
翻訳日:2021-10-08 16:08:19 公開日:2021-10-06
# オンラインマルチクラスロジスティック回帰のための効率的な方法

Efficient Methods for Online Multiclass Logistic Regression ( http://arxiv.org/abs/2110.03020v1 )

ライセンス: Link先を確認
Naman Agarwal, Satyen Kale, Julian Zimmert(参考訳) マルチクラスロジスティック回帰は、分類と強化における機械学習の基本的なタスクである。 先行研究(Foster et al., 2018)では、オンラインマルチクラスロジスティック回帰問題において、比較クラスの予測器のノルムのような二次問題パラメータに指数関数的に苦しむことなく、不適切な予測器が「高速」を達成することの重要性を強調している。 foster et al. (2018) は統計的に最適なアルゴリズムを導入したが、実行時の複雑性が時間軸の大きな多項式と入力特徴ベクトルの次元であるため、計算的に難解である。 本稿では,フォスターらのアルゴリズムよりも高速に動作する問題に対して,新しいアルゴリズムであるフォークロア(folklore)を開発した。 (2018) -- イテレーションごとの実行時間は次元で二乗的にスケールする -- 後悔の限界における予測者の規範に対する線形依存のコストで。 これにより、オンライン多クラスロジスティック回帰のための最初の実用的なアルゴリズムが得られ、Fosterらによって解決される。 (2018). さらに,本アルゴリズムをオンラインバンディットマルチクラス予測やオンラインマルチクラスブースティングに適用できることを示し,フォスターなどと比較して,両問題に対してより実用的なアルゴリズムを提供する。 (2018) 同様の性能保証。 最後に,提案アルゴリズムのオンライン・バッチ変換結果も提供する。

Multiclass logistic regression is a fundamental task in machine learning with applications in classification and boosting. Previous work (Foster et al., 2018) has highlighted the importance of improper predictors for achieving "fast rates" in the online multiclass logistic regression problem without suffering exponentially from secondary problem parameters, such as the norm of the predictors in the comparison class. While Foster et al. (2018) introduced a statistically optimal algorithm, it is in practice computationally intractable due to its run-time complexity being a large polynomial in the time horizon and dimension of input feature vectors. In this paper, we develop a new algorithm, FOLKLORE, for the problem which runs significantly faster than the algorithm of Foster et al.(2018) -- the running time per iteration scales quadratically in the dimension -- at the cost of a linear dependence on the norm of the predictors in the regret bound. This yields the first practical algorithm for online multiclass logistic regression, resolving an open problem of Foster et al.(2018). Furthermore, we show that our algorithm can be applied to online bandit multiclass prediction and online multiclass boosting, yielding more practical algorithms for both problems compared to the ones in Foster et al.(2018) with similar performance guarantees. Finally, we also provide an online-to-batch conversion result for our algorithm.
翻訳日:2021-10-08 16:05:07 公開日:2021-10-06
# データ中心セミスーパーバイザラーニング

Data-Centric Semi-Supervised Learning ( http://arxiv.org/abs/2110.03006v1 )

ライセンス: Link先を確認
Xudong Wang, Long Lian, Stella X. Yu(参考訳) 本研究では,ラベルなしの大規模データを利用可能とし,ラベル取得のために少数のデータを予算化する,半教師付き学習(SSL)のための教師なしデータ選択について検討する。 既存のSSLメソッドは、与えられた小さなラベル付きデータと大きなラベル付きデータから情報を効果的に統合するモデルを学ぶことに注力する一方で、アクティブな学習のための教師付きデータ選択とは対照的に、ラベルやタスク情報なしでSSLの適切なデータを選択することに注力する。 直感的には、ラベル付けすべきインスタンスは、ダウンストリームタスクの最大多様性とカバレッジを持ち、SSLの最大情報伝達ユーティリティを個別に持つ。 これらの概念を3段階のデータ中心ssl法で定式化し,cifar-10では8% (0.08%) ,imagenet-1kでは14% (0.2%) 向上した。 私たちの研究は、注意深いラベル付きデータ選択に費やす小さな計算が、学習パイプラインを変更することなく、大きなアノテーション効率とモデルパフォーマンスの向上をもたらすことを示しています。 完全に教師なしのデータ選択は、他の弱教師付き学習設定に容易に拡張できます。

We study unsupervised data selection for semi-supervised learning (SSL), where a large-scale unlabeled data is available and a small subset of data is budgeted for label acquisition. Existing SSL methods focus on learning a model that effectively integrates information from given small labeled data and large unlabeled data, whereas we focus on selecting the right data for SSL without any label or task information, in an also stark contrast to supervised data selection for active learning. Intuitively, instances to be labeled shall collectively have maximum diversity and coverage for downstream tasks, and individually have maximum information propagation utility for SSL. We formalize these concepts in a three-step data-centric SSL method that improves FixMatch in stability and accuracy by 8% on CIFAR-10 (0.08% labeled) and 14% on ImageNet-1K (0.2% labeled). Our work demonstrates that a small compute spent on careful labeled data selection brings big annotation efficiency and model performance gain without changing the learning pipeline. Our completely unsupervised data selection can be easily extended to other weakly supervised learning settings.
翻訳日:2021-10-08 16:02:18 公開日:2021-10-06
# FOD-A:空港における異物デブリのデータセット

FOD-A: A Dataset for Foreign Object Debris in Airports ( http://arxiv.org/abs/2110.03072v1 )

ライセンス: Link先を確認
Travis Munyer, Pei-Chi Huang, Chenyu Huang, Xin Zhong(参考訳) 外部オブジェクトデブリ(fod)検出は、機械学習とコンピュータビジョンの分野で注目を集めている。 しかし、FOD用の堅牢で公開のイメージデータセットは初期化されていない。 そこで本稿では,FOD in Airports (FOD-A) と呼ばれるFODの画像データセットを提案する。 FOD-Aオブジェクトカテゴリは、連邦航空局(FAA)による以前の文書および関連する研究のガイダンスに基づいて選択されている。 オブジェクト検出のためのバウンディングボックスの主なアノテーションに加えて、fod-aはラベル付き環境条件を提供する。 それぞれのアノテーションインスタンスはさらに3つのライトレベルカテゴリ(ブライト、ダイム、ダーク)と2つの天気カテゴリ(ドライ、ウェット)に分類される。 現在、fod-aは31のオブジェクトカテゴリと30,000以上のアノテーションインスタンスをリリースした。 本稿では,公開データセット拡張プロセスについて議論し,オブジェクト検出に広く使用される機械学習モデルを用いたfod-aの実用性を示す。

Foreign Object Debris (FOD) detection has attracted increased attention in the area of machine learning and computer vision. However, a robust and publicly available image dataset for FOD has not been initialized. To this end, this paper introduces an image dataset of FOD, named FOD in Airports (FOD-A). FOD-A object categories have been selected based on guidance from prior documentation and related research by the Federal Aviation Administration (FAA). In addition to the primary annotations of bounding boxes for object detection, FOD-A provides labeled environmental conditions. As such, each annotation instance is further categorized into three light level categories (bright, dim, and dark) and two weather categories (dry and wet). Currently, FOD-A has released 31 object categories and over 30,000 annotation instances. This paper presents the creation methodology, discusses the publicly available dataset extension process, and demonstrates the practicality of FOD-A with widely used machine learning models for object detection.
翻訳日:2021-10-08 16:01:57 公開日:2021-10-06
# speed+: ドメインギャップを越えた宇宙船のポーズ推定のための次世代データセット

SPEED+: Next Generation Dataset for Spacecraft Pose Estimation across Domain Gap ( http://arxiv.org/abs/2110.03101v1 )

ライセンス: Link先を確認
Tae Ha Park, Marcus M\"artens, Gurvan Lecuyer, Dario Izzo, Simone D'Amico(参考訳) 自律的なビジョンに基づく宇宙飛行ナビゲーションは、将来の軌道上のサービテーションと宇宙ロジスティクスのミッションを可能にする技術である。 一般に、コンピュータビジョンは機械学習(ML)の恩恵を受けているが、宇宙環境におけるターゲットの画像の大規模なラベル付きデータセットを取得するという非現実性のため、宇宙に浮かぶMLモデルの訓練と検証は非常に難しい。 既存のデータセット、例えば宇宙船のポーズ推定データセット(speed)は、トレーニングと検証の両方のために合成画像に依存しており、大量生産は容易であるが、対象の宇宙画像に固有の視覚特徴や照明変動に似ていない。 今後の宇宙ミッションにおける現在の実践と応用のギャップを埋めるため,次世代宇宙船SPEED+では,領域ギャップを特に重視した推定データセットを提案する。 トレーニング用の6万枚の合成画像に加えて、speed+には、ランデブーおよび光ナビゲーション(tron)施設の試験ベッドから撮影された宇宙船モックアップモデルの9,531枚のシミュレーション画像が含まれている。 tronは、最も多様なポーズラベルと高精細なスペースベース照明条件で、任意の数のターゲット画像を撮影できる初のロボットテストベッドである。 speed+は、欧州宇宙機関(esa)のadvanced conceptsチームと共同で、合成画像で訓練されたスペースベースmlモデルのロバスト性を評価し比較するために、近く予定されている国際衛星ポーズ推定チャレンジで使用される。

Autonomous vision-based spaceborne navigation is an enabling technology for future on-orbit servicing and space logistics missions. While computer vision in general has benefited from Machine Learning (ML), training and validating spaceborne ML models are extremely challenging due to the impracticality of acquiring a large-scale labeled dataset of images of the intended target in the space environment. Existing datasets, such as Spacecraft PosE Estimation Dataset (SPEED), have so far mostly relied on synthetic images for both training and validation, which are easy to mass-produce but fail to resemble the visual features and illumination variability inherent to the target spaceborne images. In order to bridge the gap between the current practices and the intended applications in future space missions, this paper introduces SPEED+: the next generation spacecraft pose estimation dataset with specific emphasis on domain gap. In addition to 60,000 synthetic images for training, SPEED+ includes 9,531 simulated images of a spacecraft mockup model captured from the Testbed for Rendezvous and Optical Navigation (TRON) facility. TRON is a first-of-a-kind robotic testbed capable of capturing an arbitrary number of target images with accurate and maximally diverse pose labels and high-fidelity spaceborne illumination conditions. SPEED+ will be used in the upcoming international Satellite Pose Estimation Challenge co-hosted with the Advanced Concepts Team of the European Space Agency to evaluate and compare the robustness of spaceborne ML models trained on synthetic images.
翻訳日:2021-10-08 16:01:42 公開日:2021-10-06
# 畳み込みオートエンコーダを用いた教師なしマルチモーダル言語表現

Unsupervised Multimodal Language Representations using Convolutional Autoencoders ( http://arxiv.org/abs/2110.03007v1 )

ライセンス: Link先を確認
Panagiotis Koromilas and Theodoros Giannakopoulos(参考訳) マルチモーダル言語分析(Multimodal Language Analysis)は、異なるモダリティの組み合わせと時間情報の取得という2つの要件に関連付けられている研究領域である。 近年では、主に下流のタスクにおける教師あり学習を中心に、いくつかの研究が提案されている。 本稿では,汎用的で異なるタスクに適用可能な教師なしマルチモーダル言語表現の抽出を提案する。 この目的に向けて,単語レベルの複数モーダル列を2次元行列にマッピングし,畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。 感性分析(MOSEI)と感情認識(IEMOCAP)の広汎な実験により、学習された表現は、下流分類にロジスティック回帰アルゴリズムを用いるだけで、ほぼ最先端のパフォーマンスを達成できることを示した。 また,本手法は極めて軽量であり,他のタスクに容易に一般化でき,少ない性能低下とほぼ同数のパラメータでデータを取得できないことを示した。 提案したマルチモーダル表現モデルはオープンソースであり、マルチモーダル言語の適用性の向上に役立つだろう。

Multimodal Language Analysis is a demanding area of research, since it is associated with two requirements: combining different modalities and capturing temporal information. During the last years, several works have been proposed in the area, mostly centered around supervised learning in downstream tasks. In this paper we propose extracting unsupervised Multimodal Language representations that are universal and can be applied to different tasks. Towards this end, we map the word-level aligned multimodal sequences to 2-D matrices and then use Convolutional Autoencoders to learn embeddings by combining multiple datasets. Extensive experimentation on Sentiment Analysis (MOSEI) and Emotion Recognition (IEMOCAP) indicate that the learned representations can achieve near-state-of-the-art performance with just the use of a Logistic Regression algorithm for downstream classification. It is also shown that our method is extremely lightweight and can be easily generalized to other tasks and unseen data with small performance drop and almost the same number of parameters. The proposed multimodal representation models are open-sourced and will help grow the applicability of Multimodal Language.
翻訳日:2021-10-08 15:59:26 公開日:2021-10-06
# 新しいWFSTトポロジーによるCTC変動

CTC Variations Through New WFST Topologies ( http://arxiv.org/abs/2110.03098v1 )

ライセンス: Link先を確認
Aleksandr Laptev, Somshubra Majumdar, Boris Ginsburg(参考訳) 本稿では,コネクショニスト時相分類(CTC)のような自動音声認識アルゴリズムを実装するために,WFST(Weighted Finite-State Transducer)トポロジを提案する。 1)ユニット間の直接遷移を<epsilon>バックオフ遷移に置き換える"compact-CTC",(2)WFSTコンポジションで使用する場合に<blank>自己ループのみを追加する"minimal-CTC",(3)非ブランクユニットの自己ループを許可する"selfless-CTC"の3つの新しいCTC変種が提案されている。 新しいCTC変種には、モデルの精度を維持しながらトレーニングに必要なデコードグラフサイズとGPUメモリの削減など、いくつかのメリットがある。

This paper presents novel Weighted Finite-State Transducer (WFST) topologies to implement Connectionist Temporal Classification (CTC)-like algorithms for automatic speech recognition. Three new CTC variants are proposed: (1) the "compact-CTC", in which direct transitions between units are replaced with <epsilon> back-off transitions; (2) the "minimal-CTC", that only adds <blank> self-loops when used in WFST-composition; and (3) "selfless-CTC", that disallows self-loop for non-blank units. The new CTC variants have several benefits, such as reducing decoding graph size and GPU memory required for training while keeping model accuracy.
翻訳日:2021-10-08 15:59:07 公開日:2021-10-06
# 部分グラフ分散を用いたグラフ畳み込みネットワークの分散最適化

Distributed Optimization of Graph Convolutional Network using Subgraph Variance ( http://arxiv.org/abs/2110.02987v1 )

ライセンス: Link先を確認
Taige Zhao, Xiangyu Song, Jianxin Li, Wei Luo, Imran Razzak(参考訳) 近年、グラフ畳み込みネットワーク(GCN)は、グラフ構造化データから学習において大きな成功を収めている。 グラフノードやエッジの増加に伴い、単一プロセッサによるGCNトレーニングは時間とメモリの需要を満たすことができないため、分散GCNトレーニングフレームワークの研究がブームとなった。 しかし、既存の分散GCNトレーニングフレームワークは、依存ノードやエッジ情報を収集し、他のプロセッサからのGCNトレーニングのために送信する必要があるため、プロセッサ間の通信コストが膨大なものである。 本稿では,グラフ拡張に基づく分散GCNフレームワーク(GAD)を提案する。 特にGADには、GAD-PartitionとGAD-Optimizerの2つの主要コンポーネントがある。 まず,元のグラフを拡張サブグラフに分割して,トレーニングの精度を確保しつつ,他のプロセッサの重要なノードを可能な限り選択・保存することで通信を削減できるグラフ拡張ベースのパーティション(GAD-Partition)を提案する。 さらに,サブグラフ分散に基づく重要度計算式を更に設計し,gad-optimizerと呼ばれる新しい重み付きグローバルコンセンサス法を提案する。 このオプティマイザは、gad-partitionが分散gcnトレーニングに導入する余分な分散の影響を減らすために、大きなばらつきを持つサブグラフの重要性を適応的に低減する。 4つの大規模実世界のデータセットに対する大規模な実験により、我々のフレームワークは通信オーバーヘッド(50%)を著しく低減し、分散GCNトレーニングの収束速度(2X)を向上し、最先端の手法と比較して最小冗長性に基づく精度(0.45%)をわずかに向上することを示した。

In recent years, Graph Convolutional Networks (GCNs) have achieved great success in learning from graph-structured data. With the growing tendency of graph nodes and edges, GCN training by single processor cannot meet the demand for time and memory, which led to a boom into distributed GCN training frameworks research. However, existing distributed GCN training frameworks require enormous communication costs between processors since multitudes of dependent nodes and edges information need to be collected and transmitted for GCN training from other processors. To address this issue, we propose a Graph Augmentation based Distributed GCN framework(GAD). In particular, GAD has two main components, GAD-Partition and GAD-Optimizer. We first propose a graph augmentation-based partition (GAD-Partition) that can divide original graph into augmented subgraphs to reduce communication by selecting and storing as few significant nodes of other processors as possible while guaranteeing the accuracy of the training. In addition, we further design a subgraph variance-based importance calculation formula and propose a novel weighted global consensus method, collectively referred to as GAD-Optimizer. This optimizer adaptively reduces the importance of subgraphs with large variances for the purpose of reducing the effect of extra variance introduced by GAD-Partition on distributed GCN training. Extensive experiments on four large-scale real-world datasets demonstrate that our framework significantly reduces the communication overhead (50%), improves the convergence speed (2X) of distributed GCN training, and slight gain in accuracy (0.45%) based on minimal redundancy compared to the state-of-the-art methods.
翻訳日:2021-10-08 15:58:26 公開日:2021-10-06
# 複数の投票による連合学習

Federated Learning via Plurality Vote ( http://arxiv.org/abs/2110.02998v1 )

ライセンス: Link先を確認
Kai Yue, Richeng Jin, Chau-Wai Wong, Huaiyu Dai(参考訳) フェデレートされた学習は、データプライバシを保持しながら、共同作業者が機械学習の問題を解決することを可能にする。 近年、連合学習における様々な課題に取り組んできたが、コミュニケーションオーバーヘッド、学習信頼性、デプロイメント効率の協調最適化は依然として未解決の問題である。 そこで本稿では,複数投票によるフェデレーション学習(FedVote)という新しい手法を提案する。 FedVoteの各通信ラウンドでは、ワーカは通信オーバーヘッドの少ないサーバにバイナリまたは3次重みを送信する。 モデルパラメータは重み付け投票によって集約され、ビザンチン攻撃に対するレジリエンスを高める。 推論のためにデプロイされる場合、バイナリまたは3次重みを持つモデルは、エッジデバイスに対してリソースフレンドリである。 提案手法は, モデル更新を直接定量化する手法と比較して, 量子化誤差を低減し, 収束を高速化できることを示す。

Federated learning allows collaborative workers to solve a machine learning problem while preserving data privacy. Recent studies have tackled various challenges in federated learning, but the joint optimization of communication overhead, learning reliability, and deployment efficiency is still an open problem. To this end, we propose a new scheme named federated learning via plurality vote (FedVote). In each communication round of FedVote, workers transmit binary or ternary weights to the server with low communication overhead. The model parameters are aggregated via weighted voting to enhance the resilience against Byzantine attacks. When deployed for inference, the model with binary or ternary weights is resource-friendly to edge devices. We show that our proposed method can reduce quantization error and converges faster compared with the methods directly quantizing the model updates.
翻訳日:2021-10-08 15:57:56 公開日:2021-10-06
# コミュニケーション効率と個人差分学習のための2ビットアグリゲーション

Two-Bit Aggregation for Communication Efficient and Differentially Private Federated Learning ( http://arxiv.org/abs/2110.03017v1 )

ライセンス: Link先を確認
Mohammad Aghapour and Aidin Ferdowsi and Walid Saad(参考訳) フェデレートラーニング(FL)では、機械学習モデルは、データをローカルに保ち、他のノードと共有しない状態で、複数のノードで分散的にトレーニングされる。 しかし、flでは、集約のためにモデルパラメータに関する情報を中央サーバに送信する必要がある。 しかし、ノードからサーバに送信された情報は、各ノードのローカルデータの詳細を明らかにする可能性があるため、プライバシー上の懸念が生じる。 さらに、ノードからサーバへの繰り返しのアップリンク送信は、通信オーバーヘッドとネットワークの混雑をもたらす可能性がある。 この2つの課題に対処するために,差分プライバシーを保証し,アップリンク通信オーバーヘッドを低減した新しい2ビット集約アルゴリズムを提案する。 大規模な実験により,提案アルゴリズムはMNIST, Fashion MNIST, CIFAR-10, CIFAR-100といったデータセットに対する最先端のアプローチと同じ性能を達成でき, 差分プライバシーの確保と通信効率の向上を実現している。

In federated learning (FL), a machine learning model is trained on multiple nodes in a decentralized manner, while keeping the data local and not shared with other nodes. However, FL requires the nodes to also send information on the model parameters to a central server for aggregation. However, the information sent from the nodes to the server may reveal some details about each node's local data, thus raising privacy concerns. Furthermore, the repetitive uplink transmission from the nodes to the server may result in a communication overhead and network congestion. To address these two challenges, in this paper, a novel two-bit aggregation algorithm is proposed with guaranteed differential privacy and reduced uplink communication overhead. Extensive experiments demonstrate that the proposed aggregation algorithm can achieve the same performance as state-of-the-art approaches on datasets such as MNIST, Fashion MNIST, CIFAR-10, and CIFAR-100, while ensuring differential privacy and improving communication efficiency.
翻訳日:2021-10-08 15:57:45 公開日:2021-10-06
# 階層的一時記憶によるクラウド障害予測:経験的評価

Cloud Failure Prediction with Hierarchical Temporary Memory: An Empirical Assessment ( http://arxiv.org/abs/2110.03431v1 )

ライセンス: Link先を確認
Oliviero Riganelli, Paolo Saltarel, Alessandro Tundo, Marco Mobilio, Leonardo Mariani(参考訳) hierarchy temporary memory (htm) は、新皮質の特徴に触発された教師なし学習アルゴリズムであり、大量のデータをトレーニングしたりラベル付きデータを必要とせずに、ストリームデータを継続的に処理し異常を検出するのに使用できる。 HTMはまた、サンプルから継続的に学習することができ、観測に関して常に最新のモデルを提供する。 これらの特徴により、htmは、問題を予測するために監視されなければならない動的に変化する振る舞いを持つシステムであるクラウドシステムにおいて、オンライン障害予測をサポートするのに特に適しています。 本稿では,障害予測の文脈でHTMを評価する最初の体系的研究について述べる。 72種類のhtmの構成をclearwater cloudシステムで導入した12種類の障害に適用した結果から,htmは十分な有効性 (f-measure = 0.76) で障害を予測するのに役立つことがわかった。

Hierarchical Temporary Memory (HTM) is an unsupervised learning algorithm inspired by the features of the neocortex that can be used to continuously process stream data and detect anomalies, without requiring a large amount of data for training nor requiring labeled data. HTM is also able to continuously learn from samples, providing a model that is always up-to-date with respect to observations. These characteristics make HTM particularly suitable for supporting online failure prediction in cloud systems, which are systems with a dynamically changing behavior that must be monitored to anticipate problems. This paper presents the first systematic study that assesses HTM in the context of failure prediction. The results that we obtained considering 72 configurations of HTM applied to 12 different types of faults introduced in the Clearwater cloud system show that HTM can help to predict failures with sufficient effectiveness (F-measure = 0.76), representing an interesting practical alternative to (semi-)supervised algorithms.
翻訳日:2021-10-08 15:56:30 公開日:2021-10-06
# RieszNetとForestRiesz: ニューラルネットワークとランダムフォレストを用いた自動脱バイアス機械学習

RieszNet and ForestRiesz: Automatic Debiased Machine Learning with Neural Nets and Random Forests ( http://arxiv.org/abs/2110.03031v1 )

ライセンス: Link先を確認
Victor Chernozhukov, Whitney K. Newey, Victor Quintas-Martinez, Vasilis Syrgkanis(参考訳) 多くの利害関係および政策効果は、高次元または非パラメトリック回帰関数の線形汎関数によって定義される。 $\sqrt{n}$- consistent and asymptotically normal estimation of the object of interest must debiasing to reduce the effect of regularization and/or model selection on the object of interest (英語) デバイアスは典型的には、函数のプラグイン推定器に補正項を加えることで達成されるが、これは影響関数として知られる関数特異的な理論的導出に基づいて導かれ、二重ロバスト性やナイマン直交性のような性質をもたらす。 代わりに,ニューラルネットワークとランダムフォレストを用いて線形関数のリース表現を自動的に学習する手法を実装した。 本手法は,線形関数への値クエリオラクルアクセスのみを必要とする。 本稿では,2つの関数の表現層を共有しつつ,riesz表現と回帰損失を組み合わせた確率的勾配降下最小化を用いたマルチタスクニューラルネットデバイアス手法を提案する。 また,riesz関数の局所線形表現を学習するランダムフォレスト手法を提案する。 本手法は任意の機能に応用できるが, 平均処理効果汎関数の場合, 従来のニューラルネットワークベース推定器であるshi et al. (2019) の性能を上回っていることが実験的に判明した。 また, ガソリン需要に対するガソリン価格変化の半合成データを用いて, 連続処理による平均限界効果推定の課題についても検討した。

Many causal and policy effects of interest are defined by linear functionals of high-dimensional or non-parametric regression functions. $\sqrt{n}$-consistent and asymptotically normal estimation of the object of interest requires debiasing to reduce the effects of regularization and/or model selection on the object of interest. Debiasing is typically achieved by adding a correction term to the plug-in estimator of the functional, that is derived based on a functional-specific theoretical derivation of what is known as the influence function and which leads to properties such as double robustness and Neyman orthogonality. We instead implement an automatic debiasing procedure based on automatically learning the Riesz representation of the linear functional using Neural Nets and Random Forests. Our method solely requires value query oracle access to the linear functional. We propose a multi-tasking Neural Net debiasing method with stochastic gradient descent minimization of a combined Riesz representer and regression loss, while sharing representation layers for the two functions. We also propose a Random Forest method which learns a locally linear representation of the Riesz function. Even though our methodology applies to arbitrary functionals, we experimentally find that it beats state of the art performance of the prior neural net based estimator of Shi et al. (2019) for the case of the average treatment effect functional. We also evaluate our method on the more challenging problem of estimating average marginal effects with continuous treatments, using semi-synthetic data of gasoline price changes on gasoline demand.
翻訳日:2021-10-08 15:55:29 公開日:2021-10-06
# GMM推定のためのロバストアルゴリズム:有限サンプル視点

Robust Algorithms for GMM Estimation: A Finite Sample Viewpoint ( http://arxiv.org/abs/2110.03070v1 )

ライセンス: Link先を確認
Dhruv Rohatgi, Vasilis Syrgkanis(参考訳) 統計学や計量学における多くの推論問題に対して、未知のパラメータはモーメント条件によって識別される。 モーメント条件を解く一般的な方法は一般化モーメント法(gmm)である。 しかし、古典的なGMM推定は外れ値に非常に敏感である可能性がある。 ロバスト化GMM推定器は過去にも開発されてきたが、計算の難易度、次元依存性の低さ、不規則な外れ値の存在下での定量的回復保証など、いくつかの欠点に悩まされている。 本研究では, 計算効率のよいGMM推定器(直観的な仮定の下で)を開発し, 一定の$\epsilon$ の逆劣化サンプルを許容し, $O(\sqrt{\epsilon})$ の $\ell_2$ の回復保証を持つ。 これを実現するため、平均推定や線形回帰、確率的最適化といった、関連するがより単純な問題に対するアルゴリズムロバストな統計に関する最近の研究の線引きと拡張を行った。 アルゴリズムの一般性の2つの例として,推定アルゴリズムと仮定が器用変数の線形回帰とロジスティック回帰にどのように適用されるかを示す。 さらに, 腐敗を伴う合成および半合成データセットにおいて, 推定器が古典的iv回帰および二段階フーバー回帰よりも優れていることを実験的に検証した。

For many inference problems in statistics and econometrics, the unknown parameter is identified by a set of moment conditions. A generic method of solving moment conditions is the Generalized Method of Moments (GMM). However, classical GMM estimation is potentially very sensitive to outliers. Robustified GMM estimators have been developed in the past, but suffer from several drawbacks: computational intractability, poor dimension-dependence, and no quantitative recovery guarantees in the presence of a constant fraction of outliers. In this work, we develop the first computationally efficient GMM estimator (under intuitive assumptions) that can tolerate a constant $\epsilon$ fraction of adversarially corrupted samples, and that has an $\ell_2$ recovery guarantee of $O(\sqrt{\epsilon})$. To achieve this, we draw upon and extend a recent line of work on algorithmic robust statistics for related but simpler problems such as mean estimation, linear regression and stochastic optimization. As two examples of the generality of our algorithm, we show how our estimation algorithm and assumptions apply to instrumental variables linear and logistic regression. Moreover, we experimentally validate that our estimator outperforms classical IV regression and two-stage Huber regression on synthetic and semi-synthetic datasets with corruption.
翻訳日:2021-10-08 15:55:02 公開日:2021-10-06
# 教師学習を用いた高分解能脳ネットワーク予測のためのドメイン間アライメント

Inter-Domain Alignment for Predicting High-Resolution Brain Networks Using Teacher-Student Learning ( http://arxiv.org/abs/2110.03452v1 )

ライセンス: Link先を確認
Basar Demir, Alaa Bessadok, and Islem Rekik(参考訳) 高精度で自動化された超解像画像合成は、高コストな医療スキャンと時間を要するニューロイメージングデータの前処理パイプラインの獲得を回避できる大きな可能性を秘めているため、非常に望まれている。 しかし、既存のディープラーニングフレームワークは、低解像度(LR)画像から高解像度(HR)画像を予測するためにのみ設計されており、その一般化能力は脳グラフ(コネクトーム)に制限される。 少数の研究は、単一のLRグラフからHRグラフを予測することを目的として、脳グラフの超解法に焦点を当てている。 有望ではあるが、既存の研究は、主に同じドメインに属する超解法グラフ(例えば、機能)に焦点を当て、マルチモーダルな脳データ分布(例えば、形態学と構造学)の間に存在する領域の破壊を見渡す。 そこで本研究では,脳グラフの超解法に教師-学生パラダイムを取り入れた,知識蒸留ネットワーク(L2S-KDnet)を用いた新たなドメイン間適応フレームワークを提案する。 教師ネットワークは,まずlrブレイングラフ埋め込みを学習するグラフエンコーダ・デコーダであり,次に,相反正規化を用いたhrグランド・真実データ分布への潜在表現の調整方法を学ぶ。 最終的に、HRグラフをアライメントされた埋め込みからデコードする。 次に,学生ネットワークは,教師から伝達される予測されたhrグラフの位相構造だけでなく,アライメントされた脳グラフの知識を学習する。 さらに,教師のデコーダを利用して学生ネットワークを最適化する。 L2S-KDnetは、ドメイン間のアライメントに基づく脳グラフ超解像合成に適した最初のTSアーキテクチャを提供する。 評価実験の結果,ベンチマーク法よりもかなりの性能向上を示した。

Accurate and automated super-resolution image synthesis is highly desired since it has the great potential to circumvent the need for acquiring high-cost medical scans and a time-consuming preprocessing pipeline of neuroimaging data. However, existing deep learning frameworks are solely designed to predict high-resolution (HR) image from a low-resolution (LR) one, which limits their generalization ability to brain graphs (i.e., connectomes). A small body of works has focused on superresolving brain graphs where the goal is to predict a HR graph from a single LR graph. Although promising, existing works mainly focus on superresolving graphs belonging to the same domain (e.g., functional), overlooking the domain fracture existing between multimodal brain data distributions (e.g., morphological and structural). To this aim, we propose a novel inter-domain adaptation framework namely, Learn to SuperResolve Brain Graphs with Knowledge Distillation Network (L2S-KDnet), which adopts a teacher-student paradigm to superresolve brain graphs. Our teacher network is a graph encoder-decoder that firstly learns the LR brain graph embeddings, and secondly learns how to align the resulting latent representations to the HR ground truth data distribution using an adversarial regularization. Ultimately, it decodes the HR graphs from the aligned embeddings. Next, our student network learns the knowledge of the aligned brain graphs as well as the topological structure of the predicted HR graphs transferred from the teacher. We further leverage the decoder of the teacher to optimize the student network. L2S-KDnet presents the first TS architecture tailored for brain graph super-resolution synthesis that is based on inter-domain alignment. Our experimental results demonstrate substantial performance gains over benchmark methods.
翻訳日:2021-10-08 15:51:35 公開日:2021-10-06
# 集団駆動型脳接続テンプレートの進化予測のための再帰的マルチグラフインテグレータネットワーク

Recurrent Multigraph Integrator Network for Predicting the Evolution of Population-Driven Brain Connectivity Templates ( http://arxiv.org/abs/2110.03453v1 )

ライセンス: Link先を確認
Oytun Demirbilek and Islem Rekik(参考訳) 連結脳テンプレート(CBT)を脳多グラフの集団から推定する方法を学ぶことで、各グラフ(例えば、機能的)は、関心の対の脳領域(ROI)の間の特定の関係を定量化し、個人間で共有されるユニークな接続パターンを特定できるようにする。 具体的には、CBTは高度に異質なグラフの集合の積分表現と見なされ、理想的には中心性(すなわち、人口内のすべてのグラフへの最小距離)と識別性(すなわち、混乱した人口と健康性を区別する)の基準を満たす。 これまでのところ、既存の作品は単一の時間で取得した脳のマルチグラフの統合と融合に限られている。 ベースラインのマルチグラフ人口を考えると、そのCBT表現をフォローアップタイムポイントでどのように統合し、予測するかを学ぶことができるだろうか? このような問題に対処することは、健康な人口と無秩序な人口の共通の変化を予測する上で最重要である。 このギャップを埋めるために,入力集団t1のベースラインcbtを推定し,その経時的変化を予測する最初のグラフ再帰型ニューラルネットワークであるrecurrent multigraph integrator network (remi-net)を提案する(ti > t1)。 我々のReMI-Netは、グラフ畳み込み層を持つ繰り返しニューラルネットワークブロックで構成されており、クロスノードメッセージパスを使用して、まず各CBTノードの隠れ状態埋め込み(すなわち、関心のある脳領域)を学習し、連続した時間ポイントでその進化を予測する。 さらに,CBTの進化軌道を時間とともに規則化する新たな時間依存的損失を設計し,さらに周期的再帰および学習可能な正規化層を導入し,時間依存型隠れ状態埋め込みから良好なCBTを生成する。 最後に、学習した隠れ状態グラフ表現からCBT隣接行列を導出する。

Learning how to estimate a connectional brain template(CBT) from a population of brain multigraphs, where each graph (e.g., functional) quantifies a particular relationship between pairs of brain regions of interest (ROIs), allows to pin down the unique connectivity patterns shared across individuals. Specifically, a CBT is viewed as an integral representation of a set of highly heterogeneous graphs and ideally meeting the centeredness (i.e., minimum distance to all graphs in the population) and discriminativeness (i.e., distinguishes the healthy from the disordered population) criteria. So far, existing works have been limited to only integrating and fusing a population of brain multigraphs acquired at a single timepoint. In this paper, we unprecedentedly tackle the question: Given a baseline multigraph population, can we learn how to integrate and forecast its CBT representations at follow-up timepoints? Addressing such question is of paramount in predicting common alternations across healthy and disordered populations. To fill this gap, we propose Recurrent Multigraph Integrator Network (ReMI-Net), the first graph recurrent neural network which infers the baseline CBT of an input population t1 and predicts its longitudinal evolution over time (ti > t1). Our ReMI-Net is composed of recurrent neural blocks with graph convolutional layers using a cross-node message passing to first learn hidden-states embeddings of each CBT node (i.e., brain region of interest) and then predict its evolution at the consecutive timepoint. Moreover, we design a novel time-dependent loss to regularize the CBT evolution trajectory over time and further introduce a cyclic recursion and learnable normalization layer to generate well-centered CBTs from time-dependent hidden-state embeddings. Finally, we derive the CBT adjacency matrix from the learned hidden state graph representation.
翻訳日:2021-10-08 15:51:05 公開日:2021-10-06
# ベースラインタイムポイントからのマルチモーダルベビー接続性開発予測のための数ショット学習グラフ多軌道進化ネットワーク

A Few-shot Learning Graph Multi-Trajectory Evolution Network for Forecasting Multimodal Baby Connectivity Development from a Baseline Timepoint ( http://arxiv.org/abs/2110.03535v1 )

ライセンス: Link先を確認
Alaa Bessadok, Ahmed Nebli, Mohamed Ali Mahjoub, Gang Li, Weili Lin, Dinggang Shen and Islem Rekik(参考訳) 出生後1年間の赤ちゃんコネクトーム進化の軌跡は、赤ちゃんの脳のダイナミックな結合性発達を理解する上で重要な役割を担っている。 このような分析は、長手接続データセットの取得を必要とする。 しかし、新生児スキャンも生後スキャンも様々な困難から取得されることはほとんどない。 少数の研究は、単一モダリティに由来する新生児脳コネクトームから脳の進化軌道を予測することに重点を置いている。 有望ではあるが、大規模なトレーニングデータセットはモデル学習を促進し、異なるモーダル(機能的および形態的コネクトーム)から多軌道予測に一般化するために不可欠である。 異なるモードで脳グラフの軌跡を予測するための、数ショットの学習ベースのフレームワークを設計できるだろうか? そこで本研究では,教師ネットワークが純粋に新生児脳グラフを学習し,学生ネットワークが様々な時間ポイントを与えられたシミュレーション脳グラフを学習する教師学習パラダイムを取り入れたグラフ多軌道進化ネットワーク(gmte-net)を提案する。 我々の知る限りでは、これは脳グラフ多軌道成長予測に適した最初の教師学生アーキテクチャであり、少数ショット学習に基づいてグラフニューラルネットワーク(GNN)に一般化されている。 学生ネットワークの性能を高めるために,生徒ネットワークの予測グラフトポロジーを教師ネットワークと整合させる局所トポロジー対応蒸留損失を導入する。 実験により, ベンチマーク法よりもかなりの性能向上を示した。 したがって、我々のGmTE-Netは、様々なモードにわたる非定型的な脳接続軌道の進化を予測するために利用することができる。 私たちのコードはhttps: //github.com/basiralab/GmTE-Netで利用可能です。

Charting the baby connectome evolution trajectory during the first year after birth plays a vital role in understanding dynamic connectivity development of baby brains. Such analysis requires acquisition of longitudinal connectomic datasets. However, both neonatal and postnatal scans are rarely acquired due to various difficulties. A small body of works has focused on predicting baby brain evolution trajectory from a neonatal brain connectome derived from a single modality. Although promising, large training datasets are essential to boost model learning and to generalize to a multi-trajectory prediction from different modalities (i.e., functional and morphological connectomes). Here, we unprecedentedly explore the question: Can we design a few-shot learning-based framework for predicting brain graph trajectories across different modalities? To this aim, we propose a Graph Multi-Trajectory Evolution Network (GmTE-Net), which adopts a teacher-student paradigm where the teacher network learns on pure neonatal brain graphs and the student network learns on simulated brain graphs given a set of different timepoints. To the best of our knowledge, this is the first teacher-student architecture tailored for brain graph multi-trajectory growth prediction that is based on few-shot learning and generalized to graph neural networks (GNNs). To boost the performance of the student network, we introduce a local topology-aware distillation loss that forces the predicted graph topology of the student network to be consistent with the teacher network. Experimental results demonstrate substantial performance gains over benchmark methods. Hence, our GmTE-Net can be leveraged to predict atypical brain connectivity trajectory evolution across various modalities. Our code is available at https: //github.com/basiralab/GmTE-Net.
翻訳日:2021-10-08 15:50:13 公開日:2021-10-06
# 大規模テキスト正規化のための高速ランダム化アルゴリズム

A Fast Randomized Algorithm for Massive Text Normalization ( http://arxiv.org/abs/2110.03024v1 )

ライセンス: Link先を確認
Nan Jiang, Chen Luo, Vihan Lakshman, Yesh Dattatreya, Yexiang Xue(参考訳) 自然言語処理やデータマイニングで一般的な機械学習技術の多くは、高品質なテキストソースに依存している。 しかし、実世界のテキストデータセットには、大量のスペルエラーと、これらのモデルの性能が急速に悪化する不適切な変動が含まれている。 さらに、実世界のWebスケールデータセットには、数十億行、あるいは数十億行のテキストが含まれている。 本稿では,大規模テキストデータのクリーン化とカノニカル化を行うスケーラブルなランダム化アルゴリズム flan を提案する。 本アルゴリズムは, 単語間のジャカード類似性を利用して補正結果を提案する。 我々は,局所性センシティブハッシュ(lsh)による単語対単語比較を効率的に処理する。 また,LSHのランダム化の性質の結果として生じる異種単語間のハッシュ衝突の問題に対処し,現実のデータセットの大規模化によって悪化する新たな安定化手法を提案する。 従来の手法と比較して,本手法は漸近的,経験的評価ともに効率的であり,語彙的・音声的類似性や単語埋め込み機能など追加機能に依存しない。 加えて、FLANは注釈付きデータや教師付き学習を必要としない。 さらに、補正の偽正負率と偽負率に上限を持つアルゴリズムのロバスト性を理論的に示す。 実世界のデータセットに対する実験結果は,FLANの有効性と有効性を示す。

Many popular machine learning techniques in natural language processing and data mining rely heavily on high-quality text sources. However real-world text datasets contain a significant amount of spelling errors and improperly punctuated variants where the performance of these models would quickly deteriorate. Moreover, real-world, web-scale datasets contain hundreds of millions or even billions of lines of text, where the existing text cleaning tools are prohibitively expensive to execute over and may require an overhead to learn the corrections. In this paper, we present FLAN, a scalable randomized algorithm to clean and canonicalize massive text data. Our algorithm relies on the Jaccard similarity between words to suggest correction results. We efficiently handle the pairwise word-to-word comparisons via Locality Sensitive Hashing (LSH). We also propose a novel stabilization process to address the issue of hash collisions between dissimilar words, which is a consequence of the randomized nature of LSH and is exacerbated by the massive scale of real-world datasets. Compared with existing approaches, our method is more efficient, both asymptotically and in empirical evaluations, and does not rely on additional features, such as lexical/phonetic similarity or word embedding features. In addition, FLAN does not require any annotated data or supervised learning. We further theoretically show the robustness of our algorithm with upper bounds on the false positive and false negative rates of corrections. Our experimental results on real-world datasets demonstrate the efficiency and efficacy of FLAN.
翻訳日:2021-10-08 15:46:48 公開日:2021-10-06
# DeepBBS: ポイントクラウド登録のためのディープベストバディ

DeepBBS: Deep Best Buddies for Point Cloud Registration ( http://arxiv.org/abs/2110.03016v1 )

ライセンス: Link先を確認
Itan Hezroni, Amnon Drory, Raja Giryes, Shai Avidan(参考訳) 近年,ポイントクラウド登録のための深層学習手法が提案されている。 これらの手法は、2つの3dポイントクラウド内のマッチングポイントを見つけるのに役立つ表現を生成するためにネットワークを訓練する。 良いマッチングを見つけることで、ポイントクラウド間の変換を正確に計算できます。 これらのテクニックの2つの課題は、オクルージョンに対処し、トレーニング中に見えないクラスのオブジェクトに一般化することである。 本研究は,訓練中の点間の最善の相棒距離を考慮した表現の学習手法であるdeepbbsを提案する。 ベスト・バディ (Best Buddies) とは、互いに最も近い点のペアである。 最高の仲間の基準は、正しい一致することの強い兆候であり、その結果、正確な登録につながる。 実験の結果,従来の手法と比較して性能が向上した。 特に,学習した表現は,部分的な形状と見当たらないカテゴリの正確な登録に繋がる。

Recently, several deep learning approaches have been proposed for point cloud registration. These methods train a network to generate a representation that helps finding matching points in two 3D point clouds. Finding good matches allows them to calculate the transformation between the point clouds accurately. Two challenges of these techniques are dealing with occlusions and generalizing to objects of classes unseen during training. This work proposes DeepBBS, a novel method for learning a representation that takes into account the best buddy distance between points during training. Best Buddies (i.e., mutual nearest neighbors) are pairs of points nearest to each other. The Best Buddies criterion is a strong indication for correct matches that, in turn, leads to accurate registration. Our experiments show improved performance compared to previous methods. In particular, our learned representation leads to an accurate registration for partial shapes and in unseen categories.
翻訳日:2021-10-08 15:44:39 公開日:2021-10-06
# unseenドメイン一般化のための動的デコードソースドメイン知識

Dynamically Decoding Source Domain Knowledge For Unseen Domain Generalization ( http://arxiv.org/abs/2110.03027v1 )

ライセンス: Link先を確認
Cuicui Kang and Karthik Nandakumar(参考訳) ドメインの一般化は近年注目を集めている重要な問題です。 既存の研究はドメイン不変の特徴表現の学習に重点を置いているが、研究者の中には多専門家の学習をアンサンブルし、有望なパフォーマンスを実証する者もいる。 しかし、既存のマルチエキスパート学習フレームワークでは、ソースドメインの知識はまだあまり研究されておらず、結果として準最適性能が得られる。 本稿では,ソースドメインの知識を動的に復号化してドメインの一般化を実現するためにトランスフォーマーを適用することを提案する。 具体的には、ソースドメインごとに1つのドメイン固有のローカルエキスパートと、クエリとして1つのドメインに依存しない機能ブランチを構築します。 その後、すべてのローカルドメイン機能はTransformerエンコーダによって、メモリ内のソースドメイン知識としてエンコードされる。 トランスフォーマデコーダでは、ドメインに依存しないクエリがクロスアテンションモジュールのメモリと相互作用する。 この方法では、ソースドメインの知識を動的にデコードし、unseenドメインからの現在の入力を推論します。 したがって、この機構により、提案手法を未発見領域に一般化することができる。 提案手法は領域一般化分野の3つのベンチマークで評価する。 最先端手法との比較により,提案手法が最良性能を達成し,他の手法よりも高い差をみせた。

Domain generalization is an important problem which has gain much attention recently. While most existing studies focus on learning domain-invariant feature representations, some researchers try ensemble learning of multi experts and demonstrate promising performance. However, in existing multi-expert learning frameworks, the source domain knowledge has not yet been much explored, resulting in sub-optimal performance. In this paper, we propose to adapt Transformers for the purpose of dynamically decoding source domain knowledge for domain generalization. Specifically, we build one domain-specific local expert per source domain, and one domain-agnostic feature branch as query. Then, all local-domain features will be encoded by Transformer encoders, as source domain knowledge in memory. While in the Transformer decoders, the domain-agnostic query will interact with the memory in the cross-attention module, where similar domains with the input will contribute more in the attention output. This way, the source domain knowledge will be dynamically decoded for the inference of the current input from unseen domain. Therefore, this mechanism makes the proposed method well generalizable to unseen domains. The proposed method is evaluated on three benchmarks in the domain generalization field. The comparison with the state-of-the-art methods shows that the proposed method achieves the best performance, outperforming the others with a clear gap.
翻訳日:2021-10-08 15:44:28 公開日:2021-10-06
# アイスホッケーにおける選手追跡と識別

Player Tracking and Identification in Ice Hockey ( http://arxiv.org/abs/2110.03090v1 )

ライセンス: Link先を確認
Kanav Vats, Pascale Walters, Mehrnaz Fani, David A. Clausi, John Zelek(参考訳) プレイヤーの追跡と識別は、コンピュータビジョンに基づくアイスホッケー分析の基本的なステップである。 トラッキングによって生成されたデータは、ゲームイベント検出やゲーム戦略分析など、他の多くの下流タスクで使用される。 選手の追跡と識別は、選手の動きが歩行者に比べて速く、非線形であるため、難しい問題である。 ホッケーのブロードキャストビデオでは、カメラのパンニングやズームも盛んである。 アイスホッケー選手の識別は、同じチームの選手がほぼ同一に見えるため困難であり、ジャージ番号が選手間の唯一の識別要因である。 本稿では,NHLホッケー映像中の選手を追跡・識別する自動システムについて述べる。 本システムは,(1)選手追跡,(2)チーム識別,(3)プレイヤー識別の3つのコンポーネントから構成される。 公開されているデータセットがないため、3つのコンポーネントをトレーニングするために使用されるデータセットは手動でアノテートされる。 マルチオブジェクトトラッキング精度(mota)スコア94.5%を得る、アートトラッキングアルゴリズムの状態の助けを借りてプレイヤー追跡を行う。 チーム識別では、アウトチームジャージは単一のクラスにグループ化され、ホームチームジャージはそのジャージの色に応じてクラスにグループ化される。 次に、畳み込みニューラルネットワークをチーム識別データセットでトレーニングする。 チーム識別ネットワークは、テストセット上で97%の精度を得る。 時間的一次元畳み込みネットワークを利用してプレイヤー境界ボックス列からプレイヤーを識別する新しいプレイヤー識別モデルを提案する。 プレイヤー識別モデルは、利用可能なnhlゲームロスターデータを利用して、プレイヤー識別精度83%を得る。

Tracking and identifying players is a fundamental step in computer vision-based ice hockey analytics. The data generated by tracking is used in many other downstream tasks, such as game event detection and game strategy analysis. Player tracking and identification is a challenging problem since the motion of players in hockey is fast-paced and non-linear when compared to pedestrians. There is also significant camera panning and zooming in hockey broadcast video. Identifying players in ice hockey is challenging since the players of the same team look almost identical, with the jersey number the only discriminating factor between players. In this paper, an automated system to track and identify players in broadcast NHL hockey videos is introduced. The system is composed of three components (1) Player tracking, (2) Team identification and (3) Player identification. Due to the absence of publicly available datasets, the datasets used to train the three components are annotated manually. Player tracking is performed with the help of a state of the art tracking algorithm obtaining a Multi-Object Tracking Accuracy (MOTA) score of 94.5%. For team identification, the away-team jerseys are grouped into a single class and home-team jerseys are grouped in classes according to their jersey color. A convolutional neural network is then trained on the team identification dataset. The team identification network gets an accuracy of 97% on the test set. A novel player identification model is introduced that utilizes a temporal one-dimensional convolutional network to identify players from player bounding box sequences. The player identification model further takes advantage of the available NHL game roster data to obtain a player identification accuracy of 83%.
翻訳日:2021-10-08 15:44:05 公開日:2021-10-06
# フラクタル予習の改善

Improving Fractal Pre-training ( http://arxiv.org/abs/2110.03091v1 )

ライセンス: Link先を確認
Connor Anderson and Ryan Farrell(参考訳) 現代のコンピュータビジョンシステムで使用されるディープニューラルネットワークは、トレーニングに膨大な画像データセットを必要とする。 これらの慎重に計算されたデータセットは通常、数千以上の異なるカテゴリにわたる100万以上の画像を持つ。 このようなデータセットを作成してキュレーションするプロセスは目覚ましい作業であり、膨大な労力を要し、コストをラベル付けし、ラベルの正確性、著作権の所有、コンテンツバイアスといった技術的および社会的問題を慎重にナビゲートする必要がある。 大規模な画像データセットのパワーを活用できたが、現在直面している主要な問題や懸念がほとんど、あるいは全くなかったらどうだろうか? 本稿では,片岡らの最新研究について述べる。 al. (2020) は動的に生成されたフラクタル画像に基づく改良された事前学習データセットを提案する。 大規模な画像データセットの課題は、フラクタル事前トレーニングのエレガンスなポイントとなっている: ゼロコストでの完全なラベル精度、大規模な画像アーカイブの保存/転送不要、不適切なコンテンツのプライバシー/デポグラフィックバイアス/認識なし、画像の無制限な供給と多様性、画像は無料/オープンソースである。 おそらく驚くことに、これらの困難を避けることは、パフォーマンスにわずかなペナルティしか課さない。 我々の実験では、フラクタルを用いたネットワークの微調整が、ImageNet事前トレーニングネットワークの精度の92.7-98.1\%に達することを示した。

The deep neural networks used in modern computer vision systems require enormous image datasets to train them. These carefully-curated datasets typically have a million or more images, across a thousand or more distinct categories. The process of creating and curating such a dataset is a monumental undertaking, demanding extensive effort and labelling expense and necessitating careful navigation of technical and social issues such as label accuracy, copyright ownership, and content bias. What if we had a way to harness the power of large image datasets but with few or none of the major issues and concerns currently faced? This paper extends the recent work of Kataoka et. al. (2020), proposing an improved pre-training dataset based on dynamically-generated fractal images. Challenging issues with large-scale image datasets become points of elegance for fractal pre-training: perfect label accuracy at zero cost; no need to store/transmit large image archives; no privacy/demographic bias/concerns of inappropriate content, as no humans are pictured; limitless supply and diversity of images; and the images are free/open-source. Perhaps surprisingly, avoiding these difficulties imposes only a small penalty in performance. Leveraging a newly-proposed pre-training task -- multi-instance prediction -- our experiments demonstrate that fine-tuning a network pre-trained using fractals attains 92.7-98.1\% of the accuracy of an ImageNet pre-trained network.
翻訳日:2021-10-08 15:43:42 公開日:2021-10-06
# 並列型ニューラルTSにおける強調制御

Emphasis control for parallel neural TTS ( http://arxiv.org/abs/2110.03012v1 )

ライセンス: Link先を確認
Shreyas Seshadri, Tuomo Raitio, Dan Castellani, Jiangchuan Li(参考訳) 音声信号によって伝達される意味情報は、韻律の局所的な変化に強く影響される。 最近の並列ニューラルテキスト音声合成法は,高性能を維持しつつ高い忠実度で音声を生成することができる。 しかし、これらのシステムは、しばしば出力の韻律に対する単純な制御を欠いているため、与えられたテキストに対して伝達可能な意味情報を制限している。 本稿では,強調の変化に直接対応する潜在空間を学習することにより,韻律強調制御のための階層型並列ニューラルネットワークttsシステムを提案する。 潜在空間の3つの候補特徴を比較する。 1)文中の単語内のピッチと持続時間の変化 2)ピッチ,エネルギー,持続時間から算出したウェーブレットに基づく特徴 3)上記の特徴の学習された組み合わせ。 客観的な測定により,提案手法は広範囲の強調強調修正を達成できることが明らかとなり,主観的評価の度合いと全体的な品質は,実世界のアプリケーションに期待できることを示す。

The semantic information conveyed by a speech signal is strongly influenced by local variations in prosody. Recent parallel neural text-to-speech (TTS) synthesis methods are able to generate speech with high fidelity while maintaining high performance. However, these systems often lack simple control over the output prosody, thus restricting the semantic information conveyable for a given text. This paper proposes a hierarchical parallel neural TTS system for prosodic emphasis control by learning a latent space that directly corresponds to a change in emphasis. Three candidate features for the latent space are compared: 1) Variance of pitch and duration within words in a sentence, 2) a wavelet based feature computed from pitch, energy, and duration and 3) a learned combination of the above features. Objective measures reveal that the proposed methods are able to achieve a wide range of emphasis modification, and subjective evaluations on the degree of emphasis and the overall quality indicate that they show promise for real-world applications.
翻訳日:2021-10-08 15:38:27 公開日:2021-10-06
# 深層強化学習のための多目的カリキュラムの学習

Learning Multi-Objective Curricula for Deep Reinforcement Learning ( http://arxiv.org/abs/2110.03032v1 )

ライセンス: Link先を確認
Jikun Kang, Miao Liu, Abhinav Gupta, Chris Pal, Xue Liu, Jie Fu(参考訳) 深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)法が提案されている。 DRLエージェントがデータの収集方法を制御するように設計されており、人間の学習プロセスの能力への適応方法にインスパイアされている。 例えば、ACLはサブゴール生成、報酬形成、環境生成、初期状態生成に使用することができる。 しかし、先行研究は、前述の事前定義されたパラダイムの1つに従ってカリキュラム学習を考えるのみである。 どちらのパラダイムが補完的であり、それらの組み合わせが環境との相互作用からどのように学べるのかは不明である。 そこで本稿では,パラメトリックカリキュラムモジュール群によって生成される多目的だが一貫性のあるカリキュラムを作成するための統合型カリキュラム学習フレームワークを提案する。 各カリキュラムモジュールはニューラルネットワークとしてインスタンス化され、特定のカリキュラムを生成する責任を負う。 統一パラメータ空間における競合する可能性のあるモジュールのコーディネートのために,単一のハイパーネットを用いて全てのカリキュラムモジュールをパラメータ化するマルチタスクハイパーネット学習フレームワークを提案する。 既存の手作業によるカリキュラムパラダイムに加えて,手作業で設計することが困難な抽象カリキュラムを学習するための柔軟なメモリ機構を設計する。 本手法は,ロボット操作の一連のタスクにおいて評価し,サンプル効率と最終性能の観点から,他の最先端のACL手法よりも優れていることを示す。

Various automatic curriculum learning (ACL) methods have been proposed to improve the sample efficiency and final performance of deep reinforcement learning (DRL). They are designed to control how a DRL agent collects data, which is inspired by how humans gradually adapt their learning processes to their capabilities. For example, ACL can be used for subgoal generation, reward shaping, environment generation, or initial state generation. However, prior work only considers curriculum learning following one of the aforementioned predefined paradigms. It is unclear which of these paradigms are complementary, and how the combination of them can be learned from interactions with the environment. Therefore, in this paper, we propose a unified automatic curriculum learning framework to create multi-objective but coherent curricula that are generated by a set of parametric curriculum modules. Each curriculum module is instantiated as a neural network and is responsible for generating a particular curriculum. In order to coordinate those potentially conflicting modules in unified parameter space, we propose a multi-task hyper-net learning framework that uses a single hyper-net to parameterize all those curriculum modules. In addition to existing hand-designed curricula paradigms, we further design a flexible memory mechanism to learn an abstract curriculum, which may otherwise be difficult to design manually. We evaluate our method on a series of robotic manipulation tasks and demonstrate its superiority over other state-of-the-art ACL methods in terms of sample efficiency and final performance.
翻訳日:2021-10-08 15:36:54 公開日:2021-10-06
# 部分学習可能なネットワークによる効率的かつプライベートなフェデレーション学習

Efficient and Private Federated Learning with Partially Trainable Networks ( http://arxiv.org/abs/2110.03450v1 )

ライセンス: Link先を確認
Hakim Sidahmed, Zheng Xu, Ankush Garg, Yuan Cao, Mingqing Chen(参考訳) フェデレーション学習は、エッジモバイルデバイスの大量(数百万)上での機械学習モデルの分散トレーニングに使用される。 モバイルデバイスは通信帯域やローカルな計算資源が限られているため、これは難しい。 したがって,フェデレート学習の効率性の向上は,スケーラビリティとユーザビリティに不可欠である。 本稿では,トレーニングプロセス全体においてモデルパラメータの一部が凍結される部分学習可能なニューラルネットワークを活用し,モデル性能にほとんど影響を与えない通信コストを削減することを提案する。 広範な実験を通じて、部分的に学習可能なニューラルネットワーク(fedpt)のフェデレート学習が、通信コストを最大46\times$まで低減し、少ない精度で優れた通信精度トレードオフをもたらすことを実証した。 私たちのアプローチは、メモリフットプリントを小さくして、より高速なトレーニングを可能にします。 提案手法はデバイス上での学習における過パラメータ化の限界を押し上げるために特に興味深い。

Federated learning is used for decentralized training of machine learning models on a large number (millions) of edge mobile devices. It is challenging because mobile devices often have limited communication bandwidth and local computation resources. Therefore, improving the efficiency of federated learning is critical for scalability and usability. In this paper, we propose to leverage partially trainable neural networks, which freeze a portion of the model parameters during the entire training process, to reduce the communication cost with little implications on model performance. Through extensive experiments, we empirically show that Federated learning of Partially Trainable neural networks (FedPT) can result in superior communication-accuracy trade-offs, with up to $46\times$ reduction in communication cost, at a small accuracy cost. Our approach also enables faster training, with a smaller memory footprint, and better utility for strong differential privacy guarantees. The proposed FedPT method can be particularly interesting for pushing the limitations of overparameterization in on-device learning.
翻訳日:2021-10-08 15:34:29 公開日:2021-10-06
# ニューラルネットワークの重み行列設計における決定論的変換の利用

Use of Deterministic Transforms to Design Weight Matrices of a Neural Network ( http://arxiv.org/abs/2110.03515v1 )

ライセンス: Link先を確認
Pol Grau Jurado, Xinyue Liang, Alireza M. Javid, and Saikat Chatterjee(参考訳) セルフサイズ推定フィードフォワードネットワーク (SSFN) はフィードフォワード多層ネットワークである。 既存のSSFNでは、各重み行列の一部が層単位で凸最適化アプローチ(教師付きトレーニング)を用いて訓練され、他方はランダム行列インスタンス(教師なしトレーニング)として選択される。 本稿では、ssfn重み行列に対するランダム行列のインスタンスの代わりに決定論的変換を用いることを考察する。 決定論的変換の使用は計算の複雑さを減少させる。 離散コサイン変換,アダマール変換,ハートリー変換,ウェーブレット変換など,いくつかの決定論的変換の利用について検討した。 一連の変換における決定論的変換の選択は教師なしの方法で行われる。 そこで,特徴量の統計パラメータに基づく2つの手法を開発した。 提案手法は,階層の重み行列によって決定論的変換が変化するニューラルネットの設計に有効である。 提案手法の有効性を,複数のベンチマークデータセットを用いたオブジェクト分類タスクに適用した。

Self size-estimating feedforward network (SSFN) is a feedforward multilayer network. For the existing SSFN, a part of each weight matrix is trained using a layer-wise convex optimization approach (a supervised training), while the other part is chosen as a random matrix instance (an unsupervised training). In this article, the use of deterministic transforms instead of random matrix instances for the SSFN weight matrices is explored. The use of deterministic transforms provides a reduction in computational complexity. The use of several deterministic transforms is investigated, such as discrete cosine transform, Hadamard transform, Hartley transform, and wavelet transforms. The choice of a deterministic transform among a set of transforms is made in an unsupervised manner. To this end, two methods based on features' statistical parameters are developed. The proposed methods help to design a neural net where deterministic transforms can vary across its layers' weight matrices. The effectiveness of the proposed approach vis-a-vis the SSFN is illustrated for object classification tasks using several benchmark datasets.
翻訳日:2021-10-08 15:34:11 公開日:2021-10-06
# メンバーシップ推論攻撃に対するリカレントニューラルネットワークの脆弱性について

On The Vulnerability of Recurrent Neural Networks to Membership Inference Attacks ( http://arxiv.org/abs/2110.03054v1 )

ライセンス: Link先を確認
Yunhao Yang, Parham Gohari and Ufuk Topcu(参考訳) 機械学習におけるリカレントニューラルネットワークのプライバシへの影響について検討する。 攻撃者が学習エージェントの訓練に与えられたデータレコードが使われたかどうかを推測しようとする、メンバーシップ推論攻撃(mia)を考える。 フィードフォワードニューラルネットワークをターゲットとする既存のMIAを用いて、トレーニング履歴の初期のデータ記録に対する攻撃精度が低下することを示す。 あるいは、リカレントネットワークは、過去の経験をよりよく覚えるように特別に設計されているため、フィードフォワードよりもMIAに対して脆弱である可能性が高い。 再帰型ネットワークの2つの主要な応用、すなわち深層強化学習とシーケンシャル・ツー・シーケンスタスクのためのMIAレイアウトを開発する。 最初の攻撃は、同じパフォーマンスレベルにあるフィードフォワードネットワークよりも、リカレントネットワークの方がmiasに弱いという実証的な証拠を提供するために使用します。 第2の攻撃は、各MIAの精度に対するオーバートレーニング繰り返しとフィードフォワードネットワークの効果の違いを示すものである。 最後に、MIAが悪用するプライバシーの脆弱性を解決するために、差分プライバシーメカニズムをデプロイする。 いずれのアタックレイアウトにおいても、プライバシ機構は攻撃精度を80%から50%まで低下させる。

We study the privacy implications of deploying recurrent neural networks in machine learning. We consider membership inference attacks (MIAs) in which an attacker aims to infer whether a given data record has been used in the training of a learning agent. Using existing MIAs that target feed-forward neural networks, we empirically demonstrate that the attack accuracy wanes for data records used earlier in the training history. Alternatively, recurrent networks are specifically designed to better remember their past experience; hence, they are likely to be more vulnerable to MIAs than their feed-forward counterparts. We develop a pair of MIA layouts for two primary applications of recurrent networks, namely, deep reinforcement learning and sequence-to-sequence tasks. We use the first attack to provide empirical evidence that recurrent networks are indeed more vulnerable to MIAs than feed-forward networks with the same performance level. We use the second attack to showcase the differences between the effects of overtraining recurrent and feed-forward networks on the accuracy of their respective MIAs. Finally, we deploy a differential privacy mechanism to resolve the privacy vulnerability that the MIAs exploit. For both attack layouts, the privacy mechanism degrades the attack accuracy from above 80% to 50%, which is equal to guessing the data membership uniformly at random, while trading off less than 10% utility.
翻訳日:2021-10-08 15:33:54 公開日:2021-10-06
# PWG-IDS:生成逆ネットワークを用いたIIoTネットワークにおけるクラス不均衡解消のための侵入検出モデル

PWG-IDS: An Intrusion Detection Model for Solving Class Imbalance in IIoT Networks Using Generative Adversarial Networks ( http://arxiv.org/abs/2110.03445v1 )

ライセンス: Link先を確認
Lei Zhang, Shuaimin Jiang, Xiajiong Shen, Brij B. Gupta, Zhihong Tian(参考訳) 産業用IoT(IIoT)技術の継続的な開発により、ネットワークセキュリティはますます重要になっている。 そして侵入検知は、そのセキュリティの重要な部分だ。 しかし,攻撃トラフィックの量は通常の交通量に比べて非常に少ないため,侵入検出は非常に困難である。 この不均衡に対処するために, ワーセルシュタイン生成逆方向ネットワーク侵入検知システム (PWG-IDS) を事前学習する侵入検知システムを提案する。 このシステムは2つの主要なモジュールに分けられる。 1) 本モジュールでは,WGAN-GPをトレーニングするために,まず通常のネットワークトラフィックを使用してWGAN-GPをトレーニングし,次にトレーニング済みのWGAN-GPに不均衡データを入力し,最終的な要求データを生成する。 2)侵入検知モジュール: iiotネットワークにおける攻撃トラフィックを検出する分類アルゴリズムとしてlightgbmを使用する。 実験の結果,提案するpwg-idsは2つのデータセットでそれぞれ99%,89%のf1-scoreを持つ他のモデルよりも優れていることがわかった。 また、提案した事前学習機構は他のGANにも広く利用でき、GANのトレーニングのための新しい考え方を提供する。

With the continuous development of industrial IoT (IIoT) technology, network security is becoming more and more important. And intrusion detection is an important part of its security. However, since the amount of attack traffic is very small compared to normal traffic, this imbalance makes intrusion detection in it very difficult. To address this imbalance, an intrusion detection system called pretraining Wasserstein generative adversarial network intrusion detection system (PWG-IDS) is proposed in this paper. This system is divided into two main modules: 1) In this module, we introduce the pretraining mechanism in the Wasserstein generative adversarial network with gradient penalty (WGAN-GP) for the first time, firstly using the normal network traffic to train the WGAN-GP, and then inputting the imbalance data into the pre-trained WGAN-GP to retrain and generate the final required data. 2) Intrusion detection module: We use LightGBM as the classification algorithm to detect attack traffic in IIoT networks. The experimental results show that our proposed PWG-IDS outperforms other models, with F1-scores of 99% and 89% on the 2 datasets, respectively. And the pretraining mechanism we proposed can also be widely used in other GANs, providing a new way of thinking for the training of GANs.
翻訳日:2021-10-08 15:33:04 公開日:2021-10-06
# DRAFT-あなたがいつも知りたかったことは、ブロックベースの環境について見つからなかった

DRAFT-What you always wanted to know but could not find about block-based environments ( http://arxiv.org/abs/2110.03073v1 )

ライセンス: Link先を確認
Mauricio Verano Merino, Jurgen Vinju, and Mark van den Brand(参考訳) ブロックベースの環境はビジュアルプログラミング環境であり、使いやすさのためにますます人気が高まっている。 使いやすさは、直感的なグラフィカル表現と構造的メタファー(ジグソーのようなパズル)のおかげで、ユーザに適切な言語構造の組み合わせを表示することができる。 現在のブロックベースの環境の人気は、Scratchのおかげである。 結果として、彼らはしばしば子供や若い学習者のためのツールと関連づけられる。 しかし,このようなプログラミング環境が一般的にどのように開発され,利用されているのかは不明である。 そこで我々は,2014年から2020年にかけて発行された152の論文を整理し,ブロック環境に関する体系的文献レビューを行い,32のブロック環境に関する非体系的ツールレビューを行った。 特に、異なるトピックやドメインのエンドユーザに対して、ブロックベースのエディタの有用なインベントリを提供する。 同様に、ブロックベースの環境の主要なコンポーネント、どのようにエンジニアリングされ、どのように使用されるかを特定することに重点を置いています。 この調査は、言語工学研究者や言語エンジニアにも同じように役立つはずだ。

Block-based environments are visual programming environments, which are becoming more and more popular because of their ease of use. The ease of use comes thanks to their intuitive graphical representation and structural metaphors (jigsaw-like puzzles) to display valid combinations of language constructs to the users. Part of the current popularity of block-based environments is thanks to Scratch. As a result they are often associated with tools for children or young learners. However, it is unclear how these types of programming environments are developed and used in general. So we conducted a systematic literature review on block-based environments by studying 152 papers published between 2014 and 2020, and a non-systematic tool review of 32 block-based environments. In particular, we provide a helpful inventory of block-based editors for end-users on different topics and domains. Likewise, we focused on identifying the main components of block-based environments, how they are engineered, and how they are used. This survey should be equally helpful for language engineering researchers and language engineers alike.
翻訳日:2021-10-08 15:31:53 公開日:2021-10-06
# 網膜CT画像を用いたAMD分類のためのマルチスケール畳み込みニューラルネットワーク

Multi-Scale Convolutional Neural Network for Automated AMD Classification using Retinal OCT Images ( http://arxiv.org/abs/2110.03002v1 )

ライセンス: Link先を確認
Saman Sotoudeh-Paima, Ata Jodeiri, Fedra Hajizadeh, Hamid Soltanian-Zadeh(参考訳) 加齢関連黄斑変性症(AMD)は、先進国、特に60歳以上の人々において、視覚障害の最も一般的な原因である。 近年,この分野の専門医の労働負荷と医療システムは,主に3つの理由から増加している。 1)網膜光コヒーレンストモグラフィ(OCT)イメージング技術の利用の増加 2)全世界の高齢化の頻度、及び 3)AMDの慢性的な性質。 近年のディープラーニングの発展は、完全に自動化された診断フレームワークの開発にユニークな機会を与えている。 OCT画像の様々な大きさにおけるAMD関連網膜病理の存在を考慮し、様々な大きさの受容野を用いて病態を識別できる多スケール畳み込みニューラルネットワーク(CNN)を提案する。 マルチスケールCNNは特徴ピラミッドネットワーク(FPN)構造に基づいて設計され,乾式および湿式AMD(乾式および脈絡膜新生血管形成(CNV))の正常および2つの臨床特徴を診断するために用いられた。 提案手法は,441例の網膜OCT画像12649例と,108312例のOCT画像からなるUCSDパブリックデータセットからなるNor Eye Hospital(NEH)で収集された全国データセットを用いて評価した。 その結果、マルチスケールのFPNベースの構造は、異なるバックボーンモデルに対して、ベースモデルの全体的な精度を0.4%から3.3%改善することができた。 さらに、段階学習は、第1フェーズでイメージネット重みのベースモデルを事前トレーニングし、第2フェーズでoct画像のデータセット上で結果モデルを微調整することにより、87.2%+-2.5%から93.4%+-1.4%の2フェーズでパフォーマンスが向上した。 提案アーキテクチャの有望な定量的および定性的な結果から,眼科医の診断精度向上を支援する医療センターにおけるスクリーニングツールとして,提案手法が有用であることが証明された。

Age-related macular degeneration (AMD) is the most common cause of blindness in developed countries, especially in people over 60 years of age. The workload of specialists and the healthcare system in this field has increased in recent years mainly dues to three reasons: 1) increased use of retinal optical coherence tomography (OCT) imaging technique, 2) prevalence of population aging worldwide, and 3) chronic nature of AMD. Recent developments in deep learning have provided a unique opportunity for the development of fully automated diagnosis frameworks. Considering the presence of AMD-related retinal pathologies in varying sizes in OCT images, our objective was to propose a multi-scale convolutional neural network (CNN) capable of distinguishing pathologies using receptive fields with various sizes. The multi-scale CNN was designed based on the feature pyramid network (FPN) structure and was used to diagnose normal and two common clinical characteristics of dry and wet AMD, namely drusen and choroidal neovascularization (CNV). The proposed method was evaluated on a national dataset gathered at Noor Eye Hospital (NEH), consisting of 12649 retinal OCT images from 441 patients, and a UCSD public dataset, consisting of 108312 OCT images. The results show that the multi-scale FPN-based structure was able to improve the base model's overall accuracy by 0.4% to 3.3% for different backbone models. In addition, gradual learning improved the performance in two phases from 87.2%+-2.5% to 93.4%+-1.4% by pre-training the base model on ImageNet weights in the first phase and fine-tuning the resulting model on a dataset of OCT images in the second phase. The promising quantitative and qualitative results of the proposed architecture prove the suitability of the proposed method to be used as a screening tool in healthcare centers assisting ophthalmologists in making better diagnostic decisions.
翻訳日:2021-10-08 15:30:52 公開日:2021-10-06
# 視覚による掘削活動分析と安全モニタリングシステム

Vision-based Excavator Activity Analysis and Safety Monitoring System ( http://arxiv.org/abs/2110.03083v1 )

ライセンス: Link先を確認
Sibo Zhang and Liangjun Zhang(参考訳) 本稿では,近年の深層学習とコンピュータビジョンの進歩を活かした掘削機活動解析と安全性モニタリングシステムを提案する。 提案システムは,掘削者の姿勢や行動を推定しながら,周辺環境と掘削者を検知する。 従来のシステムと比較して,オブジェクト検出,ポーズ推定,行動認識タスクにおいて高い精度を実現する。 さらに, 廃棄物処理リサイクル現場において, 自律掘削システム(AES)を用いた掘削機データセットを構築し, システムの有効性を実証した。 また,本手法をベンチマーク構築データセット上で評価する。 実験結果から,提案手法はトップ1の精度を約5.18%向上させることができた。

In this paper, we propose an excavator activity analysis and safety monitoring system, leveraging recent advancements in deep learning and computer vision. Our proposed system detects the surrounding environment and the excavators while estimating the poses and actions of the excavators. Compared to previous systems, our method achieves higher accuracy in object detection, pose estimation, and action recognition tasks. In addition, we build an excavator dataset using the Autonomous Excavator System (AES) on the waste disposal recycle scene to demonstrate the effectiveness of our system. We also evaluate our method on a benchmark construction dataset. The experimental results show that the proposed action recognition approach outperforms the state-of-the-art approaches on top-1 accuracy by about 5.18%.
翻訳日:2021-10-08 15:30:18 公開日:2021-10-06
# 医療画像におけるクロスアテンションによる肺炎の局在改善と報告

Improving Pneumonia Localization via Cross-Attention on Medical Images and Reports ( http://arxiv.org/abs/2110.03094v1 )

ライセンス: Link先を確認
Riddhish Bhalodia and Ali Hatamizadeh and Leo Tam and Ziyue Xu and Xiaosong Wang and Evrim Turkbey and Daguang Xu(参考訳) 肺炎などの疾患の局所化と特徴付けは、臨床パイプラインにおける主要なステップであり、詳細な臨床診断とその後の治療計画を容易にする。 さらに、そのようなロケーションアノテートされたデータセットは、下流タスクに使用するディープラーニングモデルのためのパスを提供することができる。 しかし、品質アノテーションの取得は人件費がかかるため、通常はドメインの専門知識を必要とする。 一方,医療報告には肺炎の特徴とその位置に関する情報が多数含まれている。 本稿では,トレーニング中の医療報告のエンコード情報を活用し,より優れたローカライゼーションを実現するための,弱教師付き注目駆動型深層学習モデルを提案する。 また,本モデルでは,肺炎に関連する属性の分類を行い,管理のために医療報告から抽出した。 分類と局所化は共に訓練され、一度訓練されると、入力画像のみを用いて、肺炎の局在化と特徴付けの両方に利用できる。 本稿では,胸部x線データを用いたモデルの検討を行い,テキスト情報の導入により肺炎の局在性が向上することを示す。 我々はMIMIC-CXRとChest X-ray-8の2つのデータセットで定量的な結果を示し、また、COVID-19データセットで重篤な特徴を示す。

Localization and characterization of diseases like pneumonia are primary steps in a clinical pipeline, facilitating detailed clinical diagnosis and subsequent treatment planning. Additionally, such location annotated datasets can provide a pathway for deep learning models to be used for downstream tasks. However, acquiring quality annotations is expensive on human resources and usually requires domain expertise. On the other hand, medical reports contain a plethora of information both about pneumonia characteristics and its location. In this paper, we propose a novel weakly-supervised attention-driven deep learning model that leverages encoded information in medical reports during training to facilitate better localization. Our model also performs classification of attributes that are associated to pneumonia and extracted from medical reports for supervision. Both the classification and localization are trained in conjunction and once trained, the model can be utilized for both the localization and characterization of pneumonia using only the input image. In this paper, we explore and analyze the model using chest X-ray datasets and demonstrate qualitatively and quantitatively that the introduction of textual information improves pneumonia localization. We showcase quantitative results on two datasets, MIMIC-CXR and Chest X-ray-8, and we also showcase severity characterization on the COVID-19 dataset.
翻訳日:2021-10-08 15:30:08 公開日:2021-10-06
# 仮想発電プラントの負荷集約と運転の予測可能性と公正性

Predictability and Fairness in Load Aggregation and Operations of Virtual Power Plants ( http://arxiv.org/abs/2110.03001v1 )

ライセンス: Link先を確認
Jakub Marecek, Michal Roubalik, Ramen Ghosh, Robert N. Shorten, Fabian R. Wirth(参考訳) 電力システムでは、制御可能な負荷やバッテリエネルギー貯蔵システムなどの分散エネルギー資源(ders)の集合的な需要を規制したいと考えている。 予測可能性と公平性の概念を示唆し,der,アグリゲータ,電力グリッドの操作者の初期状態とは,価格やインセンティブの長期平均値が独立していなければならないことを示唆する。 この概念は、通常の比例積分(PI)コントローラを含む、負荷アグリゲータが使用する多くの従来のコントローラでは保証できないことを示す。 交互電流モデルの非線形性を考慮しても、この予測可能性と公平性の概念は、穏やかな仮定の下で、段階的な入出力安定(iiss)コントローラに対して保証できることを示した。

In power systems, one wishes to regulate the aggregate demand of an ensemble of distributed energy resources (DERs), such as controllable loads and battery energy storage systems. We suggest a notion of predictability and fairness, which suggests that the long-term averages of prices or incentives offered should be independent of the initial states of the operators of the DER, the aggregator, and the power grid. We show that this notion cannot be guaranteed with many traditional controllers used by the load aggregator, including the usual proportional-integral (PI) controller. We show that even considering the non-linearity of the alternating-current model, this notion of predictability and fairness can be guaranteed for incrementally input-to-state stable (iISS) controllers, under mild assumptions.
翻訳日:2021-10-08 15:29:36 公開日:2021-10-06
# GANtron: 生成的対立ネットワークを用いた感情音声合成

GANtron: Emotional Speech Synthesis with Generative Adversarial Networks ( http://arxiv.org/abs/2110.03390v1 )

ライセンス: Link先を確認
Enrique Hortal and Rodrigo Brechard Alarcia(参考訳) 音声合成は様々な産業で使われている。 それでも、常にフラットかロボットのように聞こえる。 韻律制御を可能にする技術メソッドの状態は使いづらいし、簡単にチューニングできない。 これらの欠点に対処すべく,本研究では,推定された音声を所望の感情に合わせてチューニング可能なテキスト対音声モデルの実装を目標としている。 そのため,注意機構を用いたシーケンス・ツー・シーケンスモデルとともに,gans(generative adversarial network)を用いる。 異なる入力とトレーニング戦略を考慮した4つの異なる構成を評価し、それらを研究し、私たちの最良のモデルが初期訓練データセットと同じ分布にある音声ファイルを生成する方法を証明する。 また, 注意損失を誘導することにより, トレーニング収束を高めるための新たな戦略を提案する。

Speech synthesis is used in a wide variety of industries. Nonetheless, it always sounds flat or robotic. The state of the art methods that allow for prosody control are very cumbersome to use and do not allow easy tuning. To tackle some of these drawbacks, in this work we target the implementation of a text-to-speech model where the inferred speech can be tuned with the desired emotions. To do so, we use Generative Adversarial Networks (GANs) together with a sequence-to-sequence model using an attention mechanism. We evaluate four different configurations considering different inputs and training strategies, study them and prove how our best model can generate speech files that lie in the same distribution as the initial training dataset. Additionally, a new strategy to boost the training convergence by applying a guided attention loss is proposed.
翻訳日:2021-10-08 15:28:47 公開日:2021-10-06
# ストレススプリットシーケンシャルトレーニングを用いた多相多弾性の物理インフォームドニューラルネットワークシミュレーション

Physics-informed neural network simulation of multiphase poroelasticity using stress-split sequential training ( http://arxiv.org/abs/2110.03049v1 )

ライセンス: Link先を確認
Ehsan Haghighat and Danial Amini and Ruben Juanes(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)によって支配される問題の前進、逆転、代理モデリングのための統一的な枠組みとして注目されている。 しかしながら、前方問題に対するピンの訓練は、主に複雑な非凸および多目的損失関数のため、重大な課題をもたらす。 本研究では, 単相流と多相流の両方における多孔質媒質中の結合流れと変形の方程式をpinn法で解く。 この目的のために,多層ニューラルネットワークを用いて解空間を構築する。 この問題のダイナミクスにより、損失関数に多重微分関係を組み込むと不安定な最適化問題が発生することが判明し、場合によっては自明なヌル解に収束する。 我々は,オプティマイザに最も好適な結合制御方程式の無次元形式を報告する。 さらに,ポロメカニクスの応力分割アルゴリズムに基づく逐次学習手法を提案する。 特に、ストレススプリットに基づく逐次トレーニングは異なる問題に対してうまく機能し、一方、古典的ひずみスプリットアルゴリズムは有限要素ソルバの文脈で報告されるような不安定な挙動を示す。 提案手法は,マンデルの凝縮問題,バリー・マーサーの注入生成問題,参照二相排水問題など,多弾性性のベンチマーク問題を解くために用いられる。 この原稿で報告された結果を再現するPython-SciANNコードはhttps://github.com/sciann/sciann-applicationsで公開される。

Physics-informed neural networks (PINNs) have received significant attention as a unified framework for forward, inverse, and surrogate modeling of problems governed by partial differential equations (PDEs). Training PINNs for forward problems, however, pose significant challenges, mainly because of the complex non-convex and multi-objective loss function. In this work, we present a PINN approach to solving the equations of coupled flow and deformation in porous media for both single-phase and multiphase flow. To this end, we construct the solution space using multi-layer neural networks. Due to the dynamics of the problem, we find that incorporating multiple differential relations into the loss function results in an unstable optimization problem, meaning that sometimes it converges to the trivial null solution, other times it moves very far from the expected solution. We report a dimensionless form of the coupled governing equations that we find most favourable to the optimizer. Additionally, we propose a sequential training approach based on the stress-split algorithms of poromechanics. Notably, we find that sequential training based on stress-split performs well for different problems, while the classical strain-split algorithm shows an unstable behaviour similar to what is reported in the context of finite element solvers. We use the approach to solve benchmark problems of poroelasticity, including Mandel's consolidation problem, Barry-Mercer's injection-production problem, and a reference two-phase drainage problem. The Python-SciANN codes reproducing the results reported in this manuscript will be made publicly available at https://github.com/sciann/sciann-applications.
翻訳日:2021-10-08 15:28:05 公開日:2021-10-06
# 探索的ユーザによる最適勧告の学習

Learning the Optimal Recommendation from Explorative Users ( http://arxiv.org/abs/2110.03068v1 )

ライセンス: Link先を確認
Fan Yao, Chuanhao Li, Denis Nekipelov, Hongning Wang, Haifeng Xu(参考訳) 本稿では,レコメンダシステムとユーザ間の逐次的相互作用を研究するための新しい問題設定を提案する。 ユーザが万能で、静的で、明示的であると仮定するのではなく、従来のプラクティスのように、より現実的なユーザ行動モデルをスケッチします。 1) 明らかに他人より悪い場合は,推奨を拒絶する。 2 受諾した勧告の報奨に基づく実用性評価を更新すること。 3)システムから得られる報酬を保留する。 我々は,$k$-armed banditフレームワークを用いて,システムと探索的ユーザとのインタラクションを定式化し,システム側で最適レコメンデーションを学習する問題について検討する。 効率的なシステム学習は今でも可能だが、より難しい。 特に、システムは$O(1/\delta)$の相互作用の中で少なくとも1-\delta$の確率で最適なアームを識別できる。 我々の発見は、最適な腕識別と固定された信頼度の問題の結果とは対照的であり、最良の腕を1-\delta$の確率で$O(\log(1/\delta))$の相互作用で識別することができる。 このギャップは、システムが認識された報酬からではなく、探索的なユーザの推奨事項から学習したときの避けられないコストを示している。

We propose a new problem setting to study the sequential interactions between a recommender system and a user. Instead of assuming the user is omniscient, static, and explicit, as the classical practice does, we sketch a more realistic user behavior model, under which the user: 1) rejects recommendations if they are clearly worse than others; 2) updates her utility estimation based on rewards from her accepted recommendations; 3) withholds realized rewards from the system. We formulate the interactions between the system and such an explorative user in a $K$-armed bandit framework and study the problem of learning the optimal recommendation on the system side. We show that efficient system learning is still possible but is more difficult. In particular, the system can identify the best arm with probability at least $1-\delta$ within $O(1/\delta)$ interactions, and we prove this is tight. Our finding contrasts the result for the problem of best arm identification with fixed confidence, in which the best arm can be identified with probability $1-\delta$ within $O(\log(1/\delta))$ interactions. This gap illustrates the inevitable cost the system has to pay when it learns from an explorative user's revealed preferences on its recommendations rather than from the realized rewards.
翻訳日:2021-10-08 15:27:38 公開日:2021-10-06
# Multi-Trigger-Key:ディープラーニングにおけるマルチタスクプライバシ保護を目指して

Multi-Trigger-Key: Towards Multi-Task Privacy Preserving In Deep Learning ( http://arxiv.org/abs/2110.03106v1 )

ライセンス: Link先を確認
Ren Wang, Zhe Xu, Alfred Hero(参考訳) ディープラーニングベースのマルチタスク分類(MTC)は、強力なプライバシ保証を保証する顔属性やヘルスケアといったアプリケーションで広く使用されている。 本研究では,mtcの推論フェーズにおける機密情報を保護し,プライバシ保護目的を達成するための新しいマルチトリガーキー(mtk)フレームワークを提案する。 MTKは、マルチタスクデータセット内の各セキュアタスクを、特別に設計されたトリガーキーに関連付ける。 ユーザが承認された場合、トリガーキーを追加することで、真の情報を明らかにすることができる。 新たに生成されたトレーニングセットでトレーニングすることで,このようなmtkモデルを得る。 異なるタスク間の相関関係による情報漏えいに対処するため、MTKデカップリングプロセスと保護効果とモデル性能とのトレードオフを制御可能とし、トレーニングプロセスを一般化する。 理論的な保証と実験結果は、モデル性能を損なうことなく、プライバシー保護の有効性を示す。

Deep learning-based Multi-Task Classification (MTC) is widely used in applications like facial attributes and healthcare that warrant strong privacy guarantees. In this work, we aim to protect sensitive information in the inference phase of MTC and propose a novel Multi-Trigger-Key (MTK) framework to achieve the privacy-preserving objective. MTK associates each secured task in the multi-task dataset with a specifically designed trigger-key. The true information can be revealed by adding the trigger-key if the user is authorized. We obtain such an MTK model by training it with a newly generated training set. To address the information leakage malaise resulting from correlations among different tasks, we generalize the training process by incorporating an MTK decoupling process with a controllable trade-off between the protective efficacy and the model performance. Theoretical guarantees and experimental results demonstrate the effectiveness of the privacy protection without appreciable hindering on the model performance.
翻訳日:2021-10-08 15:27:12 公開日:2021-10-06
# (参考訳) タンパク質界面接触予測のための幾何トランスフォーマー

Geometric Transformers for Protein Interface Contact Prediction ( http://arxiv.org/abs/2110.02423v1 )

ライセンス: CC BY 4.0
Alex Morehead, Chen Chen, Jianlin Cheng(参考訳) タンパク質間の界面接触を予測する計算手法は、タンパク質ドッキング、タンパク質機能解析ツール、タンパク質バイオインフォマティクスの計算方法などの代替手法の精度を大幅に向上できるため、医薬品発見の後に大いに求められている。 本稿では,エンド・ツー・エンドの予測パイプラインであるdeepinteract内にパッケージされた,回転および翻訳不変タンパク質界面接触予測のための新しい幾何進化グラフトランスフォーマを提案する。 deepinteractは、2つのタンパク質の3d立体構造を入力として、パートナー特異的なタンパク質界面接触(すなわちタンパク質間残基-residue contact)を予測する。 厳密なベンチマークでは、DeepInteractは、新しい相互作用タンパク質構造データベース(DIPS-Plus)と第13および第14回CASP-CAPRI実験からの挑戦的なタンパク質複合体の標的について、それぞれ17%と13%のトップL/5精度(複合体内のタンパク質ユニットの長さ)を達成した。 グラフベースのバックボーンとしてGeometric Transformerを使用するDeepInteractは、DeepInteractと互換性のある他のグラフベースのニューラルネットワークバックボーンに加えて、既存のインターフェース接触予測方法よりも優れており、3Dタンパク質構造上の下流タスクのためのリッチリレーショナルジオメトリ機能を学ぶためのGeometric Transformerの有効性が検証されている。

Computational methods for predicting the interface contacts between proteins come highly sought after for drug discovery as they can significantly advance the accuracy of alternative approaches, such as protein-protein docking, protein function analysis tools, and other computational methods for protein bioinformatics. In this work, we present the Geometric Transformer, a novel geometry-evolving graph transformer for rotation and translation-invariant protein interface contact prediction, packaged within DeepInteract, an end-to-end prediction pipeline. DeepInteract predicts partner-specific protein interface contacts (i.e., inter-protein residue-residue contacts) given the 3D tertiary structures of two proteins as input. In rigorous benchmarks, DeepInteract, on challenging protein complex targets from the new Enhanced Database of Interacting Protein Structures (DIPS-Plus) and the 13th and 14th CASP-CAPRI experiments, achieves 17% and 13% top L/5 precision (L: length of a protein unit in a complex), respectively. In doing so, DeepInteract, with the Geometric Transformer as its graph-based backbone, outperforms existing methods for interface contact prediction in addition to other graph-based neural network backbones compatible with DeepInteract, thereby validating the effectiveness of the Geometric Transformer for learning rich relational-geometric features for downstream tasks on 3D protein structures.
翻訳日:2021-10-08 07:15:33 公開日:2021-10-06
# (参考訳) 疑似シンクホーンを用いた自然言語理解のフェデレート蒸留

Federated Distillation of Natural Language Understanding with Confident Sinkhorns ( http://arxiv.org/abs/2110.02432v1 )

ライセンス: CC BY-SA 4.0
Rishabh Bhardwaj, Tushar Vaidya, Soujanya Poria(参考訳) ユーザエクスペリエンスの向上は、アプリケーションサービスプロバイダにとって不可欠なタスクです。 例えば、広い範囲に住んでいる2人のユーザーは、食べ物の味が違うかもしれない。 エッジデバイスにインストールされたfood recommenderモバイルアプリケーションは、異なるドメインに関するクライアントのニーズを満たすために、ユーザからのフィードバック(レビュー)から学びたい場合があります。 ユーザデータを取得するには、プライバシのコストがかかると同時に、ユーザデバイスでトレーニングされたモデルパラメータを大規模にスペース非効率にする。 本研究では、ローカルデータやモデルパラメータをサーバに公開することなく、ユーザデバイス上でトレーニングされた(ローカル)モデルのフェデレーションから中央(グローバル)モデルを学習するアプローチを提案する。 本稿では,自然言語理解(NLU)タスクに一般的に現れるラベル間の類似度指標の問題に対するフェデレーション機構を提案する。 グローバルモデルを学ぶためには,局所モデルに割り当てられたソフトターゲットの信頼度から,グローバルモデル予測の最適輸送コストを最小化する。 モデルの信頼度(モデル重み付けスキーム)スコアは、モデルの予測と確率バイアスとのL2距離として定義される。 本手法は,3つのNLUタスクに固有のラベル空間意味論(微粒な感情分析,会話における感情認識,自然言語推論)を組み込んだベースライン上でのグローバルモデルの性能を向上させる。 コードはhttps://github.com/declare-lab/sinkhorn-lossで公開しています。

Enhancing the user experience is an essential task for application service providers. For instance, two users living wide apart may have different tastes of food. A food recommender mobile application installed on an edge device might want to learn from user feedback (reviews) to satisfy the client's needs pertaining to distinct domains. Retrieving user data comes at the cost of privacy while asking for model parameters trained on a user device becomes space inefficient at a large scale. In this work, we propose an approach to learn a central (global) model from the federation of (local) models which are trained on user-devices, without disclosing the local data or model parameters to the server. We propose a federation mechanism for the problems with natural similarity metric between the labels which commonly appear in natural language understanding (NLU) tasks. To learn the global model, the objective is to minimize the optimal transport cost of the global model's predictions from the confident sum of soft-targets assigned by local models. The confidence (a model weighting scheme) score of a model is defined as the L2 distance of a model's prediction from its probability bias. The method improves the global model's performance over the baseline designed on three NLU tasks with intrinsic label space semantics, i.e., fine-grained sentiment analysis, emotion recognition in conversation, and natural language inference. We make our codes public at https://github.com/declare-lab/sinkhorn-loss.
翻訳日:2021-10-08 06:55:50 公開日:2021-10-06
# (参考訳) 複雑な都市環境における歩行者風力係数の推定

Pedestrian Wind Factor Estimation in Complex Urban Environments ( http://arxiv.org/abs/2110.02443v1 )

ライセンス: CC BY 4.0
Sarah Mokhtar, Matthew Beveridge, Yumeng Cao, Iddo Drori(参考訳) 都市計画立案者や政策立案者は、より密集した都市環境においてより人口の多い都市のために、住みやすく楽しい都市を作るという課題に直面している。 都市マイクロ気候は, 都市空間の質を定義する上で重要な役割を担っているが, 計算流体力学(CFD)シミュレーションの複雑化と計算費用の増大により, 初期の都市設計と計画プロセスにおける風力マイクロ気候評価の統合は依然として課題である。 この研究は、複雑な都市環境におけるリアルタイムな歩行者風の快適さ推定のためのデータ駆動ワークフローを開発し、デザイナー、政策立案者、都市住民が移動性、健康、エネルギー選択に関する情報決定を行うことを可能にする。 条件付き生成型逆ネットワーク(cgan)アーキテクチャを用いて,高い信頼度と解釈性を維持しつつ計算量を削減し,都市の複雑度を適切に表現し,歩行者の快適度を推定する。 計算時間を数日から秒に短縮しつつ,高品質な風力場近似を示す。

Urban planners and policy makers face the challenge of creating livable and enjoyable cities for larger populations in much denser urban conditions. While the urban microclimate holds a key role in defining the quality of urban spaces today and in the future, the integration of wind microclimate assessment in early urban design and planning processes remains a challenge due to the complexity and high computational expense of computational fluid dynamics (CFD) simulations. This work develops a data-driven workflow for real-time pedestrian wind comfort estimation in complex urban environments which may enable designers, policy makers and city residents to make informed decisions about mobility, health, and energy choices. We use a conditional generative adversarial network (cGAN) architecture to reduce the computational computation while maintaining high confidence levels and interpretability, adequate representation of urban complexity, and suitability for pedestrian comfort estimation. We demonstrate high quality wind field approximations while reducing computation time from days to seconds.
翻訳日:2021-10-08 06:28:17 公開日:2021-10-06
# (参考訳) サブクアドラティックな複雑度をもつ視覚知覚のためのリップル注意

Ripple Attention for Visual Perception with Sub-quadratic Complexity ( http://arxiv.org/abs/2110.02453v1 )

ライセンス: CC BY 4.0
Lin Zheng, Huijie Pan, Lingpeng Kong(参考訳) トランスフォーマーアーキテクチャは現在、自然言語処理タスクのモデリングの中心となっている。 中心となるのはアテンションメカニズムであり、シーケンス内の長期依存の効果的なモデリングを可能にする。 近年,コンピュータビジョン領域において,まず2次元画像をパッチに分割し,次いで1次元シーケンスとして扱うトランスフォーマーが成功している。 しかし、このような線形化は、重要な視覚的手がかりを持つ画像における空間的局所性の概念を損なう。 このギャップを埋めるために,視覚知覚のためのサブクアドラティックアテンション機構であるリップルアテンションを提案する。 ripple attentionでは、2次元空間における相対空間距離に関して、クエリに対する異なるトークンの寄与を重み付けする。 長期依存を許さないビシナルトークンとの相関性を求めるため,スティック破れ変換により空間重みを導出する。 さらに,全問合せに対する重み付き貢献度を線形観測時間で計算する動的プログラミングアルゴリズムを,サムド領域表と近年の線形注意の進歩を活かして設計する。 広汎な実験と分析は、様々な視覚的タスクにおけるリップル注意の有効性を示す。

Transformer architectures are now central to modeling in natural language processing tasks. At its heart is the attention mechanism, which enables effective modeling of long-term dependencies in a sequence. Recently, transformers have been successfully applied in the computer vision domain, where 2D images are first segmented into patches and then treated as 1D sequences. Such linearization, however, impairs the notion of spatial locality in images, which bears important visual clues. To bridge the gap, we propose ripple attention, a sub-quadratic attention mechanism for visual perception. In ripple attention, contributions of different tokens to a query are weighted with respect to their relative spatial distances in the 2D space. To favor correlations with vicinal tokens yet permit long-term dependencies, we derive the spatial weights through a stick-breaking transformation. We further design a dynamic programming algorithm that computes weighted contributions for all queries in linear observed time, taking advantage of the summed-area table and recent advances in linearized attention. Extensive experiments and analyses demonstrate the effectiveness of ripple attention on various visual tasks.
翻訳日:2021-10-08 06:17:13 公開日:2021-10-06
# (参考訳) 機械学習推論の性能推定のためのポストホックモデル

Post-hoc Models for Performance Estimation of Machine Learning Inference ( http://arxiv.org/abs/2110.02459v1 )

ライセンス: CC BY 4.0
Xuechen Zhang, Samet Oymak, Jiasi Chen(参考訳) 推論中に機械学習モデルがどのように機能するかを見積もるのは、さまざまなシナリオ(不確実性を定量化する、あるいは利用可能なモデルのライブラリから選択するなど)において非常に重要です。 しかし、ソフトマックス信頼性の標準的な精度推定は汎用的ではなく、異なるパフォーマンス指標(例えば、F1スコア、リコール)や異なるアプリケーションシナリオや入力ドメインのパフォーマンスを確実に予測することはできない。 本研究では,様々な指標とシナリオに対する性能推定を体系的に一般化し,不確実性校正の一般化概念について考察する。 本稿では,この目標を達成するためにポストホックモデルを使用し,モデルタイプ,特徴工学,性能指標を含む設計パラメータを調査し,最適な推定品質を達成することを提案する。 オブジェクト検出問題に重点を置いており、従来の手法とは異なり、リコールやF1スコアといった画像単位のメトリクスを推定できる。 コンピュータビジョンモデルとデータセットによる3つのユースケース(モバイルエッジオフロード、モデル選択、データセットシフト)による広範な実験を通じて、提案されたポストホックモデルは、標準のキャリブレーションされた信頼性ベースラインを一貫して上回ることがわかった。 我々の知る限りでは、機械学習推論のための異なる性能推定問題に対処する統一的なフレームワークを開発する最初の試みである。

Estimating how well a machine learning model performs during inference is critical in a variety of scenarios (for example, to quantify uncertainty, or to choose from a library of available models). However, the standard accuracy estimate of softmax confidence is not versatile and cannot reliably predict different performance metrics (e.g., F1-score, recall) or the performance in different application scenarios or input domains. In this work, we systematically generalize performance estimation to a diverse set of metrics and scenarios and discuss generalized notions of uncertainty calibration. We propose the use of post-hoc models to accomplish this goal and investigate design parameters, including the model type, feature engineering, and performance metric, to achieve the best estimation quality. Emphasis is given to object detection problems and, unlike prior work, our approach enables the estimation of per-image metrics such as recall and F1-score. Through extensive experiments with computer vision models and datasets in three use cases -- mobile edge offloading, model selection, and dataset shift -- we find that proposed post-hoc models consistently outperform the standard calibrated confidence baselines. To the best of our knowledge, this is the first work to develop a unified framework to address different performance estimation problems for machine learning inference.
翻訳日:2021-10-08 05:51:27 公開日:2021-10-06
# (参考訳) ssfl:自己監督による連合学習におけるラベル不足対策

SSFL: Tackling Label Deficiency in Federated Learning via Personalized Self-Supervision ( http://arxiv.org/abs/2110.02470v1 )

ライセンス: CC BY 4.0
Chaoyang He, Zhengyu Yang, Erum Mushtaq, Sunwoo Lee, Mahdi Soltanolkotabi, Salman Avestimehr(参考訳) federated learning(fl)は、データのプライバシを強化するために、mlトレーニングエコシステムを、クラウド上の集中型設定からエッジデバイス上の分散トレーニングに転換している。 flにおける本質的だが稀な課題は、端のラベル不足である。 この問題は、FLユーザーがプライベートデータのラベル付けに消極的であることから、集中的なトレーニングよりもFLの方が顕著である。 さらに,エッジデバイスにおけるデータの不均一性から,パーソナライズモデルの開発が重要である。 本稿では,自己教師付き連合学習(self-supervised federated learning; ssfl),自己教師付きおよびパーソナライズされた連合学習フレームワーク,およびこれらの課題に対処するための一連のアルゴリズムを提案する。 まず,SSFLフレームワーク下では,SimSiamネットワークなどの集中型自己教師型学習において,FedAvgアルゴリズムが近年のブレークスルーと互換性があることを実証する。 さらに,本フレームワークのエッジデバイスにおけるデータ不均一性に対処するため,既存の教師付きパーソナライゼーションアルゴリズムを自己教師付き学習の設定へと拡張するアルゴリズムを改良した。 さらに,データの局所表現と大域表現との間の距離を慎重に調整することにより,パーソナライズとコンセンサスをバランスさせる,パーソナライズされた自己教師付き学習アルゴリズムであるper-ssflを提案する。 また,提案アルゴリズムの総合的な比較分析を行うために,分散トレーニングシステムとSSFLの関連評価プロトコルを開発した。 その結果,flにおける教師付き学習と教師なし学習の間の評価精度の差は小さく合理的であることがわかった。 性能比較は、表現正規化に基づくパーソナライズ法が他の変種よりも優れていることを示す。

Federated Learning (FL) is transforming the ML training ecosystem from a centralized over-the-cloud setting to distributed training over edge devices in order to strengthen data privacy. An essential but rarely studied challenge in FL is label deficiency at the edge. This problem is even more pronounced in FL compared to centralized training due to the fact that FL users are often reluctant to label their private data. Furthermore, due to the heterogeneous nature of the data at edge devices, it is crucial to develop personalized models. In this paper we propose self-supervised federated learning (SSFL), a unified self-supervised and personalized federated learning framework, and a series of algorithms under this framework which work towards addressing these challenges. First, under the SSFL framework, we demonstrate that the standard FedAvg algorithm is compatible with recent breakthroughs in centralized self-supervised learning such as SimSiam networks. Moreover, to deal with data heterogeneity at the edge devices in this framework, we have innovated a series of algorithms that broaden existing supervised personalization algorithms into the setting of self-supervised learning. We further propose a novel personalized federated self-supervised learning algorithm, Per-SSFL, which balances personalization and consensus by carefully regulating the distance between the local and global representations of data. To provide a comprehensive comparative analysis of all proposed algorithms, we also develop a distributed training system and related evaluation protocol for SSFL. Our findings show that the gap of evaluation accuracy between supervised learning and unsupervised learning in FL is both small and reasonable. The performance comparison indicates the representation regularization-based personalization method is able to outperform other variants.
翻訳日:2021-10-08 05:28:32 公開日:2021-10-06
# (参考訳) シミュレーションに基づく推論による悪意活動の検出と定量化

Detecting and Quantifying Malicious Activity with Simulation-based Inference ( http://arxiv.org/abs/2110.02483v1 )

ライセンス: CC BY 4.0
Andrew Gambardella, Bogdan State, Naemullah Khan, Leo Tsourides, Philip H. S. Torr, At{\i}l{\i}m G\"une\c{s} Baydin(参考訳) 本稿では,悪意のあるユーザ識別問題に対処する確率的プログラミング手法を推薦アルゴリズムで提案する。 確率的プログラミングは、悪意のあるユーザーが構造化されたモデルの下でどのように振る舞うかの不連続な表現を提供するだけでなく、悪意のあるユーザーによって引き起こされるダメージの定量化を可能にするなど、他の技術よりも多くの利点を提供する。 簡単なレコメンデーションアルゴリズムと相互作用する正規ユーザと悪意ユーザのモデルを用いて、悪意のあるユーザ識別実験を行い、そのダイナミクスに対するユーザやグループの影響を定量化する新しいシミュレーションベースの尺度を提案する。

We propose the use of probabilistic programming techniques to tackle the malicious user identification problem in a recommendation algorithm. Probabilistic programming provides numerous advantages over other techniques, including but not limited to providing a disentangled representation of how malicious users acted under a structured model, as well as allowing for the quantification of damage caused by malicious users. We show experiments in malicious user identification using a model of regular and malicious users interacting with a simple recommendation algorithm, and provide a novel simulation-based measure for quantifying the effects of a user or group of users on its dynamics.
翻訳日:2021-10-08 04:48:39 公開日:2021-10-06
# (参考訳) 解釈可能な機械学習のためのshapley変数重要クラウド

Shapley variable importance clouds for interpretable machine learning ( http://arxiv.org/abs/2110.02484v1 )

ライセンス: CC BY 4.0
Yilin Ning, Marcus Eng Hock Ong, Bibhas Chakraborty, Benjamin Alan Goldstein, Daniel Shu Wei Ting, Roger Vaughan, Nan Liu(参考訳) 解釈可能な機械学習は、パフォーマンスを最適化する最終モデルの説明に注力している。 現在の最先端は、個々の予測に対する変数の影響を局所的に説明するShapley additive explanations(SHAP)であり、データセット全体のグローバルアセスメントのために最近拡張されている。 最近、ドンとルーディンは「十分良い」最終モデルと同じクラスからモデルへの調査の拡張を提案し、1つのモデルに基づく変数の重要性の事前の誇張を特定した。 しかし、この方法は既存のShapleyベースの解釈と直接統合していない。 このギャップを埋めるために、Shapley変数の重要度クラウドを提案し、良いモデルにまたがって情報をプールし、最終モデルのSHAP分析におけるバイアスアセスメントを避けるとともに、新しい視覚化を通して結果を伝える。 刑事司法データと電子カルテデータを用いて,従来の説明やドン・ルディン法と比較し,さらなる知見を示す。

Interpretable machine learning has been focusing on explaining final models that optimize performance. The current state-of-the-art is the Shapley additive explanations (SHAP) that locally explains variable impact on individual predictions, and it is recently extended for a global assessment across the dataset. Recently, Dong and Rudin proposed to extend the investigation to models from the same class as the final model that are "good enough", and identified a previous overclaim of variable importance based on a single model. However, this method does not directly integrate with existing Shapley-based interpretations. We close this gap by proposing a Shapley variable importance cloud that pools information across good models to avoid biased assessments in SHAP analyses of final models, and communicate the findings via novel visualizations. We demonstrate the additional insights gain compared to conventional explanations and Dong and Rudin's method using criminal justice and electronic medical records data.
翻訳日:2021-10-08 04:32:12 公開日:2021-10-06
# (参考訳) ABC: 境界メモリ制御による注意

ABC: Attention with Bounded-memory Control ( http://arxiv.org/abs/2110.02488v1 )

ライセンス: CC BY 4.0
Hao Peng, Jungo Kasai, Nikolaos Pappas, Dani Yogatama, Zhaofeng Wu, Lingpeng Kong, Roy Schwartz, Noah A. Smith(参考訳) トランスフォーマーアーキテクチャは、様々なシーケンスモデリングタスクで最先端の結果を達成した。 しかし、それらの注意機構は、列長の2次複雑さを伴い、特に長い列では計算オーバーヘッドが禁止される。 注意コンテキストは、各トークンがスロットを取るランダムアクセスメモリとして見ることができる。 この観点では、メモリサイズはシーケンス長とともに線形に増大し、それからの読み込みのオーバーヘッドも増大する。 効率を改善する1つの方法は、メモリサイズをバインドすることです。 我々は、異なるアプローチをひとつの抽象概念、abc(bounded-memory control)の注意にまとめることができることを示し、それらはメモリの組織によって異なる。 ABCは新たな可能性を明らかにしている。 ひとつは、別々に思える効率的なアテンションのバリエーションを複数つなぐことだ。 第2に、この抽象化は、これまで因果関係の注意に当てはまらないと考えられていた、確立されたアプローチ(wang et al., 2020b)に新たな洞察を与えます。 最後に、既存のABCアプローチからインスピレーションを得たABCの新しい事例を示すが、そのヒューリスティックなメモリ構成関数を学習された文脈化関数に置き換える。 言語モデル,機械翻訳,マスキング言語モデルの微調整に関する実験では,従来の効率的な注意モデルよりも優れており,強力なトランスフォーマーベースラインと比較すると,精度を損なうことなく推定時間と空間効率を大幅に向上させる。

Transformer architectures have achieved state-of-the-art results on a variety of sequence modeling tasks. However, their attention mechanism comes with a quadratic complexity in sequence lengths, making the computational overhead prohibitive, especially for long sequences. Attention context can be seen as a random-access memory with each token taking a slot. Under this perspective, the memory size grows linearly with the sequence length, and so does the overhead of reading from it. One way to improve the efficiency is to bound the memory size. We show that disparate approaches can be subsumed into one abstraction, attention with bounded-memory control (ABC), and they vary in their organization of the memory. ABC reveals new, unexplored possibilities. First, it connects several efficient attention variants that would otherwise seem apart. Second, this abstraction gives new insights--an established approach (Wang et al., 2020b) previously thought to be not applicable in causal attention, actually is. Last, we present a new instance of ABC, which draws inspiration from existing ABC approaches, but replaces their heuristic memory-organizing functions with a learned, contextualized one. Our experiments on language modeling, machine translation, and masked language model finetuning show that our approach outperforms previous efficient attention models; compared to the strong transformer baselines, it significantly improves the inference time and space efficiency with no or negligible accuracy loss.
翻訳日:2021-10-08 04:23:16 公開日:2021-10-06
# (参考訳) プレトレーニングと強化学習:木を切る前に軸を削る

Pretraining & Reinforcement Learning: Sharpening the Axe Before Cutting the Tree ( http://arxiv.org/abs/2110.02497v1 )

ライセンス: CC BY 4.0
Saurav Kadavath, Samuel Paradis, Brian Yao(参考訳) プレトレーニング(Pretraining)は、ディープラーニングにおけるパフォーマンス向上とトレーニング時間短縮のための一般的な手法であり、深層強化学習(RL)の有望な実験結果である。 しかし、事前トレーニングには関連するデータセットが必要である。 本研究では,背景を乱すことなくrlタスクの事前学習の有効性を評価し,有効性が最小限の大規模データセットと,自己スーパービジョンでラベル付けされたケースバイケース生成データセットの両方を用いて評価する。 その結果、関連するデータセットのトレーニング中に学んだフィルタが事前トレーニングを非効率にするのに対して、分散データセットのトレーニング中に学んだフィルタは、RLトレーニング時間を確実に短縮し、80k RLトレーニングステップ後のパフォーマンスを改善することが示唆された。 さらに、限られた環境段階を考慮し、利用可能なステップを事前訓練とRLトレーニングに最適に分割し、RL性能を最大化する方法について検討する。 私たちのコードはGitHubで入手できる

Pretraining is a common technique in deep learning for increasing performance and reducing training time, with promising experimental results in deep reinforcement learning (RL). However, pretraining requires a relevant dataset for training. In this work, we evaluate the effectiveness of pretraining for RL tasks, with and without distracting backgrounds, using both large, publicly available datasets with minimal relevance, as well as case-by-case generated datasets labeled via self-supervision. Results suggest filters learned during training on less relevant datasets render pretraining ineffective, while filters learned during training on the in-distribution datasets reliably reduce RL training time and improve performance after 80k RL training steps. We further investigate, given a limited number of environment steps, how to optimally divide the available steps into pretraining and RL training to maximize RL performance. Our code is available on GitHub
翻訳日:2021-10-08 03:58:41 公開日:2021-10-06
# (参考訳) 対照的な教師なし表現学習のためのシャープ学習境界

Sharp Learning Bounds for Contrastive Unsupervised Representation Learning ( http://arxiv.org/abs/2110.02501v1 )

ライセンス: CC BY 4.0
Han Bao, Yoshihiro Nagano, Kento Nozawa(参考訳) 対照的に、教師なし表現学習(CURL)は、視覚、言語、グラフなどの様々な領域で成功している、ランダムに描画された負のサンプルよりも意味的に類似したペアを作るようにデータ表現を奨励する。 最近の理論的研究は、逆の損失による下流の分類損失の上限によってその成功を説明しようとしたが、実験的な事実を説明できるほどシャープではない:より大きな負のサンプルは分類性能を改善した。 本研究は,負のサンプルサイズにおいて,厳密なインターセプトを伴う下流分類損失を定式化する。 下流損失推定器としての対照的な損失について、我々の理論は既存の学習限界を大幅に改善するだけでなく、下流の分類がより大きな負のサンプルで経験的に改善する理由を説明している。 私たちの理論は、合成、視覚、言語データセットの実験と一貫性があることを検証します。

Contrastive unsupervised representation learning (CURL) encourages data representation to make semantically similar pairs closer than randomly drawn negative samples, which has been successful in various domains such as vision, language, and graphs. Although recent theoretical studies have attempted to explain its success by upper bounds of a downstream classification loss by the contrastive loss, they are still not sharp enough to explain an experimental fact: larger negative samples improve the classification performance. This study establishes a downstream classification loss bound with a tight intercept in the negative sample size. By regarding the contrastive loss as a downstream loss estimator, our theory not only improves the existing learning bounds substantially but also explains why downstream classification empirically improves with larger negative samples -- because the estimation variance of the downstream loss decays with larger negative samples. We verify that our theory is consistent with experiments on synthetic, vision, and language datasets.
翻訳日:2021-10-08 03:33:45 公開日:2021-10-06
# (参考訳) cbp:pseudo-lagrange multiplier法による重量精度制約付きバックプロパゲーション

CBP: Backpropagation with constraint on weight precision using a pseudo-Lagrange multiplier method ( http://arxiv.org/abs/2110.02550v1 )

ライセンス: CC BY 4.0
Guhyun Kim, Doo Seok Jeong(参考訳) 誤差の後方伝播(バックプロパゲーション)は、重みとバイアスの最適な集合を同定することでディープニューラルネットワークの目的関数(損失関数など)を最小化する手法である。 重み付けの精度に制約を加えることは、ハードウェア上の禁止されたワークロードを軽減するためにしばしば必要となる。 バックプロパゲーションの顕著な成功にもかかわらず、アルゴリズム自体は、追加のアルゴリズムを同時に適用しなければ、そのような制約を考慮できない。 この問題に対処するために,擬似ラグランジュ乗算法に基づく制約付きバックプロパゲーション(CBP)アルゴリズムを提案する。 提案したCBPアルゴリズムの定義特性は,ラグランジアン関数(ロス関数と制約関数)を目的関数として利用することである。 我々は,2進,3進,1ビットシフト,2ビットシフト重み制約といった様々な制約を検討した。 ポストトレーニング方法として、従来のバックプロパゲーションを用いて事前トレーニングされたImageNet上のAlexNet、ResNet-18、ResNet-50、GoogLeNetに適用した。 いずれの場合も、提案アルゴリズムはImageNetの最先端の手法、例えば、ResNet-18、ResNet-50、GoogLeNetの66.6%、74.4%、64.0%のTop-1精度を2重みで上回っている。 これはcbpを学習アルゴリズムとして強調し、適切な制約関数を使用することで、パフォーマンスの損失を最小限に抑えることができる。

Backward propagation of errors (backpropagation) is a method to minimize objective functions (e.g., loss functions) of deep neural networks by identifying optimal sets of weights and biases. Imposing constraints on weight precision is often required to alleviate prohibitive workloads on hardware. Despite the remarkable success of backpropagation, the algorithm itself is not capable of considering such constraints unless additional algorithms are applied simultaneously. To address this issue, we propose the constrained backpropagation (CBP) algorithm based on a pseudo-Lagrange multiplier method to obtain the optimal set of weights that satisfy a given set of constraints. The defining characteristic of the proposed CBP algorithm is the utilization of a Lagrangian function (loss function plus constraint function) as its objective function. We considered various types of constraints--binary, ternary, one-bit shift, and two-bit shift weight constraints. As a post-training method, CBP applied to AlexNet, ResNet-18, ResNet-50, and GoogLeNet on ImageNet, which were pre-trained using the conventional backpropagation. For all cases, the proposed algorithm outperforms the state-of-the-art methods on ImageNet, e.g., 66.6%, 74.4%, and 64.0% top-1 accuracy for ResNet-18, ResNet-50, and GoogLeNet with binary weights, respectively. This highlights CBP as a learning algorithm to address diverse constraints with the minimal performance loss by employing appropriate constraint functions.
翻訳日:2021-10-08 03:04:46 公開日:2021-10-06
# (参考訳) 構造化データからの効率的なマルチモーダル埋め込み

Efficient Multi-Modal Embeddings from Structured Data ( http://arxiv.org/abs/2110.02577v1 )

ライセンス: CC BY-SA 4.0
Anita L. Ver\H{o}, Ann Copestake(参考訳) マルチモーダルな単語意味論は、人間の意味表現が感覚経験に根ざしていると仮定して、知覚入力による埋め込みを強化することを目的としている。 ほとんどの研究は直接視覚入力による評価に焦点を当てているが、視覚の接地は言語応用にも貢献できる。 この論文のもう一つの動機は、より解釈可能なモデルの必要性を高め、サイズと性能に関するモデルの効率を評価することである。 本研究は,直接的な視覚入力,特に意味的類似性と関連性を含まない場合の意味論に対する視覚情報の影響を考察する。 視覚ゲノムの構造的アノテーションに基づく言語的・視覚的モダリティの組込み型について検討する。 構造化,言語,画像に基づく表現を含むユニモーダルモデルとマルチモーダルモデルを比較した。 データとモデルサイズ、モダリティ/データ分布および情報ゲインに関して、各モデルの効率を測定する。 解析には埋め込み構造の解釈が含まれる。 この新たな埋め込みは、テキストベースの埋め込みの補完情報を伝達することがわかった。 視覚モデルよりもはるかに少ないリソースで、経済的に同等のパフォーマンスを達成する。

Multi-modal word semantics aims to enhance embeddings with perceptual input, assuming that human meaning representation is grounded in sensory experience. Most research focuses on evaluation involving direct visual input, however, visual grounding can contribute to linguistic applications as well. Another motivation for this paper is the growing need for more interpretable models and for evaluating model efficiency regarding size and performance. This work explores the impact of visual information for semantics when the evaluation involves no direct visual input, specifically semantic similarity and relatedness. We investigate a new embedding type in-between linguistic and visual modalities, based on the structured annotations of Visual Genome. We compare uni- and multi-modal models including structured, linguistic and image based representations. We measure the efficiency of each model with regard to data and model size, modality / data distribution and information gain. The analysis includes an interpretation of embedding structures. We found that this new embedding conveys complementary information for text based embeddings. It achieves comparable performance in an economic way, using orders of magnitude less resources than visual models.
翻訳日:2021-10-08 02:41:32 公開日:2021-10-06
# (参考訳) 土地利用土地被覆分類のための深層移動学習 : 比較研究

Deep Transfer Learning for Land Use Land Cover Classification: A Comparative Study ( http://arxiv.org/abs/2110.02580v1 )

ライセンス: CC BY 4.0
Raoof Naushad, Tarunpreet Kaur(参考訳) 高分解能画像を用いたリモートセンシング画像分類の効率的な実施は,土地利用土地被覆分類 (lulc) において大きな意味を持つ。 リモートセンシングと深層学習技術の発展により,LULC分類のための時空間情報の抽出が容易になった。 さらに、リモートセンシングを含む科学の多様な分野は、転移学習を伴うcnnによる画像分類を大幅に改善した。 本研究では,CNNをスクラッチからトレーニングする代わりに,微調整事前学習ネットワークへのトランスファー学習を利用する。 a)VGG16及び b) LULCをEuroSATデータセットに分類するために,最終層を付加層に置き換えることにより,ワイド・レジデンシャル・ネットワーク(WRN)を構築する。 さらに, 早期停止, 勾配クリッピング, 適応学習率, データ拡張などの手法と性能と計算時間を比較し, 最適化した。 提案手法により,限られたデータ問題に対処でき,精度が向上した。 EuroSAT RGB バージョンベンチマークに対する総合的な比較は、我々の手法が過去の最高の結果を上回っ、精度が98.57%から99.17%に大幅に改善されたことを証明した。

Efficiently implementing remote sensing image classification with high spatial resolution imagery can provide great significant value in land-use land-cover classification (LULC). The developments in remote sensing and deep learning technologies have facilitated the extraction of spatiotemporal information for LULC classification. Moreover, the diverse disciplines of science, including remote sensing, have utilised tremendous improvements in image classification by CNNs with Transfer Learning. In this study, instead of training CNNs from scratch, we make use of transfer learning to fine-tune pre-trained networks a) VGG16 and b) Wide Residual Networks (WRNs), by replacing the final layer with additional layers, for LULC classification with EuroSAT dataset. Further, the performance and computational time were compared and optimized with techniques like early stopping, gradient clipping, adaptive learning rates and data augmentation. With the proposed approaches we were able to address the limited-data problem and achieved very good accuracy. Comprehensive comparisons over the EuroSAT RGB version benchmark have successfully established that our method outperforms the previous best-stated results, with a significant improvement over the accuracy from 98.57% to 99.17%.
翻訳日:2021-10-08 02:31:09 公開日:2021-10-06
# (参考訳) EdiTTS:制御可能なテキスト音声編集のためのスコアベース編集

EdiTTS: Score-based Editing for Controllable Text-to-Speech ( http://arxiv.org/abs/2110.02584v1 )

ライセンス: CC BY 4.0
Jaesung Tae, Hyeongju Kim, Taesu Kim(参考訳) 音声合成のためのスコアベース生成モデルに基づく音声編集手法であるEdiTTSを提案する。 EdiTTSは、追加のトレーニング、タスク固有の最適化、スコアベースのモデルバックボーンへのアーキテクチャ変更を必要とせずに、コンテンツとピッチの両方の観点から、ターゲットとする、きめ細かいオーディオ編集を可能にする。 具体的には,拡散モデルから所望の振る舞いを誘導するためにガウス前空間に粗いが故意な摂動を適用し,マスクや軟化カーネルを適用して,反復的な編集が対象領域にのみ適用されることを保証する。 リスニングテストは、EdiTTSがユーザの要求を満たす自然音を確実に生成できることを示した。

We present EdiTTS, an off-the-shelf speech editing methodology based on score-based generative modeling for text-to-speech synthesis. EdiTTS allows for targeted, granular editing of audio, both in terms of content and pitch, without the need for any additional training, task-specific optimization, or architectural modifications to the score-based model backbone. Specifically, we apply coarse yet deliberate perturbations in the Gaussian prior space to induce desired behavior from the diffusion model, while applying masks and softening kernels to ensure that iterative edits are applied only to the target region. Listening tests demonstrate that EdiTTS is capable of reliably generating natural-sounding audio that satisfies user-imposed requirements.
翻訳日:2021-10-08 02:19:34 公開日:2021-10-06
# (参考訳) 単純な畳み込みニューラルネットワーク

Simplicial Convolutional Neural Networks ( http://arxiv.org/abs/2110.02585v1 )

ライセンス: CC BY 4.0
Maosheng Yang, Elvin Isufi and Geert Leus(参考訳) グラフはノードとして表現することで、ネットワーク化されたデータをモデル化できる。 近年、信号処理とニューラルネットワークがグラフ上のデータから処理と学習のために拡張され、グラフ信号の再構成、グラフまたはノードの分類、リンク予測などのタスクで業績を上げている。 しかし、これらの方法はグラフのノード上で定義されたデータにのみ適合する。 本稿では,ノード,エッジ,三角形など,単純化上で定義されたデータから学習する,単純な畳み込みニューラルネットワーク(SCNN)アーキテクチャを提案する。 scnnの置換と配向の等分散, 複雑性, スペクトル解析について検討した。 最後に,コオーサシップ・コンプレックス上での引用を命令するためにSCNNの性能を検証した。

Graphs can model networked data by representing them as nodes and their pairwise relationships as edges. Recently, signal processing and neural networks have been extended to process and learn from data on graphs, with achievements in tasks like graph signal reconstruction, graph or node classifications, and link prediction. However, these methods are only suitable for data defined on the nodes of a graph. In this paper, we propose a simplicial convolutional neural network (SCNN) architecture to learn from data defined on simplices, e.g., nodes, edges, triangles, etc. We study the SCNN permutation and orientation equivariance, complexity, and spectral analysis. Finally, we test the SCNN performance for imputing citations on a coauthorship complex.
翻訳日:2021-10-08 02:07:10 公開日:2021-10-06
# (参考訳) sequence reptile: 多言語学習のためのタスク間勾配アライメント

Sequential Reptile: Inter-Task Gradient Alignment for Multilingual Learning ( http://arxiv.org/abs/2110.02600v1 )

ライセンス: CC BY 4.0
Seanie Lee, Hae Beom Lee, Juho Lee, Sung Ju Hwang(参考訳) 複数の言語で事前訓練された多言語モデルは、様々な多言語ダウンストリームタスクにおいて顕著な性能を達成した。 さらに、単一の単言語下流タスクで微調整されたモデルでは、見当たらない言語に一般化することが示されている。 本稿では, 負の伝達を最小化しつつ, 知識伝達を最大化するために, それらの間の勾配を調整することが重要であることを示す。 その重要性にもかかわらず、既存のグラデーションアライメントの方法は、全く異なる目的を持つか、タスク間のアライメントを無視するか、あるいはより非効率な方法で連続的な学習問題を解決することを目的としている。 タスク間の不整合勾配の結果、モデルは事前学習から得られた知識を壊滅的に忘れてしまうという形で深刻な負の移動に苦しむ。 制約を克服するために,タスク間の勾配を効率的に調整できる簡易かつ効果的な手法を提案する。 具体的には,すべてのタスクからバッチを順次サンプリングして各内部最適化を行い,その後に外付け更新を行う。 本手法では,タスク間の勾配の一致により,負の移動や破滅的な忘れ込みに対してモデルが脆弱になる。 我々は,様々なマルチタスク学習およびゼロショット言語間転送タスクにおいて,提案手法を広範囲に検証した。

Multilingual models jointly pretrained on multiple languages have achieved remarkable performance on various multilingual downstream tasks. Moreover, models finetuned on a single monolingual downstream task have shown to generalize to unseen languages. In this paper, we first show that it is crucial for those tasks to align gradients between them in order to maximize knowledge transfer while minimizing negative transfer. Despite its importance, the existing methods for gradient alignment either have a completely different purpose, ignore inter-task alignment, or aim to solve continual learning problems in rather inefficient ways. As a result of the misaligned gradients between tasks, the model suffers from severe negative transfer in the form of catastrophic forgetting of the knowledge acquired from the pretraining. To overcome the limitations, we propose a simple yet effective method that can efficiently align gradients between tasks. Specifically, we perform each inner-optimization by sequentially sampling batches from all the tasks, followed by a Reptile outer update. Thanks to the gradients aligned between tasks by our method, the model becomes less vulnerable to negative transfer and catastrophic forgetting. We extensively validate our method on various multi-task learning and zero-shot cross-lingual transfer tasks, where our method largely outperforms all the relevant baselines we consider.
翻訳日:2021-10-08 01:56:04 公開日:2021-10-06
# (参考訳) cDMNによるDMチャレンジの対処:DMNと制約推論の密接な統合

Tackling the DM Challenges with cDMN: A Tight Integration of DMN and Constraint Reasoning ( http://arxiv.org/abs/2110.02610v1 )

ライセンス: CC BY 4.0
Simon Vandevelde, Bram Aerts and Joost Vennekens(参考訳) 知識に基づくAIは通常、ドメイン知識の正式なモデルを構築するための知識エンジニアに依存します。 本稿では,CDMN(Constraint Decision Model and Notation)と呼ばれるDMN(Decision Model and Notation)標準の拡張について述べる。 dmnは、ユーザーフレンドリーでテーブルベースの決定ロジック表記法であり、ドメインの専門家がitスタッフの助けなしに簡単な決定手順をモデル化できる。 cDMNは、より複雑なドメイン知識をモデル化するためにDMNの表現力を拡大することを目的としている。 DMコミュニティのウェブサイトに投稿された最も複雑な課題を解決することで、cDMNをテストする。 当社のcdmnソリューションと,webサイトに提出されたソリューションを比較して,当社のアプローチが競争力があることを確認します。 さらに、cDMNは他のどのアプローチよりも多くの課題を解決できる。

Knowledge-based AI typically depends on a knowledge engineer to construct a formal model of domain knowledge -- but what if domain experts could do this themselves? This paper describes an extension to the Decision Model and Notation (DMN) standard, called Constraint Decision Model and Notation (cDMN). DMN is a user-friendly, table-based notation for decision logic, which allows domain experts to model simple decision procedures without the help of IT staff. cDMN aims to enlarge the expressiveness of DMN in order to model more complex domain knowledge, while retaining DMN's goal of being understandable by domain experts. We test cDMN by solving the most complex challenges posted on the DM Community website. We compare our own cDMN solutions to the solutions that have been submitted to the website and find that our approach is competitive. Moreover, cDMN is able to solve more challenges than any other approach.
翻訳日:2021-10-08 01:34:06 公開日:2021-10-06
# (参考訳) 画像は5文の価値はあるか? 画像テキストマッチングのための意味論の新しい展開

Is An Image Worth Five Sentences? A New Look into Semantics for Image-Text Matching ( http://arxiv.org/abs/2110.02623v1 )

ライセンス: CC BY 4.0
Ali Furkan Biten, Andres Mafla, Lluis Gomez, Dimosthenis Karatzas(参考訳) 画像テキストマッチングのタスクは、異なるモダリティからの表現を共通の視覚テキスト埋め込みにマッピングすることを目的としている。 しかし、このタスクで最も広く使われているデータセットであるMSCOCOとFlickr30Kは、実際に画像キャプションデータセットであり、画像と文間の非常に限定的な関連性を提供する。 この限定的な基底真理情報は、バイナリ関連性に基づいて評価指標を使用するよう強いる: 文クエリを考慮すれば、1つの画像のみを関連付けている。 しかし、他の多くの関連する画像やキャプションがデータセットに存在する可能性がある。 本研究では,検索項目の意味的関連性を,注釈付きバイナリ関係とは無関係に評価する2つの指標を提案する。 さらに,画像キャプション指標であるciderを用いて,標準三重項損失に最適化される意味的適応マージン(sam)を定義する,新たな戦略を取り入れている。 我々の定式化を既存のモデルに組み込むことで、利用可能なトレーニングデータに制限のあるシナリオで \emph{large} の改善が得られる。 また,アノテートされたイメージキャプチャペアの性能は,フルトレーニングセットを採用する際に,他の非アノテート関連項目を改善しながら維持されることを示す。 私たちのメトリクスと適応マージンによるコードを公開します。

The task of image-text matching aims to map representations from different modalities into a common joint visual-textual embedding. However, the most widely used datasets for this task, MSCOCO and Flickr30K, are actually image captioning datasets that offer a very limited set of relationships between images and sentences in their ground-truth annotations. This limited ground truth information forces us to use evaluation metrics based on binary relevance: given a sentence query we consider only one image as relevant. However, many other relevant images or captions may be present in the dataset. In this work, we propose two metrics that evaluate the degree of semantic relevance of retrieved items, independently of their annotated binary relevance. Additionally, we incorporate a novel strategy that uses an image captioning metric, CIDEr, to define a Semantic Adaptive Margin (SAM) to be optimized in a standard triplet loss. By incorporating our formulation to existing models, a \emph{large} improvement is obtained in scenarios where available training data is limited. We also demonstrate that the performance on the annotated image-caption pairs is maintained while improving on other non-annotated relevant items when employing the full training set. Code with our metrics and adaptive margin formulation will be made public.
翻訳日:2021-10-08 01:14:08 公開日:2021-10-06
# (参考訳) CLIP-Forge: ゼロショットテキスト・ツー・シェイプ生成を目指す

CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation ( http://arxiv.org/abs/2110.02624v1 )

ライセンス: CC BY-SA 4.0
Aditya Sanghi and Hang Chu and Joseph G. Lambourne and Ye Wang and Chin-Yi Cheng and Marco Fumero(参考訳) 近年,テキスト対画像生成が進んでいるが,テキスト対形状生成は,大規模にテキストと形状データを組み合わせることができないため,依然として課題となっている。 本稿では,2段階の学習プロセスに基づくゼロショットテキスト対形状生成のための簡易かつ効果的な手法を提案する。 提案手法は, 有望なゼロショット一般化を示すだけでなく, 高価な推論時間最適化を回避し, 与えられたテキストに対して複数の形状を生成できる。

While recent progress has been made in text-to-image generation, text-to-shape generation remains a challenging problem due to the unavailability of paired text and shape data at a large scale. We present a simple yet effective method for zero-shot text-to-shape generation based on a two-stage training process, which only depends on an unlabelled shape dataset and a pre-trained image-text network such as CLIP. Our method not only demonstrates promising zero-shot generalization, but also avoids expensive inference time optimization and can generate multiple shapes for a given text.
翻訳日:2021-10-08 00:58:47 公開日:2021-10-06
# (参考訳) ディープQネットワークの転送性について

On The Transferability of Deep-Q Networks ( http://arxiv.org/abs/2110.02639v1 )

ライセンス: CC BY 4.0
Matthia Sabatelli, Pierre Geurts(参考訳) 転送学習(tl)は、長いトレーニング時間から大規模なデータセットのニーズまで、ディープニューラルネットワークのトレーニングの成功を特徴付けるいくつかのハードルを克服する効率的な機械学習パラダイムである。 TLの利用は、SL(Supervised Learning)において十分に確立され、成功した訓練実践であるが、DRL(Deep Reinforcement Learning)の適用性は稀である。 本稿では,3種類のDeep-Q NetworksのDRLベンチマークおよび新しい制御タスクのセット上での転送可能性について検討する。 以上の結果から,DRLコンテキストにおけるニューラルネットワークの転送は特に困難であり,ほとんどの場合,負の転送が生じるプロセスであることが示唆された。 ディープqネットワークの移動がなぜ不十分かを理解するために、このアルゴリズムを特徴付けるトレーニングダイナミクスに関する新たな洞察を得ました。

Transfer Learning (TL) is an efficient machine learning paradigm that allows overcoming some of the hurdles that characterize the successful training of deep neural networks, ranging from long training times to the needs of large datasets. While exploiting TL is a well established and successful training practice in Supervised Learning (SL), its applicability in Deep Reinforcement Learning (DRL) is rarer. In this paper, we study the level of transferability of three different variants of Deep-Q Networks on popular DRL benchmarks as well as on a set of novel, carefully designed control tasks. Our results show that transferring neural networks in a DRL context can be particularly challenging and is a process which in most cases results in negative transfer. In the attempt of understanding why Deep-Q Networks transfer so poorly, we gain novel insights into the training dynamics that characterizes this family of algorithms.
翻訳日:2021-10-08 00:51:54 公開日:2021-10-06
# (参考訳) ディープラーニングに基づくバッハスタイルの音楽オーサリングシステム

Bach Style Music Authoring System based on Deep Learning ( http://arxiv.org/abs/2110.02640v1 )

ライセンス: CC BY 4.0
Minghe Kong and Lican Huang(参考訳) 人工知能分野における様々な面での継続的な改善により、音楽分野への深層学習能力を備えた人工知能の勢いが高まっている。 本研究の目的は,ディープラーニングに基づくバッハスタイルの音楽オーサリングシステムを設計することである。 LSTMニューラルネットワークを用いて、シリアライズおよび標準化された音楽特徴データをトレーニングする。 繰り返し実験により,バッハ音楽の模倣を生成できる最適LSTMモデルが得られた。 最後に、生成された音楽は、オンラインオーディションとチューリングテストの形式で包括的に評価される。 本稿で構築された音楽生成システムのレパートリーは、バッハのオリジナル音楽のスタイルに非常に近いものであり、一般人がバッハの作曲した楽曲やAIを区別することは比較的困難である。

With the continuous improvement in various aspects in the field of artificial intelligence, the momentum of artificial intelligence with deep learning capabilities into the field of music is coming. The research purpose of this paper is to design a Bach style music authoring system based on deep learning. We use a LSTM neural network to train serialized and standardized music feature data. By repeated experiments, we find the optimal LSTM model which can generate imitation of Bach music. Finally the generated music is comprehensively evaluated in the form of online audition and Turing test. The repertoires which the music generation system constructed in this article are very close to the style of Bach's original music, and it is relatively difficult for ordinary people to distinguish the musics Bach authored and AI created.
翻訳日:2021-10-08 00:35:12 公開日:2021-10-06
# (参考訳) 重み付き一般化コヒーレンスアプローチによるマトリックス設計のセンシング

A Weighted Generalized Coherence Approach for Sensing Matrix Design ( http://arxiv.org/abs/2110.02645v1 )

ライセンス: CC BY 4.0
Ameya Anjarlekar, Ajit Rajwade(参考訳) ランダムに生成されるセンシング行列と比較して、慎重に設計された検出行列w.r.t.を最適化することは、一連の圧縮的測定値によってより良い品質の信号回復をもたらすことが知られている。 本稿では,ランダム初期条件を出発点とする知覚行列の最適化のための,よく知られた相互コヒーレンス基準の一般化を提案する。 これらの一般化を双コヒーレンス(bi-coherence)あるいは三コヒーレンス(tri-coherence)と呼び、感知行列の任意の一列が他の列のスパース線形結合に近いことを妨げている基準に基づいている。 また,重み付きコヒーレンス,重み付き二コヒーレンス,重み付き三コヒーレンス基準により,重み付き行列列に重みを割り当てることにより,重み付き行列をさらに改善するためのトレーニングデータも組み込んだ。 最適化問題を解くアルゴリズムも提案されている。 最後に,提案アルゴリズムの有効性を実証実験により示す。

As compared to using randomly generated sensing matrices, optimizing the sensing matrix w.r.t. a carefully designed criterion is known to lead to better quality signal recovery given a set of compressive measurements. In this paper, we propose generalizations of the well-known mutual coherence criterion for optimizing sensing matrices starting from random initial conditions. We term these generalizations as bi-coherence or tri-coherence and they are based on a criterion that discourages any one column of the sensing matrix from being close to a sparse linear combination of other columns. We also incorporate training data to further improve the sensing matrices through weighted coherence, weighted bi-coherence, or weighted tri-coherence criteria, which assign weights to sensing matrix columns as per their importance. An algorithm is also presented to solve the optimization problems. Finally, the effectiveness of the proposed algorithm is demonstrated through empirical results.
翻訳日:2021-10-08 00:29:43 公開日:2021-10-06
# (参考訳) 涙のない弱いノベルカテゴリ:弱いショット学習に関する調査

Weak Novel Categories without Tears: A Survey on Weak-Shot Learning ( http://arxiv.org/abs/2110.02651v1 )

ライセンス: CC0 1.0
Li Niu(参考訳) ディープラーニングは、大量のトレーニングデータを必要とするデータ格納型アプローチである。 しかし、すべてのカテゴリで十分に注釈付けされたトレーニングデータを集めるのに時間と労力がかかる。 十分な完全注釈付きトレーニングサンプルを持つベースカテゴリの存在を仮定すると、異なるパラダイムではトレーニングサンプルが少なくなり、新しいカテゴリに対するより弱いアノテーションが必要となる。 中でもゼロショット学習(resp., few-shot)は、新しいカテゴリのゼロ(resp., few)トレーニングサンプルを用いて探索し、新しいカテゴリの量要件を低くする。 代わりに、弱いショット学習は、新しいカテゴリの品質要件を低くする。 具体的には、新しいカテゴリのために十分なトレーニングサンプルを収集するが、弱いアノテーションしか持たない。 異なるタスクでは、弱いアノテーションは異なる形式(例えば、画像分類のためのノイズラベル、オブジェクト検出のためのイメージラベル、セグメンテーションのためのバウンディングボックス)で示され、弱い教師付き学習の定義と同様である。 したがって、弱ショット学習は補助的な完全教師付きカテゴリで弱教師付き学習として扱うこともできる。 本稿では,既存の弱ショット学習手法を異なるタスクで議論し,コードをhttps://github.com/bcmi/awesome-weak-shot-learningで要約する。

Deep learning is a data-hungry approach, which requires massive training data. However, it is time-consuming and labor-intensive to collect abundant fully-annotated training data for all categories. Assuming the existence of base categories with adequate fully-annotated training samples, different paradigms requiring fewer training samples or weaker annotations for novel categories have attracted growing research interest. Among them, zero-shot (resp., few-shot) learning explores using zero (resp., a few) training samples for novel categories, which lowers the quantity requirement for novel categories. Instead, weak-shot learning lowers the quality requirement for novel categories. Specifically, sufficient training samples are collected for novel categories but they only have weak annotations. In different tasks, weak annotations are presented in different forms (e.g., noisy labels for image classification, image labels for object detection, bounding boxes for segmentation), similar to the definitions in weakly supervised learning. Therefore, weak-shot learning can also be treated as weakly supervised learning with auxiliary fully supervised categories. In this paper, we discuss the existing weak-shot learning methodologies in different tasks and summarize the codes at https://github.com/bcmi/Awesome-Weak-Shot-Learning.
翻訳日:2021-10-08 00:18:34 公開日:2021-10-06
# (参考訳) 人工膝関節鏡に向けて : マルチスケール組織-ツールセグメンテーションネットワーク

Towards Robotic Knee Arthroscopy: Multi-Scale Network for Tissue-Tool Segmentation ( http://arxiv.org/abs/2110.02657v1 )

ライセンス: CC BY 4.0
Shahnewaz Ali, Prof. Ross Crawford, Dr. Frederic Maire, Assoc. Prof. Ajay K. Pandey(参考訳) 組織認識は、最小侵襲手術における外科的精度を向上させるために非常に要求される。 関節鏡では, 外科的部位が限られた特徴やテクスチャを示すため, 課題の一つとなっている。 また,鏡視下手術ビデオではクラス内変動が高い。 鏡視下ビデオは関節鏡(arthroscope)として知られる内視鏡で記録されるため、フレームは最小の関節構造を含む。 その結果、従来のネットワークベースセグメンテーションモデルでは、長期および短期的な依存性の問題が発生している。 本研究では,マルチスケール特徴をキャプチャし,形状特徴を統合し,組織間セグメンテーションを実現する,密結合型形状認識マルチスケールセグメンテーションモデルを提案する。 モデルは3つの異なるデータセットで評価されている。 さらに,一般公開されたPolypデータセットにより,提案手法の精度は5.09%向上した。

Tissue awareness has a great demand to improve surgical accuracy in minimally invasive procedures. In arthroscopy, it is one of the challenging tasks due to surgical sites exhibit limited features and textures. Moreover, arthroscopic surgical video shows high intra-class variations. Arthroscopic videos are recorded with endoscope known as arthroscope which records tissue structures at proximity, therefore, frames contain minimal joint structure. As consequences, fully conventional network-based segmentation model suffers from long- and short- term dependency problems. In this study, we present a densely connected shape aware multi-scale segmentation model which captures multi-scale features and integrates shape features to achieve tissue-tool segmentations. The model has been evaluated with three distinct datasets. Moreover, with the publicly available polyp dataset our proposed model achieved 5.09 % accuracy improvement.
翻訳日:2021-10-08 00:09:01 公開日:2021-10-06
# (参考訳) 等価連続流をもつ場の量子論のための機械学習のスケールアップ

Scaling Up Machine Learning For Quantum Field Theory with Equivariant Continuous Flows ( http://arxiv.org/abs/2110.02673v1 )

ライセンス: CC BY 4.0
Pim de Haan, Corrado Rainone, Miranda Cheng, Roberto Bondesan(参考訳) 物理学における量子場理論の高次元確率分布からサンプリングするための連続正規化フローを提案する。 このタスクでこれまで用いられてきた深層アーキテクチャとは対照的に,提案手法は浅い設計に基づいており,問題の対称性を取り入れている。 このモデルは$\phi^4$理論でテストされ、サンプリング効率においてrealnvpのベースラインを体系的に上回っており、この2つの差はより大きな格子に対して増大していることを示している。 最大の格子では、32$32\times 32$の値で、キーメトリック、有効サンプルサイズを、実NVPベースラインの1%から66%まで改善する。

We propose a continuous normalizing flow for sampling from the high-dimensional probability distributions of Quantum Field Theories in Physics. In contrast to the deep architectures used so far for this task, our proposal is based on a shallow design and incorporates the symmetries of the problem. We test our model on the $\phi^4$ theory, showing that it systematically outperforms a realNVP baseline in sampling efficiency, with the difference between the two increasing for larger lattices. On the largest lattice we consider, of size $32\times 32$, we improve a key metric, the effective sample size, from 1% to 66% w.r.t. the realNVP baseline.
翻訳日:2021-10-07 23:57:51 公開日:2021-10-06
# (参考訳) 信頼できる人工知能とプロセスマイニング:挑戦と機会

Trustworthy Artificial Intelligence and Process Mining: Challenges and Opportunities ( http://arxiv.org/abs/2110.02707v1 )

ライセンス: CC BY 4.0
Andrew Pery, Majid Rafiei, Michael Simon, Wil M.P. van der Aalst(参考訳) この論文の前提は、信頼できるAIガバナンスのベストプラクティスと規制フレームワークへのコンプライアンスは、本質的に、さまざまな組織単位、外部利害関係者、記録システムにまたがる断片化されたプロセスであり、結果としてプロセスの不確実性と、組織が評判や規制上のリスクに晒される可能性のあるコンプライアンスのギャップをもたらすことである。 さらに、データガバナンス、コンフォーマンステスト、aiモデルの振る舞いの品質保証、透明性、説明責任、機密性要件など、信頼できるaiベストプラクティスの特定の次元を満たすことに関連する複雑さがある。 これらのプロセスには、複数のステップ、ハンドオフ、リワーク、ヒューマン・イン・ザ・ループの監視が含まれる。 本稿では,プロセスマイニングが,AIコンプライアンスプロセスの実行に対する事実に基づく可視性を獲得し,コンプライアンスボトルネックを克服し,AI規制コンプライアンスプロセスの不確実性を分析し,修正し,監視する自動化アプローチを提供する上で有用なフレームワークを提供することを示す。

The premise of this paper is that compliance with Trustworthy AI governance best practices and regulatory frameworks is an inherently fragmented process spanning across diverse organizational units, external stakeholders, and systems of record, resulting in process uncertainties and in compliance gaps that may expose organizations to reputational and regulatory risks. Moreover, there are complexities associated with meeting the specific dimensions of Trustworthy AI best practices such as data governance, conformance testing, quality assurance of AI model behaviors, transparency, accountability, and confidentiality requirements. These processes involve multiple steps, hand-offs, re-works, and human-in-the-loop oversight. In this paper, we demonstrate that process mining can provide a useful framework for gaining fact-based visibility to AI compliance process execution, surfacing compliance bottlenecks, and providing for an automated approach to analyze, remediate and monitor uncertainty in AI regulatory compliance processes.
翻訳日:2021-10-07 23:47:29 公開日:2021-10-06
# (参考訳) 教師なしドメイン適応のためのKnothe-Rosenblattトランスポート

Knothe-Rosenblatt transport for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2110.02716v1 )

ライセンス: CC BY 4.0
Aladin Virmaux, Illyyne Saffar, Jianfeng Zhang, Bal\'azs K\'egl(参考訳) unsupervised domain adaptation(uda)は、関連するが異なるデータソースを利用して、ターゲットドメイン内の共通のタスクに取り組むことを目的としている。 UDAは依然として、機械学習における中心的かつ挑戦的な問題である。 本稿では, 産業応用において非常に重要であり, 画像データや言語データのための手法が多用されていない, 中間次元の表層問題に適した手法を提案する。 ノッチ・ロセンブラット領域適応 (krda) は、ノッチ・ロセンブラット輸送に基づいている: 自己回帰密度推定アルゴリズムを利用して、ガウスの混合物を用いた自己回帰モデルにより、異なるソースを正確にモデル化する。 次にkrdaは、自己回帰モデルの三角性を利用して、ソースサンプルのターゲットドメインへの明示的なマッピングを構築する。 KRDAによって構築された転送マップは、観測された各成分量を保存するので、異なるデータセットの表現を同じターゲット領域に整列させる。 最後に、KRDAは、合成および実世界のUDA問題の両方において最先端の性能を有することを示す。

Unsupervised domain adaptation (UDA) aims at exploiting related but different data sources to tackle a common task in a target domain. UDA remains a central yet challenging problem in machine learning. In this paper, we present an approach tailored to moderate-dimensional tabular problems which are hugely important in industrial applications and less well-served by the plethora of methods designed for image and language data. Knothe-Rosenblatt Domain Adaptation (KRDA) is based on the Knothe-Rosenblatt transport: we exploit autoregressive density estimation algorithms to accurately model the different sources by an autoregressive model using a mixture of Gaussians. KRDA then takes advantage of the triangularity of the autoregressive models to build an explicit mapping of the source samples into the target domain. We show that the transfer map built by KRDA preserves each component quantiles of the observations, hence aligning the representations of the different data sets in the same target domain. Finally, we show that KRDA has state-of-the-art performance on both synthetic and real world UDA problems.
翻訳日:2021-10-07 23:37:14 公開日:2021-10-06
# (参考訳) 生産における逸脱データの反映によるニューラルネットワークの一般化

Generalizing Neural Networks by Reflecting Deviating Data in Production ( http://arxiv.org/abs/2110.02718v1 )

ライセンス: CC BY 4.0
Yan Xiao and Yun Lin and Ivan Beschastnikh and Changsheng Sun and David S. Rosenblum and Jin Song Dong(参考訳) 十分に大規模なトレーニングとテストデータセットでトレーニングされたDeep Neural Networks(DNN)は、一般化が期待される。 しかし、インプットは実際のデプロイメントにおけるトレーニングデータセットの分散から逸脱する可能性がある。 これは有限データセットを使用する際の根本的な問題である。 さらに悪いことに、実際の入力は期待される分布から時間とともに変化する可能性がある。 総合すると、これらの問題はdnnを運用中の誤予測に導く可能性がある。 本研究では,DNNに対する予期せぬ実行時入力によるDNNの誤予測を緩和する実行時アプローチを提案する。 DNNの構造とパラメータを考察する以前の研究とは対照的に,本手法ではDNNをブラックボックスとして扱い,DNNへの入力に焦点を当てている。 私たちのアプローチには2つのステップがあります。 まず、意味的に保存される入力を認識し、区別する。 このため、シャムネットワークで学習された距離メトリックに基づく分布分析器を用いる。 第2に,これらの予期せぬ入力を,同様の意味を持つと認識されたトレーニングセットから入力に変換する。 我々はこのプロセスを入力反射と呼び、トレーニングセット上の埋め込み空間上の探索問題として定式化する。 この埋め込み空間は、一般化を改善するために対象モデルの補助モデルとして四重項ネットワークによって学習される。 上記の2段階のアプローチに基づいて,inceptreflectorと呼ばれるツールを実装し,cifar-10,mnist,fminst画像データセットで学習した3つのdnnモデルを用いて評価を行った。 その結果、InputReflectorは、分布のセマンティクスを保持する入力(例えば、ぼやけた、明るくなった、コントラストのある、ズームされた画像)と通常の入力からのアウト・オブ・ディストリビューション入力を効果的に区別できることがわかった。

Trained with a sufficiently large training and testing dataset, Deep Neural Networks (DNNs) are expected to generalize. However, inputs may deviate from the training dataset distribution in real deployments. This is a fundamental issue with using a finite dataset. Even worse, real inputs may change over time from the expected distribution. Taken together, these issues may lead deployed DNNs to mis-predict in production. In this work, we present a runtime approach that mitigates DNN mis-predictions caused by the unexpected runtime inputs to the DNN. In contrast to previous work that considers the structure and parameters of the DNN itself, our approach treats the DNN as a blackbox and focuses on the inputs to the DNN. Our approach has two steps. First, it recognizes and distinguishes "unseen" semantically-preserving inputs. For this we use a distribution analyzer based on the distance metric learned by a Siamese network. Second, our approach transforms those unexpected inputs into inputs from the training set that are identified as having similar semantics. We call this process input reflection and formulate it as a search problem over the embedding space on the training set. This embedding space is learned by a Quadruplet network as an auxiliary model for the subject model to improve the generalization. We implemented a tool called InputReflector based on the above two-step approach and evaluated it with experiments on three DNN models trained on CIFAR-10, MNIST, and FMINST image datasets. The results show that InputReflector can effectively distinguish inputs that retain semantics of the distribution (e.g., blurred, brightened, contrasted, and zoomed images) and out-of-distribution inputs from normal inputs.
翻訳日:2021-10-07 23:19:52 公開日:2021-10-06
# (参考訳) 教師なし強化学習の情報幾何学

The Information Geometry of Unsupervised Reinforcement Learning ( http://arxiv.org/abs/2110.02719v1 )

ライセンス: CC BY 4.0
Benjamin Eysenbach, Ruslan Salakhutdinov, and Sergey Levine(参考訳) 強化学習(RL)エージェントは、これらのタスクが事前知識がない場合、下流タスクをどうやって解決できるのか? ひとつはunsupervised skill discoveryで、報酬機能にアクセスせずに一連のポリシーを学習するアルゴリズムのクラスだ。 このようなアルゴリズムは、教師付き学習における表現学習アルゴリズム(例えば、対照的な学習)とよく似ているが、どちらも相互情報目的に対する近似を最大化する事前学習アルゴリズムである。 先行研究は、そのような手法によって学習されたスキルセットが下流のRLタスクを加速することを示したが、先行研究は、これらのスキル学習アルゴリズムが最適かどうか、あるいは、最適性の概念がそれらに適用するのに適切かどうかをほとんど分析しない。 本研究では,相互情報の最大化に基づく教師なしスキル発見アルゴリズムが,任意の報酬関数に最適なスキルを学習しないことを示す。 しかし, スキルの分布は, 特定の適応手順を仮定して, 敵対的報酬関数に対する後悔を最小化する最適な初期化を提供することを示した。 我々の分析は、これらのスキル学習方法に関する幾何学的視点も提供する。

How can a reinforcement learning (RL) agent prepare to solve downstream tasks if those tasks are not known a priori? One approach is unsupervised skill discovery, a class of algorithms that learn a set of policies without access to a reward function. Such algorithms bear a close resemblance to representation learning algorithms (e.g., contrastive learning) in supervised learning, in that both are pretraining algorithms that maximize some approximation to a mutual information objective. While prior work has shown that the set of skills learned by such methods can accelerate downstream RL tasks, prior work offers little analysis into whether these skill learning algorithms are optimal, or even what notion of optimality would be appropriate to apply to them. In this work, we show that unsupervised skill discovery algorithms based on mutual information maximization do not learn skills that are optimal for every possible reward function. However, we show that the distribution over skills provides an optimal initialization minimizing regret against adversarially-chosen reward functions, assuming a certain type of adaptation procedure. Our analysis also provides a geometric perspective on these skill learning methods.
翻訳日:2021-10-07 23:02:34 公開日:2021-10-06
# (参考訳) ミスマッチno more:モデルベースrlのジョイントモデル-ポリシー最適化

Mismatched No More: Joint Model-Policy Optimization for Model-Based RL ( http://arxiv.org/abs/2110.02758v1 )

ライセンス: CC BY 4.0
Benjamin Eysenbach, Alexander Khazatsky, Sergey Levine, and Ruslan Salakhutdinov(参考訳) モデルベースの強化学習(RL)メソッドは、以前に観測されたデータにモデルを適合させ、RLや計画のためにそのモデルからのデータを使用する。 しかしながら、より優れたトレーニング性能(例えば、低いmse)を達成するモデルは、制御に必ずしも適さない:rlエージェントは、正確なモデルがミスを犯す状態のごく一部を求めるか、不正確なモデルのエラーを暴露しない方法で行動するかもしれない。 モデルは良いポリシーを下しても役に立つが、それらから生じるポリシーのパフォーマンスよりも、その正確さを最大化するように訓練されている。 本研究では,モデルとポリシーを共同で訓練するための1つの目標を提案する。 この共同最適化は、事前作業における客観的ミスマッチを解消する。 我々の目標は、期待値のグローバルな下限であり、この制限は特定の仮定の下で厳しいものになる。 分類器は実際の遷移と偽の遷移を区別し、モデルはリアルに見える遷移を生成するように更新され、ポリシーはモデル予測が非現実的な状態を避けるために更新される。

Many model-based reinforcement learning (RL) methods follow a similar template: fit a model to previously observed data, and then use data from that model for RL or planning. However, models that achieve better training performance (e.g., lower MSE) are not necessarily better for control: an RL agent may seek out the small fraction of states where an accurate model makes mistakes, or it might act in ways that do not expose the errors of an inaccurate model. As noted in prior work, there is an objective mismatch: models are useful if they yield good policies, but they are trained to maximize their accuracy, rather than the performance of the policies that result from them. In this work, we propose a single objective for jointly training the model and the policy, such that updates to either component increases a lower bound on expected return. This joint optimization mends the objective mismatch in prior work. Our objective is a global lower bound on expected return, and this bound becomes tight under certain assumptions. The resulting algorithm (MnM) is conceptually similar to a GAN: a classifier distinguishes between real and fake transitions, the model is updated to produce transitions that look realistic, and the policy is updated to avoid states where the model predictions are unrealistic.
翻訳日:2021-10-07 22:40:37 公開日:2021-10-06
# (参考訳) 非正規分布に対する相対エントロピー勾配サンプリング器

Relative Entropy Gradient Sampler for Unnormalized Distributions ( http://arxiv.org/abs/2110.02787v1 )

ライセンス: CC BY 4.0
Xingdong Feng, Yuan Gao, Jian Huang, Yuling Jiao, Xu Liu(参考訳) 非正規分布からのサンプリングのための相対エントロピー勾配サンプリング器(REGS)を提案する。 REGSは、参照分布からサンプルへの初期サンプルを非正規化対象分布から反復的に押し出す単純な非線形変換の列を求める粒子法である。 各反復における非線形変換を決定するために、相対エントロピーのワッサーシュタイン勾配流を考える。 この勾配流れは、基準分布と対象分布を補間する確率分布の経路を決定する。 進化する粒子の密度と非正規化対象密度の密度比に依存する速度場を持つodeシステムによって特徴付けられる。 REGSをサンプリングするには,密度比を推定し,粒子進化を伴うODE系をシミュレートする必要がある。 ニューラルネットワークを用いて対数密度比を推定する新しい非パラメトリック手法を提案する。 マルチモーダルな1Dと2Dの混合分布の挑戦と実際のデータセット上のベイジアンロジスティック回帰に関する大規模なシミュレーション研究は、REGSが比較に含まれる最先端のサンプリング手法よりも優れていることを示した。

We propose a relative entropy gradient sampler (REGS) for sampling from unnormalized distributions. REGS is a particle method that seeks a sequence of simple nonlinear transforms iteratively pushing the initial samples from a reference distribution into the samples from an unnormalized target distribution. To determine the nonlinear transforms at each iteration, we consider the Wasserstein gradient flow of relative entropy. This gradient flow determines a path of probability distributions that interpolates the reference distribution and the target distribution. It is characterized by an ODE system with velocity fields depending on the density ratios of the density of evolving particles and the unnormalized target density. To sample with REGS, we need to estimate the density ratios and simulate the ODE system with particle evolution. We propose a novel nonparametric approach to estimating the logarithmic density ratio using neural networks. Extensive simulation studies on challenging multimodal 1D and 2D mixture distributions and Bayesian logistic regression on real datasets demonstrate that the REGS outperforms the state-of-the-art sampling methods included in the comparison.
翻訳日:2021-10-07 22:15:21 公開日:2021-10-06
# (参考訳) STLルールブックからリワードへ

From STL Rulebooks to Rewards ( http://arxiv.org/abs/2110.02792v1 )

ライセンス: CC BY 4.0
Edgar A. Aguilar, Luigi Berducci, Axel Brunnbauer, Radu Grosu, Dejan Ni\v{c}kovi\'c(参考訳) 強化学習による自律エージェントのためのニューラルネットワークコントローラの自動合成は、様々な重要な目的を同時に最適化する必要がある。 この多目的最適化タスクは報酬関数の形に反映され、しばしばアドホックで工芸的な活動の結果である。 本稿では,stl(signal-temporal-logic)ルールの半順序セットとして与えられた複数の目的から,強化学習のための報酬を形成するための原則的アプローチを提案する。 この目的のために、我々はまずSTLに新しい定量的セマンティクスを装備し、個々の要求を自動的に評価する。 そこで我々は,複数の要件の評価を1つの報酬に体系的に組み合わせ,部分順序で定義された優先順位を考慮した手法を開発した。 我々は,本手法をいくつかのケーススタディで評価し,実用性を示す。

The automatic synthesis of neural-network controllers for autonomous agents through reinforcement learning has to simultaneously optimize many, possibly conflicting, objectives of various importance. This multi-objective optimization task is reflected in the shape of the reward function, which is most often the result of an ad-hoc and crafty-like activity. In this paper we propose a principled approach to shaping rewards for reinforcement learning from multiple objectives that are given as a partially-ordered set of signal-temporal-logic (STL) rules. To this end, we first equip STL with a novel quantitative semantics allowing to automatically evaluate individual requirements. We then develop a method for systematically combining evaluations of multiple requirements into a single reward that takes into account the priorities defined by the partial order. We finally evaluate our approach on several case studies, demonstrating its practical applicability.
翻訳日:2021-10-07 22:13:57 公開日:2021-10-06
# (参考訳) 多元関係グラフ表現改善のための補助訓練目標としての関係予測

Relation Prediction as an Auxiliary Training Objective for Improving Multi-Relational Graph Representations ( http://arxiv.org/abs/2110.02834v1 )

ライセンス: CC BY 4.0
Yihong Chen, Pasquale Minervini, Sebastian Riedel, Pontus Stenetorp(参考訳) 多元関係グラフ上で良い表現を学ぶことは知識ベース補完(kbc)に不可欠である。 本稿では,汎用の1vsall目標に関係予測を組み込むことにより,多元関係グラフ表現学習のための新しい自己教師付き学習目標を提案する。 新しい訓練目標には、与えられた三重項の主題と対象を予測する用語だけでなく、関係型を予測する用語も含まれている。 この新たな目的がKBCのマルチリレーショナル学習に与える影響を分析した結果,さまざまなデータセットやモデルを用いた実験により,KBCの最も広く使用されている評価タスクであるエンティティランキングが大幅に向上し,FB15k-237ではHits@1が6.1%,FB15k-237ではHits@1が9.9%,Aristo-v4ではHits@1が3.1%,Hits@1が3.4%増加した。 さらに,提案手法は,多項データセット,すなわち,多くの述語を持つデータセットにおいて特に有効であり,より大きな埋め込みサイズを使用する場合には,より優れた表現を生成する。

Learning good representations on multi-relational graphs is essential to knowledge base completion (KBC). In this paper, we propose a new self-supervised training objective for multi-relational graph representation learning, via simply incorporating relation prediction into the commonly used 1vsAll objective. The new training objective contains not only terms for predicting the subject and object of a given triple, but also a term for predicting the relation type. We analyse how this new objective impacts multi-relational learning in KBC: experiments on a variety of datasets and models show that relation prediction can significantly improve entity ranking, the most widely used evaluation task for KBC, yielding a 6.1% increase in MRR and 9.9% increase in Hits@1 on FB15k-237 as well as a 3.1% increase in MRR and 3.4% in Hits@1 on Aristo-v4. Moreover, we observe that the proposed objective is especially effective on highly multi-relational datasets, i.e. datasets with a large number of predicates, and generates better representations when larger embedding sizes are used.
翻訳日:2021-10-07 21:54:56 公開日:2021-10-06
# (参考訳) WHOの手指義歯分類システム

WHO-Hand Hygiene Gesture Classification System ( http://arxiv.org/abs/2110.02842v1 )

ライセンス: CC BY 4.0
Rashmi Bakshi(参考訳) 最近進行中の新型コロナウイルスのパンデミックは、我々の日常生活における手衛生の実践の重要性を浮き彫りにしている。 欧州では毎年100万人以上の患者が病院で感染している。 手の衛生的コンプライアンスは、感染の数を減らし、医療費を減らすことで感染のリスクを低減できる。 本稿では,世界保健機関 (WHO) が, 実験室の流し台に設置したアルミニウムフレームを用いて手衛生のジェスチャーを記録し, 解析した。 手衛生ジェスチャーのデモンストレーションに関するトレーニングセッションを行った後、30名の参加者に手衛生ジェスチャーを記録する。 ビデオ録画はイメージファイルに変換され、6つの異なる手衛生クラスに編成される。 マルチクラスハンド衛生段階の分類のためのResnet50フレームワークの選択 モデルは最初のクラス、Fingers Interlaced、P2PFingers Interlaced、Rotational Rub for 25 epochsで訓練されている。 評価セットにおいて、損失スコアが1.5以上である最初の実験の44%の精度が達成された。 第2組のトレーニングステップ:手のひらから手のひら、指インターロック、Thumb Rubは50エポック。 検証セットの損失スコアが0.8未満の第2セットでは72%の精度が達成される。 本研究では,転送学習を伴うロバストな手指衛生データセットの予備分析を行う。 医療従事者のための手衛生予測システムをリアルタイムに展開する今後の課題

The recent ongoing coronavirus pandemic highlights the importance of hand hygiene practices in our daily lives, with governments and worldwide health authorities promoting good hand hygiene practices. More than one million cases of hospital-acquired infections occur in Europe annually. Hand hygiene compliance may reduce the risk of transmission by reducing the number of infections as well as healthcare expenditures. In this paper, the World Health Organization, hand hygiene gestures are recorded and analyzed with the construction of an aluminum frame, placed at the laboratory sink. The hand hygiene gestures are recorded for thirty participants after conducting a training session about hand hygiene gestures demonstration. The video recordings are converted into image files and are organized into six different hand hygiene classes. The Resnet50 framework selection for the classification of multiclass hand hygiene stages. The model is trained with the first set of classes; Fingers Interlaced, P2PFingers Interlaced, and Rotational Rub for 25 epochs. An accuracy of 44 percent for the first set of experiments with a loss score greater than 1.5 in the validation set is achieved. The training steps for the second set of classes; Rub hands palm to palm, Fingers Interlocked, Thumb Rub are 50 epochs. An accuracy of 72 percent is achieved for the second set with a loss score of less than 0.8 for the validation set. In this work, a preliminary analysis of a robust hand hygiene dataset with transfer learning takes place. The future aim for deploying a hand hygiene prediction system for healthcare workers in real-time.
翻訳日:2021-10-07 21:36:50 公開日:2021-10-06
# (参考訳) 深部強化学習に基づくTSP解法の一般化

Improving Generalization of Deep Reinforcement Learning-based TSP Solvers ( http://arxiv.org/abs/2110.02843v1 )

ライセンス: CC BY 4.0
Wenbin Ouyang, Yisen Wang, Shaochen Han, Zhejian Jin and Paul Weng(参考訳) 近年,旅行セールスマン問題 (TSP) の解法に深部強化学習 (DRL) を適用した研究により, DRLをベースとした解法は, 小規模の場合のTSPヒューリスティックスと高速かつ競合するが, 大規模の場合の一般化は困難であることが示されている。 本研究では,ディープラーニングアーキテクチャとDRL学習手法を含むMAGICという新しい手法を提案する。 マルチレイヤパーセプトロン,グラフニューラルネットワーク,アテンションモデルを統合したアーキテクチャでは,TSPソリューションを逐次生成する確率的ポリシを定義している。 学習方法は,(1)drlポリシーのグラデーション更新をローカルサーチ(新しいローカルサーチ手法を用いて)にインターリーブする,(2)新しい単純なベースラインを用いる,(3)カリキュラム学習を適用する,という,いくつかのイノベーションを含んでいる。 最後に、MRICは、他のDRLベースのメソッドよりも、パフォーマンスと一般化性の両方において、ランダムなTSPインスタンスの方が優れていることを実証的に示す。 さらに,本手法はTSPヒューリスティックスや他の最先端手法と比較して,性能と計算時間の観点から好意的に比較する。

Recent work applying deep reinforcement learning (DRL) to solve traveling salesman problems (TSP) has shown that DRL-based solvers can be fast and competitive with TSP heuristics for small instances, but do not generalize well to larger instances. In this work, we propose a novel approach named MAGIC that includes a deep learning architecture and a DRL training method. Our architecture, which integrates a multilayer perceptron, a graph neural network, and an attention model, defines a stochastic policy that sequentially generates a TSP solution. Our training method includes several innovations: (1) we interleave DRL policy gradient updates with local search (using a new local search technique), (2) we use a novel simple baseline, and (3) we apply curriculum learning. Finally, we empirically demonstrate that MAGIC is superior to other DRL-based methods on random TSP instances, both in terms of performance and generalizability. Moreover, our method compares favorably against TSP heuristics and other state-of-the-art approach in terms of performance and computational time.
翻訳日:2021-10-07 21:27:26 公開日:2021-10-06
# (参考訳) 冠状動脈造影ビデオによるエンド・ダイアストリックおよびエンド・シストリック心筋フレームの自動同定

Automatic Identification of the End-Diastolic and End-Systolic Cardiac Frames from Invasive Coronary Angiography Videos ( http://arxiv.org/abs/2110.02844v1 )

ライセンス: CC0 1.0
Yinghui Meng, Minghao Dong, Xumin Dai, Haipeng Tang, Chen Zhao, Jingfeng Jiang, Shun Xu, Ying Zhou, Fubao Zhu1, Zhihui Xu, Weihua Zhou(参考訳) 侵襲的冠動脈造影(ICA)検査において, 心循環中の血流の評価, 両平面像からの3次元動脈解剖の再構築, 心筋画像との相補的融合マップの作成において, 心血管図(ICA)の検査における適切な画像フレームの自動同定が重要である。 現在の識別法は主に視覚的解釈に依存しており、時間だけでなく再現性も低い。 本稿では,鍵血管点(ランドマーク)の軌跡を用いて,EDとESの心期に関連する血管画像フレームを自動的に識別する手法を提案する。 より具体的には、まず冠状動脈のキーポイントを検出するために検出アルゴリズムを使用し、次に選択したキーポイントの軌跡を追跡するために光学フロー法を用いる。 edおよびesフレームは、これら全ての軌道に基づいて識別される。 2つの医療センター(サイト1とサイト2の患者22名と9名)から62本のicaビデオを用いて実験を行った。 2人の専門家によるコンセンサス解釈を比較すると、提案したアルゴリズムでは、EDとESの画像フレームの自動識別において、1フレームあたりの合意率は92.99%と92.73%であった。 以上より,提案手法は自動ica画像解析の不可欠な部分となる可能性が示唆された。

Automatic identification of proper image frames at the end-diastolic (ED) and end-systolic (ES) frames during the review of invasive coronary angiograms (ICA) is important to assess blood flow during a cardiac cycle, reconstruct the 3D arterial anatomy from bi-planar views, and generate the complementary fusion map with myocardial images. The current identification method primarily relies on visual interpretation, making it not only time-consuming but also less reproducible. In this paper, we propose a new method to automatically identify angiographic image frames associated with the ED and ES cardiac phases by using the trajectories of key vessel points (i.e. landmarks). More specifically, a detection algorithm is first used to detect the key points of coronary arteries, and then an optical flow method is employed to track the trajectories of the selected key points. The ED and ES frames are identified based on all these trajectories. Our method was tested with 62 ICA videos from two separate medical centers (22 and 9 patients in sites 1 and 2, respectively). Comparing consensus interpretations by two human expert readers, excellent agreement was achieved by the proposed algorithm: the agreement rates within a one-frame range were 92.99% and 92.73% for the automatic identification of the ED and ES image frames, respectively. In conclusion, the proposed automated method showed great potential for being an integral part of automated ICA image analysis.
翻訳日:2021-10-07 21:12:29 公開日:2021-10-06
# (参考訳) 低高度UAV画像からの合成画像データセットを用いた種子分類

Seed Classification using Synthetic Image Datasets Generated from Low-Altitude UAV Imagery ( http://arxiv.org/abs/2110.02846v1 )

ライセンス: CC BY 4.0
Venkat Margapuri, Niketa Penumajji, Mitchell Neilsen(参考訳) 植物の育種プログラムは、種核の種認証のための進化を広範囲に監視し、種核の種類と品質を適切に分類する必要がある。 しかし、育種環境は大きいため、種子核の極小サイズのため、種子核のモニタリングは困難である可能性がある。 無人航空機の使用は、環境の最も遠い地域にもアクセスできながら、低高度で画像を撮影できるため、種子の監視やラベル付けに役立っている。 UAV画像を用いた種子のラベル付けにおける重要なボトルネックは、ドローンの高度である。 畳み込みニューラルネットワークは、評価中にネットワークが遭遇する可能性のあるさまざまなシナリオを綿密に表現したトレーニングデータセットが存在する場合、マルチクラスの画像分類に最適なツールである。 この論文は、自律駆動parrot ar drone 2.0のボトムカメラで撮影された種子のサンプルから合成画像データセットを生成するドメインランダム化を用いたトレーニングデータ作成の課題に対処する。 さらに、MicrosoftのResNet-100、オックスフォードのVGG-16、VGG-19の畳み込みニューラルネットワークを使用した概念実証として、シード分類フレームワークを提案する。 フレームワークの分類精度を向上させるため、アンサンブルモデルが開発され、全体の精度が94.6%となる。

Plant breeding programs extensively monitor the evolution of seed kernels for seed certification, wherein lies the need to appropriately label the seed kernels by type and quality. However, the breeding environments are large where the monitoring of seed kernels can be challenging due to the minuscule size of seed kernels. The use of unmanned aerial vehicles aids in seed monitoring and labeling since they can capture images at low altitudes whilst being able to access even the remotest areas in the environment. A key bottleneck in the labeling of seeds using UAV imagery is drone altitude i.e. the classification accuracy decreases as the altitude increases due to lower image detail. Convolutional neural networks are a great tool for multi-class image classification when there is a training dataset that closely represents the different scenarios that the network might encounter during evaluation. The article addresses the challenge of training data creation using Domain Randomization wherein synthetic image datasets are generated from a meager sample of seeds captured by the bottom camera of an autonomously driven Parrot AR Drone 2.0. Besides, the article proposes a seed classification framework as a proof-of-concept using the convolutional neural networks of Microsoft's ResNet-100, Oxford's VGG-16, and VGG-19. To enhance the classification accuracy of the framework, an ensemble model is developed resulting in an overall accuracy of 94.6%.
翻訳日:2021-10-07 21:03:26 公開日:2021-10-06
# (参考訳) PSG HASOC-Dravidian CodeMixFIRE2021: タングリッシュにおける攻撃的言語識別のための事前訓練された変換器

PSG HASOC-Dravidian CodeMixFIRE2021: Pretrained Transformers for Offensive Language Identification in Tanglish ( http://arxiv.org/abs/2110.02852v1 )

ライセンス: CC BY 4.0
Sean Benhur, Kanchana Sivanraju(参考訳) 本稿では,ドラビダ語(タミル語・マラヤラム語)におけるヘイトスピーチと攻撃言語識別システムについて述べる。 この課題は、ソーシャルメディアから収集されたDravidian Languagesのコードミックスコメント/ポストにおける攻撃的コンテンツを特定することである。 提案手法では,事前学習されたトランスフォーマリンバーの最終層をプールすることで,サブタスクbにおけるタミル・イングリッシュデータセットの重み付け平均スコア0.61でリーダボード上のランクナインを達成するのに役立ち,タスク期限後にデータセットを一様にサンプリングしてmurilプリトレーニングモデルを用いて,平均スコア0.67をリーダボードのトップスコアとして達成した。 さらに、事前トレーニングされたモデルを活用するアプローチは、異なるデータセットで同じタスクでモデルを再利用するのに役立ちます。 コードとモデルはGitHub 1で利用可能です。

This paper describes the system submitted to Dravidian-Codemix-HASOC2021: Hate Speech and Offensive Language Identification in Dravidian Languages (Tamil-English and Malayalam-English). This task aims to identify offensive content in code-mixed comments/posts in Dravidian Languages collected from social media. Our approach utilizes pooling the last layers of pretrained transformer multilingual BERT for this task which helped us achieve rank nine on the leaderboard with a weighted average score of 0.61 for the Tamil-English dataset in subtask B. After the task deadline, we sampled the dataset uniformly and used the MuRIL pretrained model, which helped us achieve a weighted average score of 0.67, the top score in the leaderboard. Furthermore, our approach to utilizing the pretrained models helps reuse our models for the same task with a different dataset. Our code and models are available in GitHub 1
翻訳日:2021-10-07 20:54:11 公開日:2021-10-06
# (参考訳) ブロックワイド量子化による8ビット最適化

8-bit Optimizers via Block-wise Quantization ( http://arxiv.org/abs/2110.02861v1 )

ライセンス: CC BY 4.0
Tim Dettmers, Mike Lewis, Sam Shleifer, Luke Zettlemoyer(参考訳) ステートフルオプティマイザは、過去の勾配値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間とともに勾配統計を維持できる。 この状態は、通常の確率的勾配降下と比較して最適化を加速することができるが、モデルパラメータに割り当てられるメモリを使用するため、実際に訓練されたモデルの最大サイズを制限できる。 本稿では,32ビットオプティマイザ状態の使用性能を維持しつつ,8ビット統計を用いた最初のオプティマイザを開発する。 計算,量子化,安定性の課題を克服するために,ブロックワイドな量子化を開発する。 ブロックワイド量子化は、入力テンソルを独立に量子化する小さなブロックに分割する。 各ブロックはコア間で並列に処理され、高速な最適化と高精度な量子化が得られる。 安定性と性能を維持するため,ブロックワイド量子化と,(1)大小ともに精度の高い非線形最適化形式である動的量子化,(2)言語モデルにおける入力トークンの非一様分布から生じる勾配分散を低減するための安定な埋め込み層,の2つの追加的な変化を組み合わせた。 その結果、8ビットオプティマイザは、1.5Bパラメータ言語モデリング、GLUEファインタニング、ImageNet分類、WMT'14機械翻訳、MoCo v2コントラスト画像Netプリトレーニング+ファインタニング、RoBERTaプリトレーニングなどを含むタスクにおいて、メモリフットプリントのわずかな部分で32ビット性能を維持している。 8ビットオプティマイザを2行のコード変更のみを必要とするドロップイン代替としてオープンソースにしました。

Stateful optimizers maintain gradient statistics over time, e.g., the exponentially smoothed sum (SGD with momentum) or squared sum (Adam) of past gradient values. This state can be used to accelerate optimization compared to plain stochastic gradient descent but uses memory that might otherwise be allocated to model parameters, thereby limiting the maximum size of models trained in practice. In this paper, we develop the first optimizers that use 8-bit statistics while maintaining the performance levels of using 32-bit optimizer states. To overcome the resulting computational, quantization, and stability challenges, we develop block-wise dynamic quantization. Block-wise quantization divides input tensors into smaller blocks that are independently quantized. Each block is processed in parallel across cores, yielding faster optimization and high precision quantization. To maintain stability and performance, we combine block-wise quantization with two additional changes: (1) dynamic quantization, a form of non-linear optimization that is precise for both large and small magnitude values, and (2) a stable embedding layer to reduce gradient variance that comes from the highly non-uniform distribution of input tokens in language models. As a result, our 8-bit optimizers maintain 32-bit performance with a small fraction of the memory footprint on a range of tasks, including 1.5B parameter language modeling, GLUE finetuning, ImageNet classification, WMT'14 machine translation, MoCo v2 contrastive ImageNet pretraining+finetuning, and RoBERTa pretraining, without changes to the original optimizer hyperparameters. We open-source our 8-bit optimizers as a drop-in replacement that only requires a two-line code change.
翻訳日:2021-10-07 20:41:28 公開日:2021-10-06
# (参考訳) ニューラルネットワークにおける深部特徴の共通部分空間の探索

Exploring the Common Principal Subspace of Deep Features in Neural Networks ( http://arxiv.org/abs/2110.02863v1 )

ライセンス: CC BY 4.0
Haoran Liu, Haoyi Xiong, Yaqing Wang, Haozhe An, Dongrui Wu, and Dejing Dou(参考訳) 同じデータセットでトレーニングされた異なるディープニューラルネットワーク(DNN)が、どのアーキテクチャ(例えば、畳み込みニューラルネットワーク(CNN)、マルチレイヤプリセプタ(MLP)、オートエンコーダ(AE))が構築されたか、あるいはラベルがトレーニング(例えば、教師なし、教師なし、および自己教師付き学習)で使用されたかに関わらず、ラテント空間において共通の主部分空間を共有している。 具体的には、DNNで学んだ深い特徴の主部分空間を表すための新しい計量 $\mathcal{P}$-vector を設計し、$\mathcal{P}$-vectors を用いて主部分空間間の角度を測定することを提案する。 異なるアルゴリズム/アーキテクチャで訓練された2つのDNNの比較では、小さな角度(コサインが1.0ドルに近い)が見つかっている。 さらに, ランダムスクラッチからランダムスクラッチまでの訓練過程において, 角度がより大きいもの(70^\circ-80^\circ$ 通常)から小さいもの(スクラッチから収束までの特徴空間学習の進行)に減少する。 そこで我々は,$\mathcal{P}$-vector とトレーニングデータセットの主部分空間との角度を測定し,そのような角度を一般化性能と結びつけるケーススタディを実施した。 mnist, cifar-10, cifar-100データセットの分類, 画像再構成, 自己教師あり学習タスクに, 実使用多層パーセプトロン(mlps), aesおよびcnnを用いた広範囲な実験を行った。 深い特徴の深層学習・特徴学習・部分空間の解釈可能性

We find that different Deep Neural Networks (DNNs) trained with the same dataset share a common principal subspace in latent spaces, no matter in which architectures (e.g., Convolutional Neural Networks (CNNs), Multi-Layer Preceptors (MLPs) and Autoencoders (AEs)) the DNNs were built or even whether labels have been used in training (e.g., supervised, unsupervised, and self-supervised learning). Specifically, we design a new metric $\mathcal{P}$-vector to represent the principal subspace of deep features learned in a DNN, and propose to measure angles between the principal subspaces using $\mathcal{P}$-vectors. Small angles (with cosine close to $1.0$) have been found in the comparisons between any two DNNs trained with different algorithms/architectures. Furthermore, during the training procedure from random scratch, the angle decrease from a larger one ($70^\circ-80^\circ$ usually) to the small one, which coincides the progress of feature space learning from scratch to convergence. Then, we carry out case studies to measure the angle between the $\mathcal{P}$-vector and the principal subspace of training dataset, and connect such angle with generalization performance. Extensive experiments with practically-used Multi-Layer Perceptron (MLPs), AEs and CNNs for classification, image reconstruction, and self-supervised learning tasks on MNIST, CIFAR-10 and CIFAR-100 datasets have been done to support our claims with solid evidences. Interpretability of Deep Learning, Feature Learning, and Subspaces of Deep Features
翻訳日:2021-10-07 20:14:34 公開日:2021-10-06
# (参考訳) 多言語トランスフォーマーを用いたシーケンスからシーケンスまでの語彙正規化

Sequence-to-Sequence Lexical Normalization with Multilingual Transformers ( http://arxiv.org/abs/2110.02869v1 )

ライセンス: CC BY 4.0
Ana-Maria Bucur, Adrian Cosma and Liviu P. Dinu(参考訳) 現在の自然言語処理のベンチマークタスクには、非公式のデジタル通信で使われるテキストと質的に異なるテキストが含まれている。 この不一致は、実世界のデータに基づいて微調整された場合、最先端のNLPモデルの大幅な性能劣化を引き起こした。 この問題を解決する方法の1つは、非標準テキスト(通常はソーシャルメディアから)をより標準化された形式に変換する過程である語彙正規化である。 本研究では,この問題を機械翻訳問題として扱うmbartに基づく文レベルのシーケンス・ツー・シーケンスモデルを提案する。 ノイズの多いテキストは、英語だけでなく言語全体に広がる問題なので、mBARTの多言語事前学習を利用して、データを微調整します。 現在のアプローチは主に単語やサブワードレベルで運用されているが、このアプローチは技術的な観点からは単純であり、既存のトレーニング済みトランスフォーマーネットワークの上に構築されていると論じる。 以上の結果から,単語レベル,本質的,パフォーマンス評価は他の手法の裏側にあるが,本モデルでは,生の未処理のソーシャルメディアテキスト上で動作しているモデルと比較して,正規化による外在的,下流タスクの性能向上を図っている。

Current benchmark tasks for natural language processing contain text that is qualitatively different from the text used in informal day to day digital communication. This discrepancy has led to severe performance degradation of state-of-the-art NLP models when fine-tuned on real-world data. One way to resolve this issue is through lexical normalization, which is the process of transforming non-standard text, usually from social media, into a more standardized form. In this work, we propose a sentence-level sequence-to-sequence model based on mBART, which frames the problem as a machine translation problem. As the noisy text is a pervasive problem across languages, not just English, we leverage the multi-lingual pre-training of mBART to fine-tune it to our data. While current approaches mainly operate at the word or subword level, we argue that this approach is straightforward from a technical standpoint and builds upon existing pre-trained transformer networks. Our results show that while word-level, intrinsic, performance evaluation is behind other methods, our model improves performance on extrinsic, downstream tasks through normalization compared to models operating on raw, unprocessed, social media text.
翻訳日:2021-10-07 20:13:05 公開日:2021-10-06
# (参考訳) 気候変動への意識向上、洪水のイメージを生かして-気候学者

ClimateGAN: Raising Climate Change Awareness by Generating Images of Floods ( http://arxiv.org/abs/2110.02871v1 )

ライセンス: CC BY 4.0
Victor Schmidt, Alexandra Sasha Luccioni, M\'elisande Teng, Tianyu Zhang, Alexia Reynaud, Sunand Raghupathi, Gautier Cosne, Adrien Juraver, Vahe Vardanyan, Alex Hernandez-Garcia, Yoshua Bengio(参考訳) 気候変動は人類にとって大きな脅威であり、その壊滅的な影響を防ぐために必要な行動には、政策立案と個人の行動の両方の変化が含まれる。 しかし、行動を取るには、たとえそれが抽象的で遠いように見えるとしても、気候変動の影響を理解する必要がある。 慣れ親しんだ場所で洪水などの極端な気候現象の潜在的な影響を予測することは、気候変動の抽象的な影響をより具体化し、行動を促進するのに役立つ。 ユーザが撮影した写真に極端な気象イベントを投影するウェブサイトを構築するという、より大きな取り組みの一環として、実際の画像に写実的な洪水をシミュレートするソリューションを提案する。 この複雑な課題に適切なトレーニングデータがない状態で対処するため、教師なし領域適応と条件付き画像生成のためのシミュレーションデータと実データの両方を活用するモデルであるClimateGANを提案する。 本稿では,我々のフレームワークの詳細を述べ,アーキテクチャの構成要素を徹底的に評価し,モデルがフォトリアリスティックなフラッディングをロバストに生成できることを実証する。

Climate change is a major threat to humanity, and the actions required to prevent its catastrophic consequences include changes in both policy-making and individual behaviour. However, taking action requires understanding the effects of climate change, even though they may seem abstract and distant. Projecting the potential consequences of extreme climate events such as flooding in familiar places can help make the abstract impacts of climate change more concrete and encourage action. As part of a larger initiative to build a website that projects extreme climate events onto user-chosen photos, we present our solution to simulate photo-realistic floods on authentic images. To address this complex task in the absence of suitable training data, we propose ClimateGAN, a model that leverages both simulated and real data for unsupervised domain adaptation and conditional image generation. In this paper, we describe the details of our framework, thoroughly evaluate components of our architecture and demonstrate that our model is capable of robustly generating photo-realistic flooding.
翻訳日:2021-10-07 19:57:32 公開日:2021-10-06
# (参考訳) ネステッド政策強化学習

Nested Policy Reinforcement Learning ( http://arxiv.org/abs/2110.02879v1 )

ライセンス: CC BY 4.0
Aishwarya Mandyam, Andrew Jones, Krzysztof Laudanski, Barbara Engelhardt(参考訳) オフ・ポリチクス強化学習(RL)は、確率的報酬と未知あるいはノイズのある状態ダイナミクスを持つ環境でエージェントの行動を導くための強力な枠組みであることが証明されている。 多くの現実世界の設定では、エージェントは複数の環境で動作しなければなりません。 例えば、特定の疾患のある患者や非疾患の患者の治療を指導する政策や、学習障害のない学生のためのカリキュラムデザインをナビゲートするポリシーの開発に興味があるかもしれません。 本稿では,このような構造を示す環境において,最適なポリシを求めるRLフレームワークであるNFQI(Nested Policy fit Q-iteration)を紹介する。 提案手法は,2つの異なる環境からの2つの観測グループ間の共有構造を利用して,それぞれのポリシーを互いに区別するネスト付き$Q$値関数を開発する。 我々は,NFQIが関連する特徴に依存し,少なくともグループ構造を考慮しない政策と同様に,機能する政策を産み出すことを見出した。 我々は,OpenAI Gym環境と臨床意思決定RLタスクを用いてNFQIの性能を示す。 以上の結果から,NFQIは現実の多くの臨床環境に適した政策を立案できる可能性が示唆された。

Off-policy reinforcement learning (RL) has proven to be a powerful framework for guiding agents' actions in environments with stochastic rewards and unknown or noisy state dynamics. In many real-world settings, these agents must operate in multiple environments, each with slightly different dynamics. For example, we may be interested in developing policies to guide medical treatment for patients with and without a given disease, or policies to navigate curriculum design for students with and without a learning disability. Here, we introduce nested policy fitted Q-iteration (NFQI), an RL framework that finds optimal policies in environments that exhibit such a structure. Our approach develops a nested $Q$-value function that takes advantage of the shared structure between two groups of observations from two separate environments while allowing their policies to be distinct from one another. We find that NFQI yields policies that rely on relevant features and perform at least as well as a policy that does not consider group structure. We demonstrate NFQI's performance using an OpenAI Gym environment and a clinical decision making RL task. Our results suggest that NFQI can develop policies that are better suited to many real-world clinical environments.
翻訳日:2021-10-07 19:31:01 公開日:2021-10-06
# (参考訳) ヒューマンインザループによる単語埋め込みの微細化

Human-in-the-Loop Refinement of Word Embeddings ( http://arxiv.org/abs/2110.02884v1 )

ライセンス: CC BY 4.0
James Powell, Kari Sentz, Martin Klein(参考訳) 単語埋め込みは、単語共起から学習したコーパス内の単語の文脈の固定された分布表現である。 機械学習タスクで有用性が証明されているにもかかわらず、単語埋め込みモデルは不均一な意味的および構文的表現を捉え、訓練されたコーパス内に存在する様々なバイアスを不注意に反映することができる。 語彙辞書にある情報を適用した単語埋め込みの処理後,意味的関連性が向上し,品質が向上することが実証された。 そこで本研究では,「対話的リフィッティング」と呼ぶ単語埋め込み後処理の適応を組み込んだシステムを提案する。 このアプローチにより、人間は単語埋め込みの潜在的な品質問題を特定し、対処することができる。 これは、誰がバイアスを構成するか、他の品質上の問題が下流タスクに影響するかを決めるという問題を否定する利点がある。 各組織や組織は、きめ細かいレベルでの懸念に対処し、反復的でインタラクティブな方法でそれを行うことができます。 さらに、単語埋め込みの効果や、単語埋め込みの改善がマシンラーニングパイプラインに与える影響に関する洞察を深めることも可能だ。

Word embeddings are a fixed, distributional representation of the context of words in a corpus learned from word co-occurrences. Despite their proven utility in machine learning tasks, word embedding models may capture uneven semantic and syntactic representations, and can inadvertently reflect various kinds of bias present within corpora upon which they were trained. It has been demonstrated that post-processing of word embeddings to apply information found in lexical dictionaries can improve the semantic associations, thus improving their quality. Building on this idea, we propose a system that incorporates an adaptation of word embedding post-processing, which we call "interactive refitting", to address some of the most daunting qualitative problems found in word embeddings. Our approach allows a human to identify and address potential quality issues with word embeddings interactively. This has the advantage of negating the question of who decides what constitutes bias or what other quality issues may affect downstream tasks. It allows each organization or entity to address concerns they may have at a fine grained level and to do so in an iterative and interactive fashion. It also allows for better insight into what effect word embeddings, and refinements to word embeddings, have on machine learning pipelines.
翻訳日:2021-10-07 19:13:17 公開日:2021-10-06
# (参考訳) ベイズニューラルネットワークユニットの先行とワイブルテール特性の一般化

Bayesian neural network unit priors and generalized Weibull-tail property ( http://arxiv.org/abs/2110.02885v1 )

ライセンス: CC BY 4.0
Mariia Vladimirova, Julyan Arbel, St\'ephane Girard(参考訳) ベイジアンニューラルネットワークとガウス過程の関連性は、ここ数年で大きな注目を集めた。 隠れた単位は、層幅が無限になる傾向があるときにガウス過程の限界に従うことが証明される。 最近の研究は、有限ベイズニューラルネットワークが内部表現を柔軟に適応するため、無限のニューラルネットワークよりも優れていることを示唆している。 有限幅ニューラルネットワークの今後の研究の基盤を確立するため,本研究の目的は隠れ単位に対する先行研究である。 我々の主な結果は隠れた単位尾の正確な説明であり、一般化されたweibull-tailの概念のおかげで、単位の先行部がより重い尾部になることを示している。 この発見は、有限ベイズニューラルネットワークの隠れたユニットの挙動に光を当てる。

The connection between Bayesian neural networks and Gaussian processes gained a lot of attention in the last few years. Hidden units are proven to follow a Gaussian process limit when the layer width tends to infinity. Recent work has suggested that finite Bayesian neural networks may outperform their infinite counterparts because they adapt their internal representations flexibly. To establish solid ground for future research on finite-width neural networks, our goal is to study the prior induced on hidden units. Our main result is an accurate description of hidden units tails which shows that unit priors become heavier-tailed going deeper, thanks to the introduced notion of generalized Weibull-tail. This finding sheds light on the behavior of hidden units of finite Bayesian neural networks.
翻訳日:2021-10-07 19:05:31 公開日:2021-10-06
# (参考訳) スタイル等化:制御可能な生成系列モデルの教師なし学習

Style Equalization: Unsupervised Learning of Controllable Generative Sequence Models ( http://arxiv.org/abs/2110.02891v1 )

ライセンス: CC BY 4.0
Jen-Hao Rick Chang, Ashish Shrivastava, Hema Swetha Koppula, Xiaoshuai Zhang, Oncel Tuzel(参考訳) 特定の例のスタイルを抽出して複製する機能を備えた制御可能な生成シーケンスモデルは、さまざまな音声でオーディオブックをナレーションしたり、手書きによる自動補完や自動修正、下流認識タスクのトレーニングサンプルの欠如など、多くのアプリケーションを可能にする。 しかし、これらの制御可能なシーケンス生成モデルの典型的なトレーニングアルゴリズムは、トレーニング中に同じサンプルがコンテンツやスタイル入力として使用されるが、推論中に異なるサンプルが与えられるトレーニング推論ミスマッチに悩まされる。 本稿では,制御可能な生成系列モデルの教師なし学習において発生する学習ミスマッチに対処する。 スタイル等化と呼ばれるスタイル変換モジュールを導入することで、異なるコンテンツとスタイルサンプルを用いたトレーニングを可能にし、トレーニング参照ミスマッチを緩和します。 汎用性を示すために,3つのデータセットに対してテキスト音声合成とテキスト音声合成にスタイル等化を適用した。 我々のモデルは、実際のデータと似た平均的な意見スコアを持つ最先端スタイルの複製を実現する。 さらに,提案手法はシーケンス間のスタイル補間を可能にし,新しいスタイルを生成する。

Controllable generative sequence models with the capability to extract and replicate the style of specific examples enable many applications, including narrating audiobooks in different voices, auto-completing and auto-correcting written handwriting, and generating missing training samples for downstream recognition tasks. However, typical training algorithms for these controllable sequence generative models suffer from the training-inference mismatch, where the same sample is used as content and style input during training but different samples are given during inference. In this paper, we tackle the training-inference mismatch encountered during unsupervised learning of controllable generative sequence models. By introducing a style transformation module that we call style equalization, we enable training using different content and style samples and thereby mitigate the training-inference mismatch. To demonstrate its generality, we applied style equalization to text-to-speech and text-to-handwriting synthesis on three datasets. Our models achieve state-of-the-art style replication with a similar mean style opinion score as the real data. Moreover, the proposed method enables style interpolation between sequences and generates novel styles.
翻訳日:2021-10-07 18:46:45 公開日:2021-10-06
# (参考訳) steamでのゲーム人気予測

Predicting the Popularity of Games on Steam ( http://arxiv.org/abs/2110.02896v1 )

ライセンス: CC BY 4.0
Andra\v{z} De Luisa, Jan Hartman, David Nabergoj, Samo Pahor, Marko Rus, Bozhidar Stevanoski, Jure Dem\v{s}ar, Erik \v{S}trumbelj(参考訳) ビデオゲーム業界はこの10年間で急速に成長している。 毎年何千ものビデオゲームが何百万人もの人々によってリリースされ、プレイヤーの大きなコミュニティを形成している。 steamはゲームプラットフォームおよびソーシャルネットワーキングサイトで、ユーザーがゲームを購入して保存することができる。 Steamの副産物は、ゲーム、プレイヤー、ゲーム行動に関する情報の膨大なデータベースである。 本稿では,Steam 上でリリースされた最近のビデオゲームを取り上げ,Steam によるゲーム人気とゲーム機能の関係を明らかにすることを目的とする。 我々は,発売直後のSteamゲームの人気を予測し,ゲーム価格,サイズ,サポート言語,リリース日,ジャンルがプレイヤー数に与える影響を理解するためにベイズ的アプローチを用いた。 我々はいくつかのモデルを実装し、ジャンルに基づく階層的アプローチが最高のパフォーマンスを達成することを発見した。 さらにモデルを分析し,その係数を解釈し,月初旬にゲームがリリースされ,特定のジャンルのゲームがゲーム人気と相関していることを示す。

The video game industry has seen rapid growth over the last decade. Thousands of video games are released and played by millions of people every year, creating a large community of players. Steam is a leading gaming platform and social networking site, which allows its users to purchase and store games. A by-product of Steam is a large database of information about games, players, and gaming behavior. In this paper, we take recent video games released on Steam and aim to discover the relation between game popularity and a game's features that can be acquired through Steam. We approach this task by predicting the popularity of Steam games in the early stages after their release and we use a Bayesian approach to understand the influence of a game's price, size, supported languages, release date, and genres on its player count. We implement several models and discover that a genre-based hierarchical approach achieves the best performance. We further analyze the model and interpret its coefficients, which indicate that games released at the beginning of the month and games of certain genres correlate with game popularity.
翻訳日:2021-10-07 18:23:06 公開日:2021-10-06
# (参考訳) メタ内部学習

Meta Internal Learning ( http://arxiv.org/abs/2110.02900v1 )

ライセンス: CC BY 4.0
Raphael Bensadoun, Shir Gur, Tomer Galanti, Lior Wolf(参考訳) 単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。 これらのモデルは単一のイメージでトレーニングされるため、スケールと応用に制限がある。 これらの課題を克服するために,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。 提案したメタラーニングアプローチでは、畳み込みフィードフォワードハイパーネットワーク$f$を介して、入力画像から単一イメージのGANモデルを生成する。 このネットワークは画像のデータセット上でトレーニングされ、異なるモデル間の機能共有と生成モデルの空間での補間が可能になる。 生成された単一画像モデルは、複数のジェネレータと判別器の階層を含む。 したがって、メタラーナーを逆向きに訓練することは必要であり、理論的解析によって正当化される設計選択を慎重に行う必要がある。 以上の結果から, 得られたモデルは, 多くの共通画像に適用可能な単一画像GANとして適しており, 画像毎のトレーニング時間を大幅に短縮し, 新規画像の補間やフィードフォワードモデリングといった新たな機能を導入している。

Internal learning for single-image generation is a framework, where a generator is trained to produce novel images based on a single image. Since these models are trained on a single image, they are limited in their scale and application. To overcome these issues, we propose a meta-learning approach that enables training over a collection of images, in order to model the internal statistics of the sample image more effectively. In the presented meta-learning approach, a single-image GAN model is generated given an input image, via a convolutional feedforward hypernetwork $f$. This network is trained over a dataset of images, allowing for feature sharing among different models, and for interpolation in the space of generative models. The generated single-image model contains a hierarchy of multiple generators and discriminators. It is therefore required to train the meta-learner in an adversarial manner, which requires careful design choices that we justify by a theoretical analysis. Our results show that the models obtained are as suitable as single-image GANs for many common image applications, significantly reduce the training time per image without loss in performance, and introduce novel capabilities, such as interpolation and feedforward modeling of novel images.
翻訳日:2021-10-07 18:09:32 公開日:2021-10-06
# (参考訳) SAIC_Cambridge-HuPBA-FBK EPIC-Kitchens-100 Action Recognition Challenge 2021参加報告

SAIC_Cambridge-HuPBA-FBK Submission to the EPIC-Kitchens-100 Action Recognition Challenge 2021 ( http://arxiv.org/abs/2110.02902v1 )

ライセンス: CC BY 4.0
Swathikiran Sudhakaran and Adrian Bulat and Juan-Manuel Perez-Rua and Alex Falcon and Sergio Escalera and Oswald Lanz and Brais Martinez and Georgios Tzimiropoulos(参考訳) 本稿では,epic-kitchens-100 action recognition challenge 2021の技術的詳細を紹介する。 この課題に参加するために、私たちは最近開発したGSFとXViTという時空間の特徴抽出と集約モデルをデプロイしました。 GSFは、ビデオアクション認識のために2D CNNにプラグインできる効率的な時空間特徴抽出モジュールである。 XViTは、トランスフォーマーアーキテクチャに基づくコンボリューションフリーなビデオ特徴抽出器である。 我々は,GSFとXViTモデルファミリのアンサンブルを,異なるバックボーンと事前学習を用いて設計し,予測スコアを生成する。 我々の投稿は、公開リーダーボードに表示され、rgbのみを使用して、トップ1のアクション認識精度44.82%を達成した。

This report presents the technical details of our submission to the EPIC-Kitchens-100 Action Recognition Challenge 2021. To participate in the challenge we deployed spatio-temporal feature extraction and aggregation models we have developed recently: GSF and XViT. GSF is an efficient spatio-temporal feature extracting module that can be plugged into 2D CNNs for video action recognition. XViT is a convolution free video feature extractor based on transformer architecture. We design an ensemble of GSF and XViT model families with different backbones and pretraining to generate the prediction scores. Our submission, visible on the public leaderboard, achieved a top-1 action recognition accuracy of 44.82%, using only RGB.
翻訳日:2021-10-07 18:08:25 公開日:2021-10-06
# (参考訳) メモリ効率の良いデータ生成のための生成最適化ネットワーク

Generative Optimization Networks for Memory Efficient Data Generation ( http://arxiv.org/abs/2110.02912v1 )

ライセンス: CC BY 4.0
Shreshth Tuli, Shikhar Tuli, Giuliano Casale and Nicholas R. Jennings(参考訳) オートエンコーダやgansのような標準的な生成型ディープラーニングモデルでは、パラメータセットのサイズは生成されたデータ分布の複雑さに比例する。 重要な課題は、リソース不足のディープラーニングモデルを限られたメモリを持つデバイスにデプロイすることで、システムのアップグレードコストを抑えることである。 これに対抗するために、生成最適化ネットワーク(GON)と呼ばれる新しいフレームワークを提案し、GANと似ているがジェネレータは使用せず、メモリフットプリントを大幅に削減する。 GONは単一の識別器ネットワークを使用し、入力空間で最適化を行い、新しいデータサンプルを生成し、トレーニング時間とメモリ消費の効果的な妥協を実現する。 GONは、限られたメモリ設定におけるデータ生成問題に最も適している。 ここでは、攻撃や侵入によるメモリ制限エッジデバイスにおける異常検出の問題点について説明する。 具体的には、gonを用いて入力時系列ウィンドウの再構成に基づく異常スコアを算出する。 2つの既存のデータセットと1つの新しいデータセットからなるraspberry-piテストベッドの実験では、我々のフレームワークは検出f1スコアを最大32%高くし、58%のメモリ消費を削減し、最先端よりもトレーニングオーバーヘッドをわずか5%高めている。

In standard generative deep learning models, such as autoencoders or GANs, the size of the parameter set is proportional to the complexity of the generated data distribution. A significant challenge is to deploy resource-hungry deep learning models in devices with limited memory to prevent system upgrade costs. To combat this, we propose a novel framework called generative optimization networks (GON) that is similar to GANs, but does not use a generator, significantly reducing its memory footprint. GONs use a single discriminator network and run optimization in the input space to generate new data samples, achieving an effective compromise between training time and memory consumption. GONs are most suited for data generation problems in limited memory settings. Here we illustrate their use for the problem of anomaly detection in memory-constrained edge devices arising from attacks or intrusion events. Specifically, we use a GON to calculate a reconstruction-based anomaly score for input time-series windows. Experiments on a Raspberry-Pi testbed with two existing and a new suite of datasets show that our framework gives up to 32% higher detection F1 scores and 58% lower memory consumption, with only 5% higher training overheads compared to the state-of-the-art.
翻訳日:2021-10-07 18:04:20 公開日:2021-10-06
# (参考訳) Foolish Crowds が Benign Overfitting をサポート

Foolish Crowds Support Benign Overfitting ( http://arxiv.org/abs/2110.02914v1 )

ライセンス: CC BY 4.0
Niladri S. Chatterji and Philip M. Long(参考訳) 過パラメータ化状態におけるガウスデータによる線形回帰に対するスパース補間手順の過大なリスクの低い境界を証明した。 我々は、これまで共分散構造がベイズリスクへの高速収束を伴う良性過剰適合と互換性があることが示されていた環境で作業する。 一般境界を適用して、基底探索に対する下界(最小$\ell_1$-norm補間)を求めると、その余剰リスクは、基底真理がスパースであっても、ORS(最小$\ell_2$-norm補間)よりも指数的に遅い速度で収束する。 この分析は「群衆のウィズム」に類似した効果の利点を明らかにしたものであるが、ここではノイズを適合させることによる害は、多くの方向にそれを広めることで改善される。

We prove a lower bound on the excess risk of sparse interpolating procedures for linear regression with Gaussian data in the overparameterized regime. We work in a setting where the covariance structure has previously been shown to be compatible with benign overfitting with fast convergence to the Bayes risk. We apply the general bound to obtain a lower bound for basis pursuit (the minimum $\ell_1$-norm interpolant) that implies that its excess risk can converge at an exponentially slower rate than OLS (the minimum $\ell_2$-norm interpolant), even when the ground truth is sparse. Our analysis exposes the benefit of an effect analogous to the "wisdom of the crowd", except here the harm arising from fitting the noise is ameliorated by spreading it among many directions - the variance reduction arises from a foolish crowd.
翻訳日:2021-10-07 17:52:25 公開日:2021-10-06
# (参考訳) ゼロからノープレス外交

No-Press Diplomacy from Scratch ( http://arxiv.org/abs/2110.02924v1 )

ライセンス: CC BY 4.0
Anton Bakhtin, David Wu, Adam Lerer, Noam Brown(参考訳) 複雑なゲームにおけるAIの成功は、決定ポイント毎に少なくとも数百のアクションで設定することに集中している。 対照的に、外交はターン当たり10^20以上のアクションを持つゲームである。 外交、StarCraft、Dotaといった大きな分岐要素を持つゲームに対処する以前の試みでは、ポリシーのブートストラップや手作りの報酬形成に人的データを使用した。 本稿では,組み合わせアクション空間を持つゲームにおける動作探索と平衡近似のアルゴリズムについて述べる。 このアルゴリズムは、ポリシー提案ネットワークを学習しながら、同時に価値イテレーションを行う。 ダブルオラクルのステップは、ポリシー提案に追加するための追加アクションを探求するために使用されます。 各状態において、モデルトレーニングの目標状態値とポリシーは平衡探索手順を介して計算される。 このアルゴリズムを用いて,Diplomacy の2人プレーヤ版に対して,エージェントDORAを完全にゼロからトレーニングし,超人的なパフォーマンスを実現することを示す。 さらに、我々の手法をフルスケールのノープレッシャー外交に拡張し、初めて人間データなしでエージェントをゼロから訓練します。 本稿では、このエージェントが、人間データブートストラップエージェントと互換性のない戦略を担っていることを示す。 これは外交における多重均衡の最初の強い証拠であり、外交における超人的業績を達成するには自己遊びだけでは不十分であることを示唆している。

Prior AI successes in complex games have largely focused on settings with at most hundreds of actions at each decision point. In contrast, Diplomacy is a game with more than 10^20 possible actions per turn. Previous attempts to address games with large branching factors, such as Diplomacy, StarCraft, and Dota, used human data to bootstrap the policy or used handcrafted reward shaping. In this paper, we describe an algorithm for action exploration and equilibrium approximation in games with combinatorial action spaces. This algorithm simultaneously performs value iteration while learning a policy proposal network. A double oracle step is used to explore additional actions to add to the policy proposals. At each state, the target state value and policy for the model training are computed via an equilibrium search procedure. Using this algorithm, we train an agent, DORA, completely from scratch for a popular two-player variant of Diplomacy and show that it achieves superhuman performance. Additionally, we extend our methods to full-scale no-press Diplomacy and for the first time train an agent from scratch with no human data. We present evidence that this agent plays a strategy that is incompatible with human-data bootstrapped agents. This presents the first strong evidence of multiple equilibria in Diplomacy and suggests that self play alone may be insufficient for achieving superhuman performance in Diplomacy.
翻訳日:2021-10-07 17:38:14 公開日:2021-10-06
# (参考訳) 平均場状態における多層ResNetのグラディエントDescentのグローバル収束について

On the Global Convergence of Gradient Descent for multi-layer ResNets in the mean-field regime ( http://arxiv.org/abs/2110.02926v1 )

ライセンス: CC BY 4.0
Zhiyan Ding and Shi Chen and Qin Li and Stephen Wright(参考訳) ResNetにおけるパラメータの最適設定を見つけることは、非凸最小化問題であるが、一方、一階法は過度なパラメータ化状態における大域的最適性を見出す。 本研究では、ResNetの学習過程を勾配流偏微分方程式(PDE)に変換し、この制限過程の収束特性を調べることにより、平均場解析を用いてこの現象を研究する。 活性化関数は 2$-等質あるいは部分的に 1$-等質であると仮定され、正規化された ReLU は後者の条件を満たす。 ResNetが十分に大きく、精度と信頼度によって代数的に深さと幅がある場合、一階最適化法はトレーニングデータに適合する大域最小化器を見つけることができる。

Finding the optimal configuration of parameters in ResNet is a nonconvex minimization problem, but first-order methods nevertheless find the global optimum in the overparameterized regime. We study this phenomenon with mean-field analysis, by translating the training process of ResNet to a gradient-flow partial differential equation (PDE) and examining the convergence properties of this limiting process. The activation function is assumed to be $2$-homogeneous or partially $1$-homogeneous; the regularized ReLU satisfies the latter condition. We show that if the ResNet is sufficiently large, with depth and width depending algebraically on the accuracy and confidence levels, first-order optimization methods can find global minimizers that fit the training data.
翻訳日:2021-10-07 17:11:43 公開日:2021-10-06
# (参考訳) イベントベースビジョンのためのスパイク畳み込みネットワークの敵意攻撃

Adversarial Attacks on Spiking Convolutional Networks for Event-based Vision ( http://arxiv.org/abs/2110.02929v1 )

ライセンス: CC BY 4.0
Julian B\"uchel, Gregor Lenz, Yalun Hu, Sadique Sheik, Martino Sorbaro(参考訳) ダイナミックビジョンセンサを用いたイベントベースセンシングは、低消費電力ビジョンアプリケーションで注目を集めている。 スパイクニューラルネットワークは、イベントベースのデータのばらばらな性質とうまく機能し、低消費電力のニューロモルフィックハードウェアへのデプロイに適している。 ニューラルネットワークをスパイクすることで、悪意のある敵の攻撃に対する感受性は、まだほとんど注目されていない。 本稿では,ホワイトボックス攻撃アルゴリズムを,イベントベースの視覚的データの離散的かつスパースな性質や,スパイクニューラルネットワークの連続時間設定にどのように適用できるかを示す。 我々は,N-MNISTとIBM Gesturesのニューロモルフィック・ビジョン・データセットを用いて,比較的少数の適切なイベントを注入することにより,敵の摂動が高い成功率を達成することを示す。 また,神経形態的ハードウェア上でのこれらの摂動の効果を初めて検証した。 最後に、得られた摂動の性質と将来的な方向性について論じる。

Event-based sensing using dynamic vision sensors is gaining traction in low-power vision applications. Spiking neural networks work well with the sparse nature of event-based data and suit deployment on low-power neuromorphic hardware. Being a nascent field, the sensitivity of spiking neural networks to potentially malicious adversarial attacks has received very little attention so far. In this work, we show how white-box adversarial attack algorithms can be adapted to the discrete and sparse nature of event-based visual data, and to the continuous-time setting of spiking neural networks. We test our methods on the N-MNIST and IBM Gestures neuromorphic vision datasets and show adversarial perturbations achieve a high success rate, by injecting a relatively small number of appropriately placed events. We also verify, for the first time, the effectiveness of these perturbations directly on neuromorphic hardware. Finally, we discuss the properties of the resulting perturbations and possible future directions.
翻訳日:2021-10-07 17:10:35 公開日:2021-10-06
# (参考訳) ビッグデータ以外の機械学習の実践 - リソース制約は開発に責任を負うか

Machine Learning Practices Outside Big Tech: How Resource Constraints Challenge Responsible Development ( http://arxiv.org/abs/2110.02932v1 )

ライセンス: CC BY 4.0
Aspen Hopkins, Serena Booth(参考訳) 多様な職業やバックグラウンドを持つ実践者は、機械学習(ML)メソッドの利用が増えている。 それでも、ML実践者の研究は、研究者がこれらのコミュニティにアクセスしやすいため、一般的にはビッグテックやアカデミックから人口を引き出す。 この選択バイアスを通じて、過去の研究は、例えばスタートアップ、非テック企業、公共部門で働く実践者など、より広範な、より少ないリソースのmlコミュニティを除外することが多い。 これらの実践者は、Big Techと同じようなML開発上の困難と倫理的な混乱の多くを共有しているが、彼らの経験は、限られたリソースでMLをデプロイすること、生存リスクの増大、社内調査チームへのアクセス不足など、さらに過小評価された課題にさらされている。 先行研究に代表されない団体の利害関係者17名に対するインタビューの質的分析に貢献する。 これらの組織のリソース制約 - プライバシとユビキタス間の緊張、リソース管理とパフォーマンスの最適化、アクセスと独占など - によって導入された、あるいは悪化する多くの緊張関係を明らかにする。 これらの実践者に対する学術的関心の高まりは、MLの制限に関するより包括的な理解を促進することができるため、責任あるML開発を促進するための研究アジェンダを規定するのに有用である。

Practitioners from diverse occupations and backgrounds are increasingly using machine learning (ML) methods. Nonetheless, studies on ML Practitioners typically draw populations from Big Tech and academia, as researchers have easier access to these communities. Through this selection bias, past research often excludes the broader, lesser-resourced ML community -- for example, practitioners working at startups, at non-tech companies, and in the public sector. These practitioners share many of the same ML development difficulties and ethical conundrums as their Big Tech counterparts; however, their experiences are subject to additional under-studied challenges stemming from deploying ML with limited resources, increased existential risk, and absent access to in-house research teams. We contribute a qualitative analysis of 17 interviews with stakeholders from organizations which are less represented in prior studies. We uncover a number of tensions which are introduced or exacerbated by these organizations' resource constraints -- tensions between privacy and ubiquity, resource management and performance optimization, and access and monopolization. Increased academic focus on these practitioners can facilitate a more holistic understanding of ML limitations, and so is useful for prescribing a research agenda to facilitate responsible ML development for all.
翻訳日:2021-10-07 16:51:39 公開日:2021-10-06
# (参考訳) 口蓋構造検出におけるクロップト対アンクロップトトレーニングセットについて

On Cropped versus Uncropped Training Sets in Tabular Structure Detection ( http://arxiv.org/abs/2110.02933v1 )

ライセンス: CC BY 4.0
Yakup Akkaya, Murat Simsek, Burak Kantarci, Shahzad Khan(参考訳) 表情報抽出のための自動文書処理は、業界から政府まで、多くの組織で非常に望まれている。 これまで、テーブル検出やテーブル構造検出タスクでこの問題に対処してきた。 ディープラーニングアプローチを活用したソリューションの提案は、これらのタスクで有望な結果をもたらしている。 しかし,データセット構造が表構造検出に与える影響は調査されていない。 本研究では, テーブル構造検出性能と, 刈り取られたデータセットとの比較を行った。 クロッピングセットは、テーブルが完全に検出されたと仮定して文書からクロッピングされたテーブルイメージのみで構成される。 uncroppedセットは、通常のドキュメントイメージで構成されている。 実験では、ディープラーニングモデルが検出性能を平均精度で最大9%向上させ、トリミングされたバージョンで平均リコールできることが示されている。 さらに、収穫された画像の影響は、未採集版に比べて50%-70%のIoU(Intersection over Union)値で無視できる。 しかし、70%のIoUしきい値を超え、収穫されたデータセットは検出性能が著しく向上する。

Automated document processing for tabular information extraction is highly desired in many organizations, from industry to government. Prior works have addressed this problem under table detection and table structure detection tasks. Proposed solutions leveraging deep learning approaches have been giving promising results in these tasks. However, the impact of dataset structures on table structure detection has not been investigated. In this study, we provide a comparison of table structure detection performance with cropped and uncropped datasets. The cropped set consists of only table images that are cropped from documents assuming tables are detected perfectly. The uncropped set consists of regular document images. Experiments show that deep learning models can improve the detection performance by up to 9% in average precision and average recall on the cropped versions. Furthermore, the impact of cropped images is negligible under the Intersection over Union (IoU) values of 50%-70% when compared to the uncropped versions. However, beyond 70% IoU thresholds, cropped datasets provide significantly higher detection performance.
翻訳日:2021-10-07 16:28:32 公開日:2021-10-06
# (参考訳) クラスタリングによるセキュアなビザンチンロバスト分散学習

Secure Byzantine-Robust Distributed Learning via Clustering ( http://arxiv.org/abs/2110.02940v1 )

ライセンス: CC BY 4.0
Raj Kiriti Velicheti, Derek Xia, Oluwasanmi Koyejo(参考訳) ビザンチンの堅牢性とプライバシを共同で保存する連合学習システムは、オープンな問題のままである。 ビザンチン攻撃の標準的な防御であるロバストアグリゲーションは、一般的に個々の更新や非線形計算へのサーバアクセスを必要とするため、マルチパーティ計算によるセキュアアグリゲーションのようなプライバシ保護手法とは相容れない。 この目的のために,クライアント更新のプライバシとロバスト性を同時に保持する分散学習フレームワークであるSHARE(Secure Hierarchical Robust Aggregation)を提案する。 重要なアイデアは、ロバストアグリゲーションを通じて悪意のあるアップデートをフィルタリングする前に、ランダムにクラスタ化されたクライアント間のセキュアな平均化を組み込むことである。 実験によると、SHAREは既存の技術と同様の堅牢性を保証すると同時に、プライバシーを向上している。

Federated learning systems that jointly preserve Byzantine robustness and privacy have remained an open problem. Robust aggregation, the standard defense for Byzantine attacks, generally requires server access to individual updates or nonlinear computation -- thus is incompatible with privacy-preserving methods such as secure aggregation via multiparty computation. To this end, we propose SHARE (Secure Hierarchical Robust Aggregation), a distributed learning framework designed to cryptographically preserve client update privacy and robustness to Byzantine adversaries simultaneously. The key idea is to incorporate secure averaging among randomly clustered clients before filtering malicious updates through robust aggregation. Experiments show that SHARE has similar robustness guarantees as existing techniques while enhancing privacy.
翻訳日:2021-10-07 16:15:43 公開日:2021-10-06
# (参考訳) ビデオオートエンコーダ:静的な3次元構造と動きの自己監督的外乱

Video Autoencoder: self-supervised disentanglement of static 3D structure and motion ( http://arxiv.org/abs/2110.02951v1 )

ライセンス: CC BY 4.0
Zihang Lai, Sifei Liu, Alexei A. Efros, Xiaolong Wang(参考訳) ビデオから3次元構造とカメラポーズのディスタンタン・グリード表現を自己教師ありで学習するためにビデオオートエンコーダを提案する。 ビデオの時間的連続性に基づいて、我々の研究は、近くのビデオフレームの3Dシーン構造が静止していると仮定する。 入力として映像フレームのシーケンスが与えられると、ビデオオートエンコーダはシーンインクルード・ingの異方性表現を抽出する。 (i)3d構造を表す時間的に一貫性のある深いボクセルの特徴 (ii)フレームごとにカメラの3次元軌跡がポーズする。 これら2つの表現は、入力されたビデオフレームをレンダリングするために再び絡み合う。 このビデオオートエンコーダは、3Dやカメラのアノテーションを使わずに、画素再構成損失を直接トレーニングすることができる。 この異方性表現は、新しい視点合成、カメラポーズ推定、動き追従によるビデオ生成など、様々なタスクに適用することができる。 本手法を複数の大規模自然映像データセットで評価し,領域外画像に一般化結果を示す。

A video autoencoder is proposed for learning disentan- gled representations of 3D structure and camera pose from videos in a self-supervised manner. Relying on temporal continuity in videos, our work assumes that the 3D scene structure in nearby video frames remains static. Given a sequence of video frames as input, the video autoencoder extracts a disentangled representation of the scene includ- ing: (i) a temporally-consistent deep voxel feature to represent the 3D structure and (ii) a 3D trajectory of camera pose for each frame. These two representations will then be re-entangled for rendering the input video frames. This video autoencoder can be trained directly using a pixel reconstruction loss, without any ground truth 3D or camera pose annotations. The disentangled representation can be applied to a range of tasks, including novel view synthesis, camera pose estimation, and video generation by motion following. We evaluate our method on several large- scale natural video datasets, and show generalization results on out-of-domain images.
翻訳日:2021-10-07 15:26:34 公開日:2021-10-06
# PoNet: 長いシーケンスでの効率的なトケミキシングのためのポーリングネットワーク

PoNet: Pooling Network for Efficient Token Mixing in Long Sequences ( http://arxiv.org/abs/2110.02442v1 )

ライセンス: Link先を確認
Chao-Hong Tan, Qian Chen, Wen Wang, Qinglin Zhang, Siqi Zheng, Zhen-Hua Ling(参考訳) トランスフォーマーベースのモデルは、様々なNLP、ビジョン、音声タスクで大きな成功を収めている。 しかし、自己アテンション機構であるトランスのコアはシーケンス長に関して二次時間とメモリの複雑さを持ち、トランスフォーマーベースのモデルの長いシーケンスへの応用を妨げる。 この問題を緩和するために、スパース注意機構、低ランク行列近似、スケーラブルカーネル、およびトークン混合の代替品など、多くのアプローチが提案されている。 本稿では,線形複雑度を持つ長列のトークン混合のための新しいPooling Network(PoNet)を提案する。 複数粒度プールとプール融合を設計し、異なるレベルのコンテキスト情報をキャプチャし、それらの相互作用をトークンと組み合わせる。 Long Range Arenaベンチマークでは、PoNetはTransformerを著しく上回り、GPU上で測定されたすべてのシーケンス長に対して、最速のモデルであるFNetよりもわずかに遅い。 また,PoNetの伝達学習能力に関する系統的研究を行い, GLUEベンチマークにおけるBERTの精度の96.0%をPoNetが達成し, FNetを4.5%上回った。 包括的アブレーション解析は, 長期のトークン混合における多粒度プールとプール融合の有効性と, 伝達可能な文脈言語表現を学習するためのPoNetのための事前学習タスクの有効性を示す。

Transformer-based models have achieved great success in various NLP, vision, and speech tasks. However, the core of Transformer, the self-attention mechanism, has a quadratic time and memory complexity with respect to the sequence length, which hinders applications of Transformer-based models to long sequences. Many approaches have been proposed to mitigate this problem, such as sparse attention mechanisms, low-rank matrix approximations and scalable kernels, and token mixing alternatives to self-attention. We propose a novel Pooling Network (PoNet) for token mixing in long sequences with linear complexity. We design multi-granularity pooling and pooling fusion to capture different levels of contextual information and combine their interactions with tokens. On the Long Range Arena benchmark, PoNet significantly outperforms Transformer and achieves competitive accuracy, while being only slightly slower than the fastest model, FNet, across all sequence lengths measured on GPUs. We also conduct systematic studies on the transfer learning capability of PoNet and observe that PoNet achieves 96.0% of the accuracy of BERT on the GLUE benchmark, outperforming FNet by 4.5% relative. Comprehensive ablation analysis demonstrates effectiveness of the designed multi-granularity pooling and pooling fusion for token mixing in long sequences and efficacy of the designed pre-training tasks for PoNet to learn transferable contextualized language representations.
翻訳日:2021-10-07 14:46:43 公開日:2021-10-06
# 幾何量と物理量の改善E(3)同変メッセージパッシング

Geometric and Physical Quantities improve E(3) Equivariant Message Passing ( http://arxiv.org/abs/2110.02905v1 )

ライセンス: Link先を確認
Johannes Brandstetter, Rob Hesselink, Elise van der Pol, Erik Bekkers, Max Welling(参考訳) 位置、力、速度、スピンなどの共変情報を含むことは、計算物理学や化学における多くのタスクにおいて重要である。 等変グラフネットワークを一般化し,ノード属性とエッジ属性が不変スカラーに制限されるのではなく,ベクトルやテンソルなどの共変情報を含むことができる,ステアブルE(3)等変グラフニューラルネットワーク(SEGNN)を提案する。 このモデルは、操縦可能なMPPで構成され、メッセージと更新機能の両方に幾何学的および物理的情報を組み込むことができる。 ステアブルなノード属性の定義を通じて、MPPはステアブルな機能フィールドで一般使用するためのアクティベーション関数の新しいクラスを提供する。 非線形メッセージアグリゲーションは、古典的線形(ステアブル)点畳み込みにおいて改善され、ステアブルメッセージは、不変メッセージを送信する最近の同変グラフネットワークにおいて改善される。 計算物理学および化学におけるいくつかのタスクにおける本手法の有効性を実証し,広範なアブレーション研究を提供する。

Including covariant information, such as position, force, velocity or spin is important in many tasks in computational physics and chemistry. We introduce Steerable E(3) Equivariant Graph Neural Networks (SEGNNs) that generalise equivariant graph networks, such that node and edge attributes are not restricted to invariant scalars, but can contain covariant information, such as vectors or tensors. This model, composed of steerable MLPs, is able to incorporate geometric and physical information in both the message and update functions. Through the definition of steerable node attributes, the MLPs provide a new class of activation functions for general use with steerable feature fields. We discuss ours and related work through the lens of equivariant non-linear convolutions, which further allows us to pin-point the successful components of SEGNNs: non-linear message aggregation improves upon classic linear (steerable) point convolutions; steerable messages improve upon recent equivariant graph networks that send invariant messages. We demonstrate the effectiveness of our method on several tasks in computational physics and chemistry and provide extensive ablation studies.
翻訳日:2021-10-07 14:46:17 公開日:2021-10-06
# マイズショット分類におけるファースバイアス低減の重要性について

On the Importance of Firth Bias Reduction in Few-Shot Classification ( http://arxiv.org/abs/2110.02529v1 )

ライセンス: Link先を確認
Saba Ghaffari, Ehsan Saleh, David Forsyth and Yu-xiong Wang(参考訳) ごく少数の例から、新しいカテゴリの正確な分類器を学習することは、統計的な機械学習とコンピュータビジョンにおいて難しい課題である。 少数ショット分類の性能は、分類器パラメータの推定におけるバイアスに苦しむが、少数ショット分類器のトレーニングにおいてこの問題を緩和する効果的なバイアス低減技術が見過ごされている。 そこで本研究では,Firth バイアス低減手法の有効性について述べる。 理論的には、firthバイアス低減は、最大度推定子の小サンプルバイアスから1次項$o(n^{-1})$を取り除く。 本稿では,多項ロジスティック分類における一様クラス割当確率の促進に汎用firthバイアス低減手法を単純化し,コサイン分類器においてほぼ同じ効果を持つことを示す。 本研究では,Firthのペナル化多項ロジスティック・コサイン分類器の最適化目標を導出し,(1)異なるバックボーンの特徴表現,(2)クラス毎のサンプル数,(3)クラス数によらず,少数の画像分類において一貫した有効性を実証的に評価した。 最後に,不均衡データ分布の場合,firthバイアス低減のロバスト性を示す。 私たちの実装はhttps://github.com/ehsansaleh/firth_bias_reductionで利用可能です。

Learning accurate classifiers for novel categories from very few examples, known as few-shot image classification, is a challenging task in statistical machine learning and computer vision. The performance in few-shot classification suffers from the bias in the estimation of classifier parameters; however, an effective underlying bias reduction technique that could alleviate this issue in training few-shot classifiers has been overlooked. In this work, we demonstrate the effectiveness of Firth bias reduction in few-shot classification. Theoretically, Firth bias reduction removes the first order term $O(N^{-1})$ from the small-sample bias of the Maximum Likelihood Estimator. Here we show that the general Firth bias reduction technique simplifies to encouraging uniform class assignment probabilities for multinomial logistic classification, and almost has the same effect in cosine classifiers. We derive the optimization objective for Firth penalized multinomial logistic and cosine classifiers, and empirically evaluate that it is consistently effective across the board for few-shot image classification, regardless of (1) the feature representations from different backbones, (2) the number of samples per class, and (3) the number of classes. Finally, we show the robustness of Firth bias reduction, in the case of imbalanced data distribution. Our implementation is available at https://github.com/ehsansaleh/firth_bias_reduction
翻訳日:2021-10-07 14:45:57 公開日:2021-10-06
# moveFashion: ビデオとショッピングの課題のベンチマーク

MovingFashion: a Benchmark for the Video-to-Shop Challenge ( http://arxiv.org/abs/2110.02627v1 )

ライセンス: Link先を確認
Marco Godi, Christian Joppi, Geri Skenderi, Marco Cristani(参考訳) ソーシャルメディアビデオ(Instagram、TikTok)で着用される衣服の回収は、コンピュータビジョン文学において「ビデオ・トゥ・ショップ」と呼ばれるeファッションの最新のフロンティアである。 本稿では,この課題に対処した最初の公開データセットであるMovingFashionを紹介する。 movingFashionは14855のソーシャルビデオで構成されており、それぞれが、対応する衣服が明確に描かれたEコマースの「ショップ」イメージと関連付けられている。 また,このシナリオにおいて,SEAM Match-RCNNと呼ばれる店舗イメージを検索するネットワークを提案する。 このモデルは、画像からビデオへのドメイン適応によってトレーニングされ、ショップイメージとのみ関連づけられたビデオシーケンスを使用でき、数百万の注釈付きバウンディングボックスが不要になる。 SEAM Match-RCNNは、ソーシャルビデオのアテンションベースの重み付け和(10)が、最初の5つの検索項目で正しい製品を80%の精度で14K以上のショップエレメントギャラリーに分割するのに十分である埋め込みを構築する。 これは、関連する最先端のアプローチと代替のベースラインとを徹底的に比較して、MovingFashionで最高のパフォーマンスを提供する。

Retrieving clothes which are worn in social media videos (Instagram, TikTok) is the latest frontier of e-fashion, referred to as "video-to-shop" in the computer vision literature. In this paper we present MovingFashion, the first publicly available dataset to cope with this challenge. MovingFashion is composed of 14855 social videos, each one of them associated to e-commerce "shop" images where the corresponding clothing items are clearly portrayed. In addition, we present a network for retrieving the shop images in this scenario, dubbed SEAM Match-RCNN. The model is trained by image-to-video domain adaptation, allowing to use video sequences where only their association with a shop image is given, eliminating the need of millions of annotated bounding boxes. SEAM Match-RCNN builds an embedding, where an attention-based weighted sum of few frames (10) of a social video is enough to individuate the correct product within the first 5 retrieved items in a 14K+ shop element gallery with an accuracy of 80%. This provides the best performance on MovingFashion, comparing exhaustively against the related state-of-the-art approaches and alternative baselines.
翻訳日:2021-10-07 14:45:34 公開日:2021-10-06
# DiffusionCLIP:拡散モデルを用いたテキスト誘導画像操作

DiffusionCLIP: Text-guided Image Manipulation Using Diffusion Models ( http://arxiv.org/abs/2110.02711v1 )

ライセンス: Link先を確認
Gwanghyun Kim, Jong Chul Ye(参考訳) 拡散モデルは、最先端の性能で画像生成に大きな成功を収めた最近の生成モデルである。 しかし、拡散モデルを用いた画像操作についての研究はごくわずかである。 本稿では,コントラスト言語-画像事前学習(CLIP)損失を用いた拡散モデルを用いたテキスト駆動画像操作を行うDiffusionCLIPを提案する。 提案手法は,領域内および領域外の画像処理タスクに対する最新のGANベースの画像処理手法に匹敵する性能を有し,エンコーダや最適化を伴わずにほぼ完全な逆変換の利点を享受できる。 さらに、この手法は、未処理ドメインから別の未処理ドメインへの画像変換や、未処理ドメインでのストローク条件画像生成など、様々な新規用途に容易に使用することができる。 最後に、複数の微調整拡散モデルを組み合わせたDiffusionCLIPbyを用いた新しい多重属性制御を提案する。

Diffusion models are recent generative models that have shown great success in image generation with the state-of-the-art performance. However, only a few researches have been conducted for image manipulation with diffusion models. Here, we present a novel DiffusionCLIP which performs text-driven image manipulation with diffusion models using Contrastive Language-Image Pre-training (CLIP) loss. Our method has a performance comparable to that of the modern GAN-based image processing methods for in and out-of-domain image processing tasks, with the advantage of almost perfect inversion even without additional encoders or optimization. Furthermore, our method can be easily used for various novel applications, enabling image translation from an unseen domain to another unseen domain or stroke-conditioned image generation in an unseen domain, etc. Finally, we present a novel multiple attribute control with DiffusionCLIPby combining multiple fine-tuned diffusion models.
翻訳日:2021-10-07 14:45:18 公開日:2021-10-06
# BadPre: トレーニング済みNLPファウンデーションモデルに対するタスク非依存のバックドアアタック

BadPre: Task-agnostic Backdoor Attacks to Pre-trained NLP Foundation Models ( http://arxiv.org/abs/2110.02467v1 )

ライセンス: Link先を確認
Kangjie Chen, Yuxian Meng, Xiaofei Sun, Shangwei Guo, Tianwei Zhang, Jiwei Li and Chun Fan(参考訳) 事前訓練された自然言語処理(NLP)モデルは、さまざまな下流言語タスクに容易に適応できる。 これは言語モデルの開発を著しく加速させる。 しかし、NLPモデルはバックドア攻撃に弱いことが示されており、入力テキスト中の事前定義されたトリガーワードがモデル誤予測を引き起こす。 以前のNLPバックドア攻撃は主に特定のタスクに焦点を当てていた。 これにより、これらの攻撃は一般的なものではなく、他の種類のNLPモデルやタスクにも適用できる。 本研究では,学習済みNLPモデルに対するタスク非依存のバックドア攻撃である \Name を提案する。 我々の攻撃の重要な特徴は、敵が事前訓練されたモデルにバックドアを埋め込む際に下流タスクの事前情報を必要としないことである。 この悪意のあるモデルがリリースされると、そのモデルから転送されたダウンストリームモデルも、広範な転送学習プロセスの後にもバックドアを継承する。 我々はさらに、最先端の防御をバイパスする単純かつ効果的な戦略をデザインする。 実験結果から,本手法は幅広い下流NLPタスクを効果的かつステルスな方法で妥協できることが示された。

Pre-trained Natural Language Processing (NLP) models can be easily adapted to a variety of downstream language tasks. This significantly accelerates the development of language models. However, NLP models have been shown to be vulnerable to backdoor attacks, where a pre-defined trigger word in the input text causes model misprediction. Previous NLP backdoor attacks mainly focus on some specific tasks. This makes those attacks less general and applicable to other kinds of NLP models and tasks. In this work, we propose \Name, the first task-agnostic backdoor attack against the pre-trained NLP models. The key feature of our attack is that the adversary does not need prior information about the downstream tasks when implanting the backdoor to the pre-trained model. When this malicious model is released, any downstream models transferred from it will also inherit the backdoor, even after the extensive transfer learning process. We further design a simple yet effective strategy to bypass a state-of-the-art defense. Experimental results indicate that our approach can compromise a wide range of downstream NLP tasks in an effective and stealthy way.
翻訳日:2021-10-07 14:44:16 公開日:2021-10-06
# 意味的トポロジーにおけるオブジェクト

Objects in Semantic Topology ( http://arxiv.org/abs/2110.02687v1 )

ライセンス: Link先を確認
Shuo Yang, Peize Sun, Yi Jiang, Xiaobo Xia, Ruiheng Zhang, Zehuan Yuan, Changhu Wang, Ping Luo, Min Xu(参考訳) より現実的なオブジェクト検出パラダイムであるOpen-World Object Detectionが最近、コミュニティにおける研究の関心が高まっている。 認定されたオープンワールドオブジェクト検出器は、既知のカテゴリのオブジェクトを識別できるだけでなく、未知のオブジェクトも発見できる。 以前の作業では、未知のカテゴリを認識し、それぞれインクリメンタルな学習を行うために、独立したモジュールに依存している。 本稿では,セマンティックトポロジーという統一的な視点を提供する。 オープンワールドオブジェクト検出器の生涯学習において、同じカテゴリのすべてのオブジェクトインスタンスは、 'unknown' カテゴリを含む、セマンティックトポロジーの対応する事前定義されたノードに割り当てられる。 この制約は、オブジェクト間の識別的特徴表現と一貫した関係を構築し、既知のカテゴリから未知のオブジェクトを識別すると同時に、新しいカテゴリを段階的に学習する場合に既知のオブジェクトの学習特徴をばらばらにすることができる。 広範な実験により、無作為生成または訓練された言語モデルから派生した意味論的トポロジーは、現在の最先端のオープンワールドオブジェクト検出器よりも大きなマージン、例えば絶対的なオープンセットエラーを7832から2546に減らし、オープンワールドオブジェクト検出における意味的トポロジーの本質的な優位性を示すことが示されている。

A more realistic object detection paradigm, Open-World Object Detection, has arisen increasing research interests in the community recently. A qualified open-world object detector can not only identify objects of known categories, but also discover unknown objects, and incrementally learn to categorize them when their annotations progressively arrive. Previous works rely on independent modules to recognize unknown categories and perform incremental learning, respectively. In this paper, we provide a unified perspective: Semantic Topology. During the life-long learning of an open-world object detector, all object instances from the same category are assigned to their corresponding pre-defined node in the semantic topology, including the `unknown' category. This constraint builds up discriminative feature representations and consistent relationships among objects, thus enabling the detector to distinguish unknown objects out of the known categories, as well as making learned features of known objects undistorted when learning new categories incrementally. Extensive experiments demonstrate that semantic topology, either randomly-generated or derived from a well-trained language model, could outperform the current state-of-the-art open-world object detectors by a large margin, e.g., the absolute open-set error is reduced from 7832 to 2546, exhibiting the inherent superiority of semantic topology on open-world object detection.
翻訳日:2021-10-07 14:44:00 公開日:2021-10-06
# sire-networks: interlaced multi-task learning によるスキップ接続と残余接続によるオブジェクトの分類保存

SIRe-Networks: Skip Connections over Interlaced Multi-Task Learning and Residual Connections for Structure Preserving Object Classification ( http://arxiv.org/abs/2110.02776v1 )

ライセンス: Link先を確認
Danilo Avola, Luigi Cinque, Alessio Fagioli, Gian Luca Foresti(参考訳) 既存のニューラルネットワークアーキテクチャの改善には、損失関数の操作、多様な学習戦略の利用、トレーニング時の勾配進化の活用、ネットワークハイパーパラメータの最適化、アーキテクチャの深度向上など、いくつかの設計上の選択が含まれる。 後者のアプローチは、ネットワークの表現能力を直接的に強化するので、単純な解決法である。 本稿では、この問題に対処する異なる手法から借用し、オブジェクト分類タスクにおける消滅勾配を低減するために、SIReの定義したインターレースマルチタスク学習戦略を導入する。 提案手法は、インターレースされたオートエンコーダによる入力画像構造の保存を強制することにより畳み込みニューラルネットワーク(cnn)を直接改善し、スキップと残差接続によりベースネットワークアーキテクチャをさらに洗練する。 提案手法を検証するため,単純なCNNと有名なネットワークの実装をSIRe戦略を通じて拡張し,CIFAR100データセット上で広範囲にテストする。

Improving existing neural network architectures can involve several design choices such as manipulating the loss functions, employing a diverse learning strategy, exploiting gradient evolution at training time, optimizing the network hyper-parameters, or increasing the architecture depth. The latter approach is a straightforward solution, since it directly enhances the representation capabilities of a network; however, the increased depth generally incurs in the well-known vanishing gradient problem. In this paper, borrowing from different methods addressing this issue, we introduce an interlaced multi-task learning strategy, defined SIRe, to reduce the vanishing gradient in relation to the object classification task. The presented methodology directly improves a convolutional neural network (CNN) by enforcing the input image structure preservation through interlaced auto-encoders, and further refines the base network architecture by means of skip and residual connections. To validate the presented methodology, a simple CNN and various implementations of famous networks are extended via the SIRe strategy and extensively tested on the CIFAR100 dataset; where the SIRe-extended architectures achieve significantly increased performances across all models, thus confirming the presented approach effectiveness.
翻訳日:2021-10-07 14:43:32 公開日:2021-10-06
# Bias-Varianceの観点からのオフポリティアクター批判の解説

Explaining Off-Policy Actor-Critic From A Bias-Variance Perspective ( http://arxiv.org/abs/2110.02421v1 )

ライセンス: Link先を確認
Ting-Han Fan, Peter J. Ramadge(参考訳) オフ・ポリティカル・アクタ-クリティックアルゴリズムは驚くべき実験性能を示しているが、より優れた説明が必要である。 この結果から, ベルマン誤差, 政策ミスマッチの偏り, サンプリングからの分散項に分解された遷移の分布に対する政策評価誤差を示す。 バイアスとばらつきの大きさを比較することで,最近の経験を強調するサンプリングと1/ageの重み付けサンプリングの成功を説明する。 いずれのサンプリング戦略もバイアスと分散が小さくなり、一様サンプリングに好適である。

Off-policy Actor-Critic algorithms have demonstrated phenomenal experimental performance but still require better explanations. To this end, we show its policy evaluation error on the distribution of transitions decomposes into: a Bellman error, a bias from policy mismatch, and a variance term from sampling. By comparing the magnitude of bias and variance, we explain the success of the Emphasizing Recent Experience sampling and 1/age weighted sampling. Both sampling strategies yield smaller bias and variance and are hence preferable to uniform sampling.
翻訳日:2021-10-07 14:42:40 公開日:2021-10-06
# リプレイ誘導型逆環境設計

Replay-Guided Adversarial Environment Design ( http://arxiv.org/abs/2110.02439v1 )

ライセンス: Link先を確認
Minqi Jiang, Michael Dennis, Jack Parker-Holder, Jakob Foerster, Edward Grefenstette, Tim Rockt\"aschel(参考訳) 深層強化学習(Deep reinforcement Learning, RL)エージェントは、適切な多様な環境とタスク設定でトレーニングされた場合、新しい設定に適応することができる。 教師なし環境設計 (unsupervised environment design, ued) は有望な自己監督型rlパラダイムであり、エージェントの能力に対するトレーニング中に、未特定環境の自由パラメータが自動的に適応され、多様なトレーニング環境が出現する。 そこで我々は,UEDとしてランダムに生成したトレーニングレベルを選択的にサンプリングする,実験的に成功したが理論的には動機のない手法であるプライオリティライズド・レベル・リプレイ(PLR)をキャストした。 完全にランダムなレベルをキュレートすることで、plrも効果的なトレーニングのために新しく複雑なレベルを生成することができる、と主張する。 この知見は、私たちがDual Curriculum Design (DCD)と呼ぶUEDメソッドの自然なクラスを明らかにします。 重要なことに、DCDはPLRと一般的なUEDアルゴリズムであるPAIREDの両方を特別なケースとして含んでおり、同様の理論的保証を継承している。 この接続により、PLRの新たな理論が発展し、ナッシュ平衡において堅牢性を保証するバージョンが提供される。 さらに,本理論は,plrに対する極めて直観的な改善を示唆する。エージェントが未調達のレベル(少ないデータでトレーニングする)に対するポリシーを更新するのを止めることにより,nash平衡への収束性を向上させることができる。 実際、我々の実験では、新しい方法であるplr$^{\perp}$が、plr$^{\perp}$がペアリングの性能を改善し、その理論的な枠組みを継承していることを示すのに加えて、分散しないゼロショット転送タスクのスイートでより良い結果が得られることを確認しました。

Deep reinforcement learning (RL) agents may successfully generalize to new settings if trained on an appropriately diverse set of environment and task configurations. Unsupervised Environment Design (UED) is a promising self-supervised RL paradigm, wherein the free parameters of an underspecified environment are automatically adapted during training to the agent's capabilities, leading to the emergence of diverse training environments. Here, we cast Prioritized Level Replay (PLR), an empirically successful but theoretically unmotivated method that selectively samples randomly-generated training levels, as UED. We argue that by curating completely random levels, PLR, too, can generate novel and complex levels for effective training. This insight reveals a natural class of UED methods we call Dual Curriculum Design (DCD). Crucially, DCD includes both PLR and a popular UED algorithm, PAIRED, as special cases and inherits similar theoretical guarantees. This connection allows us to develop novel theory for PLR, providing a version with a robustness guarantee at Nash equilibria. Furthermore, our theory suggests a highly counterintuitive improvement to PLR: by stopping the agent from updating its policy on uncurated levels (training on less data), we can improve the convergence to Nash equilibria. Indeed, our experiments confirm that our new method, PLR$^{\perp}$, obtains better results on a suite of out-of-distribution, zero-shot transfer tasks, in addition to demonstrating that PLR$^{\perp}$ improves the performance of PAIRED, from which it inherited its theoretical framework.
翻訳日:2021-10-07 14:42:32 公開日:2021-10-06
# デュアルアスペクト協調変換器による経路問題の反復解法

Learning to Iteratively Solve Routing Problems with Dual-Aspect Collaborative Transformer ( http://arxiv.org/abs/2110.02544v1 )

ライセンス: Link先を確認
Yining Ma, Jingwen Li, Zhiguang Cao, Wen Song, Le Zhang, Zhenghua Chen, Jing Tang(参考訳) 近年,トランスフォーマーは車両ルーティング問題(VRP)の解法として広く普及している。 しかし、位置符号化(PE)法はVRPソリューションの表現に適さないため、VRPの改善モデルの学習にはあまり効果がない。 本稿では,ノードと位置特徴の埋め込みを個別に学習するDACT(Dual-Aspect Collaborative Transformer)を提案する。 さらに、新しいサイクリック位置符号化(cpe)法によって位置特徴を埋め込み、トランスフォーマーがvrp溶液(すなわちサイクリックシーケンス)の循環性と対称性を効果的に捉えることができる。 我々は、近似ポリシー最適化を用いてDACTを訓練し、より優れたサンプル効率のためのカリキュラム学習戦略を設計する。 本研究では,移動セールスマン問題 (TSP) と静電容量化車両ルーティング問題 (CVRP) の解決に DACT を適用した。 その結果、DACTは既存のTransformerベースの改善モデルよりも優れており、合成インスタンスとベンチマークインスタンスの異なる問題サイズで、より優れた一般化性能を示すことがわかった。

Recently, Transformer has become a prevailing deep architecture for solving vehicle routing problems (VRPs). However, it is less effective in learning improvement models for VRP because its positional encoding (PE) method is not suitable in representing VRP solutions. This paper presents a novel Dual-Aspect Collaborative Transformer (DACT) to learn embeddings for the node and positional features separately, instead of fusing them together as done in existing ones, so as to avoid potential noises and incompatible correlations. Moreover, the positional features are embedded through a novel cyclic positional encoding (CPE) method to allow Transformer to effectively capture the circularity and symmetry of VRP solutions (i.e., cyclic sequences). We train DACT using Proximal Policy Optimization and design a curriculum learning strategy for better sample efficiency. We apply DACT to solve the traveling salesman problem (TSP) and capacitated vehicle routing problem (CVRP). Results show that our DACT outperforms existing Transformer based improvement models, and exhibits much better generalization performance across different problem sizes on synthetic and benchmark instances, respectively.
翻訳日:2021-10-07 14:42:02 公開日:2021-10-06
# オーバーパラメトリゼーション状態における部分量子化ニューラルネットワークのVC次元

VC dimension of partially quantized neural networks in the overparametrized regime ( http://arxiv.org/abs/2110.02456v1 )

ライセンス: Link先を確認
Yutong Wang, Clayton D. Scott(参考訳) Vapnik-Chervonenkis(VC)理論は、過度にパラメータ化されたニューラルネットワークの小さな一般化誤差を説明することができなかった。 実際、VC理論の大規模ネットワークへの既存の応用は、重みの個数に比例するVC次元の上限を求めており、大規模なネットワークの場合、これらの上限は厳密であることが知られている。 本研究では,超平面配置ニューラルネットワーク (hyperplane arrangement neural networks, hanns) と呼ばれる,部分量子化ネットワークのクラスに注目した。 サンプル圧縮解析により, HANNは重み数よりもVC次元が有意に小さく, 表現性が高いことを示す。 特に、過パラメータ化状態におけるハン人に対する経験的リスク最小化は、リプシッツ後流確率による分類の最小化率を達成する。 さらに,HANNの表現性を実証的に示す。 121のuciデータセットのパネルでは、オーバーパラメータ化されたhannは最先端のフル精度モデルのパフォーマンスに匹敵する。

Vapnik-Chervonenkis (VC) theory has so far been unable to explain the small generalization error of overparametrized neural networks. Indeed, existing applications of VC theory to large networks obtain upper bounds on VC dimension that are proportional to the number of weights, and for a large class of networks, these upper bound are known to be tight. In this work, we focus on a class of partially quantized networks that we refer to as hyperplane arrangement neural networks (HANNs). Using a sample compression analysis, we show that HANNs can have VC dimension significantly smaller than the number of weights, while being highly expressive. In particular, empirical risk minimization over HANNs in the overparametrized regime achieves the minimax rate for classification with Lipschitz posterior class probability. We further demonstrate the expressivity of HANNs empirically. On a panel of 121 UCI datasets, overparametrized HANNs match the performance of state-of-the-art full-precision models.
翻訳日:2021-10-07 14:41:42 公開日:2021-10-06
# 特徴学習におけるコントラストの力 : 理論的分析

The Power of Contrast for Feature Learning: A Theoretical Analysis ( http://arxiv.org/abs/2110.02473v1 )

ライセンス: Link先を確認
Wenlong Ji, Zhun Deng, Ryumei Nakada, James Zou, Linjun Zhang(参考訳) コントラスト学習は、様々な自己教師付き学習タスクにおいて最先端のパフォーマンスを達成した。 経験的な成功にもかかわらず、なぜコントラスト学習が働くのかの理論的な理解はまだ限られている。 この論文では (i)従来の教師なし学習手法であるオートエンコーダは,特徴回復と下流作業の両方において,コントラスト学習が優れていることを示す。 (ii)教師付きコントラスト学習におけるラベル付きデータの役割についても述べる。 これにより、ラベルとの対比学習は、ドメイン内ダウンストリームタスクにおける学習表現のパフォーマンスを改善するが、転送学習のパフォーマンスに悪影響を及ぼすという最近の発見に対する理論的サポートを提供する。 我々は数値実験で理論を検証する。

Contrastive learning has achieved state-of-the-art performance in various self-supervised learning tasks and even outperforms its supervised counterpart. Despite its empirical success, theoretical understanding of why contrastive learning works is still limited. In this paper, (i) we provably show that contrastive learning outperforms autoencoder, a classical unsupervised learning method, for both feature recovery and downstream tasks; (ii) we also illustrate the role of labeled data in supervised contrastive learning. This provides theoretical support for recent findings that contrastive learning with labels improves the performance of learned representations in the in-domain downstream task, but it can harm the performance in transfer learning. We verify our theory with numerical experiments.
翻訳日:2021-10-07 14:41:28 公開日:2021-10-06
# グラフカーネルのための正規化Wassersteinフレームワーク

A Regularized Wasserstein Framework for Graph Kernels ( http://arxiv.org/abs/2110.02554v1 )

ライセンス: Link先を確認
Asiri Wijesinghe, Qing Wang, and Stephen Gould(参考訳) 本稿では,最適輸送の正規化に基づくグラフカーネルの学習フレームワークを提案する。 このフレームワークは、新しい最適輸送距離計量(Regularized Wasserstein (RW) 差分(英語版))を提供し、特徴とその局所的変動、局所的バリセンターおよびグローバル接続に関するワッサーシュタイン距離によるグラフの特徴と構造の両方を保存できる。 学習能力を向上させるために、2つの強い凸正規化項が導入される。 1つは、グラフ間の最適なアライメントを緩和し、それらの局所連結された頂点間のクラスタ間マッピングであり、グラフの局所的クラスタリング構造を維持することである。 もう1つは、グラフのグローバル構造をよりよく保存するためにノード次数分布を考慮することである。 また,最適化問題を高速に解くための効率的なアルゴリズムを考案した。 理論的には、このフレームワークはロバストであり、最適化における収束と数値安定性を保証できる。 我々は16の最先端ベースラインに対して12のデータセットを用いて実験的な検証を行った。 実験結果から,本手法は個々の属性を持つグラフと連続属性を持つグラフの両方に対して,すべてのベンチマークデータベース上で常に最先端の手法よりも優れていた。

We propose a learning framework for graph kernels, which is theoretically grounded on regularizing optimal transport. This framework provides a novel optimal transport distance metric, namely Regularized Wasserstein (RW) discrepancy, which can preserve both features and structure of graphs via Wasserstein distances on features and their local variations, local barycenters and global connectivity. Two strongly convex regularization terms are introduced to improve the learning ability. One is to relax an optimal alignment between graphs to be a cluster-to-cluster mapping between their locally connected vertices, thereby preserving the local clustering structure of graphs. The other is to take into account node degree distributions in order to better preserve the global structure of graphs. We also design an efficient algorithm to enable a fast approximation for solving the optimization problem. Theoretically, our framework is robust and can guarantee the convergence and numerical stability in optimization. We have empirically validated our method using 12 datasets against 16 state-of-the-art baselines. The experimental results show that our method consistently outperforms all state-of-the-art methods on all benchmark databases for both graphs with discrete attributes and graphs with continuous attributes.
翻訳日:2021-10-07 14:41:12 公開日:2021-10-06
# ラベルノイズモデリングと距離認識を用いたディープ分類器

Deep Classifiers with Label Noise Modeling and Distance Awareness ( http://arxiv.org/abs/2110.02609v1 )

ライセンス: Link先を確認
Vincent Fortuin, Mark Collier, Florian Wenzel, James Allingham, Jeremiah Liu, Dustin Tran, Balaji Lakshminarayanan, Jesse Berent, Rodolphe Jenatton, Effrosyni Kokiopoulou(参考訳) 深層学習における不確実性推定は、安全クリティカルなアプリケーションにおける信頼性と堅牢性を向上するための重要な関心領域として最近登場した。 分布外検出のための距離認識モデルの不確実性や、分布内キャリブレーションの入力依存ラベル不確実性に注目する手法が提案されているが、どちらの方法もしばしば必要である。 本研究では,モデルとデータの不確実性を共同でモデル化するHetSNGP法を提案する。 提案モデルでは,これら2つの相補的不確実性と,CIFAR-100C, Imagenet-C, Imagenet-Aなど,分散外分布データセットのベースライン手法に優れることを示す。 さらに,本手法のアンサンブルバージョンであるHetSNGP Ensembleを提案する。

Uncertainty estimation in deep learning has recently emerged as a crucial area of interest to advance reliability and robustness in safety-critical applications. While there have been many proposed methods that either focus on distance-aware model uncertainties for out-of-distribution detection or on input-dependent label uncertainties for in-distribution calibration, both of these types of uncertainty are often necessary. In this work, we propose the HetSNGP method for jointly modeling the model and data uncertainty. We show that our proposed model affords a favorable combination between these two complementary types of uncertainty and thus outperforms the baseline methods on some challenging out-of-distribution datasets, including CIFAR-100C, Imagenet-C, and Imagenet-A. Moreover, we propose HetSNGP Ensemble, an ensembled version of our method which adds an additional type of uncertainty and also outperforms other ensemble baselines.
翻訳日:2021-10-07 14:40:53 公開日:2021-10-06
# 帯域幅を有する確率帯域に対するチューニング信頼境界

Tuning Confidence Bound for Stochastic Bandits with Bandit Distance ( http://arxiv.org/abs/2110.02690v1 )

ライセンス: Link先を確認
Xinyu Zhang, Srinjoy Das, Ken Kreutz-Delgado(参考訳) 本稿では,確率的マルチアームバンディット(MAB)問題に対する標準アッパー信頼境界法(UCB)の新たな修正法を提案する。 UCB 距離チューニング (UCB-DT) の定式化により,MAB アルゴリズムが標準 UCB の欠如としてよく知られている最適帯域に注目することを防止することにより,期待される後悔度による性能の向上が可能となった。 標準のucbの「距離チューニング」は、我々がbandit distanceと呼ぶ、パラメータ化可能で、探索から搾取までの遷移速度を問題要件に基づいて制御するために最適化できる距離測定器を用いて行われる。 我々は,MAB問題に UCB の定式化を用いた既存手法と比較して, UCB-DT の性能向上を実証的に実証した。 我々の貢献には、探索と搾取の間のトレードオフに関する洞察を与える"exploration bargain point"と呼ばれる概念ツールの開発も含まれています。 探索バーゲンポイントは, UCB法の性能を相対的に解析するのに有用な直感的な視点を提供する。

We propose a novel modification of the standard upper confidence bound (UCB) method for the stochastic multi-armed bandit (MAB) problem which tunes the confidence bound of a given bandit based on its distance to others. Our UCB distance tuning (UCB-DT) formulation enables improved performance as measured by expected regret by preventing the MAB algorithm from focusing on non-optimal bandits which is a well-known deficiency of standard UCB. "Distance tuning" of the standard UCB is done using a proposed distance measure, which we call bandit distance, that is parameterizable and which therefore can be optimized to control the transition rate from exploration to exploitation based on problem requirements. We empirically demonstrate increased performance of UCB-DT versus many existing state-of-the-art methods which use the UCB formulation for the MAB problem. Our contribution also includes the development of a conceptual tool called the "Exploration Bargain Point" which gives insights into the tradeoffs between exploration and exploitation. We argue that the Exploration Bargain Point provides an intuitive perspective that is useful for comparatively analyzing the performance of UCB-based methods.
翻訳日:2021-10-07 14:40:34 公開日:2021-10-06
# 集約処理による回帰モデルにおける変数関数の推定

Variance function estimation in regression model via aggregation procedures ( http://arxiv.org/abs/2110.02715v1 )

ライセンス: Link先を確認
Ahmed Zaoui (LAMA)(参考訳) 回帰問題では,アグリゲーション法を用いて分散関数を推定する問題を考察する。 モデル選択アグリゲーション(ms)と凸アグリゲーション(c)という,2つの特定のアグリゲーション設定に注目した。 どちらの場合も、推定器の構築は2段階の手順に依存し、2つの独立したサンプルを必要とする。 最初のステップは、残差ベース法による分散関数の候補推定器を構築するために第1のサンプルを利用し、次に第2のデータセットを使用してアグリゲーションステップを実行する。 提案手法は,MSとCのアグリゲーションに対してL2エラーに対して整合性を示す。 この2つの手法の性能をヘテロシデスティックモデルで評価し,レジェクトオプションを用いた回帰問題に対する関心を示す。

In the regression problem, we consider the problem of estimating the variance function by the means of aggregation methods. We focus on two particular aggregation setting: Model Selection aggregation (MS) and Convex aggregation (C) where the goal is to select the best candidate and to build the best convex combination of candidates respectively among a collection of candidates. In both cases, the construction of the estimator relies on a two-step procedure and requires two independent samples. The first step exploits the first sample to build the candidate estimators for the variance function by the residual-based method and then the second dataset is used to perform the aggregation step. We show the consistency of the proposed method with respect to the L 2error both for MS and C aggregations. We evaluate the performance of these two methods in the heteroscedastic model and illustrate their interest in the regression problem with reject option.
翻訳日:2021-10-07 14:40:13 公開日:2021-10-06
# グラフに基づくネットワークのクラスタリングとテスト:アルゴリズムと理論

Graphon based Clustering and Testing of Networks: Algorithms and Theory ( http://arxiv.org/abs/2110.02722v1 )

ライセンス: Link先を確認
Mahalakshmi Sabanayagam, Leena Chennuru Vankadara, Debarghya Ghoshdastidar(参考訳) ネットワーク評価データはその複雑な構造と頂点対応の欠如により,幅広い応用に遭遇し,学習上の課題を提起する。 このような問題の典型例としては、タンパク質構造とソーシャルネットワークの分類やグループ化がある。 グラフカーネルからグラフニューラルネットワークまで、さまざまな手法が提案され、グラフ分類問題にある程度の成功を収めている。 しかし、ほとんどの手法は理論的な正当性が限られており、分類以外の適用性は未調査のままである。 本研究では,グラフの無限頂点極限に対応する対称関数であるグラフトンの推定に関する最近の文献から着想を得た,頂点対応のない複数グラフのクラスタリング手法を提案する。 グラフのソート・アンド・スムース化に基づく新しいグラフ距離を提案する。 提案するグラフ距離を用いて,2つのクラスタリングアルゴリズムを示し,最新の結果が得られることを示す。 グラフ次数上のリプシッツ仮定の下で、両方のアルゴリズムの統計的一貫性を証明する。 グラフ2サンプルテスト問題に対する提案した距離の適用性についても検討する。

Network-valued data are encountered in a wide range of applications and pose challenges in learning due to their complex structure and absence of vertex correspondence. Typical examples of such problems include classification or grouping of protein structures and social networks. Various methods, ranging from graph kernels to graph neural networks, have been proposed that achieve some success in graph classification problems. However, most methods have limited theoretical justification, and their applicability beyond classification remains unexplored. In this work, we propose methods for clustering multiple graphs, without vertex correspondence, that are inspired by the recent literature on estimating graphons -- symmetric functions corresponding to infinite vertex limit of graphs. We propose a novel graph distance based on sorting-and-smoothing graphon estimators. Using the proposed graph distance, we present two clustering algorithms and show that they achieve state-of-the-art results. We prove the statistical consistency of both algorithms under Lipschitz assumptions on the graph degrees. We further study the applicability of the proposed distance for graph two-sample testing problems.
翻訳日:2021-10-07 14:39:56 公開日:2021-10-06
# リニアおよびReLUネットワークにおけるマージン最大化について

On Margin Maximization in Linear and ReLU Networks ( http://arxiv.org/abs/2110.02732v1 )

ライセンス: Link先を確認
Gal Vardi, Ohad Shamir, Nathan Srebro(参考訳) ニューラルネットワークの暗黙のバイアスは近年広く研究されている。 Lyu and Li [2019] は指数的あるいはロジスティックな損失で訓練された同質ネットワークにおいて、勾配流はパラメータ空間の最大辺問題のKKT点に収束することを示した。 しかし、この点が一般に最大マージン問題の実際の最適であるかどうかという疑問が残る。 本稿では,線形およびReLU活性化を含むニューラルネットワークアーキテクチャについて,この問題を詳細に検討する。 意外なことに、多くの場合、KKT点は最大マージン問題の局所的な最適値ではない。 逆に、ローカルまたはグローバルに最適な設定が保証できる複数の設定を識別します。 最後に,Lyu と Li [2019] で提起された質問に対して,非同次ネットワークの場合,正規化マージンは時間とともに厳密に減少することを示した。

The implicit bias of neural networks has been extensively studied in recent years. Lyu and Li [2019] showed that in homogeneous networks trained with the exponential or the logistic loss, gradient flow converges to a KKT point of the max margin problem in the parameter space. However, that leaves open the question of whether this point will generally be an actual optimum of the max margin problem. In this paper, we study this question in detail, for several neural network architectures involving linear and ReLU activations. Perhaps surprisingly, we show that in many cases, the KKT point is not even a local optimum of the max margin problem. On the flip side, we identify multiple settings where a local or global optimum can be guaranteed. Finally, we answer a question posed in Lyu and Li [2019] by showing that for non-homogeneous networks, the normalized margin may strictly decrease over time.
翻訳日:2021-10-07 14:39:42 公開日:2021-10-06
# 神経崩壊の非拘束層論的展望

An Unconstrained Layer-Peeled Perspective on Neural Collapse ( http://arxiv.org/abs/2110.02796v1 )

ライセンス: Link先を確認
Wenlong Ji, Yiping Lu, Yiliang Zhang, Zhun Deng, Weijie J. Su(参考訳) 神経崩壊(neural collapse)は、トレーニングの終盤に出現する高度に対称なニューラルネットワークの幾何学的パターンであり、トレーニングされたネットワークの一般化性能と堅牢性に大きな影響を与える。 本稿では、最近発見された暗黙のバイアスを示す最終層の特徴と分類器を理解するために、非拘束層ペアモデル(ULPM)と呼ばれる代理モデルを導入する。 このモデル上の勾配流は、大域的最小値において神経崩壊を示す最小ノルム分離問題の臨界点に収束する。 さらに, 交差エントロピー損失を持つULPMは, 損失関数の良質なグローバルな景観を有しており, 神経崩壊現象を示す大域最小化器を除いて, 全ての臨界点が厳密なサドル点であることを証明することができる。 実世界のタスクにおけるニューラルネットワークのトレーニングにおいて、明示的な正規化や重み劣化が使用されない場合にも、実験結果が有効であることを示す。

Neural collapse is a highly symmetric geometric pattern of neural networks that emerges during the terminal phase of training, with profound implications on the generalization performance and robustness of the trained networks. To understand how the last-layer features and classifiers exhibit this recently discovered implicit bias, in this paper, we introduce a surrogate model called the unconstrained layer-peeled model (ULPM). We prove that gradient flow on this model converges to critical points of a minimum-norm separation problem exhibiting neural collapse in its global minimizer. Moreover, we show that the ULPM with the cross-entropy loss has a benign global landscape for its loss function, which allows us to prove that all the critical points are strict saddle points except the global minimizers that exhibit the neural collapse phenomenon. Empirically, we show that our results also hold during the training of neural networks in real-world tasks when explicit regularization or weight decay is not used.
翻訳日:2021-10-07 14:39:27 公開日:2021-10-06
# 等価部分グラフ集約ネットワーク

Equivariant Subgraph Aggregation Networks ( http://arxiv.org/abs/2110.02910v1 )

ライセンス: Link先を確認
Beatrice Bevilacqua, Fabrizio Frasca, Derek Lim, Balasubramaniam Srinivasan, Chen Cai, Gopinath Balamurugan, Michael M. Bronstein, Haggai Maron(参考訳) メッセージパッシングニューラルネットワーク(MPNN)は、グラフ構造化データの深層学習における主要なアーキテクチャである。 残念ながら、これらのアーキテクチャは表現力に制限があることが示されている。 本稿では,この問題に対処するためのEquivariant Subgraph Aggregation Networks (ESAN) という新しいフレームワークを提案する。 主な観察では、2つのグラフはMPNNでは区別できないかもしれないが、しばしば区別可能な部分グラフを含んでいる。 そこで,各グラフを,事前定義された方針によって導出される部分グラフの集合として表現し,適切な同変アーキテクチャを用いて処理することを提案する。 グラフ同型に対する1次元Weisfeiler-Leman (1-WL)テストの新しい変種を開発し、これらの新しいWL変種の観点からESANの表現性に関する下限を証明した。 提案手法はMPNNとより表現力のあるアーキテクチャの両方の表現力を高める。 さらに、サブグラフ選択ポリシーや同変ニューラルアーキテクチャといった設計選択がアーキテクチャの表現力にどのように影響するかを記述する理論的結果を提供する。 計算コストの増大に対応するため,本フレームワークの確率的バージョンとみなすサブグラフサンプリング方式を提案する。 実および合成データセットに関する包括的な実験により、我々のフレームワークは一般的なGNNアーキテクチャの表現力と全体的な性能を改善していることを示す。

Message-passing neural networks (MPNNs) are the leading architecture for deep learning on graph-structured data, in large part due to their simplicity and scalability. Unfortunately, it was shown that these architectures are limited in their expressive power. This paper proposes a novel framework called Equivariant Subgraph Aggregation Networks (ESAN) to address this issue. Our main observation is that while two graphs may not be distinguishable by an MPNN, they often contain distinguishable subgraphs. Thus, we propose to represent each graph as a set of subgraphs derived by some predefined policy, and to process it using a suitable equivariant architecture. We develop novel variants of the 1-dimensional Weisfeiler-Leman (1-WL) test for graph isomorphism, and prove lower bounds on the expressiveness of ESAN in terms of these new WL variants. We further prove that our approach increases the expressive power of both MPNNs and more expressive architectures. Moreover, we provide theoretical results that describe how design choices such as the subgraph selection policy and equivariant neural architecture affect our architecture's expressive power. To deal with the increased computational cost, we propose a subgraph sampling scheme, which can be viewed as a stochastic version of our framework. A comprehensive set of experiments on real and synthetic datasets demonstrates that our framework improves the expressive power and overall performance of popular GNN architectures.
翻訳日:2021-10-07 14:39:09 公開日:2021-10-06
# 探査の残留オーバーフィット法

Residual Overfit Method of Exploration ( http://arxiv.org/abs/2110.02919v1 )

ライセンス: Link先を確認
James McInerney, Nathan Kallus(参考訳) 探索は、バンディットと強化学習アルゴリズムの重要な側面である。 探索に必要な不確かさの定量化は、しばしば単純なモデルに基づく閉形式式か、計算集約的な後方近似によるものである。 代わりに,2点推定と1点調整と1点オーバーフィットのみに基づく近似探索手法を提案する。 この手法は、残留過適合探索法(ROME)と呼ばれ、過適合モデルが調整されたモデルと比較して最も過適合を示す行動に向けて探索を進める。 直感的には、オーバーフィッティングは、報酬の正確な予測を形成するのに不十分なデータを持つ行動や文脈において最も多く発生する。 我々はこの直観を、頻度主義とベイズ情報理論の両方の観点から正式に正当化する。 結果は、様々なモデルに一般化し、再サンプリングや後続近似の計算オーバーヘッドを回避する方法である。 ROMEを3つのデータセット上の確立されたコンテキスト的帯域幅法と比較し、最も優れたパフォーマンスの1つとみなす。

Exploration is a crucial aspect of bandit and reinforcement learning algorithms. The uncertainty quantification necessary for exploration often comes from either closed-form expressions based on simple models or resampling and posterior approximations that are computationally intensive. We propose instead an approximate exploration methodology based on fitting only two point estimates, one tuned and one overfit. The approach, which we term the residual overfit method of exploration (ROME), drives exploration towards actions where the overfit model exhibits the most overfitting compared to the tuned model. The intuition is that overfitting occurs the most at actions and contexts with insufficient data to form accurate predictions of the reward. We justify this intuition formally from both a frequentist and a Bayesian information theoretic perspective. The result is a method that generalizes to a wide variety of models and avoids the computational overhead of resampling or posterior approximations. We compare ROME against a set of established contextual bandit methods on three datasets and find it to be one of the best performing.
翻訳日:2021-10-07 14:38:45 公開日:2021-10-06
# データツイニング

Data Twinning ( http://arxiv.org/abs/2110.02927v1 )

ライセンス: Link先を確認
Akhil Vakayil and V. Roshan Joseph(参考訳) 本研究では,データセットを統計的に類似した双対集合に分割するTwinningという手法を開発した。 Twinningは、データセットをトレーニングとテストセットに最適に分割する、最近提案されたモデルに依存しないSPlitに基づいている。 ツインニングはSPlitアルゴリズムよりも桁違いに高速で、データ圧縮などのビッグデータ問題に適用できる。 twinningは、分割と分割の手順と$k$-foldのクロス検証を支援するために、所定のデータセットの複数の分割を生成するためにも使用できる。

In this work, we develop a method named Twinning, for partitioning a dataset into statistically similar twin sets. Twinning is based on SPlit, a recently proposed model-independent method for optimally splitting a dataset into training and testing sets. Twinning is orders of magnitude faster than the SPlit algorithm, which makes it applicable to Big Data problems such as data compression. Twinning can also be used for generating multiple splits of a given dataset to aid divide-and-conquer procedures and $k$-fold cross validation.
翻訳日:2021-10-07 14:38:27 公開日:2021-10-06
# 不均衡視覚分類における影響均衡損失

Influence-Balanced Loss for Imbalanced Visual Classification ( http://arxiv.org/abs/2110.02444v1 )

ライセンス: Link先を確認
Seulki Park, Jongin Lim, Younghan Jeon, Jin Young Choi(参考訳) 本稿では,不均衡なデータ学習における問題に対処するためのバランストレーニング手法を提案する。 この目的のために,過度に適合した決定境界の原因となるサンプルの影響を軽減する,バランストレーニングフェーズで使用される新たな損失を導出する。 提案した損失は,任意の不均衡学習手法の性能を効率よく向上させる。 複数のベンチマークデータセットの実験において,提案手法の有効性を実証し,提案手法の損失が最先端のコスト感受性損失法より優れていることを示す。 さらに、我々の損失は特定のタスク、モデル、訓練方法に限定されていないため、クラス不均衡問題に対する他の最近の再サンプリング、メタラーニング、コスト感受性学習手法と組み合わせて容易に利用できる。

In this paper, we propose a balancing training method to address problems in imbalanced data learning. To this end, we derive a new loss used in the balancing training phase that alleviates the influence of samples that cause an overfitted decision boundary. The proposed loss efficiently improves the performance of any type of imbalance learning methods. In experiments on multiple benchmark data sets, we demonstrate the validity of our method and reveal that the proposed loss outperforms the state-of-the-art cost-sensitive loss methods. Furthermore, since our loss is not restricted to a specific task, model, or training method, it can be easily used in combination with other recent re-sampling, meta-learning, and cost-sensitive learning methods for class-imbalance problems.
翻訳日:2021-10-07 14:37:59 公開日:2021-10-06
# クロスドメインオブジェクト検出のためのデカップリング適応

Decoupled Adaptation for Cross-Domain Object Detection ( http://arxiv.org/abs/2110.02578v1 )

ライセンス: Link先を確認
Junguang Jiang, Baixu Chen, Jianmin Wang, Mingsheng Long(参考訳) 複数のオブジェクトが画像に存在し、各オブジェクトの位置がラベルなしのターゲットドメインで不明であるため、クロスドメインオブジェクト検出はオブジェクト分類よりも難しい。 その結果、検出器の移動性を高めるために異なる物体の特徴を適応させると、前景と背景の特徴は容易に混同され、検出器の識別性が損なわれる可能性がある。 さらに、以前の手法はカテゴリ適応にフォーカスしていたが、オブジェクト検出における他の重要な部分、すなわち境界ボックス回帰への適応を無視していた。 そこで本研究では,D-アダプティブ,すなわちデカップリング適応を提案し,対向適応と検出器の訓練を分離する。 さらに、バウンディングボックスアダプタを導入することで、オブジェクト検出における回帰領域適応の空白を埋める。 実験の結果、D-adaptは4つのクロスドメインオブジェクト検出タスクで最先端の結果を達成し、特にベンチマークデータセットであるClipart1kとComic2kで17%と21%の相対的な改善が得られた。

Cross-domain object detection is more challenging than object classification since multiple objects exist in an image and the location of each object is unknown in the unlabeled target domain. As a result, when we adapt features of different objects to enhance the transferability of the detector, the features of the foreground and the background are easy to be confused, which may hurt the discriminability of the detector. Besides, previous methods focused on category adaptation but ignored another important part for object detection, i.e., the adaptation on bounding box regression. To this end, we propose D-adapt, namely Decoupled Adaptation, to decouple the adversarial adaptation and the training of the detector. Besides, we fill the blank of regression domain adaptation in object detection by introducing a bounding box adaptor. Experiments show that D-adapt achieves state-of-the-art results on four cross-domain object detection tasks and yields 17% and 21% relative improvement on benchmark datasets Clipart1k and Comic2k in particular.
翻訳日:2021-10-07 14:37:47 公開日:2021-10-06
# FADNet++: 構成可能なネットワークによるリアルタイムかつ正確な分散推定

FADNet++: Real-Time and Accurate Disparity Estimation with Configurable Networks ( http://arxiv.org/abs/2110.02582v1 )

ライセンス: Link先を確認
Qiang Wang, Shaohuai Shi, Shizhen Zheng, Kaiyong Zhao, Xiaowen Chu(参考訳) ディープニューラルネットワーク(DNN)はコンピュータビジョンの分野で大きな成功を収めている。 差分推定問題は、従来の手作りの特徴に基づく手法よりもはるかに優れた予測精度を実現するDNNによって解決される傾向にある。 しかし、既存のDNNは効率的な計算能力とリッチな表現能力の両方をほとんど提供しないため、特にモバイルデバイスにおいて、リアルタイムおよび高品質なアプリケーションへのデプロイが困難になる。 そこで本研究では,FADNet++という分散度推定のための,効率的で正確かつ構成可能なディープネットワークを提案する。 FADNet++は、いくつかのリベラルなネットワーク設計とトレーニング技術を活用し、リアルタイムアプリケーションのための高速なモデル推論速度で精度を高めることができる。 さらに、精度と推論効率のバランスをとるために、モデルのさまざまなサイズを簡単に設定できる。 我々は、サーバからモバイルプラットフォームまで異なる6つのGPUデバイス間の合成および現実的なデータセットにおけるFADNet++の有効性を実証するための広範な実験を行った。 実験の結果,FADNet++とその変種は最先端の予測精度を達成し,既存の3Dモデルよりもはるかに高速に動作していることがわかった。 モバイルGPU上で毎秒15フレーム以上(FPS)実行するという制約により、FADNet++はSceneFlowデータセットの新たな最先端結果を達成する。

Deep neural networks (DNNs) have achieved great success in the area of computer vision. The disparity estimation problem tends to be addressed by DNNs which achieve much better prediction accuracy than traditional hand-crafted feature-based methods. However, the existing DNNs hardly serve both efficient computation and rich expression capability, which makes them difficult for deployment in real-time and high-quality applications, especially on mobile devices. To this end, we propose an efficient, accurate, and configurable deep network for disparity estimation named FADNet++. Leveraging several liberal network design and training techniques, FADNet++ can boost its accuracy with a fast model inference speed for real-time applications. Besides, it enables users to easily configure different sizes of models for balancing accuracy and inference efficiency. We conduct extensive experiments to demonstrate the effectiveness of FADNet++ on both synthetic and realistic datasets among six GPU devices varying from server to mobile platforms. Experimental results show that FADNet++ and its variants achieve state-of-the-art prediction accuracy, and run at a significant order of magnitude faster speed than existing 3D models. With the constraint of running at above 15 frames per second (FPS) on a mobile GPU, FADNet++ achieves a new state-of-the-art result for the SceneFlow dataset.
翻訳日:2021-10-07 14:37:28 公開日:2021-10-06
# 共通財に着目して:群分布ロバストネスの追跡

Focus on the Common Good: Group Distributional Robustness Follows ( http://arxiv.org/abs/2110.02619v1 )

ライセンス: Link先を確認
Vihari Piratla, Praneeth Netrapalli, Sunita Sarawagi(参考訳) グループアノテート学習データを用いた分類モデルの訓練の問題点を考察する。 最近の研究は、異なるグループに分散シフトがある場合、標準的経験的リスク最小化(ERM)目標を用いて訓練されたモデルが少数グループにおけるパフォーマンスの低下に悩まされ、グループ分布的に堅牢な最適化(Group-DRO)目標がより良い選択肢であることを示す。 本論文の出発点は,一部のベンチマークデータセットにおいて,グループDROはマイノリティグループにおいてERMよりも優れているが,ERMよりもはるかに悪いパフォーマンスを示すデータセットがいくつか存在する点である。 ドメインの一般化という密接な問題から着想を得た本論文は,様々なグループ間で共有される特徴の学習を明示的に奨励する,新しいシンプルなアルゴリズムを提案する。 提案アルゴリズムの背景にある重要な洞察は,グループDROが最悪の正規化損失を持つグループに焦点をあてる一方で,グループDROが達成した範囲を超えて,グループDROが共有/共通機能を学ぶことにつながる可能性があるということだ。 実験により,提案アルゴリズムは, 少数グループおよび全グループを対象とした標準ベンチマークにおいて, ERM や Group-DRO を含む同時代の強力なベースラインと比較して, より優れた性能が得られることを示す。 理論的には,提案アルゴリズムは降下法であり,滑らかな非凸関数の1次定常点を求める。

We consider the problem of training a classification model with group annotated training data. Recent work has established that, if there is distribution shift across different groups, models trained using the standard empirical risk minimization (ERM) objective suffer from poor performance on minority groups and that group distributionally robust optimization (Group-DRO) objective is a better alternative. The starting point of this paper is the observation that though Group-DRO performs better than ERM on minority groups for some benchmark datasets, there are several other datasets where it performs much worse than ERM. Inspired by ideas from the closely related problem of domain generalization, this paper proposes a new and simple algorithm that explicitly encourages learning of features that are shared across various groups. The key insight behind our proposed algorithm is that while Group-DRO focuses on groups with worst regularized loss, focusing instead, on groups that enable better performance even on other groups, could lead to learning of shared/common features, thereby enhancing minority performance beyond what is achieved by Group-DRO. Empirically, we show that our proposed algorithm matches or achieves better performance compared to strong contemporary baselines including ERM and Group-DRO on standard benchmarks on both minority groups and across all groups. Theoretically, we show that the proposed algorithm is a descent method and finds first order stationary points of smooth nonconvex functions.
翻訳日:2021-10-07 14:37:07 公開日:2021-10-06
# paradis:並列分散可能なスリム化可能なニューラルネットワーク

ParaDiS: Parallelly Distributable Slimmable Neural Networks ( http://arxiv.org/abs/2110.02724v1 )

ライセンス: Link先を確認
Alexey Ozerov, Anne Lambert, Suresh Kirthi Kumaraswamy(参考訳) いくつかの限られた電力デバイスが利用可能である場合、処理遅延と通信負荷を低減しつつ、これらのリソースの利益を得る最も効率的な方法の1つは、複数のニューラルネットワークで並行して実行し、処理の最後に結果を融合させることである。 しかしながら、このようなサブネットワークの組み合わせは、異なるモデルデプロイメントや同じデプロイメント内でも異なるデバイス(デバイスの数とその能力によって特徴付けられる)の特定の構成ごとに、特別にトレーニングされなければならない。 本研究では,様々なデバイス構成に並列に分割可能な並列分散スリムブルニューラルネットワーク(ParaDiS)を提案する。 1つのデバイスで即座にリソースに適応できるスリムなネットワークにインスパイアされたが、paradisネットワークは複数のマルチデバイス配布可能な構成またはそれらの間のパラメータを強く共有するスイッチで構成されている。 我々は,MobileNet v1 上の ParaDiS フレームワークと ImageNet 分類タスク上の ResNet-50 アーキテクチャを評価した。 パラディススイッチは個々のモデル、すなわち、個別に訓練された同じ構造の分散モデルと同等または優れた精度が得られることを示す。 さらに, 分散性のないネットワークと比較して, 分配可能なParaDiSスイッチの精度が低下しないか, 最悪の場合のみ最大で1%低下することを示す。

When several limited power devices are available, one of the most efficient ways to make profit of these resources, while reducing the processing latency and communication load, is to run in parallel several neural sub-networks and to fuse the result at the end of processing. However, such a combination of sub-networks must be trained specifically for each particular configuration of devices (characterized by number of devices and their capacities) which may vary over different model deployments and even within the same deployment. In this work we introduce parallelly distributable slimmable (ParaDiS) neural networks that are splittable in parallel among various device configurations without retraining. While inspired by slimmable networks allowing instant adaptation to resources on just one device, ParaDiS networks consist of several multi-device distributable configurations or switches that strongly share the parameters between them. We evaluate ParaDiS framework on MobileNet v1 and ResNet-50 architectures on ImageNet classification task. We show that ParaDiS switches achieve similar or better accuracy than the individual models, i.e., distributed models of the same structure trained individually. Moreover, we show that, as compared to universally slimmable networks that are not distributable, the accuracy of distributable ParaDiS switches either does not drop at all or drops by a maximum of 1 % only in the worst cases.
翻訳日:2021-10-07 14:36:42 公開日:2021-10-06
# カプセルネットワークをクラウドからディープエッジに移行する

Shifting Capsule Networks from the Cloud to the Deep Edge ( http://arxiv.org/abs/2110.02911v1 )

ライセンス: Link先を確認
Miguel Costa, Diogo Costa, Tiago Gomes, Sandro Pinto(参考訳) カプセルネットワーク(capsnets)は画像処理の新たなトレンドである。 畳み込みニューラルネットワークとは対照的に、CapsNetはオブジェクトの相対空間情報がネットワーク全体に保存されるため、オブジェクトの変形に対して脆弱ではない。 しかし、その複雑さは主にカプセル構造と動的ルーティング機構に関係しており、小さなマイクロコントローラ(MCU)を動力とするリソース制約されたデバイスにCapsNetを元の形式で展開することはほとんど不可能である。 知性がクラウドからエッジへと急速にシフトしている今、この高い複雑性は、最先端のcapsnetsの採用に深刻な課題を課している。 この問題に対処するため,Cortex-MおよびRISC-V MCUにおける量子化CapsNetの実行APIを提案する。 ソフトウェアカーネルはArm CMSIS-NNとRISC-V PULP-NNを拡張し、8ビット整数をオペランドとしてカプセル操作をサポートする。 また,CapsNetのポストトレーニング量子化を行うためのフレームワークを提案する。 その結果、メモリフットプリントは75%近く減少し、最大精度の損失は1%であった。 スループットに関しては、Arm Cortex-M用のソフトウェアカーネルは、NVIDIA GTX 980 Tiグラフィックカード上で動作するプリ量子化CapsNetよりも少なくとも5.70倍高速です。 risc-vでは、全利得はそれぞれ26.28xと56.91xに増大する。

Capsule networks (CapsNets) are an emerging trend in image processing. In contrast to a convolutional neural network, CapsNets are not vulnerable to object deformation, as the relative spatial information of the objects is preserved across the network. However, their complexity is mainly related with the capsule structure and the dynamic routing mechanism, which makes it almost unreasonable to deploy a CapsNet, in its original form, in a resource-constrained device powered by a small microcontroller (MCU). In an era where intelligence is rapidly shifting from the cloud to the edge, this high complexity imposes serious challenges to the adoption of CapsNets at the very edge. To tackle this issue, we present an API for the execution of quantized CapsNets in Cortex-M and RISC-V MCUs. Our software kernels extend the Arm CMSIS-NN and RISC-V PULP-NN, to support capsule operations with 8-bit integers as operands. Along with it, we propose a framework to perform post training quantization of a CapsNet. Results show a reduction in memory footprint of almost 75%, with a maximum accuracy loss of 1%. In terms of throughput, our software kernels for the Arm Cortex-M are, at least, 5.70x faster than a pre-quantized CapsNet running on an NVIDIA GTX 980 Ti graphics card. For RISC-V, the throughout gain increases to 26.28x and 56.91x for a single- and octa-core configuration, respectively.
翻訳日:2021-10-07 14:36:19 公開日:2021-10-06
# エキスパート・レイマンテキストスタイル転送のための自己教師付き知識同化

Self-Supervised Knowledge Assimilation for Expert-Layman Text Style Transfer ( http://arxiv.org/abs/2110.02950v1 )

ライセンス: Link先を確認
Wenda Xu, Michael Saxon, Misha Sra, William Yang Wang(参考訳) エキスパートラマンテキストスタイル転送技術は、科学コミュニティのメンバーと一般大衆とのコミュニケーションを改善する可能性がある。 専門家が生み出す高品質な情報は、しばしば難解なジャーゴンの在職者が理解に苦しむ。 これは医療分野において特に顕著な問題であり、レイマンはしばしばオンラインの医療テキストに混同される。 現在、2つのボトルネックが、高品質な医療専門家-レーマンスタイルのトランスファーシステムを構築するという目標に妨げられている: 専門家とレイマンの用語にまたがる事前訓練済みの医療ドメイン言語モデルと、トランスファータスク自体をトレーニングするための並列コーパスの欠如である。 第1の課題を軽減すべく,知識ベース同化という新しい言語モデル(lm)を考案し,自己教師付き学習中に,専門家・在職者型の医療用語のグラフの縁から事前学習データをlmに合成する。 第2の課題を緩和するために,マージンに基づく基準を用いて医用エキスパート・レイマン領域に大規模並列コーパスを構築する。 実験の結果,トランスフォーマーをベースとしたモデルが知識ベース同化やその他の並列コーパスを微調整することで,専門家・レイマン移動ベンチマークに対する大幅な改善が得られ,人間評価の相対的改善である総合成功率(OSR)が106%向上した。

Expert-layman text style transfer technologies have the potential to improve communication between members of scientific communities and the general public. High-quality information produced by experts is often filled with difficult jargon laypeople struggle to understand. This is a particularly notable issue in the medical domain, where layman are often confused by medical text online. At present, two bottlenecks interfere with the goal of building high-quality medical expert-layman style transfer systems: a dearth of pretrained medical-domain language models spanning both expert and layman terminologies and a lack of parallel corpora for training the transfer task itself. To mitigate the first issue, we propose a novel language model (LM) pretraining task, Knowledge Base Assimilation, to synthesize pretraining data from the edges of a graph of expert- and layman-style medical terminology terms into an LM during self-supervised learning. To mitigate the second issue, we build a large-scale parallel corpus in the medical expert-layman domain using a margin-based criterion. Our experiments show that transformer-based models pretrained on knowledge base assimilation and other well-established pretraining tasks fine-tuning on our new parallel corpus leads to considerable improvement against expert-layman transfer benchmarks, gaining an average relative improvement of our human evaluation, the Overall Success Rate (OSR), by 106%.
翻訳日:2021-10-07 14:35:38 公開日:2021-10-06
# T-SNEはデータのクラスタの探索に最適化されていない

T-SNE Is Not Optimized to Reveal Clusters in Data ( http://arxiv.org/abs/2110.02573v1 )

ライセンス: Link先を確認
Zhirong Yang, Yuwei Chen, Jukka Corander(参考訳) データ解析ツールとしての非線形次元低減には,クラスタ可視化が不可欠である。 学生 t-Distributed Stochastic Neighbor Embedding (t-SNE) は、より優れた品質に対応するより小さなKullback-Leiblerの分散によって、クラスタをクラスタ可能なデータに表示できるとよく信じられている。 この性質の保証には理論的な証拠さえあった。 しかし、t-sneはデータに強い信号が存在するにもかかわらず、クラスタリングパターンを隠している可能性がある。 我々の主張を支持する大規模な実証証拠が提供される。 まず、実世界の反例をいくつか提示し、入力近傍が十分にクラスタリング可能である場合でもt-SNEは失敗する。 t-SNEでのハイパーパラメータのチューニングや最適化アルゴリズムの改善は、より優れたt-SNE学習目標がより悪いクラスタ埋め込みに対応できるため、この問題を解決できない。 次に,t-sneのクラスタリング保証の仮定を確認し,実世界のデータセットにしばしば違反していることを確認した。

Cluster visualization is an essential task for nonlinear dimensionality reduction as a data analysis tool. It is often believed that Student t-Distributed Stochastic Neighbor Embedding (t-SNE) can show clusters for well clusterable data, with a smaller Kullback-Leibler divergence corresponding to a better quality. There was even theoretical proof for the guarantee of this property. However, we point out that this is not necessarily the case -- t-SNE may leave clustering patterns hidden despite strong signals present in the data. Extensive empirical evidence is provided to support our claim. First, several real-world counter-examples are presented, where t-SNE fails even if the input neighborhoods are well clusterable. Tuning hyperparameters in t-SNE or using better optimization algorithms does not help solve this issue because a better t-SNE learning objective can correspond to a worse cluster embedding. Second, we check the assumptions in the clustering guarantee of t-SNE and find they are often violated for real-world data sets.
翻訳日:2021-10-07 14:33:25 公開日:2021-10-06
# グラフニューラルネットワークに対する推論攻撃

Inference Attacks Against Graph Neural Networks ( http://arxiv.org/abs/2110.02631v1 )

ライセンス: Link先を確認
Zhikun Zhang and Min Chen and Michael Backes and Yun Shen and Yang Zhang(参考訳) グラフは、現実世界に存在する重要なデータ表現である。 しかし,グラフデータの解析は非ユークリッド的な性質から計算が困難である。 グラフ埋め込みはグラフデータを低次元ベクトルに変換することによってグラフ解析問題を解決する強力なツールである。 これらのベクトルはサードパーティと共有して、データの背後にあるものに関するさらなる洞察を得ることもできる。 グラフ埋め込みの共有は興味深いが、関連するプライバシーリスクは未調査だ。 本稿では,3つの推論攻撃を組み込むことで,グラフ埋め込みの情報漏洩を体系的に検討する。 まず,対象グラフのノード数,エッジ数,グラフ密度などの基本的なグラフ特性を最大 0.89 の精度で推定することに成功した。 第二に、興味グラフとグラフの埋め込みが与えられた場合、そのグラフが対象グラフに含まれるかどうかを高い信頼で決定できる。 例えば、DDデータセット上で0.98の攻撃AUCを達成する。 第3に,ターゲットグラフと類似のグラフ構造統計量を持つグラフを再構成できる新しいグラフ再構成攻撃を提案する。 さらに,グラフ分類タスクの性能劣化を伴わない推論攻撃を軽減するために,グラフ埋め込み摂動に基づく効果的な防御機構を提案する。 私たちのコードはhttps://github.com/Zhangzhk0819/GNN-Embedding-Leaksで公開されています。

Graph is an important data representation ubiquitously existing in the real world. However, analyzing the graph data is computationally difficult due to its non-Euclidean nature. Graph embedding is a powerful tool to solve the graph analytics problem by transforming the graph data into low-dimensional vectors. These vectors could also be shared with third parties to gain additional insights of what is behind the data. While sharing graph embedding is intriguing, the associated privacy risks are unexplored. In this paper, we systematically investigate the information leakage of the graph embedding by mounting three inference attacks. First, we can successfully infer basic graph properties, such as the number of nodes, the number of edges, and graph density, of the target graph with up to 0.89 accuracy. Second, given a subgraph of interest and the graph embedding, we can determine with high confidence that whether the subgraph is contained in the target graph. For instance, we achieve 0.98 attack AUC on the DD dataset. Third, we propose a novel graph reconstruction attack that can reconstruct a graph that has similar graph structural statistics to the target graph. We further propose an effective defense mechanism based on graph embedding perturbation to mitigate the inference attacks without noticeable performance degradation for graph classification tasks. Our code is available at https://github.com/Zhangzhk0819/GNN-Embedding-Leaks.
翻訳日:2021-10-07 14:33:06 公開日:2021-10-06
# 歩行集約型グラフニューラルネットワークの解析

An Analysis of Attentive Walk-Aggregating Graph Neural Networks ( http://arxiv.org/abs/2110.02667v1 )

ライセンス: Link先を確認
Mehmet F. Demirel, Shengchao Liu, Siddhant Garg, Yingyu Liang(参考訳) グラフニューラルネットワーク(GNN)は、強力な表現力を持つことが示されており、分子やソーシャルネットワークなどのグラフ構造化データに対する下流予測タスクに利用することができる。 彼らは通常、個々の頂点のKホップ近傍やグラフ内の列挙されたウォークから情報を集約することで表現を学ぶ。 従来の研究では、重み付け方式をGNNに組み込むことの有効性が示されているが、これは主にKホップ地区GNNに限られている。 本稿では,歩行集約型GNNに重み付け方式を取り入れた効果を広く分析することを目的とする。 本研究の目的は,グラフレベルの予測タスクをエンドツーエンドに教師付き学習する手法を得るために,注目スキームを用いてグラフ内のウォークに関する情報を集約する新しいGNNモデルAWAREを提案することである。 我々はAWAREの理論的、経験的、解釈可能性の分析を行う。 我々の理論解析は,重み付きgnnに対する最初の証明可能な保証を提供し,グラフ情報が表現にどのようにエンコードされるか,重み付けスキームが表現と学習性能にどのように影響するかを示す。 分子特性予測(61タスク)とソーシャルネットワーク(4タスク)の領域において,AWAREが先行ベースラインよりも優れていることを実証的に示す。 本研究は,認識が入力グラフの重要な部分構造をうまく捉えることができることを示す。

Graph neural networks (GNNs) have been shown to possess strong representation power, which can be exploited for downstream prediction tasks on graph-structured data, such as molecules and social networks. They typically learn representations by aggregating information from the K-hop neighborhood of individual vertices or from the enumerated walks in the graph. Prior studies have demonstrated the effectiveness of incorporating weighting schemes into GNNs; however, this has been primarily limited to K-hop neighborhood GNNs so far. In this paper, we aim to extensively analyze the effect of incorporating weighting schemes into walk-aggregating GNNs. Towards this objective, we propose a novel GNN model, called AWARE, that aggregates information about the walks in the graph using attention schemes in a principled way to obtain an end-to-end supervised learning method for graph-level prediction tasks. We perform theoretical, empirical, and interpretability analyses of AWARE. Our theoretical analysis provides the first provable guarantees for weighted GNNs, demonstrating how the graph information is encoded in the representation, and how the weighting schemes in AWARE affect the representation and learning performance. We empirically demonstrate the superiority of AWARE over prior baselines in the domains of molecular property prediction (61 tasks) and social networks (4 tasks). Our interpretation study illustrates that AWARE can successfully learn to capture the important substructures of the input graph.
翻訳日:2021-10-07 14:32:49 公開日:2021-10-06
# 画像から画像への変換GANを無防備にする「Attack as the Best Defense」

Attack as the Best Defense: Nullifying Image-to-image Translation GANs via Limit-aware Adversarial Attack ( http://arxiv.org/abs/2110.02516v1 )

ライセンス: Link先を確認
Chin-Yuan Yeh, Hsi-Wen Chen, Hong-Han Shuai, De-Nian Yang, Ming-Syan Chen(参考訳) 高品質なイメージ・ツー・イメージ(Img2Img)翻訳が成功し、GANはDeepFakeとDeepNudeの非倫理的応用をもたらす。 img2imgの誤用は社会にとって難しい問題である。 本研究では,LaS-GSA(Limit-Aware Self-Guiding Gradient Sliding Attack)を提案する。 LaS-GSAはブラックボックス設定でimg2img翻訳プロセスをキャンセルするためにNullifying Attackに従っている。 言い換えれば、提案したLaS-GSAで入力画像を処理することで、ターゲットのimg2img GANを無効にすることができ、モデルが画像の悪意ある操作を防止することができる。 効率を向上させるために, 逆数制限に固執する勾配, すなわち, 逆数例の画素値制限を推定するために, 限界対応のランダム勾配フリー推定と勾配すべり機構を導入する。 理論的正当化は、上記の手法が方向と歩数の両方の対角限界に起因する非効率性をどのように防ぐかを検証する。 また、脅威モデルと目標画像とのみから効果的な自己誘導優先を抽出し、先行情報を効率的に活用し、勾配推定プロセスを導く。 広範な実験により、las-gsaは4つの最先端ブラックボックスメソッドよりも高い成功率で画像翻訳プロセスを無効化するためにクエリを少なくできることを示した。

With the successful creation of high-quality image-to-image (Img2Img) translation GANs comes the non-ethical applications of DeepFake and DeepNude. Such misuses of img2img techniques present a challenging problem for society. In this work, we tackle the problem by introducing the Limit-Aware Self-Guiding Gradient Sliding Attack (LaS-GSA). LaS-GSA follows the Nullifying Attack to cancel the img2img translation process under a black-box setting. In other words, by processing input images with the proposed LaS-GSA before publishing, any targeted img2img GANs can be nullified, preventing the model from maliciously manipulating the images. To improve efficiency, we introduce the limit-aware random gradient-free estimation and the gradient sliding mechanism to estimate the gradient that adheres to the adversarial limit, i.e., the pixel value limitations of the adversarial example. Theoretical justifications validate how the above techniques prevent inefficiency caused by the adversarial limit in both the direction and the step length. Furthermore, an effective self-guiding prior is extracted solely from the threat model and the target image to efficiently leverage the prior information and guide the gradient estimation process. Extensive experiments demonstrate that LaS-GSA requires fewer queries to nullify the image translation process with higher success rates than 4 state-of-the-art black-box methods.
翻訳日:2021-10-07 14:31:48 公開日:2021-10-06
# 拡散型画像処理のためのスパースマスクの学習

Learning Sparse Masks for Diffusion-based Image Inpainting ( http://arxiv.org/abs/2110.02636v1 )

ライセンス: Link先を確認
Tobias Alt, Pascal Peter, Joachim Weickert(参考訳) 拡散ベースの塗布はスパースデータから画像の再構成に強力なツールである。 その品質は既知のデータの選択に大きく依存する。 空間的位置(塗装マスク)の最適化は困難だ。 このタスクの一般的なツールは確率的最適化戦略である。 しかし、複数の塗装結果を計算すると遅くなる。 我々は,学習したマスク生成モデルの観点から治療を行う。 マスク生成とニューラル・サロゲート・インペイントのための2つのネットワークで完全なインペイントパイプラインをエミュレートすることにより、高効率な適応マスク生成のモデルを得る。 実験により,我々のモデルは最大4桁の加速度で競争品質を達成できることが示された。 本研究は,高速エンコーディングが望ましい画像圧縮などの各種アプリケーションにおいて,拡散に基づくインペインティングをより魅力的なものにするための基礎となる。

Diffusion-based inpainting is a powerful tool for the reconstruction of images from sparse data. Its quality strongly depends on the choice of known data. Optimising their spatial location -- the inpainting mask -- is challenging. A commonly used tool for this task are stochastic optimisation strategies. However, they are slow as they compute multiple inpainting results. We provide a remedy in terms of a learned mask generation model. By emulating the complete inpainting pipeline with two networks for mask generation and neural surrogate inpainting, we obtain a model for highly efficient adaptive mask generation. Experiments indicate that our model can achieve competitive quality with an acceleration by as much as four orders of magnitude. Our findings serve as a basis for making diffusion-based inpainting more attractive for various applications such as image compression, where fast encoding is highly desirable.
翻訳日:2021-10-07 14:31:23 公開日:2021-10-06
# S-Extension Patch: オブジェクト検出モデルを拡張するシンプルで効率的な方法

S-Extension Patch: A simple and efficient way to extend an object detection model ( http://arxiv.org/abs/2110.02670v1 )

ライセンス: Link先を確認
Dishant Parikh(参考訳) 畳み込み型ネットワークベースのシステムを構築する一方で、ネットワークのトレーニングに要する料金は無視できないものです。 既存のモデルに追加機能を追加する必要がある場合、すぐに再トレーニング技術に注意が向けられます。 本稿では,データセットに関する知識を活用し,クラスを高速に付加し,推論の速度と精度を維持しながら,必要な時間とデータの量を削減する方法を示す。 既存のオブジェクト検出モデルのクラスを他の既存のメソッドと比較して1/10の時間で拡張することができる。 S-Extension パッチはより高速なトレーニングを提供するだけでなく、類似性のしきい値を満たすため、既存のシステムに付加できるため、スピードと適応の容易さも提供する。

While building convolutional network-based systems, the toll it takes to train the network is something that cannot be ignored. In cases where we need to append additional capabilities to the existing model, the attention immediately goes towards retraining techniques. In this paper, I show how to leverage knowledge about the dataset to append the class faster while maintaining the speed of inference as well as the accuracies; while reducing the amount of time and data required. The method can extend a class in the existing object detection model in 1/10th of the time compared to the other existing methods. S-Extension patch not only offers faster training but also speed and ease of adaptation, as it can be appended to any existing system, given it fulfills the similarity threshold condition.
翻訳日:2021-10-07 14:31:12 公開日:2021-10-06
# 視覚トランスフォーマーとmlpミキサーとcnnの逆ロバスト性の比較

Adversarial Robustness Comparison of Vision Transformer and MLP-Mixer to CNNs ( http://arxiv.org/abs/2110.02797v1 )

ライセンス: Link先を確認
Philipp Benz, Soomin Ham, Chaoning Zhang, Adil Karjauv, In So Kweon(参考訳) 畳み込みニューラルネットワーク(CNN)はここ数年、コンピュータビジョンアプリケーションにおいて事実上の標準となっている。 しかし、近年、現状に挑戦する新しいモデルアーキテクチャが提案されている。 Vision Transformer (ViT) は注意モジュールのみに依存し、MLP-Mixer アーキテクチャは自己注意モジュールをMulti-Layer Perceptrons (MLP) で置き換える。 彼らの大きな成功にもかかわらず、CNNは敵の攻撃に弱いことが広く知られており、セキュリティに敏感なアプリケーションに対する深刻な懸念を引き起こしている。 したがって、新しく提案されたvitとmlp-mixerが敵の攻撃に対して脆弱であるかどうかをコミュニティが知ることが重要である。 この目的のために,複数の攻撃装置による敵の強靭性を実証的に評価し,広く使用されているCNNと比較した。 全体として、2つのアーキテクチャ、特にViTは、CNNモデルよりも堅牢である。 おもちゃの例を用いて、cnnの逆ロバスト性がシフト不変性によって部分的に引き起こされるという実証的な証拠を与える。 我々の周波数分析によると、最もロバストなViTアーキテクチャはCNNに比べて低周波機能に依存しやすい。 さらに,MLP-Mixerは普遍的逆境摂動に対して極めて脆弱であることが明らかとなった。

Convolutional Neural Networks (CNNs) have become the de facto gold standard in computer vision applications in the past years. Recently, however, new model architectures have been proposed challenging the status quo. The Vision Transformer (ViT) relies solely on attention modules, while the MLP-Mixer architecture substitutes the self-attention modules with Multi-Layer Perceptrons (MLPs). Despite their great success, CNNs have been widely known to be vulnerable to adversarial attacks, causing serious concerns for security-sensitive applications. Thus, it is critical for the community to know whether the newly proposed ViT and MLP-Mixer are also vulnerable to adversarial attacks. To this end, we empirically evaluate their adversarial robustness under several adversarial attack setups and benchmark them against the widely used CNNs. Overall, we find that the two architectures, especially ViT, are more robust than their CNN models. Using a toy example, we also provide empirical evidence that the lower adversarial robustness of CNNs can be partially attributed to their shift-invariant property. Our frequency analysis suggests that the most robust ViT architectures tend to rely more on low-frequency features compared with CNNs. Additionally, we have an intriguing finding that MLP-Mixer is extremely vulnerable to universal adversarial perturbations.
翻訳日:2021-10-07 14:30:59 公開日:2021-10-06
# 高速かつ高精度なリカレントニューラルネットワークのためのスパイクインスパイアされたランク符号化

Spike-inspired Rank Coding for Fast and Accurate Recurrent Neural Networks ( http://arxiv.org/abs/2110.02865v1 )

ライセンス: Link先を確認
Alan Jeffares, Qinghai Guo, Pontus Stenetorp, Timoleon Moraitis(参考訳) 生物学的スパイクニューラルネットワーク(SNN)は、ニューロンが発火するランク順など、出力中の情報を時間的にエンコードすることができるが、人工ニューラルネットワーク(ANN)は従来はそうではない。 その結果、ニューロモルフィックコンピューティングのためのSNNのモデルは、時間入力を扱う場合、ANNよりも高速で効率的であると考えられる。 一方、ANNは訓練が簡単で、通常は優れたパフォーマンスを実現する。 ここでは、SNNにインスパイアされたランク符号化(RC)のような時間符号化が、LSTMなどの従来のANNにも適用可能であることを示す。 ANNのためのRCでは、標準的な実値のアクティベーションを使用して時間経過とともにバックプロパゲーションを適用するが、しきい値交差イベントによって決定される各逐次入力例の戦略的早期段階からのみ適用する。 学習は、モデルやアルゴリズムに他の変更を加えることなく、自然に_when_を組み込んで出力を生成する。 第1イベント後、残りの入力シーケンスをスキップすることで、前方及び後方トレーニングパスを著しく短縮することができる。 RCトレーニングは推論中の時間と監視を著しく低減し、精度は最小限に抑えられる。 所望の速度精度トレードオフは、出力エントロピーに報酬を与える閾値または正規化パラメータを変化させることで調整可能である。 これらを2つのトイ問題であるシーケンス分類と,最初の入力時間ステップの後にrcモデルが99.19%の精度を達成する時間エンコードmnistデータセットで実証し,snsによる時間符号化における技術水準を上回り,google音声コマンドの音声単語分類において,lstmsを用いた非rc学習初期推論を上回った。

Biological spiking neural networks (SNNs) can temporally encode information in their outputs, e.g. in the rank order in which neurons fire, whereas artificial neural networks (ANNs) conventionally do not. As a result, models of SNNs for neuromorphic computing are regarded as potentially more rapid and efficient than ANNs when dealing with temporal input. On the other hand, ANNs are simpler to train, and usually achieve superior performance. Here we show that temporal coding such as rank coding (RC) inspired by SNNs can also be applied to conventional ANNs such as LSTMs, and leads to computational savings and speedups. In our RC for ANNs, we apply backpropagation through time using the standard real-valued activations, but only from a strategically early time step of each sequential input example, decided by a threshold-crossing event. Learning then incorporates naturally also _when_ to produce an output, without other changes to the model or the algorithm. Both the forward and the backward training pass can be significantly shortened by skipping the remaining input sequence after that first event. RC-training also significantly reduces time-to-insight during inference, with a minimal decrease in accuracy. The desired speed-accuracy trade-off is tunable by varying the threshold or a regularization parameter that rewards output entropy. We demonstrate these in two toy problems of sequence classification, and in a temporally-encoded MNIST dataset where our RC model achieves 99.19% accuracy after the first input time-step, outperforming the state of the art in temporal coding with SNNs, as well as in spoken-word classification of Google Speech Commands, outperforming non-RC-trained early inference with LSTMs.
翻訳日:2021-10-07 14:30:34 公開日:2021-10-06
# データ中心AIはデータ表記を再考する必要がある

Data-Centric AI Requires Rethinking Data Notion ( http://arxiv.org/abs/2110.02491v1 )

ライセンス: Link先を確認
Mustafa Hajij, Ghada Zamzmi, Karthikeyan Natesan Ramamurthy, Aldo Guzman Saenz(参考訳) データ中心AIへの移行は、統一されたデータ中心機械学習パッケージを得るために、数学的および実装的な視点からデータ概念を再考する必要がある。 この目的に向けて、この研究は、データカテゴリとコチェーンの概念によって提供される原則の統合を提案し、データ中心のAI移行におけるこれらの原則の重要性について議論する。 分類学的概念では、データは、この構造を保存するために射を通して作用する数学的構造と見なされる。 共鎖の概念では、データは関心の離散領域で定義され、演算子を介して作用する関数と見なすことができる。 これらの概念はほぼ直交しているが、データを見るための統一的な定義を提供し、最終的には機械学習パッケージの開発、実装、利用の方法に影響を与える。

The transition towards data-centric AI requires revisiting data notions from mathematical and implementational standpoints to obtain unified data-centric machine learning packages. Towards this end, this work proposes unifying principles offered by categorical and cochain notions of data, and discusses the importance of these principles in data-centric AI transition. In the categorical notion, data is viewed as a mathematical structure that we act upon via morphisms to preserve this structure. As for cochain notion, data can be viewed as a function defined in a discrete domain of interest and acted upon via operators. While these notions are almost orthogonal, they provide a unifying definition to view data, ultimately impacting the way machine learning packages are developed, implemented, and utilized by practitioners.
翻訳日:2021-10-07 14:30:00 公開日:2021-10-06
# KNN-BERT:KNN分類器を用いた微調整事前学習モデル

KNN-BERT: Fine-Tuning Pre-Trained Models with KNN Classifier ( http://arxiv.org/abs/2110.02523v1 )

ライセンス: Link先を確認
Linyang Li, Demin Song, Ruotian Ma, Xipeng Qiu, Xuanjing Huang(参考訳) 事前学習されたモデルは、クロスエントロピー損失によって最適化された線形分類器を用いた微調整下流タスクで広く用いられている。 これらの問題は、同じクラスの類似性と、予測を行う際に異なるクラスの矛盾に焦点を当てた表現を学習することで改善することができる。 本稿では,K-Nearest Neighbors分類器を事前学習モデル微調整に用いる。 このnn分類器では,教師付きモメンタコントラスト学習フレームワークを導入し,教師付き下流タスクのクラスタ化表現を学習する。 テキスト分類タスクとロバストネステストに関する広範な実験により,knnを従来の微調整プロセスに組み込むことにより,リッチソース設定とマイナショット設定の両方において,クリーンな精度を大幅に向上し,敵の攻撃に対するロバスト性を向上させることが可能となった。 https://github.com/LinyangLee/KNN-BERT}

Pre-trained models are widely used in fine-tuning downstream tasks with linear classifiers optimized by the cross-entropy loss, which might face robustness and stability problems. These problems can be improved by learning representations that focus on similarities in the same class and contradictions in different classes when making predictions. In this paper, we utilize the K-Nearest Neighbors Classifier in pre-trained model fine-tuning. For this KNN classifier, we introduce a supervised momentum contrastive learning framework to learn the clustered representations of the supervised downstream tasks. Extensive experiments on text classification tasks and robustness tests show that by incorporating KNNs with the traditional fine-tuning process, we can obtain significant improvements on the clean accuracy in both rich-source and few-shot settings and can improve the robustness against adversarial attacks. \footnote{all codes is available at https://github.com/LinyangLee/KNN-BERT}
翻訳日:2021-10-07 14:29:24 公開日:2021-10-06
# キーワードグラフに基づく弱教師付きテキスト分類

Weakly-supervised Text Classification Based on Keyword Graph ( http://arxiv.org/abs/2110.02591v1 )

ライセンス: Link先を確認
Lu Zhang, Jiandong Ding, Yi Xu, Yingyao Liu and Shuigeng Zhou(参考訳) 近年,大量のデータに注釈を付けることの重荷を軽減するため,テキスト分類の弱さが注目されている。 中でもキーワード駆動の手法は、ユーザが提供するキーワードを利用してラベルなしテキストの擬似ラベルを生成する主流である。 しかし、既存のメソッドはキーワードを独立して扱うので、それらの相関を無視する。 本稿では,GNN によるキーワードグラフ上のキーワードキーワード相関を探索する ClassKG という新しいフレームワークを提案する。 私たちのフレームワークは反復的なプロセスです。 各イテレーションにおいて、まずキーワードグラフを構築し、擬似ラベルをアサインするタスクをキーワードサブグラフに変換する。 アノテーションの品質を向上させるために,サブグラフアノテータを事前学習し,それを微調整する自己教師付きタスクを導入する。 サブグラフアノテータによって生成された擬似ラベルを用いて、未ラベルのテキストを分類するためにテキスト分類器を訓練する。 最後に、分類されたテキストからキーワードを再抽出する。 長文と短文の両方のデータセットに対する大規模な実験は、我々の手法が既存のデータセットよりも大幅に優れていることを示している。

Weakly-supervised text classification has received much attention in recent years for it can alleviate the heavy burden of annotating massive data. Among them, keyword-driven methods are the mainstream where user-provided keywords are exploited to generate pseudo-labels for unlabeled texts. However, existing methods treat keywords independently, thus ignore the correlation among them, which should be useful if properly exploited. In this paper, we propose a novel framework called ClassKG to explore keyword-keyword correlation on keyword graph by GNN. Our framework is an iterative process. In each iteration, we first construct a keyword graph, so the task of assigning pseudo labels is transformed to annotating keyword subgraphs. To improve the annotation quality, we introduce a self-supervised task to pretrain a subgraph annotator, and then finetune it. With the pseudo labels generated by the subgraph annotator, we then train a text classifier to classify the unlabeled texts. Finally, we re-extract keywords from the classified texts. Extensive experiments on both long-text and short-text datasets show that our method substantially outperforms the existing ones
翻訳日:2021-10-07 14:29:06 公開日:2021-10-06
# 対話型ライプツィヒ・コーパス・マイナーの社会科学への応用

Application of the interactive Leipzig Corpus Miner as a generic research platform for the use in the social sciences ( http://arxiv.org/abs/2110.02708v1 )

ライセンス: Link先を確認
Christian Kahmann, Andreas Niekler and Gregor Wiedemann(参考訳) 本稿では,新しいオープンソースソフトウェアであるinteractive leipzig corpus miner (ilcm)について紹介する。 iLCMはR言語をベースとしているため、ユーザフレンドリなグラフィカルユーザインタフェース(GUI)を通じて提供される一般的なテキストマイニング手順は、統合されたIDE RStudio-Serverやツール内の多くのインターフェースを使って容易に拡張できる。 さらに、iLCMは定量的および定性的な研究手法を併用する様々な可能性を提供している。 これらの可能性のいくつかは、以下に詳述する。

This article introduces to the interactive Leipzig Corpus Miner (iLCM) - a newly released, open-source software to perform automatic content analysis. Since the iLCM is based on the R-programming language, its generic text mining procedures provided via a user-friendly graphical user interface (GUI) can easily be extended using the integrated IDE RStudio-Server or numerous other interfaces in the tool. Furthermore, the iLCM offers various possibilities to use quantitative and qualitative research approaches in combination. Some of these possibilities will be presented in more detail in the following.
翻訳日:2021-10-07 14:28:49 公開日:2021-10-06
# BPEが変圧器の記憶に与える影響

How BPE Affects Memorization in Transformers ( http://arxiv.org/abs/2110.02782v1 )

ライセンス: Link先を確認
Eugene Kharitonov and Marco Baroni and Dieuwke Hupkes(参考訳) nlpにおけるデータ記憶のトレーニングは、(例えば、クローズドブックqa)と望ましくない(個人データ抽出)の両方に有益である。 いずれにせよ、成功したモデルトレーニングは、単語スペル、様々な言語的慣用句、共通の知識を記憶するために、非自明な量の記憶を必要とする。 しかし、NLPモデルの記憶挙動にどのような影響を及ぼすかは分かっていない。 本研究では,Byte-Pair Encoding (BPE) で学習したサブワード語彙のサイズが,学習パラメータ数を制御する場合でも,標準トランスフォーマーモデルの学習データを記憶する能力と傾向に大きな影響を与えることを示す。 サブワード語彙のサイズが大きいため、トランスフォーマーモデルはランダムマッピングをより簡単にフィットし、メンバシップ推論攻撃に対して脆弱であることが分かりました。 同様に、大きなサブワード語彙を持つプロンプトでトランスフォーマーベースの言語モデルも、トレーニングデータをより頻繁に再現する。 我々は、この効果は、BPE語彙が大きくなるにつれて起こるシーケンスの長さの減少に起因すると推測する。 以上の結果から,特定のユースケースに適したハイパーパラメータの選択が可能となった。

Training data memorization in NLP can both be beneficial (e.g., closed-book QA) and undesirable (personal data extraction). In any case, successful model training requires a non-trivial amount of memorization to store word spellings, various linguistic idiosyncrasies and common knowledge. However, little is known about what affects the memorization behavior of NLP models, as the field tends to focus on the equally important question of generalization. In this work, we demonstrate that the size of the subword vocabulary learned by Byte-Pair Encoding (BPE) greatly affects both ability and tendency of standard Transformer models to memorize training data, even when we control for the number of learned parameters. We find that with a large subword vocabulary size, Transformer models fit random mappings more easily and are more vulnerable to membership inference attacks. Similarly, given a prompt, Transformer-based language models with large subword vocabularies reproduce the training data more often. We conjecture this effect is caused by reduction in the sequences' length that happens as the BPE vocabulary grows. Our findings can allow a more informed choice of hyper-parameters, that is better tailored for a particular use-case.
翻訳日:2021-10-07 14:28:39 公開日:2021-10-06
# 重み付き有限状態トランスデューサの並列構成

Parallel Composition of Weighted Finite-State Transducers ( http://arxiv.org/abs/2110.02848v1 )

ライセンス: Link先を確認
Shubho Sengupta, Vineel Pratap, Awni Hannun(参考訳) 有限状態トランスデューサ(fsts)は音声認識によく用いられる。 トランスデューサ組成物は、異なる粒度で異なる情報ソースを結合するための必須操作である。 しかし、合成は計算コストの高い演算の1つでもある。 FSTの異種構造のため、合成のための並列アルゴリズムは効率、一般性、あるいはその両方において最適である。 並列合成のためのアルゴリズムを提案し,それをグラフィックス処理ユニットに実装する。 本稿では,ランダムグラフの構成と音声認識によく使われるグラフの構成について並列アルゴリズムをベンチマークする。 並列構成は入力グラフのサイズでスケールし、大規模なグラフの場合、シーケンシャルcpuアルゴリズムの10倍から30倍の速度で構成できる。

Finite-state transducers (FSTs) are frequently used in speech recognition. Transducer composition is an essential operation for combining different sources of information at different granularities. However, composition is also one of the more computationally expensive operations. Due to the heterogeneous structure of FSTs, parallel algorithms for composition are suboptimal in efficiency, generality, or both. We propose an algorithm for parallel composition and implement it on graphics processing units. We benchmark our parallel algorithm on the composition of random graphs and the composition of graphs commonly used in speech recognition. The parallel composition scales better with the size of the input graphs and for large graphs can be as much as 10 to 30 times faster than a sequential CPU algorithm.
翻訳日:2021-10-07 14:28:18 公開日:2021-10-06
# 最適トランスポートをアライメント目標として多言語文脈化埋め込みの微調整

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings ( http://arxiv.org/abs/2110.02887v1 )

ライセンス: Link先を確認
Sawsan Alqahtani, Garima Lalwani, Yi Zhang, Salvatore Romeo, Saab Mansour(参考訳) 近年の研究では、ソースとターゲットの埋め込み空間を整合させる手法を含む、コンテキスト設定における多言語語表現を改善する方法が提案されている。 コンテキストの埋め込みでは、コンテキストを考慮したアライメントがより複雑になります。 本研究では、下流言語間移動のための多言語文脈表現をさらに改善するために、微調整時のアライメント目的として最適輸送(OT)を提案する。 このアプローチでは、微調整の前に単語アライメントペアを必要とせず、代わりに教師なしの方法でコンテキスト内の単語アライメントを学習する。 また、ソースとターゲット文のソフトマッチングのために、異なるタイプのマッピングも可能である。 我々は,提案手法を2つのタスク (XNLI と XQuAD) でベンチマークし,ベースラインよりも改善し,競合する結果を得た。

Recent studies have proposed different methods to improve multilingual word representations in contextualized settings including techniques that align between source and target embedding spaces. For contextualized embeddings, alignment becomes more complex as we additionally take context into consideration. In this work, we propose using Optimal Transport (OT) as an alignment objective during fine-tuning to further improve multilingual contextualized representations for downstream cross-lingual transfer. This approach does not require word-alignment pairs prior to fine-tuning that may lead to sub-optimal matching and instead learns the word alignments within context in an unsupervised manner. It also allows different types of mappings due to soft matching between source and target sentences. We benchmark our proposed method on two tasks (XNLI and XQuAD) and achieve improvements over baselines as well as competitive results compared to similar recent works.
翻訳日:2021-10-07 14:28:08 公開日:2021-10-06
# 報酬懸賞対称的普遍知性

Reward-Punishment Symmetric Universal Intelligence ( http://arxiv.org/abs/2110.02450v1 )

ライセンス: Link先を確認
Samuel Allen Alexander, Marcus Hutter(参考訳) エージェントのインテリジェンスレベルは負か? 我々は、Lgg-Hutterエージェント環境の枠組みを拡張して罰を含め、その問題に対する肯定的な回答を求める。 背景エンコーディングと普遍チューリングマシン(utm)が、あるコルモゴロフ複雑性の対称性を認めるならば、結果として生じるレッグ・ハッター知能測度は原点について対称である。 特に、報酬無視剤はそのようなutmに従ってレッグヘター知性が0である。

Can an agent's intelligence level be negative? We extend the Legg-Hutter agent-environment framework to include punishments and argue for an affirmative answer to that question. We show that if the background encodings and Universal Turing Machine (UTM) admit certain Kolmogorov complexity symmetries, then the resulting Legg-Hutter intelligence measure is symmetric about the origin. In particular, this implies reward-ignoring agents have Legg-Hutter intelligence 0 according to such UTMs.
翻訳日:2021-10-07 14:27:53 公開日:2021-10-06
# マルチエージェント・エピステマティクス・プランニング : ネストされた信念についてプランナーに教える

Efficient Multi-agent Epistemic Planning: Teaching Planners About Nested Belief ( http://arxiv.org/abs/2110.02480v1 )

ライセンス: Link先を確認
Christian Muise, Vaishak Belle, Paolo Felli, Sheila McIlraith, Tim Miller, Adrian R. Pearce, Liz Sonenberg(参考訳) 多くのAIアプリケーションは、複数の自律エージェントの相互作用を含み、エージェントは他のエージェントと同様に、自身の信念を推論する必要がある。 しかし、ネスト化された信念を含む計画は計算的に難しいことが知られている。 本研究では,他のエージェントの信念に対する推論を必要とするプランを合成する作業に対処する。 我々は, 一つのエージェントの観点から, ネストされた信念, 非同質なエージェント, 共同表現観察, あるいはあるエージェントが別のエージェントであるかのように推論する能力を含む, 目標と行動の可能性を考察する。 私たちは、計画の概念をネスト化された信念で正式に特徴付け、それらの問題を効率的に解決するための古典的な計画技術にアピールする問題に自動的に変換する方法をデモします。 提案手法は,複数エージェントのネストされた信念を含む計画課題に,十分に確立された自動計画分野を適用するための重要なステップである。

Many AI applications involve the interaction of multiple autonomous agents, requiring those agents to reason about their own beliefs, as well as those of other agents. However, planning involving nested beliefs is known to be computationally challenging. In this work, we address the task of synthesizing plans that necessitate reasoning about the beliefs of other agents. We plan from the perspective of a single agent with the potential for goals and actions that involve nested beliefs, non-homogeneous agents, co-present observations, and the ability for one agent to reason as if it were another. We formally characterize our notion of planning with nested belief, and subsequently demonstrate how to automatically convert such problems into problems that appeal to classical planning technology for solving efficiently. Our approach represents an important step towards applying the well-established field of automated planning to the challenging task of planning involving nested beliefs of multiple agents.
翻訳日:2021-10-07 14:27:43 公開日:2021-10-06
# ActiveMatch: エンドツーエンドの半教師付きアクティブ表現学習

ActiveMatch: End-to-end Semi-supervised Active Representation Learning ( http://arxiv.org/abs/2110.02521v1 )

ライセンス: Link先を確認
Xinkai Yuan, Zilinghan Li, Gaoang Wang (Zhejiang University-University of Illinois at Urbana-Champaign Institute, Zhejiang University)(参考訳) semi-supervised learning (ssl)はラベル付きデータとラベルなしデータの両方でモデルをトレーニングできる効率的なフレームワークである。 しかし、ラベル数が限られているため、SSLの学習された表現は曖昧であり、クラス間のサンプルでは区別できない。 さらに、SSLのパフォーマンスもモデルの初期化に大きく依存している。 本稿では、SSLの欠点に対処するために、SSLとコントラスト学習とアクティブ学習を組み合わせて制限ラベルを完全に活用する、新しいエンドツーエンド表現学習手法であるActiveMatchを提案する。 少数のラベル付きデータと教師なしのコントラスト学習をウォームアップとして開始すると、ActiveMatchはSSLと教師付きコントラスト学習を組み合わせて、トレーニング中にラベル付けのための最も代表的なサンプルを積極的に選択する。 mixmatch と fixmatch と比較すると、activematch は 89.24 の精度で cifar-10 に 100 個のラベルを収集し、92.20 の精度で 200 個のラベルを収集した。

Semi-supervised learning (SSL) is an efficient framework that can train models with both labeled and unlabeled data. However, constrained by the limited number of labels, the learned representations of SSL are ambiguous and not distinguishable for inter-class samples. Moreover, the performance of SSL is also largely dependent on the model initialization. To deal with the drawbacks of SSL, in this paper, we propose a novel end-to-end representation learning method, namely ActiveMatch, which combines SSL with contrastive learning and active learning to fully leverage the limited labels. Starting from a small amount of labeled data with unsupervised contrastive learning as a warm-up, ActiveMatch then combines SSL and supervised contrastive learning, and actively selects the most representative samples for labeling during the training, resulting in better representations towards the classification. Compared with MixMatch and FixMatch, we show that ActiveMatch achieves the state-of-the-art performance, with 89.24 accuracy on CIFAR-10 with 100 collected labels, and 92.20 accuracy with 200 collected labels.
翻訳日:2021-10-07 14:27:03 公開日:2021-10-06
# 視覚的質問応答のための粗相関推論

Coarse-to-Fine Reasoning for Visual Question Answering ( http://arxiv.org/abs/2110.02526v1 )

ライセンス: Link先を確認
Binh X. Nguyen, Tuong Do, Huy Tran, Erman Tjiputra, Quang D. Tran, Anh Nguyen(参考訳) 画像と質問のセマンティックなギャップを埋めることは、視覚質問回答(VQA)タスクの精度を向上させる重要なステップである。 しかしながら、既存のVQA手法のほとんどは、解答を推論するための注意機構や視覚的関係に重点を置いているが、異なる意味レベルの特徴は十分に活用されていない。 本稿では,VQAタスクにおける視覚的特徴と意味的手がかりのギャップを埋めるための新しい推論フレームワークを提案する。 本手法はまず,画像と質問から特徴と述語を抽出する。 次に,これらの特徴を効果的に学習し,粗末に述語する新しい推論フレームワークを提案する。 3つの大規模VQAデータセットの集中的な実験結果から,提案手法が他の最先端手法と比較して精度が高いことを示す。 さらに、この推論フレームワークは、回答を予測する際にディープニューラルネットワークの決定を理解するための説明可能な方法を提供する。

Bridging the semantic gap between image and question is an important step to improve the accuracy of the Visual Question Answering (VQA) task. However, most of the existing VQA methods focus on attention mechanisms or visual relations for reasoning the answer, while the features at different semantic levels are not fully utilized. In this paper, we present a new reasoning framework to fill the gap between visual features and semantic clues in the VQA task. Our method first extracts the features and predicates from the image and question. We then propose a new reasoning framework to effectively jointly learn these features and predicates in a coarse-to-fine manner. The intensively experimental results on three large-scale VQA datasets show that our proposed approach achieves superior accuracy comparing with other state-of-the-art methods. Furthermore, our reasoning framework also provides an explainable way to understand the decision of the deep neural network when predicting the answer.
翻訳日:2021-10-07 14:26:42 公開日:2021-10-06
# 3D-FCT:特徴相関を用いた同時3次元物体検出・追跡

3D-FCT: Simultaneous 3D Object Detection and Tracking Using Feature Correlation ( http://arxiv.org/abs/2110.02531v1 )

ライセンス: Link先を確認
Naman Sharma, Hocksoon Lim(参考訳) lidarデータを用いた3dオブジェクト検出は、自動運転やロボティクスといったアプリケーションにとって重要なタスクだ。 2D画像とは異なり、LiDARのデータはほとんど常に一定時間にわたって収集される。 しかし、この領域のほとんどの研究は、時間領域に依存しない検出に焦点を合わせている。 本稿では、時間情報を利用して3Dオブジェクトの検出と追跡を同時に行うシームズネットワークアーキテクチャである3D-FCTを提案する。 ネットワークは、抽出されたキーポイントの相関特性に基づいて、オブジェクトの移動を予測するために訓練される。 キーポイント間の相関を計算することは、リアルタイムオブジェクト検出のみを可能にする。 我々はさらにマルチタスク目標を拡張して、回帰損失の追跡を含む。 最後に,予測トラックに基づいて,短期オブジェクトのトラックレットを長期トラックにリンクすることで,高精度な検出を行う。 提案手法はkittiトラッキングデータセット上で評価され,最先端のアプローチによる5.57%のマップ改善が示された。

3D object detection using LiDAR data remains a key task for applications like autonomous driving and robotics. Unlike in the case of 2D images, LiDAR data is almost always collected over a period of time. However, most work in this area has focused on performing detection independent of the temporal domain. In this paper we present 3D-FCT, a Siamese network architecture that utilizes temporal information to simultaneously perform the related tasks of 3D object detection and tracking. The network is trained to predict the movement of an object based on the correlation features of extracted keypoints across time. Calculating correlation across keypoints only allows for real-time object detection. We further extend the multi-task objective to include a tracking regression loss. Finally, we produce high accuracy detections by linking short-term object tracklets into long term tracks based on the predicted tracks. Our proposed method is evaluated on the KITTI tracking dataset where it is shown to provide an improvement of 5.57% mAP over a state-of-the-art approach.
翻訳日:2021-10-07 14:26:26 公開日:2021-10-06
# 魚類追跡のためのコンピュータビジョン技術の概要

A Review of Computer Vision Technologies for Fish Tracking ( http://arxiv.org/abs/2110.02551v1 )

ライセンス: Link先を確認
Zhenbo Li, Weiran Li, Fei Li(参考訳) コンピュータビジョンに基づく魚類追跡は漁業生産と生態学研究において複雑で困難な課題である。 魚追跡のほとんどのアプリケーションは、精度と効率に欠ける古典的なフィルタリングアルゴリズムを使用している。 この問題を解決するため,深層ニューラルネットワークを用いて特徴を抽出し,魚の追跡性能を向上した。 いくつかの一段階検出アルゴリズムがこの分野でリアルタイムアプリケーションに徐々に採用されている。 魚標的への移動学習は現在の発展方向である。 現在、魚追跡技術は実際のアプリケーション要件をカバーするには不十分である。 我々の収集した文献データによると、地域社会における視線に基づく魚の追跡に関する詳細な調査は行われていない。 本稿では,過去10年間の魚類追跡技術の発展と応用の可能性について紹介する。 まず,魚のオープンソースデータセットを導入し,水中画像の前処理技術を要約した。 次に,魚の検出・追跡アルゴリズムを解析し,移動可能なフロンティア追跡モデルを整理した。 第3に,オクルージョンやマルチスケールといった魚追跡の実際の応用,指標,ボトルネックを列挙した。 最後に、魚の追跡データセット、ボトルネックの解決策、改善について議論する。 我々の研究は、魚の追跡モデルがより精度と堅牢性を達成するのに役立つと期待している。

Fish tracking based on computer vision is a complex and challenging task in fishery production and ecological studies. Most of the applications of fish tracking use classic filtering algorithms, which lack in accuracy and efficiency. To solve this issue, deep learning methods utilized deep neural networks to extract the features, which achieve a good performance in the fish tracking. Some one-stage detection algorithms have gradually been adopted in this area for the real-time applications. The transfer learning to fish target is the current development direction. At present, fish tracking technology is not enough to cover actual application requirements. According to the literature data collected by us, there has not been any extensive review about vision-based fish tracking in the community. In this paper, we introduced the development and application prospects of fish tracking technology in last ten years. Firstly, we introduced the open source datasets of fish, and summarized the preprocessing technologies of underwater images. Secondly, we analyzed the detection and tracking algorithms for fish, and sorted out some transferable frontier tracking model. Thirdly, we listed the actual applications, metrics and bottlenecks of the fish tracking such as occlusion and multi-scale. Finally, we give the discussion for fish tracking datasets, solutions of the bottlenecks, and improvements. We expect that our work can help the fish tracking models to achieve higher accuracy and robustness.
翻訳日:2021-10-07 14:26:13 公開日:2021-10-06
# MTCD:近赤外画像による白内障検出

MTCD: Cataract Detection via Near Infrared Eye Images ( http://arxiv.org/abs/2110.02564v1 )

ライセンス: Link先を確認
Pavani Tripathi, Yasmeena Akhter, Mahapara Khurshid, Aditya Lakra, Rohit Keshari, Mayank Vatsa, Richa Singh(参考訳) 世界中で白内障は一般的な眼疾患であり、盲目や視力障害の主な原因の1つである。 白内障を検出する伝統的な方法は、眼科医によるスリットランプ顕微鏡または眼科鏡による眼科検査であり、眼の通常は透明なレンズの曇りをチェックする。 リソースの不足と十分な数の専門家の可用性の欠如は、世界中の医療システムに負担をもたらし、研究者は専門家を支援するためにAIソリューションの使用を検討している。 本研究は虹彩認識の進歩に触発され,近赤外画像を用いた白内障検出のための新しいアルゴリズムを提案する。 NIRカメラは虹彩認識によく使われているが、比較的安価で操作が容易である。 しかし、これらのNIR画像は白内障検出のために探索されていない。 入力としてNIR画像を用いた白内障検出のための深層学習に基づくアイセグメンテーションとマルチタスクネットワーク分類ネットワークを提案する。 提案したセグメンテーションアルゴリズムは,非理想眼の境界を効果的かつ効果的に検出し,コスト効率が高く,白内障データセット上で非常に高い分類性能が得られる。

Globally, cataract is a common eye disease and one of the leading causes of blindness and vision impairment. The traditional process of detecting cataracts involves eye examination using a slit-lamp microscope or ophthalmoscope by an ophthalmologist, who checks for clouding of the normally clear lens of the eye. The lack of resources and unavailability of a sufficient number of experts pose a burden to the healthcare system throughout the world, and researchers are exploring the use of AI solutions for assisting the experts. Inspired by the progress in iris recognition, in this research, we present a novel algorithm for cataract detection using near-infrared eye images. The NIR cameras, which are popularly used in iris recognition, are of relatively low cost and easy to operate compared to ophthalmoscope setup for data capture. However, such NIR images have not been explored for cataract detection. We present deep learning-based eye segmentation and multitask network classification networks for cataract detection using NIR images as input. The proposed segmentation algorithm efficiently and effectively detects non-ideal eye boundaries and is cost-effective, and the classification network yields very high classification performance on the cataract dataset.
翻訳日:2021-10-07 14:25:57 公開日:2021-10-06
# googleのランドマーク認識競争、2021年の2位に

2nd Place Solution to Google Landmark Recognition Competition 2021 ( http://arxiv.org/abs/2110.02638v1 )

ライセンス: Link先を確認
Shubin Dai(参考訳) Transformerベースのアーキテクチャは、最近コンピュータビジョンの進歩を奨励している。 本研究では,(1)SwinとCSWinを機能抽出のバックボーンとして使用すること,(2)フルGLDv2のトレーニング,(3)フルGLDv2画像をkNN検索のインデックスイメージセットとして使用すること,の3つの設計を変更することで,昨年のソリューションを改善したKaggle上でのGoogleランドマーク認識2021チャレンジに対するソリューションを提案する。 これらの修正により、今年の競争におけるソリューションは大幅に改善されました。 Swin, CSWin, EfficientNet B7 モデルの完全なパイプラインは、プライベートなリーダーボードで 0.4907 を獲得し、コンペで2位になるのに役立ちます。

As Transformer-based architectures have recently shown encouraging progresses in computer vision. In this work, we present the solution to the Google Landmark Recognition 2021 Challenge held on Kaggle, which is an improvement on our last year's solution by changing three designs, including (1) Using Swin and CSWin as backbone for feature extraction, (2) Train on full GLDv2, and (3) Using full GLDv2 images as index image set for kNN search. With these modifications, our solution significantly improves last year solution on this year competition. Our full pipeline, after ensembling Swin, CSWin, EfficientNet B7 models, scores 0.4907 on the private leaderboard which help us to get the 2nd place in the competition.
翻訳日:2021-10-07 14:25:33 公開日:2021-10-06
# ロングテール分布適応

Long-tailed Distribution Adaptation ( http://arxiv.org/abs/2110.02686v1 )

ライセンス: Link先を確認
Zhiliang Peng, Wei Huang, Zonghao Guo, Xiaosong Zhang, Jianbin Jiao, Qixiang Ye(参考訳) ロングテール分布を持つ画像を認識することは、この問題を解決するための解釈可能なメカニズムが欠けているにもかかわらず、依然として困難な問題である。 本研究では,ロングテール分布を不均衡領域として,一般分布を均衡領域としてモデル化し,ロングテール認識をドメイン適応(lda)として定式化する。 均衡領域内では、不均衡領域と平衡領域の実証的リスクとそれらの間のばらつきに基づいて定義される一般化誤差境界のスラック化を提案する。 非平衡領域と平衡領域の実証的リスクを共同で最適化し,クラス間距離とクラス間距離によるドメインの発散を近似し,ロングテール分布を一般化分布に適用する手法を提案する。 画像認識、オブジェクト検出、インスタンスセグメンテーションのためのベンチマークデータセットの実験では、LDAアプローチは解釈可能性を超えて、最先端のパフォーマンスを実現する。 コードはhttps://github.com/pengzhiliang/ldaで入手できる。

Recognizing images with long-tailed distributions remains a challenging problem while there lacks an interpretable mechanism to solve this problem. In this study, we formulate Long-tailed recognition as Domain Adaption (LDA), by modeling the long-tailed distribution as an unbalanced domain and the general distribution as a balanced domain. Within the balanced domain, we propose to slack the generalization error bound, which is defined upon the empirical risks of unbalanced and balanced domains and the divergence between them. We propose to jointly optimize empirical risks of the unbalanced and balanced domains and approximate their domain divergence by intra-class and inter-class distances, with the aim to adapt models trained on the long-tailed distribution to general distributions in an interpretable way. Experiments on benchmark datasets for image recognition, object detection, and instance segmentation validate that our LDA approach, beyond its interpretability, achieves state-of-the-art performance. Code is available at https://github.com/pengzhiliang/LDA.
翻訳日:2021-10-07 14:25:16 公開日:2021-10-06
# 局所視覚摂動に対する可逆的逆例

Reversible adversarial examples against local visual perturbation ( http://arxiv.org/abs/2110.02700v1 )

ライセンス: Link先を確認
Zhaoxia Yin, Li Chen, and Shaowei Zhu(参考訳) 近年、敵対的攻撃がディープラーニングシステムに脅威をもたらすことが研究で示されている。 しかし、敵対的な例のみが存在する場合、原画像は入手できないため、可逆的な敵対攻撃に関する研究がある。 しかし、既存の戦略は目に見えない逆境の摂動を目標としており、局所的に見える逆境の摂動を考慮しない。 本稿では、局所的な視覚的対向摂動に対する可逆的対向的例を生成し、可逆的データ埋め込み技術を用いて、原画像の復元に必要な情報を逆向的例に埋め込んで、逆向的かつ逆向的な例を生成する。 ImageNetデータセットの実験では,攻撃能力を確保しつつ,元の画像を損失なく復元できることが示されている。

Recently, studies have indicated that adversarial attacks pose a threat to deep learning systems. However, when there are only adversarial examples, people cannot get the original images, so there is research on reversible adversarial attacks. However, the existing strategies are aimed at invisible adversarial perturbation, and do not consider the case of locally visible adversarial perturbation. In this article, we generate reversible adversarial examples for local visual adversarial perturbation, and use reversible data embedding technology to embed the information needed to restore the original image into the adversarial examples to generate examples that are both adversarial and reversible. Experiments on ImageNet dataset show that our method can restore the original image losslessly while ensuring the attack capability.
翻訳日:2021-10-07 14:24:57 公開日:2021-10-06
# googleのランドマーク認識競争、2021年の3位に

3rd Place Solution to Google Landmark Recognition Competition 2021 ( http://arxiv.org/abs/2110.02794v1 )

ライセンス: Link先を確認
Cheng Xu, Weimin Wang, Shuai Liu, Yong Wang, Yuxiang Tang, Tianling Bian, Yanyu Yan, Qi She, Cheng Yang(参考訳) 本稿では,google landmark recognition 2021 コンペティションに対する我々の解決策を示す。 まず、画像の埋め込みは様々なアーキテクチャ(CNN-、Transformer-、ハイブリッドベース)を通して抽出され、ArcFaceロスによって最適化される。 次に,分類ロジットと非ランドマークトラクタによる検索スコアの調整により,予測の再ランクに効率的なパイプラインを適用する。 最後に、アンサンブルされたモデルはプライベートリーダーボードで0.489点を獲得し、2021年のGoogle Landmark Recognition Competitionで3位を獲得した。

In this paper, we show our solution to the Google Landmark Recognition 2021 Competition. Firstly, embeddings of images are extracted via various architectures (i.e. CNN-, Transformer- and hybrid-based), which are optimized by ArcFace loss. Then we apply an efficient pipeline to re-rank predictions by adjusting the retrieval score with classification logits and non-landmark distractors. Finally, the ensembled model scores 0.489 on the private leaderboard, achieving the 3rd place in the 2021 edition of the Google Landmark Recognition Competition.
翻訳日:2021-10-07 14:24:44 公開日:2021-10-06
# 変分イメージングのための1次加速法

Accelerated First Order Methods for Variational Imaging ( http://arxiv.org/abs/2110.02813v1 )

ライセンス: Link先を確認
Joseph Bartlett, Jinming Duan(参考訳) 本論文では,変動画像問題に使用される異なる正規化項と,これらの問題の詳細な最適化過程について徹底的に検討する。 まず,tikhonov denoising と total variation (tv) という形式で,スムース問題と部分的非スムース問題をそれぞれ検討した。 Tikhonov denoisingでは、適応的な再起動を伴う加速勾配法について検討し、非常に高速な収束率を示す。 しかし、この高速なアルゴリズムは、内蔵された正規化の非滑らかさのため、テレビのデノーミングに適用することは容易ではない。 この問題に対処するために,このような非スムース問題を平滑な問題に変換するために,再スタートによる高速化勾配法が自然に適用されるように双対性を活用することを提案する。 しかし、TikhonovとTVのレギュラー化には、それぞれ、ぼやけた画像のエッジと階段のアーチファクトという形で欠点がある。 これらの欠点を克服するために, エッジを保持するとともに, 階段のアーチファクトを含む結果が得られないTSV(Total Smooth Variation)と呼ばれる, TGV(Total Generalized Variation)正則化への新たな適応を提案する。 TSV を効果的に最適化するために,適応的再起動技術を利用した Accelerated Proximal Gradient Algorithm (APGA) を提案する。 既存の最先端の正規化(TVなど)と比較すると、TSVはより効果的なノイズ除去効果と、MRI(MRI)再構成や光フローなどの高度な画像応用が得られる。 TSVはテレビレギュラー化時に観測される階段のアーチファクトを除去するが、Nesterov加速度とアダプティブ再起動による勾配法を用いて効率よく最適化できるTGVよりも利点がある。 コードはhttps://github.com/Jbartlett6/Accelerated-First-Order-Method-for-Variational-Imagingで入手できる。

In this thesis, we offer a thorough investigation of different regularisation terms used in variational imaging problems, together with detailed optimisation processes of these problems. We begin by studying smooth problems and partially non-smooth problems in the form of Tikhonov denoising and Total Variation (TV) denoising, respectively. For Tikhonov denoising, we study an accelerated gradient method with adaptive restart, which shows a very rapid convergence rate. However, it is not straightforward to apply this fast algorithm to TV denoising, due to the non-smoothness of its built-in regularisation. To tackle this issue, we propose to utilise duality to convert such a non-smooth problem into a smooth one so that the accelerated gradient method with restart applies naturally. However, we notice that both Tikhonov and TV regularisations have drawbacks, in the form of blurred image edges and staircase artefacts, respectively. To overcome these drawbacks, we propose a novel adaption to Total Generalised Variation (TGV) regularisation called Total Smooth Variation (TSV), which retains edges and meanwhile does not produce results which contain staircase artefacts. To optimise TSV effectively, we then propose the Accelerated Proximal Gradient Algorithm (APGA) which also utilises adaptive restart techniques. Compared to existing state-of-the-art regularisations (e.g. TV), TSV is shown to obtain more effective results on denoising problems as well as advanced imaging applications such as magnetic resonance imaging (MRI) reconstruction and optical flow. TSV removes the staircase artefacts observed when using TV regularisation, but has the added advantage over TGV that it can be efficiently optimised using gradient based methods with Nesterov acceleration and adaptive restart. Code is available at https://github.com/Jbartlett6/Accelerated-First-Order-Method-for-Variational-Imaging.
翻訳日:2021-10-07 14:24:33 公開日:2021-10-06
# 意味的予測: どちらが先か、認識か、予測か?

Semantic Prediction: Which One Should Come First, Recognition or Prediction? ( http://arxiv.org/abs/2110.02829v1 )

ライセンス: Link先を確認
Hafez Farazi and Jan Nogga and and Sven Behnke(参考訳) ビデオ予測の最終的な目標は、いくつかのフレームから将来のピクセル値を予測することではない。 むしろ、ビデオ予測の最終的な目標は、大量のラベルのないビデオデータから、下流タスクの自己教師あり方式で貴重な内部表現を見つけることである。 下流の主なタスクの1つは、シーンのセマンティックな構成を解釈し、意思決定にそれを使用することである。 例えば、人間の動きを予測することで、観察者は人間の活動を予測し、共有ワークスペースで協力することができる。 事前学習されたビデオ予測と事前学習された意味抽出モデルによって、同じ結果を達成するには2つの主要な方法がある。 ビデオ予測モデルとしてlfdtn(local frequency domain transformer network)、合成データおよび実データを用いた意味抽出モデルとしてu-netを用いてこれらの構成を検討する。

The ultimate goal of video prediction is not forecasting future pixel-values given some previous frames. Rather, the end goal of video prediction is to discover valuable internal representations from the vast amount of available unlabeled video data in a self-supervised fashion for downstream tasks. One of the primary downstream tasks is interpreting the scene's semantic composition and using it for decision-making. For example, by predicting human movements, an observer can anticipate human activities and collaborate in a shared workspace. There are two main ways to achieve the same outcome, given a pre-trained video prediction and pre-trained semantic extraction model; one can first apply predictions and then extract semantics or first extract semantics and then predict. We investigate these configurations using the Local Frequency Domain Transformer Network (LFDTN) as the video prediction model and U-Net as the semantic extraction model on synthetic and real datasets.
翻訳日:2021-10-07 14:23:56 公開日:2021-10-06
# 授業境界における意味的セグメンテーションのための教師なしドメイン適応

Shallow Features Guide Unsupervised Domain Adaptation for Semantic Segmentation at Class Boundaries ( http://arxiv.org/abs/2110.02833v1 )

ライセンス: Link先を確認
Adriano Cardace, Pierluigi Zama Ramirez, Samuele Salti, Luigi Di Stefano(参考訳) 深層ニューラルネットワークはセマンティックセグメンテーションのタスクにおいて顕著な結果を得たが、特に合成から現実への適応を行う場合、通常は新しいドメインへの一般化に失敗する。 このようなドメインシフトはクラス境界に沿って特に顕著であり、シャープなセグメンテーションマスクを取得するためのセグメンテーションの主な目標の1つを無効にする。 本研究では,教師なしドメイン適応という文脈において,この核となる問題に特に対処し,鋭い予測を得るための新しい低レベル適応戦略を提案する。 さらに,近年の自己学習技術に触発されて,自己学習に擬似ラベルを用いた場合のセマンティック境界におけるノイズを緩和する効果的なデータ拡張を導入する。 私たちのコントリビューションは、他の一般的な適応フレームワークに簡単に統合することができます。

Although deep neural networks have achieved remarkable results for the task of semantic segmentation, they usually fail to generalize towards new domains, especially when performing synthetic-to-real adaptation. Such domain shift is particularly noticeable along class boundaries, invalidating one of the main goals of semantic segmentation that consists in obtaining sharp segmentation masks. In this work, we specifically address this core problem in the context of Unsupervised Domain Adaptation and present a novel low-level adaptation strategy that allows us to obtain sharp predictions. Moreover, inspired by recent self-training techniques, we introduce an effective data augmentation that alleviates the noise typically present at semantic boundaries when employing pseudo-labels for self-training. Our contributions can be easily integrated into other popular adaptation frameworks, and extensive experiments show that they effectively improve performance along class boundaries.
翻訳日:2021-10-07 14:23:41 公開日:2021-10-06
# 画像ベース欠陥検出のための完全畳み込みクロススケールフロー

Fully Convolutional Cross-Scale-Flows for Image-based Defect Detection ( http://arxiv.org/abs/2110.02855v1 )

ライセンス: Link先を確認
Marco Rudolph, Tom Wehrbein, Bodo Rosenhahn, Bastian Wandt(参考訳) 工業生産プロセスでは、エラーは予測不能な時間と未知の表出で頻繁に発生する。 欠陥部分の画像サンプルを必要とせずに自動欠陥検出の問題に取り組む。 最近の研究は、強い統計的事前または過度に単純化されたデータ表現を用いて、欠陥のない画像データの分布をモデル化している。 対照的に,我々のアプローチでは,大域的および局所的な画像コンテキストを柔軟に推定しながら,細粒度表現を扱う。 そこで本研究では,異なるスケールの複数特徴写像を共同処理する,完全畳み込み型クロススケール正規化フロー(CS-Flow)を提案する。 正規化フローを使用して意味のある確率を入力サンプルに割り当てることで、画像レベルでの効率的な欠陥検出が可能になる。 さらに、保存空間配置のため、正規化フローの潜時空間を解釈可能とし、画像内の欠陥領域を局所化することができる。 本研究は,画像レベルの欠陥検出における新たな最先端をベンチマークデータセットに設定し,磁気タイル欠陥とmvtec adを15クラス中4クラスで100%aurocを示した。

In industrial manufacturing processes, errors frequently occur at unpredictable times and in unknown manifestations. We tackle the problem of automatic defect detection without requiring any image samples of defective parts. Recent works model the distribution of defect-free image data, using either strong statistical priors or overly simplified data representations. In contrast, our approach handles fine-grained representations incorporating the global and local image context while flexibly estimating the density. To this end, we propose a novel fully convolutional cross-scale normalizing flow (CS-Flow) that jointly processes multiple feature maps of different scales. Using normalizing flows to assign meaningful likelihoods to input samples allows for efficient defect detection on image-level. Moreover, due to the preserved spatial arrangement the latent space of the normalizing flow is interpretable which enables to localize defective regions in the image. Our work sets a new state-of-the-art in image-level defect detection on the benchmark datasets Magnetic Tile Defects and MVTec AD showing a 100% AUROC on 4 out of 15 classes.
翻訳日:2021-10-07 14:23:24 公開日:2021-10-06
# SDA-GAN: スペクトル領域注意誘導ジェネレータを用いた教師なし画像変換

SDA-GAN: Unsupervised Image Translation Using Spectral Domain Attention-Guided Generative Adversarial Network ( http://arxiv.org/abs/2110.02873v1 )

ライセンス: Link先を確認
Qizhou Wang, Maksim Makarenko(参考訳) この研究は、顔スタイル変換のタスクにおける教師なし画像翻訳のための新しいGANアーキテクチャを導入した。 画像内容に対する空間的注意とともに、スペクトル注意に基づくメカニズムを設計に組み込む。 ニューラルネットワークがフーリエ変換のような複雑な変換を、相当な計算コストで学習する可能性を実証した。 モデルは、空間的注意のみを使用するベースラインモデルと比較して訓練され、テストされる。 特にソースドメインとターゲットドメインが異なる複雑さを含んでいる場合(fidは142.84から49.18に低下)、このアプローチの性能改善は重要である。 翻訳過程では、fftの実装とスペクトルの注意によってスペクトル充填効果が導入された。 本論文では、別のスタイル転送タスクと実世界のオブジェクト変換についても検討する。

This work introduced a novel GAN architecture for unsupervised image translation on the task of face style transform. A spectral attention-based mechanism is embedded into the design along with spatial attention on the image contents. We proved that neural network has the potential of learning complex transformations such as Fourier transform, within considerable computational cost. The model is trained and tested in comparison to the baseline model, which only uses spatial attention. The performance improvement of our approach is significant especially when the source and target domain include different complexity (reduced FID to 49.18 from 142.84). In the translation process, a spectra filling effect was introduced due to the implementation of FFT and spectral attention. Another style transfer task and real-world object translation are also studied in this paper.
翻訳日:2021-10-07 14:23:11 公開日:2021-10-06
# 実監督のない把持型細粒布セグメンテーション

Grasp-Oriented Fine-grained Cloth Segmentation without Real Supervision ( http://arxiv.org/abs/2110.02903v1 )

ライセンス: Link先を確認
Ruijie Ren, Mohit Gurnani Rajesh, Jordi Sanchez-Riera, Fan Zhang, Yurun Tian, Antonio Agudo, Yiannis Demiris, Krystian Mikolajczyk and Francesc Moreno-Noguer(参考訳) 布操作において、一深度画像から把握可能な領域を自動的に検出することが重要な要素である。 布の変形の大きなばらつきは、局所領域の外観や深さの変化がより小さく、よりモデル化しやすいため、意味的部分よりも特定の把握点を特定することに集中する現在のアプローチのほとんどを動機付けている。 しかし、布の折り畳みや補助ドレッシングのようなタスクは、ポイントよりも多くの情報を運ぶセマンティックエッジのようなより大きなセグメントを認識する必要がある。 そこで本論文の第一の目的は, 深度画像のみを用いた変形衣服のきめ細かい領域検出問題に取り組むことである。 概念実証として,tシャツのアプローチを実装し,ネックライン,スリーブカフ,ヘムのエッジ,上下の把持点など,さまざまな範囲のセマンティック領域を最大6つ定義する。 これらの部品を分割・ラベル付けするためのU-netネットワークを導入する。 作業の第2の貢献は、提案されたネットワークのトレーニングに必要な監督レベルに関するものです。 実際のアノテーションと合成アノテーションを組み合わせることで、ほとんどのアプローチが把握ポイントを検出することを学ぶ一方で、本研究では合成データの制限を解消し、実際のアノテーションを使用しない多層化ドメイン適応(da)戦略を提案する。 細粒度ラベルを付加したTシャツの深度画像に対するアプローチを徹底的に評価した。 提案するdaと合成データのみでネットワークをトレーニングすることで,実データでトレーニングしたモデルと競合する結果が得られることを示す。

Automatically detecting graspable regions from a single depth image is a key ingredient in cloth manipulation. The large variability of cloth deformations has motivated most of the current approaches to focus on identifying specific grasping points rather than semantic parts, as the appearance and depth variations of local regions are smaller and easier to model than the larger ones. However, tasks like cloth folding or assisted dressing require recognising larger segments, such as semantic edges that carry more information than points. The first goal of this paper is therefore to tackle the problem of fine-grained region detection in deformed clothes using only a depth image. As a proof of concept, we implement an approach for T-shirts, and define up to 6 semantic regions of varying extent, including edges on the neckline, sleeve cuffs, and hem, plus top and bottom grasping points. We introduce a U-net based network to segment and label these parts. The second contribution of our work is concerned with the level of supervision that we require to train the proposed network. While most approaches learn to detect grasping points by combining real and synthetic annotations, in this work we defy the limitations of the synthetic data, and propose a multilayered domain adaptation (DA) strategy that does not use real annotations at all. We thoroughly evaluate our approach on real depth images of a T-shirt annotated with fine-grained labels. We show that training our network solely with synthetic data and the proposed DA yields results competitive with models trained on real data.
翻訳日:2021-10-07 14:23:01 公開日:2021-10-06
# 二重主成分探索によるRANSACの増強

Boosting RANSAC via Dual Principal Component Pursuit ( http://arxiv.org/abs/2110.02918v1 )

ライセンス: Link先を確認
Yunchen Yang, Xinyue Zhang, Tianjiao Ding, Daniel P. Robinson, Rene Vidal, Manolis C. Tsakiris(参考訳) 本稿では,RANSACにおける局所最適化の問題を再考する。 最善のモデルが見つかると、強力な理論支援と効率的なアルゴリズムを備えた頑健な部分空間学習手法であるdual principal component pursuit(dpcp)を通じて精錬する。 提案するdpcp-ransacは既存の手法に比べてパラメータが少なくスケーラブルである。 大規模データセットを用いた2次元ホモグラフ,基本および必須行列,および3次元ホモグラフテンソルの推定実験により,我々のアプローチは最先端の代替手法よりも一貫して精度が高いことが示された。

In this paper, we revisit the problem of local optimization in RANSAC. Once a so-far-the-best model has been found, we refine it via Dual Principal Component Pursuit (DPCP), a robust subspace learning method with strong theoretical support and efficient algorithms. The proposed DPCP-RANSAC has far fewer parameters than existing methods and is scalable. Experiments on estimating two-view homographies, fundamental and essential matrices, and three-view homographic tensors using large-scale datasets show that our approach consistently has higher accuracy than state-of-the-art alternatives.
翻訳日:2021-10-07 14:22:34 公開日:2021-10-06
# ボリュームサンプリングを用いた位相整合多視点顔推測

Topologically Consistent Multi-View Face Inference Using Volumetric Sampling ( http://arxiv.org/abs/2110.02948v1 )

ライセンス: Link先を確認
Tianye Li and Shichen Liu and Timo Bolkart and Jiayi Liu and Hao Li and Yajie Zhao(参考訳) 高忠実な顔のデジタル化ソリューションは、しばしば3次元再構成のための多視点ステレオ(MVS)技術と、アイデンティティや表現間の密接な対応を確立するための非厳密な登録ステップを組み合わせる。 一般的な問題は、MVSのステップ後に手動で掃除する必要があることだ。3Dスキャンは一般的にノイズやアウトリーチの影響を受けており、アーティストがきれいにする必要がある毛むくじゃらの表面領域を含んでいる。 さらに、メッシュ登録は極端な表情で失敗する傾向がある。 学習に基づくほとんどの手法は、強靭性を確保するために基礎となる3次元形態素モデル(3DMM)を用いるが、これは極端な表情の出力精度を制限する。 さらに、回帰アーキテクチャのグローバルなボトルネックは、基底の真理面に厳密に適合するメッシュを生成できない。 本研究では,3dmmを基盤とする明示的な表現ではなく,ボリューム表現を用いて,顔の識別や表現にトポロジ的に一貫性のあるメッシュを生成できる幾何推論フレームワークであるmulti-viewから,トポロジ的に一貫性のある顔であるtofuを提案する。 新たに開発したプログレッシブメッシュ生成ネットワークは,ジオメトリ対応の局所特徴から抽出した特徴量に顔のトポロジカル構造を埋め込む。 粗いアーキテクチャは、一貫したメッシュトポロジにおいて、密集した正確なメッシュ予測を容易にする。 さらにToFuは、細孔レベルの幾何学的詳細のための変位マップをキャプチャし、アルベドと特異反射マップという形で高品質なレンダリングを容易にする。 これらの高品質な資産は、アバターの作成、アニメーション、物理的にベースとしたスキンレンダリングのためのプロダクションスタジオで容易に利用することができる。 10k頂点を持つメッシュを計算するのに0.385秒しかかからず、最先端の幾何学的および対応的精度を示す。 コードとモデルは、https://tianyeli.github.io/tofuで研究目的に利用できる。

High-fidelity face digitization solutions often combine multi-view stereo (MVS) techniques for 3D reconstruction and a non-rigid registration step to establish dense correspondence across identities and expressions. A common problem is the need for manual clean-up after the MVS step, as 3D scans are typically affected by noise and outliers and contain hairy surface regions that need to be cleaned up by artists. Furthermore, mesh registration tends to fail for extreme facial expressions. Most learning-based methods use an underlying 3D morphable model (3DMM) to ensure robustness, but this limits the output accuracy for extreme facial expressions. In addition, the global bottleneck of regression architectures cannot produce meshes that tightly fit the ground truth surfaces. We propose ToFu, Topologically consistent Face from multi-view, a geometry inference framework that can produce topologically consistent meshes across facial identities and expressions using a volumetric representation instead of an explicit underlying 3DMM. Our novel progressive mesh generation network embeds the topological structure of the face in a feature volume, sampled from geometry-aware local features. A coarse-to-fine architecture facilitates dense and accurate facial mesh predictions in a consistent mesh topology. ToFu further captures displacement maps for pore-level geometric details and facilitates high-quality rendering in the form of albedo and specular reflectance maps. These high-quality assets are readily usable by production studios for avatar creation, animation and physically-based skin rendering. We demonstrate state-of-the-art geometric and correspondence accuracy, while only taking 0.385 seconds to compute a mesh with 10K vertices, which is three orders of magnitude faster than traditional techniques. The code and the model are available for research purposes at https://tianyeli.github.io/tofu.
翻訳日:2021-10-07 14:22:23 公開日:2021-10-06
# 非パラメトリック言語モデルにおける構造的局所性

Capturing Structural Locality in Non-parametric Language Models ( http://arxiv.org/abs/2110.02870v1 )

ライセンス: Link先を確認
Frank F. Xu, Junxian He, Graham Neubig, Vincent J. Hellendoorn(参考訳) 構造的局所性は現実世界のデータセットのユビキタスな特徴であり、データポイントはローカル階層に編成される。 テキスト内のトピッククラスタや、ソースコードリポジトリ内のプロジェクト階層などだ。 本稿では,非パラメトリック言語モデルにおけるこの構造的局所性を利用して,外部ソースから抽出された例を参照するシーケンスを生成する。 そこで本研究では,地域住民からサンプルを抽出する可能性を高める学習パラメータを付加することで,そのようなモデルに局所性情報を追加するための簡易かつ効果的な手法を提案する。 javaソースコードとwikipediaテキストの2つの異なるドメインでの実験では、局所性機能がこれらの機能にアクセスせずにモデルの有効性を向上させることが示されている。 また,局所性特徴がパフォーマンス向上にどのように寄与するか,また,従来の文脈的類似性指標だけでは局所性構造を把握できない理由についても分析した。

Structural locality is a ubiquitous feature of real-world datasets, wherein data points are organized into local hierarchies. Some examples include topical clusters in text or project hierarchies in source code repositories. In this paper, we explore utilizing this structural locality within non-parametric language models, which generate sequences that reference retrieved examples from an external source. We propose a simple yet effective approach for adding locality information into such models by adding learned parameters that improve the likelihood of retrieving examples from local neighborhoods. Experiments on two different domains, Java source code and Wikipedia text, demonstrate that locality features improve model efficacy over models without access to these features, with interesting differences. We also perform an analysis of how and where locality features contribute to improved performance and why the traditionally used contextual similarity metrics alone are not enough to grasp the locality structure.
翻訳日:2021-10-07 14:21:51 公開日:2021-10-06
# 非自己回帰型パラレルttにおける階層的韻律モデリングと制御

Hierarchical prosody modeling and control in non-autoregressive parallel neural TTS ( http://arxiv.org/abs/2110.02952v1 )

ライセンス: Link先を確認
Tuomo Raitio, Jiangchuan Li, Shreyas Seshadri(参考訳) ニューラルテキスト音声合成(TTS)は、自然な音声と区別できない音声を生成する。 しかし、合成音声は、より多彩な韻律変化ではなく、データベースの平均韻律スタイルを表すことが多い。 さらに、多くのモデルは出力の韻律を制御する能力に欠けており、同じテキスト入力に対して異なるスタイルを許さない。 本研究では,非自己回帰型並列型TTSモデルを用いて,粗さと細粒度の両方の音響特徴を階層的に調整し,直感的かつ有意義な韻律空間を学習する。 実験により, 発話方向のピッチ, ピッチ範囲, 時間, エネルギー, スペクトル傾きを階層的に調整した非自己回帰的TSモデルでは, 韻律次元を効果的に制御し, 多様な話し方を生成し, 単語強調制御が可能であり, ベースラインモデルに等しくあるいは良質な品質を維持した。

Neural text-to-speech (TTS) synthesis can generate speech that is indistinguishable from natural speech. However, the synthetic speech often represents the average prosodic style of the database instead of having more versatile prosodic variation. Moreover, many models lack the ability to control the output prosody, which does not allow for different styles for the same text input. In this work, we train a non-autoregressive parallel neural TTS model hierarchically conditioned on both coarse and fine-grained acoustic speech features to learn a latent prosody space with intuitive and meaningful dimensions. Experiments show that a non-autoregressive TTS model hierarchically conditioned on utterance-wise pitch, pitch range, duration, energy, and spectral tilt can effectively control each prosodic dimension, generate a wide variety of speaking styles, and provide word-wise emphasis control, while maintaining equal or better quality to the baseline model.
翻訳日:2021-10-07 14:21:36 公開日:2021-10-06
# スペクトルバイアスの実践 : 一般化における関数周波数の役割

Spectral Bias in Practice: The Role of Function Frequency in Generalization ( http://arxiv.org/abs/2110.02424v1 )

ライセンス: Link先を確認
Sara Fridovich-Keil, Raphael Gontijo-Lopes, Rebecca Roelofs(参考訳) 非常に表現力のある関数を表現できるにもかかわらず、SGDで訓練されたディープラーニングモデルは、驚くほどうまく一般化する単純で制約のあるソリューションを見つけるように思える。 ニューラルネットワークが低周波関数の学習を優先する傾向にあるスペクトルバイアスは、この現象の1つの可能な説明であるが、これまでのところ、スペクトルバイアスは理論モデルや単純な実験でのみ観察されている。 本研究では,現代の画像分類網におけるスペクトルバイアスを測定する手法を提案する。 これらのネットワークは実際にスペクトルバイアスを示しており、オーバーフィッティングを避けるのに十分な単純さを保ちながら、データの適合に十分な複雑性(高頻度)を持つネットワークとのバランスをうまく一般化する。 例えば、より大規模なモデルはより小さなモデルよりも高速に学習できることを実験的に示すが、明示的かつ暗黙的に多くの正規化形式がスペクトルバイアスを増幅し、高頻度の学習を遅らせる。 また, 機能周波数と画像周波数の相関について検討し, スペクトルバイアスが自然画像に分布する低周波数に敏感であることを見出した。 我々の研究は、画像分類に使用されるニューラルネットワークのスペクトル挙動の測定と制御を可能にし、なぜディープモデルが一般化されるのかを理解するためのステップである。

Despite their ability to represent highly expressive functions, deep learning models trained with SGD seem to find simple, constrained solutions that generalize surprisingly well. Spectral bias - the tendency of neural networks to prioritize learning low frequency functions - is one possible explanation for this phenomenon, but so far spectral bias has only been observed in theoretical models and simplified experiments. In this work, we propose methodologies for measuring spectral bias in modern image classification networks. We find that these networks indeed exhibit spectral bias, and that networks that generalize well strike a balance between having enough complexity(i.e. high frequencies) to fit the data while being simple enough to avoid overfitting. For example, we experimentally show that larger models learn high frequencies faster than smaller ones, but many forms of regularization, both explicit and implicit, amplify spectral bias and delay the learning of high frequencies. We also explore the connections between function frequency and image frequency and find that spectral bias is sensitive to the low frequencies prevalent in natural images. Our work enables measuring and ultimately controlling the spectral behavior of neural networks used for image classification, and is a step towards understanding why deep models generalize well
翻訳日:2021-10-07 14:20:28 公開日:2021-10-06
# 高度蒸留によるオンラインハイパーパラメータメタラーニング

Online Hyperparameter Meta-Learning with Hypergradient Distillation ( http://arxiv.org/abs/2110.02508v1 )

ライセンス: Link先を確認
Hae Beom Lee, Hayeon Lee, Jaewoong Shin, Eunho Yang, Timothy Hospedales, Sung Ju Hwang(参考訳) 多くの勾配に基づくメタラーニング手法は、内部最適化に関与しないパラメータの集合を仮定しており、超パラメータと見なすことができる。 このようなハイパーパラメータは、既存の勾配に基づくハイパーパラメータ最適化(HO)手法を用いて最適化できるが、以下の問題に悩まされる。 非ローリング微分法は高次元超パラメータやホライズン長に対してうまくスケールせず、暗黙関数定理(ift)に基づく手法はオンライン最適化に制限があり、短地平線近似は短地平線バイアスを負う。 本研究では, 知識蒸留による2次項の近似により, これらの限界を克服できる新しいHO法を提案する。 具体的には、hoステップごとに単一のjacob-vector積(jvp)をパラメータ化し、真の二階項からの距離を最小化する。 本手法はオンライン最適化が可能であり,ハイパーパラメータ次元や水平長にもスケーラブルである。 本稿では,2つのメタ学習手法と3つのベンチマークデータセットに対する提案手法の有効性を示す。

Many gradient-based meta-learning methods assume a set of parameters that do not participate in inner-optimization, which can be considered as hyperparameters. Although such hyperparameters can be optimized using the existing gradient-based hyperparameter optimization (HO) methods, they suffer from the following issues. Unrolled differentiation methods do not scale well to high-dimensional hyperparameters or horizon length, Implicit Function Theorem (IFT) based methods are restrictive for online optimization, and short horizon approximations suffer from short horizon bias. In this work, we propose a novel HO method that can overcome these limitations, by approximating the second-order term with knowledge distillation. Specifically, we parameterize a single Jacobian-vector product (JVP) for each HO step and minimize the distance from the true second-order term. Our method allows online optimization and also is scalable to the hyperparameter dimension and the horizon length. We demonstrate the effectiveness of our method on two different meta-learning methods and three benchmark datasets.
翻訳日:2021-10-07 14:20:06 公開日:2021-10-06
# 知識グラフにおけるルール学習のトポロジ的視点

A Topological View of Rule Learning in Knowledge Graphs ( http://arxiv.org/abs/2110.02510v1 )

ライセンス: Link先を確認
Zuoyu Yan, Tengfei Ma, Liangcai Gao, Zhi Tang, Chao Chen(参考訳) 帰納的関係予測は知識グラフ補完の重要な学習課題である。 規則の存在、すなわち関係の列を2つの実体の間の関係を予測するのに用いることができる。 以前の作業ではルールをパスとして捉えており、主にエンティティ間のパスの検索に重点を置いている。 パスの空間は巨大であり、効率と正確性を犠牲にしなければならない。 本稿では,知識グラフの規則をサイクルとして考慮し,サイクルの空間が代数トポロジーの理論に基づく一意的な構造を持つことを示す。 サイクル空間の線形構造を探索することで、ルールの探索効率を向上させることができる。 サイクルの空間にまたがるサイクルベースを収集することを提案する。 収集サイクル上に新しいGNNフレームワークを構築し,サイクルの表現を学習し,関連性の有無を予測する。 本手法は,ベンチマークによる最先端性能を実現する。

Inductive relation prediction is an important learning task for knowledge graph completion. One can use the existence of rules, namely a sequence of relations, to predict the relation between two entities. Previous works view rules as paths and primarily focus on the searching of paths between entities. The space of paths is huge, and one has to sacrifice either efficiency or accuracy. In this paper, we consider rules in knowledge graphs as cycles and show that the space of cycles has a unique structure based on the theory of algebraic topology. By exploring the linear structure of the cycle space, we can improve the searching efficiency of rules. We propose to collect cycle bases that span the space of cycles. We build a novel GNN framework on the collected cycles to learn the representations of cycles, and to predict the existence/non-existence of a relation. Our method achieves state-of-the-art performance on benchmarks.
翻訳日:2021-10-07 14:19:48 公開日:2021-10-06
# 深層強化学習によるピックアップ・デリバリー問題を解決するための異種注意

Heterogeneous Attentions for Solving Pickup and Delivery Problem via Deep Reinforcement Learning ( http://arxiv.org/abs/2110.02634v1 )

ライセンス: Link先を確認
Jingwen Li, Liang Xin, Zhiguang Cao, Andrew Lim, Wen Song, Jie Zhang(参考訳) 近年,車両経路問題(vrp)に深層強化学習を適用し,学習方針が来訪ノードの選択を規定するトレンドが浮上している。 しかし,vrpの代表的な変種であるピックアップ・アンド・デリバリー問題(pdp)では,既存の手法ではペアリングと優先関係をうまく扱えなかった。 この課題に対処するために,我々は,異種注意機構と統合した新しいニューラルネットワークを用いて,深層強化学習におけるポリシーの強化とノードの自動選択を行う。 特に、不均質な注意機構は、優先制約、すなわち、ピックアップノードがペアリング配信ノードを先取りしなければならないことを考慮しながら、ノードの役割毎の注意を特別に規定する。 さらにマスキング手法と統合し,PDPを解くための高品質な解を見つけることが期待される。 実験結果から,本手法は最先端のヒューリスティックモデルと深層学習モデルより優れ,各分布や問題サイズによく対応していることがわかった。

Recently, there is an emerging trend to apply deep reinforcement learning to solve the vehicle routing problem (VRP), where a learnt policy governs the selection of next node for visiting. However, existing methods could not handle well the pairing and precedence relationships in the pickup and delivery problem (PDP), which is a representative variant of VRP. To address this challenging issue, we leverage a novel neural network integrated with a heterogeneous attention mechanism to empower the policy in deep reinforcement learning to automatically select the nodes. In particular, the heterogeneous attention mechanism specifically prescribes attentions for each role of the nodes while taking into account the precedence constraint, i.e., the pickup node must precede the pairing delivery node. Further integrated with a masking scheme, the learnt policy is expected to find higher-quality solutions for solving PDP. Extensive experimental results show that our method outperforms the state-of-the-art heuristic and deep learning model, respectively, and generalizes well to different distributions and problem sizes.
翻訳日:2021-10-07 14:19:36 公開日:2021-10-06
# Anomaly Transformer:Associated Discrepancyによる時系列異常検出

Anomaly Transformer: Time Series Anomaly Detection with Association Discrepancy ( http://arxiv.org/abs/2110.02642v1 )

ライセンス: Link先を確認
Jiehui Xu, Haixu Wu, Jianmin Wang, Mingsheng Long(参考訳) 時系列における異常点の教師なし検出は困難であり、情報表現を学習し、区別可能な基準を導出する必要がある。 先行手法は主に各時点の繰り返しネットワーク表現に基づいて異常を検出する。 しかし、ポイントワイズ表現は複雑な時間的パターンに対しては情報が少なく、通常のパターンに支配され、稀な異常を区別しにくくする。 各時系列において、各時間点を全ての時間点と関連付けて記述することができ、時間的モデリングにより表現力のある点的分布として表すことができる。 さらに, 異常の希少性のため, 系列全体と強い関連性を構築することは困難であり, 関連性は主に隣接点に集中していることが観察された。 この観察は、通常の点と異常点の間に本質的に区別可能な基準を示しており、これは \emph{Association Discrepancy} として強調する。 技術的には,関係の一致を計算するために,emph{Anomaly-Attention} 機構を備えた \emph{Anomaly-Transformer} を提案する。 相関不一致の正常-異常識別性を増幅するミニマックス戦略を考案した。 Anomaly Transformerは、サービス監視、スペース・アンド・アース探査、水処理の6つの非教師なし時系列異常検出ベンチマークで最先端のパフォーマンスを達成する。

Unsupervisedly detecting anomaly points in time series is challenging, which requires the model to learn informative representations and derive a distinguishable criterion. Prior methods mainly detect anomalies based on the recurrent network representation of each time point. However, the point-wise representation is less informative for complex temporal patterns and can be dominated by normal patterns, making rare anomalies less distinguishable. We find that in each time series, each time point can also be described by its associations with all time points, presenting as a point-wise distribution that is more expressive for temporal modeling. We further observe that due to the rarity of anomalies, it is harder for anomalies to build strong associations with the whole series and their associations shall mainly concentrate on the adjacent time points. This observation implies an inherently distinguishable criterion between normal and abnormal points, which we highlight as the \emph{Association Discrepancy}. Technically we propose the \emph{Anomaly Transformer} with an \emph{Anomaly-Attention} mechanism to compute the association discrepancy. A minimax strategy is devised to amplify the normal-abnormal distinguishability of the association discrepancy. Anomaly Transformer achieves state-of-the-art performance on six unsupervised time series anomaly detection benchmarks for three applications: service monitoring, space \& earth exploration, and water treatment.
翻訳日:2021-10-07 14:19:16 公開日:2021-10-06
# 半緩和グロモフ・ワッサーシュタイン発散とグラフへの応用

Semi-relaxed Gromov Wasserstein divergence with applications on graphs ( http://arxiv.org/abs/2110.02753v1 )

ライセンス: Link先を確認
C\'edric Vincent-Cuaz, R\'emi Flamary, Marco Corneli, Titouan Vayer, Nicolas Courty(参考訳) グラフなどの構造化オブジェクトを比較することは、多くの学習タスクに関わる基本的な操作である。 この目的のために、最適輸送(OT)に基づくGromov-Wasserstein(GW)距離は、関連する対象の特定の性質を扱うことに成功している。 具体的には、ノード接続関係を通じて、GWは特定の空間上の確率測度と見なされるグラフ上で機能する。 OTの中核は質量保存の概念であり、2つの考慮されたグラフから全てのノード間の結合を課す。 本稿では,この性質はグラフ辞書や分割学習などのタスクに有害であり,新たな半相対型gromov-wassersteinダイバージェンスを提案することで緩和する。 直接計算の利点はさておき,その性質を議論し,効率的なグラフ辞書学習アルゴリズムに導くことができることを示す。 分割、クラスタリング、補完といったグラフ上の複雑なタスクに対する関連性を実証的に示す。

Comparing structured objects such as graphs is a fundamental operation involved in many learning tasks. To this end, the Gromov-Wasserstein (GW) distance, based on Optimal Transport (OT), has proven to be successful in handling the specific nature of the associated objects. More specifically, through the nodes connectivity relations, GW operates on graphs, seen as probability measures over specific spaces. At the core of OT is the idea of conservation of mass, which imposes a coupling between all the nodes from the two considered graphs. We argue in this paper that this property can be detrimental for tasks such as graph dictionary or partition learning, and we relax it by proposing a new semi-relaxed Gromov-Wasserstein divergence. Aside from immediate computational benefits, we discuss its properties, and show that it can lead to an efficient graph dictionary learning algorithm. We empirically demonstrate its relevance for complex tasks on graphs such as partitioning, clustering and completion.
翻訳日:2021-10-07 14:18:53 公開日:2021-10-06
# 表現学習を用いたセンサス非依存人口推定

Census-Independent Population Estimation using Representation Learning ( http://arxiv.org/abs/2110.02839v1 )

ライセンス: Link先を確認
Isaac Neal and Sohan Seth and Gary Watmough and Mamadou S. Diallo(参考訳) 人口分布の知識は、インフラの構築、資源の分配、持続可能な開発目標の進捗の監視に不可欠である。 国勢調査はこの情報を提供することができるが、通常は10年に1度実施され、その過程は数十年続く。 人口は、急激な移住、開発、都市化、自然災害、紛争によってインターセンサル期に変化しうる。 衛星画像などの代替データソースを用いた国勢調査非依存人口推定アプローチは、頻繁で信頼性の高い人口推定をローカルに提供することに有望である。 しかし、既存のアプローチでは、ビルの注釈付けや様々な公共データセットへのアクセスなど、人間の監督がかなり必要であり、容易に再現できない。 モザンビークでは,近年の表現学習のアプローチを検討し,表現の人口推定への移動可能性を評価する。 表現学習を使用することで、特徴が自動的に抽出されるため、人口推定のプロセスがより持続可能になり、他の地域や国に移動しやすくなるため、人間の監督が要求される。 得られた人口推計をGRID3, Facebook (HRSL) および WorldPop の既存人口製品と比較した。 我々は,本手法がこれらの地図の最も正確なものであることを観察し,人口の情報的指標として構築された地域を認識できるという意味で解釈できる。

Knowledge of population distribution is critical for building infrastructure, distributing resources, and monitoring the progress of sustainable development goals. Although censuses can provide this information, they are typically conducted every ten years with some countries having forgone the process for several decades. Population can change in the intercensal period due to rapid migration, development, urbanisation, natural disasters, and conflicts. Census-independent population estimation approaches using alternative data sources, such as satellite imagery, have shown promise in providing frequent and reliable population estimates locally. Existing approaches, however, require significant human supervision, for example annotating buildings and accessing various public datasets, and therefore, are not easily reproducible. We explore recent representation learning approaches, and assess the transferability of representations to population estimation in Mozambique. Using representation learning reduces required human supervision, since features are extracted automatically, making the process of population estimation more sustainable and likely to be transferable to other regions or countries. We compare the resulting population estimates to existing population products from GRID3, Facebook (HRSL) and WorldPop. We observe that our approach matches the most accurate of these maps, and is interpretable in the sense that it recognises built-up areas to be an informative indicator of population.
翻訳日:2021-10-07 14:18:34 公開日:2021-10-06
# 不確実性モデリングのための多重仮説予測を保存する分布

Distribution Preserving Multiple Hypotheses Prediction for Uncertainty Modeling ( http://arxiv.org/abs/2110.02858v1 )

ライセンス: Link先を確認
Tobias Leemann, Moritz Sackmann, J\"orn Thielecke, Ulrich Hofmann(参考訳) 力学系における将来の状態予測のような教師付き機械学習タスクの多くは、予測の不確実性の正確なモデリングを必要とする。 多重仮説予測(MHP)アプローチは、可能な結果を表すいくつかの仮説を提供することによってこの問題に対処する。 残念ながら、一般的な$l_2$損失関数では、これらの仮説はデータ分散の特性を保存しない。 我々は,分布保存mhpに対する代替損失を提案し,我々の主張を裏付ける関連する定理をレビューする。 さらに,本手法は,合成および実世界の動き予測データセット上でより代表的な仮説を導出することを示す。 提案手法の出力は, サンプリングに基づくモンテカルロ法で直接利用することができる。

Many supervised machine learning tasks, such as future state prediction in dynamical systems, require precise modeling of a forecast's uncertainty. The Multiple Hypotheses Prediction (MHP) approach addresses this problem by providing several hypotheses that represent possible outcomes. Unfortunately, with the common $l_2$ loss function, these hypotheses do not preserve the data distribution's characteristics. We propose an alternative loss for distribution preserving MHP and review relevant theorems supporting our claims. Furthermore, we empirically show that our approach yields more representative hypotheses on a synthetic and a real-world motion prediction data set. The outputs of the proposed method can directly be used in sampling-based Monte-Carlo methods.
翻訳日:2021-10-07 14:18:15 公開日:2021-10-06
# 時空間グラフニューラルネットワーク

Space-Time Graph Neural Networks ( http://arxiv.org/abs/2110.02880v1 )

ライセンス: Link先を確認
Samar Hadou, Charilaos I. Kanatsoulis, and Alejandro Ribeiro(参考訳) 時空間グラフニューラルネットワーク(ST-GNN)は,時間変動ネットワークデータの時空間トポロジを共同処理する新しいGNNアーキテクチャである。 提案アーキテクチャの基盤は時間とグラフの畳み込みフィルタの構成であり,その後に非線形活性化関数が現れる。 本稿では,信号の拡散過程を模倣した畳み込み演算子の汎用的定義を導入する。 この定義に基づいて、時間とグラフシフト演算子の合成に基づいて構築された時空間グラフ畳み込みを提案する。 多変量積分リプシッツフィルタを持つST-GNNは、基礎となるグラフの小さな摂動に対して安定であり、時間ゆらぎによる時間領域の小さな摂動に対しても安定であることを示す。 解析の結果,システムのネットワークトポロジと時間進化の変動はST-GNNの性能に大きく影響しないことがわかった。 分散制御システムによる数値実験は,提案したST-GNNの有効性と安定性を示す。

We introduce space-time graph neural network (ST-GNN), a novel GNN architecture, tailored to jointly process the underlying space-time topology of time-varying network data. The cornerstone of our proposed architecture is the composition of time and graph convolutional filters followed by pointwise nonlinear activation functions. We introduce a generic definition of convolution operators that mimic the diffusion process of signals over its underlying support. On top of this definition, we propose space-time graph convolutions that are built upon a composition of time and graph shift operators. We prove that ST-GNNs with multivariate integral Lipschitz filters are stable to small perturbations in the underlying graphs as well as small perturbations in the time domain caused by time warping. Our analysis shows that small variations in the network topology and time evolution of a system does not significantly affect the performance of ST-GNNs. Numerical experiments with decentralized control systems showcase the effectiveness and stability of the proposed ST-GNNs.
翻訳日:2021-10-07 14:18:06 公開日:2021-10-06
# マルチエージェント制約付き政策最適化

Multi-Agent Constrained Policy Optimisation ( http://arxiv.org/abs/2110.02793v1 )

ライセンス: Link先を確認
Shangding Gu, Jakub Grudzien Kuba, Munning Wen, Ruiqing Chen, Ziyan Wang, Zheng Tian, Jun Wang, Alois Knoll, Yaodong Yang(参考訳) 安全性の制約を満たす強化学習アルゴリズムの開発は、現実のアプリケーションではますます重要になっている。 マルチエージェント強化学習(MARL)では、各エージェントが自身の安全制約を満たすだけでなく、他のエージェントも共同行動の安全を保証するために考慮する必要があるため、安全意識を伴うポリシー最適化が特に困難である。 その重要性にもかかわらず、安全なマルチエージェント学習の問題は厳密には研究されていない。 これらのギャップを埋めるために、本稿では、制約付きマルコフゲームとして安全なMARL問題を定式化し、ポリシー最適化手法を用いて解決する。 我々のソリューション -- MACPO (Multi-Agent Constrained Policy Optimisation) とMAPPO-Lagrangian -- は、制約された政策最適化とマルチエージェント信頼領域学習の両方から理論を活用する。 本手法は,各イテレーションにおける報酬の単調な改善と安全制約の満足度の両方を理論的に保証する。 本手法の有効性を検討するため,多様なMARLベースラインを含むSafe Multi-Agent MuJoCoのベンチマークスイートを開発した。 実験結果からMACPO/MAPPO-Lagrangianは安全性の制約を一貫して満たすことができ、高いベースラインに匹敵する性能を達成できる。

Developing reinforcement learning algorithms that satisfy safety constraints is becoming increasingly important in real-world applications. In multi-agent reinforcement learning (MARL) settings, policy optimisation with safety awareness is particularly challenging because each individual agent has to not only meet its own safety constraints, but also consider those of others so that their joint behaviour can be guaranteed safe. Despite its importance, the problem of safe multi-agent learning has not been rigorously studied; very few solutions have been proposed, nor a sharable testing environment or benchmarks. To fill these gaps, in this work, we formulate the safe MARL problem as a constrained Markov game and solve it with policy optimisation methods. Our solutions -- Multi-Agent Constrained Policy Optimisation (MACPO) and MAPPO-Lagrangian -- leverage the theories from both constrained policy optimisation and multi-agent trust region learning. Crucially, our methods enjoy theoretical guarantees of both monotonic improvement in reward and satisfaction of safety constraints at every iteration. To examine the effectiveness of our methods, we develop the benchmark suite of Safe Multi-Agent MuJoCo that involves a variety of MARL baselines. Experimental results justify that MACPO/MAPPO-Lagrangian can consistently satisfy safety constraints, meanwhile achieving comparable performance to strong baselines.
翻訳日:2021-10-07 14:17:52 公開日:2021-10-06
# 分断空間における効率的かつ高品質な事前配置

Efficient and High-quality Prehensile Rearrangement in Cluttered and Confined Spaces ( http://arxiv.org/abs/2110.02814v1 )

ライセンス: Link先を確認
Rui Wang, Yinglong Miao, Kostas E. Bekris(参考訳) クラッタ空間と制約空間における物体の事前配置は広く応用されているが、これも困難である。 例えば、食料品や家庭用棚に商品を並べ替えることは、ロボットがすべてのオブジェクトに直接アクセスできず、自由スペースが限られていることを意味する。 これは、オブジェクトがトップダウングリップで容易にアクセスでき、ロボットとオブジェクトの相互作用が簡単になるテーブルトップアレンジメントよりも難しい。 この研究は、タスク完了にそのような相互作用が不可欠であり、再配置計画における最先端の結果を拡張する問題に焦点を当てる。 モノトンインスタンスの一般的な制約の下で、各オブジェクトを最大1回移動させることで解決できる新しい効率的で完全な解法を提案する。 モノトーンソルバは、ロボット対象の制約を理由とし、探索空間を効果的にプルーピングするためにそれらを使用する。 新しいモノトンソルバはグローバルプランナーと統合され、高品質なソリューションで非モノトンインスタンスを高速に解決する。 さらに,本研究は,拘束空間における再配置のための腕の動き計画の高速化に有効な前処理ツールを提供する。 この前処理ツールは、オンラインクエリ解決における大幅なスピードアップ(平均49.1%高速化)を提供する。 シミュレーションによる比較では、提案した単調解法は前処理ツールを備えており、57.3%の高速化と3倍の成功率を実現している。 同様に、結果のグローバルプランナーは計算効率が良く、より強力なモノトーンソルバと前処理ツールによって高い成功率を持ち、非モノトーンインスタンスの高品質なソリューションを生成する(つまり平均1.3バッファしか必要としない)。 実際のロボットシステムとコードのデモビデオはhttps://github.com/Rui1223/uniform_object_rearrangementで見ることができる。

Prehensile object rearrangement in cluttered and confined spaces has broad applications but is also challenging. For instance, rearranging products in a grocery or home shelf means that the robot cannot directly access all objects and has limited free space. This is harder than tabletop rearrangement where objects are easily accessible with top-down grasps, which simplifies robot-object interactions. This work focuses on problems where such interactions are critical for completing tasks and extends state-of-the-art results in rearrangement planning. It proposes a new efficient and complete solver under general constraints for monotone instances, which can be solved by moving each object at most once. The monotone solver reasons about robot-object constraints and uses them to effectively prune the search space. The new monotone solver is integrated with a global planner to solve non-monotone instances with high-quality solutions fast. Furthermore, this work contributes an effective pre-processing tool to speed up arm motion planning for rearrangement in confined spaces. The pre-processing tool provide significant speed-ups (49.1% faster on average) in online query resolution. Comparisons in simulations further demonstrate that the proposed monotone solver, equipped with the pre-processing tool, results in 57.3% faster computation and 3 times higher success rate than alternatives. Similarly, the resulting global planner is computationally more efficient and has a higher success rate given the more powerful monotone solver and the pre-processing tool, while producing high-quality solutions for non-monotone instances (i.e., only 1.3 buffers are needed on average). Videos of demonstrating solutions on a real robotic system and codes can be found at https://github.com/Rui1223/uniform_object_rearrangement.
翻訳日:2021-10-07 14:17:27 公開日:2021-10-06
# spell my name:キーワードによって音声認識が促進される

Spell my name: keyword boosted speech recognition ( http://arxiv.org/abs/2110.02791v1 )

ライセンス: Link先を確認
Namkyu Jung, Geonmin Kim, Joon Son Chung(参考訳) 会話を理解するには、名前や専門用語などの一般的でない単語の認識が重要である。 しかし、このような単語を認識する能力は、現代の自動音声認識(ASR)システムでは依然として課題である。 本稿では,これらの非共通なキーワードをよりよく認識し,その結果の可読性を向上する,シンプルだが強力なASR復号法を提案する。 本手法は,音響モデル予測に基づくビーム探索において与えられたキーワードの確率を高める。 この方法は事前の訓練を必要としない。 本稿では,本手法の有効性を実世界の会話の内部データとLibriSpeeechテストセットで示す。 提案手法は,他の単語の精度を保ちつつ,テストセットのキーワード精度を大幅に向上させるとともに,質的改善をもたらす。 この方法は、機械翻訳などの他のタスクにも適用でき、ビーム探索では、見当たらない、難しいキーワードを認識する必要がある。

Recognition of uncommon words such as names and technical terminology is important to understanding conversations in context. However, the ability to recognise such words remains a challenge in modern automatic speech recognition (ASR) systems. In this paper, we propose a simple but powerful ASR decoding method that can better recognise these uncommon keywords, which in turn enables better readability of the results. The method boosts the probabilities of given keywords in a beam search based on acoustic model predictions. The method does not require any training in advance. We demonstrate the effectiveness of our method on the LibriSpeeech test sets and also internal data of real-world conversations. Our method significantly boosts keyword accuracy on the test sets, while maintaining the accuracy of the other words, and as well as providing significant qualitative improvements. This method is applicable to other tasks such as machine translation, or wherever unseen and difficult keywords need to be recognised in beam search.
翻訳日:2021-10-07 14:16:30 公開日:2021-10-06
# TSN-CA:低照度画像強調のためのチャネル注意型2段階ネットワーク

TSN-CA: A Two-Stage Network with Channel Attention for Low-Light Image Enhancement ( http://arxiv.org/abs/2110.02477v1 )

ライセンス: Link先を確認
Xinxu Wei, Xianshi Zhang, Shisen Wang, Yanlin Huang, and Yongjie Li(参考訳) 低光度画像強調は、画像の明るさを高めた後、増幅ノイズ、色歪、ディテールロス、ぼやけたエッジ、シャドーブロック、haloアーティファクトに対処する必要があるため、挑戦的な低レベルのコンピュータビジョンタスクである。 本稿では,低照度画像の明るさを向上し,各種の劣化画像から高輝度画像を復元する,チャネル注意型2段階ネットワーク(TSN-CA)を提案する。 第1段階では、HSV空間における低照度画像の明るさを高め、HおよびSチャネルの情報を用いて、Vチャネルにおける詳細の回復を支援する。 第2段階では、RGB空間の深刻な劣化から輝度強調画像の復元のために、チャネル注意機構をU-Netのスキップ接続に統合する。 我々は,lol実世界および合成データセット上での提案モデルの性能を訓練し,評価する。 さらに、基盤となるデータなしで、他のよく使われるデータセットでモデルをテストします。 提案手法は,輝度向上,デノイジング,細部保存,haloアーティファクト除去に優れた効果を発揮することを示すため,広範な実験を行った。 本手法は他の多くの最先端手法よりも質的,定量的に優れている。

Low-light image enhancement is a challenging low-level computer vision task because after we enhance the brightness of the image, we have to deal with amplified noise, color distortion, detail loss, blurred edges, shadow blocks and halo artifacts. In this paper, we propose a Two-Stage Network with Channel Attention (denoted as TSN-CA) to enhance the brightness of the low-light image and restore the enhanced images from various kinds of degradation. In the first stage, we enhance the brightness of the low-light image in HSV space and use the information of H and S channels to help the recovery of details in V channel. In the second stage, we integrate Channel Attention (CA) mechanism into the skip connection of U-Net in order to restore the brightness-enhanced image from severe kinds of degradation in RGB space. We train and evaluate the performance of our proposed model on the LOL real-world and synthetic datasets. In addition, we test our model on several other commonly used datasets without Ground-Truth. We conduct extensive experiments to demonstrate that our method achieves excellent effect on brightness enhancement as well as denoising, details preservation and halo artifacts elimination. Our method outperforms many other state-of-the-art methods qualitatively and quantitatively.
翻訳日:2021-10-07 14:16:07 公開日:2021-10-06
# 自分自身の障害検出のために複数のタスクに参加すること

See Yourself in Others: Attending Multiple Tasks for Own Failure Detection ( http://arxiv.org/abs/2110.02549v1 )

ライセンス: Link先を確認
Boyang Sun, Jiaxu Xing, Hermann Blum, Roland Siegwart, Cesar Cadena(参考訳) 自律ロボットは、現実の環境で予期せぬシナリオを扱う。 入力画像が与えられた場合、意味セグメンテーション、深さ推定、正規推定など、様々な視覚知覚タスクを行うことができる。 これらの異なるタスクは、ロボット認識システム全体に豊富な情報を提供する。 すべてのタスクは、潜在的な相関を共有しながら、それぞれ独自の特性を持つ。 しかし、タスク予測の一部は、複雑なシーンや異常を扱う信頼性の欠如に悩まされている。 複数のタスク間の相関を利用して注意に基づく障害検出手法を提案する。 提案手法は,画像内の異なる領域に対する複数の視覚知覚タスク間の個人予測を評価することにより,タスク失敗を推定する。 評価の定式化は,マルチタスク不確実性推定による注意ネットワークとその予測誤差に基づいている。 提案手法は,異なるタスクの予測に対する予測誤差をより正確に推定する。

Autonomous robots deal with unexpected scenarios in real environments. Given input images, various visual perception tasks can be performed, e.g., semantic segmentation, depth estimation and normal estimation. These different tasks provide rich information for the whole robotic perception system. All tasks have their own characteristics while sharing some latent correlations. However, some of the task predictions may suffer from the unreliability dealing with complex scenes and anomalies. We propose an attention-based failure detection approach by exploiting the correlations among multiple tasks. The proposed framework infers task failures by evaluating the individual prediction, across multiple visual perception tasks for different regions in an image. The formulation of the evaluations is based on an attention network supervised by multi-task uncertainty estimation and their corresponding prediction errors. Our proposed framework generates more accurate estimations of the prediction error for the different task's predictions.
翻訳日:2021-10-07 14:15:44 公開日:2021-10-06
# 胸部x線画像における肺炎分類のための転送学習能力の検討

Study on Transfer Learning Capabilities for Pneumonia Classification in Chest-X-Rays Image ( http://arxiv.org/abs/2110.02780v1 )

ライセンス: Link先を確認
Danilo Avola, Andrea Bacciu, Luigi Cinque, Alessio Fagioli, Marco Raoul Marini, Riccardo Taiello(参考訳) 昨年、重症急性呼吸器症候群ウイルス(SARS-CoV-2)とその変異体は、新型コロナウイルスなどの新規疾患の診断精度の高いスクリーニングツールの重要性を強調した。 その意味で、深層学習アプローチは、特に胸部X線画像を考える場合、肺炎分類の有効な解決策として証明されている。 しかし、この肺感染症は、他のウイルス、細菌または真菌病原体によっても引き起こされる。 その結果、臨床医が正しい病原体の診断に役立てるために、感染源を区別する努力が注がれている。 この傾向に従い、本研究は、肺炎分類タスクにおける確立されたニューラルネットワークアーキテクチャの有効性を、トランスファー学習パラダイムを通じてさらに探究する。 本研究の包括的比較として,精細に調整し,健常者の胸部x線像と,ウイルス性肺炎(総称またはsars-cov-2)または細菌由来の肺炎像の鑑別に用いた。 さらに、これらのカテゴリを区別する共通の公開コレクションが現在利用できないため、上記のソースを記述した胸部X線画像の2つの異なるデータセットを組み合わせて、様々なアーキテクチャの評価を行った。 実験は、列車、バリデーション、テストセットを分割した合計6330枚の画像を用いて行われた。 すべてのモデルにおいて、一般的な分類基準(例えば、精度、f1スコア)が計算され、ほとんどのアーキテクチャは、4つの識別されたクラスを識別すると84.46%の平均f1スコアまで到達した。 さらに、Grad-CAMアルゴリズムを用いて計算した混乱行列とアクティベーションマップも報告し、ネットワーク分類に関する情報交換を行った。

Over the last year, the severe acute respiratory syndrome coronavirus-2 (SARS-CoV-2) and its variants have highlighted the importance of screening tools with high diagnostic accuracy for new illnesses such as COVID-19. To that regard, deep learning approaches have proven as effective solutions for pneumonia classification, especially when considering chest-x-rays images. However, this lung infection can also be caused by other viral, bacterial or fungi pathogens. Consequently, efforts are being poured toward distinguishing the infection source to help clinicians to diagnose the correct disease origin. Following this tendency, this study further explores the effectiveness of established neural network architectures on the pneumonia classification task through the transfer learning paradigm. To present a comprehensive comparison, 12 well-known ImageNet pre-trained models were fine-tuned and used to discriminate among chest-x-rays of healthy people, and those showing pneumonia symptoms derived from either a viral (i.e., generic or SARS-CoV-2) or bacterial source. Furthermore, since a common public collection distinguishing between such categories is currently not available, two distinct datasets of chest-x-rays images, describing the aforementioned sources, were combined and employed to evaluate the various architectures. The experiments were performed using a total of 6330 images split between train, validation and test sets. For all models, common classification metrics were computed (e.g., precision, f1-score) and most architectures obtained significant performances, reaching, among the others, up to 84.46% average f1-score when discriminating the 4 identified classes. Moreover, confusion matrices and activation maps computed via the Grad-CAM algorithm were also reported to present an informed discussion on the networks classifications.
翻訳日:2021-10-07 14:15:32 公開日:2021-10-06
# 深層学習に基づくオーディオインイメージ透かし方式

A Deep Learning-based Audio-in-Image Watermarking Scheme ( http://arxiv.org/abs/2110.02436v1 )

ライセンス: Link先を確認
Arjon Das, Xin Zhong(参考訳) 本稿では,深層学習に基づく音声画像透かし方式を提案する。 オーディオ・イン・イメージ・透かし(Audio-in-image watermarking)は、隠れた画像に音声の透かしを埋め込んで抽出する手法である。 オーディオ透かしを使うことで、さまざまな下流アプリケーションの可能性を開くことができる。 ますます多様な状況の要求に対応する画像内透かしを実装するために、ニューラルネットワークアーキテクチャは、教師なしの方法で自動的に透かしプロセスを学習するように設計されている。 さらに,歪み下での音響透かしを認識するために類似性ネットワークを構築し,提案手法の堅牢性を提供する。 提案する視覚障害者用透かし方式の信頼性とロバスト性が実験により示された。

This paper presents a deep learning-based audio-in-image watermarking scheme. Audio-in-image watermarking is the process of covertly embedding and extracting audio watermarks on a cover-image. Using audio watermarks can open up possibilities for different downstream applications. For the purpose of implementing an audio-in-image watermarking that adapts to the demands of increasingly diverse situations, a neural network architecture is designed to automatically learn the watermarking process in an unsupervised manner. In addition, a similarity network is developed to recognize the audio watermarks under distortions, therefore providing robustness to the proposed method. Experimental results have shown high fidelity and robustness of the proposed blind audio-in-image watermarking scheme.
翻訳日:2021-10-07 14:13:45 公開日:2021-10-06
# AIエージェントが動くターゲットにぶつかるのか?

Can an AI agent hit a moving target? ( http://arxiv.org/abs/2110.02474v1 )

ライセンス: Link先を確認
Rui (Aruhan) Shi(参考訳) 私たちが住んでいる経済は時間とともに進化しているため、モデル内の経済エージェントが環境の変化に適応できる期待を形成することが不可欠である。 このエクササイズは、学習と意思決定に関するコンピュータ科学、心理学、神経科学研究につながり、政策体制を変更した経済に適用する、もっともらしい予測形成モデルを提供する。 強化学習のアクター批判モデルを用いて、新鮮な環境で生まれたエージェントは、まず環境と対話することで学習する。 これには探索的行動と対応する刺激信号の観測が含まれる。 このインタラクティブな体験は、世界に対する主観的な信念を更新するために使われる。 いくつかのシミュレーション実験を通して、エージェントはインフレ目標の増大に直面した主観的信念を調整する。 さらに、主観的信念は、世界のエージェントの経験に応じて進化する。

As the economies we live in are evolving over time, it is imperative that economic agents in models form expectations that can adjust to changes in the environment. This exercise offers a plausible expectation formation model that connects to computer science, psychology and neural science research on learning and decision-making, and applies it to an economy with a policy regime change. Employing the actor-critic model of reinforcement learning, the agent born in a fresh environment learns through first interacting with the environment. This involves taking exploratory actions and observing the corresponding stimulus signals. This interactive experience is then used to update its subjective belief about the world. I show, through several simulation experiments, that the agent adjusts its subjective belief facing an increase of inflation target. Moreover, the subjective belief evolves according to the agent's experience in the world.
翻訳日:2021-10-07 14:13:31 公開日:2021-10-06
# 量子ニューラルネットワークにおける指数的に多くの局所最小値

Exponentially Many Local Minima in Quantum Neural Networks ( http://arxiv.org/abs/2110.02479v1 )

ライセンス: Link先を確認
Xuchen You, Xiaodi Wu(参考訳) 量子ニューラルネットワーク(QNN、Quantum Neural Networks)またはいわゆる変動量子回路は、古典的ニューラルネットワークと同様の約束と、短期的な中規模ノイズ量子マシン(NISQ)の実装の可能性の両方から重要な量子応用である。 しかし、QNNのトレーニングタスクは困難であり、あまり理解されていない。 我々は,QNNの損失関数のランドスケープを定量的に調査し,トレーニング用に単純だが極めて難しいQNNインスタンスのクラスを特定する。 具体的には,パラメータ数に比例して局所最小値が指数関数的に増加するような損失関数を誘導するデータセットが存在することを示す。 さらに、そのような依存にほぼ一致する上限を与えることにより、構築の最適性を示す。 古典的ニューラルネットワークの局所ミニマは非線形活性化によるものであるが、量子ニューラルネットワークの局所ミニマは量子干渉現象の結果として現れる。 最後に、我々の構造は、典型的な勾配に基づく最適化器で実際に難しい事例になり得ることを実証的に確認し、その結果の実用的価値を示す。

Quantum Neural Networks (QNNs), or the so-called variational quantum circuits, are important quantum applications both because of their similar promises as classical neural networks and because of the feasibility of their implementation on near-term intermediate-size noisy quantum machines (NISQ). However, the training task of QNNs is challenging and much less understood. We conduct a quantitative investigation on the landscape of loss functions of QNNs and identify a class of simple yet extremely hard QNN instances for training. Specifically, we show for typical under-parameterized QNNs, there exists a dataset that induces a loss function with the number of spurious local minima depending exponentially on the number of parameters. Moreover, we show the optimality of our construction by providing an almost matching upper bound on such dependence. While local minima in classical neural networks are due to non-linear activations, in quantum neural networks local minima appear as a result of the quantum interference phenomenon. Finally, we empirically confirm that our constructions can indeed be hard instances in practice with typical gradient-based optimizers, which demonstrates the practical value of our findings.
翻訳日:2021-10-07 14:13:18 公開日:2021-10-06
# 複雑なネットワークによる深層ニューラルネットワークの学習ダイナミクスのキャラクタリゼーション

Characterizing Learning Dynamics of Deep Neural Networks via Complex Networks ( http://arxiv.org/abs/2110.02628v1 )

ライセンス: Link先を確認
Emanuele La Malfa, Gabriele La Malfa, Giuseppe Nicosia, Vito Latora(参考訳) 本稿では,Deep Neural Networks with Complex Network Theoryについて述べる。 複素ネットワーク理論(CNT)は、ディープニューラルネットワーク(DNN)を重み付きグラフとして表現し、それらを動的システムとして研究する。 我々は、ノード/ニューロンとレイヤ、すなわちノード強度とレイヤ変動のメトリクスを導入し、異なる初期化とアーキテクチャでDNNの学習プロセスの進化を調べるために、CNT尺度を効率的に適用する。 本フレームワークは,学習力学のトレンドを抽出し,高精度ネットワークから低レベルを分離する。 ニューラルネットワーク(アンサンブル解析)と単一インスタンス(個別解析)の個体群を特徴付ける。 画像認識の標準問題に取り組み,リンク重み付け分析のみを通して解析すると,特定の学習ダイナミクスは区別できないことを示した。 さらに、ノードの強度と層変動は前例のない振る舞いを発生させる: 正確なネットワークは、訓練不足のモデルと比較すると、偏差が大きいほど実質的に異なる分布を示す。 本研究は,コンボリューショナルネットワークとフル接続ネットワークの両方に対して,CNTメトリクスの効率的な実装を提供することにより,この方向の研究を高速化する。

In this paper, we interpret Deep Neural Networks with Complex Network Theory. Complex Network Theory (CNT) represents Deep Neural Networks (DNNs) as directed weighted graphs to study them as dynamical systems. We efficiently adapt CNT measures to examine the evolution of the learning process of DNNs with different initializations and architectures: we introduce metrics for nodes/neurons and layers, namely Nodes Strength and Layers Fluctuation. Our framework distills trends in the learning dynamics and separates low from high accurate networks. We characterize populations of neural networks (ensemble analysis) and single instances (individual analysis). We tackle standard problems of image recognition, for which we show that specific learning dynamics are indistinguishable when analysed through the solely Link-Weights analysis. Further, Nodes Strength and Layers Fluctuations make unprecedented behaviours emerge: accurate networks, when compared to under-trained models, show substantially divergent distributions with the greater extremity of deviations. On top of this study, we provide an efficient implementation of the CNT metrics for both Convolutional and Fully Connected Networks, to fasten the research in this direction.
翻訳日:2021-10-07 14:12:57 公開日:2021-10-06
# 不均一容量車両経路問題を解決するための深層強化学習

Deep Reinforcement Learning for Solving the Heterogeneous Capacitated Vehicle Routing Problem ( http://arxiv.org/abs/2110.02629v1 )

ライセンス: Link先を確認
Jingwen Li, Yining Ma, Ruize Gao, Zhiguang Cao, Andrew Lim, Wen Song, Jie Zhang(参考訳) 既存の深層強化学習 (drl) に基づくキャパシタ付き車両ルーティング問題 (cvrp) の解法では、一台の車両の繰り返しとして艦隊が想定される均質な車両群に対応している。 したがって、ソリューションを構築するための鍵は、車両の選択を除いて、訪問する次のノード(顧客)の選択にある。 しかし、現実のシナリオにおける車両は、キャパシティ(または走行速度)に影響を与える異なる特徴を持つ異種である可能性が高いため、既存のDRLメソッドの効率は低下する。 本稿では,車種ごとに異なるキャパシティを特徴とする異種CVRP(HCVRP)について検討する。 我々は、車両の最長走行時間または総走行時間を最小化することを目的とした、hcvrpのmin-maxとmin-sumの両方の目的を考える。 これらの問題を解決するために,異種艦隊制約を考慮した車両選択デコーダと経路構成を考慮したノード選択デコーダとを用いた注意機構に基づくDRL手法を提案する。 ランダムに生成した実例に基づく実験結果から,本手法は現状のDRL法や従来のヒューリスティックスよりも優れた性能を示し,また,最先端のヒューリスティック法,すなわちSISRと競合する性能を示した。 さらに,拡張実験の結果から,本手法はCVRPLibインスタンスを良好な性能で解くことができることを示した。

Existing deep reinforcement learning (DRL) based methods for solving the capacitated vehicle routing problem (CVRP) intrinsically cope with homogeneous vehicle fleet, in which the fleet is assumed as repetitions of a single vehicle. Hence, their key to construct a solution solely lies in the selection of the next node (customer) to visit excluding the selection of vehicle. However, vehicles in real-world scenarios are likely to be heterogeneous with different characteristics that affect their capacity (or travel speed), rendering existing DRL methods less effective. In this paper, we tackle heterogeneous CVRP (HCVRP), where vehicles are mainly characterized by different capacities. We consider both min-max and min-sum objectives for HCVRP, which aim to minimize the longest or total travel time of the vehicle(s) in the fleet. To solve those problems, we propose a DRL method based on the attention mechanism with a vehicle selection decoder accounting for the heterogeneous fleet constraint and a node selection decoder accounting for the route construction, which learns to construct a solution by automatically selecting both a vehicle and a node for this vehicle at each step. Experimental results based on randomly generated instances show that, with desirable generalization to various problem sizes, our method outperforms the state-of-the-art DRL method and most of the conventional heuristics, and also delivers competitive performance against the state-of-the-art heuristic method, i.e., SISR. Additionally, the results of extended experiments demonstrate that our method is also able to solve CVRPLib instances with satisfactory performance.
翻訳日:2021-10-07 14:12:38 公開日:2021-10-06
# PlumeCityNet:マルチリゾリューション空気質予測

PlumeCityNet: Multi-Resolution Air Quality Forecasting ( http://arxiv.org/abs/2110.02661v1 )

ライセンス: Link先を確認
Thibaut Cassard, Gr\'egoire Jauvion, Antoine All\'eon, Boris Quennehen, David Lissmyr(参考訳) 本稿では, 二酸化炭素 (NO2) , オゾン (O3) および粒子状物質 (PM2.5, PM10) の主汚染物質の濃度を, それぞれ2.5um と 10um 以下である粒子として予測できるエンジンについて述べる。 エンジンは、空気質監視局の計測値、気象予報、物理モデルの出力、交通量の推定値で供給され、最大24時間の予報を生成する。 予測は数十メートルから数十キロメートルの空間分解能で作成され、大気質データを必要とするいくつかのユースケースに適合する。 これにより、ある解像度で利用可能なすべての入力をシームレスに統合し、同じ解像度で予測を返すことができる。 そして、エンジンはいくつかのブロックで構築されたU-Netアーキテクチャに基づいており、入力を処理し、異なる解像度で予測を出力することができる。 我々は、ヨーロッパとアメリカの大都市でエンジンの実装と評価を行い、他の予測方法よりも明らかに優れています。 特に、サンプルの精度は高いままであり、訓練データセットに含まれない都市でエンジンが使用できることを意味する。 エンジンの貴重な利点は、計算能力があまり必要ないことである。予測は標準CPU上で数分で構築できる。 したがって、新しい空気質モニタリングステーションの計測が利用可能になったら(一般的には毎時)、非常に頻繁に更新することが可能であり、従来の空気品質予測に使用される物理モデルではそうではない。

This paper presents an engine able to forecast jointly the concentrations of the main pollutants harming people's health: nitrogen dioxide (NO2), ozone (O3) and particulate matter (PM2.5 and PM10, which are respectively the particles whose diameters are below 2.5um and 10um respectively). The engine is fed with air quality monitoring stations' measurements, weather forecasts, physical models' outputs and traffic estimates to produce forecasts up to 24 hours. The forecasts are produced with several spatial resolutions, from a few dozens of meters to dozens of kilometers, fitting several use-cases needing air quality data. We introduce the Scale-Unit block, which enables to integrate seamlessly all available inputs at a given resolution to return forecasts at the same resolution. Then, the engine is based on a U-Net architecture built with several of those blocks, giving it the ability to process inputs and to output predictions at different resolutions. We have implemented and evaluated the engine on the largest cities in Europe and the United States, and it clearly outperforms other prediction methods. In particular, the out-of-sample accuracy remains high, meaning that the engine can be used in cities which are not included in the training dataset. A valuable advantage of the engine is that it does not need much computing power: the forecasts can be built in a few minutes on a standard CPU. Thus, they can be updated very frequently, as soon as new air quality monitoring stations' measurements are available (generally every hour), which is not the case of physical models traditionally used for air quality forecasting.
翻訳日:2021-10-07 14:12:07 公開日:2021-10-06
# FTPipeHD: 異種エッジデバイスのためのフォールトトレラントパイプライン並列分散トレーニングフレームワーク

FTPipeHD: A Fault-Tolerant Pipeline-Parallel Distributed Training Framework for Heterogeneous Edge Devices ( http://arxiv.org/abs/2110.02781v1 )

ライセンス: Link先を確認
Yuhao Chen, Qianqian Yang, Shibo He, Zhiguo Shi, Jiming Chen(参考訳) モノのインターネット(IoT)デバイスの普及と普及に伴い、クラウドに集中するのではなく、エッジデバイスにディープラーニング(DL)のパワーを分散する傾向が高まっている。 この開発により、プライバシ保護、リアルタイム応答、ユーザ固有のモデルが改善される。 資源が限られているエッジデバイスに深層および複雑なモデルをデプロイするには、ディープニューラルネットワーク(DNN)モデルのモデル分割が必要であり、広く研究されている。 しかしながら、既存の文献のほとんどは推論モデルを配布することのみを考慮し、トレーニングを通じてこのモデルを生成するために集中型クラウドインフラストラクチャに依存している。 本稿では,分散異種デバイス間のdnnモデルをフォールトトレランス機構でトレーニングする,新しいdnnトレーニングフレームワークであるftpipehdを提案する。 各装置の時間変化計算能力でトレーニングを加速するため,リアルタイム計算能力に応じて分割点を動的に最適化する。 また、隣接するノードと中央ノードの両方に定期的に重みを複製する新しい重み再分配手法を提案する。 その結果,最高のデバイスの計算能力が最悪のものより10倍大きい場合,ftpipehdのトレーニング速度はart法より6.8倍速いことがわかった。 また,提案手法は,デバイス故障の有無に関わらず,トレーニングを高速化できることを示した。

With the increased penetration and proliferation of Internet of Things (IoT) devices, there is a growing trend towards distributing the power of deep learning (DL) across edge devices rather than centralizing it in the cloud. This development enables better privacy preservation, real-time responses, and user-specific models. To deploy deep and complex models to edge devices with limited resources, model partitioning of deep neural networks (DNN) model is necessary, and has been widely studied. However, most of the existing literature only considers distributing the inference model while still relying centralized cloud infrastructure to generate this model through training. In this paper, we propose FTPipeHD, a novel DNN training framework that trains DNN models across distributed heterogeneous devices with fault tolerance mechanism. To accelerate the training with time-varying computing power of each device, we optimize the partition points dynamically according to real-time computing capacities. We also propose a novel weight redistribution approach that replicates the weights to both the neighboring nodes and the central node periodically, which combats the failure of multiple devices during training while incurring limited communication cost. Our numerical results demonstrate that FTPipeHD is 6.8x faster in training than the state of the art method when the computing capacity of the best device is 10x greater than the worst one. It is also shown that the proposed method is able to accelerate the training even with the existence of device failures.
翻訳日:2021-10-07 14:11:41 公開日:2021-10-06
# 教師なしレーダ位置認識のためのコントラスト学習

Contrastive Learning for Unsupervised Radar Place Recognition ( http://arxiv.org/abs/2110.02744v1 )

ライセンス: Link先を確認
Matthew Gadd, Daniele De Martini, Paul Newman(参考訳) 我々は,複雑なレーダデータを用いて位置認識問題を解決するのに適したレーダ画像のシーケンスからの埋め込みを教師なしの方法で学習する。 本手法は不変インスタンス特徴学習に基づくが,シーンをスムーズに移動するモバイルプラットフォームによって収集されたデータの時間的成功率を,データ拡張に活用して再局在化の課題に合わせたものである。 我々は,400km以上の走行距離を持つ2つの都市レーダデータセットを用いて実験を行い,新たなレーダ位置認識を実現することを実証した。 特に、提案されたシステムは98.38%のクエリに対して正しいことを証明し、学習された距離空間の1つの最寄りの近傍のみを使用して、挑戦的な再ローカライズシーケンスで提示する。 また,学習モデルでは,非学習型レーダスキャンディスクリプタよりも任意の方向における車線外ループクロージャの理解度が高かった。

We learn, in an unsupervised way, an embedding from sequences of radar images that is suitable for solving the place recognition problem with complex radar data. Our method is based on invariant instance feature learning but is tailored for the task of re-localisation by exploiting for data augmentation the temporal successivity of data as collected by a mobile platform moving through the scene smoothly. We experiment across two prominent urban radar datasets totalling over 400 km of driving and show that we achieve a new radar place recognition state-of-the-art. Specifically, the proposed system proves correct for 98.38% of the queries that it is presented with over a challenging re-localisation sequence, using only the single nearest neighbour in the learned metric space. We also find that our learned model shows better understanding of out-of-lane loop closures at arbitrary orientation than non-learned radar scan descriptors.
翻訳日:2021-10-07 14:10:37 公開日:2021-10-06
# Anderson Acceleration によるミニマックス最適化の解法

Solve Minimax Optimization by Anderson Acceleration ( http://arxiv.org/abs/2110.02457v1 )

ライセンス: Link先を確認
Huan He, Shifan Zhao, Yuanzhe Xi, Joyce C Ho, Yousef Saad(参考訳) generative adversarial networks(gans)やadversarial trainingといった現代の機械学習アルゴリズムの多くは、minimax最適化として定式化することができる。 勾配降下上昇(GDA)は、その単純さから最もよく使われるアルゴリズムである。 しかし、GDAは最適でない極小点に収束することができる。 本稿では,gdadynamics を固定点反復として,anderson mixed を用いて局所的 minimax に収束する新しい minimax 最適化フレームワーク gda-am を提案する。 同時GDAの発散問題に対処し、交互GDAの収束を加速する。 理論上,このアルゴリズムは温和条件下での双線形問題に対する大域収束を実現することができることを示す。 また、GDA-AMは様々なミニマックス問題を解き、複数のデータセットでのGANトレーニングを改善することを実証的に示す。

Many modern machine learning algorithms such as generative adversarial networks (GANs) and adversarial training can be formulated as minimax optimization. Gradient descent ascent (GDA) is the most commonly used algorithm due to its simplicity. However, GDA can converge to non-optimal minimax points. We propose a new minimax optimization framework, GDA-AM, that views the GDAdynamics as a fixed-point iteration and solves it using Anderson Mixing to con-verge to the local minimax. It addresses the diverging issue of simultaneous GDAand accelerates the convergence of alternating GDA. We show theoretically that the algorithm can achieve global convergence for bilinear problems under mild conditions. We also empirically show that GDA-AMsolves a variety of minimax problems and improves GAN training on several datasets
翻訳日:2021-10-07 14:09:23 公開日:2021-10-06
# モデル仕様の可変性

The Variability of Model Specification ( http://arxiv.org/abs/2110.02490v1 )

ライセンス: Link先を確認
Joseph R. Barr, Peter Shaw, Marcus Sobel(参考訳) 良いモデルはバイアスと分散を妥協するものであるという公理と見なされている。 バイアスはトレーニングコストで測定され、(例えば、回帰)モデルの分散は検証セットに関連するコストによって測定される。 バイアスを減らすことが目標なら、必要に応じてモデルの複雑さを取り出すように努力するが、複雑さと分散は必然的に結合される。 実際には、訓練コストをゼロに近い値まで押し上げることは基本的な問題ではない; 実際、十分に複雑な決定木はトレーニングコストをゼロまで押し上げることができる。 本稿では,一般化線形モデル,コックス比例ハザードモデル,ARMAなどの回帰モデルフレームワークについて検討し,モデルの誤特定が分散に与える影響を考察する。

It's regarded as an axiom that a good model is one that compromises between bias and variance. The bias is measured in training cost, while the variance of a (say, regression) model is measure by the cost associated with a validation set. If reducing bias is the goal, one will strive to fetch as complex a model as necessary, but complexity is invariably coupled with variance: greater complexity implies greater variance. In practice, driving training cost to near zero does not pose a fundamental problem; in fact, a sufficiently complex decision tree is perfectly capable of driving training cost to zero; however, the problem is often with controlling the model's variance. We investigate various regression model frameworks, including generalized linear models, Cox proportional hazard models, ARMA, and illustrate how misspecifying a model affects the variance.
翻訳日:2021-10-07 14:09:09 公開日:2021-10-06
# 制約付き残留強化学習によるメカトロニクス系の適応制御

Adaptive control of a mechatronic system using constrained residual reinforcement learning ( http://arxiv.org/abs/2110.02566v1 )

ライセンス: Link先を確認
Tom Staessens, Tom Lefebvre and Guillaume Crevecoeur(参考訳) 安全運転を維持しつつ、深層強化学習を用いて、不確実な環境下での従来の制御装置の性能を向上させるための、シンプルで実用的で直感的なアプローチを提案する。 本手法は,産業用モーションコントロールにおける従来の制御器が,異なる動作条件に対処するために適応性よりも頑健であり,結果として準最適であることを示す。 一方、強化学習は、入力出力データから直接制御信号を最適化することができ、運用条件に適応できるが、産業環境での使用を妨げる安全性保証が欠如している。 このような条件下で強化学習を用いた適応制御を実現するために,強化学習アルゴリズムがベースコントローラの出力に対する補正適応を学習し,最適性を向上する残留学習手法に従う。 本研究では,残余エージェントの動作の制約がベースコントローラのロバスト性を有効活用し,安全な操作を保証できるかを検討する。 アルゴリズム設計を詳述し,本手法のロバスト性を高めるために,ベースコントローラに対する残留動作を制限することを提案する。 リャプノフ安定性理論に基づいて、幅広い種類のメカトロニクス閉ループ系の安定性を証明した。 提案手法をスライダクランク設定で実験的に検証し,制約が収束後の学習中の安全性と最適性に与える影響について検討した。

We propose a simple, practical and intuitive approach to improve the performance of a conventional controller in uncertain environments using deep reinforcement learning while maintaining safe operation. Our approach is motivated by the observation that conventional controllers in industrial motion control value robustness over adaptivity to deal with different operating conditions and are suboptimal as a consequence. Reinforcement learning on the other hand can optimize a control signal directly from input-output data and thus adapt to operational conditions, but lacks safety guarantees, impeding its use in industrial environments. To realize adaptive control using reinforcement learning in such conditions, we follow a residual learning methodology, where a reinforcement learning algorithm learns corrective adaptations to a base controller's output to increase optimality. We investigate how constraining the residual agent's actions enables to leverage the base controller's robustness to guarantee safe operation. We detail the algorithmic design and propose to constrain the residual actions relative to the base controller to increase the method's robustness. Building on Lyapunov stability theory, we prove stability for a broad class of mechatronic closed-loop systems. We validate our method experimentally on a slider-crank setup and investigate how the constraints affect the safety during learning and optimality after convergence.
翻訳日:2021-10-07 14:08:56 公開日:2021-10-06
# クープマン形式の非線形系の深い同定

Deep Identification of Nonlinear Systems in Koopman Form ( http://arxiv.org/abs/2110.02583v1 )

ライセンス: Link先を確認
Lucian Cristian Iacob, Gerben Izaak Beintema, Maarten Schoukens and Roland T\'oth(参考訳) 本稿では,koopman-based deep state-space エンコーダを用いた非線形力学系の同定について述べる。 この方法により、先行する昇降関数の辞書を選択する必要のある通常の欠点を回避できる。 エンコーダは、コープマン作用素を用いて動力学が線形に伝播する空間への昇降関数を表す。 揚力モデル構造には入力-アフィンの定式化が考慮され, 完全状態と部分状態の両方に対処する。 このアプローチはPythonのDeepSIツールボックスを使って実装されている。 シミュレーションエラーベーストレーニングの計算ニーズを低くするために、データは、マルチステップ予測エラーを独立に計算するサブセクションに分割される。 この定式化により、ネットワークパラメータの効率的なバッチ最適化が可能となり、同時に得られたモデルの長期予測能力にも優れる。 この手法の性能は非線形ベンチマークの例で示される。

The present paper treats the identification of nonlinear dynamical systems using Koopman-based deep state-space encoders. Through this method, the usual drawback of needing to choose a dictionary of lifting functions a priori is circumvented. The encoder represents the lifting function to the space where the dynamics are linearly propagated using the Koopman operator. An input-affine formulation is considered for the lifted model structure and we address both full and partial state availability. The approach is implemented using the the deepSI toolbox in Python. To lower the computational need of the simulation error-based training, the data is split into subsections where multi-step prediction errors are calculated independently. This formulation allows for efficient batch optimization of the network parameters and, at the same time, excellent long term prediction capabilities of the obtained models. The performance of the approach is illustrated by nonlinear benchmark examples.
翻訳日:2021-10-07 14:08:35 公開日:2021-10-06
# 交流最適潮流のための物理インフォームニューラルネットワーク

Physics-Informed Neural Networks for AC Optimal Power Flow ( http://arxiv.org/abs/2110.02672v1 )

ライセンス: Link先を確認
Rahul Nellikkath, Spyros Chatzivasileiadis(参考訳) 本稿では,まず物理インフォームドニューラルネットワークを用いて,AC-OPFの結果を正確に推定し,その性能に関する厳密な保証を提供する。 パワーシステムオペレータは、他のアクターとともに、計画やリアルタイム操作を含む幅広いアプリケーションに対して、Optimal Power Flow (OPF)アルゴリズムの利用が増えている。 しかし、元々の形式では、AC最適潮流問題は非線形で非凸であるため、しばしば解決が困難である。 多くの近似と緩和に加えて、最近の取り組みは機械学習アプローチ、特にニューラルネットワークにも焦点を当てている。 しかし、これまでのところ、これらのアプローチはトレーニング中に利用可能な多くの物理モデルしか考慮していない。 さらに重要なのは、アウトプットの潜在的制約違反に関する保証を提供していないことだ。 私たちのアプローチ (i)ニューラルネットワークトレーニング内での交流電力流方程式の導入 (ii) 予測の最適性を維持しつつ、入力領域全体にわたって最悪の制約違反を厳格に決定・低減する手法を統合する。 物理インフォームドニューラルネットワークが標準的なニューラルネットワークよりも高い精度と低い制約違反を実現する方法を示し、すべてのニューラルネットワークの最悪のケース違反をさらに削減する方法を示す。

This paper introduces, for the first time to our knowledge, physics-informed neural networks to accurately estimate the AC-OPF result and delivers rigorous guarantees about their performance. Power system operators, along with several other actors, are increasingly using Optimal Power Flow (OPF) algorithms for a wide number of applications, including planning and real-time operations. However, in its original form, the AC Optimal Power Flow problem is often challenging to solve as it is non-linear and non-convex. Besides the large number of approximations and relaxations, recent efforts have also been focusing on Machine Learning approaches, especially neural networks. So far, however, these approaches have only partially considered the wide number of physical models available during training. And, more importantly, they have offered no guarantees about potential constraint violations of their output. Our approach (i) introduces the AC power flow equations inside neural network training and (ii) integrates methods that rigorously determine and reduce the worst-case constraint violations across the entire input domain, while maintaining the optimality of the prediction. We demonstrate how physics-informed neural networks achieve higher accuracy and lower constraint violations than standard neural networks, and show how we can further reduce the worst-case violations for all neural networks.
翻訳日:2021-10-07 14:08:21 公開日:2021-10-06
# 住宅用マイクログリッドにおけるプライバシ保全負荷スケジューリングのための協調型マルチエージェントアクタークリティック

Cooperative Multi-Agent Actor-Critic for Privacy-Preserving Load Scheduling in a Residential Microgrid ( http://arxiv.org/abs/2110.02784v1 )

ライセンス: Link先を確認
Zhaoming Qin, Nanqing Dong, Eric P. Xing, Junwei Cao(参考訳) スケーラブルなデータ駆動型手法として,マルチエージェント強化学習(MARL)が協調型住宅負荷スケジューリングの課題を解決している。 しかし、MARLアルゴリズムの一般的な集中トレーニング戦略は、関連する世帯のプライバシーリスクを高める。 本研究では,分散化アクタが分散批判者によって訓練され,分散実行と分散トレーニングの両方がグローバル状態情報を必要としないような,プライバシ保全型マルチエージェントアクタ-批判フレームワークを提案する。 提案手法は,マルチエージェントのクレジット割り当て機構を暗黙的に学習しながら,世帯のプライバシーを保護できる。 シミュレーション実験により,提案フレームワークは既存のプライバシ保護アクタ批判フレームワークを著しく上回り,プライバシー制約のない最先端アクタ批判フレームワークに匹敵する性能が得られることが示された。

As a scalable data-driven approach, multi-agent reinforcement learning (MARL) has made remarkable advances in solving the cooperative residential load scheduling problems. However, the common centralized training strategy of MARL algorithms raises privacy risks for involved households. In this work, we propose a privacy-preserving multi-agent actor-critic framework where the decentralized actors are trained with distributed critics, such that both the decentralized execution and the distributed training do not require the global state information. The proposed framework can preserve the privacy of the households while simultaneously learn the multi-agent credit assignment mechanism implicitly. The simulation experiments demonstrate that the proposed framework significantly outperforms the existing privacy-preserving actor-critic framework, and can achieve comparable performance to the state-of-the-art actor-critic framework without privacy constraints.
翻訳日:2021-10-07 14:07:12 公開日:2021-10-06
# Colmena: 高性能コンピューティングのためのエンサンブルシミュレーションのスケーラブルな機械学習ベースのステアリング

Colmena: Scalable Machine-Learning-Based Steering of Ensemble Simulations for High Performance Computing ( http://arxiv.org/abs/2110.02827v1 )

ライセンス: Link先を確認
Logan Ward, Ganesh Sivaraman, J. Gregory Pauloski, Yadu Babuji, Ryan Chard, Naveen Dandu, Paul C. Redfern, Rajeev S. Assary, Kyle Chard, Larry A. Curtiss, Rajeev Thakur, Ian Foster(参考訳) シミュレーションアンサンブルを含む科学的応用は、最適なシミュレーションを選択するための実験設計法を用いて大幅に促進することができる。 機械学習(ml)を使用してシミュレーションのプロキシモデルを作成する手法は、アンサンブルを導くことには特に有望だが、シミュレーションと学習タスクの動的混合を調整する必要があるため、デプロイが難しい。 colmenaはオープンソースのpythonフレームワークで、個々のタスクの実装と、いつどのタスクを実行するかを選択するロジックだけを提供することで、キャンペーンを操ることができる。 Colmenaはタスクディスパッチ、結果のコレーション、MLモデル呼び出し、MLモデル(再)トレーニングを処理し、Parslを使用してHPCシステム上でタスクを実行する。 コルメナの設計について述べるとともに, 電解質設計に応用して, 65536 CPUにスケールし, 高速分子の発見速度を100倍に向上させる。

Scientific applications that involve simulation ensembles can be accelerated greatly by using experiment design methods to select the best simulations to perform. Methods that use machine learning (ML) to create proxy models of simulations show particular promise for guiding ensembles but are challenging to deploy because of the need to coordinate dynamic mixes of simulation and learning tasks. We present Colmena, an open-source Python framework that allows users to steer campaigns by providing just the implementations of individual tasks plus the logic used to choose which tasks to execute when. Colmena handles task dispatch, results collation, ML model invocation, and ML model (re)training, using Parsl to execute tasks on HPC systems. We describe the design of Colmena and illustrate its capabilities by applying it to electrolyte design, where it both scales to 65536 CPUs and accelerates the discovery rate for high-performance molecules by a factor of 100 over unguided searches.
翻訳日:2021-10-07 14:06:56 公開日:2021-10-06
# 複雑な運転シナリオの効率的なキャラクタリゼーションのための確率的メタモデル

Probabilistic Metamodels for an Efficient Characterization of Complex Driving Scenarios ( http://arxiv.org/abs/2110.02892v1 )

ライセンス: Link先を確認
Max Winkelmann, Mike Kohlhoff, Hadj Hamma Tadjine, Steffen M\"uller(参考訳) 自動走行車(av)の安全な動作を体系的に検証するために、シナリオベースのテストの目的は、avが遭遇する無限の状況を有限の機能シナリオにまとめることである。 しかし、すべての機能的なシナリオは、まだ膨大な量のバリエーションで現れうる。 したがって、メタモデルはしばしば分析や検査のための特定のバリエーションの選択に使用される。 しかし, AVテストの安全性の限界にもかかわらず, メタモデルは通常, 全体的なアプローチの一部として見なされる。 本稿では,5~20入力の4つのシナリオを考慮した,ガウス過程(GP),深ガウス過程(ET),ベイズニューラルネットワーク(BNN)の予測性能について検討する。 そこで本研究では,テストケースを効率的に選択するための反復的アプローチを導入し,評価する。 その結果,予測性能に関しては,メタモデルの選択よりもテストケースの適切な選択が重要であることがわかった。 優れた柔軟性により、BNNは大量のデータから恩恵を受け、最も複雑なシナリオさえモデル化できるが、GPのような柔軟性の低いモデルは信頼性を向上できる。 これは、関連するテストケースをスケーラブルな仮想環境と柔軟なモデルを使って検討し、より現実的なテスト環境とより信頼できるモデルがターゲットのテストや検証に使用できるようにする必要があります。

To systematically validate the safe behavior of automated vehicles (AV), the aim of scenario-based testing is to cluster the infinite situations an AV might encounter into a finite set of functional scenarios. Every functional scenario, however, can still manifest itself in a vast amount of variations. Thus, metamodels are often used to perform analyses or to select specific variations for examination. However, despite the safety criticalness of AV testing, metamodels are usually seen as a part of an overall approach, and their predictions are not further examined. In this paper, we analyze the predictive performance of Gaussian processes (GP), deep Gaussian processes, extra-trees (ET), and Bayesian neural networks (BNN), considering four scenarios with 5 to 20 inputs. Building on this, we introduce and evaluate an iterative approach to efficiently select test cases. Our results show that regarding predictive performance, the appropriate selection of test cases is more important than the choice of metamodels. While their great flexibility allows BNNs to benefit from large amounts of data and to model even the most complex scenarios, less flexible models like GPs can convince with higher reliability. This implies that relevant test cases have to be explored using scalable virtual environments and flexible models so that more realistic test environments and more trustworthy models can be used for targeted testing and validation.
翻訳日:2021-10-07 14:06:39 公開日:2021-10-06
# unrolling particles: サンプリング分布の教師なし学習

Unrolling Particles: Unsupervised Learning of Sampling Distributions ( http://arxiv.org/abs/2110.02915v1 )

ライセンス: Link先を確認
Fernando Gama, Nicolas Zilberstein, Richard G. Baraniuk, Santiago Segarra(参考訳) 粒子フィルタリングは複素系の優れた非線形推定を計算するために用いられる。 選択された分布から軌道をサンプリングし、重み付け平均として推定を計算する。 簡単なサンプル分布は、1つの軌道だけが全ての重みを持ち、その結果の見積もりのパフォーマンスに悪影響を及ぼすような縮退する。 適切なサンプリング分布の設計について多くの研究がなされているが,本論文では,サンプル分布の同定が目的である。 アルゴリズム展開の枠組みを利用して,サンプリング分布を多変量正規化としてモデル化し,ニューラルネットワークを用いて平均と共分散の両方を学習する。 重みの縮退を最小限に抑えるために, 観測された測定値のみを頼りに, 教師なしのモデルの訓練を行った。 シミュレーションでは, 粒子フィルタは幅広いシナリオにおいて, 良好な推定結果が得られることを示す。

Particle filtering is used to compute good nonlinear estimates of complex systems. It samples trajectories from a chosen distribution and computes the estimate as a weighted average. Easy-to-sample distributions often lead to degenerate samples where only one trajectory carries all the weight, negatively affecting the resulting performance of the estimate. While much research has been done on the design of appropriate sampling distributions that would lead to controlled degeneracy, in this paper our objective is to \emph{learn} sampling distributions. Leveraging the framework of algorithm unrolling, we model the sampling distribution as a multivariate normal, and we use neural networks to learn both the mean and the covariance. We carry out unsupervised training of the model to minimize weight degeneracy, relying only on the observed measurements of the system. We show in simulations that the resulting particle filter yields good estimates in a wide range of scenarios.
翻訳日:2021-10-07 14:06:15 公開日:2021-10-06
# (参考訳) 人工知能タスクとベンチマークのキュレートされたオントロジーに基づく大規模知識グラフ

A curated, ontology-based, large-scale knowledge graph of artificial intelligence tasks and benchmarks ( http://arxiv.org/abs/2110.01434v2 )

ライセンス: CC BY 4.0
Kathrin Blagec, Adriano Barbosa-Silva, Simon Ott, Matthias Samwald(参考訳) 人工知能(AI)の研究は、急速に増加するモデルや方法論を通じて、多くのタスクに対処している。 これにより、新しいAIメソッドがどこで(あるいはまだ成功していない)適用されたか、進捗の測定方法、進歩の相乗効果の方法、今後の研究の優先順位付け方法の追跡が困難になる。 これらの問題を解決するために、人工知能タスク、ベンチマーク結果、パフォーマンスメトリクスに関する包括的で、構造化され、手作業でキュレートされたリソースである、 intelligence task ontology and knowledge graph(ito)を作成しました。 現在のITOには、685,560エッジ、AIプロセスを表す1,100クラス、パフォーマンスメトリクスを表す1,995プロパティが含まれている。 ITOの目標は、AIタスクと能力のグローバルな状況の正確でネットワークベースの分析を可能にすることである。 ITOは、外部データとの統合や強化、自動推論、基礎となる存在論的モデルの継続的なエキスパートキュレーションを可能にする技術に基づいている。 ITOデータセットと、ITOを一般公開したJupyterノートブックのコレクションを作成します。

Research in artificial intelligence (AI) is addressing a growing number of tasks through a rapidly growing number of models and methodologies. This makes it difficult to keep track of where novel AI methods are successfully -- or still unsuccessfully -- applied, how progress is measured, how different advances might synergize with each other, and how future research should be prioritized. To help address these issues, we created the Intelligence Task Ontology and Knowledge Graph (ITO), a comprehensive, richly structured and manually curated resource on artificial intelligence tasks, benchmark results and performance metrics. The current version of ITO contain 685,560 edges, 1,100 classes representing AI processes and 1,995 properties representing performance metrics. The goal of ITO is to enable precise and network-based analyses of the global landscape of AI tasks and capabilities. ITO is based on technologies that allow for easy integration and enrichment with external data, automated inference and continuous, collaborative expert curation of underlying ontological models. We make the ITO dataset and a collection of Jupyter notebooks utilising ITO openly available.
翻訳日:2021-10-07 10:45:53 公開日:2021-10-06
# (参考訳) リランニングOCR - 品質評価と改善予測のための機械学習アプローチ

Rerunning OCR -- A Machine Learning Approach to Quality Assessment and Enhancement Prediction ( http://arxiv.org/abs/2110.01661v2 )

ライセンス: CC BY 4.0
Pit Schneider(参考訳) 新しい改善されたOCRソリューションの反復は、適切な再処理候補をターゲットとする決定を強制する。 これは特に、基礎となるデータ収集のサイズがかなり大きく、フォント、言語、出版期間、その結果ocr品質の観点からかなり多様である場合に適用される。 本稿はルクセンブルク国立図書館の取り組みを捉え、これらの決定を裏付けるものである。 計算オーバーヘッドの低減と品質劣化のリスクの低減と、より定量化されたOCRの改善を両立させるためには、これらが不可欠である。 特に本研究では,テキストブロックレベルの品質評価に関して,図書館の方法論を説明する。 この技術の延長として、新しいocrエンジンの拡張可能性を考慮した回帰モデルという形で、別の貢献がある。 どちらも、特に品質の低い歴史的データを扱う文化機関にとって有望なアプローチである。

Iterating with new and improved OCR solutions enforces decisions to be taken when it comes to targeting the right reprocessing candidates. This especially applies when the underlying data collection is of considerable size and rather diverse in terms of fonts, languages, periods of publication and consequently OCR quality. This article captures the efforts of the National Library of Luxembourg to support those exact decisions. They are crucial in order to guarantee low computational overhead and reduced quality degradation risks, combined with a more quantifiable OCR improvement. In particular, this work explains the methodology of the library with respect to text block level quality assessment. As an extension of this technique, another contribution comes in the form of a regression model that takes the enhancement potential of a new OCR engine into account. They both mark promising approaches, especially for cultural institutions dealing with historic data of lower quality.
翻訳日:2021-10-07 10:39:59 公開日:2021-10-06
# コピー検出パターンに対する機械学習攻撃: 1x1パターンはクローン可能か?

Machine learning attack on copy detection patterns: are 1x1 patterns cloneable? ( http://arxiv.org/abs/2110.02176v2 )

ライセンス: Link先を確認
Roman Chaban, Olga Taran, Joakim Tutt, Taras Holotyak, Slavi Bonev and Slava Voloshynovskiy(参考訳) 現在、現代経済は、大衆市場における製品偽造に対する信頼性が高く安価な保護ソリューションを必要としている。 コピー検出パターン(cdp)は、いくつかのアプリケーションにおいてそのようなソリューションと考えられている。 最小のシンボルサイズ1x1要素を有する工業用プリンタの印刷解像度の最大到達限界で印刷されるため、cdpを十分な精度でコピーすることは不可能であり、不可能である。 本稿では,この仮説に挑戦し,機械学習に基づくCDPに対するコピー攻撃を検討する。 2つの産業用プリンタで作成されたサンプルに基づいて実験したところ、CDP認証で使用される単純な検出基準は、元のCDPと偽造品を確実に区別できないことがわかった。 そこで本研究では,CDPのクローン性を慎重に再検討し,新たな認証手法とCDP最適化を提案する。

Nowadays, the modern economy critically requires reliable yet cheap protection solutions against product counterfeiting for the mass market. Copy detection patterns (CDP) are considered as such solution in several applications. It is assumed that being printed at the maximum achievable limit of a printing resolution of an industrial printer with the smallest symbol size 1x1 elements, the CDP cannot be copied with sufficient accuracy and thus are unclonable. In this paper, we challenge this hypothesis and consider a copy attack against the CDP based on machine learning. The experimental based on samples produced on two industrial printers demonstrate that simple detection metrics used in the CDP authentication cannot reliably distinguish the original CDP from their fakes. Thus, the paper calls for a need of careful reconsideration of CDP cloneability and search for new authentication techniques and CDP optimization because of the current attack.
翻訳日:2021-10-07 10:30:49 公開日:2021-10-06
# 文脈付き単語埋め込みをプロキシとして用いた感覚特異な静的埋め込みの学習

Learning Sense-Specific Static Embeddings using Contextualised Word Embeddings as a Proxy ( http://arxiv.org/abs/2110.02204v2 )

ライセンス: Link先を確認
Yi Zhou and Danushka Bollegala(参考訳) bertのようなニューラルネットワークモデル(nlms)から生成された文脈化された単語埋め込みは、対象語の意味とその文脈を考慮したベクターを持つ単語を表す。 一方、GloVeのような静的な単語埋め込みは、比較的低次元、メモリ、計算効率のベクトルによる単語を表現するが、単語の異なる感覚に敏感ではない。 本研究では,文脈依存型埋め込みから感覚関連情報を抽出し,それを静的な埋め込みに注入し,感覚特異的な静的な埋め込みを生成する手法である,知覚のコンテキスト派生型埋め込み(CDES)を提案する。 単語感覚の曖昧さと知覚の識別タスクのための複数のベンチマークによる実験結果から,CDESは現在の最先端感の埋め込みに匹敵する性能を示す感覚特異的な静的埋め込みを正確に学習できることが示された。

Contextualised word embeddings generated from Neural Language Models (NLMs), such as BERT, represent a word with a vector that considers the semantics of the target word as well its context. On the other hand, static word embeddings such as GloVe represent words by relatively low-dimensional, memory- and compute-efficient vectors but are not sensitive to the different senses of the word. We propose Context Derived Embeddings of Senses (CDES), a method that extracts sense related information from contextualised embeddings and injects it into static embeddings to create sense-specific static embeddings. Experimental results on multiple benchmarks for word sense disambiguation and sense discrimination tasks show that CDES can accurately learn sense-specific static embeddings reporting comparable performance to the current state-of-the-art sense embeddings.
翻訳日:2021-10-07 10:30:35 公開日:2021-10-06
# ALSポイントクラウドセマンティックセグメンテーションのための新しい弱教師付きアプローチ

A new weakly supervised approach for ALS point cloud semantic segmentation ( http://arxiv.org/abs/2110.01462v2 )

ライセンス: Link先を確認
Puzuo Wang and Wei Yao(参考訳) 最先端の結果を継続的に上回る、新しいポイントクラウドセマンティックセグメンテーションスキームがあるが、効果的なモデルを学ぶ成功は通常、豊富なラベル付きデータの可用性に依存している。 しかしながら、データアノテーションは、特に都市部の複数のクラスを含む大規模空中レーザースキャニング(als)ポイント雲において、時間と労力のかかる作業である。 したがって、ラベリング作業を大幅に削減しながら、有望な結果を得る方法が不可欠である。 本研究では,ALSポイントクラウドのセマンティックセマンティックセグメンテーションのための,深層学習に基づく弱教師付きフレームワークを提案する。 クラスオーバーラップを予測確率でペナル化するためにエントロピー正則化を導入する。 さらに, 即時予測とアンサンブル予測との差分距離を最小化することで, 予測の堅牢性を向上させるための一貫性制約を設計する。 最後に,効率良く非パプラメトリックな方法で余分なスーパーバイザリーソースを作成するためのオンラインソフト擬似ラベル戦略を提案する。 3つのベンチマークデータセットを用いた広範囲な実験分析により,スパースポイントアノテーションの場合,提案手法は計算効率を損なうことなく分類性能を著しく向上させることを示した。 これは、現在の弱い監督手法を上回り、完全な監督競合に対して同等の結果を得る。 ISPRS 3D Labeling Vaihingenデータでは,ラベルの0.1%しか使用していないため,スパースラベル情報のみを訓練したモデルと比較して,平均F1スコアが6.9%,平均F1スコアが70.0%向上した。

While there are novel point cloud semantic segmentation schemes that continuously surpass state-of-the-art results, the success of learning an effective model usually rely on the availability of abundant labeled data. However, data annotation is a time-consuming and labor-intensive task, particularly for large-scale airborne laser scanning (ALS) point clouds involving multiple classes in urban areas. Thus, how to attain promising results while largely reducing labeling works become an essential issue. In this study, we propose a deep-learning based weakly supervised framework for semantic segmentation of ALS point clouds, exploiting potential information from unlabeled data subject to incomplete and sparse labels. Entropy regularization is introduced to penalize the class overlap in predictive probability. Additionally, a consistency constraint by minimizing the discrepancy distance between instant and ensemble predictions is designed to improve the robustness of predictions. Finally, we propose an online soft pseudo-labeling strategy to create extra supervisory sources in an efficient and nonpaprametric way. Extensive experimental analysis using three benchmark datasets demonstrates that in case of sparse point annotations, our proposed method significantly boosts the classification performance without compromising the computational efficiency. It outperforms current weakly supervised methods and achieves a comparable result against full supervision competitors. For the ISPRS 3D Labeling Vaihingen data, by using only 0.1% of labels, our method achieves an overall accuracy of 83.0% and an average F1 score of 70.0%, which have increased by 6.9% and 12.8% respectively, compared to model trained by sparse label information only.
翻訳日:2021-10-07 10:30:20 公開日:2021-10-06
# DistilHuBERT:隠れユニットBERTの層ワイド蒸留による音声表現学習

DistilHuBERT: Speech Representation Learning by Layer-wise Distillation of Hidden-unit BERT ( http://arxiv.org/abs/2110.01900v2 )

ライセンス: Link先を確認
Heng-Jui Chang, Shu-wen Yang, Hung-yi Lee(参考訳) wav2vec 2.0 や Hidden-unit BERT (HuBERT) のような自己教師付き音声表現学習手法では、事前学習にラベル付き音声データを活用し、多くの音声処理タスクに優れた表現を提供する。 これらの手法の成功にもかかわらず、大きなメモリと高い事前学習コストを必要としており、アカデミックや小規模企業の研究者には利用できない。 そこで本稿では,HuBERTモデルから直接隠れ表現を抽出する,新しいマルチタスク学習フレームワークであるDistilHuBERTを紹介する。 この方法は、HuBERTのサイズを75%と73%速くし、10種類のタスクでほとんどのパフォーマンスを維持する。 さらに、DistilHuBERTはトレーニング時間とデータが少なく、音声のためのパーソナルおよびオンデバイスSSLモデルを事前トレーニングする可能性を開く。

Self-supervised speech representation learning methods like wav2vec 2.0 and Hidden-unit BERT (HuBERT) leverage unlabeled speech data for pre-training and offer good representations for numerous speech processing tasks. Despite the success of these methods, they require large memory and high pre-training costs, making them inaccessible for researchers in academia and small companies. Therefore, this paper introduces DistilHuBERT, a novel multi-task learning framework to distill hidden representations from a HuBERT model directly. This method reduces HuBERT's size by 75% and 73% faster while retaining most performance in ten different tasks. Moreover, DistilHuBERT required little training time and data, opening the possibilities of pre-training personal and on-device SSL models for speech.
翻訳日:2021-10-07 10:29:50 公開日:2021-10-06
# 燃焼不安定モニタリングのためのクロスモーダル仮想センシング

Cross-Modal Virtual Sensing for Combustion Instability Monitoring ( http://arxiv.org/abs/2110.01659v2 )

ライセンス: Link先を確認
Tryambak Gangopadhyay, Vikram Ramanan, Satyanarayanan R Chakravarthy, Soumik Sarkar(参考訳) 多くのサイバー物理システムでは、イメージングは重要だが費用がかかるか、感覚のモダリティの展開が困難である。 そのような例として、深層学習フレームワークが最先端の性能を実証した火炎画像による燃焼不安定の検出がある。 提案されたフレームワークは、ドメインの専門家がこれらのモデルを実際のシステムで使用して、望ましくないインシデントを防ぐために十分な信頼を得られるように、非常に信頼できる。 しかし、現在のエンジン燃焼器では、火炎画像は一般的な感知モダリティではない。 したがって、現在の道路ブロックは、高体積火炎画像の取得と処理に関してハードウェア側に存在する。 一方, 実燃焼器のデータ収集において, 音圧時系列はより実現可能なモダリティである。 音響時系列をセンシングモダリティとして利用するために,燃焼系における音響圧時系列からクロスモーダルな視覚特徴を再構築できる新しいクロスモーダルエンコーダ・デコーダアーキテクチャを提案する。 クロスモーダルな特徴の「蒸留」により,仮想的な視覚知覚モータリティを用いて検出精度を向上できることを示した。 クロスモーダルな再構築の利点を生かして、当社の枠組みは、発電・輸送産業を超えた分野において有用であることが証明できる。

In many cyber-physical systems, imaging can be an important but expensive or 'difficult to deploy' sensing modality. One such example is detecting combustion instability using flame images, where deep learning frameworks have demonstrated state-of-the-art performance. The proposed frameworks are also shown to be quite trustworthy such that domain experts can have sufficient confidence to use these models in real systems to prevent unwanted incidents. However, flame imaging is not a common sensing modality in engine combustors today. Therefore, the current roadblock exists on the hardware side regarding the acquisition and processing of high-volume flame images. On the other hand, the acoustic pressure time series is a more feasible modality for data collection in real combustors. To utilize acoustic time series as a sensing modality, we propose a novel cross-modal encoder-decoder architecture that can reconstruct cross-modal visual features from acoustic pressure time series in combustion systems. With the "distillation" of cross-modal features, the results demonstrate that the detection accuracy can be enhanced using the virtual visual sensing modality. By providing the benefit of cross-modal reconstruction, our framework can prove to be useful in different domains well beyond the power generation and transportation industries.
翻訳日:2021-10-07 10:29:35 公開日:2021-10-06
# 低光画像強調のための適応展開全変分ネットワーク

Adaptive Unfolding Total Variation Network for Low-Light Image Enhancement ( http://arxiv.org/abs/2110.00984v3 )

ライセンス: Link先を確認
Chuanjun Zheng, Daming Shi, Wentian Shi(参考訳) 現実の低照度画像は、2つの大きな劣化、すなわち避けられないノイズと視界の低下に悩まされる。 ノイズは異なるレベルを示すため、生のバイエル空間から低光度画像を強調する最近の研究でその推定が実装されている。 sRGB色空間に関しては、画像処理パイプラインの影響によりノイズ推定がより複雑になる。 それでも、sRGB空間の既存の拡張アルゴリズムのほとんどは、低可視性の問題にのみ焦点をあてたり、仮説的雑音レベルの下でノイズを抑えることで、ロバスト性の欠如により非現実的となった。 この問題に対処するため,本研究では,モデルベースデノナイジング法において,全変分正則化を用いてバランスパラメータを学習することにより,実sRGB低照度画像からの雑音レベルを近似する適応展開全変分ネットワーク(UTVNet)を提案する。 一方,スムースネスと忠実度制約の推論を提供するために,対応する最小化プロセスを展開することで,雑音レベルマップを学習する。 ノイズレベルマップに導かれたutvnetは、より細かいディテールを復元でき、実際に撮影された低照度シーンでノイズを抑えることができます。 実世界の低照度画像に対する大規模な実験は、最先端の手法よりもUTVNetの優れた性能を示している。

Real-world low-light images suffer from two main degradations, namely, inevitable noise and poor visibility. Since the noise exhibits different levels, its estimation has been implemented in recent works when enhancing low-light images from raw Bayer space. When it comes to sRGB color space, the noise estimation becomes more complicated due to the effect of the image processing pipeline. Nevertheless, most existing enhancing algorithms in sRGB space only focus on the low visibility problem or suppress the noise under a hypothetical noise level, leading them impractical due to the lack of robustness. To address this issue,we propose an adaptive unfolding total variation network (UTVNet), which approximates the noise level from the real sRGB low-light image by learning the balancing parameter in the model-based denoising method with total variation regularization. Meanwhile, we learn the noise level map by unrolling the corresponding minimization process for providing the inferences of smoothness and fidelity constraints. Guided by the noise level map, our UTVNet can recover finer details and is more capable to suppress noise in real captured low-light scenes. Extensive experiments on real-world low-light images clearly demonstrate the superior performance of UTVNet over state-of-the-art methods.
翻訳日:2021-10-07 10:29:05 公開日:2021-10-06
# 映像圧縮のための知覚的最適ブロック運動推定の自己教師付き学習

Self-Supervised Learning of Perceptually Optimized Block Motion Estimates for Video Compression ( http://arxiv.org/abs/2110.01805v2 )

ライセンス: Link先を確認
Somdyuti Paul, Andrey Norkin, Alan C. Bovik(参考訳) ハイブリッドビデオコーデックで実行される相互予測プロセスにはブロックベース動作推定が不可欠である。 ブロック運動ベクトル(MV)の計算に使用されるブロックマッチングに基づく一般的な手法は、計算集約的な探索手順に依存する。 また、ブロックサイズが小さくなるにつれて、開口の問題も悪化する。 さらに、典型的なコーデックで使用されるブロックマッチング基準は、復号時に生成される動き補償画像の知覚品質のレベルを考慮しない。 本研究では,多段畳み込みニューラルネットワークを用いて,複数のブロックサイズで同時に3重のフレームを入力として動作推定を行うことのできる探索自由なブロック運動推定フレームワークを提案する。 この複合ブロック翻訳ネットワーク(CBT-Net)は、公開されていないビデオコンテンツから作成した大規模データベース上で、自己教師型で訓練されている。 動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。 実験の結果,従来のブロックマッチングに基づく動き推定アルゴリズムと比較して,予測誤差に匹敵する計算効率が示された。 さらに、AV1で相互予測を行う際には、SVT-AV1エンコーダで使用されるブロックマッチングに基づく動き推定システムと比較して、平均BD-デルタレート(BD-rate)の改善はMS-SSIMとビデオマルチメソッドアセスメントフュージョン(VMAF)の品質指標に対して-1.70%、-1.52%となる。

Block based motion estimation is integral to inter prediction processes performed in hybrid video codecs. Prevalent block matching based methods that are used to compute block motion vectors (MVs) rely on computationally intensive search procedures. They also suffer from the aperture problem, which can worsen as the block size is reduced. Moreover, the block matching criteria used in typical codecs do not account for the resulting levels of perceptual quality of the motion compensated pictures that are created upon decoding. Towards achieving the elusive goal of perceptually optimized motion estimation, we propose a search-free block motion estimation framework using a multi-stage convolutional neural network, which is able to conduct motion estimation on multiple block sizes simultaneously, using a triplet of frames as input. This composite block translation network (CBT-Net) is trained in a self-supervised manner on a large database that we created from publicly available uncompressed video content. We deploy the multi-scale structural similarity (MS-SSIM) loss function to optimize the perceptual quality of the motion compensated predicted frames. Our experimental results highlight the computational efficiency of our proposed model relative to conventional block matching based motion estimation algorithms, for comparable prediction errors. Further, when used to perform inter prediction in AV1, the MV predictions of the perceptually optimized model result in average Bjontegaard-delta rate (BD-rate) improvements of -1.70% and -1.52% with respect to the MS-SSIM and Video Multi-Method Assessment Fusion (VMAF) quality metrics, respectively as compared to the block matching based motion estimation system employed in the SVT-AV1 encoder.
翻訳日:2021-10-07 10:28:42 公開日:2021-10-06
# 並列遺伝的ベイズ分類器を用いた発作分類

Seizure Classification Using Parallel Genetic Naive Bayes Classifiers ( http://arxiv.org/abs/2110.01742v2 )

ライセンス: Link先を確認
Scot Davidson and Niamh McCallan and Kok Yew Ng and Pardis Biglarbeigi and Dewar Finlay and Boon Leong Lan and James McLaughlin(参考訳) てんかんは世界中で5000万人に影響を及ぼし、脳疾患の中でも最も多い。 発作の検出と分類は、状態を維持するための貴重なツールである。 自動検出アルゴリズムは正確な診断を可能にする。 本研究では,遺伝的アルゴリズムを用いた新しい並列分類器を用いた特徴量を用いた手法を提案する。 EEGのイクタル状態は1.8秒の窓に区分され、エポックは最初のIMFから13の異なる特徴に分解される。 すべての特徴は遺伝的アルゴリズム(Binary Grey Wolf Optimisation Option 1)に入力され、Naive Bayes分類器が使用される。 単純な部分発作と複雑な部分発作の組み合わせは、テストされた全てのモデルの最高の精度をもたらす。

Epilepsy affects 50 million people worldwide and is one of the most common serious brain disorders. Seizure detection and classification is a valuable tool for maintaining the condition. An automated detection algorithm will allow for accurate diagnosis. This study proposes a method using unique features with a novel parallel classifier trained using a genetic algorithm. Ictal states from the EEG are segmented into 1.8 s windows, where the epochs are then further decomposed into 13 different features from the first IMF. All of the features are fed into a genetic algorithm (Binary Grey Wolf Optimisation Option 1) with a Naive Bayes classifier. Combining the simple partial and complex partial seizures provides the highest accuracy of all the models tested.
翻訳日:2021-10-07 10:28:10 公開日:2021-10-06