このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201021となっている論文です。

PDF登録状況(公開日: 20201021)

TitleAuthorsAbstract論文公表日・翻訳日
# 断熱定理に基づくブラッグ原子干渉計の解析理論

Analytic theory for Bragg atom interferometry based on the adiabatic theorem ( http://arxiv.org/abs/2002.04588v3 )

ライセンス: Link先を確認
Jan-Niclas Siem{\ss}, Florian Fitzek, Sven Abend, Ernst M. Rasel, Naceur Gaaloul and Klemens Hammerer(参考訳) 高忠実ブラッグパルスは最先端原子干渉計実験に必須の道具である。 本稿では,そのようなパルスの解析理論を紹介する。 我々の理論は、ブラッグパルスの物理は断熱定理によって正確に記述できるという重要な洞察に基づいている。 効率の良いブラッグ回折は任意の滑らかで断熱的なパルス形状で可能であり、高忠実なガウス波は断熱的であることを示す。 この結果から, 断熱定理による断熱性が, 高性能ブラッグパルスの要求条件であることを示す。 我々のモデルはブラッグ条件の直感的な理解を提供し、「パルス領域」の条件とも呼ばれる。 ランダウ・ツェナー過程による断熱的進化の補正や、有限原子速度分布の影響を含んでいる。 我々はこれを4,6,8,10光子リコイルを回折するガウスパルスに対するシュリンガー方程式の正確な数値積分と比較することによって検証する。 我々のフォーマリズムは、回折過程によって生じるブラッグ光学を用いた原子干渉計の精度の制限だけでなく、系統的効果を研究するための分析的枠組みを提供する。

High-fidelity Bragg pulses are an indispensable tool for state-of-the-art atom interferometry experiments. In this paper, we introduce an analytic theory for such pulses. Our theory is based on the pivotal insight that the physics of Bragg pulses can be accurately described by the adiabatic theorem. We show that efficient Bragg diffraction is possible with any smooth and adiabatic pulse shape and that high-fidelity Gaussian pulses are exclusively adiabatic. Our results give strong evidence that adiabaticity according to the adiabatic theorem is a necessary requirement for high-performance Bragg pulses. Our model provides an intuitive understanding of the Bragg condition, also referred to as the condition on the "pulse area". It includes corrections to the adiabatic evolution due to Landau-Zener processes as well as the effects of a finite atomic velocity distribution. We verify our model by comparing it to an exact numerical integration of the Schr\"odinger equation for Gaussian pulses diffracting four, six, eight and ten photon recoils. Our formalism provides an analytic framework to study systematic effects as well as limitations to the accuracy of atom interferometers employing Bragg optics that arise due to the diffraction process.
翻訳日:2023-06-03 23:33:02 公開日:2020-10-21
# 非マルコフ量子過程の正確な記述のための擬似モードの一般化理論

Generalized theory of pseudomodes for exact descriptions of non-Markovian quantum processes ( http://arxiv.org/abs/2002.09739v2 )

ライセンス: Link先を確認
Graeme Pleasance, Barry M. Garraway, Francesco Petruccione(参考訳) 一般スペクトル密度関数によってモデル化された環境と相互作用する開量子系の非マルコフ力学を記述するための厳密な枠組みを開発した。 このアプローチは初期系を補助的な構成にマッピングすることに依存し、元の開系は少数の離散モードに結合され、それぞれ独立したマルコフ貯水池に結合される。 離散モードとスペクトル密度関数の極との接続に基づいて、離散モードを用いてシステムを拡張することで、完全にリンドブラッドマスター方程式によって支配される拡大された開系内での非マルコフ効果が完全に包含できることを示す。 この結果を用いて、スペクトル密度関数がローレンツ構造を持つ場合の擬モード法(B. M. Garraway, Phys. Rev. A 55, 2290 (1997))の一般化を得る。 他の多くの種類のスペクトル密度関数に対して、オープンシステムのダイナミクスが、系への非エルミート結合を許す離散モードを用いて物理的にモデル化され得ることを証明し、そのような場合において等価なマスター方程式がもはやリンドブラッド形式ではないと判断する。 2つの離散モードを含むアプリケーションに対して,疑似モード法の手法を用いて,マスター方程式の病理型とリンドブラッド型を変換する方法を示す。

We develop an exact framework to describe the non-Markovian dynamics of an open quantum system interacting with an environment modeled by a generalized spectral density function. The approach relies on mapping the initial system onto an auxiliary configuration, comprising the original open system coupled to a small number of discrete modes, which in turn are each coupled to an independent Markovian reservoir. Based on the connection between the discrete modes and the poles of the spectral density function, we show how expanding the system using the discrete modes allows for the full inclusion non-Markovian effects within an enlarged open system whose dynamics is governed by an exact Lindblad master equation. Initially we apply this result to obtain a generalization of the pseudomode method [B. M. Garraway, Phys. Rev. A 55, 2290 (1997)] in cases where the spectral density function has a Lorentzian structure. For many other types of spectral density function, we extend our proof to show that an open system dynamics may be modeled physically using discrete modes which admit a non-Hermitian coupling to the system, and for such cases determine the equivalent master equation to no longer be of Lindblad form. For applications involving two discrete modes, we demonstrate how to convert between pathological and Lindblad forms of the master equation using the techniques of the pseudomode method.
翻訳日:2023-06-02 09:05:35 公開日:2020-10-21
# 量子熱化過程のスナップショットを取る:量子ジャンプ軌道における創発的古典性

Taking snapshots of a quantum thermalization process: emergent classicality in quantum jump trajectories ( http://arxiv.org/abs/2003.08425v2 )

ライセンス: Link先を確認
Charlie Nation and Diego Porras(参考訳) 理論的には、量子力学の量子系における古典的統計物理学の出現は、完全に孤立しているか、あるいは量子測定過程に従属している。 非可積分量子系へのランダム行列理論のアプローチを通して、確率変数のようにマクロ観測可能の測定結果の集合が時間的に進化し、その分散はブラウン拡散に対する有名なアインシュタイン関係を満たすことを示す。 本研究では, 固有状態熱化の枠組みを, その他の閉量子系の量子測定特性の予測に拡張する方法を示す。 量子連鎖モデルにおけるランダム行列アプローチの有効性を数値的に示す。

We investigate theoretically the emergence of classical statistical physics in a finite quantum system that is either totally isolated or otherwise subjected to a quantum measurement process. We show via a random matrix theory approach to nonintegrable quantum systems that the set of outcomes of the measurement of a macroscopic observable evolve in time like stochastic variables, whose variance satisfies the celebrated Einstein relation for Brownian diffusion. Our results show how to extend the framework of eigenstate thermalization to the prediction of properties of quantum measurements on an otherwise closed quantum system. We show numerically the validity of the random matrix approach in quantum chain models.
翻訳日:2023-05-28 20:05:59 公開日:2020-10-21
# 実効的ギャップは有効ではない:ブロックされた確率的ハミルトンの準多項古典シミュレーション

Effective gaps are not effective: quasipolynomial classical simulation of obstructed stoquastic Hamiltonians ( http://arxiv.org/abs/2004.08681v3 )

ライセンス: Link先を確認
Jacob Bringewatt and Michael Jarret(参考訳) 古典的シミュレーションアルゴリズムと確率的断熱量子コンピューティング(aqc)の間の指数的分離の可能性を確認するすべての既知の例は、断熱力学を効果的で対称な部分空間に制限する対称性を利用する。 対称性は大きな有効固有値ギャップを生成し、それによって断熱計算を効率的にする。 古典的アルゴリズムは、その対称性(あるいは近対称性)の事前知識を伴わずに、$k$-局所確率的ハミルトニアン$H$の有効部分空間から効率的にサンプリングする。 我々のアルゴリズムは任意の$k$-局所ハミルトニアンを、$\lvert V \rvert = O\left(\mathrm{poly}(n)\right)$でグラフ $G=(V,E)$ にマッピングする。 ババイのよく知られた結果から、グラフ同型を利用して$G$の自己同型を研究し、$\lvert V\rvert$のアルゴリズム準多項式に到達して、有効部分空間固有状態からサンプルを生成する。 我々の結果は、k$-ローカルハミルトニアンの隠れ対称性から生じる古典計算と確率的AQCの指数関数的分離を除外する。 さらに、h$ のグラフ表現は確率的ハミルトニアンに限らず、非確率的場合における対応する障害を排除したり、k$ 局所ハミルトニアンの追加的性質を研究するのに有用である。

All known examples confirming the possibility of an exponential separation between classical simulation algorithms and stoquastic adiabatic quantum computing (AQC) exploit symmetries that constrain adiabatic dynamics to effective, symmetric subspaces. The symmetries produce large effective eigenvalue gaps, which in turn make adiabatic computation efficient. We present a classical algorithm to efficiently sample from the effective subspace of a $k$-local stoquastic Hamiltonian $H$, without a priori knowledge of its symmetries (or near-symmetries). Our algorithm maps any $k$-local Hamiltonian to a graph $G=(V,E)$ with $\lvert V \rvert = O\left(\mathrm{poly}(n)\right)$ where $n$ is the number of qubits. Given the well-known result of Babai, we exploit graph isomorphism to study the automorphisms of $G$ and arrive at an algorithm quasi-polynomial in $\lvert V\rvert$ for producing samples from the effective subspace eigenstates of $H$. Our results rule out exponential separations between stoquastic AQC and classical computation that arise from hidden symmetries in $k$-local Hamiltonians. Furthermore, our graph representation of $H$ is not limited to stoquastic Hamiltonians and may rule out corresponding obstructions in non-stoquastic cases, or be useful in studying additional properties of $k$-local Hamiltonians.
翻訳日:2023-05-23 02:37:22 公開日:2020-10-21
# アベリアン・エノン模型の内および周辺

In and around Abelian anyon models ( http://arxiv.org/abs/2004.12048v3 )

ライセンス: Link先を確認
Liang Wang, Zhenghan Wang(参考訳) 任意のモデルは、物質のトポロジカル位相の普遍的トポロジカルな性質をモデル化する代数的構造であり、2つの空間次元におけるトポロジカル秩序の数学的特徴づけと見なすことができる。 任意のanyonモデル、あるいは数学的にユニタリなモジュラーテンソル圏は、あるキラルな共形場理論の表現圏、または数学的に頂点作用素代数/局所共形ネットとして実現できると推測される。 この予想は、予想を支持するアーベル・アノンモデルに対して真であることが知られている。 我々はいくつかの異なる角度からアーベル・アノンモデルを再検討する。 第一のエノンモデルは、位相量子場理論とカイラル共形場理論の両方の代数的データである。 それぞれのアーベルエノンモデルが、量子アーベルチャーン・サイモンズ理論とカイラル共形場理論によって実現可能であることは知られているが、構成はアルゴリズム的ではない。 我々の目標は、チャーン・サイモンズ理論における$K$行列に対するそのような明示的なアルゴリズムと格子共形場理論に対する正定値なアルゴリズムを提供することである。 第二に、任意のモデルとカイラル共形場理論は、物質の位相相のバルクエッジ対応を成す。 しかし、エッジ理論と位相対称性の安定性を考慮すると、この対応には興味深い微妙さがある。 そこで本研究では,極値カイラル共形場理論のアルゴリズム的再構成に焦点をあてた。 最後に、より強い再構成がアーベル・エノンモデルに対して成り立つと推測する: すべてのアーベル・エノンモデルは、自明なアノンモデルのムーンシャイン実現を一般化した非格子極端頂点作用素代数の表現圏として実現することができる。

Anyon models are algebraic structures that model universal topological properties in topological phases of matter and can be regarded as mathematical characterization of topological order in two spacial dimensions. It is conjectured that every anyon model, or mathematically unitary modular tensor category, can be realized as the representation category of some chiral conformal field theory, or mathematically vertex operator algebra/local conformal net. This conjecture is known to be true for abelian anyon models providing support for the conjecture. We reexamine abelian anyon models from several different angles. First anyon models are algebraic data for both topological quantum field theories and chiral conformal field theories. While it is known that each abelian anyon model can be realized by a quantum abelian Chern-Simons theory and chiral conformal field theory, the construction is not algorithmic. Our goal is to provide such an explicit algorithm for a $K$-matrix in Chern-Simons theory and a positive definite even one for a lattice conformal field theory. Secondly anyon models and chiral conformal field theories underlie the bulk-edge correspondence for topological phases of matter. But there are interesting subtleties in this correspondence when stability of the edge theory and topological symmetry are taken into consideration. Therefore, our focus is on the algorithmic reconstruction of extremal chiral conformal field theories with small central charges. Finally we conjecture that a much stronger reconstruction holds for abelian anyon models: every abelian anyon model can be realized as the representation category of some non-lattice extremal vertex operator algebra generalizing the moonshine realization of the trivial anyon model.
翻訳日:2023-05-22 04:08:28 公開日:2020-10-21
# 多成分純状態に対する完全相補関係

Complete complementarity relations for multipartite pure states ( http://arxiv.org/abs/2005.00930v4 )

ライセンス: Link先を確認
Marcos L. W. Basso and Jonas Maziero(参考訳) 波動-粒子双対関係の相補性関係は純粋で単一量子状態の量子状態にのみ飽和する。 完全に一貫性のない状態では、波と粒子の定量化器がゼロに到達できることが知られており、従って系の波と粒子の側面に関する情報は得られない。 これは、情報が他のシステムと共有されていることを意味し、量子相関は、量子が多部純量子系の一部であることを仮定して、量子子の純度を失う原因と見なすことができる。 本稿では,2項および3項の純量子状態の純度を探索することにより,完全相補性関係が得られることを示す。 この手順により、純粋状態において任意の多成分量子系に属するサブシステムの完全相補関係を得るための一般的なフレームワークを作成することができる。 さらに,いくつかの簡単な例により,予測可能性測度が変化した場合,純粋な場合の完全相補関係を得るために相関測度も変更する必要があることを示した。

Complementarity relations for wave-particle duality are saturated only for pure, single-quanton, quantum states. For a completely incoherent state, it is known that wave and particle quantifiers can reach zero, and hence no information about the wave and particle aspects of the system can be obtained. This means that the information is being shared with another systems, and quantum correlations can be seen as responsible for the loss of purity of the quanton, provided that the quanton is part of a multipartite pure quantum system. In this paper, by exploring the purity of bi- and tri-partite pure quantum states, we show that it is possible to obtain complete complementarity relations. This procedure allows us to create a general framework for obtaining complete complementarity relations for a subsystem that belongs to an arbitrary multi-partite quantum system in a pure state. Besides, by some simple examples, we show that if the predictability measure is changed then the correlation measure must also be changed in order to obtain complete complementarity relations for pure cases.
翻訳日:2023-05-21 13:02:39 公開日:2020-10-21
# 分離音源間の誘導コヒーレンス実験における二光子波動関数の周波数相関要件

Frequency correlation requirements on the biphoton wavefunction in an induced coherence experiment between separate sources ( http://arxiv.org/abs/2005.03741v3 )

ライセンス: Link先を確認
Arturo Rojas-Santana, Gerard J. Machado, Dorilian Lopez-Mago, Juan P. Torres(参考訳) 画像、分光、顕微鏡、光コヒーレンストモグラフィ(oct)における新しい応用のために、別々のダウンコンバータ源で生成されたビーム間のコヒーレンスの利用が再び関心を集めている。 これらのスキームは、低パラメトリック利得状態における連続波ポンピング(CW)を用い、各ソースで発生する信号-イドラー対間の周波数相関と周波数絡みを発生させる。 しかし、周波数相関がなければ、誘導コヒーレンスを観測できるため、バイフォトン波動関数は分解可能であるか? 我々は、これが正しいことを示し、これは oct アプリケーションにとって有利かもしれない。 高軸分解能は大きな帯域幅を必要とする。 CWポンプには、短い非線形結晶を使用する必要がある。 短い結晶は小さな光子フラックスを生成するため、これは有害である。 超短ポンプパルスを用いることで,高光子フラックスを発生させる長結晶においても軸分解能の向上が期待できる。

There is renewed interest in using the coherence between beams generated in separate down-converter sources for new applications in imaging, spectroscopy, microscopy and optical coherence tomography (OCT). These schemes make use of continuous wave (CW) pumping in the low parametric gain regime, which produces frequency correlations, and frequency entanglement, between signal-idler pairs generated in each single source. But can induced coherence still be observed if there is no frequency correlation, so the biphoton wavefunction is factorable? We will show that this is the case, and this might be an advantage for OCT applications. High axial resolution requires a large bandwidth. For CW pumping this requires the use of short nonlinear crystals. This is detrimental since short crystals generate small photon fluxes. We show that the use of ultrashort pump pulses allows improving axial resolution even for long crystal that produce higher photon fluxes.
翻訳日:2023-05-20 22:17:21 公開日:2020-10-21
# 3-outcome qubit測定のためのエントロピーノイズ・ディストラバンス不確かさ関係の実験的検討

Experimental Test of Entropic Noise-Disturbance Uncertainty Relations for Three-Outcome Qubit Measurements ( http://arxiv.org/abs/2005.13410v2 )

ライセンス: Link先を確認
Stephan Sponar and Armin Danner and Vito Pecile and Nico Einsidler and Buelent Demirel and Yuji Hasegawa(参考訳) 情報理論の不確実性関係は、情報エントロピーの観点から2つの非可換可観測体の合同不測性を定式化する。 2つの連続測定結果の精度のトレードオフは、エントロピックノイズ・不確実性関係に現れる。 近年の理論的分析では、雑音-ゆらぎトレードオフに関して、射影測定が最適でないと予測されている。 したがって、前回のレター[prl 115, 030401 (2015)]の結果は一般の量子測定値よりも優れています。 本研究では,中性子スピン1/2量子ビットを用いて,三元正演算子値測度(povm)に対する情報理論的測定の不確かさ関係を実験的に検証した。 得られた結果は、理論的に予測された射影測定の低い境界に反する。

Information-theoretic uncertainty relations formulate the joint immeasurability of two non-commuting observables in terms of information entropies. The trade-off of the accuracy in the outcome of two successive measurements manifests in entropic noise-disturbance uncertainty relations. Recent theoretical analysis predicts that projective measurements are not optimal, with respect to the noise-disturbance trade-offs. Therefore the results in our previous letter [PRL 115, 030401 (2015)] are outperformed by general quantum measurements. Here, we experimentally test a tight information-theoretic measurement uncertainty relation for three-outcome positive-operator valued measures (POVM), using neutron spin-1/2 qubits. The obtained results violate the lower bound for projective measurements as theoretically predicted.
翻訳日:2023-05-18 05:13:11 公開日:2020-10-21
# Few-Bodyモデルにおけるシャープマヨナ遷移の観測可能性

Observability of a Sharp Majorana Transition in a Few-Body Model ( http://arxiv.org/abs/2006.08062v2 )

ライセンス: Link先を確認
Jared Bland, Chris H. Greene, Birgit Wehefritz-Kaufmann(参考訳) 我々は, [Iemini et al. Phys. Rev. 118 200404 (2017)] の相互作用するコールド原子モデルの少数体極限におけるトポロジカルマヨナ準粒子の観測可能なシグネチャを提案する。 この限界では, モデルパラメータと全オンサイト密度と単体相関はスムーズに変化し, 計算された格子の反対側の相互情報は, システムの位相基底状態への鋭い遷移を示す。 さらに、局所密度とパリティ測定は、超低温原子中のマヨラナ準粒子の基底状態を観察するための実験的な経路を提供する。 実験結果は,マヨラナ物理学の試験場として,少数体系を利用する有望な未来を明らかにした。

We propose experimentally observable signatures of of topological Majorana quasiparticles in the few-body limit of the interacting cold-atom model of [Iemini et al. Phys. Rev. Lett. 118 200404 (2017)]. In this limit, the total on-site density and single-body correlations change smoothly with the model parameters, while the calculated mutual information of opposite ends of the lattice indicates a sharp transition of the system to a topological ground state. Furthermore, local density and parity measurements provide an experimentally viable path for observing the ground state Majorana quasiparticles in ultracold atoms. Our results lay out a promising future for utilizing few-body systems as a testing ground for Majorana physics.
翻訳日:2023-05-13 20:36:17 公開日:2020-10-21
# ハイブリッド開量子システムにおける普遍的非マルコフ性検出

Universal non-Markovianity Detection in Hybrid Open Quantum Systems ( http://arxiv.org/abs/2007.01997v2 )

ライセンス: Link先を確認
Ji\v{r}\'i Svozil\'ik, Ra\'ul Hidalgo-Sacoto, Ievgen I. Arkhipov(参考訳) 任意の開ハイブリッド量子系に対する非マルコビアン性の普遍的特徴づけを示す。 この定式化は、任意の合成量子系における量子相関の指標となる一般化ウィグナー函数の負の体積に基づいている。 提案手法は、離散変数や連続変数を含む任意の単一または多成分量子システムに対して利用できることを示した。 このような量子系における非マルコビアン性を明らかにする力を示すために、いくつかの例についても考察する。

A universal characterization of non-Markovianity for any open hybrid quantum systems is presented. This formulation is based on the negativity volume of the generalized Wigner function, which serves as an indicator of the quantum correlations in any composite quantum systems. It is shown, that the proposed measure can be utilized for any single or multi-partite quantum system, containing any discrete or continuous variables. To demonstrate its power in revealing non-Markovianity in such quantum systems, we additionally consider a few illustrative examples.
翻訳日:2023-05-11 08:14:25 公開日:2020-10-21
# ランダムクラウス写像と回路におけるスペクトル遷移と普遍定常状態

Spectral transitions and universal steady states in random Kraus maps and circuits ( http://arxiv.org/abs/2007.04326v2 )

ライセンス: Link先を確認
Lucas S\'a, Pedro Ribeiro, Tankut Can, and Toma\v{z} Prosen(参考訳) 一般開放量子系における散逸と脱コヒーレンスの研究は、最近ランダムリンドブレディアン力学のスペクトルおよび定常特性の研究につながった。 自然な疑問は、それらの性質がいかにリアルで普遍的であるかである。 ここでは、散逸性量子系の異なる記述、すなわち完全に正の量子力学の離散時間クラスマップ表現を考慮することで、これらの問題に対処する。 ランダム行列理論(RMT)と数値的正対角化(英語版)により、ランダムクラウス写像を解析し、異なる発散強度とそれらの局所回路の対応性を実現する。 ランダム・クラウス写像のスペクトルは、複素平面内の単位円内にある円錐か円盤のいずれかであり、2つのケース間の遷移は散逸強度の臨界値で起こる。 固有値分布とスペクトル遷移は単純rmtモデルによってよく説明され、非エルミートrmtと四元数自由確率を用いて熱力学的極限で正確に解くことができる。 逆に定常状態はスペクトル遷移に影響されない。 しかし、その内部の定常状態は非相関な固有値によって特徴づけられる小さな散逸時の摂動的交叉状態を持つ。 大きな散逸(または大円系に対する任意の散逸)において、定常状態はランダムなウィッシュアート行列によってよく記述される。 したがって定常性はランダムリンドブレディアン力学で既に観測されているものと一致し、その普遍性を示している。 非常に顕著なことに、局所クラウス回路の統計的性質は非局所クラウス写像の統計特性と定性的に同じであり、後者はより抽出可能であり、ジェネリック開量子系の現実的および普遍的な物理的性質を既に捉えていることを示している。

The study of dissipation and decoherence in generic open quantum systems recently led to the investigation of spectral and steady-state properties of random Lindbladian dynamics. A natural question is then how realistic and universal those properties are. Here, we address these issues by considering a different description of dissipative quantum systems, namely, the discrete-time Kraus map representation of completely positive quantum dynamics. Through random matrix theory (RMT) techniques and numerical exact diagonalization, we study random Kraus maps, allowing for a varying dissipation strength, and their local circuit counterpart. We find the spectrum of the random Kraus map to be either an annulus or a disk inside the unit circle in the complex plane, with a transition between the two cases taking place at a critical value of dissipation strength. The eigenvalue distribution and the spectral transition are well described by a simplified RMT model that we can solve exactly in the thermodynamic limit, by means of non-Hermitian RMT and quaternionic free probability. The steady state, on the contrary, is not affected by the spectral transition. It has, however, a perturbative crossover regime at small dissipation, inside which the steady state is characterized by uncorrelated eigenvalues. At large dissipation (or for any dissipation for a large-enough system), the steady state is well described by a random Wishart matrix. The steady-state properties thus coincide with those already observed for random Lindbladian dynamics, indicating their universality. Quite remarkably, the statistical properties of the local Kraus circuit are qualitatively the same as those of the nonlocal Kraus map, indicating that the latter, which is more tractable, already captures the realistic and universal physical properties of generic open quantum systems.
翻訳日:2023-05-10 23:20:17 公開日:2020-10-21
# 相関雑音の存在下での量子チャネル容量の実験的観察

Experimental witnessing of the quantum channel capacity in the presence of correlated noise ( http://arxiv.org/abs/2007.09983v2 )

ライセンス: Link先を確認
Valeria Cimini, Ilaria Gianani, Massimiliano F. Sacchi, Chiara Macchiavello and Marco Barbieri(参考訳) 2量子ビット通信チャネルの量子容量に対する下限を検出する実験手法を提案する。 2つの光子の偏光度自由度を持つ実装について検討し、相関強度の異なる値に対する相関雑音の存在下でのそのような手法の効率について報告する。 この手順は、2つのキュービットの分離可能な状態の生成と出力での局所的な測定に基づいている。 また,相関2量子ビットチャネルの性能を,各サブシステム上の部分トレースに対応する単一量子ビットチャネルと比較することにより,相関を適切に考慮し,より大きな量子容量を達成することの有益性を示す。

We present an experimental method to detect lower bounds to the quantum capacity of two-qubit communication channels. We consider an implementation with polarisation degrees of freedom of two photons and report on the efficiency of such a method in the presence of correlated noise for varying values of the correlation strength. The procedure is based on the generation of separable states of two qubits and local measurements at the output. We also compare the performance of the correlated two-qubit channel with the single-qubit channels corresponding to the partial trace on each of the subsystems, thus showing the beneficial effect of properly taking into account correlations to achieve a larger quantum capacity.
翻訳日:2023-05-08 23:28:23 公開日:2020-10-21
# 量子振幅推定によるπ推定のための量子回路

Quantum circuit to estimate pi using quantum amplitude estimation ( http://arxiv.org/abs/2008.02623v2 )

ライセンス: Link先を確認
Takuma Noto(参考訳) 本研究では,算術回路と量子振幅推定を用いてpi値を推定する量子回路を提案する。 本稿では,2種類の量子乗算回路について検討し,量子乗算回路を量子計算に必要な基本演算回路として提案する。 ゲートサイズが$ o(n) $ の量子加算器によって実現される二乗法では、$ o(n^2) $ ゲートと少なくとも 1 個のアンシラリー量子ビットを必要とするが、quantum fourier transform (qft) によって実現される二乗法では、アンシラリー量子ビットを使わずに $ o(n^3) $ ゲートを必要とする。 πを推定するために提案された量子回路は、モンテカルロ法、量子振幅推定、量子二乗法に基づいている。 qftを用いて量子二乗法を適用することで、回路は 2^{2n} $ サンプリングで 4n + 1 $ qubits で実装された。 提案手法は,n$の量子計算機シミュレータを用いて2から6に変化し,得られた結果を古典計算により得られたものと比較した。

This study presents a quantum circuit for estimating the pi value using arithmetic circuits and by quantum amplitude estimation. We review two types of quantum multipliers and propose quantum squaring circuits based on the multiplier as basic arithmetic circuits required for performing quantum computations. The squarer realized by a quantum adder with the gate size of $ O(n) $ requires $ O(n^2) $ gates and at least one ancillary qubits, while that realized by using quantum Fourier transform (QFT) requires $ O(n^3) $ gates without ancillary qubit. The proposed quantum circuit to estimate pi is based on the Monte Carlo method, quantum amplitude estimation, and quantum squarer. By applying the quantum squarer using QFT, the circuit was implemented in $ 4n + 1 $ qubits at $ 2^{2n} $ sampling. The proposed method was demonstrated using a quantum computer simulator with $ n $ being varied from 2 to 6, and the obtained result was compared with the one obtained by performing a classical calculation.
翻訳日:2023-05-07 04:15:44 公開日:2020-10-21
# 対称三重ウェル構造を有する正確に可解なセクシーポテンシャル

Exactly Solvable Sextic Potential Having Symmetric Triple-Well Structure ( http://arxiv.org/abs/2008.06500v3 )

ライセンス: Link先を確認
Jamal Benbourenane, Mohamed Benbourenane, Hichem Eleuch(参考訳) 本稿では, 完全可解であるセクシーポテンシャルの族を初めて紹介し, エネルギースペクトル全体と波動関数を持つ三重ウェルポテンシャルの族を超対称性法を用いて紹介する。 30年前より、関数の2つの組み合わせによって形成された「加法的」あるいは「翻訳的」な超ポテンシャルの全てが発見され、それらのリストは、ほとんどの教科書で利用できるよく知られた解決可能なポテンシャルによって既に枯渇していた。 3つの関数(2つの単項と1つの有理関数)の線形結合によって形成される新しい超ポテンシャルの族を考案し、パラメータ関数の変化は4つのパラメータで線形である。 超ポテンシャル$W(x,A,B,D,G) = Ax^3 + Bx -\frac{Dx}{1+Gx^2}$ のこの新しいポテンシャル族は、正確に解けるシュリンガー方程式のリストを拡張する。 我々は、有界状態のエネルギーが量子数において有理であることを示した。 さらに、高調波発振器による中心井戸周辺の電位の近似は、通常の慣行では有効ではない。 2つの外井戸は励起状態の確率密度分布に顕著に影響を及ぼす。 トリプルウェルポテンシャルの個体群が2つの外側の井戸に局在していることに気付きました。 これらの結果は、トンネル効果やインスタントンダイナミクスのようなより物理的な現象を探索するための潜在的な応用をもたらす。

In this paper, we introduce a family of sextic potentials that are exactly solvable, and for the first time, a family of triple-well potentials with their whole energy spectrum and wavefunctions using supersymmetry method. It was suggested since three decades ago that all "additive" or "translational" shape invariant superpotentials formed by two combination of functions have been found and their list was already exhausted by the well-known exactly solvable potentials that are available in most textbooks and furthermore, there are no others. We have devised a new family of superpotentials formed by a linear combination of three functions (two monomials and one rational) and where the change of parameter function is linear in four parameters. This new family of potentials with superpotential $W(x,A,B,D,G) = Ax^3 + Bx -\frac{Dx}{1+Gx^2}$ will extend the list of exactly solvable Schr\"odinger equations. We have shown that the energy of the bound states is rational in the quantum number. Furthermore, approximating the potential around the central well by a harmonic oscillator, as a usual practice, is not valid. The two outer wells affect noticeably the probability density distribution of the excited states. We have noticed that the populations of the triple-well potentials are localized in the two outer wells. These results have potential applications to explore more physical phenomena such as tunneling effect, and instantons dynamics.
翻訳日:2023-05-06 05:04:27 公開日:2020-10-21
# 量子コンピュータによる高次アダマール行列の探索

Finding high-order Hadamard matrices by using quantum computers ( http://arxiv.org/abs/2009.10919v2 )

ライセンス: Link先を確認
Andriyan Bayu Suksmono and Yuichiro Minato(参考訳) 難しい問題を解決することは、量子コンピュータによって解決されるコンピューティングにおいて最も重要な問題の1つである。 これまで、h-searchは、対応する順序のすべての可能なバイナリ行列の中でアダマール行列(h-matrix)を見つける問題であり、量子コンピュータによって解決できる難しい問題であることを示した。 しかし、現在の量子プロセッサにおける量子ビット数と接続数に制限があるため、低次H-SEARCHのみが実装可能である。 本稿では,h行列の古典的構成・探索手法を取り入れることで,高次h行列を求める新しい量子計算手法を開発できることを示す。 特に、チューリンに基づく量子計算法は、古典的および量子的資源のバランスをとることで、任意の高次H行列を見つけるためにさらに発展することができる。 この方法は、古典的コンピュータだけでは不可能であり、複雑性の指数関数的な増大のため、実用的および科学的関心のある未知のh-行列を見つけることができる。 本稿では,100以上のh行列を見出した結果と,古典量子資源バランス法を用いてさらに高次行列を求めるための原型的実験について述べる。 ヒューリスティック最適化は一般に近似解のみを達成するが、厳密解は完備なリスト付けによって決定されるべきであり、h探索では解の直交性をチェックすることで多項式時間でそのような厳密性を保証することが困難である。 古典的計算に対する量子優位性は、問題の解法を決定的な解に比較することによって測定されるべきであったため、提案手法は近い将来、実用的な量子優位性を示す代替ルートにつながる可能性がある。

Solving hard problems is one of the most important issues in computing to be addressed by a quantum computer. Previously, we have shown that the H-SEARCH; which is the problem of finding a Hadamard matrix (H-matrix) among all possible binary matrices of corresponding order, is a hard problem that can be solved by a quantum computer. However, due to the limitation on the number of qubits and connections in present day quantum processors, only low orders H-SEARCH are implementable. In this paper, we show that by adopting classical construction/search techniques of the H-matrix, we can develop new quantum computing methods to find higher order H-matrices. Especially, the Turyn-based quantum computing method can be further developed to find an arbitrarily high order H-matrix by balancing the classical and quantum resources. This method is potentially capable to find some unknown H-matrices of practical and scientific interests, where a classical computer alone cannot do because of the exponential grow of the complexity. We present some results of finding H-matrix of order more than one hundred and a prototypical experiment to find even higher order matrix by using the classical-quantum resource balancing method. Although heuristic optimizations generally only achieve approximate solutions, whereas the exact one should be determined by exhaustive listing; which is difficult to perform, in the H-SEARCH we can assure such exactness in polynomial time by checking the orthogonality of the solution. Since quantum advantage over the classical computing should have been measured by comparing the performance in solving a problem up to a definitive solution, the proposed method may lead to an alternate route for demonstrating practical quantum supremacy in the near future.
翻訳日:2023-05-01 05:03:51 公開日:2020-10-21
# 53量子系における絡み合った量子ビットの誤差スケーリングの位相解析

Phase Analysis on the Error Scaling of Entangled Qubits in a 53-Qubit System ( http://arxiv.org/abs/2010.06339v2 )

ライセンス: Link先を確認
Wei-Jia Huang, Wei-Chen Chien, Chien-Hung Cho, Che-Chun Huang, Tsung-Wei Huang, Seng Ghee Tan, Chenfeng Cao, Bei Zeng, and Ching-Ray Chang(参考訳) 我々は,IBMロチェスターにおける絡み合った量子ビットの挙動を,様々な接続性と「ノイズ」環境下で慎重に研究した。 GHZ様状態の測定に基づく位相軌跡解析を行う。 その結果,エンタングル量子ビットは振幅の重み付けのみに影響を与えるスケーリング特性によって環境騒音に対して「保護」されていることが指摘された。 ほとんどの測定の再現性は、合理的に短いゲート操作時間で確認されている。 しかし、量子状態間の遷移の形で重要な絡み合い進化を示す量子ビットの組み合わせはまだいくつか存在する。 絡み合った進化の位相軌道と、ghz様状態の突然の死と、新たに励起された状態の復活の影響を詳細に分析した。 絡み合った量子ビットの全ての観測軌道は、「ノイズ」中間スケール量子(NISQ)コンピュータにおいて、新しく励起された状態の影響下で生じる。

We have studied carefully the behaviors of entangled qubits on the IBM Rochester with various connectivities and under a "noisy" environment. A phase trajectory analysis based on our measurements of the GHZ-like states is performed. Our results point to an important fact that entangled qubits are "protected" against environmental noise by a scaling property that impacts only the weighting of their amplitudes. The reproducibility of most measurements has been confirmed within a reasonably short gate operation time. But there still are a few combinations of qubits that show significant entanglement evolution in the form of transitions between quantum states. The phase trajectory of an entangled evolution, and the impact of the sudden death of GHZ-like states and the revival of newly excited states are analyzed in details. All observed trajectories of entangled qubits arise under the influences of the newly excited states in a "noisy" intermediate-scale quantum (NISQ) computer.
翻訳日:2023-04-29 05:03:55 公開日:2020-10-21
# ミューオン水素中のエネルギー間隔3s-1

Energy interval 3S-1S in muonic hydrogen ( http://arxiv.org/abs/2010.07380v3 )

ライセンス: Link先を確認
A.E. Dorokhov, R.N. Faustov, A.P. Martynenko, and F.A. Martynenko(参考訳) ミューオン水素中のエネルギー間隔$3S-1Sは、量子電磁力学の準ポテンシャル的アプローチに基づいて計算される。 我々は, 相対論的効果, 真空分極, 原子核構造, リコイルの影響, およびこれらを含む組み合わせの補正によって決定される, $\alpha^3\div \alpha^6 $ の異なる順序の補正を考慮する。 原子核構造効果は、1光子相互作用の場合の陽子の電荷半径と2光子交換相互作用の場合の陽子電磁形状因子で表される。 エネルギー間隔(3s-1s)の値は、将来の実験データと比較し、高い精度で陽子電荷半径を決定するために用いられる。

The energy interval $ (3S-1S) $ in muonic hydrogen is calculated on the basis of quasipotential approach in quantum electrodynamics. We take into account different corrections of orders $\alpha^3\div \alpha^6 $, which are determined by relativistic effects, the effects of vacuum polarization, nuclear structure and recoil, as well as combined corrections including the above. Nuclear structure effects are expressed in terms of the charge radius of the proton in the case of one-photon interaction and the proton electromagnetic form factors in the case of two-photon exchange interaction. The value of the energy interval (3S-1S) can be used for a comparison with future experimental data and determining the proton charge radius with greater accuracy.
翻訳日:2023-04-29 02:26:08 公開日:2020-10-21
# 導波路QEDシステムにおける自己干渉に基づく可制御光応答と可変センシング

Controllable optical response and tunable sensing based on self interference in waveguide QED systems ( http://arxiv.org/abs/2010.09319v2 )

ライセンス: Link先を確認
Lei Du, Zhihai Wang, and Yong Li(参考訳) 2つの分離ポートにおける屈曲導波路と結合した共振器の自己干渉効果について検討した。 このような干渉効果は定在波共振器と進行波共振器に類似するが、導波路を介して間接的に結合する2つの分離共振器の系では、結合形状と関連する干渉効果は、どの共振器が選択されるかによって異なる。 自己干渉のため、可変線幅と周波数シフトを含む制御可能な光応答、および光暗黒状態を実現することができる。 さらに, 自己干渉型フォトン・マグノンハイブリッドモデルを検討し, 周波数センシングに応用可能な位相依存性のファノ様線形状を示す。 光子-マグノンハイブリッド化は感度を高め、調整可能な加工領域を提供するだけでなく、磁場強度の光学的読み出しを可能にする。 本稿では,自己干渉効果とその応用可能性について深い知見を与える。

We study the self interference effect of a resonator coupled with a bent waveguide at two separated ports. Such interference effects are shown to be similar for the cases of standing-wave and traveling-wave resonators, while in the system of two separated resonators indirectly coupled via a waveguide, the coupling forms and the related interference effects depend on which kind of resonators is chosen. Due to the self interference, controllable optical responses including tunable linewidth and frequency shift, and optical dark state can be achieved. Moreover, we consider a self-interference photon-magnon hybrid model and show phase-dependent Fano-like line shapes which have potential applications in frequency sensing. The photon-magnon hybridization can not only enhance the sensitivity and provide tunable working region, but also enables optical readout of the magnetic field strength in turn. The results in this paper provide a deeper insight into the self interference effect and its potential applications.
翻訳日:2023-04-28 08:09:48 公開日:2020-10-21
# 量子非破壊測定による光学原子時計のQ値改善

Improving the Q factor of an optical atomic clock using quantum non-demolition measurement ( http://arxiv.org/abs/2010.10419v2 )

ライセンス: Link先を確認
William Bowden, Alvise Vianello, Ian R Hill, Marco Schioppo, Richard Hobson(参考訳) 量子非破壊測定(QND)は、量子システムの操作において顕著なツールである。 システムの脆弱な量子オブザーバブルを保存しながら、特定の情報を抽出することができる。 ここでは、共振器を用いたQND測定を光学格子時計に適用し、80倍の忠実度で読み出し後の原子の量子コヒーレンスを保存する。 この手法を用いて、連続したQND測定により、超安定レーザーの相をコヒーレント原子状態に安定化する。 我々は、300~msから2~sの範囲のラムゼー分光時間を用いて、超安定レーザーの位相コヒーレンスを改善し、別の光学格子時計を尋問する。 この手法では、95 %のコントラストを維持し、クロックの \emph{Q} 因子を1.7 倍増して 10^{15}$ となる。

Quantum non-demolition (QND) measurement is a remarkable tool for the manipulation of quantum systems. It allows specific information to be extracted while still preserving fragile quantum observables of the system. Here we apply cavity-based QND measurement to an optical lattice clock---a type of atomic clock with unrivalled frequency precision---preserving the quantum coherence of the atoms after readout with 80\% fidelity. We apply this technique to stabilise the phase of an ultrastable laser to a coherent atomic state via a series of repeated QND measurements. We exploit the improved phase-coherence of the ultrastable laser to interrogate a separate optical lattice clock, using a Ramsey spectroscopy time extended from 300~ms to 2~s. With this technique we maintain 95\% contrast and observe a seven-fold increase in the clock's \emph{Q} factor to $1.7\times10^{15}$.
翻訳日:2023-04-28 05:31:58 公開日:2020-10-21
# 寒冷原子における空間クラマース-クロニッグ関係と一方向反射制御

Spatial Kramers-Kronig relation and controlled unidirectional reflection in cold atoms ( http://arxiv.org/abs/2010.10758v1 )

ライセンス: Link先を確認
Yan Zhang, Jin-Hui Wu, M. Artoni, and G. C. La Rocca(参考訳) 低温原子試料中のプローブ感受性の周波数依存的空間変動を実現するためのモデルを提案する。 周波数領域におけるプローブ感受性の実部と虚部の間の通常のクラマース・クロニッヒ(KK)関係は、空間内で線形に変化する強度の遠ゆらぎ制御場として空間領域にマッピングできることが判明した。 この非エルミート媒質は、左端または右端から入射するプローブ光子に対して一方向反射のない周波数帯域を示す。 周波数帯域を調整できるだけでなく、制御場強度と周波数を変化させることで、消滅する反射率に対応する方向を選択することも特に興味深い。 他の方向からの非零反射率は通常、現実的な原子密度に対して小さいが、反射率の高いコントラストを達成するためにブラッグ散乱を空間kk関係に組み込むことで大きく拡張することができる。

We propose a model for realizing frequency-dependent spatial variations of the probe susceptibility in a cold atomic sample. It is found that the usual Kramers-Kronig (KK) relation between real and imaginary parts of the probe susceptibility in the frequency domain can be mapped into the space domain as a far detuned control field of intensity linearly varied in space is used. This non-Hermitian medium exhibits then a unidirectional reflectionless frequency band for probe photons incident from either the left or the right sample end. It is of special interest that we can tune the frequency band as well as choose the direction corresponding to the vanishing reflectivity by changing, respectively, the control field intensity and frequency. The nonzero reflectivity from the other direction is typically small for realistic atomic densities, but can be largely enhanced by incorporating the Bragg scattering into the spatial KK relation so as to achieve a high reflectivity contrast.
翻訳日:2023-04-28 03:24:17 公開日:2020-10-21
# 量子力学における連続変数グラフ状態

Continuous-variable graph states for quantum metrology ( http://arxiv.org/abs/2010.10704v1 )

ライセンス: Link先を確認
Yunkai Wang and Kejie Fang(参考訳) グラフ状態は、測定に基づく量子計算のような量子情報処理の唯一のリソースである。 本稿では,位相・変位センシングを含む単パラメータ量子メトロロジーに対する連続変数グラフ状態の利用について理論的に検討する。 2つのセンシングモードの最適グラフを同定し,局所ホモダイン測定により位相・変位検出の精度のハイゼンベルクスケーリングが可能であることを示した。

Graph states are a unique resource for quantum information processing, such as measurement-based quantum computation. Here, we theoretically investigate using continuous-variable graph states for single-parameter quantum metrology, including both phase and displacement sensing. We identified the optimal graph states for the two sensing modalities and showed that Heisenberg scaling of the accuracy for both phase and displacement sensing can be achieved with local homodyne measurements.
翻訳日:2023-04-28 03:23:59 公開日:2020-10-21
# IBM Q 体験のための量子同型コンパイル

Compiling quantamorphisms for the IBM Q Experience ( http://arxiv.org/abs/2010.10510v1 )

ライセンス: Link先を確認
Ana Neri, Rui Soares Barbosa, Jos\'e N. Oliveira(参考訳) 本論文は、仕様から古典的プログラムのカテゴリー導出と量子物理学への圏論的アプローチとの関係に基づいて、古典的プログラム代数の法則を量子プログラミングへ拡張することに貢献する。 これは、IBM Q Experienceで利用可能な量子デバイスにデプロイされる正しい構成量子回路を構築することを目的としている。 量子回路の可逆性は最小補数によって保証され、再帰的に拡張される。 測定は「量子同型」と呼ばれるそのような再帰計算の終わりまで延期され、量子効果を最大化する。 量子準同型 (quantamorphism) は古典的カタモルフィズムであり、量子可逆性を確保するために拡張され、リスト上の量子サイクルや量子折りたたみを実装している。 クライスリ対応により、量子同型は量子パラメータを持つモナディック汎関数プログラムとして記述できる。 これにより、モナディックな関数型プログラミング言語であるHaskellを実験的な作業に使用することができる。 Haskellで作成された計算量子プログラムは、Quipperを通じてQiskitインターフェースからIBM Q量子デバイスにプッシュされる。 生成された量子回路(しばしば非常に大きい)は予測された振る舞いを示す。 しかし、実際の量子デバイス上で実行すると、かなりのエラーが発生します。 量子デバイスは常に進化しているため、近い将来信頼性が向上し、プログラムをより正確に実行できるようになるでしょう。

Based on the connection between the categorical derivation of classical programs from specifications and the category-theoretic approach to quantum physics, this paper contributes to extending the laws of classical program algebra to quantum programming. This aims at building correct-by-construction quantum circuits to be deployed on quantum devices such as those available at the IBM Q Experience. Quantum circuit reversibility is ensured by minimal complements, extended recursively. Measurements are postponed to the end of such recursive computations, termed "quantamorphisms", thus maximising the quantum effect. Quantamorphisms are classical catamorphisms which, extended to ensure quantum reversibility, implement quantum cycles (vulg. for-loops) and quantum folds on lists. By Kleisli correspondence, quantamorphisms can be written as monadic functional programs with quantum parameters. This enables the use of Haskell, a monadic functional programming language, to perform the experimental work. Such calculated quantum programs prepared in Haskell are pushed through Quipper to the Qiskit interface to IBM Q quantum devices. The generated quantum circuits - often quite large - exhibit the predicted behaviour. However, running them on real quantum devices incurs into a significant amount of errors. As quantum devices are constantly evolving, an increase in reliability is likely in the near future, allowing for our programs to run more accurately.
翻訳日:2023-04-28 03:23:41 公開日:2020-10-21
# 量子波インピーダンス法の有限周期構造への応用

An application of a quantum wave impedance method to finite periodic structures ( http://arxiv.org/abs/2010.10958v1 )

ライセンス: Link先を確認
O. I. Hryhorchak(参考訳) 任意の局所化ポテンシャルを持つ量子力学系における量子波インピーダンス関数と転移および散乱行列の要素の関係を確立した。 得られた結果は、ポテンシャルの複雑な幾何構造を持つナノシステムの研究に、転送行列法と量子波インピーダンス法という両方の方法の利点を利用することができる。 フィニット・ディラック・コームが解かれ、このシステムにおけるタムのレベルに対する表現は両方のアプローチで導出された。

The relations between a quantum wave impedance function and elements of transfer and scattering matrixes for quantum mechanical systems with arbitrary localized form of potential were established. Obtained results allows using the advantages of both methods, namely a transfer matrix technique and a quantum wave impedance approach, for an investigating of nanosystems with a complicated geometry of a potential. A finit Dirac comb was solved and expressions for Tamm's levels in this system were derived within both approaches.
翻訳日:2023-04-28 03:21:04 公開日:2020-10-21
# 有限サイズ効果を伴わない臨界量子力学の数値シミュレーション

Numerical Simulation of Critical Quantum Dynamics without Finite Size Effects ( http://arxiv.org/abs/2010.10954v1 )

ライセンス: Link先を確認
Edward Gillman, Federico Carollo, and Igor Lesanovsky(参考訳) 古典的な$(1+1)D$セルオートマトン、例えばDomany-Kinzelセルオートマトンは非平衡現象の研究のためのパラダイムシステムである。 このようなシステムは離散時間ステップで進化し、したがって時間離散化誤差がなくなる。 さらに、臨界現象に関する情報は、有限時間に限り有限光円錐のみをサポートする初期種子の進化をシミュレートすることで得られる。 これにより、有限サイズの誤差や境界効果のない、本質的に数値的に正確なシミュレーションが可能になる。 1+1)D$量子セルオートマトンにおける多体臨界力学は、シード初期条件から始めると、吸収状態の量子セルオートマトンを直接無限格子上で研究することができる。 これはテンソルネットワークを用いて関連する一次元非ユニタリ量子セルオートマトンのダイナミクスをシミュレートすることで効率的に実現できる。 我々は最近導入されたモデルに適用し、普遍指数の正確な値を求め、このアプローチが量子系における非平衡普遍物理学を正確に分類するための強力なツールとなることを示唆する。

Classical $(1+1)D$ cellular automata, as for instance Domany-Kinzel cellular automata, are paradigmatic systems for the study of non-equilibrium phenomena. Such systems evolve in discrete time-steps, and are thus free of time-discretisation errors. Moreover, information about critical phenomena can be obtained by simulating the evolution of an initial seed that, at any finite time, has support only on a finite light-cone. This allows for essentially numerically exact simulations, free of finite-size errors or boundary effects. Here, we show how similar advantages can be gained in the quantum regime: The many-body critical dynamics occurring in $(1+1)D$ quantum cellular automata with an absorbing state can be studied directly on an infinite lattice when starting from seed initial conditions. This can be achieved efficiently by simulating the dynamics of an associated one-dimensional, non-unitary quantum cellular automaton using tensor networks. We apply our method to a model introduced recently and find accurate values for universal exponents, suggesting that this approach can be a powerful tool for precisely classifying non-equilibrium universal physics in quantum systems.
翻訳日:2023-04-28 03:20:56 公開日:2020-10-21
# 無限次元量子リソースの操作的特徴付け

An operational characterization of infinite-dimensional quantum resources ( http://arxiv.org/abs/2010.10927v1 )

ライセンス: Link先を確認
Erkka Haapasalo, Tristan Kraft, Juha-Pekka Pellonp\"a\"a, Roope Uola(参考訳) 近年、量子状態とチャネルの様々な非古典的性質は、古典的状態よりも特定の量子情報タスクで提供される利点によって特徴づけられている。 このような利点は通常、大量の量子リソースが対応するタスクのパフォーマンス向上につながるため、定量的であることが証明される。 これまでのところ、これらの特徴付けは有限次元の設定でのみ確立されている。 本稿では,既知の結果を無限次元に拡張する手法を提案する。 この手法は無限次元資源測度の有限次元対応による近似に依存する。 我々は、近似手順が厳密であること、すなわち、確立された無限次元資源量化器と一致すること、およびこれらの量化器の関連拡張と一致するための手続きに十分な条件を与える。 様々な連続変数量子リソースがこれらの条件下にあることが示され、いわゆる量子ゲームにおいてそれらが提供する利点を通じて運用上の解釈を与える。 最後に、無限次元の設定において、解釈を最大相対エントロピーに拡張する。

Recently, various non-classical properties of quantum states and channels have been characterized through an advantage they provide in specific quantum information tasks over their classical counterparts. Such advantage can be typically proven to be quantitative, in that larger amounts of quantum resources lead to better performance in the corresponding tasks. So far, these characterizations have been established only in the finite-dimensional setting. In this manuscript, we present a technique for extending the known results to the infinite-dimensional regime. The technique relies on approximating infinite-dimensional resource measures by their finite-dimensional counterparts. We give a sufficient condition for the approximation procedure to be tight, i.e. to match with established infinite-dimensional resource quantifiers, and another sufficient condition for the procedure to match with relevant extensions of these quantifiers. We show that various continuous variable quantum resources fall under these conditions, hence, giving them an operational interpretation through the advantage they can provide in so-called quantum games. Finally, we extend the interpretation to the max relative entropy in the infinite-dimensional setting.
翻訳日:2023-04-28 03:20:40 公開日:2020-10-21
# 単一量子エミッタの内部光効果

Internal Photo Effect from a Single Quantum Emitter ( http://arxiv.org/abs/2010.10924v1 )

ライセンス: Link先を確認
Pia Lochner, Jens Kerski, Annika Kurzmann, Andreas D. Wieck, Arne Ludwig, Martin Geller, Axel Lorke(参考訳) 自己集合量子ドット上の時間分解共鳴蛍光測定により、バンド内励起によってドットから電子を放出する内部光効果を示す。 励起強度に光発生エミッションレートの線形依存性を見出した上で,関連するレートを推定するためにレート方程式モデルを用いた。 励起強度を調節することにより、放出速度は数桁以上調整可能である。 本研究は, 単原子分光法(光イオン化法)でよく知られているプロセスが固体中で観察可能であることを示す。 結果はまた、固体量子光学デバイスにおけるコヒーレンス時間を基本的に制限する重要な、しかしほとんど無視されるメカニズムを定量化する。

We demonstrate by time-resolved resonance fluorescence measurements on a single self-assembled quantum dot an internal photo-effect that emits electrons from the dot by an intra-band excitation. We find a linear dependence of the optically generated emission rate on the excitation intensity and use a rate equation model to deduce the involved rates. The emission rate is tunable over several orders of magnitude by adjusting the excitation intensity. Our findings show that a process that is well known in single atom spectroscopy (i.e. photo ionization) can also be observed in the solid state. The results also quantify an important, but mostly neglected, mechanism that may fundamentally limit the coherence times in solid-state quantum optical devices.
翻訳日:2023-04-28 03:20:24 公開日:2020-10-21
# ポストセレクションによるDQC1モデルにおける量子相関の促進

Promoting quantum correlations in DQC1 model via post-selection ( http://arxiv.org/abs/2010.10898v1 )

ライセンス: Link先を確認
Elisa I. Goettems, Thiago O. Maciel, Diogo O. Soares-Pinto, and E. I. Duzzioni(参考訳) 1量子ビット(DQC1)モデルによる決定論的量子計算は、ユニタリ行列の正規化トレースを効率的に計算できる量子コンピューティングの制限されたモデルである。 本研究では,dqc1回路が生成するエンタングルメント,ベルの非局所性,量子不一致,コヒーレンスを2量子ビット(オーソリタリと制御)のみを考慮して解析する。 標準DQC1モデルでは、量子不協和とコヒーレンスのみが現れる。 回路にフィルタを導入することにより、完全混合状態から外す補助量子ビットを浄化し、その結果、絡み合いやベルの非局所性のような他の量子相関を促進させる。 精製プロセスの最適化により,少量の精製でも絡み合いやベルの非局所性が生じると結論づけた。 平均して、精製工程を12回繰り返して行うと、補助量子ビットは99%純くなる。 この状況では、ほぼ極端に絡み合った状態が達成され、その順番にベルの不等式をほぼ極端に破る。 この結果は、単純な修正により、dqc1モデルは量子コンピューティングの普遍モデルに昇格できることを示唆している。

The deterministic quantum computation with one qubit (DQC1) model is a restricted model of quantum computing able to calculate efficiently the normalized trace of a unitary matrix. In this work we analyse the quantum correlations named entanglement, Bell's nonlocality, quantum discord, and coherence generated by the DQC1 circuit considering only two qubits (auxiliary and control). For the standard DQC1 model only quantum discord and coherence appear. By introducing a filter in the circuit we purify the auxiliary qubit taking it out from the totally mixed state and consequently promoting other quantum correlations between the qubits, such as entanglement and Bell's nonlocality. Through the optimization of the purification process we conclude that even a small purification is enough to generate entanglement and Bell's nonlocality. We obtain, in average, that applying the purification process repeatedly by twelve times the auxiliary qubit becomes 99% pure. In this situation, almost maximally entangled states are achieved, which by its turn, almost maximally violate the Bell's inequality. This result suggests that with a simple modification the DQC1 model can be promoted to a universal model of quantum computing.
翻訳日:2023-04-28 03:20:13 公開日:2020-10-21
# パラメータループのその場制御による浮遊マイクロメカニカル発振器のキラル状態変換

Chiral state conversion in a levitated micromechanical oscillator with in situ control of parameter loops ( http://arxiv.org/abs/2010.10875v1 )

ライセンス: Link先を確認
Peiran Yin, Xiaohui Luo, Liang Zhang, Shaochun Lin, Tian Tian, Rui Li, Zizhe Wang, Changkui Duan, Pu Huang, and Jiangfeng Du(参考訳) 利得と損失を持つ物理系は、例外点 (EPs) で退化される非エルミート的ハミルトニアンによって記述することができる。 多くの新しい予期せぬ特徴が非エルミート系で探索され、近年多くの関心を集めている。 最も興味深い特徴の1つは、1つのEPを動的に囲むときにキラル状態変換が現れることである。 本稿では,1対のepを搬送し,パラメータ面のループに沿ってハミルトニアンを緩やかに発展させる,制御可能な浮遊マイクロパーティクルシステムを提案する。 制御可能な回転角,利得,損失係数を利用して,ループの構造,サイズ,位置をその場で制御できる。 エネルギー表面のトポロジカル構造と非断熱遷移 (NATs) の結合作用により, キラルの挙動はEPを囲むループに沿っても, EPから直進経路に沿っても現れることを示した。 この研究はキラル状態変換のパラメータ空間の範囲を広げ、例外点物理学の興味深い性質を探求するための有用なプラットフォームを提案する。

Physical systems with gain and loss can be described by a non-Hermitian Hamiltonian, which is degenerated at the exceptional points (EPs). Many new and unexpected features have been explored in the non-Hermitian systems with a great deal of recent interest. One of the most fascinating features is that, chiral state conversion appears when one EP is encircled dynamically. Here, we propose an easy-controllable levitated microparticle system that carries a pair of EPs and realize slow evolution of the Hamiltonian along loops in the parameter plane. Utilizing the controllable rotation angle, gain and loss coefficients, we can control the structure, size and location of the loops in situ. We demonstrate that, under the joint action of topological structure of energy surfaces and nonadiabatic transitions (NATs), the chiral behavior emerges both along a loop encircling an EP and even along a straight path away from the EP. This work broadens the range of parameter space for the chiral state conversion, and proposes a useful platform to explore the interesting properties of exceptional points physics.
翻訳日:2023-04-28 03:19:30 公開日:2020-10-21
# 疑似コードワードに基づく量子色コードの復号

Pseudocodeword-based Decoding of Quantum Color Codes ( http://arxiv.org/abs/2010.10845v1 )

ライセンス: Link先を確認
July X. Li, Joseph M. Renes, Pascal O. Vontobel(参考訳) これまでの研究で、擬似符号語は古典符号だけでなく量子安定符号に対してもデコーダの振る舞いを特徴付けることができることを示した。 このpseudocodewordsに基づく解析から得られた知見により、量子サイクル符号のためのpseudocodewordsに基づく2段階のデコーダも導入し、デコード性能が向上した。 本稿では,量子(安定化子)カラー符号を考察し,疑似コードワードに基づく量子サイクル符号の一般化である2段階デコーダを提案する。 我々のデコーダは、計算複雑性の低い局所的またはエラー重み依存の操作のみを持ち、これらの種類のコードに対する従来のデコーダアプローチと比較して、デコーダの性能が向上している。

In previous work, we have shown that pseudocodewords can be used to characterize the behavior of decoders not only for classical codes but also for quantum stabilizer codes. With the insights obtained from this pseudocodewords-based analysis, we have also introduced a two-stage decoder based on pseudocodewords for quantum cycle codes that leads to improved decoding performance. In this paper, we consider quantum (stabilizer) color codes and propose a two-stage decoder that is a generalization of the pseudocodeword-based decoder for quantum cycle codes. Our decoder has only local or error-weight-dependent operations of low computational complexity and better decoding performance compared with previous decoding approaches for these types of codes.
翻訳日:2023-04-28 03:19:09 公開日:2020-10-21
# 脆弱な送信機による双方向不正暗号化

Two-way Unclonable Encryption with a vulnerable sender ( http://arxiv.org/abs/2010.10827v1 )

ライセンス: Link先を確認
Daan Leermakers and Boris Skoric(参考訳) 2003年にgottesmanによって導入されたunclonable encryptionは、全てのキーが後になってリークした場合でも、転送された古典的なメッセージの機密性を保証する量子プロトコルである。 本稿では,実行が失敗した場合でも,送信者の鍵資料の漏洩を許すという付加的な特性を持つアンクロンブル暗号化プロトコルを提案する。 この追加機能により、当事者の1人が後プロトコルの盗難から鍵を保護できない場合でも、セキュアな量子暗号化を実現することができる。 このような非対称性は、例えば、クライアントデバイスがリソースの制約を受け、敵対的な環境に置かれているサーバー・クライアントのシナリオで発生する。 本プロトコルは双方向の量子チャネルを双方向プロトコルlm05と似た方法で利用する。 ボブはアリスにランダムなクォービット状態を送る。 アリスは、メッセージと共有鍵に依存する方法で状態を反転させ、結果の状態をボブに返す。 ボブはフリップを測定することでアリスのメッセージを回復する。 我々のプロトコルは、制限不能な暗号化の定義に満足しており、Aliceのキーがプロトコルの後にリークしても、メッセージが安全であることを証明する。 さらに, 鍵材の一部が安全に再利用可能であることを示す。 私たちのセキュリティ証明はダイヤモンドのノルムで定式化されており、構成可能であり、ノイズの多い量子チャネルを可能にします。 我々は、長いメッセージの限界における漸近性のためにのみ詳細を調査する。 その結果、鍵レートの高い双方向QKDスキームを構築した。 独立チャネル雑音の場合,その鍵レートは,2方向QKD方式 LM05 よりも高いことを示す。

Unclonable Encryption, introduced by Gottesman in 2003, is a quantum protocol that guarantees the secrecy of a successfully transferred classical message even when all keys leak at a later time. We propose an Unclonable Encryption protocol with the additional property that the sender's key material is allowed to leak even in the case of an unsuccessful run. This extra feature makes it possible to achieve secure quantum encryption even when one of the parties is unable to protect its keys against after-protocol theft. Such an asymmetry occurs e.g. in case of server-client scenarios, where the client device is resource-constrained and/or located in a hostile environment. Our protocol makes use of a bidirectional quantum channel in a manner similar to the two-way protocol LM05. Bob sends random qubit states to Alice. Alice flips the states in a way that depends on the message and a shared key, and sends the resulting states back to Bob. Bob recovers Alice's message by measuring the flips. We prove that our protocol satisfies the definition of unclonable encryption and additionally that the message remains secure even if all of Alice's keys leak after the protocol. Furthermore, we show that some of the key material can be safely re-used. Our security proof is formulated in terms of diamond norms, which makes it composable, and allows for noisy quantum channels. We work out the details only for the asymptotics in the limit of long messages. As a side result we construct a two-way QKD scheme with a high key rate. We show that its key rate is higher than the rate of the two-way QKD scheme LM05 proven for the case of independent channel noise.
翻訳日:2023-04-28 03:18:56 公開日:2020-10-21
# 回避交差における固体量子ビットのコヒーレンス

Probing the coherence of solid-state qubits at avoided crossings ( http://arxiv.org/abs/2010.11077v1 )

ライセンス: Link先を確認
Mykyta Onizhuk, Kevin C. Miao, Joseph P. Blanton, He Ma, Christopher P. Anderson, Alexandre Bourassa, David D. Awschalom, Giulia Galli(参考訳) 広帯域gap半導体における光対応可能な常磁性欠陥は、量子通信とセンシングのプラットフォームとして有望である。 これらの欠陥の電子レベル間の回避された交差の存在は、量子力学を著しく変化させ、量子情報応用に有害かつ有益である。 回避された交差はクロック遷移を引き起こし、磁気ノイズからの保護を大幅に改善し、コヒーレンスタイムを良好に増加させる。 しかし、避けられた交差における電子スピンと核スピンのカップリングの減少は、核スピンが量子記憶として機能するアプリケーションに有害である可能性がある。 ここでは、核スピン浴と相互作用する常磁性欠陥の量子力学に関する理論的および実験的研究の組合せについて述べる。 我々は,クラスター展開法を一般化した計算手法を開発し,純粋に強調する以上の過程を考慮し,回避された交差近傍の任意の固体スピン量子ビットのダイナミクスを記述する。 提案手法と実験による検証により,SiCにおける拡散防止におけるノイズの性質と発生源の変化を判定する。 我々は、隣り合う複数の核スピン状態上でSiCの原子価の時間遷移を条件付けることができる。 本実験では, 電荷不純物変動の影響を減弱法で抑制し, クロック遷移時のコヒーレンス時間の増加を, 純粋に磁気ノイズによって抑制できることを実証した。 スピンハミルトンパラメータのab-initio予測と組み合わせて、提案された理論的アプローチは、第一原理からスピン量子ビットのコヒーレンス特性を設計する道を開く。

Optically addressable paramagnetic defects in wide-band-gap semiconductors are promising platforms for quantum communications and sensing. The presence of avoided crossings between the electronic levels of these defects can substantially alter their quantum dynamics and be both detrimental and beneficial for quantum information applications. Avoided crossings give rise to clock transitions, which can significantly improve protection from magnetic noise and favorably increase coherence time. However, the reduced coupling between electronic and nuclear spins at an avoided crossing may be detrimental to applications where nuclear spins act as quantum memories. Here we present a combined theoretical and experimental study of the quantum dynamics of paramagnetic defects interacting with a nuclear spin bath at avoided crossings. We develop a computational approach based on a generalization of the cluster expansion technique, which can account for processes beyond pure dephasing and describe the dynamics of any solid-state spin-qubits near avoided crossings. Using this approach and experimental validation, we determine the change in nature and source of noise at avoided crossings for divacancies in SiC. We find that we can condition the clock transition of the divacancies in SiC on multiple adjacent nuclear spins states. In our experiments, we demonstrate that one can suppress the effects of fluctuating charge impurities with depletion techniques, leading to an increased coherence time at clock transition, limited purely by magnetic noise. Combined with ab-initio predictions of spin Hamiltonian parameters, the proposed theoretical approach paves the way to designing the coherence properties of spin qubits from first principles.
翻訳日:2023-04-28 03:09:52 公開日:2020-10-21
# フェルト操作としてのダークパターンのエンドユーザーアカウント

End User Accounts of Dark Patterns as Felt Manipulation ( http://arxiv.org/abs/2010.11046v1 )

ライセンス: Link先を確認
Colin M. Gray, Jingle Chen, Shruthi Sai Chivukula, and Liyang Qu(参考訳) 操作(Manipulation)は、消費者としての私たちの経験の多くを定義している。 オンライン体験を継続的に最適化し、ステークホルダーの要求を優先できるデジタルサービスの出現に伴い、デザイナーや開発者は、人間の心理学を脅かす操作の形式である「ダークパターン」をますます活用し、特定の行動を奨励し、エンドユーザに不平等な価値を示す方法で他人を遠ざけている。 本稿では,ダークパターンの概念を基盤とし,拡張した操作のエンドユーザー知覚に関する説明を行う。 英語と中国語 (n=169) で実施した調査の結果について報告する。 筆者らは,カードソート手法を用いて,各文化的文脈からの応答をテーマ分析し,定性的に支援された洞察を識別し,操作製品のユーザ体験と操作の継続を記述した。 さらに,調査結果の定量的分析とインタビューからのvignettesの提示を通じて,この分析をさらに支援する。 我々は、今後の研究、公共政策の考察、デジタルサービスにおけるユーザ体験のさらなるエンパワーメントと自律性の付与に関するガイダンスに影響を及ぼすと結論づける。

Manipulation defines many of our experiences as a consumer, including subtle nudges and overt advertising campaigns that seek to gain our attention and money. With the advent of digital services that can continuously optimize online experiences to favor stakeholder requirements, increasingly designers and developers make use of "dark patterns"---forms of manipulation that prey on human psychology---to encourage certain behaviors and discourage others in ways that present unequal value to the end user. In this paper, we provide an account of end user perceptions of manipulation that builds on and extends notions of dark patterns. We report on the results of a survey of users conducted in English and Mandarin Chinese (n=169), including follow-up interviews from nine survey respondents. We used a card sorting method to support thematic analysis of responses from each cultural context, identifying both qualitatively-supported insights to describe end users' felt experiences of manipulative products, and a continuum of manipulation. We further support this analysis through a quantitative analysis of survey results and the presentation of vignettes from the interviews. We conclude with implications for future research, considerations for public policy, and guidance on how to further empower and give users autonomy in their experiences with digital services.
翻訳日:2023-04-28 03:09:17 公開日:2020-10-21
# アハラノフ-ボーム相の3つの面

Three Faces of the Aharonov-Bohm Phase ( http://arxiv.org/abs/2010.12010v1 )

ライセンス: Link先を確認
Patrick Das Gupta(参考訳) 量子論の基本概念から、不確実性原理から生じる粒子の「軌道」記述の不可能性について議論する。 気泡/雲室の観測された軌跡が、実際には高エネルギー粒子の「軌道」ではなく、単に入射粒子の高モーメントの方向に励起またはイオン化された原子/分子の軌跡である理由を強調する。 その後、対称性の概念とその非相対論的シュロディンガー方程式への応用が説明されている。 U(1)ゲージ不変性の要求と結果として生じる「ゲージ奇跡」は、電荷粒子と磁場の間の電磁力を記述する正しい相互作用項を自動で導く。 aharonov-bohm効果の明示的な導出により、電荷粒子は含まないが磁場線が絡み合う奇妙な現象を導出し、外部の磁気ベクトルポテンシャルである「トロイの木馬」と共振し、二重スリット干渉縞の計測可能なシフトを引き起こす、単純な処理が提示される。 この干渉パターンのシフトは電荷粒子が電場のない領域に移動するため非古典的である。 上記の奇妙な効果に参入させる重要なアハラノフ・ボーム(ab)相は、超伝導体における観測された磁束量子化や、宇宙のどこにでもある1つの磁気単極子の存在が粒子の電荷と単極子の電荷の積の量子化を伴っていることを示唆するディラック結果を引き出すためにも展開される。 AB相の非自明な帰結は、荷電粒子の波動関数の観点から、物理的領域にアクセス可能なときに、乗算接続される。

Beginning with the basic notions of quantum theory, impossibility of `trajectory' description for particles that ensues from uncertainty principle is discussed. Why the observed tracks in bubble/cloud chambers are not really the `trajectories' of high energy particles, rather they are simply the trails of the atoms/molecules excited or ionized in the direction of the high momenta of the incoming particles, are highlighted. Thereafter, the notion of symmetry and its application to the non-relativistic Schrodinger equation have been delineated. The demand for U(1) gauge invariance and the resulting `gauge miracle', that automatically leads to the correct interaction terms describing the electromagnetic force between the charge particles and the field, have been elaborated upon. A simple treatment, but with explicit derivation, of the Aharonov-Bohm effect, is presented, that underlines a strange phenomena - sites, impenetrable by charge particles but are threaded with magnetic field lines, conspire with a `Trojan Horse', namely the magnetic vector potential outside, to cause measurable shift in the double-slit interference fringes. This shift in the interference pattern is non-classical since the charge particles move in field-free regions. The crucial Aharonov-Bohm (AB) phase that makes its entry in the above bizarre effect is also deployed to derive the observed magnetic flux quantisation in superconductors as well as the Dirac result which implies that the existence of a single magnetic monopole anywhere in the universe would entail quantisation of the product of a particle's electric charge and the monopole's magnetic charge. Nontrivial consequences of AB phase follow whenever the physical region accessible, from the point of view of the wavefunction of a charge particle, is multiply-connected.
翻訳日:2023-04-28 03:02:31 公開日:2020-10-21
# iotとオープン政府データによる環境コンプライアンスの自動監視

Automated Environmental Compliance Monitoring with IoT and Open Government Data ( http://arxiv.org/abs/2010.11945v1 )

ライセンス: Link先を確認
Lizaveta Miasayedava, Keegan McBride, Jeffrey Andrew Tuhtan(参考訳) 社会や生態系に対するネガティブな環境影響は、しばしば人間の活動によって引き起こされ、気候変動の増大によって増幅される。 これらの影響を適切に管理するには、不確実性の増加に直面した環境規制の遵守を保証する政府の能力に依存する。 水流量は河川規制コンプライアンスの最も広く使われている評価基準である。 具体的には、魚類等の水生生物が必要とする最小流量を計算することでコンプライアンスしきい値を設定する。 次に、これらは各河川の最小の「環境流れ」 (Eflow) に指定される。 本稿では,IoT ベースの eflows コンプライアンスシステムを開発する上で,IoT 生成したオープン政府データをいかに活用できるかを検討する。 開発と運用のコストを削減するため,提案手法は定期的に収集された河川モニタリングデータに依存する。 当社のアプローチでは,eflow規制コンプライアンス監視および評価のためのスケーラブルなソリューションを迅速に開発,テスト,検証することが可能です。 さらに,エストニアの河川モニタリングネットワークからの公開政府データを用いた実世界のシステム応用を実証した。 この研究の主な特徴は、提案されたIoTベースのシステムは、IoT生成したオープン政府データを再利用してコンプライアンスを評価し、全国規模の監視を改善するシンプルな評価ツールを提供することだ。 この研究は、オープンな政府データを使ったIoTベースのソリューションの新しいパラダイムを示し、このソリューションがますます不確実な環境における環境コンプライアンスを自動的に評価できる実例を提供する。

Negative environmental impacts on societies and ecosystems are frequently driven by human activity and amplified by increasing climatic variability. Properly managing these impacts relies on a government's ability to ensure environmental regulatory compliance in the face of increasing uncertainty. Water flow rates are the most widely used evaluation metric for river regulatory compliance. Specifically, compliance thresholds are set by calculating the minimum flow rates required by aquatic species such as fish. These are then designated as the minimum "environmental flows" (eflows) for each river. In this paper, we explore how IoT-generated open government data can be used to enhance the development of an automated IoT-based eflows compliance system. To reduce development and operational costs, the proposed solution relies on routinely collected river monitoring data. Our approach allows for any authority with similar data to rapidly develop, test and verify a scalable solution for eflow regulatory compliance monitoring and evaluation. Furthermore, we demonstrate a real-world application of our system using open government data from Estonia's national river monitoring network. The main novelty of this work is that the proposed IoT-based system provides a simple evaluation tool that re-purposes IoT-generated open government data to evaluate compliance and improve monitoring at a national scale. This work showcases a new paradigm of IoT-based solutions using open government data and provides a real-world example of how the solution can automatically evaluate environmental compliance in increasingly uncertain environments.
翻訳日:2023-04-28 03:01:57 公開日:2020-10-21
# 量子インターネットのためのP4データプレーン

A P4 Data Plane for the Quantum Internet ( http://arxiv.org/abs/2010.11263v1 )

ライセンス: Link先を確認
Wojciech Kozlowski, Fernando Kuipers, Stephanie Wehner(参考訳) 量子技術革命は、量子インターネットの約束をもたらす。 新しい-量子-ネットワークスタックは、量子絡み合いの基本的な新しい性質を説明するために必要となる。 量子ネットワークの最初の実現が間近であり、量子ネットワークプロトコルに対する研究の関心が高まっている。 量子でない世界では、プログラム可能なデータプレーンがプロトコルスタックのオシフィケーションのパターンを破り、新しいソフトウェア定義のネットワークソフトウェアアーキテクチャを実現した。 同様に、プログラマブルな量子データプレーンは、ソフトウェア定義の量子ネットワークアーキテクチャの道を開くことができる。 本稿では、量子ネットワークの抽象化やデバイスアーキテクチャを探求するためにp4$_{16}$をどのように使うかを示す。

The quantum technology revolution brings with it the promise of a quantum internet. A new -- quantum -- network stack will be needed to account for the fundamentally new properties of quantum entanglement. The first realisations of quantum networks are imminent and research interest in quantum network protocols has started growing. In the non-quantum world, programmable data planes have broken the pattern of ossification of the protocol stack and enabled a new -- software-defined -- network software architecture. Similarly, a programmable quantum data plane could pave the way for a software-defined quantum network architecture. In this paper, we demonstrate how we use P4$_{16}$ to explore abstractions and device architectures for quantum networks.
翻訳日:2023-04-28 03:01:33 公開日:2020-10-21
# 分裂1次元ボース気体中のジョセフソン振動

Josephson oscillations in split one-dimensional Bose gases ( http://arxiv.org/abs/2010.11214v1 )

ライセンス: Link先を確認
Yuri D. van Nieuwkerk, J\"org Schmiedmayer and Fabian H.L. Essler(参考訳) 弱相互作用するボース気体の非平衡ダイナミクスを,高度に伸長した二重井戸ポテンシャルに密閉して考える。 自己一貫性のある時間依存型Hartree-Fock近似と、完全な3次元理論を複数の結合した一次元チャネルへの射影を併用する。 これにより、最初は1つの準一次元ポテンシャル井戸に閉じ込められた気体の時間依存的な分割と位相インプリンティングをモデル化し、それに続く減衰ジョセフソン振動の微視的記述を得ることができる。

We consider the non-equilibrium dynamics of a weakly interacting Bose gas tightly confined to a highly elongated double well potential. We use a self-consistent time-dependent Hartree--Fock approximation in combination with a projection of the full three-dimensional theory to several coupled one-dimensional channels. This allows us to model the time-dependent splitting and phase imprinting of a gas initially confined to a single quasi one-dimensional potential well and obtain a microscopic description of the ensuing damped Josephson oscillations.
翻訳日:2023-04-28 03:01:21 公開日:2020-10-21
# 任意のスピンの粒子に対するコセット構成

The coset construction for particles of arbitrary spin ( http://arxiv.org/abs/2010.11191v1 )

ライセンス: Link先を確認
Michael J. Landry and Guanhao Sun(参考訳) poincar\e-不変系が連続的な内部対称性を自発的に破るとき、ゴールドストーンの定理は壊された対称性生成器と1対1の対応で質量のないスピンゼロ励起の存在を要求する。 しかしながら、システムがポアンカーの対称性を自発的に破るとき、ゴールドストーンの定理を満たす励起の種類は非常に珍しい。 特に、それらはスピンを持ち、粒子でも準粒子でもなくてもよい。 しかし、ゴールドストーンの効果的な作用を定式化するために使われる標準のコセット構成は、かなり制限的であり、ゴールドストーンの定理によって許される可能性の全スペクトルを生成できない。 ポアンカーの対称性を自発的に破るシステムに対して、新しいコセット構成を仮定することにより、この問題に対する(部分的な)対策を提案する。 この新しい構造は、すべての対称性がボソニックであっても、幅広いゴールドストーン励起(フェルミオン度を含む)で効果的な作用を生成することができる。 有用性を示すために、様々なスピンの点粒子に対する効果的な作用の構築に焦点をあてる。 我々は、スピン$s$の粒子が$\mathcal N=2s$超対称性の世界線パラメータ化ゲージ対称性を必要とするという既知の結果を取り戻す。 この過程において、質量のない粒子は、あるフェルミ液実効場理論に現れる動的逆ヒッグス制約と幾らか類似した新しい種類の逆ヒッグス制約を必要とすることを発見した。 次に、量子スピンに加えて、有限の空間範囲を持ち、自由に回転できる粒子を考える。 このような粒子に対する新しい作用を導出し、固有量子スピンと物理回転の自由度との間の「スピン軌道」結合を見いだす。

When a Poincar\'e-invariant system spontaneously breaks continuous internal symmetries, Goldstones's theorem demands the existence of massless, spin-zero excitations in a one-to-one correspondence with the broken symmetry generators. When a system spontaneously breaks Poincar\'e symmetry, however, the kinds of excitations that satisfy Goldstone's theorem can be quite unusual. In particular, they may have any spin and need not be particles or even quasiparticles. The standard coset construction used to formulate effective actions of Goldstones, however, is rather restrictive and is incapable of generating the full spectrum of possibilities allowed by Goldstone's theorem. We propose a (partial) remedy to this problem by postulating a novel coset construction for systems that spontaneously break Poincar\'e symmetry. This new construction is capable of generating effective actions with a wide range of Goldstone excitations---including fermionic degrees of freedom---even when all symmetries are bosonic. To demonstrate it's utility, we focus on constructing effective actions for point particles of various spins. We recover the known result that a particle of spin $s$ requires an $\mathcal N=2s$ supersymmetric worldline reparameterization gauge symmetry, which we implement at the level of the coset construction. In the process, we discover that massless particles require a novel kind of inverse Higgs constraint that bears some resemblance to the dynamical inverse Higgs constraints that appear in certain fermi liquid effective field theories. We then consider particles that, in addition to quantum spin, have finite spatial extent and are free to rotate. We derive a novel action for such particles and find a `spin-orbital' coupling between the intrinsic quantum spin and the physical-rotation degrees of freedom.
翻訳日:2023-04-28 03:00:58 公開日:2020-10-21
# 非局在量子重ね合わせによる重力時間拡張の測定

Measuring gravitational time dilation with delocalized quantum superpositions ( http://arxiv.org/abs/2010.11156v1 )

ライセンス: Link先を確認
Albert Roura, Christian Schubert, Dennis Schlippert, Ernst M. Rasel(参考訳) 原子時計は、一般相対性理論によって予測される重力赤方偏移を高い精度で測定することができ、高さ差は1cm以下である。 しかし、既存の実験は全て、非局在化された量子重ね合わせにおいて単一のクロックではなく、異なる場所で2つの独立したクロックの比較を含む。 本稿では、2つの異なる高さの原子波パケットのコヒーレント重ね合わせにおける重力時間拡張を測定することができるSrやYbなどの群II型原子を用いた干渉計方式を提案する。 他の最近の提案とは対照的に、両方の内部状態を効率的に回折できるパルスは必要ない。 代わりに、このスキームはレーザーパワーに対する比較的穏やかな要求で高回折効率を達成できる非常に単純な原子光学に依存している。 さらに、慣性基準として機能する同時Rb干渉計を用いて、振動騒音の影響を減弱する。 注目すべきことに、最近ハノーバーのVLBAI施設は、YbとRbの原子を同時に操作し、最大2.8秒の自由進化を可能にする10メートルの原子泉であり、実験的な実装のすべての要件を満たす。

Atomic clocks can measure the gravitational redshift predicted by general relativity with great accuracy and for height differences as little as 1 cm. All existing experiments, however, involve the comparison of two independent clocks at different locations rather than a single clock in a delocalized quantum superposition. Here we present an interferometry scheme employing group-II-type atoms, such as Sr or Yb, capable of measuring the gravitational time dilation in a coherent superposition of atomic wave packets at two different heights. In contrast to other recent proposals, there is no need for pulses that can efficiently diffract both internal states. Instead, the scheme relies on very simple atom optics for which high-diffraction efficiencies can be achieved with rather mild requirements on laser power. Furthermore, the effects of vibration noise are subtracted by employing a simultaneous Rb interferometer that acts as an inertial reference. Remarkably, the recently commissioned VLBAI facility in Hannover, a 10-meter atomic fountain that can simultaneously operate Yb and Rb atoms and enables up to 2.8 s of free evolution time, meets all the requirements for a successful experimental implementation.
翻訳日:2023-04-28 02:59:40 公開日:2020-10-21
# ProphetNet: シーケンスからシーケンスまでの事前トレーニングのための将来のN-gram予測

ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training ( http://arxiv.org/abs/2001.04063v3 )

ライセンス: Link先を確認
Weizhen Qi, Yu Yan, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang, Ming Zhou(参考訳) 本稿では,ProphetNetと呼ばれる新しいシーケンス・ツー・シーケンス事前学習モデルを提案し,将来的なn-gram予測とn-stream自己アテンション機構を提案する。 従来のシーケンス・ツー・シーケンスモデルでワンステップの予測を最適化する代わりに、ProphetNetはnステップ前の予測によって最適化される。 将来のn-gram予測は、モデルが将来のトークンを計画し、強い局所相関に過度に適合しないように明示的に促す。 我々は,ベーススケールデータセット(16gb)と大規模データセット(160gb)を用いて,prophetnetを事前学習する。 次に,要約と質問生成タスクのためのcnn/dailymail,gigaword, squad 1.1ベンチマーク実験を行う。 実験結果から,ProphetNetは,これらすべてのデータセットに対して,同じスケールの事前学習コーパスを用いたモデルと比較して,新たな最先端結果を実現することが示された。

This paper presents a new sequence-to-sequence pre-training model called ProphetNet, which introduces a novel self-supervised objective named future n-gram prediction and the proposed n-stream self-attention mechanism. Instead of optimizing one-step-ahead prediction in the traditional sequence-to-sequence model, the ProphetNet is optimized by n-step ahead prediction that predicts the next n tokens simultaneously based on previous context tokens at each time step. The future n-gram prediction explicitly encourages the model to plan for the future tokens and prevent overfitting on strong local correlations. We pre-train ProphetNet using a base scale dataset (16GB) and a large-scale dataset (160GB), respectively. Then we conduct experiments on CNN/DailyMail, Gigaword, and SQuAD 1.1 benchmarks for abstractive summarization and question generation tasks. Experimental results show that ProphetNet achieves new state-of-the-art results on all these datasets compared to the models using the same scale pre-training corpus.
翻訳日:2023-01-11 23:07:02 公開日:2020-10-21
# 注意に対するユニバーサル・アタックと結果データセットDAmageNet

Universal Adversarial Attack on Attention and the Resulting Dataset DAmageNet ( http://arxiv.org/abs/2001.06325v3 )

ライセンス: Link先を確認
Sizhe Chen, Zhengbao He, Chengjin Sun, Jie Yang, Xiaolin Huang(参考訳) ディープニューラルネットワーク(DNN)に対する敵対的な攻撃は、数年前から発見されている。 しかし、既存の敵攻撃は、被害者のDNNの情報がよく知られており、構造的類似性や大量のクエリによって推定できる場合にのみ、高い成功率を有する。 本稿では,DNNが共有する意味的特性であるアタック・オン・アテンション(AoA)を提案する。 aoaは、従来のクロスエントロピー損失が注意損失に置き換えられると、転送性が大幅に向上する。 AoAは損失関数のみを変更するため、他の転送可能性向上技術と簡単に組み合わせてSOTA性能を実現することができる。 我々は、AoAを適用して、ImageNetバリデーションセットから50000個の敵サンプルを生成し、多くのニューラルネットワークを倒し、データセットをDAmageNetと命名する。 13のよく訓練されたDNNがDAmageNetでテストされており、いずれもエラー率は85%を超えている。 防衛や敵の訓練にもかかわらず、ほとんどのモデルはDAmageNetで70%以上のエラー率を維持している。 DAmageNetは、最初の普遍的敵対的データセットである。 無料でダウンロード可能で、堅牢性テストと敵意トレーニングのベンチマークとして機能する。

Adversarial attacks on deep neural networks (DNNs) have been found for several years. However, the existing adversarial attacks have high success rates only when the information of the victim DNN is well-known or could be estimated by the structure similarity or massive queries. In this paper, we propose to Attack on Attention (AoA), a semantic property commonly shared by DNNs. AoA enjoys a significant increase in transferability when the traditional cross entropy loss is replaced with the attention loss. Since AoA alters the loss function only, it could be easily combined with other transferability-enhancement techniques and then achieve SOTA performance. We apply AoA to generate 50000 adversarial samples from ImageNet validation set to defeat many neural networks, and thus name the dataset as DAmageNet. 13 well-trained DNNs are tested on DAmageNet, and all of them have an error rate over 85%. Even with defenses or adversarial training, most models still maintain an error rate over 70% on DAmageNet. DAmageNet is the first universal adversarial dataset. It could be downloaded freely and serve as a benchmark for robustness testing and adversarial training.
翻訳日:2023-01-10 23:44:38 公開日:2020-10-21
# 分散混合実験による大規模ニューラルネットワークのクラウドソース学習に向けて

Towards Crowdsourced Training of Large Neural Networks using Decentralized Mixture-of-Experts ( http://arxiv.org/abs/2002.04013v3 )

ライセンス: Link先を確認
Max Ryabinin, Anton Gusev(参考訳) ディープラーニングにおける最近の多くのブレークスルーは、大規模データセットでますます大きなモデルをトレーニングすることで達成された。 しかし、そのようなモデルの訓練は極めて高価である。 例えば、gpt-3のトレーニングに使用されたクラスタは、250万ドル以上かかる。 その結果、ほとんどの研究者は、芸術モデルの状態を訓練し、その発展に貢献する余裕がない。 仮説上、研究者はボランティアによって提供される何千もの通常のPCで大規模なニューラルネットワークのトレーニングをクラウドソーシングすることができる。 1億2500ドルのデスクトップの生のコンピューティングパワーは、2億5000万のサーバーポッドのパワーに劣るが、従来の分散トレーニング手法ではそのパワーを効率的に利用できない。 本研究では,未接続の参加者を大量に扱うように設計されたニューラルネットワークトレーニングパラダイムであるLearning@homeを提案する。 我々は,このパラダイムの性能,信頼性,アーキテクチャ上の制約を分析し,既存の分散トレーニング手法と比較する。

Many recent breakthroughs in deep learning were achieved by training increasingly larger models on massive datasets. However, training such models can be prohibitively expensive. For instance, the cluster used to train GPT-3 costs over \$250 million. As a result, most researchers cannot afford to train state of the art models and contribute to their development. Hypothetically, a researcher could crowdsource the training of large neural networks with thousands of regular PCs provided by volunteers. The raw computing power of a hundred thousand \$2500 desktops dwarfs that of a \$250M server pod, but one cannot utilize that power efficiently with conventional distributed training methods. In this work, we propose Learning@home: a novel neural network training paradigm designed to handle large amounts of poorly connected participants. We analyze the performance, reliability, and architectural constraints of this paradigm and compare it against existing distributed training techniques.
翻訳日:2023-01-02 08:27:18 公開日:2020-10-21
# 自動エンコーディング変動ベイズによる意思決定

Decision-Making with Auto-Encoding Variational Bayes ( http://arxiv.org/abs/2002.07217v3 )

ライセンス: Link先を確認
Romain Lopez, Pierre Boyeau, Nir Yosef, Michael I. Jordan and Jeffrey Regier(参考訳) モデルに基づく決定を自動エンコーディング変分ベイズ(aevb)に適合させるため、実践者は変分分布を後方分布のサロゲートとして機能させることが多い。 このアプローチは、予測されるリスクのバイアスのある見積もりをもたらし、したがって2つの理由による決定が不十分になる。 まず、AEVBに適合するモデルは、基礎となるデータ分布と等しくないかもしれない。 第二に、変動分布は適合モデルの下での後方分布と等しくない。 ELBO以外の複数の目的関数に基づいて変動分布を適合させながら、ELBOに基づく生成モデルに適合させながら、下流決定の質にどのように影響するかを考察する。 確率的主成分分析モデルでは,サンプリング誤差とモデルパラメータの推定値の偏りが,提案分布として使用する場合の近似後部によってどのように変化するかを検討する。 理論的には, 変分分布とは異なる後方近似を用いて意思決定を行うことが示唆された。 これらの理論結果に動機づけられ,最良モデルに対するいくつかの近似提案を学習し,複数の重要度サンプリングを用いた意思決定を組み合わせることを提案する。 おもちゃの例に加えて,単細胞RNAシークエンシングのケーススタディも紹介する。 多重仮説テストのこの挑戦的な例では、提案手法は現在の最先端技術を超えている。

To make decisions based on a model fit with auto-encoding variational Bayes (AEVB), practitioners often let the variational distribution serve as a surrogate for the posterior distribution. This approach yields biased estimates of the expected risk, and therefore leads to poor decisions for two reasons. First, the model fit with AEVB may not equal the underlying data distribution. Second, the variational distribution may not equal the posterior distribution under the fitted model. We explore how fitting the variational distribution based on several objective functions other than the ELBO, while continuing to fit the generative model based on the ELBO, affects the quality of downstream decisions. For the probabilistic principal component analysis model, we investigate how importance sampling error, as well as the bias of the model parameter estimates, varies across several approximate posteriors when used as proposal distributions. Our theoretical results suggest that a posterior approximation distinct from the variational distribution should be used for making decisions. Motivated by these theoretical results, we propose learning several approximate proposals for the best model and combining them using multiple importance sampling for decision-making. In addition to toy examples, we present a full-fledged case study of single-cell RNA sequencing. In this challenging instance of multiple hypothesis testing, our proposed approach surpasses the current state of the art.
翻訳日:2022-12-31 11:40:07 公開日:2020-10-21
# ディープトランスフォーメーションとメトリック・ラーニング・ネットワーク:ウェディング・ディープ・ディクショナリー・ラーニングとニューラルネットワーク

Deep Transform and Metric Learning Network: Wedding Deep Dictionary Learning and Neural Networks ( http://arxiv.org/abs/2002.07898v2 )

ライセンス: Link先を確認
Wen Tang, Emilie Chouzenoux, Jean-Christophe Pesquet, and Hamid Krim(参考訳) 推論タスクやデノベーションアプリケーションにおける多くの成功を踏まえて、辞書学習(DL)とその関連するスパース最適化問題は、多くの研究の関心を集めている。 ほとんどのソリューションは単層辞書に重点を置いているが、最近提案されたDeep DL(DDL)メソッドも多くの問題で不足している。 本稿では,1つの線形層とリカレントニューラルネットワーク(RNN)の組み合わせで各DL層を定式化できる新しいDDL手法を提案する。 RNNは、レイヤ関連および学習メトリクスを柔軟に説明できる。 提案する研究は,ニューラルネットワークとDDLに関する新たな知見を公開し,深層変換を共同学習するための新しい,効率的かつ競争的なアプローチと,推論アプリケーションのためのメトリクスを提供する。 提案手法が既存のddlよりも優れているだけでなく, 最先端のジェネリックcnnよりも優れていることを示すために, 広範な実験を行った。

On account of its many successes in inference tasks and denoising applications, Dictionary Learning (DL) and its related sparse optimization problems have garnered a lot of research interest. While most solutions have focused on single layer dictionaries, the improved recently proposed Deep DL (DDL) methods have also fallen short on a number of issues. We propose herein, a novel DDL approach where each DL layer can be formulated as a combination of one linear layer and a Recurrent Neural Network (RNN). The RNN is shown to flexibly account for the layer-associated and learned metric. Our proposed work unveils new insights into Neural Networks and DDL and provides a new, efficient and competitive approach to jointly learn a deep transform and a metric for inference applications. Extensive experiments are carried out to demonstrate that the proposed method can not only outperform existing DDL but also state-of-the-art generic CNNs.
翻訳日:2022-12-30 19:33:24 公開日:2020-10-21
# 好奇心駆動探索におけるゴールの認知ツールとしての言語

Language as a Cognitive Tool to Imagine Goals in Curiosity-Driven Exploration ( http://arxiv.org/abs/2002.09253v4 )

ライセンス: Link先を確認
C\'edric Colas, Tristan Karch, Nicolas Lair, Jean-Michel Dussoux, Cl\'ement Moulin-Frier, Peter Ford Dominey, Pierre-Yves Oudeyer(参考訳) 発達機械学習は、人工エージェントが子供のオープンエンドのスキルのレパートリーを学習する方法をモデル化する方法を研究する。 このようなエージェントは、目標を作成し、表現し、どれを追求し、達成するために学ぶかを選択する必要があります。 近年のアプローチでは、目標空間は固定あるいは手動で定義され、状態の生成モデルを用いて学習されている。 この制限されたエージェントは、既知の効果の分布内の目標をサンプリングする。 分散目標を想像できる能力は、創造的な発見と開放的な学習を可能にするための鍵であると主張する。 子どもたちは、経験したことのない結果の記述を想像するためのツールとして、言語の構成性を活用することで、遊び中に目標としてターゲットにしている。 この能力をモデル化する,本質的に動機づけられた深層強化学習アーキテクチャについて紹介する。 子どものような想像力のあるエージェントは、言語記述を提供する社会的仲間の指導の恩恵を受ける。 目標の想像力を活用するために、エージェントはこれらの記述を利用して、想像外の目標を解釈する必要がある。 この一般化はモジュラリティによって可能であり、学習した目標達成報酬関数と、深い集合に依存するポリシーと、注意を喚起し、対象中心表現を分解する。 プレイグラウンド環境を導入し,この形態のゴール・イマジネーションが,この能力に欠けるエージェントの一般化と探索をいかに改善するかを考察する。 さらに、これらの結果を可能にするゴールイマジネーションの特性を特定し、モジュラリティと社会的相互作用の影響について検討する。

Developmental machine learning studies how artificial agents can model the way children learn open-ended repertoires of skills. Such agents need to create and represent goals, select which ones to pursue and learn to achieve them. Recent approaches have considered goal spaces that were either fixed and hand-defined or learned using generative models of states. This limited agents to sample goals within the distribution of known effects. We argue that the ability to imagine out-of-distribution goals is key to enable creative discoveries and open-ended learning. Children do so by leveraging the compositionality of language as a tool to imagine descriptions of outcomes they never experienced before, targeting them as goals during play. We introduce IMAGINE, an intrinsically motivated deep reinforcement learning architecture that models this ability. Such imaginative agents, like children, benefit from the guidance of a social peer who provides language descriptions. To take advantage of goal imagination, agents must be able to leverage these descriptions to interpret their imagined out-of-distribution goals. This generalization is made possible by modularity: a decomposition between learned goal-achievement reward function and policy relying on deep sets, gated attention and object-centered representations. We introduce the Playground environment and study how this form of goal imagination improves generalization and exploration over agents lacking this capacity. In addition, we identify the properties of goal imagination that enable these results and study the impacts of modularity and social interactions.
翻訳日:2022-12-30 00:07:57 公開日:2020-10-21
# 逐次モンテカルロによる一般化ベイズフィルタ

Generalized Bayesian Filtering via Sequential Monte Carlo ( http://arxiv.org/abs/2002.09998v2 )

ライセンス: Link先を確認
Ayman Boustati, \"Omer Deniz Akyildiz, Theodoros Damoulas, Adam M. Johansen(参考訳) 本稿では,一般状態空間隠蔽マルコフモデル (HMM) における推定のためのフレームワークを提案する。 特に、一般ベイズ推論(GBI)の損失理論的視点を利用して、HMMにおける一般化フィルタリング再帰を定義する。 そうすることで、$\beta$-divergenceを利用して、観測汚染に対するロバストな推論の原則付き手順に到達します。 提案手法の運用はsmc(シーケンシャルモンテカルロ法)によって可能であり、ほとんどの標準粒子法とそれに伴う収束結果が新しい設定に容易に適応される。 提案手法を対象追跡およびガウス過程回帰問題に適用し,標準フィルタリングアルゴリズムおよび他のロバストフィルタに対する性能改善を観測する。

We introduce a framework for inference in general state-space hidden Markov models (HMMs) under likelihood misspecification. In particular, we leverage the loss-theoretic perspective of Generalized Bayesian Inference (GBI) to define generalised filtering recursions in HMMs, that can tackle the problem of inference under model misspecification. In doing so, we arrive at principled procedures for robust inference against observation contamination by utilising the $\beta$-divergence. Operationalising the proposed framework is made possible via sequential Monte Carlo methods (SMC), where most standard particle methods, and their associated convergence results, are readily adapted to the new setting. We apply our approach to object tracking and Gaussian process regression problems, and observe improved performance over both standard filtering algorithms and other robust filters.
翻訳日:2022-12-29 09:37:29 公開日:2020-10-21
# 線形系のロバスト適応制御--二次コストを超えて

Robust-Adaptive Control of Linear Systems: beyond Quadratic Costs ( http://arxiv.org/abs/2002.10816v2 )

ライセンス: Link先を確認
Edouard Leurent and Denis Efimov and Odalric-Ambrym Maillard(参考訳) 本稿では,線形システムの堅牢かつ適応的なモデル予測制御(MPC)の問題について考察する。 この問題は異なるコミュニティによって異なる視点から研究されてきた。 しかし、既存の理論は2次コスト(LQ問題)の場合のみを扱うため、アプリケーションの安定化と追跡はタスクのみに制限される。 多くの実践的な問題で自然に発生するより一般的な(非凸)コストに対処するために、我々は、異なるコミュニティから、特に非漸近線形回帰、近年のインターバル予測の結果、およびツリーベースプランニングを慎重に選択し、まとめる。 各層における理論的保証の組み合わせと適応は自明なものではなく、この設定に対する最初のエンドツーエンドの準最適解析を提供する。 興味深いことに、私たちの分析は自然に多くのモデルに対応し、データ駆動のロバストなモデル選択戦略と組み合わせて、モデリングの仮定を緩和します。 最後に,提案手法のどの段階でもトラクタビリティを保ちながら,二つの困難なシミュレーション環境について説明する。

We consider the problem of robust and adaptive model predictive control (MPC) of a linear system, with unknown parameters that are learned along the way (adaptive), in a critical setting where failures must be prevented (robust). This problem has been studied from different perspectives by different communities. However, the existing theory deals only with the case of quadratic costs (the LQ problem), which limits applications to stabilisation and tracking tasks only. In order to handle more general (non-convex) costs that naturally arise in many practical problems, we carefully select and bring together several tools from different communities, namely non-asymptotic linear regression, recent results in interval prediction, and tree-based planning. Combining and adapting the theoretical guarantees at each layer is non trivial, and we provide the first end-to-end suboptimality analysis for this setting. Interestingly, our analysis naturally adapts to handle many models and combines with a data-driven robust model selection strategy, which enables to relax the modelling assumptions. Last, we strive to preserve tractability at any stage of the method, that we illustrate on two challenging simulated environments.
翻訳日:2022-12-28 21:10:30 公開日:2020-10-21
# リプシッツによる多変量学習の標準化

Lipschitz standardization for multivariate learning ( http://arxiv.org/abs/2002.11369v3 )

ライセンス: Link先を確認
Adri\'an Javaloy, Isabel Valera(参考訳) 確率的学習は最適化問題として取り組まれており、勾配に基づくアプローチが主流となっている。 多変量確率をモデル化する場合、通常だが望ましくない結果は、学習されたモデルは観測された変数のサブセットにのみ適合し、残りを見渡すことである。 本研究では,同様の効果が広く研究されているマルチタスク学習(MTL)のレンズを用いてこの問題を研究する。 MTLソリューションは確率的設定では直接適用されないが(確率的制約に対処できないため)、データ前処理中に同様のアイデアが活用される可能性があることを示す。 まず、データ標準化は一般的な連続可能性の下では有効であるが、一般的な場合、特に連続確率と離散確率の混合モデルでは不十分であることを示す。 そこで,多変量学習のバランスをとるために,変数間の局所的なリプシッツ滑らかさのバランスをとる新しいデータプリプロセッシングであるリプシッツ標準化を提案する。 実世界のデータセットに関する実験では、リプシッツの標準化により、既存のデータプリプロセッシング技術で学んだものよりも正確な多変量モデルが得られた。 実験で使用されるモデルとデータセットは、https://github.com/adrianjav/lipschitz-standardizationで見ることができる。

Probabilistic learning is increasingly being tackled as an optimization problem, with gradient-based approaches as predominant methods. When modelling multivariate likelihoods, a usual but undesirable outcome is that the learned model fits only a subset of the observed variables, overlooking the rest. In this work, we study this problem through the lens of multitask learning (MTL), where similar effects have been broadly studied. While MTL solutions do not directly apply in the probabilistic setting (as they cannot handle the likelihood constraints) we show that similar ideas may be leveraged during data preprocessing. First, we show that data standardization often helps under common continuous likelihoods, but it is not enough in the general case, specially under mixed continuous and discrete likelihood models. In order for balance multivariate learning, we then propose a novel data preprocessing, Lipschitz standardization, which balances the local Lipschitz smoothness across variables. Our experiments on real-world datasets show that Lipschitz standardization leads to more accurate multivariate models than the ones learned using existing data preprocessing techniques. The models and datasets employed in the experiments can be found in https://github.com/adrianjav/lipschitz-standardization.
翻訳日:2022-12-28 14:16:51 公開日:2020-10-21
# PAPRIKA: プライベートオンライン偽発見率制御

PAPRIKA: Private Online False Discovery Rate Control ( http://arxiv.org/abs/2002.12321v2 )

ライセンス: Link先を確認
Wanrong Zhang, Gautam Kamath, Rachel Cummings(参考訳) 仮説テストでは、仮説がサンプルのノイズのために誤って却下されたときに誤った発見が起こる。 複数の仮説を適応的にテストすると、より多くのテストが行われると偽発見の確率が増加する。 したがって、偽発見率(FDR)制御の問題は、拒絶する仮説の集合を決定する際にこの効果を考慮に入れた複数の仮説をテストする手順を見つけることである。 目標は偽発見の数(または分数)を最小限に抑えつつ、高い真正率(すなわち正しい発見)を維持することである。 本研究では,サンプルの差分プライバシーの制約下での複数の仮説テストにおいて,偽発見率(fdr)制御について検討する。 この方向の以前の作業とは異なり、オンライン設定に焦点を当てており、オフラインの設定のように全てのテストの出力を待つのではなく、テストが実行された直後に各仮説に関する決定をしなければならない。 我々は、非プライベートオンラインFDR制御における最先端結果に基づく新しいプライベートアルゴリズムを提供する。 われわれのアルゴリズムは、FDRとパワーによって測定されたプライバシーと統計性能の保証が強い。 また,様々なデータ環境におけるアルゴリズムの有効性を示す実験結果も提供する。

In hypothesis testing, a false discovery occurs when a hypothesis is incorrectly rejected due to noise in the sample. When adaptively testing multiple hypotheses, the probability of a false discovery increases as more tests are performed. Thus the problem of False Discovery Rate (FDR) control is to find a procedure for testing multiple hypotheses that accounts for this effect in determining the set of hypotheses to reject. The goal is to minimize the number (or fraction) of false discoveries, while maintaining a high true positive rate (i.e., correct discoveries). In this work, we study False Discovery Rate (FDR) control in multiple hypothesis testing under the constraint of differential privacy for the sample. Unlike previous work in this direction, we focus on the online setting, meaning that a decision about each hypothesis must be made immediately after the test is performed, rather than waiting for the output of all tests as in the offline setting. We provide new private algorithms based on state-of-the-art results in non-private online FDR control. Our algorithms have strong provable guarantees for privacy and statistical performance as measured by FDR and power. We also provide experimental results to demonstrate the efficacy of our algorithms in a variety of data environments.
翻訳日:2022-12-28 08:30:51 公開日:2020-10-21
# 軌道予測のための変圧器ネットワーク

Transformer Networks for Trajectory Forecasting ( http://arxiv.org/abs/2003.08111v3 )

ライセンス: Link先を確認
Francesco Giuliari, Irtiza Hasan, Marco Cristani, and Fabio Galasso(参考訳) 人々の動きを予測する上での最近の成功はLSTMモデルに基づいており、近年の進歩は人々と現場との交流をモデル化することによって達成されている。 LSTMモデルの使用を疑問視し、トラジェクティブ予測にトランスフォーマーネットワークを新たに活用することを提案する。 これはLSTMの逐次ステップバイステップ処理からトランスフォーマーの唯一のアテンションベースのメモリ機構への根本的な切り替えである。 特に,全ての自然言語処理タスクにおいて,オリジナルトランスフォーマネットワーク (tf) とより大きな双方向トランスフォーマ (bert) の両方について検討する。 提案するトランスフォーマーは,現場内の個々の人物の軌跡を予測できる。 これらは「単純な」モデルであり、それぞれの人物は複雑な人間と人間とシーンの相互作用を伴わずに別々にモデル化される。 特に、ベルとホイッスルのないTFモデルは、TrajNetの最大かつ最も挑戦的な軌道予測ベンチマークで最高のスコアを得る。 さらに、複数の有望な将来の軌跡を予測する拡張は、ETH + UCYの5つのデータセットのより高度な技術と同等に実行される。 最後に,実際のセンサデータの場合のように,トランスフォーマは観測の欠如に対処できることを示す。 コードはhttps://github.com/FGiuliari/Trajectory-Transformerで入手できる。

Most recent successes on forecasting the people motion are based on LSTM models and all most recent progress has been achieved by modelling the social interaction among people and the people interaction with the scene. We question the use of the LSTM models and propose the novel use of Transformer Networks for trajectory forecasting. This is a fundamental switch from the sequential step-by-step processing of LSTMs to the only-attention-based memory mechanisms of Transformers. In particular, we consider both the original Transformer Network (TF) and the larger Bidirectional Transformer (BERT), state-of-the-art on all natural language processing tasks. Our proposed Transformers predict the trajectories of the individual people in the scene. These are "simple" model because each person is modelled separately without any complex human-human nor scene interaction terms. In particular, the TF model without bells and whistles yields the best score on the largest and most challenging trajectory forecasting benchmark of TrajNet. Additionally, its extension which predicts multiple plausible future trajectories performs on par with more engineered techniques on the 5 datasets of ETH + UCY. Finally, we show that Transformers may deal with missing observations, as it may be the case with real sensor data. Code is available at https://github.com/FGiuliari/Trajectory-Transformer.
翻訳日:2022-12-22 12:43:03 公開日:2020-10-21
# 分散コントローラのためのグラフニューラルネットワーク

Graph Neural Networks for Decentralized Controllers ( http://arxiv.org/abs/2003.10280v2 )

ライセンス: Link先を確認
Fernando Gama, Ekaterina Tolstaya, Alejandro Ribeiro(参考訳) 自律エージェントで構成される動的システムは、マルチエージェントロボット、スマートグリッド、スマートシティなど、多くの関連する問題で発生する。 これらのシステムの制御は、デプロイメントを成功させるための最重要課題である。 最適な集中型コントローラは容易に利用できるが、スケーラビリティと実用的な実装では限界に直面している。 一方、最適分散型コントローラは見つけるのが難しい。 本稿では,グラフニューラルネットワーク(GNN)を用いてデータから分散制御系を学習するフレームワークを提案する。 GNNは自然に分散したアーキテクチャであり、タスクに完全に適していますが、遅延通信にも対応しています。 さらに、それらは等価で安定であり、優れたスケーラビリティと転送可能性特性をもたらす。 分散コントローラ学習におけるGNNの可能性を明らかにするために, フラッキングの問題点について検討した。

Dynamical systems comprised of autonomous agents arise in many relevant problems such as multi-agent robotics, smart grids, or smart cities. Controlling these systems is of paramount importance to guarantee a successful deployment. Optimal centralized controllers are readily available but face limitations in terms of scalability and practical implementation. Optimal decentralized controllers, on the other hand, are difficult to find. In this paper, we propose a framework using graph neural networks (GNNs) to learn decentralized controllers from data. While GNNs are naturally distributed architectures, making them perfectly suited for the task, we adapt them to handle delayed communications as well. Furthermore, they are equivariant and stable, leading to good scalability and transferability properties. The problem of flocking is explored to illustrate the potential of GNNs in learning decentralized controllers.
翻訳日:2022-12-20 23:50:18 公開日:2020-10-21
# 線形二階楕円型および放物型PDEのための物理情報ニューラルネットワークの収束について

On the convergence of physics informed neural networks for linear second-order elliptic and parabolic type PDEs ( http://arxiv.org/abs/2004.01806v2 )

ライセンス: Link先を確認
Yeonjong Shin, Jerome Darbon, George Em Karniadakis(参考訳) 物理情報ニューラルネットワーク(英: Physics Information Neural Network, PINN)は、計算科学や工学で用いられる偏微分方程式(PDE)の解法である。 データと物理法則によって導かれるPINNは、PDEのシステムに対する解を近似するニューラルネットワークを見つける。 このようなニューラルネットワークは、PDEやデータの事前知識を符号化した損失関数を最小化することにより得られる。 1、3次元問題において顕著な経験的成功にもかかわらず、PINNの理論的正当性はほとんどない。 データ数が増加するにつれて、PINNはニューラルネットワークのシーケンスに対応する最小化器のシーケンスを生成する。 最小化器の列はPDEの解に収束するのか? PDEのクラスは線形二階楕円型と放物型である。 シャウダー法と最大原理を適用することにより、最小化子の列は$C^0$でPDE解に強く収束することを示す。 さらに、各最小化器が初期/境界条件を満たすならば、収束モードは$H^1$となる。 理論的知見を示すための計算例を提示する。 私たちの知る限りでは、PINNの一貫性を示す最初の理論的研究である。

Physics informed neural networks (PINNs) are deep learning based techniques for solving partial differential equations (PDEs) encounted in computational science and engineering. Guided by data and physical laws, PINNs find a neural network that approximates the solution to a system of PDEs. Such a neural network is obtained by minimizing a loss function in which any prior knowledge of PDEs and data are encoded. Despite its remarkable empirical success in one, two or three dimensional problems, there is little theoretical justification for PINNs. As the number of data grows, PINNs generate a sequence of minimizers which correspond to a sequence of neural networks. We want to answer the question: Does the sequence of minimizers converge to the solution to the PDE? We consider two classes of PDEs: linear second-order elliptic and parabolic. By adapting the Schauder approach and the maximum principle, we show that the sequence of minimizers strongly converges to the PDE solution in $C^0$. Furthermore, we show that if each minimizer satisfies the initial/boundary conditions, the convergence mode becomes $H^1$. Computational examples are provided to illustrate our theoretical findings. To the best of our knowledge, this is the first theoretical work that shows the consistency of PINNs.
翻訳日:2022-12-17 05:10:59 公開日:2020-10-21
# LadaBERT:ハイブリッドモデル圧縮によるBERTの軽量適応

LadaBERT: Lightweight Adaptation of BERT through Hybrid Model Compression ( http://arxiv.org/abs/2004.04124v2 )

ライセンス: Link先を確認
Yihuan Mao, Yujing Wang, Chufan Wu, Chen Zhang, Yang Wang, Yaming Yang, Quanlu Zhang, Yunhai Tong, Jing Bai(参考訳) BERTは、大規模コーパスによって事前訓練された最先端の言語表現モデルであり、様々な自然言語理解タスクにおいて優れたパフォーマンスを達成する。 しかし、BERTをオンラインサービスに適用する際の大きな障害は、メモリ集約であり、ユーザ要求の満足のいくレイテンシにつながるため、モデル圧縮の必要性が高まることである。 既存のソリューションは知識蒸留の枠組みを利用して、BERTの振る舞いを模倣するより小さなモデルを学ぶ。 しかし,師範を模倣する十分な訓練データを必要とするため,知識蒸留の訓練手順自体が高価である。 本稿では, 重み付け, 行列因数分解, 知識蒸留など, 異なるモデル圧縮手法の利点を組み合わせたLadaBERT(ハイブリッドモデル圧縮によるBERTの軽量化)というハイブリッドソリューションを提案し, この問題に対処する。 LadaBERTは、さまざまな公開データセットで最先端の精度を実現し、トレーニングオーバーヘッドを桁違いに削減することができる。

BERT is a cutting-edge language representation model pre-trained by a large corpus, which achieves superior performances on various natural language understanding tasks. However, a major blocking issue of applying BERT to online services is that it is memory-intensive and leads to unsatisfactory latency of user requests, raising the necessity of model compression. Existing solutions leverage the knowledge distillation framework to learn a smaller model that imitates the behaviors of BERT. However, the training procedure of knowledge distillation is expensive itself as it requires sufficient training data to imitate the teacher model. In this paper, we address this issue by proposing a hybrid solution named LadaBERT (Lightweight adaptation of BERT through hybrid model compression), which combines the advantages of different model compression methods, including weight pruning, matrix factorization and knowledge distillation. LadaBERT achieves state-of-the-art accuracy on various public datasets while the training overheads can be reduced by an order of magnitude.
翻訳日:2022-12-15 08:09:34 公開日:2020-10-21
# 強化学習によるトポロジカル量子コンパイル

Topological Quantum Compiling with Reinforcement Learning ( http://arxiv.org/abs/2004.04743v2 )

ライセンス: Link先を確認
Yuan-Hang Zhang, Pei-Lin Zheng, Yi Zhang and Dong-Ling Deng(参考訳) 量子コンパイルは、量子アルゴリズムを一連のハードウェア互換のコマンドまたは基本ゲートに分解するプロセスであり、量子コンピューティングにおいて基本的な重要性である。 本稿では,任意の単一量子ビットゲートを有限普遍集合から基本ゲート列にコンパイルする,深層強化学習に基づく効率的なアルゴリズムを提案する。 任意の精度で最適に近いゲートシーケンスを生成し、ハードウェアで実現可能な普遍集合とは無関係に様々なシナリオに適用できる。 具体的には、このアルゴリズムをFibonacci anyonsのトポロジカルコンパイルの場合に適用し、任意の単一キュービットユニタリに対して最適に近いブレイディングシーケンスを得る。 このアルゴリズムは、他の難解な量子離散問題に続き、量子物理学における深層学習の応用を興味をそそる新たな道を開くかもしれない。

Quantum compiling, a process that decomposes the quantum algorithm into a series of hardware-compatible commands or elementary gates, is of fundamental importance for quantum computing. We introduce an efficient algorithm based on deep reinforcement learning that compiles an arbitrary single-qubit gate into a sequence of elementary gates from a finite universal set. It generates near-optimal gate sequences with given accuracy and is generally applicable to various scenarios, independent of the hardware-feasible universal set and free from using ancillary qubits. For concreteness, we apply this algorithm to the case of topological compiling of Fibonacci anyons and obtain near-optimal braiding sequences for arbitrary single-qubit unitaries. Our algorithm may carry over to other challenging quantum discrete problems, thus opening up a new avenue for intriguing applications of deep learning in quantum physics.
翻訳日:2022-12-15 03:35:34 公開日:2020-10-21
# インスタンス認識,コンテキスト重視,メモリ効率向上によるオブジェクト検出

Instance-aware, Context-focused, and Memory-efficient Weakly Supervised Object Detection ( http://arxiv.org/abs/2004.04725v3 )

ライセンス: Link先を確認
Zhongzheng Ren, Zhiding Yu, Xiaodong Yang, Ming-Yu Liu, Yong Jae Lee, Alexander G. Schwing, Jan Kautz(参考訳) 弱い教師付き学習は、訓練中の強力な監督の必要性を減らし、オブジェクト検出の魅力的なツールとして登場した。 1) オブジェクトインスタンスの区別は曖昧である; 2) 検出器はオブジェクト全体ではなく差別的な部分に集中する傾向がある; (3) 基礎的な真実がなければ、オブジェクトの提案は高いリコールのために冗長でなければならない。 これらの課題に対処することは困難であり、しばしば不確実性と自明な解決策を排除する必要がある。 これらの問題をターゲットに、インスタンス認識とコンテキストにフォーカスした統一フレームワークを開発します。 メモリ効率の高いシーケンシャルバッチバックプロパゲーションを考案しながら、インスタンス対応の自己学習アルゴリズムと学習可能なコンクリートドロップブロックを採用している。 提案手法は,COCO(12.1\%~AP$,24.8\%~AP_{50}$),VOC2007(54.9\%~AP$),VOC2012(52.1\%~AP$)の最先端結果を実現し,ベースラインを大幅なマージンで改善する。 さらに,提案手法はResNetベースのモデルと弱教師付きビデオオブジェクト検出をベンチマークする最初の方法である。 コード、モデル、詳細は、https://github.com/nvlabs/wetectron.com/で確認できる。

Weakly supervised learning has emerged as a compelling tool for object detection by reducing the need for strong supervision during training. However, major challenges remain: (1) differentiation of object instances can be ambiguous; (2) detectors tend to focus on discriminative parts rather than entire objects; (3) without ground truth, object proposals have to be redundant for high recalls, causing significant memory consumption. Addressing these challenges is difficult, as it often requires to eliminate uncertainties and trivial solutions. To target these issues we develop an instance-aware and context-focused unified framework. It employs an instance-aware self-training algorithm and a learnable Concrete DropBlock while devising a memory-efficient sequential batch back-propagation. Our proposed method achieves state-of-the-art results on COCO ($12.1\% ~AP$, $24.8\% ~AP_{50}$), VOC 2007 ($54.9\% ~AP$), and VOC 2012 ($52.1\% ~AP$), improving baselines by great margins. In addition, the proposed method is the first to benchmark ResNet based models and weakly supervised video object detection. Code, models, and more details will be made available at: https://github.com/NVlabs/wetectron.
翻訳日:2022-12-15 02:47:53 公開日:2020-10-21
# リカレントニューラルネットワークを用いたジュデオ・アラビア文字のアラビア文字への翻訳

Transliteration of Judeo-Arabic Texts into Arabic Script Using Recurrent Neural Networks ( http://arxiv.org/abs/2004.11405v2 )

ライセンス: Link先を確認
Ori Terner, Kfir Bar, Nachum Dershowitz(参考訳) 我々は、アラビア語のテキストを自動的にアラビア文字に翻訳するモデルを訓練した。 我々は、リカレントニューラルネットワーク(RNN)とコネクショニスト時間分類(CTC)の損失を併用して、不平等な入出力長を扱う。 これにより、トレーニングデータの調整を義務付け、対応する出力よりも短い入力シーケンスを避ける。 また,ネットワーク収束性を改善するために,異なる損失関数を持つ事前学習ステージを用いる。 並列テキストの1つのソースのみをトレーニングに利用できたので、データを合成的に生成する可能性を生かしている。 我々は、出力言語で単語を記憶する能力を持つモデルを訓練し、また、文字のあいまいさを識別するために文脈を利用する。 ベースラインの9.5%の文字エラーに対して改善を行い、最高の設定で2%のエラーを達成した。 また、学習における文脈の寄与を測定するために、単語シャッフルデータもテストし、エラーは2.5%まで上昇した。

We trained a model to automatically transliterate Judeo-Arabic texts into Arabic script, enabling Arabic readers to access those writings. We employ a recurrent neural network (RNN), combined with the connectionist temporal classification (CTC) loss to deal with unequal input/output lengths. This obligates adjustments in the training data to avoid input sequences that are shorter than their corresponding outputs. We also utilize a pretraining stage with a different loss function to improve network converge. Since only a single source of parallel text was available for training, we take advantage of the possibility of generating data synthetically. We train a model that has the capability to memorize words in the output language, and that also utilizes context for distinguishing ambiguities in the transliteration. We obtain an improvement over the baseline 9.5% character error, achieving 2% error with our best configuration. To measure the contribution of context to learning, we also tested word-shuffled data, for which the error rises to 2.5%.
翻訳日:2022-12-10 09:37:41 公開日:2020-10-21
# 複数の都市における熱快適性予測のための伝達学習

Transfer Learning for Thermal Comfort Prediction in Multiple Cities ( http://arxiv.org/abs/2004.14382v3 )

ライセンス: Link先を確認
Nan Gao, Wei Shao, Mohammad Saiedur Rahaman, Jun Zhai, Klaus David, Flora D. Salim(参考訳) hvac(ヒーティング、換気、空調)システムは建物の重要な部分であり、建物のエネルギー使用量の最大40%を占める。 空調の主な目的は、適切な熱的快適性を維持することであり、エネルギー利用の最良の利用に不可欠である。 また、快適さは健康、健康、仕事の生産性にも不可欠である。 近年,データ駆動熱快適性モデルが従来の知識ベース手法(予測平均投票モデルなど)よりも優れた性能を得ている。 正確な熱的快適性モデルは、屋内の居住者から大量の自己申告された熱的快適性データを必要とする。 本研究では,このデータ短絡問題に取り組み,熱的快適性予測の性能を高めることを目的とする。 同じ気候帯にある複数の都市からのセンサデータを利用して、温暖化パターンを学習する。 本研究では,同じ気候帯(TL-MLP-C*)からの転写学習に基づく多層パーセプトロンモデルを提案する。 ASHRAE RP-884、Scales Project、Medium US Officeのデータセットの大規模な実験結果から、提案したTL-MLP-C*の性能は、精度、精度、F1スコアの最先端手法を上回ることが示された。

HVAC (Heating, Ventilation and Air Conditioning) system is an important part of a building, which constitutes up to 40% of building energy usage. The main purpose of HVAC, maintaining appropriate thermal comfort, is crucial for the best utilisation of energy usage. Besides, thermal comfort is also crucial for well-being, health, and work productivity. Recently, data-driven thermal comfort models have got better performance than traditional knowledge-based methods (e.g. Predicted Mean Vote Model). An accurate thermal comfort model requires a large amount of self-reported thermal comfort data from indoor occupants which undoubtedly remains a challenge for researchers. In this research, we aim to tackle this data-shortage problem and boost the performance of thermal comfort prediction. We utilise sensor data from multiple cities in the same climate zone to learn thermal comfort patterns. We present a transfer learning based multilayer perceptron model from the same climate zone (TL-MLP-C*) for accurate thermal comfort prediction. Extensive experimental results on ASHRAE RP-884, the Scales Project and Medium US Office datasets show that the performance of the proposed TL-MLP-C* exceeds the state-of-the-art methods in accuracy, precision and F1-score.
翻訳日:2022-12-08 14:19:13 公開日:2020-10-21
# 逆問題における学習演算子補正について

On Learned Operator Correction in Inverse Problems ( http://arxiv.org/abs/2005.07069v2 )

ライセンス: Link先を確認
Sebastian Lunz, Andreas Hauptmann, Tanja Tarvainen, Carola-Bibiane Sch\"onlieb, Simon Arridge(参考訳) 本稿では,逆問題に対するデータ駆動型明示的モデル補正を学習する可能性と,そのようなモデル補正を変分フレームワーク内で使用して正規化復元を得ることができるかについて議論する。 本稿では,このような前方モデル補正を学習する概念的難しさについて論じ,データ空間と解空間の両方において明示的に補正される前方-随伴補正として可能な解を示す。 次に、学習された補正を伴う変分問題に対する解が正しい演算子で得られる解に収束する条件を導出する。 提案手法は,限られた視野光音響トモグラフィーに適用し,ベイズ近似誤差法の確立した枠組みと比較した。

We discuss the possibility to learn a data-driven explicit model correction for inverse problems and whether such a model correction can be used within a variational framework to obtain regularised reconstructions. This paper discusses the conceptual difficulty to learn such a forward model correction and proceeds to present a possible solution as forward-adjoint correction that explicitly corrects in both data and solution spaces. We then derive conditions under which solutions to the variational problem with a learned correction converge to solutions obtained with the correct operator. The proposed approach is evaluated on an application to limited view photoacoustic tomography and compared to the established framework of Bayesian approximation error method.
翻訳日:2022-12-03 05:04:36 公開日:2020-10-21
# オブジェクトのシフトによる1次メソッドのブーピング:より高速なワーストケースレートを持つ新しいスキーム

Boosting First-Order Methods by Shifting Objective: New Schemes with Faster Worst-Case Rates ( http://arxiv.org/abs/2005.12061v2 )

ライセンス: Link先を確認
Kaiwen Zhou, Anthony Man-Cho So, James Cheng(参考訳) 制約のない強凸問題に対して一階法を設計する新しい手法を提案する。 具体的には、原目的に直接取り組むのではなく、原目的と同じ最小値を持つ移動対象関数を構築し、補間条件において原目的の滑らかさと強い凸性の両方を符号化する。 そこで我々は,そのような条件を活用可能な,シフトした目的に対処するためのアルゴリズムテンプレートを提案する。 このテンプレートに従えば、様々な一階のオラクルを備えた問題に対する新たな高速化スキームが導出され、補間条件が導出法の解析を大幅に単純化し、強化することを示す。 特に、導出法はすべて、既存の方法よりも高速な最悪の収束率を有する。 機械学習タスクの実験を行い,新しい手法の評価を行った。

We propose a new methodology to design first-order methods for unconstrained strongly convex problems. Specifically, instead of tackling the original objective directly, we construct a shifted objective function that has the same minimizer as the original objective and encodes both the smoothness and strong convexity of the original objective in an interpolation condition. We then propose an algorithmic template for tackling the shifted objective, which can exploit such a condition. Following this template, we derive several new accelerated schemes for problems that are equipped with various first-order oracles and show that the interpolation condition allows us to vastly simplify and tighten the analysis of the derived methods. In particular, all the derived methods have faster worst-case convergence rates than their existing counterparts. Experiments on machine learning tasks are conducted to evaluate the new methods.
翻訳日:2022-11-29 05:20:06 公開日:2020-10-21
# Persona2vec: グラフのための柔軟なマルチロール表現学習フレームワーク

Persona2vec: A Flexible Multi-role Representations Learning Framework for Graphs ( http://arxiv.org/abs/2006.04941v2 )

ライセンス: Link先を確認
Jisung Yoon, Kai-Cheng Yang, Woo-Sung Jung, and Yong-Yeol Ahn(参考訳) グラフの低次元表現を学ぶグラフ埋め込み技術は、多くのグラフマイニングタスクで最先端のパフォーマンスを達成している。 既存の埋め込みアルゴリズムは各ノードに1つのベクトルを割り当て、単一の表現がノードの全ての特性を捉えるのに十分であると暗黙的に仮定する。 しかし、多くの領域において、ほとんどのノードが複数のコミュニティに属し、コンテキストによって異なる役割を担っている、広く重複するコミュニティ構造を観察することが一般的である。 本稿では,ノードの複数の表現を効率的に学習するグラフ埋め込みフレームワークであるpersona2vecを提案する。 リンク予測に基づく評価を用いて,既存の最先端モデルよりも大幅に高速であり,性能も向上していることを示す。

Graph embedding techniques, which learn low-dimensional representations of a graph, are achieving state-of-the-art performance in many graph mining tasks. Most existing embedding algorithms assign a single vector to each node, implicitly assuming that a single representation is enough to capture all characteristics of the node. However, across many domains, it is common to observe pervasively overlapping community structure, where most nodes belong to multiple communities, playing different roles depending on the contexts. Here, we propose persona2vec, a graph embedding framework that efficiently learns multiple representations of nodes based on their structural contexts. Using link prediction-based evaluation, we show that our framework is significantly faster than the existing state-of-the-art model while achieving better performance.
翻訳日:2022-11-25 09:50:51 公開日:2020-10-21
# 空間可変カーネルを用いた完全畳み込みメッシュオートエンコーダ

Fully Convolutional Mesh Autoencoder using Efficient Spatially Varying Kernels ( http://arxiv.org/abs/2006.04325v2 )

ライセンス: Link先を確認
Yi Zhou, Chenglei Wu, Zimo Li, Chen Cao, Yuting Ye, Jason Saragih, Hao Li, Yaser Sheikh(参考訳) 登録メッシュの潜在表現を学習することは、多くの3Dタスクに役立ちます。 最近、技術はニューラルネットワークオートエンコーダに移行した。 従来の方法よりも精度が高いが、微細な変形を捉えることはできない。 さらに、これらの手法はテンプレート固有の表面メッシュにのみ適用でき、テトラヘドロンや非マニフォールドメッシュのようなより一般的なメッシュには適用できない。 より一般的なグラフ畳み込み法を用いることができるが、再構築精度は高く、高いメモリ使用量を必要とする。 本稿では,任意のメッシュデータを対象とした非テンプレート固有完全畳み込みメッシュオートエンコーダを提案する。 グローバルに共有される重みと局所的に変化する係数で学習し、不規則なメッシュ接続によって提示される空間的に変化するコンテンツを効率的にキャプチャすることができる。 本モデルは再構築精度の最先端手法を上回っている。 さらに、ネットワークの潜在コードは畳み込み構造のおかげで完全に局所化されており、従来の3dメッシュ生成モデルよりもはるかに高い補間能力を持っています。

Learning latent representations of registered meshes is useful for many 3D tasks. Techniques have recently shifted to neural mesh autoencoders. Although they demonstrate higher precision than traditional methods, they remain unable to capture fine-grained deformations. Furthermore, these methods can only be applied to a template-specific surface mesh, and is not applicable to more general meshes, like tetrahedrons and non-manifold meshes. While more general graph convolution methods can be employed, they lack performance in reconstruction precision and require higher memory usage. In this paper, we propose a non-template-specific fully convolutional mesh autoencoder for arbitrary registered mesh data. It is enabled by our novel convolution and (un)pooling operators learned with globally shared weights and locally varying coefficients which can efficiently capture the spatially varying contents presented by irregular mesh connections. Our model outperforms state-of-the-art methods on reconstruction accuracy. In addition, the latent codes of our network are fully localized thanks to the fully convolutional structure, and thus have much higher interpolation capability than many traditional 3D mesh generation models.
翻訳日:2022-11-24 01:51:12 公開日:2020-10-21
# ガウスゲーテッド線形ネットワーク

Gaussian Gated Linear Networks ( http://arxiv.org/abs/2006.05964v2 )

ライセンス: Link先を確認
David Budden, Adam Marblestone, Eren Sezener, Tor Lattimore, Greg Wayne, Joel Veness(参考訳) 本稿では,最近提案されたディープニューラルネットワークのGLNファミリの拡張であるGaussian Gated Linear Network (G-GLN)を提案する。 機能を学ぶためにバックプロパゲーションを使う代わりに、GLNは凸目標の最適化に基づいて、分散型でローカルなクレジット割り当て機構を持つ。 これにより、普遍性、データ効率のよいオンライン学習、自明な解釈可能性、破滅的な忘れ物に対する堅牢性など、多くの望ましい特性が生まれる。 我々は、GLNフレームワークを分類から多重回帰および密度モデリングに拡張し、幾何混合をガウス密度の積に一般化する。 g-glnは,複数の不定値および多変量回帰ベンチマークにおいて,競争的あるいは最先端的な性能を達成し,オンライン・コンテクスト・バンディットやデノージングによる密度推定といった実用的なタスクへの適用性を示す。

We propose the Gaussian Gated Linear Network (G-GLN), an extension to the recently proposed GLN family of deep neural networks. Instead of using backpropagation to learn features, GLNs have a distributed and local credit assignment mechanism based on optimizing a convex objective. This gives rise to many desirable properties including universality, data-efficient online learning, trivial interpretability and robustness to catastrophic forgetting. We extend the GLN framework from classification to multiple regression and density modelling by generalizing geometric mixing to a product of Gaussian densities. The G-GLN achieves competitive or state-of-the-art performance on several univariate and multivariate regression benchmarks, and we demonstrate its applicability to practical tasks including online contextual bandits and density estimation via denoising.
翻訳日:2022-11-23 04:48:43 公開日:2020-10-21
# 一般機器変数モデルのためのアルゴリズムのクラス

A Class of Algorithms for General Instrumental Variable Models ( http://arxiv.org/abs/2006.06366v3 )

ライセンス: Link先を確認
Niki Kilbertus, Matt J. Kusner, Ricardo Silva(参考訳) 因果的治療効果の推定は、パーソナライズされた医療から政府による政策立案まで、様々な現実世界で発生する重要な問題である。 最近の機械学習では、楽器にアクセスした際に因果効果を推定する研究が盛んに行われている。 しかし、識別性を達成するためには、一般に、結果に加算誤差モデルのような1サイズ適合の仮定を必要とする。 別の方法として、因果効果の境界を提供する部分的識別がある。 最も一般的な場合、治療そのものが連続的な場合を扱える境界づけ法についてはほとんど存在しない。 さらに、バウンディング法は一般的に、より情報的なバウンダリに対してより強い背景知識をスムーズに取り除くことができる因果効果の形状に関する仮定の連続を許さない。 本研究では, 連続分布における因果効果のバウンディング法を提案し, 計算難解な対象関数の最適化のための勾配に基づく手法の最近の進歩を生かした。 我々は,付加的手法が失敗した場合の因果関係を捉え,不規則な構造仮定に依存するのではなく,観察に適合する有用な応答範囲を提供する,合成および実世界の一連のデータについて実証する。

Causal treatment effect estimation is a key problem that arises in a variety of real-world settings, from personalized medicine to governmental policy making. There has been a flurry of recent work in machine learning on estimating causal effects when one has access to an instrument. However, to achieve identifiability, they in general require one-size-fits-all assumptions such as an additive error model for the outcome. An alternative is partial identification, which provides bounds on the causal effect. Little exists in terms of bounding methods that can deal with the most general case, where the treatment itself can be continuous. Moreover, bounding methods generally do not allow for a continuum of assumptions on the shape of the causal effect that can smoothly trade off stronger background knowledge for more informative bounds. In this work, we provide a method for causal effect bounding in continuous distributions, leveraging recent advances in gradient-based methods for the optimization of computationally intractable objective functions. We demonstrate on a set of synthetic and real-world data that our bounds capture the causal effect when additive methods fail, providing a useful range of answers compatible with observation as opposed to relying on unwarranted structural assumptions.
翻訳日:2022-11-22 10:03:19 公開日:2020-10-21
# リカレントカーネルと構造化トランスフォーメーションを考慮したリザーバコンピューティング

Reservoir Computing meets Recurrent Kernels and Structured Transforms ( http://arxiv.org/abs/2006.07310v2 )

ライセンス: Link先を確認
Jonathan Dong, Ruben Ohana, Mushegh Rafayelyan, and Florent Krzakala(参考訳) リザーバコンピューティングは、内部重みをランダムに固定し、線形出力層のみを訓練する、単純かつ効率的なリカレントニューラルネットワークのクラスである。 大きなサイズ制限では、そのようなランダムニューラルネットワークはカーネルメソッドと深いつながりを持つ。 私たちの貢献は3倍です a) 貯留層計算の繰り返しカーネル限界を厳格に確立し、その収束を証明する。 b) Reservoir Computing の古典的かつ挑戦的なベンチマークであるカオス時系列予測のモデルを検証し,データポイント数が適度である場合,Recurrent Kernel がいかに競争力と計算効率が高いかを示す。 c) サンプル数が大きすぎると,構造化リザーバコンピューティングの導入により,カーネル近似のための構造化ランダム特徴の成功を活用できる。 提案した2つの手法であるRecurrent KernelとStructured Reservoir Computingは、従来のReservoir Computingよりもはるかに高速でメモリ効率が高いことがわかった。

Reservoir Computing is a class of simple yet efficient Recurrent Neural Networks where internal weights are fixed at random and only a linear output layer is trained. In the large size limit, such random neural networks have a deep connection with kernel methods. Our contributions are threefold: a) We rigorously establish the recurrent kernel limit of Reservoir Computing and prove its convergence. b) We test our models on chaotic time series prediction, a classic but challenging benchmark in Reservoir Computing, and show how the Recurrent Kernel is competitive and computationally efficient when the number of data points remains moderate. c) When the number of samples is too large, we leverage the success of structured Random Features for kernel approximation by introducing Structured Reservoir Computing. The two proposed methods, Recurrent Kernel and Structured Reservoir Computing, turn out to be much faster and more memory-efficient than conventional Reservoir Computing.
翻訳日:2022-11-22 03:53:24 公開日:2020-10-21
# ニューラルデータにおける非ユークリッド潜在構造発見のためのGPLVMのマニフォールド

Manifold GPLVMs for discovering non-Euclidean latent structure in neural data ( http://arxiv.org/abs/2006.07429v2 )

ライセンス: Link先を確認
Kristopher T. Jensen, Ta-Chu Kao, Marco Tripodi, and Guillaume Hennequin(参考訳) 神経科学における一般的な問題は、方向、空間的位置、今後の動き、心的空間的変化といった行動上重要な変数の集合的神経表現を解明することである。 これらの潜伏変数は実験者に直接アクセスできない内部構造であることが多い。 そこで本研究では,潜在状態と各ニューロンが非教師なし方法でその表現に寄与する方法を同時に同定する,新しい確率潜在変数モデルを提案する。 ユークリッド的潜在空間を仮定した以前のモデルとは対照的に、潜在状態は様々な次元の球面、トーラス、回転群といった対称多様体に属することが多い。 そこで我々は,ニューラル応答が生じる多様体ガウス過程潜在変数モデル(mGPLVM)を提案する。 (i)特定の多様体上に存在する共有潜在変数、及び (ii)各ニューロンが表現にどのように寄与するかを決定する非パラメトリックなチューニング曲線の組。 異なる位相を持つモデルのクロス評価比較は、候補多様体を区別するために利用することができ、変分推論は不確かさの定量化を可能にする。 本研究では,いくつかの合成データセットに対するアプローチの有効性,ならびにショウジョウバエの楕円体からのカルシウム記録およびマウス視床核の細胞外記録について検証した。 これらの回路はどちらも方向を符号化することが知られており、mGPLVMは単一の角変数を表す神経集団から期待される環トポロジーを正確に回復する。

A common problem in neuroscience is to elucidate the collective neural representations of behaviorally important variables such as head direction, spatial location, upcoming movements, or mental spatial transformations. Often, these latent variables are internal constructs not directly accessible to the experimenter. Here, we propose a new probabilistic latent variable model to simultaneously identify the latent state and the way each neuron contributes to its representation in an unsupervised way. In contrast to previous models which assume Euclidean latent spaces, we embrace the fact that latent states often belong to symmetric manifolds such as spheres, tori, or rotation groups of various dimensions. We therefore propose the manifold Gaussian process latent variable model (mGPLVM), where neural responses arise from (i) a shared latent variable living on a specific manifold, and (ii) a set of non-parametric tuning curves determining how each neuron contributes to the representation. Cross-validated comparisons of models with different topologies can be used to distinguish between candidate manifolds, and variational inference enables quantification of uncertainty. We demonstrate the validity of the approach on several synthetic datasets, as well as on calcium recordings from the ellipsoid body of Drosophila melanogaster and extracellular recordings from the mouse anterodorsal thalamic nucleus. These circuits are both known to encode head direction, and mGPLVM correctly recovers the ring topology expected from neural populations representing a single angular variable.
翻訳日:2022-11-22 03:51:04 公開日:2020-10-21
# 拡張神経odeの2次挙動について

On Second Order Behaviour in Augmented Neural ODEs ( http://arxiv.org/abs/2006.07220v2 )

ライセンス: Link先を確認
Alexander Norcliffe, Cristian Bodnar, Ben Day, Nikola Simidjievski, Pietro Li\`o(参考訳) ニューラル正規微分方程式(Neural Ordinary Differential Equations, NODE)は、無限深度アーキテクチャを通してデータを連続的に変換する新しいモデルのクラスである。 ノードの連続的な性質は、複雑な物理システムのダイナミクスを学ぶのに特に適している。 これまでの研究は主に一階ODEに焦点を当てていたが、古典物理学における多くの系の力学は二階法則によって支配されている。 本稿では,2次ニューラルネットワーク(SONODE)について考察する。 本稿では, 随伴感度法をSONODEに拡張し, 1次結合ODEの最適化が等価であり, 計算効率がよいことを示す。 さらに,拡張NODE(Augmented NODEs)のより広範なクラスに対する理論的理解を,最小限の拡張次元で高次ダイナミクスを学習できることを示すことによって拡張する。 これは、当初考えていたように、ANODEの利点が拡張次元によって提供される余分な空間を越えていることを示している。 最後に、合成力学系と実力学系におけるSONODEとANODEを比較し、前者の帰納バイアスが一般に学習の高速化と性能の向上をもたらすことを示す。

Neural Ordinary Differential Equations (NODEs) are a new class of models that transform data continuously through infinite-depth architectures. The continuous nature of NODEs has made them particularly suitable for learning the dynamics of complex physical systems. While previous work has mostly been focused on first order ODEs, the dynamics of many systems, especially in classical physics, are governed by second order laws. In this work, we consider Second Order Neural ODEs (SONODEs). We show how the adjoint sensitivity method can be extended to SONODEs and prove that the optimisation of a first order coupled ODE is equivalent and computationally more efficient. Furthermore, we extend the theoretical understanding of the broader class of Augmented NODEs (ANODEs) by showing they can also learn higher order dynamics with a minimal number of augmented dimensions, but at the cost of interpretability. This indicates that the advantages of ANODEs go beyond the extra space offered by the augmented dimensions, as originally thought. Finally, we compare SONODEs and ANODEs on synthetic and real dynamical systems and demonstrate that the inductive biases of the former generally result in faster training and better performance.
翻訳日:2022-11-22 02:48:12 公開日:2020-10-21
# COT-GAN:因果的最適輸送による逐次データ生成

COT-GAN: Generating Sequential Data via Causal Optimal Transport ( http://arxiv.org/abs/2006.08571v2 )

ライセンス: Link先を確認
Tianlin Xu, Li K. Wenliang, Michael Munn, Beatrice Acciaio(参考訳) 逐次データ生成に最適化された暗黙的生成モデルをトレーニングするための逆アルゴリズムであるCOT-GANを導入する。 このアルゴリズムの損失関数は、古典的最適輸送法と追加の時間因果制約を組み合わせたCausal Optimal Transport (COT)のアイデアを用いて定式化される。 驚くべきことに、この因果関係条件は、識別者がロバスト(ワーストケース)距離として学習するコスト関数をパラメータ化する自然な枠組みと、時間依存データ分布を学習するための理想的なメカニズムを提供する。 Genevayなどに続く。 また,Sinkhornアルゴリズムを最適輸送コストの計算に用いるエントロピックなペナル化項も含んでいる。 低次元および高次元の時系列データを生成する際のCOT-GANの有効性と安定性を示す。 アルゴリズムの成功は、学習のバイアスを減らしたシンクホーン発散の新たな改良版にも依存している。

We introduce COT-GAN, an adversarial algorithm to train implicit generative models optimized for producing sequential data. The loss function of this algorithm is formulated using ideas from Causal Optimal Transport (COT), which combines classic optimal transport methods with an additional temporal causality constraint. Remarkably, we find that this causality condition provides a natural framework to parameterize the cost function that is learned by the discriminator as a robust (worst-case) distance, and an ideal mechanism for learning time dependent data distributions. Following Genevay et al.\ (2018), we also include an entropic penalization term which allows for the use of the Sinkhorn algorithm when computing the optimal transport cost. Our experiments show effectiveness and stability of COT-GAN when generating both low- and high-dimensional time series data. The success of the algorithm also relies on a new, improved version of the Sinkhorn divergence which demonstrates less bias in learning.
翻訳日:2022-11-21 03:14:29 公開日:2020-10-21
# 深く学習したスペクトル全変動分解

Deeply Learned Spectral Total Variation Decomposition ( http://arxiv.org/abs/2006.10004v2 )

ライセンス: Link先を確認
Tamara G. Grossmann, Yury Korolev, Guy Gilboa, Carola-Bibiane Sch\"onlieb(参考訳) 全体変動のような一様関数に基づく画像の非線形スペクトル分解は,ここ数年で注目されている。 異なる大きさとコントラストのオブジェクトに対応するスペクトル成分を抽出できるため、このような分解によってフィルタリング、特徴移動、画像融合などの応用が可能になる。 しかし、この分解を得るには、複数の非滑らかな最適化問題を解く必要があるため、計算的に非常に集中的である。 本稿では,非線形スペクトル分解のニューラルネットワーク近似を提案する。 従来のgpuに比べて、メガピクセルサイズの画像の処理速度は最大4桁($\times 10,000$)と報告しています。 提案するネットワークであるTVSpecNETは,基礎となるPDEを暗黙的に学習し,完全にデータ駆動であるにもかかわらず,モデルベース変換の不変性を継承する。 我々の知る限りでは、これは画像の非線形スペクトル分解を学ぶための最初のアプローチである。 膨大な計算上の優位性を得るだけでなく、このアプローチは、手作りの関数ではなく、ユーザが定義したスペクトルコンポーネントに画像を分解できるニューラルネットワークの研究へのステップとも見ることができる。

Non-linear spectral decompositions of images based on one-homogeneous functionals such as total variation have gained considerable attention in the last few years. Due to their ability to extract spectral components corresponding to objects of different size and contrast, such decompositions enable filtering, feature transfer, image fusion and other applications. However, obtaining this decomposition involves solving multiple non-smooth optimisation problems and is therefore computationally highly intensive. In this paper, we present a neural network approximation of a non-linear spectral decomposition. We report up to four orders of magnitude ($\times 10,000$) speedup in processing of mega-pixel size images, compared to classical GPU implementations. Our proposed network, TVSpecNET, is able to implicitly learn the underlying PDE and, despite being entirely data driven, inherits invariances of the model based transform. To the best of our knowledge, this is the first approach towards learning a non-linear spectral decomposition of images. Not only do we gain a staggering computational advantage, but this approach can also be seen as a step towards studying neural networks that can decompose an image into spectral components defined by a user rather than a handcrafted functional.
翻訳日:2022-11-19 20:47:35 公開日:2020-10-21
# 普遍量子化ニューラル圧縮

Universally Quantized Neural Compression ( http://arxiv.org/abs/2006.09952v2 )

ライセンス: Link先を確認
Eirikur Agustsson and Lucas Theis(参考訳) 損失圧縮のためのエンコーダを学習する一般的なアプローチは、テスト時量子化の微分可能な近似としてトレーニング中に付加的な均一ノイズを使用することである。 普遍量子化(Ziv, 1985)を用いて,一様ノイズチャネルをテスト時に実装可能であることを示す。 これにより、完全に差別化可能な損失関数を維持しながら、トレーニングとテストフェーズのミスマッチを排除できます。 均一なノイズチャネルを実装することは、サンプルを伝達するより一般的な問題の特別な場合であり、分布を仮定しない場合、計算的に困難であることが証明される。 しかし、一様な特殊なケースは効率的であり、実装も容易であり、実際的な観点からは非常に興味深い。 最後に,一様雑音チャネルに適用したソフト量子化器の限界ケースとして量子化が得られ,量子化の有無にかかわらず圧縮を橋渡しできることを示す。

A popular approach to learning encoders for lossy compression is to use additive uniform noise during training as a differentiable approximation to test-time quantization. We demonstrate that a uniform noise channel can also be implemented at test time using universal quantization (Ziv, 1985). This allows us to eliminate the mismatch between training and test phases while maintaining a completely differentiable loss function. Implementing the uniform noise channel is a special case of the more general problem of communicating a sample, which we prove is computationally hard if we do not make assumptions about its distribution. However, the uniform special case is efficient as well as easy to implement and thus of great interest from a practical point of view. Finally, we show that quantization can be obtained as a limiting case of a soft quantizer applied to the uniform noise channel, bridging compression with and without quantization.
翻訳日:2022-11-19 19:15:35 公開日:2020-10-21
# 予測複雑性の先行

Predictive Complexity Priors ( http://arxiv.org/abs/2006.10801v3 )

ライセンス: Link先を確認
Eric Nalisnick, Jonathan Gordon, Jos\'e Miguel Hern\'andez-Lobato(参考訳) ベイジアン事前の特定は、ニューラルネットワークのような複雑なモデルでは難しいことが知られている。 パラメータに関する推論は、空間の高次元性と過度パラメータ化によって挑戦される。 良性的かつ非形式的に見える事前は、モデルの予測に直観的かつ有害な影響を与える可能性がある。 このような理由から,モデルの予測と参照モデルの予測とを比較して定義した機能的事前という,予測的複雑性の先行性を提案する。 もともとはモデル出力で定義されていたが、変数の変更によってモデルパラメータの前の値を転送する。 伝統的なベイズワークフローは、通常通り進むことができる。 我々は,高次元回帰,ニューラルネットワーク深度の推論,数ショット学習における統計的強度の共有に先立って,予測複雑性を適用した。

Specifying a Bayesian prior is notoriously difficult for complex models such as neural networks. Reasoning about parameters is made challenging by the high-dimensionality and over-parameterization of the space. Priors that seem benign and uninformative can have unintuitive and detrimental effects on a model's predictions. For this reason, we propose predictive complexity priors: a functional prior that is defined by comparing the model's predictions to those of a reference model. Although originally defined on the model outputs, we transfer the prior to the model parameters via a change of variables. The traditional Bayesian workflow can then proceed as usual. We apply our predictive complexity prior to high-dimensional regression, reasoning over neural network depth, and sharing of statistical strength for few-shot learning.
翻訳日:2022-11-19 12:55:19 公開日:2020-10-21
# エントロピーディフレクションによるビデオフレームレート変動のキャプチャ

Capturing Video Frame Rate Variations via Entropic Differencing ( http://arxiv.org/abs/2006.11424v2 )

ライセンス: Link先を確認
Pavan C. Madhusudana, Neil Birkbeck, Yilin Wang, Balu Adsumilli, Alan C. Bovik(参考訳) 近年、エンタテインメントやストリーミング業界が消費者に高品質な体験を提供するための強い要求に応えて、高フレームレートビデオの人気が高まっている。 フレームレート適応の観点から,帯域幅要求と映像品質の最良のトレードオフを実現するためには,フレームレートが映像品質に及ぼす影響を理解することが不可欠である。 本研究では,空間的および時間的帯域通過領域で表現される一般化ガウス分布モデルに基づいて,参照ビデオと歪みビデオの質差を測定する新しい統計エントロピー差分法を考案する。 提案する設計は高い一般化が可能であり、参照と歪んだシーケンスが異なるフレームレートを持つ場合に使用できる。 提案手法は,最近提案されたLIVE-YT-HFRデータベースにおいて,主観的スコアと非常によく相関しており,既存の手法と比較すると,その性能が向上する。

High frame rate videos are increasingly getting popular in recent years, driven by the strong requirements of the entertainment and streaming industries to provide high quality of experiences to consumers. To achieve the best trade-offs between the bandwidth requirements and video quality in terms of frame rate adaptation, it is imperative to understand the effects of frame rate on video quality. In this direction, we devise a novel statistical entropic differencing method based on a Generalized Gaussian Distribution model expressed in the spatial and temporal band-pass domains, which measures the difference in quality between reference and distorted videos. The proposed design is highly generalizable and can be employed when the reference and distorted sequences have different frame rates. Our proposed model correlates very well with subjective scores in the recently proposed LIVE-YT-HFR database and achieves state of the art performance when compared with existing methodologies.
翻訳日:2022-11-19 05:24:32 公開日:2020-10-21
# 機械読解に関する調査:タスク,評価基準,ベンチマークデータセット

A Survey on Machine Reading Comprehension: Tasks, Evaluation Metrics and Benchmark Datasets ( http://arxiv.org/abs/2006.11880v2 )

ライセンス: Link先を確認
Changchang Zeng, Shaobo Li, Qin Li, Jie Hu, and Jianjun Hu(参考訳) Machine Reading Comprehension (MRC)は、自然言語処理(NLP)の研究分野であり、幅広い現実世界の応用がある。 近年のこの分野の大きな進歩は、主に大規模データセットの出現とディープラーニングによるものである。 現在、既存のMRCモデルと真の人間レベルの読解の間に明らかな大きなギャップがあるにもかかわらず、多くのMRCモデルは、様々なベンチマークデータセット上での人間のパフォーマンスをすでに上回っている。 これは、既存のデータセット、評価指標、モデルを改善して、現在のMCCモデルを"リアル"な理解へと移行する必要性を示しています。 既存のRCタスク,評価指標,データセットの包括的調査の欠如に対処するため,(1) 57のMRCタスクとデータセットを分析し,さらに4つの属性を持つMRCタスクのより正確な分類方法を提案する。(2) MRCタスクの9つの評価指標,7つの属性,および10の特徴について要約し,(3) MRC研究における重要なオープン問題についても論じ,今後の研究方向性を強調した。 さらに、MSC研究者がそれぞれのMSCデータセット、論文、ベースラインプロジェクト、およびリーダーボードに直接アクセスできる同伴ウェブサイト(https://mrc-datasets.github.io/)にデータを収集、整理、公開しました。

Machine Reading Comprehension (MRC) is a challenging Natural Language Processing(NLP) research field with wide real-world applications. The great progress of this field in recent years is mainly due to the emergence of large-scale datasets and deep learning. At present, a lot of MRC models have already surpassed human performance on various benchmark datasets despite the obvious giant gap between existing MRC models and genuine human-level reading comprehension. This shows the need for improving existing datasets, evaluation metrics, and models to move current MRC models toward "real" understanding. To address the current lack of comprehensive survey of existing MRC tasks, evaluation metrics, and datasets, herein, (1) we analyze 57 MRC tasks and datasets and propose a more precise classification method of MRC tasks with 4 different attributes; (2) we summarized 9 evaluation metrics of MRC tasks, 7 attributes and 10 characteristics of MRC datasets; (3) We also discuss key open issues in MRC research and highlighted future research directions. In addition, we have collected, organized, and published our data on the companion website(https://mrc-datasets.github.io/) where MRC researchers could directly access each MRC dataset, papers, baseline projects, and the leaderboard.
翻訳日:2022-11-18 11:31:32 公開日:2020-10-21
# 適切なネットワーク解釈能力は、分類における対人ロバスト性を助ける

Proper Network Interpretability Helps Adversarial Robustness in Classification ( http://arxiv.org/abs/2006.14748v2 )

ライセンス: Link先を確認
Akhilan Boopathy, Sijia Liu, Gaoyuan Zhang, Cynthia Liu, Pin-Yu Chen, Shiyu Chang, Luca Daniel(参考訳) 近年の研究では、ニューラルネットワークの解釈可能性(すなわち、ネットワークの解釈マップを視覚的に類似させる)から隠せる敵の例が存在することが実証されている。 本稿では,MNIST, CIFAR-10, Restricted ImageNetにおいて, 解釈の適切な測定を行うことで, 予測回避攻撃が解釈の不一致を引き起こすのを防ぐことが実際に困難であることを理論的に示す。 そこで我々は,頑健な解釈を促進すること(敵の損失最小化に頼らずに)を前提とした解釈可能性対応防衛スキームを開発した。 特に大きな摂動攻撃に対して、我々の防御は堅牢な分類と強固な解釈の両方を達成し、最先端の敵対的訓練方法よりも優れています。

Recent works have empirically shown that there exist adversarial examples that can be hidden from neural network interpretability (namely, making network interpretation maps visually similar), or interpretability is itself susceptible to adversarial attacks. In this paper, we theoretically show that with a proper measurement of interpretation, it is actually difficult to prevent prediction-evasion adversarial attacks from causing interpretation discrepancy, as confirmed by experiments on MNIST, CIFAR-10 and Restricted ImageNet. Spurred by that, we develop an interpretability-aware defensive scheme built only on promoting robust interpretation (without the need for resorting to adversarial loss minimization). We show that our defense achieves both robust classification and robust interpretation, outperforming state-of-the-art adversarial training methods against attacks of large perturbation in particular.
翻訳日:2022-11-16 20:55:52 公開日:2020-10-21
# 偏りのある対照学習

Debiased Contrastive Learning ( http://arxiv.org/abs/2007.00224v3 )

ライセンス: Link先を確認
Ching-Yao Chuang, Joshua Robinson, Lin Yen-Chen, Antonio Torralba, Stefanie Jegelka(参考訳) 自己教師付き表現学習の顕著なテクニックは、意味論的に類似し、異なるサンプル対を対比することである。 ラベルへのアクセスがない場合、異種(負)の点は通常ランダムにサンプリングされたデータポイントとされ、これらの点が実際には同じラベルを持つ可能性があることを暗黙的に受け入れる。 当然のことながら、真に異なるラベルからネガティブなサンプルをサンプリングすることで、ラベルが利用できる合成環境ではパフォーマンスが向上する。 この観測により, 真のラベルの知識がなくても, 同一ラベルデータポイントのサンプリングを補正する, 偏りのあるコントラクティブな目標を考案した。 実証的に、提案する目的は、視覚、言語、強化学習ベンチマークにおける表現学習の最先端を一貫して上回る。 理論的には、下流分類タスクの一般化境界を確立する。

A prominent technique for self-supervised representation learning has been to contrast semantically similar and dissimilar pairs of samples. Without access to labels, dissimilar (negative) points are typically taken to be randomly sampled datapoints, implicitly accepting that these points may, in reality, actually have the same label. Perhaps unsurprisingly, we observe that sampling negative examples from truly different labels improves performance, in a synthetic setting where labels are available. Motivated by this observation, we develop a debiased contrastive objective that corrects for the sampling of same-label datapoints, even without knowledge of the true labels. Empirically, the proposed objective consistently outperforms the state-of-the-art for representation learning in vision, language, and reinforcement learning benchmarks. Theoretically, we establish generalization bounds for the downstream classification task.
翻訳日:2022-11-14 21:59:41 公開日:2020-10-21
# 樹木と森林の高次元推定と推定

Estimation and Inference with Trees and Forests in High Dimensions ( http://arxiv.org/abs/2007.03210v2 )

ライセンス: Link先を確認
Vasilis Syrgkanis and Manolis Zampetakis(参考訳) 本研究では,二元性制約下での高次元環境下での回帰木と森林の有限サンプル平均二乗誤差(mse)性能を解析した。 平均的な結果関数に$d$の機能のr$だけを関連付けると、CART経験的MSE基準による浅い木は、周囲の次元$d$に対数的にのみ依存するMSEレートを達成する。 関係変数 $r$ に厳密に依存する上限は、特徴間の相関や関連性の度合いに依存する。 また,本研究の結果から,完全成長林ではmse速度が速く,その予測は漸近的に正常であり,回帰関数のスパース性に適応した漸近的に有効な推論が可能となった。

We analyze the finite sample mean squared error (MSE) performance of regression trees and forests in the high dimensional regime with binary features, under a sparsity constraint. We prove that if only $r$ of the $d$ features are relevant for the mean outcome function, then shallow trees built greedily via the CART empirical MSE criterion achieve MSE rates that depend only logarithmically on the ambient dimension $d$. We prove upper bounds, whose exact dependence on the number relevant variables $r$ depends on the correlation among the features and on the degree of relevance. For strongly relevant features, we also show that fully grown honest forests achieve fast MSE rates and their predictions are also asymptotically normal, enabling asymptotically valid inference that adapts to the sparsity of the regression function.
翻訳日:2022-11-12 20:44:50 公開日:2020-10-21
# 実用的コミュニケーションによるプログラム合成

Program Synthesis with Pragmatic Communication ( http://arxiv.org/abs/2007.05060v3 )

ライセンス: Link先を確認
Yewen Pu, Kevin Ellis, Marta Kryven, Josh Tenenbaum, Armando Solar-Lezama(参考訳) プログラム合成技術は、入力出力例のようなユーザが提供する仕様からプログラムを構築または推論する。 しかし、ほとんどの仕様、特にエンドユーザによって与えられた仕様は、多くのプログラムが同時に仕様を満たすため、合成問題を根本的に悪用している。 先行研究は、単純プログラムの好みなど、様々な帰納バイアスを用いることで、この曖昧さを解決する。 本研究は,プログラム合成タスクを合理的なコミュニケーションとしてモデル化し,帰納的推論モデルから洞察を引き出す,新たな帰納的バイアスを提案する。 仕様が与えられた場合、我々は仕様との整合性と、そのプログラムを伝えるために有理話者がこの特定の仕様を選択するかどうかの両点から候補プログラムを採点する。 入力出力の例から学習する際,そのような手法の効率的なアルゴリズムを開発し,単純なグリッドライクなレイアウトドメイン上に実用的なプログラムシンセサイザーを構築する。 ユーザ研究によれば、エンドユーザー参加者は非プラグマティックなプログラムシンセサイザーよりも実用的プログラムシンセサイザーとより効果的に通信する。

Program synthesis techniques construct or infer programs from user-provided specifications, such as input-output examples. Yet most specifications, especially those given by end-users, leave the synthesis problem radically ill-posed, because many programs may simultaneously satisfy the specification. Prior work resolves this ambiguity by using various inductive biases, such as a preference for simpler programs. This work introduces a new inductive bias derived by modeling the program synthesis task as rational communication, drawing insights from recursive reasoning models of pragmatics. Given a specification, we score a candidate program both on its consistency with the specification, and also whether a rational speaker would chose this particular specification to communicate that program. We develop efficient algorithms for such an approach when learning from input-output examples, and build a pragmatic program synthesizer over a simple grid-like layout domain. A user study finds that end-user participants communicate more effectively with the pragmatic program synthesizer over a non-pragmatic one.
翻訳日:2022-11-12 05:01:11 公開日:2020-10-21
# ファクトポリシーの生涯的学習 : 意思決定を伴わない高速トレーニング

Lifelong Policy Gradient Learning of Factored Policies for Faster Training Without Forgetting ( http://arxiv.org/abs/2007.07011v2 )

ライセンス: Link先を確認
Jorge A. Mendez and Boyu Wang and Eric Eaton(参考訳) 政策勾配法は高次元力学系の学習制御政策に成功している。 彼らの最大の欠点は、高いパフォーマンスの政策を得る前に必要な探検の量である。 エージェントが生涯にわたって連続したタスクに直面する生涯学習環境では、これまで見られたタスクからの情報を再利用することで、新しいタスクの学習を大幅に加速させることができる。 政策勾配を通じて生涯関数近似関数を直接訓練し、訓練プロセス全体を通して蓄積された知識の恩恵を受ける、生涯政策勾配学習の新規な方法を提案する。 我々は,我々のアルゴリズムが単一タスクや生涯学習ベースラインよりも早く学習し,より良いポリシーに収束することを示す。

Policy gradient methods have shown success in learning control policies for high-dimensional dynamical systems. Their biggest downside is the amount of exploration they require before yielding high-performing policies. In a lifelong learning setting, in which an agent is faced with multiple consecutive tasks over its lifetime, reusing information from previously seen tasks can substantially accelerate the learning of new tasks. We provide a novel method for lifelong policy gradient learning that trains lifelong function approximators directly via policy gradients, allowing the agent to benefit from accumulated knowledge throughout the entire training process. We show empirically that our algorithm learns faster and converges to better policies than single-task and lifelong learning baselines, and completely avoids catastrophic forgetting on a variety of challenging domains.
翻訳日:2022-11-10 13:22:40 公開日:2020-10-21
# CSI: 分散シフトインスタンスのコントラスト学習による新規性検出

CSI: Novelty Detection via Contrastive Learning on Distributionally Shifted Instances ( http://arxiv.org/abs/2007.08176v2 )

ライセンス: Link先を確認
Jihoon Tack, Sangwoo Mo, Jongheon Jeong, Jinwoo Shin(参考訳) 新規性検出、すなわち、トレーニング分布外からサンプルが引き出されるかどうかを識別することは、信頼できる機械学習に不可欠である。 この目的のために,新規性検出に適した表現を学習し,その表現に基づくスコアを設計する試みが数多く行われている。 本稿では,視覚表現のコントラスト学習における最近の成功に触発された,簡易かつ効果的なcon contrasting shift instance (csi) 手法を提案する。 具体的には,従来のコントラスト学習法のように,与えられたサンプルと他のインスタンスのコントラストに加えて,そのサンプルを分布的にシフトした自己の増補と対比する。 そこで本研究では,提案手法に特有の新たな検出スコアを提案する。 提案手法は,ラベルなし1クラス,ラベルなしマルチクラス,ラベル付きマルチクラス設定,画像ベンチマークデータセットなど,様々な新規検出シナリオにおいて優れていることを示す。 コードと事前訓練されたモデルはhttps://github.com/alinlab/CSI.comで入手できる。

Novelty detection, i.e., identifying whether a given sample is drawn from outside the training distribution, is essential for reliable machine learning. To this end, there have been many attempts at learning a representation well-suited for novelty detection and designing a score based on such representation. In this paper, we propose a simple, yet effective method named contrasting shifted instances (CSI), inspired by the recent success on contrastive learning of visual representations. Specifically, in addition to contrasting a given sample with other instances as in conventional contrastive learning methods, our training scheme contrasts the sample with distributionally-shifted augmentations of itself. Based on this, we propose a new detection score that is specific to the proposed training scheme. Our experiments demonstrate the superiority of our method under various novelty detection scenarios, including unlabeled one-class, unlabeled multi-class and labeled multi-class settings, with various image benchmark datasets. Code and pre-trained models are available at https://github.com/alinlab/CSI.
翻訳日:2022-11-09 22:14:28 公開日:2020-10-21
# マルチスケール完全畳み込みネットワークに基づくリモートセンシング画像からの土地被覆分類

Land Cover Classification from Remote Sensing Images Based on Multi-Scale Fully Convolutional Network ( http://arxiv.org/abs/2008.00168v2 )

ライセンス: Link先を確認
Rui Li, Shunyi Zheng, Chenxi Duan and Ce Zhang(参考訳) 本稿では,2次元衛星画像からの識別表現を利用するために,マルチスケール畳み込みカーネルを用いたマルチスケール完全畳み込みネットワーク (msfcn) を提案する。

In this paper, a Multi-Scale Fully Convolutional Network (MSFCN) with multi-scale convolutional kernel is proposed to exploit discriminative representations from two-dimensional (2D) satellite images.
翻訳日:2022-11-04 00:29:53 公開日:2020-10-21
# ナノスケールバイオメディカルエンジニアリングにおける機械学習

Machine Learning in Nano-Scale Biomedical Engineering ( http://arxiv.org/abs/2008.02195v2 )

ライセンス: Link先を確認
Alexandros-Apostolos A. Boulogeorgos, Stylianos E. Trevlakis, Sotiris A. Tegos, Vasilis K. Papanikolaou, and George K. Karagiannidis(参考訳) 機械学習(ML)は、モデル化されたシステムに関する強い仮定を使わずに、利用可能なデータを非常にうまくモデリングすることで、バイオメディカルシステムのパフォーマンスを最適化する能力を持つ。 特に、生成したデータセットが巨大で複雑すぎて、計算補助なしで精神的に解析できないナノスケールのバイオシステムでは、MLは新しい洞察を分析し、抽出し、材料と構造発見を加速し、ナノスケールの通信やネットワークをサポートする。 しかしながら、ナノスケールのバイオメディカルエンジニアリングにおけるMLの使用はいまだ研究が進んでおらず、構造・材料設計・シミュレーション、通信・信号処理、バイオメディカル応用などの分野で研究課題がまだ開かれている。 本稿では,ナノスケールバイオメディカルエンジニアリングにおけるMLの利用に関する既存研究について概説する。 より詳しくは、ML問題として定式化できる主な課題を特定し、議論する。 これらの課題は、前述の3つの主なカテゴリに分類される。 次に,上記の課題に対処するために使用されるアートML手法の現状について論じる。 提示された方法論のそれぞれについて、その原則、応用、および制限に特別に重点が置かれている。 最後に,研究のギャップを明らかにし,今後の研究方向性を明らかにする,洞察に富んだ議論をまとめる。

Machine learning (ML) empowers biomedical systems with the capability to optimize their performance through modeling of the available data extremely well, without using strong assumptions about the modeled system. Especially in nano-scale biosystems, where the generated data sets are too vast and complex to mentally parse without computational assist, ML is instrumental in analyzing and extracting new insights, accelerating material and structure discoveries, and designing experience as well as supporting nano-scale communications and networks. However, despite these efforts, the use of ML in nano-scale biomedical engineering remains still under-explored in certain areas and research challenges are still open in fields such as structure and material design and simulations, communications and signal processing, and bio-medicine applications. In this article, we review the existing research regarding the use of ML in nano-scale biomedical engineering. In more detail, we first identify and discuss the main challenges that can be formulated as ML problems. These challenges are classified into the three aforementioned main categories. Next, we discuss the state of the art ML methodologies that are used to countermeasure the aforementioned challenges. For each of the presented methodologies, special emphasis is given to its principles, applications, and limitations. Finally, we conclude the article with insightful discussions, that reveal research gaps and highlight possible future research directions.
翻訳日:2022-11-02 19:05:45 公開日:2020-10-21
# 対話型Webブラウジングのためのチャットボットの自動生成

Automatic Generation of Chatbots for Conversational Web Browsing ( http://arxiv.org/abs/2008.12097v2 )

ライセンス: Link先を確認
Pietro Chitt\`o and Marcos Baez and Florian Daniel and Boualem Benatallah(参考訳) 本稿では,シンプルな,ボット固有のHTMLアノテーションを備えたWebサイトからチャットボットを生成する基盤について述べる。 このアプローチは、対話型Webブラウジング(会話型Webブラウジング)、すなわちWebサイトとの対話に基づく自然言語インタラクションの一部である。 ユーザは、キーボードとマウスを使ってグラフィカルなuiを操作するのではなく、レンダリングされたuiを通じてアクセス可能なコンテンツと機能を使用することが目的だ。 チャットボットは、ユーザとWebサイトの間を仲介し、ユーザに代わってグラフィカルUIを操作し、インタラクションの状態についてユーザに通知する。 本稿では,概念語彙とアノテーション形式,対話型ミドルウェアと技術のサポート,amazon alexaによる対話型webブラウジングエクスペリエンスの提供が可能なデモの実装について述べる。

In this paper, we describe the foundations for generating a chatbot out of a website equipped with simple, bot-specific HTML annotations. The approach is part of what we call conversational web browsing, i.e., a dialog-based, natural language interaction with websites. The goal is to enable users to use content and functionality accessible through rendered UIs by "talking to websites" instead of by operating the graphical UI using keyboard and mouse. The chatbot mediates between the user and the website, operates its graphical UI on behalf of the user, and informs the user about the state of interaction. We describe the conceptual vocabulary and annotation format, the supporting conversational middleware and techniques, and the implementation of a demo able to deliver conversational web browsing experiences through Amazon Alexa.
翻訳日:2022-10-27 12:27:56 公開日:2020-10-21
# Adapter-Bot:オールインワン制御可能な会話モデル

The Adapter-Bot: All-In-One Controllable Conversational Model ( http://arxiv.org/abs/2008.12579v2 )

ライセンス: Link先を確認
Andrea Madotto, Zhaojiang Lin, Yejin Bang, Pascale Fung(参考訳) 大規模対話データセット上で大規模言語モデルを訓練することにより,一貫性と流動性を持った応答を生成する対話モデルに向けて,検討が進められている。 これらのモデルは生成した応答をほとんどあるいはまったくコントロールせず、継続的な対話スキルの統合と多様な知識ソースのシームレスな活用という、2つの重要な特徴を見逃します。 本稿では、DialGPT(Zhang et al., 2019)のような固定されたバックボーン対話モデルを用いた対話モデルであるAdapter-Botを提案し、異なるアダプタ(Houlsby et al., 2019)を介してオンデマンド対話スキル(強調応答、天気情報、映画レコメンデーション)をトリガーする。 各アダプタは独立してトレーニングできるため、モデル全体をトレーニングすることなく、継続的にスキルを統合することができる。 スキルに応じて、モデルはテキスト、テーブル、グラフなどの複数の知識タイプをシームレスに処理することができる。 対話スキルは対話マネージャを介して、あるいは手動で自動的に起動できるため、生成されたレスポンスの高レベルな制御が可能になる。 現段階では,12種類の応答スタイル(肯定的,否定的など),8つの目標指向スキル(天気情報,映画レコメンデーションなど),パーソナライズされた,強調的な応答を実現している。 既存の最先端会話モデルと比較し,自動評価による評価を行い,adapter.bot.ust.hkでインタラクティブなシステムを開発した。

Considerable progress has been made towards conversational models that generate coherent and fluent responses by training large language models on large dialogue datasets. These models have little or no control of the generated responses and miss two important features: continuous dialogue skills integration and seamlessly leveraging diverse knowledge sources. In this paper, we propose the Adapter-Bot, a dialogue model that uses a fixed backbone conversational model such as DialGPT (Zhang et al., 2019) and triggers on-demand dialogue skills (e.g., emphatic response, weather information, movie recommendation) via different adapters (Houlsby et al., 2019). Each adapter can be trained independently, thus allowing a continual integration of skills without retraining the entire model. Depending on the skills, the model is able to process multiple knowledge types, such as text, tables, and graphs, in a seamless manner. The dialogue skills can be triggered automatically via a dialogue manager, or manually, thus allowing high-level control of the generated responses. At the current stage, we have implemented 12 response styles (e.g., positive, negative etc.), 8 goal-oriented skills (e.g. weather information, movie recommendation, etc.), and personalized and emphatic responses. We evaluate our model using automatic evaluation by comparing it with existing state-of-the-art conversational models, and we have released an interactive system at adapter.bot.ust.hk.
翻訳日:2022-10-24 01:20:24 公開日:2020-10-21
# 非凸非平滑正規化学習における有効近似法

Effective Proximal Methods for Non-convex Non-smooth Regularized Learning ( http://arxiv.org/abs/2009.06562v3 )

ライセンス: Link先を確認
Guannan Liang, Qianqian Tong, Jiahao Ding, Miao Pan and Jinbo Bi(参考訳) スパース学習は,高次元データから有用な情報やパターンを抽出するための非常に重要なツールである。 非凸非滑らかな正規化学習問題はスパース学習において重要な役割を担い、近年広く注目を集めている。 非凸および非滑らかな正則化器による経験的リスク最小化問題を解決するために任意のサンプリングを適用して確率的近位勾配法群を設計する。 これらの手法は確率勾配を計算する際に任意の確率分布に従って学習例のミニバッチを描画する。 これらの手法の収束と計算の複雑さを調べるために, 統一的な解析手法が開発され, 異なるサンプリング方式の比較が可能となった。 独立サンプリング方式は, 一般的な一様サンプリング方式よりも性能が向上する傾向を示した。 我々の新しい分析は、一様サンプリングの収束速度が今までで最高のものよりも強いことをもたらしている。 経験的評価は,提案手法が最先端技術よりも高速に収束することを示す。

Sparse learning is a very important tool for mining useful information and patterns from high dimensional data. Non-convex non-smooth regularized learning problems play essential roles in sparse learning, and have drawn extensive attentions recently. We design a family of stochastic proximal gradient methods by applying arbitrary sampling to solve the empirical risk minimization problem with a non-convex and non-smooth regularizer. These methods draw mini-batches of training examples according to an arbitrary probability distribution when computing stochastic gradients. A unified analytic approach is developed to examine the convergence and computational complexity of these methods, allowing us to compare the different sampling schemes. We show that the independent sampling scheme tends to improve performance over the commonly-used uniform sampling scheme. Our new analysis also derives a tighter bound on convergence speed for the uniform sampling than the best one available so far. Empirical evaluations demonstrate that the proposed algorithms converge faster than the state of the art.
翻訳日:2022-10-18 11:39:48 公開日:2020-10-21
# ハードウェア要件の少ないresnetライクなアーキテクチャ

ResNet-like Architecture with Low Hardware Requirements ( http://arxiv.org/abs/2009.07190v2 )

ライセンス: Link先を確認
Elena Limonova, Daniil Alfonso, Dmitry Nikolaev, Vladimir V. Arlazarov(参考訳) 現代の認識システムにおいて最も計算集約的な部分の1つは、画像分類、セグメンテーション、エンハンスメント、認識に使用されるディープニューラルネットワークの推論である。 エッジコンピューティングの人気が高まる中、モバイルや組み込みデバイスに費やす時間を短縮する方法を模索しています。 ニューラルネットワークの推論時間を短縮する1つの方法は、特定のデバイスでの計算をより効率的にするために、ニューロンモデルを変更することである。 そのようなモデルの例は双極性形態ニューロンモデルである。 バイポーラモルフォロジーニューロンは、乗法を加算演算と最大演算に置き換えるという考えに基づいている。 このモデルは、lenet-like architectures [1] による単純な画像分類のために実証されている。 本稿では,より複雑なresnetアーキテクチャから得られたバイポーラモルフォロジーresnet(bm-resnet)モデルを,その層をバイポーラモルフォロジーに変換して紹介する。 bm-resnetをmnistとcifar-10のデータセットの画像分類に適用し、精度は99.3%から99.1%、85.3%から85.1%に低下した。 また,結果モデルの計算複雑性を推定する。 resnet層の大部分では、実装に2.1-2.9倍のロジックゲートと15-30%のレイテンシーが要求される。

One of the most computationally intensive parts in modern recognition systems is an inference of deep neural networks that are used for image classification, segmentation, enhancement, and recognition. The growing popularity of edge computing makes us look for ways to reduce its time for mobile and embedded devices. One way to decrease the neural network inference time is to modify a neuron model to make it moreefficient for computations on a specific device. The example ofsuch a model is a bipolar morphological neuron model. The bipolar morphological neuron is based on the idea of replacing multiplication with addition and maximum operations. This model has been demonstrated for simple image classification with LeNet-like architectures [1]. In the paper, we introduce a bipolar morphological ResNet (BM-ResNet) model obtained from a much more complex ResNet architecture by converting its layers to bipolar morphological ones. We apply BM-ResNet to image classification on MNIST and CIFAR-10 datasets with only a moderate accuracy decrease from 99.3% to 99.1% and from 85.3% to 85.1%. We also estimate the computational complexity of the resulting model. We show that for the majority of ResNet layers, the considered model requires 2.1-2.9 times fewer logic gates for implementation and 15-30% lower latency.
翻訳日:2022-10-18 06:24:04 公開日:2020-10-21
# ニューラルフェイクニュースに対するクロスモーダル非一貫性の検出

Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News ( http://arxiv.org/abs/2009.07698v5 )

ライセンス: Link先を確認
Reuben Tan, Bryan A. Plummer, Kate Saenko(参考訳) 一般市民を誤解または欺くことを意図したオンラインの大規模な偽情報の拡散は、社会的な大きな問題である。 画像,映像,自然言語生成モデルの急速な進歩は,この状況を悪化させ,効果的な防御機構の必要性を増した。 ニューラルフェイクニュースに対する既存のアプローチは提案されているが、記事がタイトルや著者のようなテキストやメタデータしか持たない非常に限られた設定に制限されている。 本稿では,画像やキャプションを含む機械生成ニュースに対して,より現実的で挑戦的なタスクを提案する。 敵が悪用する可能性のある弱点を特定するために、4種類の異なる生成記事からなるneuralnewsデータセットを作成し、このデータセットに基づいて一連のヒューマンユーザスタディ実験を行う。 ユーザの学習実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチが提案されている。

Large-scale dissemination of disinformation online intended to mislead or deceive the general population is a major societal problem. Rapid progression in image, video, and natural language generative models has only exacerbated this situation and intensified our need for an effective defense mechanism. While existing approaches have been proposed to defend against neural fake news, they are generally constrained to the very limited setting where articles only have text and metadata such as the title and authors. In this paper, we introduce the more realistic and challenging task of defending against machine-generated news that also includes images and captions. To identify the possible weaknesses that adversaries can exploit, we create a NeuralNews dataset composed of 4 different types of generated articles as well as conduct a series of human user study experiments based on this dataset. In addition to the valuable insights gleaned from our user study experiments, we provide a relatively effective approach based on detecting visual-semantic inconsistencies, which will serve as an effective first line of defense and a useful reference for future work in defending against machine-generated disinformation.
翻訳日:2022-10-17 22:44:03 公開日:2020-10-21
# メタヒューリスティック検索における局所最適解法

Exploiting Local Optimality in Metaheuristic Search ( http://arxiv.org/abs/2010.05394v3 )

ライセンス: Link先を確認
Fred Glover(参考訳) メタヒューリスティック検索における局所最適性を克服するための様々な戦略が提案されている。 本稿では,局所最適から離れて新たな局所最適へ導くステップについて,適切な判断を下すために活用できる移動の特性について検討する。 我々は,アダプティブメモリメタヒューリスティックを用いて,ソリューションヒストリーの有用な特徴を識別し,活用するための戦略を導入し,局所視能の向上を期待する動きを選択するためのルールを提供する。 提案手法は指数外挿と呼ばれる構成に基づく新しいタイプの適応メモリを用いる。 メモリはしきい値の不等式によって動作し、選択された動きが、最近遭遇したローカルオプティマの指定された回数に繋がらない。 関連するしきい値は、指数外挿の概念をさらに活用する選択規則戦略に具体化されている。 これらのアルゴリズムはしきい値に基づく Alternating Ascent (AA) アルゴリズムを生成し、探索のための様々な研究可能性を開く。

A variety of strategies have been proposed for overcoming local optimality in metaheuristic search. This paper examines characteristics of moves that can be exploited to make good decisions about steps that lead away from a local optimum and then lead toward a new local optimum. We introduce strategies to identify and take advantage of useful features of solution history with an adaptive memory metaheuristic, to provide rules for selecting moves that offer promise for discovering improved local optima. Our approach uses a new type of adaptive memory based on a construction called exponential extrapolation. The memory operates by means of threshold inequalities that ensure selected moves will not lead to a specified number of most recently encountered local optima. Associated thresholds are embodied in choice rule strategies that further exploit the exponential extrapolation concept. Together these produce a threshold based Alternating Ascent (AA) algorithm that opens a variety of research possibilities for exploration.
翻訳日:2022-10-08 07:07:55 公開日:2020-10-21
# CNN分類を用いた軽量IoTマルウェア検出ソリューション

Lightweight IoT Malware Detection Solution Using CNN Classification ( http://arxiv.org/abs/2010.06286v2 )

ライセンス: Link先を確認
Ahmad M.N. Zaza, Suleiman K. Kharroub, Khalid Abualsaud(参考訳) IoT(Internet of Things)は、接続デバイスの数の増加に伴い、より多くのアプリケーションで頻繁に使用されている。 より接続されたデバイスはスケーラビリティ、保守性、特に5Gネットワークにおいて最も重要なセキュリティという面で大きな課題をもたらす。 IoTデバイスのセキュリティ面は幼児の分野です。 複数のIoTデバイスメーカーは、コスト削減や省エネコンポーネントの使用回避など、さまざまな理由からデバイスをセキュアにすることを考えていない。 このような悪意のあるデバイスは、敵が複数の有害な攻撃を行うために悪用される可能性がある。 そこで我々は,ネットワーク上の特定のIoTノードの悪意ある動作を認識するシステムを開発した。 畳み込みニューラルネットワークと監視により、ネットワーク内にインストール可能な中央ノードを使用して、IoTのマルウェア検出が可能になった。 この成果は、ディープラーニング技術に関するスティグマをクリアしながら、そのようなモデルを一般化し、任意のネットワークに容易に適用する方法を示している。

Internet of Things (IoT) is becoming more frequently used in more applications as the number of connected devices is in a rapid increase. More connected devices result in bigger challenges in terms of scalability, maintainability and most importantly security especially when it comes to 5G networks. The security aspect of IoT devices is an infant field, which is why it is our focus in this paper. Multiple IoT device manufacturers do not consider securing the devices they produce for different reasons like cost reduction or to avoid using energy-harvesting components. Such potentially malicious devices might be exploited by the adversary to do multiple harmful attacks. Therefore, we developed a system that can recognize malicious behavior of a specific IoT node on the network. Through convolutional neural network and monitoring, we were able to provide malware detection for IoT using a central node that can be installed within the network. The achievement shows how such models can be generalized and applied easily to any network while clearing out any stigma regarding deep learning techniques.
翻訳日:2022-10-08 00:51:26 公開日:2020-10-21
# Frank-Wolfeによるディープニューラルネットワークトレーニング

Deep Neural Network Training with Frank-Wolfe ( http://arxiv.org/abs/2010.07243v2 )

ライセンス: Link先を確認
Sebastian Pokutta and Christoph Spiegel and Max Zimmer(参考訳) 本稿では,制約パラメータを用いたニューラルネットワークの学習のための条件勾配法(Frank-Wolfe法)として,プロジェクションフリーな一階法を用いる経験的効果とメリットについて検討する。 本研究では,現状の確率的勾配降下法と,確率的条件付き勾配の異なる変種の比較を行った。 特に,Frank-Wolfe アルゴリズムを用いて,パラメータが凸可能な領域で制約されたニューラルネットワークを訓練し,確率的変動を比較できる可能性を示す。 次に,適切な領域を選択することで,l^2$-regularization に依拠し,制約のない確率的勾配降下と最先端結果の一致よりも高い性能が得られることを示す。 最後に、パフォーマンスに影響を与えるだけでなく、制約の特定の選択が学習した表現に劇的な影響を与えることも示します。

This paper studies the empirical efficacy and benefits of using projection-free first-order methods in the form of Conditional Gradients, a.k.a. Frank-Wolfe methods, for training Neural Networks with constrained parameters. We draw comparisons both to current state-of-the-art stochastic Gradient Descent methods as well as across different variants of stochastic Conditional Gradients. In particular, we show the general feasibility of training Neural Networks whose parameters are constrained by a convex feasible region using Frank-Wolfe algorithms and compare different stochastic variants. We then show that, by choosing an appropriate region, one can achieve performance exceeding that of unconstrained stochastic Gradient Descent and matching state-of-the-art results relying on $L^2$-regularization. Lastly, we also demonstrate that, besides impacting performance, the particular choice of constraints can have a drastic impact on the learned representations.
翻訳日:2022-10-07 14:31:25 公開日:2020-10-21
# 組み込み機械学習を用いたクローズドループニューラルインタフェース

Closed-Loop Neural Interfaces with Embedded Machine Learning ( http://arxiv.org/abs/2010.09457v2 )

ライセンス: Link先を確認
Bingzhao Zhu, Uisub Shin, Mahsa Shoaran(参考訳) 神経疾患の診断と治療には,多地点電気記録,オンサイト信号分類,クローズドループ療法が可能な神経インターフェイスが重要である。 しかしながら、低消費電力のニューラルネットワークデバイスに機械学習アルゴリズムをデプロイすることは、そのようなデバイスに対する計算とメモリリソースの厳しい制約を考えると、難しい。 本稿では、ニューラルネットワークに機械学習を組み込むことの最近の進歩を概観し、設計トレードオフとハードウェア効率に焦点をあてる。 また,脳インプラントにおける神経信号の低消費電力・メモリ効率分類のための木モデルを提案する。 エネルギーアウェア学習とモデル圧縮を用いて,提案する斜め木は,入力や振れ検出,モータデコードといった従来の機械学習モデルよりも優れることを示す。

Neural interfaces capable of multi-site electrical recording, on-site signal classification, and closed-loop therapy are critical for the diagnosis and treatment of neurological disorders. However, deploying machine learning algorithms on low-power neural devices is challenging, given the tight constraints on computational and memory resources for such devices. In this paper, we review the recent developments in embedding machine learning in neural interfaces, with a focus on design trade-offs and hardware efficiency. We also present our optimized tree-based model for low-power and memory-efficient classification of neural signal in brain implants. Using energy-aware learning and model compression, we show that the proposed oblique trees can outperform conventional machine learning models in applications such as seizure or tremor detection and motor decoding.
翻訳日:2022-10-07 05:29:15 公開日:2020-10-21
# NeRF++: ニューラルラジアンスフィールドの解析と改善

NeRF++: Analyzing and Improving Neural Radiance Fields ( http://arxiv.org/abs/2010.07492v2 )

ライセンス: Link先を確認
Kai Zhang, Gernot Riegler, Noah Snavely, Vladlen Koltun(参考訳) ニューラルレージアンス・フィールド(NeRF)は、有界シーンの360度撮影や、有界シーンと非有界シーンの前方撮影など、様々なキャプチャ設定のための印象的なビュー合成結果を達成する。 NeRFは、ビュー不変不透明度とビュー依存カラーボリュームを表す多層パーセプトロン(MLP)をトレーニング画像のセットに適合させ、ボリュームレンダリング技術に基づいた新しいビューをサンプリングする。 本報告では,放射場とその潜在曖昧性,すなわち形状照度曖昧性について最初に述べるとともに,そのような曖昧さを避けるためのnrfの成功を分析する。 第2に,大規模な非有界3Dシーンにおける物体の360度捕獲にNeRFを適用する際のパラメトリゼーション問題に対処する。 本手法は,この難解なシナリオにおけるビュー合成忠実度を向上させる。 コードはhttps://github.com/kai-46/nerfplusplusで入手できる。

Neural Radiance Fields (NeRF) achieve impressive view synthesis results for a variety of capture settings, including 360 capture of bounded scenes and forward-facing capture of bounded and unbounded scenes. NeRF fits multi-layer perceptrons (MLPs) representing view-invariant opacity and view-dependent color volumes to a set of training images, and samples novel views based on volume rendering techniques. In this technical report, we first remark on radiance fields and their potential ambiguities, namely the shape-radiance ambiguity, and analyze NeRF's success in avoiding such ambiguities. Second, we address a parametrization issue involved in applying NeRF to 360 captures of objects within large-scale, unbounded 3D scenes. Our method improves view synthesis fidelity in this challenging scenario. Code is available at https://github.com/Kai-46/nerfplusplus.
翻訳日:2022-10-07 04:10:37 公開日:2020-10-21
# 非定常データを用いたオンラインレコメンデーションシステムのための適応的疎密パラダイム

Adaptive Dense-to-Sparse Paradigm for Pruning Online Recommendation System with Non-Stationary Data ( http://arxiv.org/abs/2010.08655v2 )

ライセンス: Link先を確認
Mao Ye, Dhruv Choudhary, Jiecao Yu, Ellie Wen, Zeliang Chen, Jiyan Yang, Jongsoo Park, Qiang Liu, Arun Kejariwal(参考訳) 大規模ディープラーニングは、より広いモデルとより深いモデルの両方を採用することによって、コンテンツレコメンデーションシステムの品質を改善するための大きな機会を提供する。 プルーニングは、モデル推論のメモリと計算要求の両方を削減する効果的な手法である。 しかし、オンラインレコメンデーションシステムのプルーニングは、連続的なデータ分散シフト(すなわち非定常データ)のために困難である。 モデル全体のインクリメンタルトレーニングは、非定常データに適応することができるが、刈り取られたモデルに直接適用すると、精度が低下する。 これは、刈り取り後のスパーシティパターンが新しいパターンを学ぶために調整を必要とするためである。 我々の知る限りでは、非定常データ配信を伴うオンラインレコメンデーションシステムにプルーニングを適用するための詳細な分析と議論を行うための最初の成果である。 全体として、この研究は以下の貢献をしている。 1)非定常データ分散を伴う大規模レコメンデーションシステムを構築するための新しいプルーニングアルゴリズムを備えた適応的高密度・スパースパラダイムを提案する。 2) 非定常データで訓練されたレコメンデーションシステムの異種アーキテクチャを抽出するためには,ハンドチューニングの繰り返しを避けるために,階層間の間隔を自動的に学習するプルーニングアルゴリズムを設計する。

Large scale deep learning provides a tremendous opportunity to improve the quality of content recommendation systems by employing both wider and deeper models, but this comes at great infrastructural cost and carbon footprint in modern data centers. Pruning is an effective technique that reduces both memory and compute demand for model inference. However, pruning for online recommendation systems is challenging due to the continuous data distribution shift (a.k.a non-stationary data). Although incremental training on the full model is able to adapt to the non-stationary data, directly applying it on the pruned model leads to accuracy loss. This is because the sparsity pattern after pruning requires adjustment to learn new patterns. To the best of our knowledge, this is the first work to provide in-depth analysis and discussion of applying pruning to online recommendation systems with non-stationary data distribution. Overall, this work makes the following contributions: 1) We present an adaptive dense to sparse paradigm equipped with a novel pruning algorithm for pruning a large scale recommendation system with non-stationary data distribution; 2) We design the pruning algorithm to automatically learn the sparsity across layers to avoid repeating hand-tuning, which is critical for pruning the heterogeneous architectures of recommendation systems trained with non-stationary data.
翻訳日:2022-10-06 21:42:15 公開日:2020-10-21
# 群衆シーンの映像におけるポーズ追跡のための簡易ベースライン

A Simple Baseline for Pose Tracking in Videos of Crowded Scenes ( http://arxiv.org/abs/2010.10007v2 )

ライセンス: Link先を確認
Li Yuan, Shuning Chang, Ziyuan Huang, Yichen Zhou, Yunpeng Chen, Xuecheng Nie, Francis E.H. Tay, Jiashi Feng, Shuicheng Yan(参考訳) 本稿では,ACM MMの課題に対する解決策について述べる。 複合イベントにおける大規模人間中心ビデオ分析。 近年,多地点訓練において著しい進歩がみられた。 しかし、混み合った複雑な環境で人間のポーズを追跡する方法は、うまく解決されていない。 問題を解くためのいくつかのサブプロブレムとして定式化する。 まず,検出モデルにより生成された各境界ボックスに人体IDを割り当てる多目的追跡手法を提案する。 その後、各バウンディングボックスにIDでポーズが生成される。 最終的に、ビデオ中の時間情報を利用して、最終的なポーズ追跡結果を生成するために光学フローが使用される。

This paper presents our solution to ACM MM challenge: Large-scale Human-centric Video Analysis in Complex Events\cite{lin2020human}; specifically, here we focus on Track3: Crowd Pose Tracking in Complex Events. Remarkable progress has been made in multi-pose training in recent years. However, how to track the human pose in crowded and complex environments has not been well addressed. We formulate the problem as several subproblems to be solved. First, we use a multi-object tracking method to assign human ID to each bounding box generated by the detection model. After that, a pose is generated to each bounding box with ID. At last, optical flow is used to take advantage of the temporal information in the videos and generate the final pose tracking result.
翻訳日:2022-10-06 21:33:05 公開日:2020-10-21
# 群衆シーンの映像における正確な人文推定に向けて

Towards Accurate Human Pose Estimation in Videos of Crowded Scenes ( http://arxiv.org/abs/2010.10008v2 )

ライセンス: Link先を確認
Li Yuan, Shuning Chang, Xuecheng Nie, Ziyuan Huang, Yichen Zhou, Yunpeng Chen, Jiashi Feng, Shuicheng Yan(参考訳) 混み合った場面における映像に基づく人物ポーズ推定は, 咬合, 動きのぼやき, スケール変化, 視点変化などにより困難な課題である。 事前のアプローチは,(1)時間情報の使用不足,(2)混み合った場面でのトレーニングデータの欠如,などの理由から,常にこの問題に対処できない。 本稿では,時間的文脈の活用と新たなデータ収集の観点から,混雑シーンの映像における人間のポーズ推定の改善に焦点をあてる。 特に、まずトップダウン戦略に従って人物を検出し、フレーム毎に一人称ポーズ推定を行う。 次に, フレームに基づくポーズ推定を, 光フローから派生した時間的文脈で洗練する。 具体的には,1つのフレームに対して,前フレームから過去のポーズを転送し,後続フレームから現在のフレームへ未来的なポーズを転送し,安定して正確な人間のポーズ推定を行う。 さらに、トレーニングセットの多様性を改善するために、インターネットからhieデータセットに類似したシーンの新しいデータを発掘する。 このように、このモデルは、hie challengeのテストデータセットにおいて、13ビデオ中7本と平均56.33本のw\_apで最高のパフォーマンスを達成します。

Video-based human pose estimation in crowded scenes is a challenging problem due to occlusion, motion blur, scale variation and viewpoint change, etc. Prior approaches always fail to deal with this problem because of (1) lacking of usage of temporal information; (2) lacking of training data in crowded scenes. In this paper, we focus on improving human pose estimation in videos of crowded scenes from the perspectives of exploiting temporal context and collecting new data. In particular, we first follow the top-down strategy to detect persons and perform single-person pose estimation for each frame. Then, we refine the frame-based pose estimation with temporal contexts deriving from the optical-flow. Specifically, for one frame, we forward the historical poses from the previous frames and backward the future poses from the subsequent frames to current frame, leading to stable and accurate human pose estimation in videos. In addition, we mine new data of similar scenes to HIE dataset from the Internet for improving the diversity of training set. In this way, our model achieves best performance on 7 out of 13 videos and 56.33 average w\_AP on test dataset of HIE challenge.
翻訳日:2022-10-06 21:32:52 公開日:2020-10-21
# 単層グラフニューラルネットワークの識別性

Discriminability of Single-Layer Graph Neural Networks ( http://arxiv.org/abs/2010.08847v2 )

ライセンス: Link先を確認
Samuel Pfrommer, Fernando Gama, Alejandro Ribeiro(参考訳) ネットワークデータはグラフ信号として便利にモデル化され、基礎となるネットワークトポロジを記述するグラフのノードにデータ値が割り当てられる。 ネットワークデータからの学習の成功には、このグラフ構造を効果的に活用する手法が必要である。 グラフニューラルネットワーク(GNN)はそのような手法の一つを提供し、幅広い問題に対して有望な性能を示した。 GNNがなぜ機能するのかを理解することは、特に物理ネットワークを含むアプリケーションにおいて最重要となる。 本稿では, 識別可能性の特性に着目し, 安定グラフフィルタバンクへのポイントワイド非線形性の適用により, 高固有値コンテンツに対する識別能力が向上する条件を確立する。 アーキテクチャの安定性に結びついた識別可能性の概念を定義し、gnnが少なくとも線形グラフフィルタバンクと同じくらい識別可能であることを示し、どちらも判別できない信号を特徴付ける。

Network data can be conveniently modeled as a graph signal, where data values are assigned to the nodes of a graph describing the underlying network topology. Successful learning from network data requires methods that effectively exploit this graph structure. Graph neural networks (GNNs) provide one such method and have exhibited promising performance on a wide range of problems. Understanding why GNNs work is of paramount importance, particularly in applications involving physical networks. We focus on the property of discriminability and establish conditions under which the inclusion of pointwise nonlinearities to a stable graph filter bank leads to an increased discriminative capacity for high-eigenvalue content. We define a notion of discriminability tied to the stability of the architecture, show that GNNs are at least as discriminative as linear graph filter banks, and characterize the signals that cannot be discriminated by either.
翻訳日:2022-10-06 11:37:45 公開日:2020-10-21
# オンライン-オフライン広告のフィールド実験

Online-to-Offline Advertisements as Field Experiments ( http://arxiv.org/abs/2010.09121v2 )

ライセンス: Link先を確認
Akira Matsui, Daisuke Moriwaki(参考訳) オンライン広告は、A/Bテストとの互換性を理由として、現在最も普及しているビジネス強化ツールの一つとなっている。 A/Bテストでは、広告クリエイティブやセグメンテーションのような効果的な広告戦略を見つけることができる。 広告の効果を最大化する手法を提案する研究がいくつかあるが、オンライン広告に招待された顧客のオフラインショッピング行動の理解が不十分である。 そこで本研究では,オンライン広告を受信した顧客と通常の顧客とのオフライン行動の違い(客がターゲット店を自発的に訪問すること)と,この違いの持続時間について検討する。 我々は31のa/bテストを通じて、約3000人のユーザのオフライン動作を2350万のロケーションレコードで分析した。 まず,広告のない客よりも広い範囲を横断する客の外部性を示し,その空間的差異はショッピングデーの数日後まで続く。 そして、この広告の外部性による長期的効果を見出し、オフライン店舗に招待された一部の顧客がこれらの店を再訪する。 最後に,この再訪効果に基づく機械学習モデルを用いて,再訪率を最大化するためのマーケティング戦略を提案する。 広告は、通常の顧客とは異なる行動特性を持つ顧客を惹きつけることを示唆している。 本研究は、企業における広告の効果を簡易に分析し、外部性を考慮した分析は、潜在的に価値ある顧客を引き付ける可能性があることを示す。

Online advertisements have become one of today's most widely used tools for enhancing businesses partly because of their compatibility with A/B testing. A/B testing allows sellers to find effective advertisement strategies such as ad creatives or segmentations. Even though several studies propose a technique to maximize the effect of an advertisement, there is insufficient comprehension of the customers' offline shopping behavior invited by the online advertisements. Herein, we study the difference in offline behavior between customers who received online advertisements and regular customers (i.e., the customers visits the target shop voluntary), and the duration of this difference. We analyzed approximately three thousand users' offline behavior with their 23.5 million location records through 31 A/B testings. We first demonstrate the externality that customers with advertisements traverse larger areas than those without advertisements, and this spatial difference lasts several days after their shopping day. We then find a long-run effect of this externality of advertising that a certain portion of the customers invited to the offline shops revisit these shops. Finally, based on this revisit effect findings, we utilize a causal machine learning model to propose a marketing strategy to maximize the revisit ratio. Our results suggest that advertisements draw customers who have different behavior traits from regular customers. This study's findings demonstrate that a simple analysis may underrate the effects of advertisements on businesses, and an analysis considering externality can attract potentially valuable customers.
翻訳日:2022-10-06 04:46:20 公開日:2020-10-21
# JSRT: James-Stein 回帰ツリー

JSRT: James-Stein Regression Tree ( http://arxiv.org/abs/2010.09022v2 )

ライセンス: Link先を確認
Xingchun Xiang, Qingtao Tang, Huaixuan Zhang, Tao Dai, Jiawei Li, Shu-Tao Xia(参考訳) 回帰木(RT)は機械学習やデータマイニングのコミュニティで広く使われている。 予測対象データが与えられると、まず、各リーフノードの予測を行う前に、トレーニングデータセットに基づいて回帰木を構築する。 実際には、RTの性能は、ツリー構築/予測段階における個々のノードからのサンプルの局所的な平均に大きく依存する一方で、異なるノードからのグローバルな情報を無視し、重要な役割を果たす。 この問題に対処するため,異なるノードからのグローバル情報を考慮した新しい回帰木であるJames-Stein Regression Tree (JSRT)を提案する。 具体的には,構築/予測段階で異なるノードのジェームズ・スタイン推定値に基づくグローバル平均情報を取り込む。 さらに,平均二乗誤差(MSE)測定値を用いて,手法の一般化誤差を分析する。 公開ベンチマークデータセットに関する広範囲な実験により,提案手法の有効性と効率を検証し,他のrt予測手法よりも優れていることを示す。

Regression tree (RT) has been widely used in machine learning and data mining community. Given a target data for prediction, a regression tree is first constructed based on a training dataset before making prediction for each leaf node. In practice, the performance of RT relies heavily on the local mean of samples from an individual node during the tree construction/prediction stage, while neglecting the global information from different nodes, which also plays an important role. To address this issue, we propose a novel regression tree, named James-Stein Regression Tree (JSRT) by considering global information from different nodes. Specifically, we incorporate the global mean information based on James-Stein estimator from different nodes during the construction/predicton stage. Besides, we analyze the generalization error of our method under the mean square error (MSE) metric. Extensive experiments on public benchmark datasets verify the effectiveness and efficiency of our method, and demonstrate the superiority of our method over other RT prediction methods.
翻訳日:2022-10-06 03:57:12 公開日:2020-10-21
# Newtonian Blurringの紹介と適用: Braingraph.orgで12万6000個の人間結合体のデータ集合

Introducing and Applying Newtonian Blurring: An Augmented Dataset of 126,000 Human Connectomes at braingraph.org ( http://arxiv.org/abs/2010.09568v3 )

ライセンス: Link先を確認
Laszlo Keresztes and Evelin Szogi and Balint Varga and Vince Grolmusz(参考訳) ガウスのぼかしは画像データ拡張のための確立された方法であり、人工知能(AI)アプリケーションのためのトレーニングとテストのために、小さな画像セットから大量の画像を生成することができる。 非イメージライクな生物学的データにAIを適用する場合、関連する手法はほとんど存在しない。 1053人の被験者のデータセットから始め、まず、異なる脳領域の接続を記述するための確率的重み付けされた脳グラフ構築アルゴリズムを10回繰り返し、可能であれば7回繰り返し、下側と上側の極端を削除し、各被験者のデータに対する残りの7-2=5のエッジウェイトを平均化する。 このようにして 1053 グラフセットを 120 x 1053 = 126,360 グラフに拡張する。 拡張技術では、データセットに人工的な追加を導入するべきではないことが重要な要件である。 ガウスのぼかしとニュートンのぼかしはこの目標を満たす。 126,360グラフのデータセット(合計631,800グラフ)は、https://braingraph.org/cms/download-pit-group-connectomes/で自由に入手できる。 ニュートンのぼかしによる拡張は、確率的処理とデータ平均化を実装する他の非画像関連分野にも適用できる。

Gaussian blurring is a well-established method for image data augmentation: it may generate a large set of images from a small set of pictures for training and testing purposes for Artificial Intelligence (AI) applications. When we apply AI for non-imagelike biological data, hardly any related method exists. Here we introduce the "Newtonian blurring" in human braingraph (or connectome) augmentation: Started from a dataset of 1053 subjects, we first repeat a probabilistic weighted braingraph construction algorithm 10 times for describing the connections of distinct cerebral areas, then take 7 repetitions in every possible way, delete the lower and upper extremes, and average the remaining 7-2=5 edge-weights for the data of each subject. This way we augment the 1053 graph-set to 120 x 1053 = 126,360 graphs. In augmentation techniques, it is an important requirement that no artificial additions should be introduced into the dataset. Gaussian blurring and also this Newtonian blurring satisfy this goal. The resulting dataset of 126,360 graphs, each in 5 resolutions (i.e., 631,800 graphs in total), is freely available at the site https://braingraph.org/cms/download-pit-group-connectomes/. Augmenting with Newtonian blurring may also be applicable in other non-image related fields, where probabilistic processing and data averaging are implemented.
翻訳日:2022-10-05 22:42:05 公開日:2020-10-21
# L-RED:訓練セットにアクセスできない非受容性バックドア攻撃の検出

L-RED: Efficient Post-Training Detection of Imperceptible Backdoor Attacks without Access to the Training Set ( http://arxiv.org/abs/2010.09987v2 )

ライセンス: Link先を確認
Zhen Xiang, David J. Miller, George Kesidis(参考訳) バックドアアタック(BA)は、一般的にディープニューラルネットワークイメージ分類器に対する敵攻撃の新たな形態である。 攻撃者は、1つ以上のソースクラスからのテストイメージにバックドアパターンが含まれており、クリーンなテストイメージに対して高い精度を維持しながら、ターゲットクラスへの分類を学習させることを目指している。 BAに対するリバースエンジニアリングベースのディフェンス(RED)は、トレーニングセットへのアクセスを必要とせず、独立したクリーンデータセットにのみアクセスする。 残念ながら、既存のREDのほとんどは、ターゲットクラスを除くすべてのクラスが攻撃のソースクラスであるという非現実的な仮定に依存しています。 この仮定に依存しないREDは、しばしば大量のクリーンなイメージと重い計算を必要とする。 本稿では,ソースクラス数(または攻撃の有無)の知識を必要としないラグランジアンベースの赤 (l-red) を提案する。 我々の防御は、BAを効果的に検出するクリーンなイメージをほとんど必要とせず、計算的に効率的である。 特に,cifar-10実験では,クラス毎に2つのクリーンイメージのみを用いて60のbas中56を検出できた。

Backdoor attacks (BAs) are an emerging form of adversarial attack typically against deep neural network image classifiers. The attacker aims to have the classifier learn to classify to a target class when test images from one or more source classes contain a backdoor pattern, while maintaining high accuracy on all clean test images. Reverse-Engineering-based Defenses (REDs) against BAs do not require access to the training set but only to an independent clean dataset. Unfortunately, most existing REDs rely on an unrealistic assumption that all classes except the target class are source classes of the attack. REDs that do not rely on this assumption often require a large set of clean images and heavy computation. In this paper, we propose a Lagrangian-based RED (L-RED) that does not require knowledge of the number of source classes (or whether an attack is present). Our defense requires very few clean images to effectively detect BAs and is computationally efficient. Notably, we detect 56 out of 60 BAs using only two clean images per class in our experiments on CIFAR-10.
翻訳日:2022-10-05 06:29:46 公開日:2020-10-21
# ConjNLI: 接続文に対する自然言語推論

ConjNLI: Natural Language Inference Over Conjunctive Sentences ( http://arxiv.org/abs/2010.10418v2 )

ライセンス: Link先を確認
Swarnadeep Saha, Yixin Nie, Mohit Bansal(参考訳) 接続文における接続に関する推論は、英語における結合の深い理解、およびそれらの使用法と意味が結合論理と解離ブール論理とどのように異なるかを理解するために重要である。 既存のnliストレステストでは、結合の非boolean使用を考慮せず、モデル知識をテストするためのテンプレートを使用する。 そこで,ConjNLIは,接続文に対する自然言語推論の挑戦的ストレステストであり,その前提は接続文の削除,追加,置換による仮説と異なる。 これらの文は、量化器、否定器、および様々なブールおよび非ブール推論を必要とする結合(and, "or", "but", "nor")を調整した単一および複数例を含む。 RoBERTaのような大規模事前学習型言語モデルでは、接続意味論をうまく理解できず、浅いヒューリスティックスを用いてそのような文を推測する。 まず,boolean と non-boolean のヒューリスティックに基づく合成学習データを用いた反復的逆微調整法を提案する。 また,RoBERTaにセマンティックな役割を意識させることにより,直接モデルの発展を提案する。 いくつかのパフォーマンス向上を観察する一方で、ConjNLIは現在のメソッドでは依然として困難です。 私たちのデータとコードは、https://github.com/swarnaHub/ConjNLIで公開されています。

Reasoning about conjuncts in conjunctive sentences is important for a deeper understanding of conjunctions in English and also how their usages and semantics differ from conjunctive and disjunctive boolean logic. Existing NLI stress tests do not consider non-boolean usages of conjunctions and use templates for testing such model knowledge. Hence, we introduce ConjNLI, a challenge stress-test for natural language inference over conjunctive sentences, where the premise differs from the hypothesis by conjuncts removed, added, or replaced. These sentences contain single and multiple instances of coordinating conjunctions ("and", "or", "but", "nor") with quantifiers, negations, and requiring diverse boolean and non-boolean inferences over conjuncts. We find that large-scale pre-trained language models like RoBERTa do not understand conjunctive semantics well and resort to shallow heuristics to make inferences over such sentences. As some initial solutions, we first present an iterative adversarial fine-tuning method that uses synthetically created training data based on boolean and non-boolean heuristics. We also propose a direct model advancement by making RoBERTa aware of predicate semantic roles. While we observe some performance gains, ConjNLI is still challenging for current methods, thus encouraging interesting future work for better understanding of conjunctions. Our data and code are publicly available at: https://github.com/swarnaHub/ConjNLI
翻訳日:2022-10-05 06:03:21 公開日:2020-10-21
# 自己適応学習による流速・低レイテンシ同時音声合成

Fluent and Low-latency Simultaneous Speech-to-Speech Translation with Self-adaptive Training ( http://arxiv.org/abs/2010.10048v2 )

ライセンス: Link先を確認
Renjie Zheng, Mingbo Ma, Baigong Zheng, Kaibo Liu, Jiahong Yuan, Kenneth Church, Liang Huang(参考訳) 音声と音声の同時翻訳は広く有用であるが、ソース音声と並行してターゲット言語音声を生成する必要があるため非常に難しい。 さらに、文のストリームを連続的に翻訳する必要があるが、最近のソリューションはすべて、シングルセンテンスシナリオにのみ焦点をあてている。 その結果、話者がより速く話すと、現在のアプローチは徐々に遅延を蓄積し、話者が遅く話すと、不自然な停止が発生する。 これらの課題を克服するために,異なるソース音声レートに対応するために,翻訳の長さを柔軟に調整する自己適応翻訳(sat)を提案する。 同様のレベルの翻訳品質(bleuによって測定される)では、zh <-> 方向の両方において、ベースラインよりもかなり低いレイテンシで(自然性メートル法mosで測定されるように)より流動的なターゲット音声を生成する。

Simultaneous speech-to-speech translation is widely useful but extremely challenging, since it needs to generate target-language speech concurrently with the source-language speech, with only a few seconds delay. In addition, it needs to continuously translate a stream of sentences, but all recent solutions merely focus on the single-sentence scenario. As a result, current approaches accumulate latencies progressively when the speaker talks faster, and introduce unnatural pauses when the speaker talks slower. To overcome these issues, we propose Self-Adaptive Translation (SAT) which flexibly adjusts the length of translations to accommodate different source speech rates. At similar levels of translation quality (as measured by BLEU), our method generates more fluent target speech (as measured by the naturalness metric MOS) with substantially lower latency than the baseline, in both Zh <-> En directions.
翻訳日:2022-10-05 05:52:15 公開日:2020-10-21
# エキゾチック超新星の多変量時系列の異常検出

Anomaly Detection for Multivariate Time Series of Exotic Supernovae ( http://arxiv.org/abs/2010.11194v1 )

ライセンス: Link先を確認
V. Ashley Villar, Miles Cranmer, Gabriella Contardo, Shirley Ho, Joshua Yao-Yu Lin(参考訳) 超新星は星の爆発的な死を示し、重い元素で宇宙を豊かにする。 将来の望遠鏡は、何千もの新しい超新星を夜のうちに発見する。 理想的には、このような異常検出パイプラインは現在の知識とは独立しており、予期せぬ現象に敏感である。 本稿では,過渡信号,多変量信号,非周期信号に対して,リアルタイムに異常時系列を探索する教師なし手法を提案する。 超新星時系列をエンコードするためにrnnベースの変分オートエンコーダと、学習されたエンコード空間における異常な事象を探索する分離フォレストを用いる。 この手法を12,159個の超新星のシミュレートデータセットに適用し、異常な超新星の発見に成功した。 この研究は、オンラインデータストリームで動作する最初の超新星の異常検出パイプラインである。

Supernovae mark the explosive deaths of stars and enrich the cosmos with heavy elements. Future telescopes will discover thousands of new supernovae nightly, creating a need to flag astrophysically interesting events rapidly for followup study. Ideally, such an anomaly detection pipeline would be independent of our current knowledge and be sensitive to unexpected phenomena. Here we present an unsupervised method to search for anomalous time series in real time for transient, multivariate, and aperiodic signals. We use a RNN-based variational autoencoder to encode supernova time series and an isolation forest to search for anomalous events in the learned encoded space. We apply this method to a simulated dataset of 12,159 supernovae, successfully discovering anomalous supernovae and objects with catastrophically incorrect redshift measurements. This work is the first anomaly detection pipeline for supernovae which works with online datastreams.
翻訳日:2022-10-05 01:20:25 公開日:2020-10-21
# テキストから音声への埋め込み学習

Learning Speaker Embedding from Text-to-Speech ( http://arxiv.org/abs/2010.11221v1 )

ライセンス: Link先を確認
Jaejin Cho, Piotr Zelasko, Jesus Villalba, Shinji Watanabe, Najim Dehak(参考訳) Zero-shot Multi-Speaker Text-to-Speech (TTS) は入力テキストと対応する話者埋め込みが与えられたターゲット話者音声を生成する。 本研究では,話者検証のための表現学習を改善するため,TTS再構成目標の有効性について検討する。 我々は,エンドツーエンドのTacotron 2 TTSと話者埋め込みネットワークを自己指導型で共同で訓練した。 ttsデコーダがテキスト入力からその情報を取得するため、埋め込みには最小の音声情報が含まれると仮定する。 TTS再構成は話者分類と組み合わせることで、これらの埋め込みをさらに強化することができる。 一度訓練すると、スピーカーエンコーダは話者検証タスクの表現を計算し、残りのttsブロックは破棄される。 マニュアルまたはasr生成転写物からのttの訓練について検討した。 後者では、手動の書き起こしなしでデータセットへの埋め込みをトレーニングできます。 ASR文字とKaldi電話のアライメントをTS入力として比較したところ,分解能が向上した。 教師なしTS埋め込みは、LibriTTSデータセットのi-vectorに関して、EERを2.06\%絶対的に改善した。 LibriTTSとVoxceleb1の話者分類損失のみを用いたモデルから、話者分類損失のTSSはEERを0.28\%、絶対0.73\%改善した。

Zero-shot multi-speaker Text-to-Speech (TTS) generates target speaker voices given an input text and the corresponding speaker embedding. In this work, we investigate the effectiveness of the TTS reconstruction objective to improve representation learning for speaker verification. We jointly trained end-to-end Tacotron 2 TTS and speaker embedding networks in a self-supervised fashion. We hypothesize that the embeddings will contain minimal phonetic information since the TTS decoder will obtain that information from the textual input. TTS reconstruction can also be combined with speaker classification to enhance these embeddings further. Once trained, the speaker encoder computes representations for the speaker verification task, while the rest of the TTS blocks are discarded. We investigated training TTS from either manual or ASR-generated transcripts. The latter allows us to train embeddings on datasets without manual transcripts. We compared ASR transcripts and Kaldi phone alignments as TTS inputs, showing that the latter performed better due to their finer resolution. Unsupervised TTS embeddings improved EER by 2.06\% absolute with regard to i-vectors for the LibriTTS dataset. TTS with speaker classification loss improved EER by 0.28\% and 0.73\% absolutely from a model using only speaker classification loss in LibriTTS and Voxceleb1 respectively.
翻訳日:2022-10-05 01:20:09 公開日:2020-10-21
# 不均一条件訓練における雑音ロバスト音声認識のための動的層カスタマイズ

Dynamic Layer Customization for Noise Robust Speech Emotion Recognition in Heterogeneous Condition Training ( http://arxiv.org/abs/2010.11226v1 )

ライセンス: Link先を確認
Alex Wilf, Emily Mower Provost(参考訳) 環境騒音に対するロバスト性は、現実世界に展開可能な自動音声認識システムを構築する上で重要である。 以前のノイズロバスト性の研究では、システムはサンプル・バイ・サンプルのトレーニングノイズ条件を使用しないか、あるいはノイズ条件を一般化するためにラベルなしのテストデータにアクセスすると仮定されていた。 我々は,これらの仮定を回避し,得られたタスクを不均質な条件トレーニングとして導入する。 テストノイズ条件を十分に知れば,各ノイズ条件の特定特徴エンコーダにサンプルを動的にルーティングすることで性能を向上させることができ,部分的知識では,既知の雑音条件とドメイン適応アルゴリズムを用いて,未知の雑音条件によく適応するシステムを訓練することができることを示す。 次に,時間的順序付けを動的にルーティングすることで,これらの改善をマルチモーダル・セッティングに拡張し,ノイズタイプに基づいた特殊化や一般化を行わないアプローチよりも大幅に改善する。

Robustness to environmental noise is important to creating automatic speech emotion recognition systems that are deployable in the real world. Prior work on noise robustness has assumed that systems would not make use of sample-by-sample training noise conditions, or that they would have access to unlabelled testing data to generalize across noise conditions. We avoid these assumptions and introduce the resulting task as heterogeneous condition training. We show that with full knowledge of the test noise conditions, we can improve performance by dynamically routing samples to specialized feature encoders for each noise condition, and with partial knowledge, we can use known noise conditions and domain adaptation algorithms to train systems that generalize well to unseen noise conditions. We then extend these improvements to the multimodal setting by dynamically routing samples to maintain temporal ordering, resulting in significant improvements over approaches that do not specialize or generalize based on noise type.
翻訳日:2022-10-05 01:19:49 公開日:2020-10-21
# 挑戦的地形における四足歩行の学習

Learning Quadrupedal Locomotion over Challenging Terrain ( http://arxiv.org/abs/2010.11251v1 )

ライセンス: Link先を確認
Joonho Lee, Jemin Hwangbo, Lorenz Wellhausen, Vladlen Koltun, and Marco Hutter(参考訳) 地球上で最も困難な環境のいくつかは四足歩行の動物にアクセスできるが、自律的な機械には及ばない。 足の移動はロボティクスの操作領域を劇的に拡張することができる。 しかし、従来の脚移動制御器は、運動プリミティブと反射の実行を明示的にトリガーする精巧な状態マシンに基づいている。 これらのデザインは、動物移動の一般性や堅牢性に欠ける一方で、複雑さが増している。 ここでは,自然環境に挑戦するレッグドロコモーションのための過激なロコモーション制御器を提案する。 そこで本研究では,運動制御に受容フィードバックを取り入れ,シミュレーションから自然環境への顕著なゼロショット一般化を示す。 コントローラはシミュレーションで強化学習によって訓練される。 これは、固有受容信号の流れに作用するニューラルネットワークに基づいている。 トレーニングされたコントローラーは、四足歩行ロボットの2世代を、前回公開された脚歩行の作業の範囲を超えている様々な自然環境に持ち込んだ。 コントローラーは、泥や雪のような変形可能な地形、瓦のようなダイナミックな足場、厚い植生や地下水のような地上の障害など、訓練中に遭遇したことのない条件下で頑丈さを維持している。 この研究はロボット工学の新しいフロンティアを開き、より単純な領域でトレーニングすることで、自然環境における過激な堅牢性を達成することができることを示した。

Some of the most challenging environments on our planet are accessible to quadrupedal animals but remain out of reach for autonomous machines. Legged locomotion can dramatically expand the operational domains of robotics. However, conventional controllers for legged locomotion are based on elaborate state machines that explicitly trigger the execution of motion primitives and reflexes. These designs have escalated in complexity while falling short of the generality and robustness of animal locomotion. Here we present a radically robust controller for legged locomotion in challenging natural environments. We present a novel solution to incorporating proprioceptive feedback in locomotion control and demonstrate remarkable zero-shot generalization from simulation to natural environments. The controller is trained by reinforcement learning in simulation. It is based on a neural network that acts on a stream of proprioceptive signals. The trained controller has taken two generations of quadrupedal ANYmal robots to a variety of natural environments that are beyond the reach of prior published work in legged locomotion. The controller retains its robustness under conditions that have never been encountered during training: deformable terrain such as mud and snow, dynamic footholds such as rubble, and overground impediments such as thick vegetation and gushing water. The presented work opens new frontiers for robotics and indicates that radical robustness in natural environments can be achieved by training in much simpler domains.
翻訳日:2022-10-05 01:19:33 公開日:2020-10-21
# 位相変化記憶を有する音声コマンドの超低消費電力オンチップ学習

Ultra-low power on-chip learning of speech commands with phase-change memories ( http://arxiv.org/abs/2010.11741v1 )

ライセンス: Link先を確認
Venkata Pavan Kumar Miriyala, Masatoshi Ishii(参考訳) エッジ(エッジAI)に人工知能を組み込むことは、急速に拡大するモノのインターネットにおけるパワーとレイテンシの問題に取り組むためのエレガントなソリューションです。 エッジデバイスは一般的に、ほとんどの時間をスリープモードに費やし、センサーデータの収集と処理に頻繁に起きるだけなので、次世代のエッジAIデバイスを設計する上では、非揮発性インメモリコンピューティング(NVIMC)が有望なアプローチである。 近年,NVIMCをベースとした相変化記憶(PCM)を用いたニューロモルフィック・アクセラレーターを提案し,これをRavenと呼ぶ。 本稿では,ravenを用いた超低消費電力オンチップ学習と音声コマンドの推論について述べる。 エッジアプリケーションに適した30〜uWの低消費電力で、Ravenをオンチップでトレーニングできることを実証した。 さらに, アイソ精度では, 推論とトレーニングにおいて, ディープニューラルネットワーク (DNN) よりも, 70.36x と 269.23x の計算量を必要とすることを示した。 このような低消費電力と計算能力の要求により、ravenは超低消費電力トレーニングとエッジでの推論への有望な経路を提供する。

Embedding artificial intelligence at the edge (edge-AI) is an elegant solution to tackle the power and latency issues in the rapidly expanding Internet of Things. As edge devices typically spend most of their time in sleep mode and only wake-up infrequently to collect and process sensor data, non-volatile in-memory computing (NVIMC) is a promising approach to design the next generation of edge-AI devices. Recently, we proposed an NVIMC-based neuromorphic accelerator using the phase change memories (PCMs), which we call as Raven. In this work, we demonstrate the ultra-low-power on-chip training and inference of speech commands using Raven. We showed that Raven can be trained on-chip with power consumption as low as 30~uW, which is suitable for edge applications. Furthermore, we showed that at iso-accuracies, Raven needs 70.36x and 269.23x less number of computations to be performed than a deep neural network (DNN) during inference and training, respectively. Owing to such low power and computational requirements, Raven provides a promising pathway towards ultra-low-power training and inference at the edge.
翻訳日:2022-10-05 01:18:31 公開日:2020-10-21
# 連立制約付きマルチエージェントシステムの協調オンライン学習と摂動ユーティリティ観測

Coordinated Online Learning for Multi-Agent Systems with Coupled Constraints and Perturbed Utility Observations ( http://arxiv.org/abs/2010.10878v1 )

ライセンス: Link先を確認
Ezra Tampubolon and Holger Boche(参考訳) 競争力のある非協力的オンライン意思決定エージェントは、不足資源の混雑を増大させ、近代的な大規模応用のモデルとなっている。 持続可能な資源の振舞いを確保するため,資源制約を満たすため,エージェントを安定した人口状態へ誘導する新しい手法を提案する。 提案手法は,ゲームのラグランジアンの強化による資源負荷に基づく分散資源価格設定手法である。 オンライン学習エージェントがノイズの多い1次効用フィードバックしか持たないと仮定すると、多項式減衰エージェントのステップサイズ/学習率に対して、人口動態はほぼ確実に一般化されたナッシュ均衡に収束する。 後者の特別な結果は、漸近極限における資源制約を満たすことである。 さらに,提案アルゴリズムの有限時間品質を,資源制約違反の予測量に対して非漸近的時間減衰を与えることにより検討する。

Competitive non-cooperative online decision-making agents whose actions increase congestion of scarce resources constitute a model for widespread modern large-scale applications. To ensure sustainable resource behavior, we introduce a novel method to steer the agents toward a stable population state, fulfilling the given coupled resource constraints. The proposed method is a decentralized resource pricing method based on the resource loads resulting from the augmentation of the game's Lagrangian. Assuming that the online learning agents have only noisy first-order utility feedback, we show that for a polynomially decaying agents' step size/learning rate, the population's dynamic will almost surely converge to generalized Nash equilibrium. A particular consequence of the latter is the fulfillment of resource constraints in the asymptotic limit. Moreover, we investigate the finite-time quality of the proposed algorithm by giving a nonasymptotic time decaying bound for the expected amount of resource constraint violation.
翻訳日:2022-10-05 01:18:11 公開日:2020-10-21
# 声帯振動解析によるCOVID-19の検出

Detection of COVID-19 through the analysis of vocal fold oscillations ( http://arxiv.org/abs/2010.10707v1 )

ライセンス: Link先を確認
Mahmoud Al Ismail, Soham Deshmukh, Rita Singh(参考訳) 声帯の振動は、人間の発声音の生成における発声の主な原因である。 複雑な生体力学的プロセスであり、話者の呼吸パラメータの変化に非常に敏感である。 呼吸器機能障害を軽度から重度に抱える新型コロナウイルスの症状例の多くは、声帯の振動を調べることで、covid-19の症状が観察可能であると仮定する。 我々の目標は、この仮説を検証し、音声から新型コロナウイルスを検出するために観察された変化を定量的に特徴づけることである。 そこで本研究では,声帯振動の力学系モデルを用いて,最近開発したadlesアルゴリズムを用いて,録音音声から直接声帯振動パターンを導出する。 新型コロナウイルス陽性と陰性の被験者を臨床にキュレートしたデータセットの実験結果から, 声帯振動の特徴的なパターンが明らかにされた。 その結果,ロジスティック回帰のような単純な分類器でも孤立した拡張母音の記録のみを用いて高い検出精度が得られることがわかった。

Phonation, or the vibration of the vocal folds, is the primary source of vocalization in the production of voiced sounds by humans. It is a complex bio-mechanical process that is highly sensitive to changes in the speaker's respiratory parameters. Since most symptomatic cases of COVID-19 present with moderate to severe impairment of respiratory functions, we hypothesize that signatures of COVID-19 may be observable by examining the vibrations of the vocal folds. Our goal is to validate this hypothesis, and to quantitatively characterize the changes observed to enable the detection of COVID-19 from voice. For this, we use a dynamical system model for the oscillation of the vocal folds, and solve it using our recently developed ADLES algorithm to yield vocal fold oscillation patterns directly from recorded speech. Experimental results on a clinically curated dataset of COVID-19 positive and negative subjects reveal characteristic patterns of vocal fold oscillations that are correlated with COVID-19. We show that these are prominent and discriminative enough that even simple classifiers such as logistic regression yields high detection accuracies using just the recordings of isolated extended vowels.
翻訳日:2022-10-05 01:12:11 公開日:2020-10-21
# モデルベース強化学習制御系の安全性検証

Safety Verification of Model Based Reinforcement Learning Controllers ( http://arxiv.org/abs/2010.10740v1 )

ライセンス: Link先を確認
Akshita Gupta, Inseok Hwang(参考訳) モデルベース強化学習(RL)は、現実のシステム(ロボット工学、自動運転など)のためのコントローラを開発するための有望なツールとして登場した。 しかし、実際のシステムは、システムとその環境の安全性を確保するために満たされなければならない状態空間に制約を課すことが多い。 ニューラルネットワークの非線形構造がモデルやコントローラの解析的検証を妨げるため、rlアルゴリズムの検証ツールの開発は困難である。 そこで本研究では,モデルベースRLコントローラのリーチブル・セット解析を用いた安全性検証フレームワークを提案する。 提案するフレームワークは,ニューラルネットワークを用いて表現されるモデルやコントローラを効率的に処理できる。 さらに、コントローラが一般に安全上の制約を満たすことができない場合、提案するフレームワークを使用して、コントローラが安全に実行できる初期状態のサブセットを特定することもできる。

Model-based reinforcement learning (RL) has emerged as a promising tool for developing controllers for real world systems (e.g., robotics, autonomous driving, etc.). However, real systems often have constraints imposed on their state space which must be satisfied to ensure the safety of the system and its environment. Developing a verification tool for RL algorithms is challenging because the non-linear structure of neural networks impedes analytical verification of such models or controllers. To this end, we present a novel safety verification framework for model-based RL controllers using reachable set analysis. The proposed frame-work can efficiently handle models and controllers which are represented using neural networks. Additionally, if a controller fails to satisfy the safety constraints in general, the proposed framework can also be used to identify the subset of initial states from which the controller can be safely executed.
翻訳日:2022-10-05 01:11:36 公開日:2020-10-21
# 汎用音響表現のコントラスト学習

Contrastive Learning of General-Purpose Audio Representations ( http://arxiv.org/abs/2010.10915v1 )

ライセンス: Link先を確認
Aaqib Saeed, David Grangier, Neil Zeghidour(参考訳) 音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。 本手法はコントラスト学習に基づくもので,同じ録音から抽出した音声セグメントに高い類似度を割り当てる表現を学習し,異なる録音からのセグメントに低い類似度を割り当てる。 我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩の上に構築され、軽量で容易に実装可能なセルフ教師付きオーディオモデルを設計する。 大規模オーディオセットデータベースへの事前学習を行い,これらの表現を音声,音楽,動物音,音響シーンを含む9つの異なる分類課題に伝達する。 提案手法は単純さに拘わらず,従来の自己監督システムを大幅に上回っている。 さらに、重要な設計選択を特定するためのアブレーション研究を行い、事前訓練および微調整COLAモデルのためのライブラリをリリースする。

We introduce COLA, a self-supervised pre-training approach for learning a general-purpose representation of audio. Our approach is based on contrastive learning: it learns a representation which assigns high similarity to audio segments extracted from the same recording while assigning lower similarity to segments from different recordings. We build on top of recent advances in contrastive learning for computer vision and reinforcement learning to design a lightweight, easy-to-implement self-supervised model of audio. We pre-train embeddings on the large-scale Audioset database and transfer these representations to 9 diverse classification tasks, including speech, music, animal sounds, and acoustic scenes. We show that despite its simplicity, our method significantly outperforms previous self-supervised systems. We furthermore conduct ablation studies to identify key design choices and release a library to pre-train and fine-tune COLA models.
翻訳日:2022-10-05 01:10:58 公開日:2020-10-21
# 深層学習法による複雑なデータラベリング:漁業音響学からの教訓

Complex data labeling with deep learning methods: Lessons from fisheries acoustics ( http://arxiv.org/abs/2010.11010v1 )

ライセンス: Link先を確認
J.M.A.Sarr, T. Brochier, P.Brehmer, Y.Perrot, A.Bah, A.Sarr\'e, M.A.Jeyid, M.Sidibeh, S.El Ayoub(参考訳) 海底から海面にかけての音響的後方散乱信号の定量的・定性的な分析は,世界の魚類資源評価や海洋生態系モニタリングに用いられている。 大量の原データが収集されるが、面倒な専門家のラベル付けが必要である。 本稿では,漁業の質と生態学的分析に要する時間的・重要なエコーラベリングについて述べる。 我々は、これらのタスクが教師付き学習アルゴリズムの利点をいかに生かし、非定常データセットでトレーニングされた畳み込みニューラルネットワークが、人間の専門家の補正を必要とする新しいデータセットの一部を強調するために利用できるかを実証する。 この手法のさらなる発展は、漁業音響におけるラベル付けプロセスの標準化への道を開くものであり、非有害なデータラベリングプロセスにとって良いケーススタディである。

Quantitative and qualitative analysis of acoustic backscattered signals from the seabed bottom to the sea surface is used worldwide for fish stocks assessment and marine ecosystem monitoring. Huge amounts of raw data are collected yet require tedious expert labeling. This paper focuses on a case study where the ground truth labels are non-obvious: echograms labeling, which is time-consuming and critical for the quality of fisheries and ecological analysis. We investigate how these tasks can benefit from supervised learning algorithms and demonstrate that convolutional neural networks trained with non-stationary datasets can be used to stress parts of a new dataset needing human expert correction. Further development of this approach paves the way toward a standardization of the labeling process in fisheries acoustics and is a good case study for non-obvious data labeling processes.
翻訳日:2022-10-05 01:10:13 公開日:2020-10-21
# wavetransformer: 時間的および時間的情報の学習に基づく音声キャプションのための新しいアーキテクチャ

WaveTransformer: A Novel Architecture for Audio Captioning Based on Learning Temporal and Time-Frequency Information ( http://arxiv.org/abs/2010.11098v1 )

ライセンス: Link先を確認
An Tran and Konstantinos Drossos and Tuomas Virtanen(参考訳) 自動音声キャプション(AAC)は、音声サンプルの入力としてメソッドが受け取り、その内容のテキスト記述(すなわちキャプション)を出力する新しいタスクである。 ほとんどのAAC法は、機械翻訳場の画像キャプションから適応されている。 本研究では,音声における時間的パターンと時間的パターンの活用に焦点を当てた新しいAAC手法を提案する。 音声符号化には3つの学習可能なプロセスを使用し、2つは局所的および時間的情報を抽出し、1つは以前の2つのプロセスの出力をマージする。 キャプションを生成するために、広く使われているトランスフォーマデコーダを用いる。 本手法は,布地データセットの自由に利用可能な分割を用いて評価する。 これまでに報告された最も高いSPIDErは16.2から17.3に増加した。

Automated audio captioning (AAC) is a novel task, where a method takes as an input an audio sample and outputs a textual description (i.e. a caption) of its contents. Most AAC methods are adapted from from image captioning of machine translation fields. In this work we present a novel AAC novel method, explicitly focused on the exploitation of the temporal and time-frequency patterns in audio. We employ three learnable processes for audio encoding, two for extracting the local and temporal information, and one to merge the output of the previous two processes. To generate the caption, we employ the widely used Transformer decoder. We assess our method utilizing the freely available splits of Clotho dataset. Our results increase previously reported highest SPIDEr to 17.3, from 16.2.
翻訳日:2022-10-05 01:10:00 公開日:2020-10-21
# 畳み込み型リカレントニューラルネットワークを用いた音声と音楽信号の結合ブラインドルーム音響特性評価

Joint Blind Room Acoustic Characterization From Speech And Music Signals Using Convolutional Recurrent Neural Networks ( http://arxiv.org/abs/2010.11167v1 )

ライセンス: Link先を確認
Paul Callens, Milos Cernak(参考訳) 音響環境の特徴は、音の再生革新、スマートEQ、音声強調、補聴器、法医学の扉を開く。 残響時間、明瞭度、直接残響比は、残響環境を記述するために定義された音響パラメータである。 それらは、音声の知性や音質と密接に関連している。 ISO3382標準で説明されているように、それらはRoom Impulse Response (RIR)と呼ばれる部屋の測定から導かれる。 しかし、RIRの測定には特定の機器と侵入音が要求される。 最近の音声と機械学習の組み合わせは、これらのパラメータを音声や音楽信号を使って視覚的に推定できることを示している。 本稿では,音声や音楽信号を用いたブラインド関節音響パラメータ推定を実現するためのロバストなエンドツーエンド手法を提案する。 以上の結果から,畳み込み型リカレントニューラルネットワークは,この課題に最適であり,学習中の音楽を含めることで,音声からの推論を改善することができることがわかった。

Acoustic environment characterization opens doors for sound reproduction innovations, smart EQing, speech enhancement, hearing aids, and forensics. Reverberation time, clarity, and direct-to-reverberant ratio are acoustic parameters that have been defined to describe reverberant environments. They are closely related to speech intelligibility and sound quality. As explained in the ISO3382 standard, they can be derived from a room measurement called the Room Impulse Response (RIR). However, measuring RIRs requires specific equipment and intrusive sound to be played. The recent audio combined with machine learning suggests that one could estimate those parameters blindly using speech or music signals. We follow these advances and propose a robust end-to-end method to achieve blind joint acoustic parameter estimation using speech and/or music signals. Our results indicate that convolutional recurrent neural networks perform best for this task, and including music in training also helps improve inference from speech.
翻訳日:2022-10-05 01:09:48 公開日:2020-10-21
# サドルポイント問題に対する効率的な投影フリーアルゴリズム

Efficient Projection-Free Algorithms for Saddle Point Problems ( http://arxiv.org/abs/2010.11737v1 )

ライセンス: Link先を確認
Cheng Chen, Luo Luo, Weinan Zhang, Yong Yu(参考訳) フランク=ウルフアルゴリズムは制約付き最適化問題の古典的な方法である。 最近、プロジェクションのない性質がより効率的なイテレーションをもたらすため、多くの機械学習アプリケーションで人気がある。 本稿では,複雑な制約を伴う凸凸凸凹点問題に対するプロジェクションフリーアルゴリズムについて検討する。 条件勾配スライディングとMirror-Proxを組み合わせることで、バッチ設定で$\tilde{O}(1/\sqrt{\epsilon})$勾配評価と$\tilde{O}(1/\epsilon^2)$線形最適化しか必要としないことを示す。 また,本手法を確率的設定にまで拡張し,サドル点問題に対する確率的プロジェクションフリーアルゴリズムを提案する。 実験により,アルゴリズムの有効性を実証し,理論的保証を検証する。

The Frank-Wolfe algorithm is a classic method for constrained optimization problems. It has recently been popular in many machine learning applications because its projection-free property leads to more efficient iterations. In this paper, we study projection-free algorithms for convex-strongly-concave saddle point problems with complicated constraints. Our method combines Conditional Gradient Sliding with Mirror-Prox and shows that it only requires $\tilde{O}(1/\sqrt{\epsilon})$ gradient evaluations and $\tilde{O}(1/\epsilon^2)$ linear optimizations in the batch setting. We also extend our method to the stochastic setting and propose first stochastic projection-free algorithms for saddle point problems. Experimental results demonstrate the effectiveness of our algorithms and verify our theoretical guarantees.
翻訳日:2022-10-05 01:03:33 公開日:2020-10-21
# 協調運転における軌道予測における機械学習の役割

The Role of Machine Learning for Trajectory Prediction in Cooperative Driving ( http://arxiv.org/abs/2010.11743v1 )

ライセンス: Link先を確認
Luis Sequeira and Toktam Mahmoodi(参考訳) 本稿では,協調運転において機械学習が果たす役割について考察する。 現代の自動車や道路インフラにおけるコネクティビティの増加を考えると、協調運転は自動運転における有望な第一歩である。 本稿では,自動車テストトラックで実施したデータ収集,テスト,評価を併用して,路面マージをコーディネートした例を示す。 想定では、車両は通信ユニットを備えたもの、すなわち接続された車両と接続されていないものの組み合わせである。 しかし、路面カメラは接続され、接続なくとも全ての車両を捉えることができる。 我々は、これらの2つの情報、すなわち連結車両と連結路面カメラに基づいて軌道を提案する交通オーケストラを開発した。 推奨軌道が構築され、接続された車両に通信される。 我々は、軌跡の正確かつタイムリーな予測における異なる機械学習技術の利用について検討する。

In this paper, we study the role that machine learning can play in cooperative driving. Given the increasing rate of connectivity in modern vehicles, and road infrastructure, cooperative driving is a promising first step in automated driving. The example scenario we explored in this paper, is coordinated lane merge, with data collection, test and evaluation all conducted in an automotive test track. The assumption is that vehicles are a mix of those equipped with communication units on board, i.e. connected vehicles, and those that are not connected. However, roadside cameras are connected and can capture all vehicles including those without connectivity. We develop a Traffic Orchestrator that suggests trajectories based on these two sources of information, i.e. connected vehicles, and connected roadside cameras. Recommended trajectories are built, which are then communicated back to the connected vehicles. We explore the use of different machine learning techniques in accurately and timely prediction of trajectories.
翻訳日:2022-10-05 01:03:16 公開日:2020-10-21
# チャネルリオーダーの異なる不均一脳波信号からの学習

Learning from Heterogeneous EEG Signals with Differentiable Channel Reordering ( http://arxiv.org/abs/2010.13694v1 )

ライセンス: Link先を確認
Aaqib Saeed, David Grangier, Olivier Pietquin, Neil Zeghidour(参考訳) 不整合入力チャネルをまたいだ単一ニューラルネットワークのトレーニング手法であるCHARMを提案する。 我々の研究は脳波学(EEG)によって動機付けられており、異なるヘッドセットからのデータ収集プロトコルが様々なチャネルの順序と数をもたらすため、トレーニングされたシステムをデータセット間で転送する可能性が制限される。 提案手法は,各入力信号から潜在再順序行列を推定し,入力チャネルを正準順にマッピングするための注意機構に基づいている。 CHARMは差別化可能であり、エンドツーエンドのトレーニング可能な分類器を構築するための一貫したチャネル命令を期待するアーキテクチャでさらに構成することができる。 4つの脳波分類データセットについて実験を行い,入力チャネルのシャッフルとマスキングによるチャームの有効性を実証した。 さらに,異なるプロトコルで収集したデータセット間の事前学習表現の転送も改善した。

We propose CHARM, a method for training a single neural network across inconsistent input channels. Our work is motivated by Electroencephalography (EEG), where data collection protocols from different headsets result in varying channel ordering and number, which limits the feasibility of transferring trained systems across datasets. Our approach builds upon attention mechanisms to estimate a latent reordering matrix from each input signal and map input channels to a canonical order. CHARM is differentiable and can be composed further with architectures expecting a consistent channel ordering to build end-to-end trainable classifiers. We perform experiments on four EEG classification datasets and demonstrate the efficacy of CHARM via simulated shuffling and masking of input channels. Moreover, our method improves the transfer of pre-trained representations between datasets collected with different protocols.
翻訳日:2022-10-05 01:02:36 公開日:2020-10-21
# 勾配ブースティングツリーアンサンブルを用いたマルチラベル12誘導心電図分類

Multilabel 12-Lead Electrocardiogram Classification Using Gradient Boosting Tree Ensemble ( http://arxiv.org/abs/2010.13712v1 )

ライセンス: Link先を確認
Alexander William Wong, Weijie Sun, Sunil Vasu Kalmady, Padma Kaul, Abram Hindle(参考訳) 12誘導心電図(ECG)は、心房細動、ブロック、不規則複合体などの心疾患を検出するのに一般的に用いられるツールである。 The PhysioNet/CinC 2020 Challengeでは,心電図の診断を分類するために,形態や信号処理機能に適応した勾配木アンサンブルを用いたアルゴリズムを構築した。 各リードについて,心拍変動,pqrstテンプレート形状,全信号波形から特徴を導出する。 各クラスに属するECGインスタンスの確率を予測するため、全12項目の特徴と合わせて、勾配を増す決定ツリーの集合に適合する。 我々は、フェーズ2の診断予測モデルで使用する最も重要な機能のトップ1000を分離するために、フェーズ1の重要度決定モデルを訓練する。 内部評価結果に対して,43,101レコードのデータセットを85:15トレーニング/バリデーションの100個の独立したランに分割することで,ランダムなサブサンプリングを繰り返し実施する。 我々の手法は、公式フェーズ検証セットスコア0.476、テストセットスコア-0.080をチーム名CVCで生成し、41のうち36をランク付けします。

The 12-lead electrocardiogram (ECG) is a commonly used tool for detecting cardiac abnormalities such as atrial fibrillation, blocks, and irregular complexes. For the PhysioNet/CinC 2020 Challenge, we built an algorithm using gradient boosted tree ensembles fitted on morphology and signal processing features to classify ECG diagnosis. For each lead, we derive features from heart rate variability, PQRST template shape, and the full signal waveform. We join the features of all 12 leads to fit an ensemble of gradient boosting decision trees to predict probabilities of ECG instances belonging to each class. We train a phase one set of feature importance determining models to isolate the top 1,000 most important features to use in our phase two diagnosis prediction models. We use repeated random sub-sampling by splitting our dataset of 43,101 records into 100 independent runs of 85:15 training/validation splits for our internal evaluation results. Our methodology generates us an official phase validation set score of 0.476 and test set score of -0.080 under the team name, CVC, placing us 36 out of 41 in the rankings.
翻訳日:2022-10-05 01:02:21 公開日:2020-10-21
# AttendAffectNet:映画からの感情反応を予測する自己注意型ネットワーク

AttendAffectNet: Self-Attention based Networks for Predicting Affective Responses from Movies ( http://arxiv.org/abs/2010.11188v1 )

ライセンス: Link先を確認
Ha Thi Phuong Thao, Balamurali B.T., Dorien Herremans and Gemma Roig(参考訳) 本研究では,映画から感情予測を行うセルフアテンションベースネットワークの様々なバリエーションを提案し,これをAttendAffectNetと呼ぶ。 音声とビデオの両方を考慮し、感情予測のための抽出特徴に自己認識機構を新しい方法で適用することにより、複数のモーダル間の関係を取り入れる。 本稿では, 感情応答の逐次的依存性を考慮しつつ, 映像の時間的表現の関係を捉えることのできる, 自己注意型モデルの典型的時間的統合と比較する。 提案手法の有効性を,感情アノテーション付き映画からなるCOGNIMUSEデータセット[1],[2]とMediaEval 2016 Emotional Impact of Movies Task[3]に示す。 その結果,時間領域ではなく,異なる視聴覚特徴に自己着脱機構を適用する方が感情予測に有効であることがわかった。 我々のアプローチは感情予測の最先端モデルよりも優れていることも証明されている。 モデルの実装で結果を再現するコードは、https://github.com/ivyha010/AttendAffectNet.comで公開されている。

In this work, we propose different variants of the self-attention based network for emotion prediction from movies, which we call AttendAffectNet. We take both audio and video into account and incorporate the relation among multiple modalities by applying self-attention mechanism in a novel manner into the extracted features for emotion prediction. We compare it to the typically temporal integration of the self-attention based model, which in our case, allows to capture the relation of temporal representations of the movie while considering the sequential dependencies of emotion responses. We demonstrate the effectiveness of our proposed architectures on the extended COGNIMUSE dataset [1], [2] and the MediaEval 2016 Emotional Impact of Movies Task [3], which consist of movies with emotion annotations. Our results show that applying the self-attention mechanism on the different audio-visual features, rather than in the time domain, is more effective for emotion prediction. Our approach is also proven to outperform many state-ofthe-art models for emotion prediction. The code to reproduce our results with the models' implementation is available at: https://github.com/ivyha010/AttendAffectNet.
翻訳日:2022-10-05 01:01:42 公開日:2020-10-21
# グローバル最適化のためのバッチ逐次適応設計

Batch Sequential Adaptive Designs for Global Optimization ( http://arxiv.org/abs/2010.10698v1 )

ライセンス: Link先を確認
Jianhui Ning and Yao Xiao and Zikang Xiong(参考訳) 固定走行設計と比較すると、逐次適応設計(SAD)はより効率的かつ効果的であると考えられる。 効率的なグローバル最適化(EGO)は、高価なブラックボックス最適化問題に対する最も一般的なSAD手法の1つである。 複雑なコンピュータ実験におけるオリジナルのEGOの弱点は、それがシリアルであるため、現代の並列コンピューティング技術はシミュレータ実験の実行を高速化するために利用できないことである。 これらの複数点のEGO法では、重い計算とポイントのクラスタリングが障害となる。 本研究では,「加速EGO(accelerated EGO)」と呼ばれる新しいバッチSAD法を,改良されたサンプリング/重要再サンプリング(SIR)法を用いて,期待される改善(EI)値の大きい点を探索する。 新しい手法の計算負担はより軽くなり、ポイントクラスタリングも避けられる。 提案したSADの効率は,次元が2~12の9つの古典的テスト関数によって検証される。 実験の結果,本アルゴリズムはオリジナルエゴの並列化が可能であり,特に高次元の場合において,他の並列エゴアルゴリズムと比較して大きな改善が得られた。 さらに,この新しい手法を,サポートベクターマシン(svm)のハイパーパラメータチューニングにも適用した。 高速化されたEGOは、他の手法と同等のクロスバリデーション精度を獲得し、並列計算とサンプリング法によりCPU時間を削減できる。

Compared with the fixed-run designs, the sequential adaptive designs (SAD) are thought to be more efficient and effective. Efficient global optimization (EGO) is one of the most popular SAD methods for expensive black-box optimization problems. A well-recognized weakness of the original EGO in complex computer experiments is that it is serial, and hence the modern parallel computing techniques cannot be utilized to speed up the running of simulator experiments. For those multiple points EGO methods, the heavy computation and points clustering are the obstacles. In this work, a novel batch SAD method, named "accelerated EGO", is forwarded by using a refined sampling/importance resampling (SIR) method to search the points with large expected improvement (EI) values. The computation burden of the new method is much lighter, and the points clustering is also avoided. The efficiency of the proposed SAD is validated by nine classic test functions with dimension from 2 to 12. The empirical results show that the proposed algorithm indeed can parallelize original EGO, and gain much improvement compared against the other parallel EGO algorithm especially under high-dimensional case. Additionally, we also apply the new method to the hyper-parameter tuning of Support Vector Machine (SVM). Accelerated EGO obtains comparable cross validation accuracy with other methods and the CPU time can be reduced a lot due to the parallel computation and sampling method.
翻訳日:2022-10-05 01:00:47 公開日:2020-10-21
# 両立K平均クラスタリングによる小型サブエリアへの分割によるプランニングサービス領域の最適化

Optimizing Planning Service Territories by Dividing Into Compact Several Sub-areas Using Binary K-means Clustering According Vehicle Constraints ( http://arxiv.org/abs/2010.10934v1 )

ライセンス: Link先を確認
Muhammad Wildan Abdul Hakim, Syarifah Rosita Dewi, Yurio Windiatmoko, Umar Abdul Aziz(参考訳) VRP(Vehicle Routing Problem)はNPの問題であり、多くの研究の関心を集めている。 容積や重量などの輸送能力に制限がある状況では、様々な場所で商品を配達する必要がある。 最初はルートを作る前に、各車両は最大容量を超えない配送ポイントのグループを必要とします。 ドライバーは特定のエリアにのみ配送する傾向がある。 クラスタベースは、より厳格なルートを生成するための基盤を提供するアプローチの1つである。 本稿では,車両の最大容量を超えないクラスタ/グループを新たに生成するアルゴリズムを提案する。 当社の基本的な前提は、各車両はデポから発生し、商品を顧客に届けてデポに返却するというものです。 この方法は、各クラスタ内のサブエリアをコンパクトにすることができる。 計算結果から,利用者がサービス領域や車両経路をより効率的に計画できるように支援できる新しい手順の有効性が示された。

VRP (Vehicle Routing Problem) is an NP hard problem, and it has attracted a lot of research interest. In contexts where vehicles have limited carrying capacity, such as volume and weight but needed to deliver items at various locations. Initially before creating a route, each vehicle needs a group of delivery points that are not exceeding their maximum capacity. Drivers tend to deliver only to certain areas. Cluster-based is one of the approaches to give a basis for generating tighter routes. In this paper we propose new algorithms for producing such clusters/groups that do not exceed vehicles maximum capacity. Our basic assumptions are each vehicle originates from a depot, delivers the items to the customers and returns to the depot, also the vehicles are homogeneous. This methods are able to compact sub-areas in each cluster. Computational results demonstrate the effectiveness of our new procedures, which are able to assist users to plan service territories and vehicle routes more efficiently.
翻訳日:2022-10-05 00:54:36 公開日:2020-10-21
# Ovonic Threshold Switch(OTS)に基づく高分解能確率ニューロンとその制限ボルツマンマシン(RBM)への応用

Highly-scalable stochastic neuron based on Ovonic Threshold Switch (OTS) and its applications in Restricted Boltzmann Machine (RBM) ( http://arxiv.org/abs/2010.10986v1 )

ライセンス: Link先を確認
Seong-il Im, Hyejin Lee, Jaesang Lee, Jae-Seung Jeong, Joon Young Kwak, Keunsu Kim, Jeong Ho Cho, Hyunsu Ju, Suyoun Lee(参考訳) 制約ボルツマンマシン(RBM)への関心は、新しいエネルギー効率の機械学習(ML)技術を実装するために、生成確率的ニューラルネットワークとして成長している。 RBMのハードウェア実装において、本質的なビルディングブロックはボルツマン分布に続くランダムスパイクを生成する信頼性の高い確率的バイナリニューロンデバイスである。 本稿では,トラップのランダム放出・捕捉過程を確率源として用いた,オボニックしきい値スイッチ(ots)に基づく高スカラブルな確率ニューロンデバイスを提案する。 スイッチング確率はボルツマン分布によってよく説明され、操作パラメータによって制御できる。 真の乱数発生器(TRNG)の候補として、国立標準技術研究所(NIST)統計テストスイート(スペシャルパブリケーション800-22)の16の試験のうち15をパスしている。 さらに、提案した装置からなるシミュレーションRBMネットワークを用いて、手書き桁の認識タスク(MNIST)を86.07%の最大認識精度で示す。 さらに、ノイズで汚染された画像を用いて画像の再構成を成功させ、ノイズを除去した画像を生成する。 これらの結果は、rbm系におけるots系確率ニューロンの応用に有望な特性を示す。

Interest in Restricted Boltzmann Machine (RBM) is growing as a generative stochastic artificial neural network to implement a novel energy-efficient machine-learning (ML) technique. For a hardware implementation of the RBM, an essential building block is a reliable stochastic binary neuron device that generates random spikes following the Boltzmann distribution. Here, we propose a highly-scalable stochastic neuron device based on Ovonic Threshold Switch (OTS) which utilizes the random emission and capture process of traps as the source of stochasticity. The switching probability is well described by the Boltzmann distribution, which can be controlled by operating parameters. As a candidate for a true random number generator (TRNG), it passes 15 among the 16 tests of the National Institute of Standards and Technology (NIST) Statistical Test Suite (Special Publication 800-22). In addition, the recognition task of handwritten digits (MNIST) is demonstrated using a simulated RBM network consisting of the proposed device with a maximum recognition accuracy of 86.07 %. Furthermore, reconstruction of images is successfully demonstrated using images contaminated with noises, resulting in images with the noise removed. These results show the promising properties of OTS-based stochastic neuron devices for applications in RBM systems.
翻訳日:2022-10-05 00:54:22 公開日:2020-10-21
# レジリエンスとモーメントを考慮した適応勾配法

Adaptive Gradient Method with Resilience and Momentum ( http://arxiv.org/abs/2010.11041v1 )

ライセンス: Link先を確認
Jie Liu, Chen Lin, Chuming Li, Lu Sheng, Ming Sun, Junjie Yan, Wanli Ouyang(参考訳) 深層ニューラルネットワークを訓練する際の学習効率と効率を改善するために、数種類の確率勾配降下法(SGD)が提案されている。 収束速度は大幅に向上するが,適応学習速度法はsgdに比べて一般化が損なわれることが多い。 本稿では,ネットワークパラメータの振動がトレーニングを遅くするという観測に動機づけられた,弾性運動量(adarem)を用いた適応勾配法を提案し,収束の理論的証明を与える。 各パラメータに対して、AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかに応じてパラメータ単位の学習率を調整し、より少ない振動で長期的な一貫したパラメータ更新を促す。 大規模画像認識データセット(例えばimagenet)上で様々なモデルのトレーニングを行う際のadaremの有効性を検証するために,総合的な実験を行った。

Several variants of stochastic gradient descent (SGD) have been proposed to improve the learning effectiveness and efficiency when training deep neural networks, among which some recent influential attempts would like to adaptively control the parameter-wise learning rate (e.g., Adam and RMSProp). Although they show a large improvement in convergence speed, most adaptive learning rate methods suffer from compromised generalization compared with SGD. In this paper, we proposed an Adaptive Gradient Method with Resilience and Momentum (AdaRem), motivated by the observation that the oscillations of network parameters slow the training, and give a theoretical proof of convergence. For each parameter, AdaRem adjusts the parameter-wise learning rate according to whether the direction of one parameter changes in the past is aligned with the direction of the current gradient, and thus encourages long-term consistent parameter updating with much fewer oscillations. Comprehensive experiments have been conducted to verify the effectiveness of AdaRem when training various models on a large-scale image recognition dataset, e.g., ImageNet, which also demonstrate that our method outperforms previous adaptive learning rate-based algorithms in terms of the training speed and the test error, respectively.
翻訳日:2022-10-05 00:54:00 公開日:2020-10-21
# 公正な判断は長期的資格化にどのような影響を及ぼすか?

How Do Fair Decisions Fare in Long-term Qualification? ( http://arxiv.org/abs/2010.11300v1 )

ライセンス: Link先を確認
Xueru Zhang, Ruibo Tu, Yang Liu, Mingyan Liu, Hedvig Kjellstr\"om, Kun Zhang, Cheng Zhang(参考訳) 意思決定には多くの公正基準が提案されているが、その長期的影響はいまだ不明である。 本研究では,部分的に観察されたマルコフ決定問題設定の下で,人口資格とアルゴリズム決定のダイナミクスについて検討する。 このような力学の平衡を特徴付けることにより、静的フェアネス制約の長期的影響がグループウェルビーイングの平等性と改善に与える影響を解析する。 以上の結果から, 静的公正性制約は, 品質遷移の駆動要因や特性分布に対する感度特性の影響に応じて, 等値性を促進するか, 格差を悪化させる可能性があることが示唆された。 また、グループ資格を効果的に改善したり、グループ資格の平等を促進できるような介入も検討する。 シミュレーション力学を用いた静的実世界のデータセットに関する理論的結果と実験により,我々のフレームワークが社会科学研究に役立てられることを示す。

Although many fairness criteria have been proposed for decision making, their long-term impact on the well-being of a population remains unclear. In this work, we study the dynamics of population qualification and algorithmic decisions under a partially observed Markov decision problem setting. By characterizing the equilibrium of such dynamics, we analyze the long-term impact of static fairness constraints on the equality and improvement of group well-being. Our results show that static fairness constraints can either promote equality or exacerbate disparity depending on the driving factor of qualification transitions and the effect of sensitive attributes on feature distributions. We also consider possible interventions that can effectively improve group qualification or promote equality of group qualification. Our theoretical results and experiments on static real-world datasets with simulated dynamics show that our framework can be used to facilitate social science studies.
翻訳日:2022-10-05 00:53:01 公開日:2020-10-21
# フローベースモーションプランナによる最適計画の学習

Learning to Plan Optimally with Flow-based Motion Planner ( http://arxiv.org/abs/2010.11323v1 )

ライセンス: Link先を確認
Tin Lai, Fabio Ramos(参考訳) サンプリングベースのモーションプランニングは多くの実世界のロボットアプリケーションにおいて主要なパラダイムであるが、その性能はサンプルの品質に大きく依存している。 従来のプランナーの大多数は、より良いサンプリング戦略を導くために問題の構造やパターンを利用するのとは対照的に、非形式的なサンプリング分布を使用するため、非効率である。 また,現在の学習型プランナーのほとんどが,c空間と運動計画の構成のばらつきと多様さにより後方崩壊やモード崩壊の影響を受けやすい。 本稿では,過去の経験から学んだ条件付き正規化フローベースの分布を導入し,これらの手法のサンプリングを改善する。 我々の分布は現在のイシューインスタンスで条件付けでき、将来性のある領域内の構成をサンプリングするための情報的事前を提供することができる。 専門家のプランナーでサンプルをトレーニングする場合、結果の分布は概ね最適であり、プランナーはより早く、より無効なサンプルを減らし、初期コストを削減できる。 正規化フローベース分布は計算効率のよい単純な非可逆変換を用いており、我々の最適化定式化は既存の学習ベースプランナーとは対照的にモード崩壊を明示的に回避する。 最後に, 分布から効率的にサンプルを採取するための定式化と理論的基礎を提供し, フローベースの分布を正規化することにより, サンプル数が少なく, 実行時の性能が向上し, 解がより早く見つかることを実験的に証明する。

Sampling-based motion planning is the predominant paradigm in many real-world robotic applications, but its performance is immensely dependent on the quality of the samples. The majority of traditional planners are inefficient as they use uninformative sampling distributions as opposed to exploiting structures and patterns in the problem to guide better sampling strategies. Moreover, most current learning-based planners are susceptible to posterior collapse or mode collapse due to the sparsity and highly varying nature of C-Space and motion plan configurations. In this work, we introduce a conditional normalising flow based distribution learned through previous experiences to improve sampling of these methods. Our distribution can be conditioned on the current problem instance to provide an informative prior for sampling configurations within promising regions. When we train our sampler with an expert planner, the resulting distribution is often near-optimal, and the planner can find a solution faster, with less invalid samples, and less initial cost. The normalising flow based distribution uses simple invertible transformations that are very computationally efficient, and our optimisation formulation explicitly avoids mode collapse in contrast to other existing learning-based planners. Finally, we provide a formulation and theoretical foundation to efficiently sample from the distribution; and demonstrate experimentally that, by using our normalising flow based distribution, a solution can be found faster, with less samples and better overall runtime performance.
翻訳日:2022-10-05 00:52:47 公開日:2020-10-21
# 畳み込みニューラルネットワークを用いたm83銀河の星団の研究

Study of star clusters in the M83 galaxy with a convolutional neural network ( http://arxiv.org/abs/2010.11126v1 )

ライセンス: Link先を確認
J. Bialopetravi\v{c}ius, D. Narbutis(参考訳) 本稿では、渦巻銀河m83における星団候補の進化的および構造的パラメータの研究を行う。 このために私たちは、モッククラスタでトレーニングされた畳み込みニューラルネットワークを使用して、星団の高速な識別とローカライゼーション、およびマルチバンド画像からのパラメータの推測を可能にします。 我々はこのパイプラインを用いてハッブル宇宙望遠鏡の3,380個のクラスター候補を検出する。 クラスター候補のサンプルは銀河の渦巻き腕の年齢勾配を示し、これは密度波理論やその他の研究の予測とよく一致している。 スパイラルアームのダストレーンから測定すると、クラスター候補の若い集団は$\sim$0.4 kpcの距離でピークに達するが、古い候補はもっと分散しているが、スパイラルアームの先頭部分では$\gtrsim$0.7 kpcに移動する。 砂塵線に近いスパイラルアームの後部に位置する高い絶滅率のクラスター候補が見つかった。 また、銀河の中心付近には多数の古い星団があり、その中心から典型的な星団の大きさがわずかに増大している。

We present a study of evolutionary and structural parameters of star cluster candidates in the spiral galaxy M83. For this we use a convolutional neural network trained on mock clusters and capable of fast identification and localization of star clusters, as well as inference of their parameters from multi-band images. We use this pipeline to detect 3,380 cluster candidates in Hubble Space Telescope observations. The sample of cluster candidates shows an age gradient across the galaxy's spiral arms, which is in good agreement with predictions of the density wave theory and other studies. As measured from the dust lanes of the spiral arms, the younger population of cluster candidates peaks at the distance of $\sim$0.4 kpc while the older candidates are more dispersed, but shifted towards $\gtrsim$0.7 kpc in the leading part of the spiral arms. We find high extinction cluster candidates positioned in the trailing part of the spiral arms, close to the dust lanes. We also find a large number of dense older clusters near the center of the galaxy and a slight increase of the typical cluster size further from the center.
翻訳日:2022-10-05 00:44:54 公開日:2020-10-21
# 最悪の場合の感度

Worst-case sensitivity ( http://arxiv.org/abs/2010.10794v1 )

ライセンス: Link先を確認
Jun-ya Gotoh, Michael Jong Kim, Andrew E.B.Lim(参考訳) 本稿では,不確実性集合のサイズがなくなると,分散ロバスト最適化(DRO)モデルが期待されるコストの最悪の増加率として定義されるWorst-Case Sensitivityの概念を紹介する。 その結果,不確実性セットが小さい場合,doモデルの大きなクラスは本質的に平均(ワーストケース)感度問題であり,droと正規化経験的最適化の関係に関する最近の結果を統一し,最悪の場合の感度がレギュラライザの役割を担っていることを示した。 より一般的には、DRO解は不確実集合の族や大きさに敏感であり、最悪の場合の感度の性質を反映することができる。 我々は,スムーズな$\phi$-divergence,全変動,「予算」不確実性集合,期待値とCVaRの凸結合に対応する不確実性集合,ワッサーシュタイン計量など,よく知られた不確実性集合に対する最悪ケース感度の閉形式式を導出した。 これらは与えられたアプリケーションに対する不確実集合とそのサイズを選択するのに使うことができる。

We introduce the notion of Worst-Case Sensitivity, defined as the worst-case rate of increase in the expected cost of a Distributionally Robust Optimization (DRO) model when the size of the uncertainty set vanishes. We show that worst-case sensitivity is a Generalized Measure of Deviation and that a large class of DRO models are essentially mean-(worst-case) sensitivity problems when uncertainty sets are small, unifying recent results on the relationship between DRO and regularized empirical optimization with worst-case sensitivity playing the role of the regularizer. More generally, DRO solutions can be sensitive to the family and size of the uncertainty set, and reflect the properties of its worst-case sensitivity. We derive closed-form expressions of worst-case sensitivity for well known uncertainty sets including smooth $\phi$-divergence, total variation, "budgeted" uncertainty sets, uncertainty sets corresponding to a convex combination of expected value and CVaR, and the Wasserstein metric. These can be used to select the uncertainty set and its size for a given application.
翻訳日:2022-10-05 00:43:41 公開日:2020-10-21
# ASCII: Ignorance Interchange を用いた補助分類

ASCII: ASsisted Classification with Ignorance Interchange ( http://arxiv.org/abs/2010.10747v1 )

ライセンス: Link先を確認
Jiaying Zhou, Xun Xian, Na Li, Jie Ding(参考訳) データ収集装置と計算プラットフォームの急速な開発により、エージェントの数が増加し、それぞれが特定の対象者に対してユニークなデータモダリティを備えている。 エージェントの予測性能は、他のデータを送信することで向上するが、これはしばしば難読な送信コストとセキュリティ上の懸念のために非現実的である。 エージェントの予測性能は、他のデータを送信することで向上するが、これはしばしば難読な送信コストとセキュリティ上の懸念のために非現実的である。 本稿では,他のエージェントの助けを借りて,エージェントの分類性能を向上させるためのASCIIという手法を提案する。 主なアイデアは、必要な追加援助の緊急度を表すエージェント間で、各コラートされたサンプルの無知値を0から1に繰り返し交換することである。 この方法は、プライバシー、伝達経済、分散学習シナリオに自然に適している。 この方法は、エージェントがロジスティック回帰、アンサンブルツリー、ニューラルネットワークなどの任意の分類器を使用できるため、エージェント間で異種である可能性があるため、一般的な方法である。 提案手法を広範囲な実験により実証する。

The rapid development in data collecting devices and computation platforms produces an emerging number of agents, each equipped with a unique data modality over a particular population of subjects. While the predictive performance of an agent may be enhanced by transmitting other data to it, this is often unrealistic due to intractable transmission costs and security concerns. While the predictive performance of an agent may be enhanced by transmitting other data to it, this is often unrealistic due to intractable transmission costs and security concerns. In this paper, we propose a method named ASCII for an agent to improve its classification performance through assistance from other agents. The main idea is to iteratively interchange an ignorance value between 0 and 1 for each collated sample among agents, where the value represents the urgency of further assistance needed. The method is naturally suitable for privacy-aware, transmission-economical, and decentralized learning scenarios. The method is also general as it allows the agents to use arbitrary classifiers such as logistic regression, ensemble tree, and neural network, and they may be heterogeneous among agents. We demonstrate the proposed method with extensive experimental studies.
翻訳日:2022-10-05 00:43:18 公開日:2020-10-21
# ProphetNet-Ads: スポンサー検索エンジンにおける検索モデルの生成戦略

ProphetNet-Ads: A Looking Ahead Strategy for Generative Retrieval Models in Sponsored Search Engine ( http://arxiv.org/abs/2010.10789v1 )

ライセンス: Link先を確認
Weizhen Qi, Yeyun Gong, Yu Yan, Jian Jiao, Bo Shao, Ruofei Zhang, Houqiang Li, Nan Duan, Ming Zhou(参考訳) スポンサー付き検索エンジンでは,ユーザの入力クエリに関連のある広告キーワードをマイニングするための生成検索モデルが最近提案されている。 生成検索モデルは、生成されたすべての出力が合法で、対象ライブラリによってカバーされることを保証する、ターゲットライブラリプレフィックスツリー(trie)のパス上のトークンによる出力トークンを生成する。 実使用では,三重拘束探索長に起因するいくつかの典型的な問題を発見した。 本稿では,これらの問題を解析し,ProphetNet-Adsと呼ばれる生成検索モデルの今後の戦略を提案する。 ProphetNet-Adsは、トリエ制約探索空間を直接最適化することで、検索能力を向上する。 実単語支援検索エンジンからデータセットを構築し、異なる生成的検索モデルを分析する実験を行う。 近年提案されているtrieベースのlstm生成検索モデルと比較して,単一モデルの結果と統合結果がそれぞれ15.58\%,18.8\%,ビームサイズ5。 ケーススタディはさらに、prophetnet-adsによってこれらの問題がどのように軽減されるかを示す。

In a sponsored search engine, generative retrieval models are recently proposed to mine relevant advertisement keywords for users' input queries. Generative retrieval models generate outputs token by token on a path of the target library prefix tree (Trie), which guarantees all of the generated outputs are legal and covered by the target library. In actual use, we found several typical problems caused by Trie-constrained searching length. In this paper, we analyze these problems and propose a looking ahead strategy for generative retrieval models named ProphetNet-Ads. ProphetNet-Ads improves the retrieval ability by directly optimizing the Trie-constrained searching space. We build a dataset from a real-word sponsored search engine and carry out experiments to analyze different generative retrieval models. Compared with Trie-based LSTM generative retrieval model proposed recently, our single model result and integrated result improve the recall by 15.58\% and 18.8\% respectively with beam size 5. Case studies further demonstrate how these problems are alleviated by ProphetNet-Ads clearly.
翻訳日:2022-10-05 00:36:29 公開日:2020-10-21
# RoBERTaを用いた新型コロナウイルス情報ツイートの検出

Detection of COVID-19 informative tweets using RoBERTa ( http://arxiv.org/abs/2010.11238v1 )

ライセンス: Link先を確認
Sirigireddy Dhanalaxmi, Rohit Agarwal, Aman Sinha(参考訳) Twitterのようなソーシャルメディアは、ユーザー生成情報のホットスポットである。 進行中のCovid-19パンデミックでは、ソーシャルメディア上の大量のデータが、情報的かつ非情報的コンテンツとして分類されている。 本稿では,2020年のW-NUTワークショップの一環として,RoBERTaモデルを用いて,情報発信型Covid-19英語ツイートを検出する。 検証データセットではf1-scoreが0.89、リーダボードでは 0.87 のパブリックデータセット上でのモデルの有効性を示す。

Social media such as Twitter is a hotspot of user-generated information. In this ongoing Covid-19 pandemic, there has been an abundance of data on social media which can be classified as informative and uninformative content. In this paper, we present our work to detect informative Covid-19 English tweets using RoBERTa model as a part of the W-NUT workshop 2020. We show the efficacy of our model on a public dataset with an F1-score of 0.89 on the validation dataset and 0.87 on the leaderboard.
翻訳日:2022-10-05 00:36:12 公開日:2020-10-21
# 重み付きロジスティック回帰による条件密度推定

Conditional Density Estimation via Weighted Logistic Regressions ( http://arxiv.org/abs/2010.10896v1 )

ライセンス: Link先を確認
Yiping Guo and Howard D. Bondell(参考訳) 単純な点推定器としての条件付き平均と比較して、条件付き密度関数は多様性、非対称性、あるいはヘテロスケルキスティック性を持つ分布を記述するのにより有益である。 本稿では,不均質ポアソン過程モデルの一般密度と確率関数との関係を示すことにより,新しいパラメトリック条件密度推定法を提案する。 最大度推定は重み付きロジスティック回帰によって得られ、ブロック回り交互最大化スキームと局所ケースコントロールサンプリングを組み合わせることで計算を著しく緩和することができる。 イラストのシミュレーション研究も行っています。

Compared to the conditional mean as a simple point estimator, the conditional density function is more informative to describe the distributions with multi-modality, asymmetry or heteroskedasticity. In this paper, we propose a novel parametric conditional density estimation method by showing the connection between the general density and the likelihood function of inhomogeneous Poisson process models. The maximum likelihood estimates can be obtained via weighted logistic regressions, and the computation can be significantly relaxed by combining a block-wise alternating maximization scheme and local case-control sampling. We also provide simulation studies for illustration.
翻訳日:2022-10-05 00:35:15 公開日:2020-10-21
# 偽発見率制御を用いた大規模ガウス図形モデルの転送学習

Transfer Learning in Large-scale Gaussian Graphical Models with False Discovery Rate Control ( http://arxiv.org/abs/2010.11037v1 )

ライセンス: Link先を確認
Sai Li and T. Tony Cai and Hongzhe Li(参考訳) 高次元ガウス図形モデル(GGM)の移動学習は、類似および関連する補助研究のデータを利用して目標GGMを推定することを目的として研究される。 対象グラフと各補助グラフとの類似性は、発散行列のスパース性によって特徴づけられる。 評価アルゴリズムであるTrans-CLIMEを提案し, 単一実験環境における最小収束速度よりも高速に収束することを示した。 さらに、デバイアスド・トランスクリム推定器を導入し、要素的に漸近的に正常であることが示される。 誤検出率制御によるエッジ検出のための複数のテスト手順を構築するために使用される。 提案手法はシミュレーションにおいて優れた数値計算性能を示し、他の複数の脳組織からの遺伝子発現を利用して標的脳組織内の遺伝子ネットワークを推定する。 予測誤差の顕著な減少とリンク検出のパワーの大幅な増大が観察された。

Transfer learning for high-dimensional Gaussian graphical models (GGMs) is studied with the goal of estimating the target GGM by utilizing the data from similar and related auxiliary studies. The similarity between the target graph and each auxiliary graph is characterized by the sparsity of a divergence matrix. An estimation algorithm, Trans-CLIME, is proposed and shown to attain a faster convergence rate than the minimax rate in the single study setting. Furthermore, a debiased Trans-CLIME estimator is introduced and shown to be element-wise asymptotically normal. It is used to construct a multiple testing procedure for edge detection with false discovery rate control. The proposed estimation and multiple testing procedures demonstrate superior numerical performance in simulations and are applied to infer the gene networks in a target brain tissue by leveraging the gene expressions from multiple other brain tissues. A significant decrease in prediction errors and a significant increase in power for link detection are observed.
翻訳日:2022-10-05 00:35:05 公開日:2020-10-21
# 実験用高効率平衡処理アサインメント

Efficient Balanced Treatment Assignments for Experimentation ( http://arxiv.org/abs/2010.11332v1 )

ライセンス: Link先を確認
David Arbour, Drew Dimmery, Anup Rao(参考訳) 本研究では,テストユニットと制御ユニット間の2サンプルテストの最適化として,バランスの取れた処理割り当ての問題を再検討する。 このレンズを用いて、Friedman and Rafsky (1979) の最小スパンニングツリー検定に対して最適である割当てアルゴリズムを提供する。 この処理群への割り当ては多項式時間で正確に行うことができる。 我々は、この過程の確率論的解釈を、その設計の確率的解釈を許容する行列点過程から導かれる最も可能性の高い設計要素の観点で提供する。 本稿では, トランスダクティブ推論として推定を新たに定式化し, 設計に使用される木構造を調整推定器に用いる方法を示す。 提案手法の有効性を実証したシミュレーション研究を締めくくった。

In this work, we reframe the problem of balanced treatment assignment as optimization of a two-sample test between test and control units. Using this lens we provide an assignment algorithm that is optimal with respect to the minimum spanning tree test of Friedman and Rafsky (1979). This assignment to treatment groups may be performed exactly in polynomial time. We provide a probabilistic interpretation of this process in terms of the most probable element of designs drawn from a determinantal point process which admits a probabilistic interpretation of the design. We provide a novel formulation of estimation as transductive inference and show how the tree structures used in design can also be used in an adjustment estimator. We conclude with a simulation study demonstrating the improved efficacy of our method.
翻訳日:2022-10-05 00:34:52 公開日:2020-10-21
# 補完適応による水中画像色補正

Underwater Image Color Correction by Complementary Adaptation ( http://arxiv.org/abs/2010.10748v1 )

ライセンス: Link先を確認
Yuchen He(参考訳) 本稿では,CIELAB色空間におけるTikhonov型最適化モデルに基づく水中色補正手法を提案する。 これは、人間の視覚系(HVS)の色調概念と色調の関連性を確立する心理物理学における相補的適応理論の新しい変分解釈である。 本手法は, 長期適応プロセスとして, 水中色キャストを効果的に除去し, バランスの取れた色分布を得る。 可視化のために、CIELABガミュートを通過させることなく、明度と彩色の両方を適切に再スケーリングすることで画像コントラストを高める。 エンハンスメントの大きさは色選択的かつ画像ベースであるため, 水中撮像環境の異なる環境において堅牢である。 cielabの均一性を改善するために,前処理としてhue線形化を近似し,後処理としてhelmholtz-kohlrausch効果を逆変換する。 提案モデルを各種数値実験により解析・検証する。 水中条件に設計した画像品質指標に基づいて,提案手法が一貫して優れた性能を有することを示す最新手法と比較した。

In this paper, we propose a novel approach for underwater image color correction based on a Tikhonov type optimization model in the CIELAB color space. It presents a new variational interpretation of the complementary adaptation theory in psychophysics, which establishes the connection between colorimetric notions and color constancy of the human visual system (HVS). Understood as a long-term adaptive process, our method effectively removes the underwater color cast and yields a balanced color distribution. For visualization purposes, we enhance the image contrast by properly rescaling both lightness and chroma without trespassing the CIELAB gamut. The magnitude of the enhancement is hue-selective and image-based, thus our method is robust for different underwater imaging environments. To improve the uniformity of CIELAB, we include an approximate hue-linearization as the pre-processing and an inverse transform of the Helmholtz-Kohlrausch effect as the post-processing. We analyze and validate the proposed model by various numerical experiments. Based on image quality metrics designed for underwater conditions, we compare with some state-of-art approaches to show that the proposed method has consistently superior performances.
翻訳日:2022-10-05 00:34:26 公開日:2020-10-21
# LCD -- 位置認識のためのラインクラスタリングと記述

LCD -- Line Clustering and Description for Place Recognition ( http://arxiv.org/abs/2010.10867v1 )

ライセンス: Link先を確認
Felix Taubner, Florian Tschopp, Tonci Novkovic, Roland Siegwart, Fadri Furrer(参考訳) 視覚位置認識に関する最近の研究は、画像の局所的な視覚特徴を単一のベクトル表現に集約することに焦点を当てている。 したがって、特徴の幾何学的配置のような高レベル情報は通常失われる。 本稿では,rgb-dカメラとラインクラスタを視覚的および幾何学的特徴として用いる,新しい学習に基づく位置認識手法を提案する。 位置認識問題は、個々のパッチの代わりにラインのクラスタを認識する問題であり、構造情報の保持である。 私たちの研究では、ラインクラスタは個々のオブジェクトを構成する行として定義しているので、プレース認識アプローチはオブジェクト認識として理解することができます。 最先端技術を用いてRGB-D画像から3次元線分を検出する。 本稿では,フレームワイズラインクラスタリングのための注意機構に基づくニューラルネットワークアーキテクチャを提案する。 類似のニューラルネットワークは、128の浮動小数点数からなるコンパクトな埋め込みでこれらのクラスタの記述に使用され、インテリアネットデータセットから得られたトレーニングデータに対してトリプルトロスを訓練する。 そこで本研究では,室内シーンの多数の実験を行い,SIFTとSuperPointとグローバルディスクリプタNetVLADを用いた単語の検索手法との比較を行った。 本手法は、合成データのみに基づいて訓練され、Kinectセンサで捉えた実世界のデータに対して、また、インスタンスの幾何学的配置に関する情報を提供する。

Current research on visual place recognition mostly focuses on aggregating local visual features of an image into a single vector representation. Therefore, high-level information such as the geometric arrangement of the features is typically lost. In this paper, we introduce a novel learning-based approach to place recognition, using RGB-D cameras and line clusters as visual and geometric features. We state the place recognition problem as a problem of recognizing clusters of lines instead of individual patches, thus maintaining structural information. In our work, line clusters are defined as lines that make up individual objects, hence our place recognition approach can be understood as object recognition. 3D line segments are detected in RGB-D images using state-of-the-art techniques. We present a neural network architecture based on the attention mechanism for frame-wise line clustering. A similar neural network is used for the description of these clusters with a compact embedding of 128 floating point numbers, trained with triplet loss on training data obtained from the InteriorNet dataset. We show experiments on a large number of indoor scenes and compare our method with the bag-of-words image-retrieval approach using SIFT and SuperPoint features and the global descriptor NetVLAD. Trained only on synthetic data, our approach generalizes well to real-world data captured with Kinect sensors, while also providing information about the geometric arrangement of instances.
翻訳日:2022-10-05 00:34:08 公開日:2020-10-21
# IJCAI 3D AI Challenge 2020のインスタンスセグメンテーションに対する第2位ソリューション

2nd Place Solution to Instance Segmentation of IJCAI 3D AI Challenge 2020 ( http://arxiv.org/abs/2010.10957v1 )

ライセンス: Link先を確認
Kai Jiang (1), Xiangyue Liu (2), Zheng Ju (3), Xiang Luo (1)((1) LinkDoc Technology, Beijing, China, (2) School of Software, Beihang University, Beijing, China, (3) Huaxin consulting Co., Ltd, Hangzhou, China)(参考訳) MS-COCOと比較して、競合のデータセットは96x96ピクセルを超える大きなオブジェクトの比率が大きい。 大きなオブジェクトのセグメンテーションでは、細かいバウンダリを得ることが極めて重要であるため、pointrendを使ったマスクr-cnnがベースセグメンテーションフレームワークとして選択され、高品質なオブジェクト境界を出力する。 さらに、ResNeSt、FPN、DCNv2を統合したより優れたエンジンと、マルチスケールトレーニングやテスト時間拡張を含む様々な効果的なトリックを適用し、セグメンテーション性能を向上させる。 私たちの最高のパフォーマンスは、4つのモデル(PointRendベースの3つのモデルとSOLOv2)のアンサンブルで、IJCAI-PRICAI 3D AI Challenge 2020: Instance Segmentationで2位を獲得しました。

Compared with MS-COCO, the dataset for the competition has a larger proportion of large objects which area is greater than 96x96 pixels. As getting fine boundaries is vitally important for large object segmentation, Mask R-CNN with PointRend is selected as the base segmentation framework to output high-quality object boundaries. Besides, a better engine that integrates ResNeSt, FPN and DCNv2, and a range of effective tricks that including multi-scale training and test time augmentation are applied to improve segmentation performance. Our best performance is an ensemble of four models (three PointRend-based models and SOLOv2), which won the 2nd place in IJCAI-PRICAI 3D AI Challenge 2020: Instance Segmentation.
翻訳日:2022-10-05 00:27:48 公開日:2020-10-21
# ローカルな特徴マッチングをガイドする学習

Learning to Guide Local Feature Matches ( http://arxiv.org/abs/2010.10959v1 )

ライセンス: Link先を確認
Fran\c{c}ois Darmon and Mathieu Aubry and Pascal Monasse(参考訳) 画像間の高精度で堅牢なキーポイント対応を見つける問題に取り組む。 本稿では,局所特徴マッチングを学習した近似画像マッチングを用いてガイドする学習手法を提案する。 我々の手法はSIFTの結果をSuperpointやContextDesc、D2-Netといった最先端のDeep Descriptorに類似したレベルに引き上げることができ、これらのDescriptorの性能を向上させることができる。 我々は、粗い対応を学ぶために異なるレベルの監督を導入し、研究する。 特に、エピポーラ幾何学からの弱い監督は、より強いが偏りのある点レベルの監督よりも高い性能をもたらすことが示され、画像レベルの監督よりも明らかに改善されている。 我々は,YFCC100Mデータセット上のインターネット画像のローカライズとSUN3Dデータセット上の屋内画像のローカライズ,Aachenday-nightベンチマークでのロバストなローカライズ,LTLL履歴画像データを用いた挑戦的な状況における3次元再構成について,この手法の利点を様々な条件で示す。

We tackle the problem of finding accurate and robust keypoint correspondences between images. We propose a learning-based approach to guide local feature matches via a learned approximate image matching. Our approach can boost the results of SIFT to a level similar to state-of-the-art deep descriptors, such as Superpoint, ContextDesc, or D2-Net and can improve performance for these descriptors. We introduce and study different levels of supervision to learn coarse correspondences. In particular, we show that weak supervision from epipolar geometry leads to performances higher than the stronger but more biased point level supervision and is a clear improvement over weak image level supervision. We demonstrate the benefits of our approach in a variety of conditions by evaluating our guided keypoint correspondences for localization of internet images on the YFCC100M dataset and indoor images on theSUN3D dataset, for robust localization on the Aachen day-night benchmark and for 3D reconstruction in challenging conditions using the LTLL historical image data.
翻訳日:2022-10-05 00:27:32 公開日:2020-10-21
# 効率的な非線形最小方形に対するプログレッシブバッチ

Progressive Batching for Efficient Non-linear Least Squares ( http://arxiv.org/abs/2010.10968v1 )

ライセンス: Link先を確認
Huu Le, Christopher Zach, Edward Rosten and Oliver J. Woodford(参考訳) 非線形最小二乗解法は、広範囲のオフラインおよびリアルタイムモデル適合問題で用いられる。 gauss-newtonアルゴリズムのほとんどの改良は収束保証に取り組み、計算の高速化のために基礎となる問題構造のスパース性を活用する。 大規模データセットを活用したディープラーニング手法の成功により、確率最適化手法は近年多くの注目を集めている。 我々の研究は確率的機械学習と統計学の両方からアイデアを借用し、収束を保証しつつ計算量を大幅に削減する非線形最小二乗に対するアプローチを提案する。 実験により,提案手法は,画像アライメントや本質的行列推定などのコンピュータビジョン問題に対する従来の2次アプローチと比較して,非常に多数の残差を持つ競合収束率を実現することを示す。

Non-linear least squares solvers are used across a broad range of offline and real-time model fitting problems. Most improvements of the basic Gauss-Newton algorithm tackle convergence guarantees or leverage the sparsity of the underlying problem structure for computational speedup. With the success of deep learning methods leveraging large datasets, stochastic optimization methods received recently a lot of attention. Our work borrows ideas from both stochastic machine learning and statistics, and we present an approach for non-linear least-squares that guarantees convergence while at the same time significantly reduces the required amount of computation. Empirical results show that our proposed method achieves competitive convergence rates compared to traditional second-order approaches on common computer vision problems, such as image alignment and essential matrix estimation, with very large numbers of residuals.
翻訳日:2022-10-05 00:27:10 公開日:2020-10-21
# 顔の行動を検出するための学習のための合成表現

Synthetic Expressions are Better Than Real for Learning to Detect Facial Actions ( http://arxiv.org/abs/2010.10979v1 )

ライセンス: Link先を確認
Koichiro Niinuma, Itir Onal Ertugrul, Jeffrey F Cohn, L\'aszl\'o A Jeni(参考訳) 顔の動きを検出するための分類器の訓練における重要な障害は、注釈付きビデオデータベースのサイズと、多くのアクションが発生する比較的低い頻度である。 これらの問題に対処するために,表情生成を利用したアプローチを提案する。 提案手法では,各映像フレームから顔の3d形状を再構成し,3dメッシュを正準ビューに調整し,ganベースのネットワークを訓練し,新たな顔動作ユニットを合成する。 このアプローチを評価するために、ディープニューラルネットワークは2つの異なるデータセットでトレーニングされた: 1つのネットワークはFERA17から生成された合成された表情のビデオでトレーニングされた。 両方のネットワークは同じ列車と検証パーティションを使用して、FERA17の実際のビデオのテストパーティションでテストされた。 このネットワークは、合成された表情を訓練し、実際の表情を訓練し、現在の最先端のアプローチを上回った。

Critical obstacles in training classifiers to detect facial actions are the limited sizes of annotated video databases and the relatively low frequencies of occurrence of many actions. To address these problems, we propose an approach that makes use of facial expression generation. Our approach reconstructs the 3D shape of the face from each video frame, aligns the 3D mesh to a canonical view, and then trains a GAN-based network to synthesize novel images with facial action units of interest. To evaluate this approach, a deep neural network was trained on two separate datasets: One network was trained on video of synthesized facial expressions generated from FERA17; the other network was trained on unaltered video from the same database. Both networks used the same train and validation partitions and were tested on the test partition of actual video from FERA17. The network trained on synthesized facial expressions outperformed the one trained on actual facial expressions and surpassed current state-of-the-art approaches.
翻訳日:2022-10-05 00:26:57 公開日:2020-10-21
# 深層ニューラルネットワークを用いたスタックインターチェンジのUAV LiDARポイントクラウドセグメンテーション

UAV LiDAR Point Cloud Segmentation of A Stack Interchange with Deep Neural Networks ( http://arxiv.org/abs/2010.11106v1 )

ライセンス: Link先を確認
Weikai Tan, Dedong Zhang, Lingfei Ma, Ying Li, Lanying Wang, and Jonathan Li(参考訳) スタックインターチェンジは輸送システムの必須コンポーネントである。 モバイルレーザー走査(mls)システムは道路インフラマッピングに広く用いられているが、複雑な多層スタックインターチェンジの正確なマッピングは依然として困難である。 本研究では,新しい無人航空機(UAV)光検出・照準システム(LiDAR)によって収集された点群を解析し,スタックインターチェンジのセマンティックセグメンテーションタスクを実行する。 ポイントクラウドを分類するために、エンドツーエンドで教師付き3Dディープラーニングフレームワークが提案された。 提案手法は,重畳畳み込みを伴う複雑な交換シナリオにおける3次元特徴を抽出し,93%以上の分類精度を達成した。 さらに、ローコストな半固体LiDARセンサーLivox Mid-40は、一般的なロゼットスキャンパターンを特徴としている。

Stack interchanges are essential components of transportation systems. Mobile laser scanning (MLS) systems have been widely used in road infrastructure mapping, but accurate mapping of complicated multi-layer stack interchanges are still challenging. This study examined the point clouds collected by a new Unmanned Aerial Vehicle (UAV) Light Detection and Ranging (LiDAR) system to perform the semantic segmentation task of a stack interchange. An end-to-end supervised 3D deep learning framework was proposed to classify the point clouds. The proposed method has proven to capture 3D features in complicated interchange scenarios with stacked convolution and the result achieved over 93% classification accuracy. In addition, the new low-cost semi-solid-state LiDAR sensor Livox Mid-40 featuring a incommensurable rosette scanning pattern has demonstrated its potential in high-definition urban mapping.
翻訳日:2022-10-05 00:26:39 公開日:2020-10-21
# 3dメタポイントシグネチャ:3d高密度形状対応のための3dポイントシグネチャの学習

3D Meta Point Signature: Learning to Learn 3D Point Signature for 3D Dense Shape Correspondence ( http://arxiv.org/abs/2010.11159v1 )

ライセンス: Link先を確認
Hao Huang, Lingjing Wang, Xiang Li, Yi Fang(参考訳) 点シグネチャ(ポイントシグネチャ)は、3次元形状の点の構造的近傍を表す表現であり、3次元形状の点間の対応を確立するために用いられる。 従来の方法では、例えば任意のグラフニューラルネットワークのような重量共有ネットワークを適用して、すべての地区でポイントシグネチャを直接生成し、スクラッチから大量のトレーニングサンプルを広範囲にトレーニングすることで一般化能力を得る。 しかし、これらの手法は目に見えない近傍構造に迅速に適応する柔軟性を欠いており、新しい点集合の一般化が不十分である。 本稿では,3次元形状のロバストな点シグネチャを学習できる3dmetapointsignature(meps)ネットワークという,新しいメタラーニング型3dポイントシグネチャモデルを提案する。 各ポイントシグネチャ学習プロセスをタスクとして扱うことにより、すべてのタスクの分散における最高のパフォーマンスよりも最適化されたモデルを求め、新しいタスク、すなわち、目に見えないポイント近傍のシグネチャに対して信頼できるシグネチャを生成する。 具体的には、MEPSはベースシグネチャ学習者とメタシグネチャ学習者という2つのモジュールから構成される。 トレーニング中、base-learnerは特定のシグネチャ学習タスクを実行するように訓練される。 その間、メタリーナーは最適なパラメータでベースリーナーを更新するように訓練される。 テスト中、すべてのタスクの分散で学習されるメタリーナーは、ベースリーナーのパラメータを適応的に変更し、見えないローカルな近傍に適応することができる。 本研究では, FAUST と TOSCA の2つのデータセット上での MEPS モデルの評価を行った。 実験結果から,本手法はベースラインモデルよりも大幅に改善され,最先端の結果が得られるだけでなく,見えない3次元形状も扱えることがわかった。

Point signature, a representation describing the structural neighborhood of a point in 3D shapes, can be applied to establish correspondences between points in 3D shapes. Conventional methods apply a weight-sharing network, e.g., any kind of graph neural networks, across all neighborhoods to directly generate point signatures and gain the generalization ability by extensive training over a large amount of training samples from scratch. However, these methods lack the flexibility in rapidly adapting to unseen neighborhood structures and thus generalizes poorly on new point sets. In this paper, we propose a novel meta-learning based 3D point signature model, named 3Dmetapointsignature (MEPS) network, that is capable of learning robust point signatures in 3D shapes. By regarding each point signature learning process as a task, our method obtains an optimized model over the best performance on the distribution of all tasks, generating reliable signatures for new tasks, i.e., signatures of unseen point neighborhoods. Specifically, the MEPS consists of two modules: a base signature learner and a meta signature learner. During training, the base-learner is trained to perform specific signature learning tasks. In the meantime, the meta-learner is trained to update the base-learner with optimal parameters. During testing, the meta-learner that is learned with the distribution of all tasks can adaptively change parameters of the base-learner, accommodating to unseen local neighborhoods. We evaluate the MEPS model on two datasets, e.g., FAUST and TOSCA, for dense 3Dshape correspondence. Experimental results demonstrate that our method not only gains significant improvements over the baseline model and achieves state-of-the-art results, but also is capable of handling unseen 3D shapes.
翻訳日:2022-10-05 00:26:24 公開日:2020-10-21
# 顔表情からの眼内ドローズネス検出

In-the-wild Drowsiness Detection from Facial Expressions ( http://arxiv.org/abs/2010.11162v1 )

ライセンス: Link先を確認
Ajjen Joshi, Survi Kyal, Sandipan Banerjee, Taniya Mishra(参考訳) 眠気の状態で運転することは交通事故の主な原因であり、生命と財産に大きな損害を与える。 ドライバーの眠気状態を推測できる堅牢で自動化されたリアルタイムシステムを開発することは、救命に影響を及ぼす可能性がある。 しかし, 現実のシナリオでうまく機能する空白検出システムの開発は, 高ボリュームの現実的空白データ収集と, 進行する空白状態の複雑な時間ダイナミクスのモデル化が困難であるため, 困難である。 本稿では,運転中の顔を記録するカメラキットを用いて,夜間シフト作業者の車両を配置するデータ収集プロトコルを提案する。 我々は,収集した動画を「alert」,「slightly drowsy」,「moderately drowsy」,「extremely drowsy」の4段階のdrowsinessにラベル付けするためのdrowsinessアノテーションガイドラインを開発した。 運転者の顔の入力映像のポーズ,表情,感情に基づく表現から眠気状態を予測するために,畳み込みと時間的ニューラルネットワークアーキテクチャを用いて実験を行った。 ベースラインモデルでは0.72に比べて,マクロROC-AUCは0.78である。

Driving in a state of drowsiness is a major cause of road accidents, resulting in tremendous damage to life and property. Developing robust, automatic, real-time systems that can infer drowsiness states of drivers has the potential of making life-saving impact. However, developing drowsiness detection systems that work well in real-world scenarios is challenging because of the difficulties associated with collecting high-volume realistic drowsy data and modeling the complex temporal dynamics of evolving drowsy states. In this paper, we propose a data collection protocol that involves outfitting vehicles of overnight shift workers with camera kits that record their faces while driving. We develop a drowsiness annotation guideline to enable humans to label the collected videos into 4 levels of drowsiness: `alert', `slightly drowsy', `moderately drowsy' and `extremely drowsy'. We experiment with different convolutional and temporal neural network architectures to predict drowsiness states from pose, expression and emotion-based representation of the input video of the driver's face. Our best performing model achieves a macro ROC-AUC of 0.78, compared to 0.72 for a baseline model.
翻訳日:2022-10-05 00:25:53 公開日:2020-10-21
# ボロノイ畳み込みニューラルネットワーク

Voronoi Convolutional Neural Networks ( http://arxiv.org/abs/2010.11339v1 )

ライセンス: Link先を確認
Soroosh Yazdani and Andrea Tagliasacchi(参考訳) 本稿では,畳み込みニューラルネットワークをグリッドパターンで関数をサンプリングしないような環境に拡張する方法について検討する。 サンプルを細胞内の関数の平均として扱うことにより、cnnで使用されるほとんどの層に自然な等価性を見出すことができる。 また,標準凸幾何アルゴリズムを用いて,これらのモデルの推論を行うアルゴリズムを提案する。

In this technical report, we investigate extending convolutional neural networks to the setting where functions are not sampled in a grid pattern. We show that by treating the samples as the average of a function within a cell, we can find a natural equivalent of most layers used in CNN. We also present an algorithm for running inference for these models exactly using standard convex geometry algorithms.
翻訳日:2022-10-05 00:25:18 公開日:2020-10-21
# FreeDOM: Webドキュメント上の構造化情報抽出のためのトランスファー可能なニューラルネットワーク

FreeDOM: A Transferable Neural Architecture for Structured Information Extraction on Web Documents ( http://arxiv.org/abs/2010.10755v1 )

ライセンス: Link先を確認
Bill Yuchen Lin, Ying Sheng, Nguyen Vo, Sandeep Tata(参考訳) htmlドキュメントから構造化データを抽出することは、知識ベースの拡張、ファセット検索のサポート、ショッピングや映画といった重要な分野に対するドメイン固有のエクスペリエンスの提供など、幅広いアプリケーションで長年研究されてきた問題である。 以前のアプローチでは、ターゲットサイトごとに少数のサンプルが必要であったり、ウェブサイトの視覚的なレンダリングの上に注意深く手作りのヒューリスティックに頼っていたりしていた。 本稿では,これらの制約を克服する2段階のニューラルアプローチであるFreeDOMを提案する。 第1段は、テキストとマークアップ情報を組み合わせたページ内の各DOMノードの表現を学習する。 第2段階は、リレーショナルニューラルネットワークを用いて、より長い範囲距離と意味的関連性をキャプチャする。 これらのステージを組み合わせることで、freedomは、その垂直方向から少数のシードサイトをトレーニングした後、目に見えないサイトに一般化することができる。 8つの異なる垂直方向を持つ公開データセットの実験を通して、FreeDOMはレンダリングされたページや高価な手作りの機能を必要とせずに、平均で3.7F1ポイント近く、アートの以前の状態を上回ります。

Extracting structured data from HTML documents is a long-studied problem with a broad range of applications like augmenting knowledge bases, supporting faceted search, and providing domain-specific experiences for key verticals like shopping and movies. Previous approaches have either required a small number of examples for each target site or relied on carefully handcrafted heuristics built over visual renderings of websites. In this paper, we present a novel two-stage neural approach, named FreeDOM, which overcomes both these limitations. The first stage learns a representation for each DOM node in the page by combining both the text and markup information. The second stage captures longer range distance and semantic relatedness using a relational neural network. By combining these stages, FreeDOM is able to generalize to unseen sites after training on a small number of seed sites from that vertical without requiring expensive hand-crafted features over visual renderings of the page. Through experiments on a public dataset with 8 different verticals, we show that FreeDOM beats the previous state of the art by nearly 3.7 F1 points on average without requiring features over rendered pages or expensive hand-crafted features.
翻訳日:2022-10-05 00:25:11 公開日:2020-10-21
# 時系列特徴量に基づく多項決定解析とテンソルアプローチのための位相法の提案に関する研究

A study of the Multicriteria decision analysis based on the time-series features and a TOPSIS method proposal for a tensorial approach ( http://arxiv.org/abs/2010.11720v1 )

ライセンス: Link先を確認
Betania S. C. Campello, Leonardo T. Duarte, Jo\~ao M. T. Romano(参考訳) 複数の決定基準に基づいて代替品をランク付けするための複数の多重基準決定分析(mcda)法が開発されている。 通常、MCDA法は、決定が下された時点での基準値を扱うが、時間とともにその進化を考慮しない。 しかし、意思決定に不可欠な情報(例えば基準の改善)を提供することから、基準の時系列を考えることが重要かもしれない。 この問題に対処するため,我々は,基準の時系列特徴(テンデンシー,分散など)に基づいて代替品をランク付けする新しい手法を提案する。 このアプローチでは、データは3次元に構造化され、MCDAで使用される古典行列表現の代わりに、より複雑なデータ構造である「textit{tensors}」を必要とする。 そこで本研究では,行列ではなくテンソルを扱うTOPSIS法の拡張を提案する。 計算結果から,有意義な意思決定情報を考慮して代替案を新しい視点からランク付けすることが可能であることが判明した。

A number of Multiple Criteria Decision Analysis (MCDA) methods have been developed to rank alternatives based on several decision criteria. Usually, MCDA methods deal with the criteria value at the time the decision is made without considering their evolution over time. However, it may be relevant to consider the criteria' time series since providing essential information for decision-making (e.g., an improvement of the criteria). To deal with this issue, we propose a new approach to rank the alternatives based on the criteria time-series features (tendency, variance, etc.). In this novel approach, the data is structured in three dimensions, which require a more complex data structure, as the \textit{tensors}, instead of the classical matrix representation used in MCDA. Consequently, we propose an extension for the TOPSIS method to handle a tensor rather than a matrix. Computational results reveal that it is possible to rank the alternatives from a new perspective by considering meaningful decision-making information.
翻訳日:2022-10-05 00:19:11 公開日:2020-10-21
# 幾何学に基づく自律走行用オクルージョンアウェア非教師付きステレオマッチング

Geometry-based Occlusion-Aware Unsupervised Stereo Matching for Autonomous Driving ( http://arxiv.org/abs/2010.10700v1 )

ライセンス: Link先を確認
Liang Peng, Dan Deng, and Deng Cai(参考訳) 近年,教師なし学習に基づく自律運転のためのステレオマッチング手法が数多く出現している。 多くは再建損失を利用して、異質な基盤への依存を取り除く。 閉塞処理はステレオマッチングにおいて特に教師なし手法では難しい問題である。 従来の教師なし手法では咬合処理の幾何学的性質を十分に活用できなかった。 本稿では,隠蔽領域の検出に有効な手法を提案するとともに,その幾何学的特徴を反復的に利用することにより,予測左差マップのみを用いた隠蔽領域の非教師なし学習戦略を提案する。 トレーニングプロセスでは,予測された左不等式マップを疑似接地とし,幾何特徴を用いてオクルード領域を推定する。 結果として生じるオクルージョンマスクは、トレーニング、後処理、あるいはどちらもガイダンスとして使用される。 実験の結果,オクルージョン問題に効果的に対処でき,ステレオマッチングのための他の教師なし手法よりも優れていた。 さらに,我々のオクルージョン・アウェア戦略は,他のステレオメソッドにも便利に拡張でき,性能が向上する。

Recently, there are emerging many stereo matching methods for autonomous driving based on unsupervised learning. Most of them take advantage of reconstruction losses to remove dependency on disparity groundtruth. Occlusion handling is a challenging problem in stereo matching, especially for unsupervised methods. Previous unsupervised methods failed to take full advantage of geometry properties in occlusion handling. In this paper, we introduce an effective way to detect occlusion regions and propose a novel unsupervised training strategy to deal with occlusion that only uses the predicted left disparity map, by making use of its geometry features in an iterative way. In the training process, we regard the predicted left disparity map as pseudo groundtruth and infer occluded regions using geometry features. The resulting occlusion mask is then used in either training, post-processing, or both of them as guidance. Experiments show that our method could deal with the occlusion problem effectively and significantly outperforms the other unsupervised methods for stereo matching. Moreover, our occlusion-aware strategies can be extended to the other stereo methods conveniently and improve their performances.
翻訳日:2022-10-05 00:18:41 公開日:2020-10-21
# targetdrop:畳み込みニューラルネットワークのための目標正規化手法

TargetDrop: A Targeted Regularization Method for Convolutional Neural Networks ( http://arxiv.org/abs/2010.10716v1 )

ライセンス: Link先を確認
Hui Zhu, Xiaofang Zhao(参考訳) ドロップアウト正規化はディープラーニングで広く使用されているが、空間的に相関した特徴により、ドロップアウト情報がネットワーク内を流れ続けることができるため、畳み込みニューラルネットワークでは効果が低い。 これに対処するためにいくつかの構造化されたドロップアウトが提案されているが、特徴がランダムにドロップされるため、オーバーあるいはアンダーの正規化が生じる傾向にある。 本稿では,識別機能ユニットをドロップするアテンション機構を組み込んだTargetDropというターゲット正規化手法を提案する。 具体的には、ターゲットチャネルに対応する特徴マップのターゲット領域をマスクアウトする。 他の手法との比較実験や異なるネットワークに適用した結果,本手法の正規化効果が示された。

Dropout regularization has been widely used in deep learning but performs less effective for convolutional neural networks since the spatially correlated features allow dropped information to still flow through the networks. Some structured forms of dropout have been proposed to address this but prone to result in over or under regularization as features are dropped randomly. In this paper, we propose a targeted regularization method named TargetDrop which incorporates the attention mechanism to drop the discriminative feature units. Specifically, it masks out the target regions of the feature maps corresponding to the target channels. Experimental results compared with the other methods or applied for different networks demonstrate the regularization effect of our method.
翻訳日:2022-10-05 00:18:26 公開日:2020-10-21
# I/Q変調分類のための高容量複素畳み込みニューラルネットワーク

High-Capacity Complex Convolutional Neural Networks For I/Q Modulation Classification ( http://arxiv.org/abs/2010.10717v1 )

ライセンス: Link先を確認
Jakob Krzyston, Rajib Bhattacharjea, Andrew Stark(参考訳) i/q変調分類は、各クラスのデータの品質が異なり、信号対雑音比(snr)によって定量化され、複素平面に構造を持つ、ユニークなパターン認識問題である。 これまでの研究では、これらのサンプルを複雑な値の信号として扱い、ディープラーニングフレームワーク内の複雑な値の畳み込みを計算することで、同等の浅いcnnアーキテクチャよりもパフォーマンスが大幅に向上している。 本研究では,残差や高密度接続を含む高容量アーキテクチャで複雑な値の畳み込みを計算し,ベンチマーク分類問題であるRadioML 2016.10aデータセットのピーク分類精度を92.4%とした。 I/Q変調分類のための複雑な畳み込みを伴う全ネットワークにおいて統計的に有意な改善を示す。 複雑性と推論の速度分析は、複雑な畳み込みを持つモデルが、それぞれのケースで同等のパラメータと同等の速度を持つアーキテクチャを実質的に上回っていることを示している。

I/Q modulation classification is a unique pattern recognition problem as the data for each class varies in quality, quantified by signal to noise ratio (SNR), and has structure in the complex-plane. Previous work shows treating these samples as complex-valued signals and computing complex-valued convolutions within deep learning frameworks significantly increases the performance over comparable shallow CNN architectures. In this work, we claim state of the art performance by enabling high-capacity architectures containing residual and/or dense connections to compute complex-valued convolutions, with peak classification accuracy of 92.4% on a benchmark classification problem, the RadioML 2016.10a dataset. We show statistically significant improvements in all networks with complex convolutions for I/Q modulation classification. Complexity and inference speed analyses show models with complex convolutions substantially outperform architectures with a comparable number of parameters and comparable speed by over 10% in each case.
翻訳日:2022-10-05 00:18:14 公開日:2020-10-21
# 付加ペデストリアン検出のための相互監督型特徴変調ネットワーク

Mutual-Supervised Feature Modulation Network for Occluded Pedestrian Detection ( http://arxiv.org/abs/2010.10744v1 )

ライセンス: Link先を確認
Ye He, Chao Zhu, Xu-Cheng Yin(参考訳) 最先端の歩行者検出装置は、非閉塞歩行者に対して大きな進歩を遂げてきたが、それでも激しい閉塞の中で苦戦している。 一般的な2段階アプローチの隠蔽処理戦略は、視覚的なボディアノテーションの追加による2段階アーキテクチャの構築である。 それでも、これらの手法にはいくつかの弱点がある。 どちらの分岐もスコアレベルの融合のみで独立に訓練されており、検知器が十分な歩行者特性を学習する保証はできない。 あるいは注意機構を利用して、目に見える身体の特徴のみを強調する。 しかし、密集した歩行者の視界の特徴は比較的小さな領域に集中しており、容易に発見できない。 以上の課題に対処するため,我々は,閉鎖された歩行者検出をより効果的に扱える,新しいMutual-Supervised Feature Modulation (MSFM) ネットワークを提案する。 我々のネットワークのキーMSFMモジュールは、同じ歩行者に対応する全体箱と可視体箱の類似性損失を計算し、全体検出器が閉塞部分からコンテキスト特徴を補助することにより、より完全で堅牢な歩行者特徴を学習できるようにする。 また,msfmモジュールを容易にするために,標準全身検出ブランチと余分に目に見えるボディ分類ブランチからなる新しい2分岐アーキテクチャを提案する。 これら2つのブランチは、それぞれフルボディアノテーションと可視ボディアノテーションで相互に監督された方法でトレーニングされる。 提案手法の有効性を検証するために,2つの難易度の高い歩行者データセット,caltech と cityperson について広範な実験を行った。

State-of-the-art pedestrian detectors have achieved significant progress on non-occluded pedestrians, yet they are still struggling under heavy occlusions. The recent occlusion handling strategy of popular two-stage approaches is to build a two-branch architecture with the help of additional visible body annotations. Nonetheless, these methods still have some weaknesses. Either the two branches are trained independently with only score-level fusion, which cannot guarantee the detectors to learn robust enough pedestrian features. Or the attention mechanisms are exploited to only emphasize on the visible body features. However, the visible body features of heavily occluded pedestrians are concentrated on a relatively small area, which will easily cause missing detections. To address the above issues, we propose in this paper a novel Mutual-Supervised Feature Modulation (MSFM) network, to better handle occluded pedestrian detection. The key MSFM module in our network calculates the similarity loss of full body boxes and visible body boxes corresponding to the same pedestrian so that the full-body detector could learn more complete and robust pedestrian features with the assist of contextual features from the occluding parts. To facilitate the MSFM module, we also propose a novel two-branch architecture, consisting of a standard full body detection branch and an extra visible body classification branch. These two branches are trained in a mutual-supervised way with full body annotations and visible body annotations, respectively. To verify the effectiveness of our proposed method, extensive experiments are conducted on two challenging pedestrian datasets: Caltech and CityPersons, and our approach achieves superior performance compared to other state-of-the-art methods on both datasets, especially in heavy occlusion case.
翻訳日:2022-10-05 00:17:56 公開日:2020-10-21
# ApproxDet:モバイル向けコンテンツとコンテント対応の近似オブジェクト検出

ApproxDet: Content and Contention-Aware Approximate Object Detection for Mobiles ( http://arxiv.org/abs/2010.10754v1 )

ライセンス: Link先を確認
Ran Xu, Chen-lin Zhang, Pengcheng Wang, Jayoung Lee, Subrata Mitra, Somali Chaterji, Yin Li, Saurabh Bagchi(参考訳) シーン分類や物体検出を含む高度なビデオ分析システムは、スマートシティや自律走行といった様々な領域で広く成功している。 ますます強力なクライアントデバイスが増えている今、これらの重いビデオ分析ワークロードをクラウドからモバイルデバイスに移行して、低レイテンシとリアルタイム処理を実現し、ユーザのプライバシを維持するインセンティブがある。 しかし、ほとんどのビデオ分析システムは重厚であり、事前定義されたレイテンシや精度要件でオフラインでトレーニングされている。 これにより、3種類のダイナミズムに直面して実行時に適応できない - 入力ビデオ特性の変化、同じロケーションのアプリケーションによるノード上で利用可能な計算リソースの量、ユーザのレイテンシ-正確性要件の変化だ。 本稿では,コンテンツの変更やリソース競合シナリオに対して,精度・レイテンシ要件を満たすモバイル機器用適応型ビデオオブジェクト検出フレームワークであるapproxdetを提案する。 これを実現するために、パフォーマンス指標にデータ駆動モデリングアプローチを取り入れたマルチブランチオブジェクト検出カーネル(Faster R-CNN上にレイヤ)と、実行時に最高の実行ブランチを選択する遅延SLA駆動スケジューラを導入する。 このカーネルを近似可能なビデオオブジェクト追跡アルゴリズムと組み合わせて、エンドツーエンドのビデオオブジェクト検出システムを構築する。 大規模なベンチマークビデオデータセット上でApproxDetを評価し,AdaScaleやYOLOv3と比較した。 ApproxDetは幅広いコンテントやコンテンツ特性に対応でき、すべてのベースラインを上回ります。例えば、YOLOv3よりも52%低いレイテンシと11.1%高い精度を実現しています。

Advanced video analytic systems, including scene classification and object detection, have seen widespread success in various domains such as smart cities and autonomous transportation. With an ever-growing number of powerful client devices, there is incentive to move these heavy video analytics workloads from the cloud to mobile devices to achieve low latency and real-time processing and to preserve user privacy. However, most video analytic systems are heavyweight and are trained offline with some pre-defined latency or accuracy requirements. This makes them unable to adapt at runtime in the face of three types of dynamism -- the input video characteristics change, the amount of compute resources available on the node changes due to co-located applications, and the user's latency-accuracy requirements change. In this paper we introduce ApproxDet, an adaptive video object detection framework for mobile devices to meet accuracy-latency requirements in the face of changing content and resource contention scenarios. To achieve this, we introduce a multi-branch object detection kernel (layered on Faster R-CNN), which incorporates a data-driven modeling approach on the performance metrics, and a latency SLA-driven scheduler to pick the best execution branch at runtime. We couple this kernel with approximable video object tracking algorithms to create an end-to-end video object detection system. We evaluate ApproxDet on a large benchmark video dataset and compare quantitatively to AdaScale and YOLOv3. We find that ApproxDet is able to adapt to a wide variety of contention and content characteristics and outshines all baselines, e.g., it achieves 52% lower latency and 11.1% higher accuracy over YOLOv3.
翻訳日:2022-10-05 00:17:27 公開日:2020-10-21
# 意味指導型表現学習と視覚合成への応用

Semantics-Guided Representation Learning with Applications to Visual Synthesis ( http://arxiv.org/abs/2010.10772v1 )

ライセンス: Link先を確認
Jia-Wei Yan, Ci-Siang Lin, Fu-En Yang, Yu-Jhe Li, Yu-Chiang Frank Wang(参考訳) 解釈可能で補間可能な潜在表現の学習は、研究者が視覚合成や認識などのさらなる応用のために導出した潜在空間を理解し、活用できる新たな研究の方向性である。 既存のほとんどのアプローチは、補間可能な潜伏空間を導き、画像の外観のスムーズな遷移を誘導するが、関心のセマンティック情報を含む望ましい表現をどのように観察するかは明らかになっていない。 本稿では,意味のある表現を学習し,セマンティック指向と視覚的にスムースな補間を同時に行うことを目的とする。 そこで本研究では,分布が興味のある意味情報と一致する潜在表現を学習する角三重項近傍損失(ATNL)を提案する。 ATNLにより導かれる潜伏空間により、我々はさらに球面意味補間を利用して画像のセマンティック・ワープを生成し、望ましい視覚データの合成を可能にする。 MNIST と CMU Multi-PIE データセットの定性的・定量的な検証実験を行った。

Learning interpretable and interpolatable latent representations has been an emerging research direction, allowing researchers to understand and utilize the derived latent space for further applications such as visual synthesis or recognition. While most existing approaches derive an interpolatable latent space and induces smooth transition in image appearance, it is still not clear how to observe desirable representations which would contain semantic information of interest. In this paper, we aim to learn meaningful representations and simultaneously perform semantic-oriented and visually-smooth interpolation. To this end, we propose an angular triplet-neighbor loss (ATNL) that enables learning a latent representation whose distribution matches the semantic information of interest. With the latent space guided by ATNL, we further utilize spherical semantic interpolation for generating semantic warping of images, allowing synthesis of desirable visual data. Experiments on MNIST and CMU Multi-PIE datasets qualitatively and quantitatively verify the effectiveness of our method.
翻訳日:2022-10-05 00:17:00 公開日:2020-10-21
# リアルタイムセマンティクスセグメンテーションのための高密度デュアルパスネットワーク

Dense Dual-Path Network for Real-time Semantic Segmentation ( http://arxiv.org/abs/2010.10778v1 )

ライセンス: Link先を確認
Xinneng Yang, Yan Wu, Junqiao Zhao, Feilin Liu(参考訳) セマンティックセグメンテーションは、高い計算コストと多数のパラメータで顕著な結果を得た。 しかし、実世界のアプリケーションは組み込みデバイス上で効率的な推論速度を必要とする。 以前のほとんどの作業では、ネットワークの深さ、幅、層容量を削減し、パフォーマンスを低下させるという課題に対処している。 本稿では,資源制約下でのリアルタイムセマンティックセグメンテーションのためのDense Dual-Path Network(DDPNet)を提案する。 ネットワーク全体の機能再利用を容易にするために,軽量で強力なバックボーンを設計し,マルチスケールコンテキストを十分に集約するために提案するデュアルパスモジュール(DPM)を提案する。 一方,高分解能な特徴マップを利用してセグメント化出力を洗練するためのスキップアーキテクチャと,特徴マップからコンテキスト情報を利用してヒートマップを洗練するためのアップサンプリングモジュールを備える。 提案するddpnetは,精度と速度のバランスにおいて明らかに有利である。 具体的には、Cityscapesのテストデータセットにおいて、DDPNetは1枚のGTX 1080Tiカード上で1024 X 2048解像度の入力に対して52.6 FPSで75.3% mIoUを達成した。 他の最先端の手法と比較すると、DDPNetは同等の速度と少ないパラメータで大幅に精度が向上する。

Semantic segmentation has achieved remarkable results with high computational cost and a large number of parameters. However, real-world applications require efficient inference speed on embedded devices. Most previous works address the challenge by reducing depth, width and layer capacity of network, which leads to poor performance. In this paper, we introduce a novel Dense Dual-Path Network (DDPNet) for real-time semantic segmentation under resource constraints. We design a light-weight and powerful backbone with dense connectivity to facilitate feature reuse throughout the whole network and the proposed Dual-Path module (DPM) to sufficiently aggregate multi-scale contexts. Meanwhile, a simple and effective framework is built with a skip architecture utilizing the high-resolution feature maps to refine the segmentation output and an upsampling module leveraging context information from the feature maps to refine the heatmaps. The proposed DDPNet shows an obvious advantage in balancing accuracy and speed. Specifically, on Cityscapes test dataset, DDPNet achieves 75.3% mIoU with 52.6 FPS for an input of 1024 X 2048 resolution on a single GTX 1080Ti card. Compared with other state-of-the-art methods, DDPNet achieves a significant better accuracy with a comparable speed and fewer parameters.
翻訳日:2022-10-05 00:16:42 公開日:2020-10-21
# ファウショットイベント抽出のための探索・微調整読解モデル

Probing and Fine-tuning Reading Comprehension Models for Few-shot Event Extraction ( http://arxiv.org/abs/2010.11325v1 )

ライセンス: Link先を確認
Rui Feng, Jie Yuan, Chao Zhang(参考訳) 本研究では,テキストデータからイベントを抽出する場合の問題点について検討する。 通常、イベント検出と引数検出の両方のサブタスクは教師付きシーケンスラベリング問題として定式化される。 我々は,これらのイベント抽出モデルが本質的にラベルハングリーであり,ドメインやテキストジャンルをまたいだ一般化が困難であることを論じ,イベント抽出のための読解フレームワークを提案し,特に,イベント検出をテキスト・エンテーメント・予測問題として定式化し,議論検出を質問応答問題として定式化する。 適切なクエリテンプレートを構築することで,事前学習された読解モデルからタスクに関する豊富な知識とラベルセマンティクスを効果的に抽出することができる。 さらに,本モデルでは,少量のデータで微調整を行い,性能を向上する。 実験の結果,本手法はゼロショットイベント抽出と少数ショットイベント抽出に有効であり,全監督訓練を行った場合,ACE 2005ベンチマークの最先端性能を実現する。

We study the problem of event extraction from text data, which requires both detecting target event types and their arguments. Typically, both the event detection and argument detection subtasks are formulated as supervised sequence labeling problems. We argue that the event extraction models so trained are inherently label-hungry, and can generalize poorly across domains and text genres.We propose a reading comprehension framework for event extraction.Specifically, we formulate event detection as a textual entailment prediction problem, and argument detection as a question answer-ing problem. By constructing proper query templates, our approach can effectively distill rich knowledge about tasks and label semantics from pretrained reading comprehension models. Moreover, our model can be fine-tuned with a small amount of data to boost its performance. Our experiment results show that our method performs strongly for zero-shot and few-shot event extraction, and it achieves state-of-the-art performance on the ACE 2005 benchmark when trained with full supervision.
翻訳日:2022-10-05 00:09:18 公開日:2020-10-21
# 任意スキーマによる未知の知識ベースへのエンティティのリンク

Linking Entities to Unseen Knowledge Bases with Arbitrary Schemas ( http://arxiv.org/abs/2010.11333v1 )

ライセンス: Link先を確認
Yogarshi Vyas, Miguel Ballesteros(参考訳) エンティティリンクでは、原文中の名前付きエンティティの言及は知識ベース(KB)に対して曖昧である。 この研究は、トレーニングデータがなく、トレーニング中にスキーマが不明な未確認KBへのリンクに焦点を当てている。 提案手法は,任意のKBからいくつかの属性値対を持つエンティティをフラット文字列に柔軟に変換する手法に依存し,ゼロショットリンクのための最先端モデルと組み合わせて用いる。 モデルの一般化を改善するために,エンティティ属性のシャッフルと未知属性のハンドリングに基づく2つの正規化スキームを用いる。 CoNLLデータセットでモデルをトレーニングし、TAC-KBP 2010データセットでテストした英語データセットの実験によると、我々のモデルはベースラインモデルよりも12ポイント以上精度が高い。 これまでの作業とは異なり、当社のアプローチでは、複数のトレーニングデータセットをシームレスに組み合わせることも可能です。 我々は、完全に異なるデータセット(Wikia)とTAC-KBP 2010トレーニングセットからのトレーニングデータの量を増やすことにより、この能力をテストする。 私たちのモデルは全社で好成績です。

In entity linking, mentions of named entities in raw text are disambiguated against a knowledge base (KB). This work focuses on linking to unseen KBs that do not have training data and whose schema is unknown during training. Our approach relies on methods to flexibly convert entities from arbitrary KBs with several attribute-value pairs into flat strings, which we use in conjunction with state-of-the-art models for zero-shot linking. To improve the generalization of our model, we use two regularization schemes based on shuffling of entity attributes and handling of unseen attributes. Experiments on English datasets where models are trained on the CoNLL dataset, and tested on the TAC-KBP 2010 dataset show that our models outperform baseline models by over 12 points of accuracy. Unlike prior work, our approach also allows for seamlessly combining multiple training datasets. We test this ability by adding both a completely different dataset (Wikia), as well as increasing amount of training data from the TAC-KBP 2010 training set. Our models perform favorably across the board.
翻訳日:2022-10-05 00:09:00 公開日:2020-10-21
# 会話音声認識における第1パス復号化のための長期履歴付きLSTM-LM

LSTM-LM with Long-Term History for First-Pass Decoding in Conversational Speech Recognition ( http://arxiv.org/abs/2010.11349v1 )

ライセンス: Link先を確認
Xie Chen, Sarangarajan Parthasarathy, William Gale, Shuangyu Chang, Michael Zeng(参考訳) LSTM言語モデル(LSTM-LM)は強力であることが証明され、現代の音声認識システムにおいて、カウントベースのn-gram LMよりも大幅に性能が向上した。 その無限の履歴状態と計算負荷のため、これまでの研究はLSTM-LMを第2パスに適用することに集中していた。 最近の研究は、動的(またはツリーベース)デコーダフレームワークにおいて、最初のパスデコードでLSTM-LMを採用することは可能であり、計算に安価であることを示している。 本研究では,LSTM-LMはWFSTデコーダをオンザフライで構成する。 さらに、LSTM-LMの長期的歴史特性を動機として、会話音声認識における第1パス復号化のために、現在の発話を超えた文脈の使用を検討する。 文脈情報は、発話間でLSTM-LMの隠れ状態によって捕捉され、ファーストパス探索を効果的に導くために使用できる。 その結果,第1パス復号法では,第2パス復号法では文脈情報を適用した場合と比較して,文脈情報をLSTM-LMに組み込むことで,大幅な性能向上が得られることがわかった。

LSTM language models (LSTM-LMs) have been proven to be powerful and yielded significant performance improvements over count based n-gram LMs in modern speech recognition systems. Due to its infinite history states and computational load, most previous studies focus on applying LSTM-LMs in the second-pass for rescoring purpose. Recent work shows that it is feasible and computationally affordable to adopt the LSTM-LMs in the first-pass decoding within a dynamic (or tree based) decoder framework. In this work, the LSTM-LM is composed with a WFST decoder on-the-fly for the first-pass decoding. Furthermore, motivated by the long-term history nature of LSTM-LMs, the use of context beyond the current utterance is explored for the first-pass decoding in conversational speech recognition. The context information is captured by the hidden states of LSTM-LMs across utterance and can be used to guide the first-pass search effectively. The experimental results in our internal meeting transcription system show that significant performance improvements can be obtained by incorporating the contextual information with LSTM-LMs in the first-pass decoding, compared to applying the contextual information in the second-pass rescoring.
翻訳日:2022-10-05 00:08:21 公開日:2020-10-21
# Latte-Mix:潜在カテゴリー混合による意味意味的類似度の測定

Latte-Mix: Measuring Sentence Semantic Similarity with Latent Categorical Mixtures ( http://arxiv.org/abs/2010.11351v1 )

ライセンス: Link先を確認
M. Li, H. Bai, L. Tan, K. Xiong, M. Li, J. Lin(参考訳) BERTのような事前訓練された言語モデルを用いた文の意味的類似性の測定は、一般的には不満足なゼロショット性能をもたらす。 本稿では,単語埋め込みの平均などの原始統計量間の距離が,文レベルの意味的類似性を捉えるのに根本的な欠陥があることを示す。 この問題を解決するために,本研究では,既学習言語モデルに基づく分類変分オートエンコーダ(VAE)の学習を提案する。 理論的には、潜在カテゴリの混合、すなわちラテミックス間の距離を測定することは、真文の意味的類似性をよりよく反映できることを証明している。 さらに、ベイジアンフレームワークは、ラベル付き文対に微調整されたモデルがゼロショット性能を向上する理由を説明する。 また,latte-mixにより,これらの微調整モデルをさらに改善できることを実証的に実証した。 本手法は,stsのような意味的類似性データセットに対して最先端のゼロショット性能をもたらすだけでなく,高速なトレーニングと少ないメモリフットプリントのメリットを享受する。

Measuring sentence semantic similarity using pre-trained language models such as BERT generally yields unsatisfactory zero-shot performance, and one main reason is ineffective token aggregation methods such as mean pooling. In this paper, we demonstrate under a Bayesian framework that distance between primitive statistics such as the mean of word embeddings are fundamentally flawed for capturing sentence-level semantic similarity. To remedy this issue, we propose to learn a categorical variational autoencoder (VAE) based on off-the-shelf pre-trained language models. We theoretically prove that measuring the distance between the latent categorical mixtures, namely Latte-Mix, can better reflect the true sentence semantic similarity. In addition, our Bayesian framework provides explanations for why models finetuned on labelled sentence pairs have better zero-shot performance. We also empirically demonstrate that these finetuned models could be further improved by Latte-Mix. Our method not only yields the state-of-the-art zero-shot performance on semantic similarity datasets such as STS, but also enjoy the benefits of fast training and having small memory footprints.
翻訳日:2022-10-05 00:08:01 公開日:2020-10-21
# uARMSolver:アソシエーションルールマイニングのためのフレームワーク

uARMSolver: A framework for Association Rule Mining ( http://arxiv.org/abs/2010.10884v1 )

ライセンス: Link先を確認
Iztok Fister, Iztok Fister Jr(参考訳) 本稿では,uARMSolverというアソシエーションルールマイニングのための新しいソフトウェアフレームワークを提案する。 フレームワークはC++で完全に書かれており、すべてのプラットフォームで動作する。 ユーザは、トランザクションデータベースでデータを前処理し、データの離散化を行い、関連ルールを検索し、外部ツールで見つけた最良のルールのプレゼンテーション/視覚化をガイドできる。 既存のソフトウェアパッケージやフレームワークとは対照的に、分類型以外の数値的および実数値的な属性もサポートする。 関連ルールのマイニングは最適化として定義され、自然に着想を得たアルゴリズムを使って容易に組み込むことができる。 アルゴリズムは通常、大量の関連ルールを発見するため、このフレームワークはいわゆるビジュアルガイドをモジュール化して、データに隠された知識を抽出し、それらを外部ツールを使って視覚化することができる。

The paper presents a novel software framework for Association Rule Mining named uARMSolver. The framework is written fully in C++ and runs on all platforms. It allows users to preprocess their data in a transaction database, to make discretization of data, to search for association rules and to guide a presentation/visualization of the best rules found using external tools. As opposed to the existing software packages or frameworks, this also supports numerical and real-valued types of attributes besides the categorical ones. Mining the association rules is defined as an optimization and solved using the nature-inspired algorithms that can be incorporated easily. Because the algorithms normally discover a huge amount of association rules, the framework enables a modular inclusion of so-called visual guiders for extracting the knowledge hidden in data, and visualize these using external tools.
翻訳日:2022-10-05 00:07:39 公開日:2020-10-21
# ペトリネットシミュレーションとシーケンスアライメントを用いた医療訓練プロセスのコンフォーマンスチェック

Conformance Checking for a Medical Training Process Using Petri net Simulation and Sequence Alignment ( http://arxiv.org/abs/2010.11719v1 )

ライセンス: Link先を確認
An Nguyen, Wenyu Zhang, Leo Schwinn, and Bjoern Eskofier(参考訳) プロセスマイニングは、透明で客観的でデータベースのプロセスビューを提供する可能性があるため、最近医療で人気を集めている。 コンフォーマンスチェックはプロセスマイニングのサブ原則であり、実際のプロセス実行が既存のガイドラインからどのように逸脱するかに答える可能性がある。 本研究では,外科手術のための医療訓練プロセスを分析する。 10人の学生が超音波でCVC(Central Venous Catheters)を設置する訓練を受けた。 イベントログデータは、最初のテスト実行中に管理者が指示した後、およびその後の個別トレーニングフェーズ後に、直接収集された。 客観的な性能指標を提供するため,バイオインフォマティクスのアプローチに触発された最適大域配列アライメント問題を定式化する。 そこで、医療プロセスガイドラインのペトリネットモデル表現を用いて、ガイドライン適合配列の代表的なセットをシミュレートする。 次に、記録およびシミュレーションされたイベントログの最適で大域的なシーケンスアライメントを計算する。 最後に、目的フィードバックのために、アライメントシーケンスの出力測定と可視化を行う。

Process Mining has recently gained popularity in healthcare due to its potential to provide a transparent, objective and data-based view on processes. Conformance checking is a sub-discipline of process mining that has the potential to answer how the actual process executions deviate from existing guidelines. In this work, we analyze a medical training process for a surgical procedure. Ten students were trained to install a Central Venous Catheters (CVC) with ultrasound. Event log data was collected directly after instruction by the supervisors during a first test run and additionally after a subsequent individual training phase. In order to provide objective performance measures, we formulate an optimal, global sequence alignment problem inspired by approaches in bioinformatics. Therefore, we use the Petri net model representation of the medical process guideline to simulate a representative set of guideline conform sequences. Next, we calculate the optimal, global sequence alignment of the recorded and simulated event logs. Finally, the output measures and visualization of aligned sequences are provided for objective feedback.
翻訳日:2022-10-05 00:07:27 公開日:2020-10-21
# Retrieverは単なる読者の近似器か?

Is Retriever Merely an Approximator of Reader? ( http://arxiv.org/abs/2010.10999v1 )

ライセンス: Link先を確認
Sohee Yang, Minjoon Seo(参考訳) オープンドメイン質問応答(QA)における技術の現状は、高価な読者の検索スペースを大幅に削減する効率的なレトリバーに依存している。 コミュニティで見落とされがちな質問は、レトリバーと読者の関係であり、特に、レトリバーの目的が読者の高速な近似である場合である。 我々の経験的証拠は、答えはノーであり、読者とレトリバーは、正確性の観点からも相補的であることを示している。 また,従来は近似探索を意図していた検索者の構造的制約が,大規模探索においてモデルをより堅牢にすることが示唆された。 次に,レトリバーに読み手を蒸留することで,読み手の強さを吸収し,自己の利益を享受できるようにする。 実験の結果,オープンドメインQAタスクにおいて,本手法は文書のリコール率と,市販QAタスクのエンドツーエンドQA精度を向上させることができることがわかった。

The state of the art in open-domain question answering (QA) relies on an efficient retriever that drastically reduces the search space for the expensive reader. A rather overlooked question in the community is the relationship between the retriever and the reader, and in particular, if the whole purpose of the retriever is just a fast approximation for the reader. Our empirical evidence indicates that the answer is no, and that the reader and the retriever are complementary to each other even in terms of accuracy only. We make a careful conjecture that the architectural constraint of the retriever, which has been originally intended for enabling approximate search, seems to also make the model more robust in large-scale search. We then propose to distill the reader into the retriever so that the retriever absorbs the strength of the reader while keeping its own benefit. Experimental results show that our method can enhance the document recall rate as well as the end-to-end QA accuracy of off-the-shelf retrievers in open-domain QA tasks.
翻訳日:2022-10-05 00:00:49 公開日:2020-10-21
# ニューラルネットワーク翻訳のためのトークンドロップ機構

Token Drop mechanism for Neural Machine Translation ( http://arxiv.org/abs/2010.11018v1 )

ライセンス: Link先を確認
Huaao Zhang, Shigui Qiu, Xiangyu Duan, Min Zhang(参考訳) 数百万のパラメータを持つニューラルマシン翻訳は、未知の入力に対して脆弱である。 NMTモデルの一般化とオーバーフィッティングを回避するため,Token Dropを提案する。 単語ドロップアウトと同様に、ドロップトークンを単語にゼロを設定する代わりに特別なトークンに置き換える。 さらに,2つの自己教師型目標,代替トークン検出とドロップドトークン予測を導入する。 本手法は,より少ない情報量で対象翻訳を強制的に生成することを目的としている。 中国語と英語とローマ語のベンチマークによる実験により,本手法の有効性が実証され,本モデルは強いトランスフォーマーベースラインよりも大幅に改善した。

Neural machine translation with millions of parameters is vulnerable to unfamiliar inputs. We propose Token Drop to improve generalization and avoid overfitting for the NMT model. Similar to word dropout, whereas we replace dropped token with a special token instead of setting zero to words. We further introduce two self-supervised objectives: Replaced Token Detection and Dropped Token Prediction. Our method aims to force model generating target translation with less information, in this way the model can learn textual representation better. Experiments on Chinese-English and English-Romanian benchmark demonstrate the effectiveness of our approach and our model achieves significant improvements over a strong Transformer baseline.
翻訳日:2022-10-05 00:00:19 公開日:2020-10-21
# LT3 at SemEval-2020 Task 9: Cross-lingual Embeddings for Sentiment Analysis of Hinglish Social Media Text (英語)

LT3 at SemEval-2020 Task 9: Cross-lingual Embeddings for Sentiment Analysis of Hinglish Social Media Text ( http://arxiv.org/abs/2010.11019v1 )

ライセンス: Link先を確認
Pranaydeep Singh and Els Lefever(参考訳) 本稿では,SemEval-2020 Task 9 on Sentiment Analysis for Code-mixed Social Media Textについて述べる。 ハングリッシュ感情分析の課題を解決するための2つのアプローチを検討した。 最初のアプローチでは、hinglish と pre-trained english のfasttext ワード埋め込みを同じ空間に投影することによる言語間埋め込みを使用する。 第2のアプローチは、Hinglishの一連のツイートで漸進的に再訓練される、事前訓練された英語の埋め込みだ。 その結果、第2のアプローチは、ホールドアウトテストデータに対して70.52%のF1スコアで、最高のパフォーマンスを示した。

This paper describes our contribution to the SemEval-2020 Task 9 on Sentiment Analysis for Code-mixed Social Media Text. We investigated two approaches to solve the task of Hinglish sentiment analysis. The first approach uses cross-lingual embeddings resulting from projecting Hinglish and pre-trained English FastText word embeddings in the same space. The second approach incorporates pre-trained English embeddings that are incrementally retrained with a set of Hinglish tweets. The results show that the second approach performs best, with an F1-score of 70.52% on the held-out test data.
翻訳日:2022-10-05 00:00:10 公開日:2020-10-21
# 音素前置を用いた古文字の解読

Deciphering Undersegmented Ancient Scripts Using Phonetic Prior ( http://arxiv.org/abs/2010.11054v1 )

ライセンス: Link先を確認
Jiaming Luo, Frederik Hartmann, Enrico Santus, Yuan Cao, Regina Barzilay(参考訳) ほとんどの未解読失語言語は、(1)スクリプトが完全に区切られていないこと、(2)最も近い言語が決定されていないこと、の2つの重要な解読課題を示す。 本稿では,歴史的音響変化における一貫したパターンを反映した豊かな言語制約を基礎として,これらの課題を両立させる解読モデルを提案する。 我々は,国際音声アルファベット(IPA)に基づく文字埋め込みの学習により,自然音韻幾何学を捉えた。 生成された生成フレームワークは、音韻的制約によって通知される単語分割とコグネートアライメントを共同でモデル化する。 我々は、解読された言語(ゴシック語、ウガル語)と未解読言語(イベリア語)の両方でモデルを評価する。 実験により、音韻幾何学を取り入れることで明瞭で一貫した利得が得られることが示された。 さらに,ゴシック語とウガル語の関連言語を正しく識別する言語近接度尺度を提案する。 イベリアヌスにとって、この手法はバスク語を関連言語として支持する強い証拠を示さず、現在の奨学金で好まれる立場と一致する。

Most undeciphered lost languages exhibit two characteristics that pose significant decipherment challenges: (1) the scripts are not fully segmented into words; (2) the closest known language is not determined. We propose a decipherment model that handles both of these challenges by building on rich linguistic constraints reflecting consistent patterns in historical sound change. We capture the natural phonological geometry by learning character embeddings based on the International Phonetic Alphabet (IPA). The resulting generative framework jointly models word segmentation and cognate alignment, informed by phonological constraints. We evaluate the model on both deciphered languages (Gothic, Ugaritic) and an undeciphered one (Iberian). The experiments show that incorporating phonetic geometry leads to clear and consistent gains. Additionally, we propose a measure for language closeness which correctly identifies related languages for Gothic and Ugaritic. For Iberian, the method does not show strong evidence supporting Basque as a related language, concurring with the favored position by the current scholarship.
翻訳日:2022-10-04 23:59:47 公開日:2020-10-21
# ポインタネットワークによるオンライン会話の絡み合い

Online Conversation Disentanglement with Pointer Networks ( http://arxiv.org/abs/2010.11080v1 )

ライセンス: Link先を確認
Tao Yu, Shafiq Joty(参考訳) 大量のテキスト会話が毎日オンラインで行われ、複数の会話が同時に行われる。 インターリーブされた会話は、進行中の議論だけでなく、同時メッセージから関連する情報を抽出するのにも困難をもたらす。 会話の絡み合いは、会話を分離することを目的としている。 しかし、既存のジエンタングルメントメソッドは、主にデータセット固有の手作りの機能に依存しているため、一般化と適応性を妨げる。 本稿では,時間を要するドメイン固有の機能工学を回避し,会話の絡み合いに対するエンドツーエンドのオンラインフレームワークを提案する。 我々は,タイムスタンプ,話者,メッセージテキストを含む発話全体を埋め込む新しい手法を設計し,発話間相互作用をエンドツーエンドで効果的に捉えつつ,解離をポインティング問題としてモデル化するカスタムアテンション機構を提案する。 また,文脈情報を取り込むための共同学習目標についても紹介する。 Ubuntu IRCデータセットを用いた実験により,提案手法はリンクと会話の予測タスクにおいて,最先端のパフォーマンスを実現する。

Huge amounts of textual conversations occur online every day, where multiple conversations take place concurrently. Interleaved conversations lead to difficulties in not only following the ongoing discussions but also extracting relevant information from simultaneous messages. Conversation disentanglement aims to separate intermingled messages into detached conversations. However, existing disentanglement methods rely mostly on handcrafted features that are dataset specific, which hinders generalization and adaptability. In this work, we propose an end-to-end online framework for conversation disentanglement that avoids time-consuming domain-specific feature engineering. We design a novel way to embed the whole utterance that comprises timestamp, speaker, and message text, and proposes a custom attention mechanism that models disentanglement as a pointing problem while effectively capturing inter-utterance interactions in an end-to-end fashion. We also introduce a joint-learning objective to better capture contextual information. Our experiments on the Ubuntu IRC dataset show that our method achieves state-of-the-art performance in both link and conversation prediction tasks.
翻訳日:2022-10-04 23:59:28 公開日:2020-10-21
# NeuSpell: ニューラルネットワークの補正ツールキット

NeuSpell: A Neural Spelling Correction Toolkit ( http://arxiv.org/abs/2010.11085v1 )

ライセンス: Link先を確認
Sai Muralidhar Jayanthi, Danish Pruthi, Graham Neubig(参考訳) 英語の綴り訂正のためのオープンソースツールキットneuspellを紹介する。 我々のツールキットは10種類の異なるモデルで構成され、複数のソースから自然に発生するミススペルをベンチマークする。 多くのシステムはミスペルトトークンのコンテキストを適切に利用していない。 これを治療する。 一 逆エンジニアリング分離ミススペルによって合成された文脈におけるスペルエラーを用いてニューラルモデルを訓練すること。 (ii)文脈表現を用いる。 実例を学習することにより,ランダムなサンプルキャラクタ摂動をモデルとした場合と比較して,補正率が9%向上する(絶対値)。 よりリッチな文脈表現を使用することで、補正率は3%向上する。 当社のツールキットでは,提案および既存の綴り補正システムを統一コマンドラインとwebインターフェースの両方を通じて使用することが可能です。 多くの潜在的な応用の中で、敵のミススペルと戦うためのスペルチェッカーの有用性を実証する。 ツールキットはneuspell.github.ioでアクセスできる。 コードと事前トレーニングされたモデルはhttp://github.com/neuspell/neuspellで入手できる。

We introduce NeuSpell, an open-source toolkit for spelling correction in English. Our toolkit comprises ten different models, and benchmarks them on naturally occurring misspellings from multiple sources. We find that many systems do not adequately leverage the context around the misspelt token. To remedy this, (i) we train neural models using spelling errors in context, synthetically constructed by reverse engineering isolated misspellings; and (ii) use contextual representations. By training on our synthetic examples, correction rates improve by 9% (absolute) compared to the case when models are trained on randomly sampled character perturbations. Using richer contextual representations boosts the correction rate by another 3%. Our toolkit enables practitioners to use our proposed and existing spelling correction systems, both via a unified command line, as well as a web interface. Among many potential applications, we demonstrate the utility of our spell-checkers in combating adversarial misspellings. The toolkit can be accessed at neuspell.github.io. Code and pretrained models are available at http://github.com/neuspell/neuspell.
翻訳日:2022-10-04 23:59:09 公開日:2020-10-21
# knowdis: 知識強化データ拡張による遠隔監視による事象因果性検出

KnowDis: Knowledge Enhanced Data Augmentation for Event Causality Detection via Distant Supervision ( http://arxiv.org/abs/2010.10833v1 )

ライセンス: Link先を確認
Xinyu Zuo, Yubo Chen, Kang Liu, Jun Zhao(参考訳) 事象因果検出(ECD)の現代モデルは、主に手作業による小さなコーパスからの教師付き学習に基づいている。 しかし、手書きのトレーニングデータは作成に費用がかかり、因果表現のカバレッジが低く、サイズが制限されているため、イベント間の因果関係の検出が困難になる。 本研究では,このデータ不足を解決するために,知識拡張距離データ拡張(KnowDis)と呼ばれるCD用データ拡張フレームワークについて検討する。 EventStoryLine corpusとCausal-TimeBankの2つのベンチマークデータセットの実験結果が示す。 1)knowdisは,ecdの語彙的および因果的共通認識知識を遠隔監視によって支援する,利用可能な訓練データを強化することができる。 2) 自動ラベル付きトレーニングデータを用いて, 従来の手法を大きなマージンで上回った。

Modern models of event causality detection (ECD) are mainly based on supervised learning from small hand-labeled corpora. However, hand-labeled training data is expensive to produce, low coverage of causal expressions and limited in size, which makes supervised methods hard to detect causal relations between events. To solve this data lacking problem, we investigate a data augmentation framework for ECD, dubbed as Knowledge Enhanced Distant Data Augmentation (KnowDis). Experimental results on two benchmark datasets EventStoryLine corpus and Causal-TimeBank show that 1) KnowDis can augment available training data assisted with the lexical and causal commonsense knowledge for ECD via distant supervision, and 2) our method outperforms previous methods by a large margin assisted with automatically labeled training data.
翻訳日:2022-10-04 23:51:46 公開日:2020-10-21
# tmt:音声視覚シーン認識ダイアログにおけるマルチモーダルシーケンス表現を改善するトランスフォーマティブベースのモーダルトランスレータ

TMT: A Transformer-based Modal Translator for Improving Multimodal Sequence Representations in Audio Visual Scene-aware Dialog ( http://arxiv.org/abs/2010.10839v1 )

ライセンス: Link先を確認
Wubo Li, Dongwei Jiang, Wei Zou, Xiangang Li(参考訳) AVSD(Audio Visual Scene-aware Dialog)は、あるビデオについて議論する際に応答を生成するタスクである。 以前の最先端のモデルは、トランスフォーマーベースのアーキテクチャを使用して、このタスクに優れたパフォーマンスを示している。 しかし、モダリティのより良い表現を学ぶにはいくつかの制限がある。 ニューラルネットワーク翻訳(NMT)に着想を得て,トランスフォーマーを用いたモーダルトランスレータ(TMT)を提案し,ソースモーダルシーケンスを関連するターゲットモーダルシーケンスに教師付き方法で翻訳することで,ソースモーダルシーケンスの表現を学習する。 MTN(Multimodal Transformer Networks)に基づいてビデオとダイアログにTMTを適用し,ビデオグラウンドダイアログシステムのためのMTN-TMTを提案する。 Dialog System Technology Challenge 7のAVSDトラックでは、MTN-TMTがビデオおよびテキストタスクとテキストオンリータスクの両方でMTNや他の提出モデルを上回っている。 MTNと比較すると、MTN-TMTは全ての指標、特にCIDErで14.1%の相対的な改善を達成している。 索引語:マルチモーダル学習、音声・視覚シーン認識ダイアログ、ニューラルマシン翻訳、マルチタスク学習

Audio Visual Scene-aware Dialog (AVSD) is a task to generate responses when discussing about a given video. The previous state-of-the-art model shows superior performance for this task using Transformer-based architecture. However, there remain some limitations in learning better representation of modalities. Inspired by Neural Machine Translation (NMT), we propose the Transformer-based Modal Translator (TMT) to learn the representations of the source modal sequence by translating the source modal sequence to the related target modal sequence in a supervised manner. Based on Multimodal Transformer Networks (MTN), we apply TMT to video and dialog, proposing MTN-TMT for the video-grounded dialog system. On the AVSD track of the Dialog System Technology Challenge 7, MTN-TMT outperforms the MTN and other submission models in both Video and Text task and Text Only task. Compared with MTN, MTN-TMT improves all metrics, especially, achieving relative improvement up to 14.1% on CIDEr. Index Terms: multimodal learning, audio-visual scene-aware dialog, neural machine translation, multi-task learning
翻訳日:2022-10-04 23:51:33 公開日:2020-10-21
# 関係を分離する学習:エンティティガイドによる関係分類とコンフュージョン・アウェアトレーニング

Learning to Decouple Relations: Few-Shot Relation Classification with Entity-Guided Attention and Confusion-Aware Training ( http://arxiv.org/abs/2010.10894v1 )

ライセンス: Link先を確認
Yingyao Wang, Junwei Bao, Guangyi Liu, Youzheng Wu, Xiaodong He, Bowen Zhou and Tiejun Zhao(参考訳) 本稿では,特に複数の関係を共同で記述する文に対して,数発の関係分類を強化することを目的とする。 ある関係は通常、同じ文脈で高い共起を維持するため、以前の少数ショット関係分類器は、注釈付きインスタンスでそれらを区別するのに苦労している。 上記の関係混同問題を緩和するため,これらの関係を分離する2つのメカニズムを備えたモデルであるCTEGを提案する。 一方、各単語と特定エンティティペア間の構文的関係と相対的位置を利用するエンティティガイド注意(EGA)機構を導入し、混乱を引き起こす情報をフィルタリングする。 一方,コンフュージョン・アウェア・トレーニング (CAT) 法では,文章を真の関係と混乱した関係に分類し,押出ゲームによって関係をはっきり区別する手法が提案されている。 FewRelデータセットを用いて大規模な実験を行い,提案したモデルが精度の点で高いベースラインに比較して,さらに優れた結果が得られることを示した。 さらに, アブレーション試験とケーススタディにより, 提案したEGAとCATの有効性が検証された。

This paper aims to enhance the few-shot relation classification especially for sentences that jointly describe multiple relations. Due to the fact that some relations usually keep high co-occurrence in the same context, previous few-shot relation classifiers struggle to distinguish them with few annotated instances. To alleviate the above relation confusion problem, we propose CTEG, a model equipped with two mechanisms to learn to decouple these easily-confused relations. On the one hand, an Entity-Guided Attention (EGA) mechanism, which leverages the syntactic relations and relative positions between each word and the specified entity pair, is introduced to guide the attention to filter out information causing confusion. On the other hand, a Confusion-Aware Training (CAT) method is proposed to explicitly learn to distinguish relations by playing a pushing-away game between classifying a sentence into a true relation and its confusing relation. Extensive experiments are conducted on the FewRel dataset, and the results show that our proposed model achieves comparable and even much better results to strong baselines in terms of accuracy. Furthermore, the ablation test and case study verify the effectiveness of our proposed EGA and CAT, especially in addressing the relation confusion problem.
翻訳日:2022-10-04 23:50:41 公開日:2020-10-21
# トランスフォーマーネットワークを用いたソーシャルメディアにおける苦情識別

Complaint Identification in Social Media with Transformer Networks ( http://arxiv.org/abs/2010.10910v1 )

ライセンス: Link先を確認
Mali Jin and Nikolaos Aletras(参考訳) 苦情は、現実と期待の間の否定的な矛盾を伝えるために、人間が広く使う言葉行為である。 ソーシャルメディアにおける苦情を自動的に識別する作業は、機能ベースとタスク固有のニューラルネットワークモデルの使用に重点を置いている。 最先端の訓練済みニューラルネットワークモデルとそれらの組み合わせをトピックや不満予測のための感情から他の言語情報に適応させる方法はまだ検討されていない。 本稿では,変圧器ネットワークを基盤としたニューラルネットワークのバッテリ評価を行い,その後言語情報と組み合わせた。 公開されている苦情のデータセットの実験では、我々のモデルは、マクロF1を87.5%まで、大きなマージンで過去の最先端手法より優れていることが示された。

Complaining is a speech act extensively used by humans to communicate a negative inconsistency between reality and expectations. Previous work on automatically identifying complaints in social media has focused on using feature-based and task-specific neural network models. Adapting state-of-the-art pre-trained neural language models and their combinations with other linguistic information from topics or sentiment for complaint prediction has yet to be explored. In this paper, we evaluate a battery of neural models underpinned by transformer networks which we subsequently combine with linguistic information. Experiments on a publicly available data set of complaints demonstrate that our models outperform previous state-of-the-art methods by a large margin achieving a macro F1 up to 87.
翻訳日:2022-10-04 23:49:58 公開日:2020-10-21
# LemMED:ショートコンテキストウィンドウを用いた高速かつ効果的な神経形態解析

LemMED: Fast and Effective Neural Morphological Analysis with Short Context Windows ( http://arxiv.org/abs/2010.10921v1 )

ライセンス: Link先を確認
Aibek Makazhanov, Sharon Goldwater, Adam Lopez(参考訳) 本稿では,文脈形態素解析のための文字レベルのエンコーダデコーダであるlemmedを提案する。 LemMEDは、他の2つの注意に基づくモデル、すなわち文脈レマタイザーであるLematusと、形態的(再)反射モデルであるMEDから名付けられている。 私たちのアプローチでは、別々の補題化やタグ付けモデルをトレーニングする必要はなく、形態素辞書やトランスデューサといった追加のリソースやツールも必要ありません。 さらに、LemMEDは文字レベルの表現とローカルコンテキストのみに依存している。 このモデルは、原則として、文レベルでのグローバルな文脈を説明することができるが、我々の実験は、対象単語の周囲のコンテキストを1ワードだけ使うことが、より計算可能であるだけでなく、より良い結果をもたらすことを示した。 SIMGMORPHON-2019共有タスクのフレームワークにおけるLemMEDの評価を行った。 平均パフォーマンスの点では、lemmedは13のシステムの中で5番目にランク付けされ、コンテキスト化された埋め込みを使用する投稿によってのみ与えられる。

We present LemMED, a character-level encoder-decoder for contextual morphological analysis (combined lemmatization and tagging). LemMED extends and is named after two other attention-based models, namely Lematus, a contextual lemmatizer, and MED, a morphological (re)inflection model. Our approach does not require training separate lemmatization and tagging models, nor does it need additional resources and tools, such as morphological dictionaries or transducers. Moreover, LemMED relies solely on character-level representations and on local context. Although the model can, in principle, account for global context on sentence level, our experiments show that using just a single word of context around each target word is not only more computationally feasible, but yields better results as well. We evaluate LemMED in the framework of the SIMGMORPHON-2019 shared task on combined lemmatization and tagging. In terms of average performance LemMED ranks 5th among 13 systems and is bested only by the submissions that use contextualized embeddings.
翻訳日:2022-10-04 23:49:47 公開日:2020-10-21
# リカレントニューラルネットワークを用いた体積蛍光顕微鏡

Recurrent neural network-based volumetric fluorescence microscopy ( http://arxiv.org/abs/2010.10781v1 )

ライセンス: Link先を確認
Luzhe Huang, Yilin Luo, Yair Rivenson, Aydogan Ozcan(参考訳) 蛍光顕微鏡を用いた試料の体積イメージングは、物理・医学・生命科学など様々な分野で重要な役割を果たしている。 本稿では, 標準広視野蛍光顕微鏡により試料体積内の任意の軸位置で撮影される2次元画像を用いた深層学習に基づく体積像推定フレームワークについて報告する。 再帰的畳み込みニューラルネットワーク(Recurrent-MZ)により、サンプル内のいくつかの軸方向平面からの2次元蛍光情報を明示的に組み込んで、拡張深度でサンプル体積をデジタル的に再構成する。 C. Elegans と nanobead のサンプルを用いて、Recurrent-MZ は、63x/1.4NA 対物レンズの被写界深度を約50倍に向上させ、同じサンプル体積を撮像するのに必要な軸走査数を30倍に削減することを示した。 さらに, 入力画像の異なるシーケンス, 様々な軸方向の順列, 未知の軸方向位置決め誤差など, 様々な画像条件に対する弾力性を示すことにより, この3次元イメージングのためのリカレントネットワークの一般化を示した。 recurrent-mzは、顕微鏡画像再構成におけるリカレントニューラルネットワークの最初の応用を実証し、現在の3d走査型顕微鏡ツールの限界を克服するフレキシブルで迅速な体積イメージングフレームワークを提供する。

Volumetric imaging of samples using fluorescence microscopy plays an important role in various fields including physical, medical and life sciences. Here we report a deep learning-based volumetric image inference framework that uses 2D images that are sparsely captured by a standard wide-field fluorescence microscope at arbitrary axial positions within the sample volume. Through a recurrent convolutional neural network, which we term as Recurrent-MZ, 2D fluorescence information from a few axial planes within the sample is explicitly incorporated to digitally reconstruct the sample volume over an extended depth-of-field. Using experiments on C. Elegans and nanobead samples, Recurrent-MZ is demonstrated to increase the depth-of-field of a 63x/1.4NA objective lens by approximately 50-fold, also providing a 30-fold reduction in the number of axial scans required to image the same sample volume. We further illustrated the generalization of this recurrent network for 3D imaging by showing its resilience to varying imaging conditions, including e.g., different sequences of input images, covering various axial permutations and unknown axial positioning errors. Recurrent-MZ demonstrates the first application of recurrent neural networks in microscopic image reconstruction and provides a flexible and rapid volumetric imaging framework, overcoming the limitations of current 3D scanning microscopy tools.
翻訳日:2022-10-04 23:43:59 公開日:2020-10-21
# すべてを再構築する1つのモデル:スタイルガンの確率的ノイズを使う新しい方法

One Model to Reconstruct Them All: A Novel Way to Use the Stochastic Noise in StyleGAN ( http://arxiv.org/abs/2010.11113v1 )

ライセンス: Link先を確認
Christian Bartz, Joseph Bethge, Haojin Yang, Christoph Meinel(参考訳) Generative Adversarial Networks (GAN) は、複数の画像生成および操作タスクに対して最先端のパフォーマンスを達成した。 異なる作業により、元のイメージを再構築するために特定のGANアーキテクチャにイメージを埋め込むことにより、GANの潜伏空間の限られた理解が向上した。 本稿では,複数のデータ領域にまたがる非常に高品質な画像を再構成可能な,新しいスタイルGANベースのオートエンコーダアーキテクチャを提案する。 我々は、エンコーダとデコーダを独立して異なるデータセット上でトレーニングすることにより、これまで知られていなかった一般性の評価を示す。 さらに、よく知られたStyleGANアーキテクチャのノイズ入力の意義と能力に関する新たな知見を提供する。 提案するアーキテクチャは,1つのgpu上で最大40イメージを処理可能で,従来手法の約28倍高速である。 最後に、このモデルは、画像のデノイジングタスクの最先端と比較すると、このタスクのために明示的に設計されたものではないが、有望な結果も示しています。

Generative Adversarial Networks (GANs) have achieved state-of-the-art performance for several image generation and manipulation tasks. Different works have improved the limited understanding of the latent space of GANs by embedding images into specific GAN architectures to reconstruct the original images. We present a novel StyleGAN-based autoencoder architecture, which can reconstruct images with very high quality across several data domains. We demonstrate a previously unknown grade of generalizablility by training the encoder and decoder independently and on different datasets. Furthermore, we provide new insights about the significance and capabilities of noise inputs of the well-known StyleGAN architecture. Our proposed architecture can handle up to 40 images per second on a single GPU, which is approximately 28x faster than previous approaches. Finally, our model also shows promising results, when compared to the state-of-the-art on the image denoising task, although it was not explicitly designed for this task.
翻訳日:2022-10-04 23:43:12 公開日:2020-10-21
# 深層学習による骨格筋電図の異常検出の自動化

Automating Abnormality Detection in Musculoskeletal Radiographs through Deep Learning ( http://arxiv.org/abs/2010.12030v1 )

ライセンス: Link先を確認
Goodarz Mehr(参考訳) 本稿では,筋骨格部X線写真(骨X線)の異常検出を自動化するツールであるMuRAD(Musculoskeletal Radiograph Abnormality Detection Tool)を紹介する。 MuRADは、骨のX線異常を正確に予測できる畳み込みニューラルネットワーク(CNN)を使用し、画像の異常をローカライズするためにクラス活性化マップ(CAM)を利用する。 ムラッドのf1スコアは0.822で、コーエンのカッパは0.699で、専門家の放射線技師の成績に匹敵する。

This paper introduces MuRAD (Musculoskeletal Radiograph Abnormality Detection tool), a tool that can help radiologists automate the detection of abnormalities in musculoskeletal radiographs (bone X-rays). MuRAD utilizes a Convolutional Neural Network (CNN) that can accurately predict whether a bone X-ray is abnormal, and leverages Class Activation Map (CAM) to localize the abnormality in the image. MuRAD achieves an F1 score of 0.822 and a Cohen's kappa of 0.699, which is comparable to the performance of expert radiologists.
翻訳日:2022-10-04 23:42:55 公開日:2020-10-21
# 離散的wassersteinトレーニングによる自動運転における意味セグメンテーションの重要性

Importance-Aware Semantic Segmentation in Self-Driving with Discrete Wasserstein Training ( http://arxiv.org/abs/2010.12440v1 )

ライセンス: Link先を確認
Xiaofeng Liu, Yuzhuo Han, Song Bai, Yi Ge, Tianxing Wang, Xu Han, Site Li, Jane You, Ju Lu(参考訳) セマンティックセグメンテーション(ss)は、各ピクセルを予め決められたクラスに分類する、自動運転車とロボティクスにとって重要な認識方法である。 広く使われているクロスエントロピー(CE)の損失に基づくディープネットワークは、インターセクションオーバユニオン(mIoU)の平均値に大きく進歩している。 しかし、クロスエントロピー損失は、自動運転システムにおける各クラスの異なる重要性を考慮に入れることはできない。 例えば、画像内の歩行者は運転の決定を行う際に周囲の建物よりもはるかに重要であり、そのセグメンテーションの結果は可能な限り正確であることが期待される。 本稿では,wassersteinのトレーニングフレームワークにおいて,基底距離行列を構成することによって,クラス間相関の重要性を認識することを提案する。 基底距離行列は特定のタスクの優先順位に従って事前に定義することができ、以前の重要度を無視する手法は特定の場合である。 最適化の観点からは、地上距離を線形、凸あるいは凹凸増加関数$w.r.t.$事前定義された地上距離まで拡張する。 我々は,異なるバックボーン(SegNet,ENet,FCN,Deeplab)を持つCamVidとCityscapesのデータセットをプラグアンドプレイ方式で評価した。 拡張実験では、ワッサースタイン損失は、安全運転のための予め定義された臨界クラスにおいて、より優れたセグメンテーション性能を示す。

Semantic segmentation (SS) is an important perception manner for self-driving cars and robotics, which classifies each pixel into a pre-determined class. The widely-used cross entropy (CE) loss-based deep networks has achieved significant progress w.r.t. the mean Intersection-over Union (mIoU). However, the cross entropy loss can not take the different importance of each class in an self-driving system into account. For example, pedestrians in the image should be much more important than the surrounding buildings when make a decisions in the driving, so their segmentation results are expected to be as accurate as possible. In this paper, we propose to incorporate the importance-aware inter-class correlation in a Wasserstein training framework by configuring its ground distance matrix. The ground distance matrix can be pre-defined following a priori in a specific task, and the previous importance-ignored methods can be the particular cases. From an optimization perspective, we also extend our ground metric to a linear, convex or concave increasing function $w.r.t.$ pre-defined ground distance. We evaluate our method on CamVid and Cityscapes datasets with different backbones (SegNet, ENet, FCN and Deeplab) in a plug and play fashion. In our extenssive experiments, Wasserstein loss demonstrates superior segmentation performance on the predefined critical classes for safe-driving.
翻訳日:2022-10-04 23:42:43 公開日:2020-10-21
# ReCONSIDER: Span-Focused Cross-Attention を用いたオープンドメイン質問回答のための再学習

RECONSIDER: Re-Ranking using Span-Focused Cross-Attention for Open Domain Question Answering ( http://arxiv.org/abs/2010.10757v1 )

ライセンス: Link先を確認
Srinivasan Iyer, Sewon Min, Yashar Mehdad, Wen-tau Yih(参考訳) オープンドメイン質問応答(qa)のための最先端マシンリーディング理解(mrc)モデルは通常、遠方の教師付きポジティブな例とヒューリスティックに検索されたネガティブな例を使ってスパン選択のために訓練される。 このトレーニングスキームは、これらのモデルが最も少数の予測の中で高いリコールを達成するという経験的な観察を説明するが、全体的な精度は低く、答えの再ランク付けの必要性を動機付けている。 我々は,大規模な事前学習型MCCモデルの性能を向上させるため,スパン抽出タスクのためのシンプルで効果的な再ランク付け手法(RECONSIDER)を開発した。 再検討は、mrcモデルの高い信頼度予測から抽出されたポジティブな例とネガティブな例に基づいて訓練され、より小さな候補セットでスパンにフォーカスした再ランキングを行うために、パッセージスパンアノテーションを使用する。 その結果、rethinkは密接な偽陽性の通路を取り除き、4つのqaタスクで新しい状態を達成することを学び、自然問題と実際のユーザ質問の正確な一致率45.5%、トリビアカでの61.7%を含む。

State-of-the-art Machine Reading Comprehension (MRC) models for Open-domain Question Answering (QA) are typically trained for span selection using distantly supervised positive examples and heuristically retrieved negative examples. This training scheme possibly explains empirical observations that these models achieve a high recall amongst their top few predictions, but a low overall accuracy, motivating the need for answer re-ranking. We develop a simple and effective re-ranking approach (RECONSIDER) for span-extraction tasks, that improves upon the performance of large pre-trained MRC models. RECONSIDER is trained on positive and negative examples extracted from high confidence predictions of MRC models, and uses in-passage span annotations to perform span-focused re-ranking over a smaller candidate set. As a result, RECONSIDER learns to eliminate close false positive passages, and achieves a new state of the art on four QA tasks, including 45.5% Exact Match accuracy on Natural Questions with real user questions, and 61.7% on TriviaQA.
翻訳日:2022-10-04 23:41:38 公開日:2020-10-21
# 新規特徴集合に基づく大英文学コーパスにおける疑似誤りのないテキスト分類と著者認識

Quasi Error-free Text Classification and Authorship Recognition in a large Corpus of English Literature based on a Novel Feature Set ( http://arxiv.org/abs/2010.10801v1 )

ライセンス: Link先を確認
Arthur M. Jacobs and Annette Kinder(参考訳) Gutenberg Literary English Corpus (GLEC)は、デジタル人文科学、計算言語学、神経認知詩学の研究のための豊富なテキストデータソースを提供する。 しかし、これまでのところグーテンベルク英語詩集は、科学的な文学研究の予測を提供する量的テキスト分析にのみ提出されている。 ここでは,GLECの準誤りのないテキスト分類とオーサシップ認識は,同一の5つのスタイルと5つのコンテンツ特徴を用いた手法で両タスクで計算できることを示す。 本研究は,2つの特徴(タイプトケン比,周波数,ソノリティスコア,サプライズ)をこれらの課題の最も高い診断基準として同定した。 特定のテキストカテゴリや著者の認知的・情緒的処理を両立させる特徴を定量的に予測する短い詩と長編小説の両方に適用可能な簡単なツールを提供することにより、このデータは、文学や心理学の読解実験における多くの将来の計算的・経験的研究への道を開く。

The Gutenberg Literary English Corpus (GLEC) provides a rich source of textual data for research in digital humanities, computational linguistics or neurocognitive poetics. However, so far only a small subcorpus, the Gutenberg English Poetry Corpus, has been submitted to quantitative text analyses providing predictions for scientific studies of literature. Here we show that in the entire GLEC quasi error-free text classification and authorship recognition is possible with a method using the same set of five style and five content features, computed via style and sentiment analysis, in both tasks. Our results identify two standard and two novel features (i.e., type-token ratio, frequency, sonority score, surprise) as most diagnostic in these tasks. By providing a simple tool applicable to both short poems and long novels generating quantitative predictions about features that co-determe the cognitive and affective processing of specific text categories or authors, our data pave the way for many future computational and empirical studies of literature or experiments in reading psychology.
翻訳日:2022-10-04 23:41:03 公開日:2020-10-21
# 複数のログポリシーによる最適オフポリシー評価

Optimal Off-Policy Evaluation from Multiple Logging Policies ( http://arxiv.org/abs/2010.11002v1 )

ライセンス: Link先を確認
Nathan Kallus, Yuta Saito, Masatoshi Uehara(参考訳) 複数のロギングポリシからオフポリシー評価(OPE)を行い、それぞれが一定のサイズ、すなわち階層化サンプリングのデータセットを生成する。 従来の研究では、異なる重要度サンプリング推定器のばらつきの順序付けはインスタンス依存であり、どの重要度サンプリング重量を使用するかというジレンマを生じさせた。 本稿では,このジレンマを,任意の場合,すなわち効率の低い複数のロガーに対するOPE推定器によって解決する。 特に、階層化サンプリング下でのバウンドの効率を確立し、一貫した$q$-estimatesが与えられたときにこのバウンドを達成する推定子を提案する。 q$-関数の誤特定から守るため、分散を最小限に抑えるために仮説クラスで制御変数を選択する方法も提供します。 大規模実験により,複数のロガーからのオフポリシーデータの階層化サンプリングを効率的に活用できることが実証された。

We study off-policy evaluation (OPE) from multiple logging policies, each generating a dataset of fixed size, i.e., stratified sampling. Previous work noted that in this setting the ordering of the variances of different importance sampling estimators is instance-dependent, which brings up a dilemma as to which importance sampling weights to use. In this paper, we resolve this dilemma by finding the OPE estimator for multiple loggers with minimum variance for any instance, i.e., the efficient one. In particular, we establish the efficiency bound under stratified sampling and propose an estimator achieving this bound when given consistent $q$-estimates. To guard against misspecification of $q$-functions, we also provide a way to choose the control variate in a hypothesis class to minimize variance. Extensive experiments demonstrate the benefits of our methods' efficiently leveraging of the stratified sampling of off-policy data from multiple loggers.
翻訳日:2022-10-04 23:34:43 公開日:2020-10-21
# 深層ニューラルネットワークは渋滞ゲームだ:ランドスケープの喪失からウォードロップの平衡まで

Deep Neural Networks Are Congestion Games: From Loss Landscape to Wardrop Equilibrium and Beyond ( http://arxiv.org/abs/2010.11024v1 )

ライセンス: Link先を確認
Nina Vesseron, Ievgen Redko, Charlotte Laclau(参考訳) 深層ニューラルネットワーク(DNN)の理論分析は、機械学習(ML)において現在最も困難な研究方向の1つであり、科学者が実際に行動を説明するために新しい統計的学習基盤を置く必要がある。 最近、この取り組みでいくつかの成功が達成されているが、MLコミュニティ以外の他の科学分野のツールを使ってDNNを分析できるかどうかという疑問は、それなりの注目を集めていない。 本稿では,DNNとゲーム理論(GT)の相互作用を考察し,前者を分析する際に,後者の古典的手軽に利用できる結果から得られるメリットについて述べる。 特に,広範に研究されている渋滞ゲームについて考察し,線状および非線形DNNおよび損失面の性質に固有の関連性を示す。 文献から得られた最先端の成果を回収する以外に、我々の研究は、DNNを解析し、この主張を支援するための非常に有望な新しいツールを提供し、解決時に我々のDNNに対する理解を著しく前進させる具体的なオープンな問題を提案する。

The theoretical analysis of deep neural networks (DNN) is arguably among the most challenging research directions in machine learning (ML) right now, as it requires from scientists to lay novel statistical learning foundations to explain their behaviour in practice. While some success has been achieved recently in this endeavour, the question on whether DNNs can be analyzed using the tools from other scientific fields outside the ML community has not received the attention it may well have deserved. In this paper, we explore the interplay between DNNs and game theory (GT), and show how one can benefit from the classic readily available results from the latter when analyzing the former. In particular, we consider the widely studied class of congestion games, and illustrate their intrinsic relatedness to both linear and non-linear DNNs and to the properties of their loss surface. Beyond retrieving the state-of-the-art results from the literature, we argue that our work provides a very promising novel tool for analyzing the DNNs and support this claim by proposing concrete open problems that can advance significantly our understanding of DNNs when solved.
翻訳日:2022-10-04 23:34:26 公開日:2020-10-21
# 重み付きデータを用いた個人確率凸最適化について

On Differentially Private Stochastic Convex Optimization with Heavy-tailed Data ( http://arxiv.org/abs/2010.11082v1 )

ライセンス: Link先を確認
Di Wang and Hanshen Xiao and Srini Devadas and Jinhui Xu(参考訳) 本稿では,重み付きデータを用いた確率凸最適化(SCO)のためのDPアルゴリズムの設計問題について考察する。 このようなデータの不規則性は、既存のDP-SCOおよびDP-ERMメソッドで使われるいくつかの重要な仮定に反し、DP保証の提供に失敗する。 本稿では,これらの課題をより深く理解するために,様々な条件下でのDP-SCOの総合的研究について述べる。 まず,損失関数が強く凸かつ滑らかである場合を考える。 この場合、サンプル・アンド・アグリゲーション・フレームワークに基づく手法を提案する。このフレームワークは、$\tilde{o}(\frac{d^3}{n\epsilon^4})$(他の要因を省略した後)の過剰な人口リスクを持ち、$n$はサンプルサイズ、$d$はデータの次元である。 そして、損失関数にいくつかの仮定を加えると、 \textit{expected} 過剰な集団のリスクを $\tilde{O}(\frac{ d^2}{ n\epsilon^2 })$ に減らすことができる。 これらの追加条件を緩和するために、我々は、強凸および一般凸損失関数に対して、$\tilde{o}(\frac{d^2}{n\epsilon^2})$と$\tilde{o}(\frac{d^\frac{2}{3}}{(n\epsilon^2)^\frac{1}{3}})$の過剰な人口リスクを達成するための勾配平滑化およびトリミングに基づくスキームを提供する。 実験によると、我々のアルゴリズムはデータの不規則性によって引き起こされる課題を効果的に対処できる。

In this paper, we consider the problem of designing Differentially Private (DP) algorithms for Stochastic Convex Optimization (SCO) on heavy-tailed data. The irregularity of such data violates some key assumptions used in almost all existing DP-SCO and DP-ERM methods, resulting in failure to provide the DP guarantees. To better understand this type of challenges, we provide in this paper a comprehensive study of DP-SCO under various settings. First, we consider the case where the loss function is strongly convex and smooth. For this case, we propose a method based on the sample-and-aggregate framework, which has an excess population risk of $\tilde{O}(\frac{d^3}{n\epsilon^4})$ (after omitting other factors), where $n$ is the sample size and $d$ is the dimensionality of the data. Then, we show that with some additional assumptions on the loss functions, it is possible to reduce the \textit{expected} excess population risk to $\tilde{O}(\frac{ d^2}{ n\epsilon^2 })$. To lift these additional conditions, we also provide a gradient smoothing and trimming based scheme to achieve excess population risks of $\tilde{O}(\frac{ d^2}{n\epsilon^2})$ and $\tilde{O}(\frac{d^\frac{2}{3}}{(n\epsilon^2)^\frac{1}{3}})$ for strongly convex and general convex loss functions, respectively, \textit{with high probability}. Experiments suggest that our algorithms can effectively deal with the challenges caused by data irregularity.
翻訳日:2022-10-04 23:34:05 公開日:2020-10-21
# 先行スペクトルシグネチャを用いたグラフ信号からのネットワークトポロジー変化点検出

Network topology change-point detection from graph signals with prior spectral signatures ( http://arxiv.org/abs/2010.11345v1 )

ライセンス: Link先を確認
Chiraag Kaushik, T. Mitchell Roddenberry, Santiago Segarra(参考訳) グラフ信号からの逐次的グラフトポロジ変化点検出の問題を考える。 グラフのノード上の信号は、グラフフィルタリングモデルを介して基礎となるグラフ構造によって正規化され、グラフトポロジー変化点検出問題を部分空間検出問題に蒸留するために利用できると仮定する。 本稿では,後変化グラフのスペクトルシグネチャに関する先行情報が暗黙的に逐次データにノイズを生じるように組み込まれ,変化点検出のための自然なcusumに基づくアルゴリズムを導出する。 数値実験は,提案手法の性能,特に事前情報(潜在的にうるさい)の利点を強調するものである。

We consider the problem of sequential graph topology change-point detection from graph signals. We assume that signals on the nodes of the graph are regularized by the underlying graph structure via a graph filtering model, which we then leverage to distill the graph topology change-point detection problem to a subspace detection problem. We demonstrate how prior information on the spectral signature of the post-change graph can be incorporated to implicitly denoise the observed sequential data, thus leading to a natural CUSUM-based algorithm for change-point detection. Numerical experiments illustrate the performance of our proposed approach, particularly underscoring the benefits of (potentially noisy) prior information.
翻訳日:2022-10-04 23:32:07 公開日:2020-10-21
# ホワイトボックス・アドバーサリーアタックの昇降勾配

Boosting Gradient for White-Box Adversarial Attacks ( http://arxiv.org/abs/2010.10712v1 )

ライセンス: Link先を確認
Hongying Liu, Zhenyu Zhou, Fanhua Shang, Xiaoyu Qi, Yuanyuan Liu, Licheng Jiao(参考訳) ディープニューラルネットワーク(dnn)は、画像分類やオブジェクト認識など、さまざまな人工知能応用において重要な役割を果たす。 しかし、多くの研究が、DNNに逆の例があることを示しており、これは元々のサンプルとほとんど違いはあるものの、ネットワーク出力を大きく変えることができる。 既存のホワイトボックス攻撃アルゴリズムは強力な敵の例を生成することができる。 それでも、ほとんどのアルゴリズムは、敵対的性能を改善するために勾配を最適に活用する方法に重点を置いている。 対照的に,本論文では広く用いられているrelu活性化関数の特性に着目し,バックプロパゲーション中のreluの勾配の計算を誤解する2つの現象(誤ブロッキングとオーバートランスミッション)が存在することを発見した。 どちらの問題も、損失関数の予測された変化とそれに対応する実際の変化との差を拡大し、大きな摂動をもたらす勾配を誤解させる。 そこで本研究では,ADV-ReLUと呼ばれる,勾配に基づくホワイトボックス攻撃アルゴリズムの性能向上のための汎用対角法を提案する。 ネットワークのバックプロパゲーション中に、ネットワーク入力に対する損失関数の勾配を計算し、その値をスコアにマップし、その一部を選択して、誤解を招く勾配を更新する。 emph{imagenet} に関する包括的な実験の結果は、我々のadv-reluは、多くの最先端のグラデーションベースのホワイトボックス攻撃アルゴリズムに容易に統合でき、ブラックボックス攻撃に転送でき、${\ell _2}$-norm の摂動をさらに低減できることを示している。

Deep neural networks (DNNs) are playing key roles in various artificial intelligence applications such as image classification and object recognition. However, a growing number of studies have shown that there exist adversarial examples in DNNs, which are almost imperceptibly different from original samples, but can greatly change the network output. Existing white-box attack algorithms can generate powerful adversarial examples. Nevertheless, most of the algorithms concentrate on how to iteratively make the best use of gradients to improve adversarial performance. In contrast, in this paper, we focus on the properties of the widely-used ReLU activation function, and discover that there exist two phenomena (i.e., wrong blocking and over transmission) misleading the calculation of gradients in ReLU during the backpropagation. Both issues enlarge the difference between the predicted changes of the loss function from gradient and corresponding actual changes, and mislead the gradients which results in larger perturbations. Therefore, we propose a universal adversarial example generation method, called ADV-ReLU, to enhance the performance of gradient based white-box attack algorithms. During the backpropagation of the network, our approach calculates the gradient of the loss function versus network input, maps the values to scores, and selects a part of them to update the misleading gradients. Comprehensive experimental results on \emph{ImageNet} demonstrate that our ADV-ReLU can be easily integrated into many state-of-the-art gradient-based white-box attack algorithms, as well as transferred to black-box attack attackers, to further decrease perturbations in the ${\ell _2}$-norm.
翻訳日:2022-10-04 23:31:56 公開日:2020-10-21
# ニューラルネットワーク翻訳ロバストネスのための文境界拡張

Sentence Boundary Augmentation For Neural Machine Translation Robustness ( http://arxiv.org/abs/2010.11132v1 )

ライセンス: Link先を確認
Daniel Li, Te I, Naveen Arivazhagan, Colin Cherry, Dirk Padfield(参考訳) ニューラルネットワーク翻訳(NMT)モデルは、十分な訓練と評価データを提供する翻訳タスクにおいて、高いパフォーマンスを示すが、それらは様々なタイプのエラーを含む入力に敏感である。 具体的には、入力書き起こしが自動音声認識(ASR)から来る長文音声翻訳システムにおいて、NMTモデルは音素置換、文法構造、文境界などの誤りを処理しなければならない。 奥行き誤差解析により,文境界セグメンテーションが品質に与える影響が最も大きいことを示し,セグメンテーションの堅牢性を改善するための単純なデータ拡張戦略を開発する。

Neural Machine Translation (NMT) models have demonstrated strong state of the art performance on translation tasks where well-formed training and evaluation data are provided, but they remain sensitive to inputs that include errors of various types. Specifically, in the context of long-form speech translation systems, where the input transcripts come from Automatic Speech Recognition (ASR), the NMT models have to handle errors including phoneme substitutions, grammatical structure, and sentence boundaries, all of which pose challenges to NMT robustness. Through in-depth error analysis, we show that sentence boundary segmentation has the largest impact on quality, and we develop a simple data augmentation strategy to improve segmentation robustness.
翻訳日:2022-10-04 23:25:44 公開日:2020-10-21
# 次元のボオンによる離散的積分の改ざん

Taming Discrete Integration via the Boon of Dimensionality ( http://arxiv.org/abs/2010.10724v1 )

ライセンス: Link先を確認
Jeffrey M. Dudek, Dror Fried, Kuldeep S. Meel(参考訳) 離散積分は、指数関数的に大きな集合に対する離散和の計算に関するコンピュータ科学の基本的な問題である。 30年以上にわたる研究者の強い関心にもかかわらず、離散統合に対する厳密な保証を伴う計算見積もりのためのスケーラブルな技術の設計は依然として聖杯である。 この研究の重要な貢献は、離散的な統合をモデルカウントに効率的に還元することで、このスケーラビリティの課題に対処する。 提案手法は, 従来の知識とは対照的に, 比較的単純なモデルカウント問題の例を解決できるような, 次元の大幅な増加によって実現されている。 Chakrabortyらによって提案された有望なアプローチに基づいて、我々の研究は彼らのアプローチの重要な弱点を克服している。 我々は,提案手法であるdeweight(deweight)を最先端の近似モデルカウンタで拡張し,ニューラルネットワーク検証ドメインから生じるベンチマークについて詳細な経験的解析を行う。 私たちの知る限りでは、DeWeightはこの種のベンチマークの証明可能な保証で見積もりを計算する最初のテクニックです。

Discrete integration is a fundamental problem in computer science that concerns the computation of discrete sums over exponentially large sets. Despite intense interest from researchers for over three decades, the design of scalable techniques for computing estimates with rigorous guarantees for discrete integration remains the holy grail. The key contribution of this work addresses this scalability challenge via an efficient reduction of discrete integration to model counting. The proposed reduction is achieved via a significant increase in the dimensionality that, contrary to conventional wisdom, leads to solving an instance of the relatively simpler problem of model counting. Building on the promising approach proposed by Chakraborty et al, our work overcomes the key weakness of their approach: a restriction to dyadic weights. We augment our proposed reduction, called DeWeight, with a state of the art efficient approximate model counter and perform detailed empirical analysis over benchmarks arising from neural network verification domains, an emerging application area of critical importance. DeWeight, to the best of our knowledge, is the first technique to compute estimates with provable guarantees for this class of benchmarks.
翻訳日:2022-10-04 23:25:12 公開日:2020-10-21
# アムネシアック機械学習

Amnesiac Machine Learning ( http://arxiv.org/abs/2010.10981v1 )

ライセンス: Link先を確認
Laura Graves, Vineel Nagisetty, Vijay Ganesh(参考訳) 忘れられる権利は、最近制定された一般データ保護規則(GDPR)法の一部であり、欧州連合の居住者に関するデータを持つデータ保有者に影響を与える。 EUの住民は、機械学習モデルのトレーニングに使用するトレーニング記録を含む、個人データの削除を要求することができる。 残念ながら、ディープニューラルネットワークモデルは、トレーニングされたモデルからクラス情報を抽出するモデル反転攻撃や、モデルのトレーニングデータにおけるサンプルの存在を決定するメンバーシップ推論攻撃など、情報漏洩攻撃に対して脆弱である。 悪意のある当事者が攻撃をマウントし、削除を意図した個人情報を学習できれば、モデル所有者はユーザーの権利を適切に保護しておらず、モデルがGDPR法に準拠していない可能性があることを意味する。 本稿では,モデルオーナやデータホルダがモデルの有効性を維持しつつ,モデルインバージョンやメンバシップ推論攻撃に脆弱にならないような方法で,モデルから個人データを削除できるのかという問題に対して,この2つの効率的な手法を提案する。 まず、トレーニングデータの削除がユーザを保護するには不十分であることを示す、現実世界の脅威モデルを提示します。 そして、UnlearningとAmnesiac Unlearningという2つのデータ削除手法により、モデル所有者は規制に準拠しながら、そのような攻撃から身を守ることができる。 これらの手法が本当に効率的で、適用が安全であり、モデルの有効性を維持しながら、トレーニングされたモデルからセンシティブなデータに関する学習情報を効果的に削除できることを示す、広範な実証分析を提供する。

The Right to be Forgotten is part of the recently enacted General Data Protection Regulation (GDPR) law that affects any data holder that has data on European Union residents. It gives EU residents the ability to request deletion of their personal data, including training records used to train machine learning models. Unfortunately, Deep Neural Network models are vulnerable to information leaking attacks such as model inversion attacks which extract class information from a trained model and membership inference attacks which determine the presence of an example in a model's training data. If a malicious party can mount an attack and learn private information that was meant to be removed, then it implies that the model owner has not properly protected their user's rights and their models may not be compliant with the GDPR law. In this paper, we present two efficient methods that address this question of how a model owner or data holder may delete personal data from models in such a way that they may not be vulnerable to model inversion and membership inference attacks while maintaining model efficacy. We start by presenting a real-world threat model that shows that simply removing training data is insufficient to protect users. We follow that up with two data removal methods, namely Unlearning and Amnesiac Unlearning, that enable model owners to protect themselves against such attacks while being compliant with regulations. We provide extensive empirical analysis that show that these methods are indeed efficient, safe to apply, effectively remove learned information about sensitive data from trained models while maintaining model efficacy.
翻訳日:2022-10-04 23:24:56 公開日:2020-10-21
# ルーニー則が長期の暗黙的バイアスに及ぼす影響

The Effect of the Rooney Rule on Implicit Bias in the Long Term ( http://arxiv.org/abs/2010.10992v1 )

ライセンス: Link先を確認
L. Elisa Celis, Chris Hays, Anay Mehrotra, Nisheeth K. Vishnoi(参考訳) A robust body of evidence demonstrates the adverse effects of implicit bias in various contexts--from hiring to health care. The Rooney Rule is an intervention developed to counter implicit bias and has been implemented in the private and public sectors. The Rooney Rule requires that a selection panel include at least one candidate from an underrepresented group in their shortlist of candidates. Recently, Kleinberg and Raghavan proposed a model of implicit bias and studied the effectiveness of the Rooney Rule when applied to a single selection decision. However, selection decisions often occur repeatedly over time. Further, it has been observed that, given consistent counterstereotypical feedback, implicit biases against underrepresented candidates can change. We consider a model of how a selection panel's implicit bias changes over time given their hiring decisions either with or without the Rooney Rule in place. Our main result is that, when the panel is constrained by the Rooney Rule, their implicit bias roughly reduces at a rate that is the inverse of the size of the shortlist--independent of the number of candidates, whereas without the Rooney Rule, the rate is inversely proportional to the number of candidates. したがって、候補数がショートリストのサイズよりはるかに大きい場合、rooneyルールは暗黙のバイアスを減らすことを可能にし、暗黙のバイアスを緩和するための戦略としてそれを使用するための追加の理由を提供する。 反復選択決定におけるルーニー規則の長期効果を実証的に評価するために,Amazon MTurk上で反復的候補選択実験を行う。 実際、ルーニー規則に従属する意思決定者は、ルールが施行されていない場合よりも、ルール自身によって要求されるものに加えて、より少数派の候補者を選定し、選択された候補者の利便性を著しく低下させることなく、それを行うのである。

A robust body of evidence demonstrates the adverse effects of implicit bias in various contexts--from hiring to health care. The Rooney Rule is an intervention developed to counter implicit bias and has been implemented in the private and public sectors. The Rooney Rule requires that a selection panel include at least one candidate from an underrepresented group in their shortlist of candidates. Recently, Kleinberg and Raghavan proposed a model of implicit bias and studied the effectiveness of the Rooney Rule when applied to a single selection decision. However, selection decisions often occur repeatedly over time. Further, it has been observed that, given consistent counterstereotypical feedback, implicit biases against underrepresented candidates can change. We consider a model of how a selection panel's implicit bias changes over time given their hiring decisions either with or without the Rooney Rule in place. Our main result is that, when the panel is constrained by the Rooney Rule, their implicit bias roughly reduces at a rate that is the inverse of the size of the shortlist--independent of the number of candidates, whereas without the Rooney Rule, the rate is inversely proportional to the number of candidates. Thus, when the number of candidates is much larger than the size of the shortlist, the Rooney Rule enables a faster reduction in implicit bias, providing an additional reason in favor of using it as a strategy to mitigate implicit bias. Towards empirically evaluating the long-term effect of the Rooney Rule in repeated selection decisions, we conduct an iterative candidate selection experiment on Amazon MTurk. We observe that, indeed, decision-makers subject to the Rooney Rule select more minority candidates in addition to those required by the rule itself than they would if no rule is in effect, and do so without considerably decreasing the utility of candidates selected.
翻訳日:2022-10-04 23:24:30 公開日:2020-10-21
# I-nteract 2.0:複合現実感技術と深層学習による3次元モデル設計のためのサイバー物理システム

I-nteract 2.0: A Cyber-Physical System to Design 3D Models using Mixed Reality Technologies and Deep Learning for Additive Manufacturing ( http://arxiv.org/abs/2010.11025v1 )

ライセンス: Link先を確認
Ammar Malik, Hugo Lhachemi, and Robert Shorten(参考訳) i-nteractは、バーチャルアーティファクトとリアルアーティファクトの両方とのリアルタイムインタラクションを可能にし、複合現実技術を活用することで、付加生産のための3dモデルを設計するサイバー物理システムである。 本稿では, 立体形状と人工知能の両方を用いて3次元モデルを生成するインタラクションプラットフォームI-nteractの開発において, 新たな進歩を示す。 このシステムにより、ユーザーは物理的なワークスペースに関して3Dモデルの寸法を調整できる。 システムの有効性は、家具(例えば椅子やテーブル)の3次元モデルを生成し、それらを混合現実環境の物理的空間に適合させることによって実証される。

I-nteract is a cyber-physical system that enables real-time interaction with both virtual and real artifacts to design 3D models for additive manufacturing by leveraging on mixed reality technologies. This paper presents novel advances in the development of the interaction platform I-nteract to generate 3D models using both constructive solid geometry and artificial intelligence. The system also enables the user to adjust the dimensions of the 3D models with respect to their physical workspace. The effectiveness of the system is demonstrated by generating 3D models of furniture (e.g., chairs and tables) and fitting them into the physical space in a mixed reality environment.
翻訳日:2022-10-04 23:24:03 公開日:2020-10-21
# マルチモーダル分類器のバイアス除去:機能エントロピー最大化による正則化

Removing Bias in Multi-modal Classifiers: Regularization by Maximizing Functional Entropies ( http://arxiv.org/abs/2010.10802v1 )

ライセンス: Link先を確認
Itai Gat and Idan Schwartz and Alexander Schwing and Tamir Hazan(参考訳) 最近のデータセットの多くは、視覚的質問応答(VQA)における画像、質問、回答データなど、さまざまなデータモダリティを含んでいる。 これらのマルチモーダルデータセット上でディープネット分類器を訓練する場合、モダリティは異なるスケールで利用され、例えば、いくつかのモダリティは他のモダリティよりも容易に分類結果に寄与することができる。 これは、分類器が本質的にモダリティのサブセットに偏っているため、準最適である。 この欠点を解消するために,関数エントロピーに基づく新しい正規化項を提案する。 直感的には、この用語は分類結果に対する各様相の寄与のバランスをとることを奨励する。 しかし、機能エントロピーによる正規化は困難である。 そこで本研究では,機能的エントロピーと機能的魚介情報とを結びつけるlog-sobolev不等式に基づく手法を開発した。 直感的には、モダリティが貢献する情報の量を最大化する。 VQA-CPv2 と SocialIQ の2つの挑戦的マルチモーダルデータセットに対して,より均一にモダリティを活用しながら,最先端の結果を得る。 さらに,色付きMNISTに対する本手法の有効性を実証した。

Many recent datasets contain a variety of different data modalities, for instance, image, question, and answer data in visual question answering (VQA). When training deep net classifiers on those multi-modal datasets, the modalities get exploited at different scales, i.e., some modalities can more easily contribute to the classification results than others. This is suboptimal because the classifier is inherently biased towards a subset of the modalities. To alleviate this shortcoming, we propose a novel regularization term based on the functional entropy. Intuitively, this term encourages to balance the contribution of each modality to the classification result. However, regularization with the functional entropy is challenging. To address this, we develop a method based on the log-Sobolev inequality, which bounds the functional entropy with the functional-Fisher-information. Intuitively, this maximizes the amount of information that the modalities contribute. On the two challenging multi-modal datasets VQA-CPv2 and SocialIQ, we obtain state-of-the-art results while more uniformly exploiting the modalities. In addition, we demonstrate the efficacy of our method on Colored MNIST.
翻訳日:2022-10-04 23:16:25 公開日:2020-10-21
# Kinetics-700-2020 Human Action Datasetについて

A Short Note on the Kinetics-700-2020 Human Action Dataset ( http://arxiv.org/abs/2010.10864v1 )

ライセンス: Link先を確認
Lucas Smaira (DeepMind), Jo\~ao Carreira (DeepMind), Eric Noland (DeepMind), Ellen Clancy (DeepMind), Amy Wu (DeepMind), Andrew Zisserman (DeepMind)(参考訳) 我々は、2020年のDeepMind Kineticsのヒューマンアクションデータセットについて記述し、Kinetics-700データセットを補足し拡張する。 この新しいバージョンでは、700クラスごとに、さまざまなyoutubeビデオから少なくとも700本のビデオクリップがある。 本稿では,データセットの新リリースで導入された変更について詳述し,I3Dネットワークを用いた総合統計とベースライン結果を含む。

We describe the 2020 edition of the DeepMind Kinetics human action dataset, which replenishes and extends the Kinetics-700 dataset. In this new version, there are at least 700 video clips from different YouTube videos for each of the 700 classes. This paper details the changes introduced for this new release of the dataset and includes a comprehensive set of statistics as well as baseline results using the I3D network.
翻訳日:2022-10-04 23:16:04 公開日:2020-10-21
# 確率的数値畳み込みニューラルネットワーク

Probabilistic Numeric Convolutional Neural Networks ( http://arxiv.org/abs/2010.10876v1 )

ライセンス: Link先を確認
Marc Finzi, Roberto Bondesan, Max Welling(参考訳) 画像や時系列のような不規則にサンプリングされたり、値が欠けていたりといった連続的な入力信号は、既存のディープラーニング手法では難しい。 コヒーレントに定義された特徴表現は、入力の観測されていない領域の値に依存する必要がある。 本稿では,確率的数値計算における研究から,特徴をガウス過程(gps)として表現する確率的数値畳み込みニューラルネットワークを提案し,離散化誤差の確率論的記述を提供する。 次に、畳み込み層を、このGP上で定義されたPDEの進化として定義し、次いで非線形性とする。 このアプローチは、例えば回転群の下でのステアブル同変畳み込みも自然に認める。 実験では、スーパーピクセル-mnistデータセットの以前の状態と、医療時系列データセット physionet2012 の競合性能から誤差を3\times$で削減できることを示しました。

Continuous input signals like images and time series that are irregularly sampled or have missing values are challenging for existing deep learning methods. Coherently defined feature representations must depend on the values in unobserved regions of the input. Drawing from the work in probabilistic numerics, we propose Probabilistic Numeric Convolutional Neural Networks which represent features as Gaussian processes (GPs), providing a probabilistic description of discretization error. We then define a convolutional layer as the evolution of a PDE defined on this GP, followed by a nonlinearity. This approach also naturally admits steerable equivariant convolutions under e.g. the rotation group. In experiments we show that our approach yields a $3\times$ reduction of error from the previous state of the art on the SuperPixel-MNIST dataset and competitive performance on the medical time series dataset PhysioNet2012.
翻訳日:2022-10-04 23:15:57 公開日:2020-10-21
# 医用画像セグメンテーションにおける継続的な学習とは何か

What is Wrong with Continual Learning in Medical Image Segmentation? ( http://arxiv.org/abs/2010.11008v1 )

ライセンス: Link先を確認
Camila Gonzalez, Georgios Sakas and Anirban Mukhopadhyay(参考訳) 継続的な学習プロトコルは医療画像コミュニティから注目を集めている。 連続的なセットアップでは、異なるソースからのデータが順次到着し、各バッチは限られた期間のみ利用できる。 医療データに関連する固有のプライバシーリスクを考えると、この設定は深層学習診断放射線学システムへの展開の現実を反映している。 分類タスクを継続的に学習する技術は数多く存在し、いくつかはセマンティックセグメンテーションに適応している。 しかし、多くは以下の欠点の少なくとも1つを持っている。 a) 推論中にドメインのアイデンティティ情報に大きく依存している場合、又は b) 早期訓練段階に見られるデータは,後のデータによる訓練から利益を得ない。 本研究では,双方の懸念に対処する評価フレームワークを提案し,公正なマルチモデルベンチマークを導入する。 このベンチマークは,T2重み付きMR前立腺セグメンテーションのタスクにおいて,2つの一般的な連続学習手法より優れていることを示す。

Continual learning protocols are attracting increasing attention from the medical imaging community. In a continual setup, data from different sources arrives sequentially and each batch is only available for a limited period. Given the inherent privacy risks associated with medical data, this setup reflects the reality of deployment for deep learning diagnostic radiology systems. Many techniques exist to learn continuously for classification tasks, and several have been adapted to semantic segmentation. Yet most have at least one of the following flaws: a) they rely too heavily on domain identity information during inference, or b) data as seen in early training stages does not profit from training with later data. In this work, we propose an evaluation framework that addresses both concerns, and introduce a fair multi-model benchmark. We show that the benchmark outperforms two popular continual learning methods for the task of T2-weighted MR prostate segmentation.
翻訳日:2022-10-04 23:15:25 公開日:2020-10-21
# エッジデバイスにおける畳み込みニューラルネットワークの性能予測

Performance Prediction for Convolutional Neural Networks in Edge Devices ( http://arxiv.org/abs/2010.11297v1 )

ライセンス: Link先を確認
Halima Bouzidi, Hamza Ouarnoughi, Smail Niar and Abdessamad Ait El Cadi(参考訳) convolutional neural network(cnn)ベースのアプリケーションをデータソースに近いエッジデバイスで実行すると、レイテンシとプライバシの課題に対処できる。 しかし、コンピューティングリソースの削減とエネルギー制約のため、これらのエッジデバイスは処理やデータストレージにおけるCNNのニーズをほとんど満たさない。 これらのプラットフォームでは、ハードウェア制約を尊重しながら、正確性と実行時間の最良のトレードオフでCNNを選択することが重要です。 本稿では,2つのエッジGPUプラットフォーム上でのCNNの実行時間予測に広く用いられている機械学習手法の5つの (5) を提示し,比較する。 これらの5つの手法について、トレーニングに必要な時間と、対応するハイパーパラメータのチューニングについても検討する。 最後に、異なるプラットフォーム上で予測モデルを実行する時間を比較する。 これらの手法を利用することで、ターゲットエッジGPU上での最高のCNNを迅速に提供し、設計空間の探索を容易にする。 実験の結果、eXtreme Gradient Boosting (XGBoost)は、探索されていないCNNモデルのアーキテクチャであっても平均予測誤差が14.73%未満であることが示された。 ランダムフォレスト(RF)の精度は同等だが、訓練にはより多くの労力と時間が必要である。 他の3つのアプローチ(OLS、MLP、SVR)は、CNNのパフォーマンス推定では正確ではない。

Running Convolutional Neural Network (CNN) based applications on edge devices near the source of data can meet the latency and privacy challenges. However due to their reduced computing resources and their energy constraints, these edge devices can hardly satisfy CNN needs in processing and data storage. For these platforms, choosing the CNN with the best trade-off between accuracy and execution time while respecting Hardware constraints is crucial. In this paper, we present and compare five (5) of the widely used Machine Learning based methods for execution time prediction of CNNs on two (2) edge GPU platforms. For these 5 methods, we also explore the time needed for their training and tuning their corresponding hyperparameters. Finally, we compare times to run the prediction models on different platforms. The utilization of these methods will highly facilitate design space exploration by providing quickly the best CNN on a target edge GPU. Experimental results show that eXtreme Gradient Boosting (XGBoost) provides a less than 14.73% average prediction error even for unexplored and unseen CNN models' architectures. Random Forest (RF) depicts comparable accuracy but needs more effort and time to be trained. The other 3 approaches (OLS, MLP and SVR) are less accurate for CNN performances estimation.
翻訳日:2022-10-04 23:15:13 公開日:2020-10-21
# 学術論文のフルテキストコンテンツを用いた自然言語処理領域におけるアルゴリズムエンティティの同定と評価

Using the Full-text Content of Academic Articles to Identify and Evaluate Algorithm Entities in the Domain of Natural Language Processing ( http://arxiv.org/abs/2010.10817v1 )

ライセンス: Link先を確認
Yuzhuo Wang, Chengzhi Zhang(参考訳) ビッグデータの時代、学術研究におけるアルゴリズムの進歩、改善、応用は、異なる分野の発展を促進する上で重要な役割を果たしてきた。 様々な分野、特にコンピュータ科学の学術論文には、多くのアルゴリズムが含まれている。 論文の全文コンテンツからアルゴリズムを識別することで、特定の分野におけるポピュラーなアルゴリズムや古典的なアルゴリズムを決定でき、研究者がアルゴリズムや分野の包括的な理解を得るのに役立つ。 本稿では,自然言語処理(NLP)の分野を例として取り上げ,その分野の学術論文からアルゴリズムを同定する。 論文内容を手動で注釈付けしてアルゴリズムの辞書を構築し、辞書にアルゴリズムを含む文を辞書ベースのマッチングにより抽出する。 アルゴリズムに言及する記事の数は、そのアルゴリズムの影響を分析する指標として使用される。 以上の結果から,nlp論文に最も影響の大きいアルゴリズムが示され,分類アルゴリズムがハイインパクトアルゴリズムの中で最も高い割合を表わすことが示された。 さらに、アルゴリズムの影響の進化は、分野における研究課題やトピックの変化を反映しており、異なるアルゴリズムの影響の変化は異なる傾向を示している。 予備的な調査として,本論文では,学術論文で言及されているアルゴリズムの影響を解析し,将来,大規模アルゴリズムの自動抽出のためのトレーニングデータとして利用することができる。 本稿ではドメインに依存しない方法論を他のドメインに適用できる。

In the era of big data, the advancement, improvement, and application of algorithms in academic research have played an important role in promoting the development of different disciplines. Academic papers in various disciplines, especially computer science, contain a large number of algorithms. Identifying the algorithms from the full-text content of papers can determine popular or classical algorithms in a specific field and help scholars gain a comprehensive understanding of the algorithms and even the field. To this end, this article takes the field of natural language processing (NLP) as an example and identifies algorithms from academic papers in the field. A dictionary of algorithms is constructed by manually annotating the contents of papers, and sentences containing algorithms in the dictionary are extracted through dictionary-based matching. The number of articles mentioning an algorithm is used as an indicator to analyze the influence of that algorithm. Our results reveal the algorithm with the highest influence in NLP papers and show that classification algorithms represent the largest proportion among the high-impact algorithms. In addition, the evolution of the influence of algorithms reflects the changes in research tasks and topics in the field, and the changes in the influence of different algorithms show different trends. As a preliminary exploration, this paper conducts an analysis of the impact of algorithms mentioned in the academic text, and the results can be used as training data for the automatic extraction of large-scale algorithms in the future. The methodology in this paper is domain-independent and can be applied to other domains.
翻訳日:2022-10-04 23:14:24 公開日:2020-10-21
# ディープQネットワークに基づく小売銀行における支払フレードシステムのアダプティブアレルト閾値選択政策

Deep Q-Network-based Adaptive Alert Threshold Selection Policy for Payment Fraud Systems in Retail Banking ( http://arxiv.org/abs/2010.11062v1 )

ライセンス: Link先を確認
Hongda Shen, Eren Kurshan(参考訳) 機械学習モデルは不正検出システムで広く使われている。 研究・開発努力の大部分は不正スコアリングモデルの性能向上に集中している。 しかし、下流の詐欺警報システムはモデル採用に制限されており、手動の手順に依存している。 アラートシステムは、小売銀行の全ての支払いチャネルで広く使われ、全体的な不正検出プロセスにおいて重要な役割を果たす。 現在の不正検知システムは、警報処理能力を考慮することができないため、大量の警告を落としてしまう。 理想的には、警告しきい値の選択により、システムは、上流の不正スコアとアラート処理チームの利用可能な帯域のバランスを保ちながら、不正検出を最大化することができる。 しかし、実際には、単純さのために使われる固定しきい値には、この能力がない。 本稿では,不正警報システムにおけるしきい値選択ポリシーの強化を提案する。 提案手法は、しきい値選択を逐次決定問題として定式化し、ディープQネットワークに基づく強化学習を用いる。 実験結果から, この適応手法は, 不正な損失を低減し, 警報システムの動作効率を向上させることにより, 現在の静的解よりも優れていることがわかった。

Machine learning models have widely been used in fraud detection systems. Most of the research and development efforts have been concentrated on improving the performance of the fraud scoring models. Yet, the downstream fraud alert systems still have limited to no model adoption and rely on manual steps. Alert systems are pervasively used across all payment channels in retail banking and play an important role in the overall fraud detection process. Current fraud detection systems end up with large numbers of dropped alerts due to their inability to account for the alert processing capacity. Ideally, alert threshold selection enables the system to maximize the fraud detection while balancing the upstream fraud scores and the available bandwidth of the alert processing teams. However, in practice, fixed thresholds that are used for their simplicity do not have this ability. In this paper, we propose an enhanced threshold selection policy for fraud alert systems. The proposed approach formulates the threshold selection as a sequential decision making problem and uses Deep Q-Network based reinforcement learning. Experimental results show that this adaptive approach outperforms the current static solutions by reducing the fraud losses as well as improving the operational efficiency of the alert system.
翻訳日:2022-10-04 23:07:34 公開日:2020-10-21
# グラフ畳み込みネットワークのグローバル自己注意機構について

On the Global Self-attention Mechanism for Graph Convolutional Networks ( http://arxiv.org/abs/2010.10711v1 )

ライセンス: Link先を確認
Chen Wang and Chengyuan Deng(参考訳) 機能に対するグローバル自己注意(GSA)メカニズムの適用は、畳み込みニューラルネットワーク(CNN)において大きな成功を収めた。 しかし、グラフ畳み込みネットワーク(gcns)が同様の手法の恩恵を受けるかどうかは明らかではない。 本稿では,CNNとGCNの類似性から着想を得て,グローバル自己保持機構がGCNに与える影響について検討する。 直観と一致して、gsa機構により、gcnはエッジ接続に関係なく機能ベースの頂点関係を捉えることができ、その結果、gsa機構はgcnに余分な表現力をもたらすことができる。 さらに,GSA機構が過度に適合する問題や過度にスムースな問題に与える影響を解析した。 我々はGSA機構が最近の技術的発展に基づいて過度な適合と過度にスムースな問題を緩和できることを証明した。 複数のベンチマークデータセットの実験では、直観と理論的な結果を裏付けるGSA増強GCNの優れた表現力と過度な過度な過度なオーバーフィットと過度なスムースな問題の両方が示されている。

Applying Global Self-attention (GSA) mechanism over features has achieved remarkable success on Convolutional Neural Networks (CNNs). However, it is not clear if Graph Convolutional Networks (GCNs) can similarly benefit from such a technique. In this paper, inspired by the similarity between CNNs and GCNs, we study the impact of the Global Self-attention mechanism on GCNs. We find that consistent with the intuition, the GSA mechanism allows GCNs to capture feature-based vertex relations regardless of edge connections; As a result, the GSA mechanism can introduce extra expressive power to the GCNs. Furthermore, we analyze the impacts of the GSA mechanism on the issues of overfitting and over-smoothing. We prove that the GSA mechanism can alleviate both the overfitting and the over-smoothing issues based on some recent technical developments. Experiments on multiple benchmark datasets illustrate both superior expressive power and less significant overfitting and over-smoothing problems for the GSA-augmented GCNs, which corroborate the intuitions and the theoretical results.
翻訳日:2022-10-04 23:07:16 公開日:2020-10-21
# ベクトルクロス積による有向グラフ表現

Directed Graph Representation through Vector Cross Product ( http://arxiv.org/abs/2010.10737v1 )

ライセンス: Link先を確認
Ramanujam Madhavan, Mohit Wadhwa(参考訳) グラフ埋め込み手法は、グラフトポロジを保持しながら、グラフ内のノードを低次元ベクトル空間に埋め込み、リンク予測、ノード推薦、クラスタリングなどの下流タスクを実行する。 これらのタスクは、コサインの類似性や、自然に対称であり、従って有向グラフには適さない埋め込みの対の間のユークリッド距離のような類似性測度に依存する。 近年の有向グラフ,HOPE,APP,NERDの研究は,各ノードに対する2つの埋め込み(ソースとターゲット)を学習することにより,ノード間のエッジの方向を保存することを提案した。 しかし、これらの方法は有向辺の性質を明示的に考慮しない。 ノード間の方向関係を理解するために,ベクトルクロス積の非可換性を利用して,ノード間のエッジの方向を本質的に保存する埋め込みを学習する新しい手法を提案する。 我々は,クロスプロダクト操作をネットワークアーキテクチャに組み込む,シームズニューラルネットワークを通じてノード埋め込みを学習する。 一対のベクトルの間の交叉積は3次元で定義されるが、このアプローチは非可換性を維持しながらN次元の埋め込みを学習するために拡張される。 実世界の3つのデータセットに関する実証実験において、非常に低次元の埋め込みでも方向特性を効果的に保ちつつ、リンク予測やノードレコメンデーションタスクにおける最先端の手法よりも優れていることを示した。

Graph embedding methods embed the nodes in a graph in low dimensional vector space while preserving graph topology to carry out the downstream tasks such as link prediction, node recommendation and clustering. These tasks depend on a similarity measure such as cosine similarity and Euclidean distance between a pair of embeddings that are symmetric in nature and hence do not hold good for directed graphs. Recent work on directed graphs, HOPE, APP, and NERD, proposed to preserve the direction of edges among nodes by learning two embeddings, source and target, for every node. However, these methods do not take into account the properties of directed edges explicitly. To understand the directional relation among nodes, we propose a novel approach that takes advantage of the non commutative property of vector cross product to learn embeddings that inherently preserve the direction of edges among nodes. We learn the node embeddings through a Siamese neural network where the cross-product operation is incorporated into the network architecture. Although cross product between a pair of vectors is defined in three dimensional, the approach is extended to learn N dimensional embeddings while maintaining the non-commutative property. In our empirical experiments on three real-world datasets, we observed that even very low dimensional embeddings could effectively preserve the directional property while outperforming some of the state-of-the-art methods on link prediction and node recommendation tasks
翻訳日:2022-10-04 23:06:56 公開日:2020-10-21
# バイナリ分類器のエラー率の制御方法

How to Control the Error Rates of Binary Classifiers ( http://arxiv.org/abs/2010.11039v1 )

ライセンス: Link先を確認
Milo\v{s} Simi\'c(参考訳) 従来のバイナリ分類フレームワークは、精度は良いが、偽陽性と偽陰性のエラー率がユーザの制御下にない分類器を構築する。 多くの場合、エラーの1つはより深刻であり、予め定義された閾値よりも低いレートの分類器のみが許容される。 本研究では,すでに訓練済みの分類器の目標誤差率を制御するために,二項分類と統計的仮説テストを組み合わせる。 特に、二項分類器を統計検査に変換し、p-値の分類を計算し、対象の誤差率を制限する方法を示す。

The traditional binary classification framework constructs classifiers which may have good accuracy, but whose false positive and false negative error rates are not under users' control. In many cases, one of the errors is more severe and only the classifiers with the corresponding rate lower than the predefined threshold are acceptable. In this study, we combine binary classification with statistical hypothesis testing to control the target error rate of already trained classifiers. In particular, we show how to turn binary classifiers into statistical tests, calculate the classification p-values, and use them to limit the target error rate.
翻訳日:2022-10-04 23:05:33 公開日:2020-10-21
# 凸ポリトープ木

Convex Polytope Trees ( http://arxiv.org/abs/2010.11266v1 )

ライセンス: Link先を確認
Mohammadreza Armandpour, Mingyuan Zhou(参考訳) 決定木は通常、内部ノードの各共変量空間を分割するために単一の超平面を使用するように制限される。 高い精度を達成するために、多くの場合、多数のノードを必要とする。 本稿では,その決定境界の解釈可能な一般化により,決定木の系統を拡大するための凸多面体木(CPT)を提案する。 cptの各ノードの分割関数は、異なる重み付けされた確率的線形決定メーカーのコミュニティの論理的分離に基づいており、これは共変量空間の凸ポリトープにも幾何学的に対応している。 我々は,各ノードに非パラメトリックベイズ事前を用いて,コミュニティの大きさを推定し,ポリトープの面数を小さくすることで,より単純な決定境界を推し進める。 木構造が与えられたとき,木パラメータに対するCPTおよび拡張性のあるエンドツーエンドトレーニングアルゴリズムを効率的に構築する。 我々は,様々な領域における実世界の分類と回帰タスクにおいて,既存の最先端決定木に対するcptの有効性を実証的に実証する。

A decision tree is commonly restricted to use a single hyperplane to split the covariate space at each of its internal nodes. It often requires a large number of nodes to achieve high accuracy, hurting its interpretability. In this paper, we propose convex polytope trees (CPT) to expand the family of decision trees by an interpretable generalization of their decision boundary. The splitting function at each node of CPT is based on the logical disjunction of a community of differently weighted probabilistic linear decision-makers, which also geometrically corresponds to a convex polytope in the covariate space. We use a nonparametric Bayesian prior at each node to infer the community's size, encouraging simpler decision boundaries by shrinking the number of polytope facets. We develop a greedy method to efficiently construct CPT and scalable end-to-end training algorithms for the tree parameters when the tree structure is given. We empirically demonstrate the efficiency of CPT over existing state-of-the-art decision trees in several real-world classification and regression tasks from diverse domains.
翻訳日:2022-10-04 23:05:22 公開日:2020-10-21
# 記憶圧縮と転送による長文要約の学習

Learning to Summarize Long Texts with Memory Compression and Transfer ( http://arxiv.org/abs/2010.11322v1 )

ライセンス: Link先を確認
Jaehong Park, Jonathan Pilault and Christopher Pal(参考訳) 本稿では,階層型再帰型ニューラルネットワークを用いたエンコーダデコーダアーキテクチャのためのメモリ対メモリ機構であるmem2memについて紹介する。 Mem2Memは、エンコーダとデコーダの両方を増強する読み取り/書き込み可能な外部メモリモジュールを介して「メモリ」を転送する。 我々のメモリ正規化は、符号化された入力記事をよりコンパクトな文表現に圧縮する。 最も重要なことは、メモリ圧縮ステップがラベルなしで暗黙的な抽出を行うこと、最適地下構造データによるサイドステッピング問題、ハイブリッド抽出-抽象的要約手法の露出バイアス。 デコーダが符号化された入力メモリ上で読み書きできることで、モデルが生成した情報を追跡しながら、入力項目に関する適切な情報を読み取ることができる。 我々のMem2Memアプローチは、アートトランスフォーマーに基づく要約手法と競合する結果をもたらすが、パラメータは16倍少ない。

We introduce Mem2Mem, a memory-to-memory mechanism for hierarchical recurrent neural network based encoder decoder architectures and we explore its use for abstractive document summarization. Mem2Mem transfers "memories" via readable/writable external memory modules that augment both the encoder and decoder. Our memory regularization compresses an encoded input article into a more compact set of sentence representations. Most importantly, the memory compression step performs implicit extraction without labels, sidestepping issues with suboptimal ground-truth data and exposure bias of hybrid extractive-abstractive summarization techniques. By allowing the decoder to read/write over the encoded input memory, the model learns to read salient information about the input article while keeping track of what has been generated. Our Mem2Mem approach yields results that are competitive with state of the art transformer based summarization methods, but with 16 times fewer parameters
翻訳日:2022-10-04 22:58:47 公開日:2020-10-21
# 高齢者のリアルタイム眠気検出に向けて

Towards Real-time Drowsiness Detection for Elderly Care ( http://arxiv.org/abs/2010.10771v1 )

ライセンス: Link先を確認
Boris Ba\v{c}i\'c and Jason Zhang(参考訳) 本研究の目的は,高齢者が単独で生活するのを助けるために,ビデオから眠気情報を抽出するための概念実証を行うことである。 時間とともにあくび, まぶた, 頭の動きを定量化するために, OpenCVライブラリと統合したディープラーニングモデルのトレーニングとテストのために, 撮影ビデオから3000の画像を抽出した。 目と口の開閉状態の分類精度は94.3%-97.2%であった。 3次元座標重ね合わせによる映像からの頭部運動の視覚的検査では, 収集データ(ヨー, ロール, ピッチ)の時空間パターンが明らかであった。 時系列としてのdrrowsiness情報の抽出手法は、プライバシ保護強化コーチングにおける事前作業のサポート、スポーツリハビリテーション、医療におけるビッグデータプラットフォームとの統合など、他のコンテキストにも適用できる。

The primary focus of this paper is to produce a proof of concept for extracting drowsiness information from videos to help elderly living on their own. To quantify yawning, eyelid and head movement over time, we extracted 3000 images from captured videos for training and testing of deep learning models integrated with OpenCV library. The achieved classification accuracy for eyelid and mouth open/close status were between 94.3%-97.2%. Visual inspection of head movement from videos with generated 3D coordinate overlays, indicated clear spatiotemporal patterns in collected data (yaw, roll and pitch). Extraction methodology of the drowsiness information as timeseries is applicable to other contexts including support for prior work in privacy-preserving augmented coaching, sport rehabilitation, and integration with big data platform in healthcare.
翻訳日:2022-10-04 22:57:56 公開日:2020-10-21
# sparqlパターン合成のためのシーケンス列モデルの検討

Exploring Sequence-to-Sequence Models for SPARQL Pattern Composition ( http://arxiv.org/abs/2010.10900v1 )

ライセンス: Link先を確認
Anand Panchbhai and Tommaso Soru and Edgard Marx(参考訳) dbpediaやwikidataといった知識ベースに数百万のエンティティを記述した数十億のステートメントを供給し、構造化され、非構造化されたデータとしてインターネットに継続的に追加される。 質問応答システムの目的は、ユーザーが形式的なクエリを書くことなく、自然言語を使ってそのようなデータにアクセスできるようにすることである。 しかし、ユーザーは複雑な質問を提出し、ある程度の抽象化と推論を必要とし、それらを基本的なグラフパターンに分解する。 本稿では,neural sparql machineと呼ばれるニューラルマシン翻訳に基づくアーキテクチャを用いて,パターン構成を学習する。 シーケンス・ツー・シーケンス・モデルは、長い発話を複雑なSPARQLクエリに変換するための、可能かつ有望な選択肢であることを示す。

A booming amount of information is continuously added to the Internet as structured and unstructured data, feeding knowledge bases such as DBpedia and Wikidata with billions of statements describing millions of entities. The aim of Question Answering systems is to allow lay users to access such data using natural language without needing to write formal queries. However, users often submit questions that are complex and require a certain level of abstraction and reasoning to decompose them into basic graph patterns. In this short paper, we explore the use of architectures based on Neural Machine Translation called Neural SPARQL Machines to learn pattern compositions. We show that sequence-to-sequence models are a viable and promising option to transform long utterances into complex SPARQL queries.
翻訳日:2022-10-04 22:57:41 公開日:2020-10-21
# 深層学習に基づく特許の引用推薦システム

Deep learning-based citation recommendation system for patents ( http://arxiv.org/abs/2010.10932v1 )

ライセンス: Link先を確認
Jaewoong Choi, Sion Jang, Jaeyoung Kim, Jiho Lee, Janghyeok Yoona, Sungchul Choi(参考訳) 本研究では,ディープラーニングに基づく自動特許引用システム開発における課題に対処する。 深層学習に基づくレコメンデーションシステムは、様々な分野(映画、製品、論文引用など)で優れた性能を発揮してきたが、高品質なデータセットと関連するベンチマークモデルがないため、特許引用の妥当性は調査されていない。 これらの問題を解決するために,Google Big Queryサービスから約11万件の特許に関するテキスト情報とメタデータを含む,PatentNetという新しいデータセットを提案する。 さらに,テキスト情報とメタデータ(協調特許分類コードなど)の類似性を考慮した強力なベンチマークモデルを提案する。 従来の推奨手法と比較して,提案手法はテストセットの平均相反ランク0.2377を達成し,既存の推奨手法は0.2073を達成した。

In this study, we address the challenges in developing a deep learning-based automatic patent citation recommendation system. Although deep learning-based recommendation systems have exhibited outstanding performance in various domains (such as movies, products, and paper citations), their validity in patent citations has not been investigated, owing to the lack of a freely available high-quality dataset and relevant benchmark model. To solve these problems, we present a novel dataset called PatentNet that includes textual information and metadata for approximately 110,000 patents from the Google Big Query service. Further, we propose strong benchmark models considering the similarity of textual information and metadata (such as cooperative patent classification code). Compared with existing recommendation methods, the proposed benchmark method achieved a mean reciprocal rank of 0.2377 on the test set, whereas the existing state-of-the-art recommendation method achieved 0.2073.
翻訳日:2022-10-04 22:57:27 公開日:2020-10-21
# 状態グラフに基づく複数ドメイン対話状態追跡

Multi-Domain Dialogue State Tracking based on State Graph ( http://arxiv.org/abs/2010.11137v1 )

ライセンス: Link先を確認
Yan Zeng and Jian-Yun Nie(参考訳) 本稿では,対話から状態を抽出するオープンボキャブラリを用いた多領域対話状態追跡(dst)の問題について検討する。 既存のアプローチは通常、双方向トランスフォーマーエンコーダへの入力として、対話履歴と前の対話状態を結合する。 トークンを接続するにはtransformerの自己接続メカニズムに依存している。 しかし、急激な接続に注意が払われ、誤った推測がもたらされる。 本稿では,従来の対話状態からのドメイン,スロット,値が適切に接続された対話状態グラフを構築することを提案する。 トレーニングを通じて、グラフノードとエッジ埋め込みは、ドメインドメイン、スロットスロット、ドメインスロット間の共起関係を符号化し、一般的な対話における強い遷移経路を反映する。 リレーショナルGCNでエンコードされた状態グラフは、Transformerエンコーダに融合される。 実験の結果,提案手法は効率を保ちつつ,タスクの新たな状態を達成することがわかった。 既存のオープン語彙DSTアプローチよりも優れています。

We investigate the problem of multi-domain Dialogue State Tracking (DST) with open vocabulary, which aims to extract the state from the dialogue. Existing approaches usually concatenate previous dialogue state with dialogue history as the input to a bi-directional Transformer encoder. They rely on the self-attention mechanism of Transformer to connect tokens in them. However, attention may be paid to spurious connections, leading to wrong inference. In this paper, we propose to construct a dialogue state graph in which domains, slots and values from the previous dialogue state are connected properly. Through training, the graph node and edge embeddings can encode co-occurrence relations between domain-domain, slot-slot and domain-slot, reflecting the strong transition paths in general dialogue. The state graph, encoded with relational-GCN, is fused into the Transformer encoder. Experimental results show that our approach achieves a new state of the art on the task while remaining efficient. It outperforms existing open-vocabulary DST approaches.
翻訳日:2022-10-04 22:57:12 公開日:2020-10-21
# 決定木の説明について

On Explaining Decision Trees ( http://arxiv.org/abs/2010.11034v1 )

ライセンス: Link先を確認
Yacine Izza, Alexey Ignatiev, and Joao Marques-Silva(参考訳) 決定木(DT)は、解釈可能な機械学習(ML)モデルとして知られるようになったものをエピトマイズする。 これは、DTのパスが機能の総数よりもはるかに小さいことによる非公式な動機付けである。 本稿では、いくつかの設定においてdtの経路は、pi-explanationよりも任意に大きい、すなわち、予測を伴う特徴値のサブセット最小集合を含む、解釈不可能であることを示す。 そこで本論文では, 多項式時間で一つの pi 展開を計算できる dts の pi 展開計算モデルを提案する。 さらに、PI-エクスラレーションの列挙は最小のヒットセットの列挙に還元できることが示されている。 DT学習ツールで広く公開されているデータセットに対して実験結果が得られ、ほとんどの場合、DTはPI説明の適切なスーパーセットであるパスを持っていることを確認した。

Decision trees (DTs) epitomize what have become to be known as interpretable machine learning (ML) models. This is informally motivated by paths in DTs being often much smaller than the total number of features. This paper shows that in some settings DTs can hardly be deemed interpretable, with paths in a DT being arbitrarily larger than a PI-explanation, i.e. a subset-minimal set of feature values that entails the prediction. As a result, the paper proposes a novel model for computing PI-explanations of DTs, which enables computing one PI-explanation in polynomial time. Moreover, it is shown that enumeration of PI-explanations can be reduced to the enumeration of minimal hitting sets. Experimental results were obtained on a wide range of publicly available datasets with well-known DT-learning tools, and confirm that in most cases DTs have paths that are proper supersets of PI-explanations.
翻訳日:2022-10-04 22:56:29 公開日:2020-10-21
# 構文依存構文解析としてのセマンティクスロールラベリング

Semantic Role Labeling as Syntactic Dependency Parsing ( http://arxiv.org/abs/2010.11170v1 )

ライセンス: Link先を確認
Tianze Shi, Igor Malioutov, Ozan \.Irsoy(参考訳) 我々は(スパンベース)PropBankスタイルのセマンティックロールラベリング(SRL)のタスクを構文依存解析に還元する。 我々のアプローチは、英語と中国語のデータの両方に対してSRLアノテーションの98%以上を占める3つの共通構文パターンを示す経験的分析によって動機づけられた。 そこで本研究では,SRLアノテーションを結合ラベルを通じて依存ツリー表現にまとめて,元のフォーマットに精度の高い復元を可能にする変換方式を提案する。 この表現により、SRLに取り組むための統計的依存パーサを訓練し、現在の技術と競合する性能を達成することができる。 以上の結果から,意味的役割関係を局所的にエンコードする構文依存木が期待されることを示し,将来的な意味的役割ラベリングへの構文的手法のさらなる統合の可能性を示す。

We reduce the task of (span-based) PropBank-style semantic role labeling (SRL) to syntactic dependency parsing. Our approach is motivated by our empirical analysis that shows three common syntactic patterns account for over 98% of the SRL annotations for both English and Chinese data. Based on this observation, we present a conversion scheme that packs SRL annotations into dependency tree representations through joint labels that permit highly accurate recovery back to the original format. This representation allows us to train statistical dependency parsers to tackle SRL and achieve competitive performance with the current state of the art. Our findings show the promise of syntactic dependency trees in encoding semantic role relations within their syntactic domain of locality, and point to potential further integration of syntactic methods into semantic role labeling in the future.
翻訳日:2022-10-04 22:49:20 公開日:2020-10-21
# SQLクエリのセマンティックパーシングにおける語彙的アライメントの可能性について

On the Potential of Lexico-logical Alignments for Semantic Parsing to SQL Queries ( http://arxiv.org/abs/2010.11246v1 )

ライセンス: Link先を確認
Tianze Shi, Chen Zhao, Jordan Boyd-Graber, Hal Daum\'e III and Lillian Lee(参考訳) 論理形式を付加した大規模意味解析データセットは、教師付きアプローチの大きな進歩を可能にしている。 しかし、よりリッチな監視がさらに役立つだろうか? Squallは11,276のWikiTableQuestionsを強化したデータセットで,手作業で作成したSQL相当値に加えて,SQLと質問フラグメントのアライメントも備えている。 我々のアノテーションはエンコーダ・デコーダモデルに対して,アライメントのない機械翻訳からのアプローチを含む新たなトレーニング可能性を実現する。 提案手法は,(1)注意を監督する,(2)入力クエリにおける参照の曖昧さを解消する補助目的をテーブル列に適用する,の2つである。 5倍のクロス検証では、これらの戦略は強いベースラインよりも4.4%の精度で改善される。 oracleの実験によると、注釈付きアライメントは最大23.9%の精度向上をサポートする。

Large-scale semantic parsing datasets annotated with logical forms have enabled major advances in supervised approaches. But can richer supervision help even more? To explore the utility of fine-grained, lexical-level supervision, we introduce Squall, a dataset that enriches 11,276 WikiTableQuestions English-language questions with manually created SQL equivalents plus alignments between SQL and question fragments. Our annotation enables new training possibilities for encoder-decoder models, including approaches from machine translation previously precluded by the absence of alignments. We propose and test two methods: (1) supervised attention; (2) adopting an auxiliary objective of disambiguating references in the input queries to table columns. In 5-fold cross validation, these strategies improve over strong baselines by 4.4% execution accuracy. Oracle experiments suggest that annotated alignments can support further accuracy gains of up to 23.9%.
翻訳日:2022-10-04 22:49:05 公開日:2020-10-21
# PBoS: 単語埋め込みを一般化するための確率的なサブワード

PBoS: Probabilistic Bag-of-Subwords for Generalizing Word Embedding ( http://arxiv.org/abs/2010.10813v1 )

ライセンス: Link先を確認
Zhao Jinman, Shawn Zhong, Xiaomin Zhang, Yingyu Liang(参考訳) 単語埋め込みの課題を考察する: 有限語彙上の事前学習された単語ベクトルの集合が与えられた場合、その目的は、語彙外単語の埋め込みベクトルである「emph{without}」の余分な文脈情報を予測することである。 我々は,単語の綴りのみに頼り,効率的なアルゴリズムとともに,単語のセグメンテーションをモデル化し,単語合成による単語埋め込みを計算するモデルを提案する。 我々はこのモデルをPBoS(probabilistic bag-of-subwords)と呼び、その可能性に基づいて全ての可能なセグメンテーションにバッグ・オブ・サブワードを適用する。 検査および接尾辞予測実験により、PBoSは明確な形態的知識の源泉を伴わずに意味のあるサブワードセグメンテーションとサブワードランキングを生成できることが示されている。 単語類似性およびPOSタグ付け実験は、言語間で生成された単語埋め込みの品質において、従来のサブワードレベルのモデルよりも明らかにPBoSの利点を示す。

We look into the task of \emph{generalizing} word embeddings: given a set of pre-trained word vectors over a finite vocabulary, the goal is to predict embedding vectors for out-of-vocabulary words, \emph{without} extra contextual information. We rely solely on the spellings of words and propose a model, along with an efficient algorithm, that simultaneously models subword segmentation and computes subword-based compositional word embedding. We call the model probabilistic bag-of-subwords (PBoS), as it applies bag-of-subwords for all possible segmentations based on their likelihood. Inspections and affix prediction experiment show that PBoS is able to produce meaningful subword segmentations and subword rankings without any source of explicit morphological knowledge. Word similarity and POS tagging experiments show clear advantages of PBoS over previous subword-level models in the quality of generated word embeddings across languages.
翻訳日:2022-10-04 22:48:33 公開日:2020-10-21
# 自動短答スコアリングのための重ね合わせニューラルネットワークモデル

Stacking Neural Network Models for Automatic Short Answer Scoring ( http://arxiv.org/abs/2010.11092v1 )

ライセンス: Link先を確認
Rian Adam Rajagede and Rochana Prih Hastuti(参考訳) 自動短時間回答スコアリングは、試験中の生徒の回答を自動的に評価するテキスト分類問題の1つである。 データの量と品質を自動的短解スコアリングシステムにすることで、いくつかの課題が発生する可能性がある。 データラベリングプロセスは、分野の専門家である人間アノテータを必要とするため、簡単ではない。 さらに、正しい回答のラベルの数は、常に間違った回答よりもはるかに少ないので、データ不均衡プロセスも課題である。 本稿では,ニューラルネットワークとXGBoostに基づく重ね合わせモデルを用いて文埋め込み機能を有する分類プロセスを提案する。 また,不均衡クラスを扱うためにデータアップサンプリング法と,ロバストモデルを自動的に見つけるためのハイパーパラメータ最適化アルゴリズムを提案する。 我々はUkara 1.0 Challengeデータセットを使用し、私たちの最良のモデルは、前のデータセットよりも0.821のF1スコアを得た。

Automatic short answer scoring is one of the text classification problems to assess students' answers during exams automatically. Several challenges can arise in making an automatic short answer scoring system, one of which is the quantity and quality of the data. The data labeling process is not easy because it requires a human annotator who is an expert in their field. Further, the data imbalance process is also a challenge because the number of labels for correct answers is always much less than the wrong answers. In this paper, we propose the use of a stacking model based on neural network and XGBoost for classification process with sentence embedding feature. We also propose to use data upsampling method to handle imbalance classes and hyperparameters optimization algorithm to find a robust model automatically. We use Ukara 1.0 Challenge dataset and our best model obtained an F1-score of 0.821 exceeding the previous work at the same dataset.
翻訳日:2022-10-04 22:48:00 公開日:2020-10-21
# 英語中心多言語機械翻訳を超えて

Beyond English-Centric Multilingual Machine Translation ( http://arxiv.org/abs/2010.11125v1 )

ライセンス: Link先を確認
Angela Fan, Shruti Bhosale, Holger Schwenk, Zhiyi Ma, Ahmed El-Kishky, Siddharth Goyal, Mandeep Baines, Onur Celebi, Guillaume Wenzek, Vishrav Chaudhary, Naman Goyal, Tom Birch, Vitaliy Liptchinsky, Sergey Edunov, Edouard Grave, Michael Auli, Armand Joulin(参考訳) 翻訳における既存の研究は、任意の対の言語間で翻訳できる単一のモデルを訓練することで、多言語機械翻訳の可能性を示した。 しかし、この作品の多くは英語から英語に翻訳されたデータのみをトレーニングして英語中心である。 これは大量のトレーニングデータによってサポートされているが、世界中の翻訳ニーズを反映していない。 そこで本研究では,100語対の言語を直接翻訳できる真の多対多言語翻訳モデルを構築した。 大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。 そこで我々は,高次スケーリングと言語固有のスパースパラメータを組み合わせたモデルキャパシティを効果的に向上し,高品質なモデルを作成する方法について検討する。 WMTのベストシングルシステムと競合しながら、非英語の方向を直接翻訳する場合、非英語モデルにフォーカスすることで10 BLEU以上の利得が得られる。 我々のスクリプトをオープンソースにして、他の人がデータ、評価、最終的なM2M-100モデルを再現できるようにします。

Existing work in translation demonstrated the potential of massively multilingual machine translation by training a single model able to translate between any pair of languages. However, much of this work is English-Centric by training only on data which was translated from or to English. While this is supported by large sources of training data, it does not reflect translation needs worldwide. In this work, we create a true Many-to-Many multilingual translation model that can translate directly between any pair of 100 languages. We build and open source a training dataset that covers thousands of language directions with supervised data, created through large-scale mining. Then, we explore how to effectively increase model capacity through a combination of dense scaling and language-specific sparse parameters to create high quality models. Our focus on non-English-Centric models brings gains of more than 10 BLEU when directly translating between non-English directions while performing competitively to the best single systems of WMT. We open-source our scripts so that others may reproduce the data, evaluation, and final M2M-100 model.
翻訳日:2022-10-04 22:47:47 公開日:2020-10-21
# ナイジェリアピジンの自動音声認識の終末学習に向けて

Towards End-to-End Training of Automatic Speech Recognition for Nigerian Pidgin ( http://arxiv.org/abs/2010.11123v1 )

ライセンス: Link先を確認
Daniel Ajisafe, Oluwabukola Adegboro, Esther Oduntan, Tayo Arulogun(参考訳) ナイジェリアのピジン語は西アフリカで最も人気のある言語である。 西アフリカ沿岸で少なくとも7500万人の話者を抱えるこの言語は、イングランド、カナダ、アメリカなどのナイジェリア移民を通じて、異種間社会に広まっている。 対照的に、自然言語処理の分野で、特に音声認識や翻訳のタスクにおいて、この言語は未資源のままである。 本研究では,ナイジェリアのピジンについて,最初の並列データ(音声合成)を提案する。 また,この言語を用いた最初のエンドツーエンド音声認識システム(QuartzNetとJasperモデル)の訓練を行った。 ベースライン結果から,データセット上のgreedyデコーダを用いて,低単語誤り率(WER)の0.77%を達成できた。 最後に、この方向の今後の研究を促進するために、この発表とともにデータとコードをオープンソース化する。

Nigerian Pidgin remains one of the most popular languages in West Africa. With at least 75 million speakers along the West African coast, the language has spread to diasporic communities through Nigerian immigrants in England, Canada, and America, amongst others. In contrast, the language remains an under-resourced one in the field of natural language processing, particularly on speech recognition and translation tasks. In this work, we present the first parallel (speech-to-text) data on Nigerian pidgin. We also trained the first end-to-end speech recognition system (QuartzNet and Jasper model) on this language which were both optimized using Connectionist Temporal Classification (CTC) loss. With baseline results, we were able to achieve a low word error rate (WER) of 0.77% using a greedy decoder on our dataset. Finally, we open-source the data and code along with this publication in order to encourage future research in this direction.
翻訳日:2022-10-04 22:41:28 公開日:2020-10-21
# 一様制約付き線形関数の単純なランダム化探索ヒューリスティックに対する実行時間の改善

Improved Runtime Results for Simple Randomised Search Heuristics on Linear Functions with a Uniform Constraint ( http://arxiv.org/abs/2010.10885v1 )

ライセンス: Link先を確認
Frank Neumann and Mojgan Pourhassan and Carsten Witt(参考訳) 過去10年間で、ランダム化された探索ヒューリスティックを解析するための適切な証明手法の開発が目覚ましい進歩を遂げた。 これらのアルゴリズムの関数のクラスに関する理論的研究は、基礎となる確率過程の理解に不可欠である。 線形関数はこの領域で伝統的に研究されており、この問題に対する単純なランダム化探索アルゴリズムの期待最適時間に厳密な境界がある。 近年、制約付きバージョンが注目され、このタイプの問題についてもいくつかの理論的な結果が得られている。 本稿では,一様制約下での線形関数のクラスを調べ,ランダム化局所探索 (rls) の期待最適化時間と (1+1) ea と呼ばれる単純な進化アルゴリズムについて検討する。 rls に対する $\theta(n^2)$ の厳密な境界を証明し、(1+1) ea の既知の上限を、期待値の $o(n^2 \log (bw_{\max}))$ to $o(n^2\log b)$ から高確率で $o(n^2 \log n)$ へと改善する。 また、特別なインスタンスのクラス上の (1+1) EA に対して$O(n^2)$ の厳密な境界を得る。 b$の異なる値を考える実験的調査と、2ドルビットのフリップが一様制約に対処するために不可欠であるという事実を反映した突然変異率の上昇によって、理論的研究を補完します。

In the last decade remarkable progress has been made in development of suitable proof techniques for analysing randomised search heuristics. The theoretical investigation of these algorithms on classes of functions is essential to the understanding of the underlying stochastic process. Linear functions have been traditionally studied in this area resulting in tight bounds on the expected optimisation time of simple randomised search algorithms for this class of problems. Recently, the constrained version of this problem has gained attention and some theoretical results have also been obtained on this class of problems. In this paper we study the class of linear functions under uniform constraint and investigate the expected optimisation time of Randomised Local Search (RLS) and a simple evolutionary algorithm called (1+1) EA. We prove a tight bound of $\Theta(n^2)$ for RLS and improve the previously best known upper bound of (1+1) EA from $O(n^2 \log (Bw_{\max}))$ to $O(n^2\log B)$ in expectation and to $O(n^2 \log n)$ with high probability, where $w_{\max}$ and $B$ are the maximum weight of the linear objective function and the bound of the uniform constraint, respectively. Also, we obtain a tight bound of $O(n^2)$ for the (1+1) EA on a special class of instances. We complement our theoretical studies by experimental investigations that consider different values of $B$ and also higher mutation rates that reflect the fact that $2$-bit flips are crucial for dealing with the uniform constraint.
翻訳日:2022-10-04 22:40:34 公開日:2020-10-21
# Batch Normはユニークか? バッチ依存を伴わない共通正規化器の最適特性をエミュレートする経験的研究と処方

Is Batch Norm unique? An empirical investigation and prescription to emulate the best properties of common normalizers without batch dependence ( http://arxiv.org/abs/2010.10687v1 )

ライセンス: Link先を確認
Vinay Rao, Jascha Sohl-Dickstein(参考訳) バッチノルムおよび他の共通正規化器の統計特性に関する広範な実証研究を行う。 これには、ミニバッチの表現、勾配ノルム、およびヘッセンスペクトルの初期化および訓練過程における相関の検証が含まれる。 この解析により,バッチノルムの優れた性能に関連付けられたいくつかの統計特性を同定した。 そこで本研究では,プリレイヤノルムとレグノルムという2つの単純な正規化器を提案する。 PreLayerNormとRegNormはバッチ依存を必要とせずにBatch Normの性能の多くを達成し、LayerNormを確実に上回っており、Batch Normが有効でない状況でも適用可能であることを示す。

We perform an extensive empirical study of the statistical properties of Batch Norm and other common normalizers. This includes an examination of the correlation between representations of minibatches, gradient norms, and Hessian spectra both at initialization and over the course of training. Through this analysis, we identify several statistical properties which appear linked to Batch Norm's superior performance. We propose two simple normalizers, PreLayerNorm and RegNorm, which better match these desirable properties without involving operations along the batch dimension. We show that PreLayerNorm and RegNorm achieve much of the performance of Batch Norm without requiring batch dependence, that they reliably outperform LayerNorm, and that they can be applied in situations where Batch Norm is ineffective.
翻訳日:2022-10-04 22:39:29 公開日:2020-10-21
# 疾患治療情報抽出のためのブラックボックステキスト分類器の解説

Explaining black-box text classifiers for disease-treatment information extraction ( http://arxiv.org/abs/2010.10873v1 )

ライセンス: Link先を確認
Milad Moradi, Matthias Samwald(参考訳) ディープニューラルネットワークやその他の複雑な人工知能(AI)モデルは、多くのバイオメディカル自然言語処理タスクにおいて高い精度に達している。 しかし、現実のユースケースにおけるそれらの適用性は、あいまいな内部動作と決定ロジックのために制限される可能性がある。 ポストホックな説明法では,特徴値と結果の関係を抽出することにより,ブラックボックスAIモデルの挙動を近似することができる。 本稿では,医療情報抽出のためのブラックボックス分類器の挙動を近似するために,自信ある項目セットを利用するポストホック説明法を提案する。 医療概念と意味論を説明プロセスに組み込んで,ブラックボックス分類器の判定空間の異なる部分における入力と出力間の意味的関係を解説する。 実験結果から,本手法は,病状情報抽出作業における予測のための説明文の忠実度や解釈可能性の観点から,摂動と意思決定に基づく説明文よりも優れていることが示された。

Deep neural networks and other intricate Artificial Intelligence (AI) models have reached high levels of accuracy on many biomedical natural language processing tasks. However, their applicability in real-world use cases may be limited due to their vague inner working and decision logic. A post-hoc explanation method can approximate the behavior of a black-box AI model by extracting relationships between feature values and outcomes. In this paper, we introduce a post-hoc explanation method that utilizes confident itemsets to approximate the behavior of black-box classifiers for medical information extraction. Incorporating medical concepts and semantics into the explanation process, our explanator finds semantic relations between inputs and outputs in different parts of the decision space of a black-box classifier. The experimental results show that our explanation method can outperform perturbation and decision set based explanators in terms of fidelity and interpretability of explanations produced for predictions on a disease-treatment information extraction task.
翻訳日:2022-10-04 22:38:51 公開日:2020-10-21
# TurnGPT:音声対話におけるターンテイク予測のためのトランスフォーマーベース言語モデル

TurnGPT: a Transformer-based Language Model for Predicting Turn-taking in Spoken Dialog ( http://arxiv.org/abs/2010.10874v1 )

ライセンス: Link先を確認
Erik Ekstedt and Gabriel Skantze(参考訳) 構文的・実用的完全性はターンテイク予測において重要であることが知られているが、これまでの機械学習モデルはそのような言語情報を限定的に利用してきた。 本稿では,音声対話におけるターンシフトを予測するトランスフォーマーベース言語モデルであるTurnGPTを紹介する。 モデルは、様々な記述および音声対話データセットに基づいて訓練され、評価されている。 モデルが先行作業で使用する2つのベースラインより優れていることを示す。 また,アブリレーション研究や注意・勾配分析についても報告し,そのモデルが対話の文脈と実用的完全性を利用してターンテイク予測を行うことを示す。 最後に,ターンコンプリートの検出,投影だけでなく,モデルの可能性について検討する。

Syntactic and pragmatic completeness is known to be important for turn-taking prediction, but so far machine learning models of turn-taking have used such linguistic information in a limited way. In this paper, we introduce TurnGPT, a transformer-based language model for predicting turn-shifts in spoken dialog. The model has been trained and evaluated on a variety of written and spoken dialog datasets. We show that the model outperforms two baselines used in prior work. We also report on an ablation study, as well as attention and gradient analyses, which show that the model is able to utilize the dialog context and pragmatic completeness for turn-taking prediction. Finally, we explore the model's potential in not only detecting, but also projecting, turn-completions.
翻訳日:2022-10-04 22:38:38 公開日:2020-10-21
# メタトレーニングエージェントによるベイズ最適化エージェントの実装

Meta-trained agents implement Bayes-optimal agents ( http://arxiv.org/abs/2010.11223v1 )

ライセンス: Link先を確認
Vladimir Mikulik, Gr\'egoire Del\'etang, Tom McGrath, Tim Genewein, Miljan Martic, Shane Legg, Pedro A. Ortega(参考訳) メモリベースのメタ学習は、ターゲットディストリビューション内の任意のタスクに迅速に適応するエージェントを構築するための強力なテクニックである。 以前の理論的研究は、この顕著な性能は、メタトレーニングプロトコルがエージェントにベイズを最適に振舞う動機を与えるためであると主張している。 我々はこの主張を様々な予測や盗賊行為で実証的に調査する。 理論計算機科学のアイデアに触発されて,メタ学習エージェントとベイズ最適エージェントが同じように振る舞うだけでなく,同一の計算構造も共有することを示した。 さらに,ベイズ最適エージェントはメタ学習力学の固定点であることを示す。 以上の結果から,メモリベースのメタラーニングはベイズ最適エージェントを数値的に近似する一般的な手法である可能性が示唆された。

Memory-based meta-learning is a powerful technique to build agents that adapt fast to any task within a target distribution. A previous theoretical study has argued that this remarkable performance is because the meta-training protocol incentivises agents to behave Bayes-optimally. We empirically investigate this claim on a number of prediction and bandit tasks. Inspired by ideas from theoretical computer science, we show that meta-learned and Bayes-optimal agents not only behave alike, but they even share a similar computational structure, in the sense that one agent system can approximately simulate the other. Furthermore, we show that Bayes-optimal agents are fixed points of the meta-learning dynamics. Our results suggest that memory-based meta-learning might serve as a general technique for numerically approximating Bayes-optimal agents - that is, even for task distributions for which we currently don't possess tractable models.
翻訳日:2022-10-04 22:32:46 公開日:2020-10-21
# 論理誘導遺伝的アルゴリズム

Logic Guided Genetic Algorithms ( http://arxiv.org/abs/2010.11328v1 )

ライセンス: Link先を確認
Dhananjay Ashok, Joseph Scott, Sebastian Wetzel, Maysum Panju and Vijay Ganesh(参考訳) 本稿では,データ拡張の手段として論理的制約や数学的制約を用いて,データ効率の向上とシンボル回帰(SR)アルゴリズムの精度向上を目的とした,新たなGA(Auxiliary Truth enhanced Genetic Algorithm)を提案する。 我々の手法である論理誘導遺伝的アルゴリズム(LGGA)は、ラベル付きデータポイントと補助真理(AT)のセットを入力として(回帰器が学習しようとする未知の機能に関する数学的事実が知られている)、任意のSR法で使用できる特別な生成およびキュレートされたデータセットを出力する。 第一に、srユーザは学習しようとしている機能について単純なatsを知っていることが多い。 第二に、srシステムがこれらのatsと矛盾する候補方程式を生成すると、その不一致を証明するために逆例を計算でき、さらにこの逆例を用いてデータセットを増強し、補正フィードバックループでsrシステムにフィードバックすることができる。 第3に、これらのATの付加価値は、損失関数とデータ拡張プロセスの両方で使用することにより、収束率、精度、データ効率が向上するということである。 我々は,最新のSRツールであるEureqaとTuringBotに対して,LGGAを"The Feynman Lectures on Physics"の本から16の物理方程式上で評価する。 これらのsrツールとlggaを組み合わせることで、最大30.0%の方程式を解くことができ、lggaがなければ同じツールに比べてデータのほんの一部しか必要とせず、データ効率が最大61.9%向上することが判明した。

We present a novel Auxiliary Truth enhanced Genetic Algorithm (GA) that uses logical or mathematical constraints as a means of data augmentation as well as to compute loss (in conjunction with the traditional MSE), with the aim of increasing both data efficiency and accuracy of symbolic regression (SR) algorithms. Our method, logic-guided genetic algorithm (LGGA), takes as input a set of labelled data points and auxiliary truths (ATs) (mathematical facts known a priori about the unknown function the regressor aims to learn) and outputs a specially generated and curated dataset that can be used with any SR method. Three key insights underpin our method: first, SR users often know simple ATs about the function they are trying to learn. Second, whenever an SR system produces a candidate equation inconsistent with these ATs, we can compute a counterexample to prove the inconsistency, and further, this counterexample may be used to augment the dataset and fed back to the SR system in a corrective feedback loop. Third, the value addition of these ATs is that their use in both the loss function and the data augmentation process leads to better rates of convergence, accuracy, and data efficiency. We evaluate LGGA against state-of-the-art SR tools, namely, Eureqa and TuringBot on 16 physics equations from "The Feynman Lectures on Physics" book. We find that using these SR tools in conjunction with LGGA results in them solving up to 30.0% more equations, needing only a fraction of the amount of data compared to the same tool without LGGA, i.e., resulting in up to a 61.9% improvement in data efficiency.
翻訳日:2022-10-04 22:32:31 公開日:2020-10-21
# Black-Box Ripper: 生成進化アルゴリズムを用いたブラックボックスモデルのコピー

Black-Box Ripper: Copying black-box models using generative evolutionary algorithms ( http://arxiv.org/abs/2010.11158v1 )

ライセンス: Link先を確認
Antonio Barbalau, Adrian Cosma, Radu Tudor Ionescu, Marius Popescu(参考訳) 我々は,入力画像の集合に提供される出力クラス確率のみを知るブラックボックスニューラルモデルの機能を複製する作業について検討した。 ブラックボックスモデルによるバックプロパゲーションは不可能であり、トレーニングイメージは利用できないと仮定します。 そこで本研究では,黒箱モデル(教師モデル)を最小精度損失で生徒モデルに蒸留できる教師学習フレームワークを提案する。 学生の学習に有用なデータサンプルを作成するためのフレームワーク (i)プロキシデータセット(ブラックボックスのトレーニングに使われるものとは異なるイメージとクラス)で画像を生成することを学び、 i) ブラックボックスへの入力として与えられた各生成データサンプルが特定のクラスに対して高い応答を示すようにするための進化的戦略を適用する。 本フレームワークは,3つのベンチマークデータセットのベースラインおよび最先端手法と比較した。 実証的な証拠は、我々のモデルが考慮されたベースラインよりも優れていることを示している。 提案手法はブラックボックスネットワークをバックプロパゲートしないが,教師をガラスボックスモデルとみなす最先端の手法を概ね超越している。 私たちのコードは、https://github.com/antoniobarbalau/black-box-ripperで利用可能です。

We study the task of replicating the functionality of black-box neural models, for which we only know the output class probabilities provided for a set of input images. We assume back-propagation through the black-box model is not possible and its training images are not available, e.g. the model could be exposed only through an API. In this context, we present a teacher-student framework that can distill the black-box (teacher) model into a student model with minimal accuracy loss. To generate useful data samples for training the student, our framework (i) learns to generate images on a proxy data set (with images and classes different from those used to train the black-box) and (ii) applies an evolutionary strategy to make sure that each generated data sample exhibits a high response for a specific class when given as input to the black box. Our framework is compared with several baseline and state-of-the-art methods on three benchmark data sets. The empirical evidence indicates that our model is superior to the considered baselines. Although our method does not back-propagate through the black-box network, it generally surpasses state-of-the-art methods that regard the teacher as a glass-box model. Our code is available at: https://github.com/antoniobarbalau/black-box-ripper.
翻訳日:2022-10-04 22:32:02 公開日:2020-10-21
# ReSCo-CC:鍵情報文の教師なし同定

ReSCo-CC: Unsupervised Identification of Key Disinformation Sentences ( http://arxiv.org/abs/2010.10836v1 )

ライセンス: Link先を確認
Soumya Suvra Ghosal, Deepak P, Anna Jurek-Loughrey(参考訳) 偽情報はしばしば長いテキスト記事の中で提示され、特にcovid-19に関連してしばしば見られる健康などの領域に関連している。 これらの記事は典型的には、中核的な偽情報文が散在する多くの信頼できる文を持つ。 本稿では,信頼できない文書に含まれる重要な偽情報を含む文を識別する新規な教師なしタスクを提案する。 タスク用に設計された特徴空間に文を埋め込むことから始まるタスクのための3相統計nlpソリューションを設計する。 これらの特徴を用いて表現された文はクラスタ化され、キー文は近接スコアリングによって識別される。 また,この課題に対する評価を支援するために,文レベルの偽情報スコアを用いた新しいデータセットをキュレートし,さらなる研究を容易にするためにデータセットを公開している。 本手法は,クレーム検出や要約といった関連課題の手法に対する包括的実証的評価と,提案手法の簡略な変種に対する評価に基づいて,コア不一致を効果的に識別できることを示す。

Disinformation is often presented in long textual articles, especially when it relates to domains such as health, often seen in relation to COVID-19. These articles are typically observed to have a number of trustworthy sentences among which core disinformation sentences are scattered. In this paper, we propose a novel unsupervised task of identifying sentences containing key disinformation within a document that is known to be untrustworthy. We design a three-phase statistical NLP solution for the task which starts with embedding sentences within a bespoke feature space designed for the task. Sentences represented using those features are then clustered, following which the key sentences are identified through proximity scoring. We also curate a new dataset with sentence level disinformation scorings to aid evaluation for this task; the dataset is being made publicly available to facilitate further research. Based on a comprehensive empirical evaluation against techniques from related tasks such as claim detection and summarization, as well as against simplified variants of our proposed approach, we illustrate that our method is able to identify core disinformation effectively.
翻訳日:2022-10-04 22:31:44 公開日:2020-10-21
# 混合正規化による強化学習の一般化

Improving Generalization in Reinforcement Learning with Mixture Regularization ( http://arxiv.org/abs/2010.10814v1 )

ライセンス: Link先を確認
Kaixin Wang, Bingyi Kang, Jie Shao, Jiashi Feng(参考訳) 限られた環境で訓練された深層強化学習(RL)エージェントは、過度に適合し、目に見えないテスト環境に一般化できない傾向にある。 一般化性を改善するため、データ拡張アプローチ(カットアウトやランダム畳み込みなど)はデータの多様性を高めるために以前から検討されてきた。 しかし,これらの手法は訓練環境によらず局部的にのみ観察を妨害し,データ多様性の向上と一般化性能の向上に限定的な効果を示した。 本研究では,異なる学習環境からの観察の混合にエージェントを訓練し,観察補間と監視(例えば,関連する報酬)補間に線形性制約を課す,mixregという簡単なアプローチを導入する。 Mixregはデータの多様性をより効果的に向上し、よりスムーズなポリシーを学ぶのに役立つ。 本稿では,大規模な Procgen ベンチマークで広範囲な実験を行うことにより,一般化の促進効果を検証する。 その結果、mixregは、未確認テスト環境において確立されたベースラインを大きなマージンで上回る結果となった。 Mixregはシンプルで効果的で汎用的です。 ポリシーベースのRLアルゴリズムとバリューベースのRLアルゴリズムの両方に適用できる。 コードはhttps://github.com/kaixin96/mixregで入手できる。

Deep reinforcement learning (RL) agents trained in a limited set of environments tend to suffer overfitting and fail to generalize to unseen testing environments. To improve their generalizability, data augmentation approaches (e.g. cutout and random convolution) are previously explored to increase the data diversity. However, we find these approaches only locally perturb the observations regardless of the training environments, showing limited effectiveness on enhancing the data diversity and the generalization performance. In this work, we introduce a simple approach, named mixreg, which trains agents on a mixture of observations from different training environments and imposes linearity constraints on the observation interpolations and the supervision (e.g. associated reward) interpolations. Mixreg increases the data diversity more effectively and helps learn smoother policies. We verify its effectiveness on improving generalization by conducting extensive experiments on the large-scale Procgen benchmark. Results show mixreg outperforms the well-established baselines on unseen testing environments by a large margin. Mixreg is simple, effective and general. It can be applied to both policy-based and value-based RL algorithms. Code is available at https://github.com/kaixin96/mixreg .
翻訳日:2022-10-04 22:31:26 公開日:2020-10-21
# UFO$^2$:Omni教師対象検出のための統一フレームワーク

UFO$^2$: A Unified Framework towards Omni-supervised Object Detection ( http://arxiv.org/abs/2010.10804v1 )

ライセンス: Link先を確認
Zhongzheng Ren, Zhiding Yu, Xiaodong Yang, Ming-Yu Liu, Alexander G. Schwing, Jan Kautz(参考訳) モデルは、正確だがコストのかかるバウンディングボックスか、より安価だが表現力の低いイメージレベルタグを使用してトレーニングされる。 しかし、現実世界のアノテーションは形式的に多様であり、既存の作業に挑戦している。 本稿では,異なる形式の監視を同時に処理できる統一オブジェクト検出フレームワークであるUFO$^2$を提案する。 具体的には、UFO$^2$は、強い監督(箱など)、様々な形式の部分的監督(例えば、クラスタグ、ポイント、スクリブル)、ラベル付きデータを含んでいる。 厳密な評価を通じて,各形態のラベルを,スクラッチからモデルを訓練するか,事前学習モデルを改善するために利用できることを示す。 また、UFO$^2$を用いて、予算を意識したオムニ教師付き学習、すなわち、様々なアノテーションポリシーを固定されたアノテーション予算の下で研究し、競争性能が全てのデータに対して強力なラベルを必要としないことを示す。 最後に、UFO$^2$の一般化を実演し、ボックスアノテーションを拘束することなく1000以上の異なるオブジェクトを検出する。

Existing work on object detection often relies on a single form of annotation: the model is trained using either accurate yet costly bounding boxes or cheaper but less expressive image-level tags. However, real-world annotations are often diverse in form, which challenges these existing works. In this paper, we present UFO$^2$, a unified object detection framework that can handle different forms of supervision simultaneously. Specifically, UFO$^2$ incorporates strong supervision (e.g., boxes), various forms of partial supervision (e.g., class tags, points, and scribbles), and unlabeled data. Through rigorous evaluations, we demonstrate that each form of label can be utilized to either train a model from scratch or to further improve a pre-trained model. We also use UFO$^2$ to investigate budget-aware omni-supervised learning, i.e., various annotation policies are studied under a fixed annotation budget: we show that competitive performance needs no strong labels for all data. Finally, we demonstrate the generalization of UFO$^2$, detecting more than 1,000 different objects without bounding box annotations.
翻訳日:2022-10-04 22:30:53 公開日:2020-10-21
# エンド・ツー・エンド深層強化学習を用いた実環境におけるビジュアルナビゲーション

Visual Navigation in Real-World Indoor Environments Using End-to-End Deep Reinforcement Learning ( http://arxiv.org/abs/2010.10903v1 )

ライセンス: Link先を確認
Jon\'a\v{s} Kulh\'anek and Erik Derner and Robert Babu\v{s}ka(参考訳) 視覚ナビゲーションは、操作から移動ロボット、自動運転まで、ロボット工学の多くのアプリケーションにとって不可欠である。 深部強化学習(DRL)は、画像処理、ローカライゼーション、計画をひとつのモジュールに統合したエレガントな地図のないアプローチを提供する。 しかし、これまでDRLベースの視覚ナビゲーションは、ロボットの位置やイメージセグメンテーションマスクのような現実世界では利用できない情報を提供するシミュレーションでのみ検証されていた。 これにより、学習したポリシーを本物のロボットに使用できなくなる。 そこで本研究では,実ロボットに訓練されたポリシーを直接展開する手法を提案する。 我々は,視覚補助タスク,報奨スキームの調整,ドメインのランダム化を容易にするための新しい強力なシミュレータを設計した。 ポリシーは、実環境から収集された画像に基づいて微調整される。 本手法を実オフィス環境における移動ロボット上で評価した。 トレーニングには1つのGPUで約30時間かかった。 30回のナビゲーション実験で、このロボットは86.7%以上のケースで目標の0.3メートル付近に到達した。 提案手法は,モバイル操作などのタスクに直接適用することができる。

Visual navigation is essential for many applications in robotics, from manipulation, through mobile robotics to automated driving. Deep reinforcement learning (DRL) provides an elegant map-free approach integrating image processing, localization, and planning in one module, which can be trained and therefore optimized for a given environment. However, to date, DRL-based visual navigation was validated exclusively in simulation, where the simulator provides information that is not available in the real world, e.g., the robot's position or image segmentation masks. This precludes the use of the learned policy on a real robot. Therefore, we propose a novel approach that enables a direct deployment of the trained policy on real robots. We have designed visual auxiliary tasks, a tailored reward scheme, and a new powerful simulator to facilitate domain randomization. The policy is fine-tuned on images collected from real-world environments. We have evaluated the method on a mobile robot in a real office environment. The training took ~30 hours on a single GPU. In 30 navigation experiments, the robot reached a 0.3-meter neighborhood of the goal in more than 86.7% of cases. This result makes the proposed method directly applicable to tasks like mobile manipulation.
翻訳日:2022-10-04 22:30:33 公開日:2020-10-21
# 転送可能なプリミティブとクエリフィードバックによるブラックボックスアタッカーの学習

Learning Black-Box Attackers with Transferable Priors and Query Feedback ( http://arxiv.org/abs/2010.11742v1 )

ライセンス: Link先を確認
Jiancheng Yang, Yangzhou Jiang, Xiaoyang Huang, Bingbing Ni, Chenglong Zhao(参考訳) 本稿では,被害者モデルの分類信頼度のみを利用できるブラックボックス敵攻撃問題に対処する。 異なる視覚モデル間の視覚的サリエンシの整合性から着想を得たサロゲートモデルでは,移動性による攻撃性能の向上が期待されている。 転送可能性に基づくブラックボックス攻撃とクエリベースのブラックボックス攻撃を組み合わせることで,サロゲートモデルを用いた驚くほど単純なベースラインアプローチ(SimBA++)を提案する。 さらに,クエリフィードバックを効率的に活用するために,高次勾配近似(HOGA)と呼ばれる新しい学習手法を用いて代理モデルを更新する。 高次勾配計算グラフを構築することで、サロゲートモデルを更新し、前方と後方の両方で被害者モデルを近似する。 simba++とhogaは学習可能なブラックボックスアタック(leba)となり、それまでの最先端をかなりのマージンで越えている: 提案されたlebaはクエリを大幅に削減すると同時に、視覚ベンチマークや防御モデル攻撃を含む広範なimagenet実験において、攻撃成功率を100%に近いものに保ちながら、クエリを大幅に削減する。 コードはhttps://github.com/TrustworthyDL/LeBAで公開されている。

This paper addresses the challenging black-box adversarial attack problem, where only classification confidence of a victim model is available. Inspired by consistency of visual saliency between different vision models, a surrogate model is expected to improve the attack performance via transferability. By combining transferability-based and query-based black-box attack, we propose a surprisingly simple baseline approach (named SimBA++) using the surrogate model, which significantly outperforms several state-of-the-art methods. Moreover, to efficiently utilize the query feedback, we update the surrogate model in a novel learning scheme, named High-Order Gradient Approximation (HOGA). By constructing a high-order gradient computation graph, we update the surrogate model to approximate the victim model in both forward and backward pass. The SimBA++ and HOGA result in Learnable Black-Box Attack (LeBA), which surpasses previous state of the art by considerable margins: the proposed LeBA significantly reduces queries, while keeping higher attack success rates close to 100% in extensive ImageNet experiments, including attacking vision benchmarks and defensive models. Code is open source at https://github.com/TrustworthyDL/LeBA.
翻訳日:2022-10-04 22:29:59 公開日:2020-10-21