このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210610となっている論文です。

PDF登録状況(公開日: 20210610)

TitleAuthorsAbstract論文公表日・翻訳日
# $\mathcal{PT}$対称進化、コヒーレンス、レゲット=ガーグの不等式違反

$\mathcal{PT}$ symmetric evolution, coherence and violation of Leggett-Garg inequalities ( http://arxiv.org/abs/1912.12030v2 )

ライセンス: Link先を確認
Javid Naikoo, Swati Kumari, A. K. Pan, Subhashish Banerjee(参考訳) 我々は,非エルミート的発展を受ける量子ビット内の量子コヒーレンスの異常な蓄積をパリティ時間 (\mathcal{pt}$) 対称ハミルトニアンによって生成し,ナイマーク拡張を用いた高次元空間におけるエルミート系として再解釈する。 コヒーレンス(英: coherence)は、例外点(EP)、すなわち固有値と固有ベクトルの合体点について最大である。 EPに関する非自明な物理学は、様々な系、特にフォトニック系で観察されている。 コヒーレンス向上の結果として,Leggett-Garg不平等試験の様々な定式化は,EPに対して最大違反を示す。

We report an unusual buildup of the quantum coherence in a qubit subjected to non-Hermitian evolution generated by a Parity-Time ($\mathcal{PT}$) symmetric Hamiltonian, which is reinterpreted as a Hermitian system in a higher dimensional space using Naimark dilation. The coherence is found to be maximum about the exceptional points (EPs), i.e., the points of coalescence of the eigenvalues as well as the eigenvectors. The nontrivial physics about EPs has been observed in various systems, particularly in photonic systems. As a consequence of enhancement in coherence, the various formulations of Leggett-Garg inequality tests show maximal violation about the EPs.
翻訳日:2023-06-09 23:55:41 公開日:2021-06-10
# 量子論理ゲートのエネルギー特性に関する実験的検討

Experimental characterization of the energetics of quantum logic gates ( http://arxiv.org/abs/2001.11924v2 )

ライセンス: Link先を確認
Valeria Cimini, Stefano Gherardini, Marco Barbieri, Ilaria Gianani, Marco Sbroscia, Lorenzo Buffoni, Mauro Paternostro and Filippo Caruso(参考訳) 非平衡量子熱力学の観点から、2量子量子ゲートのエネルギー的フットプリントを特徴づける。 本研究では,制御ユニタリゲートの実装に伴うエネルギー・エントロピー変動の統計を実験的に再構成し,ゲート自体の性能とランダウアー原理の単一量子レベルでの現象論と結びつける。 我々の研究は、今後の量子技術の基盤となる量子回路を運用する際のエネルギー的コストに対処する。

We characterize the energetic footprint of a two-qubit quantum gate from the perspective of non-equilibrium quantum thermodynamics. We experimentally reconstruct the statistics of energy and entropy fluctuations following the implementation of a controlled-unitary gate, linking them to the performance of the gate itself and the phenomenology of Landauer principle at the single-quantum level. Our work thus addresses the energetic cost of operating quantum circuits, a problem that is crucial for the grounding of the upcoming quantum technologies.
翻訳日:2023-06-05 02:39:43 公開日:2021-06-10
# 適応光学対応量子通信 : 日時空間-地球間リンクのための技術

Adaptive-optics-enabled quantum communication: A technique for daytime space-to-Earth links ( http://arxiv.org/abs/2006.07745v4 )

ライセンス: Link先を確認
Mark T. Gruneisen, Mark L. Eickhoff, Scott C. Newey, Kurt E. Stoltenberg, Jeffery F. Morris, Michael Bareian, Mark A. Harris, Denis W. Oesch, Michael D. Oliker, Michael B. Flanagan, Brian T. Kay, Jonathan D. Schiller, and R. Nicholas Lanning(参考訳) 昼光における自由空間量子通信の実証は、グローバルスケールの量子ネットワークの開発において重要であると評価されている。 これまで、宇宙と地球の間に存在する日中の天空放射やスラントパス乱流を再現するために、大気チャネルを注意深く調整した人はいなかった。 本稿では,空間からの日中ダウンリンクを表す条件下での量子通信実験について報告する。 高次適応光学は、極小スペクトルフィルタを必要とせず、回折限界での空間フィルタは光学ノイズを拒絶する一方、チップ/チルト補正のみの量子チャネル効率をはるかに高めた。 高信号対雑音確率と低量子ビットエラー率を、昼間のスラントパス伝播に伴う広い範囲のチャネル半径と乱流条件で実証した。 衛星ベースの量子鍵分布の利点を定量化し議論する。

Previous demonstrations of free-space quantum communication in daylight have been touted as significant for the development of global-scale quantum networks. Until now, no one has carefully tuned their atmospheric channel to reproduce the daytime sky radiance and slant-path turbulence conditions as they exist between space and Earth. In this article we report a quantum communication field experiment under conditions representative of daytime downlinks from space. Higher-order adaptive optics increased quantum channel efficiencies far beyond those possible with tip/tilt correction alone while spatial filtering at the diffraction limit rejected optical noise without the need for an ultra-narrow spectral filter. High signal-to-noise probabilities and low quantum-bit-error rates were demonstrated over a wide range of channel radiances and turbulence conditions associated with slant-path propagation in daytime. The benefits to satellite-based quantum key distribution are quantified and discussed.
翻訳日:2023-05-15 20:24:28 公開日:2021-06-10
# 超低温多原子分子の光結合

Photoassociation of ultracold long-range polyatomic molecules ( http://arxiv.org/abs/2007.00261v2 )

ライセンス: Link先を確認
Marko Gacesa and Jason N. Byrd and Jonathan Smucker and John A. Montgomery, Jr. and Robin C\^ot\'e(参考訳) 外部磁場に配向した極性分子の極性分子の超低温対から、光学的に長範囲のテトラトミックおよび大型の多原子分子を基底電子状態に形成する可能性を探る。 相互作用する二原子分子の相対配向に依存すると、テトラトミックは、非常に長いハロ状態の弱い結合複合体として、あるいは、コリニアまたはほぼコリニアの2原子分子からなる純粋な長鎖分子として形成することができる。 後者は、2つの二原子分子が長い分子範囲で結合し、低温および超低温状態で安定であると予測される新しいタイプのテトラトミック分子である。 krb)$_2$および(rbcs)$_2$錯体の生成を極低温krbおよびrbcsで行った。 極性分子間の長距離相互作用の普遍的性質に基づいて、アポラッハを一般化して多原子分子を形成するための双極子と四極子モーメントの好ましい比で三原子系および四原子系線形極性分子を同定する。

We explore the feasibility of optically forming long-range tetratomic and larger polyatomic molecules in their ground electronic state from ultracold pairs of polar molecules aligned by external fields. Depending on the relative orientation of the interacting diatomic molecules, we find that a tetratomic can be formed either as a weakly bound complex in a very extended halo state or as a pure long-range molecule composed of collinear or nearly-collinear diatomic molecules. The latter is a novel type of tetratomic molecule comprised of two diatomic molecules bound at long intermolecular range and predicted to be stable in cold and ultracold regimes. Our numerical studies were conducted for ultracold KRb and RbCs, resulting in production of (KRb)$_2$ and (RbCs)$_2$ complexes, respectively. Based on universal properties of long-range interactions between polar molecules, we identify triatomic and tetratomic linear polar molecules with favorable ratio of dipole and quadrupole moments for which the apporach could be generalized to form polyatomic molecules.
翻訳日:2023-05-11 23:18:32 公開日:2021-06-10
# 時間進化行列積演算子を用いた量子熱統計

Quantum heat statistics with time-evolving matrix product operators ( http://arxiv.org/abs/2008.06491v3 )

ライセンス: Link先を確認
Maria Popovic, Mark T. Mitchison, Aidan Strathearn, Brendon W. Lovett, John Goold and Paul R. Eastham(参考訳) 本稿では,時間進化行列積演算子(TEMPO)アルゴリズムに基づく非マルコフ開量子系における熱伝達の総計数統計量を計算するための数値的高精度な手法を提案する。 この手法は、熱平衡中に環境に伝達される熱の平均と変動を計算するために、パラダイム的なスピン-ボソンモデルに適用される。 系-貯留層間相関は, 低温の熱統計に有意な寄与を示し, 数値解析結果を定量的に説明する変分理論を提示する。 また,高温における熱分布の平均と分散を結合した揺らぎ・散逸関係を示す。 その結果,開放系のダイナミクスが効果的にマルコフ的である場合でも,システムとバスの相互作用が熱伝達に寄与することが明らかとなった。 ここで提示する手法は、非摂動的レジームにおける開量子系における熱伝達のゆらぎを予測するための柔軟で一般的なツールを提供する。

We present a numerically exact method to compute the full counting statistics of heat transfer in non-Markovian open quantum systems, which is based on the time-evolving matrix product operator (TEMPO) algorithm. This approach is applied to the paradigmatic spin-boson model in order to calculate the mean and fluctuations of the heat transferred to the environment during thermal equilibration. We show that system-reservoir correlations make a significant contribution to the heat statistics at low temperature and present a variational theory that quantitatively explains our numerical results. We also demonstrate a fluctuation-dissipation relation connecting the mean and variance of the heat distribution at high temperature. Our results reveal that system-bath interactions make a significant contribution to heat transfer even when the dynamics of the open system is effectively Markovian. The method presented here provides a flexible and general tool to predict the fluctuations of heat transfer in open quantum systems in non-perturbative regimes.
翻訳日:2023-05-06 07:02:23 公開日:2021-06-10
# アコースティックグラフェンプラズモンによる金属表面の量子応答

Quantum Surface-Response of Metals Revealed by Acoustic Graphene Plasmons ( http://arxiv.org/abs/2008.07613v2 )

ライセンス: Link先を確認
P. A. D. Gon\c{c}alves, Thomas Christensen, N. M. R. Peres, Antti-Pekka Jauho, Itai Epstein, Frank H. L. Koppens, Marin Solja\v{c}i\'c, N. Asger Mortensen(参考訳) 物質の電磁応答の定量的理解は、最大、多目的、制御可能な光-物質相互作用の精密な工学に不可欠である。 特に材料表面は、電磁相互作用の強化と化学プロセスの調整のための顕著な基盤である。 しかし、深いナノスケールでは、電子系の電磁応答は物質界面における量子表面応答によって大きく影響され、標準光学技術を用いて探究することは困難である。 ここでは、グラフェン-誘電体-金属構造中の超高密度アコースティックグラフェンプラズモン(AGP)が、近隣金属の量子表面応答関数を探索するためにどのように使用できるかを示す。 我々は,AGPの分散の量子シフトから金属の低周波量子応答を実験的に推定する具体的な提案を提案し,AGPの高磁場閉じ込めが本質的に量子力学的電子長スケールをサブナノメータ分解能で解くことを実証した。 この結果から, 金属の量子応答を探索するための有望なスキームが明らかとなり, さらに, プラズモン定規としての AGPs の利用を, \r{a}ngstr\"{o}m-スケール精度で提案した。

A quantitative understanding of the electromagnetic response of materials is essential for the precise engineering of maximal, versatile, and controllable light--matter interactions. Material surfaces, in particular, are prominent platforms for enhancing electromagnetic interactions and for tailoring chemical processes. However, at the deep nanoscale, the electromagnetic response of electron systems is significantly impacted by quantum surface-response at material interfaces, which is challenging to probe using standard optical techniques. Here, we show how ultra-confined acoustic graphene plasmons (AGPs) in graphene--dielectric--metal structures can be used to probe the quantum surface-response functions of nearby metals, here encoded through the so-called Feibelman $d$-parameters. Based on our theoretical formalism, we introduce a concrete proposal for experimentally inferring the low-frequency quantum response of metals from quantum shifts of the AGPs' dispersion, and demonstrate that the high field confinement of AGPs can resolve intrinsically quantum mechanical electronic length-scales with subnanometer resolution. Our findings reveal a promising scheme to probe the quantum response of metals, and further suggest the utilization of AGPs as plasmon rulers with \r{a}ngstr\"{o}m-scale accuracy.
翻訳日:2023-05-06 00:50:08 公開日:2021-06-10
# スカラー試験粒子による熱揺らぎの観測

Probing thermal fluctuations through scalar test particles ( http://arxiv.org/abs/2010.07146v2 )

ライセンス: Link先を確認
G. H. S. Camargo, V. A. De Lorenci, A. L. Ferreira Junior, and C. C. H. Ribeiro(参考訳) ミンコフスキー空間に関連する量子場の基本的な真空状態は、物理系の記述に現実をもたらすために抑制されなければならない発散ゆらぎを生み出す。 その結果、古典的に正に定義された量の負の真空期待値が現れる。 これは文献では亜真空現象として扱われている。 ここでは, 背景が空き空間から熱浴に進化する時, 完全に反射する境界を含む時, D+1時空における大スカラー場の真空変動がスカラー荷電試験粒子に与える影響について検討した。 その結果, 粒子が熱浴に投入されると, 速度成分の正の分散によってエネルギー量が得られることがわかった。 この効果の大きさは温度や磁場の質量にも依存する。 しかし, 反射壁が挿入された場合, 分散は正あるいは負となり, 有限温度環境においてもサブ真空効果が生じることを示す。 さらに、温度が負の速度変動を改善できる点も顕著である。 残留効果の大きさは、システムが2つの状態の間で進化するのに要する時間の切り替え間隔に依存する。

The fundamental vacuum state of quantum fields, related to Minkowski space, produces divergent fluctuations that must be suppressed in order to bring reality to the description of physical systems. As a consequence, negative vacuum expectation values of classically positive-defined quantities can appear. This has been addressed in the literature as subvacuum phenomenon. Here it is investigated how a scalar charged test particle is affected by the vacuum fluctuations of a massive scalar field in D+1 spacetime when the background evolves from empty space to a thermal bath, and also when a perfectly reflecting boundary is included. It is shown that when the particle is brought into a thermal bath it gains an amount of energy by means of positive dispersions of its velocity components. The magnitude of this effect is dependent on the temperature and also on the field mass. However, when a reflecting wall is inserted, dispersions can be positive or negative, showing that subvacuum effect happens even in a finite temperature environment. Furthermore, a remarkable result is that temperature can even improve negative velocity fluctuations. The magnitude of the residual effects depends on the switching interval of time the system takes to evolve between two states.
翻訳日:2023-04-29 02:46:07 公開日:2021-06-10
# 量子シミュレータにおける中間子の散乱

Scattering of mesons in quantum simulators ( http://arxiv.org/abs/2011.10583v4 )

ライセンス: Link先を確認
Federica Maria Surace and Alessio Lerose(参考訳) 基礎相互作用の理論におけるリアルタイム進化のシミュレーションは、現代の理論物理学における主要な課題の一つである。 コールド原子プラットフォームは、直接実験の禁止条件下で真空崩壊やハドロン衝突のようなゲージ理論における非摂動現象の量子シミュレーションを実現する有望な候補である。 本研究では、現在の量子シミュレータが線形粒子加速器を模倣し、低次元アーベルゲージ理論における弾性および非弾性中間子衝突のs行列測定にアクセスできることを実証する。 1+1)$-次元$\mathbb{z}_2$-latticeゲージ理論をrydberg-atom配列で実現し、選択された中間子-中間子散乱過程を観測・測定するためのプロトコルを提案する。 任意の結合強度に有効な厳密な解を含む大きなフェルミ質量の配置における散乱振幅に関するベンチマーク理論的研究を行う。 これにより、内部構造が異なる新しい中間子の生成を特徴とする非弾性散乱チャネルの発生を議論できる。 予測された断面積のピークを再現する現実的な波動パック衝突の数値シミュレーションを行う。 この研究は、リアルタイム散乱力学に前例のないアクセスを与える量子シミュレーションの可能性を強調している。

Simulating real-time evolution in theories of fundamental interactions represents one of the central challenges in contemporary theoretical physics. Cold-atom platforms stand as promising candidates to realize quantum simulations of non-perturbative phenomena in gauge theories, such as vacuum decay and hadron collisions, in prohibitive conditions for direct experiments. In this work, we demonstrate that present-day quantum simulators can imitate linear particle accelerators, giving access to S-matrix measurements of elastic and inelastic meson collisions in low-dimensional Abelian gauge theories. Considering for definiteness a $(1+1)$-dimensional $\mathbb{Z}_2$-lattice gauge theory realizable with Rydberg-atom arrays, we present protocols to observe and measure selected meson-meson scattering processes. We provide a benchmark theoretical study of scattering amplitudes in the regime of large fermion mass, including an exact solution valid for arbitrary coupling strength. This allows us to discuss the occurrence of inelastic scattering channels, featuring the production of new mesons with different internal structures. We present numerical simulations of realistic wavepacket collisions, which reproduce the predicted cross section peaks. This work highlights the potential of quantum simulations to give unprecedented access to real-time scattering dynamics.
翻訳日:2023-04-23 14:44:13 公開日:2021-06-10
# 量子クエリアルゴリズムにおける未知構造の利用

Leveraging Unknown Structure in Quantum Query Algorithms ( http://arxiv.org/abs/2012.01276v2 )

ライセンス: Link先を確認
Noel T. Anderson, Jay-U Chung, Shelby Kimmel(参考訳) 関数評価のための量子スパンプログラムアルゴリズムは、入力が特定の構造を持つと約束された場合、クエリの複雑さを低減できる。 本研究では,前もって約束を守らずにこれらのスピードアップが持続することを示す修正スパンプログラムアルゴリズムを設計し,この手法をより一般的な状態変換問題に拡張する。 例えば、spanプログラムアルゴリズムでは、2つの頂点が$n$-vertexグラフで接続されているかどうかを、一般に$o(n^{3/2})$クエリで決定するが、パスがある場合、最大$k$エッジを持つものが存在すると保証された場合、$o(\sqrt{k}n)$クエリで決定する。 このアルゴリズムは$\tilde{o}(\sqrt{k}n)$クエリを使用して、最大$k$のエッジを持つパスが存在する場合、事前に$k$を知ることなく問題を解決します。

Quantum span program algorithms for function evaluation commonly have reduced query complexity when promised that the input has a certain structure. We design a modified span program algorithm to show these speed-ups persist even without having a promise ahead of time, and we extend this approach to the more general problem of state conversion. For example, there is a span program algorithm that decides whether two vertices are connected in an $n$-vertex graph with $O(n^{3/2})$ queries in general, but with $O(\sqrt{k}n)$ queries if promised that, if there is a path, there is one with at most $k$ edges. Our algorithm uses $\tilde{O}(\sqrt{k}n)$ queries to solve this problem if there is a path with at most $k$ edges, without knowing $k$ ahead of time.
翻訳日:2023-04-22 07:57:20 公開日:2021-06-10
# 作用素成長の統計的メカニズム

A statistical mechanism for operator growth ( http://arxiv.org/abs/2012.06544v2 )

ライセンス: Link先を確認
Xiangyu Cao(参考訳) 最近、一般量子多体系において、局所作用素のスペクトル密度は局所性によって許容される最も遅い高周波減衰を持つと推測された。 この「ユニバーサル作用素成長仮説」の無限温度版は、$d \ge 2$次元の量子イジングスピンモデルと、1次元のカオスイジングチェーン(縦方向および横方向の場を持つ)に対して成り立つことを示す。 さらに、多体局在を示す乱れたカオスイジング鎖は、熱化モデルと同じ高周波スペクトル密度減衰を持つことができる。 我々の議論は本質的に統計的であり、スペクトル密度のモーメントがパウリ弦作用素の経路上の符号-確率自由和として記述できるという観測に基づいている。

It was recently conjectured that in generic quantum many-body systems, the spectral density of local operators has the slowest high-frequency decay as permitted by locality. We show that the infinite-temperature version of this "universal operator growth hypothesis" holds for the quantum Ising spin model in $d \ge 2$ dimensions, and for the chaotic Ising chain (with longitudinal and transverse fields) in one dimension. Moreover, the disordered chaotic Ising chain that exhibits many-body localization can have the same high-frequency spectral density decay as thermalizing models. Our argument is statistical in nature, and is based on the observation that the moments of the spectral density can be written as a sign-problem-free sum over paths of Pauli string operators.
翻訳日:2023-04-21 03:17:19 公開日:2021-06-10
# 非線形力学系の線形埋め込みと効率的な量子アルゴリズムの展望

Linear embedding of nonlinear dynamical systems and prospects for efficient quantum algorithms ( http://arxiv.org/abs/2012.06681v2 )

ライセンス: Link先を確認
Alexander Engel, Graeme Smith, Scott E. Parker(参考訳) 双曲偏微分方程式の離散化によって生成される系を含む大きな非線形力学系のシミュレーションは、計算的に要求される。 このような系は流体と速度論的プラズマ物理学の両方において重要である。 これは、将来の誤り訂正量子コンピュータがどの古典的コンピュータよりも効率的にこれらのシミュレーションを実行できるかどうかを探求する動機である。 本稿では,任意の有限非線形力学系を無限線形力学系(埋め込み)にマッピングする方法について述べる。 そこで, 有限線型系 (truncation) を用いて無限線形系を近似する手法について検討する。 量子コンピュータは、非線形システムの変数数に対数のみの量子ビット数を用いることで、非線形性が十分に弱ければ出力量を近似するために、切断されたシステムをシミュレートすることができる。 3つの詳細埋め込み戦略の計算効率の他の側面についても論じる。

The simulation of large nonlinear dynamical systems, including systems generated by discretization of hyperbolic partial differential equations, can be computationally demanding. Such systems are important in both fluid and kinetic computational plasma physics. This motivates exploring whether a future error-corrected quantum computer could perform these simulations more efficiently than any classical computer. We describe a method for mapping any finite nonlinear dynamical system to an infinite linear dynamical system (embedding) and detail three specific cases of this method that correspond to previously-studied mappings. Then we explore an approach for approximating the resulting infinite linear system with finite linear systems (truncation). Using a number of qubits only logarithmic in the number of variables of the nonlinear system, a quantum computer could simulate truncated systems to approximate output quantities if the nonlinearity is sufficiently weak. Other aspects of the computational efficiency of the three detailed embedding strategies are also discussed.
翻訳日:2023-04-21 01:20:03 公開日:2021-06-10
# 超弱カップリングを超えたリンドブラジアン近似

Lindbladian approximation beyond ultra-weak coupling ( http://arxiv.org/abs/2012.14208v4 )

ライセンス: Link先を確認
Tobias Becker, Ling-Na Wu, Andr\'e Eckardt(参考訳) 平衡を離れて、開量子系の性質はそれらの環境の詳細に依存する。 したがって、マスター方程式(ME)の微視的導出が重要である。 特に興味深いのはリンドブラッド型方程式であり、それらはマルコフのMEの最も一般的なクラスを提供するだけでなく、効率的な量子軌道シミュレーションの出発点でもある。 リンドブラッド型MEは一般にボルン-マルコフ-レッドフィールド方程式から回転波近似(RWA)によって導かれる。 しかし、RWAは超弱系バスカップリングにのみ有効であり、しばしば非平衡過程を正確に記述できない。 ここでは、超弱系-バスカップリングに依存しないレッドフィールド方程式の代替リンドブラド近似を導出する。 オーミック浴に結合した拡張ハバードモデルに適用すると、特に平衡から離れて、RWAが失敗する大きなパラメータ系において良好な近似が得られることが分かる。

Away from equilibrium, the properties of open quantum systems depend on the details of their environment. A microscopic derivation of a master equation (ME) is therefore crucial. Of particular interest are Lindblad-type equations, not only because they provide the most general class of Markovian MEs, but also since they are the starting point for efficient quantum trajectory simulations. Lindblad-type MEs are commonly derived from the Born-Markov-Redfield equation via a rotating-wave approximation (RWA). However the RWA is valid only for ultra-weak system bath coupling and often fails to accurately describe nonequilibrium processes. Here we derive an alternative Lindbladian approximation to the Redfield equation, which does not rely on ultra-weak system-bath coupling. Applying it to an extended Hubbard model coupled to Ohmic baths, we show that, especially away from equilibrium, it provides a good approximation in large parameter regimes where the RWA fails.
翻訳日:2023-04-19 01:59:29 公開日:2021-06-10
# 量子系のランダム反復測定:量子進化の相関と位相不変性

Randomly repeated measurements on quantum systems: Correlations and topological invariants of the quantum evolution ( http://arxiv.org/abs/2012.15182v2 )

ライセンス: Link先を確認
K. Ziegler, E. Barkai, D. Kessler(参考訳) 閉じた量子系の進化におけるランダムに繰り返された測定は、ある量子状態の最初の検出のための確率列を生成する。 量子系の初期状態への回帰に関する、関連する離散的監視進化について検討した。 最初の検出までの平均的な測定回数は整数、すなわちアクセス可能なヒルベルト空間の次元であることがわかった。 また、検出された平均第1の戻り時間は、連続した測定時間の平均測定回数間の平均時間ステップに等しい。 したがって、検出された平均戻り時間は、アクセス可能なヒルベルト空間の次元と線形にスケールする。 この研究の主な目的は、平均戻り時間の量子化を、定量化されたベリー位相の観点から説明することである。

Randomly repeated measurements during the evolution of a closed quantum system create a sequence of probabilities for the first detection of a certain quantum state. The related discrete monitored evolution for the return of the quantum system to its initial state is investigated. We found that the mean number of measurements until the first detection is an integer, namely the dimensionality of the accessible Hilbert space. Moreover, the mean first detected return time is equal to the average time step between successive measurements times the mean number of measurements. Thus, the mean first detected return time scales linearly with the dimensionality of the accessible Hilbert space. The main goal of this work is to explain the quantization of the mean return time in terms of a quantized Berry phase.
翻訳日:2023-04-18 07:57:43 公開日:2021-06-10
# 最小長形式論における木質サクソンポテンシャルに対するD次元ディラック方程式の超対称性解

Supersymmetric Solutions of D-Dimensional Dirac Equation for Woods-Saxon Potential in Minimal Length Formalism ( http://arxiv.org/abs/2101.00881v2 )

ライセンス: Link先を確認
A Suparmi, J Akbar, C Cari(参考訳) 最小長形式論におけるウッズ・サクソンポテンシャルのスピン対称性の場合、D次元ディラック方程式のエネルギー固有値と放射波関数を得る。 d-次元ディラック方程式の半径部は、遠心項を扱うためにペケリス近似を用いた超対称量子力学法を適用して解く。 種々の最小長パラメータに対して、境界状態エネルギー固有値と次元および量子数の挙動を議論する。

We obtain the energy eigenvalues and radial wave functions of the D-Dimensional Dirac equation in the case of spin symmetry for Woods-Saxon potential in minimal length formalism. The radial part of the D-Dimensional Dirac equation is solved by applied the supersymmetric quantum mechanics method using the Pekeris approximation to deal with the centrifugal term. The behavior of bound-state energy eigenvalues versus dimension and also quantum number is discussed for various minimal length parameters.
翻訳日:2023-04-17 22:14:59 公開日:2021-06-10
# 新生ホログラフィック超伝導体における渦の普遍統計--キブルズレーク機構を超えて

Universal Statistics of Vortices in a Newborn Holographic Superconductor: Beyond the Kibble-Zurek Mechanism ( http://arxiv.org/abs/2101.02171v4 )

ライセンス: Link先を確認
Adolfo del Campo, Fernando Javier G\'omez-Ruiz, Zhi-Hong Li, Chuan-Yin Xia, Hua-Bi Zeng, and Hai-Qing Zhang(参考訳) 有限速度での連続相転移のトラバースは、有名なkibble-zurek機構(kzm)によって予測されるように、断熱力学の崩壊と位相的欠陥の形成に繋がる。 熱クエンチで発生する渦の分布を特徴付けることにより,KZM以外の普遍的なシグネチャを解析し,ホログラフィック超伝導体を形成する。 渦の全計数統計は二項分布によって記述され、平均値はkzmによって決定され、高次累積はクエンチ時間と普遍的なパワーロースケーリングを共有する。 大きなゆらぎを伴う極端な出来事は、もはやクエンチ時間とパワーローな振る舞いを示さず、異なるクエンチレートのワイブル分布の普遍的な形によって特徴づけられる。

Traversing a continuous phase transition at a finite rate leads to the breakdown of adiabatic dynamics and the formation of topological defects, as predicted by the celebrated Kibble-Zurek mechanism (KZM). We investigate universal signatures beyond the KZM, by characterizing the distribution of vortices generated in a thermal quench leading to the formation of a holographic superconductor. The full counting statistics of vortices is described by a binomial distribution, in which the mean value is dictated by the KZM and higher-order cumulants share the universal power-law scaling with the quench time. Extreme events associated with large fluctuations no longer exhibit a power-law behavior with the quench time and are characterized by a universal form of the Weibull distribution for different quench rates.
翻訳日:2023-04-17 17:40:06 公開日:2021-06-10
# amazon mechanical turkを研究に使った隠れたコスト

The Hidden Cost of Using Amazon Mechanical Turk for Research ( http://arxiv.org/abs/2101.04459v4 )

ライセンス: Link先を確認
Antonios Saravanos (1), Stavros Zervoudakis (1), Dongnanzi Zheng (1), Neil Stott (2), Bohdan Hawryluk (1), Donatella Delfino (1) ((1) New York University, (2) Cambridge Judge Business School)(参考訳) 本研究では,アマゾン・メカニカル・ターク(mturk)に委託された参加者の注意力を調査し,プラットフォームトップの群集作業者(「マスター」に分類され,「承認率」が98%以上,「承認されたヒット数」が1000以上)間に有意な不注意性を見出した。 実験には合計564人の米国人が参加した。 彼らは4つの仮想技術製品のうちの1つを概説するvignetteを読んで、関連する調査を完了するよう求められた。 注意力評価には3種類の注意チェック(論理、正直、時間)が用いられた。 この実験により、合計126名 (22.3%) の参加者が少なくとも3種類の注意チェックのうちの1つに失敗し、ほとんどの (94) が正直なチェックに失敗し、続いて論理チェック (31) とタイムチェック (27) が行われた。 その結果,最もエリートなmturk労働者においても,かなりのレベルの不注意が存在していることがわかった。 本研究は,「マスター」,「承認率」,「HITSのNumber of HITS」などのMTurk基準に基づき,参加者の質が高いと推定されるか否かにかかわらず,複数種類の注意点検の必要性を再確認して結論付けた。 さらに,参加者の不注意に対処するのに必要な労力とコストを考慮し,研究者が提案を調整できることを提案する。

In this study, we investigate the attentiveness exhibited by participants sourced through Amazon Mechanical Turk (MTurk), thereby discovering a significant level of inattentiveness amongst the platform's top crowd workers (those classified as 'Master', with an 'Approval Rate' of 98% or more, and a 'Number of HITS approved' value of 1,000 or more). A total of 564 individuals from the United States participated in our experiment. They were asked to read a vignette outlining one of four hypothetical technology products and then complete a related survey. Three forms of attention check (logic, honesty, and time) were used to assess attentiveness. Through this experiment we determined that a total of 126 (22.3%) participants failed at least one of the three forms of attention check, with most (94) failing the honesty check - followed by the logic check (31), and the time check (27). Thus, we established that significant levels of inattentiveness exist even among the most elite MTurk workers. The study concludes by reaffirming the need for multiple forms of carefully crafted attention checks, irrespective of whether participant quality is presumed to be high according to MTurk criteria such as 'Master', 'Approval Rate', and 'Number of HITS approved'. Furthermore, we propose that researchers adjust their proposals to account for the effort and costs required to address participant inattentiveness.
翻訳日:2023-04-17 00:44:38 公開日:2021-06-10
# 不変ショートカットによる滑らかな経路をもつ非環状幾何学量子ゲート

Noncyclic Geometric Quantum Gates with Smooth Paths via Invariant-based Shortcuts ( http://arxiv.org/abs/2102.00893v2 )

ライセンス: Link先を確認
Li-Na Ji, Cheng-Yun Ding, Tao Chen and Zheng-Yuan Xue(参考訳) 非断熱的幾何学的量子計算は、フォールトトレラント量子計算に必要な高忠実かつ堅牢な量子ゲートの実現に向けられている。 しかし、周期的かつ可変的な進化経路によって制限され、通常、長いゲート時間と突然のパルス制御が必要となり、ゲート性能が低下する。 そこで本研究では,非巡回的かつ非断熱的進化を伴う量子ゲートを実現するための手法として,不変なショートカットを用いて,経路変化のない一段階に普遍的量子ゲートを誘導し,ゲートタイムを効果的に短縮する手法を提案する。 数値シミュレーションにより, 従来の動的ゲートと比較すると, 構成された幾何学的ゲートは, クビット周波数ドリフトと駆動場の振幅の偏差による系統的誤差だけでなく, 環境に起因したデコヒーレンス効果にも強い抵抗を持つことが示された。 さらに, 超伝導回路プラットフォーム上では, 1量子ビットゲートと2量子ビットゲートの忠実度はそれぞれ99.97$\%$と99.84$\%$よりも高い値で実装することができる。 そこで本手法は,スケーラブルな量子計算を実現するための高信頼なフォールトトレラント量子ゲートを実現する有望な方法を提供する。

Nonadiabatic geometric quantum computation is dedicated to the realization of high-fidelity and robust quantum gates, which are necessary for fault-tolerant quantum computation. However, it is limited by cyclic and mutative evolution path, which usually requires longer gate-time and abrupt pulse control, weakening the gate performance. Here, we propose a scheme to realize geometric quantum gates with noncyclic and nonadiabatic evolution via invariant-based shortcuts, where universal quantum gates can be induced in one step without path mutation and the gate time is also effectively shortened. Our numerical simulations show that, comparing with the conventional dynamical gates, the constructed geometric gates have stronger resistance not only to systematic errors, induced by both qubit-frequency drift and the deviation of the amplitude of the driving fields, but also to environment-induced decoherence effect. In addition, our scheme can also be implemented on a superconducting circuit platform, with the fidelities of single-qubit and two-qubit gates are higher than 99.97$\%$ and 99.84$\%$, respectively. Therefore, our scheme provides a promising way to realize high-fidelity fault-tolerant quantum gates for scalable quantum computation.
翻訳日:2023-04-13 02:55:19 公開日:2021-06-10
# ホログラフィックbcftにおける世界のブランの終わりのスペクトル

Spectrum of End of the World Branes in Holographic BCFTs ( http://arxiv.org/abs/2103.06893v2 )

ライセンス: Link先を確認
Masamichi Miyaji, Tadashi Takayanagi, Tomonori Ugajin(参考訳) 共形場理論における2つの正規化境界状態の重なりについて検討する。 規則化された境界状態は、AdS/BCFTを介してAdSブラックホールの世界のブレーンの両端である。 したがって、それらは片面ブラックホールの微小状態と見なすことができる。 開閉双対性のため、2つの異なる正則境界状態の間の重なりは指数関数的に抑制される: $\langle \psi_{a} | \psi_{b} \rangle \sim e^{-O(h^{(min)}_{ab})}$, ここで$h^{(min)}_{ab}$は2つの異なる境界を接続する開弦の最低エネルギーである。 我々の重力双対解析は、純粋なAdS$_3$重力に対して$h^{(min)}_{ab} = c/24$となる。 このことは、ホログラフィック境界状態がすべての左対称状態のランダムなベクトルであり、その数は全てのブラックホールマイクロ状態の平方根によって与えられることを示している。 また、より高次元で同様の計算を行い、$h^{(min)}_{ab}$ がブランの張力に依存することを発見した。 ホログラム境界状態の解析では, 内部積の対角要素は, 2次元重力下でのマイクロステートの内部積の計算とは対照的に, オンシェル重力作用から直接計算することができる。

We study overlaps between two regularized boundary states in conformal field theories. Regularized boundary states are dual to end of the world branes in an AdS black hole via the AdS/BCFT. Thus they can be regarded as microstates of a single sided black hole. Owing to the open-closed duality, such an overlap between two different regularized boundary states is exponentially suppressed as $\langle \psi_{a} | \psi_{b} \rangle \sim e^{-O(h^{(min)}_{ab})}$, where $h^{(min)}_{ab}$ is the lowest energy of open strings which connect two different boundaries $a$ and $b$. Our gravity dual analysis leads to $h^{(min)}_{ab} = c/24$ for a pure AdS$_3$ gravity. This shows that a holographic boundary state is a random vector among all left-right symmetric states, whose number is given by a square root of the number of all black hole microstates. We also perform a similar computation in higher dimensions, and find that $h^{( min)}_{ab}$ depends on the tensions of the branes. In our analysis of holographic boundary states, the off diagonal elements of the inner products can be computed directly from on-shell gravity actions, as opposed to earlier calculations of inner products of microstates in two dimensional gravity.
翻訳日:2023-04-08 10:55:16 公開日:2021-06-10
# オランダのCoronaMelderアプリを用いた接触追跡の疫学モデル

An Epidemiological Model for contact tracing with the Dutch CoronaMelder App ( http://arxiv.org/abs/2105.15111v3 )

ライセンス: Link先を確認
Peter Boncz(参考訳) Google/Apple Exposure Notificationフレームワーク上に開発されたオランダのデジタル接触追跡アプリであるCoronaMelderの有効性に関する疫学モデルを提案する。 多数のメトリクスに対して,CoronaMelderと手動契約追跡の有効性を比較した。 CoronaMelderは新型コロナウイルス(COVID-19)のパンデミックを減速させる効果が小さいが、顕著な影響を与えることが判明した。

We present an epidemiological model for the effectiveness of CoronaMelder, the Dutch digital contact tracing app developed on top of the Google/Apple Exposure Notification framework. We compare the effectiveness of CoronaMelder with manual contract tracing on a number of metrics. CoronaMelder turns out to have a small but noticeable positive influence in slowing down the COVID-19 pandemic, an effect that will become more pronounced in an opened-up society where adoption of CoronaMelder is increased.
翻訳日:2023-03-30 19:29:46 公開日:2021-06-10
# $k$-Entanglement Breaking Mapsのマッピングコーン

Mapping cone of $k$-Entanglement Breaking Maps ( http://arxiv.org/abs/2105.14991v2 )

ライセンス: Link先を確認
Repana Devendra, Nirupama Mallick and K. Sumesh(参考訳) cite{cmw19} において、著者らは合成における完全正の写像の絡み合い破れ特性を理解するために $k$-entanglement breaking linear maps を導入した。 この記事では、k$-interanglement breaking mapsの体系的な研究を行います。 k$-正の線型写像に対する多くの等価条件が、k$-エンタングルメントの破れであることを証明し、それによって、k$-エンタングルメントの破れ写像のマッピングコーン構造を研究する。 我々は、k$-interanglement breaking mapの例とそれらの重要性について論じる。 本研究の応用として、シュミット数を削減する完全正の写像を他の完全正の写像と組み合わせて特徴づける。

In \cite{CMW19}, the authors introduced $k$-entanglement breaking linear maps to understand the entanglement breaking property of completely positive maps on taking composition. In this article, we do a systematic study of $k$-entanglement breaking maps. We prove many equivalent conditions for a $k$-positive linear map to be $k$-entanglement breaking, thereby study the mapping cone structure of $k$-entanglement breaking maps. We discuss examples of $k$-entanglement breaking maps and some of their significance. As an application of our study, we characterize completely positive maps that reduce Schmidt number on taking composition with another completely positive map.
翻訳日:2023-03-28 06:00:18 公開日:2021-06-10
# 公共部門におけるアルゴリズムと意思決定

Algorithms and Decision-Making in the Public Sector ( http://arxiv.org/abs/2106.03673v2 )

ライセンス: Link先を確認
Karen Levy, Kyla Chasalow, Sarah Riley(参考訳) 本稿では,公共部門における意思決定を支援するアルゴリズムシステムの利用について調査する。 政府は、責任、プライバシー、社会的不平等、意思決定における公共の参加といった重要な結果を含む、刑事司法、教育、福利厚生条項を含むいくつかの状況において、その機能をサポートするアルゴリズムシステムを採用し、調達し、使用します。 我々は, 問題定式化, 技術獲得, 展開, 評価など, 様々な段階において, 都市アルゴリズムシステムの社会的意味について検討する。 実験的な研究を必要とするいくつかのオープンな質問を強調します。

This article surveys the use of algorithmic systems to support decision-making in the public sector. Governments adopt, procure, and use algorithmic systems to support their functions within several contexts -- including criminal justice, education, and benefits provision -- with important consequences for accountability, privacy, social inequity, and public participation in decision-making. We explore the social implications of municipal algorithmic systems across a variety of stages, including problem formulation, technology acquisition, deployment, and evaluation. We highlight several open questions that require further empirical research.
翻訳日:2023-03-27 08:54:54 公開日:2021-06-10
# マルチプラットフォームバッファルータ支援周波数多重化自動リピータチェーンにおける絡み合い分布

Entanglement Distribution in Multi-Platform Buffered-Router-Assisted Frequency-Multiplexed Automated Repeater Chains ( http://arxiv.org/abs/2106.04671v2 )

ライセンス: Link先を確認
Mohsen Falamarzi Askarani, Kaushik Chakraborty, Gustavo Castro do Amaral(参考訳) 世界規模の量子ネットワークの実現は、特定のタスクに最適化されたプラットフォーム間のコネクティビティの恩恵を受ける、現在の世界のゴールである。 この目的に向けて,nv$^-$カラーセンタに基づく量子処理デバイスが量子ルータとして動作し,その間,希土類イオンドープ結晶や不完全エンタングル光子ペア源における吸収性量子メモリに基づくスペクトル多重量子リピータによって長距離エンタングルメント分布が実現される量子ネットワークアーキテクチャを提案する。 リピータとルータ間の量子バッファ構造の包含は、複雑さが増すにもかかわらず、ネットワーク内の達成可能な絡み合い分布率を改善することが示される。 単純な線形ネットワーク(ポイント・ツー・ポイント)では期待される速度と忠実性が示されるが、複雑なトポロジーは量子ルータの動作に余分な時間的多重化層を含めることで提案されたアーキテクチャと互換性がある。 文献の短期シナリオのパラメータに基づいて有益度を抽出し,バッファリングルータを用いた周波数多重化自動リピータチェーンネットワークの可用性を検証した。

Realization of a globe-spanning quantum network is a current worldwide goal, where near and long term implementations will benefit from connectivity between platforms optimized for specific tasks. Towards this goal, a quantum network architecture is herewith proposed whereby quantum processing devices based on NV$^-$ colour centers act as quantum routers and, between which, long-distance entanglement distribution is enabled by spectrally-multiplexed quantum repeaters based on absorptive quantum memories in rare-earth ion-doped crystals and imperfect entangled photon-pair sources. The inclusion of a quantum buffer structure between repeaters and routers is shown to, albeit the increased complexity, improve the achievable entanglement distribution rates in the network. Although the expected rate and fidelity results are presented for a simple linear network (point-to-point), complex topologies are compatible with the proposed architecture through the inclusion of an extra layer of temporal multiplexing in the quantum router's operation. Figures of merit are extracted based on parameters found in the literature for near-term scenarios and attest the availability of the proposed buffered-router-assisted frequency-multiplexed automated repeater chain network.
翻訳日:2023-03-27 06:18:30 公開日:2021-06-10
# 返信: (t, n)しきい値dレベル量子シークレット共有へのコメント

Reply to: Comment on (t, n) Threshold d-level Quantum Secret Sharing ( http://arxiv.org/abs/2106.05488v1 )

ライセンス: Link先を確認
Chuang Li (1), Longwei Zhang (2), Xiuli Song (2) ((1) School of computer science and technology, Chongqing university of posts and telecommunications, Chongqing 400065, China, (2) School of cyber security and information law, Chongqing university of posts and telecommunications, Chongqing 400065, China)(参考訳) Kao と Hwang によって提起された対応するコメントは、再構成者 Bob1 が (t, n) Threshold d-level Quantum Secret Sharing (TDQSS)[Scientific Reports, Vol. 7, No. 1 (2017), pp.6366] で期待される秘密情報を入手できないと主張している。 この回答では,TDQSSスキームが,ディスタングの段階を付加した状態でディーラーの秘密情報を得ることができることを示す。

A corresponding comment, raised by Kao and Hwang, claims that the reconstructor Bob1 is unable to obtain the expected secret information in (t, n) Threshold d-level Quantum Secret Sharing (TDQSS)[Scientific Reports, Vol. 7, No. 1 (2017), pp.6366] . In this reply, we show the TDQSS scheme can obtain the dealer's secret information in the condition of adding a step on disentanglement.
翻訳日:2023-03-27 02:15:07 公開日:2021-06-10
# フラクトン、フラクソン、フリートンの新しいモデル

A New Model for Fractons, Fluxons, and Freeons ( http://arxiv.org/abs/2106.05451v1 )

ライセンス: Link先を確認
Jintae Kim and Jung Hoon Han(参考訳) 3次元トーリック符号とx-cubeフラクトンモデルの多くの特性を共用した立方格子上の格子スピンモデルを提案する。 このモデルはリンクにおけるZ_3自由度で作られ、頂点、立方体、および小冊子項を持つ。 安定化コードであるため、基底状態は正確に解決される。 頂点と立方体項が存在するだけで、基底状態縮退 (GSD) は 3^(L3+3L-1) であることが示され、L は立方体格子の線型次元である。 フラクトンに加えて、フリートンと呼ばれる自由頂点励起が存在する。 プラーペット項の追加により、gsdはフラクトン、フラクソン、フリートン励起を含む3^3まで大幅に減少し、その中のフリートンのみがデコンデンスされる。 このモデルは、頂点(a_v)と立方体(b_c)項のみが存在する場合にabモデルと呼ばれ、abcモデルは、さらにプラーペット項(c_p)を含む。 頂点項と小文字項からなるACモデルは、Z_3 3Dトーリックコードである。 ABモデルの広範なGSDは、異なる基底状態を結ぶ局所的および非局所的論理作用素の存在に由来する。 後者の作用素は z_3 x-cube モデルの論理作用素と同一である。 フラクトン励起は動かず、フラクトン - 非ゼロフラクトンを持つプラケットの生成を伴う。 ABCモデルでは、そのようなフラクトン生成はエネルギーを消費し、最終的にはフラクトンを精製する。 過去のフラクトンモデルとは異なり、頂点励起は任意の方向に自由に移動でき、フラクトンまたはフラクトンクラスターを通過すると非自明な統計位相を取ることができる。

We propose a lattice spin model on a cubic lattice that shares many of the properties of the 3D toric code and the X-cube fracton model. The model, made of Z_3 degrees of freedom at the links, has the vertex, the cube, and the plaquette terms. Being a stabilizer code the ground states are exactly solved. With only the vertex and the cube terms present, we show that the ground state degeneracy (GSD) is 3^(L3+3L-1) where L is the linear dimension of the cubic lattice. In addition to fractons, there are free vertex excitations we call the freeons. With the addition of the plaquette terms, GSD is vastly reduced to 3^3, with fracton, fluxon, and freeon excitations, among which only the freeons are deconfined. The model is called the AB model if only the vertex (A_v) and the cube (B_c) terms are present, and the ABC model if in addition the plaquette terms (C_p) are included. The AC model consisting of vertex and plaquette terms is the Z_3 3D toric code. The extensive GSD of the AB model derives from the existence of both local and non-local logical operators that connect different ground states. The latter operators are identical to the logical operators of the Z_3 X-cube model. Fracton excitations are immobile and accompanied by the creation of fluxons - plaquettes having nonzero flux. In the ABC model, such fluxon creation costs energy and ends up confining the fractons. Unlike past models of fractons, vertex excitations are free to move in any direction and pick up a non-trivial statistical phase when passing through a fluxon or a fracton cluster.
翻訳日:2023-03-27 02:14:53 公開日:2021-06-10
# 欧州における複数のモバイルネットワーク事業者のデータを用いたcovid-19対策について

On the Use of Data from Multiple Mobile Network Operators in Europe to fight COVID-19 ( http://arxiv.org/abs/2106.05647v1 )

ライセンス: Link先を確認
Michele Vespe, Stefano Maria Iacus, Carlos Santamaria, Francesco Sermi, Spyridon Spyratos(参考訳) 世界規模での新型コロナウイルス感染の急速な拡大は、集団移動パターンに関する正確で透明でタイムリーな情報の必要性を強調し、デエスカレーション戦略を伝えるとともに、ウイルスのさらなる波に対処しようとする再エスカレーション政策の予測能力を提供する。 このような情報は、移動位置データなどの革新的な情報源から集約匿名データを用いて抽出することができる。 本稿では、欧州の複数のモバイルネットワーク事業者と欧州委員会による独特なb2gイニシアチブの教訓と成果について述べる。 モバイルの位置情報は、病気の拡散、封じ込めの効果、社会的・経済的な影響、EU規模でのシナリオの供給、および各国間での同等の方法を理解するためのエビデンスとデータ駆動の知識を持つ政策立案者や実践者を支援してきた。 このデータ共有イニシアチブの課題は、データ品質、調和、各国間の互換性に限ったものではありません。 データプライバシやセキュリティ,基本的権利,商業的感受性など,最初から対処する必要のある面も同じように必要です。

The rapid spread of COVID-19 infections on a global level has highlighted the need for accurate, transparent and timely information regarding collective mobility patterns to inform de-escalation strategies as well as to provide forecasting capacity for re-escalation policies aiming at addressing further waves of the virus. Such information can be extracted using aggregate anonymised data from innovative sources such as mobile positioning data. This paper presents lessons learnt and results of a unique Business-to-Government (B2G) initiative between several Mobile Network Operators in Europe and the European Commission. Mobile positioning data have supported policy makers and practitioners with evidence and data-driven knowledge to understand and predict the spread of the disease, the effectiveness of the containment measures, their socio-economic impacts while feeding scenarios at EU scale and in a comparable way across countries. The challenges of this data sharing initiative are not limited to data quality, harmonisation, and comparability across countries, however important they are. Equally essential aspects that need to be addressed from the onset are related to data privacy, security, fundamental rights and commercial sensitivity.
翻訳日:2023-03-27 02:10:39 公開日:2021-06-10
# 天文学における振幅と強度干渉法の定量的比較

A quantitative comparison of amplitude versus intensity interferometry for astronomy ( http://arxiv.org/abs/2106.05640v1 )

ライセンス: Link先を確認
Manuel Bojer, Zixin Huang, Sebastian Karl, Stefan Richter, Pieter Kok and J. von Zanthier(参考訳) 天文学的イメージングは2つのタイプに大別できる。 最初のタイプは振幅干渉法で、従来の光学望遠鏡と超大型ベースライン干渉法(vlbi)を含む。 第2のタイプは強度干渉法で、ハンベリー・ブラウンとtwiss型の測定に依存する。 直接位相測定が不可能な光周波数では、振幅干渉計は、光子がコヒーレントに干渉できる距離によって制限される効果的な数値開口を持つ。 一方、強度干渉法は光子フラックスのみを相関させ、より大きい数値開口を支持できるが、熱光の1モード当たりの平均光子数が少ないために信号の減少に悩まされる。 現実の条件下ではどの方法が優れているかははっきりしていない。 ここでは、振幅と強度干渉法の性能の比較分析を行い、これを任意の物理測定で達成できる基本分解能限界に関連付ける。 隣り合う2つの恒星の遠方の熱点源の分離を決定するためのベンチマーク問題を用いて、最適推定理論の簡単なチュートリアルを作成し、恒星干渉計に適用する。 非常に小さな角分離の場合、強度干渉法で達成可能な大きなベースラインは、信号強度の低下を補うことができる。 また,VLBII (Very Large Baseline Intensity Interferometry) の実装についても検討する。

Astronomical imaging can be broadly classified into two types. The first type is amplitude interferometry, which includes conventional optical telescopes and Very Large Baseline Interferometry (VLBI). The second type is intensity interferometry, which relies on Hanbury Brown and Twiss-type measurements. At optical frequencies, where direct phase measurements are impossible, amplitude interferometry has an effective numerical aperture that is limited by the distance from which photons can coherently interfere. Intensity interferometry, on the other hand, correlates only photon fluxes and can thus support much larger numerical apertures, but suffers from a reduced signal due to the low average photon number per mode in thermal light. It has hitherto not been clear which method is superior under realistic conditions. Here, we give a comparative analysis of the performance of amplitude and intensity interferometry, and we relate this to the fundamental resolution limit that can be achieved in any physical measurement. Using the benchmark problem of determining the separation between two distant thermal point sources, e.g., two adjacent stars, we give a short tutorial on optimal estimation theory and apply it to stellar interferometry. We find that for very small angular separations the large baseline achievable in intensity interferometry can more than compensate for the reduced signal strength. We also explore options for practical implementations of Very Large Baseline Intensity Interferometry (VLBII).
翻訳日:2023-03-27 02:10:15 公開日:2021-06-10
# 導波管量子力学における対称性工学的多ビット暗黒状態のコヒーレント制御

Coherent control of a symmetry-engineered multi-qubit dark state in waveguide quantum electrodynamics ( http://arxiv.org/abs/2106.05623v1 )

ライセンス: Link先を確認
Maximilian Zanner, Tuure Orell, Christian M. F. Schneider, Romain Albert, Stefan Oleschko, Mathieu L. Juan, Matti Silveri, Gerhard Kirchmair(参考訳) 量子情報は一般に、環境から切り離された量子ビットの状態に符号化される。 対照的に、導波管量子電磁力学はモード連続体に結合された量子ビットを研究し、それらを損失チャネルに露出し、コヒーレントな操作を行う前に量子情報が失われる。 ここでは4量子ビット間の対称性と相互作用を利用する暗黒状態を実現することでコヒーレンスを回復する。 ダークステートは導波路から切り離され、量子情報にとって貴重な資源であると同時に、導波路駆動によって制御できないという課題も伴う。 我々は、集合状態多様体の対称性特性を利用して、明るい状態と暗い状態の両方を選択的に駆動できるドライブを設計することで、この問題を克服する。 暗黒状態の崩壊時間は、導波路に制限された単一量子ビットの2桁を超える。 第2励起多様体上の分光は、ハイブリダイドシステムのレベル構造に関するさらなる洞察を与える。 我々の実験は、導波路における量子多体物理学の実装とデコヒーレンスフリー部分空間を用いた量子情報プロトコルの実現の道を開いた。

Quantum information is typically encoded in the state of a qubit that is decoupled from the environment. In contrast, waveguide quantum electrodynamics studies qubits coupled to a mode continuum, exposing them to a loss channel and causing quantum information to be lost before coherent operations can be performed. Here we restore coherence by realizing a dark state that exploits symmetry properties and interactions between four qubits. Dark states decouple from the waveguide and are thus a valuable resource for quantum information but also come with a challenge: they cannot be controlled by the waveguide drive. We overcome this problem by designing a drive that utilizes the symmetry properties of the collective state manifold allowing us to selectively drive both bright and dark states. The decay time of the dark state exceeds that of the waveguide-limited single qubit by more than two orders of magnitude. Spectroscopy on the second excitation manifold provides further insight into the level structure of the hybridized system. Our experiment paves the way for implementations of quantum many-body physics in waveguides and the realization of quantum information protocols using decoherence-free subspaces.
翻訳日:2023-03-27 02:09:55 公開日:2021-06-10
# 電圧制御接合におけるフォノン効果の存在下での量子ドット分子間の絡み合いの発生

Generation of entanglement between quantum dot molecule with the presence of phonon effects in a voltage-controlled junction ( http://arxiv.org/abs/2106.05614v1 )

ライセンス: Link先を確認
Elaheh Afsaneh and Malek Bagheri Harouni(参考訳) バイアス電圧接合における振動フォノンモードの影響を受け, 量子ドット分子による絡み合いの発生について検討した。 分子量子ドットシステムは、懸濁カーボンナノチューブ内の結合量子ドットによって実現される。 我々は,電子-フォノン相互作用を考慮したバイアス電圧と温度の関数として動的絡み合いを考える。 量子ドット間のロバストな絡み合いを発生させ,最大到達量に着実に到達するために,非対称結合プロトコルを導入し,可変バイアス電圧駆動場を適用した。 発振バイアス電圧では、時間変化の絡み合いが周期的に最大復活に達する。 熱エンタングルメント力学では, 熱エンタングルメント劣化現象と熱エンタングルメント回復現象が観測され, フォノンデコヒーレンスの強度に強く影響されている。 絡み合いの回復は、より高いフォノンカップリングに対してより大きな値を示す。

We investigate the generation of entanglement through a quantum dot molecule under the influence of vibrational phonon modes in a bias voltage junction. The molecular quantum dot system is realized by coupled quantum dots inside a suspended carbon nanotube. We consider the dynamical entanglement as a function of bias voltage and temperature by taking into account the electron-phonon interaction. In order to generate the robust entanglement between quantum dots and preserve it to reach the maximal achievable amount steadily, we introduce an asymmetric coupling protocol and apply the easy tunable bias voltage-driven field. For an oscillating bias voltage, the time-varying entanglement can periodically reach the maximum revival. In thermal entanglement dynamics, the phenomena of thermal entanglement degradation and thermal entanglement revival are observed which are intensively affected by the strength of phonon decoherence. The revival of entanglement shows a larger value for a higher phonon coupling.
翻訳日:2023-03-27 02:09:36 公開日:2021-06-10
# 個人レベルの書誌分析を用いた科学コミュニティの特徴の研究--ビッグデータ研究を事例として

Studying the characteristics of scientific communities using individual-level bibliometrics: the case of Big Data research ( http://arxiv.org/abs/2106.05581v1 )

ライセンス: Link先を確認
Xiaozan Lyu and Rodrigo Costas(参考訳) 出版物に焦点をあてたほとんどの書誌学研究と異なり,ビッグデータ研究を事例研究として,個々の視点から科学コミュニティの状況を明らかにするための新しい書誌学アプローチを提案する。 本研究では,ビッグデータ研究に携わる著者コミュニティの学年,生産,研究の焦点について検討する。 人工知能(AI)は、比較目的の基準領域として選択される。 結果から,「ビッグデータ」の学術領域は,作家のコミュニティが拡大する中で,特に毎年新たな著者の関心が高まりつつあることが示唆された。 AIと比較すると、ビッグデータは長い学術的年齢の著者を引き付け、コミュニティに入る前に出版経験を蓄積したと見なすことができる。 両方のコミュニティの研究者の間で生産性が著しく低下しているにもかかわらず、ビッグデータの著者はAIよりも研究の焦点と生産の両方の価値が高い。 本研究の成果は,コミュニティのサイズ,学術的年代,出版の持続性を考えると,研究者にとって魅力的な研究トピックとしてのビッグデータの考え方を支持するものである。 本研究で提案するコミュニティ指向の指標は,他の研究分野やトピックの発展とダイナミクスを研究するために一般化することができる。

Unlike most bibliometric studies focusing on publications, taking Big Data research as a case study, we introduce a novel bibliometric approach to unfold the status of a given scientific community from an individual level perspective. We study the academic age, production, and research focus of the community of authors active in Big Data research. Artificial Intelligence (AI) is selected as a reference area for comparative purposes. Results show that the academic realm of "Big Data" is a growing topic with an expanding community of authors, particularly of new authors every year. Compared to AI, Big Data attracts authors with a longer academic age, who can be regarded to have accumulated some publishing experience before entering the community. Despite the highly skewed distribution of productivity amongst researchers in both communities, Big Data authors have higher values of both research focus and production than those of AI. Considering the community size, overall academic age, and persistence of publishing on the topic, our results support the idea of Big Data as a research topic with attractiveness for researchers. We argue that the community-focused indicators proposed in this study could be generalized to investigate the development and dynamics of other research fields and topics.
翻訳日:2023-03-27 02:09:09 公開日:2021-06-10
# 学術的評価の学問--オープンな引用の上にレビュープロセスを伝える方法論

Academics evaluating academics: a methodology to inform the review process on top of open citations ( http://arxiv.org/abs/2106.05725v1 )

ライセンス: Link先を確認
Federica Bologna, Angelo Di Iorio, Silvio Peroni, Francesco Poggi(参考訳) これまで,研究評価演習における量的・質的手法の組み合わせについて研究してきた。 本研究では,オープンな書誌データと引用データのみを考慮して計算された引用基準が,人間による研究評価演習のピアレビューの実施方法に関する洞察を与えることができるかを検討することを目的とした。 関連する情報を提供する指標が何かを理解するために,研究評価演習委員会の決定を再現するために,一連の機械学習モデルを使用することを提案する。

In the past, several works have investigated ways for combining quantitative and qualitative methods in research assessment exercises. In this work, we aim at introducing a methodology to explore whether citation-based metrics, calculated only considering open bibliographic and citation data, can yield insights on how human peer-review of research assessment exercises is conducted. To understand if and what metrics provide relevant information, we propose to use a series of machine learning models to replicate the decisions of the committees of the research assessment exercises.
翻訳日:2023-03-27 02:00:09 公開日:2021-06-10
# 高次グラフ上の最大カットに対する古典的アルゴリズムと量子制限

Classical algorithms and quantum limitations for maximum cut on high-girth graphs ( http://arxiv.org/abs/2106.05900v1 )

ライセンス: Link先を確認
Boaz Barak and Kunal Marwaha(参考訳) 本研究では,最大カット問題に対する量子近似最適化アルゴリズム (qaoa) などの局所量子アルゴリズムの性能と,それらの古典的アルゴリズムとの関係について検討する。 1)すべての(量子的あるいは古典的)一局所アルゴリズムが、最大カットが最大1/2 + c/\sqrt{d}$ for $c=1/\sqrt{2} \approx 0.7071$のd$-レギュラーグラフで達成できることを証明する。 これは、一局所アルゴリズムが乱グラフの真の最適値から有界な値を得る最初の結果であり、これは1/2 + P_*/\sqrt{D} + o(1/\sqrt{D})$ for $P_* \approx 0.7632$である。 2) 1/2 + c/\sqrt{d} - o(1/\sqrt{k})$ for $d$-regular graphs of girth $> 2k+1$, ここで$c = 2/\pi \approx 0.6366$である。 これはリヨンの存在境界のアルゴリズム版であり、シェリントン・カークパトリックモデルに対するアゼンマン、レボリッツ、ルエル(英語版)(ALR)のアルゴリズムと関連している。 この境界は、高次グラフ上のQAOAの一局所版と二局所版によって達成されるものよりも優れている。 3)計算実験により,alrアルゴリズムがランダムな$d$正規グラフに対する定局所性qaoaや,短いサイクルを持つグラフを含む他の自然な例よりも優れた性能が得られることを示す。 我々の実験的研究は、理論上の制約を超えて拡張できることを示唆している。 これは、o(1)$-local quantum maximum-cutアルゴリズムが多項式時間古典的アルゴリズムによって*点的に支配される可能性を示すものであり、すべてのインスタンス*に等質または良質のカットを出力する古典的アルゴリズムが存在するという意味である。 これは多項式時間アルゴリズムが局所量子アルゴリズムによって誘導される確率分布をシミュレートできないという証拠とは対照的である。

We study the performance of local quantum algorithms such as the Quantum Approximate Optimization Algorithm (QAOA) for the maximum cut problem, and their relationship to that of classical algorithms. (1) We prove that every (quantum or classical) one-local algorithm achieves on $D$-regular graphs of girth $> 5$ a maximum cut of at most $1/2 + C/\sqrt{D}$ for $C=1/\sqrt{2} \approx 0.7071$. This is the first such result showing that one-local algorithms achieve a value bounded away from the true optimum for random graphs, which is $1/2 + P_*/\sqrt{D} + o(1/\sqrt{D})$ for $P_* \approx 0.7632$. (2) We show that there is a classical $k$-local algorithm that achieves a value of $1/2 + C/\sqrt{D} - O(1/\sqrt{k})$ for $D$-regular graphs of girth $> 2k+1$, where $C = 2/\pi \approx 0.6366$. This is an algorithmic version of the existential bound of Lyons and is related to the algorithm of Aizenman, Lebowitz, and Ruelle (ALR) for the Sherrington-Kirkpatrick model. This bound is better than that achieved by the one-local and two-local versions of QAOA on high-girth graphs. (3) Through computational experiments, we give evidence that the ALR algorithm achieves better performance than constant-locality QAOA for random $D$-regular graphs, as well as other natural instances, including graphs that do have short cycles. Our experimental work suggests that it could be possible to extend beyond our theoretical constraints. This points at the tantalizing possibility that $O(1)$-local quantum maximum-cut algorithms might be *pointwise dominated* by polynomial-time classical algorithms, in the sense that there is a classical algorithm outputting cuts of equal or better quality *on every possible instance*. This is in contrast to the evidence that polynomial-time algorithms cannot simulate the probability distributions induced by local quantum algorithms.
翻訳日:2023-03-27 01:51:57 公開日:2021-06-10
# 幾何超インダクタンス量子ビット:単一のジョセフソン接合における位相非局在化の制御

Geometric superinductance qubits: Controlling phase delocalization across a single Josephson junction ( http://arxiv.org/abs/2106.05882v1 )

ライセンス: Link先を確認
Matilda Peruzzo, Farid Hassani, Gregory Szep, Andrea Trioni, Elena Redchenko, Martin \v{Z}emli\v{c}ka, Johannes Fink(参考訳) 量子調和振動子から直接導かれる2つの基本超伝導量子ビットタイプがある。 1つは、インダクタを非線形ジョセフソン接合に置き換え、コンパクトな位相変数と離散電荷波動関数を持つ広く使用される電荷量子ビットを実現する。 一方、接合は平行に付加され、ループトポロジーによる拡張位相変数、連続波動関数、豊富なエネルギー準位構造が生じる。 対応するrf-squidハミルトニアンは、長いジョセフソン接合アレイで実装されたフラックスニウム量子ビットを記述するために、二次的で準1次元のポテンシャル近似として導入されたが、本研究では、1本の非干渉アルミニウム線で形成された線形超インダクタを用いて直接実装する。 我々は、同じ回路から発せられる様々な量子ビットを、非常に異なる特性エネルギースケールで提示する。 これにはフラックスとフラクソニウムの量子ビットが含まれるが、最近導入された準電荷の量子ビットには強いゼロ点位相のゆらぎと強い抑制されたフラックス分散がある。 幾何学的インダクタの使用は、トポダウンリソグラフィーによって保証されているように、誘導エネルギーと容量エネルギーの高精度化をもたらす。 幾何学的フラックスニウムは大きな磁気双極子も示しており、量子センシング応用の興味深い新しい候補となっている。

There are two elementary superconducting qubit types that derive directly from the quantum harmonic oscillator. In one the inductor is replaced by a nonlinear Josephson junction to realize the widely used charge qubits with a compact phase variable and a discrete charge wavefunction. In the other the junction is added in parallel, which gives rise to an extended phase variable, continuous wavefunctions and a rich energy level structure due to the loop topology. While the corresponding rf-SQUID Hamiltonian was introduced as a quadratic, quasi-1D potential approximation to describe the fluxonium qubit implemented with long Josephson junction arrays, in this work we implement it directly using a linear superinductor formed by a single uninterrupted aluminum wire. We present a large variety of qubits all stemming from the same circuit but with drastically different characteristic energy scales. This includes flux and fluxonium qubits but also the recently introduced quasi-charge qubit with strongly enhanced zero point phase fluctuations and a heavily suppressed flux dispersion. The use of a geometric inductor results in high precision of the inductive and capacitive energy as guaranteed by top-down lithography - a key ingredient for intrinsically protected superconducting qubits. The geometric fluxonium also exhibits a large magnetic dipole, which renders it an interesting new candidate for quantum sensing applications.
翻訳日:2023-03-27 01:50:55 公開日:2021-06-10
# 光トラップのramseyイメージング

Ramsey imaging of optical traps ( http://arxiv.org/abs/2106.05871v1 )

ライセンス: Link先を確認
Gautam Ramola, Richard Winkelmann, Karthik Chandrashekara, Wolfgang Alt, Xu Peng, Dieter Meschede, Andrea Alberti(参考訳) 空間分解能の高いポテンシャルランドスケープをマッピングすることは、超低温原子に基づく量子技術にとって不可欠である。 しかし、自由空間でレーザービームをプロファイリングするのに使用される純粋な光学的手法は真空では適用できないため、光学双極子トラップの撮像は困難である。 本研究では,ラムゼイ干渉計を用いて超微細な遷移を求めることにより,光双極子トラップのその場撮影を行う。 これにより、マイクロメータ分解能とショットノイズ制限スペクトル精度を備えたポテンシャル景観の絶対マップを得る。 この技術の目的は、トラップレーザービームの偏光楕円性を制御し、トラップ電位に比例した差光シフトを誘導することである。 偏光楕円性に対する応答を研究することで、原子アンサンブルの幾何学的分布によって説明される支配的な線形挙動に加えて、小さなが重要な非線形性を明らかにする。 光トラップのイメージング技術は、複数の原子種に適用され、特定の波長やトラップ形状に限定されないため、超低温原子に基づく量子技術において広く応用することができる。

Mapping the potential landscape with high spatial resolution is crucial for quantum technologies based on ultracold atoms. Yet, imaging optical dipole traps is challenging because purely optical methods, commonly used to profile laser beams in free space, are not applicable in vacuum. In this work, we demonstrate precise in-situ imaging of optical dipole traps by probing a hyperfine transition with Ramsey interferometry. Thereby, we obtain an absolute map of the potential landscape with micrometer resolution and shot-noise-limited spectral precision. The idea of the technique is to control the polarization ellipticity of the trap laser beam to induce a differential light shift proportional to the trap potential. By studying the response to polarization ellipticity, we uncover a small but significant nonlinearity in addition to a dominant linear behavior, which is explained by the geometric distribution of the atomic ensemble. Our technique for imaging of optical traps can find wide application in quantum technologies based on ultracold atoms, as it applies to multiple atomic species and is not limited to a particular wavelength or trap geometry.
翻訳日:2023-03-27 01:50:15 公開日:2021-06-10
# 連邦刑事裁判所でIEEEソフトウェア標準を守る

Defending IEEE Software Standards in Federal Criminal Court ( http://arxiv.org/abs/2106.11021v1 )

ライセンス: Link先を確認
Marc Canellas(参考訳) IEEEの独立ソフトウェアおよびハードウェア検証および検証のための1012標準(IV&V)は、アメリカ合衆国連邦刑事裁判所で攻撃を受けている。 ソフトウェアが刑事法体系に広がるにつれ、科学者、技術者、IEEEは、裁判所がIEEE 1012とIV&Vを理解し、尊重する上で重要な役割を担っている。 科学者、技術者、ieeeが関与しない場合、裁判所は信頼できない科学的証拠が人々の生命と自由を奪うことを引き続き許可する。

IEEE's 1012 Standard for independent software and hardware verification and validation (IV&V) is under attack in U.S. federal criminal court. As software spreads through the criminal legal system, scientists, engineers, and IEEE have an essential role in ensuring courts understand and respect IEEE 1012 and IV&V. If scientists, engineers, and IEEE do not engage, courts will continue to allow unreliable scientific evidence to deprive people of their life and liberty.
翻訳日:2023-03-27 01:43:06 公開日:2021-06-10
# 負質量の可能性についての一考察

A look into the possibility of negative mass ( http://arxiv.org/abs/2106.06464v1 )

ライセンス: Link先を確認
Faical Barzi(参考訳) 我々は、負の質量粒子の可能性と、今日の物理学がそれらの存在を許すかどうか、そしてこれらの法則にどのような性質があるかを調べる。 反対に、より対称な世界において、それらの存在は不可欠であることを示す。 相対論的量子力学では、残りのフレームの負の質量二スピノルは正の質量二スピノルとは異なる形を取る。

We investigate the possibility of negative mass particles and whether physics as we know it today allows or excludes their existence and what properties they might have in the light these laws. We show that nothing prohibit their existence, in the contrary, for a more symmetric world their existence is essential. In relativistic quantum mechanics, the negative mass bispinor in the rest frame takes a different form than the positive mass bispinor.
翻訳日:2023-03-27 01:42:57 公開日:2021-06-10
# 量子コンピュータ上のエネルギー誘導体を用いた量子化学計算

Quantum Chemistry Calculations using Energy Derivatives on Quantum Computers ( http://arxiv.org/abs/2106.06463v1 )

ライセンス: Link先を確認
Utkarsh Azad and Harjinder Singh(参考訳) 分子特性の予測や化学反応のモデリングのような量子化学計算は、短期量子コンピュータが量子優位性を示す重要な領域の1つである。 本稿では,変分量子固有解法(VQE)の枠組みに基づく化学系のパラメータに関して,基底状態と励起状態の両方のエネルギー微分を計算する手法を提案する。 ハイブリッド変分パラダイムにおける量子回路の詳細な実装を設計し,その計算コストを分析した。 H$_2$分子の最小エネルギー構成と分子応答特性の推定を行い、H$_2$ + H$\leftrightarrow$ H + H$_2$反応の遷移状態を求めるなど、エネルギー誘導体のいくつかの重要な量子化学応用に組み込むことにより、本手法の有効性を示す。 得られた結果は、それぞれのフル構成相互作用(FCI)値と完全に一致していることが示される。

Quantum chemistry calculations such as the prediction of molecular properties and modeling of chemical reactions are a few of the critical areas where near-term quantum computers can showcase quantum advantage. We present a method to calculate energy derivatives for both ground state and excited state energies with respect to the parameters of a chemical system based on the framework of the variational quantum eigensolver (VQE). A low-depth implementation of quantum circuits within the hybrid variational paradigm is designed, and their computational costs are analyzed. We showcase the effectiveness of our method by incorporating it in some key quantum chemistry applications of energy derivatives, such as to perform minimum energy configuration search and estimate molecular response properties estimation of H$_2$ molecule, and also to find the transition state of H$_2$ + H $\leftrightarrow$ H + H$_2$ reaction. The obtained results are shown to be in complete agreement with their respective full configuration interaction (FCI) values.
翻訳日:2023-03-27 01:42:50 公開日:2021-06-10
# psb2:第2のプログラム合成ベンチマークスイート

PSB2: The Second Program Synthesis Benchmark Suite ( http://arxiv.org/abs/2106.06086v1 )

ライセンス: Link先を確認
Thomas Helmuth and Peter Kelly(参考訳) 過去6年間、遺伝的プログラミングやその他のプログラム合成分野の研究者は、general program synthesis benchmark suiteを使用して、自動プログラム合成システムの多くの側面をベンチマークしてきた。 これらの問題は、人間のプログラマがコーディングするソフトウェアのタイプを自動的に作成するという、一般的なプログラム合成の目標に向けて顕著な進歩をもたらすために使われてきた。 オリジナルのベンチマークスイートで問題を試みたシステムの多くは、新しいテクニックによって与えられたパフォーマンス改善を示すためにそれを使用している。 時間が経つにつれて、スイートは時代遅れになり、さらなる改善の正確な測定を妨げている。 この分野では、以前可能だったものを超えるために、より難しいベンチマークの新たなセットが必要です。 本稿では,新しいベンチマークスイートPSB2を構成する25の新しい汎用プログラム合成ベンチマーク問題について述べる。 これらの問題は、プログラミングの型や大学のコースなど、さまざまなソースから学べる。 我々はこれらの問題を元のスイートよりも難易度の高いものを選び、PushGPを用いた結果からこの難易度の増加を示した。 これらの新しい問題は、今後6年以上にわたる一般的なプログラム合成研究の道を示す多くの改善の余地を与えている。

For the past six years, researchers in genetic programming and other program synthesis disciplines have used the General Program Synthesis Benchmark Suite to benchmark many aspects of automatic program synthesis systems. These problems have been used to make notable progress toward the goal of general program synthesis: automatically creating the types of software that human programmers code. Many of the systems that have attempted the problems in the original benchmark suite have used it to demonstrate performance improvements granted through new techniques. Over time, the suite has gradually become outdated, hindering the accurate measurement of further improvements. The field needs a new set of more difficult benchmark problems to move beyond what was previously possible. In this paper, we describe the 25 new general program synthesis benchmark problems that make up PSB2, a new benchmark suite. These problems are curated from a variety of sources, including programming katas and college courses. We selected these problems to be more difficult than those in the original suite, and give results using PushGP showing this increase in difficulty. These new problems give plenty of room for improvement, pointing the way for the next six or more years of general program synthesis research.
翻訳日:2023-03-27 01:42:34 公開日:2021-06-10
# 量子コンピューティングのセキュリティとレジリエンスに関する調査とチュートリアル

A Survey and Tutorial on Security and Resilience of Quantum Computing ( http://arxiv.org/abs/2106.06081v1 )

ライセンス: Link先を確認
Abdullah Ash Saki, Mahabubul Alam, Koustubh Phalak, Aakarshitha Suresh, Rasit Onur Topaloglu, Swaroop Ghosh(参考訳) 現在の量子コンピュータは、ゲートエラー、緩和、強調、読み出しエラー、クロストークなどの様々なノイズやエラーに悩まされている。 さらに、限られた数のキュービットと制限付き接続を提供する。 したがって、これらのコンピュータを実行する量子プログラムは、レジリエンスの問題と低い出力能力に直面している。 クラウドベースの量子コンピュータアクセスにおけるノイズは、セキュリティとプライバシの新たなモードも導入する。 さらに量子コンピュータは、入力改ざん、プログラムの誤配置、フォールトインジェクション、リバースエンジニアリング(re)、クローンなど、インサイダーや外部の敵からの脅威モデルにも直面している。 本稿では,量子コンピュータやプログラムに埋め込まれたさまざまな資産,脆弱性と攻撃モデル,レジリエンスとセキュリティの関係について概説する。 また、信頼性とセキュリティ問題に対する対策についても取り上げ、量子コンピューティングのセキュリティに対する今後の展望を示す。

Present-day quantum computers suffer from various noises or errors such as gate error, relaxation, dephasing, readout error, and crosstalk. Besides, they offer a limited number of qubits with restrictive connectivity. Therefore, quantum programs running these computers face resilience issues and low output fidelities. The noise in the cloud-based access of quantum computers also introduces new modes of security and privacy issues. Furthermore, quantum computers face several threat models from insider and outsider adversaries including input tampering, program misallocation, fault injection, Reverse Engineering (RE), and Cloning. This paper provides an overview of various assets embedded in quantum computers and programs, vulnerabilities and attack models, and the relation between resilience and security. We also cover countermeasures against the reliability and security issues and present a future outlook for the security of quantum computing.
翻訳日:2023-03-27 01:42:18 公開日:2021-06-10
# 財務的に脆弱な消費者をプライバシー保護方法で特定・支援する:分散識別子と検証可能な資格情報を用いたユースケース

Identifying and Supporting Financially Vulnerable Consumers in a Privacy-Preserving Manner: A Use Case Using Decentralised Identifiers and Verifiable Credentials ( http://arxiv.org/abs/2106.06053v1 )

ライセンス: Link先を確認
Tasos Spiliotopoulos, Dave Horsfall, Magdalene Ng, Kovila Coopamootoo, Aad van Moorsel, Karen Elliott(参考訳) 脆弱性のある個人は、合理的な金融決定と選択を行う能力に制限があるため、金融機関が提供すべきケアのレベルは他の消費者が必要とするものとは異なる可能性がある。 したがって、金融サービスや製品の設計と効果的な提供において、脆弱性の特定が重要となる。 しかし、顧客がプライバシを共有し、尊重する情報を検証することは、金融において特に重要である。 本稿では、分散ID(Decentralized Identifiers)とVC(Verifiable Credentials)の2つの新興技術の組み合わせが、金融の脆弱な消費者を効率的かつプライバシー保護的に識別する可能性について検討する。

Vulnerable individuals have a limited ability to make reasonable financial decisions and choices and, thus, the level of care that is appropriate to be provided to them by financial institutions may be different from that required for other consumers. Therefore, identifying vulnerability is of central importance for the design and effective provision of financial services and products. However, validating the information that customers share and respecting their privacy are both particularly important in finance and this poses a challenge for identifying and caring for vulnerable populations. This position paper examines the potential of the combination of two emerging technologies, Decentralized Identifiers (DIDs) and Verifiable Credentials (VCs), for the identification of vulnerable consumers in finance in an efficient and privacy-preserving manner.
翻訳日:2023-03-27 01:42:04 公開日:2021-06-10
# TIRA: RESTfulアーキテクチャにおけるGDPR透明性のためのOpenAPI拡張とツールボックス

TIRA: An OpenAPI Extension and Toolbox for GDPR Transparency in RESTful Architectures ( http://arxiv.org/abs/2106.06001v1 )

ライセンス: Link先を確認
Elias Gr\"unewald, Paul Wille, Frank Pallas, Maria C. Borges, Max-R. Ulbricht(参考訳) 透明性(transparency) - 個人データがどの目的のために収集されたか、どの目的で保存されたか、どの当事者に転送されたか、といった情報の提供は、gdprのような基本となるプライバシー原則の1つです。 しかし、実際に透明性を実装するための技術的なアプローチは、ほとんど考慮されない。 本稿では、現在のRESTfulなアプリケーションアーキテクチャと、一般的なアジャイルおよびDevOps駆動のプラクティスに対応する新しいアプローチを提案する。 この目的のために紹介する 1) 透明性を重視したOpenAPI仕様の拡張で、ボトムアップ方式で、個々のサービス記述を透明性関連のアノテーションで豊かにすることができる。 2) 複数の相互依存サービスにまたがって各情報を集約し、当社のアプローチを自動CI/CDパイプラインに統合するための高次のツールセット。 これらのビルディングブロックは、より具体的で同時に、現在の非常に広いプライバシーステートメントよりも、複雑なサービスアーキテクチャにおける実際の実装成果を反映した透明性情報を提供する方法を舗装しています。

Transparency - the provision of information about what personal data is collected for which purposes, how long it is stored, or to which parties it is transferred - is one of the core privacy principles underlying regulations such as the GDPR. Technical approaches for implementing transparency in practice are, however, only rarely considered. In this paper, we present a novel approach for doing so in current, RESTful application architectures and in line with prevailing agile and DevOps-driven practices. For this purpose, we introduce 1) a transparency-focused extension of OpenAPI specifications that allows individual service descriptions to be enriched with transparency-related annotations in a bottom-up fashion and 2) a set of higher-order tools for aggregating respective information across multiple, interdependent services and for coherently integrating our approach into automated CI/CD-pipelines. Together, these building blocks pave the way for providing transparency information that is more specific and at the same time better reflects the actual implementation givens within complex service architectures than current, overly broad privacy statements.
翻訳日:2023-03-27 01:41:27 公開日:2021-06-10
# 既設データから平均境界を持つ帯域の地下探査について

On Under-exploration in Bandits with Mean Bounds from Confounded Data ( http://arxiv.org/abs/2002.08405v4 )

ライセンス: Link先を確認
Nihal Sharma, Soumya Basu, Karthikeyan Shanmugam and Sanjay Shakkottai(参考訳) 本研究では,各アームの平均値のバウンド形式でのサイド情報を提供するマルチアームバンディット問題の変種について検討する。 我々は,与えられた平均境界(すべてのアームを横切る)を用いて各アームの擬似分散を推定し,アームの探索率を決定する,新しい非最適化グローバルアンダーエクスプローラー(glue)アルゴリズムを開発した。 我々は,GLUEの後悔を解析し,通常の UCB アルゴリズムよりも悪くないような,後悔すべき上限を証明した。 さらに,構造的バンディット問題(理論上,経験上)に対する文献上に存在する後悔の保証によりグルーが改善することを示す。 最後に,報奨に影響を及ぼす未記録変数が組み合わさった事前データを用いて,適応的介入の学習の実践的設定について検討する。 このようなログから平均境界を自然に推測し,学習プロセスを改善するために使用できることを示す。 本研究は,実データから得られたデータに対する半合成実験により検証した。

We study a variant of the multi-armed bandit problem where side information in the form of bounds on the mean of each arm is provided. We develop the novel non-optimistic Global Under-Explore (GLUE) algorithm which uses the provided mean bounds (across all the arms) to infer pseudo-variances for each arm, which in turn decide the rate of exploration for the arms. We analyze the regret of GLUE and prove regret upper bounds that are never worse than that of the standard UCB algorithm. Furthermore, we show that GLUE improves upon regret guarantees that exists in literature for structured bandit problems (both theoretically and empirically). Finally, we study the practical setting of learning adaptive interventions using prior data that has been confounded by unrecorded variables that affect rewards. We show that mean bounds can be inferred naturally from such logs and can thus be used to improve the learning process. We validate our findings through semi-synthetic experiments on data derived from real data sets.
翻訳日:2022-12-30 13:17:09 公開日:2021-06-10
# ニューラルネットワーク分類器の情報平面解析について -- 概観

On Information Plane Analyses of Neural Network Classifiers -- A Review ( http://arxiv.org/abs/2003.09671v3 )

ライセンス: Link先を確認
Bernhard C. Geiger(参考訳) 本稿では,ニューラルネットワーク分類器の情報平面解析に関する文献を概説する。 情報ボトルネック理論と情報理論的圧縮が一般化と因果関係にあるという主張は実証可能であるが、実証的な証拠は支持と矛盾の両方であることがわかった。 我々は,これらの証拠を,各情報量の推定方法に関する詳細な分析とともに検討する。 情報平面で可視化された圧縮は必ずしも情報理論的なものではなく、むしろ潜在表現の幾何学的圧縮と相性が強い。 この洞察は情報プレーンに新たな正当化を与える。 これとは別に,決定論的ニューラルネットワークにおける相互情報推定の問題とその影響について考察した。 具体的には、フィードフォワードニューラルネットワークにおいても、データ処理の不平等は相互情報の推定に留まらない、と主張する。 同様に、潜在表現と目標との相互情報を増加させる嵌合フェーズは、情報平面において、当該嵌合フェーズが可視される必要のない相互情報推定の仕様に応じて、良好な分類性能のために必要(ただし不十分)である。

We review the current literature concerned with information plane analyses of neural network classifiers. While the underlying information bottleneck theory and the claim that information-theoretic compression is causally linked to generalization are plausible, empirical evidence was found to be both supporting and conflicting. We review this evidence together with a detailed analysis of how the respective information quantities were estimated. Our survey suggests that compression visualized in information planes is not necessarily information-theoretic, but is rather often compatible with geometric compression of the latent representations. This insight gives the information plane a renewed justification. Aside from this, we shed light on the problem of estimating mutual information in deterministic neural networks and its consequences. Specifically, we argue that even in feed-forward neural networks the data processing inequality need not hold for estimates of mutual information. Similarly, while a fitting phase, in which the mutual information between the latent representation and the target increases, is necessary (but not sufficient) for good classification performance, depending on the specifics of mutual information estimation such a fitting phase need not be visible in the information plane.
翻訳日:2022-12-21 10:15:10 公開日:2021-06-10
# 画像検索のための深部畳み込み特徴の共起

Co-occurrence of deep convolutional features for image search ( http://arxiv.org/abs/2003.13827v2 )

ライセンス: Link先を確認
J.I.Forcen, Miguel Pagola, Edurne Barrenechea and Humberto Bustince(参考訳) 画像検索は、事前訓練された畳み込みニューラルネットワーク(CNN)の深い特徴を使って取り組むことができる。 CNNの最後の畳み込み層からの特徴マップは、識別可能なグローバル記述子を得ることができる記述情報を符号化する。 本稿では,この畳み込み層から追加の関連情報を抽出するために,深層畳み込み特徴からの共起の新たな表現を提案する。 この共起マップと特徴マップを組み合わせることで,画像表現の改善を実現する。 学習可能な共起表現に基づいて,アクティベーションの直接アグリゲーションに基づく第1と第2の2つの共起表現を得るための2つの異なる方法を提案する。 本手法から派生した画像記述子は,実験で証明したように,非常によく知られた画像検索データセットの性能を向上させる。

Image search can be tackled using deep features from pre-trained Convolutional Neural Networks (CNN). The feature map from the last convolutional layer of a CNN encodes descriptive information from which a discriminative global descriptor can be obtained. We propose a new representation of co-occurrences from deep convolutional features to extract additional relevant information from this last convolutional layer. Combining this co-occurrence map with the feature map, we achieve an improved image representation. We present two different methods to get the co-occurrence representation, the first one based on direct aggregation of activations, and the second one, based on a trainable co-occurrence representation. The image descriptors derived from our methodology improve the performance in very well-known image retrieval datasets as we prove in the experiments.
翻訳日:2022-12-18 07:27:15 公開日:2021-06-10
# 濃度ペナルティをもつ疎回帰問題のクラスに対する投影ニューラルネットワーク

Projection Neural Network for a Class of Sparse Regression Problems with Cardinality Penalty ( http://arxiv.org/abs/2004.00858v4 )

ライセンス: Link先を確認
Wenjing Li and Wei Bian(参考訳) 本稿では,凸損失関数と濃度ペナルティの和を目的関数とするスパース回帰問題のクラスについて考察する。 本研究では,濃度関数の平滑化関数を構築することにより,投影型ニューラルネットワークを提案し,この問題に対する修正法を設計する。 提案したニューラルネットワークの解は、ユニークな、グローバルな存在、境界付き、グローバルなリプシッツ連続である。 さらに,提案するニューラルネットワークのすべての蓄積点が共通の支持集合を持ち,非零成分に対する一意な下界を持つことを証明した。 提案したニューラルネットワークと補正手法を組み合わせることで、任意の補正された累積点は、スパース回帰問題の局所最小化である。 さらに,検討したスパース回帰問題と他の回帰スパース問題との局所最小値の等価関係を解析した。 最後に、いくつかの数値実験を行い、実際にスパース回帰問題を解く際に提案したニューラルネットワークの効率性を示す。

In this paper, we consider a class of sparse regression problems, whose objective function is the summation of a convex loss function and a cardinality penalty. By constructing a smoothing function for the cardinality function, we propose a projected neural network and design a correction method for solving this problem. The solution of the proposed neural network is unique, global existent, bounded and globally Lipschitz continuous. Besides, we prove that all accumulation points of the proposed neural network have a common support set and a unified lower bound for the nonzero entries. Combining the proposed neural network with the correction method, any corrected accumulation point is a local minimizer of the considered sparse regression problem. Moreover, we analyze the equivalent relationship on the local minimizers between the considered sparse regression problem and another regression sparse problem. Finally, some numerical experiments are provided to show the efficiency of the proposed neural networks in solving some sparse regression problems in practice.
翻訳日:2022-12-17 12:38:47 公開日:2021-06-10
# リカレントニューラルネットワークのスケーラブル多面体検証

Scalable Polyhedral Verification of Recurrent Neural Networks ( http://arxiv.org/abs/2005.13300v3 )

ライセンス: Link先を確認
Wonryong Ryou, Jiayu Chen, Mislav Balunovic, Gagandeep Singh, Andrei Dan, Martin Vechev(参考訳) 再帰型ニューラルネットワークのためのスケーラブルで正確な検証器Proverを2つの新しいアイデアに基づいて提案する。 一 サンプリング、最適化及びフェルマーの定理を組み合わせることにより、非凸及び非線形リカレント更新関数に対する多面体抽象の集合を計算する方法 2) 各ニューロンに対する複数の抽象化を組み合わせた認証問題によって導かれる抽象化の勾配降下に基づくアルゴリズム。 本稿では,recurrent neural network(recurrent neural network)の非自明な利用事例である音声分類を証明した。 これを実現するために,非線形音声前処理パイプライン用の独自の抽象化も開発する。 評価の結果, コンピュータビジョン, 音声, モーションセンサデータ分類において, 先行作業の範囲を超えて, 難解な反復モデルの有効性を検証できた。

We present a scalable and precise verifier for recurrent neural networks, called Prover based on two novel ideas: (i) a method to compute a set of polyhedral abstractions for the non-convex and nonlinear recurrent update functions by combining sampling, optimization, and Fermat's theorem, and (ii) a gradient descent based algorithm for abstraction refinement guided by the certification problem that combines multiple abstractions for each neuron. Using Prover, we present the first study of certifying a non-trivial use case of recurrent neural networks, namely speech classification. To achieve this, we additionally develop custom abstractions for the non-linear speech preprocessing pipeline. Our evaluation shows that Prover successfully verifies several challenging recurrent models in computer vision, speech, and motion sensor data classification beyond the reach of prior work.
翻訳日:2022-11-28 08:40:38 公開日:2021-06-10
# リコメンダシステムのための探索・探索動機付き変分自動エンコーダ

Exploration-Exploitation Motivated Variational Auto-Encoder for Recommender Systems ( http://arxiv.org/abs/2006.03573v4 )

ライセンス: Link先を確認
Yizi Zhang, Meimei Liu(参考訳) 近年,新規かつ関連性の高い商品の発見を支援する企業のニーズが高まっているため,コラボレーティブフィルタリング技術によるレコメンデーションシステムの性能向上が急速に進んでいる。 しかし,既存文献の大部分は,ユーザの過去の嗜好から学んだユーザモデルにマッチするアイテムの提供に重点を置いている。 よいレコメンデーションモデルでは、楽しめるアイテムと試すのが新しいアイテムを推奨することが期待されます。 本稿では,xplovae(exploration-explorationmotival variational auto-encoder)を協調フィルタリングに適用する。 パーソナライズド・レコメンデーションを容易にするために,探索のためのユーザ-テーマ間インタラクションを観測する一階近接と,探索のための高階近接を含むユーザ固有のサブグラフを構築する。 階層的潜在空間モデルを用いて、各ユーザに対するパーソナライズされたアイテム埋め込みと、全ユーザサブグラフの人口分布を学習する。 最後に, 実世界の様々なデータセットに対する実験結果から, 提案モデルの有効性を明らかにした。

Recent years have witnessed rapid developments on collaborative filtering techniques for improving the performance of recommender systems due to the growing need of companies to help users discover new and relevant items. However, the majority of existing literature focuses on delivering items which match the user model learned from users' past preferences. A good recommendation model is expected to recommend items that are known to enjoy and items that are novel to try. In this work, we introduce an exploitation-exploration motivated variational auto-encoder (XploVAE) to collaborative filtering. To facilitate personalized recommendations, we construct user-specific subgraphs, which contain the first-order proximity capturing observed user-item interactions for exploitation and the high-order proximity for exploration. A hierarchical latent space model is utilized to learn the personalized item embedding for a given user, along with the population distribution of all user subgraphs. Finally, experimental results on various real-world datasets clearly demonstrate the effectiveness of our proposed model on leveraging the exploitation and exploration recommendation tasks.
翻訳日:2022-11-25 02:59:11 公開日:2021-06-10
# サリエンシマップによる物体検出器のブラックボックス記述

Black-box Explanation of Object Detectors via Saliency Maps ( http://arxiv.org/abs/2006.03204v2 )

ライセンス: Link先を確認
Vitali Petsiuk and Rajiv Jain and Varun Manjunatha and Vlad I. Morariu and Ashutosh Mehra and Vicente Ordonez and Kate Saenko(参考訳) 対象検出器の予測のための視覚的説明を生成するD-RISEを提案する。 対象検出の局所化と分類の両方を考慮した類似度指標を用いることで,予測に最も影響を及ぼす画像領域を示すサリエンシーマップを作成することができる。 D-RISEは、オブジェクト検出器の入力と出力へのアクセスのみを必要とするため、ソフトウェアテストの意味では「ブラックボックス」と見なすことができる。 勾配に基づく手法と比較して、D-RISEはテスト対象の特定の種類の検出器よりも一般的で非依存であり、モデルの内部動作に関する知識は必要ない。 本稿では, YOLOv3などの1段検出器やFaster-RCNNのような2段検出器など, 異なる対象検出器に容易にD-RISEを適用可能であることを示す。 本稿では,生成した視覚的説明の詳細な分析を行い,対象検出器が学習したコンテキストと潜在的なバイアスについて述べる。

We propose D-RISE, a method for generating visual explanations for the predictions of object detectors. Utilizing the proposed similarity metric that accounts for both localization and categorization aspects of object detection allows our method to produce saliency maps that show image areas that most affect the prediction. D-RISE can be considered "black-box" in the software testing sense, as it only needs access to the inputs and outputs of an object detector. Compared to gradient-based methods, D-RISE is more general and agnostic to the particular type of object detector being tested, and does not need knowledge of the inner workings of the model. We show that D-RISE can be easily applied to different object detectors including one-stage detectors such as YOLOv3 and two-stage detectors such as Faster-RCNN. We present a detailed analysis of the generated visual explanations to highlight the utilization of context and possible biases learned by object detectors.
翻訳日:2022-11-25 02:32:30 公開日:2021-06-10
# 逐次および並列ニューラルアーキテクチャ探索のための最適トランスポートカーネル

Optimal Transport Kernels for Sequential and Parallel Neural Architecture Search ( http://arxiv.org/abs/2006.07593v3 )

ライセンス: Link先を確認
Vu Nguyen and Tam Le and Makoto Yamada and Michael A Osborne(参考訳) neural architecture search (nas) はディープニューラルネットワークの設計を自動化する。 複雑で連続的でないアーキテクチャを探索する主な課題の1つは、従来のユークリッド計量が捉えられないネットワークの類似性を比較することである。 最適輸送(OT)は、ネットワークを他のネットワークに転送する際の最小コストを考慮することで、そのような複雑な構造に対して弾力性を持つ。 しかし、OTは一般に負の定性ではないため、多くのカーネル依存フレームワークで必要とされる正の定性カーネルを構築する能力を制限する可能性がある。 OTの負の定値変種であるtree-Wasserstein (TW) をベースとして,ニューラルアーキテクチャの新たな相違を開発し,逐次NAS設定のためのガウス過程サロゲートモデルでそれを実証する。 さらに,GP後部における高品質なk-決定点プロセスを用いて並列NASを導出し,個別の候補集合から多種多様かつ高性能なアーキテクチャを選択する。 経験的に、twベースのアプローチがシーケンシャルなnasと並列なnasの両方で、他のベースラインよりも優れています。

Neural architecture search (NAS) automates the design of deep neural networks. One of the main challenges in searching complex and non-continuous architectures is to compare the similarity of networks that the conventional Euclidean metric may fail to capture. Optimal transport (OT) is resilient to such complex structure by considering the minimal cost for transporting a network into another. However, the OT is generally not negative definite which may limit its ability to build the positive-definite kernels required in many kernel-dependent frameworks. Building upon tree-Wasserstein (TW), which is a negative definite variant of OT, we develop a novel discrepancy for neural architectures, and demonstrate it within a Gaussian process surrogate model for the sequential NAS settings. Furthermore, we derive a novel parallel NAS, using quality k-determinantal point process on the GP posterior, to select diverse and high-performing architectures from a discrete set of candidates. Empirically, we demonstrate that our TW-based approaches outperform other baselines in both sequential and parallel NAS.
翻訳日:2022-11-21 20:25:46 公開日:2021-06-10
# 確率的部分監視のためのトンプソンサンプリングの解析と設計

Analysis and Design of Thompson Sampling for Stochastic Partial Monitoring ( http://arxiv.org/abs/2006.09668v2 )

ライセンス: Link先を確認
Taira Tsuchiya, Junya Honda, Masashi Sugiyama(参考訳) 有限確率部分モニタリングは,フィードバックが限定された逐次学習の一般的なモデルである。 トンプソンサンプリングは、様々なオンライン意思決定問題の最も有望なアルゴリズムの1つであるが、確率的部分監視の特性は理論的には研究されておらず、既存のアルゴリズムは後方分布のヒューリスティック近似に依存している。 これらの問題を緩和するために,後方分布からターゲットパラメータを正確にサンプリングできる新しいトンプソンサンプリングに基づくアルゴリズムを提案する。 さらに、新しいアルゴリズムが局所可観測性を持つ問題の線形変種に対して対数問題依存の期待値である$\mathrm{o}(\log t)$ を達成することを証明した。 この結果は、部分的監視のためのトンプソンサンプリングの最初の後悔バウンドであり、線形バンドイットに対するトンプソンサンプリングの最初の対数的後悔バウンドとなる。

We investigate finite stochastic partial monitoring, which is a general model for sequential learning with limited feedback. While Thompson sampling is one of the most promising algorithms on a variety of online decision-making problems, its properties for stochastic partial monitoring have not been theoretically investigated, and the existing algorithm relies on a heuristic approximation of the posterior distribution. To mitigate these problems, we present a novel Thompson-sampling-based algorithm, which enables us to exactly sample the target parameter from the posterior distribution. Besides, we prove that the new algorithm achieves the logarithmic problem-dependent expected pseudo-regret $\mathrm{O}(\log T)$ for a linearized variant of the problem with local observability. This result is the first regret bound of Thompson sampling for partial monitoring, which also becomes the first logarithmic regret bound of Thompson sampling for linear bandits.
翻訳日:2022-11-19 19:34:55 公開日:2021-06-10
# 弾性表面マッチング, 比較, 補間のための数値的枠組み

A numerical framework for elastic surface matching, comparison, and interpolation ( http://arxiv.org/abs/2006.11652v2 )

ライセンス: Link先を確認
Martin Bauer, Nicolas Charon, Philipp Harms, and Hsi-Wei Hsieh(参考訳) 表面比較とマッチングはコンピュータビジョンにおいて難しい問題である。 再パラメータ化不変ソボレフ計量は測地線境界値問題を通じて有意義な弾性距離と点対応を与えるが、この問題を数値的に解くのは困難である。 正方根正規場 (square root normal fields, srnf) は、パラメータ面間の弾性距離の計算をかなり単純化する。 しかし、彼らは最適な再パラメトリゼーションを見つけ、非パラメトリゼーション表面間の弾性距離を誘導する問題を残している。 この問題は近年多くの努力を集中させ、いくつかの数値フレームワークの開発につながった。 本稿では,再パラメータ化の直接推定を回避し,補助パラメトリゼーションblind fidelityメトリックを用いて測地境界制約を緩和する手法を提案する。 この改革にはいくつかの顕著な利点がある。 再パラメータ化の必要性を一切避けることで、任意のトポロジとサンプリングパターンの単純化されたメッシュを扱う柔軟性を提供する。 さらに、この問題は粗い対極のマルチレゾリューション実装に役立ち、アルゴリズムを大規模メッシュにスケーラブルにする。 さらに、このアプローチは正方根曲率場のような高次特徴写像に容易に拡張でき、マッチング問題に表面テクスチャを含めることができる。 これらの利点をいくつかの例、合成と実例で示します。

Surface comparison and matching is a challenging problem in computer vision. While reparametrization-invariant Sobolev metrics provide meaningful elastic distances and point correspondences via the geodesic boundary value problem, solving this problem numerically tends to be difficult. Square root normal fields (SRNF) considerably simplify the computation of certain elastic distances between parametrized surfaces. Yet they leave open the issue of finding optimal reparametrizations, which induce elastic distances between unparametrized surfaces. This issue has concentrated much effort in recent years and led to the development of several numerical frameworks. In this paper, we take an alternative approach which bypasses the direct estimation of reparametrizations: we relax the geodesic boundary constraint using an auxiliary parametrization-blind varifold fidelity metric. This reformulation has several notable benefits. By avoiding altogether the need for reparametrizations, it provides the flexibility to deal with simplicial meshes of arbitrary topologies and sampling patterns. Moreover, the problem lends itself to a coarse-to-fine multi-resolution implementation, which makes the algorithm scalable to large meshes. Furthermore, this approach extends readily to higher-order feature maps such as square root curvature fields and is also able to include surface textures in the matching problem. We demonstrate these advantages on several examples, synthetic and real.
翻訳日:2022-11-18 23:04:24 公開日:2021-06-10
# アクショングラフを用いた合成ビデオ合成

Compositional Video Synthesis with Action Graphs ( http://arxiv.org/abs/2006.15327v4 )

ライセンス: Link先を確認
Amir Bar, Roei Herzig, Xiaolong Wang, Anna Rohrbach, Gal Chechik, Trevor Darrell, Amir Globerson(参考訳) アクションビデオは、空間と時間に豊富な構成構造を含む複雑な信号である。 現在のビデオ生成方法は、複数の協調的および潜在的に同時的な動作で生成を条件付ける能力に欠ける。 この課題に対処するため、我々はAction Graphと呼ばれるグラフ構造のアクションを表現し、新しい `Action Graph To Video'' 合成タスクを提案する。 このタスクのための生成モデル(AG2Vid)は、動作と外観の特徴を歪め、アクションのスケジューリング機構を組み込むことで、タイムリーかつ協調的なビデオ生成を容易にする。 我々は、CATERおよびSomething V2データセット上でAG2Vidをトレーニングし、評価し、その結果の動画がベースラインよりも視覚的品質とセマンティック一貫性が優れていることを示す。 最後に,学習行動の新しい構成を合成することでゼロショット能力を示す。 コードと事前訓練されたモデルについては、プロジェクトページ https://roeiherz.github.io/AG2Videoを参照してください。

Videos of actions are complex signals containing rich compositional structure in space and time. Current video generation methods lack the ability to condition the generation on multiple coordinated and potentially simultaneous timed actions. To address this challenge, we propose to represent the actions in a graph structure called Action Graph and present the new ``Action Graph To Video'' synthesis task. Our generative model for this task (AG2Vid) disentangles motion and appearance features, and by incorporating a scheduling mechanism for actions facilitates a timely and coordinated video generation. We train and evaluate AG2Vid on the CATER and Something-Something V2 datasets, and show that the resulting videos have better visual quality and semantic consistency compared to baselines. Finally, our model demonstrates zero-shot abilities by synthesizing novel compositions of the learned actions. For code and pretrained models, see the project page https://roeiherz.github.io/AG2Video
翻訳日:2022-11-16 07:32:56 公開日:2021-06-10
# ネットワークトラフィックにおけるノベルティ検出のための特徴抽出

Feature Extraction for Novelty Detection in Network Traffic ( http://arxiv.org/abs/2006.16993v2 )

ライセンス: Link先を確認
Kun Yang, Samory Kpotufe, Nick Feamster(参考訳) データ表現は、機械学習におけるノベルティ検出(または'anomaly detection'')法の性能において重要な役割を果たす。 ネットワークトラフィックのデータ表現は、モデル自体と同様に、これらのモデルの有効性を決定することが多い。 ネットワークオペレーターが検出しなければならない様々な新しいイベント(例えば、攻撃、マルウェア、新しいアプリケーション、トラフィック要求の変化)は、幅広いモデルとデータ表現の可能性をもたらす。 それぞれのシナリオにおいて、実践者は、その状況やアプリケーションに対して最も予測的な特徴の抽出とエンジニアリングに多大な労力を費やさなければならない。 異常検出はコンピュータネットワークでよく研究されているが、既存の多くの研究は特定の表現 - しばしばIPFIX/NetFlow - を想定した特定のモデルを開発している。 しかし、他の表現はより高いモデルの精度をもたらす可能性があり、プログラマブルネットワークの台頭により、より広い範囲の表現を探索することがより現実的になった。 このような探索を容易にするため,ネットワークトラフィックから特徴を抽出・生成し,最新の新規性検出モデルにおいて,これらの表現の実行とエンドツーエンド評価を可能にする,体系的なフレームワーク,オープンソースツールキット,パブリックPythonライブラリを開発した。 まず、オープンソースのツール、付随するpythonライブラリ(netml)、ネットワークトラフィックのノベルティ検出のためのエンドツーエンドパイプラインを開発し、公開します。 第2に,ネットワークにおける5つの新たな検出問題に対して,攻撃検出から新たなデバイス検出まで,さまざまなシナリオに適用する。 本研究は,特定の状況においてどの特徴が適切かに関する一般的な知見とガイドラインである。

Data representation plays a critical role in the performance of novelty detection (or ``anomaly detection'') methods in machine learning. The data representation of network traffic often determines the effectiveness of these models as much as the model itself. The wide range of novel events that network operators need to detect (e.g., attacks, malware, new applications, changes in traffic demands) introduces the possibility for a broad range of possible models and data representations. In each scenario, practitioners must spend significant effort extracting and engineering features that are most predictive for that situation or application. While anomaly detection is well-studied in computer networking, much existing work develops specific models that presume a particular representation -- often IPFIX/NetFlow. Yet, other representations may result in higher model accuracy, and the rise of programmable networks now makes it more practical to explore a broader range of representations. To facilitate such exploration, we develop a systematic framework, open-source toolkit, and public Python library that makes it both possible and easy to extract and generate features from network traffic and perform and end-to-end evaluation of these representations across most prevalent modern novelty detection models. We first develop and publicly release an open-source tool, an accompanying Python library (NetML), and end-to-end pipeline for novelty detection in network traffic. Second, we apply this tool to five different novelty detection problems in networking, across a range of scenarios from attack detection to novel device detection. Our findings general insights and guidelines concerning which features appear to be more appropriate for particular situations.
翻訳日:2022-11-15 06:23:37 公開日:2021-06-10
# 画像分類における順序付きプール重みの学習

Learning ordered pooling weights in image classification ( http://arxiv.org/abs/2007.01243v2 )

ライセンス: Link先を確認
J.I.Forcen, Miguel Pagola, Edurne Barrenechea and Humberto Bustince(参考訳) 空間プーリングは畳み込みニューラルネットワークやバガ・オブ・ワードズ法のようなコンピュータビジョンシステムにおいて重要なステップである。 空間プールの目的は、隣接するディスクリプタを組み合わせて、指定された地域(ローカルまたはグローバル)の1つのディスクリプタを取得することである。 結果の組合せベクトルは可能な限り識別可能でなければならず、言い換えれば、関連する情報を含み、無関係で紛らわしい詳細を取り除く必要がある。 最大および平均は、プーリングステップで使用される最も一般的な集約関数である。 画像分類における識別力を低下させることなく,関連情報の集約を改善するために,順序付き重み付け演算子(OWA)に基づく簡易かつ効果的な手法を提案する。 本稿では,owaアグリゲーション演算子の重みを,単語のバッグ・オブ・ワードの枠組みと畳み込みニューラルネットワークで学習する手法を提案し,owaベースのプールが古典的アグリゲーション演算子よりも優れていることを示す。

Spatial pooling is an important step in computer vision systems like Convolutional Neural Networks or the Bag-of-Words method. The spatial pooling purpose is to combine neighbouring descriptors to obtain a single descriptor for a given region (local or global). The resultant combined vector must be as discriminant as possible, in other words, must contain relevant information, while removing irrelevant and confusing details. Maximum and average are the most common aggregation functions used in the pooling step. To improve the aggregation of relevant information without degrading their discriminative power for image classification, we introduce a simple but effective scheme based on Ordered Weighted Average (OWA) aggregation operators. We present a method to learn the weights of the OWA aggregation operator in a Bag-of-Words framework and in Convolutional Neural Networks, and provide an extensive evaluation showing that OWA based pooling outperforms classical aggregation operators.
翻訳日:2022-11-14 14:27:18 公開日:2021-06-10
# 深部整流回路網におけるニューロン死の確率的境界

Probabilistic bounds on neuron death in deep rectifier networks ( http://arxiv.org/abs/2007.06192v2 )

ライセンス: Link先を確認
Blaine Rister and Daniel L. Rubin(参考訳) ニューロンの死は、モデルトレーサビリティに影響を及ぼす複雑な現象である:ネットワークが深くなるほど、有効な初期化を見つける確率が低くなる。 本研究では、モデルハイパーパラメータの関数として、ReLUネットワークがトレーニング可能な点に初期化される確率に基づいて、上下境界を導出する。 ネットワークの幅が大きくなる限り,ネットワークの深さを無期限に増やすことが可能であることを示す。 さらに、我々の境界は合理的な仮定の下で漸近的に厳密である: まず、上限は入力集合が最大となる単一層ネットワークの真確率と一致する。 第二に、真確率は入力集合が単一点に縮まるとき、またはネットワークの複雑さが出力分散に関する仮定の下で増加するとき、下界に収束する。 これらの結果を数値シミュレーションにより検証し,ネットワーク深度の増加に伴う下界への急速な収束を示す。 そこで,この理論に動機づけられて,k$層ネットワークにおけるリビングデータポイントの比率が少なくとも$2^{-k}$であることを保証する,実用的な符号フリップスキームを提案する。 最後に、バッチ正規化、残留接続、密ネットワーク、スキップ接続など、現在実際に見られるネットワーク設計機能によってこれらの問題をいかに緩和するかを示す。 これは、ニューロンの死が様々なモデルアーキテクチャの有効性についての洞察を与えることを示唆している。

Neuron death is a complex phenomenon with implications for model trainability: the deeper the network, the lower the probability of finding a valid initialization. In this work, we derive both upper and lower bounds on the probability that a ReLU network is initialized to a trainable point, as a function of model hyperparameters. We show that it is possible to increase the depth of a network indefinitely, so long as the width increases as well. Furthermore, our bounds are asymptotically tight under reasonable assumptions: first, the upper bound coincides with the true probability for a single-layer network with the largest possible input set. Second, the true probability converges to our lower bound as the input set shrinks to a single point, or as the network complexity grows under an assumption about the output variance. We confirm these results by numerical simulation, showing rapid convergence to the lower bound with increasing network depth. Then, motivated by the theory, we propose a practical sign flipping scheme which guarantees that the ratio of living data points in a $k$-layer network is at least $2^{-k}$. Finally, we show how these issues are mitigated by network design features currently seen in practice, such as batch normalization, residual connections, dense networks and skip connections. This suggests that neuron death may provide insight into the efficacy of various model architectures.
翻訳日:2022-11-10 22:30:07 公開日:2021-06-10
# 1点RANSACによる地中物体位置推定法

1-Point RANSAC-Based Method for Ground Object Pose Estimation ( http://arxiv.org/abs/2008.03718v2 )

ライセンス: Link先を確認
Jeong-Kyun Lee and Young-Ki Baik and Hankyu Cho and Kang Kim and Duck Hoon Kim(参考訳) perspective-n-point(pnp)問題を解決することは、従来のオブジェクトポーズの推定方法である。 異常値が与えられた場合、オブジェクトのポーズは、ransacベースのスキームで n = {3, 4} の pnp アルゴリズムで計算される。 しかし、計算複雑性はnとともに著しく増加し、高い複雑性は複数のオブジェクトのポーズをリアルタイムで推定するデバイスに深刻な歪みを課す。 本論文では,地上の物体のポーズを推定するための1点RANSACに基づく効率的な手法を提案する。 提案手法では,地中オブジェクト仮定と2次元オブジェクト境界ボックスを付加観測として1-DoFパラメータ化を用いてポーズを算出し,RANSAC法で最速の性能を実現する。 また,追加情報の誤りに支障をきたすため,粗いポーズ推定を洗練し,粗大から細かな方法でより多くのイリアーを発見する階層的ロバスト推定手法を提案する。 合成および実世界のデータセットにおける実験は,提案手法の優越性を示している。

Solving Perspective-n-Point (PnP) problems is a traditional way of estimating object poses. Given outlier-contaminated data, a pose of an object is calculated with PnP algorithms of n = {3, 4} in the RANSAC-based scheme. However, the computational complexity considerably increases along with n and the high complexity imposes a severe strain on devices which should estimate multiple object poses in real time. In this paper, we propose an efficient method based on 1-point RANSAC for estimating a pose of an object on the ground. In the proposed method, a pose is calculated with 1-DoF parameterization by using a ground object assumption and a 2D object bounding box as an additional observation, thereby achieving the fastest performance among the RANSAC-based methods. In addition, since the method suffers from the errors of the additional information, we propose a hierarchical robust estimation method for polishing a rough pose estimate and discovering more inliers in a coarse-to-fine manner. The experiments in synthetic and real-world datasets demonstrate the superiority of the proposed method.
翻訳日:2022-11-01 04:26:51 公開日:2021-06-10
# SkeletonNet:RGB画像からの物体表面のメッシュ再構成学習のためのトポロジー保存ソリューション

SkeletonNet: A Topology-Preserving Solution for Learning Mesh Reconstruction of Object Surfaces from RGB Images ( http://arxiv.org/abs/2008.05742v3 )

ライセンス: Link先を確認
Jiapeng Tang, Xiaoguang Han, Mingkui Tan, Xin Tong, Kui Jia(参考訳) 本稿では,rgb画像から3次元物体表面再構成を学習する課題について述べる。 既存の手法は、異なる表面表現を用いて様々な成功度を達成する。 しかし、これらにはそれぞれ独自の欠点があり、学習フレームワークのトポロジ構造に制約がないため、複雑なトポロジの表面形状を適切に再構築することはできない。 そこで本研究では,RGB画像からの物体表面再構成の下流タスクを支援するために,トポロジ保存された骨格形状表現の学習と利用を提案する。 そこで我々は,1次元骨格曲線と2次元骨格シート上の点の学習に責任を持つパラレルデコーダと,改良された高分解能骨格ボリュームのためのグローバルに誘導されたサブボリューム合成の効率的なモジュールを用いた,骨格点集合のブリッジ学習を通じて骨格の体積表現を学習するノベルスケルトンネット設計を提案する。 学習した骨格体積を用いて、下流面再構成タスクの明示的なメッシュ変形と暗黙的場学習のフレームワークをそれぞれ構築・改善する、SkeGCNN(Skeleton-based GraphConvolutional Neural Network)とSkeDISN(Skeleton-Regularized Deep Implicit Surface Network)の2つのモデルを提案する。 提案するSkeletonNetの有効性を検証するための徹底的な実験を行った。 SkeGCNNとSkeDISNは既存のメソッドもアウトパフォーマンスします。 タスク設定を一般化した追加結果は,提案手法の有用性をさらに実証する。 実装コードとShapeNet-Skeletonデータセットの両方を、https://github.com/tangjiapeng/SkeletonNetで公開しています。

This paper focuses on the challenging task of learning 3D object surface reconstructions from RGB images. Existingmethods achieve varying degrees of success by using different surface representations. However, they all have their own drawbacks,and cannot properly reconstruct the surface shapes of complex topologies, arguably due to a lack of constraints on the topologicalstructures in their learning frameworks. To this end, we propose to learn and use the topology-preserved, skeletal shape representationto assist the downstream task of object surface reconstruction from RGB images. Technically, we propose the novelSkeletonNetdesign that learns a volumetric representation of a skeleton via a bridged learning of a skeletal point set, where we use paralleldecoders each responsible for the learning of points on 1D skeletal curves and 2D skeletal sheets, as well as an efficient module ofglobally guided subvolume synthesis for a refined, high-resolution skeletal volume; we present a differentiablePoint2Voxellayer tomake SkeletonNet end-to-end and trainable. With the learned skeletal volumes, we propose two models, the Skeleton-Based GraphConvolutional Neural Network (SkeGCNN) and the Skeleton-Regularized Deep Implicit Surface Network (SkeDISN), which respectivelybuild upon and improve over the existing frameworks of explicit mesh deformation and implicit field learning for the downstream surfacereconstruction task. We conduct thorough experiments that verify the efficacy of our proposed SkeletonNet. SkeGCNN and SkeDISNoutperform existing methods as well, and they have their own merits when measured by different metrics. Additional results ingeneralized task settings further demonstrate the usefulness of our proposed methods. We have made both our implementation codeand the ShapeNet-Skeleton dataset publicly available at ble at https://github.com/tangjiapeng/SkeletonNet.
翻訳日:2022-10-30 23:22:02 公開日:2021-06-10
# 空間スペクトル制約深部画像を用いた教師なしハイパースペクトル混合ノイズ除去

Unsupervised Hyperspectral Mixed Noise Removal Via Spatial-Spectral Constrained Deep Image Prior ( http://arxiv.org/abs/2008.09753v2 )

ライセンス: Link先を確認
Yi-Si Luo, Xi-Le Zhao, Tai-Xiang Jiang, Yu-Bang Zheng, Yi Chang(参考訳) 近年,高スペクトル画像(HSI)をデノナイズするための畳み込みニューラルネットワーク(CNN)に基づく手法が提案されている。 これらの手法はトレーニングデータを必要としないため,dip(deep image prior)などの教師なし手法が注目されている。 しかし、DIPは半収束の挙動に悩まされており、すなわち、DIPの反復は最適な反復点における基底真実像を参照することによって終了する必要がある。 本稿では,HSI混合雑音除去のための空間スペクトル制約深度画像(S2DIP)を提案する。 具体的には、hsiの空間スペクトル局所平滑性を完全に保持するために空間スペクトル全変動(sstv)項と$\ell_1$-norm項を組み込んで複雑なスパースノイズを捉える。 提案したS2DIPは、訓練データなしで深部CNNから得られる表現力と、手作りの先行手法によるHSIとノイズ構造を併用する。 そこで本手法は半収束挙動を回避し,DIPよりも高い安定性を示す。 一方,本手法はdipのhsi消音能力を大きく向上させる。 提案する分別モデルに取り組むため,交互方向乗算法アルゴリズムを開発した。 広汎な実験により,提案したS2DIPは最適化ベースおよび教師付きCNNベースの最先端HSI復調法より優れていた。

Recently, convolutional neural network (CNN)-based methods are proposed for hyperspectral images (HSIs) denoising. Among them, unsupervised methods such as the deep image prior (DIP) have received much attention because these methods do not require any training data. However, DIP suffers from the semi-convergence behavior, i.e., the iteration of DIP needs to terminate by referring to the ground-truth image at the optimal iteration point. In this paper, we propose the spatial-spectral constrained deep image prior (S2DIP) for HSI mixed noise removal. Specifically, we incorporate DIP with a spatial-spectral total variation (SSTV) term to fully preserve the spatial-spectral local smoothness of the HSI and an $\ell_1$-norm term to capture the complex sparse noise. The proposed S2DIP jointly leverages the expressive power brought from the deep CNN without any training data and exploits the HSI and noise structures via hand-crafted priors. Thus, our method avoids the semi-convergence behavior, showing higher stabilities than DIP. Meanwhile, our method largely enhances the HSI denoising ability of DIP. To tackle the proposed denoising model, we develop an alternating direction multiplier method algorithm. Extensive experiments demonstrate that the proposed S2DIP outperforms optimization-based and supervised CNN-based state-of-the-art HSI denoising methods.
翻訳日:2022-10-26 08:05:32 公開日:2021-06-10
# 深い教師付き異常検出に向けて:部分ラベル付き異常データからの強化学習

Toward Deep Supervised Anomaly Detection: Reinforcement Learning from Partially Labeled Anomaly Data ( http://arxiv.org/abs/2009.06847v2 )

ライセンス: Link先を確認
Guansong Pang, Anton van den Hengel, Chunhua Shen, Longbing Cao(参考訳) 我々は,部分ラベル付き異常例と大規模非ラベルデータセットを用いた異常検出の問題を考える。 これは多くの重要なアプリケーションでよくあるシナリオです。 既存の関連メソッドは、通常、一連の異常にまたがらない限定的な異常例にのみ適合するか、ラベルのないデータから教師なしの学習を進めるかのどちらかである。 そこで我々は,ラベル付きおよびラベルなし両方の異常の検出をエンドツーエンドに最適化する,深層強化学習に基づくアプローチを提案する。 このアプローチは、異常バイアスのあるシミュレーション環境と自動的に相互作用して既知の異常を学習し、ラベルのないデータで可能な異常を積極的に探索することで、学習した異常を新しい異常クラス(すなわち未知の異常)に継続的に拡張する。 これは、小さなラベル付き異常データの活用と稀なラベル付き異常データの探索を共同で最適化することで達成される。 48個の実世界のデータセットに対する大規模な実験により、我々のモデルは5つの最先端競合手法を著しく上回っていることが示された。

We consider the problem of anomaly detection with a small set of partially labeled anomaly examples and a large-scale unlabeled dataset. This is a common scenario in many important applications. Existing related methods either exclusively fit the limited anomaly examples that typically do not span the entire set of anomalies, or proceed with unsupervised learning from the unlabeled data. We propose here instead a deep reinforcement learning-based approach that enables an end-to-end optimization of the detection of both labeled and unlabeled anomalies. This approach learns the known abnormality by automatically interacting with an anomaly-biased simulation environment, while continuously extending the learned abnormality to novel classes of anomaly (i.e., unknown anomalies) by actively exploring possible anomalies in the unlabeled data. This is achieved by jointly optimizing the exploitation of the small labeled anomaly data and the exploration of the rare unlabeled anomalies. Extensive experiments on 48 real-world datasets show that our model significantly outperforms five state-of-the-art competing methods.
翻訳日:2022-10-18 05:14:32 公開日:2021-06-10
# 基底依存性ニューラルネットワークを用いた効率的な量子状態サンプルトモグラフィ

Efficient Quantum State Sample Tomography with Basis-dependent Neural-networks ( http://arxiv.org/abs/2009.07601v3 )

ライセンス: Link先を確認
Alistair W. R. Smith, Johnnie Gray, M. S. Kim(参考訳) 計測された量子状態からデータを分析するために、メタラーニングニューラルネットワークアプローチを用いる。 ニューラルネットワークがトレーニングされたら、トレーニングデータに含まれていない測定ベースの状態の測定を効率的にサンプリングすることができる。 これらのサンプルは期待値などの有用な量を計算することができる。 この過程を「状態サンプルトモグラフィー」と呼ぶ。 我々は、効率的にパラメータ化された生成ニューラルネットワークを用いて、状態の測定結果分布を符号化する。 これにより、トモグラフィープロセスの各段階は大規模システムでも効率的に実行される。 提案手法は最近のIBM Quantumデバイス上で実証され, 局所測定を用いた標準フルトモグラフィに必要な729設定とは対照的に, 100個のランダム測定設定しか使用していない全てのテストケースに対して, 6量子状態の測定結果を予測精度(古典的忠実度) > 95% で生成する。 この要求された測定回数の削減は好ましく、200個の測定設定のトレーニングデータでは10量子ビット状態の予測精度が92%まで上昇し、局所的な測定ベースの量子状態トモグラフィーでは59,049個の設定が通常必要となる。 この場合、約600の因子による測定回数の削減は、現在の量子デバイス上での実践可能な時間における期待値と状態忠実度の推定を可能にする。

We use a meta-learning neural-network approach to analyse data from a measured quantum state. Once our neural network has been trained it can be used to efficiently sample measurements of the state in measurement bases not contained in the training data. These samples can be used calculate expectation values and other useful quantities. We refer to this process as "state sample tomography". We encode the state's measurement outcome distributions using an efficiently parameterized generative neural network. This allows each stage in the tomography process to be performed efficiently even for large systems. Our scheme is demonstrated on recent IBM Quantum devices, producing a model for a 6-qubit state's measurement outcomes with a predictive accuracy (classical fidelity) > 95% for all test cases using only 100 random measurement settings as opposed to the 729 settings required for standard full tomography using local measurements. This reduction in the required number of measurements scales favourably, with training data in 200 measurement settings yielding a predictive accuracy > 92% for a 10 qubit state where 59,049 settings are typically required for full local measurement-based quantum state tomography. A reduction in number of measurements by a factor, in this case, of almost 600 could allow for estimations of expectation values and state fidelities in practicable times on current quantum devices.
翻訳日:2022-10-18 00:57:38 公開日:2021-06-10
# 生産における予測プロセスモニタリングのための局所的ポストホック説明

Local Post-Hoc Explanations for Predictive Process Monitoring in Manufacturing ( http://arxiv.org/abs/2009.10513v2 )

ライセンス: Link先を確認
Nijat Mehdiyev and Peter Fettke(参考訳) 本研究では, プロセスマイニング, 機械学習, 説明可能な人工知能(XAI)手法を組み合わせることで, 製造工程計画のためのデータ駆動型意思決定を容易にする, 革新的な説明可能な品質分析ソリューションを提案する。 この目的のために,様々な企業情報システムから得られたトップフロアデータとショップフロアデータを統合することにより,プロセス結果の予測に深層学習モデルを適用した。 本研究は、意思決定プロセスに組み込むことで、提供された予測的洞察を運用することを目的としているため、ドメインエキスパートに適切な説明を生成することが不可欠である。 この目的のために、専門家が異なる視点から説明を検証できるようにすることで意思決定能力を高めることが期待される2つの補完的な局所的ポストホック説明手法であるシェープリー値と個別条件予測(ICE)プロットが採用されている。 応用深層ニューラルネットワークの予測強度を関連する2値分類評価尺度で評価した後、生成された説明について考察する。

This study proposes an innovative explainable predictive quality analytics solution to facilitate data-driven decision-making for process planning in manufacturing by combining process mining, machine learning, and explainable artificial intelligence (XAI) methods. For this purpose, after integrating the top-floor and shop-floor data obtained from various enterprise information systems, a deep learning model was applied to predict the process outcomes. Since this study aims to operationalize the delivered predictive insights by embedding them into decision-making processes, it is essential to generate relevant explanations for domain experts. To this end, two complementary local post-hoc explanation approaches, Shapley values and Individual Conditional Expectation (ICE) plots are adopted, which are expected to enhance the decision-making capabilities by enabling experts to examine explanations from different perspectives. After assessing the predictive strength of the applied deep neural network with relevant binary classification evaluation measures, a discussion of the generated explanations is provided.
翻訳日:2022-10-15 21:22:24 公開日:2021-06-10
# polyakの運動量による証明可能な加速度のモジュラー解析--広範なreluネットワークとディープリニアネットワークの訓練-

A Modular Analysis of Provable Acceleration via Polyak's Momentum: Training a Wide ReLU Network and a Deep Linear Network ( http://arxiv.org/abs/2010.01618v6 )

ライセンス: Link先を確認
Jun-Kun Wang and Chi-Heng Lin and Jacob Abernethy(参考訳) 勾配降下法にいわゆる「モメンタム」力学を組み込むことは、神経ネットトレーニングにおいて、少なくとも経験的には、はるかに高速な収束をもたらすことが広く観察されているため、広く用いられている。 同時に、この明らかな加速効果を説明するための理論的な保証は文献にはほとんどない。 古典的強凸二次問題でさえ、いくつかの既存の結果はポリアックの運動量は漸近的に加速線形速度を持つことを示している。 本稿では,まず2次問題を再検討し,ポリアクの運動量の非漸近加速線形速度を示す。 次に,ポリアックの運動量は,一層幅の広いreluネットワークとディープリニアネットワークを学習する上で,おそらく文学における最適化と深層学習を学ぶための2つの最も一般的な標準モデルである。 先行研究 du at al. 2019 と wu et al. 2019 では、バニラ勾配勾配の降下と過剰パラメータ化を用いることで、エラーは$t$ 反復後に$(1- \theta(\frac{1}{ \kappa'})^t$ となり、$\kappa'$ はグラム行列の条件数であることを示した。 この結果は、パラメータの適切な選択により、Polyakの運動量は1-\Theta(\frac{1}{\sqrt{\kappa'}})^t$であることを示している。 深い線形ネットワークについて、Huらによる2020年の先行研究により、バニラ勾配降下は1-\Theta(\frac{1}{\kappa})^t$で、$\kappa$はデータ行列の条件数である。 その結果、加速速度$(1\theta(\frac{1}{\sqrt{\kappa}})^t$ はポリアックの運動量によって達成可能であることが示された。 この研究の結果はすべてモジュラー解析から得られ、これは独立した関心を持つことができる。 この研究は、momentumが実際にニューラルネットワークトレーニングをスピードアップさせていることを証明している。

Incorporating a so-called "momentum" dynamic in gradient descent methods is widely used in neural net training as it has been broadly observed that, at least empirically, it often leads to significantly faster convergence. At the same time, there are very few theoretical guarantees in the literature to explain this apparent acceleration effect. Even for the classical strongly convex quadratic problems, several existing results only show Polyak's momentum has an accelerated linear rate asymptotically. In this paper, we first revisit the quadratic problems and show a non-asymptotic accelerated linear rate of Polyak's momentum. Then, we provably show that Polyak's momentum achieves acceleration for training a one-layer wide ReLU network and a deep linear network, which are perhaps the two most popular canonical models for studying optimization and deep learning in the literature. Prior work Du at al. 2019 and Wu et al. 2019 showed that using vanilla gradient descent, and with an use of over-parameterization, the error decays as $(1- \Theta(\frac{1}{ \kappa'}))^t$ after $t$ iterations, where $\kappa'$ is the condition number of a Gram Matrix. Our result shows that with the appropriate choice of parameters Polyak's momentum has a rate of $(1-\Theta(\frac{1}{\sqrt{\kappa'}}))^t$. For the deep linear network, prior work Hu et al. 2020 showed that vanilla gradient descent has a rate of $(1-\Theta(\frac{1}{\kappa}))^t$, where $\kappa$ is the condition number of a data matrix. Our result shows an acceleration rate $(1- \Theta(\frac{1}{\sqrt{\kappa}}))^t$ is achievable by Polyak's momentum. All the results in this work are obtained from a modular analysis, which can be of independent interest. This work establishes that momentum does indeed speed up neural net training.
翻訳日:2022-10-11 03:34:10 公開日:2021-06-10
# UneVEn: マルチエージェント強化学習のためのユニバーサルバリュー探索

UneVEn: Universal Value Exploration for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2010.02974v3 )

ライセンス: Link先を確認
Tarun Gupta, Anuj Mahajan, Bei Peng, Wendelin B\"ohmer, Shimon Whiteson(参考訳) VDNとQMIXは協調的なMARLのための2つの一般的な値ベースアルゴリズムであり、エージェントごとのユーティリティの単調混合として集中的なアクション値関数を学習する。 これにより、学習されたポリシーの分散化が容易になるが、制限された共同アクション値関数は、与えられた時間ステップでエージェント間の重要な協調を必要とするタスクを解決することを防ぐことができる。 トレーニング中の全てのエージェントの共同探索を改善することで,この問題を克服できることを示す。 具体的には,Universal Value Exploration(UneVEn)と呼ばれる新しいMARL手法を提案する。 既に解決された関連するタスクのポリシーにより、すべてのエージェントの合同探索プロセスを改善して、より優れたコーディネーションを実現することができる。 一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。

VDN and QMIX are two popular value-based algorithms for cooperative MARL that learn a centralized action value function as a monotonic mixing of per-agent utilities. While this enables easy decentralization of the learned policy, the restricted joint action value function can prevent them from solving tasks that require significant coordination between agents at a given timestep. We show that this problem can be overcome by improving the joint exploration of all agents during training. Specifically, we propose a novel MARL approach called Universal Value Exploration (UneVEn) that learns a set of related tasks simultaneously with a linear decomposition of universal successor features. With the policies of already solved related tasks, the joint exploration process of all agents can be improved to help them achieve better coordination. Empirical results on a set of exploration games, challenging cooperative predator-prey tasks requiring significant coordination among agents, and StarCraft II micromanagement benchmarks show that UneVEn can solve tasks where other state-of-the-art MARL methods fail.
翻訳日:2022-10-10 06:12:20 公開日:2021-06-10
# オンラインと配布のないロバストネス:ハマー汚染を伴う回帰と文脈帯域

Online and Distribution-Free Robustness: Regression and Contextual Bandits with Huber Contamination ( http://arxiv.org/abs/2010.04157v3 )

ライセンス: Link先を確認
Sitan Chen, Frederic Koehler, Ankur Moitra, Morris Yau(参考訳) 本研究では,2つの古典的高次元オンライン学習問題,すなわち線形回帰と文脈的帯域幅を再考する。 アルゴリズム的ロバスト統計学における既存の研究は、入力データが均等に拡散されたり、良い生成モデルから生じたりすることを保証する、強い分布的仮定を立てている。 分散的な仮定が完全になければ,解決すべきタスクのシーケンスが適応的かつ敵対的に選択されるような,強固な堅牢性保証を実現することは可能か? 我々は線形回帰と文脈的バンディットの両方について肯定的に答える。 実際、我々のアルゴリズムは従来の方法が失敗する場合に成功します。 特に、フーバー回帰やより一般に任意の凸 m-推定器に対する強い下界を示す。 提案手法は, スペクトル制約下での分布の最適再重み付けを求める単純な凸プログラムを用いて, 通常の最小二乗をインターリーブする, 交代最小化方式に基づく。 この結果は基本的に汚染レベル$\eta$ に最適依存し、最適分解点に到達し、特徴ベクトルがカーネルマップを介して暗黙的に表現される無限次元の設定に自然に適用できる。

In this work we revisit two classic high-dimensional online learning problems, namely linear regression and contextual bandits, from the perspective of adversarial robustness. Existing works in algorithmic robust statistics make strong distributional assumptions that ensure that the input data is evenly spread out or comes from a nice generative model. Is it possible to achieve strong robustness guarantees even without distributional assumptions altogether, where the sequence of tasks we are asked to solve is adaptively and adversarially chosen? We answer this question in the affirmative for both linear regression and contextual bandits. In fact our algorithms succeed where conventional methods fail. In particular we show strong lower bounds against Huber regression and more generally any convex M-estimator. Our approach is based on a novel alternating minimization scheme that interleaves ordinary least-squares with a simple convex program that finds the optimal reweighting of the distribution under a spectral constraint. Our results obtain essentially optimal dependence on the contamination level $\eta$, reach the optimal breakdown point, and naturally apply to infinite dimensional settings where the feature vectors are represented implicitly via a kernel map.
翻訳日:2022-10-09 11:49:22 公開日:2021-06-10
# シーン非依存型マルチマイクロホン音声の残響化

Scene-Agnostic Multi-Microphone Speech Dereverberation ( http://arxiv.org/abs/2010.11875v2 )

ライセンス: Link先を確認
Yochai Yemini, Ethan Fetaya, Haggai Maron and Sharon Gannot(参考訳) ニューラルネットワーク(nns)は、音声処理タスク、特にマイクロホンアレイを使用するタスクに広く適用されてきた。 しかしながら、既存のNNアーキテクチャのほとんどは固定および位置固有のマイクロホンアレイにしか対応できない。 本稿では,マイクロホンの数と位置が不明なマイクロホンアレイに対処可能なNNアーキテクチャを提案する。 この目的のために,我々は,集合構造データのディープラーニングの最近の進歩を利用して,残響的ログスペクトラムを増大させるアーキテクチャを設計する。 提案したアーキテクチャをテストするために、シミュレートされた残響データセットのノイズやノイズのないバージョンを使用します。 ノイズデータを用いた実験により,提案手法は,マイクロホンの少ないシーン認識フレームワークよりも優れた性能を示した。 ノイズのないデータセットでは、ほとんどの場合、我々の手法は位置認識ネットワークや最先端の重み付き線形予測誤差(WPE)アルゴリズムよりも優れています。

Neural networks (NNs) have been widely applied in speech processing tasks, and, in particular, those employing microphone arrays. Nevertheless, most existing NN architectures can only deal with fixed and position-specific microphone arrays. In this paper, we present an NN architecture that can cope with microphone arrays whose number and positions of the microphones are unknown, and demonstrate its applicability in the speech dereverberation task. To this end, our approach harnesses recent advances in deep learning on set-structured data to design an architecture that enhances the reverberant log-spectrum. We use noisy and noiseless versions of a simulated reverberant dataset to test the proposed architecture. Our experiments on the noisy data show that the proposed scene-agnostic setup outperforms a powerful scene-aware framework, sometimes even with fewer microphones. With the noiseless dataset we show that, in most cases, our method outperforms the position-aware network as well as the state-of-the-art weighted linear prediction error (WPE) algorithm.
翻訳日:2022-10-04 08:36:54 公開日:2021-06-10
# エンド・ツー・エンド音声理解のための2段階テキスト知識蒸留

Two-stage Textual Knowledge Distillation for End-to-End Spoken Language Understanding ( http://arxiv.org/abs/2010.13105v2 )

ライセンス: Link先を確認
Seongbin Kim, Gyuwan Kim, Seongjin Shin, Sangmin Lee(参考訳) エンドツーエンドアプローチは、従来のパイプラインシステムの欠点を軽減することによって、より正確で効率的な音声言語理解(SLU)システムのための新しい方法を開く。 従来の研究は、音声認識による事前学習や知識蒸留による微調整により、SLUモデルのテキスト情報を利用する。 本研究は,テキスト情報をより効果的に活用するために,事前学習と微調整の2つのモードの発話レベル表現と予測ロジットを逐次一致させる2段階のテキスト知識蒸留法を提案する。 Vq-wav2vec BERTを音声エンコーダとして使用しています。 さらに,分散オーディオトークンとコンテキスト化隠れ表現のスパンをランダムにマスキングすることにより,データ拡張手法を用いて,特に低リソースシナリオにおいて性能を向上させる。 その結果、Fluent Speech Commandsの最先端を推し進め、完全なデータセット設定で99.7%、10%のサブセットで99.5%のテスト精度を達成した。 アブレーション研究を通して,すべての使用方法が最終結果に不可欠であることを実証的に検証し,音声言語理解のためのベストプラクティスを提供する。 コードはhttps://github.com/clovaai/textual-kd-sluで入手できる。

End-to-end approaches open a new way for more accurate and efficient spoken language understanding (SLU) systems by alleviating the drawbacks of traditional pipeline systems. Previous works exploit textual information for an SLU model via pre-training with automatic speech recognition or fine-tuning with knowledge distillation. To utilize textual information more effectively, this work proposes a two-stage textual knowledge distillation method that matches utterance-level representations and predicted logits of two modalities during pre-training and fine-tuning, sequentially. We use vq-wav2vec BERT as a speech encoder because it captures general and rich features. Furthermore, we improve the performance, especially in a low-resource scenario, with data augmentation methods by randomly masking spans of discrete audio tokens and contextualized hidden representations. Consequently, we push the state-of-the-art on the Fluent Speech Commands, achieving 99.7% test accuracy in the full dataset setting and 99.5% in the 10% subset setting. Throughout the ablation studies, we empirically verify that all used methods are crucial to the final performance, providing the best practice for spoken language understanding. Code is available at https://github.com/clovaai/textual-kd-slu.
翻訳日:2022-10-03 04:31:58 公開日:2021-06-10
# 構成的適応を促進する線形分類器

Linear Classifiers that Encourage Constructive Adaptation ( http://arxiv.org/abs/2011.00355v3 )

ライセンス: Link先を確認
Yatong Chen, Jialu Wang, Yang Liu(参考訳) 機械学習システムは、個人が望ましい結果を得るために特徴を適応する環境でよく使用される。 このような環境では、戦略的な振る舞いはデプロイメントにおけるモデルパフォーマンスを著しく低下させる。 本研究では,これらの課題に対処するために,意思決定者に対して,予測された「emph{and}」の真の結果の改善につながる方法で特徴の変更を促す分類器の学習を目的とする。 モデルデザイナとその決定対象に対する最適な戦略を特徴付けるため、予測と適応のダイナミクスを2段階ゲームとして構成する。 シミュレーションおよび実世界のデータセットのベンチマークでは、この方法で訓練された分類器が既存のアプローチの精度を維持しつつ、高いレベルの改善と少ない操作を誘導していることがわかった。

Machine learning systems are often used in settings where individuals adapt their features to obtain a desired outcome. In such settings, strategic behavior leads to a sharp loss in model performance in deployment. In this work, we aim to address this problem by learning classifiers that encourage decision subjects to change their features in a way that leads to improvement in both predicted \emph{and} true outcome. We frame the dynamics of prediction and adaptation as a two-stage game, and characterize optimal strategies for the model designer and its decision subjects. In benchmarks on simulated and real-world datasets, we find that classifiers trained using our method maintain the accuracy of existing approaches while inducing higher levels of improvement and less manipulation.
翻訳日:2022-10-01 04:29:24 公開日:2021-06-10
# 画像キャプションのためのピラミッド特徴写像の二重注意

Dual Attention on Pyramid Feature Maps for Image Captioning ( http://arxiv.org/abs/2011.01385v2 )

ライセンス: Link先を確認
Litao Yu, Jian Zhang, Qiang Wu(参考訳) 画像から自然文を生成することはマルチメディアの視覚理解のための基本的な学習課題である。 本稿では,ピラミッド型画像特徴マップに2重注意を適用し,視覚-意味相関を完全に探究し,生成文の品質を向上させることを提案する。 具体的には、RNNコントローラの隠れ状態によって提供されるコンテキスト情報を十分に考慮し、ピラミッドの注意は画像内の視覚的に指示的かつ意味的に一貫した領域をよりよくローカライズすることができる。 一方、コンテキスト情報は、チャンネルの依存性を学習することで、機能コンポーネントの重要性を再検討し、より良いコンテンツ記述のために視覚的特徴の識別能力を向上させるのに役立つ。 Flickr8K,Flickr30K,MS COCOの3つのよく知られたデータセットについて総合的な実験を行った。 コンボリューション視覚特徴またはより情報的なボトムアップ注意特徴を用いて,複合キャプションモデルは単一モデルモードで非常に有望な性能を達成する。 提案したピラミッドアテンション法とデュアルアテンション法は高度にモジュール化されており,様々な画像キャプションモジュールに挿入することで性能を向上することができる。

Generating natural sentences from images is a fundamental learning task for visual-semantic understanding in multimedia. In this paper, we propose to apply dual attention on pyramid image feature maps to fully explore the visual-semantic correlations and improve the quality of generated sentences. Specifically, with the full consideration of the contextual information provided by the hidden state of the RNN controller, the pyramid attention can better localize the visually indicative and semantically consistent regions in images. On the other hand, the contextual information can help re-calibrate the importance of feature components by learning the channel-wise dependencies, to improve the discriminative power of visual features for better content description. We conducted comprehensive experiments on three well-known datasets: Flickr8K, Flickr30K and MS COCO, which achieved impressive results in generating descriptive and smooth natural sentences from images. Using either convolution visual features or more informative bottom-up attention features, our composite captioning model achieves very promising performance in a single-model mode. The proposed pyramid attention and dual attention methods are highly modular, which can be inserted into various image captioning modules to further improve the performance.
翻訳日:2022-09-30 12:34:21 公開日:2021-06-10
# 大規模カーネルマシンのための統一二次フレームワークを目指して

Towards a Unified Quadrature Framework for Large-Scale Kernel Machines ( http://arxiv.org/abs/2011.01668v2 )

ライセンス: Link先を確認
Fanghui Liu, Xiaolin Huang, Yudong Chen, and Johan A.K. Suykens(参考訳) 本稿では,数値積分表現を用いた大規模カーネルマシンのための二次フレームワークを開発した。 ガウスカーネルやアークコサインカーネルなどの典型的なカーネルの統合領域と測度が完全に対称であることを考えると、決定論的完全対称補間規則を利用してカーネル近似の二次ノードと関連する重みを効率的に計算する。 開発した補間規則は,高い近似精度を維持しつつ,必要なノード数を削減することができる。 さらに、上記の決定論的ルールを古典的モンテカルロサンプリングによりランダム化し、2つの利点で可変化制御する。 1)提案した確率的規則は特徴写像の次元を柔軟に変化させ、ディメンネンションをチューニングすることで原核と近似核の相違を制御できる。 2) この確率則は, 収束率の速い非偏りと分散低減の統計学的性質が良好である。 さらに,我々の決定論的・確率的補間則と,スパース格子や球面半径則を含むカーネル近似の現在の二次規則との関係を解明し,これらの手法を我々の枠組みの下で統一する。 いくつかのベンチマークデータセットによる実験結果から,本手法は他の代表的カーネル近似法と比較した。

In this paper, we develop a quadrature framework for large-scale kernel machines via a numerical integration representation. Considering that the integration domain and measure of typical kernels, e.g., Gaussian kernels, arc-cosine kernels, are fully symmetric, we leverage deterministic fully symmetric interpolatory rules to efficiently compute quadrature nodes and associated weights for kernel approximation. The developed interpolatory rules are able to reduce the number of needed nodes while retaining a high approximation accuracy. Further, we randomize the above deterministic rules by the classical Monte-Carlo sampling and control variates techniques with two merits: 1) The proposed stochastic rules make the dimension of the feature mapping flexibly varying, such that we can control the discrepancy between the original and approximate kernels by tuning the dimnension. 2) Our stochastic rules have nice statistical properties of unbiasedness and variance reduction with fast convergence rate. In addition, we elucidate the relationship between our deterministic/stochastic interpolatory rules and current quadrature rules for kernel approximation, including the sparse grids quadrature and stochastic spherical-radial rules, thereby unifying these methods under our framework. Experimental results on several benchmark datasets show that our methods compare favorably with other representative kernel approximation based methods.
翻訳日:2022-09-30 04:09:00 公開日:2021-06-10
# オンラインモニタリングとデータ駆動制御に向けて:レーザー粉体融合プロセスにおけるセグメンテーションアルゴリズムの検討

Towards Online Monitoring and Data-driven Control: A Study of Segmentation Algorithms for Laser Powder Bed Fusion Processes ( http://arxiv.org/abs/2011.09065v2 )

ライセンス: Link先を確認
Alexander Nettekoven, Scott Fish, Joseph Beaman, Ufuk Topcu(参考訳) レーザーパウダーベッド融合機の増加は、オンライン監視とデータ駆動制御能力を改善するためにオフ軸赤外線カメラを使用する。 しかし、これらのカメラからの赤外線画像を適切に処理するためのアルゴリズム的なソリューションが依然として欠けているため、いくつかの重要な制限が生じた: レーザートラックのオンライン監視機能不足、データ駆動方式のための赤外線画像の事前処理不足、赤外線画像を保存するための大きなメモリ要件。 これらの制限に対処するために,各赤外線画像を前景と背景に分割する30以上のセグメンテーションアルゴリズムについて検討した。 各アルゴリズムをセグメンテーション精度,計算速度,スパッタ検出特性に基づいて評価することにより,有望なアルゴリズム解を同定する。 同定されたアルゴリズムは、レーザ粉体層融合機に容易に適用でき、上記の各制限に対処し、プロセス制御を大幅に改善することができる。

An increasing number of laser powder bed fusion machines use off-axis infrared cameras to improve online monitoring and data-driven control capabilities. However, there is still a severe lack of algorithmic solutions to properly process the infrared images from these cameras that has led to several key limitations: a lack of online monitoring capabilities for the laser tracks, insufficient pre-processing of the infrared images for data-driven methods, and large memory requirements for storing the infrared images. To address these limitations, we study over 30 segmentation algorithms that segment each infrared image into a foreground and background. By evaluating each algorithm based on its segmentation accuracy, computational speed, and spatter detection characteristics, we identify promising algorithmic solutions. The identified algorithms can be readily applied to the laser powder bed fusion machines to address each of the above limitations and thus, significantly improve process control.
翻訳日:2022-09-24 04:55:39 公開日:2021-06-10
# マルチモーダルNLPにおけるテキスト特異性とブラックボックスフェアネスアルゴリズムの探索

Exploring Text Specific and Blackbox Fairness Algorithms in Multimodal Clinical NLP ( http://arxiv.org/abs/2011.09625v2 )

ライセンス: Link先を確認
John Chen, Ian Berlot-Attwell, Safwan Hossain, Xindi Wang and Frank Rudzicz(参考訳) 臨床機械学習はますますマルチモーダルになり、構造化された表形式とfreetextのような非構造化形式の両方で収集される。 本稿では, 下流医療予測タスクに等化オッズを適用し, マルチモーダル臨床データセット上で公平性を探索する新しい課題を提案する。 そこで本研究では,モダリティ非依存の公正性アルゴリズム(オッズ処理の等化)について検討し,テキスト固有公正性アルゴリズムと比較した。 偏りのある単語埋め込みは、保護されたグループの等化確率に明示的に対応しないが、公平性に対するテキスト固有のアプローチは、性能のバランスと古典的な公正性の概念を同時に達成できることが示される。 我々は,臨床NLPと公正性の重要な交差に今後の貢献を促すことを願っている。 https://github.com/johntiger1/multimodal_fairness

Clinical machine learning is increasingly multimodal, collected in both structured tabular formats and unstructured forms such as freetext. We propose a novel task of exploring fairness on a multimodal clinical dataset, adopting equalized odds for the downstream medical prediction tasks. To this end, we investigate a modality-agnostic fairness algorithm - equalized odds post processing - and compare it to a text-specific fairness algorithm: debiased clinical word embeddings. Despite the fact that debiased word embeddings do not explicitly address equalized odds of protected groups, we show that a text-specific approach to fairness may simultaneously achieve a good balance of performance and classical notions of fairness. We hope that our paper inspires future contributions at the critical intersection of clinical NLP and fairness. The full source code is available here: https://github.com/johntiger1/multimodal_fairness
翻訳日:2022-09-23 20:14:12 公開日:2021-06-10
# 複数のコーパスにまたがるクロスドキュメントイベントコリファレンス解決の一般化

Generalizing Cross-Document Event Coreference Resolution Across Multiple Corpora ( http://arxiv.org/abs/2011.12249v2 )

ライセンス: Link先を確認
Michael Bugert and Nils Reimers and Iryna Gurevych(参考訳) クロスドキュメントイベントコア参照解決(CDCR)は、文書の集合を通してイベントの特定とクラスタ化を行う必要があるNLPタスクである。 CDCRは、下流のマルチドキュメントアプリケーションに利益をもたらすことを目的としているが、コーパスとシステム開発が最近進歩しているにもかかわらず、CDCRの適用によるダウンストリームの改善はまだ示されていない。 これまでのcdcrシステムは、それぞれ1つのコーパス上でのみ、開発、訓練、テストが行われた。 これは、整列されたコーパスにあるものよりもドメインの大きさやイベントへの言及が大きい下流アプリケーションに必要な、その一般化可能性に対する強い懸念を引き起こす。 そこで,本研究では,cdcrコーパスとして,ecb+,銃暴力コーパス,サッカーコリファレンスコーパスの3つのコーパス(トークンレベルで再注釈し,分析を可能にする)を用いた一様評価設定を定式化する。 我々は、コーパスに依存しない機能ベースのシステムを、ECB+向けに開発された最近のニューラルネットワークと比較する。 絶対数では劣るが、機能ベースのシステムは全てのコーパスに対してより一貫性のある性能を示す。 モデルイントロスペクションにより,コア参照の解決におけるイベントアクションやイベント時間などの重要性は,コーパス間で大きく異なることがわかった。 追加分析では、いくつかのシステムがECB+コーパスの構造に過度に適合していることが示されている。 今後,適用可能なCDCRシステムを実現するための推奨事項として,複数のCDCRコーパスの評価が不可欠である点が重要となる。 今後の研究を促進するため,我々はデータセット,ガイドライン,システム実装を一般公開した。

Cross-document event coreference resolution (CDCR) is an NLP task in which mentions of events need to be identified and clustered throughout a collection of documents. CDCR aims to benefit downstream multi-document applications, but despite recent progress on corpora and system development, downstream improvements from applying CDCR have not been shown yet. We make the observation that every CDCR system to date was developed, trained, and tested only on a single respective corpus. This raises strong concerns on their generalizability -- a must-have for downstream applications where the magnitude of domains or event mentions is likely to exceed those found in a curated corpus. To investigate this assumption, we define a uniform evaluation setup involving three CDCR corpora: ECB+, the Gun Violence Corpus and the Football Coreference Corpus (which we reannotate on token level to make our analysis possible). We compare a corpus-independent, feature-based system against a recent neural system developed for ECB+. Whilst being inferior in absolute numbers, the feature-based system shows more consistent performance across all corpora whereas the neural system is hit-and-miss. Via model introspection, we find that the importance of event actions, event time, etc. for resolving coreference in practice varies greatly between the corpora. Additional analysis shows that several systems overfit on the structure of the ECB+ corpus. We conclude with recommendations on how to achieve generally applicable CDCR systems in the future -- the most important being that evaluation on multiple CDCR corpora is strongly necessary. To facilitate future research, we release our dataset, annotation guidelines, and system implementation to the public.
翻訳日:2022-09-21 13:10:47 公開日:2021-06-10
# align, then memorise: フィードバックアライメントによる学習のダイナミクス

Align, then memorise: the dynamics of learning with feedback alignment ( http://arxiv.org/abs/2011.12428v2 )

ライセンス: Link先を確認
Maria Refinetti, St\'ephane d'Ascoli, Ruben Ohana, Sebastian Goldt(参考訳) 直接フィードバックアライメント(DFA)は、ディープニューラルネットワークをトレーニングするためのユビキタスバックプロパゲーションアルゴリズムに代わる、効率的で生物学的に妥当な代替手段として浮上している。 後方通過の無作為なフィードバック重みに依存するにもかかわらず、dfaはトランスフォーマーのような最先端のモデルをうまく訓練した。 一方で、畳み込みネットワークのトレーニングには失敗している。 これらのばらつきの結果を説明するためのDFAの内部動作の理解はいまだ解明されていない。 本稿では,DFAの成功に関する理論を提案する。 まず,浅層ネットワークでの学習が2つのステップで進行することを示す。モデルが重みを適応して近似勾配を損失関数の真の勾配に合わせるアライメントフェーズと,モデルをデータ適合に焦点をあてた記憶フェーズである。 この2段階のプロセスは退化分解効果を持つ: ランドスケープにおけるすべての低損失解のうち、dfaで訓練されたネットワークは自然に解に収束し、勾配アライメントを最大化する。 また、深い線形ネットワークにおけるアライメントの基礎となる重要な量、すなわちアライメント行列の条件付けも同定する。 後者は、データ構造がアライメントに与える影響の詳細な理解を可能にし、DFAが畳み込みニューラルネットワークのトレーニングに失敗していることの簡単な説明を提案する。 MNISTとCIFAR10の数値実験により、深い非線形ネットワークの縮退が明らかに示され、整列記憶過程がネットワークの底層から上部まで順次起こることが示されている。

Direct Feedback Alignment (DFA) is emerging as an efficient and biologically plausible alternative to the ubiquitous backpropagation algorithm for training deep neural networks. Despite relying on random feedback weights for the backward pass, DFA successfully trains state-of-the-art models such as Transformers. On the other hand, it notoriously fails to train convolutional networks. An understanding of the inner workings of DFA to explain these diverging results remains elusive. Here, we propose a theory for the success of DFA. We first show that learning in shallow networks proceeds in two steps: an alignment phase, where the model adapts its weights to align the approximate gradient with the true gradient of the loss function, is followed by a memorisation phase, where the model focuses on fitting the data. This two-step process has a degeneracy breaking effect: out of all the low-loss solutions in the landscape, a network trained with DFA naturally converges to the solution which maximises gradient alignment. We also identify a key quantity underlying alignment in deep linear networks: the conditioning of the alignment matrices. The latter enables a detailed understanding of the impact of data structure on alignment, and suggests a simple explanation for the well-known failure of DFA to train convolutional neural networks. Numerical experiments on MNIST and CIFAR10 clearly demonstrate degeneracy breaking in deep non-linear networks and show that the align-then-memorise process occurs sequentially from the bottom layers of the network to the top.
翻訳日:2022-09-21 12:09:43 公開日:2021-06-10
# amu-euranova at case 2021 task 1: the stability of multilingual bert

AMU-EURANOVA at CASE 2021 Task 1: Assessing the stability of multilingual BERT ( http://arxiv.org/abs/2106.14625v1 )

ライセンス: Link先を確認
L\'eo Bouscarrat (LIS, TALEP, QARMA), Antoine Bonnefoy, C\'ecile Capponi (LIS, QARMA), Carlos Ramisch (LIS, TALEP)(参考訳) 本稿では,CASE 2021共有タスクのタスク1への参加について説明する。 この課題はニュースからの多言語イベント抽出である。 サブタスク4とイベント情報抽出に注目した。 このサブタスクには小さなトレーニングデータセットがあり、このサブタスクを解決するために多言語BERTを微調整しました。 我々は,データセットの不安定性問題を調査し,その軽減を試みた。

This paper explains our participation in task 1 of the CASE 2021 shared task. This task is about multilingual event extraction from news. We focused on sub-task 4, event information extraction. This sub-task has a small training dataset and we fine-tuned a multilingual BERT to solve this sub-task. We studied the instability problem on the dataset and tried to mitigate it.
翻訳日:2021-07-04 19:38:13 公開日:2021-06-10
# (参考訳) ssvepとeye blinksを用いたハイブリッドbciシステムによる車椅子の自動化

Wheelchair automation by a hybrid BCI system using SSVEP and eye blinks ( http://arxiv.org/abs/2106.11008v1 )

ライセンス: CC BY 4.0
Lizy Kanungo, Nikhil Garg, Anish Bhobe, Smit Rajguru, Veeky Baths(参考訳) 本研究は、障害者用車椅子の自動化のためのハイブリッド脳コンピュータインタフェースシステムを提案する。 ここでは、bciベースの車椅子のプロトタイプを詳述し、一般的な家庭環境の中で、最小限の構造変更で、視覚的な障害や不快感を伴わずにナビゲートできる。 プロトタイプは定常的な視覚誘発電位と眼点滅の複合機構に基づいている。 SSVEPを抽出するために、それぞれ13Hzと15Hzで点滅するLEDを用いて左右の方向を選択し、脳波データを記録した。 また,継続動作停止の指標として3つの連続点滅の発生が用いられた。 ウェーブレットパケット除算法を応用し, 狭帯域再構成脳波信号に対するウェーブレットパケット分解や正準相関解析などの特徴抽出法を適用した。 ベイズ最適化は、サポートベクターマシンのハイパーパラメータを最適化するために5倍のクロスバリデーションを得るために用いられた。 その結果, 平均クロスバリデーション精度89.65% + 6.6% (sd) と試験精度83.53% + 8.59% (sd) が得られた。 車椅子はWiFi経由でRaspberryPiによって制御された。 試作された試作機は、コマンドの実行毎に平均86.97%の成功率を示し、4.015であった。 プロトタイプは、ユーザに不快感を与えることなく、家庭環境で効率的に使用できる。

This work proposes a hybrid Brain Computer Interface system for the automation of a wheelchair for the disabled. Herein a working prototype of a BCI-based wheelchair is detailed that can navigate inside a typical home environment with minimum structural modification and without any visual obstruction and discomfort to the user. The prototype is based on a combined mechanism of steady-state visually evoked potential and eye blinks. To elicit SSVEP, LEDs flickering at 13Hz and 15Hz were used to select the left and right direction, respectively, and EEG data was recorded. In addition, the occurrence of three continuous blinks was used as an indicator for stopping an ongoing action. The wavelet packet denoising method was applied, followed by feature extraction methods such as Wavelet Packet Decomposition and Canonical Correlation Analysis over narrowband reconstructed EEG signals. Bayesian optimization was used to obtain 5 fold cross-validations to optimize the hyperparameters of the Support Vector Machine. The resulting new model was tested and the average cross-validation accuracy 89.65% + 6.6% (SD) and testing accuracy 83.53% + 8.59% (SD) were obtained. The wheelchair was controlled by RaspberryPi through WiFi. The developed prototype demonstrated an average of 86.97% success rate for all trials with 4.015s for each command execution. The prototype can be used efficiently in a home environment without causing any discomfort to the user.
翻訳日:2021-06-27 11:01:19 公開日:2021-06-10
# (参考訳) InFlow:正規化フローを用いたロバスト外乱検出

InFlow: Robust outlier detection utilizing Normalizing Flows ( http://arxiv.org/abs/2106.12894v1 )

ライセンス: CC BY 4.0
Nishant Kumar, Pia Hanfeld, Michael Hecht, Michael Bussmann, Stefan Gumhold and Nico Hoffmannn(参考訳) 正規化フローは、移動可能な確率分布と効率的な密度推定を提供する顕著な深い生成モデルである。 しかし、入力表現の局所的特徴を直接エンコードし、out-of-Distribution (OOD)インプットを検出しながら失敗することはよく知られている。 本稿では,注意機構によって拡張された場合,逆攻撃を含む外れ値を確実に検出できることを示すことにより,流れの正規化という過信問題を解く。 本手法は, トレーニングに異常データを必要としないため, 様々な実験環境での最先端性能の報告によるood検出の効率を示す。 コードはhttps://github.com/computationalradiationphysics/inflowで利用可能。

Normalizing flows are prominent deep generative models that provide tractable probability distributions and efficient density estimation. However, they are well known to fail while detecting Out-of-Distribution (OOD) inputs as they directly encode the local features of the input representations in their latent space. In this paper, we solve this overconfidence issue of normalizing flows by demonstrating that flows, if extended by an attention mechanism, can reliably detect outliers including adversarial attacks. Our approach does not require outlier data for training and we showcase the efficiency of our method for OOD detection by reporting state-of-the-art performance in diverse experimental settings. Code available at https://github.com/ComputationalRadiationPhysics/InFlow .
翻訳日:2021-06-27 10:48:50 公開日:2021-06-10
# 人工知能における難しい選択

Hard Choices in Artificial Intelligence ( http://arxiv.org/abs/2106.11022v1 )

ライセンス: Link先を確認
Roel Dobbe, Thomas Krendl Gilbert, Yonatan Mintz(参考訳) AIシステムは高利害な社会的ドメインに統合されているため、研究者は安全で倫理的な方法でAIを設計し、運用する方法を調べている。 しかしながら、複雑な社会的文脈における安全リスクの特定と診断の基準はいまだ不明であり、議論されている。 本稿では,AIシステムの安全性と倫理的行動に関する議論の曖昧さについて検討する。 我々は、この曖昧さを数学的形式だけで解決できないことを示し、その代わりに開発の政治や展開の文脈について熟考する必要がある。 新しい社会技術レキシコンを引いて、AIシステム開発の重要段階における異なる設計上の課題の観点から曖昧さを再定義する。 人工知能(HCAI)におけるハード・チョイス(ハード・チョイス)の枠組みは、1)設計決定と主要な社会技術的課題の重複点を特定すること、2)ステークホルダーのフィードバックチャネルの作成を動機付け、安全性の問題を徹底的に解決できるようにする。 そのため、HCAIは民主社会におけるAI開発の現状に関するタイムリーな議論に寄与し、議論はAI安全の目標であり、それが確実にされる手続きではないと主張した。

As AI systems are integrated into high stakes social domains, researchers now examine how to design and operate them in a safe and ethical manner. However, the criteria for identifying and diagnosing safety risks in complex social contexts remain unclear and contested. In this paper, we examine the vagueness in debates about the safety and ethical behavior of AI systems. We show how this vagueness cannot be resolved through mathematical formalism alone, instead requiring deliberation about the politics of development as well as the context of deployment. Drawing from a new sociotechnical lexicon, we redefine vagueness in terms of distinct design challenges at key stages in AI system development. The resulting framework of Hard Choices in Artificial Intelligence (HCAI) empowers developers by 1) identifying points of overlap between design decisions and major sociotechnical challenges; 2) motivating the creation of stakeholder feedback channels so that safety issues can be exhaustively addressed. As such, HCAI contributes to a timely debate about the status of AI development in democratic societies, arguing that deliberation should be the goal of AI Safety, not just the procedure by which it is ensured.
翻訳日:2021-06-27 09:05:07 公開日:2021-06-10
# 脳波データにおけるアーチファクト検出と補正

Artifact Detection and Correction in EEG data: A Review ( http://arxiv.org/abs/2106.13081v1 )

ライセンス: Link先を確認
S Sadiya, T Alhanai, MM Ghassemi(参考訳) 脳電図(EEG)は多くの分野に無数の応用がある。 しかし、脳波の応用は低信号対雑音比で制限される。 複数の種類のアーティファクトが脳波のノイズに寄与し、これらのアーティファクトを検出し、修正するための多くの技術が提案されている。 これらの手法は、単にアーティファクトリデンセグメントを検出して拒否することから、脳波信号からノイズ成分を抽出することまで様々である。 本稿では,脳波データアーチファクト検出と補正のための最新の手法と古典的手法について,最後の半減期に着目して検討する。 提案手法の強みと弱みを比較し,今後の方向性について考察する。

Electroencephalography (EEG) has countless applications across many of fields. However, EEG applications are limited by low signal-to-noise ratios. Multiple types of artifacts contribute to the noisiness of EEG, and many techniques have been proposed to detect and correct these artifacts. These techniques range from simply detecting and rejecting artifact ridden segments, to extracting the noise component from the EEG signal. In this paper we review a variety of recent and classical techniques for EEG data artifact detection and correction with a focus on the last half-decade. We compare the strengths and weaknesses of the approaches and conclude with proposed future directions for the field.
翻訳日:2021-06-27 09:03:46 公開日:2021-06-10
# (参考訳) 機械学習による公共交通システムのロバスト性の推定

Estimating the Robustness of Public Transport Systems Using Machine Learning ( http://arxiv.org/abs/2106.08967v1 )

ライセンス: CC BY 4.0
Matthias M\"uller-Hannemann and Ralf R\"uckert and Alexander Schiewe and Anita Sch\"obel(参考訳) 魅力的で費用効率の良い公共交通システムの計画は、多くのステップを含む非常に複雑な最適化プロセスである。 乗客の視点からの堅牢性の統合は、タスクをさらに難しくします。 文学におけるロバスト性に関する多くの異なる定義により、公共交通機関のロバスト性に対する現実的に許容される評価は、多くのシナリオでその性能をシミュレートすることである。 残念ながら、これは計算コストが非常に高い。 そこで本稿では,機械学習の手法を用いたシナリオベースロバストネス近似の新しい手法を提案する。 我々は,公共交通機関の重要な特徴のサブセットを収集し,その需要を把握し,与えられたロバスト性テストの結果を学習するために,ニューラルネットワークを訓練することにより,高速なアプローチを実現する。 ネットワークは、重要機能のみを使用して、訓練されていないインスタンスのロバスト性を高精度に予測し、一定時間内にロバスト性を近似するトランスポートプランナーのためのロバストネスオラクルを可能にする。 このようなオラクルは、統合公共交通計画のためのローカル検索フレームワークにおける堅牢性を高めるためにブラックボックスとして使用できる。 異なるベンチマークインスタンスを用いた計算実験では、予測の優れた品質を示す。

The planning of attractive and cost efficient public transport systems is a highly complex optimization process involving many steps. Integrating robustness from a passenger's point of view makes the task even more challenging. With numerous different definitions of robustness in literature, a real-world acceptable evaluation of the robustness of a public transport system is to simulate its performance under a large number of possible scenarios. Unfortunately, this is computationally very expensive. In this paper, we therefore explore a new way of such a scenario-based robustness approximation by using methods from machine learning. We achieve a fast approach with a very high accuracy by gathering a subset of key features of a public transport system and its passenger demand and training an artificial neural network to learn the outcome of a given set of robustness tests. The network is then able to predict the robustness of untrained instances with high accuracy using only its key features, allowing for a robustness oracle for transport planners that approximates the robustness in constant time. Such an oracle can be used as black box to increase the robustness within a local search framework for integrated public transportation planning. In computational experiments with different benchmark instances we demonstrate an excellent quality of our predictions.
翻訳日:2021-06-20 16:44:13 公開日:2021-06-10
# (参考訳) 確率勾配とランダム化ゴシップに対するネステロフ加速度の連続的考察

A Continuized View on Nesterov Acceleration for Stochastic Gradient Descent and Randomized Gossip ( http://arxiv.org/abs/2106.07644v1 )

ライセンス: CC BY 4.0
Mathieu Even, Rapha\"el Berthier, Francis Bach, Nicolas Flammarion, Pierre Gaillard, Hadrien Hendrikx, Laurent Massouli\'e, Adrien Taylor(参考訳) 連続時間パラメータによって変数がインデックス化されるネステロフ加速度の近接型である連続化ネステロフ加速度を導入する。 2つの変数は線形常微分方程式に従って連続的に混合し、ランダムな時間に勾配を踏む。 この連続化変種は、連続的および離散的フレームワークの最良の利点である: 連続的なプロセスとして、微分微分積分を使って、パラメータの収束を解析し、解析式を得ることができ、連続化過程の離散化は、ネステロフの元の加速とよく似た収束率で正確に計算できる。 離散化はネステロフ加速度と同じ構造であるが、ランダムパラメータを持つことを示す。 決定論的および確率的勾配の下で,加法的あるいは乗法的雑音を伴う連続したネステロフ加速度を与える。 最後に、連続化フレームワークを用いて、あるエネルギー関数の確率的最小化としてゴシップ平均化問題を表現し、非同期ゴシップアルゴリズムの最初の厳密な加速を提供する。

We introduce the continuized Nesterov acceleration, a close variant of Nesterov acceleration whose variables are indexed by a continuous time parameter. The two variables continuously mix following a linear ordinary differential equation and take gradient steps at random times. This continuized variant benefits from the best of the continuous and the discrete frameworks: as a continuous process, one can use differential calculus to analyze convergence and obtain analytical expressions for the parameters; and a discretization of the continuized process can be computed exactly with convergence rates similar to those of Nesterov original acceleration. We show that the discretization has the same structure as Nesterov acceleration, but with random parameters. We provide continuized Nesterov acceleration under deterministic as well as stochastic gradients, with either additive or multiplicative noise. Finally, using our continuized framework and expressing the gossip averaging problem as the stochastic minimization of a certain energy function, we provide the first rigorous acceleration of asynchronous gossip algorithms.
翻訳日:2021-06-20 16:21:55 公開日:2021-06-10
# 微視的シミュレーションによる効果的な確率微分方程式の学習--確率数値と深層学習を組み合わせる

Learning effective stochastic differential equations from microscopic simulations: combining stochastic numerics and deep learning ( http://arxiv.org/abs/2106.09004v1 )

ライセンス: Link先を確認
Felix Dietrich and Alexei Makeev and George Kevrekidis and Nikolaos Evangelou and Tom Bertalan and Sebastian Reich and Ioannis G. Kevrekidis(参考訳) 粒度粒子またはエージェントベースシミュレーションの粗い観測値に対する有効確率微分方程式 (SDE) を同定し, より微細な力学の粗いサロゲートモデルを提供する。 ニューラルネットワークによるこれらの有効SDEのドリフトと拡散度関数を近似し,有効確率論的ResNetとみなすことができる。 損失関数は、確立された確率的数値積分器(以下、オイラー・マルヤマとミルスタイン)の構造にインスパイアされ、具体化され、我々の近似は、これらの基礎となる数値スキームの誤り解析の恩恵を受けることができる。 また、平均場方程式(英語版)のような近似粗いモデルが利用可能である場合、自然に "physics-informed" グレーボックスの識別にも役立つ。 当社のアプローチでは、長いトラジェクトリを必要とせず、分散スナップショットデータで動作し、スナップショット毎に異なるタイムステップを自然に処理するように設計されています。 私たちは、粗い集合的可観測性が事前に分かっている場合と、データ駆動の方法で見つけなければならない場合の両方を考えます。

We identify effective stochastic differential equations (SDE) for coarse observables of fine-grained particle- or agent-based simulations; these SDE then provide coarse surrogate models of the fine scale dynamics. We approximate the drift and diffusivity functions in these effective SDE through neural networks, which can be thought of as effective stochastic ResNets. The loss function is inspired by, and embodies, the structure of established stochastic numerical integrators (here, Euler-Maruyama and Milstein); our approximations can thus benefit from error analysis of these underlying numerical schemes. They also lend themselves naturally to "physics-informed" gray-box identification when approximate coarse models, such as mean field equations, are available. Our approach does not require long trajectories, works on scattered snapshot data, and is designed to naturally handle different time steps per snapshot. We consider both the case where the coarse collective observables are known in advance, as well as the case where they must be found in a data-driven manner.
翻訳日:2021-06-20 16:10:58 公開日:2021-06-10
# (参考訳) MoParkeR : 多目的パーキング勧告

MoParkeR : Multi-objective Parking Recommendation ( http://arxiv.org/abs/2106.07384v1 )

ライセンス: CC BY 4.0
Mohammad Saiedur Rahaman, Wei Shao, Flora D. Salim, Ayad Turky, Andy Song, Jeffrey Chan, Junliang Jiang, Doug Bradbrook(参考訳) 既存のパーキングレコメンデーションソリューションは主に、未使用のオプションのみに基づく駐車場の検索と提案に重点を置いている。 しかし、駐車スペースには、運賃、駐車規則、目的地までの徒歩距離、移動時間、特定の時刻に占有されない可能性など、駐車場選択に影響する要因もある。 さらに重要なことは、これらの要因は時間とともに変化し、互いに衝突し、現在の駐車推奨システムによって生み出されるレコメンデーションは効果がない可能性がある。 本稿では,多目的駐車レコメンデーションと呼ばれる新しい問題を提案する。 我々は、様々な競合要因を同時に考慮した、MoParkeRと呼ばれる多目的駐車場推薦エンジンを設計する。 具体的には,非支配的なソート技術を用いて,推奨のトレードオフ駐車場からなるパレート最適解の組を計算する。 2つの実世界のデータセットを用いて、多目的レコメンデーション手法の適用性を示す広範な実験を行う。

Existing parking recommendation solutions mainly focus on finding and suggesting parking spaces based on the unoccupied options only. However, there are other factors associated with parking spaces that can influence someone's choice of parking such as fare, parking rule, walking distance to destination, travel time, likelihood to be unoccupied at a given time. More importantly, these factors may change over time and conflict with each other which makes the recommendations produced by current parking recommender systems ineffective. In this paper, we propose a novel problem called multi-objective parking recommendation. We present a solution by designing a multi-objective parking recommendation engine called MoParkeR that considers various conflicting factors together. Specifically, we utilise a non-dominated sorting technique to calculate a set of Pareto-optimal solutions, consisting of recommended trade-off parking spots. We conduct extensive experiments using two real-world datasets to show the applicability of our multi-objective recommendation methodology.
翻訳日:2021-06-20 05:59:54 公開日:2021-06-10
# (参考訳) SemEval-2021 Task 11: NLP ContributionGraph -- 研究知識グラフのためのScholarly NLP Contributionsの構築

SemEval-2021 Task 11: NLPContributionGraph -- Structuring Scholarly NLP Contributions for a Research Knowledge Graph ( http://arxiv.org/abs/2106.07385v1 )

ライセンス: CC BY-SA 4.0
Jennifer D'Souza, S\"oren Auer and Ted Pedersen(参考訳) 現在、学術出版物の自然言語表現と、知的コンテンツ検索を可能にする構造化意味コンテンツモデリングとの間にはギャップがある。 研究の量は毎年急増しており、セマンティックに構造化されたコンテンツを検索する機能は魅力的だ。 SemEval-2021 Shared Task NLPContributionGraph (別名) 英語のNLP学術論文からの貢献を構造化する自動システム開発に参加者が参加する「NCGタスク」)。 SemEvalシリーズの第一種であるこのタスクは、NLPの学術論文から構造化されたデータを3レベルの情報粒度でリリースした。 文レベル、フレーズレベル、フレーズが、知識グラフ(KG)構築のためのトリプルとして整理される。 文章レベルの注釈は、記事の貢献に関する数少ない文章で構成されていた。 句レベルの注釈は科学的用語であり、貢献文からの述語である。 最後に、トリプルは研究概要kgを構成する。 共有タスクでは,投稿文を自動的に分類し,科学用語と関係を抽出し,kgトリプルとして整理することが期待された。 全体では7チーム、27人の参加者が参加している。 ベストエンド・ツー・エンドのタスク・システムは57.27% F1、フレーズ46.41% F1、トリプル22.28% F1を分類した。 三重項を生成する絶対性能は依然として低いが、本稿の結論として、そのようなデータを生成するのが困難であり、モデリングの結果が強調される。

There is currently a gap between the natural language expression of scholarly publications and their structured semantic content modeling to enable intelligent content search. With the volume of research growing exponentially every year, a search feature operating over semantically structured content is compelling. The SemEval-2021 Shared Task NLPContributionGraph (a.k.a. 'the NCG task') tasks participants to develop automated systems that structure contributions from NLP scholarly articles in the English language. Being the first-of-its-kind in the SemEval series, the task released structured data from NLP scholarly articles at three levels of information granularity, i.e. at sentence-level, phrase-level, and phrases organized as triples toward Knowledge Graph (KG) building. The sentence-level annotations comprised the few sentences about the article's contribution. The phrase-level annotations were scientific term and predicate phrases from the contribution sentences. Finally, the triples constituted the research overview KG. For the Shared Task, participating systems were then expected to automatically classify contribution sentences, extract scientific terms and relations from the sentences, and organize them as KG triples. Overall, the task drew a strong participation demographic of seven teams and 27 participants. The best end-to-end task system classified contribution sentences at 57.27% F1, phrases at 46.41% F1, and triples at 22.28% F1. While the absolute performance to generate triples remains low, in the conclusion of this article, the difficulty of producing such data and as a consequence of modeling it is highlighted.
翻訳日:2021-06-20 05:49:37 公開日:2021-06-10
# 半教師付きマルチタスク学習による顧客接触意図の分類

A Semi-supervised Multi-task Learning Approach to Classify Customer Contact Intents ( http://arxiv.org/abs/2106.07381v1 )

ライセンス: Link先を確認
Li Dong, Matthew C. Spencer, Amir Biagi(参考訳) カスタマーサポートの分野では、顧客の意図を理解することが重要なステップです。 機械学習は、この種の意図分類において重要な役割を果たす。 実際には、顧客サポート担当者(csr)から意図予測に関する確認を集めるのが一般的であるが、誤分類されたケースに既存の意図や新しい意図を割り当てるようcsrに依頼するのに必要な制限コストは不要である。 意図ラベルのない確認された症例とは別に、人間の治験のないケースが多数存在する。 このデータ構成(Positives + Unlabeled + Multiclass Negatives)は、モデル開発に固有の課題を生み出します。 そこで本研究では,半教師付きマルチタスク学習パラダイムを提案する。 本論文では,EコマースのWebサイト上で,顧客サポートサービスのためのテキストベースの意図分類モデルを構築する経験について紹介する。 我々は,ユーザコンタクトテキストに負の場合,ドメインおよびタスク適応型ALBERT,ラベルのない未修正データを活用することで,マルチクラス分類から半教師付きマルチタスク学習へモデルを進化させることにより,性能を著しく向上させる。 評価において、最終モデルは、ベースラインの微調整されたマルチクラス分類ALBERTモデルと比較して平均AUC ROCを約20ポイント向上させる。

In the area of customer support, understanding customers' intents is a crucial step. Machine learning plays a vital role in this type of intent classification. In reality, it is typical to collect confirmation from customer support representatives (CSRs) regarding the intent prediction, though it can unnecessarily incur prohibitive cost to ask CSRs to assign existing or new intents to the mis-classified cases. Apart from the confirmed cases with and without intent labels, there can be a number of cases with no human curation. This data composition (Positives + Unlabeled + multiclass Negatives) creates unique challenges for model development. In response to that, we propose a semi-supervised multi-task learning paradigm. In this manuscript, we share our experience in building text-based intent classification models for a customer support service on an E-commerce website. We improve the performance significantly by evolving the model from multiclass classification to semi-supervised multi-task learning by leveraging the negative cases, domain- and task-adaptively pretrained ALBERT on customer contact texts, and a number of un-curated data with no labels. In the evaluation, the final model boosts the average AUC ROC by almost 20 points compared to the baseline finetuned multiclass classification ALBERT model.
翻訳日:2021-06-15 16:39:13 公開日:2021-06-10
# グラフコントラスト学習自動化

Graph Contrastive Learning Automated ( http://arxiv.org/abs/2106.07594v1 )

ライセンス: Link先を確認
Yuning You, Tianlong Chen, Yang Shen, Zhangyang Wang(参考訳) グラフ構造化データの自己教師あり学習は、ラベルのないグラフから一般化、転送可能、堅牢な表現を学ぶことに最近関心を寄せている。 グラフコントラスト学習(GraphCL)は有望な表現学習性能を持つ。 残念ながら、画像データと違い、GraphCLのヒンジは、グラフデータの性質が多様であるため、親指または試行錯誤のルールによってデータセット毎に手動で選択する必要があるアドホックなデータ拡張に有効である。 これにより、GraphCLのより一般的な適用性が大幅に制限される。 本稿では,この重要なギャップを埋めるために,グラフデータ上でGraphCLを実行する際に,データ拡張を自動的に,適応的に動的に選択する統合バイレベル最適化フレームワークを提案する。 JOint Augmentation Optimization (JOAO)と呼ばれる一般的なフレームワークは、min-max Optimizationとしてインスタンス化されている。 joaoによる拡張の選択は、手作りのチューニングで見られる以前の"ベストプラクティス"と概ね一致していることが示されている。 さらに,各トレーニングステップで選択された異なる拡張に対応する異なるプロジェクションヘッドを介して出力特徴をルーティングする,拡張対応プロジェクションヘッド機構を提案する。 広範な実験によって、joaoはgraphclのような最先端の競合製品と同等か、時には優れたパフォーマンスを、さまざまなスケールとタイプの複数のグラフデータセットで実現している。 コードをhttps://github.com/Shen-Lab/GraphCL_Automatedでリリースします。

Self-supervised learning on graph-structured data has drawn recent interest for learning generalizable, transferable and robust representations from unlabeled graphs. Among many, graph contrastive learning (GraphCL) has emerged with promising representation learning performance. Unfortunately, unlike its counterpart on image data, the effectiveness of GraphCL hinges on ad-hoc data augmentations, which have to be manually picked per dataset, by either rules of thumb or trial-and-errors, owing to the diverse nature of graph data. That significantly limits the more general applicability of GraphCL. Aiming to fill in this crucial gap, this paper proposes a unified bi-level optimization framework to automatically, adaptively and dynamically select data augmentations when performing GraphCL on specific graph data. The general framework, dubbed JOint Augmentation Optimization (JOAO), is instantiated as min-max optimization. The selections of augmentations made by JOAO are shown to be in general aligned with previous "best practices" observed from handcrafted tuning: yet now being automated, more flexible and versatile. Moreover, we propose a new augmentation-aware projection head mechanism, which will route output features through different projection heads corresponding to different augmentations chosen at each training step. Extensive experiments demonstrate that JOAO performs on par with or sometimes better than the state-of-the-art competitors including GraphCL, on multiple graph datasets of various scales and types, yet without resorting to any laborious dataset-specific tuning on augmentation selection. We release the code at https://github.com/Shen-Lab/GraphCL_Automated.
翻訳日:2021-06-15 15:43:45 公開日:2021-06-10
# 衝突のない電気自動車ルーティング問題を解決するSMT構成モデル

An SMT Based Compositional Model to Solve a Conflict-Free Electric Vehicle Routing Problem ( http://arxiv.org/abs/2106.07387v1 )

ライセンス: Link先を確認
Sabino Francesco Roselli and Martin Fabian and Knut {\AA}kesson(参考訳) 車両ルーティング問題(英: Vehicle Routing Problem、VRP)は、コスト関数、通常車両数、または総走行距離が最小となるように、客を訪問するためのルートを設計するための組合せ最適化問題である。 この問題は、例えばAutomated Guided Vehiclesが工場内を走り、倉庫から部品を届ける、といった産業シナリオにおける応用を見つける。 電気コンフリクトフリー車両ルーティング問題(cf-evrp:electric conflict-free vehicle routing problem)と呼ばれるこの特殊な問題は、車両の運転範囲の制限、顧客への配達の時間窓、道路セグメントが同時に対応できる車両数の制限といった制約を伴っている。 このような複雑なシステムは、妥当な時間で最適性に容易に解決できない大きなモデルをもたらす。 そこで我々は,問題をより小さく,より単純な部分問題に分解し,元の問題に対して最適かつ実現可能な下位解を与える構成モデルを開発した。 このアルゴリズムはSMTソルバの強みを利用しており、これは以前の研究でスケジューリング問題に対処するための効率的なアプローチであることが証明された。 SMT標準言語で記述されたCF-EVRPのモノリシックモデルと比較すると,構成モデルは極めて高速であることが判明した。

The Vehicle Routing Problem (VRP) is the combinatorial optimization problem of designing routes for vehicles to visit customers in such a fashion that a cost function, typically the number of vehicles, or the total travelled distance is minimized. The problem finds applications in industrial scenarios, for example where Automated Guided Vehicles run through the plant to deliver components from the warehouse. This specific problem, henceforth called the Electric Conflict-Free Vehicle Routing Problem (CF-EVRP), involves constraints such as limited operating range of the vehicles, time windows on the delivery to the customers, and limited capacity on the number of vehicles the road segments can accommodate at the same time. Such a complex system results in a large model that cannot easily be solved to optimality in reasonable time. We therefore developed a compositional model that breaks down the problem into smaller and simpler sub-problems and provides sub-optimal, feasible solutions to the original problem. The algorithm exploits the strengths of SMT solvers, which proved in our previous work to be an efficient approach to deal with scheduling problems. Compared to a monolithic model for the CF-EVRP, written in the SMT standard language and solved using a state-of-the-art SMT solver the compositional model was found to be significantly faster.
翻訳日:2021-06-15 15:39:45 公開日:2021-06-10
# (参考訳) 細かな模倣学習:単一デモによるロボット操作

Coarse-to-Fine Imitation Learning: Robot Manipulation from a Single Demonstration ( http://arxiv.org/abs/2105.06411v2 )

ライセンス: CC BY 4.0
Edward Johns(参考訳) そこで本研究では,視覚模倣学習のための簡易な手法を提案する。ロボット操作タスクを,物体の事前知識を必要とせず,人間の1つのデモンストレーションから学習することができる。 提案手法は,物体の相互作用が開始する時点におけるエンドエフェクタのポーズとして定義される状態が,状態推定問題として模倣学習をモデル化する。 次に、操作タスクを粗い、接近軌跡、それに続く細かな相互作用軌跡としてモデル化することにより、この状態推定器を自己監督的に訓練し、エンドエフェクタのカメラをオブジェクトの周囲に自動的に移動させる。 テスト時には、エンドエフェクタは線形経路を通って推定状態に移動し、元のデモのエンドエフェクタ速度を単純に再生する。 これにより、ポリシーを明示的に学ぶ必要なく、複雑な相互作用軌跡の便利な取得が可能になる。 8つの日常的なタスクにおける実世界の実験は、我々の手法が1人の人間の実演から多様なスキルを習得できることを示している。

We introduce a simple new method for visual imitation learning, which allows a novel robot manipulation task to be learned from a single human demonstration, without requiring any prior knowledge of the object being interacted with. Our method models imitation learning as a state estimation problem, with the state defined as the end-effector's pose at the point where object interaction begins, as observed from the demonstration. By then modelling a manipulation task as a coarse, approach trajectory followed by a fine, interaction trajectory, this state estimator can be trained in a self-supervised manner, by automatically moving the end-effector's camera around the object. At test time, the end-effector moves to the estimated state through a linear path, at which point the original demonstration's end-effector velocities are simply replayed. This enables convenient acquisition of a complex interaction trajectory, without actually needing to explicitly learn a policy. Real-world experiments on 8 everyday tasks show that our method can learn a diverse range of skills from a single human demonstration, whilst also yielding a stable and interpretable controller.
翻訳日:2021-06-15 15:07:24 公開日:2021-06-10
# (参考訳) まばらな混合専門家によるビジョンのスケーリング

Scaling Vision with Sparse Mixture of Experts ( http://arxiv.org/abs/2106.05974v1 )

ライセンス: CC BY 4.0
Carlos Riquelme, Joan Puigcerver, Basil Mustafa, Maxim Neumann, Rodolphe Jenatton, Andr\'e Susano Pinto, Daniel Keysers, Neil Houlsby(参考訳) 専門家ネットワーク(MoE)は、自然言語処理において優れたスケーラビリティを示す。 しかしコンピュータビジョンでは、ほとんどの高性能ネットワークは「dense」であり、つまり全ての入力は各パラメータによって処理される。 我々は、最大密度のネットワークとスケーラブルで競合するVision TransformerのスパースバージョンであるVision MoE(V-MoE)を紹介する。 画像認識に適用すると、V-MoEは最先端のネットワークの性能と一致し、推論時に計算の半分しか必要としない。 さらに,各入力のサブセットをバッチ全体にわたって優先順位付け可能なルーティングアルゴリズムの拡張を提案する。 これにより、V-MoEはパフォーマンスをトレードオフし、テスト時にスムーズに計算できる。 最後に、視覚モデルをスケールするV-MoEの可能性を示し、ImageNetで90.35%に達する15Bパラメータモデルをトレーニングする。

Sparsely-gated Mixture of Experts networks (MoEs) have demonstrated excellent scalability in Natural Language Processing. In Computer Vision, however, almost all performant networks are "dense", that is, every input is processed by every parameter. We present a Vision MoE (V-MoE), a sparse version of the Vision Transformer, that is scalable and competitive with the largest dense networks. When applied to image recognition, V-MoE matches the performance of state-of-the-art networks, while requiring as little as half of the compute at inference time. Further, we propose an extension to the routing algorithm that can prioritize subsets of each input across the entire batch, leading to adaptive per-image compute. This allows V-MoE to trade-off performance and compute smoothly at test-time. Finally, we demonstrate the potential of V-MoE to scale vision models, and train a 15B parameter model that attains 90.35% on ImageNet.
翻訳日:2021-06-15 08:34:41 公開日:2021-06-10
# (参考訳) amrアライメントの多様性、精度、範囲を改善する確率的構造認識アルゴリズム

Probabilistic, Structure-Aware Algorithms for Improved Variety, Accuracy, and Coverage of AMR Alignments ( http://arxiv.org/abs/2106.06002v1 )

ライセンス: CC BY 4.0
Austin Blodgett and Nathan Schneider(参考訳) 本稿では,抽象的意味表現(AMR)グラフの成分を英文で表すアルゴリズムを提案する。 我々は、教師なし学習とヒューリスティックスを組み合わせて、以前のAMR調整器から両方の世界を最大限に活用する。 しかし、我々の教師なしモデルは、個別の構文解析を必要とせず、グラフのサブ構造に敏感である。 提案手法は,従来検討したよりも幅広いamrサブストラクチャをカバーし,ノードやエッジのカバー率を高め,高い精度で実現している。 我々は、AMR解析、生成、評価の研究に使用するLEAMRデータセットと調整器をリリースする。

We present algorithms for aligning components of Abstract Meaning Representation (AMR) graphs to spans in English sentences. We leverage unsupervised learning in combination with heuristics, taking the best of both worlds from previous AMR aligners. Our unsupervised models, however, are more sensitive to graph substructures, without requiring a separate syntactic parse. Our approach covers a wider variety of AMR substructures than previously considered, achieves higher coverage of nodes and edges, and does so with higher accuracy. We will release our LEAMR datasets and aligner for use in research on AMR parsing, generation, and evaluation.
翻訳日:2021-06-15 08:33:26 公開日:2021-06-10
# (参考訳) 集合値帰納規則学習による強化学習ポリシーの合成

Synthesising Reinforcement Learning Policies through Set-Valued Inductive Rule Learning ( http://arxiv.org/abs/2106.06009v1 )

ライセンス: CC BY-SA 4.0
Youri Coppens, Denis Steckelmacher, Catholijn M. Jonker, Ann Now\'e(参考訳) 今日の高度な強化学習アルゴリズムは、人に対する解釈と信頼が難しいブラックボックスポリシーを生成する。 本稿では, cn2ルールマイニングアルゴリズムに基づいて, ポリシーをルールベース決定システムに蒸留する政策蒸留アルゴリズムを提案する。 我々のアプローチの核心は、RLプロセスが単に政策や状態から行動へのマッピングを学ぶだけでなく、代替行動の質を示すアクション値のような追加のメタ情報を生成するという事実です。 このメタ情報は、ある状態に対して複数のアクションがほぼ最適であるかどうかを示すことができる。 私たちはcn2を拡張して、政策をより少ないルールに絞り込む等質な行動に関する知識を活用できるようにします。 次に,ルールが有効な非退化ポリシーを説明することを保証するために,ルールを微調整し,環境内で実行した場合の良好な性能を得るための改良アルゴリズムを提案する。 ニューラルネットワークを含む現代的な強化学習アルゴリズムを必要とする複雑なタスクであるmario aiベンチマークで,本アルゴリズムの適用性を示す。 私たちが生成した説明は、ブラックボックスエージェントが学んだことを理解できるように、学習したポリシーをほんの数ルールでキャプチャする。 ソースコード: https://gitlab.ai.vub.ac.be/yocoppen/svcn2

Today's advanced Reinforcement Learning algorithms produce black-box policies, that are often difficult to interpret and trust for a person. We introduce a policy distilling algorithm, building on the CN2 rule mining algorithm, that distills the policy into a rule-based decision system. At the core of our approach is the fact that an RL process does not just learn a policy, a mapping from states to actions, but also produces extra meta-information, such as action values indicating the quality of alternative actions. This meta-information can indicate whether more than one action is near-optimal for a certain state. We extend CN2 to make it able to leverage knowledge about equally-good actions to distill the policy into fewer rules, increasing its interpretability by a person. Then, to ensure that the rules explain a valid, non-degenerate policy, we introduce a refinement algorithm that fine-tunes the rules to obtain good performance when executed in the environment. We demonstrate the applicability of our algorithm on the Mario AI benchmark, a complex task that requires modern reinforcement learning algorithms including neural networks. The explanations we produce capture the learned policy in only a few rules, that allow a person to understand what the black-box agent learned. Source code: https://gitlab.ai.vub.ac.be/yocoppen/svcn2
翻訳日:2021-06-15 08:15:35 公開日:2021-06-10
# (参考訳) IoT周波数帯域における干渉検出とモデル化のための機械学習フレームワーク

Machine Learning Framework for Sensing and Modeling Interference in IoT Frequency Bands ( http://arxiv.org/abs/2106.06010v1 )

ライセンス: CC BY 4.0
Bassel Al Homssi and Akram Al-Hourani and Zarko Krusevac and Wayne S T Rowe(参考訳) スペクトル不足は、過去数年間に新しい技術が出現し、無線通信における重要な関心事となっている。 その結果、モノのインターネットをサポートする新たなアクセス技術によって、スペクトル占有率をよりよく理解する必要性が高まっている。 本稿では、共有帯域におけるIoTアプリケーションにおける短時間スペクトル占有のトラフィック挙動をキャプチャし、モデル化し、既存の干渉を判定するフレームワークを提案する。 提案手法は,電力スペクトル密度に変換された時系列データを捕捉し,観測された占有率を抽出することで,iot送信の短いバーストを監視するためのソフトウェア無線を利用する。 さらに,従来実装されていたエネルギー検出手法を強化するための教師なし機械学習手法を提案する。 実験の結果, スペクトルの時間的および周波数的挙動は, 半マルコフ鎖とポアソン分布の到達率という2つのモデルの組み合わせによりよく把握できることがわかった。 我々は,異なる都市環境において広範な計測キャンペーンを実施し,その空間効果をiot共有スペクトルに組み込む。

Spectrum scarcity has surfaced as a prominent concern in wireless radio communications with the emergence of new technologies over the past few years. As a result, there is growing need for better understanding of the spectrum occupancy with newly emerging access technologies supporting the Internet of Things. In this paper, we present a framework to capture and model the traffic behavior of short-time spectrum occupancy for IoT applications in the shared bands to determine the existing interference. The proposed capturing method utilizes a software defined radio to monitor the short bursts of IoT transmissions by capturing the time series data which is converted to power spectral density to extract the observed occupancy. Furthermore, we propose the use of an unsupervised machine learning technique to enhance conventionally implemented energy detection methods. Our experimental results show that the temporal and frequency behavior of the spectrum can be well-captured using the combination of two models, namely, semi-Markov chains and a Poisson-distribution arrival rate. We conduct an extensive measurement campaign in different urban environments and incorporate the spatial effect on the IoT shared spectrum.
翻訳日:2021-06-15 08:00:15 公開日:2021-06-10
# (参考訳) GAN自動設計のための自己適応型超解像構造フレームワーク

A self-adapting super-resolution structures framework for automatic design of GAN ( http://arxiv.org/abs/2106.06011v1 )

ライセンス: CC BY 4.0
Yibo Guo, Haidi Wang, Yiming Fan, Shunyao Li, Mingliang Xu(参考訳) ディープラーニングの発展に伴い、単一の超解像度画像再構成ネットワークモデルはますます複雑になりつつある。 モデルのハイパーパラメータの小さな変更は、モデルパフォーマンスに大きな影響を与えます。 既存の研究では、経験値やブルートフォース探索の実行に基づいて、専門家は徐々に最適なモデルパラメータのセットを探索してきた。 本稿では,新しい高分解能画像再構成生成対向ネットワークフレームワークと,生成器と識別器のハイパーパラメータを最適化するベイズ最適化手法を提案する。 発電機は自己校正された畳み込みで作られ、識別器は畳み込みによって作られる。 我々は,ネットワーク層数やニューロン数などのハイパーパラメータを定義した。 本手法は,GANの最適化ポリシとしてベイズ最適化を採用する。 最適なハイパーパラメータソリューションを自動で見つけるだけでなく、超高解像度画像再構成ネットワークの構築も可能で、手動の作業量を削減できる。 実験により、ベイズ最適化は他の2つの最適化アルゴリズムよりも早く最適解を探索できることが示されている。

With the development of deep learning, the single super-resolution image reconstruction network models are becoming more and more complex. Small changes in hyperparameters of the models have a greater impact on model performance. In the existing works, experts have gradually explored a set of optimal model parameters based on empirical values or performing brute-force search. In this paper, we introduce a new super-resolution image reconstruction generative adversarial network framework, and a Bayesian optimization method used to optimizing the hyperparameters of the generator and discriminator. The generator is made by self-calibrated convolution, and discriminator is made by convolution lays. We have defined the hyperparameters such as the number of network layers and the number of neurons. Our method adopts Bayesian optimization as a optimization policy of GAN in our model. Not only can find the optimal hyperparameter solution automatically, but also can construct a super-resolution image reconstruction network, reducing the manual workload. Experiments show that Bayesian optimization can search the optimal solution earlier than the other two optimization algorithms.
翻訳日:2021-06-15 07:42:51 公開日:2021-06-10
# (参考訳) 言語間感情検出

Cross-lingual Emotion Detection ( http://arxiv.org/abs/2106.06017v1 )

ライセンス: CC BY 4.0
Sabit Hassan, Shaden Shaar, Kareem Darwish(参考訳) 感情検出は人間を理解する上で非常に重要である。 自動モデルをトレーニングするための注釈付きデータセットの構築は、コストがかかる可能性がある。 対象言語における感情検出モデルを構築するために,ソース言語からのデータを用いた言語間アプローチの有効性を検討する。 i) 本質的に多言語モデル,i) 学習データを対象言語に翻訳する,iii) 自動的にタグ付けされた並列コーパスを用いた3つのアプローチを比較した。 本研究では,アラビア語とスペイン語を対象言語とするソース言語として英語を考察した。 本研究では,BERT や SVM などの異なる分類モデルの有効性について検討した。 対象言語データに基づいてトレーニングされたBERTベースのモノリンガルモデルは,それぞれアラビア語とスペイン語の絶対ジャカードスコアを4%上回り,SOTA(State-of-the-art)を5%上回りました。 次に、英語データのみを用いた言語間アプローチを用いて、アラビア語とスペイン語のBERTモデルの90%以上と80%以上の相対的有効性を達成できることを示す。 最後に、モデル間の差異を解釈するためにLIMEを使用します。

Emotion detection is of great importance for understanding humans. Constructing annotated datasets to train automated models can be expensive. We explore the efficacy of cross-lingual approaches that would use data from a source language to build models for emotion detection in a target language. We compare three approaches, namely: i) using inherently multilingual models; ii) translating training data into the target language; and iii) using an automatically tagged parallel corpus. In our study, we consider English as the source language with Arabic and Spanish as target languages. We study the effectiveness of different classification models such as BERT and SVMs trained with different features. Our BERT-based monolingual models that are trained on target language data surpass state-of-the-art (SOTA) by 4% and 5% absolute Jaccard score for Arabic and Spanish respectively. Next, we show that using cross-lingual approaches with English data alone, we can achieve more than 90% and 80% relative effectiveness of the Arabic and Spanish BERT models respectively. Lastly, we use LIME to interpret the differences between models.
翻訳日:2021-06-15 07:32:22 公開日:2021-06-10
# (参考訳) 座標独立畳み込みネットワーク -- リーマン多様体上の等長およびゲージ同変畳み込み

Coordinate Independent Convolutional Networks -- Isometry and Gauge Equivariant Convolutions on Riemannian Manifolds ( http://arxiv.org/abs/2106.06020v1 )

ライセンス: CC BY 4.0
Maurice Weiler, Patrick Forr\'e, Erik Verlinde, Max Welling(参考訳) 深い畳み込みネットワークの大きな成功により、非ユークリッド多様体への畳み込みの一般化に大きな関心がある。 平坦空間に対する大きな複雑度は、畳み込み核が多様体上でどのアライメントを適用するべきかが明らかでないことである。 この曖昧さの根底にある理由は、一般多様体が参照フレーム(ゲージ)の正準選択を伴わないことである。 したがって、カーネルと特徴は任意の座標に対して表現されなければならない。 コーディネート化の特定の選択は、ネットワークの推論に影響を与えるべきではない、と我々は主張する。 座標独立性と重み共有の同時要求は、ネットワークが局所ゲージ変換(局所参照フレームの変更)の下で同変であることを要求することが示される。 したがって、参照フレームの曖昧性は多様体の g-構造に依存するので、対応する構造群 g によりゲージ同値の必要レベルが規定される。 これらのアイソメトリーはG構造の対称性である。 得られた理論はファイバー束の項で座標自由な方法で定式化される。 座標独立畳み込みの設計を例示するために, m\"obius strip 上の畳み込みネットワークを実装した。 畳み込みネットワークの微分幾何学的定式化の一般性は、座標独立畳み込みの特定の例として、一般曲面上の多くのユークリッド cnn,球面 cnn, cnn を説明する広範な文献レビューによって証明される。

Motivated by the vast success of deep convolutional networks, there is a great interest in generalizing convolutions to non-Euclidean manifolds. A major complication in comparison to flat spaces is that it is unclear in which alignment a convolution kernel should be applied on a manifold. The underlying reason for this ambiguity is that general manifolds do not come with a canonical choice of reference frames (gauge). Kernels and features therefore have to be expressed relative to arbitrary coordinates. We argue that the particular choice of coordinatization should not affect a network's inference -- it should be coordinate independent. A simultaneous demand for coordinate independence and weight sharing is shown to result in a requirement on the network to be equivariant under local gauge transformations (changes of local reference frames). The ambiguity of reference frames depends thereby on the G-structure of the manifold, such that the necessary level of gauge equivariance is prescribed by the corresponding structure group G. Coordinate independent convolutions are proven to be equivariant w.r.t. those isometries that are symmetries of the G-structure. The resulting theory is formulated in a coordinate free fashion in terms of fiber bundles. To exemplify the design of coordinate independent convolutions, we implement a convolutional network on the M\"obius strip. The generality of our differential geometric formulation of convolutional networks is demonstrated by an extensive literature review which explains a large number of Euclidean CNNs, spherical CNNs and CNNs on general surfaces as specific instances of coordinate independent convolutions.
翻訳日:2021-06-15 07:02:08 公開日:2021-06-10
# (参考訳) 連続再帰ニューラルネットワークによる階層構造モデリング

Modeling Hierarchical Structures with Continuous Recursive Neural Networks ( http://arxiv.org/abs/2106.06038v1 )

ライセンス: CC BY 4.0
Jishnu Ray Chowdhury, Cornelia Caragea(参考訳) 階層的構文構造に従ってシーケンスを構成する再帰的ニューラルネットワーク(rvnn)は、構造バイアスのない類似モデルと比較して、いくつかの自然言語処理タスクでよく機能している。 しかし、従来のRvNNは、独自のプレーンテキストシーケンスで潜在構造を誘導することができない。 この制限を克服するためにいくつかの拡張が提案されている。 それでもこれらの拡張は、高いバイアスや分散のコストで、代理勾配や強化学習に依存する傾向がある。 本研究では、前述の制限に対処するバックプロパゲーションフレンドリな代替として、連続再帰ニューラルネットワーク(CRvNN)を提案する。 これは、誘導構造に連続的な緩和を組み込むことによって行われる。 CRvNNは論理推論やListOpsといった難解な合成タスクにおいて高い性能を発揮することを示す。 また,crvnnは感情分析や自然言語推論といった実世界のタスクにおいて,事前の潜在構造モデルと同等かそれ以上の性能を示す。

Recursive Neural Networks (RvNNs), which compose sequences according to their underlying hierarchical syntactic structure, have performed well in several natural language processing tasks compared to similar models without structural biases. However, traditional RvNNs are incapable of inducing the latent structure in a plain text sequence on their own. Several extensions have been proposed to overcome this limitation. Nevertheless, these extensions tend to rely on surrogate gradients or reinforcement learning at the cost of higher bias or variance. In this work, we propose Continuous Recursive Neural Network (CRvNN) as a backpropagation-friendly alternative to address the aforementioned limitations. This is done by incorporating a continuous relaxation to the induced structure. We demonstrate that CRvNN achieves strong performance in challenging synthetic tasks such as logical inference and ListOps. We also show that CRvNN performs comparably or better than prior latent structure models on real-world tasks such as sentiment analysis and natural language inference.
翻訳日:2021-06-15 06:59:52 公開日:2021-06-10
# (参考訳) 虹深部強化学習を用いたエネルギー仲裁のためのデータ駆動型バッテリ操作

Data-driven battery operation for energy arbitrage using rainbow deep reinforcement learning ( http://arxiv.org/abs/2106.06061v1 )

ライセンス: CC BY 4.0
Daniel J. B. Harrold, Jun Cao, and Zhong Fan(参考訳) 世界がより持続可能なものにするためには、再生可能エネルギーの浸透を増やすためのインテリジェントなソリューションが必要である。 本稿では,モデルフリーの深部強化学習アルゴリズムであるRainbow Deep Q-Networksを用いて小型マイクログリッドの電池を制御し,エネルギーの調停を行い,太陽・風力エネルギー源をより効率的に活用する。 このグリッドはキール大学が収集したデータセットに基づいて独自の需要と再生可能エネルギーで動作し、また実際のホールセールエネルギー市場からの動的エネルギー価格を使用している。 地域気象データを用いた需要予測と価格予測を含む4つのシナリオを検証した。 アルゴリズムとそのサブコンポーネントは、2つの連続制御ベンチマークに対して評価され、Rainbowは他のすべてのメソッドよりも優れている。 本研究は,複雑な環境と報酬関数を扱う際の強化学習に分布的アプローチを用いることの重要性と,実世界のアプリケーションにおけるエージェントの振る舞いの可視化とコンテキスト化に利用することの重要性を示す。

As the world seeks to become more sustainable, intelligent solutions are needed to increase the penetration of renewable energy. In this paper, the model-free deep reinforcement learning algorithm Rainbow Deep Q-Networks is used to control a battery in a small microgrid to perform energy arbitrage and more efficiently utilise solar and wind energy sources. The grid operates with its own demand and renewable generation based on a dataset collected at Keele University, as well as using dynamic energy pricing from a real wholesale energy market. Four scenarios are tested including using demand and price forecasting produced with local weather data. The algorithm and its subcomponents are evaluated against two continuous control benchmarks with Rainbow able to outperform all other method. This research shows the importance of using the distributional approach for reinforcement learning when working with complex environments and reward functions, as well as how it can be used to visualise and contextualise the agent's behaviour for real-world applications.
翻訳日:2021-06-15 06:38:42 公開日:2021-06-10
# (参考訳) 確率的時空間予測のための粒子流付きRNN

RNN with Particle Flow for Probabilistic Spatio-temporal Forecasting ( http://arxiv.org/abs/2106.06064v1 )

ライセンス: CC BY 4.0
Soumyasundar Pal and Liheng Ma and Yingxue Zhang and Mark Coates(参考訳) 時空間予測は、無線、トラフィック、金融ネットワークの分析に多くの応用がある。 多くの古典統計モデルは、時系列データに存在する複雑さと高い非線形性を扱うのに不足している。 ディープラーニングの最近の進歩は、空間的および時間的依存関係のモデリングを改善する。 これらのモデルのほとんどは正確な点予測の獲得に焦点を当てているが、予測の不確かさを特徴付けていない。 本研究では,時系列データを非線形状態空間モデルからランダムに実現し,確率予測のための隠れ状態のベイズ推定を目標とする。 粒子流は, 複雑で高次元的な設定において極めて有効であることを示すため, 状態の後方分布を近似するツールとして用いられる。 いくつかの実世界の時系列データセットの詳細な実験により、我々の手法は、最先端の予測手法に匹敵する精度を維持しながら、不確実性のより良い評価を提供することを示した。

Spatio-temporal forecasting has numerous applications in analyzing wireless, traffic, and financial networks. Many classical statistical models often fall short in handling the complexity and high non-linearity present in time-series data. Recent advances in deep learning allow for better modelling of spatial and temporal dependencies. While most of these models focus on obtaining accurate point forecasts, they do not characterize the prediction uncertainty. In this work, we consider the time-series data as a random realization from a nonlinear state-space model and target Bayesian inference of the hidden states for probabilistic forecasting. We use particle flow as the tool for approximating the posterior distribution of the states, as it is shown to be highly effective in complex, high-dimensional settings. Thorough experimentation on several real world time-series datasets demonstrates that our approach provides better characterization of uncertainty while maintaining comparable accuracy to the state-of-the art point forecasting methods.
翻訳日:2021-06-15 06:02:21 公開日:2021-06-10
# (参考訳) 翻訳1件につき一感

One Sense Per Translation ( http://arxiv.org/abs/2106.06082v1 )

ライセンス: CC BY-SA 4.0
Bradley Hauer, Grzegorz Kondrak(参考訳) 感覚の在庫を定義するために語彙翻訳を使うという考えは、語彙意味論において長い歴史を持っている。 我々は、この一見合理的なアイデアがなぜ有用な結果を生み出せなかったのかという疑問に答えるための理論的枠組みを提案する。 我々は、単語の翻訳がその感覚とどのように関連しているか、また同義語と多義語の関係について、いくつかの命題を正式に証明する。 我々は,BabelNetに関する理論的知見を実証的に検証し,語彙のかなりの部分の教師なし単語感覚の曖昧さをいかに実現できるかを実証した。

The idea of using lexical translations to define sense inventories has a long history in lexical semantics. We propose a theoretical framework which allows us to answer the question of why this apparently reasonable idea failed to produce useful results. We formally prove several propositions on how the translations of a word relate to its senses, as well as on the relationship between synonymy and polysemy. We empirically validate our theoretical findings on BabelNet, and demonstrate how they could be used to perform unsupervised word sense disambiguation of a substantial fraction of the lexicon.
翻訳日:2021-06-15 06:01:18 公開日:2021-06-10
# (参考訳) 勾配分散:ユーザ参加者行列の再構成による連合学習におけるプライバシの破断

Gradient Disaggregation: Breaking Privacy in Federated Learning by Reconstructing the User Participant Matrix ( http://arxiv.org/abs/2106.06089v1 )

ライセンス: CC BY 4.0
Maximilian Lam, Gu-Yeon Wei, David Brooks, Vijay Janapa Reddi, Michael Mitzenmacher(参考訳) フェデレーション学習におけるモデル更新の集約は,安全性に欠ける可能性がある。 信頼できない中央サーバは、参加者間の更新の合計からユーザ更新を分解し、従来の勾配推論攻撃によって個々のユーザのプライベートトレーニングデータに関する特権情報を取得することができる。 本手法は,連合学習システムの監視,デバッグ,管理に一般的に使用されるデバイスアナリティクスの要約情報を活用し,集約モデル更新から参加者情報(例えば,ユーザが参加するトレーニングラウンド)を再構築する。 攻撃は並列化可能で、最大数千人の参加者でユーザー更新を無効にしました。 我々は,分散した更新に対する様々な推論攻撃の能力について,定量的,質的に有意な改善を示す。 この攻撃により,個々のユーザに対する学習属性の帰属が可能となり,匿名性に違反し,決定された中央サーバが,個々のユーザのデータのプライバシを損なうセキュアアグリゲーションプロトコルを損なう可能性がある。

We show that aggregated model updates in federated learning may be insecure. An untrusted central server may disaggregate user updates from sums of updates across participants given repeated observations, enabling the server to recover privileged information about individual users' private training data via traditional gradient inference attacks. Our method revolves around reconstructing participant information (e.g: which rounds of training users participated in) from aggregated model updates by leveraging summary information from device analytics commonly used to monitor, debug, and manage federated learning systems. Our attack is parallelizable and we successfully disaggregate user updates on settings with up to thousands of participants. We quantitatively and qualitatively demonstrate significant improvements in the capability of various inference attacks on the disaggregated updates. Our attack enables the attribution of learned properties to individual users, violating anonymity, and shows that a determined central server may undermine the secure aggregation protocol to break individual users' data privacy in federated learning.
翻訳日:2021-06-15 05:49:14 公開日:2021-06-10
# (参考訳) 自然言語処理のためのグラフニューラルネットワーク:調査

Graph Neural Networks for Natural Language Processing: A Survey ( http://arxiv.org/abs/2106.06090v1 )

ライセンス: CC BY 4.0
Lingfei Wu, Yu Chen, Kai Shen, Xiaojie Guo, Hanning Gao, Shucheng Li, Jian Pei, Bo Long(参考訳) 自然言語処理(NLP)における様々な課題に対処する上で,ディープラーニングが主流となっている。 テキスト入力は典型的にはトークンの列として表現されるが、グラフ構造で最もよく表現できる多種多様なNLP問題が存在する。 その結果,多くのNLPタスクに対するグラフ上での新しいディープラーニング技術開発への関心が高まっている。 本稿では,自然言語処理のためのグラフニューラルネットワーク(GNN)の概要を紹介する。 グラフ構築,グラフ表現学習,グラフベースエンコーダ・デコーダモデルという3つの軸に沿って,NLP用GNNの既存の研究を体系的に整理した。 さらに,gnnのパワーを活用した多数のnlpアプリケーションを紹介し,ベンチマークデータセット,評価メトリクス,オープンソースコードを要約する。 最後に,NLPにGNNをフル活用する上での課題と今後の研究方向性について論じる。 我々の知る限りでは、これは自然言語処理のためのグラフニューラルネットの最初の包括的概要である。

Deep learning has become the dominant approach in coping with various tasks in Natural LanguageProcessing (NLP). Although text inputs are typically represented as a sequence of tokens, there isa rich variety of NLP problems that can be best expressed with a graph structure. As a result, thereis a surge of interests in developing new deep learning techniques on graphs for a large numberof NLP tasks. In this survey, we present a comprehensive overview onGraph Neural Networks(GNNs) for Natural Language Processing. We propose a new taxonomy of GNNs for NLP, whichsystematically organizes existing research of GNNs for NLP along three axes: graph construction,graph representation learning, and graph based encoder-decoder models. We further introducea large number of NLP applications that are exploiting the power of GNNs and summarize thecorresponding benchmark datasets, evaluation metrics, and open-source codes. Finally, we discussvarious outstanding challenges for making the full use of GNNs for NLP as well as future researchdirections. To the best of our knowledge, this is the first comprehensive overview of Graph NeuralNetworks for Natural Language Processing.
翻訳日:2021-06-15 05:31:15 公開日:2021-06-10
# コミュニティ検出のためのストリーミング信条伝播

Streaming Belief Propagation for Community Detection ( http://arxiv.org/abs/2106.04805v2 )

ライセンス: Link先を確認
Yuchen Wu, MohammadHossein Bateni, Andre Linhares, Filipe Miguel Goncalves de Almeida, Andrea Montanari, Ashkan Norouzi-Fard, Jakab Tardos(参考訳) コミュニティ検出問題では、ネットワークのノードを少数の親密な"コミュニティ"にクラスタ化する必要がある。 単純な確率的ブロックモデルに基づくコミュニティ検出の基本的な統計的限界を特徴づける手法が,近年かなり進歩している。 しかし、現実世界のアプリケーションでは、ネットワーク構造は通常動的であり、時間とともにノードが結合する。 この設定では、各ノードの到着時に限られた数の更新のみを実行するための検出アルゴリズムが望まれる。 標準的な投票手法はこの制約を満たすが、最適にネットワーク情報を利用するかどうかは不明である。 本稿では,ストリーミング確率ブロックモデル(StSBM)と呼ぶ,時間とともに成長するネットワークのシンプルなモデルを提案する。 このモデルでは、投票アルゴリズムには基本的な制限があることを示す。 また,ストリームBP (Stream belief-proagation) アプローチを開発し,一定の状況下で最適性を証明した。 合成および実データに関する理論的知見を検証する。

The community detection problem requires to cluster the nodes of a network into a small number of well-connected "communities". There has been substantial recent progress in characterizing the fundamental statistical limits of community detection under simple stochastic block models. However, in real-world applications, the network structure is typically dynamic, with nodes that join over time. In this setting, we would like a detection algorithm to perform only a limited number of updates at each node arrival. While standard voting approaches satisfy this constraint, it is unclear whether they exploit the network information optimally. We introduce a simple model for networks growing over time which we refer to as streaming stochastic block model (StSBM). Within this model, we prove that voting algorithms have fundamental limitations. We also develop a streaming belief-propagation (StreamBP) approach, for which we prove optimality in certain regimes. We validate our theoretical findings on synthetic and real data.
翻訳日:2021-06-14 14:39:22 公開日:2021-06-10
# ホモトピーアルゴリズムによるスパース・アンド・インセプタブル・アドバーサリー攻撃

Sparse and Imperceptible Adversarial Attack via a Homotopy Algorithm ( http://arxiv.org/abs/2106.06027v1 )

ライセンス: Link先を確認
Mingkang Zhu, Tianlong Chen, Zhangyang Wang(参考訳) sparse adversarial attackは、数ピクセルを摂動するだけでディープニューラルネットワーク(dnn)を騙すことができる(l_0ノルムで表現される)。 近年の研究では、摂動等級の別のl_inftyimperceptibleと組み合わされている。 その結果、スパースと非知覚的な攻撃は事実上関係があり、我々が通常想像したより高いDNNの脆弱性を示している。 しかし、この攻撃は、l_0正規化器とボックス制約を非凸目的物とを結合することで最適化の難しさにより、より困難である。 本稿では,この課題をホモトピーアルゴリズムによって解決し,一つの統一フレームワークに束縛されたスパーシティと摂動に共同で取り組むことを提案する。 提案アルゴリズムの主なステップは,非単調なアクセラレーション・プロキシ・グラディエント・メソッド(nmAPG)を非凸プログラミングに活用することにより,l_0-規則化された逆数損失を最適化することであり,その後にl_0変更制御ステップと,悪質なローカル・ミニマから逃れるための任意のポストアタックステップが続く。 また、このアルゴリズムを構造空間正規化器に拡張する。 CIFAR-10 と ImageNet のデータセットを用いて,攻撃シナリオと非攻撃シナリオの両方に対して提案したホモトピー攻撃の有効性を詳細に検討した。 最先端の手法と比較して、我々のホモトピー攻撃は、cifar-10では42.91%、imagenetでは75.03%、100%攻撃成功率の場合も同様の最大摂動規模で、摂動を著しく減少させる。 私たちのコードは、https://github.com/VITA-Group/SparseADV_Homotopy.comで利用可能です。

Sparse adversarial attacks can fool deep neural networks (DNNs) by only perturbing a few pixels (regularized by l_0 norm). Recent efforts combine it with another l_infty imperceptible on the perturbation magnitudes. The resultant sparse and imperceptible attacks are practically relevant, and indicate an even higher vulnerability of DNNs that we usually imagined. However, such attacks are more challenging to generate due to the optimization difficulty by coupling the l_0 regularizer and box constraints with a non-convex objective. In this paper, we address this challenge by proposing a homotopy algorithm, to jointly tackle the sparsity and the perturbation bound in one unified framework. Each iteration, the main step of our algorithm is to optimize an l_0-regularized adversarial loss, by leveraging the nonmonotone Accelerated Proximal Gradient Method (nmAPG) for nonconvex programming; it is followed by an l_0 change control step, and an optional post-attack step designed to escape bad local minima. We also extend the algorithm to handling the structural sparsity regularizer. We extensively examine the effectiveness of our proposed homotopy attack for both targeted and non-targeted attack scenarios, on CIFAR-10 and ImageNet datasets. Compared to state-of-the-art methods, our homotopy attack leads to significantly fewer perturbations, e.g., reducing 42.91% on CIFAR-10 and 75.03% on ImageNet (average case, targeted attack), at similar maximal perturbation magnitudes, when still achieving 100% attack success rates. Our codes are available at: https://github.com/VITA-Group/SparseADV_Homotopy.
翻訳日:2021-06-14 14:36:25 公開日:2021-06-10
# 単一画像テクスチャ3次元モデルのビュー一般化

View Generalization for Single Image Textured 3D Models ( http://arxiv.org/abs/2106.06533v1 )

ライセンス: Link先を確認
Anand Bhattad, Aysegul Dundar, Guilin Liu, Andrew Tao, Bryan Catanzaro(参考訳) 人間は、単一の2d画像からのみ対象の3d形状とテクスチャを推定することができる。 現在のコンピュータビジョン手法もこれを行うことができるが、ビューの一般化の問題に悩まされている。 機械学習における一般化問題に関しては、単一ビュー精度(cf)のバランスが難しい。 トレーニングエラー(バイアス)は,新しい視点精度(cf。 テストエラー; 分散)。 このトレードオフを管理するために幾何学的剛性を容易に制御できるモデルのクラスについて述べる。 我々は、ビューの一般化を改善するサイクル一貫性の損失について説明する(概して、生成されたビューからのモデルが元のビューをうまく予測すべきである)。 テクスチャを一般化するには、モデルがテクスチャ情報を共有する必要があるため、後部から見た車にはヘッドライトがある。 モデルテクスチャの整合を促進するサイクル一貫性の損失を,共有を促進するために記述する。 本手法を最先端手法と比較し,質的および定量的な改善点を示す。

Humans can easily infer the underlying 3D geometry and texture of an object only from a single 2D image. Current computer vision methods can do this, too, but suffer from view generalization problems - the models inferred tend to make poor predictions of appearance in novel views. As for generalization problems in machine learning, the difficulty is balancing single-view accuracy (cf. training error; bias) with novel view accuracy (cf. test error; variance). We describe a class of models whose geometric rigidity is easily controlled to manage this tradeoff. We describe a cycle consistency loss that improves view generalization (roughly, a model from a generated view should predict the original view well). View generalization of textures requires that models share texture information, so a car seen from the back still has headlights because other cars have headlights. We describe a cycle consistency loss that encourages model textures to be aligned, so as to encourage sharing. We compare our method against the state-of-the-art method and show both qualitative and quantitative improvements.
翻訳日:2021-06-14 14:35:56 公開日:2021-06-10
# 対向ロバスト性へのアンサンブルアプローチ

An Ensemble Approach Towards Adversarial Robustness ( http://arxiv.org/abs/2106.05996v1 )

ライセンス: Link先を確認
Haifeng Qian(参考訳) 敵意の強固さが自然の正確さの犠牲になるという既知の現象である。 このトレードオフを改善するために,複雑な頑健な分類タスクを単純なサブタスクに分割するアンサンブル手法を提案する。 具体的には、フラクタル分割はトレーニングデータから複数のトレーニングセットを導き、フラクタル集約はこれらのセットに基づいてトレーニングされた複数の分類器からの推論出力を組み合わせる。 結果として得られるアンサンブル分類器は、ある条件が満たされていなければ入力の堅牢性を保証するユニークな性質を持つ。 新しいテクニックはmnistとfashion-mnistで評価され、敵対的なトレーニングは行われない。 MNIST分類器は99%の自然精度、70%の頑健性、36.9%の証明可能な頑健性を有し、L2距離は2。 Fashion-MNIST分類器は90%の自然精度、54.5%の頑健性、28.2%の証明可能な頑健性を有しており、L2距離は1.5である。 どちらの結果も新たな技術の現状であり,ラベルペアに挑戦する上での新たな最先端のバイナリ結果も提示する。

It is a known phenomenon that adversarial robustness comes at a cost to natural accuracy. To improve this trade-off, this paper proposes an ensemble approach that divides a complex robust-classification task into simpler subtasks. Specifically, fractal divide derives multiple training sets from the training data, and fractal aggregation combines inference outputs from multiple classifiers that are trained on those sets. The resulting ensemble classifiers have a unique property that ensures robustness for an input if certain don't-care conditions are met. The new techniques are evaluated on MNIST and Fashion-MNIST, with no adversarial training. The MNIST classifier has 99% natural accuracy, 70% measured robustness and 36.9% provable robustness, within L2 distance of 2. The Fashion-MNIST classifier has 90% natural accuracy, 54.5% measured robustness and 28.2% provable robustness, within L2 distance of 1.5. Both results are new state of the art, and we also present new state-of-the-art binary results on challenging label-pairs.
翻訳日:2021-06-14 14:34:05 公開日:2021-06-10
# ドメイントランスフォーマー: 見えない将来のドメインのサンプルを予測する

Domain Transformer: Predicting Samples of Unseen, Future Domains ( http://arxiv.org/abs/2106.06057v1 )

ライセンス: Link先を確認
Johannes Schneider(参考訳) データ分布は通常、時間とともに進化し、分類器の性能を低下させる概念ドリフトのような問題を引き起こす。 私たちは、未発見のデータ(とそのラベル)を予測し、すでにエラーを引き起こしている可能性のある既存の変更を検知し、対応するのではなく、非定常なデータ分散による課題に対処できるようにしたいと考えています。 この目的のために、教師なしの方法でドメイントランスフォーマーを学習し、未知のドメインのデータを生成する。 提案手法はまず,Cycle-GANを用いて自動エンコーダから得られた2つの領域の潜在表現を独立に学習する。 逆に、元のサンプルの変換を学習して、未確認領域への外挿を反復的に適用することができる。 画像データを用いたcnnの評価は,その有用性を確認した。 また、教師なしドメイン適応のよく知られた問題において、ラベルは予測されるがサンプルではないという非常に良い結果が得られる。

The data distribution commonly evolves over time leading to problems such as concept drift that often decrease classifier performance. We seek to predict unseen data (and their labels) allowing us to tackle challenges due to a non-constant data distribution in a \emph{proactive} manner rather than detecting and reacting to already existing changes that might already have led to errors. To this end, we learn a domain transformer in an unsupervised manner that allows generating data of unseen domains. Our approach first matches independently learned latent representations of two given domains obtained from an auto-encoder using a Cycle-GAN. In turn, a transformation of the original samples can be learned that can be applied iteratively to extrapolate to unseen domains. Our evaluation on CNNs on image data confirms the usefulness of the approach. It also achieves very good results on the well-known problem of unsupervised domain adaption, where labels but not samples have to be predicted.
翻訳日:2021-06-14 14:33:43 公開日:2021-06-10
# 野生における経時的ドメイン適応:中間分布が欠如している場合

Gradual Domain Adaptation in the Wild:When Intermediate Distributions are Absent ( http://arxiv.org/abs/2106.06080v1 )

ライセンス: Link先を確認
Samira Abnar, Rianne van den Berg, Golnaz Ghiasi, Mostafa Dehghani, Nal Kalchbrenner, Hanie Sedghi(参考訳) ドメイン不変表現を学習するのではなく、目標がターゲット分布にモデルをシフトする場合に、ドメイン適応の問題に焦点を当てる。 a)中間分布からのサンプルへのアクセス、および(b)ソース分布からの変化量にアノテートされたサンプルの2つの仮定の下で、徐々にシフトしたサンプルに対して、自己学習をうまく適用し、モデルがターゲット分布に適応できることが示されている。 a) 反復的な自己学習によって、暗黙のカリキュラムを利用することで、モデルがターゲットの分布にゆっくりと適応できる、と仮定する。 a)が持たない場合、反復的な自己学習が不足するのを観察する。 本稿では,ソース領域とターゲット領域の例を補間することで,中間分布から仮想サンプルを作成するGIFTを提案する。 自然分布シフトのあるデータセットに対する反復自己学習手法の評価を行い、他のドメイン適応手法に応用すると、ターゲットデータセット上でのモデルの性能が向上することを示す。 a)反復的自己学習の存在下では、自然にサンプルのカリキュラムを形成することを示すために、合成データセットの分析を行う。 さらに, (a) が保持されない場合, GIFT は反復的自己学習よりも優れることを示す。

We focus on the problem of domain adaptation when the goal is shifting the model towards the target distribution, rather than learning domain invariant representations. It has been shown that under the following two assumptions: (a) access to samples from intermediate distributions, and (b) samples being annotated with the amount of change from the source distribution, self-training can be successfully applied on gradually shifted samples to adapt the model toward the target distribution. We hypothesize having (a) is enough to enable iterative self-training to slowly adapt the model to the target distribution, by making use of an implicit curriculum. In the case where (a) does not hold, we observe that iterative self-training falls short. We propose GIFT, a method that creates virtual samples from intermediate distributions by interpolating representations of examples from source and target domains. We evaluate an iterative-self-training method on datasets with natural distribution shifts, and show that when applied on top of other domain adaptation methods, it improves the performance of the model on the target dataset. We run an analysis on a synthetic dataset to show that in the presence of (a) iterative-self-training naturally forms a curriculum of samples. Furthermore, we show that when (a) does not hold, GIFT performs better than iterative self-training.
翻訳日:2021-06-14 14:33:28 公開日:2021-06-10
# 調和カーネル分解によるスケーラブルな変分ガウス過程

Scalable Variational Gaussian Processes via Harmonic Kernel Decomposition ( http://arxiv.org/abs/2106.05992v1 )

ライセンス: Link先を確認
Shengyang Sun, Jiaxin Shi, Andrew Gordon Wilson, Roger Grosse(参考訳) 汎用性を維持しつつ高忠実度近似を提供する新しいスケーラブルな変分ガウス過程近似を提案する。 本研究では,フーリエ級数を用いて直交核の和としてカーネルを分解する高調波核分解(hkd)を提案する。 我々の変分近似はこの直交性を利用して、計算コストの低い多数の誘導点を実現する。 我々は,回帰や分類の問題において,翻訳やリフレクションなどの入力空間対称性を活用し,拡張性と正確性において標準変分法を大幅に上回っていることを示す。 提案手法は, 純粋なGPモデルのうち, CIFAR-10 の最先端化を実現する。

We introduce a new scalable variational Gaussian process approximation which provides a high fidelity approximation while retaining general applicability. We propose the harmonic kernel decomposition (HKD), which uses Fourier series to decompose a kernel as a sum of orthogonal kernels. Our variational approximation exploits this orthogonality to enable a large number of inducing points at a low computational cost. We demonstrate that, on a range of regression and classification problems, our approach can exploit input space symmetries such as translations and reflections, and it significantly outperforms standard variational methods in scalability and accuracy. Notably, our approach achieves state-of-the-art results on CIFAR-10 among pure GP models.
翻訳日:2021-06-14 14:31:23 公開日:2021-06-10
# ランダムバック伝搬重みによる勾配降下の収束とアライメント

Convergence and Alignment of Gradient Descentwith Random Back propagation Weights ( http://arxiv.org/abs/2106.06044v1 )

ライセンス: Link先を確認
Ganlin Song, Ruitu Xu, John Lafferty(参考訳) バックプロパゲーションを伴う確率勾配降下は、人工ニューラルネットワークの働きである。 バックプロパゲーションは生物学的に妥当なアルゴリズムではないと長年認識されてきた。 1つのニューロンのシナプス重みを更新するには、シナプス重みの知識や下流ニューロンの受容野が必要である。 これは、脳における情報処理の生物学的原理を理解するツールとしての人工ニューラルネットワークの使用を制限する。 lillicrapとal。 (2016)は、ランダムおよび固定されたバックプロパゲーション重みを使い、有望なシミュレーションを示す、より生物学的に可能な「フィードバックアライメント」アルゴリズムを提案する。 本稿では,二層ネットワークの2次誤差損失に対する収束とアライメントを解析し,フィードバックアライメント手順の数学的性質について検討する。 過パラメータ設定では、誤差が指数関数的にゼロに収束し、パラメータがランダムなバックプロパゲーションの重みと一致するためには、正規化が必要であることが証明される。 この解析と一致するシミュレーションが与えられ、さらなる一般化が提案される。 これらの結果は、生物学的に可算なアルゴリズムがヘビーン学習とは異なる方法で重み学習を行う方法の理解に寄与し、その性能は非局所的バックプロパゲーションアルゴリズムに匹敵する。

Stochastic gradient descent with backpropagation is the workhorse of artificial neural networks. It has long been recognized that backpropagation fails to be a biologically plausible algorithm. Fundamentally, it is a non-local procedure -- updating one neuron's synaptic weights requires knowledge of synaptic weights or receptive fields of downstream neurons. This limits the use of artificial neural networks as a tool for understanding the biological principles of information processing in the brain. Lillicrap et al. (2016) propose a more biologically plausible "feedback alignment" algorithm that uses random and fixed backpropagation weights, and show promising simulations. In this paper we study the mathematical properties of the feedback alignment procedure by analyzing convergence and alignment for two-layer networks under squared error loss. In the overparameterized setting, we prove that the error converges to zero exponentially fast, and also that regularization is necessary in order for the parameters to become aligned with the random backpropagation weights. Simulations are given that are consistent with this analysis and suggest further generalizations. These results contribute to our understanding of how biologically plausible algorithms might carry out weight learning in a manner different from Hebbian learning, with performance that is comparable with the full non-local backpropagation algorithm.
翻訳日:2021-06-14 14:31:11 公開日:2021-06-10
# コスト制約付きベイズ最適化に対する非線形アプローチ

A Nonmyopic Approach to Cost-Constrained Bayesian Optimization ( http://arxiv.org/abs/2106.06079v1 )

ライセンス: Link先を確認
Eric Hans Lee, David Eriksson, Valerio Perrone, Matthias Seeger(参考訳) ベイズ最適化(BO)は、高価なブラックボックス関数を最適化する一般的な方法である。 BO予算は通常イテレーションで与えられ、各評価が同じコストであると暗黙的に仮定する。 実際、多くのBOアプリケーションにおいて、検索空間の異なる領域において評価コストは著しく異なる。 ハイパーパラメータ最適化では、ニューラルネットワークのトレーニングに費やす時間は層の大きさとともに増加し、臨床試験では、薬物の金銭的コストは変化し、最適な制御では、制御行動は複雑度が異なる。 コスト制約付きBOは、標準BO法のサンプル効率が不適切である時間、お金、エネルギーなどの代替コスト指標と収束する。 コスト制約のあるBOでは、コスト効率はサンプル効率よりもはるかに重要である。 本稿では、コスト制約付きBOを制約付きマルコフ決定プロセス(CMDP)として定式化し、コストと将来のイテレーションを考慮に入れた最適CMDPポリシーへの効率的なロールアウト近似を開発する。 本稿では,ハイパーパラメータ最適化問題の集合とセンサセット選択アプリケーションについて検証を行う。

Bayesian optimization (BO) is a popular method for optimizing expensive-to-evaluate black-box functions. BO budgets are typically given in iterations, which implicitly assumes each evaluation has the same cost. In fact, in many BO applications, evaluation costs vary significantly in different regions of the search space. In hyperparameter optimization, the time spent on neural network training increases with layer size; in clinical trials, the monetary cost of drug compounds vary; and in optimal control, control actions have differing complexities. Cost-constrained BO measures convergence with alternative cost metrics such as time, money, or energy, for which the sample efficiency of standard BO methods is ill-suited. For cost-constrained BO, cost efficiency is far more important than sample efficiency. In this paper, we formulate cost-constrained BO as a constrained Markov decision process (CMDP), and develop an efficient rollout approximation to the optimal CMDP policy that takes both the cost and future iterations into account. We validate our method on a collection of hyperparameter optimization problems as well as a sensor set selection application.
翻訳日:2021-06-14 14:30:49 公開日:2021-06-10
# 層内多様性が一般化ギャップを減らす

Within-layer Diversity Reduces Generalization Gap ( http://arxiv.org/abs/2106.06012v1 )

ライセンス: Link先を確認
Firas Laakom, Jenni Raitoharju, Alexandros Iosifidis, Moncef Gabbouj(参考訳) ニューラルネットワークは階層構造に配置された複数のレイヤで構成され、勾配に基づく最適化によって、エラーが最後のレイヤから最初のレイヤにバックプロパゲーションされる。 各最適化ステップにおいて、与えられた階層のニューロンは階層の上位層に属するニューロンからフィードバックを受け取る。 本稿では、この従来の「中間層」フィードバックを補足して、同一層内での活性化の多様性を促進することを提案する。 この目的のために、ニューロンの出力間の対関係の類似性を計測し、それを用いて層全体の多様性をモデル化する。 類似性を罰し,多様性を促進することにより,各ニューロンが独特の表現を学ぶことを奨励し,レイヤー内で学習したデータ表現を豊かにし,モデルの総容量を増やす。 本研究では,層内活性化の多様性がニューラルネットワークの一般化性能にどのように影響するかを理論的に検討し,隠れ活性化の多様性の増加が推定誤差を減少させることを示した。 理論的な保証に加えて,提案手法が最先端ニューラルネットワークモデルの性能を高め,一般化ギャップを減少させることを示す3つのデータセットに関する実証研究を行った。

Neural networks are composed of multiple layers arranged in a hierarchical structure jointly trained with a gradient-based optimization, where the errors are back-propagated from the last layer back to the first one. At each optimization step, neurons at a given layer receive feedback from neurons belonging to higher layers of the hierarchy. In this paper, we propose to complement this traditional 'between-layer' feedback with additional 'within-layer' feedback to encourage diversity of the activations within the same layer. To this end, we measure the pairwise similarity between the outputs of the neurons and use it to model the layer's overall diversity. By penalizing similarities and promoting diversity, we encourage each neuron to learn a distinctive representation and, thus, to enrich the data representation learned within the layer and to increase the total capacity of the model. We theoretically study how the within-layer activation diversity affects the generalization performance of a neural network and prove that increasing the diversity of hidden activations reduces the estimation error. In addition to the theoretical guarantees, we present an empirical study on three datasets confirming that the proposed approach enhances the performance of state-of-the-art neural network models and decreases the generalization gap.
翻訳日:2021-06-14 14:28:15 公開日:2021-06-10
# フェデレーション学習におけるデータ不均一性に取り組むためのアーキテクチャ設計再考

Rethinking Architecture Design for Tackling Data Heterogeneity in Federated Learning ( http://arxiv.org/abs/2106.06047v1 )

ライセンス: Link先を確認
Liangqiong Qu, Yuyin Zhou, Paul Pu Liang, Yingda Xia, Feifei Wang, Li Fei-Fei, Ehsan Adeli, Daniel Rubin(参考訳) フェデレーテッド・ラーニング(Federated Learning)は、さまざまな組織間で機械学習モデルの協調トレーニングを可能にしつつ、各機関でデータを非公開にする、新たな研究パラダイムである。 近年の進歩にもかかわらず、収束の欠如や、現実世界の異種デバイス間での連合学習における破滅的な忘れ込みの可能性といった根本的な課題が残っている。 本稿では,注意に基づくアーキテクチャ(例えばトランスフォーマー)が分散シフトに対してかなり頑健であることを示し,ヘテロジニアスデータに対するフェデレーション学習を改善する。 具体的には,フェデレーションアルゴリズムや実世界のベンチマーク,異種データ分割など,さまざまなニューラルネットワークアーキテクチャに関する最初の厳密な実証調査を行う。 実験により, 畳み込みネットワークをトランスフォーマーに置き換えれば, 従来装置の悲惨な忘れを著しく減らし, 収束を加速し, 特に異種データを扱う場合, より優れたグローバルモデルに到達できることが示された。 私たちはコードと事前トレーニング済みモデルをhttps://github.com/liangqiong/vit-fl-mainでリリースし、現在の最適化に関する研究の代替として、ロバストアーキテクチャの将来的な調査を奨励します。

Federated learning is an emerging research paradigm enabling collaborative training of machine learning models among different organizations while keeping data private at each institution. Despite recent progress, there remain fundamental challenges such as lack of convergence and potential for catastrophic forgetting in federated learning across real-world heterogeneous devices. In this paper, we demonstrate that attention-based architectures (e.g., Transformers) are fairly robust to distribution shifts and hence improve federated learning over heterogeneous data. Concretely, we conduct the first rigorous empirical investigation of different neural architectures across a range of federated algorithms, real-world benchmarks, and heterogeneous data splits. Our experiments show that simply replacing convolutional networks with Transformers can greatly reduce catastrophic forgetting of previous devices, accelerate convergence, and reach a better global model, especially when dealing with heterogeneous data. We will release our code and pretrained models at https://github.com/Liangqiong/ViT-FL-main to encourage future exploration in robust architectures as an alternative to current research efforts on the optimization front.
翻訳日:2021-06-14 14:27:55 公開日:2021-06-10
# min-max最適化問題の解法に対する分散適応運動量法

A Decentralized Adaptive Momentum Method for Solving a Class of Min-Max Optimization Problems ( http://arxiv.org/abs/2106.06075v1 )

ライセンス: Link先を確認
Babak Barazandeh, Tianjian Huang, George Michailidis(参考訳) ミニマックスサドルポイントゲームは、GANs(Generative Adversarial Networks)のトレーニングを含む幅広い応用のために、最近激しく研究されている。 しかし、近年の課題の多くは凸凹型ゲームのような特殊な制度に限られている。 さらに、基礎となる最適化問題は、一台のマシンか、複数のマシンが中央ノードと通信する集中型方式で接続された場合のいずれかで解決されると、慣例的に仮定される。 通信ネットワークの帯域幅が低くなると,後者のアプローチは困難になる。 さらに、プライバシーに関する考慮は、特定のノードが他のノードのサブセットと通信できることを規定するかもしれない。 したがって、min-maxゲームを分散的に解く方法の開発が注目される。 そこで本研究では,目的関数が凸凹の場合の一般化であるミント変分不等式条件を満たすことを条件として,min-max最適化問題を解く分散適応運動量(adam)型アルゴリズムを開発した。 提案手法は,近年の非適応的勾配に基づく分散アルゴリズムの欠点を克服するものである。 本稿では,(確率的に)一階ナッシュ平衡点を求めるアルゴリズム(dadam$^3$)の非漸近的収束率を求め,学習gansの性能評価を行う。 DADAM$^3$が最近開発された手法として, 分散型楽観的確率勾配を用いた分極化法がある。

Min-max saddle point games have recently been intensely studied, due to their wide range of applications, including training Generative Adversarial Networks~(GANs). However, most of the recent efforts for solving them are limited to special regimes such as convex-concave games. Further, it is customarily assumed that the underlying optimization problem is solved either by a single machine or in the case of multiple machines connected in centralized fashion, wherein each one communicates with a central node. The latter approach becomes challenging, when the underlying communications network has low bandwidth. In addition, privacy considerations may dictate that certain nodes can communicate with a subset of other nodes. Hence, it is of interest to develop methods that solve min-max games in a decentralized manner. To that end, we develop a decentralized adaptive momentum (ADAM)-type algorithm for solving min-max optimization problem under the condition that the objective function satisfies a Minty Variational Inequality condition, which is a generalization to convex-concave case. The proposed method overcomes shortcomings of recent non-adaptive gradient-based decentralized algorithms for min-max optimization problems that do not perform well in practice and require careful tuning. In this paper, we obtain non-asymptotic rates of convergence of the proposed algorithm (coined DADAM$^3$) for finding a (stochastic) first-order Nash equilibrium point and subsequently evaluate its performance on training GANs. The extensive empirical evaluation shows that DADAM$^3$ outperforms recently developed methods, including decentralized optimistic stochastic gradient for solving such min-max problems.
翻訳日:2021-06-14 14:24:28 公開日:2021-06-10
# 投影勾配推定によるプログレッシブスケール境界ブラックボックス攻撃

Progressive-Scale Boundary Blackbox Attack via Projective Gradient Estimation ( http://arxiv.org/abs/2106.06056v1 )

ライセンス: Link先を確認
Jiawei Zhang and Linyi Li and Huichen Li and Xiaolu Zhang and Shuang Yang and Bo Li(参考訳) 境界ベースのブラックボックス攻撃は、攻撃者が最終的なモデル予測にのみアクセスする必要があるため、実用的で効果的であると認識されている。 しかし、そのクエリ効率は一般に高次元画像データに対して高い。 本稿では,このような効率は,攻撃が適用されたスケールに大きく依存し,最適なスケールでのアタックが効率を大幅に改善することを示す。 特に,クエリ効率を向上させるための3つの重要な特徴を分析し,示す理論的枠組みを提案する。 射影勾配推定には最適スケールが存在することを示す。 我々のフレームワークは、既存のバウンダリブラックボックス攻撃によって達成された満足のいくパフォーマンスも説明します。 本稿では,本理論の枠組みに基づき,プログレッシブスケール可能な射影境界攻撃(psba)を提案し,プログレッシブスケーリング手法によるクエリ効率を向上させる。 特に,PSBA-PGANと呼ばれるプログレッシブGANを用いて投影の規模を最適化する。 空間的および周波数的尺度におけるアプローチの評価を行った。 MNIST、CIFAR-10、CelebA、ImageNetの様々なモデルに対する大規模な実験により、PSBA-PGANはクエリ効率とアタック成功率で既存のベースラインアタックを著しく上回っていることが示された。 また,異なるモデルやデータセットに対して比較的安定な最適スケールを観測する。 コードはhttps://github.com/AI-Secure/PSBAで公開されている。

Boundary based blackbox attack has been recognized as practical and effective, given that an attacker only needs to access the final model prediction. However, the query efficiency of it is in general high especially for high dimensional image data. In this paper, we show that such efficiency highly depends on the scale at which the attack is applied, and attacking at the optimal scale significantly improves the efficiency. In particular, we propose a theoretical framework to analyze and show three key characteristics to improve the query efficiency. We prove that there exists an optimal scale for projective gradient estimation. Our framework also explains the satisfactory performance achieved by existing boundary black-box attacks. Based on our theoretical framework, we propose Progressive-Scale enabled projective Boundary Attack (PSBA) to improve the query efficiency via progressive scaling techniques. In particular, we employ Progressive-GAN to optimize the scale of projections, which we call PSBA-PGAN. We evaluate our approach on both spatial and frequency scales. Extensive experiments on MNIST, CIFAR-10, CelebA, and ImageNet against different models including a real-world face recognition API show that PSBA-PGAN significantly outperforms existing baseline attacks in terms of query efficiency and attack success rate. We also observe relatively stable optimal scales for different models and datasets. The code is publicly available at https://github.com/AI-secure/PSBA.
翻訳日:2021-06-14 14:22:32 公開日:2021-06-10
# CodemixedNLP: コードミキシングのための拡張性とオープンなNLPツールキット

CodemixedNLP: An Extensible and Open NLP Toolkit for Code-Mixing ( http://arxiv.org/abs/2106.06004v1 )

ライセンス: Link先を確認
Sai Muralidhar Jayanthi, Kavya Nerella, Khyathi Raghavi Chandu, Alan W Black(参考訳) NLPコミュニティは最近、モノリンガルおよび多言語言語処理の領域で様々なタスクが急激な進歩を遂げているのを目撃している。 これらの成功は、ソーシャルメディア上の混成言語相互作用の拡大と相まって、コード混合テキストのモデリングへの関心を高めている。 本研究では、コードミックスNLPの進歩をまとめ、より広い機械学習コミュニティに開放するという目標を掲げた、オープンソースのライブラリであるCodemixedNLPを紹介する。 このライブラリは、混合テキストに適した多目的モデルアーキテクチャの開発とベンチマークを行うツール、トレーニングセットを拡張する方法、混合スタイルの定量化技術、ヒングリッシュの7つのタスクのための細調整された最先端モデルで構成される。 この研究は、分散的でコラボレーティブで持続可能なエコシステムを、コードミキシング研究の分散領域で育てる可能性があると考えています。 このツールキットは単純で容易に拡張可能で、研究者と実践者の両方にとって有益であるように設計されている。

The NLP community has witnessed steep progress in a variety of tasks across the realms of monolingual and multilingual language processing recently. These successes, in conjunction with the proliferating mixed language interactions on social media have boosted interest in modeling code-mixed texts. In this work, we present CodemixedNLP, an open-source library with the goals of bringing together the advances in code-mixed NLP and opening it up to a wider machine learning community. The library consists of tools to develop and benchmark versatile model architectures that are tailored for mixed texts, methods to expand training sets, techniques to quantify mixing styles, and fine-tuned state-of-the-art models for 7 tasks in Hinglish. We believe this work has a potential to foster a distributed yet collaborative and sustainable ecosystem in an otherwise dispersed space of code-mixing research. The toolkit is designed to be simple, easily extensible, and resourceful to both researchers as well as practitioners.
翻訳日:2021-06-14 14:19:12 公開日:2021-06-10
# ニューラルネットワークモデルにおける構文一致機構の因果解析

Causal Analysis of Syntactic Agreement Mechanisms in Neural Language Models ( http://arxiv.org/abs/2106.06087v1 )

ライセンス: Link先を確認
Matthew Finlayson, Aaron Mueller, Stuart Shieber, Sebastian Gehrmann, Tal Linzen, Yonatan Belinkov(参考訳) 対象とする構文評価は,難易度のある文脈において,言語モデルが主語と動詞の合意を行う能力を示す。 本研究は,この動作をモデルが達成するメカニズムを明らかにするために,事前学習されたニューラルネットワークモデルに対して因果的調停分析を適用する。 本研究は, 文法的屈折に対するモデルの嗜好の大きさ, および, 異なる構文構造を持つ文間で, 主語-動詞の一致が同様に処理されるか否かを考察する。 アーキテクチャとモデルのサイズの類似点と相違点を明らかにする。 また、入力文の構文構造に応じて主語と動詞の合意を生成する2つの異なるメカニズムを観察する。 最後に、類似した構文構造を持つ文が与えられた場合、言語モデルは類似したニューロンの集合に依存する。

Targeted syntactic evaluations have demonstrated the ability of language models to perform subject-verb agreement given difficult contexts. To elucidate the mechanisms by which the models accomplish this behavior, this study applies causal mediation analysis to pre-trained neural language models. We investigate the magnitude of models' preferences for grammatical inflections, as well as whether neurons process subject-verb agreement similarly across sentences with different syntactic structures. We uncover similarities and differences across architectures and model sizes -- notably, that larger models do not necessarily learn stronger preferences. We also observe two distinct mechanisms for producing subject-verb agreement depending on the syntactic structure of the input sentence. Finally, we find that language models rely on similar sets of neurons when given sentences with similar syntactic structure.
翻訳日:2021-06-14 14:18:56 公開日:2021-06-10
# 合成強化による遠隔PPGにおける暗肌者獲得の難しさの克服

Overcoming Difficulty in Obtaining Dark-skinned Subjects for Remote-PPG by Synthetic Augmentation ( http://arxiv.org/abs/2106.06007v1 )

ライセンス: Link先を確認
Yunhao Ba, Zhen Wang, Kerim Doruk Karinca, Oyku Deniz Bozkurt, and Achuta Kadambi(参考訳) カメラベースのリモートフォトプレチモグラフィ(rppg)は、顔の動画を使って生理的信号(例えば心拍数)を測定する非接触方式を提供する。 近年の深層学習アーキテクチャは、これらの生理学的測定の精度を大幅に向上させたが、アノテーション付きビデオの多様性によって制限されている。 既存のデータセット MMSE-HR と AFRL と UBFC-RPPG はそれぞれ、浅黒い肌の被験者の約10%、0%、5% を含む。 バランスの取れないトレーニングセットは、被験者を認識できない一般化能力に乏しい結果となり、異なる集団に対する望ましくない偏見につながる。 西洋の学界では、暗い肌の被験者のデータを集めることは、大学環境では残念なほど難しい。 ここでは,合成補足による浅黒い肌の被験者の欠如を克服する最初の試みを示す。 共同最適化フレームワークは、脈動信号を保ちながら、光肌の被写体から暗い肌の色に実際の映像を翻訳するために利用される。 実験では,暗黒肌群の平均絶対誤差を約31%減少させ,全群に対するバイアス軽減率を46%向上させた。

Camera-based remote photoplethysmography (rPPG) provides a non-contact way to measure physiological signals (e.g., heart rate) using facial videos. Recent deep learning architectures have improved the accuracy of such physiological measurement significantly, yet they are restricted by the diversity of the annotated videos. The existing datasets MMSE-HR, AFRL, and UBFC-RPPG contain roughly 10%, 0%, and 5% of dark-skinned subjects respectively. The unbalanced training sets result in a poor generalization capability to unseen subjects and lead to unwanted bias toward different demographic groups. In Western academia, it is regrettably difficult in a university setting to collect data on these dark-skinned subjects. Here we show a first attempt to overcome the lack of dark-skinned subjects by synthetic augmentation. A joint optimization framework is utilized to translate real videos from light-skinned subjects to dark skin tones while retaining their pulsatile signals. In the experiment, our method exhibits around 31% reduction in mean absolute error for the dark-skinned group and 46% improvement on bias mitigation for all the groups, as compared with the previous work trained with just real samples.
翻訳日:2021-06-14 14:17:33 公開日:2021-06-10
# 映像異常検出における次の局所出現予測

Predicting Next Local Appearance for Video Anomaly Detection ( http://arxiv.org/abs/2106.06059v1 )

ライセンス: Link先を確認
Pankaj Raj Roy, Guillaume-Alexandre Bilodeau and Lama Seoud(参考訳) ビデオに局所異常検出手法を提案する。 計算コストが高く,異なる映像シーンではあまり一般化できない既存の手法とは対照的に,シーンの次のフレームにおける通常の振る舞いオブジェクトの出現を,現在と過去の外観にのみ依存して予測することにより,時間的局所的な外観変化を学習する逆向きのフレームワークを提案する。 異常な振る舞いのある物体が存在する場合、その物体の現実と予測される次の出現の間の再構成誤差は異常の可能性を示唆する。 提案手法は,既存の最先端技術と競合すると同時に,トレーニングと推論の両面において極めて高速であり,映像シーンの可視化に優れる。

We present a local anomaly detection method in videos. As opposed to most existing methods that are computationally expensive and are not very generalizable across different video scenes, we propose an adversarial framework that learns the temporal local appearance variations by predicting the appearance of a normally behaving object in the next frame of a scene by only relying on its current and past appearances. In the presence of an abnormally behaving object, the reconstruction error between the real and the predicted next appearance of that object indicates the likelihood of an anomaly. Our method is competitive with the existing state-of-the-art while being significantly faster for both training and inference and being better at generalizing to unseen video scenes.
翻訳日:2021-06-14 14:17:12 公開日:2021-06-10
# 物体検出のためのガウス境界ボックスと確率的相互接続

Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection ( http://arxiv.org/abs/2106.06072v1 )

ライセンス: Link先を確認
Jeffri M. Llerena, Luis Felipe Zeni, Lucas N. Kristen, Claudio Jung(参考訳) ほとんどのオブジェクト検出方法は、境界ボックスを使用してオブジェクトの形状と位置をエンコードし、表現する。 本研究では,ガウス分布を用いた対象領域のファジィ表現について検討する。 また,Helinger Distanceに基づくガウス分布の類似度尺度も提示し,確率的インターセクション・オーバー・ユニオン(ProbIoU)とみなすことができる。 実験の結果,提案したガウス表現は公開データセットの注釈付きセグメンテーションマスクに近づき,ProbIoUに基づく損失関数はガウス表現のパラメータの回帰に有効であることが示唆された。 さらに,従来の(あるいは回転した)バウンディングボックスからガウス表現への単純なマッピングスキームを提案し,提案するprobiouベースの損失を任意の物体検出器にシームレスに統合する。

Most object detection methods use bounding boxes to encode and represent the object shape and location. In this work, we explore a fuzzy representation of object regions using Gaussian distributions, which provides an implicit binary representation as (potentially rotated) ellipses. We also present a similarity measure for the Gaussian distributions based on the Hellinger Distance, which can be viewed as a Probabilistic Intersection-over-Union (ProbIoU). Our experimental results show that the proposed Gaussian representations are closer to annotated segmentation masks in publicly available datasets, and that loss functions based on ProbIoU can be successfully used to regress the parameters of the Gaussian representation. Furthermore, we present a simple mapping scheme from traditional (or rotated) bounding boxes to Gaussian representations, allowing the proposed ProbIoU-based losses to be seamlessly integrated into any object detector.
翻訳日:2021-06-14 14:16:59 公開日:2021-06-10
# 動的シーンにおけるオブジェクトベースのサスカディック決定のためのモジュラーフレームワーク

A modular framework for object-based saccadic decisions in dynamic scenes ( http://arxiv.org/abs/2106.06073v1 )

ライセンス: Link先を確認
Nicolas Roth, Pia Bideau, Olaf Hellwich, Martin Rolfs, Klaus Obermayer(参考訳) 私たちの周りの世界を視覚的に探索することは受動的プロセスではありません。 代わりに、私たちは積極的に世界を探索し、時間とともに視覚情報を取得します。 本稿では,人間の眼球運動を動的実世界のシーンでシミュレートする新しいモデルを提案する。 この活動的なシーン探索を逐次的な意思決定プロセスとしてモデル化する。 我々は,人気のあるドリフト拡散モデル(ddm)を知覚的意思決定に適用し,シーンに存在するオブジェクトによって定義される複数の選択肢へと拡張する。 可能な選択ごとに、モデルがエビデンスを時間とともに統合し、証拠が決定しきい値を越えると、意思決定(サッカディック眼球運動)がトリガーされる。 意思決定とオブジェクトベースのシーン知覚の間の明示的な関係は、外部環境と対話しながら意思決定を継続するアクティブな視聴の文脈で非常に関係している。 モデルを注意深く設計したアブレーション研究で検証し,モデルパラメータの影響について検討した。 VidComデータセットの比較は、提案手法の妥当性を支持する。

Visually exploring the world around us is not a passive process. Instead, we actively explore the world and acquire visual information over time. Here, we present a new model for simulating human eye-movement behavior in dynamic real-world scenes. We model this active scene exploration as a sequential decision making process. We adapt the popular drift-diffusion model (DDM) for perceptual decision making and extend it towards multiple options, defined by objects present in the scene. For each possible choice, the model integrates evidence over time and a decision (saccadic eye movement) is triggered as soon as evidence crosses a decision threshold. Drawing this explicit connection between decision making and object-based scene perception is highly relevant in the context of active viewing, where decisions are made continuously while interacting with an external environment. We validate our model with a carefully designed ablation study and explore influences of our model parameters. A comparison on the VidCom dataset supports the plausibility of the proposed approach.
翻訳日:2021-06-14 14:16:41 公開日:2021-06-10
# 周期的不確実性下での長期時系列予測

Deep Probabilistic Koopman: Long-term time-series forecasting under periodic uncertainties ( http://arxiv.org/abs/2106.06033v1 )

ライセンス: Link先を確認
Alex Mallen, Henning Lange, J. Nathan Kutz(参考訳) 複雑な現象の確率論的予測は、様々な科学分野や応用において重要である。 問題の一般性と重要性にもかかわらず、不確実性尺度を校正した安定な長期予測を可能にする一般的な数学的手法が不足している。 ほとんどの時系列モデルでは、予測地平線によって正確な確率的将来の時間ステップ予測を得るのが困難になる。 本稿では,時間変化分布を特徴付ける驚くほど単純なアプローチを導入し,将来への数千のタイムステップを合理的に予測する。 この手法は深確率koopman (dpk) と呼ばれ、線形koopman作用素理論の最近の進歩に基づいており、将来の予測には時間ステップを必要としない。 クープマンモデルは小さなパラメータフットプリントを持つ傾向がある(しばしば1万のパラメータ未満)。 本稿では,電力需要予測,大気化学,神経科学などの領域において,これらのモデルの長期予測性能を示す。 電力需要モデリングでは、最新のGlobal Energy Forecasting Competitionにおいて、ドメインに依存しない手法が177のドメイン固有の競合すべてを上回っています。

Probabilistic forecasting of complex phenomena is paramount to various scientific disciplines and applications. Despite the generality and importance of the problem, general mathematical techniques that allow for stable long-term forecasts with calibrated uncertainty measures are lacking. For most time series models, the difficulty of obtaining accurate probabilistic future time step predictions increases with the prediction horizon. In this paper, we introduce a surprisingly simple approach that characterizes time-varying distributions and enables reasonably accurate predictions thousands of timesteps into the future. This technique, which we call Deep Probabilistic Koopman (DPK), is based on recent advances in linear Koopman operator theory, and does not require time stepping for future time predictions. Koopman models also tend to have a small parameter footprint (often less than 10,000 parameters). We demonstrate the long-term forecasting performance of these models on a diversity of domains, including electricity demand forecasting, atmospheric chemistry, and neuroscience. For electricity demand modeling, our domain-agnostic technique outperforms all of 177 domain-specific competitors in the most recent Global Energy Forecasting Competition.
翻訳日:2021-06-14 14:12:32 公開日:2021-06-10
# 連続潜在状態空間を持つ教師なしニューラルネットワーク隠れマルコフモデル

Unsupervised Neural Hidden Markov Models with a Continuous latent state space ( http://arxiv.org/abs/2106.06536v1 )

ライセンス: Link先を確認
Firas Jarboui, Vianney Perchet(参考訳) 我々は,非教師付き隠れマルコフモデルを連続ケースで神経化するための新しい手法を提案する。 これにより、下層の潜伏変数で問題を解決する柔軟性が向上する。 このアプローチは、合成データと実データの両方で評価される。 市販のニューラルネットワーク(lstms, grusなど)と同等の性能を持つモデルパラメータを生成することに加えて、得られた結果は容易に解釈できる。

We introduce a new procedure to neuralize unsupervised Hidden Markov Models in the continuous case. This provides higher flexibility to solve problems with underlying latent variables. This approach is evaluated on both synthetic and real data. On top of generating likely model parameters with comparable performances to off-the-shelf neural architecture (LSTMs, GRUs,..), the obtained results are easily interpretable.
翻訳日:2021-06-14 14:08:32 公開日:2021-06-10
# 時間ネットワークにおけるニューラル高次パターン(モチーフ)予測

Neural Higher-order Pattern (Motif) Prediction in Temporal Networks ( http://arxiv.org/abs/2106.06039v1 )

ライセンス: Link先を確認
Yunyu Liu, Jianzhu Ma, Pan Li(参考訳) 相互作用する要素の集合からなる動的システムは、時間的ネットワークとして抽象化できる。 近年、複数の相互作用ノードを含む高次パターンが、異なる時間ネットワークのドメイン固有の法則を示すために重要であることが判明している。 この論文は、これらの高階パターンと関連する新しい学習アルゴリズムのために、より洗練されたハイパーグラフモデルを設計するという課題を取り上げている。 本稿では,時間ハイパーグラフにおける高次パターン予測のためのHITモデルを提案する。 特に,時間的ネットワークにおける3つの相互作用要素を含む3種類の共通だが重要な相互作用パターンの予測に焦点をあてた。 HITは、時間ハイパーグラフ上の関心のノード三重項の構造的表現を抽出し、それを用いて、この三重項において相互作用の展開が起こるか、いつ、なぜ起こるかを知る。 HITは、5つの実世界の大きな時間ハイパーグラフ上のヒューリスティックおよび他のニューラルネットワークベースのベースラインと比較して、大きな改善(平均20%のAUCゲインで相互作用タイプを識別し、一様に正確な時間推定を行う)を達成できる。 さらに、hitは、異なる高次パターンを予測するために、時間的ハイパーグラフの最も識別的な構造特徴を識別することによって、ある程度の解釈可能性を提供する。

Dynamic systems that consist of a set of interacting elements can be abstracted as temporal networks. Recently, higher-order patterns that involve multiple interacting nodes have been found crucial to indicate domain-specific laws of different temporal networks. This posts us the challenge of designing more sophisticated hypergraph models for these higher-order patterns and the associated new learning algorithms. Here, we propose the first model, named HIT, for higher-order pattern prediction in temporal hypergraphs. Particularly, we focus on predicting three types of common but important interaction patterns involving three interacting elements in temporal networks, which could be extended to even higher-order patterns. HIT extracts the structural representation of a node triplet of interest on the temporal hypergraph and uses it to tell what type of, when, and why the interaction expansion could happen in this triplet. HIT could achieve significant improvement(averaged 20% AUC gain to identify the interaction type, uniformly more accurate time estimation) compared to both heuristic and other neural-network-based baselines on 5 real-world large temporal hypergraphs. Moreover, HIT provides a certain degree of interpretability by identifying the most discriminatory structural features on the temporal hypergraphs for predicting different higher-order patterns.
翻訳日:2021-06-14 14:08:24 公開日:2021-06-10
# ダウンサンプリングレキシケース選択の問題解決効果

Problem-solving benefits of down-sampled lexicase selection ( http://arxiv.org/abs/2106.06085v1 )

ライセンス: Link先を確認
Thomas Helmuth and Lee Spector(参考訳) 遺伝的プログラミングでは、特定の計算問題を解決するコンピュータプログラムを生成する進化的手法であり、親の選択は、通常、トレーニングセット全体のパフォーマンスの総合尺度に基づいて行われる。 対照的に、語彙選択は、訓練事例のランダムなシーケンスに基づくパフォーマンスに基づいて選択され、多くの状況において問題解決力を高めることが示されている。 レキシケースの選択は、生物が生涯にわたって直面する課題のシーケンスをモデル化することで、生物学的進化をより反映すると見なすこともできる。 近年の研究では、レキシケース選択の利点がダウンサンプリングによって増幅できることが示されており、トレーニングケースのランダムサブサンプルのみが各世代で使用される。 これは、個々の生物が可能な環境のサブセットにのみ遭遇し、時間とともに環境が変化するという事実をモデル化していると見なすことができる。 ここでは、現在までサンプルの少ないレキシケース選択の最も広範囲なベンチマークを行い、その利点がより精査されることを示す。 しかし、ダウンサンプリングが役立つ理由は、まだ完全には理解されていない。 ダウンサンプリングは、プログラム評価の同じ予算でより多くの世代を処理できる、世代間でのトレーニングデータのばらつきが変化環境として機能し、適応を促進する、あるいは過度な適合を減らし、より一般的な解決策をもたらす、という仮説がある。 我々はこれらの仮説を体系的に評価し、3つすべてに対して証拠を見いだし、代わりに、ダウンサンプルのレキシケース選択の主な利点は、各個体が完全に調べられなくても、進化過程が同じ計算予算内でより多くの個人を調べることができるという事実に由来するという結論を導いた。

In genetic programming, an evolutionary method for producing computer programs that solve specified computational problems, parent selection is ordinarily based on aggregate measures of performance across an entire training set. Lexicase selection, by contrast, selects on the basis of performance on random sequences of training cases; this has been shown to enhance problem-solving power in many circumstances. Lexicase selection can also be seen as better reflecting biological evolution, by modeling sequences of challenges that organisms face over their lifetimes. Recent work has demonstrated that the advantages of lexicase selection can be amplified by down-sampling, meaning that only a random subsample of the training cases is used each generation. This can be seen as modeling the fact that individual organisms encounter only subsets of the possible environments, and that environments change over time. Here we provide the most extensive benchmarking of down-sampled lexicase selection to date, showing that its benefits hold up to increased scrutiny. The reasons that down-sampling helps, however, are not yet fully understood. Hypotheses include that down-sampling allows for more generations to be processed with the same budget of program evaluations; that the variation of training data across generations acts as a changing environment, encouraging adaptation; or that it reduces overfitting, leading to more general solutions. We systematically evaluate these hypotheses, finding evidence against all three, and instead draw the conclusion that down-sampled lexicase selection's main benefit stems from the fact that it allows the evolutionary process to examine more individuals within the same computational budget, even though each individual is examined less completely.
翻訳日:2021-06-14 14:08:02 公開日:2021-06-10
# 深層強化学習型マルチエージェント市場におけるAI駆動価格による多目的達成

Achieving Diverse Objectives with AI-driven Prices in Deep Reinforcement Learning Multi-agent Markets ( http://arxiv.org/abs/2106.06060v1 )

ライセンス: Link先を確認
Panayiotis Danassis, Aris Filos-Ratsikas, Boi Faltings(参考訳) 本稿では,他の学習エージェントの環境で動作する深層強化学習政策立案エージェントを用いて,市場価格とアロケーションを計算するための実践的アプローチを提案する。 理想的な市場均衡の結果 -- 私たちがベンチマークとして使用している -- と比較して、当社の政策立案者はより柔軟で、持続可能性や資源の浪費、公正性、買い手や売り手の福祉といった様々な目的において価格を調整できます。 このアプローチを評価するために、複数の多様な買い手と売り手による現実的な市場を設計する。 さらに、深層学習エージェントである売り手は、商業漁業の生物経済モデルに基づいた共同プール給付環境において資源を競う。 a)導入された政策立案者は、市場均衡と同等のパフォーマンスを達成でき、均衡価格を効率的に計算できない市場でのそのようなアプローチの可能性を示しています。 b) 政策立案者は, ある指標の平衡解を顕著に上回り, 残る指標と同等の性能を維持することができる。 c) 当社の政策立案者は,資源環境が不足している状況において,市場結果と比較して資源持続可能性の維持にかなり成功しています。

We propose a practical approach to computing market prices and allocations via a deep reinforcement learning policymaker agent, operating in an environment of other learning agents. Compared to the idealized market equilibrium outcome -- which we use as a benchmark -- our policymaker is much more flexible, allowing us to tune the prices with regard to diverse objectives such as sustainability and resource wastefulness, fairness, buyers' and sellers' welfare, etc. To evaluate our approach, we design a realistic market with multiple and diverse buyers and sellers. Additionally, the sellers, which are deep learning agents themselves, compete for resources in a common-pool appropriation environment based on bio-economic models of commercial fisheries. We demonstrate that: (a) The introduced policymaker is able to achieve comparable performance to the market equilibrium, showcasing the potential of such approaches in markets where the equilibrium prices can not be efficiently computed. (b) Our policymaker can notably outperform the equilibrium solution on certain metrics, while at the same time maintaining comparable performance for the remaining ones. (c) As a highlight of our findings, our policymaker is significantly more successful in maintaining resource sustainability, compared to the market outcome, in scarce resource environments.
翻訳日:2021-06-14 14:06:07 公開日:2021-06-10
# 形式的保証によるベイズ最適化

Bayesian Optimisation with Formal Guarantees ( http://arxiv.org/abs/2106.06067v1 )

ライセンス: Link先を確認
Franz Brau{\ss}e, Zurab Khasidashvili, Konstantin Korovin(参考訳) ベイズ最適化の応用領域には、ブラックボックス関数や非常に複雑な関数の最適化が含まれる。 複雑な実世界システムを記述するのに興味のある機能は、産業環境で適用されます。 明示的な表現を持っているにもかかわらず、標準最適化技術は検証された解決策と正確性保証を提供してはいない。 本稿では,ベイズ最適化とSMTに基づく制約解を組み合わせることで,最適性を保証する安全で安定した解を実現する。

Application domains of Bayesian optimization include optimizing black-box functions or very complex functions. The functions we are interested in describe complex real-world systems applied in industrial settings. Even though they do have explicit representations, standard optimization techniques fail to provide validated solutions and correctness guarantees for them. In this paper we present a combination of Bayesian optimisation and SMT-based constraint solving to achieve safe and stable solutions with optimality guarantees.
翻訳日:2021-06-14 14:04:59 公開日:2021-06-10
# SMTモデル検査による量子ニューラルネットワークの検証

Verifying Quantized Neural Networks using SMT-Based Model Checking ( http://arxiv.org/abs/2106.05997v1 )

ライセンス: Link先を確認
Luiz Sena, Xidan Song, Erickson Alves, Iury Bessa, Edoardo Manino, Lucas Cordeiro(参考訳) ANN(Artificial Neural Networks)は、自動運転車や医療診断など、安全に重要なアプリケーションにデプロイされている。 しかし、ブラックボックスの性質と敵の攻撃に対する明らかな脆弱さにより、信頼性に関する懸念が高まっている。 本稿では,インクリメンタル・モデル・チェック(imc)とsmt(sipfiability modulo theories)を用いて,annの脆弱性をチェックできるシンボリック検証フレームワークを開発し,評価する。 具体的には、インターバル解析による不変推論や非線形アクティベーション関数の離散化など、IMCのANN関連最適化を提案する。 これにより、浮動小数点演算と不動小数点演算の両方で実装されたANNの安全な挙動を保証できる。 そこで本研究では,画像分類と一般的な機械学習アプリケーションにまたがる52の試験事例に対して,検証を行い,検証を行った。 小型から中型ANNの場合、我々の手法は検証のほとんどを数分で完了する。 さらに、ほとんどの最先端手法とは対照的に、我々の手法はアクティベーション関数や非量子化表現の特定の選択に制限されない。

Artificial Neural Networks (ANNs) are being deployed on an increasing number of safety-critical applications, including autonomous cars and medical diagnosis. However, concerns about their reliability have been raised due to their black-box nature and apparent fragility to adversarial attacks. Here, we develop and evaluate a symbolic verification framework using incremental model checking (IMC) and satisfiability modulo theories (SMT) to check for vulnerabilities in ANNs. More specifically, we propose several ANN-related optimizations for IMC, including invariant inference via interval analysis and the discretization of non-linear activation functions. With this, we can provide guarantees on the safe behavior of ANNs implemented both in floating-point and fixed-point (quantized) arithmetic. In this regard, our verification approach was able to verify and produce adversarial examples for 52 test cases spanning image classification and general machine learning applications. For small- to medium-sized ANN, our approach completes most of its verification runs in minutes. Moreover, in contrast to most state-of-the-art methods, our approach is not restricted to specific choices of activation functions or non-quantized representations.
翻訳日:2021-06-14 14:02:18 公開日:2021-06-10
# (参考訳) バイリンガル語彙誘導のための静的単語埋め込みと文脈表現の組み合わせ

Combining Static Word Embeddings and Contextual Representations for Bilingual Lexicon Induction ( http://arxiv.org/abs/2106.03084v2 )

ライセンス: CC BY 4.0
Jinpeng Zhang, Baijun Ji, Nini Xiao, Xiangyu Duan, Min Zhang, Yangbin Shi, Weihua Luo(参考訳) bilingual lexicon induction (bli) は、ある言語の単語を別の言語の翻訳にマッピングすることを目的としており、典型的には線形射影を学習して単言語表現空間を整列する。 単語表現は静的な単語埋め込みと文脈表現の2つのクラスがBLIのために研究されているが、両方を組み合わせる研究は行われていない。 本稿では,静的な単語埋め込みと文脈表現を組み合わせることで,両方のパラダイムの利点を活用できる,シンプルで効果的なメカニズムを提案する。 教師付きおよび教師なしのBLIベンチマーク設定下で, 様々な言語ペア上で組み合わせのメカニズムをテストする。 実験により,教師付き設定の3.2点,教師なし設定の3.1点を平均的に改善することにより,すべての言語ペアにおけるロバストbliベースラインのパフォーマンスを一貫して改善することを示した。

Bilingual Lexicon Induction (BLI) aims to map words in one language to their translations in another, and is typically through learning linear projections to align monolingual word representation spaces. Two classes of word representations have been explored for BLI: static word embeddings and contextual representations, but there is no studies to combine both. In this paper, we propose a simple yet effective mechanism to combine the static word embeddings and the contextual representations to utilize the advantages of both paradigms. We test the combination mechanism on various language pairs under the supervised and unsupervised BLI benchmark settings. Experiments show that our mechanism consistently improves performances over robust BLI baselines on all language pairs by averagely improving 3.2 points in the supervised setting, and 3.1 points in the unsupervised setting.
翻訳日:2021-06-13 20:14:59 公開日:2021-06-10
# 視覚認識のための高機能蒸留

Fair Feature Distillation for Visual Recognition ( http://arxiv.org/abs/2106.04411v2 )

ライセンス: Link先を確認
Sangwon Jung, Donggyu Lee, Taeeon Park and Taesup Moon(参考訳) 公平さはコンピュータビジョン、特に人間関連の意思決定システムにとってますます重要な問題になりつつある。 しかし、モデルが保護されたグループに対して無差別の結果を生み出すアルゴリズム的公正性を達成することは、まだ未解決の問題である。 本稿では,mmd-based fair distillation (mfd) と呼ばれる視覚認識タスクのための特徴蒸留によるアルゴリズムバイアスを低減する体系的アプローチを提案する。 蒸留技術は一般的に予測精度を向上させるために広く用いられてきたが、我々の知る限りでは、蒸留による公正性向上を図った明確な研究は行われていない。 さらに,我々はmfdの理論的正当化を,知識蒸留と公平性の影響に与えた。 広範な実験を通じて,mfdは,合成データと実世界の顔データセットの両方の精度を損なうことなく,特定のマイノリティに対するバイアスを著しく軽減することを示した。

Fairness is becoming an increasingly crucial issue for computer vision, especially in the human-related decision systems. However, achieving algorithmic fairness, which makes a model produce indiscriminative outcomes against protected groups, is still an unresolved problem. In this paper, we devise a systematic approach which reduces algorithmic biases via feature distillation for visual recognition tasks, dubbed as MMD-based Fair Distillation (MFD). While the distillation technique has been widely used in general to improve the prediction accuracy, to the best of our knowledge, there has been no explicit work that also tries to improve fairness via distillation. Furthermore, We give a theoretical justification of our MFD on the effect of knowledge distillation and fairness. Throughout the extensive experiments, we show our MFD significantly mitigates the bias against specific minorities without any loss of the accuracy on both synthetic and real-world face datasets.
翻訳日:2021-06-13 13:58:57 公開日:2021-06-10
# (参考訳) テキスト中のポピュリスト段落の識別:機械学習によるアプローチ

Identifying Populist Paragraphs in Text: A machine-learning approach ( http://arxiv.org/abs/2106.03161v2 )

ライセンス: CC BY 4.0
Jogil\.e Ulinskait\.e and Lukas Pukelis(参考訳) 要約:本稿では,テキスト中のポピュリストコンテンツの識別を可能にするテキスト分類モデルの開発について述べる。 開発されたBERTベースのモデルは、テキスト中のポピュリストコンテンツを特定することに大きく成功し、最小限の偽否定しか生成しないため、コンテンツ分析自動化ツールとして好適であり、人間の検証に関連のあるコンテンツをショートリスト化する。

Abstract: In this paper we present an approach to develop a text-classification model which would be able to identify populist content in text. The developed BERT-based model is largely successful in identifying populist content in text and produces only a negligible amount of False Negatives, which makes it well-suited as a content analysis automation tool, which shortlists potentially relevant content for human validation.
翻訳日:2021-06-13 13:30:08 公開日:2021-06-10
# (参考訳) 未知のサービスレートを有する待ち行列システムのためのジョブディスパッチポリシー

Job Dispatching Policies for Queueing Systems with Unknown Service Rates ( http://arxiv.org/abs/2106.04707v2 )

ライセンス: CC BY 4.0
Tuhinangshu Choudhury, Gauri Joshi, Weina Wang, Sanjay Shakkottai(参考訳) すべてのジョブを保持する中央キューが存在しないマルチサーバキューシステムでは、ジョブディスパッチポリシを使用して、ひとつのサーバのキューにジョブを割り当てる。 join-the-shortest-queue や shortest expected delay のような古典的なジョブディスパッチポリシーは、サーバのサービスレートとキューの長さがディスパッチタに知られていると仮定している。 そこで本研究では,サービスレートや待ち行列の長さの知識を必要とせず,ジョブのディスパッチの問題に取り組む。 この問題は、ジョブをすべてのサーバに送信してサービスレートを見積もることと、現在知られている最速のサーバを活用して、待ち行列の遅延を最小化する、という、新たなエクスプロイテーショントレードオフを提示する。 我々は,監視職の退社からサービス率を学習するバンディットに基づく探索政策を提案する。 有限のアクションセットのうち1つだけが最適である標準的なマルチアームバンディット問題とは異なり、最適なポリシーでは各サーバに送信されるジョブの最適な割合を特定する必要がある。 提案手法の有効性を実証するために,後悔の分析とシミュレーションを行った。

In multi-server queueing systems where there is no central queue holding all incoming jobs, job dispatching policies are used to assign incoming jobs to the queue at one of the servers. Classic job dispatching policies such as join-the-shortest-queue and shortest expected delay assume that the service rates and queue lengths of the servers are known to the dispatcher. In this work, we tackle the problem of job dispatching without the knowledge of service rates and queue lengths, where the dispatcher can only obtain noisy estimates of the service rates by observing job departures. This problem presents a novel exploration-exploitation trade-off between sending jobs to all the servers to estimate their service rates, and exploiting the currently known fastest servers to minimize the expected queueing delay. We propose a bandit-based exploration policy that learns the service rates from observed job departures. Unlike the standard multi-armed bandit problem where only one out of a finite set of actions is optimal, here the optimal policy requires identifying the optimal fraction of incoming jobs to be sent to each server. We present a regret analysis and simulations to demonstrate the effectiveness of the proposed bandit-based exploration policy.
翻訳日:2021-06-13 05:35:11 公開日:2021-06-10
# (参考訳) ゼロサムゲームにおけるオープンエンド学習のための行動と反応の多様性の統一

Unifying Behavioral and Response Diversity for Open-ended Learning in Zero-sum Games ( http://arxiv.org/abs/2106.04958v2 )

ライセンス: CC BY 4.0
Xiangyu Liu, Hangtian Jia, Ying Wen, Yaodong Yang, Yujing Hu, Yingfeng Chen, Changjie Fan, Zhipeng Hu(参考訳) 戦略の多様性の測定と促進は、戦略サイクルが存在する強力な非推移力学を持つゲームの解決に不可欠であり、一貫した勝者は存在しない(Rock-Paper-Scissorsなど)。 オープンエンド学習による多様なポリシーのプールを維持することは魅力的なソリューションであり、悪用されるのを避けるために自動カリキュラムを生成することができる。 しかし、従来のオープンエンド学習アルゴリズムでは、多様性の定義が広く受け入れられておらず、多様なポリシーの構築と評価が困難である。 本稿では,マルチエージェント・オープンディビジョン学習における多様性の統一尺度として,行動多様性(bd)と応答多様性(rd)の両方に基づいて,マルコフゲームにすべての要素を含める手法を提案する。 軌道分布レベルでは、状態-作用空間におけるBDを占有率の差として再定義する。 報酬力学では、異なる相手に遭遇する際のポリシーの応答を通じて多様性を特徴付けるRDを提案する。 また、現在の多様性対策の多くは、BDまたはRDのカテゴリの1つに該当するが、両方ではないことを示す。 この統一ダイバーシティ尺度を用いて,オープンエンド学習における最善の回答を求める際,対応する多様性促進目標と人口有効性を設計する。 我々は,行列ゲーム,非推移混合モデル,複雑な‘textit{Google Research Football}環境などの比較的単純なゲームにおいて,本手法の有効性を検証する。 提案手法によって得られた人口は,行列ゲームおよび非推移混合モデルにおいて,最も低い利用可能性,最も高い人口効果,および,各種レベルの対戦相手と対話する場合の最大の目標差を明らかにした。

Measuring and promoting policy diversity is critical for solving games with strong non-transitive dynamics where strategic cycles exist, and there is no consistent winner (e.g., Rock-Paper-Scissors). With that in mind, maintaining a pool of diverse policies via open-ended learning is an attractive solution, which can generate auto-curricula to avoid being exploited. However, in conventional open-ended learning algorithms, there are no widely accepted definitions for diversity, making it hard to construct and evaluate the diverse policies. In this work, we summarize previous concepts of diversity and work towards offering a unified measure of diversity in multi-agent open-ended learning to include all elements in Markov games, based on both Behavioral Diversity (BD) and Response Diversity (RD). At the trajectory distribution level, we re-define BD in the state-action space as the discrepancies of occupancy measures. For the reward dynamics, we propose RD to characterize diversity through the responses of policies when encountering different opponents. We also show that many current diversity measures fall in one of the categories of BD or RD but not both. With this unified diversity measure, we design the corresponding diversity-promoting objective and population effectivity when seeking the best responses in open-ended learning. We validate our methods in both relatively simple games like matrix game, non-transitive mixture model, and the complex \textit{Google Research Football} environment. The population found by our methods reveals the lowest exploitability, highest population effectivity in matrix game and non-transitive mixture model, as well as the largest goal difference when interacting with opponents of various levels in \textit{Google Research Football}.
翻訳日:2021-06-13 05:33:24 公開日:2021-06-10
# (参考訳) 損失関数に基づく二階jensen不等式とその粒子変動推論への応用

Loss function based second-order Jensen inequality and its application to particle variational inference ( http://arxiv.org/abs/2106.05010v2 )

ライセンス: CC BY 4.0
Futoshi Futami, Tomoharu Iwata, Naonori Ueda, Issei Sato, and Masashi Sugiyama(参考訳) 後続分布による確率関数の期待値として得られたベイズモデル平均化は,予測,不確実性の評価,モデル選択に広く用いられている。 後方分布の情報を効率的に捉えるための様々なアプローチが開発されており、その1つは、アンサンブル学習と同じ方法で個々のモデルの多様性を確保するために相互作用を伴う一連のモデルの最適化である。 代表的なアプローチは粒子変動推論 (pvi) であり、モデルの集合を後続分布に対する経験的近似として用いる。 PVIは各モデルを反復的に更新し、最適化されたモデルの多様性を保証する。 しかし、その有望な性能にもかかわらず、この反発の理論的理解と一般化能力との関係は未だ不明である。 本稿では,PAC-ベイジアン解析の観点からこの問題に対処する。 まず、損失関数に基づく反発項を持つ新しい二階ジェンセン不等式を提供する。 反発項により、標準のジェンセン不等式よりも厳密である。 次に,新しい一般化誤差バウンドを導出し,モデルの多様性を増すことによりその誤差を低減できることを示す。 最後に、一般化誤差を直接的に最適化する新しいPVIを導出する。 数値実験により,提案したPVIの性能は既存手法と良好に比較できることを示した。

Bayesian model averaging, obtained as the expectation of a likelihood function by a posterior distribution, has been widely used for prediction, evaluation of uncertainty, and model selection. Various approaches have been developed to efficiently capture the information in the posterior distribution; one such approach is the optimization of a set of models simultaneously with interaction to ensure the diversity of the individual models in the same way as ensemble learning. A representative approach is particle variational inference (PVI), which uses an ensemble of models as an empirical approximation for the posterior distribution. PVI iteratively updates each model with a repulsion force to ensure the diversity of the optimized models. However, despite its promising performance, a theoretical understanding of this repulsion and its association with the generalization ability remains unclear. In this paper, we tackle this problem in light of PAC-Bayesian analysis. First, we provide a new second-order Jensen inequality, which has the repulsion term based on the loss function. Thanks to the repulsion term, it is tighter than the standard Jensen inequality. Then, we derive a novel generalization error bound and show that it can be reduced by enhancing the diversity of models. Finally, we derive a new PVI that optimizes the generalization error bound directly. Numerical experiments demonstrate that the performance of the proposed PVI compares favorably with existing methods in the experiment.
翻訳日:2021-06-13 05:09:38 公開日:2021-06-10
# (参考訳) 複雑な原因の操作:調停の実用的見方

Operationalizing Complex Causes: A Pragmatic View of Mediation ( http://arxiv.org/abs/2106.05074v2 )

ライセンス: CC0 1.0
Limor Gultchin, David S. Watson, Matt J. Kusner, Ricardo Silva(参考訳) 複雑な対象(テキスト,画像,ゲノムなど)に対する因果応答推定の問題について検討する。 この設定では、古典的な \emph{atomic} の介入がしばしば利用できない(例えば、文字、ピクセル、DNA塩基対)。 代わりに、間接的な介入や\emph{crude}介入(例えば、書き込みプログラムへの登録、シーンの変更、遺伝子治療の適用など)しかアクセスできません。 本研究では,この問題を形式化し,初期解を提供する。 候補媒介者の収集を前提として、(a)粗介入の因果反応を予測するための2段階の方法、(b)粗介入の媒介者を特定するための試験手順を提案する。 シミュレーションと実世界のインスパイアされた実例を用いて, 新たな治療体制の限られたデータを用いて, 粗介入の効果を効率的に推定できることを実証した。

We examine the problem of causal response estimation for complex objects (e.g., text, images, genomics). In this setting, classical \emph{atomic} interventions are often not available (e.g., changes to characters, pixels, DNA base-pairs). Instead, we only have access to indirect or \emph{crude} interventions (e.g., enrolling in a writing program, modifying a scene, applying a gene therapy). In this work, we formalize this problem and provide an initial solution. Given a collection of candidate mediators, we propose (a) a two-step method for predicting the causal responses of crude interventions; and (b) a testing procedure to identify mediators of crude interventions. We demonstrate, on a range of simulated and real-world-inspired examples, that our approach allows us to efficiently estimate the effect of crude interventions with limited data from new treatment regimes.
翻訳日:2021-06-13 05:08:18 公開日:2021-06-10
# (参考訳) 医用画像分類における再考伝達学習

Rethink Transfer Learning in Medical Image Classification ( http://arxiv.org/abs/2106.05152v2 )

ライセンス: CC BY 4.0
Le Peng, Hengyue Liang, Taihui Li, Ju Sun(参考訳) 深層畳み込みニューラルネットワーク(DCNN)を用いた伝達学習(TL)は医用画像分類(MIC)において成功している。 MICは一般的にDCNNの下位層で学習される低層および中層機能にのみ依存するため、現在のプラクティスは混乱している。 この直感に従うと、MICにおけるTLの現在の戦略を疑問視する。 本稿では,異なるtl戦略を用いて,胸部x線データ集合の分類のための浅層と深層ネットワークの実験的比較を行った。 私たちは、ディープモデルは必ずしも好ましくないことに気付き、微調整されたディープモデルは、特にデータ貧弱な状況において、ほとんどの場合、最高のパフォーマンスを得る。 プロジェクトWebページ:https://sun-umn.github.io/Transfer-Learning-in-Medical-Imaging/キーワード:転送学習、医用画像分類、特徴階層、医用画像、評価指標、不均衡データ

Transfer learning (TL) with deep convolutional neural networks (DCNNs) has proved successful in medical image classification (MIC). However, the current practice is puzzling, as MIC typically relies only on low- and/or mid-level features that are learned in the bottom layers of DCNNs. Following this intuition, we question the current strategies of TL in MIC. In this paper, we perform careful experimental comparisons between shallow and deep networks for classification on two chest x-ray datasets, using different TL strategies. We find that deep models are not always favorable, and finetuning truncated deep models almost always yields the best performance, especially in data-poor regimes. Project webpage: https://sun-umn.github.io/Transfer-Learning-in-Medical-Imaging/ Keywords: Transfer learning, Medical image classification, Feature hierarchy, Medical imaging, Evaluation metrics, Imbalanced data
翻訳日:2021-06-13 04:32:59 公開日:2021-06-10
# (参考訳) クロスモーダル離散表現学習

Cross-Modal Discrete Representation Learning ( http://arxiv.org/abs/2106.05438v1 )

ライセンス: CC BY 4.0
Alexander H. Liu, SouYoung Jin, Cheng-I Jeff Lai, Andrew Rouditchenko, Aude Oliva, James Glass(参考訳) 表現学習の最近の進歩は、ビデオ、テキスト、音声といった異なるモダリティからの情報を単一の高レベル埋め込みベクトルで表現する能力を示している。 本研究では,視覚的対象や話し言葉によって表現される概念や出来事など,さまざまなモダリティにまたがる詳細な粒度を捉えた表現を学習できる自己教師型学習フレームワークを提案する。 私たちのフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散埋め込み空間に依存しています。 共有埋め込み空間を超えて、異なるビュー(モダリティ)からの表現を離散埋め込み空間上の同様の分布に強制するクロスモーダルコードマッチングの目的を提案し、クロスモーダルオブジェクト/アクションのローカライゼーションを直接の監督なしに行えるようにする。 実験の結果,提案手法は,高レベルな要約表現(例えば,ビデオ/文/波形)を補完することで,クロスモーダル検索タスクの性能を向上させることができることがわかった。 また、離散化表現は個々のクラスタを用いて、モーダル性にまたがる同じ意味概念を表現する。

Recent advances in representation learning have demonstrated an ability to represent information from different modalities such as video, text, and audio in a single high-level embedding vector. In this work we present a self-supervised learning framework that is able to learn a representation that captures finer levels of granularity across different modalities such as concepts or events represented by visual objects or spoken words. Our framework relies on a discretized embedding space created via vector quantization that is shared across different modalities. Beyond the shared embedding space, we propose a Cross-Modal Code Matching objective that forces the representations from different views (modalities) to have a similar distribution over the discrete embedding space such that cross-modal objects/actions localization can be performed without direct supervision. In our experiments we show that the proposed discretized multi-modal fine-grained representation (e.g., pixel/word/frame) can complement high-level summary representations (e.g., video/sentence/waveform) for improved performance on cross-modal retrieval tasks. We also observe that the discretized representation uses individual clusters to represent the same semantic concept across modalities.
翻訳日:2021-06-12 21:28:08 公開日:2021-06-10
# (参考訳) 騒音・フレーム認識クラスタリングによる教師なし映像人物の再識別

Unsupervised Video Person Re-identification via Noise and Hard frame Aware Clustering ( http://arxiv.org/abs/2106.05441v1 )

ライセンス: CC BY 4.0
Pengyu Xie, Xin Xu, Zheng Wang, and Toshihiko Yamasaki(参考訳) 教師なしビデオベース人物識別(re-ID)手法は、画像ベースよりもビデオトラッカーからリッチな特徴を抽出する。 最先端の手法はクラスタリングを利用して擬似ラベルを取得し、反復的にモデルをトレーニングする。 しかし、トラックレット内の2種類のフレームの影響を過小評価している: 1) 検出エラーや重閉塞によるノイズフレームがトラックレット内に存在し、クラスタリング中に信頼できないラベルが割り当てられる可能性がある; 2) トラックレットには、ポーズの変化や部分閉塞による硬いフレームが含まれており、識別が難しい。 本稿では,ノイズ・ハードフレーム・アウェア・クラスタリング(NHAC)手法を提案する。 NHACはグラフトリミングモジュールとノード再サンプリングモジュールで構成される。 グラフトリミングモジュールは、ノイズフレームノードを除去して安定したグラフを取得し、クラスタリング精度を向上させる。 ノード再サンプリングモジュールは、ハードフレームノードのトレーニングを強化し、豊富なトラックレット情報を学ぶ。 2つのビデオベースデータセットで実施された実験は、教師なしのre-ID設定の下で提案されたNHACの有効性を示す。

Unsupervised video-based person re-identification (re-ID) methods extract richer features from video tracklets than image-based ones. The state-of-the-art methods utilize clustering to obtain pseudo-labels and train the models iteratively. However, they underestimate the influence of two kinds of frames in the tracklet: 1) noise frames caused by detection errors or heavy occlusions exist in the tracklet, which may be allocated with unreliable labels during clustering; 2) the tracklet also contains hard frames caused by pose changes or partial occlusions, which are difficult to distinguish but informative. This paper proposes a Noise and Hard frame Aware Clustering (NHAC) method. NHAC consists of a graph trimming module and a node re-sampling module. The graph trimming module obtains stable graphs by removing noise frame nodes to improve the clustering accuracy. The node re-sampling module enhances the training of hard frame nodes to learn rich tracklet information. Experiments conducted on two video-based datasets demonstrate the effectiveness of the proposed NHAC under the unsupervised re-ID setting.
翻訳日:2021-06-12 21:05:31 公開日:2021-06-10
# (参考訳) 神経自己回帰配列モデリングにおけるモード回復

Mode recovery in neural autoregressive sequence modeling ( http://arxiv.org/abs/2106.05459v1 )

ライセンス: CC BY 4.0
Ilia Kulikov, Sean Welleck, Kyunghyun Cho(参考訳) 広く使われているにもかかわらず、最近の研究では、トレーニング後の短いシーケンスへの不当に高い親和性や復号時の無限に長いシーケンスなど、最大限に訓練された神経自己回帰配列モデルの予期せぬ、望ましくない特性を明らかにしている。 そこで本研究では,新たに提案したモード回復コストを用いて,地中構造,経験的,学習的,復号化的分布の完全な学習連鎖を通して,分布のモード,あるいは局所的な最大値がどのように維持されているかを検討する。 我々は,(1)lstmベースの構造化分布,(2)シーケンスの確率がその内容に依存しない非構造化分布,(3)半構造化分布と呼ばれるこれら2つの生成物という,3つの種類の基底-真実分布を構築可能なテストベッドを設計した。 本研究は予期せぬ結果と予期せぬ結果の両方を明らかにする。 まず、データ収集から始めると、モード回復コストは地中構造分布に強く依存し、半構造分布に最もコストがかかる。 第2に, 地中構造分布によるモード回復コストは, データ収集に比べて増加または減少し, 半構造的地中構造分布で最大のコスト劣化が発生する。 最後に,学習した分布からモードを復元する復号誘導分布の能力は,学習連鎖の早い段階で行った選択に大きく影響される。 将来的な研究は、潜在性と周辺を完全に理解し、神経自己回帰配列モデルをさらに改善するために、学習連鎖全体を考慮しなければならないと結論づける。

Despite its wide use, recent studies have revealed unexpected and undesirable properties of neural autoregressive sequence models trained with maximum likelihood, such as an unreasonably high affinity to short sequences after training and to infinitely long sequences at decoding time. We propose to study these phenomena by investigating how the modes, or local maxima, of a distribution are maintained throughout the full learning chain of the ground-truth, empirical, learned and decoding-induced distributions, via the newly proposed mode recovery cost. We design a tractable testbed where we build three types of ground-truth distributions: (1) an LSTM based structured distribution, (2) an unstructured distribution where probability of a sequence does not depend on its content, and (3) a product of these two which we call a semi-structured distribution. Our study reveals both expected and unexpected findings. First, starting with data collection, mode recovery cost strongly relies on the ground-truth distribution and is most costly with the semi-structured distribution. Second, after learning, mode recovery cost from the ground-truth distribution may increase or decrease compared to data collection, with the largest cost degradation occurring with the semi-structured ground-truth distribution. Finally, the ability of the decoding-induced distribution to recover modes from the learned distribution is highly impacted by the choices made earlier in the learning chain. We conclude that future research must consider the entire learning chain in order to fully understand the potentials and perils and to further improve neural autoregressive sequence models.
翻訳日:2021-06-12 20:56:09 公開日:2021-06-10
# (参考訳) 十分条件分布のメトロポレートサンプリング法における下限

Lower Bounds on Metropolized Sampling Methods for Well-Conditioned Distributions ( http://arxiv.org/abs/2106.05480v1 )

ライセンス: CC BY 4.0
Yin Tat Lee, Ruoqi Shen, Kevin Tian(参考訳) 我々は,よく調和した分布に適用した場合,最も一般的なサンプリング手法であるメトロポリス調整ランゲヴィンアルゴリズム (MALA) と,跳躍フロッグ積分器を用いたマルチステップハミルトンモンテカルロ (HMC) の性能を低くする。 私たちの主な結果は、指数関数的に温かいスタートからmalaの混合時間に関する$\widetilde{\omega}(\kappa d)$のほぼタイトな下限であり、アルゴリズム的な結果のラインを対数因子に一致させ、chewi etのオープン質問に答えます。 アル また, HMC の任意の段数における緩和時間には, 次元への多項式依存が必要であり, ステップ数を変化させることで得られるゲインを束縛できることも示している。 我々のHMC分析は、跳躍積分とチェビシェフ多項式の間の新しい関係を導いており、これは独立した関心を持つかもしれない。

We give lower bounds on the performance of two of the most popular sampling methods in practice, the Metropolis-adjusted Langevin algorithm (MALA) and multi-step Hamiltonian Monte Carlo (HMC) with a leapfrog integrator, when applied to well-conditioned distributions. Our main result is a nearly-tight lower bound of $\widetilde{\Omega}(\kappa d)$ on the mixing time of MALA from an exponentially warm start, matching a line of algorithmic results up to logarithmic factors and answering an open question of Chewi et. al. We also show that a polynomial dependence on dimension is necessary for the relaxation time of HMC under any number of leapfrog steps, and bound the gains achievable by changing the step count. Our HMC analysis draws upon a novel connection between leapfrog integration and Chebyshev polynomials, which may be of independent interest.
翻訳日:2021-06-12 20:44:17 公開日:2021-06-10
# (参考訳) SignalNet: 低分解能正弦波分解・推定ネットワーク

SignalNet: A Low Resolution Sinusoid Decomposition and Estimation Network ( http://arxiv.org/abs/2106.05490v1 )

ライセンス: CC BY 4.0
Ryan Dreifuerst, Robert W. Heath Jr(参考訳) 正弦波の検出と推定は、センシングと通信に関連する多くのアプリケーションのための基本的な信号処理タスクである。 この設定のためにアルゴリズムが提案されているが、量子化は批判的であるが、しばしばモデリング効果を無視している。 無線通信では、低解像度データコンバータを用いた推定が広帯域受信機における消費電力削減に関係している。 同様に、イメージングとスペクトルセンシングにおける低分解能サンプリングは効率的なデータ収集を可能にする。 本研究では,正弦波の数を検出し,そのパラメータを量子化イン相および二次サンプルから推定するニューラルネットワークアーキテクチャであるsignalnetを提案する。 ネットワーク内のドメイン知識として内部に信号再構成を組み込んで学習を強化し,従来のアルゴリズムを平均二乗誤差とシャンファー誤差で上回った。 基礎となるデータ分布と比較してネットワークの結果を比較するための最悪の学習しきい値を導入する。 このしきい値は、ニューラルネットワークが従来の方法よりも優れている理由と、入力と出力の分布の間の学習された関係について洞察を与える。 シミュレーションでは、3ビットデータでは常にしきい値を超えることができるが、1ビットデータではしきい値を超えないことが多い。 学習しきい値を用いて、1ビットの場合、データから特徴を学習するのではなく、分布損失を最小限に抑える方法を学ぶ。

The detection and estimation of sinusoids is a fundamental signal processing task for many applications related to sensing and communications. While algorithms have been proposed for this setting, quantization is a critical, but often ignored modeling effect. In wireless communications, estimation with low resolution data converters is relevant for reduced power consumption in wideband receivers. Similarly, low resolution sampling in imaging and spectrum sensing allows for efficient data collection. In this work, we propose SignalNet, a neural network architecture that detects the number of sinusoids and estimates their parameters from quantized in-phase and quadrature samples. We incorporate signal reconstruction internally as domain knowledge within the network to enhance learning and surpass traditional algorithms in mean squared error and Chamfer error. We introduce a worst-case learning threshold for comparing the results of our network relative to the underlying data distributions. This threshold provides insight into why neural networks tend to outperform traditional methods and into the learned relationships between the input and output distributions. In simulation, we find that our algorithm is always able to surpass the threshold for three-bit data but often cannot exceed the threshold for one-bit data. We use the learning threshold to explain, in the one-bit case, how our estimators learn to minimize the distributional loss, rather than learn features from the data.
翻訳日:2021-06-12 20:42:57 公開日:2021-06-10
# (参考訳) ERMAS:マルチエージェントシミュレーションにおけるリワード関数-レアルギャップのロバスト化

ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in Multi-Agent Simulations ( http://arxiv.org/abs/2106.05492v1 )

ライセンス: CC BY 4.0
Eric Zhao, Alexander R. Trott, Caiming Xiong, Stephan Zheng(参考訳) マルチエージェントシミュレーションは、合理的エージェントと相互作用する学習ポリシーのためのスケーラブルな環境を提供する。 しかし、そのようなポリシーは、エージェントが非モデル化された不合理性と不特定報酬関数のためにシミュレーションされたものと異なる実世界への一般化に失敗する可能性がある。 Epsilon-Robust Multi-Agent Simulation (ERMAS)は、AIポリシーを学習するための堅牢な最適化フレームワークである。 エージェントの行動におけるマルチエージェントの頑健性に関する既存の概念は、エージェントの報酬関数における摂動に関する新しい頑健性目的に対処する。 ERMASは、最悪の場合のエプシロン平衡として形式化された他のエージェントからの最適行動を予測することによって、この堅牢性を提供する。 経済シミュレーションにおいて,ERMASは繰り返しビマトリクスゲームや最適課税問題に対して堅牢な政策を採っていることを実証的に示す。 特に、AIエコノミスト(Zheng et al., 2020)が提起する2段階のRL問題において、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時空間シミュレーションにおいて最大15%の社会福祉を改善する。

Multi-agent simulations provide a scalable environment for learning policies that interact with rational agents. However, such policies may fail to generalize to the real-world where agents may differ from simulated counterparts due to unmodeled irrationality and misspecified reward functions. We introduce Epsilon-Robust Multi-Agent Simulation (ERMAS), a robust optimization framework for learning AI policies that are robust to such multiagent sim-to-real gaps. While existing notions of multi-agent robustness concern perturbations in the actions of agents, we address a novel robustness objective concerning perturbations in the reward functions of agents. ERMAS provides this robustness by anticipating suboptimal behaviors from other agents, formalized as the worst-case epsilon-equilibrium. We show empirically that ERMAS yields robust policies for repeated bimatrix games and optimal taxation problems in economic simulations. In particular, in the two-level RL problem posed by the AI Economist (Zheng et al., 2020) ERMAS learns tax policies that are robust to changes in agent risk aversion, improving social welfare by up to 15% in complex spatiotemporal simulations.
翻訳日:2021-06-12 20:22:12 公開日:2021-06-10
# (参考訳) 連続状態空間における変化の遅いモデルベース強化学習問題に対するハイパースペース近傍の動的プログラミング

Hyperspace Neighbor Penetration Approach to Dynamic Programming for Model-Based Reinforcement Learning Problems with Slowly Changing Variables in A Continuous State Space ( http://arxiv.org/abs/2106.05497v1 )

ライセンス: CC BY 4.0
Vincent Zha, Ivey Chiu, Alexandre Guilbault, and Jaime Tatis(参考訳) 連続状態空間における変数のゆるやかな変化は強化学習の重要なカテゴリであり、温度や湿度などの気候制御システムのモデル化など、多くの領域で応用されている。 時間とともにゆっくり変化します しかし、近年の研究ではこの問題に対処していない。 状態空間を離散化する動的プログラミングとタイル符号化のような、ある変種を持つ古典的な手法は、非常に粒度の細かいグリッドシステムを確立するのに計算コストがかかるか不可能であるため、各遷移ステップの小さな変化を捉えることができないため、ゆっくりと変化する変数を扱うことができない。 本稿では,その問題を解決するHyperspace Neighbor Peretration(HNP)アプローチを提案する。 HNPは、各遷移ステップで状態の部分的な「貫通」を、グリッド化されたハイパースペース内の隣接するハイパータイルにキャプチャするので、変更をキャプチャするために、遷移をタイル間とする必要はない。 したがって、HNPは非常に粗いグリッドシステムが可能であり、計算が実現可能である。 HNP は局所空間における遷移関数の概線型性を仮定するが、これは一般に満足される。 要約すると、HNPは強化学習においてゆっくりと変化する変数を扱う場合、古典的な方法よりも桁違いに効率的である。 我々はNHPの産業的実装を大成功を収めた。

Slowly changing variables in a continuous state space constitute an important category of reinforcement learning and see its application in many domains, such as modeling a climate control system where temperature, humidity, etc. change slowly over time. However, this subject is less addressed in recent studies. Classical methods with certain variants, such as Dynamic Programming with Tile Coding which discretizes the state space, fail to handle slowly changing variables because those methods cannot capture the tiny changes in each transition step, as it is computationally expensive or impossible to establish an extremely granular grid system. In this paper, we introduce a Hyperspace Neighbor Penetration (HNP) approach that solves the problem. HNP captures in each transition step the state's partial "penetration" into its neighboring hyper-tiles in the gridded hyperspace, thus does not require the transition to be inter-tile in order for the change to be captured. Therefore, HNP allows for a very coarse grid system, which makes the computation feasible. HNP assumes near linearity of the transition function in a local space, which is commonly satisfied. In summary, HNP can be orders of magnitude more efficient than classical method in handling slowly changing variables in reinforcement learning. We have made an industrial implementation of NHP with a great success.
翻訳日:2021-06-12 20:03:04 公開日:2021-06-10
# (参考訳) 脆弱なAI、因果融合、悪いメンタルモデル:XAIプログラムにおける課題と成功

Brittle AI, Causal Confusion, and Bad Mental Models: Challenges and Successes in the XAI Program ( http://arxiv.org/abs/2106.05506v1 )

ライセンス: CC BY 4.0
Jeff Druce, James Niehaus, Vanessa Moody, David Jensen, Michael L. Littman(参考訳) ディープラーニングアーキテクチャによって実現される人工知能の進歩は否定できない。 いくつかのケースでは、ディープニューラルネットワーク駆動モデルが、ベンチマーク自律タスクにおける人間レベルのパフォーマンスを上回っている。 しかし、これらのエージェントの基本的なポリシーは容易に解釈できない。 実際、基礎となる深層モデルを考えると、観測から行動へのマッピングを合理的に複雑なエージェントに対して直接理解することは不可能である。 これらのAIシステムの「ブラックボックスを開く」技術を開発したが、性能を犠牲にせず、DARPA XAIプログラムの基本的な目標であった。 1) 説明はシナリオに合わせて高度に調整する必要がある; 2) 一見ハイパフォーマンスなRLエージェントの多くは極めて脆弱で、説明ができない; 3) 因果的モデルは豊かな説明を許すが、どのように提示するかは必ずしも簡単ではない; 4) 人間の被験者がAIの驚くほど間違った精神モデルを持っている; そして、これらのモデルはしばしば破ることが難しい。 本稿では,これらの情報の起源,増幅情報,今後の課題の提案について述べる。

The advances in artificial intelligence enabled by deep learning architectures are undeniable. In several cases, deep neural network driven models have surpassed human level performance in benchmark autonomy tasks. The underlying policies for these agents, however, are not easily interpretable. In fact, given their underlying deep models, it is impossible to directly understand the mapping from observations to actions for any reasonably complex agent. Producing this supporting technology to "open the black box" of these AI systems, while not sacrificing performance, was the fundamental goal of the DARPA XAI program. In our journey through this program, we have several "big picture" takeaways: 1) Explanations need to be highly tailored to their scenario; 2) many seemingly high performing RL agents are extremely brittle and are not amendable to explanation; 3) causal models allow for rich explanations, but how to present them isn't always straightforward; and 4) human subjects conjure fantastically wrong mental models for AIs, and these models are often hard to break. This paper discusses the origins of these takeaways, provides amplifying information, and suggestions for future work.
翻訳日:2021-06-12 19:52:22 公開日:2021-06-10
# (参考訳) 教師なしドメイン適応のためのクロスドメインコントラスト学習

Cross-domain Contrastive Learning for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2106.05528v1 )

ライセンス: CC BY 4.0
Rui Wang, Zuxuan Wu, Zejia Weng, Jingjing Chen, Guo-Jun Qi, Yu-Gang Jiang(参考訳) 教師なしドメイン適応(UDA)は、完全にラベル付けされたソースドメインから異なるラベル付けされていないターゲットドメインに学習した知識を転送することを目的としている。 既存のUDAメソッドの多くは、ドメイン間の特徴距離を最小化することで、ドメイン不変の特徴表現を学習する。 本研究は, 自己教師型学習の対比に基づいて, 特徴を整列させ, トレーニングとテストセットのドメイン差を低減する。 両ドメインが共有する同じカテゴリの集合を探索し、ドメインアライメントのためのシンプルで効果的なフレームワークCDCLを紹介します。 特に、ある領域からのアンカーイメージが与えられたとき、異なるカテゴリのアンカー画像に対して同じクラスからクロスドメインのサンプルまでの距離を最小化する。 ターゲットラベルは利用できないため、慎重に初期化したクラスタリングベースのアプローチを用いて擬似ラベルを生成する。 さらに、CDCLは一般的なフレームワークであり、トレーニング中にソースデータが利用できないようなデータフリーな設定に、最小限の変更で適応可能であることを実証する。 我々は、広く使われている2つのドメイン適応ベンチマーク(office-31とvisda-2017)の実験を行い、cdclが両方のデータセットで最先端のパフォーマンスを達成することを実証する。

Unsupervised domain adaptation (UDA) aims to transfer knowledge learned from a fully-labeled source domain to a different unlabeled target domain. Most existing UDA methods learn domain-invariant feature representations by minimizing feature distances across domains. In this work, we build upon contrastive self-supervised learning to align features so as to reduce the domain discrepancy between training and testing sets. Exploring the same set of categories shared by both domains, we introduce a simple yet effective framework CDCL, for domain alignment. In particular, given an anchor image from one domain, we minimize its distances to cross-domain samples from the same class relative to those from different categories. Since target labels are unavailable, we use a clustering-based approach with carefully initialized centers to produce pseudo labels. In addition, we demonstrate that CDCL is a general framework and can be adapted to the data-free setting, where the source data are unavailable during training, with minimal modification. We conduct experiments on two widely used domain adaptation benchmarks, i.e., Office-31 and VisDA-2017, and demonstrate that CDCL achieves state-of-the-art performance on both datasets.
翻訳日:2021-06-12 19:42:33 公開日:2021-06-10
# (参考訳) CALTeC:コラボレーションインテリジェンスのためのコンテンツ適応線形テンソル補完

CALTeC: Content-Adaptive Linear Tensor Completion for Collaborative Intelligence ( http://arxiv.org/abs/2106.05531v1 )

ライセンス: CC BY 4.0
Ashiv Dhondea, Robert A. Cohen, Ivan V. Baji\'c(参考訳) コラボレーティブインテリジェンスでは、人工知能(AI)モデルは通常、エッジデバイスとクラウドの間で分割される。 エッジサブモデルによって生成された特徴テンソルは、不完全な通信チャネルを介してクラウドに送られる。 クラウド側では、パケット損失のために機能テンソルの一部が失われる可能性がある。 本稿では,不足する特徴データを復元するために,コンテンツ適応線形テンソル補完(caltec)と呼ばれる手法を提案する。 提案手法は高速でデータ適応性があり,事前学習を必要としない。

In collaborative intelligence, an artificial intelligence (AI) model is typically split between an edge device and the cloud. Feature tensors produced by the edge sub-model are sent to the cloud via an imperfect communication channel. At the cloud side, parts of the feature tensor may be missing due to packet loss. In this paper we propose a method called Content-Adaptive Linear Tensor Completion (CALTeC) to recover the missing feature data. The proposed method is fast, data-adaptive, does not require pre-training, and produces better results than existing methods for tensor data recovery in collaborative intelligence.
翻訳日:2021-06-12 19:31:13 公開日:2021-06-10
# (参考訳) 自己校正畳み込みGANに基づく超解像再構成

Super-Resolution Image Reconstruction Based on Self-Calibrated Convolutional GAN ( http://arxiv.org/abs/2106.05545v1 )

ライセンス: CC BY 4.0
Yibo Guo, Haidi Wang, Yiming Fan, Shunyao Li, Mingliang Xu(参考訳) コンピュータビジョンにおけるディープラーニングの効果的な応用により、超高解像度画像再構成の研究においてブレークスルーが生まれている。 しかし、画像特徴に対するニューラルネットワーク抽出の不十分さは、新たに再構成された画像の劣化を引き起こす可能性があると多くの研究が指摘している。 一方、生成した写真は過剰なスムーシングのため、しばしば人工的すぎる。 上記の問題を解決するために,新たな自己校正畳み込み生成対向ネットワークを提案する。 ジェネレータは特徴抽出と画像再構成で構成される。 特徴抽出は4つの部分を含む自己結合畳み込みを使用し、各部分には特定の機能がある。 受容場の範囲を広げるだけでなく、長距離空間およびチャネル間依存性も得ることができる。 そして、画像再構成を行い、最終的に超解像を再構成する。 ssim評価手法を用いて set5, set14, bsd100 を含む様々なデータセットについて徹底的な実験を行った。 その結果,提案ネットワークの有効性が実証された。

With the effective application of deep learning in computer vision, breakthroughs have been made in the research of super-resolution images reconstruction. However, many researches have pointed out that the insufficiency of the neural network extraction on image features may bring the deteriorating of newly reconstructed image. On the other hand, the generated pictures are sometimes too artificial because of over-smoothing. In order to solve the above problems, we propose a novel self-calibrated convolutional generative adversarial networks. The generator consists of feature extraction and image reconstruction. Feature extraction uses self-calibrated convolutions, which contains four portions, and each portion has specific functions. It can not only expand the range of receptive fields, but also obtain long-range spatial and inter-channel dependencies. Then image reconstruction is performed, and finally a super-resolution image is reconstructed. We have conducted thorough experiments on different datasets including set5, set14 and BSD100 under the SSIM evaluation method. The experimental results prove the effectiveness of the proposed network.
翻訳日:2021-06-12 19:22:32 公開日:2021-06-10
# (参考訳) 非自己回帰翻訳のためのプログレッシブマルチグラニュラリティトレーニング

Progressive Multi-Granularity Training for Non-Autoregressive Translation ( http://arxiv.org/abs/2106.05546v1 )

ライセンス: CC0 1.0
Liang Ding, Longyue Wang, Xuebo Liu, Derek F. Wong, Dacheng Tao, Zhaopeng Tu(参考訳) 非自己回帰翻訳(NAT)は、ターゲットシーケンス全体を予測することで推論プロセスを著しく加速する。 しかし、最近の研究では、NATは一対多翻訳のような高度な知識の学習に弱いことが示されている。 モードは様々な粒度に分けることができ、そこから容易に学習できると我々は主張する。 本研究では,NATモデルが文と比較して,単語やフレーズなど,より細粒度の低い知識を学習する傾向があることを実証的に示す。 そこで本研究では,NATの進行的多粒度学習を提案する。 具体的には、トレーニングデータを最大限に活用するために、文レベルの例を3つのタイプに分類する。 言葉、句、文、そして訓練が進むにつれて、我々は徐々に粒度を増す。 ルーマニア語・英語・ドイツ語・中国語・日英語における実験により,本手法が句の翻訳精度とモデルの並べ替え能力を改善し,natベースラインに対する翻訳品質の向上を実現した。 また,より決定論的なききめ細かな知識が性能をさらに向上させることを示す。

Non-autoregressive translation (NAT) significantly accelerates the inference process via predicting the entire target sequence. However, recent studies show that NAT is weak at learning high-mode of knowledge such as one-to-many translations. We argue that modes can be divided into various granularities which can be learned from easy to hard. In this study, we empirically show that NAT models are prone to learn fine-grained lower-mode knowledge, such as words and phrases, compared with sentences. Based on this observation, we propose progressive multi-granularity training for NAT. More specifically, to make the most of the training data, we break down the sentence-level examples into three types, i.e. words, phrases, sentences, and with the training goes, we progressively increase the granularities. Experiments on Romanian-English, English-German, Chinese-English, and Japanese-English demonstrate that our approach improves the phrase translation accuracy and model reordering ability, therefore resulting in better translation quality against strong NAT baselines. Also, we show that more deterministic fine-grained knowledge can further enhance performance.
翻訳日:2021-06-12 19:11:52 公開日:2021-06-10
# (参考訳) BLEU, Flavours of Success: The Case of MultiWOZ

Shades of BLEU, Flavours of Success: The Case of MultiWOZ ( http://arxiv.org/abs/2106.05555v1 )

ライセンス: CC BY 4.0
Tom\'a\v{s} Nekvinda and Ond\v{r}ej Du\v{s}ek(参考訳) マルチウォズデータセット(budzianowski et al., 2018)はタスク指向対話システムのコンテキスト対応答能力のベンチマークによく使われている。 本研究では,このデータセットで使用される3つのコーパスベースメトリクス,すなわちbleuスコアとinform & success rateのデータの事前処理とレポートにおける不整合を特定する。 我々は,マルチウォズベンチマークの問題点として,不十分な前処理,不十分な評価指標,厳格なデータベースなどを挙げた。 7つのエンドツーエンドと6つのポリシー最適化モデルを再評価し,それらのスコアを直接比較できないことを示した。 将来のシステムの比較を容易にするために、我々はスタンドアロンの標準評価スクリプトをリリースする。 また、今後の作業においてコーパスベースのベンチマークに関する基本的な推奨事項も提示する。

The MultiWOZ dataset (Budzianowski et al.,2018) is frequently used for benchmarking context-to-response abilities of task-oriented dialogue systems. In this work, we identify inconsistencies in data preprocessing and reporting of three corpus-based metrics used on this dataset, i.e., BLEU score and Inform & Success rates. We point out a few problems of the MultiWOZ benchmark such as unsatisfactory preprocessing, insufficient or under-specified evaluation metrics, or rigid database. We re-evaluate 7 end-to-end and 6 policy optimization models in as-fair-as-possible setups, and we show that their reported scores cannot be directly compared. To facilitate comparison of future systems, we release our stand-alone standardized evaluation scripts. We also give basic recommendations for corpus-based benchmarking in future works.
翻訳日:2021-06-12 19:03:21 公開日:2021-06-10
# (参考訳) 相互作用粒子の平均場方程式における相互作用核の識別可能性

Identifiability of interaction kernels in mean-field equations of interacting particles ( http://arxiv.org/abs/2106.05565v1 )

ライセンス: CC BY 4.0
Quanjun Lang and Fei Lu(参考訳) 粒子系における平均場方程式における相互作用核の同定可能性について検討した。 鍵となるのは、確率損失函数が一意の最小値を持つ函数空間を特定することである。 2つの再生カーネルヒルベルト空間(RKHS)の任意の部分空間に同一性があることを証明し、その再生成カーネルはシステムに固有のものであり、データ適応的であることを示す。 さらに、2つのアンビエント l2 空間に対する同一性は、再生核に関連する積分作用素が厳密に正であることと同値である。 したがって、逆問題は一般に悪用される。 また,計算実践における識別可能性の重要性についても論じる。

We study the identifiability of the interaction kernels in mean-field equations for intreacting particle systems. The key is to identify function spaces on which a probabilistic loss functional has a unique minimizer. We prove that identifiability holds on any subspace of two reproducing kernel Hilbert spaces (RKHS), whose reproducing kernels are intrinsic to the system and are data-adaptive. Furthermore, identifiability holds on two ambient L2 spaces if and only if the integral operators associated with the reproducing kernels are strictly positive. Thus, the inverse problem is ill-posed in general. We also discuss the implications of identifiability in computational practice.
翻訳日:2021-06-12 18:45:40 公開日:2021-06-10
# (参考訳) AGGGEN: 生成中の順序付けと集約

AGGGEN: Ordering and Aggregating while Generating ( http://arxiv.org/abs/2106.05580v1 )

ライセンス: CC BY 4.0
Xinnuo Xu, Ond\v{r}ej Du\v{s}ek, Verena Rieser, Ioannis Konstas(参考訳) 本稿では、入力順序付けと入力集約という2つの明示的な文計画段階を再導入するデータ-テキストモデルであるAGGGENについて述べる。 AGGGENは、入力表現とターゲットテキスト間の(意味的な事実を介して)潜在的アライメントを学習することによって、テキストを生成すると同時に、文計画を実行する。 WebNLGとE2Eの課題データによる実験では、ファクトベースのアライメントを使用することで、私たちのアプローチはより解釈可能で、表現力があり、ノイズに対して頑健で、制御が容易であり、一方、頻度の観点からはエンドツーエンドシステムの利点を保っている。 私たちのコードはhttps://github.com/xinnuoxu/agggenで利用可能です。

We present AGGGEN (pronounced 'again'), a data-to-text model which re-introduces two explicit sentence planning stages into neural data-to-text systems: input ordering and input aggregation. In contrast to previous work using sentence planning, our model is still end-to-end: AGGGEN performs sentence planning at the same time as generating text by learning latent alignments (via semantic facts) between input representation and target text. Experiments on the WebNLG and E2E challenge data show that by using fact-based alignments our approach is more interpretable, expressive, robust to noise, and easier to control, while retaining the advantages of end-to-end systems in terms of fluency. Our code is available at https://github.com/XinnuoXu/AggGen.
翻訳日:2021-06-12 18:13:45 公開日:2021-06-10
# (参考訳) AUGNLG: 自己学習データ拡張による自然言語生成

AUGNLG: Few-shot Natural Language Generation using Self-trained Data Augmentation ( http://arxiv.org/abs/2106.05589v1 )

ライセンス: CC BY 4.0
Xinnuo Xu, Guoyin Wang, Young-Bum Kim, Sungjin Lee(参考訳) 自然言語生成(NLG)はタスク指向対話システムにおいて重要な要素であり、構造化された意味表現(MR)を自然言語に変換する。 数百以上の意図と数千のスロットを持つ大規模会話システムでは、テンプレートベースのアプローチもモデルベースのアプローチもスケーラブルではない。 近年,ニューラルnlgsはトランスファー学習の活用を始め,数ショット設定で有望な結果を示した。 本稿では,自己学習型ニューラル検索モデルと数ショット学習型NLUモデルを組み合わせた新しいデータ拡張手法であるAUGNLGを提案し,オープンドメインテキストからMR-to-Textデータを自動的に生成する。 提案方式はBLEUとSlot Error Rateの両方でFewShotWOZデータの最先端の手法よりも優れている。 さらに、FewShotSGDデータの改善結果を確認し、システムの主要コンポーネントに関する包括的な分析結果を提供する。 私たちのコードとデータはhttps://github.com/xinnuoxu/augnlg.comから入手できます。

Natural Language Generation (NLG) is a key component in a task-oriented dialogue system, which converts the structured meaning representation (MR) to the natural language. For large-scale conversational systems, where it is common to have over hundreds of intents and thousands of slots, neither template-based approaches nor model-based approaches are scalable. Recently, neural NLGs started leveraging transfer learning and showed promising results in few-shot settings. This paper proposes AUGNLG, a novel data augmentation approach that combines a self-trained neural retrieval model with a few-shot learned NLU model, to automatically create MR-to-Text data from open-domain texts. The proposed system mostly outperforms the state-of-the-art methods on the FewShotWOZ data in both BLEU and Slot Error Rate. We further confirm improved results on the FewShotSGD data and provide comprehensive analysis results on key components of our system. Our code and data are available at https://github.com/XinnuoXu/AugNLG.
翻訳日:2021-06-12 17:49:25 公開日:2021-06-10
# (参考訳) ThompsonがMixture Priorでサンプリング

Thompson Sampling with a Mixture Prior ( http://arxiv.org/abs/2106.05608v1 )

ライセンス: CC BY 4.0
Joey Hong, Branislav Kveton, Manzil Zaheer, Mohammad Ghavamzadeh, Craig Boutilier(参考訳) 混合分布から不確実な環境をサンプリングするオンライン意思決定問題におけるトンプソンサンプリング(TS)について検討した。 これは、学習エージェントが異なるクラスの問題に直面しているマルチタスク設定に関係します。 この構造を,MixTSと呼ばれる前駆体でTSを初期化して自然に組み込むとともに,その前駆体でTSの後悔を分析するための新しい一般的な手法を開発した。 本研究では,MixTS に対するベイズ残差を線形帯域と表型マルコフ決定過程(MDPs)の両方で導出する手法を提案する。 我々の後悔の限界は問題の構造を反映し、前の各コンポーネントのコンポーネントの数と信頼性の幅に依存する。 最後に,MixTSの合成実験および実世界の実験における実証実験の有効性を示す。

We study Thompson sampling (TS) in online decision-making problems where the uncertain environment is sampled from a mixture distribution. This is relevant to multi-task settings, where a learning agent is faced with different classes of problems. We incorporate this structure in a natural way by initializing TS with a mixture prior -- dubbed MixTS -- and develop a novel, general technique for analyzing the regret of TS with such priors. We apply this technique to derive Bayes regret bounds for MixTS in both linear bandits and tabular Markov decision processes (MDPs). Our regret bounds reflect the structure of the problem and depend on the number of components and confidence width of each component of the prior. Finally, we demonstrate the empirical effectiveness of MixTS in both synthetic and real-world experiments.
翻訳日:2021-06-12 17:30:36 公開日:2021-06-10
# (参考訳) gnnautoscale: 履歴埋め込みによるスケーラブルで表現豊かなグラフニューラルネットワーク

GNNAutoScale: Scalable and Expressive Graph Neural Networks via Historical Embeddings ( http://arxiv.org/abs/2106.05609v1 )

ライセンス: CC BY 4.0
Matthias Fey, Jan E. Lenssen, Frank Weichert, Jure Leskovec(参考訳) 本稿では,任意のメッセージパスGNNを大規模グラフに拡張するためのフレームワークであるGNNAutoScale(GAS)を提案する。 GASは、事前のトレーニングイテレーションからの履歴埋め込みを利用して計算グラフのサブツリー全体を掘り起こし、データをドロップすることなく入力ノードサイズに対して一定のGPUメモリ消費をもたらす。 既存の手法はエッジのサブサンプリングや非トレーニング可能な伝搬によるメッセージパッシングの表現力を弱めるが,本手法は元のGNNの表現力を確実に維持することができる。 歴史的埋め込みの近似誤差境界を提供することでこれを達成し、実際にそれらを締め付ける方法を示す。 実験により,PyTorch Geometric の使い勝手のよい拡張である PyGAS が高速かつメモリ効率に優れ,表現的ノード表現を学習し,非スケーリンググラフの性能によく似ており,大規模グラフ上での最先端の性能に達することを示す。

We present GNNAutoScale (GAS), a framework for scaling arbitrary message-passing GNNs to large graphs. GAS prunes entire sub-trees of the computation graph by utilizing historical embeddings from prior training iterations, leading to constant GPU memory consumption in respect to input node size without dropping any data. While existing solutions weaken the expressive power of message passing due to sub-sampling of edges or non-trainable propagations, our approach is provably able to maintain the expressive power of the original GNN. We achieve this by providing approximation error bounds of historical embeddings and show how to tighten them in practice. Empirically, we show that the practical realization of our framework, PyGAS, an easy-to-use extension for PyTorch Geometric, is both fast and memory-efficient, learns expressive node representations, closely resembles the performance of their non-scaling counterparts, and reaches state-of-the-art performance on large-scale graphs.
翻訳日:2021-06-12 16:22:50 公開日:2021-06-10
# (参考訳) リアルタイム・モバイル・エンドテキスト検出・認識のための文脈自由テキストスポッター

Context-Free TextSpotter for Real-Time and Mobile End-to-End Text Detection and Recognition ( http://arxiv.org/abs/2106.05611v1 )

ライセンス: CC BY 4.0
Ryota Yoshihashi, Tomohiro Tanaka, Kenji Doi, Takumi Fujino, and Naoaki Yamashita(参考訳) モバイルプラットフォームへのシーンテキストスポッティングシステムの導入では,低計算の軽量モデルが望ましい。 概念上、エンドツーエンド(e2e)テキストスポッティングは、1つのモデルでテキストの検出と認識を行うため、このような目的に適している。 しかし、現在の最先端のE2E法は、精度を追求するために重い特徴抽出器、繰り返しシーケンスモデリング、複雑な形状整合器に頼っている。 E2Eテキストスポッティングでベルやホイッスルを使わずにどこまで行くことができるのか? そこで本研究では、単純な畳み込みと、Context-Free TextSpotterと呼ばれるポストプロセスからなるテキストスポッティング手法を提案する。 標準ベンチマークを用いた実験によれば、コンテキストフリーのtextspotterは、300万のパラメータしか持たないgpu上でリアルタイムテキストスポッティングを実現している。 さらに,当社のテキストスポッターが安価なスマートフォン上で動作できることを実証し,スタンドアロンのocrアプリケーション構築に有用であることを示す。

In the deployment of scene-text spotting systems on mobile platforms, lightweight models with low computation are preferable. In concept, end-to-end (E2E) text spotting is suitable for such purposes because it performs text detection and recognition in a single model. However, current state-of-the-art E2E methods rely on heavy feature extractors, recurrent sequence modellings, and complex shape aligners to pursue accuracy, which means their computations are still heavy. We explore the opposite direction: How far can we go without bells and whistles in E2E text spotting? To this end, we propose a text-spotting method that consists of simple convolutions and a few post-processes, named Context-Free TextSpotter. Experiments using standard benchmarks show that Context-Free TextSpotter achieves real-time text spotting on a GPU with only three million parameters, which is the smallest and fastest among existing deep text spotters, with an acceptable transcription quality degradation compared to heavier ones. Further, we demonstrate that our text spotter can run on a smartphone with affordable latency, which is valuable for building stand-alone OCR applications.
翻訳日:2021-06-12 15:45:41 公開日:2021-06-10
# (参考訳) SVMA:単眼の3次元人物位置推定のためのGANモデル

SVMA: A GAN-based model for Monocular 3D Human Pose Estimation ( http://arxiv.org/abs/2106.05616v1 )

ライセンス: CC0 1.0
Yicheng Deng, Yongqi Sun, Jiahui Zhu(参考訳) 2Dジョイントから3D人間のポーズを復元することは、特にビデオやマルチビュー情報なしでは、非常に制約のない問題である。 1枚の画像から抽出した2次元関節位置から3次元人間のポーズを復元するための教師なしGANモデルを提案する。 我々のモデルは、単純な2D-3D対応ではなく、GANを用いて2Dポーズから3Dポーズへの分布のマッピングを学習する。 再投射制約を考慮すると,本モデルはカメラを推定し,推定された3次元ポーズを元の2次元ポーズに再投射することができる。 この再プロジェクション法に基づいて、生成されたポーズを回転させて「新しい」2Dポーズを取得し、その後に「新しい」3Dポーズと「新しい」カメラを推定するために重量共有ジェネレータを使用する。 以上の推定プロセスを通じて,訓練中の単視点多角一貫性損失を定義し,多視点一貫性をシミュレートすることができる。つまり,単視点の2角度から推定した3次元ポーズとカメラを混合してリッチな2次元再投影を生成でき,同じ3次元ポーズから再投影された2次元再投影は一貫性を持つべきである。 また,Human3.6Mによる実験結果から,本手法は最先端の手法を全て上回り,MPI-INF-3DHPによる手法は最先端の手法を約15.0%上回ることがわかった。

Recovering 3D human pose from 2D joints is a highly unconstrained problem, especially without any video or multi-view information. We present an unsupervised GAN-based model to recover 3D human pose from 2D joint locations extracted from a single image. Our model uses a GAN to learn the mapping of distribution from 2D poses to 3D poses, not the simple 2D-3D correspondence. Considering the reprojection constraint, our model can estimate the camera so that we can reproject the estimated 3D pose to the original 2D pose. Based on this reprojection method, we can rotate and reproject the generated pose to get our "new" 2D pose and then use a weight sharing generator to estimate the "new" 3D pose and a "new" camera. Through the above estimation process, we can define the single-view-multi-angle consistency loss during training to simulate multi-view consistency, which means the 3D poses and cameras estimated from two angles of a single view should be able to be mixed to generate rich 2D reprojections, and the 2D reprojections reprojected from the same 3D pose should be consistent. The experimental results on Human3.6M show that our method outperforms all the state-of-the-art methods, and results on MPI-INF-3DHP show that our method outperforms state-of-the-art by approximately 15.0%.
翻訳日:2021-06-12 15:27:20 公開日:2021-06-10
# (参考訳) スキャンされた歴史的写真の野生における日時推定:画像検索によるアプローチ

Date Estimation in the Wild of Scanned Historical Photos: An Image Retrieval Approach ( http://arxiv.org/abs/2106.05618v1 )

ライセンス: CC BY-SA 4.0
Adri\`a Molina and Pau Riba and Lluis Gomez and Oriol Ramos-Terrades and Josep Llad\'os(参考訳) 本稿では,史料からの古写真年代推定手法を提案する。 主な貢献は、検索タスクとして日付推定を定式化することであり、クエリが与えられた場合、検索した画像は推定日付類似度でランク付けされる。 それらの埋め込み表現が近いほど、その日付が近い。 分類器や回帰器を学習するニューラルネットワークを設計する従来のモデルとは対照的に,nDCGランキング尺度に基づく学習目標を提案する。 我々は,dew公開データベースを用いた日付推定と日付センシティブ画像検索の2つのタスクにおいて,ベースライン手法を克服した手法の性能を実験的に評価した。

This paper presents a novel method for date estimation of historical photographs from archival sources. The main contribution is to formulate the date estimation as a retrieval task, where given a query, the retrieved images are ranked in terms of the estimated date similarity. The closer are their embedded representations the closer are their dates. Contrary to the traditional models that design a neural network that learns a classifier or a regressor, we propose a learning objective based on the nDCG ranking metric. We have experimentally evaluated the performance of the method in two different tasks: date estimation and date-sensitive image retrieval, using the DEW public database, overcoming the baseline methods.
翻訳日:2021-06-12 15:16:12 公開日:2021-06-10
# (参考訳) 機械翻訳における教師なし事前学習目標の検討

Exploring Unsupervised Pretraining Objectives for Machine Translation ( http://arxiv.org/abs/2106.05634v1 )

ライセンス: CC BY 4.0
Christos Baziotis, Ivan Titov, Alexandra Birch, Barry Haddow(参考訳) 教師なしの言語間事前学習は、大きな並列データの必要性を大幅に減らし、ニューラルマシン翻訳(NMT)において大きな成果を上げている。 ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。 本研究では,マスキングを実文に似た入力を生成する代替目的と体系的に比較し,文脈に基づく単語の並べ替えを行う。 英語$\leftrightarrow$german, english$\leftrightarrow$nepali, english$\leftrightarrow$sinhala単言語データを用いたモデルの事前学習を行い,nmtで評価した。 半教師NMTでは、事前訓練対象の変化は、微調整された性能に驚くほど小さな違いをもたらすが、教師なしNMTはそれに対してはるかに敏感である。 これらの結果を理解するために, 一連のプローブを用いて事前学習したモデルを徹底的に検討し, 異なる方法で情報をエンコードし, 使用することを確認する。 並列データの微調整は、強い言語間能力を持つモデルも必要とする教師なしNMTとは対照的に、強いデコーダなど、ほとんどのモデルで共有される少数の特性に主に敏感である。

Unsupervised cross-lingual pretraining has achieved strong results in neural machine translation (NMT), by drastically reducing the need for large parallel data. Most approaches adapt masked-language modeling (MLM) to sequence-to-sequence architectures, by masking parts of the input and reconstructing them in the decoder. In this work, we systematically compare masking with alternative objectives that produce inputs resembling real (full) sentences, by reordering and replacing words based on their context. We pretrain models with different methods on English$\leftrightarrow$German, English$\leftrightarrow$Nepali and English$\leftrightarrow$Sinhala monolingual data, and evaluate them on NMT. In (semi-) supervised NMT, varying the pretraining objective leads to surprisingly small differences in the finetuned performance, whereas unsupervised NMT is much more sensitive to it. To understand these results, we thoroughly study the pretrained models using a series of probes and verify that they encode and use information in different ways. We conclude that finetuning on parallel data is mostly sensitive to few properties that are shared by most models, such as a strong decoder, in contrast to unsupervised NMT that also requires models with strong cross-lingual abilities.
翻訳日:2021-06-12 15:06:04 公開日:2021-06-10
# (参考訳) U2++: 音声認識のための双方向双方向統合モデル

U2++: Unified Two-pass Bidirectional End-to-end Model for Speech Recognition ( http://arxiv.org/abs/2106.05642v1 )

ライセンス: CC0 1.0
Di Wu, Binbin Zhang, Chao Yang, Zhendong Peng, Wenjing Xia, Xiaoyu Chen, Xin Lei(参考訳) 音声認識のための統合ストリーミングと非ストリーミング2パスモデル(U2)は、ストリーミング能力、精度、リアルタイム係数(RTF)、レイテンシにおいて優れたパフォーマンスを示している。 本稿では,U2の精度向上のための拡張版であるU2++を提案する。 U2++の中核となる考え方は、トレーニング時にラベル配列の前方および後方情報を同時に使用し、よりリッチな情報を学び、復号時の前方と後方の予測を組み合わせてより正確な認識結果を与えることである。 また、u2++モデルをより正確かつ堅牢にするためのspecsubと呼ばれる新しいデータ拡張手法も提案しました。 実験の結果,U2++はU2に比べて学習時の収束速度が向上し,復号法に対する堅牢性が向上し,単語誤り率の減少率が5\%であることがわかった。 AISHELL-1の実験では、非ストリーミングセットアップで4.63\%の文字エラー率(CER)、U2++で320msのレイテンシを持つストリーミングセットアップで5.05\%を達成する。 我々の知る限りでは、5.05\%はAISHELL-1テストセットで最も多く発行されたストリーミング結果である。

The unified streaming and non-streaming two-pass (U2) end-to-end model for speech recognition has shown great performance in terms of streaming capability, accuracy, real-time factor (RTF), and latency. In this paper, we present U2++, an enhanced version of U2 to further improve the accuracy. The core idea of U2++ is to use the forward and the backward information of the labeling sequences at the same time at training to learn richer information, and combine the forward and backward prediction at decoding to give more accurate recognition results. We also proposed a new data augmentation method called SpecSub to help the U2++ model to be more accurate and robust. Our experiments show that, compared with U2, U2++ shows faster convergence at training, better robustness to the decoding method, as well as consistent 5\% - 8\% word error rate reduction gain over U2. On the experiment of AISHELL-1, we achieve a 4.63\% character error rate (CER) with a non-streaming setup and 5.05\% with a streaming setup with 320ms latency by U2++. To the best of our knowledge, 5.05\% is the best-published streaming result on the AISHELL-1 test set.
翻訳日:2021-06-12 14:42:13 公開日:2021-06-10
# (参考訳) 物理組立のための視覚スコープ操作

Visual scoping operations for physical assembly ( http://arxiv.org/abs/2106.05654v1 )

ライセンス: CC BY-SA 4.0
Felix J Binder, Marcelo M Mattar, David Kirsh, Judith E Fan(参考訳) 計画は難しい。 サブゴールの使用は計画をより扱いやすいものにするが、これらのサブゴールの選択は計算コストがかかる。 選択の計算オーバーヘッドを最小限に抑えながら、サブゴールを使用する計画のメリットを享受できるアルゴリズムは何でしょうか? 空間領域を次のサブゴールとして交互に定義し、それを達成するためのアクションを選択することにより、計画と行動を切り離す戦略であるビジュアルスコーピングを提案する。 視覚的スコーピングアルゴリズムを,前もって全てのサブゴールを計画することと,副ゴールなしで計画することの2つの基本ラインに対して,様々な物理組立問題に対して評価した。 視覚的スコーピングは,計算コストのごく一部しか必要とせず,サブゴールプランナーに匹敵するタスク性能を達成できることがわかった。 これらの結果は、人間が複雑な計画問題の解決に認知資源を効率的に活用する方法の理解に寄与する。

Planning is hard. The use of subgoals can make planning more tractable, but selecting these subgoals is computationally costly. What algorithms might enable us to reap the benefits of planning using subgoals while minimizing the computational overhead of selecting them? We propose visual scoping, a strategy that interleaves planning and acting by alternately defining a spatial region as the next subgoal and selecting actions to achieve it. We evaluated our visual scoping algorithm on a variety of physical assembly problems against two baselines: planning all subgoals in advance and planning without subgoals. We found that visual scoping achieves comparable task performance to the subgoal planner while requiring only a fraction of the total computational cost. Together, these results contribute to our understanding of how humans might make efficient use of cognitive resources to solve complex planning problems.
翻訳日:2021-06-12 14:32:35 公開日:2021-06-10
# (参考訳) MST:視覚表現のためのマスク付きセルフスーパーバイザートランス

MST: Masked Self-Supervised Transformer for Visual Representation ( http://arxiv.org/abs/2106.05656v1 )

ライセンス: CC BY 4.0
Zhaowen Li, Zhiyang Chen, Fan Yang, Wei Li, Yousong Zhu, Chaoyang Zhao, Rui Deng, Liwei Wu, Rui Zhao, Ming Tang, Jinqiao Wang(参考訳) Transformerは自然言語処理(NLP)における自己教師型事前学習に広く使われており、大きな成功を収めている。 しかし、視覚的自己指導学習では十分に研究されていない。 一方、従来の手法では、グローバルな視点から高レベルな特徴と学習表現のみを考慮し、局所的な特徴に着目した下流密集予測タスクに転送できない可能性がある。 本稿では,世界的意味情報を保存しつつ,画像の局所的文脈を明示的に捉えることができるマスク付き自己教師付きトランスフォーマー手法であるmstを提案する。 具体的には,nlp の masked language modeling (mlm) に着想を得たマルチヘッド・セルフアテンションマップに基づくマスキングトークン戦略を提案し,自己教師付き学習の重要な構造を損なうことなく,局所パッチのトークンを動的にマスキングする。 さらに重要なことに、マスクされたトークンと残りのトークンは、画像の空間情報を保存し、下流の密集した予測タスクにより親しみやすいグローバル画像デコーダによってさらに復元される。 複数のデータセットに対する実験により,提案手法の有効性と汎用性を示した。 例えば、mstは、線形評価による300エポック事前トレーニングのみを使用して、deit-sで76.9%のtop-1精度を達成している。 密集予測タスクでは、MS COCOオブジェクト検出では42.7% mAP、Cityscapesセグメンテーションでは74.04% mIoU、100エポシック事前トレーニングでは74.04% mIoUを達成した。

Transformer has been widely used for self-supervised pre-training in Natural Language Processing (NLP) and achieved great success. However, it has not been fully explored in visual self-supervised learning. Meanwhile, previous methods only consider the high-level feature and learning representation from a global perspective, which may fail to transfer to the downstream dense prediction tasks focusing on local features. In this paper, we present a novel Masked Self-supervised Transformer approach named MST, which can explicitly capture the local context of an image while preserving the global semantic information. Specifically, inspired by the Masked Language Modeling (MLM) in NLP, we propose a masked token strategy based on the multi-head self-attention map, which dynamically masks some tokens of local patches without damaging the crucial structure for self-supervised learning. More importantly, the masked tokens together with the remaining tokens are further recovered by a global image decoder, which preserves the spatial information of the image and is more friendly to the downstream dense prediction tasks. The experiments on multiple datasets demonstrate the effectiveness and generality of the proposed method. For instance, MST achieves Top-1 accuracy of 76.9% with DeiT-S only using 300-epoch pre-training by linear evaluation, which outperforms supervised methods with the same epoch by 0.4% and its comparable variant DINO by 1.0\%. For dense prediction tasks, MST also achieves 42.7% mAP on MS COCO object detection and 74.04% mIoU on Cityscapes segmentation only with 100-epoch pre-training.
翻訳日:2021-06-12 14:21:00 公開日:2021-06-10
# (参考訳) ディープニューラルネットワークは敵画像に注意を失う

Deep neural network loses attention to adversarial images ( http://arxiv.org/abs/2106.05657v1 )

ライセンス: CC BY 4.0
Shashank Kotyan and Danilo Vasconcellos Vargas(参考訳) 敵アルゴリズムは様々なタスクにおいてニューラルネットワークに対して有効であることが示されている。 いくつかの逆アルゴリズムは、画像分類タスクにおいて、画像内のすべてのピクセルを最小限に摂動する。 対照的に、いくつかのアルゴリズムはピクセルを強く摂動する。 しかし、なぜこれらの対立するサンプルが互いにこれほど多様なのかについては、ほとんど情報がない。 最近、Vargasら。 敵のサンプルの存在は ニューラルネットワーク内の 塩分濃度の相反によるものかもしれない 本研究では,Saliency Maps (SM) と Gradient-weighted Class Activation Maps (Grad-CAM) を原型および少数種の逆数サンプルから解析し,相反する正則性仮説を検証した。 また、元のサンプルと比較して、異なる対向サンプルがニューラルネットワークの注意を歪めているかを分析する。 Pixel Attackの場合、摂動ピクセルはネットワークの注意を自分自身に呼び出すか、それらから注意を逸らすかを示す。 同時に、投影された勾配降下は、ニューラルネットワーク内の中間層が正しいクラスに注意を払わないように画素を摂動させる。 また,どちらの攻撃もサリエンシマップとアクティベーションマップに異なる影響を及ぼすことを示した。 したがって、ある攻撃に対して成功した防衛部隊が、他の攻撃に対して脆弱なままである理由に光を当てる。 この分析によって、敵のサンプルの存在と効果の理解が向上し、コミュニティがより堅牢なニューラルネットワークを開発することを期待する。

Adversarial algorithms have shown to be effective against neural networks for a variety of tasks. Some adversarial algorithms perturb all the pixels in the image minimally for the image classification task in image classification. In contrast, some algorithms perturb few pixels strongly. However, very little information is available regarding why these adversarial samples so diverse from each other exist. Recently, Vargas et al. showed that the existence of these adversarial samples might be due to conflicting saliency within the neural network. We test this hypothesis of conflicting saliency by analysing the Saliency Maps (SM) and Gradient-weighted Class Activation Maps (Grad-CAM) of original and few different types of adversarial samples. We also analyse how different adversarial samples distort the attention of the neural network compared to original samples. We show that in the case of Pixel Attack, perturbed pixels either calls the network attention to themselves or divert the attention from them. Simultaneously, the Projected Gradient Descent Attack perturbs pixels so that intermediate layers inside the neural network lose attention for the correct class. We also show that both attacks affect the saliency map and activation maps differently. Thus, shedding light on why some defences successful against some attacks remain vulnerable against other attacks. We hope that this analysis will improve understanding of the existence and the effect of adversarial samples and enable the community to develop more robust neural networks.
翻訳日:2021-06-12 14:05:53 公開日:2021-06-10
# (参考訳) 次世代機械学習による宇宙船の診断システム

Next-Gen Machine Learning Supported Diagnostic Systems for Spacecraft ( http://arxiv.org/abs/2106.05659v1 )

ライセンス: CC BY 4.0
Athanasios Vlontzos, Gabriel Sutherland, Siddha Ganju, Frank Soboczenski(参考訳) 将来の短期または長期の宇宙ミッションは、通信障害による新しい世代の監視と診断システムと、特別な乗組員や機器の制限を必要とする。 機械学習がサポートする診断システムは、医療および技術応用に有効なソリューションである。 今後のミッションに照らして、このようなシステムの課題と適用性について論じ、将来の宇宙運用のための次世代医療診断システムの実例を概説する。 さらに、宇宙船上での機械学習モデルの生成と利用を成功させるために、アプローチの推奨と制約を提案する。

Future short or long-term space missions require a new generation of monitoring and diagnostic systems due to communication impasses as well as limitations in specialized crew and equipment. Machine learning supported diagnostic systems present a viable solution for medical and technical applications. We discuss challenges and applicability of such systems in light of upcoming missions and outline an example use case for a next-generation medical diagnostic system for future space operations. Additionally, we present approach recommendations and constraints for the successful generation and use of machine learning models aboard a spacecraft.
翻訳日:2021-06-12 13:54:52 公開日:2021-06-10
# (参考訳) 対応駆動型単眼3次元カテゴリー再構築

To The Point: Correspondence-driven monocular 3D category reconstruction ( http://arxiv.org/abs/2106.05662v1 )

ライセンス: CC BY 4.0
Filippos Kokkinos and Iasonas Kokkinos(参考訳) 本稿では,弱い監督から学んだ2次元から3次元の対応を利用して,単一の画像から3次元オブジェクトを再構成する手法であるTTPについて述べる。 3dテンプレート頂点に対応する2d位置をまず回帰させ、次に3d形状投影により2d位置を最適に説明する剛性カメラ変換及び非剛性テンプレート変形を共同で推定し、2d画像から3d形状を復元する。 3D-2D対応を頼りにすることで,CNNによるカメラポーズの回帰と非剛性変形を置き換え,より高精度な3D再構成を実現する。 我々は,この最適化を微分可能な層として扱い,システム全体をエンドツーエンドでトレーニングする。 本稿では,複数のカテゴリの体系的定量的改善を報告し,多様な形状,ポーズ,テクスチャ予測例からなる質的結果を提供する。 プロジェクトwebサイト: https://fkokkinos.github.io/to_the_point/

We present To The Point (TTP), a method for reconstructing 3D objects from a single image using 2D to 3D correspondences learned from weak supervision. We recover a 3D shape from a 2D image by first regressing the 2D positions corresponding to the 3D template vertices and then jointly estimating a rigid camera transform and non-rigid template deformation that optimally explain the 2D positions through the 3D shape projection. By relying on 3D-2D correspondences we use a simple per-sample optimization problem to replace CNN-based regression of camera pose and non-rigid deformation and thereby obtain substantially more accurate 3D reconstructions. We treat this optimization as a differentiable layer and train the whole system in an end-to-end manner. We report systematic quantitative improvements on multiple categories and provide qualitative results comprising diverse shape, pose and texture prediction examples. Project website: https://fkokkinos.github.io/to_the_point/.
翻訳日:2021-06-12 13:45:21 公開日:2021-06-10
# (参考訳) GraphiT: トランスフォーマーのグラフ構造をエンコードする

GraphiT: Encoding Graph Structure in Transformers ( http://arxiv.org/abs/2106.05667v1 )

ライセンス: CC BY 4.0
Gr\'egoire Mialon, Dexiong Chen, Margot Selosse, Julien Mairal(参考訳) 従来のグラフニューラルネットワーク(GNN)で学習した表現よりも、グラフをノードの特徴の集合として見ることができ、構造的および位置的情報をトランスフォーマーアーキテクチャに組み込むことが可能であることを示す。 我々のモデルであるGraphiTは,グラフ上の正定値カーネルに基づく自己注意スコアにおける相対的な位置符号化戦略と,短距離パスなどの局所的なサブ構造を列挙して符号化することで,そのような情報を符号化する。 我々はこれらの2つの概念を多くの分類タスクと回帰タスクで徹底的に評価し、それぞれの有効性と組み合わせの有効性を独立に示す。 標準ベンチマークでよく機能するだけでなく,予測を説明するグラフモチーフを解釈するための自然な可視化機構も認めており,解釈が重要である科学的応用の候補として潜在的に有力である。 コードはhttps://github.com/inria-thoth/graphit。

We show that viewing graphs as sets of node features and incorporating structural and positional information into a transformer architecture is able to outperform representations learned with classical graph neural networks (GNNs). Our model, GraphiT, encodes such information by (i) leveraging relative positional encoding strategies in self-attention scores based on positive definite kernels on graphs, and (ii) enumerating and encoding local sub-structures such as paths of short length. We thoroughly evaluate these two ideas on many classification and regression tasks, demonstrating the effectiveness of each of them independently, as well as their combination. In addition to performing well on standard benchmarks, our model also admits natural visualization mechanisms for interpreting graph motifs explaining the predictions, making it a potentially strong candidate for scientific applications where interpretation is important. Code available at https://github.com/inria-thoth/GraphiT.
翻訳日:2021-06-12 13:26:00 公開日:2021-06-10
# (参考訳) ロボットピッキングのための水中物体検出のデータセットとベンチマーク

A Dataset And Benchmark Of Underwater Object Detection For Robot Picking ( http://arxiv.org/abs/2106.05681v1 )

ライセンス: CC BY 4.0
Chongwei Liu, Haojie Li, Shuchang Wang, Ming Zhu, Dong Wang, Xin Fan and Zhihui Wang(参考訳) ロボットピッキングのための水中物体検出は、多くの関心を集めている。 しかし、いくつかの問題により未解決の問題である。 以下に示す課題に対処することで、より現実的なものにするためのステップを踏み出します。 まず、現在利用可能なデータセットは基本的にテストセットアノテーションを欠いているため、研究者は他のSOTAと比較しなければならない(トレーニングセットから)。 他の方法のトレーニングはワークロードの増加につながり、研究者によって異なるデータセットが分割されるため、異なるアルゴリズムのパフォーマンスを比較するための統一ベンチマークは存在しない。 第二に、これらのデータセットには他にも欠点があり、例えば、多くの類似した画像や不完全なラベルがある。 これらの課題に向けて、すべての関連するデータセットの収集と再アノテーションに基づいて、データセット、検出水中オブジェクト(DUO)および対応するベンチマークを導入します。 DUOはより合理的な注釈を持つ多様な水中画像のコレクションを含んでいる。 対応するベンチマークは、JETSON AGX XAVIERを使用して検出速度を評価し、ロボット組み込み環境をシミュレートする、学術研究および産業応用のためのSOTA(MDtection framework)の効率と精度の指標を提供する。

Underwater object detection for robot picking has attracted a lot of interest. However, it is still an unsolved problem due to several challenges. We take steps towards making it more realistic by addressing the following challenges. Firstly, the currently available datasets basically lack the test set annotations, causing researchers must compare their method with other SOTAs on a self-divided test set (from the training set). Training other methods lead to an increase in workload and different researchers divide different datasets, resulting there is no unified benchmark to compare the performance of different algorithms. Secondly, these datasets also have other shortcomings, e.g., too many similar images or incomplete labels. Towards these challenges we introduce a dataset, Detecting Underwater Objects (DUO), and a corresponding benchmark, based on the collection and re-annotation of all relevant datasets. DUO contains a collection of diverse underwater images with more rational annotations. The corresponding benchmark provides indicators of both efficiency and accuracy of SOTAs (under the MMDtection framework) for academic research and industrial applications, where JETSON AGX XAVIER is used to assess detector speed to simulate the robot-embedded environment.
翻訳日:2021-06-12 13:09:22 公開日:2021-06-10
# (参考訳) 平衡シナプスを有する単一信号ニューロンの時空間スパイク-パタン選択性

Spatiotemporal Spike-Pattern Selectivity in Single Mixed-Signal Neurons with Balanced Synapses ( http://arxiv.org/abs/2106.05686v1 )

ライセンス: CC BY 4.0
Mattias Nilsson, Foteini Liwicki, and Fredrik Sandin(参考訳) 超低消費電力推論と学習のための混合信号ニューロモルフィックプロセッサの可能性を実現するには、その不均一なアナログ回路とスパース、時間ベースの情報符号化と処理の効率的な利用が必要である。 本研究では,stcネットワークにおけるspike-timing-based spatiotemporal receptive fields (spike-timing-based spatiotemporal receptive fields of output-neurons in the spatiotemporal correlator (stc)について検討した。 ハードウェアニューロンの5次元受容場を一様分布からランダムに入力スパイクパターンをサンプリングすることによってマッピングした混合信号DYNAP-SEニューロモルフィックプロセッサを用いたループ内ハードウェア実験を行った。 バランスの取れたシナプス要素がランダムにプログラムされると、いくつかのニューロンは異なる受容野を示す。 さらに,同種アナログシナプス回路の異なるサブセットを活性化することにより,ニューロンが特定の時空間的特徴を検出するように調整されたことを実証した。 バランスの取れたシナプス要素のエネルギー散逸は、かつての遅延ベースのニューロモルフィックハードウェア実装よりも1桁低い(0.65 nJ 対 9.3 nJ 対 スパイク)。 そこで本研究では,不均質なシナプス回路をstcネットワーク層のリソース効率の高い実装に活用し,機能チューニングのための離散的な機構としてシナプスアドレス再プログラミングを可能にする方法を示す。

Realizing the potential of mixed-signal neuromorphic processors for ultra-low-power inference and learning requires efficient use of their inhomogeneous analog circuitry as well as sparse, time-based information encoding and processing. Here, we investigate spike-timing-based spatiotemporal receptive fields of output-neurons in the Spatiotemporal Correlator (STC) network, for which we used excitatory-inhibitory balanced disynaptic inputs instead of dedicated axonal or neuronal delays. We present hardware-in-the-loop experiments with a mixed-signal DYNAP-SE neuromorphic processor, in which five-dimensional receptive fields of hardware neurons were mapped by randomly sampling input spike-patterns from a uniform distribution. We find that, when the balanced disynaptic elements are randomly programmed, some of the neurons display distinct receptive fields. Furthermore, we demonstrate how a neuron was tuned to detect a particular spatiotemporal feature, to which it initially was non-selective, by activating a different subset of the inhomogeneous analog synaptic circuits. The energy dissipation of the balanced synaptic elements is one order of magnitude lower per lateral connection (0.65 nJ vs 9.3 nJ per spike) than former delay-based neuromorphic hardware implementations. Thus, we show how the inhomogeneous synaptic circuits could be utilized for resource-efficient implementation of STC network layers, in a way that enables synapse-address reprogramming as a discrete mechanism for feature tuning.
翻訳日:2021-06-12 13:00:52 公開日:2021-06-10
# (参考訳) ハイパーグラフ学習のための学習可能なハイパーグラフラプラシアン

Learnable Hypergraph Laplacian for Hypergraph Learning ( http://arxiv.org/abs/2106.05701v1 )

ライセンス: CC BY 4.0
Jiying Zhang, Yuzhao Chen, Xi Xiao, Runiu Lu, Shu-Tao Xia(参考訳) HyperGraph Convolutional Neural Networks (HGCNN) は、グラフ構造化データに保存された高次関係をモデル化する可能性を示した。 しかし、既存の畳み込みフィルタの多くは、事前に定義された初期ハイパーグラフトポロジーによって局所化され決定され、実世界データにおける暗黙的および長期的関係の探索を怠る。 本稿では,hgcnnの表現力を向上させる汎用プラグイン・イン・プレイモジュールとして機能する,適応型ハイパーグラフ構造構築のための最初の学習ベース手法であるhypergraph laplacian adaptor(herald)を提案する。 具体的には,ハイパーノードとハイパーエッジの隣接関係をエンドツーエンドで適応的に最適化し,タスク認識ハイパーグラフを学習する。 さらにヘラルドは、非局所的な対ノード関係を捉えるために自己アテンション機構を用いる。 ノード分類とグラフ分類タスクのための多種多様なハイパーグラフデータセットに対する大規模な実験により,本手法が一貫した性能向上を実現し,その有効性と一般化能力を示した。

HyperGraph Convolutional Neural Networks (HGCNNs) have demonstrated their potential in modeling high-order relations preserved in graph structured data. However, most existing convolution filters are localized and determined by the pre-defined initial hypergraph topology, neglecting to explore implicit and long-ange relations in real-world data. In this paper, we propose the first learning-based method tailored for constructing adaptive hypergraph structure, termed HypERgrAph Laplacian aDaptor (HERALD), which serves as a generic plug-in-play module for improving the representational power of HGCNNs. Specifically, HERALD adaptively optimizes the adjacency relationship between hypernodes and hyperedges in an end-to-end manner and thus the task-aware hypergraph is learned. Furthermore, HERALD employs the self-attention mechanism to capture the non-local paired-nodes relation. Extensive experiments on various popular hypergraph datasets for node classification and graph classification tasks demonstrate that our approach obtains consistent and considerable performance enhancement, proving its effectiveness and generalization ability.
翻訳日:2021-06-12 12:48:23 公開日:2021-06-10
# (参考訳) FEVEROUS:非構造化情報に対するFact extract and Verification

FEVEROUS: Fact Extraction and VERification Over Unstructured and Structured information ( http://arxiv.org/abs/2106.05707v1 )

ライセンス: CC BY-SA 4.0
Rami Aly, Zhijiang Guo, Michael Schlichtkrull, James Thorne, Andreas Vlachos, Christos Christodoulopoulos, Oana Cocarascu, Arpit Mittal(参考訳) ファクト検証は、誤情報を検出する重要な方法の1つであるため、機械学習や自然言語処理のコミュニティで多くの注目を集めている。 このタスクの既存の大規模ベンチマークは主にテキストソースに焦点を当てている。 構造化されていない情報は、テーブルのような構造化されたフォーマットで利用可能な豊富な情報を無視します。 本稿では,87,026件の検証済みクレームからなる新しいデータセットとベンチマークであるFact extract and VERification Over Unstructured and Structured Information (FEVEROUS)を紹介する。 それぞれのクレームには、ウィキペディアの表の文やセルの形での証拠と、この証拠が評決に達するのに十分な情報を提供していないかどうかを示すラベルが添付されている。 さらに、データセットに存在するバイアスを追跡し最小化するための取り組みを詳述し、例えばモデルによって悪用される可能性がある。 証拠を使わずにラベルを予測できるのです 最後に,テキストと表に対するクレームを検証するためのベースラインを開発し,クレームの正しい証拠と18%の判定を予測した。

Fact verification has attracted a lot of attention in the machine learning and natural language processing communities, as it is one of the key methods for detecting misinformation. Existing large-scale benchmarks for this task have focused mostly on textual sources, i.e. unstructured information, and thus ignored the wealth of information available in structured formats, such as tables. In this paper we introduce a novel dataset and benchmark, Fact Extraction and VERification Over Unstructured and Structured information (FEVEROUS), which consists of 87,026 verified claims. Each claim is annotated with evidence in the form of sentences and/or cells from tables in Wikipedia, as well as a label indicating whether this evidence supports, refutes, or does not provide enough information to reach a verdict. Furthermore, we detail our efforts to track and minimize the biases present in the dataset and could be exploited by models, e.g. being able to predict the label without using evidence. Finally, we develop a baseline for verifying claims against text and tables which predicts both the correct evidence and verdict for 18% of the claims.
翻訳日:2021-06-12 12:38:19 公開日:2021-06-10
# (参考訳) DNNに基づくトポロジ最適化:空間不変性とニューラルタンジェントカーネル

DNN-Based Topology Optimisation: Spatial Invariance and Neural Tangent Kernel ( http://arxiv.org/abs/2106.05710v1 )

ライセンス: CC BY 4.0
Benjamin Dupuis and Arthur Jacot(参考訳) 完全連結ニューラルネットワークによって生成される密度場を用いてSIMP法について検討し,その座標を入力とする。 広帯域幅では,DNNを用いた場合,従来のSIMPのフィルタリング手法と同様のフィルタ効果が得られ,Nutral Tangent Kernel (NTK) によるフィルタが記述される。 しかし、このフィルターは翻訳下で不変ではなく、視覚的アーティファクトと非最適形状をもたらす。 入力座標の埋め込みを2つ提案し、NTKとフィルタの空間的不変性を(近似的に)引き起こす。 理論的観測を実証的に確認し,ネットワークのアーキテクチャによるフィルタサイズの影響について検討する。 我々の解は他の座標ベースの生成方法にも容易に適用できる。

We study the SIMP method with a density field generated by a fully-connected neural network, taking the coordinates as inputs. In the large width limit, we show that the use of DNNs leads to a filtering effect similar to traditional filtering techniques for SIMP, with a filter described by the Neural Tangent Kernel (NTK). This filter is however not invariant under translation, leading to visual artifacts and non-optimal shapes. We propose two embeddings of the input coordinates, which lead to (approximate) spatial invariance of the NTK and of the filter. We empirically confirm our theoretical observations and study how the filter size is affected by the architecture of the network. Our solution can easily be applied to any other coordinates-based generation method.
翻訳日:2021-06-12 12:12:06 公開日:2021-06-10
# (参考訳) Wasserstein 距離を用いた分布ロバストな規範解析

Distributionally Robust Prescriptive Analytics with Wasserstein Distance ( http://arxiv.org/abs/2106.05724v1 )

ライセンス: CC BY 4.0
Tianyu Wang, Ningyuan Chen and Chun Wang(参考訳) 規範的分析では、決定者は$(X, Y)$の歴史的サンプルを観察し、$Y$は不確実な問題パラメータであり、$X$は共同分布を知らずに同時共変量である。 追加の共変量観測の$x$が与えられた場合、この観測の目標は、コストが$\mathbb{E}[c(z,Y)|X=x]$を最小化する決定の$z$条件を選択することである。 本稿では,ヒストリデータに関するnadaraya-watson kernel estimatorに基づいてy|x=x$の公称分布を構築する,wassersteinambiguity setに基づく新しい分布的ロバストなアプローチを提案する。 名目分布はwasserstein距離の下で実際の条件分布に収束することを示す。 我々は,フレームワークの外部保証と計算可搬性を確立する。 newsvendor問題とポートフォリオ最適化に関する総合的かつ実証的な実験を通じて,提案フレームワークの性能と実用的価値を実証する。

In prescriptive analytics, the decision-maker observes historical samples of $(X, Y)$, where $Y$ is the uncertain problem parameter and $X$ is the concurrent covariate, without knowing the joint distribution. Given an additional covariate observation $x$, the goal is to choose a decision $z$ conditional on this observation to minimize the cost $\mathbb{E}[c(z,Y)|X=x]$. This paper proposes a new distributionally robust approach under Wasserstein ambiguity sets, in which the nominal distribution of $Y|X=x$ is constructed based on the Nadaraya-Watson kernel estimator concerning the historical data. We show that the nominal distribution converges to the actual conditional distribution under the Wasserstein distance. We establish the out-of-sample guarantees and the computational tractability of the framework. Through synthetic and empirical experiments about the newsvendor problem and portfolio optimization, we demonstrate the strong performance and practical value of the proposed framework.
翻訳日:2021-06-12 11:47:18 公開日:2021-06-10
# (参考訳) 等価ポリシーを用いた協調型マルチエージェント学習の公平性

Fairness for Cooperative Multi-Agent Learning with Equivariant Policies ( http://arxiv.org/abs/2106.05727v1 )

ライセンス: CC BY 4.0
Niko A. Grupen, Bart Selman, Daniel D. Lee(参考訳) 協調型マルチエージェント学習のレンズを通して公平性を研究する。 私たちの仕事は、チーム報酬の最小化が個々のチームメンバーに不公平な結果をもたらすという実証的な証拠によって動機付けられています。 マルチエージェント・コンテキストにおける公平性に対処するために、マルチエージェント・ラーニングのためのグループベースフェアネス尺度であるteam fairnessを導入する。 次に、チームフェアネスをポリシー最適化に取り入れます -- 公正さを平等性(Fair-E)を通じて導入します。 次に,fair-e のソフト・コンストラクティブ版として等分散正規化 (fair-er) によってフェアネスを導入することにより,fair-er が fair-e よりも高い有用性に到達し,公平性のない政策よりも公正な結果が得られることを示した。 最後に,マルチエージェント設定におけるフェアネスユーティリティトレードオフについて検討する。

We study fairness through the lens of cooperative multi-agent learning. Our work is motivated by empirical evidence that naive maximization of team reward yields unfair outcomes for individual team members. To address fairness in multi-agent contexts, we introduce team fairness, a group-based fairness measure for multi-agent learning. We then incorporate team fairness into policy optimization -- introducing Fairness through Equivariance (Fair-E), a novel learning strategy that achieves provably fair reward distributions. We then introduce Fairness through Equivariance Regularization (Fair-ER) as a soft-constraint version of Fair-E and show that Fair-ER reaches higher levels of utility than Fair-E and fairer outcomes than policies with no equivariance. Finally, we investigate the fairness-utility trade-off in multi-agent settings.
翻訳日:2021-06-12 11:25:34 公開日:2021-06-10
# (参考訳) 畳み込みニューラルネットワークを用いた顔マスク検出

Face mask detection using convolution neural network ( http://arxiv.org/abs/2106.05728v1 )

ライセンス: CC BY 4.0
Riya Shah Rutva Shah(参考訳) 近年では、異なるウイルスの大きなファミリーであるコロナウイルスは、人間全体にとって非常に一般的で伝染性があり、危険になっている。 ウイルスの液滴を異なる表面に残し、他の人が吸っても感染をキャッチする感染口を吐き出すことで、ヒトからヒトに拡散する。 そのため、この状況から自分と周りの人々を守ることがとても重要になっています。 ソーシャルディスタンシング、手洗い、2時間ごとに手洗い、消毒剤の使用、社会的距離の維持、マスク着用などの予防措置を採ることができる。 マスクを身に着けることの公的な利用は、今や世界中で非常に一般的になっている。 それ以来、インドで最も影響を受け、壊滅的な状況は、人口が極端に少ないことによる。 そこで本稿では,オフィスや出勤者の多い職場でフェイスマスクが装着されているかどうかを検知する手法を提案する。 畳み込みニューラルネットワークも同様に使用しました。 このモデルは実世界のデータセットでトレーニングされ、ライブビデオストリーミングで高い精度でテストされる。 さらに、ハイパーパラメータの異なるモデルの精度と、フレームの距離や位置の異なる複数の人物の精度について検討する。

In the recent times, the Coronaviruses that are a big family of different viruses have become very common, contagious and dangerous to the whole human kind. It spreads human to human by exhaling the infection breath, which leaves droplets of the virus on different surface which is then inhaled by other person and catches the infection too. So it has become very important to protect ourselves and the people around us from this situation. We can take precautions such as social distancing, washing hands every two hours, using sanitizer, maintaining social distance and the most important wearing a mask. Public use of wearing a masks has become very common everywhere in the whole world now. From that the most affected and devastating condition is of India due to its extreme population in small area. This paper proposes a method to detect the face mask is put on or not for offices, or any other work place with a lot of people coming to work. We have used convolutional neural network for the same. The model is trained on a real world dataset and tested with live video streaming with a good accuracy. Further the accuracy of the model with different hyper parameters and multiple people at different distance and location of the frame is done.
翻訳日:2021-06-12 11:09:53 公開日:2021-06-10
# (参考訳) リアルタイム画像編集のためのPivotal Tuning

Pivotal Tuning for Latent-based Editing of Real Images ( http://arxiv.org/abs/2106.05744v1 )

ライセンス: CC BY-SA 4.0
Daniel Roich, Ron Mokady, Amit H. Bermano, and Daniel Cohen-Or(参考訳) 近年,事前学習したStyleGANの生成能力を活用した高度な顔編集技術が提案されている。 このようにして画像を編集するには、事前に訓練されたジェネレータのドメインに最初に画像を投影(あるいは反転)する必要がある。 しかし、スタイルガンの潜在空間は、歪曲と編集性の間に固有のトレードオフを生じさせる。 元の外観を保ち 属性のいくつかを 確実に変更することです 実際には、ジェネレータの領域外にある顔に対して、ID保存の顔潜在空間編集を適用することは依然として困難である。 本稿では,このギャップを橋渡しする手法を提案する。 我々の技術はジェネレータを少し変更し、ドメイン外の画像を忠実にドメイン内の潜在コードにマッピングする。 重要なアイデアはpivotal tuning – ドメイン内の潜在領域の編集品質を保ちながら、その表現されたアイデンティティと外観を変更する、簡単なトレーニングプロセスだ。 Pivotal Tuning Inversion (PTI)では、初期反転潜時コードはピボットとして機能し、その周りでジェネレータを微調整する。 同時に、正規化用語は、その効果を局所的に含むために、近隣のアイデンティティをそのまま保持する。 この手術訓練プロセスは、編集能力に影響を与えることなく、ほとんど同一性を表す外観の特徴を変えることになる。 測定値の反転と編集を行い,最先端の手法に好適なスコアを示す。 さらに,高度な編集(ポーズ,年齢,表情など)を,知名度や認識可能な多数の画像に適用することにより,この手法を定性的に実証する。 最後に, ヘビーメイクアップ, 精巧なヘアスタイル, ヘッドウェアなど, 難易度の高い症例に対するレジリエンスを実証した。

Recently, a surge of advanced facial editing techniques have been proposed that leverage the generative power of a pre-trained StyleGAN. To successfully edit an image this way, one must first project (or invert) the image into the pre-trained generator's domain. As it turns out, however, StyleGAN's latent space induces an inherent tradeoff between distortion and editability, i.e. between maintaining the original appearance and convincingly altering some of its attributes. Practically, this means it is still challenging to apply ID-preserving facial latent-space editing to faces which are out of the generator's domain. In this paper, we present an approach to bridge this gap. Our technique slightly alters the generator, so that an out-of-domain image is faithfully mapped into an in-domain latent code. The key idea is pivotal tuning - a brief training process that preserves the editing quality of an in-domain latent region, while changing its portrayed identity and appearance. In Pivotal Tuning Inversion (PTI), an initial inverted latent code serves as a pivot, around which the generator is fined-tuned. At the same time, a regularization term keeps nearby identities intact, to locally contain the effect. This surgical training process ends up altering appearance features that represent mostly identity, without affecting editing capabilities. We validate our technique through inversion and editing metrics, and show preferable scores to state-of-the-art methods. We further qualitatively demonstrate our technique by applying advanced edits (such as pose, age, or expression) to numerous images of well-known and recognizable identities. Finally, we demonstrate resilience to harder cases, including heavy make-up, elaborate hairstyles and/or headwear, which otherwise could not have been successfully inverted and edited by state-of-the-art methods.
翻訳日:2021-06-12 11:05:41 公開日:2021-06-10
# (参考訳) 残留エンコーダと正規化流れによるマルチスピーカーtts韻律分散の改善

Improving multi-speaker TTS prosody variance with a residual encoder and normalizing flows ( http://arxiv.org/abs/2106.05762v1 )

ライセンス: CC BY 4.0
Iv\'an Vall\'es-P\'erez, Julian Roth, Grzegorz Beringer, Roberto Barra-Chicote, Jasha Droppo(参考訳) テキスト対音声システムは最近、人間の発話とほとんど区別がつかない品質を達成した。 しかし、それらのシステムの韻律は一般に自然発声よりも平坦であり、表現力の低いサンプルを生成する。 自然性を改善し、より可変的な合成を生成するために、テキスト対音声システムでは話者idと韻律の絡み合いが不可欠である。 本稿では,フロー正規化話者埋め込みにTacotron2のようなアーキテクチャを条件付け,韻律による文内変動をモデル化する新たな学習潜時分布を基準エンコーダに置き換えることで,絡み合う問題にアプローチする新しいニューラルテキスト音声合成モデルを提案する。 参照エンコーダの依存性を取り除くことで、この種のシステムで発生する話者推論問題は消失し、推論時により独特な合成が生成される。 新しいモデルでは, 話者の明瞭度を低下させることなく, 数量的韻律特徴のセットにおいて, ベースラインよりもはるかに高い韻律分散を実現する。 最後に、正規化話者埋め込みにより、よりリッチな話者補間が可能となり、新しい補間話者の特異性を大幅に向上する。

Text-to-speech systems recently achieved almost indistinguishable quality from human speech. However, the prosody of those systems is generally flatter than natural speech, producing samples with low expressiveness. Disentanglement of speaker id and prosody is crucial in text-to-speech systems to improve on naturalness and produce more variable syntheses. This paper proposes a new neural text-to-speech model that approaches the disentanglement problem by conditioning a Tacotron2-like architecture on flow-normalized speaker embeddings, and by substituting the reference encoder with a new learned latent distribution responsible for modeling the intra-sentence variability due to the prosody. By removing the reference encoder dependency, the speaker-leakage problem typically happening in this kind of systems disappears, producing more distinctive syntheses at inference time. The new model achieves significantly higher prosody variance than the baseline in a set of quantitative prosody features, as well as higher speaker distinctiveness, without decreasing the speaker intelligibility. Finally, we observe that the normalized speaker embeddings enable much richer speaker interpolations, substantially improving the distinctiveness of the new interpolated speakers.
翻訳日:2021-06-12 10:50:08 公開日:2021-06-10
# (参考訳) 生存データをクラスタリングするための深い変分アプローチ

A Deep Variational Approach to Clustering Survival Data ( http://arxiv.org/abs/2106.05763v1 )

ライセンス: CC BY 4.0
Laura Manduchi, Ri\v{c}ards Marcinkevi\v{c}s, Michela C. Massi, Verena Gotta, Timothy M\"uller, Flavio Vasella, Marian C. Neidert, Marc Pfister and Julia E. Vogt(参考訳) 生存分析は医療分野で大きな注目を集めており、多くの広範囲の応用がある。 複雑な依存関係を持つ非構造化データの時間対イベント予測に様々な機械学習手法が導入されたが、サバイバルデータのクラスタリングは未探索の問題のままである。 後者は、異なる生成機構によって生存が制御される患者サブポピュレーションの発見に特に有用であり、精密医学における重要な問題である。 そこで本研究では,変動型深層クラスタリングにおけるクラスタ生存データに対する新しい確率的アプローチを提案する。 提案手法は,説明変数と潜在的に検閲された生存時間の両方の分布を明らかにするために,深い生成モデルを用いる。 本モデルとサバイバルクラスタリングに関する関連する研究を比較し,合成,半合成,実世界のデータセットの総合実験を行った。 提案手法は,クラスタの同定に優れ,一致指数と相対絶対誤差の観点から生存時間を予測できる。 さらに本手法の有用性を実証するため,これまでの臨床所見と一致した血液透析患者の観察的コホートから有意義なクラスターを同定した。

Survival analysis has gained significant attention in the medical domain and has many far-reaching applications. Although a variety of machine learning methods have been introduced for tackling time-to-event prediction in unstructured data with complex dependencies, clustering of survival data remains an under-explored problem. The latter is particularly helpful in discovering patient subpopulations whose survival is regulated by different generative mechanisms, a critical problem in precision medicine. To this end, we introduce a novel probabilistic approach to cluster survival data in a variational deep clustering setting. Our proposed method employs a deep generative model to uncover the underlying distribution of both the explanatory variables and the potentially censored survival times. We compare our model to the related work on survival clustering in comprehensive experiments on a range of synthetic, semi-synthetic, and real-world datasets. Our proposed method performs better at identifying clusters and is competitive at predicting survival times in terms of the concordance index and relative absolute error. To further demonstrate the usefulness of our approach, we show that our method identifies meaningful clusters from an observational cohort of hemodialysis patients that are consistent with previous clinical findings.
翻訳日:2021-06-11 21:49:30 公開日:2021-06-10
# (参考訳) 特許領域における表現学習のための言語情報マスキング

Linguistically Informed Masking for Representation Learning in the Patent Domain ( http://arxiv.org/abs/2106.05768v1 )

ライセンス: CC BY 4.0
Sophia Althammer, Mark Buckley, Sebastian Hofst\"atter, Allan Hanbury(参考訳) ドメイン特化言語モデルは、類似性マッチング、エンティティ認識、情報検索など、ドメイン特化下流タスクに対してかなりの効果を発揮している。 しかし、そのようなモデルを高度に特定の言語領域に適用するには、事前訓練されたモデルのドメイン適応が必要である。 本稿では,特許の言語パターンにドメイン適応型事前学習を集中させる,経験的動機付け型言語インフォームドマスキング(LIM)手法を提案する。 特許, 科学, 汎用言語間の関連性の違いを定量化し, LIMによるドメイン適応が, IPC分類と類似性マッチングという2つの独立した下流タスクにおいて, 特許言語のドメイン適応表現の性能を評価することによって, 体系的に改良された表現をもたらすことを示す。 特許ドメインに対するドメイン適応において,異なる情報ソースからの学習のバランスが与える影響を実証する。 ソースコードとドメイン適応型プレトレーニング済みの特許言語モデルをhttps://github.com/sophiaalthammer/patent-lim.comで公開しています。

Domain-specific contextualized language models have demonstrated substantial effectiveness gains for domain-specific downstream tasks, like similarity matching, entity recognition or information retrieval. However successfully applying such models in highly specific language domains requires domain adaptation of the pre-trained models. In this paper we propose the empirically motivated Linguistically Informed Masking (LIM) method to focus domain-adaptative pre-training on the linguistic patterns of patents, which use a highly technical sublanguage. We quantify the relevant differences between patent, scientific and general-purpose language and demonstrate for two different language models (BERT and SciBERT) that domain adaptation with LIM leads to systematically improved representations by evaluating the performance of the domain-adapted representations of patent language on two independent downstream tasks, the IPC classification and similarity matching. We demonstrate the impact of balancing the learning from different information sources during domain adaptation for the patent domain. We make the source code as well as the domain-adaptive pre-trained patent language models publicly available at https://github.com/sophiaalthammer/patent-lim.
翻訳日:2021-06-11 21:48:29 公開日:2021-06-10
# (参考訳) 深部暗黙的表面点予測ネットワーク

Deep Implicit Surface Point Prediction Networks ( http://arxiv.org/abs/2106.05779v1 )

ライセンス: CC BY 4.0
Rahul Venkatesh, Tejan Karmali, Sarthak Sharma, Aurobrata Ghosh, L\'aszl\'o A. Jeni, R. Venkatesh Babu, Maneesh Singh(参考訳) 暗黙の関数としての3次元形状の深い神経表現は、メッシュと点雲を用いた明示的な表現によって直面する解像度-メモリトレードオフを超える高忠実度モデルを生成することが示されている。 しかし、そのようなアプローチのほとんどは閉じた形を表現することに焦点を当てている。 非符号距離関数(UDF)に基づくアプローチは、最近オープン形状とクローズ形状の両方を表すための有望な代替として提案されている。 しかし、UDFの勾配が表面でなくなるため、視覚やグラフィックスにおける多くの下流アプリケーションに必要な正規や接面のような局所的な(微分)幾何学的性質を推定することは困難である。 これらのプロパティを低メモリフットプリントで効率的に計算するには、さらに課題がある。 本稿では, 近接面点 (csp) 表現と呼ばれる新しい階層の暗黙表現を用いて, 曲面をモデル化する新しい手法を提案する。 CSPにより、任意の位相(開あるいは閉)の複素曲面を高い忠実度で表現できることが示される。 また、局所幾何学的性質の正確かつ効率的な計算を可能にする。 さらに、3D表面をレンダリングするスフィアトレーシングのような下流アルゴリズムを効率よく実装し、メッシュベースの明示的な表現を作成できることを示す。 shapenetデータセットの広範な実験的評価は、上記の貢献が最先端の成果を上回っていることを検証している。

Deep neural representations of 3D shapes as implicit functions have been shown to produce high fidelity models surpassing the resolution-memory trade-off faced by the explicit representations using meshes and point clouds. However, most such approaches focus on representing closed shapes. Unsigned distance function (UDF) based approaches have been proposed recently as a promising alternative to represent both open and closed shapes. However, since the gradients of UDFs vanish on the surface, it is challenging to estimate local (differential) geometric properties like the normals and tangent planes which are needed for many downstream applications in vision and graphics. There are additional challenges in computing these properties efficiently with a low-memory footprint. This paper presents a novel approach that models such surfaces using a new class of implicit representations called the closest surface-point (CSP) representation. We show that CSP allows us to represent complex surfaces of any topology (open or closed) with high fidelity. It also allows for accurate and efficient computation of local geometric properties. We further demonstrate that it leads to efficient implementation of downstream algorithms like sphere-tracing for rendering the 3D surface as well as to create explicit mesh-based representations. Extensive experimental evaluation on the ShapeNet dataset validate the above contributions with results surpassing the state-of-the-art.
翻訳日:2021-06-11 21:30:48 公開日:2021-06-10
# (参考訳) Transformed CNNs:自己注意で事前学習した畳み込み層をリキャストする

Transformed CNNs: recasting pre-trained convolutional layers with self-attention ( http://arxiv.org/abs/2106.05795v1 )

ライセンス: CC BY 4.0
St\'ephane d'Ascoli, Levent Sagun, Giulio Biroli, Ari Morcos(参考訳) ビジョントランスフォーマー(ViT)は近年,畳み込みネットワーク(CNN)の強力な代替手段として登場した。 ハイブリッドモデルはこれらの2つのアーキテクチャ間のギャップを埋めようとしているが、それらが依存する自己注意層は特に大きな空間解像度において強力な計算ボトルネックを引き起こす。 本研究では,これらの層を畳み込み層として初期化することにより,これらの層を訓練するのに要する時間を短縮する手法を検討する。 これにより、任意の事前学習されたCNNからTransformed CNN(T-CNN)と呼ばれる機能的に同一のハイブリッドモデルへの移行を円滑に行うことができる。 わずか50回の微調整で、結果として得られたT-CNNはCNN(ResNet50-RSではImageNet-1kで+2.2%、ImageNet-Cでは+11%)よりも大幅に性能が向上した。 我々は、T-CNNが学習した表現を分析し、畳み込みと自己意識の間の実りある相互作用について深い洞察を提供する。 最後に、部分的に訓練されたCNNからT-CNNを初期化する実験を行い、トレーニング時間を短縮しつつ、スクラッチからトレーニングした対応するハイブリッドモデルよりも優れた性能が得られることを示した。

Vision Transformers (ViT) have recently emerged as a powerful alternative to convolutional networks (CNNs). Although hybrid models attempt to bridge the gap between these two architectures, the self-attention layers they rely on induce a strong computational bottleneck, especially at large spatial resolutions. In this work, we explore the idea of reducing the time spent training these layers by initializing them as convolutional layers. This enables us to transition smoothly from any pre-trained CNN to its functionally identical hybrid model, called Transformed CNN (T-CNN). With only 50 epochs of fine-tuning, the resulting T-CNNs demonstrate significant performance gains over the CNN (+2.2% top-1 on ImageNet-1k for a ResNet50-RS) as well as substantially improved robustness (+11% top-1 on ImageNet-C). We analyze the representations learnt by the T-CNN, providing deeper insights into the fruitful interplay between convolutions and self-attention. Finally, we experiment initializing the T-CNN from a partially trained CNN, and find that it reaches better performance than the corresponding hybrid model trained from scratch, while reducing training time.
翻訳日:2021-06-11 21:13:10 公開日:2021-06-10
# (参考訳) 無限不均衡下における線形分類器

Linear Classifiers Under Infinite Imbalance ( http://arxiv.org/abs/2106.05797v1 )

ライセンス: CC BY 4.0
Paul Glasserman, Mike Li(参考訳) 無限不均衡極限における二項分類における線形判別関数の挙動について検討し,一方のクラスのサンプルサイズは拘束されずに増大し,他方のサンプルサイズは固定されたままである。 分類器の係数は、重み関数によって指定された期待損失を最小化する。 重み関数の広いクラスでは、インターセプタは発散するが、係数ベクトルの残りの部分は無限不均衡の下で有限の極限を持ち、ロジスティック回帰に関する先行研究が拡張される。 極限は重み関数の左尾に依存し、有界、漸近多項式、漸近指数の3つの場合を区別する。 制限係数ベクトルは、ある最悪の選択肢に対して最適化されるという意味で、ロバスト性や保守性を反映する。 有界および多項式の場合、極限は少数類に対するアップサンプリング分布の暗黙の選択と等価である。 我々はこれらのアイデアを信用リスク設定に適用し、特に高感度および高特異性領域のパフォーマンスに重点を置いている。

We study the behavior of linear discriminant functions for binary classification in the infinite-imbalance limit, where the sample size of one class grows without bound while the sample size of the other remains fixed. The coefficients of the classifier minimize an expected loss specified through a weight function. We show that for a broad class of weight functions, the intercept diverges but the rest of the coefficient vector has a finite limit under infinite imbalance, extending prior work on logistic regression. The limit depends on the left tail of the weight function, for which we distinguish three cases: bounded, asymptotically polynomial, and asymptotically exponential. The limiting coefficient vectors reflect robustness or conservatism properties in the sense that they optimize against certain worst-case alternatives. In the bounded and polynomial cases, the limit is equivalent to an implicit choice of upsampling distribution for the minority class. We apply these ideas in a credit risk setting, with particular emphasis on performance in the high-sensitivity and high-specificity regions.
翻訳日:2021-06-11 20:55:21 公開日:2021-06-10
# (参考訳) 共同行動分布を用いた多エージェント強化学習における情報表現

Informative Policy Representations in Multi-Agent Reinforcement Learning via Joint-Action Distributions ( http://arxiv.org/abs/2106.05802v1 )

ライセンス: CC BY 4.0
Yifan Yu, Haobin Jiang, Zongqing Lu(参考訳) 多エージェント強化学習において、他のエージェントの行動によって引き起こされる環境の非定常性は、エージェントが独立して良い政策を学ぶのに重大な困難を生じさせた。 非定常性に対処する一つの方法はエージェントモデリングであり、エージェントは他のエージェントのポリシーの影響を考慮に入れる。 既存の作業の多くは、他のエージェントの行動や目標を予測したり、政策を区別したりすることに依存している。 しかし、このようなモデリングはポリシー間の類似点と相違点を同時に捉えることができず、不明瞭なポリシーに一般化する際に有用な情報を提供できない。 そこで本研究では,インタラクションでサンプリングされた協調行動分布を用いて,他のエージェントのポリシーの表現を学習する一般的な手法を提案する。 政策間の類似性や相違は、共同行動分布から推定される政策距離によって自然に捉えられ、学習された表現に故意に反映される。 政策表象に基づくエージェントは、目に見えないエージェントにうまく一般化することができる。 提案手法は,未確認エージェントに直面する場合,既存のマルチエージェントタスクよりも優れていることを示す。

In multi-agent reinforcement learning, the inherent non-stationarity of the environment caused by other agents' actions posed significant difficulties for an agent to learn a good policy independently. One way to deal with non-stationarity is agent modeling, by which the agent takes into consideration the influence of other agents' policies. Most existing work relies on predicting other agents' actions or goals, or discriminating between their policies. However, such modeling fails to capture the similarities and differences between policies simultaneously and thus cannot provide useful information when generalizing to unseen policies. To address this, we propose a general method to learn representations of other agents' policies via the joint-action distributions sampled in interactions. The similarities and differences between policies are naturally captured by the policy distance inferred from the joint-action distributions and deliberately reflected in the learned representations. Agents conditioned on the policy representations can well generalize to unseen agents. We empirically demonstrate that our method outperforms existing work in multi-agent tasks when facing unseen agents.
翻訳日:2021-06-11 20:54:23 公開日:2021-06-10
# (参考訳) 変分ベイのための量子自然勾配

Quantum Natural Gradient for Variational Bayes ( http://arxiv.org/abs/2106.05807v1 )

ライセンス: CC BY 4.0
Anna Lopatnikova and Minh-Ngoc Tran(参考訳) 変分ベイズ(VB)は機械学習と統計学において重要な手法であり、最近のベイズ深層学習の成功を支えている。 自然勾配は効率的なVB推定の必須成分であるが、高次元では計算コストが禁じられている。 本稿では,自然勾配計算のスケーリング性を向上させるためのハイブリッド量子古典アルゴリズムを提案する。 このアルゴリズムはHarrow, Hassidim, Lloyd [Phys] による線形システムアルゴリズムからの行列逆変換を利用する。 Rev Lett! 103, 15 (2009)] (HHL)。 逆行列はスパースであり、古典的量子古典的ハンドオフは計算効率を維持するのに十分な経済的であり、VBの自然勾配の問題がHHLの理想的な応用であることを示す。 標準条件下では、量子自然勾配を持つvbアルゴリズムが収束することが保証される。

Variational Bayes (VB) is a critical method in machine learning and statistics, underpinning the recent success of Bayesian deep learning. The natural gradient is an essential component of efficient VB estimation, but it is prohibitively computationally expensive in high dimensions. We propose a hybrid quantum-classical algorithm to improve the scaling properties of natural gradient computation and make VB a truly computationally efficient method for Bayesian inference in highdimensional settings. The algorithm leverages matrix inversion from the linear systems algorithm by Harrow, Hassidim, and Lloyd [Phys. Rev. Lett. 103, 15 (2009)] (HHL). We demonstrate that the matrix to be inverted is sparse and the classical-quantum-classical handoffs are sufficiently economical to preserve computational efficiency, making the problem of natural gradient for VB an ideal application of HHL. We prove that, under standard conditions, the VB algorithm with quantum natural gradient is guaranteed to converge.
翻訳日:2021-06-11 20:12:37 公開日:2021-06-10
# (参考訳) 正規化周波数による特徴選択の簡潔化

A concise method for feature selection via normalized frequencies ( http://arxiv.org/abs/2106.05814v1 )

ライセンス: CC BY 4.0
Song Tan, Xia He(参考訳) 特徴選択は、機械学習モデルを構築する上で重要な部分である。 データから冗長あるいは誤解を招く機能を排除することによって、機械学習モデルは、計算リソースの需要を減らしながら、より良いパフォーマンスを達成することができる。 メタヒューリスティックアルゴリズムは主に、Swarmインテリジェンスアルゴリズムや進化アルゴリズムのような特徴選択を実装するために使用される。 しかし、それらは相対的な複雑さと遅さの欠点に苦しんでいる。 本稿では,普遍的特徴選択のための簡潔な手法を提案する。 提案手法はフィルタ法とラッパー法の融合を利用したものである。 この方法は、データセットを前処理するためにワンホットエンコーディングを使用し、ランダムフォレストを分類器として利用する。 提案手法では、正規化周波数を用いて各特徴に値を割り当て、最適な特徴部分集合を見つける。 さらに,実験の出発点として,相互情報の出力を活用する新しい手法を提案する。 提案手法の評価には,侵入検出分野における実世界の2つのデータセットを用いた。 評価の結果,提案手法は精度,精度,リコール,f-score,aucの点で最先端関連作品よりも優れていた。

Feature selection is an important part of building a machine learning model. By eliminating redundant or misleading features from data, the machine learning model can achieve better performance while reducing the demand on com-puting resources. Metaheuristic algorithms are mostly used to implement feature selection such as swarm intelligence algorithms and evolutionary algorithms. However, they suffer from the disadvantage of relative complexity and slowness. In this paper, a concise method is proposed for universal feature selection. The proposed method uses a fusion of the filter method and the wrapper method, rather than a combination of them. In the method, one-hoting encoding is used to preprocess the dataset, and random forest is utilized as the classifier. The proposed method uses normalized frequencies to assign a value to each feature, which will be used to find the optimal feature subset. Furthermore, we propose a novel approach to exploit the outputs of mutual information, which allows for a better starting point for the experiments. Two real-world dataset in the field of intrusion detection were used to evaluate the proposed method. The evaluation results show that the proposed method outperformed several state-of-the-art related works in terms of accuracy, precision, recall, F-score and AUC.
翻訳日:2021-06-11 19:55:42 公開日:2021-06-10
# (参考訳) グラフコントラスト学習改善のための逆グラフ拡張

Adversarial Graph Augmentation to Improve Graph Contrastive Learning ( http://arxiv.org/abs/2106.05819v1 )

ライセンス: CC BY 4.0
Susheel Suresh, Pan Li, Cong Hao, Jennifer Neville(参考訳) グラフニューラルネットワーク(gnn)の自己教師付き学習は,実世界のグラフ/ネットワークデータにおけるラベル不足の問題から,非常に必要とされている。 グラフコントラスト学習(GCL)は、GNNを訓練して、異なる拡張形式における同じグラフの表現間の対応を最大化することにより、ラベルを使わずに堅牢で転送可能なGNNが得られる。 しかし、従来のGCLによって訓練されたGNNは、冗長なグラフ特徴をキャプチャするリスクがしばしばあるため、不安定であり、下流タスクでサブパーのパフォーマンスを提供する。 本稿では,GCLにおける逆グラフ拡張戦略を最適化することにより,GNNがトレーニング中に冗長な情報を捕捉することを回避できる新しい原理であるAD-GCLを提案する。 ad-gclを理論的な説明と組み合わせ、訓練可能なエッジドロップグラフ拡張に基づく実用的なインスタンス化を設計する。 我々は、AD-GCL法を最先端のGCL法と比較し、分子特性の回帰と分類、およびソーシャルネットワーク分類のタスクに関する18種類のベンチマークデータセットを用いて、教師なし学習における最大14\%、転送時の6\%、および半教師付き学習環境における3\%のパフォーマンス向上を実験的に検証した。

Self-supervised learning of graph neural networks (GNN) is in great need because of the widespread label scarcity issue in real-world graph/network data. Graph contrastive learning (GCL), by training GNNs to maximize the correspondence between the representations of the same graph in its different augmented forms, may yield robust and transferable GNNs even without using labels. However, GNNs trained by traditional GCL often risk capturing redundant graph features and thus may be brittle and provide sub-par performance in downstream tasks. Here, we propose a novel principle, termed adversarial-GCL (AD-GCL), which enables GNNs to avoid capturing redundant information during the training by optimizing adversarial graph augmentation strategies used in GCL. We pair AD-GCL with theoretical explanations and design a practical instantiation based on trainable edge-dropping graph augmentation. We experimentally validate AD-GCL by comparing with the state-of-the-art GCL methods and achieve performance gains of up-to $14\%$ in unsupervised, $6\%$ in transfer, and $3\%$ in semi-supervised learning settings overall with 18 different benchmark datasets for the tasks of molecule property regression and classification, and social network classification.
翻訳日:2021-06-11 19:24:52 公開日:2021-06-10
# (参考訳) GroupBERT: 効率的なグループ構造を持つ拡張トランスフォーマーアーキテクチャ

GroupBERT: Enhanced Transformer Architecture with Efficient Grouped Structures ( http://arxiv.org/abs/2106.05822v1 )

ライセンス: CC BY-SA 4.0
Ivan Chelombiev, Daniel Justus, Douglas Orr, Anastasia Dietrich, Frithjof Gressmann, Alexandros Koliousis, Carlo Luschi(参考訳) 注意に基づく言語モデルは最先端自然言語処理システムにおいて重要な要素となっている。 しかし、これらのモデルには、長い訓練時間、厳密な演算、大きなパラメータ数のために、かなりの計算要求がある。 本研究では,トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。 まず、自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。 第二に,モデル表現性を維持しつつ,密なフィードフォワード層と畳み込みの計算コストを削減するために群変換に依存する。 得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。 さらに,浮動小数点演算(FLOP)と時間・ツー・トレインの両面で,効率の向上を強調した。

Attention based language models have become a critical component in state-of-the-art natural language processing systems. However, these models have significant computational requirements, due to long training times, dense operations and large parameter count. In this work we demonstrate a set of modifications to the structure of a Transformer layer, producing a more efficient architecture. First, we add a convolutional module to complement the self-attention module, decoupling the learning of local and global interactions. Secondly, we rely on grouped transformations to reduce the computational cost of dense feed-forward layers and convolutions, while preserving the expressivity of the model. We apply the resulting architecture to language representation learning and demonstrate its superior performance compared to BERT models of different scales. We further highlight its improved efficiency, both in terms of floating-point operations (FLOPs) and time-to-train.
翻訳日:2021-06-11 18:46:15 公開日:2021-06-10
# (参考訳) 知識ベースタスク指向対話システムのためのテンプレート誘導型ハイブリッドポインタネットワーク

A Template-guided Hybrid Pointer Network for Knowledge-basedTask-oriented Dialogue Systems ( http://arxiv.org/abs/2106.05830v1 )

ライセンス: CC BY 4.0
Dingmin Wang, Ziyao Chen, Wanwei He, Li Zhong, Yunzhe Tao, Min Yang(参考訳) 既存のニューラルネットワークベースのタスク指向対話システムは、エンコーダ-デコーダパラダイムに従っており、デコーダは純粋にソーステキストに依存して、不安定で可読性の悪い単語列を生成する。 従来のテンプレート・ベース・ジェネレーション・アプローチにインスパイアされた,知識に基づくタスク指向対話システムのためのテンプレート誘導型ハイブリッド・ポインター・ネットワークを提案する。 具体的には,ゲッティング機構を備えたメモリポインタネットワークモデルの設計を行い,得られた回答と接地応答とのセマンティック相関を十分に活用する。 4つのタスク指向データセットについて評価を行い,1つのシミュレーションデータセットと3つの手動生成データセットについて検討した。 実験の結果, 提案手法は, 異なる自動評価指標に対して, 最先端手法よりも有意に優れた性能が得られることがわかった。

Most existing neural network based task-oriented dialogue systems follow encoder-decoder paradigm, where the decoder purely depends on the source texts to generate a sequence of words, usually suffering from instability and poor readability. Inspired by the traditional template-based generation approaches, we propose a template-guided hybrid pointer network for the knowledge-based task-oriented dialogue system, which retrieves several potentially relevant answers from a pre-constructed domain-specific conversational repository as guidance answers, and incorporates the guidance answers into both the encoding and decoding processes. Specifically, we design a memory pointer network model with a gating mechanism to fully exploit the semantic correlation between the retrieved answers and the ground-truth response. We evaluate our model on four widely used task-oriented datasets, including one simulated and three manually created datasets. The experimental results demonstrate that the proposed model achieves significantly better performance than the state-of-the-art methods over different automatic evaluation metrics.
翻訳日:2021-06-11 18:30:39 公開日:2021-06-10
# (参考訳) 蛍光顕微鏡画像におけるセルインスタンスセグメンテーション改善のための完全畳み込みネットワークにおける形態素情報を強制する

Enforcing Morphological Information in Fully Convolutional Networks to Improve Cell Instance Segmentation in Fluorescence Microscopy Images ( http://arxiv.org/abs/2106.05843v1 )

ライセンス: CC BY 4.0
Willard Zamora-Cardenas, Mauro Mendez, Saul Calderon-Ramirez, Martin Vargas, Gerardo Monge, Steve Quiros, David Elizondo, David Elizondo, Miguel A. Molina-Cabello(参考訳) 蛍光顕微鏡画像における細胞インスタンスのセグメンテーションは、がんのダイナミックスや予後に欠かせないものになりつつある。 がんダイナミクスから抽出されたデータは、増殖のような異なる代謝過程を理解し、正確にモデル化することができる。 これにより、カスタマイズされたより正確ながん治療が可能になる。 しかし、さらなる細胞追跡と行動解析に必要な正確な細胞インスタンスのセグメンテーションは、高い細胞濃度と重なり合うエッジを持つシナリオでは依然として困難である。 本稿では,よく知られたU-Netアーキテクチャに基づく新しいセルインスタンス分割手法を提案する。 画素毎の形態情報の学習を強制するために、奥行きトランスフォーマー(ddt)がバックボーンモデルとして機能する。 DDT出力はその後、トップモデルのトレーニングに使用される。 以下のトップモデルが考慮される: 3つのクラス(前景、背景およびセル境界)、u-net、および流域変換。 その結果,従来のU-Netアーキテクチャよりも性能が向上することが示唆された。 これは、形態素情報を完全な畳み込みモデルに注入するというアイデアに関する興味深い研究ラインを開く。

Cell instance segmentation in fluorescence microscopy images is becoming essential for cancer dynamics and prognosis. Data extracted from cancer dynamics allows to understand and accurately model different metabolic processes such as proliferation. This enables customized and more precise cancer treatments. However, accurate cell instance segmentation, necessary for further cell tracking and behavior analysis, is still challenging in scenarios with high cell concentration and overlapping edges. Within this framework, we propose a novel cell instance segmentation approach based on the well-known U-Net architecture. To enforce the learning of morphological information per pixel, a deep distance transformer (DDT) acts as a back-bone model. The DDT output is subsequently used to train a top-model. The following top-models are considered: a three-class (\emph{e.g.,} foreground, background and cell border) U-net, and a watershed transform. The obtained results suggest a performance boost over traditional U-Net architectures. This opens an interesting research line around the idea of injecting morphological information into a fully convolutional model.
翻訳日:2021-06-11 18:15:31 公開日:2021-06-10
# (参考訳) 群同変部分サンプリング

Group Equivariant Subsampling ( http://arxiv.org/abs/2106.05886v1 )

ライセンス: CC BY 4.0
Jin Xu, Hyunjik Kim, Tom Rainforth, Yee Whye Teh(参考訳) サブサンプリングは、プールやストライド畳み込みの形で畳み込みニューラルネットワーク(CNN)で使われ、特徴写像の空間次元を小さくし、受容野が深さとともに指数関数的に成長できるようにする。 しかし、そのような部分サンプリング操作は、変換同変である畳み込みとは異なり、翻訳同変ではないことが知られている。 ここではまず,完全翻訳同変cnnの構築に使用できる翻訳同変部分サンプリング/アップサンプリング層について紹介する。 次にこれらの層を一般群への変換を超えて一般化し、したがって群同変部分サンプリング/アップサンプリングを提案する。 これらの層を用いて群同変オートエンコーダ(GAE)を構築し、低次元同変表現を学習する。 我々は、表現が入力の翻訳と回転と実際に同値であることのイメージを経験的に検証し、その結果、見つからない位置と向きによく一般化する。 さらに,マルチオブジェクトデータセット上でオブジェクト中心表現を学習するモデルにおいて,gaesを用いて,非同値なベースラインと比較して,データ効率と分解性が向上することを示す。

Subsampling is used in convolutional neural networks (CNNs) in the form of pooling or strided convolutions, to reduce the spatial dimensions of feature maps and to allow the receptive fields to grow exponentially with depth. However, it is known that such subsampling operations are not translation equivariant, unlike convolutions that are translation equivariant. Here, we first introduce translation equivariant subsampling/upsampling layers that can be used to construct exact translation equivariant CNNs. We then generalise these layers beyond translations to general groups, thus proposing group equivariant subsampling/upsampling. We use these layers to construct group equivariant autoencoders (GAEs) that allow us to learn low-dimensional equivariant representations. We empirically verify on images that the representations are indeed equivariant to input translations and rotations, and thus generalise well to unseen positions and orientations. We further use GAEs in models that learn object-centric representations on multi-object datasets, and show improved data efficiency and decomposition compared to non-equivariant baselines.
翻訳日:2021-06-11 18:04:28 公開日:2021-06-10
# (参考訳) ロバスト応答ランキングと評価のための対向負反応の合成

Synthesizing Adversarial Negative Responses for Robust Response Ranking and Evaluation ( http://arxiv.org/abs/2106.05894v1 )

ライセンス: CC BY 4.0
Prakhar Gupta, Yulia Tsvetkov, Jeffrey P. Bigham(参考訳) オープンドメインニューラルダイアログモデルは、応答のランキングと評価タスクにおいて高い性能を達成した。 これらのタスクは、対話コンテキストで与えられる応答のバイナリ分類として定式化され、モデルは通常、コンテキスト応答の内容の類似性に基づいて予測を学習する。 しかし、コンテンツ類似性への過度な依存は、モデルが不整合、不正確な時間表現、そして応答の適切性や一貫性に重要な要素の存在に敏感になる。 本稿では,コンテンツ類似性を超えた特徴のランキングと評価を支援するために,逆ネガティブトレーニングデータの自動作成手法を提案する。 より堅牢な対話システムをトレーニングするためのネガティブな例を生成するマスク・アンド・フィルとキーワード誘導アプローチを提案する。 これらの生成した逆応答は、文脈と高い内容の類似性を持つが、不整合性、不適切、あるいは流動性がない。 私たちのアプローチは完全にデータ駆動であり、既存のモデルやデータセットに簡単に組み込むことができます。 複数のデータセットにまたがる分類、ランキング、評価タスクの実験により、我々のアプローチは、トレーニング対話システムに有益なネガティブな例を提供する上で、強いベースラインを上回ります。

Open-domain neural dialogue models have achieved high performance in response ranking and evaluation tasks. These tasks are formulated as a binary classification of responses given in a dialogue context, and models generally learn to make predictions based on context-response content similarity. However, over-reliance on content similarity makes the models less sensitive to the presence of inconsistencies, incorrect time expressions and other factors important for response appropriateness and coherence. We propose approaches for automatically creating adversarial negative training data to help ranking and evaluation models learn features beyond content similarity. We propose mask-and-fill and keyword-guided approaches that generate negative examples for training more robust dialogue systems. These generated adversarial responses have high content similarity with the contexts but are either incoherent, inappropriate or not fluent. Our approaches are fully data-driven and can be easily incorporated in existing models and datasets. Experiments on classification, ranking and evaluation tasks across multiple datasets demonstrate that our approaches outperform strong baselines in providing informative negative examples for training dialogue systems.
翻訳日:2021-06-11 17:33:07 公開日:2021-06-10
# (参考訳) 双対多目的マニピュレーションにおける固有正則化としての遠絡注意

Disentangled Attention as Intrinsic Regularization for Bimanual Multi-Object Manipulation ( http://arxiv.org/abs/2106.05907v1 )

ライセンス: CC BY 4.0
Minghao Zhang, Pingcheng Jian, Yi Wu, Huazhe Xu, Xiaolong Wang(参考訳) 本稿では,スパース報酬を伴う複数のオブジェクト上での複雑な双方向ロボット操作タスクの解決に対処する。 このような複雑なタスクは、異なるロボットによって同時または順次に実現可能なサブタスクに分解され、効率性が向上する。 従来の強化学習アプローチは、主にサブタスクの構成性をモデル化することに焦点を当てていたが、特に2つのロボットの協調戦略を学ぶ際には、2つの基本的な問題は無視されている。 この2つの課題に取り組むために,2つのロボットが分離したサブタスクとオブジェクトに焦点を合わせるための本質的な正規化を提供する,disentangled attentionと呼ばれる新しい手法を提案する。 本手法を4つの双方向操作タスクで評価する。 実験の結果,提案する本質的正則化は,すべての基準よりもはるかに効果的な協調戦略をもたらすため,支配を回避し,政策の対立を低減できることがわかった。 ビデオ付きプロジェクトページはhttps://mehooz.github.io/bimanual-attention。

We address the problem of solving complex bimanual robot manipulation tasks on multiple objects with sparse rewards. Such complex tasks can be decomposed into sub-tasks that are accomplishable by different robots concurrently or sequentially for better efficiency. While previous reinforcement learning approaches primarily focus on modeling the compositionality of sub-tasks, two fundamental issues are largely ignored particularly when learning cooperative strategies for two robots: (i) domination, i.e., one robot may try to solve a task by itself and leaves the other idle; (ii) conflict, i.e., one robot can easily interrupt another's workspace when executing different sub-tasks simultaneously. To tackle these two issues, we propose a novel technique called disentangled attention, which provides an intrinsic regularization for two robots to focus on separate sub-tasks and objects. We evaluate our method on four bimanual manipulation tasks. Experimental results show that our proposed intrinsic regularization successfully avoids domination and reduces conflicts for the policies, which leads to significantly more effective cooperative strategies than all the baselines. Our project page with videos is at https://mehooz.github.io/bimanual-attention.
翻訳日:2021-06-11 17:08:25 公開日:2021-06-10
# (参考訳) anatomy x-net : 胸部疾患分類のための半教師付き畳み込みニューラルネットワーク

Anatomy X-Net: A Semi-Supervised Anatomy Aware Convolutional Neural Network for Thoracic Disease Classification ( http://arxiv.org/abs/2106.05915v1 )

ライセンス: CC BY 4.0
Uday Kamal, Mohammad Zunaed, Nusrat Binta Nizam, Taufiq Hasan(参考訳) 深層学習法を用いた胸部x線写真からの胸部疾患の検出は,過去10年間,活発に研究されてきた。 これまでの手法のほとんどは、モデルの予測に重要な貢献をした空間領域を同定することで、画像の病的な臓器に焦点を当てようとするものである。 対照的に、専門家の放射線学者は、これらの領域が異常かどうかを決定する前に、まず顕著な解剖学的構造を見つける。 したがって、ディープラーニングモデルに解剖学的知識を統合することで、自動疾患分類が大幅に改善される可能性がある。 本研究は,事前同定された解剖領域によって誘導される空間的特徴を優先する解剖学的アウェアメントベースアーキテクチャanatomy x-netを提案する。 臓器レベルのアノテーションを含むjsrtデータセットを用いた半教師あり学習法を用いて,nihおよびchexpertデータセットの解剖学的分節マスク(肺と心臓用)を得る。 提案する解剖学 x-net では,事前学習された densenet-121 を,解剖学的注意学習のためのコヒーシブフレームワークとして anatomy aware attention (aaa) と probabilistic weighted average pooling (pwap) という2つの構造モジュールを備えたバックボーンネットワークとして使用する。 提案手法は,AUCスコア0.8439のNIHテストセットに新たな最先端性能を設定し,解剖学的セグメンテーション知識を用いて胸部疾患分類を改善することの有効性を示した。 さらに、Anatomy X-NetはStanford CheXpertデータセット上で平均0.9020のAUCを生成し、提案フレームワークの一般化可能性を示す既存の手法を改善した。

Thoracic disease detection from chest radiographs using deep learning methods has been an active area of research in the last decade. Most previous methods attempt to focus on the diseased organs of the image by identifying spatial regions responsible for significant contributions to the model's prediction. In contrast, expert radiologists first locate the prominent anatomical structures before determining if those regions are anomalous. Therefore, integrating anatomical knowledge within deep learning models could bring substantial improvement in automatic disease classification. This work proposes an anatomy-aware attention-based architecture named Anatomy X-Net, that prioritizes the spatial features guided by the pre-identified anatomy regions. We leverage a semi-supervised learning method using the JSRT dataset containing organ-level annotation to obtain the anatomical segmentation masks (for lungs and heart) for the NIH and CheXpert datasets. The proposed Anatomy X-Net uses the pre-trained DenseNet-121 as the backbone network with two corresponding structured modules, the Anatomy Aware Attention (AAA) and Probabilistic Weighted Average Pooling (PWAP), in a cohesive framework for anatomical attention learning. Our proposed method sets new state-of-the-art performance on the official NIH test set with an AUC score of 0.8439, proving the efficacy of utilizing the anatomy segmentation knowledge to improve the thoracic disease classification. Furthermore, the Anatomy X-Net yields an averaged AUC of 0.9020 on the Stanford CheXpert dataset, improving on existing methods that demonstrate the generalizability of the proposed framework.
翻訳日:2021-06-11 16:46:35 公開日:2021-06-10
# (参考訳) PARP:自己教師付き音声認識のためのプーン, 調整, 再プーン

PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition ( http://arxiv.org/abs/2106.05933v1 )

ライセンス: CC BY 4.0
Cheng-I Jeff Lai, Yang Zhang, Alexander H. Liu, Shiyu Chang, Yi-Lun Liao, Yung-Sung Chuang, Kaizhi Qian, Sameer Khurana, David Cox, James Glass(参考訳) 最近の音声自己教師付き学習(speech ssl)の研究は、並列データ制限付き自動音声認識(asr)のためのリッチで転送可能な表現の学習におけるスケールの利点を実証した。 そして、より優れた低リソースASR性能を実現することができる事前訓練された音声SSLモデルにおけるスパースおよびトランスファー可能なサブネットワークの存在を調査することは自然である。 しかし、LTH(Lottery Ticket hypothesis)のような広く採用されているプルーニング手法を直接適用することは、計算コストにおいて最適ではない。 さらに、LTHの予測に反して、発見されたサブネットは、元の高密度ネットワークと比較して最小の性能向上をもたらす。 本研究では,より優れたASR性能を実現するためにサブネットワークの探索と微調整を行う Prune-Adjust-Re-Prune (PARP) を提案する。 PARPは、サブネットワークが事前トレーニングタスクで実行されているという驚くべき観察にインスパイアされ、下流のASRタスクで大きなパフォーマンス向上を達成するために、わずかに調整される必要がある。 低リソース英語と多言語ASRの広範な実験は、(1)訓練済み音声SSLにはスパースサブネットが存在し、(2)ベースラインプルーニング法よりも計算上の優位性と性能が向上していることを示している。 LMデコード無しの10min Librispeechスプリットでは、PARPはwav2vec 2.0からサブネットワークを発見し、完全なモデルに比べて10.9%/12.6%のWERが減少する。 PARPは,言語間マスキングにおける性能劣化を軽減し,単一のサブネットワークを1回の実行で10言語で発見する可能性を実証する。

Recent work on speech self-supervised learning (speech SSL) demonstrated the benefits of scale in learning rich and transferable representations for Automatic Speech Recognition (ASR) with limited parallel data. It is then natural to investigate the existence of sparse and transferrable subnetworks in pre-trained speech SSL models that can achieve even better low-resource ASR performance. However, directly applying widely adopted pruning methods such as the Lottery Ticket Hypothesis (LTH) is suboptimal in the computational cost needed. Moreover, contrary to what LTH predicts, the discovered subnetworks yield minimal performance gain compared to the original dense network. In this work, we propose Prune-Adjust- Re-Prune (PARP), which discovers and finetunes subnetworks for much better ASR performance, while only requiring a single downstream finetuning run. PARP is inspired by our surprising observation that subnetworks pruned for pre-training tasks only needed to be slightly adjusted to achieve a sizeable performance boost in downstream ASR tasks. Extensive experiments on low-resource English and multi-lingual ASR show (1) sparse subnetworks exist in pre-trained speech SSL, and (2) the computational advantage and performance gain of PARP over baseline pruning methods. On the 10min Librispeech split without LM decoding, PARP discovers subnetworks from wav2vec 2.0 with an absolute 10.9%/12.6% WER decrease compared to the full model. We demonstrate PARP mitigates performance degradation in cross-lingual mask transfer, and investigate the possibility of discovering a single subnetwork for 10 spoken languages in one run.
翻訳日:2021-06-11 16:28:13 公開日:2021-06-10
# (参考訳) 公平な正規化フロー

Fair Normalizing Flows ( http://arxiv.org/abs/2106.05937v1 )

ライセンス: CC BY 4.0
Mislav Balunovi\'c, Anian Ruoss, Martin Vechev(参考訳) 公正表現学習は、センシティブなデータを符号化することで下流予測子の公平性を保証する魅力的なアプローチである。 残念なことに、近年の研究では、強い敵の予測器は、これらの表現から感度特性を回復することで、いまだに不公平であることを示した。 本研究では,FNF(Fair Normalizing Flows)という,学習表現に対する厳密な公正性を保証する新しい手法を提案する。 具体的には,感度群に対する確率密度を推定できる実用的な設定を考える。 鍵となる考え方は、異なる群の潜在表現間の統計的距離を最小化するために訓練された正規化フローとしてエンコーダをモデル化することである。 FNFの主な利点は、その正確な確率計算により、潜在的に逆下流予測器の最大不公平性の保証が得られることである。 我々は,FNFが様々なグループフェアネスの概念と,解釈可能性や伝達学習などの魅力的な特性を,様々な課題のある実世界のデータセット上で実施する効果を実験的に実証した。

Fair representation learning is an attractive approach that promises fairness of downstream predictors by encoding sensitive data. Unfortunately, recent work has shown that strong adversarial predictors can still exhibit unfairness by recovering sensitive attributes from these representations. In this work, we present Fair Normalizing Flows (FNF), a new approach offering more rigorous fairness guarantees for learned representations. Specifically, we consider a practical setting where we can estimate the probability density for sensitive groups. The key idea is to model the encoder as a normalizing flow trained to minimize the statistical distance between the latent representations of different groups. The main advantage of FNF is that its exact likelihood computation allows us to obtain guarantees on the maximum unfairness of any potentially adversarial downstream predictor. We experimentally demonstrate the effectiveness of FNF in enforcing various group fairness notions, as well as other attractive properties such as interpretability and transfer learning, on a variety of challenging real-world datasets.
翻訳日:2021-06-11 16:27:02 公開日:2021-06-10
# (参考訳) Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現

Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold ( http://arxiv.org/abs/2106.05965v1 )

ライセンス: CC BY 4.0
Kieran Murphy, Carlos Esteves, Varun Jampani, Srikumar Ramalingam, Ameesh Makadia(参考訳) 単一画像のポーズ推定は多くの視覚やロボティクスのタスクにおいて基本的な問題であり、既存のディープラーニングアプローチは、完全にモデリングやハンドリングに苦しむ:i)予測の不確実性、i)複数の(時には無限)正しいポーズを持つ対称オブジェクト。 そこで本研究では,SO(3)上の任意の非パラメトリック分布を推定する手法を提案する。 私たちのキーとなるアイデアは、入力画像と候補ポーズの確率を推定するニューラルネットワークで、分布を暗黙的に表現することです。 グリッドサンプリングや勾配上昇は最も可能性の高いポーズを見つけるために用いられるが、任意のポーズで確率を評価することもでき、対称性や不確実性についての推論を可能にする。 これは多様体上の分布を表現する最も一般的な方法であり、豊かな表現力を示すために、対称でほぼ対称な物体のデータセットを導入する。 ポーズの不確実性に関する監督は必要ありません -- モデルでは、例毎に1つのポーズのみをトレーニングします。 それにもかかわらず、我々の暗黙のモデルは、3dポーズ上の複雑な分布を扱うために非常に表現力があり、標準の非曖昧な環境で正確なポーズ推定を得て、pascal3d+とmodelnet10-so(3)ベンチマークで最先端のパフォーマンスを達成しています。

Single image pose estimation is a fundamental problem in many vision and robotics tasks, and existing deep learning approaches suffer by not completely modeling and handling: i) uncertainty about the predictions, and ii) symmetric objects with multiple (sometimes infinite) correct poses. To this end, we introduce a method to estimate arbitrary, non-parametric distributions on SO(3). Our key idea is to represent the distributions implicitly, with a neural network that estimates the probability given the input image and a candidate pose. Grid sampling or gradient ascent can be used to find the most likely pose, but it is also possible to evaluate the probability at any pose, enabling reasoning about symmetries and uncertainty. This is the most general way of representing distributions on manifolds, and to showcase the rich expressive power, we introduce a dataset of challenging symmetric and nearly-symmetric objects. We require no supervision on pose uncertainty -- the model trains only with a single pose per example. Nonetheless, our implicit model is highly expressive to handle complex distributions over 3D poses, while still obtaining accurate pose estimation on standard non-ambiguous environments, achieving state-of-the-art performance on Pascal3D+ and ModelNet10-SO(3) benchmarks.
翻訳日:2021-06-11 16:03:53 公開日:2021-06-10
# (参考訳) 映像予測のための量子条件COT-GAN

Quantized Conditional COT-GAN for Video Prediction ( http://arxiv.org/abs/2106.05658v1 )

ライセンス: CC BY 4.0
Tianlin Xu and Beatrice Acciaio(参考訳) 因果的最適輸送(COT)は、古典的最適輸送問題に時間的因果性制約を課し、経路空間上の分布間の距離の新しい概念を自然に生成する。 逐次学習にCOT理論を最初に応用したのは、Xuらである。 (2020)では,逐次データ生成に最適化された暗黙的生成モデルを学習するための逆アルゴリズムとしてCOT-GANを導入した。 Xuなどを参照。 (2020年)本論文の貢献は2倍である。 まず,シーケンス予測に適した条件付きCOT-GANを開発する。 これは、データセットが過去の進化の観察からシーケンスがどのように進化するかを学ぶために現在使用されていることを意味する。 第2に,backhoffらによる特定種類の量子化を通じて,経験的尺度の修正を行うことにより,収束結果を改善する。 (2020). 得られた量子化条件付きCOT-GANアルゴリズムをビデオ予測に応用した。

Causal Optimal Transport (COT) results from imposing a temporal causality constraint on classic optimal transport problems, which naturally generates a new concept of distances between distributions on path spaces. The first application of the COT theory for sequential learning was given in Xu et al. (2020), where COT-GAN was introduced as an adversarial algorithm to train implicit generative models optimized for producing sequential data. Relying on Xu et al. (2020), the contribution of the present paper is twofold. First, we develop a conditional version of COT-GAN suitable for sequence prediction. This means that the dataset is now used in order to learn how a sequence will evolve given the observation of its past evolution. Second, we improve on the convergence results by working with modifications of the empirical measures via a specific type of quantization due to Backhoff et al. (2020). The resulting quantized conditional COT-GAN algorithm is illustrated with an application for video prediction.
翻訳日:2021-06-11 15:11:02 公開日:2021-06-10
# 計画のためのベクトル量子化モデル

Vector Quantized Models for Planning ( http://arxiv.org/abs/2106.04615v2 )

ライセンス: Link先を確認
Sherjil Ozair, Yazhe Li, Ali Razavi, Ioannis Antonoglou, A\"aron van den Oord, Oriol Vinyals(参考訳) モデルベースRLの分野での最近の発展は、特に計画が不可欠である様々な環境で成功している。 しかし、そのような成功は決定論的完全観測環境に限定されている。 確率的かつ部分的に観測可能な環境を扱う新しいアプローチを提案する。 我々の重要な洞察は、確率的環境におけるアクションの複数の影響を捉えるために離散オートエンコーダを使用することである。 エージェントの動作と環境の応答を表す離散的潜在変数の両方を計画するためにモンテカルロ木探索の確率的変種を用いる。 本手法は, 対戦相手が環境の一部と見なされるチェスの確率論的解釈において, オフライン版の MuZero を著しく上回っている。 また,大規模な視覚観察と部分観測が可能な1対1の3D環境であるDeepMind Labにアプローチを拡大することを示す。

Recent developments in the field of model-based RL have proven successful in a range of environments, especially ones where planning is essential. However, such successes have been limited to deterministic fully-observed environments. We present a new approach that handles stochastic and partially-observable environments. Our key insight is to use discrete autoencoders to capture the multiple possible effects of an action in a stochastic environment. We use a stochastic variant of Monte Carlo tree search to plan over both the agent's actions and the discrete latent variables representing the environment's response. Our approach significantly outperforms an offline version of MuZero on a stochastic interpretation of chess where the opponent is considered part of the environment. We also show that our approach scales to DeepMind Lab, a first-person 3D environment with large visual observations and partial observability.
翻訳日:2021-06-11 14:49:30 公開日:2021-06-10
# 4次元人体運動のマルチフレームシーケンス生成

Multi-frame sequence generator of 4D human body motion ( http://arxiv.org/abs/2106.04387v2 )

ライセンス: Link先を確認
Marsot Mathieu, Wuhrer Stefanie, Franco Jean-Sebastien, Durocher Stephane(参考訳) 本研究では,時間的および空間的に密集した4次元人体運動の発生問題について検討する。 一方、メッシュ表現のような高密度な3次元モデルに対する時間枠の静的適合問題として生成モデルが広く研究されており、時間的側面は生成モデルから外されている。 一方、マーカーベースのキャプチャー表現のような疎密な人間のモデルには時間的生成モデルが存在するが、我々の知識は高密度な3次元形状に拡張されたわけではない。 本稿では,このギャップを生成的オートエンコーダベースのフレームワークで橋渡しし,形態,翻訳・回転を含む大域的ロコモーション,複数フレームの時間運動を単一潜在空間ベクトルとして符号化する。 一般化と因子化能力を評価するため、我々はAMASSの循環移動サブセットにモデルを訓練し、より広範囲なモーションキャプチャーを提供する高密度表面モデルを活用する。 本研究は,低誤差境界内における人間の移動の4次元配列の再構成と,異なる多フレーム配列と移動型を表す潜在ベクトル間の潜時空間補間の有用性を検証した。 また,最初のロコモーションフレームから将来のフレームを4次元人力で予測する手法の利点を説明し,人間の運動の現実的な時空間的特徴を学習するモデルに有望な能力を示す。 このモデルにより,空間的および時間的にスパースなデータの補完が可能となることを示す。

We examine the problem of generating temporally and spatially dense 4D human body motion. On the one hand generative modeling has been extensively studied as a per time-frame static fitting problem for dense 3D models such as mesh representations, where the temporal aspect is left out of the generative model. On the other hand, temporal generative models exist for sparse human models such as marker-based capture representations, but have not to our knowledge been extended to dense 3D shapes. We propose to bridge this gap with a generative auto-encoder-based framework, which encodes morphology, global locomotion including translation and rotation, and multi-frame temporal motion as a single latent space vector. To assess its generalization and factorization abilities, we train our model on a cyclic locomotion subset of AMASS, leveraging the dense surface models it provides for an extensive set of motion captures. Our results validate the ability of the model to reconstruct 4D sequences of human locomotions within a low error bound, and the meaningfulness of latent space interpolation between latent vectors representing different multi-frame sequences and locomotion types. We also illustrate the benefits of the approach for 4D human motion prediction of future frames from initial human locomotion frames, showing promising abilities of our model to learn realistic spatio-temporal features of human motion. We show that our model allows for data completion of both spatially and temporally sparse data.
翻訳日:2021-06-11 14:48:45 公開日:2021-06-10
# 位置保存注意による有能な物体ランク付け

Salient Object Ranking with Position-Preserved Attention ( http://arxiv.org/abs/2106.05047v2 )

ライセンス: Link先を確認
Hao Fang, Daoxin Zhang, Yi Zhang, Minghao Chen, Jiawei Li, Yao Hu, Deng Cai and Xiaofei He(参考訳) インスタンスセグメンテーションは、オブジェクトが画像のどこにいるかを検出するが、それらの関係を理解するのは難しい。 私たちは典型的な関係、相対的な正当性に注意を払う。 密接に関連するタスクであるsalient object detectionは、複数のオブジェクトを識別するのは難しいが、視覚的なsalient領域をハイライトするバイナリマップを予測する。 後処理による2つのタスクの直接結合もパフォーマンスの低下につながる。 現在、相対的正当性の研究が欠如しており、コンテンツ対応画像トリミング、ビデオ要約、画像ラベリングといった実用的応用が制限されている。 本稿では,検出された各対象の順位を視覚的な順に割り当てるsaient object ranking (sor)タスクについて検討する。 本稿では,SORタスクの最初のエンドツーエンドフレームワークを提案し,マルチタスク学習方式で解決する。 このフレームワークはインスタンスセグメンテーションと適切なオブジェクトランキングを同時に処理する。 このフレームワークでは、sorブランチは独立で柔軟性があり、異なる検出メソッドと連携できるため、プラグインとして簡単に使用できます。 また、SORブランチ用に調整されたPPAモジュールも導入する。 位置埋め込みステージと特徴相互作用ステージで構成される。 正当性比較における位置の重要性を考慮すると、ROIプーリング動作における物体の絶対座標を保存し、第1段階における意味的特徴と位置情報を融合する。 特徴対話の段階では,提案の文脈化表現の獲得に注意機構を適用し,相対的な順位の予測を行う。 ASRデータセットで大規模な実験が行われた。 ベルとホイッスルがなければ,提案手法は従来の最先端手法よりも優れる。 コードは一般公開される予定だ。

Instance segmentation can detect where the objects are in an image, but hard to understand the relationship between them. We pay attention to a typical relationship, relative saliency. A closely related task, salient object detection, predicts a binary map highlighting a visually salient region while hard to distinguish multiple objects. Directly combining two tasks by post-processing also leads to poor performance. There is a lack of research on relative saliency at present, limiting the practical applications such as content-aware image cropping, video summary, and image labeling. In this paper, we study the Salient Object Ranking (SOR) task, which manages to assign a ranking order of each detected object according to its visual saliency. We propose the first end-to-end framework of the SOR task and solve it in a multi-task learning fashion. The framework handles instance segmentation and salient object ranking simultaneously. In this framework, the SOR branch is independent and flexible to cooperate with different detection methods, so that easy to use as a plugin. We also introduce a Position-Preserved Attention (PPA) module tailored for the SOR branch. It consists of the position embedding stage and feature interaction stage. Considering the importance of position in saliency comparison, we preserve absolute coordinates of objects in ROI pooling operation and then fuse positional information with semantic features in the first stage. In the feature interaction stage, we apply the attention mechanism to obtain proposals' contextualized representations to predict their relative ranking orders. Extensive experiments have been conducted on the ASR dataset. Without bells and whistles, our proposed method outperforms the former state-of-the-art method significantly. The code will be released publicly available.
翻訳日:2021-06-11 14:48:22 公開日:2021-06-10
# 文脈帯域における固定予算ベストアーム同定:静的適応アルゴリズム

Fixed-Budget Best-Arm Identification in Contextual Bandits: A Static-Adaptive Algorithm ( http://arxiv.org/abs/2106.04763v2 )

ライセンス: Link先を確認
MohammadJavad Azizi, Branislav Kveton and Mohammad Ghavamzadeh(参考訳) 固定予算設定における文脈的バンディットにおけるbest-arm identification(bai)の問題について検討する。 段階的に進行し,各段階における最適アームの固定分数を除去できる汎用逐次除去アルゴリズムを提案する。 この設計は静的および適応的な割り当ての強みを生かしている。 このアルゴリズムを線形モデルで解析し,先行研究よりも優れた誤差境界を求める。 また,一般化線形モデル (glms) にも適用し,その誤差を限定した。 これは固定予算設定におけるGLMに対する最初のBAIアルゴリズムである。 我々の膨大な数値実験により、我々のアルゴリズムは芸術の状態を上回ります。

We study the problem of best-arm identification (BAI) in contextual bandits in the fixed-budget setting. We propose a general successive elimination algorithm that proceeds in stages and eliminates a fixed fraction of suboptimal arms in each stage. This design takes advantage of the strengths of static and adaptive allocations. We analyze the algorithm in linear models and obtain a better error bound than prior work. We also apply it to generalized linear models (GLMs) and bound its error. This is the first BAI algorithm for GLMs in the fixed-budget setting. Our extensive numerical experiments show that our algorithm outperforms the state of art.
翻訳日:2021-06-11 14:47:58 公開日:2021-06-10
# ベイジアンベルマン作用素

Bayesian Bellman Operators ( http://arxiv.org/abs/2106.05012v2 )

ライセンス: Link先を確認
Matthew Fellows, Kristian Hartikainen, Shimon Whiteson(参考訳) ベイズ強化学習(RL)の新たな視点を導入し、既存のアプローチでは遷移分布やQ-関数よりも後方を推測するが、ベルマン作用素の不確かさを特徴付ける。 当社のbayesian bellman operator(bbo)フレームワークは、ブートストラップが導入されたとき、モデルフリーアプローチが実際にベルマン演算子の後方を推測し、値関数ではないという洞察によって動機付けられたものです。 本稿では,BBOを用いてモデルフリーベイズRLの厳密な理論的解析を行い,その関係性をよりよく理解する。 ベイズ解は近似推論が使用されるときでさえ、頻繁な rl 解と一致し、収束性が成り立つ条件が導かれることが証明される。 実証的に、BBOフレームワークから派生したアルゴリズムは、最先端の正規化アクター批判アルゴリズムが破滅的に失敗する継続的制御タスクを解くことができる洗練された深層探査特性を持つことを示した。

We introduce a novel perspective on Bayesian reinforcement learning (RL); whereas existing approaches infer a posterior over the transition distribution or Q-function, we characterise the uncertainty in the Bellman operator. Our Bayesian Bellman operator (BBO) framework is motivated by the insight that when bootstrapping is introduced, model-free approaches actually infer a posterior over Bellman operators, not value functions. In this paper, we use BBO to provide a rigorous theoretical analysis of model-free Bayesian RL to better understand its relationshipto established frequentist RL methodologies. We prove that Bayesian solutions are consistent with frequentist RL solutions, even when approximate inference isused, and derive conditions for which convergence properties hold. Empirically, we demonstrate that algorithms derived from the BBO framework have sophisticated deep exploration properties that enable them to solve continuous control tasks at which state-of-the-art regularised actor-critic algorithms fail catastrophically
翻訳日:2021-06-11 14:47:51 公開日:2021-06-10
# 常にキャッチできる:シグネチャの有無に関わらず、逆のパッチ対象を検出する

We Can Always Catch You: Detecting Adversarial Patched Objects WITH or WITHOUT Signature ( http://arxiv.org/abs/2106.05261v2 )

ライセンス: Link先を確認
Bin Liang and Jiachun Li and Jianjun Huang(参考訳) 近年,ディープラーニングに基づく物体検出は,敵パッチ攻撃に対して脆弱であることが証明されている。 特別に製作されたパッチを持った攻撃者は、物理的な世界でさえ最先端の人検知器、例えばYOLOから身を隠すことができる。 このような攻撃は、監視カメラから逃れるなど、深刻なセキュリティ上の脅威を引き起こす可能性がある。 本稿では,対象物検出に対する敵対的パッチ攻撃に対する検出問題について深く検討する。 まず、可視化説明の観点から、既存の敵パッチの活用可能なシグネチャを特定する。 高速シグネチャベースの防御手法を提案し,有効性を示した。 第2に,改良パッチ生成アルゴリズムの設計を行い,シグネチャベースの手法が将来出現する技術によってバイパスされるリスクを明らかにする。 新たに生成された敵パッチは、提案された署名ベースの防御を回避できる。 最後に,攻撃固有の事前知識ではなく,内部コンテンツセマンティクスの一貫性に基づく新たな署名非依存検出手法を提案する。 基本的直観は、対向物体が局所的に現れるが、入力画像で世界中に消えてしまうことである。 実験により,シグネチャ非依存手法が既存および改良された攻撃を効果的に検出できることが示されている。 また、攻撃固有の事前知識がなくても、予期せぬ攻撃やその他の種類の攻撃を検出する一般的な方法であることが証明されている。 提案する2つの検出方法は,異なるシナリオで適用可能であり,これらを組み合わせることで包括的に保護できると信じている。

Recently, the object detection based on deep learning has proven to be vulnerable to adversarial patch attacks. The attackers holding a specially crafted patch can hide themselves from the state-of-the-art person detectors, e.g., YOLO, even in the physical world. This kind of attack can bring serious security threats, such as escaping from surveillance cameras. In this paper, we deeply explore the detection problems about the adversarial patch attacks to the object detection. First, we identify a leverageable signature of existing adversarial patches from the point of the visualization explanation. A fast signature-based defense method is proposed and demonstrated to be effective. Second, we design an improved patch generation algorithm to reveal the risk that the signature-based way may be bypassed by the techniques emerging in the future. The newly generated adversarial patches can successfully evade the proposed signature-based defense. Finally, we present a novel signature-independent detection method based on the internal content semantics consistency rather than any attack-specific prior knowledge. The fundamental intuition is that the adversarial object can appear locally but disappear globally in an input image. The experiments demonstrate that the signature-independent method can effectively detect the existing and improved attacks. It has also proven to be a general method by detecting unforeseen and even other types of attacks without any attack-specific prior knowledge. The two proposed detection methods can be adopted in different scenarios, and we believe that combining them can offer a comprehensive protection.
翻訳日:2021-06-11 14:47:34 公開日:2021-06-10
# 構造スペクトル特徴とニューラルネットワークを用いた原理ハイパーエッジ予測

Principled Hyperedge Prediction with Structural Spectral Features and Neural Networks ( http://arxiv.org/abs/2106.04292v3 )

ライセンス: Link先を確認
Changlin Wan, Muhan Zhang, Wei Hao, Sha Cao, Pan Li, Chi Zhang(参考訳) hypergraphは、現実世界の複雑なデータの多角的関係を記述するフレームワークを提供する。 高次関係の予測、すなわちハイパーエッジは、複雑な相互作用を完全に理解するための根本的な問題となる。 グラフニューラルネットワーク(GNN)の開発は、対関係を持つ通常のグラフの解析を大幅に進歩させた。 しかし、これらの手法はハイパーグラフの場合に容易に拡張できない。 本稿では,エッジとノードレベルのあいまいさを原則として高次データを表現するgnnの課題を一般化する。 これらの課題を克服するために,2部グラフニューラルネットワークと構造的特徴を用いたSNALSを提案する。 SNALSは、その局所環境によってハイパーエッジの結合相互作用をキャプチャし、それらの接続のスペクトル情報を収集して取得する。 その結果、SNALSは最新のGNNモデルと比較して30%近い性能向上を達成した。 さらに,SNALSを用いて3次元ゲノム構造データ上での遺伝的高次相互作用を予測した。 SNALSは、異なる染色体間で一貫して高い予測精度を示し、既存の文献でさらに検証された4方向遺伝子相互作用の新しい発見を生んだ。

Hypergraph offers a framework to depict the multilateral relationships in real-world complex data. Predicting higher-order relationships, i.e hyperedge, becomes a fundamental problem for the full understanding of complicated interactions. The development of graph neural network (GNN) has greatly advanced the analysis of ordinary graphs with pair-wise relations. However, these methods could not be easily extended to the case of hypergraph. In this paper, we generalize the challenges of GNN in representing higher-order data in principle, which are edge- and node-level ambiguities. To overcome the challenges, we present SNALS that utilizes bipartite graph neural network with structural features to collectively tackle the two ambiguity issues. SNALS captures the joint interactions of a hyperedge by its local environment, which is retrieved by collecting the spectrum information of their connections. As a result, SNALS achieves nearly 30% performance increase compared with most recent GNN-based models. In addition, we applied SNALS to predict genetic higher-order interactions on 3D genome organization data. SNALS showed consistently high prediction accuracy across different chromosomes, and generated novel findings on 4-way gene interaction, which is further validated by existing literature.
翻訳日:2021-06-11 14:47:14 公開日:2021-06-10
# ソーシャルメディアを利用したCOVID-19パンデミックのサーベイランス:ノースカロライナ州におけるReddit調査

Surveillance of COVID-19 Pandemic using Social Media: A Reddit Study in North Carolina ( http://arxiv.org/abs/2106.04515v3 )

ライセンス: Link先を確認
Christopher Whitfield, Yang Liu, Mohd Anwar(参考訳) 新型コロナウイルス(COVID-19)パンデミックは人々の生活や行動の様々な側面を変えてきた。 この段階では、マスクを着用したり、距離を観察したり、手を洗ったりといった緩和策を採用する以外に、病気の自然進行を制御する方法はない。 さらに、ソーシャルディスタンシングにおいて、ソーシャルメディアは人々をつなげ、感情を表現するためのプラットフォームを提供する上で重要な役割を果たす。 本研究では,ソーシャルメディアを活用し,緩和策と検出戦略の取組を調査し,パンデミックに関する問題や懸念を捉えた。 特に、研究課題として、「Redditの投稿で自然言語処理を使用することで、新型コロナウイルスのパンデミックに対する公衆の取り組みや懸念について、どの程度のことが学べるか? ノースカロライナの4大サブレディットコミュニティから6ヶ月にわたって新型コロナウイルス関連の投稿を抽出した後、ノイズの多いデータをきれいにするためにNLPベースの前処理を行いました。 redditコーパス上でトピックモデリングを行うために,独自の名前付きエンティティ認識 (ner) システムと潜在ディリクレ割り当て (lda) 方式を採用した。 我々は,「マスク」,「フル」,「テスト」が,「個人保護装置」,「症状」,「テスト」の各カテゴリーにおいて,最も多い名義であることを示した。 また、最も議論されたトピックは、テスト、マスク、雇用に関連することも確認した。 緩和策は、すべてのサブredditで最も一般的な議論テーマである。

Coronavirus disease (COVID-19) pandemic has changed various aspects of people's lives and behaviors. At this stage, there are no other ways to control the natural progression of the disease than adopting mitigation strategies such as wearing masks, watching distance, and washing hands. Moreover, at this time of social distancing, social media plays a key role in connecting people and providing a platform for expressing their feelings. In this study, we tap into social media to surveil the uptake of mitigation and detection strategies, and capture issues and concerns about the pandemic. In particular, we explore the research question, "how much can be learned regarding the public uptake of mitigation strategies and concerns about COVID-19 pandemic by using natural language processing on Reddit posts?" After extracting COVID-related posts from the four largest subreddit communities of North Carolina over six months, we performed NLP-based preprocessing to clean the noisy data. We employed a custom Named-entity Recognition (NER) system and a Latent Dirichlet Allocation (LDA) method for topic modeling on a Reddit corpus. We observed that 'mask', 'flu', and 'testing' are the most prevalent named-entities for "Personal Protective Equipment", "symptoms", and "testing" categories, respectively. We also observed that the most discussed topics are related to testing, masks, and employment. The mitigation measures are the most prevalent theme of discussion across all subreddits.
翻訳日:2021-06-11 14:46:57 公開日:2021-06-10
# 単一サーバのプライベートリニア変換: 共同プライバシケース

Single-Server Private Linear Transformation: The Joint Privacy Case ( http://arxiv.org/abs/2106.05220v2 )

ライセンス: Link先を確認
Anoosheh Heidarzadeh, Nahid Esmati, and Alex Sprintson(参考訳) 本稿では,プライベート情報検索とプライベート線形計算の問題を一般化するPLT(Private Linear Transformation)の問題を紹介する。 PLTの問題には、1つ以上のリモートサーバが$K$メッセージを格納している(IDコピー)ことと、$D$サブセットの独立線形結合を$L$で計算したいユーザが含まれている。 ユーザの目的は、サーバから最小限の情報量をダウンロードし、計算に必要な$D$メッセージのIDを保護することで、計算を実行することである。 本研究では,計算に必要な$D$メッセージのIDを共同で保護しなければならない場合,PLT問題の単一サーバ設定に焦点を当てる。 必要となる$L$線形結合の係数行列が最大距離分離(MDS)符号を生成するかどうかによって、2つの異なるモデルを考える。 両方のモデルのキャパシティは$l/(k-d+l)$で与えられることが証明され、キャパシティはすべての実行可能ダウンロード率の上限として定義される。 逆証明は、線形代数的および情報理論的議論に基づいて、PLTスキームと線形符号の接続を確立する。 また、検討中の各モデルに対する達成可能性スキームも提示する。

This paper introduces the problem of Private Linear Transformation (PLT) which generalizes the problems of private information retrieval and private linear computation. The PLT problem includes one or more remote server(s) storing (identical copies of) $K$ messages and a user who wants to compute $L$ independent linear combinations of a $D$-subset of messages. The objective of the user is to perform the computation by downloading minimum possible amount of information from the server(s), while protecting the identities of the $D$ messages required for the computation. In this work, we focus on the single-server setting of the PLT problem when the identities of the $D$ messages required for the computation must be protected jointly. We consider two different models, depending on whether the coefficient matrix of the required $L$ linear combinations generates a Maximum Distance Separable (MDS) code. We prove that the capacity for both models is given by $L/(K-D+L)$, where the capacity is defined as the supremum of all achievable download rates. Our converse proofs are based on linear-algebraic and information-theoretic arguments that establish connections between PLT schemes and linear codes. We also present an achievability scheme for each of the models being considered.
翻訳日:2021-06-11 14:46:33 公開日:2021-06-10
# シングルサーバのプライベートリニアトランスフォーメーション:個人のプライバシケース

Single-Server Private Linear Transformation: The Individual Privacy Case ( http://arxiv.org/abs/2106.05222v2 )

ライセンス: Link先を確認
Anoosheh Heidarzadeh, Nahid Esmati, and Alex Sprintson(参考訳) 本稿では、個々のプライバシ保証を伴うシングルサーバのプライベートリニアトランスフォーメーション(PLT)問題を考察する。 この問題では、単一のサーバに格納された$K$メッセージのデータセットに属する$D$サブセットの独立線形結合を$L$で取得したいユーザが存在する。 目標は、計算に必要な各メッセージのアイデンティティを個別にプライベートに保ちながら、ダウンロードコストを最小限にすることである。 個々のプライバシー要件は、計算に必要な個々のメッセージのidがプライベートに保持されることを保証する。 これは、これらのアイデンティティ間の相関を含む計算に使用されるすべてのメッセージのアイデンティティ全体を保護する、共同プライバシーというより厳密な概念とは対照的である。 個人のプライバシーの概念は、幅広い実用的応用を捉えている。 例えば、データセットには個人に関する情報が含まれており、それぞれがデータアクセスパターンに対してプライバシーを保証する必要があります。 本稿では,必要線形変換を最大距離分離行列(MDS)に関連付ける設定に着目する。 特に、必要線形結合に関連する係数の行列がMDS符号の生成行列であることが要求される。 個々のプライバシに関して、pltの容量の上限を低く設定し、その容量をすべての達成可能なダウンロード率の上限と定義します。 一定の条件下では境界が固いことを示す。

This paper considers the single-server Private Linear Transformation (PLT) problem with individual privacy guarantees. In this problem, there is a user that wishes to obtain $L$ independent linear combinations of a $D$-subset of messages belonging to a dataset of $K$ messages stored on a single server. The goal is to minimize the download cost while keeping the identity of each message required for the computation individually private. The individual privacy requirement ensures that the identity of each individual message required for the computation is kept private. This is in contrast to the stricter notion of joint privacy that protects the entire set of identities of all messages used for the computation, including the correlations between these identities. The notion of individual privacy captures a broad set of practical applications. For example, such notion is relevant when the dataset contains information about individuals, each of them requires privacy guarantees for their data access patterns. We focus on the setting in which the required linear transformation is associated with a maximum distance separable (MDS) matrix. In particular, we require that the matrix of coefficients pertaining to the required linear combinations is the generator matrix of an MDS code. We establish lower and upper bounds on the capacity of PLT with individual privacy, where the capacity is defined as the supremum of all achievable download rates. We show that our bounds are tight under certain conditions.
翻訳日:2021-06-11 14:46:11 公開日:2021-06-10
# ImaginE: 自然言語生成のためのイマジネーションに基づく自動評価指標

ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural Language Generation ( http://arxiv.org/abs/2106.05970v1 )

ライセンス: Link先を確認
Wanrong Zhu, Xin Eric Wang, An Yan, Miguel Eckstein, William Yang Wang(参考訳) 自然言語生成(nlg)の自動評価は、通常、トークンレベルや埋め込みレベルの比較に依存する。 これは、視覚の想像力がしばしば理解を改善する人間の言語処理とは異なる。 本稿では,自然言語生成のための想像力に基づく自動評価指標ImaginEを提案する。 clipとdall-eの助けを借りて,テキストスニペットの具体化された想像力としてイメージを自動的に生成し,文脈埋め込みを用いて想像の類似性を計算する。 いくつかのテキスト生成タスクにまたがる実験により、我々のImaginEに想像力を加えることで、NLG評価にマルチモーダル情報を導入する大きな可能性を示し、多くの状況において人間の類似性判定と既存の自動メトリクスの相関性を改善することが示されている。

Automatic evaluations for natural language generation (NLG) conventionally rely on token-level or embedding-level comparisons with the text references. This is different from human language processing, for which visual imaginations often improve comprehension. In this work, we propose ImaginE, an imagination-based automatic evaluation metric for natural language generation. With the help of CLIP and DALL-E, two cross-modal models pre-trained on large-scale image-text pairs, we automatically generate an image as the embodied imagination for the text snippet and compute the imagination similarity using contextual embeddings. Experiments spanning several text generation tasks demonstrate that adding imagination with our ImaginE displays great potential in introducing multi-modal information into NLG evaluation, and improves existing automatic metrics' correlations with human similarity judgments in many circumstances.
翻訳日:2021-06-11 14:45:51 公開日:2021-06-10
# モデルランキングの堅牢性:平等評価のためのリーダーボードカスタマイズアプローチ

How Robust are Model Rankings: A Leaderboard Customization Approach for Equitable Evaluation ( http://arxiv.org/abs/2106.05532v1 )

ライセンス: Link先を確認
Swaroop Mishra, Anjana Arunkumar(参考訳) トップのリーダーボードが現実世界のアプリケーションにデプロイするとき、しばしば不満足に機能するモデルです。 私たちのリーダーボードは、公平な評価をしていますか? 本稿では,その「難易度」に基づいてサンプルを重み付けすることで,リーダボードを探索するタスク非依存手法を提案する。 リーダーボードは敵対的に攻撃され、トップパフォーマンスモデルが必ずしも最良のモデルであるとは限らない。 その後,代替評価指標を提案する。 10モデルに関する我々の実験では、モデルランキングの変更と、以前報告したパフォーマンスの全体的な削減が示されています。 行動テストの原則に触発されて、エンドユーザーの焦点領域に基づいて、カスタマイズによるリーダーボードの改良を可能にするビジュアル分析ツールのプロトタイプをさらに開発する。 これにより、ユーザはモデルの強みと弱みを分析し、アプリケーションシナリオに最も適したモデルを選択するのに役立ちます。 ユーザスタディでは、5つのフォーカス領域をカバーするさまざまな商用製品開発チームのメンバーが、プロトタイプがデプロイ前の開発とテストの労力を平均で41%削減できることを発見しました。

Models that top leaderboards often perform unsatisfactorily when deployed in real world applications; this has necessitated rigorous and expensive pre-deployment model testing. A hitherto unexplored facet of model performance is: Are our leaderboards doing equitable evaluation? In this paper, we introduce a task-agnostic method to probe leaderboards by weighting samples based on their `difficulty' level. We find that leaderboards can be adversarially attacked and top performing models may not always be the best models. We subsequently propose alternate evaluation metrics. Our experiments on 10 models show changes in model ranking and an overall reduction in previously reported performance -- thus rectifying the overestimation of AI systems' capabilities. Inspired by behavioral testing principles, we further develop a prototype of a visual analytics tool that enables leaderboard revamping through customization, based on an end user's focus area. This helps users analyze models' strengths and weaknesses, and guides them in the selection of a model best suited for their application scenario. In a user study, members of various commercial product development teams, covering 5 focus areas, find that our prototype reduces pre-deployment development and testing effort by 41% on average.
翻訳日:2021-06-11 14:45:38 公開日:2021-06-10
# 暗黙Hateの解読:マルチモーダルHateの自動検出アルゴリズムの評価

Deciphering Implicit Hate: Evaluating Automated Detection Algorithms for Multimodal Hate ( http://arxiv.org/abs/2106.05903v1 )

ライセンス: Link先を確認
Austin Botelho and Bertie Vidgen and Scott A. Hale(参考訳) オンライン憎しみの正確な検出と分類は難しい課題である。 暗黙的な憎しみは特に困難であり、そのような内容は異常な構文、多義語、偏見のマーカー(例えばスラリー)が少ない傾向がある。 この問題は、ミーム(テキストと画像の組み合わせ)のようなマルチモーダルコンテンツによって高められ、ユニモーダルコンテンツ(例えば、テキストのみ)よりも解読が難しいことが多い。 本稿では,暗黙的かつ明示的な憎悪を検出するための意味的・マルチモーダル的文脈の役割を評価する。 テキストおよびビジュアルエンリッチメントの両方がモデル性能を向上させることを示し、マルチモーダルモデル(0.771)は他のモデルのF1スコア(0.544、0.737、0.754)を上回っている。 unimodal-text context-aware (transformer) モデルは暗黙のヘイト検出のサブタスクにおいて最も正確であったが、マルチモーダルモデルは偽陽性に対する傾向が低かったため、全体としてはそれを上回った。 すべてのモデルが完全なアノテータ契約でコンテンツ上でより優れた性能を発揮しており、マルチモーダルモデルはアノテータが同意しないコンテントの分類に最適である。 これらの調査を行うために,5000個のマルチモーダルエントリのサンプルの高品質なアノテーションを行った。 ツイートは主要カテゴリー、モダリティ、戦略に注釈が付された。 このコーパスは、コードブック、コード、最終的なモデルとともに、自由に利用できます。

Accurate detection and classification of online hate is a difficult task. Implicit hate is particularly challenging as such content tends to have unusual syntax, polysemic words, and fewer markers of prejudice (e.g., slurs). This problem is heightened with multimodal content, such as memes (combinations of text and images), as they are often harder to decipher than unimodal content (e.g., text alone). This paper evaluates the role of semantic and multimodal context for detecting implicit and explicit hate. We show that both text- and visual- enrichment improves model performance, with the multimodal model (0.771) outperforming other models' F1 scores (0.544, 0.737, and 0.754). While the unimodal-text context-aware (transformer) model was the most accurate on the subtask of implicit hate detection, the multimodal model outperformed it overall because of a lower propensity towards false positives. We find that all models perform better on content with full annotator agreement and that multimodal models are best at classifying the content where annotators disagree. To conduct these investigations, we undertook high-quality annotation of a sample of 5,000 multimodal entries. Tweets were annotated for primary category, modality, and strategy. We make this corpus, along with the codebook, code, and final model, freely available.
翻訳日:2021-06-11 14:45:21 公開日:2021-06-10
# 非有界データスコアのスコアマッチングモデル

Score Matching Model for Unbounded Data Score ( http://arxiv.org/abs/2106.05527v1 )

ライセンス: Link先を確認
Dongjun Kim, Seungjae Shin, Kyungwoo Song, Wanmo Kang, Il-Chul Moon(参考訳) スコアベースモデルの最近の進歩は、確率微分方程式(SDE)を取り入れ、画像生成タスクにおける最先端技術性能をもたらす。 本稿では,ゼロ摂動雑音におけるモデルを解析することで,スコアベースモデルを改善する。 実際のデータセットでは、摂動ノイズ(\sigma$)がゼロになるにつれてスコア関数が分岐し、この観測は、どのニューラルネットワーク構造でもスコア推定は$\sigma=0$で失敗するという議論を導く。 次に, ノイズ条件付きスコアネットワーク(UNCSN)を導入し, ノイズ条件付きスコアベースモデルに容易に適用可能な変更を加えることで, スコアのばらつきを解消する。 さらに,新しいタイプのSDEを導入し,新たに提案したSDEから正確なログ確率を計算する。 さらに,ミニバッチにおける損失不均衡問題を軽減するとともに,提案する損失に関する理論的解析を行い,スコアベースモデルによるデータ分散モデリングの背後にあるメカニズムを明らかにする。

Recent advance in score-based models incorporates the stochastic differential equation (SDE), which brings the state-of-the art performance on image generation tasks. This paper improves such score-based models by analyzing the model at the zero perturbation noise. In real datasets, the score function diverges as the perturbation noise ($\sigma$) decreases to zero, and this observation leads an argument that the score estimation fails at $\sigma=0$ with any neural network structure. Subsequently, we introduce Unbounded Noise Conditional Score Network (UNCSN) that resolves the score diverging problem with an easily applicable modification to any noise conditional score-based models. Additionally, we introduce a new type of SDE, so the exact log likelihood can be calculated from the newly suggested SDE. On top of that, the associated loss function mitigates the loss imbalance issue in a mini-batch, and we present a theoretic analysis on the proposed loss to uncover the behind mechanism of the data distribution modeling by the score-based models.
翻訳日:2021-06-11 14:44:57 公開日:2021-06-10
# ローカルサーロゲート解説者のための説明目的定義の見過ごされた課題について

On the overlooked issue of defining explanation objectives for local-surrogate explainers ( http://arxiv.org/abs/2106.05810v1 )

ライセンス: Link先を確認
Rafael Poyiadzi, Xavier Renard, Thibault Laugel, Raul Santos-Rodriguez, Marcin Detyniecki(参考訳) 機械学習モデル予測を説明するローカルサロゲートアプローチは、モデルに依存しず、モデリングにおいて柔軟であるなど、魅力的な特性を持っている。 この記述に適合し、この目標を共有するいくつかの方法が存在する。 しかし、共通の全体的な手順にもかかわらず、彼らは異なる目的を設定し、ブラックボックスから異なる情報を抽出し、その結果、一般に比較不能な多様な説明を生み出した。 本稿では,複数の手法間の類似点と相違点を概観し,モデルから抽出した情報に特に焦点をあてる。 我々は,説明可能性の研究と実践に関する方法の目的の中で,合意の欠如,明快さの欠如の意義について論じる。

Local surrogate approaches for explaining machine learning model predictions have appealing properties, such as being model-agnostic and flexible in their modelling. Several methods exist that fit this description and share this goal. However, despite their shared overall procedure, they set out different objectives, extract different information from the black-box, and consequently produce diverse explanations, that are -- in general -- incomparable. In this work we review the similarities and differences amongst multiple methods, with a particular focus on what information they extract from the model, as this has large impact on the output: the explanation. We discuss the implications of the lack of agreement, and clarity, amongst the methods' objectives on the research and practice of explainability.
翻訳日:2021-06-11 14:44:40 公開日:2021-06-10
# 時間・物体定量化ネットワーク

Temporal and Object Quantification Networks ( http://arxiv.org/abs/2106.05891v1 )

ライセンス: Link先を確認
Jiayuan Mao, Zhezheng Luo, Chuang Gan, Joshua B. Tenenbaum, Jiajun Wu, Leslie Pack Kaelbling, Tomer D. Ullman(参考訳) 本稿では, 時間的・物体的量化ネットワーク(TOQ-Nets)について述べる。これは, 複雑な関係時間的事象を認識できるように, 構造的バイアスを持つニューロシンボリックネットワークの新たなクラスである。 これは、オブジェクトと時間にわたって有限領域の定量化を実装する層を含むことによって行われる。 この構造により、異なる長さの時間列のオブジェクトの数が異なる入力インスタンスに直接一般化することができる。 複雑な時間関係パターンを用いてイベントタイプを認識する入力領域におけるtoq-netの評価を行う。 toq-netは少量のデータから、トレーニング中に存在し、入力シーケンスの時間的ワーピングよりも多くのオブジェクトを含むシナリオに一般化できることを実証する。

We present Temporal and Object Quantification Networks (TOQ-Nets), a new class of neuro-symbolic networks with a structural bias that enables them to learn to recognize complex relational-temporal events. This is done by including reasoning layers that implement finite-domain quantification over objects and time. The structure allows them to generalize directly to input instances with varying numbers of objects in temporal sequences of varying lengths. We evaluate TOQ-Nets on input domains that require recognizing event-types in terms of complex temporal relational patterns. We demonstrate that TOQ-Nets can generalize from small amounts of data to scenarios containing more objects than were present during training and to temporal warpings of input sequences.
翻訳日:2021-06-11 14:44:29 公開日:2021-06-10
# 変形性股関節症自動評価のための関節ランドマークと構造学習

Joint Landmark and Structure Learning for Automatic Evaluation of Developmental Dysplasia of the Hip ( http://arxiv.org/abs/2106.05458v1 )

ライセンス: Link先を確認
Xindi Hu, Limin Wang, Xin Yang, Xu Zhou, Wufeng Xue, Yan Cao, Shengfeng Liu, Yuhao Huang, Shuangping Guo, Ning Shang, Dong Ni, and Ning Gu(参考訳) 乳児股関節の超音波(US)スクリーニングは、発達性股関節異形成症(DDH)の早期診断に不可欠である。 DDHの米国診断は、股関節の発達を定量化するα角とβ角を測定することである。 これらの2つの角度は、重要な解剖学的ランドマークと股関節の構造から計算される。 しかし、この測定プロセスはソノグラフィーにとって簡単なものではなく、通常は複雑な解剖学的構造を徹底的に理解する必要がある。 本研究では,ランドマークと構造物間の関係を共同で学習し,DDHを自動評価するマルチタスクフレームワークを提案する。 我々のマルチタスクネットワークは3つの新しいモジュールを備えている。 まず,Mask R-CNNを鍵解剖学的構造を検出し,セグメント化するための基本フレームワークとして採用し,新しいマルチタスクフレームワークを形成するために,ランドマーク検出ブランチを1つ追加する。 次に,不完全解剖学的構造予測をロバストかつ精度良く洗練するために,新しい形状類似性損失を提案する。 第3に、セグメント構造と検出されたランドマークから推定されるボニーリムの整合性を確保するために、ランドマーク構造をさらに一貫した形で組み込む。 実験では,632例の乳児股関節の1,231 us画像が収集され,そのうち116例の247画像が検査された。 アルファ角とベータ角の平均誤差は2.221度と2.899度である。 アルファ角とベータ角の93%と85%は、それぞれ5度未満の誤差があると見積もっている。 実験の結果,ddhの自動評価を高精度かつロバストに実現でき,臨床応用の可能性も示唆された。

The ultrasound (US) screening of the infant hip is vital for the early diagnosis of developmental dysplasia of the hip (DDH). The US diagnosis of DDH refers to measuring alpha and beta angles that quantify hip joint development. These two angles are calculated from key anatomical landmarks and structures of the hip. However, this measurement process is not trivial for sonographers and usually requires a thorough understanding of complex anatomical structures. In this study, we propose a multi-task framework to learn the relationships among landmarks and structures jointly and automatically evaluate DDH. Our multi-task networks are equipped with three novel modules. Firstly, we adopt Mask R-CNN as the basic framework to detect and segment key anatomical structures and add one landmark detection branch to form a new multi-task framework. Secondly, we propose a novel shape similarity loss to refine the incomplete anatomical structure prediction robustly and accurately. Thirdly, we further incorporate the landmark-structure consistent prior to ensure the consistency of the bony rim estimated from the segmented structure and the detected landmark. In our experiments, 1,231 US images of the infant hip from 632 patients are collected, of which 247 images from 126 patients are tested. The average errors in alpha and beta angles are 2.221 degrees and 2.899 degrees. About 93% and 85% estimates of alpha and beta angles have errors less than 5 degrees, respectively. Experimental results demonstrate that the proposed method can accurately and robustly realize the automatic evaluation of DDH, showing great potential for clinical application.
翻訳日:2021-06-11 14:44:18 公開日:2021-06-10
# DUET:スキャンまたはキャプチャド文書中のテキストの強調を利用した検出

DUET: Detection Utilizing Enhancement for Text in Scanned or Captured Documents ( http://arxiv.org/abs/2106.05542v1 )

ライセンス: Link先を確認
Eun-Soo Jung, HyeongGwan Son, Kyusam Oh, Yongkeun Yun, Soonhwan Kwon, Min Soo Kim(参考訳) 文書画像におけるテキスト検出のための新しいディープニューラルネットワークを提案する。 ノイズの多いスキャン文書におけるロバストテキスト検出には、テキスト強調の補助タスクを追加することでマルチタスク学習の利点を活用できる。 すなわち,提案モデルでは,雑音低減とテキスト領域拡張とテキスト検出を行うように設計されている。 さらに,テキスト検出と強調のためにラベル付けされた文書画像の合成により,モデルのトレーニングデータを充実させ,ラベル付き文書画像データの不十分さを克服する。 合成データと実データを効果的に利用するために、トレーニングプロセスは2つのフェーズに分けられる。 第1フェーズは、完全に監督された方法で合成データのみをトレーニングする。 そして、第2フェーズに検出ラベルのみを持つ実データを追加する。 実データに対する強化タスクは、その検出ラベルからの情報を弱く管理する。 提案手法は,他のテキスト検出手法を上回る性能を有する実文書データセットで実証される。 さらに, アブレーションを行い, 結果から, 合成データ, 補助タスク, 弱スーパービジョンの有効性が確認された。 既存のテキスト検出研究は主にシーンのテキストに焦点を当てているが,本手法はスキャンした文書のテキストに最適化されている。

We present a novel deep neural model for text detection in document images. For robust text detection in noisy scanned documents, the advantages of multi-task learning are adopted by adding an auxiliary task of text enhancement. Namely, our proposed model is designed to perform noise reduction and text region enhancement as well as text detection. Moreover, we enrich the training data for the model with synthesized document images that are fully labeled for text detection and enhancement, thus overcome the insufficiency of labeled document image data. For the effective exploitation of the synthetic and real data, the training process is separated in two phases. The first phase is training only synthetic data in a fully-supervised manner. Then real data with only detection labels are added in the second phase. The enhancement task for the real data is weakly-supervised with information from their detection labels. Our methods are demonstrated in a real document dataset with performances exceeding those of other text detection methods. Moreover, ablations are conducted and the results confirm the effectiveness of the synthetic data, auxiliary task, and weak-supervision. Whereas the existing text detection studies mostly focus on the text in scenes, our proposed method is optimized to the applications for the text in scanned documents.
翻訳日:2021-06-11 14:43:54 公開日:2021-06-10
# ほぼ線形時間における階層的凝集グラフクラスタリング

Hierarchical Agglomerative Graph Clustering in Nearly-Linear Time ( http://arxiv.org/abs/2106.05610v1 )

ライセンス: Link先を確認
Laxman Dhulipala, David Eisenstat, Jakub {\L}\k{a}cki, Vahab Mirrokni, Jessica Shi(参考訳) エッジ重み付きグラフ上での階層的凝集クラスタリング(HAC)アルゴリズムについて検討する。 我々は階層的凝集グラフクラスタリングのためのアルゴリズムフレームワークを定義し、完全リンクやwngmaリンクなどの古典的なリンケージ測度のための最初の効率的な$\tilde{o}(m)$時間厳密なアルゴリズムを提供する。 さらに、hacの最も一般的な変種である平均リンクに対して、$\tilde{o}(n\sqrt{m})$ timeで動作するアルゴリズムを提供する。 この変種に対して、これは、ある定数 $\epsilon > 0$ に対して$m=n^{2-\epsilon}$ の四進時間で実行される最初の正確なアルゴリズムである。 私たちは、$\tilde{o}(m)$時間で実行されるフレームワークの平均リンクに対して、単純な$\epsilon$-close approximationアルゴリズムでこの結果を補完します。 アルゴリズムの適用例として、まず$k$-NNを用いて、点集合からグラフを生成し、その結果の重み付きグラフ上でアルゴリズムを実行することで、計量空間内のクラスタリングポイントを考察する。 公開データセット上でのアルゴリズムの性能を検証し,20.7~76.5倍の速度でポイントデータセットのクラスタリングを高速化できることを示す。

We study the widely used hierarchical agglomerative clustering (HAC) algorithm on edge-weighted graphs. We define an algorithmic framework for hierarchical agglomerative graph clustering that provides the first efficient $\tilde{O}(m)$ time exact algorithms for classic linkage measures, such as complete- and WPGMA-linkage, as well as other measures. Furthermore, for average-linkage, arguably the most popular variant of HAC, we provide an algorithm that runs in $\tilde{O}(n\sqrt{m})$ time. For this variant, this is the first exact algorithm that runs in subquadratic time, as long as $m=n^{2-\epsilon}$ for some constant $\epsilon > 0$. We complement this result with a simple $\epsilon$-close approximation algorithm for average-linkage in our framework that runs in $\tilde{O}(m)$ time. As an application of our algorithms, we consider clustering points in a metric space by first using $k$-NN to generate a graph from the point set, and then running our algorithms on the resulting weighted graph. We validate the performance of our algorithms on publicly available datasets, and show that our approach can speed up clustering of point datasets by a factor of 20.7--76.5x.
翻訳日:2021-06-11 14:43:38 公開日:2021-06-10
# 不均衡半教師付き学習のための分布対応セマンティックス指向擬似ラベル

Distribution-Aware Semantics-Oriented Pseudo-label for Imbalanced Semi-Supervised Learning ( http://arxiv.org/abs/2106.05682v1 )

ライセンス: Link先を確認
Youngtaek Oh, Dong-Jin Kim, In So Kweon(参考訳) 従来の半教師あり学習法(SSL)は,(1)クラス不均衡を考慮せず,(2)ラベル付きデータと未ラベルデータ間のクラス分布ミスマッチを考慮していないため,実世界の応用には程遠い。 本稿では, 比較的未探索な半教師付き学習において, 擬似ラベルの偏りがモデル性能に悪影響を及ぼすような問題に対処する。 興味深いことに、類似性に基づく特徴空間の分類器からの意味的擬似ラベルと、線形分類器からの伝統的な擬似ラベルは相補性を示す。 そこで本研究では,この観測によって動機付けられたバイアスに対処する,一般的な擬似ラベルフレームワークを提案する。 鍵となる考え方は、現在の擬似ラベル分布に応じて、意味的擬似ラベルを線形にクラス適応的にブレンドすることである。 これにより、セマンティクス擬似ラベル成分の増加は、多数派クラスの偽陽性を抑制し、その逆も抑制される。 不均衡SSLのための新しい擬似ラベルフレームワークを、DASO(Distributed-Aware Semantics-Oriented Pseudo-label)と呼ぶ。 CIFAR10/100-LTとSTL10-LTの広範囲な評価は、DASOが最近提案したラベルと擬似ラベルの再バランス法よりも一貫して優れていることを示している。 さらに,(1)クラス不均衡や(2)クラス分布ミスマッチが存在する場合,および最近の実世界のSemi-Avesベンチマークにおいても,一般的なSSLアルゴリズムはDASOでラベル付けされていないデータを効果的に活用できることを示す。

The capability of the traditional semi-supervised learning (SSL) methods is far from real-world application since they do not consider (1) class imbalance and (2) class distribution mismatch between labeled and unlabeled data. This paper addresses such a relatively under-explored problem, imbalanced semi-supervised learning, where heavily biased pseudo-labels can harm the model performance. Interestingly, we find that the semantic pseudo-labels from a similarity-based classifier in feature space and the traditional pseudo-labels from the linear classifier show the complementary property. To this end, we propose a general pseudo-labeling framework to address the bias motivated by this observation. The key idea is to class-adaptively blend the semantic pseudo-label to the linear one, depending on the current pseudo-label distribution. Thereby, the increased semantic pseudo-label component suppresses the false positives in the majority classes and vice versa. We term the novel pseudo-labeling framework for imbalanced SSL as Distribution-Aware Semantics-Oriented (DASO) Pseudo-label. Extensive evaluation on CIFAR10/100-LT and STL10-LT shows that DASO consistently outperforms both recently proposed re-balancing methods for label and pseudo-label. Moreover, we demonstrate that typical SSL algorithms can effectively benefit from unlabeled data with DASO, especially when (1) class imbalance and (2) class distribution mismatch exist and even on recent real-world Semi-Aves benchmark.
翻訳日:2021-06-11 14:43:16 公開日:2021-06-10
# メディカルセグメンテーションの宣言

The Medical Segmentation Decathlon ( http://arxiv.org/abs/2106.05735v1 )

ライセンス: Link先を確認
Michela Antonelli, Annika Reinke, Spyridon Bakas, Keyvan Farahani, AnnetteKopp-Schneider, Bennett A. Landman, Geert Litjens, Bjoern Menze, Olaf Ronneberger, Ronald M.Summers, Bram van Ginneken, Michel Bilello, Patrick Bilic, Patrick F. Christ, Richard K. G. Do, Marc J. Gollub, Stephan H. Heckers, Henkjan Huisman, William R. Jarnagin, Maureen K. McHugo, Sandy Napel, Jennifer S. Goli Pernicka, Kawal Rhode, Catalina Tobon-Gomez, Eugene Vorontsov, Henkjan Huisman, James A. Meakin, Sebastien Ourselin, Manuel Wiesenfarth, Pablo Arbelaez, Byeonguk Bae, Sihong Chen, Laura Daza, Jianjiang Feng, Baochun He, Fabian Isensee, Yuanfeng Ji, Fucang Jia, Namkug Kim, Ildoo Kim, Dorit Merhof, Akshay Pai, Beomhee Park, Mathias Perslev, Ramin Rezaiifar, Oliver Rippel, Ignacio Sarasua, Wei Shen, Jaemin Son, Christian Wachinger, Liansheng Wang, Yan Wang, Yingda Xia, Daguang Xu, Zhanwei Xu, Yefeng Zheng, Amber L. Simpson, Lena Maier-Hein, M. Jorge Cardoso(参考訳) 特定のタスクが与えられた画像解析アルゴリズムの比較評価において、国際的な課題がデファクトスタンダードになっている。 セグメンテーションは、現在最も広く研究されている医療画像処理タスクであるが、様々なセグメンテーションの課題は、アルゴリズム開発が単一の特定の臨床問題に取り組む必要性によって引き起こされるように、通常孤立して組織化されている。 我々は、複数のタスクでうまく動作可能なメソッドが、これまで見つからなかったタスクにうまく一般化し、カスタム設計のソリューションより優れていると仮定した。 この仮説を考察するために,我々は,アルゴリズムが複数のタスクとモダリティで競合するバイオメディカル画像解析の課題であるMSD(Medicial Segmentation Decathlon)を組織した。 基礎となるデータセットは、小さなデータセット、バランスの取れていないラベル、マルチサイトデータ、小さなオブジェクトなどの医療画像を扱う際に発生する問題軸を探索するために設計された。 MSDの課題は、一連のタスクで一貫した優れたパフォーマンスを持つアルゴリズムが、これまで見つからなかったタスクの異なるセットで平均的なパフォーマンスを保ったことを確認した。 さらに,MSDの勝者を2年間監視することで,このアルゴリズムが他の幅広い臨床問題にも適用され続けており,さらに仮説が裏付けられている。 本研究から得られた3つの結論は,(1)最先端画像分割アルゴリズムが成熟し,精度が高く,未熟なタスクで再訓練した場合の一般化,(2)複数のタスクにまたがる一貫したアルゴリズム性能はアルゴリズムの一般化可能性の強力なサロゲートである,(3)精度の高いai分割モデルのトレーニングは非ai専門家にコモディティ化されていること,の3つである。

International challenges have become the de facto standard for comparative assessment of image analysis algorithms given a specific task. Segmentation is so far the most widely investigated medical image processing task, but the various segmentation challenges have typically been organized in isolation, such that algorithm development was driven by the need to tackle a single specific clinical problem. We hypothesized that a method capable of performing well on multiple tasks will generalize well to a previously unseen task and potentially outperform a custom-designed solution. To investigate the hypothesis, we organized the Medical Segmentation Decathlon (MSD) - a biomedical image analysis challenge, in which algorithms compete in a multitude of both tasks and modalities. The underlying data set was designed to explore the axis of difficulties typically encountered when dealing with medical images, such as small data sets, unbalanced labels, multi-site data and small objects. The MSD challenge confirmed that algorithms with a consistent good performance on a set of tasks preserved their good average performance on a different set of previously unseen tasks. Moreover, by monitoring the MSD winner for two years, we found that this algorithm continued generalizing well to a wide range of other clinical problems, further confirming our hypothesis. Three main conclusions can be drawn from this study: (1) state-of-the-art image segmentation algorithms are mature, accurate, and generalize well when retrained on unseen tasks; (2) consistent algorithmic performance across multiple tasks is a strong surrogate of algorithmic generalizability; (3) the training of accurate AI segmentation models is now commoditized to non AI experts.
翻訳日:2021-06-11 14:42:48 公開日:2021-06-10
# FetReg:Fetoscopy Challengeデータセットにおける胎盤血管分割と登録

FetReg: Placental Vessel Segmentation and Registration in Fetoscopy Challenge Dataset ( http://arxiv.org/abs/2106.05923v1 )

ライセンス: Link先を確認
Sophia Bano, Alessandro Casella, Francisco Vasconcelos, Sara Moccia, George Attilakos, Ruwan Wimalasundera, Anna L. David, Dario Paladini, Jan Deprest, Leonardo S. Mattos, Danail Stoyanov(参考訳) Fetoscopy laser photocoagulation は、胎盤血管奇形による単子葉性多発妊娠に発生するツイン・ツー・ツイン輸血症候群(TTTS)の治療に広く用いられている治療法である。 この手順は、視野の制限、フェトスコープの操作性の低下、流体の濁度による視認性の低下、光源のばらつき、胎盤の異常な位置など、特に困難である。 これにより、プロシージャ時間と不完全アブレーションが増加し、TTTSが持続する可能性がある。 コンピュータ支援による介入は、ビデオモザイクによるフェトスコープの視野を拡大し、血管ネットワークの可視化をより良くすることで、これらの課題を克服するのに役立つかもしれない。 しかし、この領域における研究開発は、質の高いデータが、手続き内および手続き間変動性をエンコードできないため、まだ限られている。 FetReg(Fetoscopic Placental Vessel Segmentation and Registration, FetReg)の課題を通じて, 長期フェトスコープビデオからドリフトフリーモザイクを作成することを目的とした, 胎児環境のための汎用的で堅牢なセマンティックセグメンテーションとビデオモザイクアルゴリズムの開発のための大規模マルチセントデータセットを提案する。 本稿では,FetRegデータセットの概要,課題タスク,評価指標,セグメンテーションと登録の両方のためのベースライン手法について述べる。 fetregデータセットのベースラインメソッドの結果から、当社のデータセットには興味深い課題があり、fetreg challengeのクラウドソーシングイニシアチブを通じてモデル化され、競うことができます。

Fetoscopy laser photocoagulation is a widely used procedure for the treatment of Twin-to-Twin Transfusion Syndrome (TTTS), that occur in mono-chorionic multiple pregnancies due to placental vascular anastomoses. This procedure is particularly challenging due to limited field of view, poor manoeuvrability of the fetoscope, poor visibility due to fluid turbidity, variability in light source, and unusual position of the placenta. This may lead to increased procedural time and incomplete ablation, resulting in persistent TTTS. Computer-assisted intervention may help overcome these challenges by expanding the fetoscopic field of view through video mosaicking and providing better visualization of the vessel network. However, the research and development in this domain remain limited due to unavailability of high-quality data to encode the intra- and inter-procedure variability. Through the Fetoscopic Placental Vessel Segmentation and Registration (FetReg) challenge, we present a large-scale multi-centre dataset for the development of generalized and robust semantic segmentation and video mosaicking algorithms for the fetal environment with a focus on creating drift-free mosaics from long duration fetoscopy videos. In this paper, we provide an overview of the FetReg dataset, challenge tasks, evaluation metrics and baseline methods for both segmentation and registration. Baseline methods results on the FetReg dataset shows that our dataset poses interesting challenges, which can be modelled and competed for through our crowd-sourcing initiative of the FetReg challenge.
翻訳日:2021-06-11 14:42:18 公開日:2021-06-10
# 観察による学習

Learning by Watching ( http://arxiv.org/abs/2106.05966v1 )

ライセンス: Link先を確認
Jimuyang Zhang and Eshed Ohn-Bar(参考訳) 新しい状況や地理的な場所では、人間ドライバーは他人を観察し、自分自身が実行したことがないような操作を学べる特別な能力を持っている。 対照的に、既存の学習技術は、完全に知られた観察と専門的なドライバーアクションを備えた計測された自走車への直接アクセスを想定しているため、そのような可能性を妨げる。 しかし、そのような測定は、他人を観察することで学習する場合、非自走車に直接アクセスすることはできない。 したがって、データが貴重な資産と見なされるアプリケーションでは、現在のアプローチでは、周囲の車両を間接的に観測することで得られる可能性のあるトレーニングデータの大部分が完全に破棄される。 この重要な洞察を生かして、国家や専門家の行動の知識を必要とせず、運転方針の学習を可能にするLbW(Learning by Watching)フレームワークを提案する。 lbwは、新たな視点と操作によってデータを増やすために、(1)自走車による観察を視点に転換し、(2)専門家の行動を推論することで、与えられたシーンにおける他の車両のデモンストレーションを利用する。 我々のLbWエージェントは、データ効率のよい学習を可能にしながら、より堅牢な運転ポリシーを学びます。 特に、LbWは、既存の方法で必要とされていた運転データのごく一部でも頑健に駆動し、従来のCARLAベンチマークで平均成功率は92%、総走行時間は30分、わずか10分で82%である。

When in a new situation or geographical location, human drivers have an extraordinary ability to watch others and learn maneuvers that they themselves may have never performed. In contrast, existing techniques for learning to drive preclude such a possibility as they assume direct access to an instrumented ego-vehicle with fully known observations and expert driver actions. However, such measurements cannot be directly accessed for the non-ego vehicles when learning by watching others. Therefore, in an application where data is regarded as a highly valuable asset, current approaches completely discard the vast portion of the training data that can be potentially obtained through indirect observation of surrounding vehicles. Motivated by this key insight, we propose the Learning by Watching (LbW) framework which enables learning a driving policy without requiring full knowledge of neither the state nor expert actions. To increase its data, i.e., with new perspectives and maneuvers, LbW makes use of the demonstrations of other vehicles in a given scene by (1) transforming the ego-vehicle's observations to their points of view, and (2) inferring their expert actions. Our LbW agent learns more robust driving policies while enabling data-efficient learning, including quick adaptation of the policy to rare and novel scenarios. In particular, LbW drives robustly even with a fraction of available driving data required by existing methods, achieving an average success rate of 92% on the original CARLA benchmark with only 30 minutes of total driving data and 82% with only 10 minutes.
翻訳日:2021-06-11 14:41:46 公開日:2021-06-10
# ビデオトランスにおける時空間混合注意

Space-time Mixing Attention for Video Transformer ( http://arxiv.org/abs/2106.05968v1 )

ライセンス: Link先を確認
Adrian Bulat and Juan-Manuel Perez-Rua and Swathikiran Sudhakaran and Brais Martinez and Georgios Tzimiropoulos(参考訳) 本稿ではトランスフォーマーを用いたビデオ認識について述べる。 この領域での最近の試みは、認識精度の観点から有望な結果を示しているが、多くの場合、時間的情報の付加的モデリングによる重要な計算オーバーヘッドを引き起こすことも示されている。 そこで本研究では,ビデオシーケンス内のフレーム数と線形にスケールする複雑なビデオトランスフォーマーモデルを提案し,画像ベースのトランスフォーマーモデルと比較して,‘textit{no overhead’を誘導する。 これを実現するために,本モデルでは,ビデオトランスフォーマーで使用される全時空間の注意を2つ近似する: (a) 時間的注意を局所的な時間的窓に制限し,トランスフォーマーの深さに重み付けし,ビデオシーケンスの完全な時間的カバレッジを得る。 (b)空間のみの注意モデルの上に余分なコストを発生させることなく、効率的な時空混合を用いて空間的および時間的位置に出席する。 また,計算コストの最小化による精度向上を実現するため,グローバル時間のみの注意のための2つの非常に軽量な機構を統合する方法を示す。 我々のモデルは、最も人気のあるビデオ認識データセットに対して、非常に高い認識精度を提供すると同時に、他のビデオトランスフォーマーモデルよりもはるかに効率的であることを示す。 コードは利用可能になる。

This paper is on video recognition using Transformers. Very recent attempts in this area have demonstrated promising results in terms of recognition accuracy, yet they have been also shown to induce, in many cases, significant computational overheads due to the additional modelling of the temporal information. In this work, we propose a Video Transformer model the complexity of which scales linearly with the number of frames in the video sequence and hence induces \textit{no overhead} compared to an image-based Transformer model. To achieve this, our model makes two approximations to the full space-time attention used in Video Transformers: (a) It restricts time attention to a local temporal window and capitalizes on the Transformer's depth to obtain full temporal coverage of the video sequence. (b) It uses efficient space-time mixing to attend \textit{jointly} spatial and temporal locations without inducing any additional cost on top of a spatial-only attention model. We also show how to integrate 2 very lightweight mechanisms for global temporal-only attention which provide additional accuracy improvements at minimal computational cost. We demonstrate that our model produces very high recognition accuracy on the most popular video recognition datasets while at the same time being significantly more efficient than other Video Transformer models. Code will be made available.
翻訳日:2021-06-11 14:41:21 公開日:2021-06-10
# エゴセントリックポーズ推定のためのダイナミクス制御キネマティックポリシー

Dynamics-Regulated Kinematic Policy for Egocentric Pose Estimation ( http://arxiv.org/abs/2106.05969v1 )

ライセンス: Link先を確認
Zhengyi Luo, Ryo Hachiuma, Ye Yuan, Kris Kitani(参考訳) 本研究では,動力学的モデリング,動的モデリング,シーンオブジェクト情報を密に統合したオブジェクト認識型3Dエゴセントリックポーズ推定手法を提案する。 先行キネマティクスやダイナミクスベースのアプローチと異なり,2つのコンポーネントを相互に使用する場合と異なり,ダイナミクスが制御するトレーニングによって2つのアプローチを相乗化する。 各段階において、キネマティックモデルを用いて、ビデオエビデンスとシミュレーション状態を用いてターゲットポーズを提供する。 そして、事前学習された動力学モデルは、物理シミュレーターでキネマティックポーズを模倣しようとする。 運動モデルが指示するポーズとダイナミクスモデルが生成するポーズを比較することで、それらの不一致を利用して運動モデルをさらに改善することができる。 シーン内の物体(例えば椅子や箱)の6DoFのポーズを分解することにより、初めて、単一のウェアラブルカメラを用いて物理的に解明可能な3Dオブジェクトインタラクションを推定する能力を示す。 実験環境と実世界のシナリオの両方において,自発的なポーズ推定手法を評価した。

We propose a method for object-aware 3D egocentric pose estimation that tightly integrates kinematics modeling, dynamics modeling, and scene object information. Unlike prior kinematics or dynamics-based approaches where the two components are used disjointly, we synergize the two approaches via dynamics-regulated training. At each timestep, a kinematic model is used to provide a target pose using video evidence and simulation state. Then, a prelearned dynamics model attempts to mimic the kinematic pose in a physics simulator. By comparing the pose instructed by the kinematic model against the pose generated by the dynamics model, we can use their misalignment to further improve the kinematic model. By factoring in the 6DoF pose of objects (e.g., chairs, boxes) in the scene, we demonstrate for the first time, the ability to estimate physically-plausible 3D human-object interactions using a single wearable camera. We evaluate our egocentric pose estimation method in both controlled laboratory settings and real-world scenarios.
翻訳日:2021-06-11 14:40:58 公開日:2021-06-10
# パズルのプログラミング

Programming Puzzles ( http://arxiv.org/abs/2106.05784v1 )

ライセンス: Link先を確認
Tal Schuster, Ashwin Kalyan, Oleksandr Polozov, Adam Tauman Kalai(参考訳) プログラム合成の客観的かつ包括的評価としてプログラミングパズルと呼ばれる新しいタイプのプログラミングチャレンジを導入し、pythonプログラミングパズル(p3)のオープンソースデータセットをリリースする。 それぞれのパズルは、短いPythonプログラム$f$で定義され、そのゴールは、$f$出力"True"を生成する入力$x$を見つけることである。 パズルは、それぞれが検証子$f$のソースコードによって完全に指定されるので、$f(x)$を評価することは、候補解$x$をテストするのに必要なすべてである。 答えのキーや入出力の例は必要ありませんし、自然言語理解にも依存しません。 このデータセットは、人間のプログラマ(aiではない)にとってすぐに明らかな簡単な文字列操作問題から、古典的なプログラミングパズル(ハノイの塔など)、インタビュー/競争プログラミング問題(動的プログラミングなど)、アルゴリズムや数学における長年のオープン問題(ファクタリングなど)まで、さまざまな困難や領域の問題にまたがっている。 p3の客観的な性質は自己教師付きブートストラップをサポートする。 我々は、ベースラインの列挙型プログラム合成とgpt-3ソルバを開発し、過去のソリューションから学習することで、簡単なパズル(参照ソリューションにアクセスせずにも)を解くことができる。 小さなユーザスタディに基づいて、人間のプログラマとベースラインAIソルバの相関が難しいことが分かりました。

We introduce a new type of programming challenge called programming puzzles, as an objective and comprehensive evaluation of program synthesis, and release an open-source dataset of Python Programming Puzzles (P3). Each puzzle is defined by a short Python program $f$, and the goal is to find an input $x$ which makes $f$ output "True". The puzzles are objective in that each one is specified entirely by the source code of its verifier $f$, so evaluating $f(x)$ is all that is needed to test a candidate solution $x$. They do not require an answer key or input/output examples, nor do they depend on natural language understanding. The dataset is comprehensive in that it spans problems of a range of difficulties and domains, ranging from trivial string manipulation problems that are immediately obvious to human programmers (but not necessarily to AI), to classic programming puzzles (e.g., Towers of Hanoi), to interview/competitive-programming problems (e.g., dynamic programming), to longstanding open problems in algorithms and mathematics (e.g., factoring). The objective nature of P3 readily supports self-supervised bootstrapping. We develop baseline enumerative program synthesis and GPT-3 solvers that are capable of solving easy puzzles -- even without access to any reference solutions -- by learning from their own past solutions. Based on a small user study, we find puzzle difficulty to correlate between human programmers and the baseline AI solvers.
翻訳日:2021-06-11 14:40:39 公開日:2021-06-10
# 逆摂動を伴う公正分類

Fair Classification with Adversarial Perturbations ( http://arxiv.org/abs/2106.05964v1 )

ライセンス: Link先を確認
L. Elisa Celis, Anay Mehrotra, Nisheeth K. Vishnoi(参考訳) 本研究は,学習サンプルの任意の$\eta$-fractionを選択でき,保護属性を任意に摂動することができるという,全知的な敵の存在下での公平な分類について検討する。 このモチベーションは、戦略的な誤報、悪意のあるアクタ、あるいは命令中のエラーのために保護された属性が正しくないという設定から来ており、以前のアプローチでは、エラーに対する確率的あるいは独立的な仮定は、この敵対的な設定では保証を満たさない可能性がある。 我々の主な貢献は、精度と公正性に関する証明可能な保証を伴うこの逆条件で公平な分類法を学ぶための最適化フレームワークである。 本フレームワークは,多元的および非二元的保護属性で機能し,線形摩擦公正度尺度の大規模クラスを対象として設計されており,保護属性以外の摂動も扱える。 私たちは、自然仮説クラスに対するフレームワークの保証のほぼ完全性を証明する: アルゴリズムの精度が著しく向上することはなく、公平性が優れたアルゴリズムは、より低い精度でなければならない。 実世界および合成データセットの統計速度のフレームワークによって生成された分類器を,敵のファミリーに対して評価する。

We study fair classification in the presence of an omniscient adversary that, given an $\eta$, is allowed to choose an arbitrary $\eta$-fraction of the training samples and arbitrarily perturb their protected attributes. The motivation comes from settings in which protected attributes can be incorrect due to strategic misreporting, malicious actors, or errors in imputation; and prior approaches that make stochastic or independence assumptions on errors may not satisfy their guarantees in this adversarial setting. Our main contribution is an optimization framework to learn fair classifiers in this adversarial setting that comes with provable guarantees on accuracy and fairness. Our framework works with multiple and non-binary protected attributes, is designed for the large class of linear-fractional fairness metrics, and can also handle perturbations besides protected attributes. We prove near-tightness of our framework's guarantees for natural hypothesis classes: no algorithm can have significantly better accuracy and any algorithm with better fairness must have lower accuracy. Empirically, we evaluate the classifiers produced by our framework for statistical rate on real-world and synthetic datasets for a family of adversaries.
翻訳日:2021-06-11 14:40:12 公開日:2021-06-10
# ラディット:英語のRedditコメントに対する攻撃のノーム

Ruddit: Norms of Offensiveness for English Reddit Comments ( http://arxiv.org/abs/2106.05664v1 )

ライセンス: Link先を確認
Rishav Hada, Sohi Sudhir, Pushkar Mishra, Helen Yannakoudakis, Saif M. Mohammad, Ekaterina Shutova(参考訳) ソーシャルメディアプラットフォームでは、憎悪と攻撃的な言葉がユーザーの精神的幸福と多様な背景を持つ人々の参加に悪影響を及ぼす。 攻撃的言語を検出する自動手法は、分類ラベルを持つデータセットに大きく依存している。 しかし、コメントは攻撃の程度によって異なる。 私たちは、 -1(最大支持)と1(最大攻撃的)の間に \textit{fine-fine, real-valued scores} を持つ、英語のRedditコメントの最初のデータセットを作成します。 データセットは、評価尺度の使用の既知のバイアスを軽減するための比較アノテーションの形式である \emph{best--worst scaling} を使用してアノテートされた。 本手法は信頼性の高い攻撃性スコアを生成する。 最後に,この新しいデータセットにおける攻撃性スコアを予測するために,広く使用されているニューラルモデルの能力を評価する。

On social media platforms, hateful and offensive language negatively impact the mental well-being of users and the participation of people from diverse backgrounds. Automatic methods to detect offensive language have largely relied on datasets with categorical labels. However, comments can vary in their degree of offensiveness. We create the first dataset of English language Reddit comments that has \textit{fine-grained, real-valued scores} between -1 (maximally supportive) and 1 (maximally offensive). The dataset was annotated using \emph{Best--Worst Scaling}, a form of comparative annotation that has been shown to alleviate known biases of using rating scales. We show that the method produces highly reliable offensiveness scores. Finally, we evaluate the ability of widely-used neural models to predict offensiveness scores on this new dataset.
翻訳日:2021-06-11 14:39:51 公開日:2021-06-10
# 画像キャプションソリューションの堅牢性向上のためのデータ拡張

Data augmentation to improve robustness of image captioning solutions ( http://arxiv.org/abs/2106.05437v1 )

ライセンス: Link先を確認
Shashank Bujimalla, Mahesh Subedar, Omesh Tickoo(参考訳) 本稿では,実世界画像における共通品質欠陥であるモーションボケが最先端の2段階画像キャプションソリューションに与える影響について検討し,ボケ強度の増加に伴う解性能の低下に注目した。 本研究では,各段階,すなわちオブジェクト検出とキャプションのトレーニングデータ拡張を用いて,動作のぼかしに対する解の堅牢性を向上させる手法について検討し,改良された結果を観察する。 特に、両方のステージを増強することで、MS COCOデータセットでは68.7から11.7に、Vizwizデータセットでは22.4から6.8に、CIDEr-Dの劣化が減少する。

In this paper, we study the impact of motion blur, a common quality flaw in real world images, on a state-of-the-art two-stage image captioning solution, and notice a degradation in solution performance as blur intensity increases. We investigate techniques to improve the robustness of the solution to motion blur using training data augmentation at each or both stages of the solution, i.e., object detection and captioning, and observe improved results. In particular, augmenting both the stages reduces the CIDEr-D degradation for high motion blur intensity from 68.7 to 11.7 on MS COCO dataset, and from 22.4 to 6.8 on Vizwiz dataset.
翻訳日:2021-06-11 14:39:37 公開日:2021-06-10
# CAT:視覚変換器における交差注意

CAT: Cross Attention in Vision Transformer ( http://arxiv.org/abs/2106.05786v1 )

ライセンス: Link先を確認
Hezheng Lin, Xing Cheng, Xiangyu Wu, Fan Yang, Dong Shen, Zhongyuan Wang, Qing Song, Wei Yuan(参考訳) Transformer は NLP で広く利用されているため、CV における Transformer の可能性は実現され、多くの新しいアプローチに影響を与えた。 しかし、単語トークンをTransformerのイメージパッチに置き換えるために必要な計算は、画像のトークン化後に大きくなり(例:ViT)、モデルのトレーニングと推論がボトルネックとなる。 本稿では,画像パッチ内の注意を,画像全体ではなく画像パッチ内で交互に取り替え,局所情報をキャプチャし,単一チャネル特徴マップから分割した画像パッチ間で注意を付与する,クロスアテンションと呼ばれる新しい注意機構を提案する。 どちらの操作も、Transformerの通常の自己アテンションよりも計算量が少ない。 内部パッチとパッチを交互に適用することにより、計算コストの低い性能を維持するためにクロスアテンションを実装し、他の視覚タスクに対してクロスアテンショントランスフォーマー(CAT)と呼ばれる階層ネットワークを構築する。 ベースモデルはImageNet-1Kの最先端を実現し,COCOおよびADE20K上の他の手法の性能を改善し,ネットワークが一般的なバックボーンとして機能する可能性を示している。 コードとモデルは \url{https://github.com/linhezheng19/cat} で入手できる。

Since Transformer has found widespread use in NLP, the potential of Transformer in CV has been realized and has inspired many new approaches. However, the computation required for replacing word tokens with image patches for Transformer after the tokenization of the image is vast(e.g., ViT), which bottlenecks model training and inference. In this paper, we propose a new attention mechanism in Transformer termed Cross Attention, which alternates attention inner the image patch instead of the whole image to capture local information and apply attention between image patches which are divided from single-channel feature maps capture global information. Both operations have less computation than standard self-attention in Transformer. By alternately applying attention inner patch and between patches, we implement cross attention to maintain the performance with lower computational cost and build a hierarchical network called Cross Attention Transformer(CAT) for other vision tasks. Our base model achieves state-of-the-arts on ImageNet-1K, and improves the performance of other methods on COCO and ADE20K, illustrating that our network has the potential to serve as general backbones. The code and models are available at \url{https://github.com/linhezheng19/CAT}.
翻訳日:2021-06-11 14:39:02 公開日:2021-06-10
# 騒音を見て見ることを学ぶ

Learning to See by Looking at Noise ( http://arxiv.org/abs/2106.05963v1 )

ライセンス: Link先を確認
Manel Baradad, Jonas Wulff, Tongzhou Wang, Phillip Isola, Antonio Torralba(参考訳) 現在のビジョンシステムは巨大なデータセットに基づいてトレーニングされており、これらのデータセットにはコストが伴います。 これらのコストに対応するため、ラベルなし画像などの安価なデータソースから学ぶことへの関心が高まっている。 本稿では、さらに一歩進めて、ノイズプロセスから学習する代わりに、実際の画像データセットを完全に廃止できるかどうかを問う。 単純なランダムプロセスから画像を生成する一連の画像生成モデルについて検討する。 これらは、コントラスト損失のある視覚表現学習者のトレーニングデータとして使用される。 本研究では,ランダム初期化の異なる2種類の雑音過程,統計的画像モデル,深部生成モデルについて検討した。 その結果,ノイズが実データの特定の構造的特性を捉えることは重要であるが,現実的とは程遠いプロセスでも良好な性能が得られることがわかった。 また、多様性は優れた表現を学ぶための鍵となる性質であることもわかりました。 データセット、モデル、コードはhttps://mbaradad.github.io/learning_with_noiseで入手できる。

Current vision systems are trained on huge datasets, and these datasets come with costs: curation is expensive, they inherit human biases, and there are concerns over privacy and usage rights. To counter these costs, interest has surged in learning from cheaper data sources, such as unlabeled images. In this paper we go a step further and ask if we can do away with real image datasets entirely, instead learning from noise processes. We investigate a suite of image generation models that produce images from simple random processes. These are then used as training data for a visual representation learner with a contrastive loss. We study two types of noise processes, statistical image models and deep generative models under different random initializations. Our findings show that it is important for the noise to capture certain structural properties of real data but that good performance can be achieved even with processes that are far from realistic. We also find that diversity is a key property to learn good representations. Datasets, models, and code are available at https://mbaradad.github.io/learning_with_noise.
翻訳日:2021-06-11 14:38:41 公開日:2021-06-10
# グラフ共生学習

Graph Symbiosis Learning ( http://arxiv.org/abs/2106.05455v1 )

ライセンス: Link先を確認
Liang Zeng, Jin Xu, Zijun Yao, Yanqiao Zhu, Jian Li(参考訳) 本稿では,グラフ共生学習(GraphSym)という,複数のグラフビューから学習するフレームワークを紹介する。 GraphSymでは、複数の生成されたグラフビューで開発されたグラフニューラルネットワーク(GNN)がパラメータを適応的に交換し、リンク構造やノード特徴に格納された情報を融合することができる。 具体的には、1つのGNNの重み行列における冗長チャネルを、別のGNNの情報チャネルに層単位で繰り返し置換する新しい適応交換方式を提案する。 GraphSymは、複数のグラフビューとGNNアーキテクチャを生成する特定のメソッドに依存していない。 したがって、既存のGNNを私たちのフレームワークにシームレスに統合することができます。 3つの半教師付きノード分類データセットにおいて、GraphSymは知識蒸留なしで従来のシングルグラフと複数グラフのGNNを上回り、新しい最先端の結果を得る。 また、15の公開ベンチマーク、8つの人気のあるGNNモデル、3つのグラフタスク(ノード分類、グラフ分類、エッジ予測)について一連の実験を行い、GraphSymが既存のGNNよりも平均1.9\%$\sim$3.9\%高いパフォーマンスを実現していることを示す。 広範囲なアブレーションの研究と実験が、graphsymの有効性を実証している。

We introduce a framework for learning from multiple generated graph views, named graph symbiosis learning (GraphSym). In GraphSym, graph neural networks (GNN) developed in multiple generated graph views can adaptively exchange parameters with each other and fuse information stored in linkage structures and node features. Specifically, we propose a novel adaptive exchange method to iteratively substitute redundant channels in the weight matrix of one GNN with informative channels of another GNN in a layer-by-layer manner. GraphSym does not rely on specific methods to generate multiple graph views and GNN architectures. Thus, existing GNNs can be seamlessly integrated into our framework. On 3 semi-supervised node classification datasets, GraphSym outperforms previous single-graph and multiple-graph GNNs without knowledge distillation, and achieves new state-of-the-art results. We also conduct a series of experiments on 15 public benchmarks, 8 popular GNN models, and 3 graph tasks -- node classification, graph classification, and edge prediction -- and show that GraphSym consistently achieves better performance than existing popular GNNs by 1.9\%$\sim$3.9\% on average and their ensembles. Extensive ablation studies and experiments on the few-shot setting also demonstrate the effectiveness of GraphSym.
翻訳日:2021-06-11 14:38:03 公開日:2021-06-10
# グラフの自動教師付き学習

Automated Self-Supervised Learning for Graphs ( http://arxiv.org/abs/2106.05470v1 )

ライセンス: Link先を確認
Wei Jin, Xiaorui Liu, Xiangyu Zhao, Yao Ma, Neil Shah, Jiliang Tang(参考訳) グラフ自己教師付き学習は、表現力のあるノード表現を学習する能力から注目を集めている。 多くのプリテキストタスクや損失関数は、異なる視点から設計されている。 しかし、異なるプリテキストタスクがダウンストリームタスクに異なるクロスデータセットに影響することを観察し、グラフの自己教師付き学習にはプリテキストタスクの探索が不可欠であることを示唆している。 単一のプリテキストタスクの設計に焦点を当てた既存の作業とは異なり、この作業は複数のプリテキストタスクを効果的に活用する方法を検討することを目的としている。 それでも、複数のプリテキストタスクから派生した表現を基底真理ラベルに直接アクセスせずに評価することは、この問題を難しくする。 この障害に対処するために、我々は、多くの実世界のグラフ、すなわちホモフィリーや'like attracts like'の原則の鍵となる原理を、様々な自己教師付きプリテキストタスクを効果的に探索するためのガイダンスとして利用している。 この探索タスクにおけるホモフィリーの柔軟性を正当化するための理論的理解と実証的証拠を提供する。 次に,自己教師型タスクの組み合わせを自動的に検索するAutoSSLフレームワークを提案する。 実世界の7つのデータセットのフレームワークを評価することで、AutoSSLは個々のタスクでのトレーニングと比較して、ノードクラスタリングやノード分類を含む下流タスクのパフォーマンスを大幅に向上させることができることを示す。 コードはhttps://github.com/ChandlerBang/AutoSSLでリリースされる。

Graph self-supervised learning has gained increasing attention due to its capacity to learn expressive node representations. Many pretext tasks, or loss functions have been designed from distinct perspectives. However, we observe that different pretext tasks affect downstream tasks differently cross datasets, which suggests that searching pretext tasks is crucial for graph self-supervised learning. Different from existing works focusing on designing single pretext tasks, this work aims to investigate how to automatically leverage multiple pretext tasks effectively. Nevertheless, evaluating representations derived from multiple pretext tasks without direct access to ground truth labels makes this problem challenging. To address this obstacle, we make use of a key principle of many real-world graphs, i.e., homophily, or the principle that ``like attracts like,'' as the guidance to effectively search various self-supervised pretext tasks. We provide theoretical understanding and empirical evidence to justify the flexibility of homophily in this search task. Then we propose the AutoSSL framework which can automatically search over combinations of various self-supervised tasks. By evaluating the framework on 7 real-world datasets, our experimental results show that AutoSSL can significantly boost the performance on downstream tasks including node clustering and node classification compared with training under individual tasks. Code will be released at https://github.com/ChandlerBang/AutoSSL.
翻訳日:2021-06-11 14:37:39 公開日:2021-06-10
# 交点メンバシップを明かすことなく垂直フェデレーション学習

Vertical Federated Learning without Revealing Intersection Membership ( http://arxiv.org/abs/2106.05508v1 )

ライセンス: Link先を確認
Jiankai Sun and Xin Yang and Yuanshun Yao and Aonan Zhang and Weihao Gao and Junyuan Xie and Chong Wang(参考訳) Vertical Federated Learning (vFL)は、異なる属性(例えば、複数の属性)を所有できる。 同じデータエンティティ(例えば、)の特徴とラベル。 モデルを共同で訓練する人。 トレーニングデータを作成するには、vFLはすべてのパーティが共有する共通データエンティティを識別する必要がある。 通常はプライベート・セット・インターセクション (PSI) によって達成され、個人識別可能な情報(例: 個人識別情報)を使用して、すべての当事者からのトレーニングサンプルの交点を特定する。 データインスタンスをアライメントするためのサンプルIDとして。 結果として、PSIは交差点のサンプルIDを全当事者に可視化するので、各当事者は交差点に表示されるデータエンティティが他の当事者にも現れることを知ることができる。 交差点の会員だ しかし、多くの現実世界のプライバシーに敏感な組織では、例えば。 銀行や病院は データ・エンティティの会員登録を禁止しています 本稿では,PSU(Private Set Union)に基づくvFLフレームワークを提案する。 すべてのトレーニングサンプルの共通点を特定する代わりに、PSUプロトコルはトレーニングインスタンスとしてサンプルの結合を生成する。 さらに,交差点ではなく,連合に属するサンプルを扱うために,合成特徴とラベルを生成する戦略を提案する。 実世界の2つのデータセットに関する広範な実験を通して、我々のフレームワークはモデルユーティリティを維持しながら交差点メンバーシップのプライバシーを保護することができることを示す。

Vertical Federated Learning (vFL) allows multiple parties that own different attributes (e.g. features and labels) of the same data entity (e.g. a person) to jointly train a model. To prepare the training data, vFL needs to identify the common data entities shared by all parties. It is usually achieved by Private Set Intersection (PSI) which identifies the intersection of training samples from all parties by using personal identifiable information (e.g. email) as sample IDs to align data instances. As a result, PSI would make sample IDs of the intersection visible to all parties, and therefore each party can know that the data entities shown in the intersection also appear in the other parties, i.e. intersection membership. However, in many real-world privacy-sensitive organizations, e.g. banks and hospitals, revealing membership of their data entities is prohibited. In this paper, we propose a vFL framework based on Private Set Union (PSU) that allows each party to keep sensitive membership information to itself. Instead of identifying the intersection of all training samples, our PSU protocol generates the union of samples as training instances. In addition, we propose strategies to generate synthetic features and labels to handle samples that belong to the union but not the intersection. Through extensive experiments on two real-world datasets, we show our framework can protect the privacy of the intersection membership while maintaining the model utility.
翻訳日:2021-06-11 14:37:16 公開日:2021-06-10
# pop culture text と english humor literature によるディープラーニングによるサーカズム検出の並列化

Parallel Deep Learning-Driven Sarcasm Detection from Pop Culture Text and English Humor Literature ( http://arxiv.org/abs/2106.05752v1 )

ライセンス: Link先を確認
Sourav Das and Anup Kumar Kolya(参考訳) サルカズム(Sarcasm)は、真理、偽り、あるいはモックリーを笑える方法で包む洗練された方法である。 ソーシャルネットワークによるコミュニケーションの出現は、新しい社会化の道を開いた。 さらに、ユーモア、皮肉、皮肉、ウィットは現代において社会的に面白い4つのチャリオットであるとも言える。 そこで,本稿では,サーキスティックな対話やモノローグを含むベンチマークポップカルチャーサーカズムコーパスのサーキスティックな単語分布の特徴を手作業で抽出する。 このような単語から重み付きベクトルからなる入力シーケンスを生成する。 さらに,4つの並列深層長短項ネットワーク (pLSTM) のアマルガメーションを提案する。 これらのモジュールは主にテキストコーパスからサルカズムを検出することを目的としている。 提案するサルカズム検出モデルは,検討したデータセットを用いてトレーニングした場合,98.95%のトレーニング精度をピークとする。 連続して、全てのテストケースの中で、2つのハンドピックされたプロジェクトグーテンベルク英語のユーモア文学において、98.31%の検証精度を得た。 提案手法は,いくつかのサルカズムコーパスに関する先行研究を超越し,新しいゴールド標準によるサルカズム検出性能を実現する。

Sarcasm is a sophisticated way of wrapping any immanent truth, mes-sage, or even mockery within a hilarious manner. The advent of communications using social networks has mass-produced new avenues of socialization. It can be further said that humor, irony, sarcasm, and wit are the four chariots of being socially funny in the modern days. In this paper, we manually extract the sarcastic word distribution features of a benchmark pop culture sarcasm corpus, containing sarcastic dialogues and monologues. We generate input sequences formed of the weighted vectors from such words. We further propose an amalgamation of four parallel deep long-short term networks (pLSTM), each with distinctive activation classifier. These modules are primarily aimed at successfully detecting sarcasm from the text corpus. Our proposed model for detecting sarcasm peaks a training accuracy of 98.95% when trained with the discussed dataset. Consecutively, it obtains the highest of 98.31% overall validation accuracy on two handpicked Project Gutenberg English humor literature among all the test cases. Our approach transcends previous state-of-the-art works on several sarcasm corpora and results in a new gold standard performance for sarcasm detection.
翻訳日:2021-06-11 14:36:08 公開日:2021-06-10
# ガウス過程による非パラメトリックボルテラ核の学習

Learning Nonparametric Volterra Kernels with Gaussian Processes ( http://arxiv.org/abs/2106.05582v1 )

ライセンス: Link先を確認
Magnus Ross, Michael T. Smith, Mauricio A. \'Alvarez(参考訳) 本稿では、非線形作用素の非パラメトリックベイズ学習法について、ガウス過程(GP)を用いて表現されたカーネルを持つVolterra級数を用い、非パラメトリックVolterra核モデル(NVKM)と呼ぶ手法を提案する。 NVKMは、演算子への入力関数が観測されず、GP先行を持つとき、単一および複数出力の回帰の強力な方法を構成し、非線形および非パラメトリック潜在力モデルと見なすことができる。 入力関数が観測されると、NVKMを使用してベイズ系の識別を行うことができる。 数値積分を使わずにボルテラ級数によるプロセス実現を地図化するためにgpsから明示的な関数を効率的にサンプリングし,2倍の確率的変分推論による拡張性を実現し,出力プロセスのガウス近似の必要性を回避した。 標準ベンチマークを用いて,複数出力回帰とシステム同定の両方におけるモデルの性能を示す。

This paper introduces a method for the nonparametric Bayesian learning of nonlinear operators, through the use of the Volterra series with kernels represented using Gaussian processes (GPs), which we term the nonparametric Volterra kernels model (NVKM). When the input function to the operator is unobserved and has a GP prior, the NVKM constitutes a powerful method for both single and multiple output regression, and can be viewed as a nonlinear and nonparametric latent force model. When the input function is observed, the NVKM can be used to perform Bayesian system identification. We use recent advances in efficient sampling of explicit functions from GPs to map process realisations through the Volterra series without resorting to numerical integration, allowing scalability through doubly stochastic variational inference, and avoiding the need for Gaussian approximations of the output processes. We demonstrate the performance of the model for both multiple output regression and system identification using standard benchmarks.
翻訳日:2021-06-11 14:35:03 公開日:2021-06-10
# ベイズ型ニューラルネットワークにおけるデータ拡張と冷後効果

Data augmentation in Bayesian neural networks and the cold posterior effect ( http://arxiv.org/abs/2106.05586v1 )

ライセンス: Link先を確認
Seth Nabarro, Stoil Ganev, Adri\`a Garriga-Alonso, Vincent Fortuin, Mark van der Wilk and Laurence Aitchison(参考訳) データ拡張は、ディープニューラルネットワークのパフォーマンス向上に非常に効果的なアプローチである。 標準的な見方では、合成データを追加して拡大データセットを作成するため、ベイジアン推論と組み合わせることで問題が発生する。 この問題は、データ拡張と冷後効果をリンクする最近の観測に特に関係している。 本研究では,拡張データセットのログライクな検索手法について検討する。 提案手法では,テスト時と列車時の両方で,同じ画像が複数回拡大され,ロジットや予測確率が平均化される。 経験的に、平均的な確率で最高のパフォーマンスを観察する。 冷たい後部効果と相互作用するが、平均的なロジットや平均的な確率は排除しない。

Data augmentation is a highly effective approach for improving performance in deep neural networks. The standard view is that it creates an enlarged dataset by adding synthetic data, which raises a problem when combining it with Bayesian inference: how much data are we really conditioning on? This question is particularly relevant to recent observations linking data augmentation to the cold posterior effect. We investigate various principled ways of finding a log-likelihood for augmented datasets. Our approach prescribes augmenting the same underlying image multiple times, both at test and train-time, and averaging either the logits or the predictive probabilities. Empirically, we observe the best performance with averaging probabilities. While there are interactions with the cold posterior effect, neither averaging logits or averaging probabilities eliminates it.
翻訳日:2021-06-11 14:34:45 公開日:2021-06-10
# GBHT:密度推定のための勾配ブースティングヒストグラム変換

GBHT: Gradient Boosting Histogram Transform for Density Estimation ( http://arxiv.org/abs/2106.05738v1 )

ライセンス: Link先を確認
Jingyi Cui, Hanyuan Hang, Yisen Wang, Zhouchen Lin(参考訳) 本稿では,GBHT と呼ばれる密度推定アルゴリズムを提案する。ここでは,教師なしタスクに対してブースティング手順を利用可能にするために,損失関数として \textit{Negative Log Likelihood} を採用する。 学習理論の観点からは、まず、基礎となる密度関数が空間 $c^{0,\alpha}$ にあるという滑らかさを仮定して、gbht の高速収束率を証明する。 このとき、対象密度関数が空間$C^{1,\alpha}$ にあるとき、収束率という意味では、対応するベース学習者の下限よりも小さい GBHT の上限を示す。 我々の知識を最大限に活用するために,我々は,密度推定問題に対する基礎学習者の性能向上を理論的に説明するための最初の試みを行う。 実験では、広く使われているKDEと性能比較を行うだけでなく、異常検出にGBHTを適用し、GBHTのさらなる応用を示す。

In this paper, we propose a density estimation algorithm called \textit{Gradient Boosting Histogram Transform} (GBHT), where we adopt the \textit{Negative Log Likelihood} as the loss function to make the boosting procedure available for the unsupervised tasks. From a learning theory viewpoint, we first prove fast convergence rates for GBHT with the smoothness assumption that the underlying density function lies in the space $C^{0,\alpha}$. Then when the target density function lies in spaces $C^{1,\alpha}$, we present an upper bound for GBHT which is smaller than the lower bound of its corresponding base learner, in the sense of convergence rates. To the best of our knowledge, we make the first attempt to theoretically explain why boosting can enhance the performance of its base learners for density estimation problems. In experiments, we not only conduct performance comparisons with the widely used KDE, but also apply GBHT to anomaly detection to showcase a further application of GBHT.
翻訳日:2021-06-11 14:34:35 公開日:2021-06-10
# シンボリックハイパーパラメータデフォルトのためのメタラーニング

Meta-Learning for Symbolic Hyperparameter Defaults ( http://arxiv.org/abs/2106.05767v1 )

ライセンス: Link先を確認
Pieter Gijsbers, Florian Pfisterer, Jan N. van Rijn, Bernd Bischl and Joaquin Vanschoren(参考訳) 機械学習(ML)におけるハイパーパラメータ最適化は、データから最適なアルゴリズム構成を経験的に学習する問題を扱う。 本研究では,データセットの特性を用いて表現されるメタリアンのシンボル型デフォルトハイパーパラメータ構成のためのゼロショット法を提案する。 これにより、標準的なハイパーパラメータ最適化アプローチに比べて、mlアルゴリズムの高速かつデータ依存の構成が可能になる。 過去には、象徴的および静的なデフォルト値は通常手作りのヒューリスティックとして得られてきた。 進化的アルゴリズムを用いて表現の文法を最適化することにより,複数のデータセット上での事前評価からデータセット特性の式のような記号的構成を学習する手法を提案する。 我々は,100以上のデータセット上で6mlアルゴリズムにまたがる実データに加えて,経験的性能モデルの評価を行い,本手法が真に実行可能なシンボルデフォルトを求めることを実証した。

Hyperparameter optimization in machine learning (ML) deals with the problem of empirically learning an optimal algorithm configuration from data, usually formulated as a black-box optimization problem. In this work, we propose a zero-shot method to meta-learn symbolic default hyperparameter configurations that are expressed in terms of the properties of the dataset. This enables a much faster, but still data-dependent, configuration of the ML algorithm, compared to standard hyperparameter optimization approaches. In the past, symbolic and static default values have usually been obtained as hand-crafted heuristics. We propose an approach of learning such symbolic configurations as formulas of dataset properties from a large set of prior evaluations on multiple datasets by optimizing over a grammar of expressions using an evolutionary algorithm. We evaluate our method on surrogate empirical performance models as well as on real data across 6 ML algorithms on more than 100 datasets and demonstrate that our method indeed finds viable symbolic defaults.
翻訳日:2021-06-11 14:34:17 公開日:2021-06-10
# 潜在空間におけるスコアベース生成モデル

Score-based Generative Modeling in Latent Space ( http://arxiv.org/abs/2106.05931v1 )

ライセンス: Link先を確認
Arash Vahdat, Karsten Kreis, Jan Kautz(参考訳) スコアベース生成モデル(SGM)は,最近,サンプル品質と分布範囲の両面で顕著な結果を示した。 しかし、通常はデータ空間に直接適用され、サンプリングには数千のネットワーク評価が必要となる。 本稿では,可変オートエンコーダフレームワークに依拠して,潜在空間でsgmを訓練する新しい手法である潜在スコア型生成モデル(lsgm)を提案する。 データから潜在空間への移動により、より表現力のある生成モデルをトレーニングし、非連続データにSGMを適用し、よりスムーズなSGMをより小さな空間で学習し、ネットワーク評価を減らし、より高速なサンプリングを行うことができる。 LSGMのエンド・ツー・エンドをスケーラブルで安定した方法でトレーニングできるようにするため、(i)LSGM設定に適した新たなスコアマッチング目標を導入し、(ii)SGMが目標分布のミスマッチに集中できるようにスコア関数のパラメータ化を提案し、(iii)訓練対象の分散低減のための複数のテクニックを解析的に導出する。 LSGMはCIFAR-10で2.10の最先端のFIDスコアを取得し、このデータセットで既存のすべての生成結果を上回っている。 CelebA-HQ-256では、LSGMはサンプル品質の以前のSGMと同等であり、サンプリング時間では2桁の精度で性能を向上している。 二項画像のモデリングにおいて、LSGMは二項化OMNIGLOTデータセット上で最先端の可能性を達成する。

Score-based generative models (SGMs) have recently demonstrated impressive results in terms of both sample quality and distribution coverage. However, they are usually applied directly in data space and often require thousands of network evaluations for sampling. Here, we propose the Latent Score-based Generative Model (LSGM), a novel approach that trains SGMs in a latent space, relying on the variational autoencoder framework. Moving from data to latent space allows us to train more expressive generative models, apply SGMs to non-continuous data, and learn smoother SGMs in a smaller space, resulting in fewer network evaluations and faster sampling. To enable training LSGMs end-to-end in a scalable and stable manner, we (i) introduce a new score-matching objective suitable to the LSGM setting, (ii) propose a novel parameterization of the score function that allows SGM to focus on the mismatch of the target distribution with respect to a simple Normal one, and (iii) analytically derive multiple techniques for variance reduction of the training objective. LSGM obtains a state-of-the-art FID score of 2.10 on CIFAR-10, outperforming all existing generative results on this dataset. On CelebA-HQ-256, LSGM is on a par with previous SGMs in sample quality while outperforming them in sampling time by two orders of magnitude. In modeling binary images, LSGM achieves state-of-the-art likelihood on the binarized OMNIGLOT dataset.
翻訳日:2021-06-11 14:34:02 公開日:2021-06-10
# 早期停止型ニューラルネットワークは一貫性がある

Early-stopped neural networks are consistent ( http://arxiv.org/abs/2106.05932v1 )

ライセンス: Link先を確認
Ziwei Ji, Justin D. Li, Matus Telgarsky(参考訳) 本研究は、基礎となるデータ分布が一般的で(最適)ベイズリスクが必ずしもゼロではないバイナリ分類データの勾配降下を通じてロジスティック損失で訓練されたニューラルネットワークの挙動を研究する。 この設定では,早期停止による勾配降下は,ロジスティックな損失や誤分類の損失だけでなく,キャリブレーションの観点からも,任意に最適に近い人口リスクをもたらすことが示され,その結果のシグモイドマッピングは,条件分布の真の基礎を任意に近似する。 さらに、この分析に必要な反復、サンプル、およびアーキテクチャ上の複雑さはすべて、真の条件モデルの特定の複雑性尺度で自然にスケールする。 最後に、早期停止の必要性は示されていないが、局所補間特性を満たす任意の単変量分類器は必ずしも矛盾している。

This work studies the behavior of neural networks trained with the logistic loss via gradient descent on binary classification data where the underlying data distribution is general, and the (optimal) Bayes risk is not necessarily zero. In this setting, it is shown that gradient descent with early stopping achieves population risk arbitrarily close to optimal in terms of not just logistic and misclassification losses, but also in terms of calibration, meaning the sigmoid mapping of its outputs approximates the true underlying conditional distribution arbitrarily finely. Moreover, the necessary iteration, sample, and architectural complexities of this analysis all scale naturally with a certain complexity measure of the true conditional model. Lastly, while it is not shown that early stopping is necessary, it is shown that any univariate classifier satisfying a local interpolation property is necessarily inconsistent.
翻訳日:2021-06-11 14:33:36 公開日:2021-06-10
# 知識蒸留は本当に機能するのか?

Does Knowledge Distillation Really Work? ( http://arxiv.org/abs/2106.05945v1 )

ライセンス: Link先を確認
Samuel Stanton, Pavel Izmailov, Polina Kirichenko, Alexander A. Alemi, Andrew Gordon Wilson(参考訳) 知識蒸留は、ネットワークのアンサンブルのようなより大きな教師モデルをエミュレートするために、小さな学生ネットワークを訓練する一般的な技術である。 知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。教師と生徒の予測分布に驚くほど大きな差がある場合が多く、たとえ学生が教師と完全に一致する能力を持つ場合であっても。 生徒が教師と一致できない理由として,最適化の難しさを見いだしている。 また,蒸留に使用するデータセットの詳細が,生徒の教師との密接な一致にどのような役割を果たしているかを示すとともに,教師とパラドックス的により密接な関係が,必ずしも学生の一般化に繋がるとは限らないことを示した。

Knowledge distillation is a popular technique for training a small student network to emulate a larger teacher model, such as an ensemble of networks. We show that while knowledge distillation can improve student generalization, it does not typically work as it is commonly understood: there often remains a surprisingly large discrepancy between the predictive distributions of the teacher and the student, even in cases when the student has the capacity to perfectly match the teacher. We identify difficulties in optimization as a key reason for why the student is unable to match the teacher. We also show how the details of the dataset used for distillation play a role in how closely the student matches the teacher -- and that more closely matching the teacher paradoxically does not always lead to better student generalization.
翻訳日:2021-06-11 14:33:21 公開日:2021-06-10
# ODEに基づくランダム特徴を持つ非線形力学系の構成モデリング

Compositional Modeling of Nonlinear Dynamical Systems with ODE-based Random Features ( http://arxiv.org/abs/2106.05960v1 )

ライセンス: Link先を確認
Thomas M. McDonald, Mauricio A. \'Alvarez(参考訳) 非常に非線形な力学系に存在する現象を効果的にモデル化する一方で、不確実性を正確に定量化することは困難であり、しばしば問題固有の技術を必要とする。 本稿では、通常の微分方程式から導かれる物理に変形したランダムな特徴の合成を用いて、この問題に取り組む新しい領域非依存なアプローチを提案する。 このモデルのアーキテクチャは、ランダムなフーリエ特徴を組み込んだ層毎の重み空間近似や近似ベイズ推論の確率的変分推論など、深いガウス過程の近似推論の最近の進歩を活用している。 本モデルが実世界の多変量時系列データにおいて高度に非線形な挙動を捉えることができることを示す。 さらに,本手法は,ベンチマーク回帰タスクにおいて,他の多くの確率モデルに匹敵する性能を実現する。

Effectively modeling phenomena present in highly nonlinear dynamical systems whilst also accurately quantifying uncertainty is a challenging task, which often requires problem-specific techniques. We present a novel, domain-agnostic approach to tackling this problem, using compositions of physics-informed random features, derived from ordinary differential equations. The architecture of our model leverages recent advances in approximate inference for deep Gaussian processes, such as layer-wise weight-space approximations which allow us to incorporate random Fourier features, and stochastic variational inference for approximate Bayesian inference. We provide evidence that our model is capable of capturing highly nonlinear behaviour in real-world multivariate time series data. In addition, we find that our approach achieves comparable performance to a number of other probabilistic models on benchmark regression tasks.
翻訳日:2021-06-11 14:33:07 公開日:2021-06-10
# 自己組織化クラスタリングのためのSwarm Intelligence

Swarm Intelligence for Self-Organized Clustering ( http://arxiv.org/abs/2106.05521v1 )

ライセンス: Link先を確認
Michael C. Thrun and Alfred Ultsch(参考訳) 互いに相互作用し、環境を感知するエージェントの集団を実装するアルゴリズムは、自己組織化や集団知性などの創発的な行動を示す可能性がある。 ここではDatabionic Swarm(DBS)と呼ばれるSwarmシステムが導入され、データ空間内の距離や密度に基づく構造を特徴とする高次元データの構造に適応することができる。 スウォームインテリジェンス、自己組織化、出現の相互関係を利用して、DBSはクラスタリングタスクにおけるグローバルな目的関数の最適化に対する代替アプローチとして機能する。 Swarmは、大域的目的関数の使用を省略し、アニーリング過程中にナッシュ平衡を探索するためパラメータフリーである。 私たちの知る限り、DBSはこれらのアプローチを組み合わせた最初の群れです。 そのクラスタリングは、k-means、pam、single linkage、spectral clustering、model-based clustering、wardのような一般的なクラスタリングメソッドよりも優れている。 クラスタリングにおける中心的な問題は、クラスタ数の正しい推定である。 これは、クラスタ数を評価できるtopographic mapと呼ばれるdbs可視化によって解決される。 すべてのクラスタリングアルゴリズムが、データセットに関係なくクラスタを構成することが知られている。 他のほとんどのクラスタリングアルゴリズムとは対照的に、地形図は、データが(自然な)クラスタを含まない場合、データのクラスタリングは意味がないと特定する。 DBSの性能は、クラスタリングの困難な問題に対処するために構築されたベンチマークデータと、2つの実世界のアプリケーションで実証される。

Algorithms implementing populations of agents which interact with one another and sense their environment may exhibit emergent behavior such as self-organization and swarm intelligence. Here a swarm system, called Databionic swarm (DBS), is introduced which is able to adapt itself to structures of high-dimensional data characterized by distance and/or density-based structures in the data space. By exploiting the interrelations of swarm intelligence, self-organization and emergence, DBS serves as an alternative approach to the optimization of a global objective function in the task of clustering. The swarm omits the usage of a global objective function and is parameter-free because it searches for the Nash equilibrium during its annealing process. To our knowledge, DBS is the first swarm combining these approaches. Its clustering can outperform common clustering methods such as K-means, PAM, single linkage, spectral clustering, model-based clustering, and Ward, if no prior knowledge about the data is available. A central problem in clustering is the correct estimation of the number of clusters. This is addressed by a DBS visualization called topographic map which allows assessing the number of clusters. It is known that all clustering algorithms construct clusters, irrespective of the data set contains clusters or not. In contrast to most other clustering algorithms, the topographic map identifies, that clustering of the data is meaningless if the data contains no (natural) clusters. The performance of DBS is demonstrated on a set of benchmark data, which are constructed to pose difficult clustering problems and in two real-world applications.
翻訳日:2021-06-11 14:32:52 公開日:2021-06-10
# シミュレーションベーステストの検証:ラベル-画像合成によるドメインシフトの回避

Validation of Simulation-Based Testing: Bypassing Domain Shift with Label-to-Image Synthesis ( http://arxiv.org/abs/2106.05549v1 )

ライセンス: Link先を確認
Julia Rosenzweig, Eduardo Brito, Hans-Ulrich Kobialka, Maram Akila, Nico M. Schmidt, Peter Schlicht, Jan David Schneider, Fabian H\"uger, Matthias Rottmann, Sebastian Houben, Tim Wirtz(参考訳) 多くの機械学習アプリケーションは、シミュレートされたデータを体系的な検証に役立てることができる。 しかし、シミュレーションはドメインシフトw.r.t になりがちである。 実生活データでは、得られた結果の転送可能性を検証することが重要である。 本稿では,合成データから等価な実生活データへ意味セグメンテーションモデルのテスト結果をどの程度転送できるかを調べるために,生成ラベルから画像への合成モデルと異なる転送可能性尺度を組み合わせた新しい枠組みを提案する。 若干の変更を加えると、我々のアプローチは一般的な多クラス分類タスクに拡張可能である。 トランスファービリティ解析に基づくアプローチでは,制御されたシミュレーションを組み込んだ広範囲なテストも可能である。 運転シーンにおける意味セグメンテーションタスクを経験的に検証した。 IoUと学習した識別器の相関解析を用いてトランスファービリティを検証した。 後者は実生活と合成テストを区別できるが、前者は自動車と歩行者の両方で0.7の驚くほど強い相関関係を観察する。

Many machine learning applications can benefit from simulated data for systematic validation - in particular if real-life data is difficult to obtain or annotate. However, since simulations are prone to domain shift w.r.t. real-life data, it is crucial to verify the transferability of the obtained results. We propose a novel framework consisting of a generative label-to-image synthesis model together with different transferability measures to inspect to what extent we can transfer testing results of semantic segmentation models from synthetic data to equivalent real-life data. With slight modifications, our approach is extendable to, e.g., general multi-class classification tasks. Grounded on the transferability analysis, our approach additionally allows for extensive testing by incorporating controlled simulations. We validate our approach empirically on a semantic segmentation task on driving scenes. Transferability is tested using correlation analysis of IoU and a learned discriminator. Although the latter can distinguish between real-life and synthetic tests, in the former we observe surprisingly strong correlations of 0.7 for both cars and pedestrians.
翻訳日:2021-06-11 14:32:15 公開日:2021-06-10
# VQAにおける共振パターンの伝達の監督

Supervising the Transfer of Reasoning Patterns in VQA ( http://arxiv.org/abs/2106.05597v1 )

ライセンス: Link先を確認
Corentin Kervadec, Christian Wolf, Grigory Antipov, Moez Baccouche and Madiha Nadri(参考訳) VQA(Visual Question Anwering)は、推論よりもデータセットバイアスを活用することで知られ、一般化を妨げる。 最近、完璧な(oracle)ビジュアルインプットでトレーニングされた際に、最先端のvqaモデルの注意層により良い推論パターンが現れることが示されている。 これにより、深層ニューラルネットワークが、トレーニング条件が十分に好適であるかどうかを判断できることが証明される。 しかし、この学習した知識をデプロイ可能なモデルに転送することは難しい。 損失関数における正規化項に基づく知識伝達法を提案し,必要な推論操作のシーケンスを監督する。 pac-learningに基づく理論的解析を行い,このプログラム予測が軽度仮説下でのサンプル複雑性の低下につながることを示した。 また,本手法の有効性をGQAデータセット上で実験的に検証し,BERTのような自己教師付き事前学習と相補性を示す。

Methods for Visual Question Anwering (VQA) are notorious for leveraging dataset biases rather than performing reasoning, hindering generalization. It has been recently shown that better reasoning patterns emerge in attention layers of a state-of-the-art VQA model when they are trained on perfect (oracle) visual inputs. This provides evidence that deep neural networks can learn to reason when training conditions are favorable enough. However, transferring this learned knowledge to deployable models is a challenge, as much of it is lost during the transfer. We propose a method for knowledge transfer based on a regularization term in our loss function, supervising the sequence of required reasoning operations. We provide a theoretical analysis based on PAC-learning, showing that such program prediction can lead to decreased sample complexity under mild hypotheses. We also demonstrate the effectiveness of this approach experimentally on the GQA dataset and show its complementarity to BERT-like self-supervised pre-training.
翻訳日:2021-06-11 14:32:00 公開日:2021-06-10
# 深層強化学習を用いた適応型ストリーミング知覚

Adaptive Streaming Perception using Deep Reinforcement Learning ( http://arxiv.org/abs/2106.05665v1 )

ライセンス: Link先を確認
Anurag Ghosh, Akshay Nambi, Aditya Singh, Harish YVS, Tanuja Ganu(参考訳) 視覚データをストリーミングしたり、知覚をストリーミングしたりするコンピュータビジョンモデルの実行は、自動運転、具体化エージェント、拡張現実/バーチャルリアリティーなど、新たな問題である。 このようなシステムの開発は、処理パイプラインの精度とレイテンシに大きく左右される。 過去の開発では、多くの近似実行フレームワークが提案されているが、決定機能は、レイテンシ、正確性、エネルギーなどの最適化にのみ焦点を絞っている。 その結果、システム全体のパフォーマンスに影響を与える最適化を下すことになる。 ストリーミング認識システムはシステム全体の性能(すなわち、精度とレイテンシの両方を同時に考慮して)を総括的に最大化するべきである。 この目的のために,ストリーミング知覚のための実行時にこれらのトレードオフを学ぶための,深層強化学習に基づく新しいアプローチについて述べる。 このトレードオフ最適化は,新たな深層バンディット問題として定式化されており,遅延と精度を1つのメトリックに統合した新たな報酬関数を設計する。 エージェントは、パブリックデータセットの最先端ポリシーよりも優れた、複数の意思決定次元にわたる競合ポリシーを学習できることを示します。

Executing computer vision models on streaming visual data, or streaming perception is an emerging problem, with applications in self-driving, embodied agents, and augmented/virtual reality. The development of such systems is largely governed by the accuracy and latency of the processing pipeline. While past work has proposed numerous approximate execution frameworks, their decision functions solely focus on optimizing latency, accuracy, or energy, etc. This results in sub-optimum decisions, affecting the overall system performance. We argue that the streaming perception systems should holistically maximize the overall system performance (i.e., considering both accuracy and latency simultaneously). To this end, we describe a new approach based on deep reinforcement learning to learn these tradeoffs at runtime for streaming perception. This tradeoff optimization is formulated as a novel deep contextual bandit problem and we design a new reward function that holistically integrates latency and accuracy into a single metric. We show that our agent can learn a competitive policy across multiple decision dimensions, which outperforms state-of-the-art policies on public datasets.
翻訳日:2021-06-11 14:31:43 公開日:2021-06-10
# モデルベース特徴投影ブロックを用いた終端肺結節検出フレームワーク

End-to-end lung nodule detection framework with model-based feature projection block ( http://arxiv.org/abs/2106.05741v1 )

ライセンス: Link先を確認
Ivan Drokin and Elena Ericheva(参考訳) 胸部CTで不審な肺結節を検出するための新しいエンドツーエンドフレームワークを提案する。 メソッドコアのアイデアは、3次元畳み込みにモデルベースの特徴投影ブロックを持つ新しい結節分割アーキテクチャである。 このブロックは、2次元U-Netのような畳み込みネットワークの予備的特徴抽出器として機能する。 軸, コロナ, 矢状投射解析とともに提案手法を用いることで, 広く用いられている偽陽性率低減ステップを放棄することができる。 提案手法はLUNA2016において平均感度0.959、スキャン毎の偽陽性レベル0.936の感度でSOTAを実現する。 提案手法について述べるとともに, LUNA2016およびアブレーション研究に関する実験結果を示す。

This paper proposes novel end-to-end framework for detecting suspicious pulmonary nodules in chest CT scans. The method core idea is a new nodule segmentation architecture with a model-based feature projection block on three-dimensional convolutions. This block acts as a preliminary feature extractor for a two-dimensional U-Net-like convolutional network. Using the proposed approach along with an axial, coronal, and sagittal projection analysis makes it possible to abandon the widely used false positives reduction step. The proposed method achieves SOTA on LUNA2016 with 0.959 average sensitivity, and 0.936 sensitivity if the false-positive level per scan is 0.25. The paper describes the proposed approach and represents the experimental results on LUNA2016 as well as ablation studies.
翻訳日:2021-06-11 14:31:26 公開日:2021-06-10
# ソルガム分類のためのマルチレゾリューションoutlier pooling

Multi-resolution Outlier Pooling for Sorghum Classification ( http://arxiv.org/abs/2106.05748v1 )

ライセンス: Link先を確認
Chao Ren, Justin Dulay, Gregory Rolwes, Duke Pauli, Nadia Shakoor and Abby Stylianou(参考訳) 自動高スループット植物表現法は、RGB、サーマルカメラ、ハイパースペクトルカメラなどのセンサーを活用して、作物の違いをよりよく理解し、迅速な植物育種プログラムを促進するために、植物の物理的特性を大規模かつ迅速に測定する。 最も基本的な表現型付けの課題の1つは、特定のセンサー製品における品種や種を決定することである。 この単純な表現型は、植え付けにおけるエラーを検出し、品種間の最も異なる特徴を学習するために使用できる。 また、多くの関連性の高い作物が同時に栽培されるため、クラス間分散の少ない分類問題を引き起こすため、視覚認識課題にもなっている。 本稿では,sorghum-100データセット,最先端のgantryシステムによってキャプチャされたsorghumのrgbイメージの大規模なデータセット,作物のグローバルおよび細粒度の特徴を学習するマルチレゾリューションネットワークアーキテクチャ,およびこのタスクで標準的なグローバルプーリング戦略を上回る,dynamic outlier poolingと呼ばれる新しいグローバルプーリング戦略を紹介する。

Automated high throughput plant phenotyping involves leveraging sensors, such as RGB, thermal and hyperspectral cameras (among others), to make large scale and rapid measurements of the physical properties of plants for the purpose of better understanding the difference between crops and facilitating rapid plant breeding programs. One of the most basic phenotyping tasks is to determine the cultivar, or species, in a particular sensor product. This simple phenotype can be used to detect errors in planting and to learn the most differentiating features between cultivars. It is also a challenging visual recognition task, as a large number of highly related crops are grown simultaneously, leading to a classification problem with low inter-class variance. In this paper, we introduce the Sorghum-100 dataset, a large dataset of RGB imagery of sorghum captured by a state-of-the-art gantry system, a multi-resolution network architecture that learns both global and fine-grained features on the crops, and a new global pooling strategy called Dynamic Outlier Pooling which outperforms standard global pooling strategies on this task.
翻訳日:2021-06-11 14:31:15 公開日:2021-06-10
# バッチノルムを超えて:深層学習における正規化の一般的な理解に向けて

Beyond BatchNorm: Towards a General Understanding of Normalization in Deep Learning ( http://arxiv.org/abs/2106.05956v1 )

ライセンス: Link先を確認
Ekdeep Singh Lubana, Robert P. Dick, Hidenori Tanaka(参考訳) batchnormに触発されて、ディープラーニングでは正規化層が爆発的に増えている。 最近の研究は、その成功を説明するために、BatchNormの多くの有益な特性を特定している。 しかし、代替正規化手法の追求を考えると、これらの特性は任意の層の成功/失敗を正確に予測できるように一般化する必要がある。 本研究では、ランダム初期化ディープニューラルネットワーク(DNN)におけるBatchNormの既知の特性を、最近提案された9つの正規化層に拡張することで、この目標に向けて第一歩を踏み出す。 Our primary findings follow: (i) Similar to BatchNorm, activations-based normalization layers can avoid exploding activations in ResNets; (ii) Use of GroupNorm ensures rank of activations is at least $\Omega(\sqrt{\frac{\text{width}}{\text{Group Size}}})$, thus explaining why LayerNorm witnesses slow optimization speed; (iii) Small group sizes result in large gradient norm in earlier layers, hence justifying training instability issues in Instance Normalization and illustrating a speed-stability tradeoff in GroupNorm. 全体として、ディープラーニングにおける正規化技術の成功を説明するいくつかの一般的なメカニズムを明らかにし、DNN正規化層の広大な設計空間を体系的に探索するためのコンパスを提供する。

Inspired by BatchNorm, there has been an explosion of normalization layers in deep learning. Recent works have identified a multitude of beneficial properties in BatchNorm to explain its success. However, given the pursuit of alternative normalization techniques, these properties need to be generalized so that any given layer's success/failure can be accurately predicted. In this work, we take a first step towards this goal by extending known properties of BatchNorm in randomly initialized deep neural networks (DNNs) to nine recently proposed normalization layers. Our primary findings follow: (i) Similar to BatchNorm, activations-based normalization layers can avoid exploding activations in ResNets; (ii) Use of GroupNorm ensures rank of activations is at least $\Omega(\sqrt{\frac{\text{width}}{\text{Group Size}}})$, thus explaining why LayerNorm witnesses slow optimization speed; (iii) Small group sizes result in large gradient norm in earlier layers, hence justifying training instability issues in Instance Normalization and illustrating a speed-stability tradeoff in GroupNorm. Overall, our analysis reveals several general mechanisms that explain the success of normalization techniques in deep learning, providing us with a compass to systematically explore the vast design space of DNN normalization layers.
翻訳日:2021-06-11 14:30:51 公開日:2021-06-10
# 変速試験環境下での分類精度について回転予測が示すこと

What Does Rotation Prediction Tell Us about Classifier Accuracy under Varying Testing Environments? ( http://arxiv.org/abs/2106.05961v1 )

ライセンス: Link先を確認
Weijian Deng, Stephen Gould, Liang Zheng(参考訳) 新たな環境下での分類器の決定を理解することはコミュニティの中心であり、ラベル付きテストセットで評価することが一般的である。 しかし、実世界のテストでは、特にテスト環境が変化している場合、画像アノテーションは入手が難しく、コストがかかる。 訓練された分類器が与えられたら、その精度を様々な未ラベルのテストセットで評価できるだろうか? 本研究では,マルチタスクで意味的分類と回転予測を訓練する。 一連のデータセットについて,セマンティクス分類精度は,回転予測タスクの精度と強い線形関係を示す(ピアソン相関r > 0.88)。 この発見により,自由生成する回転ラベルを用いた試験で得られる回転予測の精度から,線形回帰を利用して分類器の性能を推定できる。

Understanding classifier decision under novel environments is central to the community, and a common practice is evaluating it on labeled test sets. However, in real-world testing, image annotations are difficult and expensive to obtain, especially when the test environment is changing. A natural question then arises: given a trained classifier, can we evaluate its accuracy on varying unlabeled test sets? In this work, we train semantic classification and rotation prediction in a multi-task way. On a series of datasets, we report an interesting finding, i.e., the semantic classification accuracy exhibits a strong linear relationship with the accuracy of the rotation prediction task (Pearson's Correlation r > 0.88). This finding allows us to utilize linear regression to estimate classifier performance from the accuracy of rotation prediction which can be obtained on the test set through the freely generated rotation labels.
翻訳日:2021-06-11 14:30:33 公開日:2021-06-10
# 視覚表現の教師なし学習のためのコントラスト法の再検討

Revisiting Contrastive Methods for Unsupervised Learning of Visual Representations ( http://arxiv.org/abs/2106.05967v1 )

ライセンス: Link先を確認
Wouter Van Gansbeke, Simon Vandenhende, Stamatios Georgoulis, Luc Van Gool(参考訳) 対照的な自己教師付き学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクで教師付き事前学習よりも優れています。 しかし、現在の方法は主にimagenetのようなキュレートされたデータセットに適用される。 本稿では,まず,データセット内のバイアスが既存手法に与える影響について検討する。 その結果、現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能していることがわかった。 第二に、アプローチの一般性を考えると、小さな修正を加えてさらなる利益を実現しようとする。 マルチスケールの収穫、より強い増分、そして最も近い隣人の利用により、学習のさらなる不変性が表現を改善していることを示す。 最後に,MoCoがマルチクロップ戦略で学習すると,空間的構造化された表現が学習されることを示す。 この表現は、微調整なしでセグメンテーションとビデオインスタンスセグメンテーションに使うことができる。 さらに、結果は専門モデルと同等である。 この研究が他の研究者にとって有用な研究になることを期待している。 コードとモデルはhttps://github.com/wvangansbeke/Revisiting-Contrastive-SSLで入手できる。

Contrastive self-supervised learning has outperformed supervised pretraining on many downstream tasks like segmentation and object detection. However, current methods are still primarily applied to curated datasets like ImageNet. In this paper, we first study how biases in the dataset affect existing methods. Our results show that current contrastive approaches work surprisingly well across: (i) object- versus scene-centric, (ii) uniform versus long-tailed and (iii) general versus domain-specific datasets. Second, given the generality of the approach, we try to realize further gains with minor modifications. We show that learning additional invariances -- through the use of multi-scale cropping, stronger augmentations and nearest neighbors -- improves the representations. Finally, we observe that MoCo learns spatially structured representations when trained with a multi-crop strategy. The representations can be used for semantic segment retrieval and video instance segmentation without finetuning. Moreover, the results are on par with specialized models. We hope this work will serve as a useful study for other researchers. The code and models will be available at https://github.com/wvangansbeke/Revisiting-Contrastive-SSL.
翻訳日:2021-06-11 14:30:19 公開日:2021-06-10
# 品質多様性最適化による教師なし行動発見

Unsupervised Behaviour Discovery with Quality-Diversity Optimisation ( http://arxiv.org/abs/2106.05648v1 )

ライセンス: Link先を確認
Luca Grillotti and Antoine Cully(参考訳) 品質多様性アルゴリズム(Quality-Diversity algorithm)は、与えられた問題に対する多様な高性能なソリューションの集合を見つけるために設計された進化的アルゴリズムのクラスを指す。 ロボット工学において、そのようなアルゴリズムはロボットの動作のほとんどをカバーするコントローラーの集合を生成するのに使用できる。 そのため、これらのアルゴリズムはそれぞれの振る舞いに振る舞い記述子を関連付ける。 各行動記述子は、他の行動と比較して1つの行動の新規性を推定するために使用される。 ほとんどの既存のアルゴリズムでは、振る舞い記述子をハンドコーディングする必要があるため、タスクに関する事前の知識が必要となる。 本稿では,その能力を実現する自律ロボットについて紹介する。そのアルゴリズムは次元低減技術を用いて,生の感覚データに基づいて行動記述子を自動的に学習する。 このアルゴリズムの性能はシミュレーションにおける3つのロボットタスクに基づいて評価される。 実験の結果,ハンドコードされた動作記述子を提供する必要なしに,従来のハンドコードアプローチと同じように動作することがわかった。 多様なハイパフォーマンスなソリューションのコレクションでは、ハンドコードされたベースラインよりも多くの機能に関して斬新な振る舞いを見つけることができる。 最後に,動作記述子空間の次元性に頑健なアルゴリズムの変種を導入する。

Quality-Diversity algorithms refer to a class of evolutionary algorithms designed to find a collection of diverse and high-performing solutions to a given problem. In robotics, such algorithms can be used for generating a collection of controllers covering most of the possible behaviours of a robot. To do so, these algorithms associate a behavioural descriptor to each of these behaviours. Each behavioural descriptor is used for estimating the novelty of one behaviour compared to the others. In most existing algorithms, the behavioural descriptor needs to be hand-coded, thus requiring prior knowledge about the task to solve. In this paper, we introduce: Autonomous Robots Realising their Abilities, an algorithm that uses a dimensionality reduction technique to automatically learn behavioural descriptors based on raw sensory data. The performance of this algorithm is assessed on three robotic tasks in simulation. The experimental results show that it performs similarly to traditional hand-coded approaches without the requirement to provide any hand-coded behavioural descriptor. In the collection of diverse and high-performing solutions, it also manages to find behaviours that are novel with respect to more features than its hand-coded baselines. Finally, we introduce a variant of the algorithm which is robust to the dimensionality of the behavioural descriptor space.
翻訳日:2021-06-11 14:29:38 公開日:2021-06-10
# 中心極限定理、損失回避と多腕バンディット

A Central Limit Theorem, Loss Aversion and Multi-Armed Bandits ( http://arxiv.org/abs/2106.05472v1 )

ライセンス: Link先を確認
Zengjing Chen, Larry G. Epstein, Guodong Zhang(参考訳) 本稿では, 条件分散が, 一定間隔の制限のみを条件とする実験において, ほとんど構造化されていない履歴依存の方法で変化できるという仮定の下で, 中心極限定理を確立する。 極限は、新しくて取り外し可能な形式をとり、ブラウン運動の振動の言葉で表される。 第2の貢献は、意思決定者が損失逆であるマルチアームバンディット問題のクラスにこの結果を適用することである。

This paper establishes a central limit theorem under the assumption that conditional variances can vary in a largely unstructured history-dependent way across experiments subject only to the restriction that they lie in a fixed interval. Limits take a novel and tractable form, and are expressed in terms of oscillating Brownian motion. A second contribution is application of this result to a class of multi-armed bandit problems where the decision-maker is loss averse.
翻訳日:2021-06-11 14:29:10 公開日:2021-06-10
# 不確実性推定における被覆バイアスの理解

Understanding the Under-Coverage Bias in Uncertainty Estimation ( http://arxiv.org/abs/2106.05515v1 )

ライセンス: Link先を確認
Yu Bai, Song Mei, Huan Wang, Caiming Xiong(参考訳) 回帰タスクにおけるデータ不確実性の推定は、しばしば、入力に条件付けられた真のラベルの量子関数や予測間隔を学ぶことによって行われる。 漸近的保証を持つ分位数を学習するためのバニラアルゴリズムである分位数回帰は、現実の所望のカバレッジレベルよりも\emph{under-cover} が多いことがしばしば観察される。 様々な修正が提案されているが、この過大な偏見がそもそもなぜ起こるのかというより根本的な理解はいまだに解明されていない。 本稿では,学習量論における不確かさ推定アルゴリズムの適用範囲に関する厳密な理論的研究を行う。 定位回帰は, 線形定位関数が実現可能であり, パラメータ以上のデータが存在するバニラ設定において, 固有の非被覆バイアスに苦しむことを証明した。 より定量的に、$\alpha>0.5$ と small $d/n$ に対して、量子化回帰によって学習された$\alpha$-quantile は、ノイズ分布に関係なく$\alpha - (\alpha-1/2)\cdot d/n$ の範囲をほぼ達成し、$d$ は入力次元、$n$ はトレーニングデータ数である。 本理論では, この非被覆バイアスは, 定位回帰理論に含まない特定の高次元パラメータ推定誤差に起因していることを明らかにした。 シミュレーションおよび実データを用いた実験は,本理論を検証し,サンプルサイズやモデルキャパシティなどの諸要因が,より実践的な設定における下層偏差に及ぼす影響を検証した。

Estimating the data uncertainty in regression tasks is often done by learning a quantile function or a prediction interval of the true label conditioned on the input. It is frequently observed that quantile regression -- a vanilla algorithm for learning quantiles with asymptotic guarantees -- tends to \emph{under-cover} than the desired coverage level in reality. While various fixes have been proposed, a more fundamental understanding of why this under-coverage bias happens in the first place remains elusive. In this paper, we present a rigorous theoretical study on the coverage of uncertainty estimation algorithms in learning quantiles. We prove that quantile regression suffers from an inherent under-coverage bias, in a vanilla setting where we learn a realizable linear quantile function and there is more data than parameters. More quantitatively, for $\alpha>0.5$ and small $d/n$, the $\alpha$-quantile learned by quantile regression roughly achieves coverage $\alpha - (\alpha-1/2)\cdot d/n$ regardless of the noise distribution, where $d$ is the input dimension and $n$ is the number of training data. Our theory reveals that this under-coverage bias stems from a certain high-dimensional parameter estimation error that is not implied by existing theories on quantile regression. Experiments on simulated and real data verify our theory and further illustrate the effect of various factors such as sample size and model capacity on the under-coverage bias in more practical setups.
翻訳日:2021-06-11 14:29:05 公開日:2021-06-10
# パラメータ推論のための解釈可能なニューラルネットワーク

An Interpretable Neural Network for Parameter Inference ( http://arxiv.org/abs/2106.05536v1 )

ライセンス: Link先を確認
Johann Pfitzinger(参考訳) 経済学や金融学などの分野におけるディープニューラルネットワークの導入は、モデル結果の解釈可能性の欠如によって制約されている。 本稿では,回帰モデルのパラメータに対する局所後続分布を推定可能な生成型ニューラルネットワークアーキテクチャであるパラメータエンコーダニューラルネットワーク(penn)を提案する。 パラメータは入力の観点から予測を完全に説明し、複雑な異種効果や特徴依存の存在下での可視化、解釈、推論を可能にする。 ベイズ推論手法を用いることで、局所的なパラメータ推定を安定した解に向けて規則化し、限られたデータ可用性の設定におけるノイズフィッティングを減らすことができる。 提案するニューラルネットワークは、パラメータ推論が重要な役割を果たす経済学や金融分野の応用に特に適している。 資産価格問題への応用は、PENNが金融市場の非線形リスクダイナミクスを探索し、経験的非線形効果と金融理論による行動の比較にどのように使用できるかを示す。

Adoption of deep neural networks in fields such as economics or finance has been constrained by the lack of interpretability of model outcomes. This paper proposes a generative neural network architecture - the parameter encoder neural network (PENN) - capable of estimating local posterior distributions for the parameters of a regression model. The parameters fully explain predictions in terms of the inputs and permit visualization, interpretation and inference in the presence of complex heterogeneous effects and feature dependencies. The use of Bayesian inference techniques offers an intuitive mechanism to regularize local parameter estimates towards a stable solution, and to reduce noise-fitting in settings of limited data availability. The proposed neural network is particularly well-suited to applications in economics and finance, where parameter inference plays an important role. An application to an asset pricing problem demonstrates how the PENN can be used to explore nonlinear risk dynamics in financial markets, and to compare empirical nonlinear effects to behavior posited by financial theory.
翻訳日:2021-06-11 14:28:33 公開日:2021-06-10
# GANのニューラル・タンジェントカーネル・パースペクティブ

A Neural Tangent Kernel Perspective of GANs ( http://arxiv.org/abs/2106.05566v1 )

ライセンス: Link先を確認
Jean-Yves Franceschi (MLIA), Emmanuel de B\'ezenac (MLIA), Ibrahim Ayed (MLIA), Micka\"el Chen, Sylvain Lamprier (MLIA), Patrick Gallinari (MLIA)(参考訳) generative adversarial network (gans) の理論解析は一般に、任意に大きな分類器群を仮定し、実際に使用されるアーキテクチャの特徴を考慮しない。 分析の枠組みは単純すぎてganトレーニングを適切に分析できないことを示す。 この問題に対処するために、無限幅ニューラルネットワークの理論を活用し、ニューラルタンジェントカーネル(NTK)を介して、幅広い敵の損失に対するニューラルディミネータートレーニングをモデル化する。 分析の結果,GANの訓練性は判別器のアーキテクチャに依存することがわかった。 さらに、特定のアーキテクチャと損失の識別器について研究し、GANトレーニングの新たな理解を提供する特性を強調した。 例えば、積分確率計量損失で訓練されたGANは、NTKをカーネルとする最大平均誤差を最小化する。 我々の結論は,より優れた,より原理化されたGANモデルを実現するための,提案するフレームワークがもたらす分析の機会を示すものである。 我々は,研究の実証的部分をサポートするフレームワークに基づく汎用gan分析ツールキットをリリースする。

Theoretical analyses for Generative Adversarial Networks (GANs) generally assume an arbitrarily large family of discriminators and do not consider the characteristics of the architectures used in practice. We show that this framework of analysis is too simplistic to properly analyze GAN training. To tackle this issue, we leverage the theory of infinite-width neural networks to model neural discriminator training for a wide range of adversarial losses via its Neural Tangent Kernel (NTK). Our analytical results show that GAN trainability primarily depends on the discriminator's architecture. We further study the discriminator for specific architectures and losses, and highlight properties providing a new understanding of GAN training. For example, we find that GANs trained with the integral probability metric loss minimize the maximum mean discrepancy with the NTK as kernel. Our conclusions demonstrate the analysis opportunities provided by the proposed framework, which paves the way for better and more principled GAN models. We release a generic GAN analysis toolkit based on our framework that supports the empirical part of our study.
翻訳日:2021-06-11 14:28:18 公開日:2021-06-10
# 線形計測値の混合によるスパース信号の回復支援

Support Recovery of Sparse Signals from a Mixture of Linear Measurements ( http://arxiv.org/abs/2106.05951v1 )

ライセンス: Link先を確認
Venkata Gandikota, Arya Mazumdar, Soumyabrata Pal(参考訳) 単純な測定からスパースベクトルのサポートを回復することは、圧縮センシング、1ビット圧縮センシング、より一般的なシングルインデックスモデルの枠組みで検討された広く研究されている問題である。 線形回帰の混合と線形分類器の混合というこの問題の一般化を考察し、そこでは、少数個のノイズのある線形と1ビットの測定だけを用いて、複数のスパースベクトルのサポートを回復することが目的である。 鍵となる課題は、異なるベクトルからの測定がランダムに混合されることである。 どちらの問題も近年広く研究されている。 線形分類器の混合では、この観測は列状超平面の側面にランダムな未知ベクトルが存在するのに対し、線形回帰の混合では、列状超平面上のランダムな未知ベクトルの投影を観察する。 混合から未知のベクトルを回収する第一のステップは、まず個々の成分ベクトルの支持を識別することである。 本研究では,両モデルにおける混合成分ベクトルの支持部を回収するのに十分な測定数について検討する。 我々は、各成分がk$-sparse $n$-dimensional ベクトルである場合、混合中のすべての$\ell$ 未知ベクトルのサポートを高い確率で回復するために、いくつかの測定多項式を $k, \log n$ および pseudo-polynomial で$\ell$で使用するアルゴリズムを提供する。

Recovery of support of a sparse vector from simple measurements is a widely studied problem, considered under the frameworks of compressed sensing, 1-bit compressed sensing, and more general single index models. We consider generalizations of this problem: mixtures of linear regressions, and mixtures of linear classifiers, where the goal is to recover supports of multiple sparse vectors using only a small number of possibly noisy linear, and 1-bit measurements respectively. The key challenge is that the measurements from different vectors are randomly mixed. Both of these problems were also extensively studied recently. In mixtures of linear classifiers, the observations correspond to the side of queried hyperplane a random unknown vector lies in, whereas in mixtures of linear regressions we observe the projection of a random unknown vector on the queried hyperplane. The primary step in recovering the unknown vectors from the mixture is to first identify the support of all the individual component vectors. In this work, we study the number of measurements sufficient for recovering the supports of all the component vectors in a mixture in both these models. We provide algorithms that use a number of measurements polynomial in $k, \log n$ and quasi-polynomial in $\ell$, to recover the support of all the $\ell$ unknown vectors in the mixture with high probability when each individual component is a $k$-sparse $n$-dimensional vector.
翻訳日:2021-06-11 14:27:43 公開日:2021-06-10
# 固定カーネルと特徴学習確率の分離結果

Separation Results between Fixed-Kernel and Feature-Learning Probability Metrics ( http://arxiv.org/abs/2106.05739v1 )

ライセンス: Link先を確認
Carles Domingo-Enrich, Youssef Mroueh(参考訳) 暗黙的で明示的な生成モデルにおけるいくつかの研究は、特徴学習判別器がモデルのサンプル品質の点で固定カーネル判別器より優れていることを経験的に観察した。 重パラメータ2層ニューラルネットワークの研究のために開発された関数クラス $\mathcal{f}_2$ と $\mathcal{f}_1$ を用いて,固定カーネルを用いた確率メトリクスと特徴学習判別器との分離結果を提供する。 特に、固定されたカーネル$(\mathcal{F}_2)$積分確率メートル法(IPM)とスタイン差分法(SD)で高次元で区別できない超球面上の分布のペアを構築するが、それらの特徴学習(\mathcal{F}_1$)によって区別することができる。 分離をさらに研究するために、ワッサーシュタイン距離をスライスした $\mathcal{F}_1$ と $\mathcal{F}_2$ IPMs のリンクを提供する。 我々の研究は、固定カーネル識別器は、対応するメトリクスが弱いため、特徴学習器よりも性能が悪いことを示唆している。

Several works in implicit and explicit generative modeling empirically observed that feature-learning discriminators outperform fixed-kernel discriminators in terms of the sample quality of the models. We provide separation results between probability metrics with fixed-kernel and feature-learning discriminators using the function classes $\mathcal{F}_2$ and $\mathcal{F}_1$ respectively, which were developed to study overparametrized two-layer neural networks. In particular, we construct pairs of distributions over hyper-spheres that can not be discriminated by fixed kernel $(\mathcal{F}_2)$ integral probability metric (IPM) and Stein discrepancy (SD) in high dimensions, but that can be discriminated by their feature learning ($\mathcal{F}_1$) counterparts. To further study the separation we provide links between the $\mathcal{F}_1$ and $\mathcal{F}_2$ IPMs with sliced Wasserstein distances. Our work suggests that fixed-kernel discriminators perform worse than their feature learning counterparts because their corresponding metrics are weaker.
翻訳日:2021-06-11 14:27:16 公開日:2021-06-10
# 入力拡張によるニューラルマシン翻訳のための制約ビーム探索の改善:WAT 2021におけるNTT

Input Augmentation Improves Constrained Beam Search for Neural Machine Translation: NTT at WAT 2021 ( http://arxiv.org/abs/2106.05450v1 )

ライセンス: Link先を確認
Katsuki Chousa and Makoto Morishita(参考訳) 本稿では,WAT 2021の制限翻訳タスクに送信されたシステムについて述べる。 このタスクでは、与えられた単語の制約を全て含む翻訳文を出力する必要がある。 本システムでは,入力拡張と制約ビーム探索アルゴリズムを組み合わせた。 実験の結果,この組み合わせによって翻訳精度が大幅に向上し,全ての制約を出力に含めて推論時間を短縮できることがわかった。 en->jaとja->enの両方において,本システムは自動評価において最高の評価性能を得た。

This paper describes our systems that were submitted to the restricted translation task at WAT 2021. In this task, the systems are required to output translated sentences that contain all given word constraints. Our system combined input augmentation and constrained beam search algorithms. Through experiments, we found that this combination significantly improves translation accuracy and can save inference time while containing all the constraints in the output. For both En->Ja and Ja->En, our systems obtained the best evaluation performances in automatic evaluation.
翻訳日:2021-06-11 14:26:26 公開日:2021-06-10
# 低リソース・ファインチューニングのための変分情報基盤

Variational Information Bottleneck for Effective Low-Resource Fine-Tuning ( http://arxiv.org/abs/2106.05469v1 )

ライセンス: Link先を確認
Rabeeh Karimi Mahabadi, Yonatan Belinkov, James Henderson(参考訳) 大規模な事前訓練された言語モデルは、様々なタスクを微調整した時に印象的な結果を得たが、低リソースのシナリオでは過度に適合する。 このようなモデルは汎用的特徴抽出器であるため、これらの特徴の多くは、与えられた目標タスクに必然的に無関係である。 そこで本稿では,低リソースターゲットタスクの微調整において,無関係な特徴を抑えるために変動情報ボット(VIB)を提案する。 さらに、我々のVIBモデルは、自然言語推論データセットのバイアスに対してより堅牢な文表現を見つけ、ドメイン外データセットのより優れた一般化を得る。 異なるタスクにおける7つの低リソースデータセットの評価は、我々の手法が低リソースシナリオにおける転送学習を大幅に改善し、先行作業を上回っていることを示している。 さらに、15のドメイン外自然言語推論ベンチマークのうち13の一般化を改善している。 私たちのコードはhttps://github.com/rabeehk/vibert.comで公開されています。

While large-scale pretrained language models have obtained impressive results when fine-tuned on a wide variety of tasks, they still often suffer from overfitting in low-resource scenarios. Since such models are general-purpose feature extractors, many of these features are inevitably irrelevant for a given target task. We propose to use Variational Information Bottleneck (VIB) to suppress irrelevant features when fine-tuning on low-resource target tasks, and show that our method successfully reduces overfitting. Moreover, we show that our VIB model finds sentence representations that are more robust to biases in natural language inference datasets, and thereby obtains better generalization to out-of-domain datasets. Evaluation on seven low-resource datasets in different tasks shows that our method significantly improves transfer learning in low-resource scenarios, surpassing prior work. Moreover, it improves generalization on 13 out of 15 out-of-domain natural language inference benchmarks. Our code is publicly available in https://github.com/rabeehk/vibert.
翻訳日:2021-06-11 14:26:18 公開日:2021-06-10
# 畳み込みと自己認識:事前学習言語モデルにおける相対的位置の再解釈

Convolutions and Self-Attention: Re-interpreting Relative Positions in Pre-trained Language Models ( http://arxiv.org/abs/2106.05505v1 )

ライセンス: Link先を確認
Tyler A. Chang, Yifan Xu, Weijian Xu, and Zhuowen Tu(参考訳) 本稿では,自然言語処理における畳み込みと自己意識の関係を詳述する。 自己着脱層における相対的位置埋め込みは,最近提案されている動的軽量畳み込みと等価であり,畳み込みをトランスフォーマー自己着脱と統合する複数の新しい方法を検討する。 具体的には,畳み込みの枠組みで従来の相対位置埋め込み法を結合した複合注意法を提案する。 我々は、BERTを複合的な注意で訓練することで実験を行い、畳み込みが複数の下流タスクの性能を継続的に改善し、絶対位置埋め込みを置き換えることを発見した。 本研究は, 言語モデル事前学習において, 軽量な畳み込み, 動的畳み込み, 深度的に分離可能な畳み込みを比較し, 自己アテンション層における畳み込みに対する複数の注入点を考慮した結果を示す。

In this paper, we detail the relationship between convolutions and self-attention in natural language tasks. We show that relative position embeddings in self-attention layers are equivalent to recently-proposed dynamic lightweight convolutions, and we consider multiple new ways of integrating convolutions into Transformer self-attention. Specifically, we propose composite attention, which unites previous relative position embedding methods under a convolutional framework. We conduct experiments by training BERT with composite attention, finding that convolutions consistently improve performance on multiple downstream tasks, replacing absolute position embeddings. To inform future work, we present results comparing lightweight convolutions, dynamic convolutions, and depthwise-separable convolutions in language model pre-training, considering multiple injection points for convolutions in self-attention layers.
翻訳日:2021-06-11 14:26:03 公開日:2021-06-10
# CogAlign: 認知言語処理信号に適応したテキストニューラル表現の学習

CogAlign: Learning to Align Textual Neural Representations to Cognitive Language Processing Signals ( http://arxiv.org/abs/2106.05544v1 )

ライセンス: Link先を確認
Yuqi Ren and Deyi Xiong(参考訳) これまでの研究では、単語埋め込みと認知的特徴を直接結合することで、認知的言語処理信号(例えば視線追跡や脳波データ)を自然言語処理(nlp)のニューラルモデルに統合し、2つの様相(テキストと認知)と認知的特徴のノイズとのギャップを無視する。 本稿では,これらの問題に対して,文章的ニューラルネットワーク表現を認知的特徴に合わせることを学ぶための共利的なアプローチを提案する。 CogAlignでは、モダリティ判別器を備えた共有エンコーダを用いて、テキスト入力と認知入力を代わりに符号化し、それらの差分と共通点をキャプチャする。 さらに,タスク関連情報の検出と認知的特徴のノイズの回避を目的としたテキスト認識注意機構を提案する。 エンティティ認識、感情分析、関係抽出という3つのnlpタスクの実験結果は、公開データセットの最先端モデルよりも、複数の認知機能により、cogalignが大幅に改善されていることを示している。 さらに,本モデルでは,認知処理信号を持たない他のデータセットに認知情報を転送することができる。

Most previous studies integrate cognitive language processing signals (e.g., eye-tracking or EEG data) into neural models of natural language processing (NLP) just by directly concatenating word embeddings with cognitive features, ignoring the gap between the two modalities (i.e., textual vs. cognitive) and noise in cognitive features. In this paper, we propose a CogAlign approach to these issues, which learns to align textual neural representations to cognitive features. In CogAlign, we use a shared encoder equipped with a modality discriminator to alternatively encode textual and cognitive inputs to capture their differences and commonalities. Additionally, a text-aware attention mechanism is proposed to detect task-related information and to avoid using noise in cognitive features. Experimental results on three NLP tasks, namely named entity recognition, sentiment analysis and relation extraction, show that CogAlign achieves significant improvements with multiple cognitive features over state-of-the-art models on public datasets. Moreover, our model is able to transfer cognitive information to other datasets that do not have any cognitive processing signals.
翻訳日:2021-06-11 14:25:45 公開日:2021-06-10
# VT-SSum:ビデオトランスクリプトセグメンテーションと要約のためのベンチマークデータセット

VT-SSum: A Benchmark Dataset for Video Transcript Segmentation and Summarization ( http://arxiv.org/abs/2106.05606v1 )

ライセンス: Link先を確認
Tengchao Lv, Lei Cui, Momcilo Vasilijevic, Furu Wei(参考訳) ビデオ書き起こし要約はビデオ理解の基本的なタスクである。 書き起こし要約のための従来のアプローチは、通常、ニュース記事などの書き言葉の要約データに基づいて構築されるが、ドメインの相違は、音声テキストのモデル性能を劣化させる可能性がある。 本稿では,9,616本のビデオから125Kのトランスクリプト-サマリーペアを含む音声言語を用いた音声合成と要約のためのベンチマークデータセットであるVT-SSumを提案する。 VT-SSumはVideoLectures.NETのビデオを利用して、スライドコンテンツを弱い監督力として利用し、ビデオ書き起こしの抽出要約を生成する。 最先端のディープラーニングアプローチによる実験では、VT-SSumでトレーニングされたモデルは、AMI音声テキスト要約ベンチマークに大幅に改善されている。 VT-SSumは、ビデオスクリプティングのセグメンテーションと要約タスクの将来の研究をサポートするために公開される。

Video transcript summarization is a fundamental task for video understanding. Conventional approaches for transcript summarization are usually built upon the summarization data for written language such as news articles, while the domain discrepancy may degrade the model performance on spoken text. In this paper, we present VT-SSum, a benchmark dataset with spoken language for video transcript segmentation and summarization, which includes 125K transcript-summary pairs from 9,616 videos. VT-SSum takes advantage of the videos from VideoLectures.NET by leveraging the slides content as the weak supervision to generate the extractive summary for video transcripts. Experiments with a state-of-the-art deep learning approach show that the model trained with VT-SSum brings a significant improvement on the AMI spoken text summarization benchmark. VT-SSum will be publicly available to support the future research of video transcript segmentation and summarization tasks.
翻訳日:2021-06-11 14:25:23 公開日:2021-06-10
# DT-grams:クロスランゲージオーサシップ属性のための構造化依存文法スティロメトリ

DT-grams: Structured Dependency Grammar Stylometry for Cross-Language Authorship Attribution ( http://arxiv.org/abs/2106.05677v1 )

ライセンス: Link先を確認
Benjamin Murauer and G\"unther Specht(参考訳) 言語間の著者関係の問題は、単一言語機能の使用を可能にするために翻訳に依存するか、言語に依存しない特徴抽出方法に依存する。 最近まで、この問題に対するデータセットの欠如は後者の開発を妨げ、機械翻訳コーパス上で単一言語ソリューションが実行されていた。 本稿では,文の係り受けグラフの特定の部分を選択することにより,dt-grams (dependency tree grams) と呼ばれる音声タグの係り受けグラフと普遍部分に基づく著者関係解析のための新しい言語非依存機能を提案する。 両言語著者の翻訳されていないデータセットに対する言語間オーサリングによるDT-gramの評価を行い、マクロ平均F1スコアが5つの異なる言語対で従来の手法よりも0.081高いことを実証した。 さらに、比較のための多様な機能セットの結果を提供することにより、未翻訳のクロスランゲージオーサシップ属性に関する未文書タスクのベースラインを提供する。

Cross-language authorship attribution problems rely on either translation to enable the use of single-language features, or language-independent feature extraction methods. Until recently, the lack of datasets for this problem hindered the development of the latter, and single-language solutions were performed on machine-translated corpora. In this paper, we present a novel language-independent feature for authorship analysis based on dependency graphs and universal part of speech tags, called DT-grams (dependency tree grams), which are constructed by selecting specific sub-parts of the dependency graph of sentences. We evaluate DT-grams by performing cross-language authorship attribution on untranslated datasets of bilingual authors, showing that, on average, they achieve a macro-averaged F1 score of 0.081 higher than previous methods across five different language pairs. Additionally, by providing results for a diverse set of features for comparison, we provide a baseline on the previously undocumented task of untranslated cross-language authorship attribution.
翻訳日:2021-06-11 14:25:07 公開日:2021-06-10
# Marginal Utility Diminishes: BERT知識蒸留のための最小限の知識を探る

Marginal Utility Diminishes: Exploring the Minimum Knowledge for BERT Knowledge Distillation ( http://arxiv.org/abs/2106.05691v1 )

ライセンス: Link先を確認
Yuanxin Liu and Fandong Meng and Zheng Lin and Weiping Wang and Jie Zhou(参考訳) 近年,知識蒸留(KD)はBERT圧縮において大きな成功を収めている。 従来のkdのように教師のソフトラベルから学習する代わりに、研究者はバートの隠れた層に含まれる豊富な情報が生徒のパフォーマンスに反映されることを発見した。 隠れた知識をより効果的に活用するには、生徒にすべてのトークンの隠れた状態を層的な方法で深く模倣させることが一般的である。 しかし,本論文では,教師の隠れ状態知識(HSK)を蒸留することは有用であるが,HSKの蒸留量が増えるにつれて,性能向上(marginal utility)が急速に低下することが観察された。 この効果を理解するために、我々は一連の分析を行う。 具体的には,BERTのHSKを深さ,長さ,幅の3次元に分割する。 まず,各1次元の重要な知識を抽出し,その3次元を共同で圧縮する戦略について検討した。 このようにして,(1)重要なHSKを抽出,蒸留することにより,学生のパフォーマンスを向上し,(2)少量のHSKを使用すれば,広範なHSK蒸留と同じ性能が得られることを示す。 また,第2の発見に基づいて,生徒の訓練中に教師をロードする必要のないBERTを圧縮する効率的なKDパラダイムを提案する。 2種類の学生モデルとコンピュータデバイスに対して、提案されたKDパラダイムは2.7x〜3.4xのトレーニングスピードアップをもたらす。

Recently, knowledge distillation (KD) has shown great success in BERT compression. Instead of only learning from the teacher's soft label as in conventional KD, researchers find that the rich information contained in the hidden layers of BERT is conducive to the student's performance. To better exploit the hidden knowledge, a common practice is to force the student to deeply mimic the teacher's hidden states of all the tokens in a layer-wise manner. In this paper, however, we observe that although distilling the teacher's hidden state knowledge (HSK) is helpful, the performance gain (marginal utility) diminishes quickly as more HSK is distilled. To understand this effect, we conduct a series of analysis. Specifically, we divide the HSK of BERT into three dimensions, namely depth, length and width. We first investigate a variety of strategies to extract crucial knowledge for each single dimension and then jointly compress the three dimensions. In this way, we show that 1) the student's performance can be improved by extracting and distilling the crucial HSK, and 2) using a tiny fraction of HSK can achieve the same performance as extensive HSK distillation. Based on the second finding, we further propose an efficient KD paradigm to compress BERT, which does not require loading the teacher during the training of student. For two kinds of student models and computing devices, the proposed KD paradigm gives rise to training speedup of 2.7x ~ 3.4x.
翻訳日:2021-06-11 14:24:46 公開日:2021-06-10
# 方向依存語を用いた金融ドメインにおける文脈認識型感性辞書の自動構築

Automatic Construction of Context-Aware Sentiment Lexicon in the Financial Domain Using Direction-Dependent Words ( http://arxiv.org/abs/2106.05723v1 )

ライセンス: Link先を確認
Jihye Park, Hye Jin Lee, Sungzoon Cho(参考訳) 財務書類の感情分析に注目が集まっている。 そのような文書の最も人気のある例は、アナリストレポートと経済ニュースであり、その分析は市場の感情の傾向を捉えるために頻繁に使われている。 一方で、金融ドメインにおける感情分析の役割の重要性は、金融ドメイン固有の感情レキシコンを構築する努力のきっかけとなっている。 センティメント・レキシコンは、テキストデータの教師なし分類のような様々なテキストマイニングタスクを解決するのに役立ち、手動ラベリングに必要な人的労力を軽減する。 効果的な感情レキシコンを構築する際の課題の1つは、単語が現れる文脈によって意味的指向が変化する可能性があることである。 例えば、「非営利団体」という単語は通常ポジティブな感情を伝えるが、単語が別の単語「decrease」と混じり合うと、「非営利団体」という単語に関連付けられた感情は否定的になる。 したがって、ある単語の感情は、単語を取り巻く文脈を考慮し始めるにつれて変化するかもしれない。 本稿では,与えられたコーパスから感情語彙を構築する際に,文脈を組み込むことでこの問題に対処する。 具体的には、方向依存語と方向依存語のペアをそれぞれ表現する、方向依存語からなる感性語彙のためのSenti-DDという語彙を構築する。 実験の結果,senti-ddにより高い分類性能を達成し,金融領域における文脈認識型感情レキシコンの自動構築手法の有効性を実証した。

Increasing attention has been drawn to the sentiment analysis of financial documents. The most popular examples of such documents include analyst reports and economic news, the analysis of which is frequently used to capture the trends in market sentiments. On the other hand, the significance of the role sentiment analysis plays in the financial domain has given rise to the efforts to construct a financial domain-specific sentiment lexicon. Sentiment lexicons lend a hand for solving various text mining tasks, such as unsupervised classification of text data, while alleviating the arduous human labor required for manual labeling. One of the challenges in the construction of an effective sentiment lexicon is that the semantic orientation of a word may change depending on the context in which it appears. For instance, the word ``profit" usually conveys positive sentiments; however, when the word is juxtaposed with another word ``decrease," the sentiment associated with the phrase ``profit decreases" now becomes negative. Hence, the sentiment of a given word may shift as one begins to consider the context surrounding the word. In this paper, we address this issue by incorporating context when building sentiment lexicon from a given corpus. Specifically, we construct a lexicon named Senti-DD for the Sentiment lexicon composed of Direction-Dependent words, which expresses each term a pair of a directional word and a direction-dependent word. Experiment results show that higher classification performance is achieved with Senti-DD, proving the effectiveness of our method for automatically constructing a context-aware sentiment lexicon in the financial domain.
翻訳日:2021-06-11 14:24:23 公開日:2021-06-10
# SMM4H 2021における名前付きエンティティ認識のためのニューラルテキスト分類と重み付き異種埋め込み

Neural Text Classification and StackedHeterogeneous Embeddings for Named Entity Recognition in SMM4H 2021 ( http://arxiv.org/abs/2106.05823v1 )

ライセンス: Link先を確認
Usama Yaseen, Stefan Langer(参考訳) 本稿では,SMM4H共有タスク2021に参加することで得られた知見について述べる。 名前付きエンティティ認識(ner)とテキスト分類について論じた。 NERに対処するため,重み付き異種埋め込みと言語機能を用いたBiLSTM-CRFの探索を行った。 テキスト分類に対処するために,さまざまな機械学習アルゴリズム(論理回帰,サポートベクトルマシン(SVM),ニューラルネットワーク)について検討した。 提案手法は様々な言語に一般化することができ、英語とスペイン語で有効性を示した。 テキスト分類出願(team:MIC-NLP)は,ADE分類(Task 1a)とProfession分類(Task 7a)でそれぞれ0.46$と0.90$のF1スコアで競合性能を達成した。 NERの場合は, ADE Span Detection (Task 1b) と Profession Span Detection (Task 7b) でそれぞれ0.50$と0.82$のF1スコアを得た。

This paper presents our findings from participating in the SMM4H Shared Task 2021. We addressed Named Entity Recognition (NER) and Text Classification. To address NER we explored BiLSTM-CRF with Stacked Heterogeneous Embeddings and linguistic features. We investigated various machine learning algorithms (logistic regression, Support Vector Machine (SVM) and Neural Networks) to address text classification. Our proposed approaches can be generalized to different languages and we have shown its effectiveness for English and Spanish. Our text classification submissions (team:MIC-NLP) have achieved competitive performance with F1-score of $0.46$ and $0.90$ on ADE Classification (Task 1a) and Profession Classification (Task 7a) respectively. In the case of NER, our submissions scored F1-score of $0.50$ and $0.82$ on ADE Span Detection (Task 1b) and Profession Span detection (Task 7b) respectively.
翻訳日:2021-06-11 14:23:56 公開日:2021-06-10
# 協調訓練による前処理防衛の白箱ロバスト性向上

Improving White-box Robustness of Pre-processing Defenses via Joint Adversarial Training ( http://arxiv.org/abs/2106.05453v1 )

ライセンス: Link先を確認
Dawei Zhou, Nannan Wang, Xinbo Gao, Bo Han, Jun Yu, Xiaoyu Wang, Tongliang Liu(参考訳) ディープニューラルネットワーク(DNN)は敵の雑音に弱い。 入力前処理法がスケーラブルであり、dnnを安全に保護する可能性を示す敵のノイズの干渉を軽減するために、様々な敵の防御技術が提案されている。 しかし, 前処理法は, ホワイトボックス設定における対象モデルの対角的ロバスト性を改善するよりも, 防御性が低下するロバスト性劣化効果に悩まされる可能性がある。 この否定的な影響の潜在的原因は、敵のトレーニング例が静的であり、前処理モデルとは独立であることだ。 この問題を解決するため,本研究では,本モデルに反抗する全敵例の影響を調査し,防御のロバスト性に有意な影響を与えることを見出した。 さらに,前処理法における逆行訓練例の変更は,ロバストネス劣化効果を完全に緩和するものではないことがわかった。 これは、事前処理されたモデルが無視されるという敵意的なリスクのためであり、これはロバストネス劣化効果の別の原因である。 以上の分析から,JATP(Joint Adversarial Training Based Pre-processing)防衛法を提案する。 具体的には、特徴空間で見られる全対角的例を用いて、前処理モデルに対する特徴類似性に基づく対角的リスクを定式化する。 標準的な逆数トレーニングとは異なり、前処理モデルのみを更新し、モデル間転送性を改善するためにピクセルワイズロスを導入する。 次に,この全体リスクを最小限に抑えるために,前処理モデル上で協調的な敵意訓練を行う。 実験の結果,従来手法と比較して,異なる対象モデル間のロバスト性劣化効果を効果的に軽減できることがわかった。

Deep neural networks (DNNs) are vulnerable to adversarial noise. A range of adversarial defense techniques have been proposed to mitigate the interference of adversarial noise, among which the input pre-processing methods are scalable and show great potential to safeguard DNNs. However, pre-processing methods may suffer from the robustness degradation effect, in which the defense reduces rather than improving the adversarial robustness of a target model in a white-box setting. A potential cause of this negative effect is that adversarial training examples are static and independent to the pre-processing model. To solve this problem, we investigate the influence of full adversarial examples which are crafted against the full model, and find they indeed have a positive impact on the robustness of defenses. Furthermore, we find that simply changing the adversarial training examples in pre-processing methods does not completely alleviate the robustness degradation effect. This is due to the adversarial risk of the pre-processed model being neglected, which is another cause of the robustness degradation effect. Motivated by above analyses, we propose a method called Joint Adversarial Training based Pre-processing (JATP) defense. Specifically, we formulate a feature similarity based adversarial risk for the pre-processing model by using full adversarial examples found in a feature space. Unlike standard adversarial training, we only update the pre-processing model, which prompts us to introduce a pixel-wise loss to improve its cross-model transferability. We then conduct a joint adversarial training on the pre-processing model to minimize this overall risk. Empirical results show that our method could effectively mitigate the robustness degradation effect across different target models in comparison to previous state-of-the-art approaches.
翻訳日:2021-06-11 14:22:30 公開日:2021-06-10
# RLCorrector: コネクトロミクス画像セグメンテーションのための強化プロファイリング

RLCorrector: Reinforced Proofreading for Connectomics Image Segmentation ( http://arxiv.org/abs/2106.05487v1 )

ライセンス: Link先を確認
Khoa Tuan Nguyen, Ganghee Jang and Won-ki Jeong(参考訳) ナノスケール電子顕微鏡(em)像のセグメンテーションは、コネクトミクスでは極めて重要である。 近年のディープラーニングの進歩は,テラスケールEM画像の自動分割の可能性を示している。 しかしながら、既存のセグメンテーション手法はいずれもエラーのないものではなく、手動による対話的半自動プロセスとして実装される証明読出を必要とする。 本稿では,強化学習に基づく完全自動校正手法を提案する。 主なアイデアは、人間による判断過程のモデル化であり、完全自動的な証明読み出しを達成するために強化エージェントを使用する。 本研究では,複数の強化学習エージェントを階層的に組み合わせ,エージェント間の依存性を保ちながら,特定のタスクのみに焦点を当てたシステムの設計を行う。 さらに,強化学習の韻律的タスク設定は,入力に同時に提示されるマージエラーと分割エラーの組み合わせを効率的に管理できることを実証する。 各種試験例を用いて,最先端の実証読解手法と比較し,提案手法の有効性を示す。

The segmentation of nanoscale electron microscopy (EM) images is crucial but challenging in connectomics. Recent advances in deep learning have demonstrated the significant potential of automatic segmentation for tera-scale EM images. However, none of the existing segmentation methods are error-free, and they require proofreading, which is typically implemented as an interactive, semi-automatic process via manual intervention. Herein, we propose a fully automatic proofreading method based on reinforcement learning. The main idea is to model the human decision process in proofreading using a reinforcement agent to achieve fully automatic proofreading. We systematically design the proposed system by combining multiple reinforcement learning agents in a hierarchical manner, where each agent focuses only on a specific task while preserving dependency between agents. Furthermore, we also demonstrate that the episodic task setting of reinforcement learning can efficiently manage a combination of merge and split errors concurrently presented in the input. We demonstrate the efficacy of the proposed system by comparing it with state-of-the-art proofreading methods using various testing examples.
翻訳日:2021-06-11 14:22:02 公開日:2021-06-10
# AFAN:クロスドメインオブジェクト検出のための拡張機能アライメントネットワーク

AFAN: Augmented Feature Alignment Network for Cross-Domain Object Detection ( http://arxiv.org/abs/2106.05499v1 )

ライセンス: Link先を確認
Hongsong Wang, Shengcai Liao, and Ling Shao(参考訳) オブジェクト検出のための教師なしドメイン適応は、多くの現実世界アプリケーションにおいて難しい問題である。 残念なことに、監視対象検出よりもはるかに少ない注意を払っている。 この課題に対処しようとするモデルは、注釈付きトレーニングサンプルの不足に苦しむ傾向がある。 さらに、既存の特徴アライメントの方法は、ドメイン不変表現を学ぶのに十分ではない。 これらの制約に対処するために,中間領域画像生成とドメイン敵学習を統一フレームワークに統合した拡張機能アライメントネットワーク(afan)を提案する。 自動生成したソフトドメインラベルを用いたドメイン逆トレーニングにより機能アライメントを強化するために,中間領域画像生成器を提案する。 合成中間ドメイン画像は、段階的にドメインの発散を橋渡しし、注釈付きソースドメイントレーニングデータを増強する。 特徴ピラミッドアライメントを設計し、対応する特徴判別器を用いて、異なる意味レベルのマルチスケールの畳み込み特徴を調整する。 最後に、我々は、領域的特徴のアライメントと、オブジェクトの提案に対するドメイン不変機能を学ぶためのインスタンス判別子を紹介します。 提案手法は、類似および異種ドメイン適応の両方において、標準ベンチマークにおける最先端手法よりも大幅に優れている。 さらに広範な実験により、各コンポーネントの有効性を検証し、提案するネットワークがドメイン不変表現を学習可能であることを示す。

Unsupervised domain adaptation for object detection is a challenging problem with many real-world applications. Unfortunately, it has received much less attention than supervised object detection. Models that try to address this task tend to suffer from a shortage of annotated training samples. Moreover, existing methods of feature alignments are not sufficient to learn domain-invariant representations. To address these limitations, we propose a novel augmented feature alignment network (AFAN) which integrates intermediate domain image generation and domain-adversarial training into a unified framework. An intermediate domain image generator is proposed to enhance feature alignments by domain-adversarial training with automatically generated soft domain labels. The synthetic intermediate domain images progressively bridge the domain divergence and augment the annotated source domain training data. A feature pyramid alignment is designed and the corresponding feature discriminator is used to align multi-scale convolutional features of different semantic levels. Last but not least, we introduce a region feature alignment and an instance discriminator to learn domain-invariant features for object proposals. Our approach significantly outperforms the state-of-the-art methods on standard benchmarks for both similar and dissimilar domain adaptations. Further extensive experiments verify the effectiveness of each component and demonstrate that the proposed network can learn domain-invariant representations.
翻訳日:2021-06-11 14:21:46 公開日:2021-06-10
# アフィリエイトへの学習: ファウショット分類のための相互集中型学習

Learning to Affiliate: Mutual Centralized Learning for Few-shot Classification ( http://arxiv.org/abs/2106.05517v1 )

ライセンス: Link先を確認
Yang Liu, Weifeng Zhang, Chao Xiang, Tu Zheng, Deng Cai(参考訳) FSL(Few-shot Learning)は、トレーニング中に見えない新しいタスクに容易に適応できる分類器を学習することを目的としている。 限られたデータの問題を扱うために、最近の手法では、混合グローバル機能を使うのではなく、複数のローカル機能を使って画像を高密度に表現する傾向がある。 彼らは一般的に、FSLにおける一方向のクエリ・ツー・サポートパラダイムを探求し、例えば、各クエリ機能に最も近い/最適なサポート機能を見つけ、これらのローカルマッチを共同分類のために集約する。 本稿では,双方向パラダイムにおいて,密集した2つの集合をアフィリエイトする手法である相互集中学習(mcl)を提案する。 それぞれの局所特徴を, 離散的特徴空間内をアフィリエーションによって双方向にランダムに歩くことのできる粒子と関連付ける。 クラス確率を推定するために,マルコフプロセスにおいて,そのクラスのサポート機能への訪問回数を推定する特徴のアクセシビリティを提案する。 提案手法は,アフィリエイトネットワーク上の集中度を学習し,局所的な特徴を強調することにより既存の手法にプラグインできることを実証する。 実験の結果,本手法は miniImageNet と tieredImageNet の両面において最先端の手法を実現することがわかった。

Few-shot learning (FSL) aims to learn a classifier that can be easily adapted to accommodate new tasks not seen during training, given only a few examples. To handle the limited-data problem in few-shot regimes, recent methods tend to collectively use a set of local features to densely represent an image instead of using a mixed global feature. They generally explore a unidirectional query-to-support paradigm in FSL, e.g., find the nearest/optimal support feature for each query feature and aggregate these local matches for a joint classification. In this paper, we propose a new method Mutual Centralized Learning (MCL) to fully affiliate the two disjoint sets of dense features in a bidirectional paradigm. We associate each local feature with a particle that can bidirectionally random walk in a discrete feature space by the affiliations. To estimate the class probability, we propose the features' accessibility that measures the expected number of visits to the support features of that class in a Markov process. We relate our method to learning a centrality on an affiliation network and demonstrate its capability to be plugged in existing methods by highlighting centralized local features. Experiments show that our method achieves the state-of-the-art on both miniImageNet and tieredImageNet.
翻訳日:2021-06-11 14:21:28 公開日:2021-06-10
# Consistent Instance False Positiveは顔認識の公平性を向上する

Consistent Instance False Positive Improves Fairness in Face Recognition ( http://arxiv.org/abs/2106.05519v1 )

ライセンス: Link先を確認
Xingkun Xu, Yuge Huang, Pengcheng Shen, Shaoxin Li, Jilin Li, Feiyue Huang, Yong Li, Zhen Cui(参考訳) 人口統計バイアスは、実用的な顔認識システムにおいて重要な課題である。 既存の手法は正確な統計アノテーションに大きく依存している。 しかし、そのようなアノテーションは実際のシナリオでは利用できない。 さらに、これらの方法は一般的に特定の人口層向けに設計されており、一般には不十分である。 本稿では,False Positive Rate (FPR) の整合性を高め,顔認識バイアスを緩和する偽陽性率のペナルティ損失を提案する。 具体的には、まずインスタンスFPRを、統一しきい値以上の非ターゲット類似点の数と非ターゲット類似点の総数との比として定義する。 所定の総fprに対して統一閾値を推定する。 次に、ソフトマックスベース損失の分母に、例えばFPR全体のFPR比に比例した追加のペナルティ項を導入する。 FPRが大きければ大きいほど、ペナルティは大きくなる。 このような不平等な罰則により、FPRのインスタンスは一貫したものになる。 従来のdebiasing法と比較して,本手法は人口統計学的アノテーションを必要としない。 したがって、様々な属性で分類された集団間のバイアスを軽減でき、これらの属性はトレーニング中に予め定義しておく必要はない。 人気のあるベンチマークの広範な実験結果から、最先端の競合相手よりも優れた方法が示されている。 コードとトレーニングされたモデルはhttps://github.com/Tencent/TFace.comで入手できる。

Demographic bias is a significant challenge in practical face recognition systems. Existing methods heavily rely on accurate demographic annotations. However, such annotations are usually unavailable in real scenarios. Moreover, these methods are typically designed for a specific demographic group and are not general enough. In this paper, we propose a false positive rate penalty loss, which mitigates face recognition bias by increasing the consistency of instance False Positive Rate (FPR). Specifically, we first define the instance FPR as the ratio between the number of the non-target similarities above a unified threshold and the total number of the non-target similarities. The unified threshold is estimated for a given total FPR. Then, an additional penalty term, which is in proportion to the ratio of instance FPR overall FPR, is introduced into the denominator of the softmax-based loss. The larger the instance FPR, the larger the penalty. By such unequal penalties, the instance FPRs are supposed to be consistent. Compared with the previous debiasing methods, our method requires no demographic annotations. Thus, it can mitigate the bias among demographic groups divided by various attributes, and these attributes are not needed to be previously predefined during training. Extensive experimental results on popular benchmarks demonstrate the superiority of our method over state-of-the-art competitors. Code and trained models are available at https://github.com/Tencent/TFace.
翻訳日:2021-06-11 14:21:06 公開日:2021-06-10
# 教師なし特徴表現強調のための段階学習

Progressive Stage-wise Learning for Unsupervised Feature Representation Enhancement ( http://arxiv.org/abs/2106.05554v1 )

ライセンス: Link先を確認
Zefan Li, Chenxi Li, Alan Yuille, Bingbing Ni, Wenjun Zhang and Wen Gao(参考訳) 教師なし学習手法は、教師なし学習に対する競争力を示している。 通常、これらのメソッドは単一の目的を使ってネットワーク全体をトレーニングする。 しかし、教師なし学習よりも教師なし学習の明確な利点は、前者が目標を設計する上でより多様性と自由を持っていることである。 本研究では,progressive stage-wise learning(psl)フレームワークを提案することにより,教師なし学習の新しい次元を検討する。 教師なしのタスクでは、マルチレベルタスクを設計し、ディープネットワークのためのさまざまな学習ステージを定義します。 早期学習段階は低レベルのタスクに集中し、後期段階は難しいタスクを通じてより深い情報を抽出するために導かれる。 プログレッシブな段階学習によって,教師なし特徴表現を効果的に強化できることが分かる。 我々の広範な実験により、PSLは主要な教師なし学習手法の結果を一貫して改善することが示された。

Unsupervised learning methods have recently shown their competitiveness against supervised training. Typically, these methods use a single objective to train the entire network. But one distinct advantage of unsupervised over supervised learning is that the former possesses more variety and freedom in designing the objective. In this work, we explore new dimensions of unsupervised learning by proposing the Progressive Stage-wise Learning (PSL) framework. For a given unsupervised task, we design multilevel tasks and define different learning stages for the deep network. Early learning stages are forced to focus on lowlevel tasks while late stages are guided to extract deeper information through harder tasks. We discover that by progressive stage-wise learning, unsupervised feature representation can be effectively enhanced. Our extensive experiments show that PSL consistently improves results for the leading unsupervised learning methods.
翻訳日:2021-06-11 14:20:47 公開日:2021-06-10
# MiDeCon:Minutia検出信頼度に基づく指の非教師的かつ正確な品質評価

MiDeCon: Unsupervised and Accurate Fingerprint and Minutia Quality Assessment based on Minutia Detection Confidence ( http://arxiv.org/abs/2106.05601v1 )

ライセンス: Link先を確認
Philipp Terh\"orst, Andr\'e Boller, Naser Damer, Florian Kirchbuchner, Arjan Kuijper(参考訳) 指紋認証システムにおいて高い精度を達成するための重要な要因は、そのサンプルの品質である。 従来の研究では, 指紋認識技術は検出されたminutiaeに基づいているにもかかわらず, 主にminutiae抽出過程を無視する画像特性に基づく教師付き解を提案した。 これにより、利用したミツバチ抽出装置が信頼できない情報を生成する場合でも、指紋画像を高品質に割り当てることができる。 そこで本研究では,minutia detection confidence (midecon) に基づいて,minutiaと指紋品質を評価する新しい概念を提案する。 MiDeConは任意の深層学習に基づく微栄養抽出器に適用でき、学習に品質ラベルを必要としない。 抽出されたミネシアの検出信頼性を品質指標として利用することを提案する。 最高のミネチア品質を組み合わせることで、mideconは完全な指紋の品質を正確に決定する。 FVC 2006の公開データベース上で実験が行われ、NISTの広く使われている指紋画像品質ソフトウェアNFIQ1やNFIQ2などのベースラインと比較される。 以上の結果から,提案するMiDeCon等級の品質評価性能は,栄養素レベルと指紋レベルの両方で有意に向上した。 実装は公開されている。

An essential factor to achieve high accuracies in fingerprint recognition systems is the quality of its samples. Previous works mainly proposed supervised solutions based on image properties that neglects the minutiae extraction process, despite that most fingerprint recognition techniques are based on detected minutiae. Consequently, a fingerprint image might be assigned a high quality even if the utilized minutia extractor produces unreliable information. In this work, we propose a novel concept of assessing minutia and fingerprint quality based on minutia detection confidence (MiDeCon). MiDeCon can be applied to an arbitrary deep learning based minutia extractor and does not require quality labels for learning. We propose using the detection reliability of the extracted minutia as its quality indicator. By combining the highest minutia qualities, MiDeCon also accurately determines the quality of a full fingerprint. Experiments are conducted on the publicly available databases of the FVC 2006 and compared against several baselines, such as NIST's widely-used fingerprint image quality software NFIQ1 and NFIQ2. The results demonstrate a significantly stronger quality assessment performance of the proposed MiDeCon-qualities as related works on both, minutia- and fingerprint-level. The implementation is publicly available.
翻訳日:2021-06-11 14:20:34 公開日:2021-06-10
# グラフニューラルネットワークを用いた空間不変非教師なし3次元オブジェクトセグメンテーション

Spatially Invariant Unsupervised 3D Object Segmentation with Graph Neural Networks ( http://arxiv.org/abs/2106.05607v1 )

ライセンス: Link先を確認
Tianyu Wang, Kee Siong Ng, Miaomiao Liu(参考訳) 本稿では,RGB情報のない点群からの非教師なし3次元オブジェクトセグメンテーションの問題に取り組む。 特に,空間混合モデルとして点雲をモデル化し,変分オートエンコーダ(VAE)を用いて3次元の多目的表現とセグメンテーションを共同で学習するフレームワークである~{\bf SPAIR3Dを提案する。 SPAIRに触発されて、各オブジェクトの位置を点雲全体ではなく、その局所的なボクセルグリッドセルに対して記述するオブジェクト固有化方式を採用した。 点雲上の空間混合モデルをモデル化するために、変分訓練パイプラインに自然に適合する--\emph{Chamfer Likelihood} を導出する。 さらに,VAE内のデコーダとして異なる数の3D点を生成するために,空間不変な新しいグラフニューラルネットワークを設計した。

In this paper, we tackle the problem of unsupervised 3D object segmentation from a point cloud without RGB information. In particular, we propose a framework,~{\bf SPAIR3D}, to model a point cloud as a spatial mixture model and jointly learn the multiple-object representation and segmentation in 3D via Variational Autoencoders (VAE). Inspired by SPAIR, we adopt an object-specification scheme that describes each object's location relative to its local voxel grid cell rather than the point cloud as a whole. To model the spatial mixture model on point clouds, we derive the~\emph{Chamfer Likelihood}, which fits naturally into the variational training pipeline. We further design a new spatially invariant graph neural network to generate a varying number of 3D points as a decoder within our VAE.~Experimental results demonstrate that~{\bf SPAIR3D} is capable of detecting and segmenting variable number of objects without appearance information across diverse scenes.
翻訳日:2021-06-11 14:20:15 公開日:2021-06-10
# 2021年ホテルID、人身売買競争データに対処

The 2021 Hotel-ID to Combat Human Trafficking Competition Dataset ( http://arxiv.org/abs/2106.05746v1 )

ライセンス: Link先を確認
Rashmi Kamath, Greg Rolwes, Samuel Black and Abby Stylianou(参考訳) ホテルの認識は、被害者がしばしばホテルの部屋で撮影されるため、人身売買調査にとって重要なタスクである。 これらのホテルの特定は、同一の場所に連れて行かれる可能性のある現在と将来の犠牲者を追跡できるため、トラクシング調査にとって不可欠である。 ホテル認識は、同じホテル内の異なる部屋間の類似性がほとんどなく、異なるホテル(特に同じチェーンの部屋)の部屋間の類似度が高いため、難易度の高い視覚的分類課題である。 人身売買と戦うホテルの認識は、しばしば調査用画像が品質が低く、珍しいカメラアングルが含まれており、非常に隠蔽されているため、さらなる課題をもたらす。 本稿では,この問題に対する認識を高め,新たなアプローチを生み出すための2021 Hotel-IDデータセットを提案する。 データセットは、TraffickCamモバイルアプリケーションを通じてクラウドソースされアップロードされたホテルのルームイメージで構成されている。 これらの画像の品質は調査画像と似ているため、これらの画像でトレーニングされたモデルが正しいホテルを正確に絞り込む可能性も高い。

Hotel recognition is an important task for human trafficking investigations since victims are often photographed in hotel rooms. Identifying these hotels is vital to trafficking investigations since they can help track down current and future victims who might be taken to the same places. Hotel recognition is a challenging fine grained visual classification task as there can be little similarity between different rooms within the same hotel, and high similarity between rooms from different hotels (especially if they are from the same chain). Hotel recognition to combat human trafficking poses additional challenges as investigative images are often low quality, contain uncommon camera angles and are highly occluded. Here, we present the 2021 Hotel-ID dataset to help raise awareness for this problem and generate novel approaches. The dataset consists of hotel room images that have been crowd-sourced and uploaded through the TraffickCam mobile application. The quality of these images is similar to investigative images and hence models trained on these images have good chances of accurately narrowing down on the correct hotel.
翻訳日:2021-06-11 14:19:56 公開日:2021-06-10
# アセンブリによる非教師なしコパートセグメンテーション

Unsupervised Co-part Segmentation through Assembly ( http://arxiv.org/abs/2106.05897v1 )

ライセンス: Link先を確認
Qingzhe Gao, Bin Wang, Libin Liu, Baoquan Chen(参考訳) コーパートセグメンテーションは、そのリッチなアプリケーションにとってコンピュータビジョンの重要な問題である。 画像からのコパートセグメンテーションのための教師なし学習手法を提案する。 学習段階では,映像に埋め込まれた動作情報を活用し,有意義な対象部分をセグメント化するために潜在表現を明示的に抽出する。 さらに, 部分集合の二重手続きを導入し, 部分集合による閉ループを形成し, 効果的な自己スーパービジョンを実現する。 我々は、人体、手、四足歩行、ロボットアームなど幅広い実験を行い、このアプローチの有効性を実証する。 提案手法は,多種多様なベンチマークにおいて有意義でコンパクトな部分分割が可能であり,最先端のアプローチよりも優れていることを示す。

Co-part segmentation is an important problem in computer vision for its rich applications. We propose an unsupervised learning approach for co-part segmentation from images. For the training stage, we leverage motion information embedded in videos and explicitly extract latent representations to segment meaningful object parts. More importantly, we introduce a dual procedure of part-assembly to form a closed loop with part-segmentation, enabling an effective self-supervision. We demonstrate the effectiveness of our approach with a host of extensive experiments, ranging from human bodies, hands, quadruped, and robot arms. We show that our approach can achieve meaningful and compact part segmentation, outperforming state-of-the-art approaches on diverse benchmarks.
翻訳日:2021-06-11 14:19:36 公開日:2021-06-10
# Implicit Feature Alignment: テキスト認識をテキストスポッターに変換することを学ぶ

Implicit Feature Alignment: Learn to Convert Text Recognizer to Text Spotter ( http://arxiv.org/abs/2106.05920v1 )

ライセンス: Link先を確認
Tianwei Wang, Yuanzhi Zhu, Lianwen Jin, Dezhi Peng, Zhe Li, Mengchao He, Yongpan Wang, Canjie Luo(参考訳) テキスト認識は、多くの関連する課題を持つ人気のある研究テーマである。 近年の進歩にもかかわらず、テキスト認識タスク自体は、刈り取られたテキスト画像を読み取るという問題を解決し、光学文字認識(OCR)システムのサブタスクとして機能するように制約されている。 その結果、最終的なテキスト認識結果は、テキスト検出器の性能によって制限される。 本稿では,現行のテキスト認識器に容易に統合可能な,シンプルでエレガントで効果的な特徴アライメント(ifa)と呼ばれるパラダイムを提案し,ifainferenceと呼ばれる新しい推論機構を提案する。 これにより、通常のテキスト認識者は、テキスト検出を完全に解放できるように、マルチラインテキストを処理できる。 具体的には、IFAを2つの一般的なテキスト認識ストリーム(アテンションベースとCTCベース)に統合し、注意誘導密度予測(ADP)と拡張CTC(ExCTC)を提案する。 さらに,wasserstein-based hollow aggregate cross-entropy (wh-ace) はadpとextcのトレーニングを支援する負の予測を抑制するために提案されている。 実験により,高速な文書認識作業において,IFAが最先端の文書認識タスクの最先端性能を実現し,ADPとExCTCがアプリケーションシナリオの観点で相互に補完することを示した。 コードはhttps://github.com/WangTianwei/Implicit-feature-alignmentで入手できる。

Text recognition is a popular research subject with many associated challenges. Despite the considerable progress made in recent years, the text recognition task itself is still constrained to solve the problem of reading cropped line text images and serves as a subtask of optical character recognition (OCR) systems. As a result, the final text recognition result is limited by the performance of the text detector. In this paper, we propose a simple, elegant and effective paradigm called Implicit Feature Alignment (IFA), which can be easily integrated into current text recognizers, resulting in a novel inference mechanism called IFAinference. This enables an ordinary text recognizer to process multi-line text such that text detection can be completely freed. Specifically, we integrate IFA into the two most prevailing text recognition streams (attention-based and CTC-based) and propose attention-guided dense prediction (ADP) and Extended CTC (ExCTC). Furthermore, the Wasserstein-based Hollow Aggregation Cross-Entropy (WH-ACE) is proposed to suppress negative predictions to assist in training ADP and ExCTC. We experimentally demonstrate that IFA achieves state-of-the-art performance on end-to-end document recognition tasks while maintaining the fastest speed, and ADP and ExCTC complement each other on the perspective of different application scenarios. Code will be available at https://github.com/WangTianwei/Implicit-feature-alignment.
翻訳日:2021-06-11 14:19:25 公開日:2021-06-10
# 画像品質予測における極めて効果的な特徴

Curiously Effective Features for Image Quality Prediction ( http://arxiv.org/abs/2106.05946v1 )

ライセンス: Link先を確認
S\"oren Becker, Thomas Wiegand, Sebastian Bosse(参考訳) 視覚品質予測モデルの性能は、知覚的に関連する画像の側面を捉える能力と密接に関連していると一般的に考えられている。 したがってモデルは、広範囲にわたるドメイン知識から慎重に設計された洗練された特徴抽出器に基づくか、あるいは機能学習を通じて最適化される。 これとは対照的に、ランダムノイズから構成された特徴抽出器は、人間の視覚的品質評価と高い相関性を持つ線形回帰モデルを学ぶのに十分である。 この興味深い結果を分析して,特徴抽出器の品質に加えて,その量が重要な役割を担っていることを示した。

The performance of visual quality prediction models is commonly assumed to be closely tied to their ability to capture perceptually relevant image aspects. Models are thus either based on sophisticated feature extractors carefully designed from extensive domain knowledge or optimized through feature learning. In contrast to this, we find feature extractors constructed from random noise to be sufficient to learn a linear regression model whose quality predictions reach high correlations with human visual quality ratings, on par with a model with learned features. We analyze this curious result and show that besides the quality of feature extractors also their quantity plays a crucial role - with top performances only being achieved in highly overparameterized models.
翻訳日:2021-06-11 14:19:00 公開日:2021-06-10
# コントラスト学習による単眼RGBからの自己監督型3Dハンドポース推定

Self-Supervised 3D Hand Pose Estimation from monocular RGB via Contrastive Learning ( http://arxiv.org/abs/2106.05953v1 )

ライセンス: Link先を確認
Adrian Spurr, Aneesh Dahiya, Xucong Zhang, Xi Wang, Otmar Hilliges(参考訳) 手振り推定のための正確な3Dアノテートデータを取得することは、非常に難しい問題である。 これは通常、複雑なマルチカメラのセットアップと制御条件を必要とするため、ドメイン間隙が生じ、完全に制約されていない設定に橋渡しすることが難しい。 画像分類タスクにおけるコントラスト学習の成功にともなって、3次元手ポーズ推定の構造化回帰タスクを自己指導する手法を提案する。 コントラスト学習は、学習した特徴表現が任意の画像変換の下で不変であることを奨励する損失定式化による表現学習のためにラベルのないデータを利用する。 3次元手のポーズ推定では、色ジッタのような外観変化にばらつきがあることも望ましい。 しかし、このタスクは回転や変換のようなアフィン変換の下での等価性を必要とする。 この問題に対処するために,同変コントラスト目標を提案し,その効果を3次元手形推定の文脈で実証する。 本研究では,不変および同変コントラスト目標の影響を実験的に検証し,学習同変特徴が3次元手ポーズ推定のタスクにより良い表現をもたらすことを示す。 さらに、追加のラベル付きデータに基づいてトレーニングされた標準ResNet-152は、FreiHAND上のPA-EPEで7.6\%の改善を実現し、タスク固有の特別なアーキテクチャを使わずに最先端のパフォーマンスを実現する。

Acquiring accurate 3D annotated data for hand pose estimation is a notoriously difficult problem. This typically requires complex multi-camera setups and controlled conditions, which in turn creates a domain gap that is hard to bridge to fully unconstrained settings. Encouraged by the success of contrastive learning on image classification tasks, we propose a new self-supervised method for the structured regression task of 3D hand pose estimation. Contrastive learning makes use of unlabeled data for the purpose of representation learning via a loss formulation that encourages the learned feature representations to be invariant under any image transformation. For 3D hand pose estimation, it too is desirable to have invariance to appearance transformation such as color jitter. However, the task requires equivariance under affine transformations, such as rotation and translation. To address this issue, we propose an equivariant contrastive objective and demonstrate its effectiveness in the context of 3D hand pose estimation. We experimentally investigate the impact of invariant and equivariant contrastive objectives and show that learning equivariant features leads to better representations for the task of 3D hand pose estimation. Furthermore, we show that a standard ResNet-152, trained on additional unlabeled data, attains an improvement of $7.6\%$ in PA-EPE on FreiHAND and thus achieves state-of-the-art performance without any task specific, specialized architectures.
翻訳日:2021-06-11 14:18:50 公開日:2021-06-10
# 逆運動モデリングによる半教師付きハンドポース推定

Adversarial Motion Modelling helps Semi-supervised Hand Pose Estimation ( http://arxiv.org/abs/2106.05954v1 )

ライセンス: Link先を確認
Adrian Spurr, Pavlo Molchanov, Umar Iqbal, Jan Kautz, Otmar Hilliges(参考訳) 手ポーズ推定は, 環境条件の相違, 対象, 自己排他, 手の形状や外観の多様性により困難である。 完全アノテートされたデータセットにおいて、この幅広い要因を徹底的にカバーすることは、教師付き手法の一般化に重大な課題を呈している。 本稿では,この課題に対処するために,対戦型トレーニングとモーションモデリングのアイデアを組み合わせて,ラベルのないビデオにタップすることを提案する。 そこで本研究では,まず,手の動きモデルが最良であることを示すとともに,非ラベル映像列に対する半教師付き学習により,逆定式化が手ポーズ推定器の一般化性の向上に繋がることを示す。 この設定では、ポーズ予測器は差別的敵によって決定されるように、有効なポーズのシーケンスを生成する必要がある。 この逆の理由は、構造と時間領域の両方に依存し、タスクの時空間構造を効果的に活用する。 このアプローチの主な利点は、ペア化されていないビデオとジョイントシーケンスデータを利用することができ、どちらもペア化トレーニングデータよりも達成が容易であることです。 本研究は,提案手法がポーズ推定精度を著しく向上させる2つの課題条件において,提案フレームワークに必要な必須成分を調査し,広範囲な評価を行い,実証的に実証する。 最も低いラベル設定では、絶対平均ジョイントエラーで$40\%$の改善を達成します。

Hand pose estimation is difficult due to different environmental conditions, object- and self-occlusion as well as diversity in hand shape and appearance. Exhaustively covering this wide range of factors in fully annotated datasets has remained impractical, posing significant challenges for generalization of supervised methods. Embracing this challenge, we propose to combine ideas from adversarial training and motion modelling to tap into unlabeled videos. To this end we propose what to the best of our knowledge is the first motion model for hands and show that an adversarial formulation leads to better generalization properties of the hand pose estimator via semi-supervised training on unlabeled video sequences. In this setting, the pose predictor must produce a valid sequence of hand poses, as determined by a discriminative adversary. This adversary reasons both on the structural as well as temporal domain, effectively exploiting the spatio-temporal structure in the task. The main advantage of our approach is that we can make use of unpaired videos and joint sequence data both of which are much easier to attain than paired training data. We perform extensive evaluation, investigating essential components needed for the proposed framework and empirically demonstrate in two challenging settings that the proposed approach leads to significant improvements in pose estimation accuracy. In the lowest label setting, we attain an improvement of $40\%$ in absolute mean joint error.
翻訳日:2021-06-11 14:18:28 公開日:2021-06-10
# カリ:カナリ/QCRIのInterSPEECH 2021インディアン言語コードスイッチングチャレンジのためのエンド・ツー・エンドシステム

KARI: KAnari/QCRI's End-to-End systems for the INTERSPEECH 2021 Indian Languages Code-Switching Challenge ( http://arxiv.org/abs/2106.05885v1 )

ライセンス: Link先を確認
Amir Hussein, Shammur Chowdhury, Ahmed Ali(参考訳) 本稿では,カナリ/QCRI(Kanari/QCRI)システムと,低リソースインド言語に対するインタースペーチ2021コードスイッチング(CS)チャレンジに参加するためのモデリング戦略を提案する。 このサブタスクは、現実のシナリオで収集された2つのCSデータセット(ヒンディー語とベンガル語)の音声認識システムの開発に関わっている。 CSの課題に対処するために、公開のモノリンガルヒンディー語、ベンガル語、英語の音声データを取り入れるためにトランスファーラーニングを利用する。 本研究では,低リソースcsデータに対する2段階トランスファー学習プロトコルの有効性について検討した。 音響モデリングのための変換器(Conformer)を開発した。 CSシナリオにおいて,各単言語データのパーセンテージの選択が,一方の言語文字を他方で使用する際のモデルバイアスに影響を与えることを示す。 精度の高い単言語データで事前訓練したモデルでは, セグメントと転写の不一致に対する堅牢性を示した。 最後に、単語レベルn-gram言語モデル(LM)を開発し、ASR認識を再スコア化する。

In this paper, we present the Kanari/QCRI (KARI) system and the modeling strategies used to participate in the Interspeech 2021 Code-switching (CS) challenge for low-resource Indian languages. The subtask involved developing a speech recognition system for two CS datasets: Hindi-English and Bengali-English, collected in a real-life scenario. To tackle the CS challenges, we use transfer learning for incorporating the publicly available monolingual Hindi, Bengali, and English speech data. In this work, we study the effectiveness of two steps transfer learning protocol for low-resourced CS data: monolingual pretraining, followed by fine-tuning. For acoustic modeling, we develop an end-to-end convolution-augmented transformer (Conformer). We show that selecting the percentage of each monolingual data affects model biases towards using one language character set over the other in a CS scenario. The models pretrained on well-aligned and accurate monolingual data showed robustness against misalignment between the segments and the transcription. Finally, we develop word-level n-gram language models (LM) to rescore ASR recognition.
翻訳日:2021-06-11 14:18:04 公開日:2021-06-10
# 適応勾配法におけるルート平均角形に対する代替策の検討

Investigating Alternatives to the Root Mean Square for Adaptive Gradient Methods ( http://arxiv.org/abs/2106.05449v1 )

ライセンス: Link先を確認
Brett Daley and Christopher Amato(参考訳) Adamは適応勾配法であり、高速で信頼性の高いトレーニング性能のために広く採用されている。 最近のアプローチでは、Adamよりも大幅に改善されていないが、多くの場合、その中核的な特徴の1つ、すなわち最近の勾配のルート平均平方(RMS)による正規化を革新しないためである。 しかしながら、Kingma and Ba (2015) が述べたように、任意の$L^p$正規化が可能であり、RMS は $p=2$ の特定の場合に対応する。 本研究では,適応勾配法に対する異なる$L^p$ノルムの影響を理論的,実証的に初めて特徴づける。 数学的には、$p$の選択がステップのサイズにどのように影響するかを示し、他の望ましい性質は影響しない。 ディープラーニングベンチマークスイート上でadamを様々な$l^p$ノルムで評価し,$p > 2$が学習速度と最終的なパフォーマンスを一貫して向上させることを確認した。 p=3$または$p=6$の選択は、すべての実験で最先端のメソッドにマッチするか、より優れています。

Adam is an adaptive gradient method that has experienced widespread adoption due to its fast and reliable training performance. Recent approaches have not offered significant improvement over Adam, often because they do not innovate upon one of its core features: normalization by the root mean square (RMS) of recent gradients. However, as noted by Kingma and Ba (2015), any number of $L^p$ normalizations are possible, with the RMS corresponding to the specific case of $p=2$. In our work, we theoretically and empirically characterize the influence of different $L^p$ norms on adaptive gradient methods for the first time. We show mathematically how the choice of $p$ influences the size of the steps taken, while leaving other desirable properties unaffected. We evaluate Adam with various $L^p$ norms on a suite of deep learning benchmarks, and find that $p > 2$ consistently leads to improved learning speed and final performance. The choices of $p=3$ or $p=6$ also match or outperform state-of-the-art methods in all of our experiments.
翻訳日:2021-06-11 14:17:12 公開日:2021-06-10
# Multi-VFL:複数データおよびラベル所有者のための垂直統合学習システム

Multi-VFL: A Vertical Federated Learning System for Multiple Data and Label Owners ( http://arxiv.org/abs/2106.05468v1 )

ライセンス: Link先を確認
Vaikkunth Mugunthan, Pawan Goyal and Lalana Kagal(参考訳) Vertical Federated Learning (VFL)は、データセットの特徴を複数のデータ所有者に分割し、ラベル情報は単一のデータ所有者が所有するデータセット上のモデルの協調的なトレーニングを指す。 本稿では,複数のデータとラベル所有者が存在する場合に,VFLモデルを学習するための新しい手法であるMulti-VFLを提案する。 当社のアプローチは、d$-dataオーナー(どの機能が配布されているか)と$k$-labelオーナー(どのラベルが配布されているか)が存在する設定を検討する最初の方法です。 この構成により、異なるエンティティがデータを共有することなく、最適なモデルをトレーニングし、学習することができる。 本フレームワークでは,スプリット学習と適応フェデレーションオプティマイザを用いてこの問題を解決する。 経験的評価のために、mnist と fashionmnist データセットで実験を行う。 モデルアグリゲーションのための適応最適化器は収束を加速し、精度を向上する。

Vertical Federated Learning (VFL) refers to the collaborative training of a model on a dataset where the features of the dataset are split among multiple data owners, while label information is owned by a single data owner. In this paper, we propose a novel method, Multi Vertical Federated Learning (Multi-VFL), to train VFL models when there are multiple data and label owners. Our approach is the first to consider the setting where $D$-data owners (across which features are distributed) and $K$-label owners (across which labels are distributed) exist. This proposed configuration allows different entities to train and learn optimal models without having to share their data. Our framework makes use of split learning and adaptive federated optimizers to solve this problem. For empirical evaluation, we run experiments on the MNIST and FashionMNIST datasets. Our results show that using adaptive optimizers for model aggregation fastens convergence and improves accuracy.
翻訳日:2021-06-11 14:16:54 公開日:2021-06-10
# ノード埋め込みのための学習に基づく近接行列分解

Learning Based Proximity Matrix Factorization for Node Embedding ( http://arxiv.org/abs/2106.05476v1 )

ライセンス: Link先を確認
Xingyi Zhang, Kun Xie, Sibo Wang, Zengfeng Huang(参考訳) ノード埋め込みはグラフの各ノードの低次元表現を学習する。 ノード埋め込みの最近の進歩は、近接行列因子化手法が、数百万のノードを持つ大規模グラフにスーパーブパフォーマンスとスケールをもたらすことを示している。 既存のアプローチは、まず近接行列を定義し、その後マトリックスの分解によって近接に適合する埋め込みを学習する。 既存の行列分解法の多くは、異なるタスクに対して同じ近接性を採用しているが、異なるタスクやデータセットは異なる近接性を必要とし、表現力を制限している。 そこで本研究では,学習可能な近接測度を持つフレームワークである {\em lemane} を提案する。 我々の手法はエンドツーエンドであり、パイプラインに微分可能なSVDを組み込んで、パラメータをバックプロパゲーションによってトレーニングすることができる。 しかし、この学習プロセスは大きなグラフではまだ高価である。 スケーラビリティを向上させるために,注意深い部分サンプリンググラフのみに近接測度を訓練し,学習した近接グラフを用いて標準近接行列分解を適用する。 注意すべきは、各ペアの学習された近位数を計算することは大きなグラフにとって依然として高価であり、既存の近位数を計算する技術は学習された近位数には適用されないことである。 そこで我々は,数百万のノードを持つ大規模グラフにソリューションをスケーラブルにするために,一般化されたプッシュ技術を提案する。 広範な実験により,提案手法は,ほぼすべてのデータセットにおけるリンク予測とノード分類タスクの両方において,既存のソリューションよりも優れていることが示された。

Node embedding learns a low-dimensional representation for each node in the graph. Recent progress on node embedding shows that proximity matrix factorization methods gain superb performance and scale to large graphs with millions of nodes. Existing approaches first define a proximity matrix and then learn the embeddings that fit the proximity by matrix factorization. Most existing matrix factorization methods adopt the same proximity for different tasks, while it is observed that different tasks and datasets may require different proximity, limiting their representation power. Motivated by this, we propose {\em Lemane}, a framework with trainable proximity measures, which can be learned to best suit the datasets and tasks at hand automatically. Our method is end-to-end, which incorporates differentiable SVD in the pipeline so that the parameters can be trained via backpropagation. However, this learning process is still expensive on large graphs. To improve the scalability, we train proximity measures only on carefully subsampled graphs, and then apply standard proximity matrix factorization on the original graph using the learned proximity. Note that, computing the learned proximities for each pair is still expensive for large graphs, and existing techniques for computing proximities are not applicable to the learned proximities. Thus, we present generalized push techniques to make our solution scalable to large graphs with millions of nodes. Extensive experiments show that our proposed solution outperforms existing solutions on both link prediction and node classification tasks on almost all datasets.
翻訳日:2021-06-11 14:16:36 公開日:2021-06-10
# タスク駆動データ品質管理のための統一フレームワーク

A Unified Framework for Task-Driven Data Quality Management ( http://arxiv.org/abs/2106.05484v1 )

ライセンス: Link先を確認
Tianhao Wang, Yi Zeng, Ming Jin, Ruoxi Jia(参考訳) 高性能データは、データ品質管理(DQM)の重要性を強調する、パフォーマンスのよい機械学習モデル(ML)のトレーニングに不可欠である。 既存のDQMスキームは、設計上、下流のMLタスクに難渋するため、MLパフォーマンスを満足して改善できないことが多い。 さらに、さまざまなデータ品質問題(特に敵攻撃による問題)に対処することができず、特定の種類のMLモデルに限られる。 近年、データ評価手法(例えばShapley値に基づく)がDQMの実行に活用されているが、実証的研究により、その性能は基礎となるデータとトレーニングプロセスに基づいて大きく異なることが確認されている。 本稿では、タスク駆動、多目的、モデル非依存のdqmフレームワーク、datasifterを提案する。これは、所定の下流mlタスクに最適化され、様々な欠陥のあるデータポイントを効果的に除去し、多様なモデルに適用することができる。 具体的には,dqmを最適化問題として定式化し,スケーラブルなアルゴリズムを考案する。 さらに,異なるDQM戦略の最悪の性能を比較するための理論的枠組みを提案する。 驚くべきことに、shapley値に基づく一般的な戦略は、特定の実用的なシナリオで最悪のデータサブセットを選択することになるかもしれません。 評価の結果,datasifterは,バックドア,毒物,ノイズ/ミスラベルデータ検出,データ要約,データデバイアスなど,幅広いdqmタスクにおいて最先端の性能を向上し,性能を著しく向上していることがわかった。

High-quality data is critical to train performant Machine Learning (ML) models, highlighting the importance of Data Quality Management (DQM). Existing DQM schemes often cannot satisfactorily improve ML performance because, by design, they are oblivious to downstream ML tasks. Besides, they cannot handle various data quality issues (especially those caused by adversarial attacks) and have limited applications to only certain types of ML models. Recently, data valuation approaches (e.g., based on the Shapley value) have been leveraged to perform DQM; yet, empirical studies have observed that their performance varies considerably based on the underlying data and training process. In this paper, we propose a task-driven, multi-purpose, model-agnostic DQM framework, DataSifter, which is optimized towards a given downstream ML task, capable of effectively removing data points with various defects, and applicable to diverse models. Specifically, we formulate DQM as an optimization problem and devise a scalable algorithm to solve it. Furthermore, we propose a theoretical framework for comparing the worst-case performance of different DQM strategies. Remarkably, our results show that the popular strategy based on the Shapley value may end up choosing the worst data subset in certain practical scenarios. Our evaluation shows that DataSifter achieves and most often significantly improves the state-of-the-art performance over a wide range of DQM tasks, including backdoor, poison, noisy/mislabel data detection, data summarization, and data debiasing.
翻訳日:2021-06-11 14:16:11 公開日:2021-06-10
# 自由エネルギーの最小化による距離計量学習

Distance Metric Learning through Minimization of the Free Energy ( http://arxiv.org/abs/2106.05495v1 )

ライセンス: Link先を確認
Dusan Stosic, Darko Stosic, Teresa B. Ludermir, Borko Stosic(参考訳) 過去数十年間、距離距離学習は機械学習とパターン認識の問題を解決することに多くの関心を寄せてきた。 本研究では,与えられた問題の最適距離計量を学ぶための統計物理学の概念に基づく単純なアプローチを提案する。 パターン間の距離は物理系の構成要素を表し、目的関数はエネルギーに対応する。 そして,この問題を,距離距離距離学習と等価な複素系の自由エネルギーの最小化として表現する。 物理学における多くの問題と同様に、我々はメトロポリス・モンテカルロに基づく最良の距離計量を求めるアプローチを提案する。 これは距離計量を学ぶ自然な方法であり、学習過程は幾らかのヒューリスティックが満たされるまで距離空間を伸ばして回転させるものとして直感的に見ることができる。 提案手法はスプリアス局所ミニマを含む幅広い制約を扱うことができる。 このアプローチは、近隣成分分析 (nca) の確率的近傍と驚くほどうまく機能する。 人工的および実世界のデータセットに対する実験結果から、近隣の分類のための最先端距離距離学習法よりも明らかな優位性を示した。

Distance metric learning has attracted a lot of interest for solving machine learning and pattern recognition problems over the last decades. In this work we present a simple approach based on concepts from statistical physics to learn optimal distance metric for a given problem. We formulate the task as a typical statistical physics problem: distances between patterns represent constituents of a physical system and the objective function corresponds to energy. Then we express the problem as a minimization of the free energy of a complex system, which is equivalent to distance metric learning. Much like for many problems in physics, we propose an approach based on Metropolis Monte Carlo to find the best distance metric. This provides a natural way to learn the distance metric, where the learning process can be intuitively seen as stretching and rotating the metric space until some heuristic is satisfied. Our proposed method can handle a wide variety of constraints including those with spurious local minima. The approach works surprisingly well with stochastic nearest neighbors from neighborhood component analysis (NCA). Experimental results on artificial and real-world data sets reveal a clear superiority over a number of state-of-the-art distance metric learning methods for nearest neighbors classification.
翻訳日:2021-06-11 14:15:44 公開日:2021-06-10
# バイアス分散トレードオフに基づくロバスト機械学習の数学的基礎

A Mathematical Foundation for Robust Machine Learning based on Bias-Variance Trade-off ( http://arxiv.org/abs/2106.05522v1 )

ライセンス: Link先を確認
Ou Wu and Weiyao Zhu and Yingjun Deng and Haixiang Zhang and Qinghu Hou(参考訳) 機械学習における一般的な仮定は、サンプルは独立して同じ分布(d)であるということである。 しかし、異なるサンプルの貢献はトレーニングにおいて同一ではない。 一部のサンプルは学習が困難であり、いくつかのサンプルはうるさい。 サンプルの不平等な貢献は、トレーニングパフォーマンスに大きな影響を与えます。 学習における不平等なサンプル貢献(例えば、簡単、困難、ノイズ)に焦点を当てた研究は通常、これらの貢献を堅牢な機械学習(RML)と呼ぶ。 ウィーディングと正規化はRMLの2つの一般的な手法である。 数多くの学習アルゴリズムが提案されているが、簡単な/ハード/ノイズのサンプルを扱う戦略は異なる学習アルゴリズムと異なる、あるいは矛盾する。 例えば、いくつかの戦略はまずハードサンプルを取るが、いくつかの戦略は最初は簡単である。 既存のRMLアルゴリズムと比較して異なるサンプルを扱うことは、RMLの統一的な理論的枠組みが欠如しているため困難である。 本研究ではバイアス分散トレードオフ理論に基づくRMLの数学的基礎の構築を試みる。 一連の定義と性質が提示され、証明される。 いくつかの古典的学習アルゴリズムも説明され、比較される。 比較により既存の方法の改善が得られた。 2つの古典的学習戦略を組み合わせた統一手法を提案する。

A common assumption in machine learning is that samples are independently and identically distributed (i.i.d). However, the contributions of different samples are not identical in training. Some samples are difficult to learn and some samples are noisy. The unequal contributions of samples has a considerable effect on training performances. Studies focusing on unequal sample contributions (e.g., easy, hard, noisy) in learning usually refer to these contributions as robust machine learning (RML). Weighing and regularization are two common techniques in RML. Numerous learning algorithms have been proposed but the strategies for dealing with easy/hard/noisy samples differ or even contradict with different learning algorithms. For example, some strategies take the hard samples first, whereas some strategies take easy first. Conducting a clear comparison for existing RML algorithms in dealing with different samples is difficult due to lack of a unified theoretical framework for RML. This study attempts to construct a mathematical foundation for RML based on the bias-variance trade-off theory. A series of definitions and properties are presented and proved. Several classical learning algorithms are also explained and compared. Improvements of existing methods are obtained based on the comparison. A unified method that combines two classical learning strategies is proposed.
翻訳日:2021-06-11 14:15:28 公開日:2021-06-10
# 自己監督による深層強化学習の簡易化

Simplifying Deep Reinforcement Learning via Self-Supervision ( http://arxiv.org/abs/2106.05526v1 )

ライセンス: Link先を確認
Daochen Zha, Kwei-Herng Lai, Kaixiong Zhou, Xia Hu(参考訳) デモに対する改善された回帰は、ディープポリシーネットワークをトレーニングするための安定した方法であることが示されている。 我々は、教師付き損失関数をフル活用して、より深い強化学習エージェントを安定的に訓練する方法について研究する。 政策改善を実現するためのトレーニングデータの収集方法が不明確であるため、これは難しい作業です。 本研究では、純粋に監督された損失を伴うポリシーを最適化するシンプルなアルゴリズムである自己改善強化学習(SSRL)を提案する。 政策勾配や価値推定がなければ, 「ラベル付け」データの反復的手順と教師付き回帰が, 安定した政策改善を促進するのに十分であることを示す。 トラジェクトリを高いエピソード報酬で選択し模倣することにより、SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合し、教師付き学習技術で強化学習を解く可能性を示している。 コードはhttps://github.com/daochenzha/ssrlで入手できる。

Supervised regression to demonstrations has been demonstrated to be a stable way to train deep policy networks. We are motivated to study how we can take full advantage of supervised loss functions for stably training deep reinforcement learning agents. This is a challenging task because it is unclear how the training data could be collected to enable policy improvement. In this work, we propose Self-Supervised Reinforcement Learning (SSRL), a simple algorithm that optimizes policies with purely supervised losses. We demonstrate that, without policy gradient or value estimation, an iterative procedure of ``labeling" data and supervised regression is sufficient to drive stable policy improvement. By selecting and imitating trajectories with high episodic rewards, SSRL is surprisingly competitive to contemporary algorithms with more stable performance and less running time, showing the potential of solving reinforcement learning with supervised learning techniques. The code is available at https://github.com/daochenzha/SSRL
翻訳日:2021-06-11 14:15:11 公開日:2021-06-10
# 共同チューニングハードウェアとハイパーパラメータの多目的視点

A multi-objective perspective on jointly tuning hardware and hyperparameters ( http://arxiv.org/abs/2106.05680v1 )

ライセンス: Link先を確認
David Salinas, Valerio Perrone, Olivier Cruchant, Cedric Archambeau(参考訳) 最高のモデルアーキテクチャとハイパーパラメータに加えて、完全なAutoMLソリューションでは、適切なハードウェアを自動的に選択する必要がある。 最高のハードウェア構成はひとつではなく、コストとランタイムの間に異なるトレードオフを達成するための最適なハードウェアセットのセットです。 実際には、過度にコストがかかるか、訓練に数日かかることもある。 この負担を軽減すべく、我々は、ニューラルネットワークとそのハイパーパラメータとともにハードウェア構成を自動的に選択し、適応する多目的アプローチを採用しています。 提案手法はHyperband上に構築し,2つの方法で拡張する。 まず、ハイパーバンドで使用される停止規則を非支配的なソートルールで置き換え、非プロミネーション構成を事前に停止する。 第2に,ランダム探索よりも有望な構成を見出すパレートフロントの確率的推定を構築することにより,トランスファー学習による関連タスクからのハイパーパラメータ評価を活用する。 我々はNASとHPOの広範な実験において、両者が精度にほとんど影響を与えず、大幅なスピードアップとコスト削減をもたらすことを示した。 ハイパーパラメータに加えてハードウェアが選択される3つのベンチマークでは、ランタイムとコストをそれぞれ5.8倍と8.8倍に削減する。 さらに,マルチオブジェクト法をハイパーパラメータのチューニングのみに適用すると,2つのNASベンチマークで同じ精度を維持しつつ,実行時の10倍の改善が得られる。

In addition to the best model architecture and hyperparameters, a full AutoML solution requires selecting appropriate hardware automatically. This can be framed as a multi-objective optimization problem: there is not a single best hardware configuration but a set of optimal ones achieving different trade-offs between cost and runtime. In practice, some choices may be overly costly or take days to train. To lift this burden, we adopt a multi-objective approach that selects and adapts the hardware configuration automatically alongside neural architectures and their hyperparameters. Our method builds on Hyperband and extends it in two ways. First, we replace the stopping rule used in Hyperband by a non-dominated sorting rule to preemptively stop unpromising configurations. Second, we leverage hyperparameter evaluations from related tasks via transfer learning by building a probabilistic estimate of the Pareto front that finds promising configurations more efficiently than random search. We show in extensive NAS and HPO experiments that both ingredients bring significant speed-ups and cost savings, with little to no impact on accuracy. In three benchmarks where hardware is selected in addition to hyperparameters, we obtain runtime and cost reductions of at least 5.8x and 8.8x, respectively. Furthermore, when applying our multi-objective method to the tuning of hyperparameters only, we obtain a 10\% improvement in runtime while maintaining the same accuracy on two popular NAS benchmarks.
翻訳日:2021-06-11 14:14:56 公開日:2021-06-10
# 部分ラベル学習における重み付き損失の活用

Leveraged Weighted Loss for Partial Label Learning ( http://arxiv.org/abs/2106.05731v1 )

ライセンス: Link先を確認
Hongwei Wen, Jingyi Cui, Hanyuan Hang, Jiabin Liu, Yisen Wang, Zhouchen Lin(参考訳) 弱い教師付き学習の重要な分野として、部分ラベル学習は、各インスタンスに候補ラベルのセットが割り当てられるデータを扱うが、そのうちの1つだけが真実である。 部分ラベルからの学習に関する多くの方法論研究にもかかわらず、相対的に弱い仮定の下でそれらのリスク一貫した性質に関する理論的理解はいまだに欠けている。 本稿では,部分ラベルの損失と非部分ラベルの損失のトレードオフを考えるために,レバレッジパラメータ$\beta$を導入することを目的とした,lwロスと呼ばれる損失関数の族を提案する。 理論的な側面から、部分ラベルから学習する際のLW損失に対するリスク一貫性の一般化結果が導出され、そこではレバレッジパラメータ $\beta$ の選択に関するガイダンスを提供する。 実験では,提案したLW損失が,他の最先端部分ラベル学習アルゴリズムと比較して,ベンチマークと実データの両方において高い有効性を示す。

As an important branch of weakly supervised learning, partial label learning deals with data where each instance is assigned with a set of candidate labels, whereas only one of them is true. Despite many methodology studies on learning from partial labels, there still lacks theoretical understandings of their risk consistent properties under relatively weak assumptions, especially on the link between theoretical results and the empirical choice of parameters. In this paper, we propose a family of loss functions named \textit{Leveraged Weighted} (LW) loss, which for the first time introduces the leverage parameter $\beta$ to consider the trade-off between losses on partial labels and non-partial ones. From the theoretical side, we derive a generalized result of risk consistency for the LW loss in learning from partial labels, based on which we provide guidance to the choice of the leverage parameter $\beta$. In experiments, we verify the theoretical guidance, and show the high effectiveness of our proposed LW loss on both benchmark and real datasets compared with other state-of-the-art partial label learning algorithms.
翻訳日:2021-06-11 14:14:34 公開日:2021-06-10
# 単純なグラフ畳み込みネットワーク

Simple Graph Convolutional Networks ( http://arxiv.org/abs/2106.05809v1 )

ライセンス: Link先を確認
Luca Pasa, Nicol\`o Navarin, Wolfgang Erb, Alessandro Sperduti(参考訳) グラフのための多くのニューラルネットワークは、10年以上前に提案されたグラフ畳み込み演算子に基づいている。 それ以来、モデルに複雑性(および非線形性)を加える傾向がある多くの代替定義が提案されている。 本稿では,単層グラフ畳み込みネットワークに実装可能な単純なグラフ畳み込み演算子を提案することにより,逆方向を追従する。 我々の畳み込み演算子は、文献における多くの提案よりも理論的に根拠があり、考慮されたベンチマークデータセットで最先端の予測性能を示す。

Many neural networks for graphs are based on the graph convolution operator, proposed more than a decade ago. Since then, many alternative definitions have been proposed, that tend to add complexity (and non-linearity) to the model. In this paper, we follow the opposite direction by proposing simple graph convolution operators, that can be implemented in single-layer graph convolutional networks. We show that our convolution operators are more theoretically grounded than many proposals in literature, and exhibit state-of-the-art predictive performance on the considered benchmark datasets.
翻訳日:2021-06-11 14:14:17 公開日:2021-06-10
# 都市移動度トレンドを同定する適応的起源分岐流クラスタ検出法

An adaptive Origin-Destination flows cluster-detecting method to identify urban mobility trends ( http://arxiv.org/abs/2106.05436v1 )

ライセンス: Link先を確認
Mengyuan Fang, Luliang Tang, Zihan Kan, Xue Yang, Tao Pei, Qingquan Li, Chaokui Li(参考訳) オブジェクトの運動や相互作用の抽象表現としてのオリジン・デスティネーション(od)フローは、都市移動と人間と土地の相互作用のパターンを明らかにするために使われてきた。 重要な空間分析手法として,ポイントイベントのクラスタリング手法をodフローに拡張し,都市移動の主な傾向と空間構造を同定した。 しかし,既存のODフロークラスタ検出法は,空間的不均一性下での複雑なODフローのクラスタリングでは困難であり,パラメータ設定の違いにより,空間的スケールと不確実性の両方に制限されている。 そこで本稿では,様々な集約スケールのodフロークラスタを識別可能な光学アルゴリズムに基づく新しいodフロークラスタ検出法を提案する。 この方法は、事前の知識や人工的な介入なしにデータセットからパラメータ値を適応的に決定することができる。 実験の結果,提案手法はより正確で完全でノイズが少ない3つの最先端手法より優れていた。 本研究では,都市交通データ中のODフロークラスタを検出することにより,公共交通機関設定の潜在的経路を特定する手法を提案する。

Origin-Destination (OD) flow, as an abstract representation of the object`s movement or interaction, has been used to reveal the urban mobility and human-land interaction pattern. As an important spatial analysis approach, the clustering methods of point events have been extended to OD flows to identify the dominant trends and spatial structures of urban mobility. However, the existing methods for OD flow cluster-detecting are limited both in specific spatial scale and the uncertain result due to different parameters setting, which is difficult for complicated OD flows clustering under spatial heterogeneity. To address these limitations, in this paper, we proposed a novel OD flows cluster-detecting method based on the OPTICS algorithm which can identify OD flow clusters with various aggregation scales. The method can adaptively determine parameter value from the dataset without prior knowledge and artificial intervention. Experiments indicated that our method outperformed three state-of-the-art methods with more accurate and complete of clusters and less noise. As a case study, our method is applied to identify the potential routes for public transport service settings by detecting OD flow clusters within urban travel data.
翻訳日:2021-06-11 14:11:40 公開日:2021-06-10
# Out-of-distribution Pose and Depth and In-distribution Segmentation Trainingを用いた関節鏡からの3次元意味マッピング

3D Semantic Mapping from Arthroscopy using Out-of-distribution Pose and Depth and In-distribution Segmentation Training ( http://arxiv.org/abs/2106.05525v1 )

ライセンス: Link先を確認
Yaqub Jonmohamadi, Shahnewaz Ali, Fengbei Liu, Jonathan Roberts, Ross Crawford, Gustavo Carneiro, Ajay K. Pandey(参考訳) 最小侵襲手術 (MIS) には多くの利点があるが, 現場との視覚的接触は限られている。 したがって、外科医が3Dセマンティックマップを作成できるようなナビゲートを助けるシステムは、上記の制限を補うことができる。 理論的には、ロボット工学のために開発された3Dセマンティックマッピング技術を借りることができるが、これは、1)セマンティックセグメンテーション、2)深さ推定、3)ポーズ推定といったMISの課題に対する解決策を見つける必要がある。 本稿では,上述の3つの課題を解決する膝関節鏡からの3次元意味マッピングシステムを提案する。 ポーズのラベル付けが可能な非分布型データセットを使用して,自己教師付きおよび教師付き損失を用いた深さ+位置推定器を共同で訓練する。 関節鏡視下画像画素を大腿骨, ACL, 半月板にラベル付けるために, 完全教師付きセマンティックセマンティックセマンティクスシステムを構築した。 人間の膝から画像をテストすることで、これらの2つのシステムの結果を組み合わせて、人間の膝の3Dセマンティックマップを自動的に作成する。 本研究の成果は,術中3次元意味マッピングの生成,術前データによる登録,ロボット支援関節鏡への道を開く。

Minimally invasive surgery (MIS) has many documented advantages, but the surgeon's limited visual contact with the scene can be problematic. Hence, systems that can help surgeons navigate, such as a method that can produce a 3D semantic map, can compensate for the limitation above. In theory, we can borrow 3D semantic mapping techniques developed for robotics, but this requires finding solutions to the following challenges in MIS: 1) semantic segmentation, 2) depth estimation, and 3) pose estimation. In this paper, we propose the first 3D semantic mapping system from knee arthroscopy that solves the three challenges above. Using out-of-distribution non-human datasets, where pose could be labeled, we jointly train depth+pose estimators using selfsupervised and supervised losses. Using an in-distribution human knee dataset, we train a fully-supervised semantic segmentation system to label arthroscopic image pixels into femur, ACL, and meniscus. Taking testing images from human knees, we combine the results from these two systems to automatically create 3D semantic maps of the human knee. The result of this work opens the pathway to the generation of intraoperative 3D semantic mapping, registration with pre-operative data, and robotic-assisted arthroscopy
翻訳日:2021-06-11 14:11:22 公開日:2021-06-10
# コントラスト表現学習を用いたマスキング識別のためのマルチデータセットベンチマーク

Multi-Dataset Benchmarks for Masked Identification using Contrastive Representation Learning ( http://arxiv.org/abs/2106.05596v1 )

ライセンス: Link先を確認
Sachith Seneviratne, Nuran Kasthuriaarachchi, Sanka Rasnayaka(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中で受け入れられた基準を大きく変えた。 過去1年間、マスクはウイルスの感染拡大を制限するための公衆衛生対策として利用されてきた。 この突然の変化は多くの顔認識ベースのアクセス制御、認証、監視システムが無効になった。 パスポート、運転免許証、国籍カードなどの公式文書には、完全な顔画像が登録されている。 しかし、現在のグローバルな状況では、顔マッチングシステムはこれらの参照画像とマスクされた顔画像とをマッチングできるはずである。 例えば、空港やセキュリティチェックポイントでは、マスクの取り外しを依頼するのではなく、識別文書の未マスク画像とマスク付き人物とを一致させる方が安全である。 現在の顔認識技術はこの形態の閉塞に対して堅牢ではない。 現在の状況によって提示されるこのユニークな要件に対処するため、研究者が使用するデータセットとベンチマークのセットを提案する。 また,マスクとマスクのない顔マッチングに特化した,視覚表現学習に基づく事前学習ワークフローを提案する。 様々なデータ収集シナリオにまたがる人々を区別するために、この手法が堅牢な特徴を学習することを保証する。 さまざまなデータセットをトレーニングし、さまざまなホールトアウトデータセットをテストすることで結果を検証することで、これを実現する。 本手法で訓練された特殊重みは,マスキング顔と未マスク顔のマッチングの標準顔認識機能よりも優れている。 提供される合成マスク生成コード、新しいトレーニングアプローチ、およびマスク付き顔モデルからトレーニングされた重量は、現在のグローバル環境での運用に既存の顔認識システムを採用するのに役立つと信じている。 研究コミュニティによる幅広い利用のために、すべてのコントリビューションをオープンソースにしています。

The COVID-19 pandemic has drastically changed accepted norms globally. Within the past year, masks have been used as a public health response to limit the spread of the virus. This sudden change has rendered many face recognition based access control, authentication and surveillance systems ineffective. Official documents such as passports, driving license and national identity cards are enrolled with fully uncovered face images. However, in the current global situation, face matching systems should be able to match these reference images with masked face images. As an example, in an airport or security checkpoint it is safer to match the unmasked image of the identifying document to the masked person rather than asking them to remove the mask. We find that current facial recognition techniques are not robust to this form of occlusion. To address this unique requirement presented due to the current circumstance, we propose a set of re-purposed datasets and a benchmark for researchers to use. We also propose a contrastive visual representation learning based pre-training workflow which is specialized to masked vs unmasked face matching. We ensure that our method learns robust features to differentiate people across varying data collection scenarios. We achieve this by training over many different datasets and validating our result by testing on various holdout datasets. The specialized weights trained by our method outperform standard face recognition features for masked to unmasked face matching. We believe the provided synthetic mask generating code, our novel training approach and the trained weights from the masked face models will help in adopting existing face recognition systems to operate in the current global environment. We open-source all contributions for broader use by the research community.
翻訳日:2021-06-11 14:10:58 公開日:2021-06-10
# プライバシーポリシーの完全性チェックのためのAI対応自動化

AI-enabled Automation for Completeness Checking of Privacy Policies ( http://arxiv.org/abs/2106.05688v1 )

ライセンス: Link先を確認
Orlando Amaral, Sallam Abualhaija, Damiano Torre, Mehrdad Sabetzadeh, Lionel C. Briand(参考訳) 情報共有の技術進歩は、データ保護に関する懸念を引き起こしている。 プライバシポリシには、個人の個人情報が組織やソフトウェアシステム(Webサービスやアプリなど)によってどのように扱われるかに関するプライバシー関連の要件が含まれている。 欧州では、プライバシーポリシーはGDPR(General Data Protection Regulation)に準拠している。 GDPRコンプライアンスチェックの前提条件は、GDPRの規定に従ってプライバシーポリシーの内容が完了したかどうかを検証することである。 不完全なプライバシーポリシーは、組織や不完全なプライバシー関連ソフトウェア仕様に違反する大きな罰金をもたらす可能性がある。 手動の完全性チェックは時間とエラーが発生しやすい。 本稿では,プライバシーポリシーの完全性チェックのためのAIベースの自動化を提案する。 体系的な定性的手法により,まず2つの成果物を構築し,gdprのプライバシー関連規定,すなわち概念モデルと完全性基準を特徴付ける。 そして、自然言語処理と教師付き機械学習の組み合わせを利用して、これらの成果物の上に自動化されたソリューションを開発する。 具体的には、プライバシーポリシーにおけるGDPR関連情報コンテンツを特定し、その後、完全性基準に対してチェックする。 当社のアプローチを評価するため、ファンド業界から234の実際のプライバシーポリシーを収集しました。 48件の未確認のプライバシポリシで, 完全性基準の違反件数334件中300件を検出し, 偽陽性件数は23件とした。 このアプローチの精度は92.9%、リコールは89.8%である。 キーワード検索のみを適用したベースラインと比較すると,精度が24.5%,リコール率が38%向上した。

Technological advances in information sharing have raised concerns about data protection. Privacy policies contain privacy-related requirements about how the personal data of individuals will be handled by an organization or a software system (e.g., a web service or an app). In Europe, privacy policies are subject to compliance with the General Data Protection Regulation (GDPR). A prerequisite for GDPR compliance checking is to verify whether the content of a privacy policy is complete according to the provisions of GDPR. Incomplete privacy policies might result in large fines on violating organization as well as incomplete privacy-related software specifications. Manual completeness checking is both time-consuming and error-prone. In this paper, we propose AI-based automation for the completeness checking of privacy policies. Through systematic qualitative methods, we first build two artifacts to characterize the privacy-related provisions of GDPR, namely a conceptual model and a set of completeness criteria. Then, we develop an automated solution on top of these artifacts by leveraging a combination of natural language processing and supervised machine learning. Specifically, we identify the GDPR-relevant information content in privacy policies and subsequently check them against the completeness criteria. To evaluate our approach, we collected 234 real privacy policies from the fund industry. Over a set of 48 unseen privacy policies, our approach detected 300 of the total of 334 violations of some completeness criteria correctly, while producing 23 false positives. The approach thus has a precision of 92.9% and recall of 89.8%. Compared to a baseline that applies keyword search only, our approach results in an improvement of 24.5% in precision and 38% in recall.
翻訳日:2021-06-11 14:10:12 公開日:2021-06-10
# 学術プラジャリズム検出のための非テキストコンテンツ要素の解析

Analyzing Non-Textual Content Elements to Detect Academic Plagiarism ( http://arxiv.org/abs/2106.05764v1 )

ライセンス: Link先を確認
Norman Meuschke(参考訳) 学術的盗作の特定は、特に研究機関、出版者、資金機関にとって差し迫った問題である。 これまで提案されてきた検出手法は、語彙、構文、意味的テキスト類似性を解析する。 これらのアプローチは、コピーされ、適度に書き直され、文字通り翻訳されたテキストを見つける。 しかし、強い言い回し、センス・フォー・センス翻訳、非テキストコンテンツやアイデアの再利用など、確実に偽装された盗作を検知することは、オープンな研究課題である。 この論文は、学術文書の非テクストコンテンツ、特に引用、画像、数学的内容を分析する、異なる概念を実装する盗作検出アプローチを提案することでこの問題に対処する。 提案手法の有効性を検証するため,本論文では学術的盗用事例と未知事例の探索的探索を用いた5つの評価を行った。 評価の結果、非テクストコンテンツ要素は、言語に依存しない高い意味情報を含み、一般的に著者が盗作を隠すために行う変更にほとんど不変であることが示された。 非テキストコンテンツの分析は、テキストベースの検出アプローチを補完し、特に偽装された学術プラジャリズムに対する検出効率を高める。 本論文は, 引用ベース, 画像ベース, 数学ベース, テキストベースの文書類似性の分析を統合した, 初歩的な盗作検出システムについて述べる。 システムのユーザインタフェースでは、ユーザがコンテンツ類似性を調べる時間と労力を大幅に削減する視覚化を採用している。

Identifying academic plagiarism is a pressing problem, among others, for research institutions, publishers, and funding organizations. Detection approaches proposed so far analyze lexical, syntactical, and semantic text similarity. These approaches find copied, moderately reworded, and literally translated text. However, reliably detecting disguised plagiarism, such as strong paraphrases, sense-for-sense translations, and the reuse of non-textual content and ideas, is an open research problem. The thesis addresses this problem by proposing plagiarism detection approaches that implement a different concept: analyzing non-textual content in academic documents, specifically citations, images, and mathematical content. To validate the effectiveness of the proposed detection approaches, the thesis presents five evaluations that use real cases of academic plagiarism and exploratory searches for unknown cases. The evaluation results show that non-textual content elements contain a high degree of semantic information, are language-independent, and largely immutable to the alterations that authors typically perform to conceal plagiarism. Analyzing non-textual content complements text-based detection approaches and increases the detection effectiveness, particularly for disguised forms of academic plagiarism. To demonstrate the benefit of combining non-textual and text-based detection methods, the thesis describes the first plagiarism detection system that integrates the analysis of citation-based, image-based, math-based, and text-based document similarity. The system's user interface employs visualizations that significantly reduce the effort and time users must invest in examining content similarity.
翻訳日:2021-06-11 14:09:47 公開日:2021-06-10
# スマートグリッドにおける適応クラスタリングに基づく顧客セグメンテーションによる需要応答の複数動的価格設定

Multiple Dynamic Pricing for Demand Response with Adaptive Clustering-based Customer Segmentation in Smart Grids ( http://arxiv.org/abs/2106.05905v1 )

ライセンス: Link先を確認
Fanlin Meng, Qian Ma, Zixu Liu, Xiao-Jun Zeng(参考訳) 本稿では,小売市場における需要応答に対する現実的な多重動的価格手法を提案する。 まず、アダプティブクラスタリングに基づく顧客セグメンテーションフレームワークを提案し、顧客を異なるグループに分類し、使用パターンの効果的な識別を可能にする。 第2に、価格と需要の関係を明確に把握する重要な市場制約を持つカスタマイズされた需要モデルを開発し、モデル精度を改善し、有意義な価格設定を可能にする。 第三に、複数の価格ベースの需要応答は、現実的な市場制約を受ける利益の最大化問題として定式化される。 提案手法の全体的な目的は、グリッドオペレーター、顧客、小売業者といったシステムの様々な利害関係者に利益をもたらすために、顧客にとって「正しい」価格を達成することである。 提案手法は,実世界のデータセットに基づくシミュレーションにより評価される。

In this paper, we propose a realistic multiple dynamic pricing approach to demand response in the retail market. First, an adaptive clustering-based customer segmentation framework is proposed to categorize customers into different groups to enable the effective identification of usage patterns. Second, customized demand models with important market constraints which capture the price-demand relationship explicitly, are developed for each group of customers to improve the model accuracy and enable meaningful pricing. Third, the multiple pricing based demand response is formulated as a profit maximization problem subject to realistic market constraints. The overall aim of the proposed scalable and practical method aims to achieve 'right' prices for 'right' customers so as to benefit various stakeholders in the system such as grid operators, customers and retailers. The proposed multiple pricing framework is evaluated via simulations based on real-world datasets.
翻訳日:2021-06-11 14:09:19 公開日:2021-06-10
# MusicBERT: 大規模事前学習によるシンボリック音楽理解

MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training ( http://arxiv.org/abs/2106.05630v1 )

ライセンス: Link先を確認
Mingliang Zeng, Xu Tan, Rui Wang, Zeqian Ju, Tao Qin, Tie-Yan Liu(参考訳) シンボリック音楽理解 (symbolic music understanding) は、シンボリックデータ(例えばmidi形式だがオーディオではない)からの音楽の理解を指す用語であり、ジャンル分類、感情分類、楽曲マッチングなど多くの音楽応用をカバーしている。 これらの応用には良い音楽表現が有用であるが、トレーニングデータの欠如は表現学習を妨げる。 本稿では,自然言語処理における事前学習モデルの成功に触発されて,音楽理解のための大規模事前学習モデル musicbert を開発した。 この目的のために,100万曲以上の楽曲を含む大規模なシンボリック音楽コーパスを構築する。 シンボリック・ミュージックは、より構造的な(例えば、バー、位置)と多様な情報(例えば、テンポ、楽器、ピッチ)を含んでいるため、単にNLPからシンボリック・ミュージックへの事前学習技術を採用するだけで、限界利得しか得られない。 そこで我々は,OctupleMIDIエンコーディングやバーレベルのマスキング戦略を含むいくつかのメカニズムを設計し,シンボル音楽データによる事前学習を強化する。 実験は、メロディ補完、伴奏提案、ジャンル分類、スタイル分類を含む4つの音楽理解タスクにおけるMusicBERTの利点を示す。 また,MusicBERTにおけるOctupleMIDI符号化とバーレベルのマスキング戦略の有効性についても検討した。

Symbolic music understanding, which refers to the understanding of music from the symbolic data (e.g., MIDI format, but not audio), covers many music applications such as genre classification, emotion classification, and music pieces matching. While good music representations are beneficial for these applications, the lack of training data hinders representation learning. Inspired by the success of pre-training models in natural language processing, in this paper, we develop MusicBERT, a large-scale pre-trained model for music understanding. To this end, we construct a large-scale symbolic music corpus that contains more than 1 million music songs. Since symbolic music contains more structural (e.g., bar, position) and diverse information (e.g., tempo, instrument, and pitch), simply adopting the pre-training techniques from NLP to symbolic music only brings marginal gains. Therefore, we design several mechanisms, including OctupleMIDI encoding and bar-level masking strategy, to enhance pre-training with symbolic music data. Experiments demonstrate the advantages of MusicBERT on four music understanding tasks, including melody completion, accompaniment suggestion, genre classification, and style classification. Ablation studies also verify the effectiveness of our designs of OctupleMIDI encoding and bar-level masking strategy in MusicBERT.
翻訳日:2021-06-11 14:09:04 公開日:2021-06-10
# 準ニュートン法の局所収束のグローバル化:適応サンプルサイズアプローチ

Exploiting Local Convergence of Quasi-Newton Methods Globally: Adaptive Sample Size Approach ( http://arxiv.org/abs/2106.05445v1 )

ライセンス: Link先を確認
Qiujiang Jin, Aryan Mokhtari(参考訳) 本稿では,大規模なデータセット上で定義された経験的リスク最小化(ERM)問題に対する準ニュートン法の適用について検討する。 従来の決定論的および確率的準ニュートン法はそのような問題を解決するために実行することができるが、その大域収束率は一階法よりも良くなく、局所超線形収束は学習プロセスの終わりにのみ現れることが知られている。 本稿では,準ニュートン法の超線形収束を利用する適応的サンプルサイズスキームを用いて,学習過程全体を通して学習を行う。 提案する適応型サンプルサイズアルゴリズムの主な考え方は,まずデータポイントの小さなサブセットから出発し,その統計的精度で対応するEMM問題を解き,次いで,サンプルサイズを幾何的に拡大し,それに対応する問題の最適解を,その後のERM問題をより多くのサンプルで解くための初期点として利用することである。 初期サンプルサイズが十分に大きく、準ニュートン法を用いて各サブプロブレムを解くと、準ニュートン法が超直線的に収束する近傍で常にイテレートが維持されることを保証するため、サブプロブレムは超直線的に(少なくとも3回の反復で)解ける。 各種データセットの数値実験により理論的結果を確認し,提案手法の計算上の利点を実証した。

In this paper, we study the application of quasi-Newton methods for solving empirical risk minimization (ERM) problems defined over a large dataset. Traditional deterministic and stochastic quasi-Newton methods can be executed to solve such problems; however, it is known that their global convergence rate may not be better than first-order methods, and their local superlinear convergence only appears towards the end of the learning process. In this paper, we use an adaptive sample size scheme that exploits the superlinear convergence of quasi-Newton methods globally and throughout the entire learning process. The main idea of the proposed adaptive sample size algorithms is to start with a small subset of data points and solve their corresponding ERM problem within its statistical accuracy, and then enlarge the sample size geometrically and use the optimal solution of the problem corresponding to the smaller set as an initial point for solving the subsequent ERM problem with more samples. We show that if the initial sample size is sufficiently large and we use quasi-Newton methods to solve each subproblem, the subproblems can be solved superlinearly fast (after at most three iterations), as we guarantee that the iterates always stay within a neighborhood that quasi-Newton methods converge superlinearly. Numerical experiments on various datasets confirm our theoretical results and demonstrate the computational advantages of our method.
翻訳日:2021-06-11 14:06:34 公開日:2021-06-10
# BERTを用いた意味認識型バイナリコード表現

Semantic-aware Binary Code Representation with BERT ( http://arxiv.org/abs/2106.05478v1 )

ライセンス: Link先を確認
Hyungjoon Koo, Soyeon Park, Daejin Choi, Taesoo Kim(参考訳) バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。 近年,解析アルゴリズムの具体化を手作業で行うのではなく,バイナリのコード表現を自動的に再構築する機械学習に基づくバイナリ解析手法が提案されている。 しかし、機械学習を利用する既存のアプローチは、1つの領域の問題を解くのに特化しており、異なるタイプのバイナリ分析のためのモデルのレクリエーションを行っている。 本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。 そこで本研究では,オフオブボキャブラリー問題 (oov) を最小化しつつ,各命令に対して豊富な情報を保持する,バランスの取れた命令正規化を導入する。 DeepSemanticは、大量のバイナリを用いて、我々の研究に基づいて慎重に設計されている。 さらに、deepsemanticはbertアーキテクチャの本質を活用して、事前訓練されたジェネリックモデルを再提案し、ワンタイム処理として容易に利用し、その後、微調整プロセスで特定のダウンストリームタスクを迅速に適用する。 我々は、DeepSemanticを2つのダウンストリームタスク、すなわちバイナリ類似性比較とコンパイラ証明(コンパイラと最適化レベル)予測で実証する。 実験の結果,2値類似性モデルは,DeepBinDiffとSAFEの2つの最先端の2値類似性ツール,平均で49.84%,平均で15.83%を上回っていることがわかった。

A wide range of binary analysis applications, such as bug discovery, malware analysis and code clone detection, require recovery of contextual meanings on a binary code. Recently, binary analysis techniques based on machine learning have been proposed to automatically reconstruct the code representation of a binary instead of manually crafting specifics of the analysis algorithm. However, the existing approaches utilizing machine learning are still specialized to solve one domain of problems, rendering recreation of models for different types of binary analysis. In this paper, we propose DeepSemantic utilizing BERT in producing the semantic-aware code representation of a binary code. To this end, we introduce well-balanced instruction normalization that holds rich information for each of instructions yet minimizing an out-of-vocabulary (OOV) problem. DeepSemantic has been carefully designed based on our study with large swaths of binaries. Besides, DeepSemantic leverages the essence of the BERT architecture into re-purposing a pre-trained generic model that is readily available as a one-time processing, followed by quickly applying specific downstream tasks with a fine-tuning process. We demonstrate DeepSemantic with two downstream tasks, namely, binary similarity comparison and compiler provenance (i.e., compiler and optimization level) prediction. Our experimental results show that the binary similarity model outperforms two state-of-the-art binary similarity tools, DeepBinDiff and SAFE, 49.84% and 15.83% on average, respectively.
翻訳日:2021-06-11 14:06:09 公開日:2021-06-10
# 逆選択型階層的模倣学習

Adversarial Option-Aware Hierarchical Imitation Learning ( http://arxiv.org/abs/2106.05530v1 )

ライセンス: Link先を確認
Mingxuan Jing, Wenbing Huang, Fuchun Sun, Xiaojian Ma, Tao Kong, Chuang Gan, Lei Li(参考訳) 長期にわたる無注釈のデモンストレーションからエージェントのスキルを学ぶことは困難である。 階層的模倣学習(hil)のような既存のアプローチは、エラーや副最適解を複雑化する傾向がある。 本稿では,長距離学習のための新しい手法であるOption-GAILを提案する。 Option-GAILのキーとなるアイデアは、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーをトレーニングすることだ。 特に,期待最大化(em)方式のアルゴリズムを提案する。e-stepは現在の学習方針に基づく専門家の選択肢をサンプリングし,m-stepはエージェントの低レベルおよび高レベルポリシーを同時に更新し,新たに提案されたエキスパートとエージェント間のオプション占有率測定を最小化する。 提案するアルゴリズムの収束を理論的に証明する。 実験によると、option-gailはさまざまなタスクにおいて、他のオプションよりも優れています。

It has been a challenge to learning skills for an agent from long-horizon unannotated demonstrations. Existing approaches like Hierarchical Imitation Learning(HIL) are prone to compounding errors or suboptimal solutions. In this paper, we propose Option-GAIL, a novel method to learn skills at long horizon. The key idea of Option-GAIL is modeling the task hierarchy by options and train the policy via generative adversarial optimization. In particular, we propose an Expectation-Maximization(EM)-style algorithm: an E-step that samples the options of expert conditioned on the current learned policy, and an M-step that updates the low- and high-level policies of agent simultaneously to minimize the newly proposed option-occupancy measurement between the expert and the agent. We theoretically prove the convergence of the proposed algorithm. Experiments show that Option-GAIL outperforms other counterparts consistently across a variety of tasks.
翻訳日:2021-06-11 14:05:44 公開日:2021-06-10
# 可変ロバストLQR層

Differentiable Robust LQR Layers ( http://arxiv.org/abs/2106.05535v1 )

ライセンス: Link先を確認
Ngo Anh Vien and Gerhard Neumann(参考訳) 本稿では,モデル不確実性と確率力学に基づく強化学習と模倣学習のための,微分可能な頑健なLQR層を提案する。 ロバストなlqr層はロバスト最適制御とモデルフリー学習の利点を活用できる。 制御系における確率性と不確実性モデリングのための新しいタイプの帰納バイアスを提供する。 特に,ロバストなlqr最適化プログラムを凸プログラムとして書き換えることで,効率的な識別手法を提案する。 最悪のケースコストの半確定プログラム)。 ニューラルネットワーク層の内部で凸最適化を使用することに関する最近の研究に基づいて、この最悪のコストを最適化する、完全に差別化可能なレイヤを開発する。 評価尺度 w.r.t の導出をモデルの未知パラメータ、モデル不確かさ、確率パラメータとして計算する。 確率的および不確実な領域における模倣学習と近似動的プログラミングの手法を実証する。 実験の結果,提案手法は不確定な状況下でロバストなポリシーを最適化でき,不確実性を直接モデル化しない既存の手法よりも大幅に優れた性能が得られることがわかった。

This paper proposes a differentiable robust LQR layer for reinforcement learning and imitation learning under model uncertainty and stochastic dynamics. The robust LQR layer can exploit the advantages of robust optimal control and model-free learning. It provides a new type of inductive bias for stochasticity and uncertainty modeling in control systems. In particular, we propose an efficient way to differentiate through a robust LQR optimization program by rewriting it as a convex program (i.e. semi-definite program) of the worst-case cost. Based on recent work on using convex optimization inside neural network layers, we develop a fully differentiable layer for optimizing this worst-case cost, i.e. we compute the derivative of a performance measure w.r.t the model's unknown parameters, model uncertainty and stochasticity parameters. We demonstrate the proposed method on imitation learning and approximate dynamic programming on stochastic and uncertain domains. The experiment results show that the proposed method can optimize robust policies under uncertain situations, and are able to achieve a significantly better performance than existing methods that do not model uncertainty directly.
翻訳日:2021-06-11 14:05:30 公開日:2021-06-10
# バックプロパゲーションの代わりにフロントコントリビューション

Front Contribution instead of Back Propagation ( http://arxiv.org/abs/2106.05569v1 )

ライセンス: Link先を確認
Swaroop Mishra, Anjana Arunkumar(参考訳) Deep Learningのいくつかのドメインにわたる卓越したトラックレコードは、エラーバックプロパゲーション(BP)の使用に起因している。 しかし、いくつかの研究により、実際の脳でBPを実行することは不可能であることが示されている。 また、BPは依然としてメモリ使用量と速度の重要かつ未解決のボトルネックとして機能している。 本稿では,BPのコンパクトな代替として,シンプルで斬新なFront-Contributionアルゴリズムを提案する。 最終層重みに関する全ての重みの寄与は、トレーニング開始前に計算され、全ての寄与は最終層の重みに付加される。 このアルゴリズムはネットワークを本質的に崩壊させ、最終層ではなく全重みの重み上げの必要性を予知する。 このパラメータの削減により、メモリ使用量が減少し、トレーニング速度が向上する。 近年提案されているBP近似アルゴリズムとは対照的に,提案アルゴリズムはBPと全く同じ出力を生成する。 予備実験では,提案アルゴリズムの有効性を実証した。 私たちの研究は、現在未調査の"事前貢献"を効果的に活用するための基盤を提供し、次世代のトレーニングアルゴリズムを刺激するのに役立ちます。

Deep Learning's outstanding track record across several domains has stemmed from the use of error backpropagation (BP). Several studies, however, have shown that it is impossible to execute BP in a real brain. Also, BP still serves as an important and unsolved bottleneck for memory usage and speed. We propose a simple, novel algorithm, the Front-Contribution algorithm, as a compact alternative to BP. The contributions of all weights with respect to the final layer weights are calculated before training commences and all the contributions are appended to weights of the final layer, i.e., the effective final layer weights are a non-linear function of themselves. Our algorithm then essentially collapses the network, precluding the necessity for weight updation of all weights not in the final layer. This reduction in parameters results in lower memory usage and higher training speed. We show that our algorithm produces the exact same output as BP, in contrast to several recently proposed algorithms approximating BP. Our preliminary experiments demonstrate the efficacy of the proposed algorithm. Our work provides a foundation to effectively utilize these presently under-explored "front contributions", and serves to inspire the next generation of training algorithms.
翻訳日:2021-06-11 14:05:14 公開日:2021-06-10
# 機械学習によるマルウェアの検出と分類のための自動化パイプラインの提案

Towards an Automated Pipeline for Detecting and Classifying Malware through Machine Learning ( http://arxiv.org/abs/2106.05625v1 )

ライセンス: Link先を確認
Nicola Loi, Claudio Borile, Daniele Ucci(参考訳) マルウェアの数(コンピュータや情報ネットワークにとって潜在的に有害なソフトウェアやコードフラグメント)の絶え間ない増加と、高度な回避と難読化技術の使用は、古典的なシグネチャベースのアプローチをひどく妨げている。 一方で、機械学習技術に基づくマルウェア検出システムは、分析時間を劇的に短縮し、回避や難読化技術に対してより堅牢であることが判明した、標準的なアプローチに代わる有望な手段を提供し始めた。 本稿では,Windows Portable Executable File (PE) を分類できるマルウェア分類パイプラインを提案する。 入力PEサンプルが与えられた場合、悪意または良性のいずれかに分類される。 悪意のある場合、パイプラインは脅威タイプ、家族、行動(s)を確立するためにさらに分析する。 提案したパイプラインを,約100万個のPEサンプルを含むオープンソースのデータセットEMBERで静的解析により検証した。 得られたマルウェア検出結果は,現状の他の学術研究に匹敵するものであり,また,悪意のあるサンプルの詳細な分類も提供する。 パイプラインで使用されるモデルは解釈可能な結果を提供し、セキュリティアナリストが自動パイプラインによる決定をよりよく理解するのに役立つ。

The constant growth in the number of malware - software or code fragment potentially harmful for computers and information networks - and the use of sophisticated evasion and obfuscation techniques have seriously hindered classic signature-based approaches. On the other hand, malware detection systems based on machine learning techniques started offering a promising alternative to standard approaches, drastically reducing analysis time and turning out to be more robust against evasion and obfuscation techniques. In this paper, we propose a malware taxonomic classification pipeline able to classify Windows Portable Executable files (PEs). Given an input PE sample, it is first classified as either malicious or benign. If malicious, the pipeline further analyzes it in order to establish its threat type, family, and behavior(s). We tested the proposed pipeline on the open source dataset EMBER, containing approximately 1 million PE samples, analyzed through static analysis. Obtained malware detection results are comparable to other academic works in the current state of art and, in addition, we provide an in-depth classification of malicious samples. Models used in the pipeline provides interpretable results which can help security analysts in better understanding decisions taken by the automated pipeline.
翻訳日:2021-06-11 14:04:57 公開日:2021-06-10
# dFDA-VeD: ダイナミックな将来需要対応車間通信システム

dFDA-VeD: A Dynamic Future Demand Aware Vehicle Dispatching System ( http://arxiv.org/abs/2106.05737v1 )

ライセンス: Link先を確認
Yang Guo and Tarique Anwar and Jian Yang and Jia Wu(参考訳) スマートモビリティの需要が高まる中、ライドシェアサービスは都市部で人気が高まっている。 これらのサービスは、利用可能な車両をピックアップポイントに送付することで、到着した旅行要求をサービスするシステムを維持している。 プロセスは社会的に経済的に利益を上げる必要があるため、特に交通需要や交通状況が厳しいため、配車作業は非常に困難である。 交通需要の不均一な分布のため、異なる地域での運行中に多くのアイドル車両が生産された。 既存の車両派遣システムのほとんどは、アイドル車両の移転のために静的な移転センターを設計した。 しかし、交通条件や需要分布は時間とともに動的に変化するため、静的解は進化する状況に適合しない。 本稿では,動的な将来需要対応型配車システムを提案する。 移動需要と交通条件の両方を考慮して移動センターを動的に探索することができる。 実世界のデータセット上でシステム評価を行い、実験における既存の最先端手法と比較し、いくつかの標準評価指標と運用時間の観点から比較した。 実験により,提案方式は供用率を大幅に改善し,運用コストが極めて小さくなることを示した。

With the rising demand of smart mobility, ride-hailing service is getting popular in the urban regions. These services maintain a system for serving the incoming trip requests by dispatching available vehicles to the pickup points. As the process should be socially and economically profitable, the task of vehicle dispatching is highly challenging, specially due to the time-varying travel demands and traffic conditions. Due to the uneven distribution of travel demands, many idle vehicles could be generated during the operation in different subareas. Most of the existing works on vehicle dispatching system, designed static relocation centers to relocate idle vehicles. However, as traffic conditions and demand distribution dynamically change over time, the static solution can not fit the evolving situations. In this paper, we propose a dynamic future demand aware vehicle dispatching system. It can dynamically search the relocation centers considering both travel demand and traffic conditions. We evaluate the system on real-world dataset, and compare with the existing state-of-the-art methods in our experiments in terms of several standard evaluation metrics and operation time. Through our experiments, we demonstrate that the proposed system significantly improves the serving ratio and with a very small increase in operation cost.
翻訳日:2021-06-11 14:04:38 公開日:2021-06-10
# 重み付き雑音を用いた非スムース確率最適化のための近最適高確率複雑性境界

Near-Optimal High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise ( http://arxiv.org/abs/2106.05958v1 )

ライセンス: Link先を確認
Eduard Gorbunov, Marina Danilova, Innokentiy Shibaev, Pavel Dvurechensky, Alexander Gasnikov(参考訳) データの実用的効率性とランダム性により、確率的一階法は大規模機械学習モデルのトレーニングに標準となっている。 ランダムな振る舞いはアルゴリズムの特定の実行を非常に最適でない目的値にさせるが、理論的な保証は通常目的値の期待に対して証明される。 したがって、アルゴリズムが小さな目標残差を高い確率で提供することを理論的に保証することが不可欠である。 既存の非滑らかな確率凸最適化の方法は、負のパワーまたは対数的な信頼度に依存するが、いくつかのNLPタスクのように実際には保持されない準ガウス雑音分布の仮定の下で、複雑性を持つ。 本稿では,この問題を解き,非ガウス雑音を用いた非滑らか凸確率確率最適化問題に対する信頼度に対数的依存を持つ最初の高確率収束結果を得る。 そこで本研究では,勾配クリッピングを用いた2つの確率的手法のステップサイズルールを提案する。 さらに,H\ より古い連続勾配を用いた一般化された滑らかな対象に対して解析を行い,両手法とも強い凸問題に対する拡張を提供する。 最後に,本研究では,第1の(加速)手法が,すべてのレジームにおいて最適な反復とoracleの複雑さを持ち,第2の手法が非スムース設定において最適であることを示す。

Thanks to their practical efficiency and random nature of the data, stochastic first-order methods are standard for training large-scale machine learning models. Random behavior may cause a particular run of an algorithm to result in a highly suboptimal objective value, whereas theoretical guarantees are usually proved for the expectation of the objective value. Thus, it is essential to theoretically guarantee that algorithms provide small objective residual with high probability. Existing methods for non-smooth stochastic convex optimization have complexity bounds with the dependence on the confidence level that is either negative-power or logarithmic but under an additional assumption of sub-Gaussian (light-tailed) noise distribution that may not hold in practice, e.g., in several NLP tasks. In our paper, we resolve this issue and derive the first high-probability convergence results with logarithmic dependence on the confidence level for non-smooth convex stochastic optimization problems with non-sub-Gaussian (heavy-tailed) noise. To derive our results, we propose novel stepsize rules for two stochastic methods with gradient clipping. Moreover, our analysis works for generalized smooth objectives with H\"older-continuous gradients, and for both methods, we provide an extension for strongly convex problems. Finally, our results imply that the first (accelerated) method we consider also has optimal iteration and oracle complexity in all the regimes, and the second one is optimal in the non-smooth setting.
翻訳日:2021-06-11 14:03:48 公開日:2021-06-10
# タンパク質工学のための適応機械学習

Adaptive machine learning for protein engineering ( http://arxiv.org/abs/2106.05466v1 )

ライセンス: Link先を確認
Brian L. Hie, Kevin K. Yang(参考訳) データから学習してタンパク質配列のエンコード機能を予測する機械学習モデルは、有用なタンパク質工学ツールとして登場しつつある。 しかし、これらのモデルを使って新しいタンパク質設計を提案する場合、タンパク質配列の膨大な組合せの複雑さに対処する必要がある。 本稿では,シーケンス・ツー・ファンクショナル・機械学習・サロゲートモデルを用いて,実験的な測定を行う。 まず,1ラウンドの機械学習最適化によるシーケンス選択について述べる。 次に、最適化されたシーケンスを発見し、複数のラウンドにわたるトレーニング、最適化、実験的な測定でモデルを改善することが目的であるシーケンシャル最適化について議論する。

Machine-learning models that learn from data to predict how protein sequence encodes function are emerging as a useful protein engineering tool. However, when using these models to suggest new protein designs, one must deal with the vast combinatorial complexity of protein sequences. Here, we review how to use a sequence-to-function machine-learning surrogate model to select sequences for experimental measurement. First, we discuss how to select sequences through a single round of machine-learning optimization. Then, we discuss sequential optimization, where the goal is to discover optimized sequences and improve the model across multiple rounds of training, optimization, and experimental measurement.
翻訳日:2021-06-11 14:02:43 公開日:2021-06-10
# 楕円型インタフェース問題に対する浅層ニューラルネットワークの不連続捕捉

A Discontinuity Capturing Shallow Neural Network for Elliptic Interface Problems ( http://arxiv.org/abs/2106.05587v1 )

ライセンス: Link先を確認
Wei-Fan Hu and Te-Sheng Lin and Ming-Chih Lai(参考訳) 本稿では,d$次元の区分的連続関数を近似し,楕円界面問題を解くための,新しい不連続な浅層ニューラルネットワーク(dcsnn)を開発した。 現在のネットワークには3つの新しい特徴がある: (i) ジャンプの不連続性を鋭く捉え、 (ii) 隠れた1つの層のみからなる完全に浅い、 (iii) 偏微分方程式(PDE)を解くために完全にメッシュフリーである。 まず,不連続関数をラベル付けするために1つの座標変数を拡大することにより,$d$次元のピースワイド連続関数を$(d+1)$次元空間で連続的に拡張し,さらに,この新たな拡張関数を表現するために浅いニューラルネットワークを構築した。 隠れた層が1つしかないため、トレーニングパラメータ(重みとバイアス)の数は、隠れた層で使用される次元とニューロンと線形にスケールする。 楕円界面方程式を解くために、ネットワークは、制御方程式の残差、境界条件、および界面跳躍条件からなる平均二乗誤差損失を最小化することによって訓練される。 本稿では,ネットワークの精度と効率を比較するために,一連の数値実験を行う。 我々のDCSNNモデルは、トレーニングされる必要のあるパラメータの適度な数だけ(ここではすべての数値例で使用される数百のパラメータ)のため、比較可能な効率がよい。 また,従来のグリッドベース没入インタフェース法 (IIM) による楕円型インタフェース問題に対する結果との比較を行った。 その結果,IIMの精度はIIMよりも高いことがわかった。 結論として,6次元問題を解くことで,現在のネットワークの高次元応用能力を示す。

In this paper, a new Discontinuity Capturing Shallow Neural Network (DCSNN) for approximating $d$-dimensional piecewise continuous functions and for solving elliptic interface problems is developed. There are three novel features in the present network; namely, (i) jump discontinuity is captured sharply, (ii) it is completely shallow consisting of only one hidden layer, (iii) it is completely mesh-free for solving partial differential equations (PDEs). We first continuously extend the $d$-dimensional piecewise continuous function in $(d+1)$-dimensional space by augmenting one coordinate variable to label the pieces of discontinuous function, and then construct a shallow neural network to express this new augmented function. Since only one hidden layer is employed, the number of training parameters (weights and biases) scales linearly with the dimension and the neurons used in the hidden layer. For solving elliptic interface equations, the network is trained by minimizing the mean squared error loss that consists of the residual of governing equation, boundary condition, and the interface jump conditions. We perform a series of numerical tests to compare the accuracy and efficiency of the present network. Our DCSNN model is comparably efficient due to only moderate number of parameters needed to be trained (a few hundreds of parameters used throughout all numerical examples here), and the result shows better accuracy (and less parameters) than other method using piecewise deep neural network in literature. We also compare the results obtained by the traditional grid-based immersed interface method (IIM) which is designed particularly for elliptic interface problems. Again, the present results show better accuracy than the ones obtained by IIM. We conclude by solving a six-dimensional problem to show the capability of the present network for high-dimensional applications.
翻訳日:2021-06-11 14:02:33 公開日:2021-06-10
# フェルミオン格子場理論のためのフローベースサンプリング

Flow-based sampling for fermionic lattice field theories ( http://arxiv.org/abs/2106.05934v1 )

ライセンス: Link先を確認
Michael S. Albergo, Gurtej Kanwar, S\'ebastien Racani\`ere, Danilo J. Rezende, Julian M. Urban, Denis Boyda, Kyle Cranmer, Daniel C. Hackett, Phiala E. Shanahan(参考訳) 正規化フローに基づくアルゴリズムは、漸近的に正確になる方法で複雑な確率分布をサンプリングする有望な機械学習アプローチとして登場している。 格子場理論の文脈において、原理実証研究はスカラー理論、ゲージ理論、統計システムに対するこのアプローチの有効性を実証している。 この研究は、粒子物理学の標準模型や多くの凝縮物質系の格子場理論の研究に適用するために必要とされる、動的フェルミオンを持つ理論のフローベースサンプリングを可能にするアプローチを開発する。 実演として, これらの手法は, 湯川相互作用を介してスカラー場に結合した無質量安定フェルミオンの2次元理論の場配置のサンプリングに応用される。

Algorithms based on normalizing flows are emerging as promising machine learning approaches to sampling complicated probability distributions in a way that can be made asymptotically exact. In the context of lattice field theory, proof-of-principle studies have demonstrated the effectiveness of this approach for scalar theories, gauge theories, and statistical systems. This work develops approaches that enable flow-based sampling of theories with dynamical fermions, which is necessary for the technique to be applied to lattice field theory studies of the Standard Model of particle physics and many condensed matter systems. As a practical demonstration, these methods are applied to the sampling of field configurations for a two-dimensional theory of massless staggered fermions coupled to a scalar field via a Yukawa interaction.
翻訳日:2021-06-11 14:02:02 公開日:2021-06-10
# 深層学習に基づく還元秩序モデルによるパラメータ依存流体のリアルタイムシミュレーション

Real-time simulation of parameter-dependent fluid flows through deep learning-based reduced order models ( http://arxiv.org/abs/2106.05722v1 )

ライセンス: Link先を確認
Stefania Fresca, Andrea Manzoni(参考訳) 異なる仮想シナリオにおける流体流動のシミュレーションは、エンジニアリングアプリケーションにおいて重要である。 しかし、例えば有限要素法に依拠する高忠実度フル次モデルでは、流体の流れをほぼリアルタイムにシミュレートしなければならないときは常に耐えられない。 例えば、適切な直交分解(POD)に依存する還元次数モデル(ROM)は、パラメータ依存の流体力学問題に対する高速な近似を提供する。 しかし、パラメータ化された非線形項を扱うための高価なハイパーリダクション戦略が必要であり、混合速度-圧力定式化が考慮された場合、リッチ化された縮小空間(あるいはペトロフ-ガレルキン射影)は、リアルタイムに信頼できる解の評価を妨げる可能性がある。 流体-構造相互作用の処理は、さらに高い困難を伴う。 提案したディープラーニング(DL)ベースのROMは、非線形トライアル多様体と還元力学の両方を非侵襲的に学習することで、これらの制限をすべて克服する。 そのためには、PODを通じて旧次元の縮小を実行し、トレーニング時間を実質的に向上させた後、ディープニューラルネットワークに依存する。 得られたPOD-DL-ROMは、シリンダーベンチマークの周りの流れ、固定された剛性ブロックに取り付けられた弾性ビームとラミナ非圧縮性フローの間の流体構造相互作用、大脳動脈瘤内の血流のほぼリアルタイムに正確な結果を提供する。

Simulating fluid flows in different virtual scenarios is of key importance in engineering applications. However, high-fidelity, full-order models relying, e.g., on the finite element method, are unaffordable whenever fluid flows must be simulated in almost real-time. Reduced order models (ROMs) relying, e.g., on proper orthogonal decomposition (POD) provide reliable approximations to parameter-dependent fluid dynamics problems in rapid times. However, they might require expensive hyper-reduction strategies for handling parameterized nonlinear terms, and enriched reduced spaces (or Petrov-Galerkin projections) if a mixed velocity-pressure formulation is considered, possibly hampering the evaluation of reliable solutions in real-time. Dealing with fluid-structure interactions entails even higher difficulties. The proposed deep learning (DL)-based ROMs overcome all these limitations by learning in a non-intrusive way both the nonlinear trial manifold and the reduced dynamics. To do so, they rely on deep neural networks, after performing a former dimensionality reduction through POD enhancing their training times substantially. The resulting POD-DL-ROMs are shown to provide accurate results in almost real-time for the flow around a cylinder benchmark, the fluid-structure interaction between an elastic beam attached to a fixed, rigid block and a laminar incompressible flow, and the blood flow in a cerebral aneurysm.
翻訳日:2021-06-11 14:01:51 公開日:2021-06-10