このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210614となっている論文です。

PDF登録状況(公開日: 20210614)

TitleAuthorsAbstract論文公表日・翻訳日
# 実用的な量子コンピューティング:量子アプローチによる波動方程式の解法

Practical Quantum Computing: solving the wave equation using a quantum approach ( http://arxiv.org/abs/2003.12458v2 )

ライセンス: Link先を確認
Adrien Suau, Gabriel Staffelbach, Henri Calandra(参考訳) 近年,偏微分方程式解の問題に対処しようとする数種類の量子アルゴリズムが考案されている。 1つの大きな量子回路を実行することにより、PDEの解を符号化することを目的とした「直接」量子アルゴリズム。 一方、PDEの解を近似する変分アルゴリズムは、いくつかの小さな量子回路を実行し、古典的なオプティマイザの利益を得る。 本研究では、[PCS, Costa, S. Jordan, A. Ostrander, Phys. Rev. A 99, 012323, 2019]で考案された波動方程式ソルバの「直接」量子アルゴリズムの1つに関連するコスト(現実的なゲートデータから生成される理想的なハードウェア上でのゲート番号と実行時間)を実験的に検討する。 量子波方程式解法の実装は、このアルゴリズムの理論的大域的複雑性と一致することを示す。 また,実装手順の詳細を説明し,改善の可能性について論じる。 最後に, 直接量子アルゴリズムは, 短期的に利用できないと思われる誤り訂正量子チップを必要とする場合でも, 量子コンピュータ上でいくつかのPDEを解くことができることを示す。

In the last years, several quantum algorithms that try to address the problem of partial differential equation solving have been devised. On one side, "direct" quantum algorithms that aim at encoding the solution of the PDE by executing one large quantum circuit. On the other side, variational algorithms that approximate the solution of the PDE by executing several small quantum circuits and making profit of classical optimisers. In this work we propose an experimental study of the costs (in terms of gate number and execution time on a idealised hardware created from realistic gate data) associated with one of the "direct" quantum algorithm: the wave equation solver devised in [PCS. Costa, S. Jordan, A. Ostrander, Phys. Rev. A 99, 012323, 2019]. We show that our implementation of the quantum wave equation solver agrees with the theoretical big-O complexity of the algorithm. We also explain in great details the implementation steps and discuss some possibilities of improvements. Finally, our implementation proves experimentally that some PDE can be solved on a quantum computer, even if the direct quantum algorithm chosen will require error-corrected quantum chips, which are not believed to be available in the short-term.
翻訳日:2023-05-27 18:22:52 公開日:2021-06-14
# 量子スペクトルクラスタリング

Quantum Spectral Clustering ( http://arxiv.org/abs/2007.00280v4 )

ライセンス: Link先を確認
Iordanis Kerenidis, Jonas Landman(参考訳) スペクトルクラスタリングは、非凸構造やネスト構造でデータをクラスタリングするための強力な教師なし機械学習アルゴリズムである。 グラフ理論のルーツとして、ラプラシアン行列のスペクトル特性を用いて、クラスタリングがより効率的である低次元空間にデータを投影する。 クラスタリングタスクの成功にもかかわらず、スペクトルクラスタリングは実際に、データセットのポイント数である$O(n^3)$の急成長する実行時間に悩まされている。 本研究では,スペクトルクラスタリングを行うエンドツーエンドの量子アルゴリズムを提案する。 量子アルゴリズムは2つの部分から構成されており、1つは投影されたラプラシアン行列に対応する量子状態の効率的な生成、2つ目は既存の$k$-meansアルゴリズムの量子アナログを適用することからなる。 どちらのステップも、クラスタの数、量子手続きから生じる精度とデータパラメータ、入力ベクトルの次元に多元的に依存する。 数値シミュレーションにより, 古典的立方体成長よりもかなりよい条件が考慮された場合, 平均$n$の漸近線形成長を示す。 この研究は、Incidence、Adjacency、およびグラフの投影されたラプラシア行列に対する効率的な計算と量子アクセスのためのルーチンを提供するため、他のグラフベースの量子機械学習アルゴリズムへの道を開く。

Spectral clustering is a powerful unsupervised machine learning algorithm for clustering data with non convex or nested structures. With roots in graph theory, it uses the spectral properties of the Laplacian matrix to project the data in a low-dimensional space where clustering is more efficient. Despite its success in clustering tasks, spectral clustering suffers in practice from a fast-growing running time of $O(n^3)$, where $n$ is the number of points in the dataset. In this work we propose an end-to-end quantum algorithm performing spectral clustering, extending a number of works in quantum machine learning. The quantum algorithm is composed of two parts: the first is the efficient creation of the quantum state corresponding to the projected Laplacian matrix, and the second consists of applying the existing quantum analogue of the $k$-means algorithm. Both steps depend polynomially on the number of clusters, as well as precision and data parameters arising from quantum procedures, and polylogarithmically on the dimension of the input vectors. Our numerical simulations show an asymptotic linear growth with $n$ when all terms are taken into account, significantly better than the classical cubic growth. This work opens the path to other graph-based quantum machine learning algorithms, as it provides routines for efficient computation and quantum access to the Incidence, Adjacency, and projected Laplacian matrices of a graph.
翻訳日:2023-05-11 23:18:56 公開日:2021-06-14
# Janes-Cummings格子における多体基底状態のロバストな調製

Robust Preparation of Many-body Ground States in Jaynes-Cummings Lattices ( http://arxiv.org/abs/2007.02218v2 )

ライセンス: Link先を確認
Kang Cai, Prabin Parajuli, Guilu Long, Chee Wei Wong, and Lin Tian(参考訳) Jaynes-Cummings (JC) 格子の強い相関分極は、整数充填におけるモット絶縁相と超流動相の間の量子相転移を示す。 このような相転移を観察する前提条件は、偏光子励起をJC格子に励起し、適切な基底状態に準備することである。 これまでの努力にもかかわらず、高い精度で多体状態を生成することは依然として困難である。 ここでは, 有限サイズJC格子における偏光子多体基底状態の最適化による堅牢な調製法を提案する。 ランダウ-ツェナー型推定法をこの有限サイズのシステムに適用し,選択された傾斜軌道に対する最適傾斜指数を導出することにより,準備状態の忠実度を大幅に向上させることができる。 数値シミュレーションにより、適切な傾斜軌道を選択することにより、ほぼ全てのパラメータ空間において、このアプローチの忠実度が一意に保たれることを示す。 このアプローチは、量子シミュレーターにおける高忠実性状態の準備に光を当て、実用的なデバイスによる量子シミュレーションの実装を進めることができる。

Strongly-correlated polaritons in Jaynes-Cummings (JC) lattices can exhibit quantum phase transitions between the Mott-insulating and superfluid phases at integer fillings. The prerequisite to observe such phase transitions is to pump polariton excitations into a JC lattice and prepare them into appropriate ground states. Despite previous efforts, it is still challenging to generate many-body states with high accuracy. Here we present an approach for the robust preparation of many-body ground states of polaritons in finite-sized JC lattices by optimized nonlinear ramping. We apply a Landau-Zener type of estimation to this finite-sized system and derive the optimal ramping index for selected ramping trajectories, which can greatly improve the fidelity of the prepared states. With numerical simulation, we show that by choosing an appropriate ramping trajectory, the fidelity in this approach can remain close to unity in almost the entire parameter space. This approach can shed light on high-fidelity state preparation in quantum simulators and advance the implementation of quantum simulation with practical devices.
翻訳日:2023-05-11 06:19:24 公開日:2021-06-14
# 負の宇宙定数を持つ塵崩壊における量子ポテンシャル

Quantum potential in dust collapse with a negative cosmological constant ( http://arxiv.org/abs/2007.10971v2 )

ライセンス: Link先を確認
Sandip Chowdhury, Kunal Pal, Kuntal Pal, Tapobrata Sarkar(参考訳) 関数型シュロディンガー形式論において、共動オブザーバによって見られるように、反ド・ジッターの背景に崩壊する塵を記述する波動関数は、結果の変動質量シュロディンガー方程式を量子等方振動子のそれとマッピングすることによって得られる。 この波動関数を用いて因果的ド・ブロイ・ボーム解析を行い、対応する量子ポテンシャルを得る。 量子効果を取り入れた変形変換によりバウンシング幾何学を構築する。 我々は、これを滑らかに一致する外部解を導出し、量子補正も行う。 量子ポテンシャルに由来する圧力項のため、初期崩壊解と負の宇宙定数は最小半径に達すると跳ね返り、一般相対性理論によって予測される古典特異点を回避する。

In the functional Schrodinger formalism, we obtain the wave function describing collapsing dust in an anti-de Sitter background, as seen by a co-moving observer, by mapping the resulting variable mass Schrodinger equation to that of the quantum isotonic oscillator. Using this wave function, we perform a causal de Broglie-Bohm analysis, and obtain the corresponding quantum potential. We construct a bouncing geometry via a disformal transformation, incorporating quantum effects. We derive the external solution that matches with this smoothly, and is also quantum corrected. Due to a pressure term originating from the quantum potential, an initially collapsing solution with a negative cosmological constant bounces back after reaching a minimum radius, and thereby avoids the classical singularity predicted by general relativity.
翻訳日:2023-05-08 20:50:15 公開日:2021-06-14
# 量子参照フレーム内の相対論的ベル試験

Relativistic Bell Test within Quantum Reference Frames ( http://arxiv.org/abs/2008.03317v2 )

ライセンス: Link先を確認
Lucas F. Streiter, Flaminia Giacomini, \v{C}aslav Brukner(参考訳) 相対論的量子情報の分野において、まだ広く議論されている問題は、巨大相対論的粒子に対するベルの不等式の絡み合いと違反の程度がフレーム独立であるかどうかである。 この問題の核心は、スピンが相対論的速度における運動量自由度と絡み合う影響である。 ここでは, 粒子対に対するベルの不等式が, 粒子の運動量の選択後であっても, 特殊相対論的に最大に破れることを示す。 この目的のために、量子参照フレームの方法論を用いて、実験フレームの観点から相対論的モーメントの重ね合わせ状態にある粒子の残りフレームに問題を変換する。 2つの粒子の相対運動が非線形である場合、実験室フレームにおけるベルの不等式違反の最適測定は「コヒーレント・ウィグナー回転」を含むことを示す。 さらに、ベルの不等式に違反する度合いは、量子参照フレームの選択とは無関係である。 その結果、エンタングルメントに基づく量子通信プロトコルを相対論的レジームに拡張する可能性が開けた。

A still widely debated question in the field of relativistic quantum information is whether entanglement and the degree of violation of Bell's inequalities for massive relativistic particles are frame independent or not. At the core of this question is the effect that spin gets entangled with the momentum degree of freedom at relativistic velocities. Here, we show that Bell's inequalities for a pair of particles can be maximally violated in a special-relativistic regime, even without any post-selection of the momentum of the particles. To this end, we use the methodology of quantum reference frames, which allows us to transform the problem to the rest frame of a particle, whose state can be in a superposition of relativistic momenta from the viewpoint of the laboratory frame. We show that, when the relative motion of two particles is non-collinear, the optimal measurements for violation of Bell's inequalities in the laboratory frame involve "coherent Wigner rotations". Moreover, the degree of violation of Bell's inequalities is independent of the choice of the quantum reference frame. Our results open up the possibility of extending entanglement-based quantum communication protocols to relativistic regimes.
翻訳日:2023-05-06 21:45:48 公開日:2021-06-14
# 非古典性に必要な非可換より厳密な条件

Conditions tighter than noncommutation needed for nonclassicality ( http://arxiv.org/abs/2009.04468v2 )

ライセンス: Link先を確認
David R. M. Arvidsson-Shukur, Jacob Chevalier Drori, Nicole Yunger Halpern(参考訳) 1933年にカークウッドが発見され、1945年にディラックが発見された。 カークウッド・ディラック分布(Kirkwood-Dirac、KD)は、量子物理学における非古典性の研究に用いられる。 KD分布は準確率分布であり、確率分布の量子一般化であり、負の要素や非現実の要素を持つことによって非古典的に振る舞うことができる。 負のKD要素は量子情報のスクランブルと潜在的な量子アドバンテージを表す。 非実要素は測定外乱と熱力学的非古典性をコードする。 KD分布の非古典性は作用素の非可換性から必然的に従うと信じられている。 非可換性は十分でないことを示す。 我々は、KD分布が非古典的であるための十分条件(同値で、古典的であるために必要な条件)を証明する。 また,様々な条件下で実現可能なkd非古典性も定量化する。 この研究は、非古典性に関する長年の疑問を解決し、量子の利点を設計するのに使うことができる。

Kirkwood discovered in 1933, and Dirac discovered in 1945, a representation of quantum states that has undergone a renaissance recently. The Kirkwood-Dirac (KD) distribution has been employed to study nonclassicality across quantum physics, from metrology to chaos to the foundations of quantum theory. The KD distribution is a quasiprobability distribution, a quantum generalization of a probability distribution, which can behave nonclassically by having negative or nonreal elements. Negative KD elements signify quantum information scrambling and potential metrological quantum advantages. Nonreal elements encode measurement disturbance and thermodynamic nonclassicality. KD distributions' nonclassicality has been believed to follow necessarily from noncommutation of operators. We show that noncommutation does not suffice. We prove sufficient conditions for the KD distribution to be nonclassical (equivalently, necessary conditions for it to be classical). We also quantify the KD nonclassicality achievable under various conditions. This work resolves long-standing questions about nonclassicality and may be used to engineer quantum advantages.
翻訳日:2023-05-03 02:53:15 公開日:2021-06-14
# マイクロ波誘起渦輸送による信号分離のための循環

Circulation by microwave-induced vortex transport for signal isolation ( http://arxiv.org/abs/2010.04118v2 )

ライセンス: Link先を確認
Brittany Richman and Jacob M. Taylor(参考訳) 磁場は時間反転対称性を壊し、光の非逆挙動を可能にするために多くの設定で利用される。 これは、様々なマイクロ波および光学的設定で使用される循環器やその他の要素の中核物理学である。 マイクロ波領域の商業循環器は通常強磁性材料と波動干渉を使用し、大きなデバイスと大きな磁場を必要とする。 しかし、センシングと計算のための量子情報デバイスは、小さなサイズ、低いフィールド、より良いオンチップ統合を必要とする。 XYモデルのような強磁性秩序に対する等価性は、ジョセフソン接合で接続された超伝導アイランドの配列を用いて、はるかに低い磁場で実現できる。 本稿では,そのような配列における単一渦の量子コヒーレント運動が非相反的挙動を誘導し,極低磁場および量子ビット実験に関連するマイクロ波周波数において,小型で中程度の帯域幅,低挿入損失循環器を実現することを示す。

Magnetic fields break time-reversal symmetry, which is leveraged in many settings to enable the nonreciprocal behavior of light. This is the core physics of circulators and other elements used in a variety of microwave and optical settings. Commercial circulators in the microwave domain typically use ferromagnetic materials and wave interference, requiring large devices and large fields. However, quantum information devices for sensing and computation require small sizes, lower fields, and better on-chip integration. Equivalences to ferromagnetic order -- such as the XY model -- can be realized at much lower magnetic fields by using arrays of superconducting islands connected by Josephson junctions. Here we show that the quantum-coherent motion of a single vortex in such an array suffices to induce nonreciprocal behavior, enabling a small-scale, moderate-bandwidth, and low insertion loss circulator at very low magnetic fields and at microwave frequencies relevant for experiments with qubits.
翻訳日:2023-04-29 15:36:29 公開日:2021-06-14
# humpty dumptyの欧州ジャーナリズムへの資金提供に関する批判的対応

A Critical Correspondence on Humpty Dumpty's Funding for European Journalism ( http://arxiv.org/abs/2011.00751v3 )

ライセンス: Link先を確認
Jukka Ruohonen(参考訳) この短い批判文は、ヨーロッパのジャーナリズムの革新と更新を支援するためにハンプティ・ダンプティ(別名グーグル)が組織したデジタルニュースイノベーション(DNI)基金について論じている。 トピックモデリングと批判的談話分析に基づいて、革新的プロジェクトはハンプティダンプティの古いビジネスモデルをほとんど模倣していることを示す。 これらの結果とそれに伴う批判的な議論により、この対応はプラットフォームとメディアの継続的な戦いに寄与する。

This short critical correspondence discusses the Digital News Innovation (DNI) fund orchestrated by Humpty Dumpty -- a.k.a. Google -- for helping European journalism to innovate and renew itself. Based on topic modeling and critical discourse analysis, the results indicate that the innovative projects mostly mimic the old business model of Humpty Dumpty. With these results and the accompanying critical discussion, this correspondence contributes to the ongoing battle between platforms and media.
翻訳日:2023-04-26 01:59:13 公開日:2021-06-14
# 複合粒子のアンダーソン局在

Anderson localization of composite particles ( http://arxiv.org/abs/2011.06279v2 )

ライセンス: Link先を確認
Fumika Suzuki, Mikhail Lemeshko, Wojciech H. Zurek, Roman V. Krems(参考訳) 複合量子粒子の翻訳自由度と内部自由度とのカップリングがランダムポテンシャルの局在に及ぼす影響について検討した。 二つの自由度の間の絡み合いは、量子状態の純度による逆参加比に課される上限による局所化を弱めることを示す。 本研究では, 2次元乱れ格子における高調波力と剛性回転子との2次元乱れ格子における2次元粒子系の数値計算を行う。 量子力学における内部状態の数が少ない場合でも,結合が局所化特性に劇的な影響を与えていることを示す。

We investigate the effect of coupling between translational and internal degrees of freedom of composite quantum particles on their localization in a random potential. We show that entanglement between the two degrees of freedom weakens localization due to the upper bound imposed on the inverse participation ratio by purity of a quantum state. We perform numerical calculations for a two-particle system bound by a harmonic force in a 1D disordered lattice and a rigid rotor in a 2D disordered lattice. We illustrate that the coupling has a dramatic effect on localization properties, even with a small number of internal states participating in quantum dynamics.
翻訳日:2023-04-24 07:48:17 公開日:2021-06-14
# 漸近量子チャネル識別における適応戦略はいつ有用か?

When are Adaptive Strategies in Asymptotic Quantum Channel Discrimination Useful? ( http://arxiv.org/abs/2011.06569v2 )

ライセンス: Link先を確認
Farzin Salek, Masahito Hayashi and Andreas Winter(参考訳) 各仮説が量子チャネルの漸近的に多数の独立なインスタンスを表す場合、漸近二項仮説テストの広範な研究を行い、そのテストは未知のチャネルを用いてその出力を観測することに基づいている。 量子状態の仮説としてよく知られた設定とは異なり、チャネルの使用に関して適応戦略と非適応戦略の間には根本的な区別があり、テスト戦略に異なる制限を課すことで、識別タスクのさらに多くの変種を導入する。 1)適応的および非適応的対称性試験指数の最初の分離は、非適応的戦略の誤差確率の一般的な下限から導かれる量子チャネルに対する適応的および非適応的対称性試験指数である。 2) 古典量子チャネルの場合,適応的戦略と非適応的戦略が対称(Chernoff)と非対称(Hoeffding, Stein)の両方において同じ誤差指数に導かれることを示す。 3) ある意味では, 従来のフィードフォワードや製品状態チャネル入力に制限された一般チャネル適応戦略が, 非適応的製品状態戦略の漸近的限界よりも優れているわけではないことを証明した。 (4) 本研究の応用として, 量子チャネルの識別能力について検討し, 古典的フィードバックと入力時の量子メモリを伴わない適応戦略は, 非適応テンソル製品入力戦略を超えて, 絡み合うチャネルの識別力を増加させないことを示した。

We present a broad investigation of asymptotic binary hypothesis testing, when each hypothesis represents asymptotically many independent instances of a quantum channel, and the tests are based on using the unknown channel and observing its output. Unlike the familiar setting of quantum states as hypotheses, there is a fundamental distinction between adaptive and non-adaptive strategies with respect to the channel uses, and we introduce a number of further variants of the discrimination tasks by imposing different restrictions on the test strategies. The following results are obtained: (1) The first separation between adaptive and non-adaptive symmetric hypothesis testing exponents for quantum channels, which we derive from a general lower bound on the error probability for non-adaptive strategies; the concrete example we analyze is a pair of entanglement-breaking channels. (2) We prove that for classical-quantum channels, adaptive and non-adaptive strategies lead to the same error exponents both in the symmetric (Chernoff) and asymmetric (Hoeffding, Stein) settings. (3) We prove, in some sense generalizing the previous statement, that for general channels adaptive strategies restricted to classical feed-forward and product state channel inputs are not superior in the asymptotic limit to non-adaptive product state strategies. (4) As an application of our findings, we address the discrimination power of quantum channels and show that adaptive strategies with classical feedback and no quantum memory at the input do not increase the discrimination power of entanglement-breaking channel beyond non-adaptive tensor product input strategies.
翻訳日:2023-04-24 07:28:51 公開日:2021-06-14
# 二層ハルデン系:チャーン相を接続する断熱通路のトポロジー特性

Bilayer Haldane system: Topological characterization and adiabatic passages connecting Chern phases ( http://arxiv.org/abs/2012.01021v2 )

ライセンス: Link先を確認
Sourav Bhattacharjee, Souvik Bandyopadhyay, Diptiman Sen, Amit Dutta(参考訳) 2つのチャーン絶縁体(特にハルダンモデル)の2層構造の完全な位相的特性を示し、バルク境界対応を明確に確立する。 適切に定義されたチャーン数は、システムの全位相を正確にマッピングし、占有バンドにおける退化が存在する場合でも、適切に定義されていることを示す。 重要な点は, 単層チャーン絶縁体の断熱的調製を実現する方法である。 これは、非同値な位相位相をユニタリに接続することができないため、これまでは大きな挑戦であった。 この難易度は,常にガッピングされるような方法で層間カップリングを分離的に変化させることによって回避できることを示した。 特に、二重層複合体の相図の完全な知識により、個々の単分子膜の異なるチャーン非等価相を接続する全ての断熱通路を即座に特定することができる。

We present a complete topological characterization of a bilayer composite of two Chern insulators (specifically, Haldane models) and explicitly establish the bulk-boundary correspondences. We show that an appropriately defined Chern number accurately maps out all the possible phases of the system and remains well-defined even in the presence of degeneracies in the occupied bands. Importantly, our result paves the way for realizing adiabatic preparation of monolayer Chern insulators. This has been a major challenge till date, given the impossibility of unitarily connecting inequivalent topological phases. We show that this difficulty can be circumvented by adiabatically varying the interlayer coupling in such a way that the system remains gapped at all times. In particular, a complete knowledge of the phase diagram of the bilayer composite immediately allows one to identify all such adiabatic passages which may connect the different Chern inequivalent phases of the individual monolayers.
翻訳日:2023-04-22 08:06:42 公開日:2021-06-14
# 混合状態における絡み合うくさびの再構成と相関測度:モジュラーフローと量子回復チャネル

Entanglement wedge reconstruction and correlation measures in mixed states: modular flows versus quantum recovery channels ( http://arxiv.org/abs/2012.04386v3 )

ライセンス: Link先を確認
Mahdis Ghodrati(参考訳) 本研究では、2つの対称ストリップのセットアップにおける混合状態間の相関の性質について検討する。 境界混合情報からバルク幾何を再構築する方法を決定するために,様々なツールを用いた。 これらのツールは、モジュラーハミルトンとモジュラーフロー、OPEブロック、ペッツ写像、ウルマンホロノミー、ウィルソン線のような量子回復チャネルである。 混合系の対称的なセットアップにおけるこれらのアプローチの類似点と接続点についてコメントする。 特に、重力の質量によってモデル化される散逸などのパラメータと、これらの異なるアプローチ間の接続を見つけるために、2つのストリップの同じ符号電荷を用いる。 次に、uhlmann fidelity を相関尺度として、discord のような混合系における様々な種類の相関を考察する。 次に、モジュラーハミルトニアンによるフェルミオンの単純な結果を用いて、モジュラーフローとエンタングルメントと浄化の複雑さ(EoP/CoP)の関係や、凝縮幾何学におけるモジュラーフローの挙動について考察する。 最後に,様々な情報速度とCFTにおけるヴォイド生成モデルを用いて相関関係のダイナミクスについて検討し,またEoPとCoPの挙動との関係についてコメントする。

In this work we study the nature of correlations among mixed states in the setup of two symmetric strips. We use various tools to determine how the bulk geometry could be reconstructed from the boundary mixed information. These tools would be the modular Hamiltonian and modular flow, OPE blocks, quantum recovery channels such as Petz map, Uhlmann holonomy and Wilson lines. We comment on the similarities and connections between these approaches in our symmetric setup of a mixed system. Specially, we use parameters such as dissipation which is being modeled by the mass of graviton, and also the same sign charge of the two strips to find connections between these different approaches. Then, using Uhlmann fidelity as the correlation measure, we look into the various types of correlations in mixed systems such as discord. Next, we use simple results of modular Hamiltonian for fermions to get insights about the relations between modular flow and entanglement and complexity of purification (EoP/CoP), and also behavior of modular flows in confining geometries. Finally, we study the dynamics of correlations using various information speeds and also model of void formation in CFTs and again we comment on their relationships with the behavior of EoP and CoP.
翻訳日:2023-04-21 18:33:23 公開日:2021-06-14
# バイパルタイト絡み合ったガウス状態における一粒子と二粒子の可視性

One-particle and two-particle visibilities in bipartite entangled Gaussian states ( http://arxiv.org/abs/2012.12338v2 )

ライセンス: Link先を確認
Danko Georgiev, Leon Bello, Avishy Carmi, Eliahu Cohen(参考訳) 離散系における一粒子と二粒子の可視性の間の相補性は、量子絡み合ったガウス状態に拡張することができる。 元々jaeger, horne, shimony, vaidmanが定義した2粒子視認性の意味は、まず2粒子の確率分布を、絡み合いの度合いの異なる他の分布を追加・減算することで補正する間接的手法を用いているが、それ以上の分析には値しない。 さらに、1粒子の可視性と2粒子の可視性の間の相補性の起源は幾分分かりやすく、特定の2粒子の量子観測性と2粒子の可視性とを関連付ける最良の方法が何かははっきりしない。 そこで本研究では, 単粒子観測器の対と適合する2粒子観測器の対の測定に基づいて, 2粒子視認性を直接定量化する手法を開発した。 観測可能な2粒子のそれぞれについて、対応する可視性が計算され、その後、後者の対の可視性の絶対差が2粒子可視性の再定義と見なされる。 提案手法は, 4つの観測可能な分布を, 元の2粒子確率分布の回転辺分布として正式に同定することにより, 2対の1粒子あるいは2粒子の観測可能な2つの対を扱う数学的対称性を明らかにする。 直接法により得られる一粒子可視性と二粒子可視性の間の相補性関係は、絡み合ったガウス状態が理想的なEPR状態に近づく無限ガウス精度の極限において正確である。 本研究は, 2粒子可視性を明らかにするための回転辺分布の理論的有用性を示し, 連続変数を用いた量子アプリケーション開発のためのツールを提供する。

Complementarity between one- and two-particle visibility in discrete systems can be extended to bipartite quantum-entangled Gaussian states. The meaning of the two-particle visibility originally defined by Jaeger, Horne, Shimony, and Vaidman with the use of an indirect method that first corrects the two-particle probability distribution by adding and subtracting other distributions with varying degree of entanglement, however, deserves further analysis. Furthermore, the origin of complementarity between one-particle visibility and two-particle visibility is somewhat elusive and it is not entirely clear what is the best way to associate particular two-particle quantum observables with the two-particle visibility. Here, we develop a direct method for quantifying the two-particle visibility based on measurement of a pair of two-particle observables that are compatible with the measured pair of single-particle observables. For each of the two-particle observables the corresponding visibility is computed, after which the absolute difference of the latter pair of visibilities is considered as a redefinition of the two-particle visibility. Our approach reveals a mathematical symmetry as it treats the two pairs of one-particle or two-particle observables on equal footing by formally identifying all four observable distributions as rotated marginal distributions of the original two-particle probability distribution. The complementarity relation between one-particle visibility and two-particle visibility obtained with the direct method is exact in the limit of infinite Gaussian precision where the entangled Gaussian state approaches an ideal EPR state. The presented results demonstrate the theoretical utility of rotated marginal distributions for elucidating the nature of two-particle visibility and provide tools for the development of quantum applications employing continuous variables.
翻訳日:2023-04-19 21:46:31 公開日:2021-06-14
# 光ファイバにおける単光子スピン軌道絡み合い状態

Single-Photon Spin-Orbit Entangled States in Optical Fibers ( http://arxiv.org/abs/2101.03346v3 )

ライセンス: Link先を確認
Li Yang, Ziyi Yang, Huaxing Xu(参考訳) 光ファイバの偶数および奇数ベクトルモードは軌道角運動量モードの線形結合で表され、単光子スピン軌道絡み状態と見なされる。 繊維構造を可能とした状態を生成する。

Even and odd vector modes in optical fibers are represented with linear combinations of orbital angular momentum modes, and considered as single-photon spin-orbit entangled states. It renders generating such states with fiber structures possible.
翻訳日:2023-04-17 06:29:26 公開日:2021-06-14
# 量子ウォークによる位相アンダーソン遷移の探索

Probing the topological Anderson transition with quantum walks ( http://arxiv.org/abs/2102.01176v2 )

ライセンス: Link先を確認
Dmitry Bagrets, Kun Woo Kim, Sonja Barkhofen, Syamsundar De, Jan Sperling, Christine Silberhorn, Alexander Altland, Tobias Micklitz(参考訳) 我々は、合成的に導入された障害と調整可能なシステムパラメータを持つ光線形ネットワークにおける1次元量子ウォークを考える。 ウォーカーの確率分布を直接モニターするオプションにより、この光学プラットフォームは1次元の位相アンダーソン遷移の特異なシグネチャを実験的に観察するのに理想的に適している。 量子臨界歩行を記述する確率分布を(時差)スピン偏光信号を用いて解析的に計算し,その測定のための具体的な実験プロトコルを提案する。 現在の実験ハードウェアを用いた青写真の実現可能性に関する数値シミュレーション

We consider one-dimensional quantum walks in optical linear networks with synthetically introduced disorder and tunable system parameters allowing for the engineered realization of distinct topological phases. The option to directly monitor the walker's probability distribution makes this optical platform ideally suited for the experimental observation of the unique signatures of the one-dimensional topological Anderson transition. We analytically calculate the probability distribution describing the quantum critical walk in terms of a (time staggered) spin polarization signal and propose a concrete experimental protocol for its measurement. Numerical simulations back the realizability of our blueprint with current date experimental hardware.
翻訳日:2023-04-13 02:37:33 公開日:2021-06-14
# 量子マルコフ連鎖に対する完全エントロピー不等式

Complete entropic inequalities for quantum Markov chains ( http://arxiv.org/abs/2102.04146v3 )

ライセンス: Link先を確認
Li Gao and Cambyse Rouz\'e(参考訳) 有限次元行列代数上のすべての GNS-対称量子マルコフ半群は、修正対数ソボレフの不等式を満たすことを証明する。 離散時間設定では、すべての有限次元GNS対称量子チャネルがそのデコヒーレンス自由部分に関して強いデータ処理の不等式を満たすことを証明している。 さらに、相対エントロピーの最初の一般近似テンソル化特性を確立する。 これにより、2つのサブシステムの量子エントロピー(SSA)の有名な強部分付加性が、2つのサブ代数の一般設定に拡張される。 3つの結果は環境の大きさとは独立であり、したがってテンソル化特性を満たす。 これらは、スペクトルまたは$l_2$-estimatesによるエントロピーの不等式を証明する共通の概念的に単純な方法によって得られる。 応用として、修正された対数ソボレフの不等式と近似テンソル化の結果を組み合わせて、$\operatorname{SU}(2)$上の部分ラプラシアンの表現や量子Kac生成器や連続時間近似ユニタリ設計のような局所量子マルコフ半群の様々なクラスを含む理論的および実践的関係の例を導出する。 後者の場合、我々の境界は、局所連続時間(英語版) (local continuous time) Markovian evolutions on $nk$ qudits formed $\epsilon$-approximate $k$-designs in relative entropy for times scale as $\widetilde{\mathcal{O}}(n^2 \operatorname{poly}(k))$であることを意味する。

We prove that every GNS-symmetric quantum Markov semigroup on a finite dimensional matrix algebra satisfies a modified log-Sobolev inequality. In the discrete time setting, we prove that every finite dimensional GNS-symmetric quantum channel satisfies a strong data processing inequality with respect to its decoherence free part. Moreover, we establish the first general approximate tensorization property of relative entropy. This extends the famous strong subadditivity of the quantum entropy (SSA) of two subsystems to the general setting of two subalgebras. All the three results are independent of the size of the environment and hence satisfy the tensorization property. They are obtained via a common, conceptually simple method for proving entropic inequalities via spectral or $L_2$-estimates. As applications, we combine our results on the modified log-Sobolev inequality and approximate tensorization to derive bounds for examples of both theoretical and practical relevance, including representation of sub-Laplacians on $\operatorname{SU}(2)$ and various classes of local quantum Markov semigroups such as quantum Kac generators and continuous time approximate unitary designs. For the latter, our bounds imply the existence of local continuous time Markovian evolutions on $nk$ qudits forming $\epsilon$-approximate $k$-designs in relative entropy for times scaling as $\widetilde{\mathcal{O}}(n^2 \operatorname{poly}(k))$.
翻訳日:2023-04-12 05:36:46 公開日:2021-06-14
# 種間相互作用クエンチ後のBose-Bose混合系の持続電流

Persistent currents in Bose-Bose mixtures after an interspecies interaction quench ( http://arxiv.org/abs/2102.08219v2 )

ライセンス: Link先を確認
Dominique Spehner, Luis Morales-Molina, and Sebasti\'an Reyes(参考訳) 2つの原子気体(以下、a,b)によって形成されたボース・ボース混合物における持続的な電流と種間の絡み合いの発生について、突然0から強い相互作用が生じた後、人工ゲージ場を有する1次元リング格子ポテンシャルに閉じ込められた。 これらの相互作用の強さが単一種のエネルギーよりもはるかに大きく、ガスAが当初モット絶縁体系にあると仮定すると、相互作用クエンチの前の値に対してガスBの電流は減少する。 高速発振を平均化すると、この電流の相対的な減少はガスBの初期可視性とピエルス相とは独立であり、ガスAの可視性と2次的に振る舞う。

We study the persistent currents and interspecies entanglement generation in a Bose-Bose mixture formed by two atomic gases (hereafter labelled by the letters A and B) trapped in a one-dimensional ring lattice potential with an artificial gauge field after a sudden quench from zero to strong interactions between the two gases. Assuming that the strength of these interactions is much larger than the single species energies and that the gas A is initially in the Mott-insulator regime, we show that the current of the gas B is reduced with respect to its value prior the interaction quench. Averaging fast oscillations out, the relative decrease of this current is independent of the initial visibility and Peierls phase of the gas B and behaves quadratically with the visibility of the gas A. The second R\'enyi entropy of the reduced state measuring the amount of entanglement between the two gases is found to scale linearly with the number of sites and to be proportional to the relative decrease of the current.
翻訳日:2023-04-11 00:23:47 公開日:2021-06-14
# スタイルベース生成モデルを用いた事前制約画像再構成

Prior Image-Constrained Reconstruction using Style-Based Generative Models ( http://arxiv.org/abs/2102.12525v2 )

ライセンス: Link先を確認
Varun A. Kelkar, Mark A. Anastasio(参考訳) 高度に不完全な撮像測定から物体の有用な推定を得ることは、画像科学の聖杯である。 深層学習手法は、対象の事前学習や制約が不適切な画像逆問題に対する条件付けを改善することを約束している。 本研究では,既知の先行画像と意味的に関連のある対象を推定するための枠組みを提案する。 スタイルベース生成モデルの非絡み付き潜在空間に最適化問題を定式化し、前画像の非絡み付き潜在表現を用いて意味的に有意な制約を課す。 先行画像の助けを借りて不完全測定からの安定回復を理論的に解析する。 関連する手法と比較して,提案手法の優れた性能を示す数値実験を行った。

Obtaining a useful estimate of an object from highly incomplete imaging measurements remains a holy grail of imaging science. Deep learning methods have shown promise in learning object priors or constraints to improve the conditioning of an ill-posed imaging inverse problem. In this study, a framework for estimating an object of interest that is semantically related to a known prior image, is proposed. An optimization problem is formulated in the disentangled latent space of a style-based generative model, and semantically meaningful constraints are imposed using the disentangled latent representation of the prior image. Stable recovery from incomplete measurements with the help of a prior image is theoretically analyzed. Numerical experiments demonstrating the superior performance of our approach as compared to related methods are presented.
翻訳日:2023-04-10 00:46:59 公開日:2021-06-14
# 側方ファンデルワールス力のピーク・バレー・中間状態

Peak, valley and intermediate regimes in the lateral van der Waals force ( http://arxiv.org/abs/2103.07796v3 )

ライセンス: Link先を確認
Edson C. M. Nogueira, Lucas Queiroz, Danilo T. Alves(参考訳) 偏光性粒子と接地された導電性表面との間のファンデルワールス(vdW)相互作用について検討した。 正弦波の波形について、横のvdw力の作用下では、等方性粒子は常に最寄りの波形ピークに惹かれることを知っており、この挙動は、本論文でピークレジームと呼ばれる。 ここでは、異方性偏光性粒子を考慮し、近接力近似(PFA)を超えて解析的な計算を行うことにより、アトラクションがピークに向けられているだけでなく、表面からの距離や特定の粒子方向に対して、横力は粒子を最も近いコルゲーション・バレー(バレー・レギュレーション)、あるいはピークとバレーの間の中間点まで引き寄せることを示す。 また,斜面と谷域の遷移形態において,波形面の存在下でも横方向のvdw力が消失することを示した。 さらに、これらの新規則は一般に周期的および非周期的共役曲面に対して発生する。 さらに, 中性偏光粒子と粗面との古典的相互作用に類似した構造が現れることを示した。 これらの谷と中間のレジームの記述は、pfaに基づく予測の到達範囲外であり、古典物理学と量子物理学における異方性粒子と波形表面の相互作用をよりよく理解するために、両方の領域で実験的な検証が可能となる。

We study the van der Waals (vdW) interaction between a polarizable particle and a grounded conducting corrugated surface. For sinusoidal corrugations, one knows that, under the action of the lateral vdW force, an isotropic particle is always attracted to the nearest corrugation peak, with such behavior called in the present paper as peak regime. Here, considering an anisotropic polarizable particle, and making analytical calculations valid beyond the proximity force approximation (PFA), we show that the attraction is not only toward the peaks, but, for certain particle orientations and distances from the surface, the lateral force attracts the particle to the nearest corrugation valley (valley regime), or even to an intermediate point between a peak and a valley (intermediate regime). We also show that in the configurations of transition between the peak and valley regimes the lateral vdW force vanishes, even in the presence of a corrugated surface. In addition, we find that these new regimes occur in general, for periodic and nonperiodic corrugated surfaces. Moreover, we demonstrate that similar regimes arise in the classical interaction between a neutral polarized particle and a rough surface. The description of these valley and intermediate regimes, which are out of reach of the predictions based on the PFA, may be relevant for a better understanding of the interaction between anisotropic particles and corrugated surfaces in classical and quantum physics, with experimental verifications feasible in both domains.
翻訳日:2023-04-08 06:22:30 公開日:2021-06-14
# 定数円におけるポスト量子ブラックボックスゼロノウレッジの不可能性について

On the Impossibility of Post-Quantum Black-Box Zero-Knowledge in Constant Rounds ( http://arxiv.org/abs/2103.11244v2 )

ライセンス: Link先を確認
Nai-Hui Chia and Kai-Min Chung and Qipeng Liu and Takashi Yamakawa(参考訳) 我々は,$\mathbf{np}$ に対する定数後量子ブラックボックスゼロ知識プロトコルの存在について検討する。 主な結果として、$\mathbf{NP}\subseteq \mathbf{BQP}$ がなければ、$\mathbf{NP}$ に対する定ラウンドのブラックボックスゼロ知識引数は存在しない。 定数付きブラックボックス ゼロ知識引数 $\mathbf{np}$ が古典的設定に存在するので、我々の主な結果は、ポスト量子と古典的ゼロ知識プロトコルの根本的な違いを指摘している。 従来の結果を組み合わせると、$\mathbf{np}\subseteq \mathbf{bqp}$, constant-round post-quantum zero-knowledge protocol for $\mathbf{np}$ がなければ、非ブラックボックス技術を使用するか、標準ゼロ知識を$\epsilon$-zero-knowledgeに緩和するといったセキュリティ要件を緩和する場合に限り、このプロトコルが存在する。 さらに、3ラウンドおよび公開コインの定数付き黒線ボックス $\epsilon$-zero-knowledge arguments for $\mathbf{np}$ は、$\mathbf{np}\subseteq \mathbf{bqp}$ でない限り存在しないことも証明する。

We investigate the existence of constant-round post-quantum black-box zero-knowledge protocols for $\mathbf{NP}$. As a main result, we show that there is no constant-round post-quantum black-box zero-knowledge argument for $\mathbf{NP}$ unless $\mathbf{NP}\subseteq \mathbf{BQP}$. As constant-round black-box zero-knowledge arguments for $\mathbf{NP}$ exist in the classical setting, our main result points out a fundamental difference between post-quantum and classical zero-knowledge protocols. Combining previous results, we conclude that unless $\mathbf{NP}\subseteq \mathbf{BQP}$, constant-round post-quantum zero-knowledge protocols for $\mathbf{NP}$ exist if and only if we use non-black-box techniques or relax certain security requirements such as relaxing standard zero-knowledge to $\epsilon$-zero-knowledge. Additionally, we also prove that three-round and public-coin constant-round post-quantum black-box $\epsilon$-zero-knowledge arguments for $\mathbf{NP}$ do not exist unless $\mathbf{NP}\subseteq \mathbf{BQP}$.
翻訳日:2023-04-07 08:23:59 公開日:2021-06-14
# アインシュタインのミラーの実現:熱フォトンガスによる光学機械制振

Realising Einstein's mirror: Optomechanical damping with a thermal photon gas ( http://arxiv.org/abs/2104.02708v2 )

ライセンス: Link先を確認
A. T. M. Anishur Rahman and P. F. Barker(参考訳) 1909年、アインシュタインは熱光子との衝突による黒体腔内の鏡の熱化について記述した。 マイクロスケールやナノスケールの物体の運動を熱分解する時間は非常に長く、実現不可能であるが、増幅された熱光源からの高輝度光を化学ポテンシャルでよく定義していることが示されている。 本研究では, 浮遊ナノ粒子などの微小光学系において, この効果による質量運動中心の減衰を秒単位の時間スケールで予測し, 実験を行った。

In 1909 Einstein described the thermalization of a mirror within a blackbody cavity by collisions with thermal photons. While the time to thermalize the motion of even a microscale or nanoscale object is so long that it is not feasible, we show that it is using the high intensity light from an amplified thermal light source with a well-defined chemical potential. We predict damping of the center-of mass motion due to this effect on times scales of seconds for small optomechanical systems, such as levitated nanoparticles, allowing experimental observation.
翻訳日:2023-04-05 06:08:47 公開日:2021-06-14
# 任意の一次元ポテンシャルにおける相互作用ボソンの基底状態に対する対相関アンサッツ

Pair-correlation ansatz for the ground state of interacting bosons in an arbitrary one-dimensional potential ( http://arxiv.org/abs/2104.07953v2 )

ライセンス: Link先を確認
Przemys{\l}aw Ko\'scik, Arkadiusz Kuro\'s, Adam Pieprzycki, Tomasz Sowi\'nski(参考訳) 任意の形状の1次元トラップに閉じ込められたいくつかの超低温ボソン系の基底状態の非常に正確な変分スキームを導出し、記述する。 すべての粒子間相関が2体の性質を持つという仮定に基づいている。 構成上、提案されたアンサッツは非相互作用極限において完全であり、接触相互作用によって強制される境界条件を正確にエンコードし、無限反発の限界における精度を完全に制御する。 異なる外部ポテンシャルに対する全ての中間相互作用において、その効率を示す。 以上の結果から,非放物的ポテンシャルに対する相互相関関係は距離依存関数では捉えられないことが明らかとなった。

We derive and describe a very accurate variational scheme for the ground state of the system of a few ultra-cold bosons confined in one-dimensional traps of arbitrary shapes. It is based on assumption that all inter-particle correlations have two-body nature. By construction, the proposed ansatz is exact in the noninteracting limit, exactly encodes boundary conditions forced by contact interactions, and gives full control on accuracy in the limit of infinite repulsions. We show its efficiency in a whole range of intermediate interactions for different external potentials. Our results manifest that for generic non-parabolic potentials mutual correlations forced by interactions cannot be captured by distance-dependent functions.
翻訳日:2023-04-03 11:04:32 公開日:2021-06-14
# フェルミオンのガウス混合状態に対するチャーン数とベリー曲率

Chern number and Berry curvature for Gaussian mixed states of fermions ( http://arxiv.org/abs/2104.12115v2 )

ライセンス: Link先を確認
Lukas Wawer and Michael Fleischhauer(参考訳) 1次元格子モデルから2次元に導入されたアンサンブル幾何位相(egp)に基づいて混合状態に対する位相不変量の概念を一般化する。 ユルマンによって提案された密度行列の幾何学的位相とは対照的に、EGPはガウス、有限温度、あるいは非平衡定常状態のチャーン数を導く。 チャーン数は、2次元ブリルアンゾーン上の単粒子相関から構築されたいわゆる架空のハミルトニアンのベリー曲率の積分として表現することができる。 チャーン数がゼロでないためには、虚数ハミルトニアンは時間反転対称性を破らなければならない。

We generalize the concept of topological invariants for mixed states based on the ensemble geometric phase (EGP) introduced for one-dimensional lattice models to two dimensions. In contrast to the geometric phase for density matrices suggested by Uhlmann, the EGP leads a proper Chern number for Gaussian, finite-temperature or non-equilibrium steady states. The Chern number can be expressed as an integral of the Berry curvature of the so-called fictitious Hamiltonian, constructed from single-particle correlations, over the two-dimensional Brillouin zone. For the Chern number to be non-zero the fictitious Hamiltonian has to break time-reversal symmetry.
翻訳日:2023-04-02 11:08:53 公開日:2021-06-14
# 強対称性下における開量子系における連成活動電流ゆらぎ

Coupled activity-current fluctuations in open quantum systems under strong symmetries ( http://arxiv.org/abs/2104.13176v2 )

ライセンス: Link先を確認
D. Manzano, M.A. Mart\'inez-Garc\'ia, and P.I. Hurtado(参考訳) 開量子系における強い対称性は、エルゴード性の破れと複数の縮退定常状態の出現に繋がる。 量子ジャンプ(軌道)の観点からは、複数の定常状態の出現は変動レベルでの動的相転移(DPT)と関連しており、対称性によって分類された異なる輸送チャネルの動的共存をもたらす。 本稿では,磁場の作用下で熱浴と接触する3量子ビットモデルであるマルコフ開量子系の移動特性と活動パターンに強い対称性が与える影響について検討する。 負の励起子電流の対称相とゼロ電流交換反対称相が共存する、強い対称性と時間の可逆性によって引き起こされる励起子電流統計学において、2つのdptの対を見いだす。 一方、アクティビティ統計は、異なるがゼロでないアクティビティの対称相と反対称相が動的に共存する単一のDPTを示す。 非平衡条件下での強い対称性の存在は、臨界しきい値以下のアクティビティに対するアクティビティ駆動電流ロックダウンフェーズを含む、2つのアクティビティ電流平面における動的自由エネルギーの非解析性を意味する。 最後に,本モデルにおける同期活動電流統計量に対する対称破砕・エルゴディディディティ復元脱落チャネルの効果について検討した。 興味深いことに、このノイズが対称性によって引き起こされるdptsを破壊する一方で、基礎となる位相対称性は、異なる対称性セクタ間の間欠的およびバースト的オン/オフダイナミクスの形で動的指紋を残している。

Strong symmetries in open quantum systems lead to broken ergodicity and the emergence of multiple degenerate steady states. From a quantum jump (trajectory) perspective, the appearance of multiple steady states is related to underlying dynamical phase transitions (DPTs) at the fluctuating level, leading to a dynamical coexistence of different transport channels classified by symmetry. In this paper, we investigate how strong symmetries affect both the transport properties and the activity patterns of a particular class of Markovian open quantum system, a three-qubit model under the action of a magnetic field and in contact with a thermal bath. We find a pair of twin DPTs in exciton current statistics, induced by the strong symmetry and related by time reversibility, where a zero-current exchange-antisymmetric phase coexists with a symmetric phase of negative exciton current. On the other hand, the activity statistics exhibits a single DPT where the symmetric and antisymmetric phases of different but nonzero activities dynamically coexists. The presence of a strong symmetry under non-equilibrium conditions implies non-analyticities in the dynamical free energy in the dual activity-current plane, including an activity-driven current lockdown phase for activities below some critical threshold. Finally, we also study the effect of a symmetry-breaking, ergodicity-restoring dephasing channel on the coupled activity-current statistics for this model. Interestingly, we observe that while this dephasing noise destroys the symmetry-induced DPTs, the underlying topological symmetry leaves a dynamical fingerprint in the form of intermittent, bursty on/off dynamics between the different symmetry sectors.
翻訳日:2023-04-02 06:50:01 公開日:2021-06-14
# 繰り返し符号を用いた量子シミュレーションにおける読み出しの改善

Improving readout in quantum simulations with repetition codes ( http://arxiv.org/abs/2105.13377v2 )

ライセンス: Link先を確認
Jakob M. G\"unther, Francesco Tacchino, James R. Wootton, Ivano Tavernelli, Panagiotis Kl. Barkoutsos(参考訳) 近い将来、量子コンピュータは異なるノイズ源の存在に悩まされる。 この効果を緩和し、はるかに高い精度で結果を得るためには、効率的な誤り訂正やエラー緩和スキームを設計することが必要である。 このような技術のコストは通常、ハードウェアやアルゴリズムレベルでのリソース要件の観点から高くなります。 本研究では,量子化学や物理学に関心のある問題に対して,より正確な解を提供する可能性を備えたスケーラブルなスキームとして繰り返し符号を用いる。 我々は、異なる繰り返しコードレイアウトを調査し、ibm量子ハードウェアにネイティブな接続要件を持つ円形反復スキームを提案する。 提案手法を複数のIBM量子デバイスで実証し, 簡易な理論ノイズモデルによる評価を行った。 提案手法を電子構造VQE計算および量子イジングモデルにおける時間発展シミュレーションにおいて用いることの効果を強調した。

Near term quantum computers suffer from the presence of different noise sources. In order to mitigate for this effect and acquire results with significantly better accuracy, there is the urge of designing efficient error correction or error mitigation schemes. The cost of such techniques is usually high in terms of resource requirements, either in hardware or at the algorithmic level. In this work, we follow a pragmatic approach and we use repetition codes as scalable schemes with the potential to provide more accurate solutions to problems of interest in quantum chemistry and physics. We investigate different repetition code layouts and we propose a circular repetition scheme with connectivity requirements that are native on IBM Quantum hardware. We showcase our approach in multiple IBM Quantum devices and validate our results using a simplified theoretical noise model. We highlight the effect of using the proposed scheme in an electronic structure VQE calculation and in the simulation of time evolution for a quantum Ising model.
翻訳日:2023-03-29 07:05:59 公開日:2021-06-14
# ピエゾ音響相互作用による再構成可能な量子フォノニック回路

Reconfigurable quantum phononic circuits via piezo-acoustomechanical interactions ( http://arxiv.org/abs/2106.05406v2 )

ライセンス: Link先を確認
Jeffrey C. Taylor, Eric Chatterjee, William F. Kindel, Daniel Soh, and Matt Eichenfield(参考訳) 共役相互作用の圧電ひずみが既存の量子フォノニックプラットフォーム(懸濁シリコン上の窒化アルミニウム)において大きな位相速度変化をもたらすことが示されている。 有限要素解析を用いて10ボルトのマイクロンの10sにおけるGHz周波数フォノンの+/-π位相シフトを生成できる圧電-音響-機械的位相シフト器導波路を実証した。 次に, 位相シフタをビルディングブロックとして使用し, 量子情報処理に有用な複数の音波集積回路素子を実演する。 特に,リニアフォノニック処理のためのプログラム可能なマルチモード干渉計と,超長寿命状態とバス導波路に強く結合した状態とを切り替え可能な動的再構成可能なフォノニックメモリの構築方法を示す。 再構成可能なフォノンメモリの完全開量子系に対するマスター方程式から、指数関数的に減衰するパルスに対して90%以上の量子状態遷移忠実度で「読み」および「書き」演算を行うことができることを示す。

We show that piezoelectric strain actuation of acoustomechanical interactions can produce large phase velocity changes in an existing quantum phononic platform: aluminum nitride on suspended silicon. Using finite element analysis, we demonstrate a piezo-acoustomechanical phase shifter waveguide capable of producing +/- pi phase shifts for GHz frequency phonons in 10s of microns with 10s of volts applied. Then, using the phase shifter as a building block, we demonstrate several phononic integrated circuit elements useful for quantum information processing. In particular, we show how to construct programmable multi-mode interferometers for linear phononic processing and a dynamically reconfigurable phononic memory that can switch between an ultra-long-lifetime state and a state strongly coupled to its bus waveguide. From the master equation for the full open quantum system of the reconfigurable phononic memory, we show that it is possible to perform "read" and "write" operations with over 90% quantum state transfer fidelity for an exponentially decaying pulse.
翻訳日:2023-03-27 04:00:06 公開日:2021-06-14
# 量子幾何学におけるゆらぎに関連する時間フィッシャー情報

Time Fisher Information associated with Fluctuations in Quantum Geometry ( http://arxiv.org/abs/2106.07121v1 )

ライセンス: Link先を確認
Salman Sajad Wani, James Q. Quach, Mir Faizal(参考訳) 時間は観測不可能であるため、時間の問題に対処するためにフィッシャー情報(FI)を用いる。 ハミルトンの制約作用素は、時変古典幾何学に付随する量子幾何学の量子過程を解析するためには使用できないことを示す。 これはハミルトンの制約が時間にFIを含まないためである。 我々は、ハミルトニアン作用素は時間の生成元であるが、ハミルトニアン制約作用素は時間経過を通じて生じる変化を観測できないことを証明している。 これは、時間の問題が関連する量子重力理論において不可避な問題であることを意味する。 我々はこれらの結果をボソニック弦の世界表に明示的に導出するが、一般にはそうであると主張する。 また、文字列理論プロセスにおいて、FI時間を含むワールドシート上の演算子を同定する。 この観察に動機づけられ、任意の量子重力過程の有意義な演算子の基準は、時間に関する非虚偽のfiを含むべきであると提案する。

As time is not an observable, we use Fisher information (FI) to address the problem of time. We show that the Hamiltonian constraint operator cannot be used to analyze any quantum process for quantum geometries that are associated with time-reparametrization invariant classical geometries. This is because the Hamiltonian constraint does not contain FI about time. We demonstrate that although the Hamiltonian operator is the generator of time, the Hamiltonian constraint operator can not observe the change that arises through the passage of time. This means that the problem of time is inescapably problematic in the associated quantum gravitational theories. Although we explicitly derive these results on the world-sheet of bosonic strings, we argue that it holds in general. We also identify an operator on the world-sheet which contains FI about time in a string theoretical processes. Motivated by this observation, we propose that a criteria for a meaningful operator of any quantum gravitational process, is that it should contain non-vanishing FI about time.
翻訳日:2023-03-26 18:00:47 公開日:2021-06-14
# 未知モデル秩序を用いた線形スペクトル推定のためのグリッドレス進化的アプローチ

Gridless Evolutionary Approach for Line Spectral Estimation with Unknown Model Order ( http://arxiv.org/abs/2106.07323v1 )

ライセンス: Link先を確認
Bai Yan, Qi Zhao, Jin Zhang, J. Andrew Zhang, Xin Yao(参考訳) 格子レス法は線スペクトル推定において大きな優位性を示す。 これらの方法は、周波数とモデルの順序を推定するために原子量$l_0$ノルム(すなわち$l_0$ノルムの連続アナログ)の最小化問題を解く必要がある。 この問題は計算が困難であるため、核ノルムや再重み付け原子ノルムのような原子量$l_0$ノルムの緩和はスパーシティを促進するために用いられてきた。 しかし、緩和は分解限界をもたらし、その後バイアス付きモデルの順序と収束誤差をもたらす。 上記の緩和の欠点を克服するために、原子量$l_0$ノルムを用いて周波数とモデルの順序を同時に推定する新しいアイデアを提案する。 このアイデアを達成するために、私たちは多目的最適化モデルを構築します。 測定誤差と原子値$l_0$ノルムを2つの最適化対象とする。 提案したモデルは、アトミック$l_0$ノルムを介してモデル順序を直接利用し、解像度限界を破る。 さらに,2つの革新を含むモデルを提案するために,可変長進化アルゴリズムを設計する。 1つは可変長の符号化と検索戦略である。 柔軟にコーディングし、異なるモデル順序で多様なソリューションを対話的に検索する。 これらの解は、可変かつオープンな周波数探索空間を十分に探索し、オプティマへの広範なポテンシャルを提供するための足場として機能する。 もう一つの革新はモデル順序定位機構であり、これは解の帰属頻度を低く保ち、収束と多様性を著しく高める。 シミュレーションの結果,周波数推定とモデル順序選択におけるアプローチの優位性が確認された。

Gridless methods show great superiority in line spectral estimation. These methods need to solve an atomic $l_0$ norm (i.e., the continuous analog of $l_0$ norm) minimization problem to estimate frequencies and model order. Since this problem is NP-hard to compute, relaxations of atomic $l_0$ norm, such as nuclear norm and reweighted atomic norm, have been employed for promoting sparsity. However, the relaxations give rise to a resolution limit, subsequently leading to biased model order and convergence error. To overcome the above shortcomings of relaxation, we propose a novel idea of simultaneously estimating the frequencies and model order by means of the atomic $l_0$ norm. To accomplish this idea, we build a multiobjective optimization model. The measurment error and the atomic $l_0$ norm are taken as the two optimization objectives. The proposed model directly exploits the model order via the atomic $l_0$ norm, thus breaking the resolution limit. We further design a variable-length evolutionary algorithm to solve the proposed model, which includes two innovations. One is a variable-length coding and search strategy. It flexibly codes and interactively searches diverse solutions with different model orders. These solutions act as steppingstones that help fully exploring the variable and open-ended frequency search space and provide extensive potentials towards the optima. Another innovation is a model order pruning mechanism, which heuristically prunes less contributive frequencies within the solutions, thus significantly enhancing convergence and diversity. Simulation results confirm the superiority of our approach in both frequency estimation and model order selection.
翻訳日:2023-03-26 17:59:36 公開日:2021-06-14
# オフグリッド方向推定のための多目的二段階進化的アプローチ

Multiobjective Bilevel Evolutionary Approach for Off-Grid Direction-of-Arrival Estimation ( http://arxiv.org/abs/2106.07318v1 )

ライセンス: Link先を確認
Bai Yan, Qi Zhao, Jin Zhang, J. Andrew Zhang, Xin Yao(参考訳) ソース番号の識別は、DOA推定における重要なステップである。 既存の手法では、弱い統計特性(低SNRまたは限られたスナップショット)や(スパースペナルティの緩和による)モデリングエラー(特にインパルスノイズ)のために、間違ったソース番号を提供することができる。 そこで本研究では,ソース番号の同時同定とDOA推定という新たなアイデアを提案する。 このアイデアを実現するために,多目的オフグリッドdoa推定モデルを定式化し,doa推定と共にソース番号を自動的に識別する。 特に、ソース番号は、緩和せずに信号を妨害し、精度を保証する$l_0$ノルムによって適切に活用される。 さらに,提案モデルを解くために,多目的二段階進化アルゴリズムを設計する。 ソース番号の識別とスパースリカバリはオングリッド(より低い)レベルで同時に最適化される。 オフグリッド(アップパー)レベルでグリッドをさらに洗練するために,フォワード検索戦略が開発された。 この戦略は線形近似を必要とせず、計算複雑性の低いオフグリッドギャップを排除できる。 シミュレーションの結果、ソース数とルート平均二乗誤差の観点から、本手法の性能を実証した。

The source number identification is an essential step in direction-of-arrival (DOA) estimation. Existing methods may provide a wrong source number due to inferior statistical properties (in low SNR or limited snapshots) or modeling errors (caused by relaxing sparse penalties), especially in impulsive noise. To address this issue, we propose a novel idea of simultaneous source number identification and DOA estimation. We formulate a multiobjective off-grid DOA estimation model to realize this idea, by which the source number can be automatically identified together with DOA estimation. In particular, the source number is properly exploited by the $l_0$ norm of impinging signals without relaxations, guaranteeing accuracy. Furthermore, we design a multiobjective bilevel evolutionary algorithm to solve the proposed model. The source number identification and sparse recovery are simultaneously optimized at the on-grid (lower) level. A forward search strategy is developed to further refine the grid at the off-grid (upper) level. This strategy does not need linear approximations and can eliminate the off-grid gap with low computational complexity. Simulation results demonstrate the outperformance of our method in terms of source number and root mean square error.
翻訳日:2023-03-26 17:59:08 公開日:2021-06-14
# 論文「量子理論は、自分自身の使用を一貫して記述することはできない」

On the paper "Quantum theory cannot consistently describe the use of itself" ( http://arxiv.org/abs/2106.07312v1 )

ライセンス: Link先を確認
Antonio Bernal(参考訳) D. Frauchiger と R. Renner の論文 "Quantum theory cannot always describe the use ofself" では、量子論がマクロ系にも、あるいは再帰的理性や物理値の特異性に関する非常に直観的な性質に対しても、普遍的に適用できないことを示す "no-go theorem" の証明を試みている。 本稿では,論文の結果を簡潔に記述し,その証明の詳細を明らかにする。

In the paper "Quantum theory cannot consistently describe the use of itself" by D. Frauchiger and R. Renner an atempt is made at proving a "no-go theorem" that states that either quantum theory cannot be universally applied, even to macroscopic systems, or some very intuitive properties concerning recursive reasoning and uniquenes of physical values must be false. In this paper, we give a concise description of the paper's result, and expose a detail in the proof.
翻訳日:2023-03-26 17:58:49 公開日:2021-06-14
# 平面上を移動する電子系のコヒーレント状態

Coherent states for a system of an electron moving on plane ( http://arxiv.org/abs/2106.07311v1 )

ライセンス: Link先を確認
Isiaka Aremua and Laure Gouba(参考訳) 本論文では、均一な外部磁場および電場における平面上を移動する電子系のコヒーレント状態を構築する。 これらのコヒーレント状態は離散スペクトルと連続スペクトルの両方の文脈で構築され、ガゼウ・クラウダーコヒーレント状態の性質 [1] を満たす。

In this paper, we construct the coherent states for a system of an electron moving on plane in uniform external magnetic and electric fields. These coherent states are built in the context of both discrete and continuous spectra and satisfy the Gazeau-Klauder coherent states properties [1].
翻訳日:2023-03-26 17:58:36 公開日:2021-06-14
# 時空間データのための進化的ロバストクラスタリング

Evolutionary Robust Clustering Over Time for Temporal Data ( http://arxiv.org/abs/2106.07252v1 )

ライセンス: Link先を確認
Qi Zhao, Bai Yan, Yuhui Shi(参考訳) 多くのクラスタリングシーンでは、データサンプルの属性値は時間とともに変化する。 このようなデータについては、時間ステップ毎にパーティションを取得し、パーティションの動的変更を追跡することに関心があります。 通常、データが時間的スムーズな性質を持つように、スムーズな変化を仮定する。 既存のアルゴリズムでは、時間的滑らかさを優先選好とみなし、探索を優先方向に向かってバイアスする。 この事前の方法は、データに関するわずかな事前の知識から、必ずしも合理的な選好を導き出すことができるとは限らないため、予期せぬ領域に収束するリスクをもたらす。 この問題に対処するため,本稿では進化的ロバストクラスタリングと呼ばれる新しいクラスタリングフレームワークを提案する。 提案フレームワークの重要な革新の1つは、既存のアルゴリズムで生じる予期せぬ収束を避けるために、時間的滑らかさを後続的に処理することである。 さらに,提案フレームワークでは,データの親和性行列や予め定義されたパラメータを使わずに,スムースネスの重みを自動的に調整する。 提案手法の有効性と有効性は,合成データと実データの両方における最先端アルゴリズムとの比較により確認した。

In many clustering scenes, data samples' attribute values change over time. For such data, we are often interested in obtaining a partition for each time step and tracking the dynamic change of partitions. Normally, a smooth change is assumed for data to have a temporal smooth nature. Existing algorithms consider the temporal smoothness as an a priori preference and bias the search towards the preferred direction. This a priori manner leads to a risk of converging to an unexpected region because it is not always the case that a reasonable preference can be elicited given the little prior knowledge about the data. To address this issue, this paper proposes a new clustering framework called evolutionary robust clustering over time. One significant innovation of the proposed framework is processing the temporal smoothness in an a posteriori manner, which avoids unexpected convergence that occurs in existing algorithms. Furthermore, the proposed framework automatically tunes the weight of smoothness without data's affinity matrix and predefined parameters, which holds better applicability and scalability. The effectiveness and efficiency of the proposed framework are confirmed by comparing with state-of-the-art algorithms on both synthetic and real datasets.
翻訳日:2023-03-26 17:58:30 公開日:2021-06-14
# ハイブリッド処理による発振子の量子デコヒーレンス低下

Slowing quantum decoherence of oscillators by hybrid processing ( http://arxiv.org/abs/2106.07238v1 )

ライセンス: Link先を確認
Kimin Park, Jacob Hastrup, Jonas Schou Neergaard-Nielsen, Jonatan Bohr Brask, Radim Filip, Ulrik L. Andersen(参考訳) コヒーレント状態の重ね合わせにエンコードされた量子情報は、巨視的量子コヒーレンス所有の実用的応用を示す例である。 しかし、これらの状態はエネルギー損失に非常に敏感であり、コヒーレンスの非古典的側面は急速に失われる。 このデコヒーレンス過程を遅くする決定論的戦略は、損失の前にガウスのスクイーズ変換を保護ステップとして適用することである。 本稿では,自然排ガスに免疫する2レベルアンシラと強いが実現可能な相互作用を利用した決定論的ハイブリッド保護手法を提案する。 クビットアンシラのデファス化に対するスキームの堅牢性を検証する。 本手法は多くの発振器におけるコヒーレント状態の複雑な重ね合わせに適用可能であり,損失に対するロバスト性はコヒーレント状態の振幅とともに増大する。 この方式は原子、固体系、超伝導回路の実験で実現可能である。

Quantum information encoded into superposition of coherent states is an illustrative representative of practical applications of macroscopic quantum coherence possessing. However, these states are very sensitive to energy loss, losing their non-classical aspects of coherence very rapidly. An available deterministic strategy to slow down this decoherence process is to apply a Gaussian squeezing transformation prior to the loss as a protective step. Here, we propose a deterministic hybrid protection scheme utilizing strong but feasible interactions with two-level ancillas immune to spontaneous emission. We verify robustness of the scheme against dephasing of qubit ancilla. Our scheme is applicable to complex superpositions of coherent states in many oscillators, and remarkably, the robustness to loss is enhanced with the amplitude of the coherent states. This scheme can be realized in experiments with atoms, solid-state systems and superconducting circuits.
翻訳日:2023-03-26 17:58:11 公開日:2021-06-14
# 理想ボース・アインシュタイン凝縮体を用いたマルチモードトラップ干渉計

Multimode Trapped Interferometer with Ideal Bose-Einstein Condensates ( http://arxiv.org/abs/2106.07187v1 )

ライセンス: Link先を確認
Leonardo Masi, Tommaso Petrucciani, Alessia Burchianti, Chiara Fort, Massimo Inguscio, Lorenzo Marconi, Giovanni Modugno, Niccol\`o Preti, Dimitrios Trypogeorgos, Marco Fattori, Francesco Minardi(参考訳) 我々は,高調波ポテンシャルに閉じ込められた4k原子のボース・アインシュタイン凝縮体からなるマルチモード干渉計を実験的に実証し,feshbach共鳴を利用した原子間相互作用をキャンセルした。 光学格子からのKapitza-Dirac回折は、トラップ高調波ポテンシャルによって閉じられた異なる干渉経路を形成する複数の運動量成分にBECを等間隔に分割する。 コンフィング電位のフルあるいは半発振後に再結合パルスを印加する2つの異なる干渉計方式について検討した。 干渉計出力における運動量成分の相対振幅は、光格子に対する高調波電位の誘起変位を通じて外部力に敏感であることがわかった。 干渉計の校正方法を示し,その出力を完全にキャラクタリゼーションし,パースペクティブ改善について検討する。

We experimentally demonstrate a multi-mode interferometer comprising a Bose-Einstein condensate of $^{39}$K atoms trapped in a harmonic potential, where the interatomic interaction can be cancelled exploiting Feshbach resonances. Kapitza-Dirac diffraction from an optical lattice coherently splits the BEC in multiple momentum components equally spaced that form different interferometric paths, closed by the trapping harmonic potential. We investigate two different interferometric schemes, where the recombination pulse is applied after a full or half oscillation in the confining potential. We find that the relative amplitudes of the momentum components at the interferometer output are sensitive to external forces, through the induced displacement of the harmonic potential with respect to the optical lattice. We show how to calibrate the interferometer, fully characterize its output and discuss perspective improvements.
翻訳日:2023-03-26 17:57:45 公開日:2021-06-14
# 光ツイーザと電場を用いたトラップ型イオン量子コンピューティング

Trapped Ion Quantum Computing using Optical Tweezers and Electric Fields ( http://arxiv.org/abs/2106.07486v1 )

ライセンス: Link先を確認
M. Mazzanti, R. X. Sch\"ussler, J. D. Arias Espinoza, Z. Wu, R. Gerritsma and A. Safavi-Naini(参考訳) 我々は,量子ビット状態依存局所ポテンシャルと振動電界を結合した光トワイザーを用いた,閉じ込められたイオン量子コンピューティングのための新しいスケーラブルなアーキテクチャを提案する。 電場はイオン結晶の中心-質量運動のみを介する長距離量子ビット相互作用を可能にするため、大きなイオン結晶に対して本質的にスケーラブルである。 さらに,提案手法は基底状態冷却とラムダイク近似のいずれにも依存しない。 イオン結晶の不完全冷却と不必要な量子運動の絡み合いの役割について検討し, 実験室における状態依存型ツイーザーの実施の展望について考察した。

We propose a new scalable architecture for trapped ion quantum computing that combines optical tweezers delivering qubit state-dependent local potentials with oscillating electric fields. Since the electric field allows for long-range qubit-qubit interactions mediated by the center-of-mass motion of the ion crystal alone, it is inherently scalable to large ion crystals. Furthermore, our proposed scheme does not rely on either ground state cooling or the Lamb-Dicke approximation. We study the effects of imperfect cooling of the ion crystal, as well as the role of unwanted qubit-motion entanglement, and discuss the prospects of implementing the state-dependent tweezers in the laboratory.
翻訳日:2023-03-26 17:49:29 公開日:2021-06-14
# 双線型スピン-スピン相互作用からのスピンスクイーズ:2つの簡単な定理

Spin squeezing from bilinear spin-spin interactions: two simple theorems ( http://arxiv.org/abs/2106.07460v1 )

ライセンス: Link先を確認
Tommaso Roscilde, Fabio Mezzacapo and Tommaso Comparin(参考訳) スピンパリティを保存する双線型スピンスピンスピン相互作用によって引き起こされるスクイージングに関する2つの単純な定理を示す。 特に、スクイージングが生成される量子相関の最初の形態を捉えていることを示す。 1) 平衡において、外部の任意のフィールドに整列した因子状態から始まるスピンスピン相互作用を断熱的にオンにすることで 2) 平衡から離れて、相互作用するハミルトニアンと一元的に同じ状態に進化する。

We demonstrate two simple theorems about squeezing induced by bilinear spin-spin interactions that conserve spin parity -- including a vast majority of quantum spin models implemented by state-of-the-art quantum simulators. In particular we show that squeezing captures the first form of quantum correlations which are produced: 1) at equilibrium, by adiabatically turning on the spin-spin interactions starting from a factorized state aligned with an external, arbitrary field; 2) away from equilibrium, by evolving unitarily the same state with the interacting Hamiltonian.
翻訳日:2023-03-26 17:49:16 公開日:2021-06-14
# フォトニックチップ上でのスクイーズ光のトポロジカル保護

Topologically Protecting Squeezed Light on a Photonic Chip ( http://arxiv.org/abs/2106.07425v1 )

ライセンス: Link先を確認
Ruo-Jing Ren, Yong-Heng Lu, Ze-Kun Jiang, Jun Gao, Wen-Hao Zhou, Yao Wang, Zhi-Qiang Jiao, Xiao-Wei Wang, Alexander S. Solntsev, Xian-Min Jin(参考訳) スクイーズド光は量子センシングと情報処理において重要な資源である。 本質的に弱い光学的非線形性と限られた相互作用量のため、バルク結晶中の収縮光を生成するための効率的な相互作用を得るためには、ポンプパワーが必要とされる。 集積フォトニクスは、導波路内部に厳密に光を閉じ込めることで非線形性を高めるエレガントな方法を提供する。 多光子演算を行う大規模量子システムの構築には、チップに様々な機能モジュールを統合することが不可欠である。 しかし、製造の不完全さと透過クロストークによって他のフォトニック素子に不必要な回折とカップリングが加えられ、スクイーズの品質が低下する可能性がある。 ここでは, トポロジカル位相を導入することにより, シリカチップに励起光を発生させることができる自発4波混合の位相的に保護された非線形過程を実験的に実証する。 様々なトポロジカルな地点で異なる進化距離で相互相関を測り,非古典的特徴を高い忠実度で検証する。 スクイーズパラメータは、キャビティフリーで強い圧縮状態の保護を認証するために測定される。 チップ上の励起光に対するトポロジカル保護の実証は、量子集積フォトニクスの新しい機会をもたらし、先進多光子回路の設計のための新しいアプローチを開く。

Squeezed light is a critical resource in quantum sensing and information processing. Due to the inherently weak optical nonlinearity and limited interaction volume, considerable pump power is typically needed to obtain efficient interactions to generate squeezed light in bulk crystals. Integrated photonics offers an elegant way to increase the nonlinearity by confining light strictly inside the waveguide. For the construction of large-scale quantum systems performing many-photon operations, it is essential to integrate various functional modules on a chip. However, fabrication imperfections and transmission crosstalk may add unwanted diffraction and coupling to other photonic elements, reducing the quality of squeezing. Here, by introducing the topological phase, we experimentally demonstrate the topologically protected nonlinear process of spontaneous four-wave mixing enabling the generation of squeezed light on a silica chip. We measure the cross-correlations at different evolution distances for various topological sites and verify the non-classical features with high fidelity. The squeezing parameters are measured to certify the protection of cavity-free, strongly squeezed states. The demonstration of topological protection for squeezed light on a chip brings new opportunities for quantum integrated photonics, opening novel approaches for the design of advanced multi-photon circuits.
翻訳日:2023-03-26 17:49:09 公開日:2021-06-14
# OTOCとLoschmidt Echoで観測された非共振系におけるエルゴディディティの破れ:量子拡散からサブ拡散へ

Ergodicity breaking in an incommensurate system observed by OTOCs and Loschmidt Echoes: From quantum diffusion to sub-diffusion ( http://arxiv.org/abs/2106.07370v1 )

ライセンス: Link先を確認
Fabricio S. Lozano-Negro, Pablo R. Zangara and Horacio M. Pastawski(参考訳) アンダーソン局在化やモット絶縁体を極端規則として含む金属絶縁体遷移(MIT)は、多くのボディ効果がしばしば量子干渉の処理の制限となるため、新たな関心を集めている。 この結果、多体局在(MBL)と呼ばれる分野は、平衡の出現と熱化が有限系の処理に関係していることを理解するため、理論的および実験的に研究された。 本稿では,harper-hofstadter-aubry-andr\e のオンサイトポテンシャルの `disorder'' の下でスピンチェーンにおけるこの遷移を研究する新しい観測器を提案する。 ゼロ階勾配エンタングルメント(ZOGE)と呼ばれるこの量は、時間外順序付き相関器群(OTOC)の基本フーリエモードから抽出される。 これらはただのLoschmidt Echoesで、フィールド勾配を時間反転前に適用する。 多体相互作用が存在しない場合、ゾージはフェルミオン波動関数の逆参加比と一致する。 xyハミルトニアンにイジング相互作用を加えることで、システムのmbl位相図を探索することができる。 臨界領域の近くでは、励起ダイナミクスは拡散則と一致する。 しかし、弱い障害では量子拡散が優勢であり、強い障害では励起ダイナミクスは準拡散的である。

The metal-insulator transition (MIT), which includes Anderson localization and Mott insulators as extreme regimes, has received renewed interest as the many-body effects often constitute a limitation for the handling of quantum interference. This resulted in the field dubbed many-body localization (MBL), intensively studied theoretically and experimentally as understanding the appearance of equilibration and thermalization becomes relevant in dealing with finite systems. Here, we propose a new observable to study this transition in a spin chain under the ``disorder'' of a Harper-Hofstadter-Aubry-Andr\'e on-site potential. This quantity, which we call zeroth-order gradient entanglement (ZOGE) is extracted from the fundamental Fourier mode of a family of out-of-time-ordered correlators (OTOCs). These are just Loschmidt Echoes, where a field gradient is applied before the time reversal. In the absence of many-body interactions, the ZOGE coincides with the inverse participation ratio of a Fermionic wave function. By adding an Ising interaction to an XY Hamiltonian, one can explore the MBL phase diagram of the system. Close to the critical region, the excitation dynamics is consistent with a diffusion law. However, for weak disorder, quantum diffusion prevails while for strong disorder the excitation dynamics is sub-diffusive.
翻訳日:2023-03-26 17:47:58 公開日:2021-06-14
# 熱処理と化学機能化によるダイヤモンド中のスズ空孔中心の分光発光依存性

Spectral emission dependence of tin-vacancy centers in diamond from thermal processing and chemical functionalization ( http://arxiv.org/abs/2106.07365v1 )

ライセンス: Link先を確認
Emilio Corte, Selene Sachero, Sviatoslav Ditalia Tchernij, Tobias L\"uhmann, S\'ebastien Pezzagna, Paolo Traina, Ivo Pietro Degiovanni, Ekaterina Moreva, Paolo Olivero, Jan Meijer, Marco Genovese, Jacopo Forneris(参考訳) イオン注入およびアニーリング時にダイヤモンドで作製した光学欠陥のスペクトル放射特性について系統的発光法(pl)により検討した。 620 nm, 631 nm, 647 nmの3つのスペクトル線が同定され、SnV中心が同一の単一光子放出欠陥のPLスペクトルに現れることに起因する。 熱焼鈍後の試料表面を酸化することにより, 3つのスペクトル特性の相対的発生を補正できることを示した。 我々は最後に、励起状態の放出寿命と放射強度飽和パラメータを含む、各クラスの個々のエミッタの関連する発光特性を報告した。

We report a systematic photoluminescence (PL) investigation of the spectral emission properties of individual optical defects fabricated in diamond upon ion implantation and annealing. Three spectral lines at 620 nm, 631 nm, and 647 nm are identified and attributed to the SnV center due to their occurrence in the PL spectra of the very same single-photon emitting defects. We show that the relative occurrence of the three spectral features can be modified by oxidizing the sample surface following thermal annealing. We finally report the relevant emission properties of each class of individual emitters, including the excited state emission lifetime and the emission intensity saturation parameters.
翻訳日:2023-03-26 17:47:35 公開日:2021-06-14
# qprof: gprofにインスパイアされた量子プロファイラ

qprof: a gprof-inspired quantum profiler ( http://arxiv.org/abs/2106.07326v1 )

ライセンス: Link先を確認
Adrien Suau, Gabriel Staffelbach and Aida Todri-Sanial(参考訳) 様々な量子回路のプロファイリングレポートを生成することができる,新しい拡張可能な量子プログラムプロファイラであるqprofを紹介する。 本稿では,qprofの内部構造と動作について述べるとともに,より複雑な量子回路の実用例を3つ挙げる。 このツールは、研究者が量子実装を異なる方法で可視化し、効率的なコード最適化のためにボトルネックを確実にローカライズすることができる。

We introduce qprof, a new and extensible quantum program profiler able to generate profiling reports of various quantum circuits. We describe the internal structure and working of qprof and provide three practical examples on practical quantum circuits with increasing complexity. This tool will allow researchers to visualise their quantum implementation in a different way and reliably localise the bottlenecks for efficient code optimisation.
翻訳日:2023-03-26 17:47:02 公開日:2021-06-14
# 開量子系における予測不可能性と絡み合い

Unpredictability and entanglement in open quantum systems ( http://arxiv.org/abs/2106.07673v1 )

ライセンス: Link先を確認
Javad Kazemi and Hendrik Weimer(参考訳) 汎用計算が可能な動的多体系について検討し,その特性を初期から終了までのダイナミクスをシミュレートしなければ予測不可能となることを示した。 予測不可能な振る舞いは、コルモゴロフの複雑さと密接に関連している時間進化中に発生する状態のデータ圧縮の観点から定量的に評価することができる。 古典的なセルオートマトンを埋め込んだマスター方程式を解析し, 埋め込みによって生じるランダムノイズの関数として, 予測可能な動作と予測不可能な動作の相転移の存在を実証する。 次に、このダイナミクスを量子ゆらぎを誘発する第2のプロセスと競合させ、システムを高度に絡み合った定常状態へと散逸させる。 興味深いことに、量子揺らぎの中間強度については、予測不可能性と量子絡み合いは、長い時間的限界において共存可能である。 最後に, セルオートマトン埋め込みに必要な多体相互作用を, 高精度な超低温リドバーグ原子に基づく変分量子シミュレータプラットフォーム内で効率よく実現できることを示す。

We investigate dynamical many-body systems capable of universal computation, which leads to their properties being unpredictable unless the dynamics is simulated from the beginning to the end. Unpredictable behavior can be quantitatively assessed in terms of a data compression of the states occurring during the time evolution, which is closely related to their Kolmogorov complexity. We analyze a master equation embedding of classical cellular automata and demonstrate the existence of a phase transition between predictable and unpredictable behavior as a function of the random noise introduced by the embedding. We then turn to have this dynamics competing with a second process inducing quantum fluctuations and dissipatively driving the system to a highly entangled steady state. Strikingly, for intermediate strength of the quantum fluctuations, we find that both unpredictability and quantum entanglement can coexist even in the long time limit. Finally, we show that the required many-body interactions for the cellular automaton embedding can be efficiently realized within a variational quantum simulator platform based on ultracold Rydberg atoms with high fidelity.
翻訳日:2023-03-26 17:41:32 公開日:2021-06-14
# 量子極分解の高速アルゴリズム, かなり良い測定方法, およびprocrustes問題

Fast algorithm for quantum polar decomposition, pretty-good measurements, and the Procrustes problem ( http://arxiv.org/abs/2106.07634v1 )

ライセンス: Link先を確認
Yihui Quek and Patrick Rebentrost(参考訳) 行列の極分解は、量子線形代数ツールボックスの重要な要素である。 ロイドらによって最近研究された量子極分解の問題が示されている。 [LBP+20]は量子特異値変換(QSVT)を介して単純で簡潔な実装を持つ。 我々は,与えられた「入力」と「出力」量子状態の最適なユニタリマッピングを学習するタスクである,量子状態を識別するための近接から最適に計測する応用,量子プロクセス問題に焦点を当てた。 状態準備ユニタリをブロックエンコーディング(QSVT)の前提条件であるブロックエンコーディングに変換することにより、同じ問題設定の代替手法(LBP+20, GLMQW20]と比較して、入力のサイズと条件数に多項式的優位性を示すこれらの問題に対するアルゴリズムを開発する。 極性分解のこれらの応用に対して、ブロックエンコーディングによりコストの高い密度行列指数ステップが不要になるため、[LBP+20]と比較して指数的な精度向上が得られる。 我々は[LBP+20]のアプローチの厳密な分析に貢献する。

The polar decomposition of a matrix is a key element in the quantum linear algebra toolbox. We show that the problem of quantum polar decomposition, recently studied in Lloyd et al. [LBP+20], has a simple and concise implementation via the quantum singular value transform (QSVT). We focus on the applications to pretty-good measurements, a close-to-optimal measurement to distinguish quantum states, and the quantum Procrustes problem, the task of learning an optimal unitary mapping between given `input' and `output' quantum states. By transforming the state-preparation unitaries into a block-encoding, a pre-requisite for QSVT, we develop algorithms for these problems whose gate complexity exhibits a polynomial advantage in the size and condition number of the input compared to alternative approaches for the same problem settings [LBP+20, GLMQW20]. For these applications of the polar decomposition, we also obtain an exponential speedup in precision compared to [LBP+20], as the block-encodings remove the need for the costly density matrix exponentiation step. We contribute a rigorous analysis of the approach of [LBP+20].
翻訳日:2023-03-26 17:41:16 公開日:2021-06-14
# 回路複雑性を低減した変分量子固有解法

Variational Quantum Eigensolver with Reduced Circuit Complexity ( http://arxiv.org/abs/2106.07619v1 )

ライセンス: Link先を確認
Yu Zhang, Lukasz Cincio, Christian F. A. Negre, Piotr Czarnik, Patrick Coles, Petr M. Anisimov, Susan M. Mniszewski, Sergei Tretiak, Pavel A. Dub(参考訳) 変分量子固有解法(VQE)は、雑音のある中間スケール量子(NISQ)デバイス上で与えられたハミルトニアンの固有値と固有ベクトルを求める最も有望なアルゴリズムの1つである。 特定の用途は分子の基底状態や励起状態を得ることである。 実用的な実現は現在、量子回路の複雑さによって制限されている。 本稿では,電子構造計算のためのvqeにおける量子回路の複雑性を低減する新しい手法を提案する。 このアルゴリズムはclustervqeと呼ばれ、初期量子ビット空間をサブスペース(量子ビットクラスター)に分割する。 クラスターはキュービット間の最大絡み合いを反映した量子的相互情報に基づいて得られるが、異なるクラスター間の絡み合いは新しい「有装」ハミルトニアンによって考慮される。 したがって、ClusterVQEは従来のVQEよりも少ない量子ビットと浅い回路深度で問題を正確にシミュレーションすることができる。 また,本研究では,補助量子ビットを用いない新しい勾配測定法も開発されている。 原理実証のデモンストレーションは、量子シミュレータに基づくいくつかの分子システムと、エラー緩和を伴うibm量子デバイスに対して提示される。 新しいアルゴリズムの効率は、量子ビット適応型vqeおよび反復量子ビット結合クラスター(iqcc)、最先端回路効率のvqe法に匹敵し、nisqハードウェア上の分子の変分基底状態エネルギーを得る。 さらに、新しいClusterVQEアルゴリズムはキュービット数と回路深度を同時に減少させ、NISQデバイス上での量子化学シミュレーションの潜在的なリーダーとなる。

The variational quantum eigensolver (VQE) is one of the most promising algorithms to find eigenvalues and eigenvectors of a given Hamiltonian on noisy intermediate-scale quantum (NISQ) devices. A particular application is to obtain ground or excited states of molecules. The practical realization is currently limited by the complexity of quantum circuits. Here we present a novel approach to reduce quantum circuit complexity in VQE for electronic structure calculations. Our algorithm, called ClusterVQE, splits the initial qubit space into subspaces (qubit clusters) which are further distributed on individual (shallower) quantum circuits. The clusters are obtained based on quantum mutual information reflecting maximal entanglement between qubits, whereas entanglement between different clusters is taken into account via a new "dressed" Hamiltonian. ClusterVQE therefore allows exact simulation of the problem by using fewer qubits and shallower circuit depth compared to standard VQE at the cost of additional classical resources. In addition, a new gradient measurement method without using an ancillary qubit is also developed in this work. Proof-of-principle demonstrations are presented for several molecular systems based on quantum simulators as well as an IBM quantum device with accompanying error mitigation. The efficiency of the new algorithm is comparable to or even improved over qubit-ADAPT-VQE and iterative Qubit Coupled Cluster (iQCC), state-of-the-art circuit-efficient VQE methods to obtain variational ground state energies of molecules on NISQ hardware. Above all, the new ClusterVQE algorithm simultaneously reduces the number of qubits and circuit depth, making it a potential leader for quantum chemistry simulations on NISQ devices.
翻訳日:2023-03-26 17:40:56 公開日:2021-06-14
# gibbs熱状態の空間における単調リーマン計量と線形応答理論の関係について

On the relation between the monotone Riemannian metrics on the space of Gibbs thermal states and the linear response theory ( http://arxiv.org/abs/2106.07599v1 )

ライセンス: Link先を確認
Nicholay S.Tonchev(参考訳) J. Mathで提案された。 Phys v.57,071903 (2016) モノトン(収縮性)リーマン計量の分析的拡張(量子フィッシャー情報とも呼ばれる)は、元の集中観測可能量に対する動的構造因子(DSF)のモーメントの観点から再検討され、拡張される。 ギブスの熱状態の空間上の単調リーマン計量の集合を完全に特徴づける DSF による新しいアプローチは、単調リーマン計量のクラス全体におけるボゴリボフ・クボ-モリ計量(一般等温感受性)のスペクトル表現の拡張を得るために用いられる。 得られたスペクトルの提示は,我々の考察の要点である。 最後に、単調リーマン計量と作用素単調関数(これは量子情報理論におけるペッツの定理のステートメントである)の間の1対1の対応を線型応答理論の観点で表すことができる。 単調リーマン計量は遅延グリーン関数の運動方程式の無限連鎖の解析から決定できることを示した。 異なる指標間の不等式も得られている。 情報理論問題の解析は統計力学の概念から恩恵を受けており、両方向を交配または拡張する可能性があり、その逆もある。 本稿では, 様々な物理問題に応用された単純だがインストラクティブなシステムの例について, 単調(コントラクティブ)リーマン計量のクラス全体の計算について述べる。

The proposed in J. Math. Phys. v.57,071903 (2016) analytical expansion of monotone (contractive) Riemannian metrics (called also quantum Fisher information(s)) in terms of moments of the dynamical structure factor (DSF) relative to an original intensive observable is reconsidered and extended. The new approach through the DSF which characterizes fully the set of monotone Riemannian metrics on the space of Gibbs thermal states is utilized to obtain an extension of the spectral presentation obtained for the Bogoliubov-Kubo-Mori metric (the generalized isothermal susceptibility) on the entire class of monotone Riemannian metrics. The obtained spectral presentation is the main point of our consideration. The last allows to present the one to one correspondence between monotone Riemannian metrics and operator monotone functions (which is a statement of the Petz theorem in the quantum information theory) in terms of the linear response theory. We show that monotone Riemannian metrics can be determined from the analysis of the infinite chain of equations of motion of the retarded Green's functions. Inequalities between the different metrics have been obtained as well. It is a demonstration that the analysis of information-theoretic problems has benefited from concepts of statistical mechanics and might cross-fertilize or extend both directions, and vice versa. We illustrate the presented approach on the calculation of the entire class of monotone (contractive) Riemannian metrics on the examples of some simple but instructive systems employed in various physical problems.
翻訳日:2023-03-26 17:40:27 公開日:2021-06-14
# トラップイオン応用のためのスケーラブルヘリウムガス冷却システム

A scalable helium gas cooling system for trapped-ion applications ( http://arxiv.org/abs/2106.07580v1 )

ライセンス: Link先を確認
Foni R. Lebrun-Gallagher, Nicholas Johnson, Mariam Akhtar, Sebastian Weidt, David Bretaud, Samuel J. Hile, Alexander Owens and Winfried K. Hensinger(参考訳) マイクロファブリックイオントラップデバイスは、スケーラブルな量子コンピューティングへの有望な経路を提供する。 研究は、大規模イオントラップアレイやネットワークの開発に伴うエンジニアリング上の課題に焦点を合わせ始めている。 しかし、アレイのサイズを増加させ、オンチップエレクトロニクスを統合することで、イオントラップチップ内の電力散逸を劇的に増加させることができる。 これによりイオントラップの動作温度が上昇し、デバイスの性能が制限される。 したがって、大規模建築において効果的な熱管理が不可欠である。 本稿では,複数のイオントラッピング実験を同時に使用するモジュール冷却システムの開発について述べる。 このシステムは、大規模なネットワークの要求を満たすために冷却電力のスケーリングを可能にする拡張可能なクライオスタットを含む。 2つの独立したイオントラップ実験の実験実験の後、冷却システムは最大4つの実験に70kで111wの冷却力を供給することが期待されている。 冷却システムは、多くの量子ビットで大規模量子コンピュータを運用する際の現実的な課題を満たすためのステップである。

Microfabricated ion-trap devices offer a promising pathway towards scalable quantum computing. Research efforts have begun to focus on the engineering challenges associated with developing large-scale ion-trap arrays and networks. However, increasing the size of the array and integrating on-chip electronics can drastically increase the power dissipation within the ion-trap chips. This leads to an increase in the operating temperature of the ion-trap and limits the device performance. Therefore, effective thermal management is an essential consideration for any large-scale architecture. Presented here is the development of a modular cooling system designed for use with multiple ion-trapping experiments simultaneously. The system includes an extensible cryostat that permits scaling of the cooling power to meet the demands of a large network. Following experimental testing on two independent ion-trap experiments, the cooling system is expected to deliver a net cooling power of 111 W at ~70 K to up to four experiments. The cooling system is a step towards meeting the practical challenges of operating large-scale quantum computers with many qubits.
翻訳日:2023-03-26 17:40:01 公開日:2021-06-14
# ランダムグラフ間の最適QAOAパラメータの転送可能性

Transferability of optimal QAOA parameters between random graphs ( http://arxiv.org/abs/2106.07531v1 )

ライセンス: Link先を確認
Alexey Galda, Xiaoyuan Liu, Danylo Lykov, Yuri Alexeev, and Ilya Safro(参考訳) 量子近似最適化アルゴリズム(QAOA)は、量子強化組合せ最適化による量子優位性を達成するための最も有望な候補の1つである。 典型的なqaoaセットアップでは、組合せ最適化問題の最適解を見つけるために使用される量子状態を作成するために量子回路パラメータのセットが最適化される。 特殊QAOA MaxCut問題事例に対する最適パラメータ濃度効果に関するいくつかの実験的な観察が近年報告されているが、厳密な研究はいまだ不十分である。 特定の値の周りに最適なqaoaパラメータを収束させることにより、異なるqaoaインスタンス間のパラメータの転送可能性を説明し、グラフの局所的性質、特にグラフを構成するサブグラフ(ライトコーン)のタイプに基づいて予測できることを示した。 この手法をランダム正規グラフおよび一般ランダムグラフに適用する。 例えば、6ノードランダムグラフの最適化パラメータを64ノードランダムグラフのほぼ最適パラメータとして変更することなくうまく利用することができ、その結果、近似比が1%未満であることを示す。 この研究は、QAOAのような変分量子アルゴリズムを著しく加速できる組合せ最適化インスタンスのクラスを特定するための経路を示す。

The Quantum approximate optimization algorithm (QAOA) is one of the most promising candidates for achieving quantum advantage through quantum-enhanced combinatorial optimization. In a typical QAOA setup, a set of quantum circuit parameters is optimized to prepare a quantum state used to find the optimal solution of a combinatorial optimization problem. Several empirical observations about optimal parameter concentration effects for special QAOA MaxCut problem instances have been made in recent literature, however, a rigorous study of the subject is still lacking. We show that convergence of the optimal QAOA parameters around specific values and, consequently, successful transferability of parameters between different QAOA instances can be explained and predicted based on the local properties of the graphs, specifically the types of subgraphs (lightcones) from which the graphs are composed. We apply this approach to random regular and general random graphs. For example, we demonstrate how optimized parameters calculated for a 6-node random graph can be successfully used without modification as nearly optimal parameters for a 64-node random graph, with less than 1% reduction in approximation ratio as a result. This work presents a pathway to identifying classes of combinatorial optimization instances for which such variational quantum algorithms as QAOA can be substantially accelerated.
翻訳日:2023-03-26 17:39:34 公開日:2021-06-14
# ab initio qed functional(s) : 強光子結合のための非摂動および光子フリーな有効枠組み

Making ab initio QED functional(s): Non-perturbative and photon-free effective frameworks for strong light-matter coupling ( http://arxiv.org/abs/2106.07507v1 )

ライセンス: Link先を確認
Christian Sch\"afer, Florian Buchholz, Markus Penz, Michael Ruggenthaler, Angel Rubio(参考訳) 強い光物質結合は、第一原理から後者が日常的に記述される量子物質の制御に有望な経路を提供する。 しかし、光の量子化された性質とこのab initioツールセットを組み合わせることは困難であり、ヒルベルト空間は概念的に異なるため、計算コストは急速に増大する。 本研究は、長波長限界における量子電磁力学(QED)の非摂動的光子自由定式化をヒルベルト空間のみに定式化し、そのようなアブイニシアト法の正確な出発点として機能させることができる。 現在の定式化は量子力学の拡張であり、ゼロおよび無限結合極限、無限周波数および同次極限に対するQEDの正確な結果を復元し、その精度を構成的に向上することができる。 この定式化は量子電気力学密度汎関数理論(qedft)の近似を考案するためにどのように用いられるかを示し、これによってアンサッツを完全な最小結合問題や非断熱的状況にまで拡張することができることを示した。 最後に、逆光子自由度への強い結合を考慮に入れ、正しい周波数と偏光依存性を含む単純な局所密度型関数を提供する。 このQEDFT関数は、光の量子化の性質を考慮に入れながら、計算的に単純でありながら、幅広いシステムに適用できる最初のQEDFT関数である。 すべての近似は周期システムへのシームレスな適用を可能にする。

Strong light-matter coupling provides a promising path for the control of quantum matter where the latter is routinely described from first-principles. However, combining the quantized nature of light with this ab initio tool set is challenging and merely developing, as the coupled light-matter Hilbert space is conceptually different and computational cost quickly becomes overwhelming. In this work, we provide a non-perturbative photon-free formulation of quantum electrodynamics (QED) in the long-wavelength limit, which is formulated solely on the matter Hilbert space and can serve as an accurate starting point for such ab initio methods. The present formulation is an extension of quantum mechanics that recovers the exact results of QED for the zero- and infinite-coupling limit, the infinite-frequency as well as the homogeneous limit and we can constructively increase its accuracy. We show how this formulation can be used to devise approximations for quantum-electrodynamical density-functional theory (QEDFT), which in turn also allows to extend the ansatz to the full minimal-coupling problem and to non-adiabatic situations. Finally, we provide a simple local-density-type functional that takes the strong coupling to the transverse photon-degrees of freedom into account and includes the correct frequency and polarization dependence. This is the first QEDFT functional that accounts for the quantized nature of light while remaining computationally simple enough to allow its application to a large range of systems. All approximations allow the seamless application to periodic systems.
翻訳日:2023-03-26 17:38:31 公開日:2021-06-14
# 電子顕微鏡による1次元ゴーストイメージング:非弾性散乱電子を用いたゴーストイメージングへの道

One-dimensional ghost imaging with an electron microscope: a route towards ghost imaging with inelastically scattered electrons ( http://arxiv.org/abs/2106.08955v1 )

ライセンス: Link先を確認
E. Rotunno, S. Gargiulo, G. M. Vanacore, C. Mechel, A. Tavabi, R.E Dunin Borkowski, F. Carbone, I.Maidan, M. Zanfrognini, S. Frabboni, T. Guner, E. Karimi, I. Kaminer, and V. Grillo(参考訳) 量子力学では、絡み合いと相関は単なる散発的な好奇心ではなく、相互作用する量子系に基づく一般的な現象である。 特に、非弾性散乱は電子ビームと試料との相関の観点から再分析することができる。 古典的な非弾性散乱は単に電子ビームのコヒーレンス損失を意味するが、電子ビームと試料励起の合同測定を行うことでコヒーレンスと失われた情報を取り戻すことができる。 本稿では,ゴーストイメージングの概念の意外かつ直感的な応用として,電子顕微鏡における関節計測の利用を提案する。 量子フォトニクスで最初に提案されたゴーストイメージングは、透過電子ビームの一部と試料からバケット検出器に到達した光子とのジョイント測定を行うことにより、部分的に電子顕微鏡で適用することができる。 これにより、電子ビームと直接相互作用していない物体の1次元の仮想画像を形成することができる。 この手法は、電子線ではなく光子/表面プラズモンポラリトンといった他の種類の波と相互作用するため、電子感受性物質の放射線被曝を最小化する必要がある低線量イメージングに非常に有望である。 この概念は、電子が光子、プラズモン、フォノン、マグノン、あるいは任意の光偏光子などの集合モードの単一量子を励起する非弾性電子-サンプル相互作用に対して理論的に実証する。

In quantum mechanics, entanglement and correlations are not just a mere sporadic curiosity, but rather common phenomena at the basis of an interacting quantum system. In electron microscopy, such concepts have not been extensively explored yet in all their implications; in particular, inelastic scattering can be reanalyzed in terms of correlation between the electron beam and the sample. While classical inelastic scattering simply implies loss of coherence in the electron beam, performing a joint measurement on the electron beam and the sample excitation could restore the coherence and the lost information. Here, we propose to exploit joint measurement in electron microscopy for a surprising and counter-intuitive application of the concept of ghost imaging. Ghost imaging, first proposed in quantum photonics, can be applied partially in electron microscopy by performing joint measurement between the portion of the transmitted electron beam and a photon emitted from the sample reaching a bucket detector. This would permit us to form a one-dimensional virtual image of an object that even has not interacted with the electron beam directly. This technique is extremely promising for low-dose imaging that requires the minimization of radiation exposure for electron-sensitive materials, because the object interacts with other form of waves, e.g., photons/surface plasmon polaritons, and not the electron beam. We demonstrate this concept theoretically for any inelastic electron-sample interaction in which the electron excites a single quantum of a collective mode, such as a photon, plasmon, phonon, magnon, or any optical polariton.
翻訳日:2023-03-26 17:31:55 公開日:2021-06-14
# バングラデシュにおける生体認証システムの信頼性と受容 : ユーザの視点から

The Reliability and Acceptance of Biometric System in Bangladesh: Users Perspective ( http://arxiv.org/abs/2106.08177v1 )

ライセンス: Link先を確認
Shaykh Siddique, Monica Yasmin, Tasnova Bintee Taher, Mushfiqul Alam(参考訳) 生体認証システムは、最新のユニークな識別技術である。 世界中の人々が、このユニークな識別技術を認証セキュリティに使いたがっている。 本研究の目的は,システムの信頼性とユーザ満足度に基づいて生体計測システムを評価することである。 技術は個人データに完全に依存するため、生体認証システムの品質と信頼性の観点からも、ユーザの満足度が主な要因である。 デジタル時代を歩むためには,ユーザの個人データを分析して認証を行うため,データのセキュリティに対するユーザの懸念を評価することが極めて重要である。 この研究は、ユーザは他のセキュリティシステムよりも生体認証システムを利用することで満足していることを示している。 さらに、ハードウェアの故障は生体認証システムユーザーが直面する大きな問題である。 最後に,人気バイオメトリックシステムの性能をユーザの意見から比較するために,行列を生成する。 システムの信頼性とユーザ満足度が本研究の焦点となっているため、生体認証サービスプロバイダはこれらの現象を利用して、サービスに必要な改善の側面を見つけることができる。 また,本研究はバングラデシュのユーザにとって優れたビジュアライザーとなり,どの生体認証システムを選択すべきかを容易に把握することができる。

Biometric systems are the latest technologies of unique identification. People all over the world prefer to use this unique identification technology for their authentication security. The goal of this research is to evaluate the biometric systems based on system reliability and user satisfaction. As technology fully depends on personal data, so in terms of the quality and reliability of biometric systems, user satisfaction is a principal factor. To walk with the digital era, it is extremely important to assess users' concerns about data security as the systems are conducted the authentication by analyzing users' personal data. The study shows that users are satisfied by using biometric systems rather than other security systems. Besides, hardware failure is a big issue faced by biometric systems users. Finally, a matrix is generated to compare the performance of popular biometric systems from the users' opinions. As system reliability and user satisfaction are the focused issue of this research, biometric service providers can use these phenomena to find what aspect of improvement they need for their services. Also, this study can be a great visualizer for Bangladeshi users, so that they can easily realize which biometric system they have to choose.
翻訳日:2023-03-26 17:31:29 公開日:2021-06-14
# 高密度スペクトルにおけるオーミックスピン-ボーソンモデルの量子臨界性:対称性、量子揺らぎ、相関

Quantum criticality of the Ohmic spin-boson model in a high dense spectrum: symmetries,quantum fluctuations and correlations ( http://arxiv.org/abs/2106.07810v1 )

ライセンス: Link先を確認
Xiaohui Qian, Congzhi Zeng, Nengji Zhou(参考訳) オーミックスピンボソンモデルにおける散逸性量子相転移の研究は、環境モードの厳密な極限において数値的に困難である。 本研究では,変分原理に基づいて大規模数値シミュレーションを行う。 熱水浴における変分計算の妥当性,対称性の自発的分解,および量子ゆらぎと相関を慎重に分析し,弱いトンネルおよび連続限界において臨界結合および指数を正確に決定する。 加えて、オーミック浴の量子臨界性は非局在化相と遷移点の両方で発見される。

Study of dissipative quantum phase transitions in the Ohmic spin-boson model is numerically challenging in a dense limit of environmental modes. In this work, large-scale numerical simulations are carried out based on the variational principle. The validity of variational calculations, spontaneous breakdown of symmetries, and quantum fluctuations and correlations in the Ohmic bath are carefully analyzed, and the critical coupling as well as exponents are accurately determined in the weak tunneling and continuum limits. In addition, quantum criticality of the Ohmic bath is uncovered both in the delocalized phase and at the transition point.
翻訳日:2023-03-26 17:31:05 公開日:2021-06-14
# スケーラブルなマルチユーザツインフィールド量子鍵分散ネットワークの実験

Experiment on scalable multi-user twin-field quantum key distribution network ( http://arxiv.org/abs/2106.07768v1 )

ライセンス: Link先を確認
Xiaoqing Zhong, Wenyuan Wang, Reem Mandil, Hoi-Kwong Lo and Li Qian(参考訳) ツインフィールド量子鍵分布(TFQKD)システムは、その測定デバイスに依存しない性質と、ポイントツーポイントQKDシステムよりも根本的に優れたレートロススケーリングを提供する能力により、実用的な長距離セキュアな量子通信の実現に大いに期待されている。 過去2年間の研究と開発努力が急増し、様々な種類のプロトコルや実験的なデモンストレーションが生み出された。 ハードウェアトポロジーの観点では、2つの遠隔位相同期レーザー源からの量子信号を干渉するTFQKDシステムは、本質的には能動位相安定化を必要とするマッハ・ツェンダー干渉計(MZI)である。 このような構成は本質的にtfqkdネットワークには不向きであり、複数のユーザペアが共通の量子測定ステーションを共有している。 一方、サニャック干渉計に基づくTFQKDシステムは、サニャック環の固有の位相安定性を利用して非対称なTFQKDを実装できるため、TFQKDネットワークの実装に極めて適している。 本研究では,同一計測局を共有する3つのユーザペアが,チャネル損失が58dbまで,チャネル損失が15dbまでの時間多重化により対方向tfqkdを実行できる,原理実証型マルチユーザペアsagnac tfqkdネットワークを実験的に実証する。 一部のケースでは、セキュアなキーレートは、このネットワーク構成であっても、ポイントツーポイントリピータレスQKDシステムのレートロスバウンダリを上回っている。 これは、量子通信ネットワーク技術の進歩における重要なステップである、最初のマルチユーザペアTFQKDネットワークデモである。

Twin-field quantum key distribution (TFQKD) systems have shown great promise for implementing practical long-distance secure quantum communication due to its measurement-device-independent nature and its ability to offer fundamentally superior rate-loss scaling than point-to-point QKD systems. A surge of research and development effort in the last two years has produced many variants of protocols and experimental demonstrations. In terms of hardware topology, TFQKD systems interfering quantum signals from two remotely phase-locked laser sources are in essence giant Mach-Zehnder interferometers (MZIs) requiring active phase stabilization. Such configurations are inherently unsuitable for a TFQKD network, where more than one user-pair share the common quantum measurement station, because it is practically extremely difficult, if not impossible, to stabilize MZIs of largely disparate path lengths, a situation that is inevitable in a multi-user-pair TFQKD network. On the other hand, Sagnac interferometer based TFQKD systems exploiting the inherent phase stability of the Sagnac ring can implement asymmetric TFQKD, and are therefore eminently suitable for implementing a TFQKD network. In this work, we experimentally demonstrate a proof-of-principle multi-user-pair Sagnac TFQKD network where three user pairs sharing the same measurement station can perform pair-wise TFQKD through time multiplexing, with channel losses up to 58 dB, and channel loss asymmetry up to 15 dB. In some cases, the secure key rates still beat the rate-loss bounds for point-to-point repeaterless QKD systems, even in this network configuration. It is to our knowledge the first multi-user-pair TFQKD network demonstration, an important step in advancing quantum communication network technologies.
翻訳日:2023-03-26 17:30:50 公開日:2021-06-14
# 透過・位相推定に基づく量子高感度光共鳴センサの基本感度境界

Fundamental Sensitivity Bounds for Quantum Enhanced Optical Resonance Sensors Based on Transmission and Phase Estimation ( http://arxiv.org/abs/2106.07741v1 )

ライセンス: Link先を確認
Mohammadjavad Dowran, Timothy S. Woodworth, Ashok Kumar, and Alberto M. Marino(参考訳) 光の量子状態は、ショットノイズ限界(SNL)を超えて感度の高い構成を可能にする。 利用可能な量子リソースをうまく活用し、可能な最大感度を得るためには、与えられたセンシングシステムにおいて、異なる可能な構成に対する基本的な感度限界を決定する必要がある。 ここでは,その広い適用性から,共鳴シフトによる関心パラメータの変化を検出する光共鳴センサに注目する。 光の2モード励起状態(bTMSS)の透過や位相の変化を推定し,量子クラム・ラオ境界(QCRB)によって設定される基本感度限界を比較する。 そこで本研究では,QCRBとシステム転送機能との相互作用による基本感度について述べる。 その結果、ローレンツ線形状の共振センサの場合、位相ベースのスキームは、パラメータ空間のほとんどにおいて伝送系を上回っているが、高次バターワース線のような急勾配のライン形状の場合はそうではない。 さらに、このような相互作用は、位相ベースのスキームが伝送ベースのスキームよりも高い感度を提供するが、量子エンハンスメントの程度は小さい条件で生じる。 また,センサ外部の損失が量子エンハンスメントの程度に及ぼす影響について検討し,古典的状態にある特定の条件において,btmssによる検出よりも高い感度が得られることを示した。 最後に,外部損失があっても基本的な感度限界を達成できる検出手法,すなわち,強度差の最適化とホモダイン検出について論じる。

Quantum states of light can enable sensing configurations with sensitivities beyond the shot-noise limit (SNL). In order to better take advantage of available quantum resources and obtain the maximum possible sensitivity, it is necessary to determine fundamental sensitivity limits for different possible configurations for a given sensing system. Here, due to their wide applicability, we focus on optical resonance sensors, which detect a change in a parameter of interest through a resonance shift. We compare their fundamental sensitivity limits set by the quantum Cram\'er-Rao bound (QCRB) based on the estimation of changes in transmission or phase of a probing bright two-mode squeezed state (bTMSS) of light. We show that the fundamental sensitivity results from an interplay between the QCRB and the transfer function of the system. As a result, for a resonance sensor with a Lorentzian lineshape a phase-based scheme outperforms a transmission-based one for most of the parameter space; however, this is not the case for lineshapes with steeper slopes, such as higher order Butterworth lineshapes. Furthermore, such an interplay results in conditions under which the phase-based scheme provides a higher sensitivity than the transmission-based one but a smaller degree of quantum enhancement. We also study the effect of losses external to the sensor on the degree of quantum enhancement and show that for certain conditions probing with a classical state can provide a higher sensitivity than probing with a bTMSS. Finally, we discuss detection schemes, namely optimized intensity-difference and optimized homodyne detection, that can achieve the fundamental sensitivity limits even in the presence of external losses.
翻訳日:2023-03-26 17:30:17 公開日:2021-06-14
# 量子再生過程をモデルとした量子力学におけるメモリ効果

Memory effects in quantum dynamics modelled by quantum renewal processes ( http://arxiv.org/abs/2106.07697v1 )

ライセンス: Link先を確認
Nina Megier, Manuel Ponzi, Andrea Smirne, Bassano Vacchini(参考訳) 単純な制御可能なモデルは、量子リソースの操作と制御方法を学ぶ上で重要な役割を果たす。 ここでは、量子非マルコフ性に注目し、量子更新過程によるオープン量子システムの進化をモデル化する。 この量子力学のクラスは、様々な非マルコフ的振る舞いで力学を特徴づける現象論的アプローチを与え、ここでは2つの還元状態の間のトレース距離について記述する。 開量子系の進化に軌道図を適用することにより、非マルコビアン性が量子更新過程、すなわちダイナミクスの時間連続的な部分、ジャンプの種類、待ち時間分布によってどのように影響されるかを分析する。 我々は、非マルコフ性測度の単なる値だけでなく、時間やリバイバル数を含むトレース距離の進化の特徴がどのように変化するかにも焦点を当てている。

Simple, controllable models play an important role to learn how to manipulate and control quantum resources. We focus here on quantum non-Markovianity and model the evolution of open quantum systems by quantum renewal processes. This class of quantum dynamics provides us with a phenomenological approach to characterise dynamics with a variety of non-Markovian behaviours, here described in terms of the trace distance between two reduced states. By adopting a trajectory picture for the open quantum system evolution, we analyse how non-Markovianity is influenced by the constituents defining the quantum renewal process, namely the time-continuous part of the dynamics, the type of jumps and the waiting time distributions. We focus not only on the mere value of the non-Markovianity measure, but also on how different features of the trace distance evolution are altered, including times and number of revivals.
翻訳日:2023-03-26 17:29:22 公開日:2021-06-14
# 置換のないサンプリングによる画像の教師なしプログラム合成

Unsupervised Program Synthesis for Images By Sampling Without Replacement ( http://arxiv.org/abs/2001.10119v2 )

ライセンス: Link先を確認
Chenghui Zhou, Chun-Liang Li, Barnabas Poczos(参考訳) プログラム合成は、画像解析タスクへのアプローチとして成功した。 ほとんどの先行研究は、合成プログラムによるseq2seqモデルの教師付き事前トレーニングと、実際の参照画像の微調整のための強化学習(rl)を含む2段階のスキームに依存している。 完全に教師なしのアプローチは、トレーニング済みのデータセットを必要とせずに、ターゲットイメージ上でモデルを直接トレーニングすることを約束する。 しかし、検索分野における有意義なプログラムの本質的なスパースに苦慮している。 本稿では,コンストラクティブソリッドジオメトリ(csg)画像を,非微分レンダラを介さずに文脈自由文法(cfg)に解析できる,初の教師なしアルゴリズムを提案する。 Emph{non-Markovian}スパース報酬問題に取り組むために、我々は3つの重要な要素を組み合わせる。 i) プログラムの有効性を保証する文法符号化木LSTM (ii)エントロピー正規化及び (iii)CFG構文木を置換せずにサンプリングする。 経験的に、我々のアルゴリズムは大きな検索空間で有意義なプログラムを復元する(最大3.8 \times 10^{28}$)。 さらに,本手法は完全に教師なしであっても,合成2次元CSGデータセットの教師付き手法よりも優れた一般化を行う。 2次元コンピュータ支援設計データセット(CAD)において,本手法は教師付き事前学習モデルよりも有意に優れ,洗練されたモデルと競合する。

Program synthesis has emerged as a successful approach to the image parsing task. Most prior works rely on a two-step scheme involving supervised pretraining of a Seq2Seq model with synthetic programs followed by reinforcement learning (RL) for fine-tuning with real reference images. Fully unsupervised approaches promise to train the model directly on the target images without requiring curated pretraining datasets. However, they struggle with the inherent sparsity of meaningful programs in the search space. In this paper, we present the first unsupervised algorithm capable of parsing constructive solid geometry (CSG) images into context-free grammar (CFG) without pretraining via non-differentiable renderer. To tackle the \emph{non-Markovian} sparse reward problem, we combine three key ingredients -- (i) a grammar-encoded tree LSTM ensuring program validity (ii) entropy regularization and (iii) sampling without replacement from the CFG syntax tree. Empirically, our algorithm recovers meaningful programs in large search spaces (up to $3.8 \times 10^{28}$). Further, even though our approach is fully unsupervised, it generalizes better than supervised methods on the synthetic 2D CSG dataset. On the 2D computer aided design (CAD) dataset, our approach significantly outperforms the supervised pretrained model and is competitive to the refined model.
翻訳日:2023-01-06 07:50:36 公開日:2021-06-14
# DANCE:デコイを使用したサリエンシマップの強化

DANCE: Enhancing saliency maps using decoys ( http://arxiv.org/abs/2002.00526v3 )

ライセンス: Link先を確認
Yang Lu, Wenbo Guo, Xinyu Xing, William Stafford Noble(参考訳) saliencyメソッドは、画像分類器による予測に最も寄与するピクセルなど、入力サンプル内の重要な特徴のセットを識別することによって、ディープニューラルネットワークの予測をより解釈しやすくすることができる。 残念なことに、最近の証拠は、多くのサルジェンシー法が、特に勾配が飽和している状況では、入力には逆の摂動が含まれており、あるいは予測は機能間の依存性に依存していることを示唆している。 これらの課題に対処するために,2段階の手順に従うことにより,サリエンシ手法の堅牢性を向上させる枠組みを提案する。 まず,その中間表現を変更することなく,入力サンプルを微妙に変化させる摂動機構を導入する。 このアプローチを用いて、摂動データサンプルのコーパスを収集し、摂動データと元の入力サンプルが同じ分布に従うことを保証できる。 第2に、摂動サンプルの塩分マップを計算し、塩分マップを集約する新しい方法を提案する。 この設計では,解釈による勾配飽和の影響を相殺する。 理論的な観点からは,集計されたサリエンシマップは機能間依存を捉えるだけでなく,従来記述されていた対向摂動法に対する解釈を堅牢化することができる。 理論的解析の結果, 定性的にも定量的にも, 既存の方法よりも優れていたことが示唆された。

Saliency methods can make deep neural network predictions more interpretable by identifying a set of critical features in an input sample, such as pixels that contribute most strongly to a prediction made by an image classifier. Unfortunately, recent evidence suggests that many saliency methods poorly perform, especially in situations where gradients are saturated, inputs contain adversarial perturbations, or predictions rely upon inter-feature dependence. To address these issues, we propose a framework that improves the robustness of saliency methods by following a two-step procedure. First, we introduce a perturbation mechanism that subtly varies the input sample without changing its intermediate representations. Using this approach, we can gather a corpus of perturbed data samples while ensuring that the perturbed and original input samples follow the same distribution. Second, we compute saliency maps for the perturbed samples and propose a new method to aggregate saliency maps. With this design, we offset the gradient saturation influence upon interpretation. From a theoretical perspective, we show the aggregated saliency map could not only capture inter-feature dependence but, more importantly, robustify interpretation against previously described adversarial perturbation methods. Following our theoretical analysis, we present experimental results suggesting that, both qualitatively and quantitatively, our saliency method outperforms existing methods.
翻訳日:2023-01-04 08:22:55 公開日:2021-06-14
# mind your weight(s):モバイルアプリにおける機械学習モデルの保護不足に関する大規模研究

Mind Your Weight(s): A Large-scale Study on Insufficient Machine Learning Model Protection in Mobile Apps ( http://arxiv.org/abs/2002.07687v2 )

ライセンス: Link先を確認
Zhichuang Sun, Ruimin Sun, Long Lu, Alan Mislove(参考訳) オンデバイス機械学習(ML)はモバイルアプリで急速に人気を集めている。 ユーザのプライバシを保護しながら、オフラインモデル推論を可能にする。 しかし、モデル所有者のコア知的特性と見なされるMLモデルは、今や数十億の信頼できないデバイスに保管され、潜在的な盗難の対象となっている。 リークされたモデルは、財政的損失とセキュリティ上の影響の両方を引き起こす可能性がある。 本稿では,モバイルデバイス上でのmlモデル保護に関する最初の実証研究を行う。 私たちの研究は、3つのオープン質問に定量的な証拠で答えることを目的としています。 既存のモデル保護技術はどの程度堅牢か? モデルにはどんな影響がありますか? その目的のために、シンプルなアプリ分析パイプラインを構築し、米国と中国のアプリマーケットから収集された46,753の人気アプリを分析しました。 人気アプリのカテゴリにまたがる1,468 mlアプリを特定した。 驚くべきことに、mlアプリの41%がモデルを完全に保護していないことがわかりました。 モデル保護や暗号化を使用しているアプリであっても,その66%から,非洗練な動的解析技術を使ってモデルを抽出できたのです。 抽出されたモデルは、主に商用製品であり、顔認識、ライブ検出、ID/バンクカード認識、マルウェア検出に使用される。 我々は、リークされたモデルによる潜在的金融とセキュリティの影響を定量的に見積もった。 我々の研究によると、デバイス上のモデルは現在リークされるリスクが高く、攻撃者はそのようなモデルを盗む動機が高い。 本研究は,この新たなセキュリティ問題に対する考察を報告し,モバイル機器のロバストかつ実用的なモデル保護に関する今後の研究に刺激を与えることを期待して,技術的な課題について議論する。

On-device machine learning (ML) is quickly gaining popularity among mobile apps. It allows offline model inference while preserving user privacy. However, ML models, considered as core intellectual properties of model owners, are now stored on billions of untrusted devices and subject to potential thefts. Leaked models can cause both severe financial loss and security consequences. This paper presents the first empirical study of ML model protection on mobile devices. Our study aims to answer three open questions with quantitative evidence: How widely is model protection used in apps? How robust are existing model protection techniques? What impacts can (stolen) models incur? To that end, we built a simple app analysis pipeline and analyzed 46,753 popular apps collected from the US and Chinese app markets. We identified 1,468 ML apps spanning all popular app categories. We found that, alarmingly, 41% of ML apps do not protect their models at all, which can be trivially stolen from app packages. Even for those apps that use model protection or encryption, we were able to extract the models from 66% of them via unsophisticated dynamic analysis techniques. The extracted models are mostly commercial products and used for face recognition, liveness detection, ID/bank card recognition, and malware detection. We quantitatively estimated the potential financial and security impact of a leaked model, which can amount to millions of dollars for different stakeholders. Our study reveals that on-device models are currently at high risk of being leaked; attackers are highly motivated to steal such models. Drawn from our large-scale study, we report our insights into this emerging security problem and discuss the technical challenges, hoping to inspire future research on robust and practical model protection for mobile devices.
翻訳日:2022-12-30 20:45:53 公開日:2021-06-14
# 逆問題に対する正規化フローの構成

Composing Normalizing Flows for Inverse Problems ( http://arxiv.org/abs/2002.11743v3 )

ライセンス: Link先を確認
Jay Whang, Erik M. Lindgren, Alexandros G. Dimakis(参考訳) 正規化流れが先行する逆問題を考えると、観測に基づく基礎となる信号の分布を推定したい。 我々は,事前学習された条件付き非条件フローモデルにおける条件付き推論のタスクとしてこの問題にアプローチする。 まず,大規模なフローモデルでは計算が困難であることを示す。 そこで本研究では,2つの流れモデルの合成として,対象条件を推定する近似推論フレームワークを提案する。 この定式化は、敵対的な訓練を避ける安定した変分推論訓練手順をもたらす。 本手法は,様々な逆問題に対して評価し,不確実な定量化を施した高品質なサンプルを作成する。 我々はさらに、ゼロショット推論の手法を償却できることを実証する。

Given an inverse problem with a normalizing flow prior, we wish to estimate the distribution of the underlying signal conditioned on the observations. We approach this problem as a task of conditional inference on the pre-trained unconditional flow model. We first establish that this is computationally hard for a large class of flow models. Motivated by this, we propose a framework for approximate inference that estimates the target conditional as a composition of two flow models. This formulation leads to a stable variational inference training procedure that avoids adversarial training. Our method is evaluated on a variety of inverse problems and is shown to produce high-quality samples with uncertainty quantification. We further demonstrate that our approach can be amortized for zero-shot inference.
翻訳日:2022-12-28 14:52:31 公開日:2021-06-14
# 宇宙論への転換の重要さ

Transformation Importance with Applications to Cosmology ( http://arxiv.org/abs/2003.01926v2 )

ライセンス: Link先を確認
Chandan Singh, Wooseok Ha, Francois Lanusse, Vanessa Boehm, Jia Liu, Bin Yu(参考訳) 機械学習は、科学的発見、知識の生成、人工知能の新たな可能性の中心にある。 その潜在的な利点は、予測精度を超えて解釈可能性に焦点を当てることである。 特に、多くの科学的問題はドメイン固有の解釈可能な特徴空間(例えば周波数領域)の解釈を必要とするが、生の特徴(例えばピクセル空間)への帰属は理解できないか、あるいは誤解を招く。 この課題に対処するために、変換空間における特徴に重きを置く新しいアプローチであるTRIM(TRansformation IMportance)を提案し、完全に訓練されたモデルにポストホックを適用する。 trimは、シミュレーションデータにディープニューラルネットワーク(dnn)を用いた宇宙論的パラメータ推定問題に動機づけられているが、一般にドメイン/モデルにまたがって適用され、任意のローカル解釈法と組み合わせることができる。 宇宙論の例では、TRIMと文脈分解を組み合わせることで、DNNがどの周波数を使うかを特定するための有望な結果が示され、宇宙学者がシミュレーションアーティファクトよりも適切な物理的特徴を学習するのに役立つ。

Machine learning lies at the heart of new possibilities for scientific discovery, knowledge generation, and artificial intelligence. Its potential benefits to these fields requires going beyond predictive accuracy and focusing on interpretability. In particular, many scientific problems require interpretations in a domain-specific interpretable feature space (e.g. the frequency domain) whereas attributions to the raw features (e.g. the pixel space) may be unintelligible or even misleading. To address this challenge, we propose TRIM (TRansformation IMportance), a novel approach which attributes importances to features in a transformed space and can be applied post-hoc to a fully trained model. TRIM is motivated by a cosmological parameter estimation problem using deep neural networks (DNNs) on simulated data, but it is generally applicable across domains/models and can be combined with any local interpretation method. In our cosmology example, combining TRIM with contextual decomposition shows promising results for identifying which frequencies a DNN uses, helping cosmologists to understand and validate that the model learns appropriate physical features rather than simulation artifacts.
翻訳日:2022-12-26 12:51:55 公開日:2021-06-14
# 重み付きクライアント間転送を用いた連続学習

Federated Continual Learning with Weighted Inter-client Transfer ( http://arxiv.org/abs/2003.03196v5 )

ライセンス: Link先を確認
Jaehong Yoon, Wonyong Jeong, Giwoong Lee, Eunho Yang, Sung Ju Hwang(参考訳) 継続的な学習とフェデレーション学習への関心が高まっており、どちらも現実世界のシナリオにおけるディープニューラルネットワークにおいて重要である。 しかし、各クライアントがプライベートなローカルデータストリームから一連のタスクを学習するシナリオについてはほとんど研究されていない。 この連立連続学習の問題は、他のクライアントからの知識を利用して、無関係な知識からの干渉を防ぎながら、継続的な学習に新たな課題をもたらす。 そこで本稿では,ネットワークの重み付けをグローバルフェデレーションパラメータとスパースタスク固有パラメータに分解し,各クライアントがタスク固有パラメータの重み付けの組み合わせを用いて他のクライアントから選択した知識を受信する,新しいフェデレーション型連続学習フレームワークであるfederated weighted inter-client transfer (fedweit)を提案する。 FedWeITは互換性のないタスク間の干渉を最小限にし、学習中にクライアント間でポジティブな知識伝達を可能にする。 我々はFedWeITを、クライアント間でのタスク類似度の違いによる既存のフェデレーション学習および継続学習手法に対して検証し、通信コストを大幅に削減して、その性能を著しく向上させる。 コードはhttps://github.com/wyjeong/FedWeITで入手できる。

There has been a surge of interest in continual learning and federated learning, both of which are important in deep neural networks in real-world scenarios. Yet little research has been done regarding the scenario where each client learns on a sequence of tasks from a private local data stream. This problem of federated continual learning poses new challenges to continual learning, such as utilizing knowledge from other clients, while preventing interference from irrelevant knowledge. To resolve these issues, we propose a novel federated continual learning framework, Federated Weighted Inter-client Transfer (FedWeIT), which decomposes the network weights into global federated parameters and sparse task-specific parameters, and each client receives selective knowledge from other clients by taking a weighted combination of their task-specific parameters. FedWeIT minimizes interference between incompatible tasks, and also allows positive knowledge transfer across clients during learning. We validate our FedWeIT against existing federated learning and continual learning methods under varying degrees of task similarity across clients, and our model significantly outperforms them with a large reduction in the communication cost. Code is available at https://github.com/wyjeong/FedWeIT
翻訳日:2022-12-26 00:43:50 公開日:2021-06-14
# ベイズ学習を用いた格子タンパク質設計

Lattice protein design using Bayesian learning ( http://arxiv.org/abs/2003.06601v5 )

ライセンス: Link先を確認
Tomoei Takahashi, George Chikenji and Kei Tokita(参考訳) タンパク質設計は、3d構造とアミノ酸配列の関係を解明するための3次元構造予測の逆アプローチである。 一般に、タンパク質設計の計算には二重ループがあり、アミノ酸配列のループが変化し、アミノ酸配列の徹底的なコンフォメーション探索のループが変化する。 そこで本研究では, ベイズ学習を用いた新しい統計力学設計法を提案する。 タンパク質の進化に関する熱力学的仮説を考察し、アミノ酸配列の以前の分布に適用する。 さらに, グランド・カノニカル・ピクチャーの観点から, 水効果を考慮に入れた。 その結果, 2次元格子疎水性極性(hp)モデルを適用すると, ターゲットコンフォメーションが一意な基底状態を持つアミノ酸配列が得られた。 しかし、この性能は2Dモデルと比べて3D格子HPモデルでは良くなかった。 3dモデルの性能は20レター格子タンパク質の使用により向上する。 さらに, 水の化学的ポテンシャルと表面残基数との間には強い線形性があり, タンパク質構造と水分子の効果の関係が明らかになる。 本手法の利点は,完全コンフォメーション探索に対応する分割関数に対する長い計算を必要としないため,計算時間を大幅に短縮できる点にある。 本手法はベイズ学習と統計力学の一般形式を用いており, 格子タンパク質に限らず, 従来のタンパク質設計法でよく用いられるヒューリスティックスを解明した。

Protein design is the inverse approach of the three-dimensional (3D) structure prediction for elucidating the relationship between the 3D structures and amino acid sequences. In general, the computation of the protein design involves a double loop: a loop for amino acid sequence changes and a loop for an exhaustive conformational search for each amino acid sequence. Herein, we propose a novel statistical mechanical design method using Bayesian learning, which can design lattice proteins without the exhaustive conformational search. We consider a thermodynamic hypothesis of the evolution of proteins and apply it to the prior distribution of amino acid sequences. Furthermore, we take the water effect into account in view of the grand canonical picture. As a result, on applying the 2D lattice hydrophobic-polar (HP) model, our design method successfully finds an amino acid sequence for which the target conformation has a unique ground state. However, the performance was not as good for the 3D lattice HP models compared to the 2D models. The performance of the 3D model improves on using a 20-letter lattice proteins. Furthermore, we find a strong linearity between the chemical potential of water and the number of surface residues, thereby revealing the relationship between protein structure and the effect of water molecules. The advantage of our method is that it greatly reduces computation time, because it does not require long calculations for the partition function corresponding to an exhaustive conformational search. As our method uses a general form of Bayesian learning and statistical mechanics and is not limited to lattice proteins, the results presented here elucidate some heuristics used successfully in previous protein design methods.
翻訳日:2022-12-23 20:37:52 公開日:2021-06-14
# 共同ファウンダーとメディエーターによる治療効果の評価

Estimating Treatment Effects with Observed Confounders and Mediators ( http://arxiv.org/abs/2003.11991v3 )

ライセンス: Link先を確認
Shantanu Gupta, Zachary C. Lipton, David Childers(参考訳) 因果グラフが与えられた場合、do-calculusは経験的に推定できる観察関節分布の関数として治療効果を表現することができる。 時折、do-calculusは複数の有効な公式を識別し、対応する推定子の統計的性質を比較する。 例えば、すべての共同創設者が観察された際にはバックドア公式が適用され、観察されたメディエーターが因果効果を伝達したときにはフロントドア公式が適用される。 本稿では,共同創設者と仲介者の両方が観察される過度に同定されたシナリオについて検討し,両推定手法の有効性を検証した。 線形ガウス因果モデルに対処し, いずれの推定子も非有界定数因子によって他方を支配できることを実証する。 次に、すべての観測変数を活用し、有限サンプル分散を束縛する最適推定器を得る。 バックドアおよびフロントドア推定器よりも厳格に優れており、この改善は非バウンド化可能であることを示す。 また,2つのデータセットを,1つは共同設立者,もう1つはメディエータで組み合わせる手順も提示する。 最後に、シミュレーションデータとIHDPおよびJTPAデータセットの両方で手法を評価する。

Given a causal graph, the do-calculus can express treatment effects as functionals of the observational joint distribution that can be estimated empirically. Sometimes the do-calculus identifies multiple valid formulae, prompting us to compare the statistical properties of the corresponding estimators. For example, the backdoor formula applies when all confounders are observed and the frontdoor formula applies when an observed mediator transmits the causal effect. In this paper, we investigate the over-identified scenario where both confounders and mediators are observed, rendering both estimators valid. Addressing the linear Gaussian causal model, we demonstrate that either estimator can dominate the other by an unbounded constant factor. Next, we derive an optimal estimator, which leverages all observed variables, and bound its finite-sample variance. We show that it strictly outperforms the backdoor and frontdoor estimators and that this improvement can be unbounded. We also present a procedure for combining two datasets, one with observed confounders and another with observed mediators. Finally, we evaluate our methods on both simulated data and the IHDP and JTPA datasets.
翻訳日:2022-12-19 21:34:12 公開日:2021-06-14
# 線形回帰とニューラルネットワークによるヘッジ

Hedging with Linear Regressions and Neural Networks ( http://arxiv.org/abs/2004.08891v3 )

ライセンス: Link先を確認
Johannes Ruf, Weiguan Wang(参考訳) ニューラルネットワークをオプションのヘッジのための非パラメトリック推定ツールとして研究する。 この目的のために,HedgeNetというネットワークを設計し,ヘッジ戦略を直接出力する。 このネットワークは、価格エラーの代わりにヘッジエラーを最小限に抑えるよう訓練されている。 s&p 500 と euro stoxx 50 オプションの終日および終日価格に適用すると、ネットワークはブラックスコールベンチマークの平均二乗ヘッジ誤差を大幅に低減することができる。 しかし、同様の利点は、レバレッジ効果を組み込んだ単純な線形回帰によって生じる。

We study neural networks as nonparametric estimation tools for the hedging of options. To this end, we design a network, named HedgeNet, that directly outputs a hedging strategy. This network is trained to minimise the hedging error instead of the pricing error. Applied to end-of-day and tick prices of S&P 500 and Euro Stoxx 50 options, the network is able to reduce the mean squared hedging error of the Black-Scholes benchmark significantly. However, a similar benefit arises by simple linear regressions that incorporate the leverage effect.
翻訳日:2022-12-12 00:03:53 公開日:2021-06-14
# 連関確率勾配ランジュバンダイナミクス

Federated Stochastic Gradient Langevin Dynamics ( http://arxiv.org/abs/2004.11231v3 )

ライセンス: Link先を確認
Khaoula El Mekkaoui, Diego Mesquita, Paul Blomstedt, Samuel Kaski(参考訳) 確率勾配Langevin dynamics (SGLD) のような確率勾配MCMC法は、大規模後方サンプリングを可能にするために高速だがノイズの多い勾配推定を用いる。 SGLDを分散設定に簡単に拡張できるが、フェデレーションされた非IIDデータに適用した場合に2つの問題がある。 まず、これらの推定値のばらつきが著しく増加する。 第二に、遅延通信はマルコフ連鎖を非常に単純なモデルであっても真の後部から分岐させる。 これらの問題を緩和するために,局所的帰納近似と補正勾配更新を組み合わせた簡易なメカニズムである畳み込み勾配を提案する。 特に、導出勾配は計算が容易であり、近似を一度だけ計算するので、それらは無視できないオーバーヘッドを引き起こす。 本研究では,分散確率勾配Langevin dynamics (DSGLD) に導出的勾配を適用し,その結果のフェデレート確率勾配Langevin dynamics (FSGLD) と呼ぶ。 DSGLDが故障した場合に,本手法は遅延通信ラウンドを処理し,ターゲット後方に収束することを示す。 また、FSGLDは、非IIDフェデレーションデータに対して、計量学習とニューラルネットワークの実験により、DSGLDよりも優れていることを示す。

Stochastic gradient MCMC methods, such as stochastic gradient Langevin dynamics (SGLD), employ fast but noisy gradient estimates to enable large-scale posterior sampling. Although we can easily extend SGLD to distributed settings, it suffers from two issues when applied to federated non-IID data. First, the variance of these estimates increases significantly. Second, delaying communication causes the Markov chains to diverge from the true posterior even for very simple models. To alleviate both these problems, we propose conducive gradients, a simple mechanism that combines local likelihood approximations to correct gradient updates. Notably, conducive gradients are easy to compute, and since we only calculate the approximations once, they incur negligible overhead. We apply conducive gradients to distributed stochastic gradient Langevin dynamics (DSGLD) and call the resulting method federated stochastic gradient Langevin dynamics (FSGLD). We demonstrate that our approach can handle delayed communication rounds, converging to the target posterior in cases where DSGLD fails. We also show that FSGLD outperforms DSGLD for non-IID federated data with experiments on metric learning and neural networks.
翻訳日:2022-12-10 09:11:15 公開日:2021-06-14
# 不均衡データとスパースデータのための分類木:表面-体積正規化

Classification Trees for Imbalanced and Sparse Data: Surface-to-Volume Regularization ( http://arxiv.org/abs/2004.12293v2 )

ライセンス: Link先を確認
Yichen Zhu, Cheng Li and David B. Dunson(参考訳) 1つ以上のクラスがトレーニングデータに制限がある場合、分類アルゴリズムは困難に直面する。 私たちは、その解釈性と柔軟性のために、特に分類木に興味を持っています。 データが1つ以上のクラスで制限された場合、推定された決定境界はしばしばサンプルサイズが制限されたため不規則に形成され、一般化誤差が低くなる。 そこで我々は,SVR-Treeアルゴリズムのクラスを新たに獲得し,SVR(Surface-to-Volume Ratio)をペナライズする手法を提案する。 我々は,SVR-Treeの予測整合性と,SVR-Treeの理想化された経験的リスク最小化器の収束率を証明しつつ,シンプルで効率的な実装を開発する。 SVR-Treeは、実際のデータアプリケーションを通しての不均衡を扱うように設計された複数のアルゴリズムと比較される。

Classification algorithms face difficulties when one or more classes have limited training data. We are particularly interested in classification trees, due to their interpretability and flexibility. When data are limited in one or more of the classes, the estimated decision boundaries are often irregularly shaped due to the limited sample size, leading to poor generalization error. We propose a novel approach that penalizes the Surface-to-Volume Ratio (SVR) of the decision set, obtaining a new class of SVR-Tree algorithms. We develop a simple and computationally efficient implementation while proving estimation consistency for SVR-Tree and rate of convergence for an idealized empirical risk minimizer of SVR-Tree. SVR-Tree is compared with multiple algorithms that are designed to deal with imbalance through real data applications.
翻訳日:2022-12-09 13:54:16 公開日:2021-06-14
# 接地応答生成の制御可能なモデル

A Controllable Model of Grounded Response Generation ( http://arxiv.org/abs/2005.00613v2 )

ライセンス: Link先を確認
Zeqiu Wu, Michel Galley, Chris Brockett, Yizhe Zhang, Xiang Gao, Chris Quirk, Rik Koncel-Kedziorski, Jianfeng Gao, Hannaneh Hajishirzi, Mari Ostendorf and Bill Dolan(参考訳) 現在のエンドツーエンドのニューラル会話モデルは、本質的に応答生成プロセスに意味的制御を課す柔軟性を欠いている。 インフォメーション性を高める試みは、事前訓練された言語モデルの事実を「幻覚」する傾向によって証明されるように、事実の正確さを犠牲にしている。 これは背景知識へのアクセスによって緩和されるかもしれないが、生成した応答における関連性と情報性の保証は少ない。 本稿では,対話の文脈や知識から語彙的制御句が提供されたり,あるいは制御句予測器によって自動的に抽出されたりする,制御可能な接地応答生成(cgrg)と呼ばれる枠組みを提案する。 このフレームワークを用いて、会話のようなRedditデータセットに基づいてトレーニングされた、新しい誘導的注意機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。

Current end-to-end neural conversation models inherently lack the flexibility to impose semantic control in the response generation process, often resulting in uninteresting responses. Attempts to boost informativeness alone come at the expense of factual accuracy, as attested by pretrained language models' propensity to "hallucinate" facts. While this may be mitigated by access to background knowledge, there is scant guarantee of relevance and informativeness in generated responses. We propose a framework that we call controllable grounded response generation (CGRG), in which lexical control phrases are either provided by a user or automatically extracted by a control phrase predictor from dialogue context and grounding knowledge. Quantitative and qualitative results show that, using this framework, a transformer based model with a novel inductive attention mechanism, trained on a conversation-like Reddit dataset, outperforms strong generation baselines.
翻訳日:2022-12-07 23:55:10 公開日:2021-06-14
# スケールド勾配降下による非条件低ランク行列推定の高速化

Accelerating Ill-Conditioned Low-Rank Matrix Estimation via Scaled Gradient Descent ( http://arxiv.org/abs/2005.08898v4 )

ライセンス: Link先を確認
Tian Tong, Cong Ma, Yuejie Chi(参考訳) 低ランク行列推定は、信号処理、機械学習、画像科学に多くの応用を見出す標準的な問題である。 実際に一般的なアプローチは、行列を2つのコンパクトな低ランク因子に分解し、勾配降下や交互化最小化のような単純な反復法によってこれらの因子を直接最適化することである。 非凸性にもかかわらず、近年の文献では、これらの単純なヒューリスティックは、興味を持つ問題の増加のために適切に初期化されると線形収束を達成することが示されている。 勾配勾配の収束速度は、低ランク行列の条件数に線形に依存するが、最小化を交互に行う点当たりのコストは、大きな行列に対してしばしば禁止される。 本研究の目的は,プリコンディショナーが適応的かつ反復的であり,計算オーバーヘッドが最小限であるような,事前条件付きあるいは対角スケールの勾配勾配勾配とみなすことのできる,スケールドグラディエント・ディフレクション (Scaled Gradient Descent,ScaledGD) と呼ばれるアルゴリズムの競争的アプローチを構築することである。 低ランク行列センシング, 頑健な主成分分析, および行列完備化のための調整された変種を用いて, ScaledGD は勾配勾配の低着氷コストを維持しつつ, 交互最小化のような低ランク行列の条件数に依存しない速度で線形収束することを示した。 また, 本解析は, 低ランク行列上で強く凸かつ滑らかに制限される一般損失関数にも適用できる。 我々の知る限りでは、ScaledGDは、幅広い低ランク行列推定タスクに対して確実にそのような特性を持つ最初のアルゴリズムである。

Low-rank matrix estimation is a canonical problem that finds numerous applications in signal processing, machine learning and imaging science. A popular approach in practice is to factorize the matrix into two compact low-rank factors, and then optimize these factors directly via simple iterative methods such as gradient descent and alternating minimization. Despite nonconvexity, recent literatures have shown that these simple heuristics in fact achieve linear convergence when initialized properly for a growing number of problems of interest. However, upon closer examination, existing approaches can still be computationally expensive especially for ill-conditioned matrices: the convergence rate of gradient descent depends linearly on the condition number of the low-rank matrix, while the per-iteration cost of alternating minimization is often prohibitive for large matrices. The goal of this paper is to set forth a competitive algorithmic approach dubbed Scaled Gradient Descent (ScaledGD) which can be viewed as pre-conditioned or diagonally-scaled gradient descent, where the pre-conditioners are adaptive and iteration-varying with a minimal computational overhead. With tailored variants for low-rank matrix sensing, robust principal component analysis and matrix completion, we theoretically show that ScaledGD achieves the best of both worlds: it converges linearly at a rate independent of the condition number of the low-rank matrix similar as alternating minimization, while maintaining the low per-iteration cost of gradient descent. Our analysis is also applicable to general loss functions that are restricted strongly convex and smooth over low-rank matrices. To the best of our knowledge, ScaledGD is the first algorithm that provably has such properties over a wide range of low-rank matrix estimation tasks.
翻訳日:2022-12-01 23:30:33 公開日:2021-06-14
# Sentinel-1 SARとSentinel-2光画像の共登録の改善

Improving Co-registration for Sentinel-1 SAR and Sentinel-2 Optical images ( http://arxiv.org/abs/2005.11092v2 )

ライセンス: Link先を確認
Yuanxin Ye, Chao Yang, Bai Zhu, Youquan He, and Huarong Jia(参考訳) 欧州宇宙機関(ESA)のSentinel-1 SARとSentinel-2の光学データの共同登録は、多くのリモートセンシングアプリケーションにとって非常に重要である。 しかし、公式ウェブサイトから直接ダウンロードされたSentinel-1 SARとSentinel-2の光学画像の間には、明らかに誤登録がある。 そこで本研究では,2種類の画像の高速かつ効率的な登録方法を提案する。 提案手法では,最初に均等に分布する利子点を抽出するブロックベーススキームを考案した。 次に、3次元(3d)位相相関(pc)を画像マッチングの高速化のための類似度尺度として用いることで、sarと光学画像との間の構造的特徴の類似性を用いて対応を検出する。 最後に、得られた対応を用いて画像間の誤登録シフトを測定する。 さらに、この誤登録を解消するために、多項式モデル、射影モデル、有理関数モデルなどの代表的な幾何学的変換モデルを用いて、2種類の画像の共登録を行い、異なる制御点と異なる地形下でそれらの登録精度を比較し分析する。 実験では,3つの異なる地形をカバーするSentinel-1 SAR L1とSentinel-2光L1C画像の6対を試験した。 実験の結果,提案手法は画像と第3画像の正確な対応を実現できることがわかった。 順序多項式は最も満足な登録結果を達成する。 平坦領域の登録精度は1.010m未満であり、丘陵領域の登録精度は約1.510mであり、山岳領域の登録精度は1.7から2.310mであり、センチネル-1 SARとセンチネル-2の光学画像の共存精度を大幅に向上させる。

Co-registering the Sentinel-1 SAR and Sentinel-2 optical data of European Space Agency (ESA) is of great importance for many remote sensing applications. However, we find that there are evident misregistration shifts between the Sentinel-1 SAR and Sentinel-2 optical images that are directly downloaded from the official website. To address that, this paper presents a fast and effective registration method for the two types of images. In the proposed method, a block-based scheme is first designed to extract evenly distributed interest points. Then the correspondences are detected by using the similarity of structural features between the SAR and optical images, where the three dimension (3D) phase correlation (PC) is used as the similarity measure for accelerating image matching. Finally, the obtained correspondences are employed to measure the misregistration shifts between the images. Moreover, to eliminate the misregistration, we use some representative geometric transformation models such as polynomial models, projective models, and rational function models for the co-registration of the two types of images, and compare and analyze their registration accuracy under different numbers of control points and different terrains. Six pairs of the Sentinel-1 SAR L1 and Sentinel-2 optical L1C images covering three different terrains are tested in our experiments. Experimental results show that the proposed method can achieve precise correspondences between the images, and the 3rd. Order polynomial achieves the most satisfactory registration results. Its registration accuracy of the flat areas is less than 1.0 10m pixels, and that of the hilly areas is about 1.5 10m pixels, and that of the mountainous areas is between 1.7 and 2.3 10m pixels, which significantly improves the co-registration accuracy of the Sentinel-1 SAR and Sentinel-2 optical images.
翻訳日:2022-11-30 09:44:23 公開日:2021-06-14
# SGDにおける重機現象

The Heavy-Tail Phenomenon in SGD ( http://arxiv.org/abs/2006.04740v5 )

ライセンス: Link先を確認
Mert Gurbuzbalaban, Umut \c{S}im\c{s}ekli, Lingjiong Zhu(参考訳) 近年,深層学習における確率勾配勾配(SGD)の一般化特性を特徴付けるために,キャパシティと複雑性の様々な概念が提案されている。 目に見えないデータのパフォーマンスとよく相関する一般的な概念のいくつかは (i) sgd が発見する局所最小値の「平坦性」は、ヘッセンの固有値と関係している。 (ii)ステップの比率は、バッチサイズのb$に対して$\eta$となり、基本的に確率的勾配ノイズの大きさを制御し、 (iii)収束時のネットワーク重みの重みの重みを測定する「tail-index」。 本稿では,これら3つの非関係な一般化の観点が相互に深く結びついていることを論じる。 我々は、最小損失のヘシアンの構造と、アルゴリズムパラメータ $\eta$ と $b$ の選択に依存すると、SGD の反復は {\displaystyle \emph{heavy-tailed} 定常分布に収束すると主張する。 我々は、この主張を二次最適化の設定において厳密に証明する:我々は、分布がすべての順序の有限モーメントを持つ独立かつ同一の分散データを持つ単純な線形回帰問題であっても、イテレートは無限分散で重く結びつくことができることを示す。 さらに,アルゴリズムパラメータ,寸法,曲率に関して,尾の挙動を特徴付ける。 深層学習におけるSGDの行動に関する知見に分析結果を変換する。 我々は、合成データ、完全連結、畳み込みニューラルネットワークを用いて実験を行い、この理論を支持する。

In recent years, various notions of capacity and complexity have been proposed for characterizing the generalization properties of stochastic gradient descent (SGD) in deep learning. Some of the popular notions that correlate well with the performance on unseen data are (i) the `flatness' of the local minimum found by SGD, which is related to the eigenvalues of the Hessian, (ii) the ratio of the stepsize $\eta$ to the batch-size $b$, which essentially controls the magnitude of the stochastic gradient noise, and (iii) the `tail-index', which measures the heaviness of the tails of the network weights at convergence. In this paper, we argue that these three seemingly unrelated perspectives for generalization are deeply linked to each other. We claim that depending on the structure of the Hessian of the loss at the minimum, and the choices of the algorithm parameters $\eta$ and $b$, the SGD iterates will converge to a \emph{heavy-tailed} stationary distribution. We rigorously prove this claim in the setting of quadratic optimization: we show that even in a simple linear regression problem with independent and identically distributed data whose distribution has finite moments of all order, the iterates can be heavy-tailed with infinite variance. We further characterize the behavior of the tails with respect to algorithm parameters, the dimension, and the curvature. We then translate our results into insights about the behavior of SGD in deep learning. We support our theory with experiments conducted on synthetic data, fully connected, and convolutional neural networks.
翻訳日:2022-11-24 02:53:38 公開日:2021-06-14
# TURB-Rotデータベースからのセマンティックインペイントのための深部生成モデルによる乱流データの再構成

Reconstruction of turbulent data with deep generative models for semantic inpainting from TURB-Rot database ( http://arxiv.org/abs/2006.09179v2 )

ライセンス: Link先を確認
M. Buzzicotti, F. Bonaccorso, P. Clark Di Leoni, L. Biferale(参考訳) 本稿では,コンピュータビジョンコミュニティが開発するツールを用いて,流体乱流構成のデータ再構成を行う特徴学習と意味画像のインペインティングについて検討する。 目的は2つある。 まず,大局的な高次元カオスシステムである乱流の欠如データを生成するために,Deep Generative Adversarial Model (Deep-GAN)に畳み込みニューラルネットワークを組み込む能力について定量的に検討する。 特に、回転の有無で3次元乱流の数値的構成の大規模データベースから抽出した2次元損傷スナップショットの再構成において、大規模な組織構造と小規模断続的かつ非ガウス的変動の両方が存在するようなマルチスケールのランダムな特徴を持つ場合について検討する。 第2に, 逆エンジニアリング手法により, 定性的かつ定量的に入力フロー特性(特徴)をランク付けし, より優れた再構成フィールドを得る。 コンテキストエンコーダに基づく2つのアプローチを提案する。 第一に、L2画素単位の再構成損失の最小化と、小さな対向的なペナル化によって、欠落したデータを推測する。 2つ目は、以前に訓練された発電機から、破損したフロー構成の最も近いエンコーディングを探索する。 最後に,数値気象予報コミュニティでよく知られている,方程式に変形しない非バイアスプロトコルであるnudgingに基づく,異なるデータ同化ツールとの比較を行う。 TURB-Rotデータベース http://smart-turb.roma2.infn.it は約300Kの乱流画像とダウンロード方法の詳細が公開されている。

We study the applicability of tools developed by the computer vision community for features learning and semantic image inpainting to perform data reconstruction of fluid turbulence configurations. The aim is twofold. First, we explore on a quantitative basis, the capability of Convolutional Neural Networks embedded in a Deep Generative Adversarial Model (Deep-GAN) to generate missing data in turbulence, a paradigmatic high dimensional chaotic system. In particular, we investigate their use in reconstructing two-dimensional damaged snapshots extracted from a large database of numerical configurations of 3d turbulence in the presence of rotation, a case with multi-scale random features where both large-scale organised structures and small-scale highly intermittent and non-Gaussian fluctuations are present. Second, following a reverse engineering approach, we aim to rank the input flow properties (features) in terms of their qualitative and quantitative importance to obtain a better set of reconstructed fields. We present two approaches both based on Context Encoders. The first one infers the missing data via a minimization of the L2 pixel-wise reconstruction loss, plus a small adversarial penalisation. The second searches for the closest encoding of the corrupted flow configuration from a previously trained generator. Finally, we present a comparison with a different data assimilation tool, based on Nudging, an equation-informed unbiased protocol, well known in the numerical weather prediction community. The TURB-Rot database, http://smart-turb.roma2.infn.it, of roughly 300K 2d turbulent images is released and details on how to download it are given.
翻訳日:2022-11-20 20:58:18 公開日:2021-06-14
# スライス反復正規化流れ

Sliced Iterative Normalizing Flows ( http://arxiv.org/abs/2007.00674v3 )

ライセンス: Link先を確認
Biwei Dai and Uros Seljak(参考訳) 我々は,任意の確率分布関数(PDF)を対象のPDFに変換することができる反復型(欲求型)ディープラーニング(DL)アルゴリズムを開発した。 このモデルは、一連の1dスライスの反復的最適輸送に基づいており、各スライスの限界pdfをターゲットにマッチさせる。 直交スライスの軸は、各イテレーションでwasserstein距離を使用してpdf差分を最大化するために選択され、アルゴリズムは高次元までスケールすることができる。 本アルゴリズムの特殊な場合として,データから潜在空間(GIS)にマップする2つの反復正規化フロー(SINF)モデルと,その逆(SIG)モデルを導入する。 sigはganベンチマークに適合する画像データセットの高品質なサンプルを生成することができるが、gisは密度トレーニングされたnfsと比較して密度推定タスクにおいて、より安定で高速で、小さなトレーニングセットでトレーニングした場合に高い$p(x)$が得られる。 SINFアプローチは現行のDLパラダイムとは大きく異なっており,ミニバッチ,確率勾配勾配,深い層を通る勾配バックプロパゲーションといった概念は使用していない。

We develop an iterative (greedy) deep learning (DL) algorithm which is able to transform an arbitrary probability distribution function (PDF) into the target PDF. The model is based on iterative Optimal Transport of a series of 1D slices, matching on each slice the marginal PDF to the target. The axes of the orthogonal slices are chosen to maximize the PDF difference using Wasserstein distance at each iteration, which enables the algorithm to scale well to high dimensions. As special cases of this algorithm, we introduce two sliced iterative Normalizing Flow (SINF) models, which map from the data to the latent space (GIS) and vice versa (SIG). We show that SIG is able to generate high quality samples of image datasets, which match the GAN benchmarks, while GIS obtains competitive results on density estimation tasks compared to the density trained NFs, and is more stable, faster, and achieves higher $p(x)$ when trained on small training sets. SINF approach deviates significantly from the current DL paradigm, as it is greedy and does not use concepts such as mini-batching, stochastic gradient descent and gradient back-propagation through deep layers.
翻訳日:2022-11-14 22:19:16 公開日:2021-06-14
# 連続インデクシング正規化流を用いた変分推論

Variational Inference with Continuously-Indexed Normalizing Flows ( http://arxiv.org/abs/2007.05426v2 )

ライセンス: Link先を確認
Anthony Caterini and Rob Cornish and Dino Sejdinovic and Arnaud Doucet(参考訳) 連続インデックスフロー(CIF)は近年,様々な密度推定タスクのベースライン正規化フローよりも改善されている。 CIFは閉形式境界密度を持たないので、標準的な流れとは異なり、より表現力のある近似後続の族を生成するために、変分推論(VI)スキームに直接接続することはできない。 しかし,本論文では,表現性後部近似を自然な方法で定式化し,訓練するための補助的なVIスキームの一部としてCIFを用いる方法を示す。 我々は多層CIFの条件独立構造を利用して必要な補助的推論モデルを構築し、モデル証拠の低分散推定器を経験的に得ることを示す。 次に,興味の後方分布が複雑なトポロジーを持つ場合のvi問題におけるベースラインフローに対するcifのアドバンテージを示し,ベイズ推定と最大帰納可能性設定の両方において改善結果を得た。

Continuously-indexed flows (CIFs) have recently achieved improvements over baseline normalizing flows on a variety of density estimation tasks. CIFs do not possess a closed-form marginal density, and so, unlike standard flows, cannot be plugged in directly to a variational inference (VI) scheme in order to produce a more expressive family of approximate posteriors. However, we show here how CIFs can be used as part of an auxiliary VI scheme to formulate and train expressive posterior approximations in a natural way. We exploit the conditional independence structure of multi-layer CIFs to build the required auxiliary inference models, which we show empirically yield low-variance estimators of the model evidence. We then demonstrate the advantages of CIFs over baseline flows in VI problems when the posterior distribution of interest possesses a complicated topology, obtaining improved results in both the Bayesian inference and surrogate maximum likelihood settings.
翻訳日:2022-11-11 21:05:03 公開日:2021-06-14
# 直接損失最小化のためのランダム摂動構造予測器の学習

Learning Randomly Perturbed Structured Predictors for Direct Loss Minimization ( http://arxiv.org/abs/2007.05724v2 )

ライセンス: Link先を確認
Hedda Cohen Indelman, Tamir Hazan(参考訳) 直接損失最小化は、構造化ラベル空間上の予測子を学習するための一般的なアプローチである。 このアプローチは、最適化と統合を置き換え、損失摂動予測を用いてディープネット内の勾配を伝播するので、計算的に魅力的である。 近年、この手法が生成モデルに拡張され、ランダムに摂動したスコア関数から構造をサンプリングするランダム化予測器が導入された。 本研究では,これらのランダム化構造予測器の分散を学習し,構造化予測における学習スコア関数とランダム化雑音とのバランス性を示す。 構造化離散空間における信号とランダムノイズのバランスを学習する効果を実証的に示す。

Direct loss minimization is a popular approach for learning predictors over structured label spaces. This approach is computationally appealing as it replaces integration with optimization and allows to propagate gradients in a deep net using loss-perturbed prediction. Recently, this technique was extended to generative models, while introducing a randomized predictor that samples a structure from a randomly perturbed score function. In this work, we learn the variance of these randomized structured predictors and show that it balances better between the learned score function and the randomized noise in structured prediction. We demonstrate empirically the effectiveness of learning the balance between the signal and the random noise in structured discrete spaces.
翻訳日:2022-11-11 13:08:14 公開日:2021-06-14
# 視覚3次元ポーズと形状のための神経降下

Neural Descent for Visual 3D Human Pose and Shape ( http://arxiv.org/abs/2008.06910v2 )

ライセンス: Link先を確認
Andrei Zanfir, Eduard Gabriel Bazavan, Mihai Zanfir, William T. Freeman, Rahul Sukthankar, Cristian Sminchisescu(参考訳) 本稿では,入力rgb画像から3次元ポーズと形状を再構成する深層ニューラルネットワーク手法を提案する。 最近紹介された、表現力に富んだ身体統計3d人体モデル「ghum」に基づき、自己監督体制でそのポーズと形状状態を再構築することを学ぶ。 提案手法の中心となるのは,HUmanNeural Descent (HUND) と呼ばれるアプローチの学習と最適化である。これは,モデルパラメータをトレーニングする際の2次微分と,テスト時の意味的微分可能なレンダリング損失を正確に最小化するために,高価な状態勾配勾配の両方を回避する。 代わりに、ポーズや形状パラメータを更新するために新しいリカレントステージに依存し、損失が効果的に最小化されるだけでなく、エンドプログレッシブを保証するためにプロセスがメタレギュラライズされる。 HUNDのトレーニングとテストの対称性は、自己管理されたものを含むさまざまなオペレーティングシステムをネイティブにサポートする最初の3Dヒューマンセンシングアーキテクチャである。 多様なテストにおいて、HUNDはH3.6Mや3DPWのようなデータセットで非常に競争力のある結果を得ることを示した。

We present deep neural network methodology to reconstruct the 3d pose and shape of people, given an input RGB image. We rely on a recently introduced, expressivefull body statistical 3d human model, GHUM, trained end-to-end, and learn to reconstruct its pose and shape state in a self-supervised regime. Central to our methodology, is a learning to learn and optimize approach, referred to as HUmanNeural Descent (HUND), which avoids both second-order differentiation when training the model parameters,and expensive state gradient descent in order to accurately minimize a semantic differentiable rendering loss at test time. Instead, we rely on novel recurrent stages to update the pose and shape parameters such that not only losses are minimized effectively, but the process is meta-regularized in order to ensure end-progress. HUND's symmetry between training and testing makes it the first 3d human sensing architecture to natively support different operating regimes including self-supervised ones. In diverse tests, we show that HUND achieves very competitive results in datasets like H3.6M and 3DPW, aswell as good quality 3d reconstructions for complex imagery collected in-the-wild.
翻訳日:2022-10-28 11:39:52 公開日:2021-06-14
# 高効率ロバストモデル作成のための統合的アプローチ

An Integrated Approach to Produce Robust Models with High Efficiency ( http://arxiv.org/abs/2008.13305v2 )

ライセンス: Link先を確認
Zhijian Li, Bao Wang, and Jack Xin(参考訳) ディープニューラルネットワーク(DNN)は、実用的な用途において効率的かつ堅牢である必要がある。 量子化と構造単純化は、モバイルデバイスにDNNを適用するための有望な方法であり、DNNを堅牢にする最も一般的な手法は、敵対的トレーニングである。 本研究では, 収束緩和量子化アルゴリズムであるBinary-Relax (BR) を, Feynman-Kac Formalism (EnResNet) による頑健な逆学習モデル ResNets Ensemble に適用することにより, 両特徴の獲得を試みる。 また,3次(tnn)や4ビットの量子化といった高精度なdnnの生成も確認した。 しかし、この空間は補助訓練では構造化されていない。 そこで我々は,DNNが自然の精度を維持し,チャネルの間隔を改善するのに役立つトレードオフ損失関数を設計し,クリーンな画像に対するDNNの精度を損なうような課題を解決した。 トレードオフ損失関数では,弱い攻撃による抵抗の低減と強い攻撃による抵抗の低減を伴わず,両目標を達成できた。 トレードオフ損失関数を持つ量子化enresnetと共に、高効率なロバストモデルを提供する。

Deep Neural Networks (DNNs) needs to be both efficient and robust for practical uses. Quantization and structure simplification are promising ways to adapt DNNs to mobile devices, and adversarial training is the most popular method to make DNNs robust. In this work, we try to obtain both features by applying a convergent relaxation quantization algorithm, Binary-Relax (BR), to a robust adversarial-trained model, ResNets Ensemble via Feynman-Kac Formalism (EnResNet). We also discover that high precision, such as ternary (tnn) and 4-bit, quantization will produce sparse DNNs. However, this sparsity is unstructured under advarsarial training. To solve the problems that adversarial training jeopardizes DNNs' accuracy on clean images and the struture of sparsity, we design a trade-off loss function that helps DNNs preserve their natural accuracy and improve the channel sparsity. With our trade-off loss function, we achieve both goals with no reduction of resistance under weak attacks and very minor reduction of resistance under strong attcks. Together with quantized EnResNet with trade-off loss function, we provide robust models that have high efficiency.
翻訳日:2022-10-23 07:45:44 公開日:2021-06-14
# クリックスルー率予測のためのフィールド埋め込み因子化マシン

Field-Embedded Factorization Machines for Click-through rate prediction ( http://arxiv.org/abs/2009.09931v2 )

ライセンス: Link先を確認
Harshit Pande(参考訳) クリックスルーレート(CTR)予測モデルは、デジタル広告やレコメンダシステムなど、多くのオンラインアプリケーションで一般的である。 fwfm (field-aware factorization machine) とfwfm (field-weighted factorization machine) はctr予測のための浅層モデルの中で最先端である。 近年,ディープラーニングに基づくモデルも数多く提案されている。 DeepFM、xDeepFM、AutoInt+、FiBiNetといったより深いモデルは最先端のモデルである。 より深いモデルは、明示的な機能インタラクションを学ぶコアアーキテクチャコンポーネントと、ディープニューラルネットワーク(DNN)コンポーネントを組み合わせる。 本研究では,新しい浅場埋め込み因子化マシン (FEFM) と深場埋め込み因子化マシン (DeepFEFM) を提案する。 FEFMは各フィールド対に対する対称行列埋め込みと、各特徴に対する通常の単一ベクトル埋め込みを学習する。 FEFMはFFMよりもモデル複雑さが著しく低く、FwFMとほぼ同じ複雑さを持つ。 FEFMはまた、重要な場と相互作用に関する洞察に富んだ数学的性質を持っている。 DeepFEFMは、FEFMコンポーネントによって学習されたFEFM相互作用ベクトルとDNNを組み合わせることで、高次相互作用を学習することができる。 我々は,2つの大規模公開実世界のデータセット上で,幅広いハイパーパラメータについて包括的な実験を行った。 テストAUCとログ損失を比較すると、FEFMとDeepFEFMはCTR予測タスクの最先端および深部モデルよりも優れていた。 FEFMとDeepFEFMのコードはDeepCTRライブラリ(https://github.com/shenweichen/DeepCTR)で利用可能です。

Click-through rate (CTR) prediction models are common in many online applications such as digital advertising and recommender systems. Field-Aware Factorization Machine (FFM) and Field-weighted Factorization Machine (FwFM) are state-of-the-art among the shallow models for CTR prediction. Recently, many deep learning-based models have also been proposed. Among deeper models, DeepFM, xDeepFM, AutoInt+, and FiBiNet are state-of-the-art models. The deeper models combine a core architectural component, which learns explicit feature interactions, with a deep neural network (DNN) component. We propose a novel shallow Field-Embedded Factorization Machine (FEFM) and its deep counterpart Deep Field-Embedded Factorization Machine (DeepFEFM). FEFM learns symmetric matrix embeddings for each field pair along with the usual single vector embeddings for each feature. FEFM has significantly lower model complexity than FFM and roughly the same complexity as FwFM. FEFM also has insightful mathematical properties about important fields and field interactions. DeepFEFM combines the FEFM interaction vectors learned by the FEFM component with a DNN and is thus able to learn higher order interactions. We conducted comprehensive experiments over a wide range of hyperparameters on two large publicly available real-world datasets. When comparing test AUC and log loss, the results show that FEFM and DeepFEFM outperform the existing state-of-the-art shallow and deep models for CTR prediction tasks. We have made the code of FEFM and DeepFEFM available in the DeepCTR library (https://github.com/shenweichen/DeepCTR).
翻訳日:2022-10-19 03:00:59 公開日:2021-06-14
# 長い文書から要約知識グラフを抽出する

Extracting Summary Knowledge Graphs from Long Documents ( http://arxiv.org/abs/2009.09162v2 )

ライセンス: Link先を確認
Zeqiu Wu, Rik Koncel-Kedziorski, Mari Ostendorf, Hannaneh Hajishirzi(参考訳) 知識グラフは長いドキュメントからエンティティと関係をキャプチャし、多くの下流アプリケーションでの推論を容易にする。 健全な実体と関係のみを含むコンパクトな知識グラフの抽出は重要であるが、長い文書の理解と要約は困難である。 長い文書から要約知識グラフを予測できる新しいテキスト・グラフタスクを提案する。 自動アノテーションと人文アノテーションを用いた200k文書/グラフペアのデータセットを開発する。 また、グラフ学習とテキスト要約に基づくこのタスクの強力なベースラインを構築し、その効果を定量的に定性的に研究する。

Knowledge graphs capture entities and relations from long documents and can facilitate reasoning in many downstream applications. Extracting compact knowledge graphs containing only salient entities and relations is important but challenging for understanding and summarizing long documents. We introduce a new text-to-graph task of predicting summarized knowledge graphs from long documents. We develop a dataset of 200k document/graph pairs using automatic and human annotations. We also develop strong baselines for this task based on graph learning and text summarization, and provide quantitative and qualitative studies of their effect.
翻訳日:2022-10-16 21:20:29 公開日:2021-06-14
# ディープジョイントソースチャネル符号化による帯域-アジャイル画像伝送

Bandwidth-Agile Image Transmission with Deep Joint Source-Channel Coding ( http://arxiv.org/abs/2009.12480v2 )

ライセンス: Link先を確認
David Burth Kurka and Deniz G\"und\"uz(参考訳) 本稿では,無線チャネル上の画像の適応帯域幅伝送のための深層学習に基づく通信手法を提案する。 我々は,画像が時間や頻度で順次レイヤに送信されるシナリオを検討し,そのようなレイヤを受信者によって集約することで,復元の質を高めることができる。 レイヤを順次送信するシナリオと,レコンストラクションの洗練に段階的に寄与するシナリオと,レイヤが独立して,任意の順序で取得可能なシナリオの2つについて検討した。 これらのシナリオは、ジョイントソースチャネル符号化(JSCC)の文脈において、よく知られた \textit{successive refinement} と \textit{multiple descriptions} に対応する。 本稿では,畳み込みオートエンコーダを用いた革新的なソリューションであるDeepJSCC-$l$を提案し,複雑さのトレードオフの異なる3つのアーキテクチャを提案する。 我々の知る限り、これは実用的な情報ソースやチャネルのために開発・テストされた、最初の実用的多重記述型JSCCスキームである。 DeepJSCC-$l$は、単一の送信と比較して、エンド・ツー・エンドのパフォーマンスにおいて無視できない損失で、徐々にソースの送信を学習できることを示す。 さらに、DeepJSCC-$l$は、低信号対雑音比(SNR)と小さな帯域幅方式において、デジタルプログレッシブ伝送方式の状況に匹敵する性能を有しており、チャネルSNRによる優雅な劣化の利点もある。

We propose deep learning based communication methods for adaptive-bandwidth transmission of images over wireless channels. We consider the scenario in which images are transmitted progressively in layers over time or frequency, and such layers can be aggregated by receivers in order to increase the quality of their reconstructions. We investigate two scenarios, one in which the layers are sent sequentially, and incrementally contribute to the refinement of a reconstruction, and another in which the layers are independent and can be retrieved in any order. Those scenarios correspond to the well known problems of \textit{successive refinement} and \textit{multiple descriptions}, respectively, in the context of joint source-channel coding (JSCC). We propose DeepJSCC-$l$, an innovative solution that uses convolutional autoencoders, and present three architectures with different complexity trade-offs. To the best of our knowledge, this is the first practical multiple-description JSCC scheme developed and tested for practical information sources and channels. Numerical results show that DeepJSCC-$l$ can learn to transmit the source progressively with negligible losses in the end-to-end performance compared with a single transmission. Moreover, DeepJSCC-$l$ has comparable performance with state of the art digital progressive transmission schemes in the challenging low signal-to-noise ratio (SNR) and small bandwidth regimes, with the additional advantage of graceful degradation with channel SNR.
翻訳日:2022-10-14 09:15:20 公開日:2021-06-14
# ヘテロフィなグラフニューラルネットワーク

Graph Neural Networks with Heterophily ( http://arxiv.org/abs/2009.13566v3 )

ライセンス: Link先を確認
Jiong Zhu, Ryan A. Rossi, Anup Rao, Tung Mai, Nedim Lipka, Nesreen K. Ahmed, Danai Koutra(参考訳) グラフニューラルネットワーク(GNN)は多くの異なる実用用途に有用であることが証明されている。 しかし、既存のGNNモデルの多くは、グラフに連結されたノード間でホモフィリーを暗黙的に仮定しているため、ほとんどの連結ノードが異なるクラスに属するヘテロフィリーの重要な設定をほとんど見落としている。 本研究では,ホモフィリーあるいはヘテロフィリーなグラフに対してGNNを一般化する CPGNN という新しいフレームワークを提案する。 提案フレームワークは、グラフ内のヘテロフィリーあるいはホモフィリーレベルをモデル化するための解釈可能な互換性行列を組み込んでおり、これをエンドツーエンドで学習することで、強いホモフィリーの仮定を超えることができる。 理論的には、我々のフレームワークの互換行列を(純粋なホモフィリーを表す)同一性に置き換えることがGCNに還元されることが示される。 CPGNNの変種は、ホモフィリー設定において同等の性能を維持しつつ、文脈的ノード機能の有無にかかわらず、異種設定における最先端の結果を達成します。

Graph Neural Networks (GNNs) have proven to be useful for many different practical applications. However, many existing GNN models have implicitly assumed homophily among the nodes connected in the graph, and therefore have largely overlooked the important setting of heterophily, where most connected nodes are from different classes. In this work, we propose a novel framework called CPGNN that generalizes GNNs for graphs with either homophily or heterophily. The proposed framework incorporates an interpretable compatibility matrix for modeling the heterophily or homophily level in the graph, which can be learned in an end-to-end fashion, enabling it to go beyond the assumption of strong homophily. Theoretically, we show that replacing the compatibility matrix in our framework with the identity (which represents pure homophily) reduces to GCN. Our extensive experiments demonstrate the effectiveness of our approach in more realistic and challenging experimental settings with significantly less training data compared to previous works: CPGNN variants achieve state-of-the-art results in heterophily settings with or without contextual node features, while maintaining comparable performance in homophily settings.
翻訳日:2022-10-13 21:41:53 公開日:2021-06-14
# 深層強化学習を用いた共同マッチング, 価格, ディスパッチのための分散モデルフリーライドシェアリング手法

A Distributed Model-Free Ride-Sharing Approach for Joint Matching, Pricing, and Dispatching using Deep Reinforcement Learning ( http://arxiv.org/abs/2010.01755v2 )

ライセンス: Link先を確認
Marina Haliem, Ganapathy Mani, Vaneet Aggarwal and Bharat Bhargava(参考訳) ライドシェアリングサービスの顕著な発展は、パーソナライズされた便利な交通手段を提供しながら、大規模なライドプールの効率を確保することで、都市のモビリティを変革する多くの機会をもたらす。 しかし、そのようなサービスの中核的な問題は、各ドライバーが与えられた制約を満たしながら動的に到着する要求を満たすルートプランニングである。 現行モデルは、車両1台あたり2本(最適)または3本(ヒューリスティックス付き)の静的ルートに限られている。 本稿では,(1)オンラインの需要,各乗車に関連する価格,車両容量,場所に基づいて,各車両の最適経路を動的に生成する,動的かつ需要に配慮した価格ベースの配車経路マッチングと経路計画の枠組みを提案する。 This matching algorithm starts greedily and optimizes over time using an insertion operation, (2) involves drivers in the decision-making process by allowing them to propose a different price based on the expected reward for a particular ride as well as the destination locations for future rides, which is influenced by supply-and demand computed by the Deep Q-network, (3) allows customers to accept or reject rides based on their set of preferences with respect to pricing and delay windows, vehicle type and carpooling preferences, and (4) based on demand prediction, our approach re-balances idle vehicles by dispatching them to the areas of anticipated high demand using deep Reinforcement Learning (RL). 当社のフレームワークは,ニューヨーク市税の公開データセットを用いて検証されているが,セットアップの検証と異なる設定の研究を行うために,異なる車両タイプと顧客ユーティリティ機能を設計した。 実験の結果,実時間および大規模設定におけるアプローチの有効性が示された。

Significant development of ride-sharing services presents a plethora of opportunities to transform urban mobility by providing personalized and convenient transportation while ensuring efficiency of large-scale ride pooling. However, a core problem for such services is route planning for each driver to fulfill the dynamically arriving requests while satisfying given constraints. Current models are mostly limited to static routes with only two rides per vehicle (optimally) or three (with heuristics). In this paper, we present a dynamic, demand aware, and pricing-based vehicle-passenger matching and route planning framework that (1) dynamically generates optimal routes for each vehicle based on online demand, pricing associated with each ride, vehicle capacities and locations. This matching algorithm starts greedily and optimizes over time using an insertion operation, (2) involves drivers in the decision-making process by allowing them to propose a different price based on the expected reward for a particular ride as well as the destination locations for future rides, which is influenced by supply-and demand computed by the Deep Q-network, (3) allows customers to accept or reject rides based on their set of preferences with respect to pricing and delay windows, vehicle type and carpooling preferences, and (4) based on demand prediction, our approach re-balances idle vehicles by dispatching them to the areas of anticipated high demand using deep Reinforcement Learning (RL). Our framework is validated using the New York City Taxi public dataset; however, we consider different vehicle types and designed customer utility functions to validate the setup and study different settings. Experimental results show the effectiveness of our approach in real-time and large scale settings.
翻訳日:2022-10-10 21:05:41 公開日:2021-06-14
# アルグミン微分による二分決定木学習

Learning Binary Decision Trees by Argmin Differentiation ( http://arxiv.org/abs/2010.04627v2 )

ライセンス: Link先を確認
Valentina Zantedeschi, Matt J. Kusner, Vlad Niculae(参考訳) 下流タスクのためにデータを分割する二分決定木を学習する問題に対処する。 本稿では,argmin微分を用いて離散パラメータ(木横断とノードプラニング)と連続パラメータ(木分割関数と予測関数)を同時に学習することを提案する。 離散パラメータのための混合整数プログラムを緩やかに緩和することで、勾配が連続的なパラメータにプログラムを通せるようにする。 前方と後方のパスを効率的に計算するアルゴリズムを考案した。 これは、木学習手順を任意の深層ネットワークの(単純)層として使用することができ、任意の損失関数で最適化できることを意味する。 我々は,既存の単一木やアンサンブルのアプローチと競合する二分木を,教師なしと教師なしの両方で生成することを示した。 さらに、(競争力のある精度を持たない)強欲なアプローチとは別に、我々の手法は、私たちが比較した他のすべてのツリー学習ベースラインよりも速く訓練できる。 結果を再現するためのコードは、https://github.com/vzantedeschi/latenttreesで入手できる。

We address the problem of learning binary decision trees that partition data for some downstream task. We propose to learn discrete parameters (i.e., for tree traversals and node pruning) and continuous parameters (i.e., for tree split functions and prediction functions) simultaneously using argmin differentiation. We do so by sparsely relaxing a mixed-integer program for the discrete parameters, to allow gradients to pass through the program to continuous parameters. We derive customized algorithms to efficiently compute the forward and backward passes. This means that our tree learning procedure can be used as an (implicit) layer in arbitrary deep networks, and can be optimized with arbitrary loss functions. We demonstrate that our approach produces binary trees that are competitive with existing single tree and ensemble approaches, in both supervised and unsupervised settings. Further, apart from greedy approaches (which do not have competitive accuracies), our method is faster to train than all other tree-learning baselines we compare with. The code for reproducing the results is available at https://github.com/vzantedeschi/LatentTrees.
翻訳日:2022-10-09 04:03:39 公開日:2021-06-14
# multiwoz 2.3: アノテーション補正とコリファレンスアノテーションを備えたマルチドメインタスク指向対話データセット

MultiWOZ 2.3: A multi-domain task-oriented dialogue dataset enhanced with annotation corrections and co-reference annotation ( http://arxiv.org/abs/2010.05594v3 )

ライセンス: Link先を確認
Ting Han, Ximing Liu, Ryuichi Takanobu, Yixin Lian, Chongxuan Huang, Dazhen Wan, Wei Peng, Minlie Huang(参考訳) タスク指向対話システムは、複数の公開可能なMultiWOZデータセットを基盤とした複数の最先端(SOTA)モデルで前例のない進歩を遂げている。 ダイアログ状態アノテーションはエラーを起こしやすく、サブ最適パフォーマンスをもたらす。 オリジナルのMultiWOZデータセットで提示されたアノテーションエラーの修正にさまざまな取り組みがなされている。 本稿では,MultiWOZ 2.3を紹介し,対話行動における誤ったアノテーションと対話状態とを区別し,更新されたデータセットの公開時の参照の欠如を識別する。 対話行為と対話状態の一貫性を確保するため,協調参照機能を実装し,対話行為と対話状態の注釈を統一する。 本研究では,マルチウォズ2.3における自然言語理解と対話状態追跡の成果を,従来のマルチウォズデータセット(2.0-2.2)よりも大幅に改善した。

Task-oriented dialogue systems have made unprecedented progress with multiple state-of-the-art (SOTA) models underpinned by a number of publicly available MultiWOZ datasets. Dialogue state annotations are error-prone, leading to sub-optimal performance. Various efforts have been put in rectifying the annotation errors presented in the original MultiWOZ dataset. In this paper, we introduce MultiWOZ 2.3, in which we differentiate incorrect annotations in dialogue acts from dialogue states, identifying a lack of co-reference when publishing the updated dataset. To ensure consistency between dialogue acts and dialogue states, we implement co-reference features and unify annotations of dialogue acts and dialogue states. We update the state of the art performance of natural language understanding and dialogue state tracking on MultiWOZ 2.3, where the results show significant improvements than on previous versions of MultiWOZ datasets (2.0-2.2).
翻訳日:2022-10-08 06:51:18 公開日:2021-06-14
# 複数のアーティストスタイル転送のための異方性ストローク制御

Anisotropic Stroke Control for Multiple Artists Style Transfer ( http://arxiv.org/abs/2010.08175v2 )

ライセンス: Link先を確認
Xuanhong Chen, Xirui Yan, Naiyuan Liu, Ting Qiu and Bingbing Ni(参考訳) 芸術的なスタイルの移行では大きな進歩があったが、特に複数のアーティストスタイルが1つのモデルに移行する必要がある場合、既存のほとんどの方法によって、セマンティック情報をきめ細かな局所的に一貫した方法で保存することは通常困難である。 この問題を回避するため,ストローク制御型マルチアーティスト方式トランスファーフレームワークを提案する。 本研究では,まずマルチアーティスト方式の転送を行う多条件単一生成器構造を開発する。 一方,非自明な領域と自明な領域間のスタイルストロークの動的調整を実現するASM(Anisotropic Stroke Module)を設計する。 ASMは、様々なスタイルで適応的なセマンティック一貫性を持つネットワークを提供する。 一方, テクスチャレベル条件生成を実現するために, 新たなマルチスケール投影判別器を提案する。 単一条件判別器とは対照的に,識別器は多スケールテクスチャの手がかりを捉え,幅広い芸術様式を効果的に識別することができる。 広範な実験結果から,本手法の有効性と有効性が実証された。 我々の枠組みは、1つのモデルだけで、写真を異なる芸術スタイルの油絵に変えることができる。 さらに、結果は独特の芸術様式で、異方性の意味情報を保持する。 コードはすでにgithubで入手できる。 https://github.com/neuralchen/ASMAGAN。

Though significant progress has been made in artistic style transfer, semantic information is usually difficult to be preserved in a fine-grained locally consistent manner by most existing methods, especially when multiple artists styles are required to transfer within one single model. To circumvent this issue, we propose a Stroke Control Multi-Artist Style Transfer framework. On the one hand, we develop a multi-condition single-generator structure which first performs multi-artist style transfer. On the one hand, we design an Anisotropic Stroke Module (ASM) which realizes the dynamic adjustment of style-stroke between the non-trivial and the trivial regions. ASM endows the network with the ability of adaptive semantic-consistency among various styles. On the other hand, we present an novel Multi-Scale Projection Discriminator} to realize the texture-level conditional generation. In contrast to the single-scale conditional discriminator, our discriminator is able to capture multi-scale texture clue to effectively distinguish a wide range of artistic styles. Extensive experimental results well demonstrate the feasibility and effectiveness of our approach. Our framework can transform a photograph into different artistic style oil painting via only ONE single model. Furthermore, the results are with distinctive artistic style and retain the anisotropic semantic information. The code is already available on github: https://github.com/neuralchen/ASMAGAN.
翻訳日:2022-10-06 20:12:12 公開日:2021-06-14
# Kwame: オンラインSuaCodeコースのためのバイリンガルAI指導アシスタント

Kwame: A Bilingual AI Teaching Assistant for Online SuaCode Courses ( http://arxiv.org/abs/2010.11387v2 )

ライセンス: Link先を確認
George Boateng(参考訳) 私たちのスマートフォンベースのコーディングコースのような入門コースでは、学生が学習目標を達成するために多くのサポートが必要です。 オンライン環境は、特に最近は新型コロナウイルスのため、支援を受けるのがさらに難しくなっている。 SuaCodeの学生の多言語的文脈 – 主にアングロフォンやフランコフォンである42カ国の学習者 – を踏まえて,我々は,英語とフランス語のSuaCodeコースから,学生のコーディング質問に対する回答を提供するバイリンガル人工知能(AI)指導アシスタント(TA)-Kwameを開発した。 kwameは,授業のクイズ,授業ノート,学生の過去のコホートから作成した質問応答ペアを用いて,オフラインでトレーニングおよび評価を行う,sbert(sbert-based question-answering)システムである。 クウェームはこの段落を、コサイン類似性を通じて、最も意味論的に類似している。 TF-IDFとUniversal Sentence Encoderを比較した。 その結果,コースデータの微調整とトップ3と5の回答の返却により精度が向上した。 Kwameは学生がSuaCodeのコースで質問に対して素早く正確な回答を得られるようにする。

Introductory hands-on courses such as our smartphone-based coding course, SuaCode require a lot of support for students to accomplish learning goals. Online environments make it even more difficult to get assistance especially more recently because of COVID-19. Given the multilingual context of SuaCode students - learners across 42 African countries that are mostly Anglophone or Francophone - in this work, we developed a bilingual Artificial Intelligence (AI) Teaching Assistant (TA) - Kwame - that provides answers to students' coding questions from SuaCode courses in English and French. Kwame is a Sentence-BERT (SBERT)-based question-answering (QA) system that we trained and evaluated offline using question-answer pairs created from the course's quizzes, lesson notes and students' questions in past cohorts. Kwame finds the paragraph most semantically similar to the question via cosine similarity. We compared the system with TF-IDF and Universal Sentence Encoder. Our results showed that fine-tuning on the course data and returning the top 3 and 5 answers improved the accuracy results. Kwame will make it easy for students to get quick and accurate answers to questions in SuaCode courses.
翻訳日:2022-10-04 04:46:37 公開日:2021-06-14
# 言語特性の因果効果

Causal Effects of Linguistic Properties ( http://arxiv.org/abs/2010.12919v5 )

ライセンス: Link先を確認
Reid Pryzant, Dallas Card, Dan Jurafsky, Victor Veitch, Dhanya Sridhar(参考訳) 観察データを用いて言語特性の因果効果を推定する問題を考察する。 例えば、苦情を書くことが、丁寧に応答時間を短縮するのでしょうか? 積極的製品レビューで売上はどのくらい増加するのか? 本稿では,本手法の開発に先立つ2つの技術的課題について述べる。 まず,興味の因果量を著者の意図の効果として定式化し,観察データからそれを特定するために必要な仮定を確立する。 第二に、実際には興味のある言語特性、例えば分類器や語彙からの予測に対してのみノイズの多いプロキシにアクセスすることができる。 我々は,この設定に対する推定子を提案し,テキストの調整を行う際にそのバイアスが境界であることを示す。 これらの結果に基づいて,言語特性の因果効果を推定するアルゴリズムであるTextCauseを導入する。 本手法は,(1)ノイズプロキシの品質向上のための遠隔監視,(2)テキストの調整のための事前学習言語モデル(BERT)を活用する。 提案手法は,amazonのレビュー感情が半シミュレーションした販売数に与える影響を推定する上で,関連するアプローチに勝ることを示す。 最後に, 苦情の丁寧さが官僚的応答時間に及ぼす影響について検討した。

We consider the problem of using observational data to estimate the causal effects of linguistic properties. For example, does writing a complaint politely lead to a faster response time? How much will a positive product review increase sales? This paper addresses two technical challenges related to the problem before developing a practical method. First, we formalize the causal quantity of interest as the effect of a writer's intent, and establish the assumptions necessary to identify this from observational data. Second, in practice, we only have access to noisy proxies for the linguistic properties of interest -- e.g., predictions from classifiers and lexicons. We propose an estimator for this setting and prove that its bias is bounded when we perform an adjustment for the text. Based on these results, we introduce TextCause, an algorithm for estimating causal effects of linguistic properties. The method leverages (1) distant supervision to improve the quality of noisy proxies, and (2) a pre-trained language model (BERT) to adjust for the text. We show that the proposed method outperforms related approaches when estimating the effect of Amazon review sentiment on semi-simulated sales figures. Finally, we present an applied case study investigating the effects of complaint politeness on bureaucratic response times.
翻訳日:2022-10-03 11:59:57 公開日:2021-06-14
# メタラーニングの分布依存分析

A Distribution-Dependent Analysis of Meta-Learning ( http://arxiv.org/abs/2011.00344v3 )

ライセンス: Link先を確認
Mikhail Konobeev, Ilja Kuzborskij, Csaba Szepesv\'ari(参考訳) メタラーニング理論における鍵となる問題は、タスク分布が、未知のタスク分布から引き出された新しいタスクに対するメタリーナーの期待誤差、伝達リスクにどのように影響するかを理解することである。 本稿では,gaussian noise と gaussian task (またはパラメータ) 分布を持つ固定設計線形回帰に着目し,任意のアルゴリズムの伝達リスクの分布依存下限を与えるとともに,バイアス付き正則回帰法(biased regularized regression method)の新たな重み付きバージョンが,これらの下限を固定定数までマッチングできることを示す。 特に、重み付けはガウスのタスク分布の共分散に由来する。 以上から,このガウス環境におけるメタラーニングの難しさを詳細に把握した。 本稿では,メタラーニングの「パラメータ共有」と「表現学習」のストリームを統一するのに十分であることを示すが,特に,タスク分布の共分散行列が未知の場合には,表現学習が特別の場合として得られる。 本稿では,効率的な更新を行うEM法を提案する。 論文はEMの実証研究によって完成される。 特に, 実験結果から, EMアルゴリズムはタスク数の増加に伴い, 下位境界を達成でき, また, 表現学習の文脈で使用する場合の代替手法との競合にも成功していることがわかった。

A key problem in the theory of meta-learning is to understand how the task distributions influence transfer risk, the expected error of a meta-learner on a new task drawn from the unknown task distribution. In this paper, focusing on fixed design linear regression with Gaussian noise and a Gaussian task (or parameter) distribution, we give distribution-dependent lower bounds on the transfer risk of any algorithm, while we also show that a novel, weighted version of the so-called biased regularized regression method is able to match these lower bounds up to a fixed constant factor. Notably, the weighting is derived from the covariance of the Gaussian task distribution. Altogether, our results provide a precise characterization of the difficulty of meta-learning in this Gaussian setting. While this problem setting may appear simple, we show that it is rich enough to unify the "parameter sharing" and "representation learning" streams of meta-learning; in particular, representation learning is obtained as the special case when the covariance matrix of the task distribution is unknown. For this case we propose to adopt the EM method, which is shown to enjoy efficient updates in our case. The paper is completed by an empirical study of EM. In particular, our experimental results show that the EM algorithm can attain the lower bound as the number of tasks grows, while the algorithm is also successful in competing with its alternatives when used in a representation learning context.
翻訳日:2022-10-01 04:29:49 公開日:2021-06-14
# 心理的指向型サリエンシマップ予測モデル

A Psychophysically Oriented Saliency Map Prediction Model ( http://arxiv.org/abs/2011.04076v13 )

ライセンス: Link先を確認
Qiang Li(参考訳) 視覚的注意は、外部冗長世界の選択と理解において最も重要な特徴の1つである。 人間の視覚システムは、視覚情報のボトルネックのため、全ての情報を同時に処理することはできない。 視覚情報の冗長な入力を減らすために、人間の視覚系は主にシーンの支配的な部分に焦点を当てている。 これはビジュアル・サリエンシ・マップの予測として知られている。 本稿では,人間の視覚野の多チャンネルモデルにインスパイアされた新しいサイコフィジカルサリエンシ予測アーキテクチャであるWECSFを提案する。 このモデルは、対向色チャネル、ウェーブレット変換、ウェーブレットエネルギーマップ、および低レベルの画像特徴を抽出し、人間の視覚システムへの最大近似を提供するコントラスト感度関数からなる。 提案モデルは、MIT1003, MIT300, TORONTO, SID4VAM, UCF Sportsデータセットなど、いくつかのデータセットを用いて評価される。 また, 精度予測性能を他の最先端モデルと比較し, 定量的, 質的に比較した。 本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。 さらに,フーリエとスペクトルにインスパイアされた塩分予測モデルが,心理物理学的な合成画像において,最先端の非ニューラルネットワークや深層ニューラルネットワークモデルよりも優れていた。 これはフーリエ視覚仮説によって説明され、支持される。 一方、深層ニューラルネットワークは、精神物理学的な合成画像上での健全なパフォーマンスをより確実に予測するために、特定のアーキテクチャと目標が必要であることを示唆している。 最後に,提案モデルは霊長類視覚システムの計算モデルとして用いられ,霊長類視覚系のメカニズムを理解するのに役立つ。

Visual attention is one of the most significant characteristics for selecting and understanding the outside redundancy world. The human vision system cannot process all information simultaneously due to the visual information bottleneck. In order to reduce the redundant input of visual information, the human visual system mainly focuses on dominant parts of scenes. This is commonly known as visual saliency map prediction. This paper proposed a new psychophysical saliency prediction architecture, WECSF, inspired by multi-channel model of visual cortex functioning in humans. The model consists of opponent color channels, wavelet transform, wavelet energy map, and contrast sensitivity function for extracting low-level image features and providing a maximum approximation to the human visual system. The proposed model is evaluated using several datasets, including the MIT1003, MIT300, TORONTO, SID4VAM, and UCF Sports datasets. We also quantitatively and qualitatively compare the saliency prediction performance with that of other state-of-the-art models. Our model achieved strongly stable and better performance with different metrics on natural images, psychophysical synthetic images and dynamic videos. Additionally, we found that Fourier and spectral-inspired saliency prediction models outperformed other state-of-the-art non-neural network and even deep neural network models on psychophysical synthetic images. It can be explained and supported by the Fourier Vision Hypothesis. In the meantime, we suggest that deep neural networks need specific architectures and goals to be able to predict salient performance on psychophysical synthetic images better and more reliably. Finally, the proposed model could be used as a computational model of primate vision system and help us understand mechanism of primate vision system.
翻訳日:2022-09-28 08:37:00 公開日:2021-06-14
# ShadowNet:オンデバイスモデル推論のためのセキュアで効率的なシステム

ShadowNet: A Secure and Efficient System for On-device Model Inference ( http://arxiv.org/abs/2011.05905v2 )

ライセンス: Link先を確認
Zhichuang Sun, Ruimin Sun, Changming Liu, Amrita Roy Chowdhury, Somesh Jha, Long Lu(参考訳) モバイルとエッジデバイスにおけるAIアクセラレータの使用が増加し、オンデバイス機械学習(ML)が人気を集めている。 その結果、何千ものプロプライエタリなMLモデルが、何十億もの信頼できないデバイスにデプロイされている。 これはモデルプライバシに関する深刻なセキュリティ上の懸念を引き起こす。 しかし、AIアクセラレーターへのアクセスを失うことなくモデルのプライバシを保護することは難しい問題である。 本稿では,デバイス上での新たなモデル推論システムであるShadowNetを提案する。 shadownetはモデルプライバシをtrusted execution environment(tee)で保護するとともに、モデルの重線形層を信頼できないハードウェアアクセラレータに安全にアウトソーシングする。 ShadowNetは、アウトソーシングする前にリニアレイヤの重みを変換し、TEE内の結果を復元することで、これを実現する。 非線形層は、TEE内でも安全である。 重みの変換と結果の復元は効率的に実施可能な方法で設計されている。 私たちはTensorFlow LiteをベースとしたShadowNetのプロトタイプを開発し、人気のあるCNNであるMobileNets、ResNet-44、AlexNet、MiniVGGの4つに適用しました。 評価の結果,ShadowNetは適切な性能で強力なセキュリティ保証を実現し,デバイス上での安全なモデル推論のための実用的なソリューションを提供する。

With the increased usage of AI accelerators on mobile and edge devices, on-device machine learning (ML) is gaining popularity. Consequently, thousands of proprietary ML models are being deployed on billions of untrusted devices. This raises serious security concerns about model privacy. However, protecting the model privacy without losing access to the AI accelerators is a challenging problem. In this paper, we present a novel on-device model inference system, ShadowNet. ShadowNet protects the model privacy with Trusted Execution Environment (TEE) while securely outsourcing the heavy linear layers of the model to the untrusted hardware accelerators. ShadowNet achieves this by transforming the weights of the linear layers before outsourcing them and restoring the results inside the TEE. The nonlinear layers are also kept secure inside the TEE. The transformation of the weights and the restoration of the results are designed in a way that can be implemented efficiently. We have built a ShadowNet prototype based on TensorFlow Lite and applied it on four popular CNNs, namely, MobileNets, ResNet-44, AlexNet and MiniVGG. Our evaluation shows that ShadowNet achieves strong security guarantees with reasonable performance, offering a practical solution for secure on-device model inference.
翻訳日:2022-09-27 00:59:28 公開日:2021-06-14
# 合成-ツール系の熱化学的硬化過程のモデル化のための物理インフォームドニューラルネットワーク

Physics-Informed Neural Network for Modelling the Thermochemical Curing Process of Composite-Tool Systems During Manufacture ( http://arxiv.org/abs/2011.13511v2 )

ライセンス: Link先を確認
Sina Amini Niaki, Ehsan Haghighat, Trevor Campbell, Anoush Poursartip, Reza Vaziri(参考訳) 自動クレーブで治療を行うツール上で, 複合材料の熱化学的進化をシミュレートする物理情報ニューラルネットワーク(PINN)を提案する。 特に, 物理学に基づく損失関数を用いて深層ニューラルネットワーク(dnn)のパラメータを最適化することにより, 導電性熱伝達やレジン硬化反応を含む微分方程式の制御結合系を解く。 熱伝導とレジン硬化の挙動の相違を考慮し、2つの非連結サブネットからなるPINNを設計し、従来のトレーニング手法における不安定性を緩和する逐次トレーニングアルゴリズムを開発した。 さらに,複合ツールインタフェースのDNNに明示的な不連続性を組み込んで,損失関数に直接物理挙動を強制し,インタフェース近傍の解を改善する。 我々は、PDE、境界、インターフェース、初期条件に対応する損失項に自動的に重みを適応させる手法でPINNを訓練する。 最後に、モデルへの入力として問題パラメータを含めることができることを実証し、その結果、様々な問題設定のリアルタイムシミュレーションを提供するsurrogateを作成し、最初のトレーニングされたモデルと同様に、問題設定のトレーニング時間を劇的に短縮するために転送学習を利用することができる。 提案したPINNの性能は材料厚と熱境界条件の異なる複数のシナリオで実証された。

We present a Physics-Informed Neural Network (PINN) to simulate the thermochemical evolution of a composite material on a tool undergoing cure in an autoclave. In particular, we solve the governing coupled system of differential equations -- including conductive heat transfer and resin cure kinetics -- by optimizing the parameters of a deep neural network (DNN) using a physics-based loss function. To account for the vastly different behaviour of thermal conduction and resin cure, we design a PINN consisting of two disconnected subnetworks, and develop a sequential training algorithm that mitigates instability present in traditional training methods. Further, we incorporate explicit discontinuities into the DNN at the composite-tool interface and enforce known physical behaviour directly in the loss function to improve the solution near the interface. We train the PINN with a technique that automatically adapts the weights on the loss terms corresponding to PDE, boundary, interface, and initial conditions. Finally, we demonstrate that one can include problem parameters as an input to the model -- resulting in a surrogate that provides real-time simulation for a range of problem settings -- and that one can use transfer learning to significantly reduce the training time for problem settings similar to that of an initial trained model. The performance of the proposed PINN is demonstrated in multiple scenarios with different material thicknesses and thermal boundary conditions.
翻訳日:2022-09-20 02:30:35 公開日:2021-06-14
# 第2回ABAW2コンペティションにおける影響行動の解析

Analysing Affective Behavior in the second ABAW2 Competition ( http://arxiv.org/abs/2106.15318v1 )

ライセンス: Link先を確認
Dimitrios Kollias and Irene Kotsia and Elnar Hajiyev and Stefanos Zafeiriou(参考訳) ABAW2 2021コンペティションは、IEEE FG 2020-コンペティションと共同で開催された最初の非常に成功したABAWコンペティションに続く第2回である。 abaw2は3つの課題に分かれており、それぞれがvalence-arousal estimation、basic expression classification、action unit detectionの3つの主要な行動課題の1つに対処している。 これら3つの課題はすべて、一般的なベンチマークデータベースであるaf-wild2をベースとしている。 本稿では,ICCV 2021と協調して開催するコンペティションについて述べる。 本稿では,活用コンペティションコーパスを用いた3つのチャレンジを紹介する。 本稿では,評価指標を概説し,ベースラインシステムとその結果を提示する。 https://ibug.doc.ic.ac.uk/resources/iccv-2021-2nd-abaw。

The Affective Behavior Analysis in-the-wild (ABAW2) 2021 Competition is the second -- following the first very successful ABAW Competition held in conjunction with IEEE FG 2020- Competition that aims at automatically analyzing affect. ABAW2 is split into three Challenges, each one addressing one of the three main behavior tasks of valence-arousal estimation, basic expression classification and action unit detection. All three Challenges are based on a common benchmark database, Aff-Wild2, which is a large scale in-the-wild database and the first one to be annotated for all these three tasks. In this paper, we describe this Competition, to be held in conjunction with ICCV 2021. We present the three Challenges, with the utilized Competition corpora. We outline the evaluation metrics and present the baseline system with its results. More information regarding the Competition is provided in the Competition site: https://ibug.doc.ic.ac.uk/resources/iccv-2021-2nd-abaw.
翻訳日:2021-07-04 19:39:37 公開日:2021-06-14
# 米国におけるデータサイエンス求人市場のための知識発見フレームワーク

Toward Knowledge Discovery Framework for Data Science Job Market in the United States ( http://arxiv.org/abs/2106.11077v1 )

ライセンス: Link先を確認
Mojtaba Heidarysafa and Kamran Kowsari and Masoud Bashiri and Donald E. Brown(参考訳) データサイエンス分野の成長は、このような急速に成長する領域を理解するためのより良いツールを必要とする。 さらに、異なる背景を持つ個人は、データサイエンティストとしてのキャリアに興味を持つようになった。 そのため、雇用市場に必要なスキルを個人や組織が理解するための定量的ガイドが不可欠である。 本稿では,米国内におけるデータサイエンス関連のジョブのジョブマーケットを解析し,このマーケットの洞察にアクセスできるインターフェースを提供するためのフレームワークを提案する。 提案するフレームワークは,連続的なデータ収集,情報抽出,Webベースのダッシュボードビジュアライゼーションが可能な3つのサブモジュールから構成され,データサイエンス関連のジョブとスキルの空間的および時間的分布を調査する。 本研究の成果は、データサイエンス業務の主要部門にとって重要なスキルを示し、これらのデータサイエンス部門をスキルベースで定義しようとする試みである。 このアプリケーションの現在のバージョンはweb上にデプロイされ、個人や機関が業界レンズを通してデータサイエンスのポジションに必要なスキルを調査できる。

The growth of the data science field requires better tools to understand such a fast-paced growing domain. Moreover, individuals from different backgrounds became interested in following a career as data scientists. Therefore, providing a quantitative guide for individuals and organizations to understand the skills required in the job market would be crucial. This paper introduces a framework to analyze the job market for data science-related jobs within the US while providing an interface to access insights in this market. The proposed framework includes three sub-modules allowing continuous data collection, information extraction, and a web-based dashboard visualization to investigate the spatial and temporal distribution of data science-related jobs and skills. The result of this work shows important skills for the main branches of data science jobs and attempts to provide a skill-based definition of these data science branches. The current version of this application is deployed on the web and allows individuals and institutes to investigate skills required for data science positions through the industry lens.
翻訳日:2021-06-27 09:07:37 公開日:2021-06-14
# TTSシステムにおけるVAE音響空間の学習条件

A learned conditional prior for the VAE acoustic space of a TTS system ( http://arxiv.org/abs/2106.10229v1 )

ライセンス: Link先を確認
Penny Karanasou, Sri Karlapati, Alexis Moinet, Arnaud Joly, Ammar Abbas, Simon Slangen, Jaime Lorenzo Trueba, Thomas Drugman(参考訳) 多くの要因が、与えられた文の異なる書き起こしを生み出す音声に影響を与える。 変分オートエンコーダ(vaes)のような生成モデルでは、この可変性をキャプチャし、サンプリングによって同じ文の複数のランディションを許容する。 韻律的変動の度合いは、サンプリングで使用される先行値に大きく依存する。 本稿では, ニューラルテキスト音声(TTS)システムにおいて, VAE潜時空間に先行する情報量を求める新しい手法を提案する。 そうすることで、より韻律的な変数でサンプルをサンプリングし、潜在空間の構造に対して可制御性を得る。 話者ベクトル上で条件付けする2次vaeの後方分布を予め使用することにより、条件付けを明示的に考慮し、各条件(すなわち、各条件)に対する潜在空間の特定の領域からのサンプルを一次vaeからサンプリングすることができる。 スピーカー)。 形式的選好テストは、標準条件vaeに対する提案手法の有意な選好を示す。 また,よく区切られた条件固有のクラスタが現れる潜在空間の可視化や,システムの振る舞いをよりよく理解するためのアブレーション研究も提供する。

Many factors influence speech yielding different renditions of a given sentence. Generative models, such as variational autoencoders (VAEs), capture this variability and allow multiple renditions of the same sentence via sampling. The degree of prosodic variability depends heavily on the prior that is used when sampling. In this paper, we propose a novel method to compute an informative prior for the VAE latent space of a neural text-to-speech (TTS) system. By doing so, we aim to sample with more prosodic variability, while gaining controllability over the latent space's structure. By using as prior the posterior distribution of a secondary VAE, which we condition on a speaker vector, we can sample from the primary VAE taking explicitly the conditioning into account and resulting in samples from a specific region of the latent space for each condition (i.e. speaker). A formal preference test demonstrates significant preference of the proposed approach over standard Conditional VAE. We also provide visualisations of the latent space where well-separated condition-specific clusters appear, as well as ablation studies to better understand the behaviour of the system.
翻訳日:2021-06-27 09:06:06 公開日:2021-06-14
# (参考訳) Fair Preprocessing: 機械学習パイプラインにおけるデータ変換器の構成公正性の理解に向けて

Fair Preprocessing: Towards Understanding Compositional Fairness of Data Transformers in Machine Learning Pipeline ( http://arxiv.org/abs/2106.06054v2 )

ライセンス: CC BY 4.0
Sumon Biswas and Hridesh Rajan(参考訳) 近年では、人種、性別、年齢などに基づいて、機械学習モデルが差別を示す事件が数多く報告されている。 機械学習モデルの不公平さを計測し緩和するために研究が進められている。 機械学習タスクでは、順序付けられたデータ前処理ステージと次に分類器を含むパイプラインを構築するのが一般的である。 しかし、公平性に関するほとんどの研究は、単一の分類子に基づく予測タスクを検討してきた。 機械学習パイプラインにおける前処理ステージの公平性への影響はどのようなものか? さらに、研究は、しばしば不公平の根本原因がモデルではなくデータ自体に浸透していることを示した。 しかし、データ前処理段階での特定の変換による不公平さを測定する研究は行われていない。 本稿では,MLパイプラインにおけるデータ前処理ステージの公平性への影響を判断するために,フェアネスの因果的方法を提案する。 既存のメトリクスを活用して、ステージの公平度尺度を定義しました。 そして,3つの異なるソースから収集した37個のパイプラインにおいて,前処理段階の詳細な公平性評価を行った。 その結果、あるデータトランスフォーマーがモデルに不公平な結果をもたらしていることがわかった。 データトランスフォーマーのいくつかのカテゴリで,公正なパターンをいくつも同定した。 最後に,前処理ステージの局所的フェアネスがパイプラインのグローバルフェアネスにおいてどのように構成されるかを示した。 機械学習パイプラインにおける不公平を緩和する適切な下流変圧器を選択するためにフェアネス構成を用いた。

In recent years, many incidents have been reported where machine learning models exhibited discrimination among people based on race, sex, age, etc. Research has been conducted to measure and mitigate unfairness in machine learning models. For a machine learning task, it is a common practice to build a pipeline that includes an ordered set of data preprocessing stages followed by a classifier. However, most of the research on fairness has considered a single classifier based prediction task. What are the fairness impacts of the preprocessing stages in machine learning pipeline? Furthermore, studies showed that often the root cause of unfairness is ingrained in the data itself, rather than the model. But no research has been conducted to measure the unfairness caused by a specific transformation made in the data preprocessing stage. In this paper, we introduced the causal method of fairness to reason about the fairness impact of data preprocessing stages in ML pipeline. We leveraged existing metrics to define the fairness measures of the stages. Then we conducted a detailed fairness evaluation of the preprocessing stages in 37 pipelines collected from three different sources. Our results show that certain data transformers are causing the model to exhibit unfairness. We identified a number of fairness patterns in several categories of data transformers. Finally, we showed how the local fairness of a preprocessing stage composes in the global fairness of the pipeline. We used the fairness composition to choose appropriate downstream transformer that mitigates unfairness in the machine learning pipeline.
翻訳日:2021-06-20 20:36:27 公開日:2021-06-14
# (参考訳) 新しい信頼できるaiフレームワークのためのプライバシ・リーカウンド、解釈可能性、および転送可能性に関する情報理論的評価

Information Theoretic Evaluation of Privacy-Leakage, Interpretability, and Transferability for a Novel Trustworthy AI Framework ( http://arxiv.org/abs/2106.06046v2 )

ライセンス: CC BY 4.0
Mohit Kumar, Bernhard A. Moser, Lukas Fischer, Bernhard Freudenthaler(参考訳) 信頼に値するAIのガイドラインと原則は、実際にAIシステムの開発中に守るべきである。 この研究は、情報理論が、信頼できるAI原則間の固有のトレードオフを研究し、最適化する方法を提供することで、機械学習とディープラーニングモデルの開発中に倫理的AI原則を考慮できるという仮説に基づいて、新しい情報理論の信頼できるAIフレームワークを提案する。 プライバシ・リーキング, 解釈可能性, 伝達可能性に関する情報理論的手法を導入することにより, プライバシー保全・伝達可能な学習」への統一的アプローチを提案する。 条件付き深層オートエンコーダを用いた変分最適化に基づく手法を開発し, プライバシ推論, 解釈可能性, 転送可能性に関する情報理論を実用的に評価する。

Guidelines and principles of trustworthy AI should be adhered to in practice during the development of AI systems. This work suggests a novel information theoretic trustworthy AI framework based on the hypothesis that information theory enables taking into account the ethical AI principles during the development of machine learning and deep learning models via providing a way to study and optimize the inherent tradeoffs between trustworthy AI principles. A unified approach to "privacy-preserving interpretable and transferable learning" is presented via introducing the information theoretic measures for privacy-leakage, interpretability, and transferability. A technique based on variational optimization, employing conditionally deep autoencoders, is developed for practically calculating the defined information theoretic measures for privacy-leakage, interpretability, and transferability.
翻訳日:2021-06-20 19:04:30 公開日:2021-06-14
# (参考訳) 順序問題:グラフ生成のためのノードシーケンスの確率的モデリング

Order Matters: Probabilistic Modeling of Node Sequence for Graph Generation ( http://arxiv.org/abs/2106.06189v2 )

ライセンス: CC BY 4.0
Xiaohui Chen, Xu Han, Jiajing Hu, Francisco J. R. Ruiz, Liping Liu(参考訳) グラフ生成モデルはグラフ上の分布を定義する。 1つの生成モデルは自己回帰ニューラルネットワークによって構築され、ノードとエッジを逐次追加してグラフを生成する。 しかし、自己回帰モデルの下でのグラフの確率は、与えられたグラフに導かれる多くのシーケンスが存在するため、難解である。 代わりに、この研究において、グラフ上の正確な結合確率とシーケンシャルなプロセスのノード順序を導出する。 共同作業から,ノードの順序付けをほぼ疎外し,変動推論を用いてログライクリフの下位境界を計算する。 我々は,従来の手法のアドホックノード順序を使わずに,この境界を最大化してグラフ生成モデルを訓練する。 実験により, 対数状境界は, 従来のスキームよりもかなり厳密であることがわかった。 さらに,提案アルゴリズムを応用したモデルでは,トレーニング中に見えないターゲットグラフの構造に適合する高品質なグラフを生成することができる。 コードは \hyperref[https://github.com/tufts-ml/graph-generation-vi]{https://github.com/tufts-ml/graph-generation-vi} で公開しました。

A graph generative model defines a distribution over graphs. One type of generative model is constructed by autoregressive neural networks, which sequentially add nodes and edges to generate a graph. However, the likelihood of a graph under the autoregressive model is intractable, as there are numerous sequences leading to the given graph; this makes maximum likelihood estimation challenging. Instead, in this work we derive the exact joint probability over the graph and the node ordering of the sequential process. From the joint, we approximately marginalize out the node orderings and compute a lower bound on the log-likelihood using variational inference. We train graph generative models by maximizing this bound, without using the ad-hoc node orderings of previous methods. Our experiments show that the log-likelihood bound is significantly tighter than the bound of previous schemes. Moreover, the models fitted with the proposed algorithm can generate high-quality graphs that match the structures of target graphs not seen during training. We have made our code publicly available at \hyperref[https://github.com/tufts-ml/graph-generation-vi]{https://github.com/tufts-ml/graph-generation-vi}.
翻訳日:2021-06-20 04:40:33 公開日:2021-06-14
# (参考訳) 説明可能なAIによる決定論的周波数偏差の探索

Exploring deterministic frequency deviations with explainable AI ( http://arxiv.org/abs/2106.09538v1 )

ライセンス: CC BY 4.0
Johannes Kruse, Benjamin Sch\"afer, Dirk Witthaut(参考訳) 決定論的周波数偏差(DFD)は電力グリッドの周波数品質と電力系統の安定性に重大な影響を及ぼす。 近年ヨーロッパでは周波数偏差が増加しているため、これらの出来事をより深く理解する必要がある。 DFDは、電力取引の期間を経て、発電の急速な調整によって部分的に説明されるが、この直感的な図は特に昼前後に失敗する。 本稿では,説明可能な人工知能を用いたdfdsの詳細な解析と,その外部特徴との関係について述べる。 dfdの日周期をよく記述し,shapley additive explanations (shap) を用いて重要な相互依存を解明する機械学習モデルを構築した。 これにより、太陽ランプは周波数変化率(RoCoF)のパターンを説明するのに重要であると認識する。

Deterministic frequency deviations (DFDs) critically affect power grid frequency quality and power system stability. A better understanding of these events is urgently needed as frequency deviations have been growing in the European grid in recent years. DFDs are partially explained by the rapid adjustment of power generation following the intervals of electricity trading, but this intuitive picture fails especially before and around noonday. In this article, we provide a detailed analysis of DFDs and their relation to external features using methods from explainable Artificial Intelligence. We establish a machine learning model that well describes the daily cycle of DFDs and elucidate key interdependencies using SHapley Additive exPlanations (SHAP). Thereby, we identify solar ramps as critical to explain patterns in the Rate of Change of Frequency (RoCoF).
翻訳日:2021-06-19 14:31:03 公開日:2021-06-14
# 学会手続 KI4Industry AI for SMEs -- 中小企業向けAIへの実践的参入のためのオンライン会議

Conference proceedings KI4Industry AI for SMEs -- the online congress for practical entry into AI for SMEs ( http://arxiv.org/abs/2106.09455v1 )

ライセンス: Link先を確認
Matthias Feiner, Manuel Schoellhorn(参考訳) ドイツのカールスルーエにある応用科学大学の材料・プロセス研究所は、vdi verein deutscher ingenieure e.v, aen automotive engineering network, and their cooperation partnersと共同で、生産工学の分野でaiベースのソリューションアプローチの能力を提示している。 2020年11月12日と13日に開催されたオンラインコングレスki 4産業は、中規模製造業や中小企業に人工知能がどのような機会を提供するかを示し、応用分野の可能性を示した。 KI4産業の主な目的は、知識、研究、技術が大学から中小規模企業へ移行し、AIという用語を廃し、企業が自身のバリューチェーンや製品にAIベースのソリューションを使うように促すことである。

The Institute of Materials and Processes, IMP, of the University of Applied Sciences in Karlsruhe, Germany in cooperation with VDI Verein Deutscher Ingenieure e.V, AEN Automotive Engineering Network and their cooperation partners present their competences of AI-based solution approaches in the production engineering field. The online congress KI 4 Industry on November 12 and 13, 2020, showed what opportunities the use of artificial intelligence offers for medium-sized manufacturing companies, SMEs, and where potential fields of application lie. The main purpose of KI 4 Industry is to increase the transfer of knowledge, research and technology from universities to small and medium-sized enterprises, to demystify the term AI and to encourage companies to use AI-based solutions in their own value chain or in their products.
翻訳日:2021-06-18 15:55:01 公開日:2021-06-14
# 新生児集中治療室における日中の児童中心録音における音声の感情的内容の自動分析

Automatic Analysis of the Emotional Content of Speech in Daylong Child-Centered Recordings from a Neonatal Intensive Care Unit ( http://arxiv.org/abs/2106.09539v1 )

ライセンス: Link先を確認
Einari Vaaras, Sari Ahlqvist-Bj\"orkroth, Konstantinos Drossos, Okko R\"as\"anen(参考訳) 最近、幼児の感情的な声が発達の成果にどう影響するか、研究が始まっています。 この研究の一環として、フィンランドとエストニアの2つの病院から、幼児のオーディオ環境からの数百時間にわたる記録を、いわゆるAPPLE研究の文脈で収集した。 このような膨大なデータセットで音声の感情内容を分析するためには、自動音声感情認識(ser)システムが必要である。 しかし、この目的のために使用する感情ラベルや既存のドメイン内サーシステムは存在しない。 本稿では,この無注の大規模実世界音声データセットを紹介し,フィンランドのサブセットを対象とした機能的serシステムの開発について述べる。 我々は、SERシステムを新しいドメインにデプロイするための代替技術の有効性について検討し、クロスコーパスの一般化、WGANベースのドメイン適応、タスクにおけるアクティブラーニングを比較した。 その結果、最良性能モデルはそれぞれ73.4%の非重み付き平均リコール(UAR)と73.2%のUARを有価値と覚醒値のバイナリ分類で達成できることが判明した。 その結果、アクティブラーニングは2つの選択肢と比較して最も一貫したパフォーマンスを達成できることが示された。

Researchers have recently started to study how the emotional speech heard by young infants can affect their developmental outcomes. As a part of this research, hundreds of hours of daylong recordings from preterm infants' audio environments were collected from two hospitals in Finland and Estonia in the context of so-called APPLE study. In order to analyze the emotional content of speech in such a massive dataset, an automatic speech emotion recognition (SER) system is required. However, there are no emotion labels or existing indomain SER systems to be used for this purpose. In this paper, we introduce this initially unannotated large-scale real-world audio dataset and describe the development of a functional SER system for the Finnish subset of the data. We explore the effectiveness of alternative state-of-the-art techniques to deploy a SER system to a new domain, comparing cross-corpus generalization, WGAN-based domain adaptation, and active learning in the task. As a result, we show that the best-performing models are able to achieve a classification performance of 73.4% unweighted average recall (UAR) and 73.2% UAR for a binary classification for valence and arousal, respectively. The results also show that active learning achieves the most consistent performance compared to the two alternatives.
翻訳日:2021-06-18 15:35:49 公開日:2021-06-14
# counter-strike: global offensiveにおける地図選択のバンディットモデル

Bandit Modeling of Map Selection in Counter-Strike: Global Offensive ( http://arxiv.org/abs/2106.08888v1 )

ライセンス: Link先を確認
Guido Petri, Michael H. Stanley, Alec B. Hon, Alexander Dong, Peter Xenopoulos, Cl\'audio Silva(参考訳) 多くのeスポーツは、マッチの開始前にパラメータを定義するためにピック・アンド・バンプロセスを使用する。 Counter-Strike: Global Offensive (CSGO) では、2つのチームが最初にマップ(仮想世界)を選択して禁止する。 一般的にチームは、練習しないマップの禁止や、チームの最近のパフォーマンスに基づいたマップの選択など、さまざまな要因に基づいてマップを禁止・選択する。 我々は,csgoにおけるマップ選択の問題に対処し,チームの選択と意思決定の禁止を検討するためのコンテキストバンディットフレームワークを提案する。 3500以上のCSGOマッチと25,000以上のマップ選択決定のデータセットを使用して、問題に対する異なるフレーミング、異なるコンテキスト、異なる報酬メトリクスを検討します。 選択と禁止の両方に関して、チームは最適なマップ選択ポリシーを持っています。 また,バンディット設定では検討されていないバンディット報酬のアプローチを定義し,バンディットを組み込むことでモデルパフォーマンスが向上することを示す。 最後に、このモデルを使用することで、予測したマップウィン確率を最大11%向上させ、均等にマッチしたチームでは全体のマッチウィン確率を19.8%向上させることができると判断した。

Many esports use a pick and ban process to define the parameters of a match before it starts. In Counter-Strike: Global Offensive (CSGO) matches, two teams first pick and ban maps, or virtual worlds, to play. Teams typically ban and pick maps based on a variety of factors, such as banning maps which they do not practice, or choosing maps based on the team's recent performance. We introduce a contextual bandit framework to tackle the problem of map selection in CSGO and to investigate teams' pick and ban decision-making. Using a data set of over 3,500 CSGO matches and over 25,000 map selection decisions, we consider different framings for the problem, different contexts, and different reward metrics. We find that teams have suboptimal map choice policies with respect to both picking and banning. We also define an approach for rewarding bans, which has not been explored in the bandit setting, and find that incorporating ban rewards improves model performance. Finally, we determine that usage of our model could improve teams' predicted map win probability by up to 11% and raise overall match win probabilities by 19.8% for evenly-matched teams.
翻訳日:2021-06-17 17:41:00 公開日:2021-06-14
# ランダム特徴ニューラルネットワークは次元の呪いなしにブラックスクール型PDEを学習する

Random feature neural networks learn Black-Scholes type PDEs without curse of dimensionality ( http://arxiv.org/abs/2106.08900v1 )

ライセンス: Link先を確認
Lukas Gonon(参考訳) 本稿では,コルモゴロフ偏微分方程式とより一般的な指数的L''evyモデルについて,ランダム特徴ニューラルネットワークを用いて学習する。 ランダム特徴ニューラルネットワークは、出力重みのみをトレーニング可能な単層フィードフォワードニューラルネットワークである。 これによってトレーニングは特に簡単になるが、(事前)表現性が低下する。 興味深いことに、これはBlack-ScholesタイプのPDEには当てはまらない。 非退化ブラックスコール型モデルを十分に学習するためのランダムニューラルネットワークの予測誤差を導出する。 完全な誤差解析を行い、導出した境界が次元性の呪いに苦しめられていないことを示す。 また,これらの結果をバスケットオプションに適用し,境界を数値的に検証する。 これらの結果は、ニューラルネットワークが次元の呪いを伴わずに、Black-Scholes型PDEに対するtextit{learn}解を解けることを証明している。 さらに、これは、ランダム特徴ニューラルネットワークが確実に効率的である関連する学習問題の例を提供する。

This article investigates the use of random feature neural networks for learning Kolmogorov partial (integro-)differential equations associated to Black-Scholes and more general exponential L\'evy models. Random feature neural networks are single-hidden-layer feedforward neural networks in which only the output weights are trainable. This makes training particularly simple, but (a priori) reduces expressivity. Interestingly, this is not the case for Black-Scholes type PDEs, as we show here. We derive bounds for the prediction error of random neural networks for learning sufficiently non-degenerate Black-Scholes type models. A full error analysis is provided and it is shown that the derived bounds do not suffer from the curse of dimensionality. We also investigate an application of these results to basket options and validate the bounds numerically. These results prove that neural networks are able to \textit{learn} solutions to Black-Scholes type PDEs without the curse of dimensionality. In addition, this provides an example of a relevant learning problem in which random feature neural networks are provably efficient.
翻訳日:2021-06-17 17:33:30 公開日:2021-06-14
# WaveNet-based Deep Neural Networks for the Characteristics of Anomalous Diffusion (WADNet)

WaveNet-Based Deep Neural Networks for the Characterization of Anomalous Diffusion (WADNet) ( http://arxiv.org/abs/2106.08887v1 )

ライセンス: Link先を確認
Dezhong Li, Qiujin Yao, Zihan Huang(参考訳) 標準的なブラウン運動の枠組みから輸送力学の偏りを示す異常拡散は、様々な物理的、化学的、生物学的、経済的システムの進化に関与している。 このようなランダムな過程の研究は、ランダムなウォーカーや複素系の物理的性質を明らかにする上で重要なものである。 しかし、異常拡散を特徴付ける古典的な方法は、個々の短い軌道に対して不適格であり、異常拡散(andi)チャレンジの開始に繋がる。 この課題は, 異常拡散指数の推定, 拡散モデルの分類, 軌道の分割という3つの異なる側面において, 単一軌道特性に対する新しいアプローチを客観的に評価・比較することを目的としている。 本稿では、この課題における推論と分類の課題に対処するため、修正されたWaveNetエンコーダと長い短期記憶ネットワークを組み合わせたWaveNetベースのディープニューラルネットワーク(WADNet)を開発した。 我々のモデルの性能は、すべての次元の2つのタスク(6つのサブタスク)において、現在のリーダーボードの1位を超えているため、WADNetはAnDiデータベースをデコードするための最先端技術の一部である可能性がある。 提案手法は将来の研究のためのベンチマークを示し, 異常拡散特性評価のための汎用ツールの開発を加速させる。

Anomalous diffusion, which shows a deviation of transport dynamics from the framework of standard Brownian motion, is involved in the evolution of various physical, chemical, biological, and economic systems. The study of such random processes is of fundamental importance in unveiling the physical properties of random walkers and complex systems. However, classical methods to characterize anomalous diffusion are often disqualified for individual short trajectories, leading to the launch of the Anomalous Diffusion (AnDi) Challenge. This challenge aims at objectively assessing and comparing new approaches for single trajectory characterization, with respect to three different aspects: the inference of the anomalous diffusion exponent; the classification of the diffusion model; and the segmentation of trajectories. In this article, to address the inference and classification tasks in the challenge, we develop a WaveNet-based deep neural network (WADNet) by combining a modified WaveNet encoder with long short-term memory networks, without any prior knowledge of anomalous diffusion. As the performance of our model has surpassed the current 1st places in the challenge leaderboard on both two tasks for all dimensions (6 subtasks), WADNet could be the part of state-of-the-art techniques to decode the AnDi database. Our method presents a benchmark for future research, and could accelerate the development of a versatile tool for the characterization of anomalous diffusion.
翻訳日:2021-06-17 17:06:10 公開日:2021-06-14
# (参考訳) 計算病理学における敵意の脆弱性は

Now You See It, Now You Dont: Adversarial Vulnerabilities in Computational Pathology ( http://arxiv.org/abs/2106.08153v1 )

ライセンス: CC BY 4.0
Alex Foote, Amina Asif, Ayesha Azam, Nasir Rajpoot and Fayyaz Minhas(参考訳) 深層学習モデルは、診断と予後の問題を解くために、計算病理学(CPath)に常用される。 通常、CPathモデルの一般化性能は、多中心コホート上でのクロスバリデーションやテストのような評価プロトコルを用いて分析される。 しかし,このようなCPathソリューションが臨床現場での使用に対して堅牢かつ安全であることを保証するためには,その予測性能と敵攻撃に対する脆弱性を批判的に分析する必要がある。 具体的には, 病理画像中の腫瘍パッチを高精度に分類するモデル(auc > 0.95)が, 人間や訓練された病理学者には受け入れられない最小限の摂動で容易に攻撃できることを示す。 分析の結果,高い成功率と低摂動エネルギーで特定の入力画像に対して単一インスタンスのホワイトボックス攻撃を発生できることが示唆された。 さらに、トレーニングデータセットのみを使用した単一の普遍摂動行列も生成し、未認識のテスト画像に付加すると、トレーニングされたニューラルネットワークが84%以上の成功率で高い信頼度で予測ラベルを反転させる結果となる。 本研究は, 対向攻撃の摂動エネルギーと臨床的意義の形態的構成との関係, 訓練された病理学者による受容性, 深層学習モデルを用いて得られた塩分マップとの関係を体系的に解析する。 本分析に基づいて,臨床導入前に提案した逆検証戦略を用いて,計算病理モデルに批判的分析を行うことを強く推奨する。

Deep learning models are routinely employed in computational pathology (CPath) for solving problems of diagnostic and prognostic significance. Typically, the generalization performance of CPath models is analyzed using evaluation protocols such as cross-validation and testing on multi-centric cohorts. However, to ensure that such CPath solutions are robust and safe for use in a clinical setting, a critical analysis of their predictive performance and vulnerability to adversarial attacks is required, which is the focus of this paper. Specifically, we show that a highly accurate model for classification of tumour patches in pathology images (AUC > 0.95) can easily be attacked with minimal perturbations which are imperceptible to lay humans and trained pathologists alike. Our analytical results show that it is possible to generate single-instance white-box attacks on specific input images with high success rate and low perturbation energy. Furthermore, we have also generated a single universal perturbation matrix using the training dataset only which, when added to unseen test images, results in forcing the trained neural network to flip its prediction labels with high confidence at a success rate of > 84%. We systematically analyze the relationship between perturbation energy of an adversarial attack, its impact on morphological constructs of clinical significance, their perceptibility by a trained pathologist and saliency maps obtained using deep learning models. Based on our analysis, we strongly recommend that computational pathology models be critically analyzed using the proposed adversarial validation strategy prior to clinical adoption.
翻訳日:2021-06-17 11:03:15 公開日:2021-06-14
# (参考訳) 深層学習モデルにおける損失景観のグローバルダイナミクスの抽出

Extracting Global Dynamics of Loss Landscape in Deep Learning Models ( http://arxiv.org/abs/2106.07683v1 )

ライセンス: CC BY 4.0
Mohammed Eslami, Hamed Eramian, Marcio Gameiro, William Kalies, Konstantin Mischaikow(参考訳) ディープラーニングモデルは、学習を通じて進化し、目的を満たすためにデータが存在する多様体を学ぶ。 進化が、同じテストデータポイントの一貫性のない予測を生成する異なる最終状態につながることはよく知られている。 これにより、軌跡の差を経験的に定量化し、問題領域を強調できる技術が求められている。 モデルがどのように学習するかの発見に多くの焦点が当てられているが、モデルがどのように学習するかという問題は、理論的な景観特性や最適条件に近い局所幾何学的近似を超えては研究されていない。 本稿では,DOODL3 (Dynamical Organization of Deep Learning Loss Landscapes) のツールキットを提案する。 DOODL3は、ニューラルネットワークのトレーニングを動的システムとして定式化し、学習プロセスを分析し、損失ランドスケープにおける軌跡の解釈可能なグローバルビューを示す。 我々のアプローチは、トポロジの粗さを利用して幾何学の粒度を捉え、不安定な状態や長い訓練を緩和する。 全体として,モデル全体のダイナミクスを抽出し,その情報を用いてニューラルネットワークのトレーニングを導くための経験的枠組みを提案する。

Deep learning models evolve through training to learn the manifold in which the data exists to satisfy an objective. It is well known that evolution leads to different final states which produce inconsistent predictions of the same test data points. This calls for techniques to be able to empirically quantify the difference in the trajectories and highlight problematic regions. While much focus is placed on discovering what models learn, the question of how a model learns is less studied beyond theoretical landscape characterizations and local geometric approximations near optimal conditions. Here, we present a toolkit for the Dynamical Organization Of Deep Learning Loss Landscapes, or DOODL3. DOODL3 formulates the training of neural networks as a dynamical system, analyzes the learning process, and presents an interpretable global view of trajectories in the loss landscape. Our approach uses the coarseness of topology to capture the granularity of geometry to mitigate against states of instability or elongated training. Overall, our analysis presents an empirical framework to extract the global dynamics of a model and to use that information to guide the training of neural networks.
翻訳日:2021-06-17 10:53:28 公開日:2021-06-14
# (参考訳) 逆パラフレーズタスクによるパラフレーズ検出の改善

Improving Paraphrase Detection with the Adversarial Paraphrasing Task ( http://arxiv.org/abs/2106.07691v1 )

ライセンス: CC BY 4.0
Animesh Nighojkar and John Licato(参考訳) もし2つの文が同じ意味を持つならば、それらの推論的性質、すなわち、各文はテクスチャ的に他方を包含すべきである。 しかし、現在広く使われている多くのパラフレーズデータセットは、単語重複と構文に基づくパラフレーズ感覚に依存している。 文の推論的性質に頼り、文対の語彙的および構文的類似性に過度に依存しない方法でパラフレーズを識別できるように教えることができるか? 本稿では,この課題に逆説的パラダイムを適用し,また,語彙的・統語論的に異なる言い回しを参加者に生成させる,逆説的言い換え課題(APT)を新たに導入する。 これらの文ペアは、パラフレーズ識別モデル(ランダムな精度はほとんど得られない)をテストし、パフォーマンスを向上させるためにも使用できる。 データセット生成を高速化するため、T5を用いてAPTの自動化を検討し、得られたデータセットが精度も向上することを示す。 パラフレーズ検出モデルが文レベルの意味等価性をよりよく検出できるようにするために、パラフレーズ検出の意味を議論し、データセットをリリースする。

If two sentences have the same meaning, it should follow that they are equivalent in their inferential properties, i.e., each sentence should textually entail the other. However, many paraphrase datasets currently in widespread use rely on a sense of paraphrase based on word overlap and syntax. Can we teach them instead to identify paraphrases in a way that draws on the inferential properties of the sentences, and is not over-reliant on lexical and syntactic similarities of a sentence pair? We apply the adversarial paradigm to this question, and introduce a new adversarial method of dataset creation for paraphrase identification: the Adversarial Paraphrasing Task (APT), which asks participants to generate semantically equivalent (in the sense of mutually implicative) but lexically and syntactically disparate paraphrases. These sentence pairs can then be used both to test paraphrase identification models (which get barely random accuracy) and then improve their performance. To accelerate dataset generation, we explore automation of APT using T5, and show that the resulting dataset also improves accuracy. We discuss implications for paraphrase detection and release our dataset in the hope of making paraphrase detection models better able to detect sentence-level meaning equivalence.
翻訳日:2021-06-17 10:41:27 公開日:2021-06-14
# (参考訳) 属性操作による顔年齢の進行

Face Age Progression With Attribute Manipulation ( http://arxiv.org/abs/2106.07696v1 )

ライセンス: CC BY 4.0
Sinzith Tatikonda, Athira Nambiar and Anurag Mittal(参考訳) 顔は個人認識の主要な手段の1つである。 老化の過程では、人間の顔は時間、属性、天気、その他の主題固有のバリエーションなど、多くの要因に左右される。 これらの因子の影響は顔の老化の文献ではよく研究されなかった。 本稿では,「FAWAM (Face Age Progression With Attribute Manipulation) 」という,新たな包括的モデルを提案する。 異なる年齢で顔画像を生成すると同時に、属性と他の主題固有の特性を同時に生成する。 タスクはボトムアップ方式、すなわち2つのサブモジュールとして扱う。 顔年齢の進行と顔属性の操作。 顔の老化にはピラミッド生成対向ネットワークを用いた属性意識型顔の老化モデルを用い,本質的な被写体の特徴を維持しつつ,年齢に応じた顔の変化をモデル化する。 顔属性の操作には、年齢処理された顔画像を所望の属性で操作し、他の詳細をそのまま保存し、属性生成対向ネットワークアーキテクチャを活用する。 我々は,標準大規模データセットを広範囲に分析し,定量的・定性的に有意な性能を実現する。

Face is one of the predominant means of person recognition. In the process of ageing, human face is prone to many factors such as time, attributes, weather and other subject specific variations. The impact of these factors were not well studied in the literature of face aging. In this paper, we propose a novel holistic model in this regard viz., ``Face Age progression With Attribute Manipulation (FAWAM)", i.e. generating face images at different ages while simultaneously varying attributes and other subject specific characteristics. We address the task in a bottom-up manner, as two submodules i.e. face age progression and face attribute manipulation. For face aging, we use an attribute-conscious face aging model with a pyramidal generative adversarial network that can model age-specific facial changes while maintaining intrinsic subject specific characteristics. For facial attribute manipulation, the age processed facial image is manipulated with desired attributes while preserving other details unchanged, leveraging an attribute generative adversarial network architecture. We conduct extensive analysis in standard large scale datasets and our model achieves significant performance both quantitatively and qualitatively.
翻訳日:2021-06-17 10:26:51 公開日:2021-06-14
# (参考訳) 半教師付き転写仮説における不均一性を用いた符号切替音声認識の改良

Using heterogeneity in semi-supervised transcription hypotheses to improve code-switched speech recognition ( http://arxiv.org/abs/2106.07699v1 )

ライセンス: CC BY 4.0
Andrew Slottje, Shannon Wotherspoon, William Hartmann, Matthew Snover, Owen Kimball(参考訳) コード切替音声のモデリングは,音声認識(ASR)において重要な問題である。 ラベル付き符号切替データは稀であり、単言語データはしばしば符号切替音声のモデル化に用いられる。 これらの単言語データは、コード-スイッチペアの言語のいずれかとより密接に一致する可能性がある。 このような非対称性は、より適合した言語に対してバイアス予測を行い、全体のモデル性能を低下させる可能性がある。 この問題に対処するために,コードスイッチングASRのための半教師付きアプローチを提案する。 英語と中国語のコードスイッチングの事例と,単言語データを用いて,ラベルなしコード切り換えデータのアノテーションのためのバイリンガル「記述モデル」を構築する問題点について考察した。 まず、複数の転写モデルを構築し、それぞれの予測が英語かマンダリンに偏っているようにします。 次に、これらのバイアス付き転写を信頼に基づく選択で組み合わせます。 この戦略は、半教師付きトレーニングにおいて優れた書き起こしを生成し、最も適合した単言語データのみで構築された転写モデルに依存する半教師付きシステムと比較して19%の相対的な改善が得られる。

Modeling code-switched speech is an important problem in automatic speech recognition (ASR). Labeled code-switched data are rare, so monolingual data are often used to model code-switched speech. These monolingual data may be more closely matched to one of the languages in the code-switch pair. We show that such asymmetry can bias prediction toward the better-matched language and degrade overall model performance. To address this issue, we propose a semi-supervised approach for code-switched ASR. We consider the case of English-Mandarin code-switching, and the problem of using monolingual data to build bilingual "transcription models'' for annotation of unlabeled code-switched data. We first build multiple transcription models so that their individual predictions are variously biased toward either English or Mandarin. We then combine these biased transcriptions using confidence-based selection. This strategy generates a superior transcript for semi-supervised training, and obtains a 19% relative improvement compared to a semi-supervised system that relies on a transcription model built with only the best-matched monolingual data.
翻訳日:2021-06-17 10:15:39 公開日:2021-06-14
# (参考訳) ニューラルアーキテクチャ探索による深層形態素ネットワークの学習

Learning Deep Morphological Networks with Neural Architecture Search ( http://arxiv.org/abs/2106.07714v1 )

ライセンス: CC BY 4.0
Yufei Hu, Nacim Belkhir, Jesus Angulo, Angela Yao, Gianni Franchi(参考訳) ディープニューラルネットワーク(DNN)は、線形および非線形プロセスの逐次実行によって生成される。 線形手続きと非線形手続きの組み合わせは、十分に深い特徴空間を生成するのに不可欠である。 非線型作用素の大多数は活性化関数やプール関数の導出である。 数学的形態学は、様々な画像処理問題に対して非線形作用素を提供する数学の一分野である。 本稿では,これらの操作をエンドツーエンドのディープラーニングフレームワークに統合する方法について検討する。 DNNは、特定のジョブの現実的な表現を取得するように設計されている。 形態学演算子は、画像に描かれた物体の形状に関する詳細な情報を伝達するトポロジカル記述子を与える。 形態論的演算子をDNNに組み込むメタラーニング法を提案する。 学習アーキテクチャは、画像分類やエッジ検出を含む様々なタスクにおいて、新しい形態的操作によってDNNの性能が著しく向上することを示す。

Deep Neural Networks (DNNs) are generated by sequentially performing linear and non-linear processes. Using a combination of linear and non-linear procedures is critical for generating a sufficiently deep feature space. The majority of non-linear operators are derivations of activation functions or pooling functions. Mathematical morphology is a branch of mathematics that provides non-linear operators for a variety of image processing problems. We investigate the utility of integrating these operations in an end-to-end deep learning framework in this paper. DNNs are designed to acquire a realistic representation for a particular job. Morphological operators give topological descriptors that convey salient information about the shapes of objects depicted in images. We propose a method based on meta-learning to incorporate morphological operators into DNNs. The learned architecture demonstrates how our novel morphological operations significantly increase DNN performance on various tasks, including picture classification and edge detection.
翻訳日:2021-06-17 10:05:51 公開日:2021-06-14
# (参考訳) ハイブリッドPseudotranscriptを用いた低資源系列列列ASRモデルにおけるドメインミスマッチの克服

Overcoming Domain Mismatch in Low Resource Sequence-to-Sequence ASR Models using Hybrid Generated Pseudotranscripts ( http://arxiv.org/abs/2106.07716v1 )

ライセンス: CC BY 4.0
Chak-Fai Li, Francis Keith, William Hartmann, Matthew Snover, Owen Kimball(参考訳) sequence-to-sequence(seq2seq)モデルは、大量のトレーニングデータが利用可能である場合、自動音声認識(asr)タスク用のハイブリッドモデルと競合する。 しかし、Seq2seqモデルではデータの分散性とドメイン適応がハイブリッドモデルよりも問題となる。 書き起こされたデータは会話型電話音声(cts)であり、評価データは放送ニュース(bn)であるiarpa資料プログラムから5つの言語のコーパスを調べる。 ハイブリッドモデルとSeq2seqモデルの間には,そのようなデータ条件に大きな初期ギャップがあることが示され,このハイブリッドモデルでは,追加言語モデル(LM)データを用いることで,さらなる改善が可能である。 我々は、BNドメインで主に書き起こされていないデータの追加セットを半教師あり訓練に使用します。 半教師付きトレーニングでは、転写されたデータに基づいて訓練されたシードモデルが、さらなるトレーニングのために未ラベルのドメインマッチングデータの仮説化された転写文を生成する。 擬似書き起こしのための拡張された言語モデルを持つハイブリッドモデルを使用することで、seq2seqモデルを5つの言語で66.7%の平均単語誤り率(wer)から29.0% werに改善することができる。 これにより、Seq2seqモデルは競争力のある運用ポイントとなるが、ハイブリッドモデルはさらなるLMデータを使用して優位性を維持することができる。

Sequence-to-sequence (seq2seq) models are competitive with hybrid models for automatic speech recognition (ASR) tasks when large amounts of training data are available. However, data sparsity and domain adaptation are more problematic for seq2seq models than their hybrid counterparts. We examine corpora of five languages from the IARPA MATERIAL program where the transcribed data is conversational telephone speech (CTS) and evaluation data is broadcast news (BN). We show that there is a sizable initial gap in such a data condition between hybrid and seq2seq models, and the hybrid model is able to further improve through the use of additional language model (LM) data. We use an additional set of untranscribed data primarily in the BN domain for semisupervised training. In semisupervised training, a seed model trained on transcribed data generates hypothesized transcripts for unlabeled domain-matched data for further training. By using a hybrid model with an expanded language model for pseudotranscription, we are able to improve our seq2seq model from an average word error rate (WER) of 66.7% across all five languages to 29.0% WER. While this puts the seq2seq model at a competitive operating point, hybrid models are still able to use additional LM data to maintain an advantage.
翻訳日:2021-06-17 09:46:26 公開日:2021-06-14
# (参考訳) 残留ランダム化による高次元線形モデルのロバスト推論

Robust Inference for High-Dimensional Linear Models via Residual Randomization ( http://arxiv.org/abs/2106.07717v1 )

ライセンス: CC BY 4.0
Y. Samuel Wang, Si Kai Lee, Panos Toulis, Mladen Kolar(参考訳) 高次元設定におけるロバストなラッソ型推論のための残差ランダム化手法を提案する。 サブガウジアンエラーに焦点を当てた以前の作業と比較すると、提案手法はヘビーテールのコヴァリエートやエラーを含む設定で頑健に動作するよう設計されている。 さらに,本手法はクラスタ化エラーの下では有効であり,実際は重要であるが,これまでは概ね見過ごされてきた。 広範囲なシミュレーションを通じて,提案手法の適用範囲を理論的に検討した。 特に,本手法は,共変量の分布が重く,サンプルサイズが小さく,従来文献で研究されていた「よく振る舞う」という標準的設定が競争力を保ちながら,挑戦的かつより現実的な設定において,最先端の手法よりも優れることを示す。

We propose a residual randomization procedure designed for robust Lasso-based inference in the high-dimensional setting. Compared to earlier work that focuses on sub-Gaussian errors, the proposed procedure is designed to work robustly in settings that also include heavy-tailed covariates and errors. Moreover, our procedure can be valid under clustered errors, which is important in practice, but has been largely overlooked by earlier work. Through extensive simulations, we illustrate our method's wider range of applicability as suggested by theory. In particular, we show that our method outperforms state-of-art methods in challenging, yet more realistic, settings where the distribution of covariates is heavy-tailed or the sample size is small, while it remains competitive in standard, ``well behaved" settings previously studied in the literature.
翻訳日:2021-06-17 09:32:33 公開日:2021-06-14
# (参考訳) 双曲的埋め込みを用いた健康レコメンデーションシステムへのドメイン知識の導入

Incorporating Domain Knowledge into Health Recommender Systems using Hyperbolic Embeddings ( http://arxiv.org/abs/2106.07720v1 )

ライセンス: CC BY 4.0
Joel Peito, Qiwei Han(参考訳) 他の多くの領域とは対照的に、健康サービスにおけるレコメンダシステムは、個人の健康ニーズに対応する有意義でパーソナライズされたレコメンデーションを提供するのに役立つため、特に健康ドメイン知識の編入から恩恵を受ける可能性がある。 近年,双曲型poincare空間への健康知識の階層的埋め込みを可能にする表現学習の進歩に伴い,トランスファー学習によるicd-9符号の事前学習により強化された患者の健康プロファイルに基づくプライマリケアにおける患者と医師とのマッチングのためのコンテンツベースレコメンダシステムを提案する。 提案モデルは,推奨精度の観点から従来のモデルよりも優れており,患者と医師の関係を改善する上で重要なビジネス上の意味を持つ。

In contrast to many other domains, recommender systems in health services may benefit particularly from the incorporation of health domain knowledge, as it helps to provide meaningful and personalised recommendations catering to the individual's health needs. With recent advances in representation learning enabling the hierarchical embedding of health knowledge into the hyperbolic Poincare space, this work proposes a content-based recommender system for patient-doctor matchmaking in primary care based on patients' health profiles, enriched by pre-trained Poincare embeddings of the ICD-9 codes through transfer learning. The proposed model outperforms its conventional counterpart in terms of recommendation accuracy and has several important business implications for improving the patient-doctor relationship.
翻訳日:2021-06-17 09:31:30 公開日:2021-06-14
# (参考訳) 交渉エージェントの進化のためのターゲットデータ取得

Targeted Data Acquisition for Evolving Negotiation Agents ( http://arxiv.org/abs/2106.07728v1 )

ライセンス: CC BY 4.0
Minae Kwon, Siddharth Karamcheti, Mariano-Florentino Cuellar, Dorsa Sadigh(参考訳) 成功する交渉者は、自己利益と協力のために最適化のバランスをとる方法を学ぶ必要がある。 しかし、現在の人工交渉エージェントは、訓練された静的データセットの品質に大きく依存し、自己関心と協力のバランスをとる適応的な応答を形作る能力を制限する。 このため、これらのエージェントは高い実用性または協調性を達成することができるが、両方は達成できない。 これを解決するために,専門家の託宣のアノテーションを用いた強化学習エージェントの探索を指導するターゲットデータ取得フレームワークを導入する。 このガイド付き探索は、学習エージェントに静的データセットを超えて新しい交渉戦略を開発するようインセンティブを与える。 その結果, エージェントは, 通常の教師付き学習法や強化学習法と比較して, シミュレーションおよびヒューマンパートナーとの交渉において, より高位に, よりパレートな最適解を得ることができた。 この傾向は、対象とするデータ取得フレームワークを使用したエージェントを、教師付き学習と強化学習の混合で訓練されたエージェントの亜種と比較する場合や、ユーティリティとパレート最適化を明示的に最適化した報酬関数を使用したエージェントと比較する場合にも有効である。

Successful negotiators must learn how to balance optimizing for self-interest and cooperation. Yet current artificial negotiation agents often heavily depend on the quality of the static datasets they were trained on, limiting their capacity to fashion an adaptive response balancing self-interest and cooperation. For this reason, we find that these agents can achieve either high utility or cooperation, but not both. To address this, we introduce a targeted data acquisition framework where we guide the exploration of a reinforcement learning agent using annotations from an expert oracle. The guided exploration incentivizes the learning agent to go beyond its static dataset and develop new negotiation strategies. We show that this enables our agents to obtain higher-reward and more Pareto-optimal solutions when negotiating with both simulated and human partners compared to standard supervised learning and reinforcement learning methods. This trend additionally holds when comparing agents using our targeted data acquisition framework to variants of agents trained with a mix of supervised learning and reinforcement learning, or to agents using tailored reward functions that explicitly optimize for utility and Pareto-optimality.
翻訳日:2021-06-17 09:21:58 公開日:2021-06-14
# (参考訳) オーディオ・ビジュアル・デバーベレーションの学習

Learning Audio-Visual Dereverberation ( http://arxiv.org/abs/2106.07732v1 )

ライセンス: CC BY 4.0
Changan Chen, Wei Sun, David Harwath, Kristen Grauman(参考訳) 環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。 以前の作業では、オーディオモダリティのみに基づいた残響除去を試みた。 私たちのアイデアは、音声と視覚の観察から音声を推論することを学ぶことです。 人間の話者を囲む視覚環境は、部屋の形状、材料、話者の位置に関する重要な手がかりを示し、これらすべてが音声ストリームの正確な残響効果に影響を与えている。 本研究では,音と視覚シーンの両方に基づいて残響除去を学習するエンド・ツー・エンドのアプローチであるvida(visual-informed dereverberation of audio)を提案する。 そこで本研究では,実世界の3dスキャンによる室内音響の実環境における音声のリアルな音響表現を用いた大規模データセットを開発した。 音声強調、音声認識、話者識別のためのシミュレーションと実画像の両方に対する我々のアプローチを実証し、従来の音声のみの手法よりも大幅に改善されていることを示す。 プロジェクトページ: http://vision.cs.utexas.edu/ projects/learning-audio-visual-deeverberation

Reverberation from audio reflecting off surfaces and objects in the environment not only degrades the quality of speech for human perception, but also severely impacts the accuracy of automatic speech recognition. Prior work attempts to remove reverberation based on the audio modality only. Our idea is to learn to dereverberate speech from audio-visual observations. The visual environment surrounding a human speaker reveals important cues about the room geometry, materials, and speaker location, all of which influence the precise reverberation effects in the audio stream. We introduce Visually-Informed Dereverberation of Audio (VIDA), an end-to-end approach that learns to remove reverberation based on both the observed sounds and visual scene. In support of this new task, we develop a large-scale dataset that uses realistic acoustic renderings of speech in real-world 3D scans of homes offering a variety of room acoustics. Demonstrating our approach on both simulated and real imagery for speech enhancement, speech recognition, and speaker identification, we show it achieves state-of-the-art performance and substantially improves over traditional audio-only methods. Project page: http://vision.cs.utexas.edu/projects/learning-audio-visual-dereverberation.
翻訳日:2021-06-17 09:00:23 公開日:2021-06-14
# (参考訳) BERTはできるのか? --考古学領域における情報検索のためのエンティティ認識

Can BERT Dig It? -- Named Entity Recognition for Information Retrieval in the Archaeology Domain ( http://arxiv.org/abs/2106.07742v1 )

ライセンス: CC BY 4.0
Alex Brandsen, Suzan Verberne, Karsten Lambers, Milco Wansleeben(参考訳) 考古学文献の量は急速に増えている。 最近まで、これらのデータはメタデータ検索を通じてのみアクセス可能だった。 我々は、大規模な考古学的テキストコレクションのためのテキスト検索エンジンを実装した($\sim 658$ million words)。 考古学的IRでは、場所、期間、アーティファクトといったドメイン固有の実体が中心的な役割を果たす。 これは、完全なコレクションに考古学的な名前付きエンティティを注釈する名前付きエンティティ認識(ner)モデルの開発を動機付けた。 本稿では,オランダの考古学文献を事前学習した BERT モデルである ArcheoBERTje について述べる。 本稿では,名前付きエンティティ認識タスクにおけるモデルの品質と出力を,汎用多言語モデルと汎用オランダモデルと比較する。 また,複数のBERTモデルを組み合わせて,最適なBERTモデルとドメインシソーラスを条件付きランダム場(CRF)を用いて組み合わせるアンサンブル法についても検討した。 ArcheoBERTjeは、多言語モデルとオランダモデルの両方で、ラン間の標準偏差が小さく、平均F1スコアが0.735に達している。 このモデルは、3つのモデルを組み合わせたアンサンブルメソッドよりも優れています。 ArcheoBERTje予測とthesaurusからの明確なドメイン知識を組み合わせることで、F1スコアは向上しなかった。 我々は,BERTモデルの語彙と出力の違いを定量的に定性的に分析し,特定のドメインに対する微調整の効果について貴重な知見を提供する。 以上の結果から,考古学などの高度に特定のテキスト領域において,ドメイン固有データによる事前学習により,NER上のモデルの品質が,文献の他の領域よりもはるかに大きく向上すること,ドメイン固有事前学習がシソーラスからのドメイン知識の追加を不要にすること,などが示唆された。

The amount of archaeological literature is growing rapidly. Until recently, these data were only accessible through metadata search. We implemented a text retrieval engine for a large archaeological text collection ($\sim 658$ Million words). In archaeological IR, domain-specific entities such as locations, time periods, and artefacts, play a central role. This motivated the development of a named entity recognition (NER) model to annotate the full collection with archaeological named entities. In this paper, we present ArcheoBERTje, a BERT model pre-trained on Dutch archaeological texts. We compare the model's quality and output on a Named Entity Recognition task to a generic multilingual model and a generic Dutch model. We also investigate ensemble methods for combining multiple BERT models, and combining the best BERT model with a domain thesaurus using Conditional Random Fields (CRF). We find that ArcheoBERTje outperforms both the multilingual and Dutch model significantly with a smaller standard deviation between runs, reaching an average F1 score of 0.735. The model also outperforms ensemble methods combining the three models. Combining ArcheoBERTje predictions and explicit domain knowledge from the thesaurus did not increase the F1 score. We quantitatively and qualitatively analyse the differences between the vocabulary and output of the BERT models on the full collection and provide some valuable insights in the effect of fine-tuning for specific domains. Our results indicate that for a highly specific text domain such as archaeology, further pre-training on domain-specific data increases the model's quality on NER by a much larger margin than shown for other domains in the literature, and that domain-specific pre-training makes the addition of domain knowledge from a thesaurus unnecessary.
翻訳日:2021-06-17 08:41:48 公開日:2021-06-14
# (参考訳) 潜在空間における干渉としての対物的説明

Counterfactual Explanations as Interventions in Latent Space ( http://arxiv.org/abs/2106.07754v1 )

ライセンス: CC BY 4.0
Riccardo Crupi, Alessandro Castelnovo, Daniele Regoli, Beatriz San Miguel Gonzalez(参考訳) 説明可能な人工知能(XAI)は、人工知能(AI)システムの技術的側面と非技術的側面の両方を理解するための一連の技術である。 XAIは、人間の自律性、害の予防、透明性、説明責任などの基本的な特徴を特徴とする「emph{trustworthy} Artificial Intelligence」のますます重要な需要を満たすために不可欠である。 XAI技術では、デファクト的な説明は、エンドユーザに望ましい結果を達成するために変更が必要な機能(とその対応する値)セットを提供することを目的としています。 現在のアプローチでは、提案された説明の達成に必要な行動の実現可能性を考慮することはめったになく、特にそのような行動の因果的影響を考慮しない。 本稿では,データから因果関係を設計し,かつ,提案したプロファイルに到達するための実用的なレコメンデーションを提供する手法として,潜伏空間における干渉としての対実的説明(CEILS)を提案する。 さらに,提案手法は,既存のファクトファクトジェネレータアルゴリズム上に設定できるという利点があり,因果制約を課すことの複雑さを最小限に抑えることができる。 提案手法の有効性を,合成データセットと実データ(金融ドメインの独自データセットを含む)を用いて異なる実験群を用いて実証する。

Explainable Artificial Intelligence (XAI) is a set of techniques that allows the understanding of both technical and non-technical aspects of Artificial Intelligence (AI) systems. XAI is crucial to help satisfying the increasingly important demand of \emph{trustworthy} Artificial Intelligence, characterized by fundamental characteristics such as respect of human autonomy, prevention of harm, transparency, accountability, etc. Within XAI techniques, counterfactual explanations aim to provide to end users a set of features (and their corresponding values) that need to be changed in order to achieve a desired outcome. Current approaches rarely take into account the feasibility of actions needed to achieve the proposed explanations, and in particular they fall short of considering the causal impact of such actions. In this paper, we present Counterfactual Explanations as Interventions in Latent Space (CEILS), a methodology to generate counterfactual explanations capturing by design the underlying causal relations from the data, and at the same time to provide feasible recommendations to reach the proposed profile. Moreover, our methodology has the advantage that it can be set on top of existing counterfactuals generator algorithms, thus minimising the complexity of imposing additional causal constrains. We demonstrate the effectiveness of our approach with a set of different experiments using synthetic and real datasets (including a proprietary dataset of the financial domain).
翻訳日:2021-06-17 08:17:20 公開日:2021-06-14
# (参考訳) 境界値問題の線形時間確率解

Linear-Time Probabilistic Solutions of Boundary Value Problems ( http://arxiv.org/abs/2106.07761v1 )

ライセンス: CC BY 4.0
Nicholas Kr\"amer and Philipp Hennig(参考訳) 本稿では,境界条件下での常微分方程式である境界値問題(BVP)の確率解に対する高速アルゴリズムを提案する。 従来の研究とは対照的に、我々はガウス-マルコフ先行モデルを導入し、特にBVPに最適化し、線形時間における解の後方分布を、確立された非確率的手法に匹敵する品質とコストで計算できるようにする。 我々のモデルはさらに不確かさの定量化、メッシュの精密化、ハイパーパラメータ適応をもたらす。 これらの実践的考察がスキームの効率に与える影響を実証する。 さらに、これは(確率的でないアルゴリズムとは対照的に)統計的モデリングツールチェーンの他の部分とネイティブに互換性のある、実用的に利用可能な確率的BVPソルバをもたらす。

We propose a fast algorithm for the probabilistic solution of boundary value problems (BVPs), which are ordinary differential equations subject to boundary conditions. In contrast to previous work, we introduce a Gauss--Markov prior and tailor it specifically to BVPs, which allows computing a posterior distribution over the solution in linear time, at a quality and cost comparable to that of well-established, non-probabilistic methods. Our model further delivers uncertainty quantification, mesh refinement, and hyperparameter adaptation. We demonstrate how these practical considerations positively impact the efficiency of the scheme. Altogether, this results in a practically usable probabilistic BVP solver that is (in contrast to non-probabilistic algorithms) natively compatible with other parts of the statistical modelling tool-chain.
翻訳日:2021-06-17 08:16:16 公開日:2021-06-14
# (参考訳) Reweighted Coinのフリップ側:適応型ドロップアウトと正規化の二重性

The Flip Side of the Reweighted Coin: Duality of Adaptive Dropout and Regularization ( http://arxiv.org/abs/2106.07769v1 )

ライセンス: CC BY 4.0
Daniel LeJeune and Hamid Javadi and Richard G. Baraniuk(参考訳) 深層(神経)ネットワークをスパース化する最も成功した手法は、トレーニングを通じてネットワークの重みを適応的に隠蔽する手法である。 線形の場合、このマスキングやドロップアウトを調べることで、そのような適応的手法と正規化の双対性を「$\eta$-trick」と呼ばれる、反復的に再重み付けされた最適化として示すことによって明らかにする。 単調な方法で重みに適応するドロップアウト戦略は、効果的な準正則化ペナルティに対応し、スパース解をもたらすことを示す。 スパース最適化によく用いられる古典的罰則に非常によく似た,いくつかの一般的なスパシフィケーション戦略に対する効果的な罰則を得る。 本研究では, 適応型ドロップアウト法と古典的手法の類似した実験的挙動を, ネットワークスペーシフィケーションの課題において実証し, 理論を検証した。

Among the most successful methods for sparsifying deep (neural) networks are those that adaptively mask the network weights throughout training. By examining this masking, or dropout, in the linear case, we uncover a duality between such adaptive methods and regularization through the so-called "$\eta$-trick" that casts both as iteratively reweighted optimizations. We show that any dropout strategy that adapts to the weights in a monotonic way corresponds to an effective subquadratic regularization penalty, and therefore leads to sparse solutions. We obtain the effective penalties for several popular sparsification strategies, which are remarkably similar to classical penalties commonly used in sparse optimization. Considering variational dropout as a case study, we demonstrate similar empirical behavior between the adaptive dropout method and classical methods on the task of deep network sparsification, validating our theory.
翻訳日:2021-06-17 07:56:13 公開日:2021-06-14
# (参考訳) モーションリターゲティングのためのフローガイド変換可能なボトルネックネットワーク

Flow Guided Transformable Bottleneck Networks for Motion Retargeting ( http://arxiv.org/abs/2106.07771v1 )

ライセンス: CC BY 4.0
Jian Ren, Menglei Chai, Oliver J. Woodford, Kyle Olszewski, Sergey Tulyakov(参考訳) ヒューマンモーションリターゲティング(human motion retargeting)は、ある人の動きを「運転」ビデオまたは画像セットで他の人に転送することを目的としている。 既存の取り組みでは、対象者毎の長いトレーニングビデオを活用して、主題固有のモーショントランスファーモデルをトレーニングしている。 しかし,各モデルが対象対象対象の動画のみを生成できるため,学習ビデオの取得と処理に手間がかかるため,そのような手法のスケーラビリティは限られている。 ターゲットからの1枚または数枚の画像のみを必要とするモーショントランスファー技術が最近注目されている。 この課題に対処する手法は、一般的に2次元または明示的な3次元表現を用いて動きを伝達し、それによって正確な幾何学的モデリングやエンドツーエンドの学習表現の柔軟性を犠牲にする。 剛体オブジェクトの新しいビューと操作を描画するtransformable bottleneck networkに着想を得て,画像コンテンツの暗黙的なボリューム表現に基づくアプローチを提案し,ボリュームフローフィールドを用いて空間的に操作する手法を提案する。 複雑な動作を行う非剛性な被験者の入力画像の適切な領域からのコンテンツを1つの暗黙の容積表現に組み合わせることのできる、異なる身体のポーズにまたがる情報をどのように集約するかという課題に対処する。 これにより、動いている人のビデオだけから3d表現を学べるのです。 3Dオブジェクトの理解とエンドツーエンドのレンダリングを両立させて、この分類学的に新しい表現は、定量的および定性的な評価で示されるように、最先端の画像生成品質を提供する。

Human motion retargeting aims to transfer the motion of one person in a "driving" video or set of images to another person. Existing efforts leverage a long training video from each target person to train a subject-specific motion transfer model. However, the scalability of such methods is limited, as each model can only generate videos for the given target subject, and such training videos are labor-intensive to acquire and process. Few-shot motion transfer techniques, which only require one or a few images from a target, have recently drawn considerable attention. Methods addressing this task generally use either 2D or explicit 3D representations to transfer motion, and in doing so, sacrifice either accurate geometric modeling or the flexibility of an end-to-end learned representation. Inspired by the Transformable Bottleneck Network, which renders novel views and manipulations of rigid objects, we propose an approach based on an implicit volumetric representation of the image content, which can then be spatially manipulated using volumetric flow fields. We address the challenging question of how to aggregate information across different body poses, learning flow fields that allow for combining content from the appropriate regions of input images of highly non-rigid human subjects performing complex motions into a single implicit volumetric representation. This allows us to learn our 3D representation solely from videos of moving people. Armed with both 3D object understanding and end-to-end learned rendering, this categorically novel representation delivers state-of-the-art image generation quality, as shown by our quantitative and qualitative evaluations.
翻訳日:2021-06-17 07:21:24 公開日:2021-06-14
# (参考訳) 音源と直感的知覚量への音楽感情予測の追跡

Tracing Back Music Emotion Predictions to Sound Sources and Intuitive Perceptual Qualities ( http://arxiv.org/abs/2106.07787v1 )

ライセンス: CC BY 4.0
Shreyan Chowdhury, Verena Praher, Gerhard Widmer(参考訳) 楽曲感情認識はmir(music information retrieval)研究において重要な課題である。 課題の主観的性質や音楽ジャンル間の感情的手がかりの変化などの要因から、信頼性と一般化可能なモデルを開発する上で、依然として大きな課題がある。 より良いモデルに向けた重要なステップの1つは、モデルが実際にデータから学んでいるもの、そして特定の入力の予測方法を理解することである。 これまでの研究では,高レベルの感情予測に接続するスペクトル画像セグメントを用いて,容易に解釈可能な知覚的特徴の層を通じてモデル予測の説明を導出する方法を示した。 しかし、このスキームはスペクトログラムレベルで直感的な音楽理解性に欠ける。 本研究では,音源分離に基づく説明器であるaudiolimeと,中間レベルの知覚的特徴を融合することにより,入力音声と出力感情予測との直感的な接続連鎖を形成することにより,このギャップを埋める。 偏りのある感情予測モデルをデバッグするために,本手法の有効性を示す。

Music emotion recognition is an important task in MIR (Music Information Retrieval) research. Owing to factors like the subjective nature of the task and the variation of emotional cues between musical genres, there are still significant challenges in developing reliable and generalizable models. One important step towards better models would be to understand what a model is actually learning from the data and how the prediction for a particular input is made. In previous work, we have shown how to derive explanations of model predictions in terms of spectrogram image segments that connect to the high-level emotion prediction via a layer of easily interpretable perceptual features. However, that scheme lacks intuitive musical comprehensibility at the spectrogram level. In the present work, we bridge this gap by merging audioLIME -- a source-separation based explainer -- with mid-level perceptual features, thus forming an intuitive connection chain between the input audio and the output emotion predictions. We demonstrate the usefulness of this method by applying it to debug a biased emotion prediction model.
翻訳日:2021-06-17 07:05:26 公開日:2021-06-14
# (参考訳) 不完全な文字の区分けにおける韻律の活用の評価

Assessing the Use of Prosody in Constituency Parsing of Imperfect Transcripts ( http://arxiv.org/abs/2106.07794v1 )

ライセンス: CC BY 4.0
Trang Tran and Mari Ostendorf(参考訳) 本研究は,会話音声の自動認識書き起こしにおける構成構文解析について検討する。 ニューラルパーサは、韻律特徴を伴う文脈化された単語ベクトルを利用する文エンコーダに基づいており、構文解析を伴う韻律特徴抽出を共同学習する。 我々は不完全な転写文を解析する際の韻律の有用性を評価する。 自動音声認識(ASR)エラーの書き起こしは、N-best再ランクフレームワークにパーサを適用することで行う。 Switchboardでの実験では, 1-best ASR出力のパースに対して, 13-15%のオラクルN-bestゲインが得られ, 単語認識誤り率に大きな影響を与えている。 韻律は利得の大きな部分を提供し、分析の結果、機能語を回復することでより文法的な発話につながることが示唆された。

This work explores constituency parsing on automatically recognized transcripts of conversational speech. The neural parser is based on a sentence encoder that leverages word vectors contextualized with prosodic features, jointly learning prosodic feature extraction with parsing. We assess the utility of the prosody in parsing on imperfect transcripts, i.e. transcripts with automatic speech recognition (ASR) errors, by applying the parser in an N-best reranking framework. In experiments on Switchboard, we obtain 13-15% of the oracle N-best gain relative to parsing the 1-best ASR output, with insignificant impact on word recognition error rate. Prosody provides a significant part of the gain, and analyses suggest that it leads to more grammatical utterances via recovering function words.
翻訳日:2021-06-17 06:53:17 公開日:2021-06-14
# (参考訳) ルール表現によるニューラルネットワークの制御

Controlling Neural Networks with Rule Representations ( http://arxiv.org/abs/2106.07804v1 )

ライセンス: CC BY 4.0
Sungyong Seo, Sercan O. Arik, Jinsung Yoon, Xiang Zhang, Kihyuk Sohn, Tomas Pfister(参考訳) 本研究では,ルールを深層学習に統合する新たな学習手法を提案する。 制御可能なルール表現(deepctrl)を備えたディープニューラルネットワークは、ルールエンコーダをルールベースの目標と結合したモデルに組み込んで、意思決定のための共有表現を可能にする。 DeepCTRLはデータ型やモデルアーキテクチャに依存しない。 入力や出力で定義された任意の種類のルールに適用することができる。 DeepCTRLのキーとなる側面は、ルールの強度を調整するために再トレーニングを必要としないことだ。 物理、小売、ヘルスケアなど、ルールを取り入れることが重要である現実世界では、ディープラーニングのルールを教える上でDeepCTRLの有効性が示される。 DeepCTRLは、トレーニングされたモデルの信頼性と信頼性を改善し、ルール検証比率を大幅に高め、下流タスクでの精度向上を提供する。 さらに、DeepCTRLは、データサンプル上のルールの仮説テストや、データセット間の共有ルールに基づいた教師なし適応といった、新しいユースケースを可能にする。

We propose a novel training method to integrate rules into deep learning, in a way their strengths are controllable at inference. Deep Neural Networks with Controllable Rule Representations (DeepCTRL) incorporates a rule encoder into the model coupled with a rule-based objective, enabling a shared representation for decision making. DeepCTRL is agnostic to data type and model architecture. It can be applied to any kind of rule defined for inputs and outputs. The key aspect of DeepCTRL is that it does not require retraining to adapt the rule strength -- at inference, the user can adjust it based on the desired operation point on accuracy vs. rule verification ratio. In real-world domains where incorporating rules is critical -- such as Physics, Retail and Healthcare -- we show the effectiveness of DeepCTRL in teaching rules for deep learning. DeepCTRL improves the trust and reliability of the trained models by significantly increasing their rule verification ratio, while also providing accuracy gains at downstream tasks. Additionally, DeepCTRL enables novel use cases such as hypothesis testing of the rules on data samples, and unsupervised adaptation based on shared rules between datasets.
翻訳日:2021-06-17 06:42:08 公開日:2021-06-14
# (参考訳) Highdicom: 画像アノテーションの標準化と病理学および放射線学における機械学習モデル出力のためのPythonライブラリ

Highdicom: A Python library for standardized encoding of image annotations and machine learning model outputs in pathology and radiology ( http://arxiv.org/abs/2106.07806v1 )

ライセンス: CC BY-SA 4.0
Christopher P. Bridge, Chris Gorman, Steven Pieper, Sean W. Doyle, Jochen K. Lennerz, Jayashree Kalpathy-Cramer, David A. Clunie, Andriy Y. Fedorov, Markus D. Herrmann(参考訳) 機械学習は、病理学と放射線医学における画像ベースの診断に革命をもたらす。 MLモデルは研究環境で有望な結果を示しているが、相互運用性の欠如は臨床統合と評価の大きな障壁となっている。 DICOMの標準は、画像由来のアノテーションや分析結果を含むデジタル画像および関連情報の表現と通信のための情報オブジェクト定義とサービスを指定する。 しかし、標準の複雑さはMLコミュニティにおける採用の障害であり、DICOMフォーマットでのデータセットの操作を簡単にするソフトウェアライブラリやツールの必要性を生み出している。 ここでは、ハイダイコムライブラリを紹介し、Pythonプログラミング言語の高レベルアプリケーションプログラミングインタフェースを提供し、標準の低レベルの詳細を抽象化し、数行のPythonコードでDICOMフォーマットで画像由来情報のエンコーディングと復号を可能にする。 Highdicomライブラリは、画像処理と機械学習のための広範なPythonエコシステムと結びついている。 同時に、DICOM準拠のファイルの作成と解析を単純化することで、HighdicomはMLモデルのトレーニングと実行に使用されるデータを保持する医療イメージングシステムとの相互運用性を実現し、最終的に臨床使用のためにモデル出力を通信し保存する。 これらの2つの生態系をブリッジすることで、ハイディコムは、DICOM標準に準拠し、あらゆる段階において臨床システムと相互運用しながら、病理学および放射線学における最先端MLモデルのトレーニングと評価を可能にする。 ML研究の標準化を促進し,MLモデルの開発と展開プロセスの合理化を図るため,ライブラリを無償かつオープンソースにしました。

Machine learning is revolutionizing image-based diagnostics in pathology and radiology. ML models have shown promising results in research settings, but their lack of interoperability has been a major barrier for clinical integration and evaluation. The DICOM a standard specifies Information Object Definitions and Services for the representation and communication of digital images and related information, including image-derived annotations and analysis results. However, the complexity of the standard represents an obstacle for its adoption in the ML community and creates a need for software libraries and tools that simplify working with data sets in DICOM format. Here we present the highdicom library, which provides a high-level application programming interface for the Python programming language that abstracts low-level details of the standard and enables encoding and decoding of image-derived information in DICOM format in a few lines of Python code. The highdicom library ties into the extensive Python ecosystem for image processing and machine learning. Simultaneously, by simplifying creation and parsing of DICOM-compliant files, highdicom achieves interoperability with the medical imaging systems that hold the data used to train and run ML models, and ultimately communicate and store model outputs for clinical use. We demonstrate through experiments with slide microscopy and computed tomography imaging, that, by bridging these two ecosystems, highdicom enables developers to train and evaluate state-of-the-art ML models in pathology and radiology while remaining compliant with the DICOM standard and interoperable with clinical systems at all stages. To promote standardization of ML research and streamline the ML model development and deployment process, we made the library available free and open-source.
翻訳日:2021-06-17 06:19:48 公開日:2021-06-14
# (参考訳) ラベルなしデータを用いたクロスドメインFew-Shot認識のための動的蒸留ネットワーク

Dynamic Distillation Network for Cross-Domain Few-Shot Recognition with Unlabeled Data ( http://arxiv.org/abs/2106.07807v1 )

ライセンス: CC BY 4.0
Ashraful Islam, Chun-Fu Chen, Rameswar Panda, Leonid Karlinsky, Rogerio Feris, Richard J. Radke(参考訳) 既存の作業の多くは、ターゲットデータセットと同じドメインの大規模なベースデータセット上で、ネットワークのメタ学習に依存しています。 我々は、ベースドメインとターゲットドメインの間に大きなシフトがあるクロスドメイン・少数ショット学習の問題に取り組む。 ラベルなしのターゲットデータによるクロスドメインの少数ショット認識の問題は、文献にはほとんど見当たらない。 STARTUPは自己学習を用いてこの問題に対処する最初の方法である。 しかし、ラベル付きベースデータセットに事前訓練された固定教師を使用して、ラベルなしターゲットサンプルのソフトラベルを作成する。 ベースデータセットとラベルなしデータセットは異なるドメインのものであるため、固定された事前訓練されたモデルでベースデータセットのクラスドメインにターゲットイメージを投影することは、準最適かもしれない。 本稿では,新規/基礎データセットからのラベルなし画像の簡易な動的蒸留法を提案する。 本稿では,教師ネットワークからのラベルなし画像の弱いバージョンからの予測を計算し,生徒ネットワークからの強化された画像と一致させることで,一貫性の正規化を課す。 教師ネットワークのパラメータは、生徒ネットワークのパラメータの指数的移動平均として更新される。 提案するネットワークは,事前学習段階でターゲット固有のクラスで訓練されていない場合でも,ターゲットドメインに容易に適応できる表現を学習できることを示す。 提案手法は,BSCD-FSLベンチマークにおいて1ショットで4.4%,5ショット分類で3.6%,従来のドメイン内複数ショット学習における競合性能を示す。 私たちのコードは、https://github.com/asrafulashiq/dynamic-cdfslで利用可能です。

Most existing works in few-shot learning rely on meta-learning the network on a large base dataset which is typically from the same domain as the target dataset. We tackle the problem of cross-domain few-shot learning where there is a large shift between the base and target domain. The problem of cross-domain few-shot recognition with unlabeled target data is largely unaddressed in the literature. STARTUP was the first method that tackles this problem using self-training. However, it uses a fixed teacher pretrained on a labeled base dataset to create soft labels for the unlabeled target samples. As the base dataset and unlabeled dataset are from different domains, projecting the target images in the class-domain of the base dataset with a fixed pretrained model might be sub-optimal. We propose a simple dynamic distillation-based approach to facilitate unlabeled images from the novel/base dataset. We impose consistency regularization by calculating predictions from the weakly-augmented versions of the unlabeled images from a teacher network and matching it with the strongly augmented versions of the same images from a student network. The parameters of the teacher network are updated as exponential moving average of the parameters of the student network. We show that the proposed network learns representation that can be easily adapted to the target domain even though it has not been trained with target-specific classes during the pretraining phase. Our model outperforms the current state-of-the art method by 4.4% for 1-shot and 3.6% for 5-shot classification in the BSCD-FSL benchmark, and also shows competitive performance on traditional in-domain few-shot learning task. Our code will be available at: https://github.com/asrafulashiq/dynamic-cdfsl.
翻訳日:2021-06-17 06:18:15 公開日:2021-06-14
# CathAI: ニューラルネットワークを用いた冠動脈造影の完全自動解釈

CathAI: Fully Automated Interpretation of Coronary Angiograms Using Neural Networks ( http://arxiv.org/abs/2106.07708v1 )

ライセンス: Link先を確認
Robert Avram, Jeffrey E. Olgin, Alvin Wan, Zeeshan Ahmed, Louis Verreault-Julien, Sean Abreau, Derek Wan, Joseph E. Gonzalez, Derek Y. So, Krishan Soni, Geoffrey H. Tison(参考訳) 冠動脈疾患 (CHD) は、アメリカ合衆国および世界中の成人死亡の主な原因であり、冠動脈造影が診断および臨床管理決定の主要な入り口である。 冠状血管造影の診断基準は, 医師による補助的視覚評価に依存する。 しかし, 血管造影は再現性に乏しく, 高度に変動し, バイアスが生じる。 ここでは,深部神経回路アルゴリズムを用いて冠動脈狭窄を推定する完全自動血管造影の解釈が可能であることを初めて示す。 私たちが開発したアルゴリズムパイプライン、すなわちCathAIは、選択されていない現実世界のアンジオグラムの自動解釈を実現するために必要な一連のタスクで、最先端のパフォーマンスを達成します。 CathAI (Algorithms 1-2) は, 正の予測値, 感度, F1スコアが90%であり, 投射角度全体, 左冠動脈造影, 右冠動脈造影で93%であった。 閉塞性冠動脈狭窄 (>=70% 狭窄) を予測するため, CathAI (Algorithm 4) は 0.862 (95% CI: 0.843-0.880) の受信部動作特性曲線 (AUC) の領域を示した。 他国の医療システムでは,cati aucは0.869 (95% ci: 0.830-0.907) で閉塞性冠動脈狭窄を予測した。 その結果,複数のニューラルネットワークが連続して機能し,実世界のアンギオグラムの自動解析に必要な複雑なタスクを実現できることがわかった。 カタイの配備は冠動脈狭窄評価の標準化と再現性を高めるのに役立ち、アルゴリズムによる血管造影検査の今後の課題を達成するための強固な基盤を提供する。

Coronary heart disease (CHD) is the leading cause of adult death in the United States and worldwide, and for which the coronary angiography procedure is the primary gateway for diagnosis and clinical management decisions. The standard-of-care for interpretation of coronary angiograms depends upon ad-hoc visual assessment by the physician operator. However, ad-hoc visual interpretation of angiograms is poorly reproducible, highly variable and bias prone. Here we show for the first time that fully-automated angiogram interpretation to estimate coronary artery stenosis is possible using a sequence of deep neural network algorithms. The algorithmic pipeline we developed--called CathAI--achieves state-of-the art performance across the sequence of tasks required to accomplish automated interpretation of unselected, real-world angiograms. CathAI (Algorithms 1-2) demonstrated positive predictive value, sensitivity and F1 score of >=90% to identify the projection angle overall and >=93% for left or right coronary artery angiogram detection, the primary anatomic structures of interest. To predict obstructive coronary artery stenosis (>=70% stenosis), CathAI (Algorithm 4) exhibited an area under the receiver operating characteristic curve (AUC) of 0.862 (95% CI: 0.843-0.880). When externally validated in a healthcare system in another country, CathAI AUC was 0.869 (95% CI: 0.830-0.907) to predict obstructive coronary artery stenosis. Our results demonstrate that multiple purpose-built neural networks can function in sequence to accomplish the complex series of tasks required for automated analysis of real-world angiograms. Deployment of CathAI may serve to increase standardization and reproducibility in coronary stenosis assessment, while providing a robust foundation to accomplish future tasks for algorithmic angiographic interpretation.
翻訳日:2021-06-16 15:36:19 公開日:2021-06-14
# 効率的な(ソフト)Q-Learningによるテキスト生成

Text Generation with Efficient (Soft) Q-Learning ( http://arxiv.org/abs/2106.07704v1 )

ライセンス: Link先を確認
Han Guo, Bowen Tan, Zhengzhong Liu, Eric P. Xing, Zhiting Hu(参考訳) 最大確率推定(MLE)はテキスト生成モデルをトレーニングするための主要なアルゴリズムである。 このパラダイムは直接監督の例に依存しており、敵攻撃や言語モデルを制御するプロンプトの生成など、多くのアプリケーションに適用できない。 一方、強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。 しかし、従来のテキスト生成用RLアルゴリズム(例えば、ポリシー勾配(オンラインRL)やQラーニング(オフラインRL)は、多くの場合、大きなシーケンス空間とスパース報酬がシーケンスの最後にのみ受信されるため、トレーニングに非効率または不安定である。 本稿では,ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を提案する。 さらに、パス一貫性学習のような最新のRLの進歩から、オン・オフ・ポリシーの更新を最大限に組み合わせ、スパース報酬から効果的に学習することができる。 我々は、このアプローチを幅広いタスクに適用し、ノイズ/ネガティブな例からの学習、敵の攻撃、プロンプト生成などに適用する。 実験では、タスク特化アルゴリズムと従来のrlメソッドを一貫して上回っていることを示す。 MLEが普及する標準的な教師付きタスクでは,テキスト生成をゼロからトレーニングすることで,競争性能と安定性を実現する。

Maximum likelihood estimation (MLE) is the predominant algorithm for training text generation models. This paradigm relies on direct supervision examples, which is not applicable to many applications, such as generating adversarial attacks or generating prompts to control language models. Reinforcement learning (RL) on the other hand offers a more flexible solution by allowing users to plug in arbitrary task metrics as reward. Yet previous RL algorithms for text generation, such as policy gradient (on-policy RL) and Q-learning (off-policy RL), are often notoriously inefficient or unstable to train due to the large sequence space and the sparse reward received only at the end of sequences. In this paper, we introduce a new RL formulation for text generation from the soft Q-learning perspective. It further enables us to draw from the latest RL advances, such as path consistency learning, to combine the best of on-/off-policy updates, and learn effectively from sparse reward. We apply the approach to a wide range of tasks, including learning from noisy/negative examples, adversarial attacks, and prompt generation. Experiments show our approach consistently outperforms both task-specialized algorithms and the previous RL methods. On standard supervised tasks where MLE prevails, our approach also achieves competitive performance and stability by training text generation from scratch.
翻訳日:2021-06-16 15:33:20 公開日:2021-06-14
# 機械学習の非現実的説明 - 課題の再考

Counterfactual Explanations for Machine Learning: Challenges Revisited ( http://arxiv.org/abs/2106.07756v1 )

ライセンス: Link先を確認
Sahil Verma, John Dickerson, Keegan Hines(参考訳) 対実的説明(CFE)は、機械学習(ML)モデルの解釈可能性の傘の下に生まれたテクニックである。 入力データポイントが$x$ではなく$x’$であれば、MLモデルの出力は$y’$ではなく$y’$になる。 MLモデルの非現実的な説明可能性はまだ業界で広く採用されていない。 この短い論文では、この普及の鈍化の理由を示唆する。 CFEの望ましい特性と、モデル監視スタートアップのMLウィングを運用した経験を概説した最近の成果を活用して、業界におけるCFEの展開を妨げる優れた障害を特定します。

Counterfactual explanations (CFEs) are an emerging technique under the umbrella of interpretability of machine learning (ML) models. They provide ``what if'' feedback of the form ``if an input datapoint were $x'$ instead of $x$, then an ML model's output would be $y'$ instead of $y$.'' Counterfactual explainability for ML models has yet to see widespread adoption in industry. In this short paper, we posit reasons for this slow uptake. Leveraging recent work outlining desirable properties of CFEs and our experience running the ML wing of a model monitoring startup, we identify outstanding obstacles hindering CFE deployment in industry.
翻訳日:2021-06-16 15:32:06 公開日:2021-06-14
# 説明可能なMLの落とし穴:産業的展望

Pitfalls of Explainable ML: An Industry Perspective ( http://arxiv.org/abs/2106.07758v1 )

ライセンス: Link先を確認
Sahil Verma, Aditya Lahiri, John P. Dickerson, Su-In Lee(参考訳) 機械学習(ML)システムは、人生に影響を及ぼす決定に貢献する上で、より顕著で中心的な役割を担います。 説明は、MLシステムのこれらの望ましい属性の中核に位置する。 新興分野はしばしば「説明可能ai(xai)」または「説明可能ml」と呼ばれる。 説明可能なMLの目標は、さまざまな利害関係者のニーズを守りながら、直感的にMLシステムの予測を説明することである。 アカデミックと産業の両方から貢献を得て、多くの説明技法が開発された。 しかし、十分な関心を集めていない既存の課題がいくつかあり、説明可能なMLを広く採用するための障害となっている。 本稿では,業界の観点から説明可能なMLの課題を列挙する。 これらの課題が将来有望な研究方向として役立ち、説明可能なMLの民主化に寄与することを期待しています。

As machine learning (ML) systems take a more prominent and central role in contributing to life-impacting decisions, ensuring their trustworthiness and accountability is of utmost importance. Explanations sit at the core of these desirable attributes of a ML system. The emerging field is frequently called ``Explainable AI (XAI)'' or ``Explainable ML.'' The goal of explainable ML is to intuitively explain the predictions of a ML system, while adhering to the needs to various stakeholders. Many explanation techniques were developed with contributions from both academia and industry. However, there are several existing challenges that have not garnered enough interest and serve as roadblocks to widespread adoption of explainable ML. In this short paper, we enumerate challenges in explainable ML from an industry perspective. We hope these challenges will serve as promising future research directions, and would contribute to democratizing explainable ML.
翻訳日:2021-06-16 15:31:56 公開日:2021-06-14
# ReTRIEVE: 効率的かつロバストな半教師付き学習のためのコアセット選択

RETRIEVE: Coreset Selection for Efficient and Robust Semi-Supervised Learning ( http://arxiv.org/abs/2106.07760v1 )

ライセンス: Link先を確認
Krishnateja Killamsetty, Xujiang Zhao, Feng Chen, Rishabh Iyer(参考訳) 半教師付き学習(SSL)アルゴリズムは,近年,ラベル付きデータシステムにおいて大きな成功を収めている。 しかし、現在の最先端のSSLアルゴリズムは計算コストが高く、計算時間とエネルギー要求がかなり必要である。 これは、多くの小規模企業や学術グループにとって大きな制限となる可能性がある。 主な洞察は、ラベルなしデータ全体の代わりにラベルなしデータのサブセットをトレーニングすることで、現在のSSLアルゴリズムがより高速に収束し、計算コストを大幅に削減できるということです。 本研究では,効率的な半教師付き学習のためのコアセット選択フレームワークであるRETRIEVEを提案する。 RETRIEVEは、選択されたコアセットがラベル付きセットの損失を最小限に抑えるように、混合離散連続二段階最適化問題を解くことでコアセットを選択する。 一段階勾配近似を用い、離散最適化問題はほぼ部分モジュラーであることを示し、単純なグリードアルゴリズムでコアセットを得る。 我々は、vat, mean-teacher, fixmatch, when used with retrieve, achieve a) fast training time, b) unlabeled dataがout-of-distribution(ood)データと不均衡からなる場合のより良いパフォーマンスを実世界で実証する。 より具体的には、ReTRIEVEは精度の低下を最小限に抑えつつ、従来のSSL設定の約3倍の高速化を実現し、不均衡やOODデータの場合の最先端(SOTA)ロバストSSLアルゴリズムと比較して5倍の高速化を実現する。

Semi-supervised learning (SSL) algorithms have had great success in recent years in limited labeled data regimes. However, the current state-of-the-art SSL algorithms are computationally expensive and entail significant compute time and energy requirements. This can prove to be a huge limitation for many smaller companies and academic groups. Our main insight is that training on a subset of unlabeled data instead of entire unlabeled data enables the current SSL algorithms to converge faster, thereby reducing the computational costs significantly. In this work, we propose RETRIEVE, a coreset selection framework for efficient and robust semi-supervised learning. RETRIEVE selects the coreset by solving a mixed discrete-continuous bi-level optimization problem such that the selected coreset minimizes the labeled set loss. We use a one-step gradient approximation and show that the discrete optimization problem is approximately submodular, thereby enabling simple greedy algorithms to obtain the coreset. We empirically demonstrate on several real-world datasets that existing SSL algorithms like VAT, Mean-Teacher, FixMatch, when used with RETRIEVE, achieve a) faster training times, b) better performance when unlabeled data consists of Out-of-Distribution(OOD) data and imbalance. More specifically, we show that with minimal accuracy degradation, RETRIEVE achieves a speedup of around 3X in the traditional SSL setting and achieves a speedup of 5X compared to state-of-the-art (SOTA) robust SSL algorithms in the case of imbalance and OOD data.
翻訳日:2021-06-16 15:31:44 公開日:2021-06-14
# ニューラル表現の比較のための再検討

Revisiting Model Stitching to Compare Neural Representations ( http://arxiv.org/abs/2106.07682v1 )

ライセンス: Link先を確認
Yamini Bansal, Preetum Nakkiran, Boaz Barak(参考訳) 我々は、ニューラルネットワークの内部表現を研究する方法論として、モデル縫合(Lenc & Vedaldi 2015)を再検討し、拡張する。 トレーニング済みの2つのモデル$a$と$b$が与えられた場合、私たちは、$a$のボトム層と$b$のトップ層を、単純なトレーニング可能なレイヤで接続することによって形成される"スティッチモデル"を考えます。 我々は、モデル縫合は強力で、おそらく未承認のツールであり、中心核アライメント(CKA)のような測度では不可能な表現の側面を明らかにする。 広範な実験を通じて,「良質なネットワークは類似した表現を学習する」というような直感的な言明に対して,モデルステッチリングを用いて定量的な検証を行い,同じアーキテクチャの優れたネットワークが,まったく異なる方法で訓練されていることを示す。 : 指導的対自己指導的学習) は, 成績が低下することなく互いに縫合することができる。 また,(1)より多くのデータ,(2)より大きな幅,(3)より多くのトレーニング時間が,より弱いモデルに"プラグインイン"され,パフォーマンスが向上することを示すことで,直観的に「より良くなる」という証拠を与える。 最後に,本実験では,sgdが到達する典型的なミニマムは,それぞれを最小限の精度で縫い合わせることができるため,モード接続性に類似した「スティッチング接続」と呼ばれるsgdの新たな構造特性を明らかにする。

We revisit and extend model stitching (Lenc & Vedaldi 2015) as a methodology to study the internal representations of neural networks. Given two trained and frozen models $A$ and $B$, we consider a "stitched model'' formed by connecting the bottom-layers of $A$ to the top-layers of $B$, with a simple trainable layer between them. We argue that model stitching is a powerful and perhaps under-appreciated tool, which reveals aspects of representations that measures such as centered kernel alignment (CKA) cannot. Through extensive experiments, we use model stitching to obtain quantitative verifications for intuitive statements such as "good networks learn similar representations'', by demonstrating that good networks of the same architecture, but trained in very different ways (e.g.: supervised vs. self-supervised learning), can be stitched to each other without drop in performance. We also give evidence for the intuition that "more is better'' by showing that representations learnt with (1) more data, (2) bigger width, or (3) more training time can be "plugged in'' to weaker models to improve performance. Finally, our experiments reveal a new structural property of SGD which we call "stitching connectivity'', akin to mode-connectivity: typical minima reached by SGD can all be stitched to each other with minimal change in accuracy.
翻訳日:2021-06-16 15:29:40 公開日:2021-06-14
# ヘテロフィリインスパイアされた設計によるグラフニューラルネットワークのロバスト性向上

Improving Robustness of Graph Neural Networks with Heterophily-Inspired Designs ( http://arxiv.org/abs/2106.07767v1 )

ライセンス: Link先を確認
Jiong Zhu, Junchen Jin, Michael T. Schaub, Danai Koutra(参考訳) 近年の研究では、多くのグラフニューラルネットワーク(GNN)が敵の攻撃に敏感であり、グラフ構造が意図的に乱れた場合、性能損失を被る可能性があることが明らかになっている。 別の研究の行では、多くのgnnアーキテクチャが、下位のグラフが相同性(homophily)を示すと暗黙的に仮定していることが示されている。 本研究では, 一見異なる2つの課題の関係を定式化する。 理論的には、ノードの特徴が相同性を示す標準的なシナリオでは、影響のある構造的攻撃は常にヘテロフィリーのレベルを増加させる。 そして、ヘテロフィリーをターゲットとするGNNアーキテクチャにインスパイアされた、2つの設計 -- (i) 隣人埋め込みのための別々のアグリゲータ、(ii) 集約の範囲を縮小することで、GNNの堅牢性を大幅に向上させることができる。 これらの2つの設計を特徴とするGNNは、目標攻撃時の平均性能が24.99%向上し、既存の防御機構よりも計算オーバーヘッドが小さい、最も優れた非ワクチンモデルと比較して、ロバスト性を大幅に向上できることを示す。 さらに、これらの設計は明示的な防御機構と組み合わされ、最も優れた予防接種モデルと比較して18.33%の性能向上を達成できる。

Recent studies have exposed that many graph neural networks (GNNs) are sensitive to adversarial attacks, and can suffer from performance loss if the graph structure is intentionally perturbed. A different line of research has shown that many GNN architectures implicitly assume that the underlying graph displays homophily, i.e., connected nodes are more likely to have similar features and class labels, and perform poorly if this assumption is not fulfilled. In this work, we formalize the relation between these two seemingly different issues. We theoretically show that in the standard scenario in which node features exhibit homophily, impactful structural attacks always lead to increased levels of heterophily. Then, inspired by GNN architectures that target heterophily, we present two designs -- (i) separate aggregators for ego- and neighbor-embeddings, and (ii) a reduced scope of aggregation -- that can significantly improve the robustness of GNNs. Our extensive empirical evaluations show that GNNs featuring merely these two designs can achieve significantly improved robustness compared to the best-performing unvaccinated model with 24.99% gain in average performance under targeted attacks, while having smaller computational overhead than existing defense mechanisms. Furthermore, these designs can be readily combined with explicit defense mechanisms to yield state-of-the-art robustness with up to 18.33% increase in performance under attacks compared to the best-performing vaccinated model.
翻訳日:2021-06-16 15:29:14 公開日:2021-06-14
# マスアート騒音の存在下でのブースティング

Boosting in the Presence of Massart Noise ( http://arxiv.org/abs/2106.07779v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Russell Impagliazzo, Daniel Kane, Rex Lei, Jessica Sorrell, Christos Tzamos(参考訳) 本研究では,マスアートノイズを伴う(分布非依存)pacモデルにおいて,弱い学習者の精度を高める問題について検討する。 massart ノイズモデルでは、各例のラベル $x$ は確率 $\eta(x) \leq \eta$ と独立に分類され、ここで $\eta<1/2$ である。 マスアートモデルは、ランダム分類ノイズモデルと不可知モデルの間にある。 我々の主な肯定的な結果は、Massartノイズの存在下で初めて計算効率のよいブースティングアルゴリズムであり、任意に$\eta$に近い誤分類誤差を実現する。 我々の研究の前には、この設定では非自明なブースターは知られていなかった。 さらに,この誤差上限は,標準暗号仮定の下で多項式時間ブラックボックスブースターに最適であることを示す。 我々の上界と下界はマッサートノイズを伴う分布非依存pacモデルにおけるブースティングの複雑さを特徴付ける。 正の結果の簡単な応用として、高次元矩形の和に対して、最初の効率的なマッサート学習者を与える。

We study the problem of boosting the accuracy of a weak learner in the (distribution-independent) PAC model with Massart noise. In the Massart noise model, the label of each example $x$ is independently misclassified with probability $\eta(x) \leq \eta$, where $\eta<1/2$. The Massart model lies between the random classification noise model and the agnostic model. Our main positive result is the first computationally efficient boosting algorithm in the presence of Massart noise that achieves misclassification error arbitrarily close to $\eta$. Prior to our work, no non-trivial booster was known in this setting. Moreover, we show that this error upper bound is best possible for polynomial-time black-box boosters, under standard cryptographic assumptions. Our upper and lower bounds characterize the complexity of boosting in the distribution-independent PAC model with Massart noise. As a simple application of our positive result, we give the first efficient Massart learner for unions of high-dimensional rectangles.
翻訳日:2021-06-16 15:28:47 公開日:2021-06-14
# 深層学習に基づく物体検出による空中画像中のジャガイモ作物ストレス同定

Potato Crop Stress Identification in Aerial Images using Deep Learning-based Object Detection ( http://arxiv.org/abs/2106.07770v1 )

ライセンス: Link先を確認
Sujata Butte, Aleksandar Vakanski, Kasia Duellman, Haotian Wang, Amin Mirkouei(参考訳) 精密農業におけるリモートセンシングと深層学習に基づく分析の適用に関する最近の研究は、作物管理の改善と農業生産の環境影響の低減の可能性を示した。 有望な結果にもかかわらず、実地展開におけるこれらの技術の実用的妥当性は、農業画像の解析用にカスタマイズされ、自然地画像の実装に堅牢な新しいアルゴリズムを必要とする。 本稿では, 深層ニューラルネットワークを用いたジャガイモの空中画像解析手法を提案する。 主な目的は、植物レベルでの健康作物とストレス作物の自動空間認識を実証することである。 具体的には,ニワトリバーバンクジャガイモの乾燥ストレスを生じさせる早熟な植物老化について検討する。 提案されているディープラーニングモデルはretina-unet-agと呼ばれ、retina-unet(jaeger et al., 2018)の変種であり、低レベルの意味的密表現マップから特徴ピラミッドネットワークへの接続を含んでいる。 また、Solo無人航空機が運んだParrot Sequoiaカメラで取得したフィールド画像のデータセットも紹介した。 実験により, フィールド画像中の植物とストレス植物を識別し, 平均Diceスコア係数0.74を達成できた。 対象検出のための最先端ディープラーニングモデルとの比較により,提案手法が課題に有効であることを明らかにした。 本手法は,実環境下で収集した自然空中画像におけるジャガイモ作物ストレス(この場合,干ばつストレスによる初期植物老化)の評価と認識をめざすものである。

Recent research on the application of remote sensing and deep learning-based analysis in precision agriculture demonstrated a potential for improved crop management and reduced environmental impacts of agricultural production. Despite the promising results, the practical relevance of these technologies for actual field deployment requires novel algorithms that are customized for analysis of agricultural images and robust to implementation on natural field imagery. The paper presents an approach for analyzing aerial images of a potato crop using deep neural networks. The main objective is to demonstrate automated spatial recognition of a healthy versus stressed crop at a plant level. Specifically, we examine premature plant senescence resulting in drought stress on Russet Burbank potato plants. The proposed deep learning model, named Retina-UNet-Ag, is a variant of Retina-UNet (Jaeger et al., 2018) and includes connections from low-level semantic dense representation maps to the feature pyramid network. The paper also introduces a dataset of field images acquired with a Parrot Sequoia camera carried by a Solo unmanned aerial vehicle. Experimental validation demonstrated the ability for distinguishing healthy and stressed plants in field images, achieving an average Dice score coefficient of 0.74. A comparison to related state-of-the-art deep learning models for object detection revealed that the presented approach is effective for the task at hand. The method applied here is conducive toward the assessment and recognition of potato crop stress (early plant senescence resulting from drought stress in this case) in natural aerial field images collected under real conditions.
翻訳日:2021-06-16 15:26:48 公開日:2021-06-14
# CoDERT:トランスデューサに基づく音声認識のためのコラーニングによる蒸留エンコーダ表現

CoDERT: Distilling Encoder Representations with Co-learning for Transducer-based Speech Recognition ( http://arxiv.org/abs/2106.07734v1 )

ライセンス: Link先を確認
Rupak Vignesh Swaminathan, Brian King, Grant P. Strimel, Jasha Droppo, Athanasios Mouchtaris(参考訳) 本稿では,RNN-Transducer (RNN-T) をよく知られた知識蒸留パラダイムによって圧縮する,シンプルで効果的な方法を提案する。 トランスデューサエンコーダの出力は自然に高いエントロピーを持ち、音響的に類似したワードピースの混乱に関する豊富な情報を含んでいる。 このリッチな情報は、低エントロピーデコーダ出力と組み合わせてジョイントネットワークロジットを生成すると抑制される。 そこで本研究では,教師トランスデューサのエンコーダのロートを蒸留する補助的損失を導入し,このエンコーダ蒸留が効果的に機能するトレーニング戦略を検討する。 インプレースエンコーダ蒸留による教師と生徒のタンデム訓練は,教師の事前訓練および静的トランスデューサの使用よりも優れていた。 また,教師と生徒のエンコーダが同じデコーダを共有した時に生じる,暗黙的蒸留と呼ばれる興味深い現象を報告する。 実験の結果, 社内テストセットでは5.37-8.4%, LibriSpeechテストセットでは5.05-6.18%であった。

We propose a simple yet effective method to compress an RNN-Transducer (RNN-T) through the well-known knowledge distillation paradigm. We show that the transducer's encoder outputs naturally have a high entropy and contain rich information about acoustically similar word-piece confusions. This rich information is suppressed when combined with the lower entropy decoder outputs to produce the joint network logits. Consequently, we introduce an auxiliary loss to distill the encoder logits from a teacher transducer's encoder, and explore training strategies where this encoder distillation works effectively. We find that tandem training of teacher and student encoders with an inplace encoder distillation outperforms the use of a pre-trained and static teacher transducer. We also report an interesting phenomenon we refer to as implicit distillation, that occurs when the teacher and student encoders share the same decoder. Our experiments show 5.37-8.4% relative word error rate reductions (WERR) on in-house test sets, and 5.05-6.18% relative WERRs on LibriSpeech test sets.
翻訳日:2021-06-16 15:23:44 公開日:2021-06-14
# 公平にアロケートする計画:レスレスバンド設定における確率的公正性

Planning to Fairly Allocate: Probabilistic Fairness in the Restless Bandit Setting ( http://arxiv.org/abs/2106.07677v1 )

ライセンス: Link先を確認
Christine Herlihy, Aviva Prins, Aravind Srinivasan, and John Dickerson(参考訳) restless と breakpsing bandits は、患者間の健康介入を割り当てる(whittle, 1988; mate et al., 2020)など、アクション依存の移行確率を伴うアームを特徴とする設定において、制約付きリソース割り当てをモデル化するために一般的に使用される。 しかしながら、この計画問題に対する最先端のホイットル・インデックスに基づくアプローチは、武器間の公平性を考慮しないか、フェアネスを保証せずにインセンティブを与えるかのどちらかである [mate et al., 2021]。 さらに、それらの最適性は、アームがインデックス可能かつしきい値最適である場合にのみ適用される。 本研究では,厳密な公平性制約の組み入れが,トラクタビリティを損なうアームの結合,および拡張によって問題の指数性を必要とすることを示す。 次に、確率論的に公正な定常政策であるProbFairを導入する。これは、予想される全報酬を最大化し、予算制約を満たすとともに、各段階において引き出される確率の厳密な低い境界を確保する。 閉塞性睡眠時無呼吸症候群(OSA)患者に対するCPAP(Continuous positive airway pressure)療法の介入と,より広範な合成遷移行列のシミュレーションを実世界の応用で評価した。

Restless and collapsing bandits are commonly used to model constrained resource allocation in settings featuring arms with action-dependent transition probabilities, such as allocating health interventions among patients [Whittle, 1988; Mate et al., 2020]. However, state-of-the-art Whittle-index-based approaches to this planning problem either do not consider fairness among arms, or incentivize fairness without guaranteeing it [Mate et al., 2021]. Additionally, their optimality guarantees only apply when arms are indexable and threshold-optimal. We demonstrate that the incorporation of hard fairness constraints necessitates the coupling of arms, which undermines the tractability, and by extension, indexability of the problem. We then introduce ProbFair, a probabilistically fair stationary policy that maximizes total expected reward and satisfies the budget constraint, while ensuring a strictly positive lower bound on the probability of being pulled at each timestep. We evaluate our algorithm on a real-world application, where interventions support continuous positive airway pressure (CPAP) therapy adherence among obstructive sleep apnea (OSA) patients, as well as simulations on a broader class of synthetic transition matrices.
翻訳日:2021-06-16 15:23:02 公開日:2021-06-14
# ディープしきい値ネットワークの記憶容量の指数関数的改善

An Exponential Improvement on the Memorization Capacity of Deep Threshold Networks ( http://arxiv.org/abs/2106.07724v1 )

ライセンス: Link先を確認
Shashank Rajput, Kartik Sreenivasan, Dimitris Papailiopoulos, Amin Karbasi(参考訳) 現代のディープニューラルネットワークは、ラベルがランダム化されてもデータセットを記憶できるほど強力なことはよく知られている。 最近、vershynin (2020) は baum (1988) による長い疑問を解決し、\emph{deep threshold} ネットワークは$\widetilde{\mathcal{o}}(e^{1/\delta^2}+\sqrt{n})$ニューロンと$\widetilde{\mathcal{o}}(e^{1/\delta^2}(d+\sqrt{n})+n)$(ここで $\delta$ は点間の最小距離である。 本研究では、指数関数からほぼ線型への$\delta$依存を改善し、$\widetilde{\mathcal{O}}(\frac{1}{\delta}+\sqrt{n})$ニューロンと$\widetilde{\mathcal{O}}(\frac{d}{\delta}+n)$ウェイトが十分であることを証明した。 我々の構成では最初の層でのみガウスのランダム重みを使い、それに続く全ての層はバイナリまたは整数重みを使います。 また,超平面を用いて球面上の点を分離する純粋幾何問題とニューラルネットワークの記憶化を結びつけることで,新たな下界を証明した。

It is well known that modern deep neural networks are powerful enough to memorize datasets even when the labels have been randomized. Recently, Vershynin (2020) settled a long standing question by Baum (1988), proving that \emph{deep threshold} networks can memorize $n$ points in $d$ dimensions using $\widetilde{\mathcal{O}}(e^{1/\delta^2}+\sqrt{n})$ neurons and $\widetilde{\mathcal{O}}(e^{1/\delta^2}(d+\sqrt{n})+n)$ weights, where $\delta$ is the minimum distance between the points. In this work, we improve the dependence on $\delta$ from exponential to almost linear, proving that $\widetilde{\mathcal{O}}(\frac{1}{\delta}+\sqrt{n})$ neurons and $\widetilde{\mathcal{O}}(\frac{d}{\delta}+n)$ weights are sufficient. Our construction uses Gaussian random weights only in the first layer, while all the subsequent layers use binary or integer weights. We also prove new lower bounds by connecting memorization in neural networks to the purely geometric problem of separating $n$ points on a sphere using hyperplanes.
翻訳日:2021-06-16 15:21:51 公開日:2021-06-14
# eurocrops:時系列作物分類のための汎ヨーロッパデータセット

EuroCrops: A Pan-European Dataset for Time Series Crop Type Classification ( http://arxiv.org/abs/2106.08151v1 )

ライセンス: Link先を確認
Maja Schneider, Amelie Broszeit, Marco K\"orner(参考訳) 本研究では,自己宣言型フィールドアノテーションに基づく作物型分類とマッピングの訓練と評価のためのデータセットであるEuroCropsと,その取得と調和のプロセスについて述べる。 これにより、地球観測とリモートセンシングによるデータ駆動型土地被覆分類の研究活動と議論の充実を図る。 さらに、欧州連合(eu)のすべての国から補助金管理の範囲に集まった自己宣言を含めることにより、このデータセットは、トランス国家レベルで運用する場合の困難さと落とし穴を浮き彫りにする。 そこで我々は,行政・機関データベースから得られた参照データのすべての側面を把握しようとする新たな分類体系HCAT-IDを導入する。 リモートセンシングとコンピュータビジョンと機械学習のコミュニティの両方からの研究者に対処するために、データセットを異なるフォーマットと処理レベルで公開します。

We present EuroCrops, a dataset based on self-declared field annotations for training and evaluating methods for crop type classification and mapping, together with its process of acquisition and harmonisation. By this, we aim to enrich the research efforts and discussion for data-driven land cover classification via Earth observation and remote sensing. Additionally, through inclusion of self-declarations gathered in the scope of subsidy control from all countries of the European Union (EU), this dataset highlights the difficulties and pitfalls one comes across when operating on a transnational level. We, therefore, also introduce a new taxonomy scheme, HCAT-ID, that aspires to capture all the aspects of reference data originating from administrative and agency databases. To address researchers from both the remote sensing and the computer vision and machine learning communities, we publish the dataset in different formats and processing levels.
翻訳日:2021-06-16 15:18:43 公開日:2021-06-14
# MedspaCyによる臨床領域への参入 : Pythonの新しい臨床テキスト処理ツールキット

Launching into clinical space with medspaCy: a new clinical text processing toolkit in Python ( http://arxiv.org/abs/2106.07799v1 )

ライセンス: Link先を確認
Hannah Eyre (1 and 2), Alec B Chapman (1 and 2), Kelly S Peterson (1 and 2), Jianlin Shi (2), Patrick R Alba (1 and 2), Makoto M Jones (1 and 2), Tamara L Box (3), Scott L DuVall (1 and 2), Olga V Patterson (1 and 2) ((1) VA Salt Lake City Health Care System, (2) University of Utah, Salt Lake City, UT, USA, (3) Veterans Health Administration Office of Analytics and Performance Integration)(参考訳) 臨床自然言語処理(cnlp)における機械学習アルゴリズムの成功にもかかわらず、ルールベースのアプローチは依然として顕著な役割を担っている。 本稿では,臨床テキストに適応したルールベースおよび機械学習ベースのアルゴリズムの柔軟な統合を可能にする,spurCyフレームワークに基づく拡張可能なオープンソースcNLPライブラリであるmedspaCyを紹介する。 MedspaCyには、コンテキスト分析や標準用語へのマッピングなど、一般的なcNLPのニーズを満たすさまざまなコンポーネントが含まれている。 spaCyの明確で使いやすい規約を利用することで、medspaCyは、他のpaCyベースのモジュールと簡単に統合できるカスタムパイプラインの開発を可能にする。 我々のツールキットはいくつかのコアコンポーネントを含み、臨床テキストのためのパイプラインの迅速な開発を容易にする。

Despite impressive success of machine learning algorithms in clinical natural language processing (cNLP), rule-based approaches still have a prominent role. In this paper, we introduce medspaCy, an extensible, open-source cNLP library based on spaCy framework that allows flexible integration of rule-based and machine learning-based algorithms adapted to clinical text. MedspaCy includes a variety of components that meet common cNLP needs such as context analysis and mapping to standard terminologies. By utilizing spaCy's clear and easy-to-use conventions, medspaCy enables development of custom pipelines that integrate easily with other spaCy-based modules. Our toolkit includes several core components and facilitates rapid development of pipelines for clinical text.
翻訳日:2021-06-16 15:17:49 公開日:2021-06-14
# DFM: 深い特徴マッチングのためのパフォーマンスベースライン

DFM: A Performance Baseline for Deep Feature Matching ( http://arxiv.org/abs/2106.07791v1 )

ライセンス: Link先を確認
Ufuk Efe, Kutalmis Gokalp Ince, A. Aydin Alatan(参考訳) 市販の深層ニューラルネットワークから抽出した学習特徴を利用して,期待できる性能を得る新しい画像マッチング手法を提案する。 提案手法では,事前学習したVGGアーキテクチャを特徴抽出器として使用し,マッチングを改善するために追加の訓練を必要としない。 メンタルローテーションパラダイムのような心理学領域の確立された概念に着想を得て、予備幾何学的変換推定の結果、最初の反りが行われる。 これらの推定は、一致する画像のVGGネットワーク出力の終端層における隣人の密集したマッチングに基づいている。 この最初のアライメントの後、参照画像とアライメント画像の間の同じアプローチを階層的に繰り返し、適切なローカライゼーションとマッチング性能に達する。 提案アルゴリズムは,Hpatchesデータセット上で,平均マッチング精度(MMA)の0.57と0.80のスコアをそれぞれ1ピクセル,2ピクセルの閾値で達成する。

A novel image matching method is proposed that utilizes learned features extracted by an off-the-shelf deep neural network to obtain a promising performance. The proposed method uses pre-trained VGG architecture as a feature extractor and does not require any additional training specific to improve matching. Inspired by well-established concepts in the psychology area, such as the Mental Rotation paradigm, an initial warping is performed as a result of a preliminary geometric transformation estimate. These estimates are simply based on dense matching of nearest neighbors at the terminal layer of VGG network outputs of the images to be matched. After this initial alignment, the same approach is repeated again between reference and aligned images in a hierarchical manner to reach a good localization and matching performance. Our algorithm achieves 0.57 and 0.80 overall scores in terms of Mean Matching Accuracy (MMA) for 1 pixel and 2 pixels thresholds respectively on Hpatches dataset, which indicates a better performance than the state-of-the-art.
翻訳日:2021-06-16 15:14:22 公開日:2021-06-14
# 3次元顔再構成のための弱改良フォトリアリスティックテクスチャ生成

Weakly-Supervised Photo-realistic Texture Generation for 3D Face Reconstruction ( http://arxiv.org/abs/2106.08148v1 )

ライセンス: Link先を確認
Xiangnan Yin, Di Huang, Zehua Fu, Yunhong Wang, Liming Chen(参考訳) 近年, 3次元顔の復元に多くの進歩が見られたが, これまでの研究のほとんどは, 正確な3次元形状の予測に費やされてきた。 対照的に、高忠実な顔のテクスチャを生み出すことに焦点を当てた作品はほとんどない。 フォトリアリスティックな2d顔画像生成の隆盛と比べ、高忠実な3d顔テクスチャ生成はまだ研究されていない。 本稿では,単一の顔画像からUVマップを予測する新しいUVマップ生成モデルを提案する。 モデルはUVサンプリング機とUVジェネレータで構成されている。 入力された顔画像のピクセルを選択的にサンプリングし、相対位置を調整することで、uvサンプラーは元の顔を忠実に再構築できる不完全なuvマップを生成する。 不完全なUVマップの欠落したテクスチャは、UVジェネレータによってさらにフルフィルされる。 トレーニングは、3DMMテクスチャと入力顔テクスチャでブレンドされた擬似地上真実に基づいており、弱教師付きである。 不完全な疑似uvマップのアーティファクトに対処するために、複数の部分的なuvマップ判別器が活用されている。

Although much progress has been made recently in 3D face reconstruction, most previous work has been devoted to predicting accurate and fine-grained 3D shapes. In contrast, relatively little work has focused on generating high-fidelity face textures. Compared with the prosperity of photo-realistic 2D face image generation, high-fidelity 3D face texture generation has yet to be studied. In this paper, we proposed a novel UV map generation model that predicts the UV map from a single face image. The model consists of a UV sampler and a UV generator. By selectively sampling the input face image's pixels and adjusting their relative locations, the UV sampler generates an incomplete UV map that could faithfully reconstruct the original face. Missing textures in the incomplete UV map are further full-filled by the UV generator. The training is based on pseudo ground truth blended by the 3DMM texture and the input face texture, thus weakly supervised. To deal with the artifacts in the imperfect pseudo UV map, multiple partial UV map discriminators are leveraged.
翻訳日:2021-06-16 15:10:39 公開日:2021-06-14
# カイゼン:半教師型音声認識における指数移動平均を用いた教師の継続的改善

Kaizen: Continuously improving teacher using Exponential Moving Average for semi-supervised speech recognition ( http://arxiv.org/abs/2106.07759v1 )

ライセンス: Link先を確認
Vimal Manohar, Tatiana Likhomanenko, Qiantong Xu, Wei-Ning Hsu, Ronan Collobert, Yatharth Saraf, Geoffrey Zweig, Abdelrahman Mohamed(参考訳) 本稿では,教師を継続的に改良し,擬似ラベルを生成するカイゼンフレームワークについて紹介する。 提案手法は,生徒モデルパラメータの指数移動平均として更新された教師モデルを用いている。 これは、半教師付きトレーニングのための反復的擬似ラベルアプローチの継続的バージョンと見なすことができる。 本稿では,フレームレベルハイブリッド型隠れマルコフモデル深層ニューラルネットワーク(hmm-dnn)モデルとシーケンスレベル接続主義時間分類(ctc)モデルについて述べる。 提案手法では,英国英語とイタリア語で大規模な非教師なし公開ビデオを用いた場合,標準的な教師・教師訓練よりも10%以上の単語誤り率 (wer) 削減と10時間以上監督ベースラインを50%以上削減した。

In this paper, we introduce the Kaizen framework that uses a continuously improving teacher to generate pseudo-labels for semi-supervised training. The proposed approach uses a teacher model which is updated as the exponential moving average of the student model parameters. This can be seen as a continuous version of the iterative pseudo-labeling approach for semi-supervised training. It is applicable for different training criteria, and in this paper we demonstrate it for frame-level hybrid hidden Markov model - deep neural network (HMM-DNN) models and sequence-level connectionist temporal classification (CTC) based models. The proposed approach shows more than 10% word error rate (WER) reduction over standard teacher-student training and more than 50\% relative WER reduction over 10 hour supervised baseline when using large scale realistic unsupervised public videos in UK English and Italian languages.
翻訳日:2021-06-16 15:09:39 公開日:2021-06-14
# 相転移、距離関数、暗黙的神経表現

Phase Transitions, Distance Functions, and Implicit Neural Representations ( http://arxiv.org/abs/2106.07689v1 )

ライセンス: Link先を確認
Yaron Lipman(参考訳) 表面をゼロレベルのニューラルネットワークとして表現することは、最近、Implicit Neural Representations (INRs)と呼ばれる強力なモデリングパラダイムとして登場し、幾何学的ディープラーニングと3Dビジョンにおける多くの下流のアプリケーションに役立っている。 トレーニングINRは以前、占有率と距離関数の表現の選択と、未知の制限行動と/またはバイアスで異なる損失を選択する必要があった。 本稿では,流体の相転移の理論から着想を得て,その対数変換が距離関数に収束する間,適切な占有関数に収束する密度関数を学ぶ訓練用インサーの損失を提案する。 さらに, この損失の限界最小化は, 再構成制約を満たし, 表面近傍が最小であり, 表面再構成に望ましいインダクティブバイアスであることを示す。 この新しい損失によるinrsのトレーニングは、標準ベンチマークで最先端の再構築につながる。

Representing surfaces as zero level sets of neural networks recently emerged as a powerful modeling paradigm, named Implicit Neural Representations (INRs), serving numerous downstream applications in geometric deep learning and 3D vision. Training INRs previously required choosing between occupancy and distance function representation and different losses with unknown limit behavior and/or bias. In this paper we draw inspiration from the theory of phase transitions of fluids and suggest a loss for training INRs that learns a density function that converges to a proper occupancy function, while its log transform converges to a distance function. Furthermore, we analyze the limit minimizer of this loss showing it satisfies the reconstruction constraints and has minimal surface perimeter, a desirable inductive bias for surface reconstruction. Training INRs with this new loss leads to state-of-the-art reconstructions on a standard benchmark.
翻訳日:2021-06-16 15:08:50 公開日:2021-06-14
# KLガイドドメイン適応

KL Guided Domain Adaptation ( http://arxiv.org/abs/2106.07780v1 )

ライセンス: Link先を確認
A. Tuan Nguyen, Toan Tran, Yarin Gal, Philip H. S. Torr, At{\i}l{\i}m G\"une\c{s} Baydin(参考訳) ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。 この問題では、i.i.d.の代わりに。 データポイントでは、ソース(トレーニング)データとターゲット(テスト)データが異なる分布を持つと仮定する。 この設定では、分布の変化を考慮しないため、経験的リスク最小化訓練手順がうまく機能しないことが多い。 ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメイン上の同じ分布を持つ入力の表現を学ぶことである。 しかし、これらのアプローチは、しばしば追加のネットワークと/または敵(ミニマックス)の目的を最適化する必要がある。 この問題に対処するために、まず、トレーニング損失と、ソースとターゲット表現分布との逆のKL(Kullback-Leibler)ばらつきに基づいて、目標損失に対する一般化を導出する。 この境界に基づいて、KL項を最小化して対象領域へのより良い一般化を得るアルゴリズムを導出する。 確率的表現ネットワークでは、KL項は、追加のネットワークやミニマックスの目的を持たないミニバッチサンプルによって効率的に推定できることを示す。 これにより、理論上は非常に効率的で安定なアライメント法が導かれる。 また,提案手法が他の表現適応手法よりも優れていることを示す。

Domain adaptation is an important problem and often needed for real-world applications. In this problem, instead of i.i.d. datapoints, we assume that the source (training) data and the target (testing) data have different distributions. With that setting, the empirical risk minimization training procedure often does not perform well, since it does not account for the change in the distribution. A common approach in the domain adaptation literature is to learn a representation of the input that has the same distributions over the source and the target domain. However, these approaches often require additional networks and/or optimizing an adversarial (minimax) objective, which can be very expensive or unstable in practice. To tackle this problem, we first derive a generalization bound for the target loss based on the training loss and the reverse Kullback-Leibler (KL) divergence between the source and the target representation distributions. Based on this bound, we derive an algorithm that minimizes the KL term to obtain a better generalization to the target domain. We show that with a probabilistic representation network, the KL term can be estimated efficiently via minibatch samples without any additional network or a minimax objective. This leads to a theoretically sound alignment method which is also very efficient and stable in practice. Experimental results also suggest that our method outperforms other representation-alignment approaches.
翻訳日:2021-06-16 15:08:35 公開日:2021-06-14
# 次世代貯留層計算

Next Generation Reservoir Computing ( http://arxiv.org/abs/2106.07688v1 )

ライセンス: Link先を確認
Daniel J. Gauthier, Erik Bollt, Aaron Griffith, Wendson A.S. Barbosa(参考訳) 貯留層計算(Reservoir computing)は、観測された時系列データを用いて動的システムによって生成された情報を処理する機械学習アルゴリズムである。 重要なのは、非常に小さなデータセットのトレーニング、線形最適化、従って計算リソースの最小化だ。 しかし、アルゴリズムはランダムにサンプリングされた行列を用いて、基礎となるリカレントニューラルネットワークを定義し、最適化されるべき多数のメタパラメータを持つ。 近年の結果は, 非線形ベクトル自己回帰に対する貯水池計算の等価性を示し, ランダム行列を必要とせず, メタパラメータも少なく, 解釈可能な結果が得られる。 本稿では,貯水池計算のベンチマークタスクにおいて非線形ベクトル自己回帰が優れており,より短いトレーニングデータセットとトレーニング時間が必要であることを実証する。

Reservoir computing is a best-in-class machine learning algorithm for processing information generated by dynamical systems using observed time-series data. Importantly, it requires very small training data sets, uses linear optimization, and thus requires minimal computing resources. However, the algorithm uses randomly sampled matrices to define the underlying recurrent neural network and has a multitude of metaparameters that must be optimized. Recent results demonstrate the equivalence of reservoir computing to nonlinear vector autoregression, which requires no random matrices, fewer metaparameters, and provides interpretable results. Here, we demonstrate that nonlinear vector autoregression excels at reservoir computing benchmark tasks and requires even shorter training data sets and training time, heralding the next generation of reservoir computing.
翻訳日:2021-06-16 15:00:31 公開日:2021-06-14
# HUMAP:階層的一様多様体近似と投影

HUMAP: Hierarchical Uniform Manifold Approximation and Projection ( http://arxiv.org/abs/2106.07718v1 )

ライセンス: Link先を確認
Wilson E. Marc\'ilio-Jr and Danilo M. Eler and Fernando V. Paulovich and Rafael M. Martins(参考訳) 次元減少(DR)技術は、高次元空間におけるパターンを理解するのに役立つ。 これらの手法は、しばしば散乱プロットによって表現され、様々な科学領域で採用され、クラスターとデータサンプル間の類似性分析を容易にする。 多くの粒度を含むデータセットや、分析が情報視覚化マントラに従う場合、階層的なdrテクニックは、前もって主要な構造と需要の詳細を示すので、最も適したアプローチである。 しかし、現在の階層型DR技術は、階層レベルのプロジェクションメンタルマップを保存せず、ほとんどのデータタイプに適さないため、文学的な問題に完全に対処することができない。 HUMAPは、局所的・グローバルな構造を保存し、階層的な探索を通してメンタルマップを保存できるように設計された、新しい階層的次元削減技術である。 本手法の優位性を示す実証的な証拠を,現在の階層的アプローチと比較し,その強みを示す2つのケーススタディを示す。

Dimensionality reduction (DR) techniques help analysts to understand patterns in high-dimensional spaces. These techniques, often represented by scatter plots, are employed in diverse science domains and facilitate similarity analysis among clusters and data samples. For datasets containing many granularities or when analysis follows the information visualization mantra, hierarchical DR techniques are the most suitable approach since they present major structures beforehand and details on demand. However, current hierarchical DR techniques are not fully capable of addressing literature problems because they do not preserve the projection mental map across hierarchical levels or are not suitable for most data types. This work presents HUMAP, a novel hierarchical dimensionality reduction technique designed to be flexible on preserving local and global structures and preserve the mental map throughout hierarchical exploration. We provide empirical evidence of our technique's superiority compared with current hierarchical approaches and show two case studies to demonstrate its strengths.
翻訳日:2021-06-16 15:00:18 公開日:2021-06-14
# in-distribution triggersを用いた深層強化学習エージェントの有毒化

Poisoning Deep Reinforcement Learning Agents with In-Distribution Triggers ( http://arxiv.org/abs/2106.07798v1 )

ライセンス: Link先を確認
Chace Ashcraft, Kiran Karra(参考訳) 本稿では,新たなデータ中毒攻撃を提案し,それを深層強化学習エージェントに適用する。 当社のアタックは、モデルがトレーニングし、デプロイされるデータディストリビューションに固有のトリガである、配信内トリガー(in-distribution triggers)と呼ばれるものに集中しています。 本稿では,これらを組み込むための簡単な手順を,マルチタスク学習パラダイムに従って深層強化学習エージェントにトリガーし,3つの共通強化学習環境で実演する。 この研究は、ディープラーニングモデルのセキュリティに重要な意味を持つと考えています。

In this paper, we propose a new data poisoning attack and apply it to deep reinforcement learning agents. Our attack centers on what we call in-distribution triggers, which are triggers native to the data distributions the model will be trained on and deployed in. We outline a simple procedure for embedding these, and other, triggers in deep reinforcement learning agents following a multi-task learning paradigm, and demonstrate in three common reinforcement learning environments. We believe that this work has important implications for the security of deep learning models.
翻訳日:2021-06-16 15:00:02 公開日:2021-06-14
# お金のない最適化フレンドリーなジェネリックメカニズム

Optimization-friendly generic mechanisms without money ( http://arxiv.org/abs/2106.07752v1 )

ライセンス: Link先を確認
Mark Braverman(参考訳) 本論文の目的は,現代的な最適化アルゴリズムを自己利己的なエージェントから入力されるメカニズムに変換する汎用フレームワークを開発することである。 私たちは、お金のないコンテキストで、n$プレーヤーの好みを集約することに集中しています。 この設定の特別なケースには、投票、抽選によるアイテムの割り当て、マッチングが含まれる。 私たちの重要な技術的貢献は、新しいメタアルゴリズムである \apex (Adaptive Pricing Equalizing Foreignities) です。 このフレームワークは、ローカル検索に基づくあらゆる最適化アルゴリズムと組み合わせるのに十分一般的である。 本稿では,アルゴリズムの特性とその応用について概説する。 この枠組みを宝くじを用いた一方的な割当問題に適用する特別の事例として、1979年のヒルランドとツェックハウザーによる均等所得からの競争均衡(CEEI)による割当結果の強化が得られる。 hz79]の結果は、(矛盾した)割り当てと、その割り当てが与えられた価格の競争均衡であるような一連のアイテム価格が存在することが示される。 さらに,需要単価vcgを高利得ユーティリティで実行するとhz平衡価格となるような,プレーヤのユーティリティ値が常に緩和されることを示す。 興味深いことに、HZの競争均衡はすべてVCG価格によるものではない。 証明の一部として、ブローワーの不動点定理のみを用いて [HZ79] の結果を再証明する(より一般的な角谷の定理ではない)。 これは独立した関心事かもしれない。

The goal of this paper is to develop a generic framework for converting modern optimization algorithms into mechanisms where inputs come from self-interested agents. We focus on aggregating preferences from $n$ players in a context without money. Special cases of this setting include voting, allocation of items by lottery, and matching. Our key technical contribution is a new meta-algorithm we call \apex (Adaptive Pricing Equalizing Externalities). The framework is sufficiently general to be combined with any optimization algorithm that is based on local search. We outline an agenda for studying the algorithm's properties and its applications. As a special case of applying the framework to the problem of one-sided assignment with lotteries, we obtain a strengthening of the 1979 result by Hylland and Zeckhauser on allocation via a competitive equilibrium from equal incomes (CEEI). The [HZ79] result posits that there is a (fractional) allocation and a set of item prices such that the allocation is a competitive equilibrium given prices. We further show that there is always a reweighing of the players' utility values such that running unit-demand VCG with reweighed utilities leads to a HZ-equilibrium prices. Interestingly, not all HZ competitive equilibria come from VCG prices. As part of our proof, we re-prove the [HZ79] result using only Brouwer's fixed point theorem (and not the more general Kakutani's theorem). This may be of independent interest.
翻訳日:2021-06-16 14:56:23 公開日:2021-06-14
# SynthASR:音声認識のための合成データのロック解除

SynthASR: Unlocking Synthetic Data for Speech Recognition ( http://arxiv.org/abs/2106.07803v1 )

ライセンス: Link先を確認
Amin Fazel, Wei Yang, Yulan Liu, Roberto Barra-Chicote, Yixiong Meng, Roland Maas, Jasha Droppo(参考訳) エンドツーエンド(E2E)自動音声認識(ASR)モデルは,近年,従来のハイブリッドASRモデルよりも優れた性能を示している。 E2E ASRモデルのトレーニングには大量のデータが必要である。 同時に、最先端のテキスト音声(TTS)エンジンによって生成された合成音声は、ほぼ人間に近い自然に進化した。 そこで本研究では,ASRモデルトレーニングのためのデータ不足や取得が困難なアプリケーションにおいて,合成音声を用いたASRトレーニング(SynthASR)を提案する。 さらに,重み付きマルチスタイルのトレーニング,データ拡張,エンコーダの凍結,パラメータの規則化を組み合わせることで得られる,破滅的な忘れ方に対処するために,連続学習を新しい多段階学習戦略に適用する。 医薬名認識のための新しい応用のための社内データセットを用いて, 提案した多段階学習により, ASR RNN-Tモデルを合成音声で訓練することにより, 既存の一般応用を劣化させることなく, 新規アプリケーションの認識性能を65%以上向上した。 我々の観察では、SynthASRは、新しいアプリケーションのための最先端の大規模E2E ASRモデルのトレーニングにおいて、コストと生産データへの依存性を低減しつつ、大きな可能性を秘めている。

End-to-end (E2E) automatic speech recognition (ASR) models have recently demonstrated superior performance over the traditional hybrid ASR models. Training an E2E ASR model requires a large amount of data which is not only expensive but may also raise dependency on production data. At the same time, synthetic speech generated by the state-of-the-art text-to-speech (TTS) engines has advanced to near-human naturalness. In this work, we propose to utilize synthetic speech for ASR training (SynthASR) in applications where data is sparse or hard to get for ASR model training. In addition, we apply continual learning with a novel multi-stage training strategy to address catastrophic forgetting, achieved by a mix of weighted multi-style training, data augmentation, encoder freezing, and parameter regularization. In our experiments conducted on in-house datasets for a new application of recognizing medication names, training ASR RNN-T models with synthetic audio via the proposed multi-stage training improved the recognition performance on new application by more than 65% relative, without degradation on existing general applications. Our observations show that SynthASR holds great promise in training the state-of-the-art large-scale E2E ASR models for new applications while reducing the costs and dependency on production data.
翻訳日:2021-06-16 14:56:00 公開日:2021-06-14
# 低階行列の特異なスパース分解

Unique sparse decomposition of low rank matrices ( http://arxiv.org/abs/2106.07736v1 )

ライセンス: Link先を確認
Dian Jin, Xin Bing and Yuqian Zhang(参考訳) 与えられた行列の特異な低次元分解を見つける問題は、多くの領域において基礎的かつ再帰的な問題であった。 本稿では、疎表現を許容する低階行列 $Y\in \mathbb{R}^{p\times n}$ のユニークな分解を求める問題を考察する。 具体的には、$Y = A X\in \mathbb{R}^{p\times n}$ ここで、行列 $A\in \mathbb{R}^{p\times r}$ は $r < \min\{n,p\}$ の完全列ランクを持ち、行列 $X\in \mathbb{R}^{r\times n}$ は要素的にスパースである。 我々は、この$Y$のスパース分解が固有の符号付き置換まで一意に識別できることを証明した。 提案手法は,単位球面上の非凸最適化問題の解法に依存する。 非凸最適化ランドスケープの幾何学的解析は、任意の厳密な局所解が基底真理解に近づき、単純なデータ駆動初期化とそれに続く二階降下アルゴリズムによって復元可能であることを示している。 最終的に、これらの理論結果を数値実験で裏付ける。

The problem of finding the unique low dimensional decomposition of a given matrix has been a fundamental and recurrent problem in many areas. In this paper, we study the problem of seeking a unique decomposition of a low rank matrix $Y\in \mathbb{R}^{p\times n}$ that admits a sparse representation. Specifically, we consider $Y = A X\in \mathbb{R}^{p\times n}$ where the matrix $A\in \mathbb{R}^{p\times r}$ has full column rank, with $r < \min\{n,p\}$, and the matrix $X\in \mathbb{R}^{r\times n}$ is element-wise sparse. We prove that this sparse decomposition of $Y$ can be uniquely identified, up to some intrinsic signed permutation. Our approach relies on solving a nonconvex optimization problem constrained over the unit sphere. Our geometric analysis for the nonconvex optimization landscape shows that any {\em strict} local solution is close to the ground truth solution, and can be recovered by a simple data-driven initialization followed with any second order descent algorithm. At last, we corroborate these theoretical results with numerical experiments.
翻訳日:2021-06-16 14:53:17 公開日:2021-06-14
# ディスカウント因子のTaylor拡大

Taylor Expansion of Discount Factors ( http://arxiv.org/abs/2106.06170v2 )

ライセンス: Link先を確認
Yunhao Tang, Mark Rowland, R\'emi Munos, Michal Valko(参考訳) 実効強化学習(RL)では、値関数を推定するために使われる割引係数は、評価目的を定義するために使われる値としばしば異なる。 本研究では,この割引要因の相違が学習中に与える影響について検討し,二つの異なる割引要因の値関数を補間する目的のファミリーを発見する。 分析では、価値関数を推定し、実証的なパフォーマンス向上を示すポリシーの最適化を行う新しい方法を提案する。 このフレームワークは、ポリシー最適化アルゴリズムによく使われる深いrlヒューリスティックな修正に関する新たな洞察をもたらす。

In practical reinforcement learning (RL), the discount factor used for estimating value functions often differs from that used for defining the evaluation objective. In this work, we study the effect that this discrepancy of discount factors has during learning, and discover a family of objectives that interpolate value functions of two distinct discount factors. Our analysis suggests new ways for estimating value functions and performing policy optimization updates, which demonstrate empirical performance gains. This framework also leads to new insights on commonly-used deep RL heuristic modifications to policy optimization algorithms.
翻訳日:2021-06-16 10:33:24 公開日:2021-06-14
# (参考訳) ソーシャルメディアビッグデータからのハリケーン緊急識別とテキスト情報抽出のためのインテリジェントエージェント

Intelligent Agent for Hurricane Emergency Identification and Text Information Extraction from Streaming Social Media Big Data ( http://arxiv.org/abs/2106.07114v1 )

ライセンス: CC BY 4.0
Jingwei Huang, Wael Khallouli, Ghaith Rabadi, Mamadou Seck(参考訳) 本稿では,ソーシャルメディアのビッグデータとaiを活用したハリケーン災害対応に関する研究について述べる。 現在、救助のためのハリケーン緊急対応の実践は緊急コールセンターに大きく依存している。 最近のハリケーン・ハーヴェイは現在のシステムの限界を明らかにしている。 ハリケーン・ハーヴェイと関連するヒューストン洪水を研究の動機とし、ハリケーン緊急対応の緊急センターを支援するためにインテリジェントエージェントを補完的な役割として使うという概念実証としてプロトタイプを開発した。 このインテリジェントエージェントは、自然災害時のリアルタイムストリーミングツイートの収集、救助要請ツイートの識別、住所や関連するジオコードなどのキー情報抽出、そして、抽出された情報を意思決定支援のインタラクティブマップに可視化する。 本実験は,ハリケーンの緊急対応を支援する研究の有望な成果と潜在的応用を示す。

This paper presents our research on leveraging social media Big Data and AI to support hurricane disaster emergency response. The current practice of hurricane emergency response for rescue highly relies on emergency call centres. The more recent Hurricane Harvey event reveals the limitations of the current systems. We use Hurricane Harvey and the associated Houston flooding as the motivating scenario to conduct research and develop a prototype as a proof-of-concept of using an intelligent agent as a complementary role to support emergency centres in hurricane emergency response. This intelligent agent is used to collect real-time streaming tweets during a natural disaster event, to identify tweets requesting rescue, to extract key information such as address and associated geocode, and to visualize the extracted information in an interactive map in decision supports. Our experiment shows promising outcomes and the potential application of the research in support of hurricane emergency response.
翻訳日:2021-06-16 06:09:12 公開日:2021-06-14
# (参考訳) 潜在相関に基づくマルチビュー学習と自己スーパービジョン:統一的視点

Latent Correlation-Based Multiview Learning and Self-Supervision: A Unifying Perspective ( http://arxiv.org/abs/2106.07115v1 )

ライセンス: CC BY 4.0
Qi Lyu, Xiao Fu, Weiran Wang and Songtao Lu(参考訳) 自然に取得したデータ(画像や音声など)と人工的に生成されたデータ(データサンプルに異なるノイズを追加するなど)の複数のビューは、表現学習の強化に有用であることが証明されている。 自然ビューは、例えば(ディープ)正準相関解析 [(D)CCA] のようなマルチビュー解析ツールによって処理されることが多いが、人工ビューは自己教師付き学習(SSL)パラダイム、例えば \texttt{SimCLR} や \texttt{Barlow Twins} で頻繁に使用される。 どちらのアプローチも、データの埋め込みが高いクロスビュー相関を示すように、ニューラルネットワークの特徴抽出器を学習する。 直感的ではあるが、相関に基づく神経埋め込みの有効性は実証的に検証されるのみである。 この研究は教師なしマルチビュー学習のための理論に基づくフレームワークである。 私たちの開発は、各ビューが共有コンポーネントとプライベートコンポーネントの非線形混合であるマルチビューモデルの提案から始まります。 これにより、学習問題は共有/プライベートコンポーネントの識別と絡み合いに陥る。 このモデルでは、潜在相関最大化はビュー間で共有されたコンポーネント(特定のあいまいさまで)の抽出を保証することが示されている。 さらに、各ビュー内のプライベート情報を適切な正規化設計を用いて共有から確実に切り離すことができる。 この方法は、ダウンストリームクラスタリングなどの一連のタスクでテストされ、いずれも有望なパフォーマンスを示している。 私たちの開発は、様々なDCCAおよびSSLスキームを理解するための統一的な視点も提供します。

Multiple views of data, both naturally acquired (e.g., image and audio) and artificially produced (e.g., via adding different noise to data samples), have proven useful in enhancing representation learning. Natural views are often handled by multiview analysis tools, e.g., (deep) canonical correlation analysis [(D)CCA], while the artificial ones are frequently used in self-supervised learning (SSL) paradigms, e.g., \texttt{SimCLR} and \texttt{Barlow Twins}. Both types of approaches often involve learning neural feature extractors such that the embeddings of data exhibit high cross-view correlations. Although intuitive, the effectiveness of correlation-based neural embedding is only empirically validated. This work puts forth a theory-backed framework for unsupervised multiview learning. Our development starts with proposing a multiview model, where each view is a nonlinear mixture of shared and private components. Consequently, the learning problem boils down to shared/private component identification and disentanglement. Under this model, latent correlation maximization is shown to guarantee the extraction of the shared components across views (up to certain ambiguities). In addition, the private information in each view can be provably disentangled from the shared using proper regularization design. The method is tested on a series of tasks, e.g., downstream clustering, which all show promising performance. Our development also provides a unifying perspective for understanding various DCCA and SSL schemes.
翻訳日:2021-06-16 05:55:01 公開日:2021-06-14
# (参考訳) 多様な前提条件生成に向けて

Toward Diverse Precondition Generation ( http://arxiv.org/abs/2106.07117v1 )

ライセンス: CC BY 4.0
Heeyoung Kwon, Nathanael Chambers, and Niranjan Balasubramanian(参考訳) 言語理解は、談話におけるイベント間の論理的なつながりを識別しなければならないが、コアイベントは、その常識的な性質のため、しばしば説明されない。 本稿では、これらの欠落イベントをプリコンディションイベントを生成して埋める。 プレ条件生成はシーケンス・ツー・シーケンスの問題としてフレーム化することができる。 しかし、ほとんどの現実世界のシナリオでは、イベントはいくつかの前提条件を持ち、多様な生成を必要とする。 本稿では,多種多様な前提条件を生成可能なディバースプレ条件生成システムであるDiPを提案する。 DiPは3つのコンポーネント(イベントサンプリング、候補ジェネレータ、後処理)で生成プロセスを使用する。 イベントサンプラーは、候補生成器が生成に集中するために使用する制御コード(プリコンディショントリガー)を提供する。 他の条件生成システムとは異なり、DiPは様々な例を訓練せずに制御コードを自動的に生成する。 ベースラインに対する分析により、dipはプリコンディションの多様性を大幅に改善し、さらにプリコンディションを生成することが明らかになった。

Language understanding must identify the logical connections between events in a discourse, but core events are often unstated due to their commonsense nature. This paper fills in these missing events by generating precondition events. Precondition generation can be framed as a sequence-to-sequence problem: given a target event, generate a possible precondition. However, in most real-world scenarios, an event can have several preconditions, requiring diverse generation -- a challenge for standard seq2seq approaches. We propose DiP, a Diverse Precondition generation system that can generate unique and diverse preconditions. DiP uses a generative process with three components -- an event sampler, a candidate generator, and a post-processor. The event sampler provides control codes (precondition triggers) which the candidate generator uses to focus its generation. Unlike other conditional generation systems, DiP automatically generates control codes without training on diverse examples. Analysis against baselines reveals that DiP improves the diversity of preconditions significantly while also generating more preconditions.
翻訳日:2021-06-16 05:53:40 公開日:2021-06-14
# (参考訳) mtc:部分的および粗い観測によるマルチレゾリューションテンソル補完

MTC: Multiresolution Tensor Completion from Partial and Coarse Observations ( http://arxiv.org/abs/2106.07135v1 )

ライセンス: CC BY 4.0
Chaoqi Yang, Navjot Singh, Cao Xiao, Cheng Qian, Edgar Solomonik, Jimeng Sun(参考訳) 既存のテンソル完全定式化は、ほとんどが単一のテンソルからの部分的観測に依存している。 しかし、実世界のデータから抽出されたテンソルはしばしばより複雑である: (i) 部分観察: テンソル要素の小さな部分集合(例:5%)のみが利用可能である。 (II)粗い観察:いくつかのテンソルモードは粗いパターンと集約されたパターンのみを示す(例えば、日々の報告の代わりに毎月の要約)。 本稿では,テンソルのサブセットと凝集・粗い観測(モードが1つ以上ある)を付与し,低ランク因子化による元の微細粒状テンソルの復元を試みる。 結合テンソル完備化問題を定式化し,効率的なマルチレゾリューションテンソル補完モデル(MTC)を提案する。 MTCモデルはテンソルモード特性を探索し、解像度階層を利用して最適化設定を再帰的に初期化し、最小二乗の交互化を用いて結合系上で最適化する。 MTCは計算量と空間の複雑さを低くする。 我々は,2つのCOVID-19関連時空間テンソルのモデルについて検討した。 実験の結果、MCCは65.20%と75.79%の適合度(PoF)を、5%の微細な観察しか得られず、最高のベースラインよりも27.96%改善していることがわかった。 学習した低ランク因子を評価するために,MSCが50%のPoFを達成し,30%の相対的改善を最良基準で達成する,日常的および累積的疾患予測のためのテンソル予測タスクを設計した。

Existing tensor completion formulation mostly relies on partial observations from a single tensor. However, tensors extracted from real-world data are often more complex due to: (i) Partial observation: Only a small subset (e.g., 5%) of tensor elements are available. (ii) Coarse observation: Some tensor modes only present coarse and aggregated patterns (e.g., monthly summary instead of daily reports). In this paper, we are given a subset of the tensor and some aggregated/coarse observations (along one or more modes) and seek to recover the original fine-granular tensor with low-rank factorization. We formulate a coupled tensor completion problem and propose an efficient Multi-resolution Tensor Completion model (MTC) to solve the problem. Our MTC model explores tensor mode properties and leverages the hierarchy of resolutions to recursively initialize an optimization setup, and optimizes on the coupled system using alternating least squares. MTC ensures low computational and space complexity. We evaluate our model on two COVID-19 related spatio-temporal tensors. The experiments show that MTC could provide 65.20% and 75.79% percentage of fitness (PoF) in tensor completion with only 5% fine granular observations, which is 27.96% relative improvement over the best baseline. To evaluate the learned low-rank factors, we also design a tensor prediction task for daily and cumulative disease case predictions, where MTC achieves 50% in PoF and 30% relative improvements over the best baseline.
翻訳日:2021-06-16 05:40:09 公開日:2021-06-14
# (参考訳) 低侵襲手術におけるリアルタイムステレオマッチングのためのベイズ密度逆探索アルゴリズム

Bayesian dense inverse searching algorithm for real-time stereo matching in minimally invasive surgery ( http://arxiv.org/abs/2106.07136v1 )

ライセンス: CC BY 4.0
Jingwei Song, Qiuchen Zhu, Jianyu Lin, and Maani Ghaffari(参考訳) 手術画像のCPUレベルリアルタイムステレオマッチング手法について報告する(i5-9400のコアが1つある640×480画像の10Hz)。 提案手法は,ステレオ画像の差分を推定する高速な'dense inverse search'アルゴリズムに基づいて構築される。 異なるスケールの画像からの重なり合う画像パッチ(arbitrary squared image segment)は、測光一貫性推定に基づいて整列される。 異なるスケールで最適化されたパッチ格差の確率を評価するベイズフレームワークを提案する。 さらに,パッチ内の画素方向確率に対処するため,空間的ガウス混合確率分布を導入する。 In-vivo and synthetic experiment shows that our method can handle ambiguities from the textureless surfaces and the photometric inconsistency caused by the Lambertian reflectance。 ベイズ法はステレオ画像に対するパッチの確率を異なるスケールで正確にバランスさせる。 実験の結果, 推定深さは手術シナリオのベースライン法よりも精度が高く, 外れ値が少ないことが示唆された。

This paper reports a CPU-level real-time stereo matching method for surgical images (10 Hz on 640 * 480 image with a single core of i5-9400). The proposed method is built on the fast ''dense inverse searching'' algorithm, which estimates the disparity of the stereo images. The overlapping image patches (arbitrary squared image segment) from the images at different scales are aligned based on the photometric consistency presumption. We propose a Bayesian framework to evaluate the probability of the optimized patch disparity at different scales. Moreover, we introduce a spatial Gaussian mixed probability distribution to address the pixel-wise probability within the patch. In-vivo and synthetic experiments show that our method can handle ambiguities resulted from the textureless surfaces and the photometric inconsistency caused by the Lambertian reflectance. Our Bayesian method correctly balances the probability of the patch for stereo images at different scales. Experiments indicate that the estimated depth has higher accuracy and fewer outliers than the baseline methods in the surgical scenario.
翻訳日:2021-06-16 05:08:26 公開日:2021-06-14
# (参考訳) 最適停止による学習侵入防止策

Learning Intrusion Prevention Policies through Optimal Stopping ( http://arxiv.org/abs/2106.07160v1 )

ライセンス: CC BY-SA 4.0
Kim Hammar and Rolf Stadler(参考訳) 強化学習を用いた自動侵入防止について検討した。 新たなアプローチでは、侵入防止問題を最適停止問題として定式化する。 この定式化により、最適ポリシーの構造についての洞察が得られ、しきい値に基づくことが判明した。 動的計画を用いた最適防衛政策の計算は実用上不可能であるため,シミュレーション環境における強化学習による最適政策の近似を行う。 シミュレーションのダイナミクスを定義するため,対象インフラストラクチャをエミュレートし,測定値の収集を行う。 評価の結果,学習方針は最適に近く,しきい値を用いて表現できることが示唆された。

We study automated intrusion prevention using reinforcement learning. In a novel approach, we formulate the problem of intrusion prevention as an optimal stopping problem. This formulation allows us insight into the structure of the optimal policies, which turn out to be threshold based. Since the computation of the optimal defender policy using dynamic programming is not feasible for practical cases, we approximate the optimal policy through reinforcement learning in a simulation environment. To define the dynamics of the simulation, we emulate the target infrastructure and collect measurements. Our evaluations show that the learned policies are close to optimal and that they indeed can be expressed using thresholds.
翻訳日:2021-06-16 04:59:54 公開日:2021-06-14
# (参考訳) ゴール対応ニューラルSATソルバー

Goal-Aware Neural SAT Solver ( http://arxiv.org/abs/2106.07162v1 )

ライセンス: CC BY 4.0
Emils Ozolins, Karlis Freivalds, Andis Draguns, Eliza Gaile, Ronalds Zakovskis, Sergejs Kozlovics(参考訳) 現代のニューラルネットワークは問題に関する情報を取得し、入力値からのみ出力を算出する。 ネットワークが実行時にいくつかのソリューション試行を行い,各トライアルにおける損失値に対するフィードバックを得ることで,ネットワークの性能を大幅に向上させることができる,と我々は主張する。 クエリメカニズムの能力を実証するため,ブーリアン満足度問題(SAT)に対する教師なし(ラベルに依存しない)損失関数を定式化し,ネットワークが問題の豊富な情報を抽出できることを理論的に示す。 次に,クエリ機構であるquerysatを用いたニューラルネットワークsatソルバを提案し,幅広いsatタスクのニューラルネットワークベースライン,sha-1前画像攻撃および3satタスクの古典的なベースラインよりも優れることを示す。

Modern neural networks obtain information about the problem and calculate the output solely from the input values. We argue that it is not always optimal, and the network's performance can be significantly improved by augmenting it with a query mechanism that allows the network to make several solution trials at run time and get feedback on the loss value on each trial. To demonstrate the capabilities of the query mechanism, we formulate an unsupervised (not dependant on labels) loss function for Boolean Satisfiability Problem (SAT) and theoretically show that it allows the network to extract rich information about the problem. We then propose a neural SAT solver with a query mechanism called QuerySAT and show that it outperforms the neural baseline on a wide range of SAT tasks and the classical baselines on SHA-1 preimage attack and 3-SAT task.
翻訳日:2021-06-16 04:34:50 公開日:2021-06-14
# (参考訳) 自己学習ガイド付き熱画像領域適応法

Self-training Guided Adversarial Domain Adaptation For Thermal Imagery ( http://arxiv.org/abs/2106.07165v1 )

ライセンス: CC BY 4.0
Ibrahim Batuhan Akkaya, Fazil Altinel, Ugur Halici(参考訳) 大規模rgbイメージデータセットでトレーニングされた深層モデルは、大きな成功を収めている。 このような深層モデルを実世界問題に適用することが重要である。 しかし、これらのモデルは照明変更時にパフォーマンスのボトルネックに悩まされる。 サーマル赤外線カメラはこのような変化に対してより堅牢であり、実世界の問題に非常に有用である。 特徴量の多い可視光スペクトルと熱画像モダリティを組み合わせることで、RGB対熱画像ペアを必要としない教師なし領域適応法を提案する。 我々は,大規模RGBデータセットMS-COCOをソースドメインとして,熱データセットFLIR ADASをターゲットドメインとして,本手法の結果を示す。 敵領域適応法は、ソース領域とターゲット領域の分布を整列することを目的としているが、単純に分布を整列させることは、対象領域への完全一般化を保証することはできない。 そこで本研究では,自己学習指導型対向領域適応法を提案し,対向領域適応法の一般化能力を促進する。 自己学習を行うには、ターゲットのサーマルドメインのサンプルに擬似ラベルを割り当てて、ターゲットドメインのより一般的な表現を学ぶ。 実験結果から,提案手法は最先端の対向領域適応法よりも優れた結果が得られることが示された。 コードとモデルは公開されている。

Deep models trained on large-scale RGB image datasets have shown tremendous success. It is important to apply such deep models to real-world problems. However, these models suffer from a performance bottleneck under illumination changes. Thermal IR cameras are more robust against such changes, and thus can be very useful for the real-world problems. In order to investigate efficacy of combining feature-rich visible spectrum and thermal image modalities, we propose an unsupervised domain adaptation method which does not require RGB-to-thermal image pairs. We employ large-scale RGB dataset MS-COCO as source domain and thermal dataset FLIR ADAS as target domain to demonstrate results of our method. Although adversarial domain adaptation methods aim to align the distributions of source and target domains, simply aligning the distributions cannot guarantee perfect generalization to the target domain. To this end, we propose a self-training guided adversarial domain adaptation method to promote generalization capabilities of adversarial domain adaptation methods. To perform self-training, pseudo labels are assigned to the samples on the target thermal domain to learn more generalized representations for the target domain. Extensive experimental analyses show that our proposed method achieves better results than the state-of-the-art adversarial domain adaptation methods. The code and models are publicly available.
翻訳日:2021-06-16 04:19:34 公開日:2021-06-14
# (参考訳) SAS: 言語モデル事前学習のための自己拡張戦略

SAS: Self-Augmented Strategy for Language Model Pre-training ( http://arxiv.org/abs/2106.07176v1 )

ライセンス: CC BY 4.0
Yifei Xu, Jingqiao Zhang, Ru He, Liangzhu Ge, Chao Yang, Cheng Yang, Ying Nian Wu(参考訳) 事前学習言語モデルのための自己教師型学習法のコアは、適切なデータ拡張と対応する事前学習タスクの設計を含む。 言語モデルの事前トレーニングにおけるほとんどのデータ拡張は、文脈に依存しない。 electraが最近提案した独創的なコンテキスト化拡張は、別のジェネレータを必要とするため、追加の計算コストと、他のモデルコンポーネントのそれと比較してジェネレータの能力を調整することの難しさをもたらす。 モデルに1つのフォワードパスを用いた自己拡張戦略 (SAS) を提案し, 次の時代におけるモデルトレーニングのための入力データを拡張した。 基本的に、我々の戦略は、別個のジェネレータネットワークを排除し、1つのネットワークのみを使用してデータ拡張を生成し、2つの事前学習タスク(MLMタスクとRTDタスク)を共同で実行することで、ジェネレータの能力調整の課題を自然に回避し、計算コストを低減します。 さらに,我々のSASは,DeBERTaモデルが最近提案した非絡み合いの注意機構など,最近あるいは将来に出現する多くの新しいテクニックをシームレスに組み込むための一般的な戦略である。 我々のSASは, GLUEタスクにおけるELECTRAや他の最先端モデルよりも, あるいはそれ以下の計算コストで性能を向上できることを示す。

The core of a self-supervised learning method for pre-training language models includes the design of appropriate data augmentation and corresponding pre-training task(s). Most data augmentations in language model pre-training are context-independent. The seminal contextualized augmentation recently proposed by the ELECTRA requires a separate generator, which leads to extra computation cost as well as the challenge in adjusting the capability of its generator relative to that of the other model component(s). We propose a self-augmented strategy (SAS) that uses a single forward pass through the model to augment the input data for model training in the next epoch. Essentially our strategy eliminates a separate generator network and uses only one network to generate the data augmentation and undertake two pre-training tasks (the MLM task and the RTD task) jointly, which naturally avoids the challenge in adjusting the generator's capability as well as reduces the computation cost. Additionally, our SAS is a general strategy such that it can seamlessly incorporate many new techniques emerging recently or in the future, such as the disentangled attention mechanism recently proposed by the DeBERTa model. Our experiments show that our SAS is able to outperform the ELECTRA and other state-of-the-art models in the GLUE tasks with the same or less computation cost.
翻訳日:2021-06-16 04:07:58 公開日:2021-06-14
# (参考訳) ニューラルネットを用いた新生児の物体認識のモデル化

Modeling Object Recognition in Newborn Chicks using Deep Neural Networks ( http://arxiv.org/abs/2106.07185v1 )

ライセンス: CC BY 4.0
Donsuk Lee, Denizhan Pak, Justin N. Wood(参考訳) 近年、脳と認知科学は、成熟した脳における物体認識の機械的な理解を発展させている。 この進歩にもかかわらず、オブジェクト認識の起源と計算基盤に関する根本的な疑問が残る。 新生児脳における物体認識の学習アルゴリズム 新生児は、ほとんど教師なし学習を通じて学習するので、教師なし学習アルゴリズムが新生児の視差不変物体認識行動を予測できるかどうかを調べた。 具体的には,分類の認知モデルへの入力として,教師なし深層ニューラルネットワーク(dnn)に由来する特徴表現を用いた。 本研究では,教師なしDNNから派生した特徴が,教師付き特徴と比較してニワトリの行動に関する競合予測を行うことを示す。 より一般に、制御学習研究と画像計算可能なdnnモデルとのリンクは、新生児の物体認識の起源と計算基盤を研究するための新しい実験的な道を開くと論じている。

In recent years, the brain and cognitive sciences have made great strides developing a mechanistic understanding of object recognition in mature brains. Despite this progress, fundamental questions remain about the origins and computational foundations of object recognition. What learning algorithms underlie object recognition in newborn brains? Since newborn animals learn largely through unsupervised learning, we explored whether unsupervised learning algorithms can be used to predict the view-invariant object recognition behavior of newborn chicks. Specifically, we used feature representations derived from unsupervised deep neural networks (DNNs) as inputs to cognitive models of categorization. We show that features derived from unsupervised DNNs make competitive predictions about chick behavior compared to supervised features. More generally, we argue that linking controlled-rearing studies to image-computable DNN models opens new experimental avenues for studying the origins and computational basis of object recognition in newborn animals.
翻訳日:2021-06-16 03:49:13 公開日:2021-06-14
# (参考訳) 勾配への直行:ニューラルテキスト生成に新しいトークンを使用するための学習

Straight to the Gradient: Learning to Use Novel Tokens for Neural Text Generation ( http://arxiv.org/abs/2106.07207v1 )

ライセンス: CC BY 4.0
Xiang Lin, Simeng Han, Shafiq Joty(参考訳) 高度な大規模ニューラルネットワークモデルは、多くの言語生成タスクで大きな成功を収めた。 しかしながら、最も一般的に使用されるトレーニング目標である最大度推定(mle)は問題視されており、訓練されたモデルは鈍く反復的なフレーズを使うことを好む。 そこで本研究では,損失関数の勾配を直に修正したScaleGradを導入し,標準MLE目標の劣化問題を改善する。 勾配情報を直接操作することで、ScaleGradはモデルに新しいトークンの使用を学習させる。 実験の結果,提案手法はオープンエンド生成だけでなく,有向生成タスクにおいても有効であることがわかった。 アーキテクチャの単純さにより,本手法は,ニューラルテキスト生成タスクのほとんどに適用可能な汎用的な学習目標として機能する。

Advanced large-scale neural language models have led to significant success in many language generation tasks. However, the most commonly used training objective, Maximum Likelihood Estimation (MLE), has been shown problematic, where the trained model prefers using dull and repetitive phrases. In this work, we introduce ScaleGrad, a modification straight to the gradient of the loss function, to remedy the degeneration issue of the standard MLE objective. By directly maneuvering the gradient information, ScaleGrad makes the model learn to use novel tokens. Empirical results show the effectiveness of our method not only in open-ended generation, but also in directed generation tasks. With the simplicity in architecture, our method can serve as a general training objective that is applicable to most of the neural text generation tasks.
翻訳日:2021-06-16 03:38:26 公開日:2021-06-14
# (参考訳) リカレントニューラルネットワークを用いた英語からバングラ語への機械翻訳

English to Bangla Machine Translation Using Recurrent Neural Network ( http://arxiv.org/abs/2106.07225v1 )

ライセンス: CC BY 4.0
Shaykh Siddique, Tahmid Ahmed, Md. Rifayet Azam Talukder, and Md. Mohsin Uddin(参考訳) 機械翻訳におけるリカレントニューラルネットワークの応用は自然言語処理で増加している。 他の言語に加えて、バングラ語は多くの語彙を含んでいる。 英語からバングラ語への機械翻訳の改善は、バングラ語処理に重要な貢献となる。 本稿では,バングラ語機械翻訳システムに対する英語のアーキテクチャについて述べる。 このシステムは、エンコーダ-デコーダリカレントニューラルネットワークで実装されている。 このモデルは英語とバングラ語をマッピングするために知識に基づく文脈ベクトルを用いる。 ここでは、アクティベーション関数に基づくモデルの性能を測定する。 エンコーダ層における線形活性化関数とデコーダ層におけるタンハ活性化関数に対して最高の性能が得られる。 GRUおよびLSTM層の実行から、GRUはLSTMよりも優れた性能を示した。 注意層はソフトマックスとシグモイド活性化関数で実現される。 モデルによるアプローチは、クロスエントロピー損失指標の観点から、従来の最先端システムよりも優れている。 読み手は、英語からバングラ語への機械翻訳の構造と、論文から効率的なアクティベーション機能を容易に見つけることができる。

The applications of recurrent neural networks in machine translation are increasing in natural language processing. Besides other languages, Bangla language contains a large amount of vocabulary. Improvement of English to Bangla machine translation would be a significant contribution to Bangla Language processing. This paper describes an architecture of English to Bangla machine translation system. The system has been implemented with the encoder-decoder recurrent neural network. The model uses a knowledge-based context vector for the mapping of English and Bangla words. Performances of the model based on activation functions are measured here. The best performance is achieved for the linear activation function in encoder layer and the tanh activation function in decoder layer. From the execution of GRU and LSTM layer, GRU performed better than LSTM. The attention layers are enacted with softmax and sigmoid activation function. The approach of the model outperforms the previous state-of-the-art systems in terms of cross-entropy loss metrics. The reader can easily find out the structure of the machine translation of English to Bangla and the efficient activation functions from the paper.
翻訳日:2021-06-16 03:05:49 公開日:2021-06-14
# (参考訳) ディープニューラルネットワークのための完全同型暗号化によるプライバシ保護機械学習

Privacy-Preserving Machine Learning with Fully Homomorphic Encryption for Deep Neural Network ( http://arxiv.org/abs/2106.07229v1 )

ライセンス: CC BY 4.0
Joon-Woo Lee, HyungChul Kang, Yongwoo Lee, Woosuk Choi, Jieun Eom, Maxim Deryabin, Eunsang Lee, Junghyun Lee, Donghoon Yoo, Young-Sik Kim, Jong-Seon No(参考訳) 完全同型暗号化(FHE)は、プライバシ保護機械学習(PPML)のための予測ツールの1つであり、様々なFHEスキームとアプローチに基づいて、いくつかのPPMLモデルが提案されている。 FHEのスキームはPPMLモデルを実装するのに適したツールとして知られているが、以前のFHE暗号化データ上のPPMLモデルは、単純な機械学習モデルと非標準的な機械学習モデルに限られていた。 これらの非標準機械学習モデルは、より実用的で高度なデータセットで効率的で正確なものではない。 従来のPPMLスキームは、近似法を使わずに、非算術的アクティベーション関数を単純な算術関数に置き換え、ブートストラップを使用しない。 そのため、標準的なアクティベーション関数は使用できず、多数のレイヤを使用できなかった。 CIFAR-10データセットのFHEを用いた既存のPPMLモデルの最大分類精度は、これまでわずか77%であった。 本研究では、まず、起動ストラップ付きRSS-CKKS FHEを用いて標準ResNet-20モデルを実装し、CIFAR-10データセットと平文モデルパラメータを用いて実装されたモデルを検証する。 単純な算術関数に置き換える代わりに、ReLUのようなこれらの非算術関数を十分精度 [1] で評価するために、最先端の近似法を用いる。 さらに,提案モデルでは,RSS-CKKSスキームのブートストラップ手法を初めて使用し,暗号化データ上でのディープラーニングモデルの評価を可能にする。 CIFAR-10データセットを用いた提案モデルでは,非暗号化データを用いたResNet-20モデルと98.67%の同一結果が得られた。 提案されたモデルの分類精度は90.67%で、オリジナルのResNet-20 CNNモデルにかなり近い。

Fully homomorphic encryption (FHE) is one of the prospective tools for privacypreserving machine learning (PPML), and several PPML models have been proposed based on various FHE schemes and approaches. Although the FHE schemes are known as suitable tools to implement PPML models, previous PPML models on FHE encrypted data are limited to only simple and non-standard types of machine learning models. These non-standard machine learning models are not proven efficient and accurate with more practical and advanced datasets. Previous PPML schemes replace non-arithmetic activation functions with simple arithmetic functions instead of adopting approximation methods and do not use bootstrapping, which enables continuous homomorphic evaluations. Thus, they could not use standard activation functions and could not employ a large number of layers. The maximum classification accuracy of the existing PPML model with the FHE for the CIFAR-10 dataset was only 77% until now. In this work, we firstly implement the standard ResNet-20 model with the RNS-CKKS FHE with bootstrapping and verify the implemented model with the CIFAR-10 dataset and the plaintext model parameters. Instead of replacing the non-arithmetic functions with the simple arithmetic function, we use state-of-the-art approximation methods to evaluate these non-arithmetic functions, such as the ReLU, with sufficient precision [1]. Further, for the first time, we use the bootstrapping technique of the RNS-CKKS scheme in the proposed model, which enables us to evaluate a deep learning model on the encrypted data. We numerically verify that the proposed model with the CIFAR-10 dataset shows 98.67% identical results to the original ResNet-20 model with non-encrypted data. The classification accuracy of the proposed model is 90.67%, which is pretty close to that of the original ResNet-20 CNN model...
翻訳日:2021-06-16 02:58:25 公開日:2021-06-14
# (参考訳) アインシュタインはヒトラーより好意的で神経質か? 歴史人物の感情的・人格的プロファイルの計算による探索

Is Einstein more agreeable and less neurotic than Hitler? A computational exploration of the emotional and personality profiles of historical persons ( http://arxiv.org/abs/2106.07237v1 )

ライセンス: CC BY 4.0
Arthur M. Jacobs and Annette Kinder(参考訳) 分散セマンティクスモデル(dsm)の最近の進歩は、表象的および現実的両方のパーソナリティ特性を推定する新しい方法を提供する。 この探索研究では、ヤコブズ(2019)が開発したアルゴリズムの拡張版を用いて、名前がかなり独特な芸術、政治、科学の領域の100人の歴史的人物(アインシュタイン、カーロ、ピカソなど)に対して、類似性スコア、感情的人物プロファイル、およびbig5パーソナリティ特性を計算する。 静的 (word2vec) と動的 (BERT) 言語モデル表現の結果を4つの研究で比較した。 これらのdsmに基づくパーソナリティプロファイルの計算の可能性と限界を示し、このアプローチをさらに発展させ、データサイエンス、心理学、計算およびニューロ認知的詩学(jacobs, 2015)に有用なツールとなることを示す。

Recent progress in distributed semantic models (DSM) offers new ways to estimate personality traits of both fictive and real people. In this exploratory study we applied an extended version of the algorithm developed in Jacobs (2019) to compute the likeability scores, emotional figure profiles and BIG5 personality traits for 100 historical persons from the arts, politics or science domains whose names are rather unique (e.g., Einstein, Kahlo, Picasso). We compared the results produced by static (word2vec) and dynamic (BERT) language model representations in four studies. The results show both the potential and limitations of such DSM-based computations of personality profiles and point ways to further develop this approach to become a useful tool in data science, psychology or computational and neurocognitive poetics (Jacobs, 2015).
翻訳日:2021-06-16 02:45:24 公開日:2021-06-14
# (参考訳) GitTables:リレーショナルテーブルの大規模コーパス

GitTables: A Large-Scale Corpus of Relational Tables ( http://arxiv.org/abs/2106.07258v1 )

ライセンス: CC BY 4.0
Madelon Hulsebos, \c{C}a\u{g}atay Demiralp, Paul Groth(参考訳) ディープラーニングの実践的な成功は、大規模なテーブルコーパスでトレーニングされたモデルによって、データ検索のようなリレーショナルテーブルタスクの改善への関心を喚起した。 既存のコーパスは、主にHTMLページから抽出されたテーブルを含み、オフラインのデータベーステーブルを表現する能力を制限する。 web以外のアプリケーションの高容量モデルをトレーニングし、評価するには、リレーショナルデータベーステーブルに似たテーブルを持つ追加のリソースが必要です。 これはgithubから抽出された1.7mのリレーショナルテーブルのコーパスである。 私たちの継続的なキュレーションは、コーパスを少なくとも20mのテーブルに拡大することを目的としています。 schema.orgとdbpediaの2k以上のセマンティクスタイプを持つgittablesのテーブル列にアノテートします。 我々の列アノテーションは意味型、階層関係、範囲型、記述からなる。 コーパスはhttps://gittables.github.ioで入手できる。 gittablesの分析の結果,その構造,内容,話題範囲が既存の表コーパスと大きく異なることがわかった。 T2Dv2ベンチマークから手書きのテーブル上でアノテーションパイプラインを評価し,人間のアノテーションと同等の結果が得られた。 意味型検出モデルをトレーニングし,高い予測精度を得ることにより,gittablesのユースケースを実証する。 また、Webからトレーニングされた同じモデルが、あまり一般化していないことも示します。

The practical success of deep learning has sparked interest in improving relational table tasks, like data search, with models trained on large table corpora. Existing corpora primarily contain tables extracted from HTML pages, limiting the capability to represent offline database tables. To train and evaluate high-capacity models for applications beyond the Web, we need additional resources with tables that resemble relational database tables. Here we introduce GitTables, a corpus of currently 1.7M relational tables extracted from GitHub. Our continuing curation aims at growing the corpus to at least 20M tables. We annotate table columns in GitTables with more than 2K different semantic types from Schema.org and DBpedia. Our column annotations consist of semantic types, hierarchical relations, range types and descriptions. The corpus is available at https://gittables.github.io. Our analysis of GitTables shows that its structure, content, and topical coverage differ significantly from existing table corpora. We evaluate our annotation pipeline on hand-labeled tables from the T2Dv2 benchmark and find that our approach provides results on par with human annotations. We demonstrate a use case of GitTables by training a semantic type detection model on it and obtain high prediction accuracy. We also show that the same model trained on tables from theWeb generalizes poorly.
翻訳日:2021-06-16 02:33:27 公開日:2021-06-14
# (参考訳) 分子配座を用いた量子力学的特性予測のためのフレキシブルデュアルブランチメッセージパッシングニューラルネットワーク

Flexible dual-branched message passing neural network for quantum mechanical property prediction with molecular conformation ( http://arxiv.org/abs/2106.07273v1 )

ライセンス: CC BY 4.0
Jeonghee Jo, Bumju Kwak, Byunghan Lee, Sungroh Yoon(参考訳) 分子は不均一成分の複合体であり、これらの成分の空間配置は分子の性質と特性全体を決定する。 計算化学における深層学習の出現とともに、分子構造に基づく分子特性の予測方法に焦点が当てられている。 メッセージパッシングニューラルネットワークは、分子をグラフとして見ることで分子幾何学的特徴を捉える効果的なフレームワークを提供する。 しかしながら、これらの研究の多くは、原子電荷、結合長、その他の幾何学的特徴のような全ての不均一な分子的特徴は、タスクタイプに関係なく、常にターゲットの予測に等しいものであると仮定した。 本研究では,メッセージパッシングフレームワークに基づく分子特性予測のための2分岐ニューラルネットワークを提案する。 モデルでは,各予測対象に応じて柔軟に訓練された異なるスケールの分子特徴を学習する。 さらに、メッセージパッシングのステップとは別に、単一のatom機能をローカルアグリゲーションなしで学習するための離散ブランチを導入する。 この新しい構造は、ほとんどのターゲットにおいてより高速な収束でモデル性能を向上させることができることを示す。 提案モデルは他のモデルよりもスペーサー表現の方が優れている。 実験の結果, 化学特性予測タスクでは, モデル性能と一般化性の両方について, ターゲットの化学特性を慎重に検討すべきであることが示唆された。

A molecule is a complex of heterogeneous components, and the spatial arrangements of these components determine the whole molecular properties and characteristics. With the advent of deep learning in computational chemistry, several studies have focused on how to predict molecular properties based on molecular configurations. Message passing neural network provides an effective framework for capturing molecular geometric features with the perspective of a molecule as a graph. However, most of these studies assumed that all heterogeneous molecular features, such as atomic charge, bond length, or other geometric features always contribute equivalently to the target prediction, regardless of the task type. In this study, we propose a dual-branched neural network for molecular property prediction based on message-passing framework. Our model learns heterogeneous molecular features with different scales, which are trained flexibly according to each prediction target. In addition, we introduce a discrete branch to learn single atom features without local aggregation, apart from message-passing steps. We verify that this novel structure can improve the model performance with faster convergence in most targets. The proposed model outperforms other recent models with sparser representations. Our experimental results indicate that in the chemical property prediction tasks, the diverse chemical nature of targets should be carefully considered for both model performance and generalizability.
翻訳日:2021-06-16 02:20:31 公開日:2021-06-14
# (参考訳) どの相互情報表現学習の目的が制御に十分か?

Which Mutual-Information Representation Learning Objectives are Sufficient for Control? ( http://arxiv.org/abs/2106.07278v1 )

ライセンス: CC BY 4.0
Kate Rakelly, Abhishek Gupta, Carlos Florensa, Sergey Levine(参考訳) 相互情報最大化は、データの表現を学習するための魅力的な形式を提供する。 強化学習(RL)の文脈では、このような表現は、制御に必要な情報を保持しながら、無関係かつ冗長な情報を破棄することで学習を加速することができる。 これらの手法に関する先行研究の多くは、高次元観測のサンプルから相互情報を推定する実践的な困難に対処しているが、理論的な観点からは、相互情報の目的がRLに十分な表現をもたらすかは、比較的理解されていない。 本稿では,最適政策の学習と表現のための状態表現の十分性について定式化し,このレンズを通して一般的な相互情報に基づく目的について検討する。 意外なことに、これらの2つの目的は、MDPの構造について軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。 視覚的観察によるシミュレーションゲーム環境における実験結果と理論結果を相関させる。

Mutual information maximization provides an appealing formalism for learning representations of data. In the context of reinforcement learning (RL), such representations can accelerate learning by discarding irrelevant and redundant information, while retaining the information necessary for control. Much of the prior work on these methods has addressed the practical difficulties of estimating mutual information from samples of high-dimensional observations, while comparatively less is understood about which mutual information objectives yield representations that are sufficient for RL from a theoretical perspective. In this paper, we formalize the sufficiency of a state representation for learning and representing the optimal policy, and study several popular mutual-information based objectives through this lens. Surprisingly, we find that two of these objectives can yield insufficient representations given mild and common assumptions on the structure of the MDP. We corroborate our theoretical results with empirical experiments on a simulated game environment with visual observations.
翻訳日:2021-06-16 02:08:46 公開日:2021-06-14
# (参考訳) 単段検出器の注意に基づくドメイン適応

Attention-based Domain Adaptation for Single Stage Detectors ( http://arxiv.org/abs/2106.07283v1 )

ライセンス: CC BY 4.0
Vidit and Mathieu Salzmann(参考訳) ドメイン適応は、トレーニングとテストデータが異なる分布に従う場合のオブジェクト検出の性能を改善するために使われてきたが、以前の研究は主に2段階検出器に焦点を当てている。 これは、地域提案を用いることで局所的な適応が可能となり、適応効果が著しく向上することが示されているためである。 これとは対照的に,2段階検出よりもリソース制約のある検出に適しているが,地域提案は提供していないシングルステージアーキテクチャを対象としている。 それにもかかわらず、地域適応の強みの恩恵を受けるため、適応が焦点を置くべき重要な領域を特定するための注意機構を導入する。 我々のアプローチは汎用的で、任意の単段検出器に統合できる。 SSDとYOLOの両方に適用することで、標準的なベンチマークデータセットでこれを実証する。 さらに, 等価な単段アーキテクチャでは, 本手法は特定の検出器用に特別に設計されたにもかかわらず, 最先端のドメイン適応技術に勝る。

While domain adaptation has been used to improve the performance of object detectors when the training and test data follow different distributions, previous work has mostly focused on two-stage detectors. This is because their use of region proposals makes it possible to perform local adaptation, which has been shown to significantly improve the adaptation effectiveness. Here, by contrast, we target single-stage architectures, which are better suited to resource-constrained detection than two-stage ones but do not provide region proposals. To nonetheless benefit from the strength of local adaptation, we introduce an attention mechanism that lets us identify the important regions on which adaptation should focus. Our approach is generic and can be integrated into any single-stage detector. We demonstrate this on standard benchmark datasets by applying it to both SSD and YOLO. Furthermore, for an equivalent single-stage architecture, our method outperforms the state-of-the-art domain adaptation technique even though it was designed specifically for this particular detector.
翻訳日:2021-06-16 01:47:53 公開日:2021-06-14
# (参考訳) 疾患知識のための事前学習言語モデルの提案

Probing Pre-Trained Language Models for Disease Knowledge ( http://arxiv.org/abs/2106.07285v1 )

ライセンス: CC BY 4.0
Israa Alghanmi, Luis Espinosa-Anke, Steven Schockaert(参考訳) ClinicalBERTのような事前訓練された言語モデルは、医学的自然言語推論のようなタスクにおいて印象的な成果を上げている。 一見すると、これらのモデルが、症状を病気にマッピングするなど、医学的推論タスクを実行できることを示唆しているかもしれない。 しかし、MedNLIのような標準ベンチマークには、そのような推論を必要とする例が比較的少ないことが分かる。 本稿では,既存の言語モデルの医学的推論能力をよりよく理解するために,疾患知識評価のための新しいベンチマークであるDisKnEを紹介する。 このベンチマークを構築するために、我々は各正のMedNLIサンプルに、必要な医学的推論のタイプをアノテートした。 そして、これらの正の例を逆向きに不正にすることで、負の例を作成しました。 さらに,疾患毎のトレーニング・テスト分割を定義し,その訓練データから検査疾患に関する知識が得られないことを確認し,人工物の存在を避けるために仮説の定式化を正準化する。 これは多くの二分分類問題を引き起こし、1つは推論のタイプと疾患のタイプである。 提案するベンチマークで臨床・バイオメディカル領域の事前学習モデルを分析すると,その性能は大幅に低下することがわかった。

Pre-trained language models such as ClinicalBERT have achieved impressive results on tasks such as medical Natural Language Inference. At first glance, this may suggest that these models are able to perform medical reasoning tasks, such as mapping symptoms to diseases. However, we find that standard benchmarks such as MedNLI contain relatively few examples that require such forms of reasoning. To better understand the medical reasoning capabilities of existing language models, in this paper we introduce DisKnE, a new benchmark for Disease Knowledge Evaluation. To construct this benchmark, we annotated each positive MedNLI example with the types of medical reasoning that are needed. We then created negative examples by corrupting these positive examples in an adversarial way. Furthermore, we define training-test splits per disease, ensuring that no knowledge about test diseases can be learned from the training data, and we canonicalize the formulation of the hypotheses to avoid the presence of artefacts. This leads to a number of binary classification problems, one for each type of reasoning and each disease. When analysing pre-trained models for the clinical/biomedical domain on the proposed benchmark, we find that their performance drops considerably.
翻訳日:2021-06-16 01:34:01 公開日:2021-06-14
# (参考訳) RRULES: RULESルールベースの分類器の改良

RRULES: An improvement of the RULES rule-based classifier ( http://arxiv.org/abs/2106.07296v1 )

ライセンス: CC BY 4.0
Rafel Palliser-Sans(参考訳) RRULESは、一連のトレーニング例からIF-THEN規則を抽出する単純な帰納的学習アルゴリズムであるRULESの改良と最適化として提示される。 RRULESは、無関係なルールを検出するためのより効率的なメカニズムを実装してアルゴリズムを最適化すると同時に、停止条件をより頻繁にチェックする。 これにより、より一般的なルールを含むよりコンパクトなルールセットとなり、トレーニングセットのオーバーフィットを防止し、より高いテスト精度が得られる。 さらに、RRULESは、複数のデータセット上で2、3倍高速に実行しながら、カバレッジ率を最大7倍にすることで、元のアルゴリズムよりも優れていた。

RRULES is presented as an improvement and optimization over RULES, a simple inductive learning algorithm for extracting IF-THEN rules from a set of training examples. RRULES optimizes the algorithm by implementing a more effective mechanism to detect irrelevant rules, at the same time that checks the stopping conditions more often. This results in a more compact rule set containing more general rules which prevent overfitting the training set and obtain a higher test accuracy. Moreover, the results show that RRULES outperforms the original algorithm by reducing the coverage rate up to a factor of 7 while running twice or three times faster consistently over several datasets.
翻訳日:2021-06-16 01:18:08 公開日:2021-06-14
# (参考訳) 線形鎖CRFを正規言語に制約する

Constraining Linear-chain CRFs to Regular Languages ( http://arxiv.org/abs/2106.07306v1 )

ライセンス: CC BY-SA 4.0
Sean Papay, Roman Klinger and Sebastian Pad\'o(参考訳) 構造化予測では、モデルの主な課題は、出力構造内の相互依存を表現することである。 出力がシーケンスとして構造化される一般的な場合、線形鎖条件付きランダムフィールド(CRF)は、出力シーケンスの局所的依存関係を学習できる広く使われているモデルクラスである。 しかし、CRFのマルコフの仮定は、これらのモデルが非局所的な依存関係をキャプチャすることは不可能であり、標準のCRFはデータ(例えば出力ラベルのグローバルアリティ制約)の非局所的な制約を尊重することができない。 出力構造の空間を正規言語 $\mathcal{L}$ として指定することにより、非局所構造を含む幅広い制約を強制できる CRF の一般化を提案する。 結果として得られる正則制約 CRF (RegCCRF) は標準 CRF と同じ形式的性質を持つが、$\mathcal{L}$ でないすべてのラベル列にゼロ確率を割り当てる。 特に、RegCCRFはトレーニング中に制約を組み込むことができ、関連するモデルはデコード時にのみ制約を強制する。 制約付きトレーニングが制約付き復号化よりも悪くないことを証明し、実際にかなり良い結果が得られることを合成データを用いて示す。 さらに,RegCCRFをセマンティックロールラベリングのためのディープニューラルモデルに組み込むことで,ダウンストリームタスクに実用的なメリットを実証する。

In structured prediction, a major challenge for models is to represent the interdependencies within their output structures. For the common case where outputs are structured as a sequence, linear-chain conditional random fields (CRFs) are a widely used model class which can learn local dependencies in output sequences. However, the CRF's Markov assumption makes it impossible for these models to capture nonlocal dependencies, and standard CRFs are unable to respect nonlocal constraints of the data (such as global arity constraints on output labels). We present a generalization of CRFs that can enforce a broad class of constraints, including nonlocal ones, by specifying the space of possible output structures as a regular language $\mathcal{L}$. The resulting regular-constrained CRF (RegCCRF) has the same formal properties as a standard CRF, but assigns zero probability to all label sequences not in $\mathcal{L}$. Notably, RegCCRFs can incorporate their constraints during training, while related models only enforce constraints during decoding. We prove that constrained training is never worse than constrained decoding, and show using synthetic data that it can be substantially better in practice. Additionally, we demonstrate a practical benefit on downstream tasks by incorporating a RegCCRF into a deep neural model for semantic role labeling, exceeding state-of-the-art results on a standard dataset.
翻訳日:2021-06-16 01:12:36 公開日:2021-06-14
# (参考訳) 空中赤外線映像におけるPVモジュールの検出・マッピング・故障分類のためのコンピュータビジョンツール

Computer Vision Tool for Detection, Mapping and Fault Classification of PV Modules in Aerial IR Videos ( http://arxiv.org/abs/2106.07314v1 )

ライセンス: CC BY-SA 4.0
Lukas Bommes, Tobias Pickel, Claudia Buerhop-Lutz, Jens Hauch, Christoph Brabec, Ian Marius Peters(参考訳) 太陽光発電プラントの設置の増加は、安価で迅速な検査を必要とする。 このタスクの有効なツールは、無人航空機(UAV)による熱画像撮影である。 本研究では,熱画像UAVビデオからPVモジュールを半自動抽出するコンピュータビジョンツールを開発した。 我々は、7つの異なるPVプラントのサーモグラフィービデオから107842 PVモジュールの430万のIR画像を含むデータセットをキュレートする。 PVプラントの自動検査に使用するために、ResNet-50をトレーニングし、90パーセント以上のテスト精度で10の共通モジュール異常を分類する。 実験により, 異なるPVプラントに応用できることが確認された。 561個の植物列のうち512個からPVモジュールを抽出することに成功した。 失敗は主に、不適切なUAV軌道と間違ったモジュールセグメンテーションによるものである。 私たちのツールは、すべての手動ステップを含め、1日3.5 MW pから9 MW pのPVインストールを検査することが可能です。 PVプラントの自動点検に有効な方法を提案する一方で、電力予測や非教師なし欠陥識別といった機械学習タスクにおける大規模サーモグラフィデータセットの需要が増大するのに、我々のアプローチが役立つと確信している。

Increasing deployment of photovoltaics (PV) plants demands for cheap and fast inspection. A viable tool for this task is thermographic imaging by unmanned aerial vehicles (UAV). In this work, we develop a computer vision tool for the semi-automatic extraction of PV modules from thermographic UAV videos. We use it to curate a dataset containing 4.3 million IR images of 107842 PV modules from thermographic videos of seven different PV plants. To demonstrate its use for automated PV plant inspection, we train a ResNet-50 to classify ten common module anomalies with more than 90 % test accuracy. Experiments show that our tool generalizes well to different PV plants. It successfully extracts PV modules from 512 out of 561 plant rows. Failures are mostly due to an inappropriate UAV trajectory and erroneous module segmentation. Including all manual steps our tool enables inspection of 3.5 MW p to 9 MW p of PV installations per day, potentially scaling to multi-gigawatt plants due to its parallel nature. While we present an effective method for automated PV plant inspection, we are also confident that our approach helps to meet the growing demand for large thermographic datasets for machine learning tasks, such as power prediction or unsupervised defect identification.
翻訳日:2021-06-16 00:54:54 公開日:2021-06-14
# (参考訳) データストリームのための自動機械学習技術

Automated Machine Learning Techniques for Data Streams ( http://arxiv.org/abs/2106.07317v1 )

ライセンス: CC BY 4.0
Alexandru-Ionut Imbrea(参考訳) 自動化された機械学習技術は、最近の大きな研究の進歩から恩恵を受けた。 これらの開発と機械学習の専門家の継続的な需要は、多数のAutoMLツールの開発につながった。 しかし、これらのツールはトレーニングデータセット全体が事前に利用可能であり、基礎となるディストリビューションは時間とともに変化しないと仮定する。 これらの仮定は、無制限のデータストリームを保存できないデータストリームマイニング設定に保持されず、概念ドリフトを顕示する可能性が高い。 ストリーミングデータに対する機械学習の産業的応用は、IoTやマイクロサービスアーキテクチャ、Webアナリティクスなどの分野におけるリアルタイムストリーミングパターンの採用の増加により、ますます人気が高まっている。 本稿では、最先端のオープンソースautomlツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。 比較のために、バッチ、バッチインクリメンタル、インスタンスインクリメンタル推定が適用され、比較される。 さらに,メタ機能抽出に基づくオンラインアルゴリズム選択のためのメタ学習手法を提案し,モデル置換と連続オートML技術の比較を行った。 その結果, 市販のautomlツールは良好な結果が得られるが, 概念ドリフトの存在下では, 予測精度を維持するためには, 検出や適応手法を適用する必要がある。

Automated machine learning techniques benefited from tremendous research progress in recently. These developments and the continuous-growing demand for machine learning experts led to the development of numerous AutoML tools. However, these tools assume that the entire training dataset is available upfront and that the underlying distribution does not change over time. These assumptions do not hold in a data stream mining setting where an unbounded stream of data cannot be stored and is likely to manifest concept drift. Industry applications of machine learning on streaming data become more popular due to the increasing adoption of real-time streaming patterns in IoT, microservices architectures, web analytics, and other fields. The research summarized in this paper surveys the state-of-the-art open-source AutoML tools, applies them to data collected from streams, and measures how their performance changes over time. For comparative purposes, batch, batch incremental and instance incremental estimators are applied and compared. Moreover, a meta-learning technique for online algorithm selection based on meta-feature extraction is proposed and compared while model replacement and continual AutoML techniques are discussed. The results show that off-the-shelf AutoML tools can provide satisfactory results but in the presence of concept drift, detection or adaptation techniques have to be applied to maintain the predictive accuracy over time.
翻訳日:2021-06-16 00:32:13 公開日:2021-06-14
# (参考訳) 画像符号化機能を有する変分準進化型ニューラルネットワーク

Variational Quanvolutional Neural Networks with enhanced image encoding ( http://arxiv.org/abs/2106.07327v1 )

ライセンス: CC BY 4.0
Denny Mattern, Darya Martyniuk, Henri Willems, Fabian Bergmann, Adrian Paschke(参考訳) 画像分類は様々な機械学習アプリケーションにおいて重要な課題である。 近年,量子機械学習と異なる量子画像符号化技術に基づく分類手法が数多く提案されている。 本稿では、畳み込みに着想を得たハイブリッド量子古典画像分類アルゴリズム(QNN)の性能に及ぼす3種類の異なる量子画像符号化手法の効果について検討する。 さらに,変分の影響について検討する。 トレーニング可能 - 分類結果の量子回路。 実験により,画像エンコーディングが変動回路に適していることを示す。 しかし,本実験では,最適な画像エンコーディングは1つではなく,そのエンコーディングの選択がアプリケーションの特定の制約に依存することを示した。

Image classification is an important task in various machine learning applications. In recent years, a number of classification methods based on quantum machine learning and different quantum image encoding techniques have been proposed. In this paper, we study the effect of three different quantum image encoding approaches on the performance of a convolution-inspired hybrid quantum-classical image classification algorithm called quanvolutional neural network (QNN). We furthermore examine the effect of variational - i.e. trainable - quantum circuits on the classification results. Our experiments indicate that some image encodings are better suited for variational circuits. However, our experiments show as well that there is not one best image encoding, but that the choice of the encoding depends on the specific constraints of the application.
翻訳日:2021-06-16 00:19:52 公開日:2021-06-14
# (参考訳) 平均回帰基準のためのオンポリシー深層強化学習

On-Policy Deep Reinforcement Learning for the Average-Reward Criterion ( http://arxiv.org/abs/2106.07329v1 )

ライセンス: CC BY 4.0
Yiming Zhang, Keith W. Ross(参考訳) 我々は, 平均回帰型強化学習(RL)の理論とアルゴリズムを開発した。 まず,2つの政策に対する長期平均報酬の差について考察する。 我々は、割引リターンに基づく以前の作業(Schulman et al., 2015; Achiam et al., 2017)が、平均リワード設定において意味のないバウンドをもたらすことを示す。 平均回帰基準を直接扱うことによって、我々は2つの政策とケメニー定数の間の平均的分岐に依存する新しい境界を導出する。 この境界に基づいて、平均報酬基準に対する単調に改善されたポリシーのシーケンスを生成する反復手順を開発する。 この反復的な手順を古典的なDRL(Deep Reinforcement Learning)手法と組み合わせることで、長期平均報酬基準をターゲットにした実用的なDRLアルゴリズムを実現する。 特に,Average-Reward TRPO (ATRPO) が平均再帰基準に適応し,最も困難な MuJuCo 環境において TRPO を著しく上回っていることを示す。

We develop theory and algorithms for average-reward on-policy Reinforcement Learning (RL). We first consider bounding the difference of the long-term average reward for two policies. We show that previous work based on the discounted return (Schulman et al., 2015; Achiam et al., 2017) results in a non-meaningful bound in the average-reward setting. By addressing the average-reward criterion directly, we then derive a novel bound which depends on the average divergence between the two policies and Kemeny's constant. Based on this bound, we develop an iterative procedure which produces a sequence of monotonically improved policies for the average reward criterion. This iterative procedure can then be combined with classic DRL (Deep Reinforcement Learning) methods, resulting in practical DRL algorithms that target the long-run average reward criterion. In particular, we demonstrate that Average-Reward TRPO (ATRPO), which adapts the on-policy TRPO algorithm to the average-reward criterion, significantly outperforms TRPO in the most challenging MuJuCo environments.
翻訳日:2021-06-16 00:02:49 公開日:2021-06-14
# (参考訳) 脳磁気共鳴画像マルチクラス分類のための深層伝達学習

Deep Transfer Learning for Brain Magnetic Resonance Image Multi-class Classification ( http://arxiv.org/abs/2106.07333v1 )

ライセンス: CC BY 4.0
Yusuf Brima, Mossadek Hossain Kamal Tushar, Upama Kabir, Tariqul Islam(参考訳) MRI(Magnetic Resonance Imaging)は、患者の解剖学的および生理学的構造の画像を作成するために、放射線学の分野で使用される主要な診断手法である。 MRIは軟部組織の異常を見つけるための医用画像撮影法として一般的である。 伝統的に、それらは軟部組織、特に脳の異常を検出するために放射線科医によって分析される。 大量の患者のMRIを解釈する過程は困難である。 したがって、機械学習手法を用いることで、軟部組織の異常をかなり正確に検出することができる。 本研究では、新しいデータセットをキュレートし、Deep Transfer Learningを用いて脳MRI画像中の腫瘍の多重分類を行うフレームワークを開発した。 本稿では,実験にDeep Residual Convolutional Neural Network (ResNet50) アーキテクチャを導入し,モデルを学習するための識別学習手法を提案する。 新しいデータセットと2つのmri脳データセットを用いて、このアプローチは、キュレートされたデータセットで86.40\%、ハーバード全脳アトラスデータセットで93.80\%、生物医学工学データセットで97.05\%の分類精度を得た。 提案するトランスファーラーニングの枠組みは,脳腫瘍のマルチクラス化タスクにおいて有望かつ効果的な手法であることを示す。

Magnetic Resonance Imaging (MRI) is a principal diagnostic approach used in the field of radiology to create images of the anatomical and physiological structure of patients. MRI is the prevalent medical imaging practice to find abnormalities in soft tissues. Traditionally they are analyzed by a radiologist to detect abnormalities in soft tissues, especially the brain. The process of interpreting a massive volume of patient's MRI is laborious. Hence, the use of Machine Learning methodologies can aid in detecting abnormalities in soft tissues with considerable accuracy. In this research, we have curated a novel dataset and developed a framework that uses Deep Transfer Learning to perform a multi-classification of tumors in the brain MRI images. In this paper, we adopted the Deep Residual Convolutional Neural Network (ResNet50) architecture for the experiments along with discriminative learning techniques to train the model. Using the novel dataset and two publicly available MRI brain datasets, this proposed approach attained a classification accuracy of 86.40\% on the curated dataset, 93.80\% on the Harvard Whole Brain Atlas dataset, and 97.05\% accuracy on the School of Biomedical Engineering dataset. Results of our experiments significantly demonstrate our proposed framework for transfer learning is a potential and effective method for brain tumor multi-classification tasks.
翻訳日:2021-06-15 23:30:35 公開日:2021-06-14
# (参考訳) 脳活性化による想像内容の予測

Predicting the imagined contents using brain activation ( http://arxiv.org/abs/2106.07355v1 )

ライセンス: CC BY 4.0
Krishna Prasad Miyapuram, Wolfram Schultz, Philippe N. Tobler(参考訳) 精神的イメージとは知覚入力がない場合に知覚的な経験を指す。 脳画像研究は、共通の、モダリティに特有なニューラル相関が画像と知覚に相関していることを示唆している。 我々は、抽象的な視覚刺激と、視覚的に提示されたり、金銭的な報酬やスクランブル画像とを関連づけた。 機能的磁気共鳴画像を用いて12名の被験者の脳像を収集した。 統計的分析により、人間の中脳領域は、想像または視覚的に提示される金銭的報酬に関係なく活性化された。 中脳の活性化パターンに基づいて訓練されたサポートベクターマシンは、参加者が想像した金銭的報酬か、想像力の試練中にスクランブルされた絵かを75%の精度で予測した報酬を視覚的に提示する。 視覚的に提示した実験からトレーニングサンプルを抽出し,想像力試験で分類精度を評価した。 これらの結果は,脳画像データから基礎的認知状態の分類に機械学習を用いたことを示唆する。

Mental imagery refers to percept-like experiences in the absence of sensory input. Brain imaging studies suggest common, modality-specific, neural correlates imagery and perception. We associated abstract visual stimuli with either visually presented or imagined monetary rewards and scrambled pictures. Brain images for a group of 12 participants were collected using functional magnetic resonance imaging. Statistical analysis showed that human midbrain regions were activated irrespective of the monetary rewards being imagined or visually present. A support vector machine trained on the midbrain activation patterns to the visually presented rewards predicted with 75% accuracy whether the participants imagined the monetary reward or the scrambled picture during imagination trials. Training samples were drawn from visually presented trials and classification accuracy was assessed for imagination trials. These results suggest the use of machine learning technique for classification of underlying cognitive states from brain imaging data.
翻訳日:2021-06-15 23:09:37 公開日:2021-06-14
# (参考訳) 顔解析のための品質認識ネットワーク

Quality-Aware Network for Face Parsing ( http://arxiv.org/abs/2106.07368v1 )

ライセンス: CC BY 4.0
Lu Yang, Qing Song, Xueshi Xin, Zhiwei Liu(参考訳) これは非常に短い技術的レポートで、CVPR 2021の3番目の人物(PIC)ワークショップとチャレンジのショートビデオ顔解析トラックのためのチームBUPT-CASIAのソリューションを紹介します。 顔解析は、アプリケーションの可能性の多さから、最近関心が高まっている。 一般的に言えば、タスク設定、データ特性、カテゴリ数など、ヒューマンパースと多くの共通点がある。 そこで本研究では,最先端のヒューマンパース手法を顔解析タスクに適用し,それらの類似点と相違点を探索する。 我々の応募は86.84%のスコアを獲得し、この挑戦で2位を獲得した。

This is a very short technical report, which introduces the solution of the Team BUPT-CASIA for Short-video Face Parsing Track of The 3rd Person in Context (PIC) Workshop and Challenge at CVPR 2021. Face parsing has recently attracted increasing interest due to its numerous application potentials. Generally speaking, it has a lot in common with human parsing, such as task setting, data characteristics, number of categories and so on. Therefore, this work applies state-of-the-art human parsing method to face parsing task to explore the similarities and differences between them. Our submission achieves 86.84% score and wins the 2nd place in the challenge.
翻訳日:2021-06-15 23:04:08 公開日:2021-06-14
# (参考訳) 関数学習と外挿のための自己監督型フレームワーク

A Self-Supervised Framework for Function Learning and Extrapolation ( http://arxiv.org/abs/2106.07369v1 )

ライセンス: CC BY 4.0
Simon N. Segert, Jonathan D. Cohen(参考訳) エージェントがどのようにして高次元で自然主義的な環境で一般化し、特に外挿することを学ぶかを理解することは、機械学習と生物学的エージェントの研究の両方にとって課題である。 これに対する1つのアプローチは、滑らかなスカラー関数の一般化に関する人々の経験的パターンを正確に記述できる関数学習パラダイムの使用である。 しかし、このような研究は、人間の経験的研究で観察された一般化のパターンを示すために、関数学習が動作可能な汎用表現の種類を取得するメカニズムの特定に成功していない。 本稿では,学習者がそのような表現をどのように獲得するかを示すフレームワークを提案する。 視覚処理の古典的理論から着想を得て,位相歪み下での不変性の基本帰納バイアスを実装する自己教師付きエンコーダを構築する。 その結果,外挿を含むいくつかの下流関数学習タスクにおいて,教師なし時系列学習のために,他のモデルの表現よりも優れることを示す。

Understanding how agents learn to generalize -- and, in particular, to extrapolate -- in high-dimensional, naturalistic environments remains a challenge for both machine learning and the study of biological agents. One approach to this has been the use of function learning paradigms, which allow peoples' empirical patterns of generalization for smooth scalar functions to be described precisely. However, to date, such work has not succeeded in identifying mechanisms that acquire the kinds of general purpose representations over which function learning can operate to exhibit the patterns of generalization observed in human empirical studies. Here, we present a framework for how a learner may acquire such representations, that then support generalization -- and extrapolation in particular -- in a few-shot fashion. Taking inspiration from a classic theory of visual processing, we construct a self-supervised encoder that implements the basic inductive bias of invariance under topological distortions. We show the resulting representations outperform those from other models for unsupervised time series learning in several downstream function learning tasks, including extrapolation.
翻訳日:2021-06-15 23:00:00 公開日:2021-06-14
# (参考訳) エッジ検出アルゴリズムのための拡張フィルタ

Dilated filters for edge detection algorithms ( http://arxiv.org/abs/2106.07395v1 )

ライセンス: CC BY 4.0
Ciprian Orhei, Victor Bogdan, Cosmin Bonchis(参考訳) エッジは画像処理の基本的な特徴であり、大量のアプリケーションで直接または間接的に使用される。 画像解像度の拡大と処理パワーの拡張による畳み込み技術が出現した。 拡張畳み込みは機械学習において顕著な結果をもたらすが、ここでは、エッジ検出アルゴリズムで使用される標準フィルタの拡張について論じる。 本研究では,従来の畳み込みフィルタを拡張したフィルタに代えて,従来の結果と現在の結果をすべてまとめる。 提案した拡張フィルタを用いて,エッジ検出アルゴリズムの結果を,元のフィルタやカスタム変種と比較する。 実験の結果,フィルタの拡張がエッジ検出アルゴリズムに有意な影響を与えることが明らかとなった。

Edges are a basic and fundamental feature in image processing, that are used directly or indirectly in huge amount of applications. Inspired by the expansion of image resolution and processing power dilated convolution techniques appeared. Dilated convolution have impressive results in machine learning, we discuss here the idea of dilating the standard filters which are used in edge detection algorithms. In this work we try to put together all our previous and current results by using instead of the classical convolution filters a dilated one. We compare the results of the edge detection algorithms using the proposed dilation filters with original filters or custom variants. Experimental results confirm our statement that dilation of filters have positive impact for edge detection algorithms form simple to rather complex algorithms.
翻訳日:2021-06-15 22:44:53 公開日:2021-06-14
# (参考訳) PI-GNN:ノイズラベルに対する半監督ノード分類の新しい視点

PI-GNN: A Novel Perspective on Semi-Supervised Node Classification against Noisy Labels ( http://arxiv.org/abs/2106.07451v1 )

ライセンス: CC BY 4.0
Xuefeng Du, Tian Bian, Yu Rong, Bo Han, Tongliang Liu, Tingyang Xu, Wenbing Huang, Junzhou Huang(参考訳) グラフ学習の基本的な問題である半教師付きノード分類では、ラベル付きノードと少数のラベル付きノードをトレーニングに利用している。 既存の手法は高品質なラベルに大きく依存するが、特定のノイズがラベリングの過程で必然的に関与するため、現実のアプリケーションで入手するのに費用がかかる。 したがって、学習アルゴリズムがうまく一般化することは避けられない課題となる。 本稿では,グラフニューラルネットワーク (GNN) のようなモデルのためのペアワイズ・インタラクション (PI) と呼ばれる,雑音のあるラベルに対処する新しい頑健な学習目標を提案する。 ノードとクラスラベルのペア間のポイントワイドな相互作用を操作する古典的な堅牢なトレーニングアプローチとは異なり、PIは正のPIラベルを持つノードペアの埋め込みを明示的に強制し、ラベル付きノードとラベルなしノードの両方に適用することができる。 グラフ構造とノードクラスラベルに基づくpiラベルのインスタンス化をいくつか設計し,さらに,サブオプティカルpiラベルの悪影響を緩和する新たな不確実性認識トレーニング手法を提案する。 異なるデータセットとGNNアーキテクチャに関する大規模な実験は、PIの有効性を示し、最先端の手法よりも有望な改善をもたらす。

Semi-supervised node classification, as a fundamental problem in graph learning, leverages unlabeled nodes along with a small portion of labeled nodes for training. Existing methods rely heavily on high-quality labels, which, however, are expensive to obtain in real-world applications since certain noises are inevitably involved during the labeling process. It hence poses an unavoidable challenge for the learning algorithm to generalize well. In this paper, we propose a novel robust learning objective dubbed pairwise interactions (PI) for the model, such as Graph Neural Network (GNN) to combat noisy labels. Unlike classic robust training approaches that operate on the pointwise interactions between node and class label pairs, PI explicitly forces the embeddings for node pairs that hold a positive PI label to be close to each other, which can be applied to both labeled and unlabeled nodes. We design several instantiations for PI labels based on the graph structure and the node class labels, and further propose a new uncertainty-aware training technique to mitigate the negative effect of the sub-optimal PI labels. Extensive experiments on different datasets and GNN architectures demonstrate the effectiveness of PI, yielding a promising improvement over the state-of-the-art methods.
翻訳日:2021-06-15 22:20:08 公開日:2021-06-14
# (参考訳) 協調フィルタリングのための効率的なデータ固有モデル探索

Efficient Data-specific Model Search for Collaborative Filtering ( http://arxiv.org/abs/2106.07453v1 )

ライセンス: CC BY 4.0
Chen Gao and Quanming Yao and Depeng Jin and Yong Li(参考訳) コラボレーティブフィルタリング(cf、collaborative filtering)は、レコメンダシステムの基本アプローチとして、学習可能なパラメータを持つ潜在因子モデルに基づいて、アイテムに対するユーザの好みを予測する。 しかし、データセットの特性は非常に多様であるため、与えられたデータに対する適切なcfモデルの設計は容易ではない。 本稿では,機械学習(AutoML)の最近の進歩を動機として,データ固有のCFモデルをAutoML技術により設計することを提案する。 ここでのキーは、最先端(SOTA)のCFメソッドを統一し、それらを入力エンコーディング、埋め込み関数、相互作用関数、予測関数の非結合ステージに分割する新しいフレームワークである。 さらに, ランダム検索と性能予測器を用いて, より使いやすく, 堅牢で, 効率的な検索戦略を構築した。 このようにして、文献にないデータ固有のcfモデルをsomaモデルから組合せ的に一般化することができる。 5つの実世界のデータセットに対する大規模な実験により、我々の手法は様々なCFタスクにおいてSOTAよりも一貫して優れていることが示された。 さらに,提案手法の合理性と探索戦略の効率性を検証する実験を行った。 検索されたCFモデルは、将来より効果的な方法を探究するための洞察を提供することができる

Collaborative filtering (CF), as a fundamental approach for recommender systems, is usually built on the latent factor model with learnable parameters to predict users' preferences towards items. However, designing a proper CF model for a given data is not easy, since the properties of datasets are highly diverse. In this paper, motivated by the recent advances in automated machine learning (AutoML), we propose to design a data-specific CF model by AutoML techniques. The key here is a new framework that unifies state-of-the-art (SOTA) CF methods and splits them into disjoint stages of input encoding, embedding function, interaction function, and prediction function. We further develop an easy-to-use, robust, and efficient search strategy, which utilizes random search and a performance predictor for efficient searching within the above framework. In this way, we can combinatorially generalize data-specific CF models, which have not been visited in the literature, from SOTA ones. Extensive experiments on five real-world datasets demonstrate that our method can consistently outperform SOTA ones for various CF tasks. Further experiments verify the rationality of the proposed framework and the efficiency of the search strategy. The searched CF models can also provide insights for exploring more effective methods in the future
翻訳日:2021-06-15 22:01:29 公開日:2021-06-14
# (参考訳) $f$-GANによるブリッジ推定器の改善

Improving Bridge estimators via $f$-GAN ( http://arxiv.org/abs/2106.07462v1 )

ライセンス: CC BY 4.0
Hanwen Xing(参考訳) ブリッジサンプリングは、正規化定数の比率を推定する強力なモンテカルロ法である。 効率を向上させるために様々な方法が導入された。 これらの方法は、正規化定数を変更することなく、適切な変換を適用することで密度間の重なりを増大させることを目的としている。 本稿では,まず2つの密度間のf$-divergenceを等価に推定することにより,最適ブリッジ推定器の漸近相対平均二乗誤差(rmse)の新しい推定器を提案する。 次に、このフレームワークを利用し、一方の密度を他方にマップする単射変換に基づいて、$f$-GAN-Bridge estimator (f$-GB)を提案する。 そのような変換は、$f$-GAN \citep{nowozin2016f} を用いて、それらの間の特定の$f$-divergenceを最小化する。 最適橋梁推定器の漸近的rmseを密度に対して最小化することと同値であることを示す。 言い換えれば、$f$-GB は漸近的に、候補変換によって生成される密度のクラス内の変換密度に基づいてブリッジ推定器が達成した値よりも低い RMSE を達成することができるという意味で最適である。 数値実験によれば、$f$-gbはシミュレーションや実世界の例では既存の方法よりも優れている。 さらに,$f$-divergence推定の問題から橋梁推定器が自然に発生するかについて議論する。

Bridge sampling is a powerful Monte Carlo method for estimating ratios of normalizing constants. Various methods have been introduced to improve its efficiency. These methods aim to increase the overlap between the densities by applying appropriate transformations to them without changing their normalizing constants. In this paper, we first give a new estimator of the asymptotic relative mean square error (RMSE) of the optimal Bridge estimator by equivalently estimating an $f$-divergence between the two densities. We then utilize this framework and propose $f$-GAN-Bridge estimator ($f$-GB) based on a bijective transformation that maps one density to the other. Such transformation is chosen to minimize a specific $f$-divergence between them using an $f$-GAN \citep{nowozin2016f}. We show it is equivalent to minimizing the asymptotic RMSE of the optimal Bridge estimator with respect to the densities. In other words, $f$-GB is optimal in the sense that asymptotically, it can achieve an RMSE lower than that achieved by Bridge estimators based on any transformed density within the class of densities generated by the candidate transformations. Numerical experiments show that $f$-GB outperforms existing methods in simulated and real-world examples. In addition, we discuss how Bridge estimators naturally arise from the problem of $f$-divergence estimation.
翻訳日:2021-06-15 21:40:51 公開日:2021-06-14
# (参考訳) S$^2$-MLP:視覚のための空間シフト型MLPアーキテクチャ

S$^2$-MLP: Spatial-Shift MLP Architecture for Vision ( http://arxiv.org/abs/2106.07477v1 )

ライセンス: CC BY 4.0
Tan Yu, Xu Li, Yunfeng Cai, Mingming Sun, Ping Li(参考訳) 近年、visual transformer (vit) とその次の作品は畳み込みを放棄し、自己着脱操作を活用し、cnnと同等またはそれ以上の精度を達成する。 最近では、MLP-Mixerは畳み込みと自己注意操作の両方を捨て、MLP層のみを含むアーキテクチャを提案する。 クロスパッチ通信を実現するため、チャネルミキシング MLP に加えて、トークンミキシング MLP も考案した。 非常に大規模なデータセットでトレーニングすると、有望な結果が得られる。 しかし、ImageNet1KやImageNet21Kのような中規模のデータセットのトレーニングでは、CNNやViTほど優れたパフォーマンスを達成できない。 MLP-Mixerの性能低下は、トークンミキシングMLPを再考する動機となっている。 MLP-Mixerにおけるトークンミキシング操作は,大域的な受信フィールドと空間固有の構成を持つ深部的な畳み込みの変種であることがわかった。 しかし、グローバル受信フィールドと空間特性により、トークン混合MLPは過度に適合する傾向にある。 本稿では,空間シフト型MLP(S$^2$-MLP)を提案する。 MLP-Mixerとは異なり、S$^2$-MLP はチャネル混合 MLP のみを含む。 パッチ間の通信を実現するための空間シフト操作を考案する。 局所的な受信フィールドを持ち、空間に依存しない。 一方、パラメータフリーであり、計算に効率的である。 提案したS$^2$-MLPは、ImageNet-1Kデータセットのトレーニングにおいて、MLP-Mixerよりも高い認識精度を実現する。 一方、s$^2$-mlp は imagenet-1k データセットの vit と同等の性能を達成し、かなり単純なアーキテクチャとより少ないフラップとパラメータを持つ。

Recently, visual Transformer (ViT) and its following works abandon the convolution and exploit the self-attention operation, attaining a comparable or even higher accuracy than CNN. More recently, MLP-Mixer abandons both the convolution and the self-attention operation, proposing an architecture containing only MLP layers. To achieve cross-patch communications, it devises an additional token-mixing MLP besides the channel-mixing MLP. It achieves promising results when training on an extremely large-scale dataset. But it cannot achieve as outstanding performance as its CNN and ViT counterparts when training on medium-scale datasets such as ImageNet1K and ImageNet21K. The performance drop of MLP-Mixer motivates us to rethink the token-mixing MLP. We discover that token-mixing operation in MLP-Mixer is a variant of depthwise convolution with a global reception field and spatial-specific configuration. But the global reception field and the spatial-specific property make token-mixing MLP prone to over-fitting. In this paper, we propose a novel pure MLP architecture, spatial-shift MLP (S$^2$-MLP). Different from MLP-Mixer, our S$^2$-MLP only contains channel-mixing MLP. We devise a spatial-shift operation for achieving the communication between patches. It has a local reception field and is spatial-agnostic. Meanwhile, it is parameter-free and efficient for computation. The proposed S$^2$-MLP attains higher recognition accuracy than MLP-Mixer when training on ImageNet-1K dataset. Meanwhile, S$^2$-MLP accomplishes as excellent performance as ViT on ImageNet-1K dataset with considerably simpler architecture and fewer FLOPs and parameters.
翻訳日:2021-06-15 21:39:41 公開日:2021-06-14
# (参考訳) Graph Domain Adaptation: ジェネレーティブなビュー

Graph Domain Adaptation: A Generative View ( http://arxiv.org/abs/2106.07482v1 )

ライセンス: CC BY 4.0
Ruichu Cai, Fengzhu Wu, Zijian Li, Pengfei Wei, Lingling Yi, Kun Zhang(参考訳) 近年、グラフ構造化データの深層学習への関心が高まっている。 ラベル付きグラフ構造化データの収集コストが高いため、限られたサンプルで教師ありグラフ学習タスクにはドメイン適応が重要である。 しかし、現在のグラフ領域適応法は一般に従来の領域適応法から採用されており、グラフ構造化データの特性は十分に利用されていない。 例えば、異なるプラットフォーム上の観測されたソーシャルネットワークは、異なる集団やコミュニティだけでなく、ドメイン固有のポリシーやバックグラウンドノイズによって制御される。 グラフ構造データにおけるこれらの特性に基づき、まず、グラフ構造データ生成プロセスは3つの独立した潜在変数、すなわち意味的潜在変数、ドメイン的潜在変数、ランダムな潜在変数によって制御されていると仮定する。 そこで本研究では,これらの潜在変数を復元するために変分グラフオートエンコーダを適用し,これらを3つの教師あり学習モジュールで分離する,グラフ構造データに対する非教師なし領域適応法を提案する。 グラフ分類タスクにおける2つの実世界のデータセットの広範な実験結果から,従来のドメイン適応法と異方性に基づくドメイン適応法を大幅に上回るだけでなく,最先端のグラフドメイン適応アルゴリズムも上回ることがわかった。

Recent years have witnessed tremendous interest in deep learning on graph-structured data. Due to the high cost of collecting labeled graph-structured data, domain adaptation is important to supervised graph learning tasks with limited samples. However, current graph domain adaptation methods are generally adopted from traditional domain adaptation tasks, and the properties of graph-structured data are not well utilized. For example, the observed social networks on different platforms are controlled not only by the different crowd or communities but also by the domain-specific policies and the background noise. Based on these properties in graph-structured data, we first assume that the graph-structured data generation process is controlled by three independent types of latent variables, i.e., the semantic latent variables, the domain latent variables, and the random latent variables. Based on this assumption, we propose a disentanglement-based unsupervised domain adaptation method for the graph-structured data, which applies variational graph auto-encoders to recover these latent variables and disentangles them via three supervised learning modules. Extensive experimental results on two real-world datasets in the graph classification task reveal that our method not only significantly outperforms the traditional domain adaptation methods and the disentangled-based domain adaptation methods but also outperforms the state-of-the-art graph domain adaptation algorithms.
翻訳日:2021-06-15 21:24:39 公開日:2021-06-14
# (参考訳) 説明可能なAIは不公平を説明できるのか? 説明可能なAIを評価するためのフレームワーク

Can Explainable AI Explain Unfairness? A Framework for Evaluating Explainable AI ( http://arxiv.org/abs/2106.07483v1 )

ライセンス: CC0 1.0
Kiana Alikhademi, Brianna Richardson, Emma Drobina, and Juan E. Gilbert(参考訳) 多くのMLモデルは人間には不透明であり、人間が容易に理解するには決定が複雑すぎる。 これに対し、モデルの内部動作を分析する説明可能な人工知能(XAI)ツールが作成されている。 これらのツールがモデルビヘイビアの翻訳に長けているにもかかわらず、批判はXAIツールが「フェアウォッシング」ツールとして影響を与えていることを懸念している。 本稿では、バイアスや公平性の問題を検知し、対処する能力と、これらの結果をユーザに明確に伝える能力に関して、説明可能なAIツールを評価するためのフレームワークを作成しました。 モデルの振る舞いを単純化し、説明する能力があるにもかかわらず、多くの著名なXAIツールはバイアスを検出するのに重要な機能を欠いています。 開発者は私たちのフレームワークを使ってツールキットに必要な修正を提案し、フェアウォッシングのような問題を軽減できます。

Many ML models are opaque to humans, producing decisions too complex for humans to easily understand. In response, explainable artificial intelligence (XAI) tools that analyze the inner workings of a model have been created. Despite these tools' strength in translating model behavior, critiques have raised concerns about the impact of XAI tools as a tool for `fairwashing` by misleading users into trusting biased or incorrect models. In this paper, we created a framework for evaluating explainable AI tools with respect to their capabilities for detecting and addressing issues of bias and fairness as well as their capacity to communicate these results to their users clearly. We found that despite their capabilities in simplifying and explaining model behavior, many prominent XAI tools lack features that could be critical in detecting bias. Developers can use our framework to suggest modifications needed in their toolkits to reduce issues likes fairwashing.
翻訳日:2021-06-15 21:03:19 公開日:2021-06-14
# (参考訳) pix2rule: エンドツーエンドのニューロシンボリックルール学習

pix2rule: End-to-end Neuro-symbolic Rule Learning ( http://arxiv.org/abs/2106.07487v1 )

ライセンス: CC BY 4.0
Nuri Cingillioglu, Alessandra Russo(参考訳) 人間は、低レベルの視覚入力と高レベルの象徴的推論をシームレスに組み合わせ、物体を認識し、それらの関係を学習し、規則を適用することができる。 ニューロシンボリックシステムは、視覚処理と抽象推論のための接続主義と論理に基づく原則にそれぞれ統一的なアプローチをもたらすことを目的としている。 本稿では,物体への画像処理,学習関係,論理規則をエンドツーエンドに行うための完全なニューロシンボリック手法を提案する。 主な貢献は、プルーニングとしきい値付けによってシンボリックリレーションとルールを抽出できるディープラーニングアーキテクチャにおける差別化可能なレイヤである。 シンボルルール学習のためのサブグラフ同型タスクと,学習対象,関係,規則に関する複合関係を持つ画像分類領域の2つを用いて,本モデルを評価する。 我々のモデルは最先端のシンボリックラーナーを超えてスケールし、ディープリレーショナルニューラルネットワークアーキテクチャよりも優れています。

Humans have the ability to seamlessly combine low-level visual input with high-level symbolic reasoning often in the form of recognising objects, learning relations between them and applying rules. Neuro-symbolic systems aim to bring a unifying approach to connectionist and logic-based principles for visual processing and abstract reasoning respectively. This paper presents a complete neuro-symbolic method for processing images into objects, learning relations and logical rules in an end-to-end fashion. The main contribution is a differentiable layer in a deep learning architecture from which symbolic relations and rules can be extracted by pruning and thresholding. We evaluate our model using two datasets: subgraph isomorphism task for symbolic rule learning and an image classification domain with compound relations for learning objects, relations and rules. We demonstrate that our model scales beyond state-of-the-art symbolic learners and outperforms deep relational neural network architectures.
翻訳日:2021-06-15 20:53:13 公開日:2021-06-14
# (参考訳) NLPにおける限定データ学習のためのデータ拡張に関する実証的研究

An Empirical Survey of Data Augmentation for Limited Data Learning in NLP ( http://arxiv.org/abs/2106.07499v1 )

ライセンス: CC BY 4.0
Jiaao Chen, Derek Tam, Colin Raffel, Mohit Bansal and Diyi Yang(参考訳) NLPは、ニューラルモデルと大きなラベル付きデータセットを使用することで、過去10年間で大きな進歩を遂げた。 豊富なデータへの依存は、大量のテキストデータをラベル付けするためにかなりの時間、お金、専門知識を必要とする低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。 近年,NLPのデータ効率向上手法としてデータ拡張手法が検討されている。 現在までに、制限付きラベル付きデータ設定において、NLPのデータ拡張に関する体系的な実証的な概要は存在せず、どのメソッドがどの設定で機能するかを理解することは困難である。 本稿では,限定ラベル付きデータセットにおけるnlpのデータ拡張の最近の進展に関する実証調査を行い,手法の展望(トークンレベルの拡張,文レベルの拡張,adversarial augmentation,hidden-space拡張など)を要約し,トピック/ニュース分類,推論タスク,パラフレージングタスク,シングルセンテンスタスクを含む11のデータセットについて実験を行った。 これらの結果をもとに,実践者が異なる設定で適切な拡張を選択するのに役立ついくつかの結論を導き,NLPにおける限られたデータ学習の現在の課題と今後の方向性について議論する。

NLP has achieved great progress in the past decade through the use of neural models and large labeled datasets. The dependence on abundant data prevents NLP models from being applied to low-resource settings or novel tasks where significant time, money, or expertise is required to label massive amounts of textual data. Recently, data augmentation methods have been explored as a means of improving data efficiency in NLP. To date, there has been no systematic empirical overview of data augmentation for NLP in the limited labeled data setting, making it difficult to understand which methods work in which settings. In this paper, we provide an empirical survey of recent progress on data augmentation for NLP in the limited labeled data setting, summarizing the landscape of methods (including token-level augmentations, sentence-level augmentations, adversarial augmentations, and hidden-space augmentations) and carrying out experiments on 11 datasets covering topics/news classification, inference tasks, paraphrasing tasks, and single-sentence tasks. Based on the results, we draw several conclusions to help practitioners choose appropriate augmentations in different settings and discuss the current challenges and future directions for limited data learning in NLP.
翻訳日:2021-06-15 20:51:46 公開日:2021-06-14
# (参考訳) wassersteinの不一致によるマルチレベルハイパーグラフ分割のためのバランスのとれた粗さ処理

Balanced Coarsening for Multilevel Hypergraph Partitioning via Wasserstein Discrepancy ( http://arxiv.org/abs/2106.07501v1 )

ライセンス: CC BY 4.0
Zhicheng Guo, Jiaxuan Zhao, Licheng Jiao, Xu Liu(参考訳) マルチレベルハイパーグラフ分割のためのバランスの取れた粗大化方式を提案する。 さらに,k方向ハイパーグラフ分割の品質向上のために,初期分割アルゴリズムが設計された。 LPTアルゴリズムにより頂点重みを割り当てることで、緩和バランス制約の下で先行ハイパーグラフを生成する。 先行ハイパーグラフを用いて,粗粒化過程の最適移動をコーディネートするために,wassersteinの不一致を定義した。 そして、最適輸送行列をシンクホーンアルゴリズムにより解く。 我々の粗面化スキームは接続距離(目的関数)の最小化を十分に考慮している。 最初の分割の段階では、フィドラーベクトルによって誘導される正規化カット関数を定義し、理論的には凹関数であることが証明される。 これにより、バランス制約の下で最適なカットを見つけるための3点アルゴリズムが設計される。

We propose a balanced coarsening scheme for multilevel hypergraph partitioning. In addition, an initial partitioning algorithm is designed to improve the quality of k-way hypergraph partitioning. By assigning vertex weights through the LPT algorithm, we generate a prior hypergraph under a relaxed balance constraint. With the prior hypergraph, we have defined the Wasserstein discrepancy to coordinate the optimal transport of coarsening process. And the optimal transport matrix is solved by Sinkhorn algorithm. Our coarsening scheme fully takes into account the minimization of connectivity metric (objective function). For the initial partitioning stage, we define a normalized cut function induced by Fiedler vector, which is theoretically proved to be a concave function. Thereby, a three-point algorithm is designed to find the best cut under the balance constraint.
翻訳日:2021-06-15 20:23:58 公開日:2021-06-14
# (参考訳) アラビア文字分類のための様々なトケナイザの評価

Evaluating Various Tokenizers for Arabic Text Classification ( http://arxiv.org/abs/2106.07540v1 )

ライセンス: CC BY 4.0
Zaid Alyafeai, Maged S. Al-shaibani, Mustafa Ghaleb, Irfan Ahmad(参考訳) NLPパイプラインの最初のステップは、ワードベクトル表現を学習することだ。 しかし、大きなテキストコーパスがあると、すべての単語を表現するのは効率的ではない。 文献では、全てのテキストコーパスの語彙サイズを制限するサブワードを作成することで、この問題に取り組むために多くのトークン化アルゴリズムが登場している。 しかし、そのようなアルゴリズムは主に言語に依存しず、意味のあるトークンをキャプチャする適切な方法がない。 このようなテクニックを実際に評価することの難しさは言うまでもない。 本稿ではアラビア語に対する3つの新しいトークン化アルゴリズムを導入し、教師なし評価を用いて他の3つのベースラインと比較する。 それに加えて,感情分析,ニュース分類,詩分類という3つのタスクで6つのアルゴリズムを比較して評価した。 実験の結果,このようなトークン化アルゴリズムの性能は,データセットのサイズ,タスクの種類,データセットに存在する形態素量に依存することがわかった。

The first step in any NLP pipeline is learning word vector representations. However, given a large text corpus, representing all the words is not efficient. In the literature, many tokenization algorithms have emerged to tackle this problem by creating subwords which in turn limits the vocabulary size in any text corpus. However such algorithms are mostly language-agnostic and lack a proper way of capturing meaningful tokens. Not to mention the difficulty of evaluating such techniques in practice. In this paper, we introduce three new tokenization algorithms for Arabic and compare them to three other baselines using unsupervised evaluations. In addition to that, we compare all the six algorithms by evaluating them on three tasks which are sentiment analysis, news classification and poetry classification. Our experiments show that the performance of such tokenization algorithms depends on the size of the dataset, type of the task, and the amount of morphology that exists in the dataset.
翻訳日:2021-06-15 20:10:12 公開日:2021-06-14
# (参考訳) polarstream: 極柱を用いたストリーミングlidarオブジェクト検出とセグメンテーション

PolarStream: Streaming Lidar Object Detection and Segmentation with Polar Pillars ( http://arxiv.org/abs/2106.07545v1 )

ライセンス: CC BY 4.0
Qi Chen, Sourabh Vora and Oscar Beijbom(参考訳) 最近の研究はlidarsを本質的にストリーミングデータソースとして認識しており、lidar知覚モデルのエンドツーエンドのレイテンシは、wedge型のポイントクラウドセクタで操作することで大幅に削減できることを示した。 しかし、デカルト座標系の使用により、これらの方法はセクタを矩形領域として表現し、メモリを浪費し計算する。 本研究では,極座標系を用い,この設計を2つの重要な改良点とする。 まず,従来のスキャンから前のセクタ,過去スキャンから次のセクタまで,隣接セクタからのマルチスケールパディングを用いて,空間的コンテキストを増大させる。 第2に、特徴の歪みと範囲の階層化畳み込みを導入することにより、コア極性畳み込み構造を改善する。 nuScenesデータセットの実験結果は、他のストリーミングベースの方法よりも大幅に改善されている。 また,既存の非ストリーミング方式と同等の結果を得たが,レイテンシは低かった。

Recent works recognized lidars as an inherently streaming data source and showed that the end-to-end latency of lidar perception models can be reduced significantly by operating on wedge-shaped point cloud sectors rather then the full point cloud. However, due to use of cartesian coordinate systems these methods represent the sectors as rectangular regions, wasting memory and compute. In this work we propose using a polar coordinate system and make two key improvements on this design. First, we increase the spatial context by using multi-scale padding from neighboring sectors: preceding sector from the current scan and/or the following sector from the past scan. Second, we improve the core polar convolutional architecture by introducing feature undistortion and range stratified convolutions. Experimental results on the nuScenes dataset show significant improvements over other streaming based methods. We also achieve comparable results to existing non-streaming methods but with lower latencies.
翻訳日:2021-06-15 19:56:49 公開日:2021-06-14
# (参考訳) エッジ重み更新ニューラルネットワークを用いたエンティティ正規化モデル:知識駆動グラフとデータ駆動グラフの同化

Named Entity Normalization Model Using Edge Weight Updating Neural Network: Assimilation Between Knowledge-Driven Graph and Data-Driven Graph ( http://arxiv.org/abs/2106.07549v1 )

ライセンス: CC BY 4.0
Sung Hwan Jeon and Sungzoon Cho(参考訳) マッチした名前付きエンティティペアの識別や、エンティティの標準フォームの識別は、テキストマイニングタスクにおいて重要である。 テキストマイニングにおけるより正確な名前付きエンティティの正規化は、後続のテキスト分析アプリケーションに役立つだろう。 We built the named entity normalization model with a novel Edge Weight Updating Neural Network。 提案モデルでは,4つの異なるデータセットでテストした結果を得た。 次に,生物情報学分野におけるエンティティ正規化データセットとして広く使用されているNCBI病,BC5CDR病,BC5CDRケミカルデータベースの性能を検証する。 また、より一般的なアプリケーションの有効性を検証するために、独自のファイナンシャル名称のエンティティ正規化データセットでモデルをテストしました。 構築されたデータセットを用いて、名前付きエンティティペアを区別する。 本モデルでは,様々な評価指標を用いて,最上位のエンティティ正規化性能を達成した。

Discriminating the matched named entity pairs or identifying the entities' canonical forms are critical in text mining tasks. More precise named entity normalization in text mining will benefit other subsequent text analytic applications. We built the named entity normalization model with a novel Edge Weight Updating Neural Network. Our proposed model when tested on four different datasets achieved state-of-the-art results. We, next, verify our model's performance on NCBI Disease, BC5CDR Disease, and BC5CDR Chemical databases, which are widely used named entity normalization datasets in the bioinformatics field. We also tested our model with our own financial named entity normalization dataset to validate the efficacy for more general applications. Using the constructed dataset, we differentiate named entity pairs. Our model achieved the highest named entity normalization performances in terms of various evaluation metrics.
翻訳日:2021-06-15 19:53:18 公開日:2021-06-14
# (参考訳) 非ガウス分解拡散モデル

Non Gaussian Denoising Diffusion Models ( http://arxiv.org/abs/2106.07582v1 )

ライセンス: CC BY 4.0
Eliya Nachmani, Robin San Roman, Lior Wolf(参考訳) 生成拡散プロセスは、画像および音声生成のための新しく効果的なツールである。 既存手法では拡散過程の下線雑音分布はガウス雑音である。 しかし、分布をより多くの自由度に適合させることで、そのような生成モデルの性能を高めることができる。 本研究では拡散過程における他の種類のノイズ分布について検討する。 具体的には,ガンマ分布からの雑音が画像および音声生成に改善をもたらすことを示す。 さらに, 拡散過程におけるガウス雑音変数の混合を用いることで, 単一分布に基づく拡散過程よりも性能が向上することを示す。 提案手法は,ガンマノイズと混合雑音を用いて,トレーニング拡散過程の状態を効率的にサンプリングする能力を保持する。

Generative diffusion processes are an emerging and effective tool for image and speech generation. In the existing methods, the underline noise distribution of the diffusion process is Gaussian noise. However, fitting distributions with more degrees of freedom, could help the performance of such generative models. In this work, we investigate other types of noise distribution for the diffusion process. Specifically, we show that noise from Gamma distribution provides improved results for image and speech generation. Moreover, we show that using a mixture of Gaussian noise variables in the diffusion process improves the performance over a diffusion process that is based on a single distribution. Our approach preserves the ability to efficiently sample state in the training diffusion process while using Gamma noise and a mixture of noise.
翻訳日:2021-06-15 19:36:35 公開日:2021-06-14
# (参考訳) no more glowing in the dark: 深層学習が熱ルミネッセンス線量計の露光日推定を改善する方法

No more glowing in the dark: How deep learning improves exposure date estimation in thermoluminescence dosimetry ( http://arxiv.org/abs/2106.07592v1 )

ライセンス: CC BY 4.0
F. Mentzel, E. Derugin, H. Jansen, K. Kr\"oninger, O. Nackenhorst, J. Walbersloh and J. Weingarten(参考訳) 熱ルミネッセンス線量計からの時間または温度分解検出器信号は、電離放射線への曝露状況に関する追加情報を明らかにすることができる。 TU Dortmund Universityと共同でMaterialpr\"ufungsamt NRWによって開発された新しいTL-DOS個人線量計の光度曲線から,42日間の監視間隔内で12mSvの単一照射日を推定するために,ディープニューラルネットワークを用いた研究を行った。 深層畳み込みネットワークを用いて、温度空間への事前変換やその後のグローカーブデコンボリューションを必要とせず、68%の信頼度レベルで約1-2日の不確かさを有する生の時間分解グローカーブデータから照射日を予測できる。 これは、ニューラルネットワークへの入力としてグローカーブデコンボリューションから得られた特徴を用いて、2〜4日間の予測不確実性をもたらす以前の出版と比較して、予測精度の大幅な向上に対応する。

The time- or temperature-resolved detector signal from a thermoluminescence dosimeter can reveal additional information about circumstances of an exposure to ionizing irradiation. We present studies using deep neural networks to estimate the date of a single irradiation with 12 mSv within a monitoring interval of 42 days from glow curves of novel TL-DOS personal dosimeters developed by the Materialpr\"ufungsamt NRW in cooperation with TU Dortmund University. Using a deep convolutional network, the irradiation date can be predicted from raw time-resolved glow curve data with an uncertainty of roughly 1-2 days on a 68% confidence level without the need for a prior transformation into temperature space and a subsequent glow curve deconvolution. This corresponds to a significant improvement in prediction accuracy compared to a prior publication, which yielded a prediction uncertainty of 2-4 days using features obtained from a glow curve deconvolution as input to a neural network.
翻訳日:2021-06-15 19:23:50 公開日:2021-06-14
# (参考訳) 混合精度量子化のための神経進化強化多目的最適化

Neuroevolution-Enhanced Multi-Objective Optimization for Mixed-Precision Quantization ( http://arxiv.org/abs/2106.07611v1 )

ライセンス: CC BY 4.0
Santiago Miret, Vui Seng Chua, Mattias Marder, Mariano Phielipp, Nilesh Jain, Somdeb Majumdar(参考訳) mixed-precision quantizationは、異なるビット幅精度セットを別々の計算操作に配置することで、ニューラルネットワークワークロードのメモリと計算の節約を可能にする強力なツールである。 近年の研究では、様々なワークロードのメモリフットプリントを削減するために混合精度量子化技術を適用し、タスク性能も維持している。 しかし、以前の作業は、ハードウェアへのワークロードのデプロイにおいて重要なビット操作のような追加の目的を無視してきた。 本稿では,複数の目的を最適化する自動混合精度量子化のためのフレキシブルでスケーラブルなフレームワークを提案する。 我々のフレームワークは,新しい探索法であるnemo(neuroevolution-enhanced multi-objective optimization)を用いて,メモリとビット操作の目的に対してparetoの最適混合精度設定を求める。 NEMOでは、集団は構造的に異なるサブ集団(種)に分けられ、多目的問題の解のパレートフロンティアを共同で形成する。 各世代において、種はパレートフロンティアへの貢献の良さに比例して再サイズされる。 これによりNEMOは確立した探索技術と神経進化手法を活用し、パレートフロンティアの良さを継続的に改善することができる。 実験では、基礎となるワークロードを記述するためにグラフベースの表現を適用し、NEMOがトレーニングしたグラフニューラルネットワークをデプロイして、ImageNetでトレーニングされたさまざまなワークロードに対して、Paretoの最適設定を見つけることができます。 現状と比較すると,MobileNet-V2,ResNet50,ResNeXt-101-32x8dのメモリ圧縮と計算圧縮の競争的な結果が得られる。 NEMOによる結果のより深い分析は、グラフ表現と種に基づくアプローチの両方が、すべてのワークロードに効果的な構成を見つける上で重要であることを示している。

Mixed-precision quantization is a powerful tool to enable memory and compute savings of neural network workloads by deploying different sets of bit-width precisions on separate compute operations. Recent research has shown significant progress in applying mixed-precision quantization techniques to reduce the memory footprint of various workloads, while also preserving task performance. Prior work, however, has often ignored additional objectives, such as bit-operations, that are important for deployment of workloads on hardware. Here we present a flexible and scalable framework for automated mixed-precision quantization that optimizes multiple objectives. Our framework relies on Neuroevolution-Enhanced Multi-Objective Optimization (NEMO), a novel search method, to find Pareto optimal mixed-precision configurations for memory and bit-operations objectives. Within NEMO, a population is divided into structurally distinct sub-populations (species) which jointly form the Pareto frontier of solutions for the multi-objective problem. At each generation, species are re-sized in proportion to the goodness of their contribution to the Pareto frontier. This allows NEMO to leverage established search techniques and neuroevolution methods to continually improve the goodness of the Pareto frontier. In our experiments we apply a graph-based representation to describe the underlying workload, enabling us to deploy graph neural networks trained by NEMO to find Pareto optimal configurations for various workloads trained on ImageNet. Compared to the state-of-the-art, we achieve competitive results on memory compression and superior results for compute compression for MobileNet-V2, ResNet50 and ResNeXt-101-32x8d. A deeper analysis of the results obtained by NEMO also shows that both the graph representation and the species-based approach are critical in finding effective configurations for all workloads.
翻訳日:2021-06-15 19:07:33 公開日:2021-06-14
# (参考訳) 分散トポロジーによる計量次元の低減

Improving Metric Dimensionality Reduction with Distributed Topology ( http://arxiv.org/abs/2106.07613v1 )

ライセンス: CC BY-SA 4.0
Alexander Wagner, Elchanan Solomon, Paul Bendich(参考訳) そこで本研究では,DIPOLEと呼ばれる勾配差に基づく手法を用いて,距離幾何学と分散持続ホモロジーの技法を組み合わせた次元削減手法を提案する。 DIPOLEは、局所的、計量的項と大域的、位相的項の両方で損失関数を最小化し、初期埋め込みを補正する次元推論後処理ステップである。 初期埋込法の修正(Isomapを使用する)により、DIPOLEは全次元縮小パイプラインと見なすこともできる。 このフレームワークは分散持続ホモロジーの強い理論的および計算的性質に基づいており、ほぼ確実な収束を保証する。 DIPOLEは、UMAP、t-SNE、Isomapといった一般的な手法よりも、視覚的にも正確な定量的指標でも、多くの一般的なデータセットで優れています。

We propose a novel approach to dimensionality reduction combining techniques of metric geometry and distributed persistent homology, in the form of a gradient-descent based method called DIPOLE. DIPOLE is a dimensionality-reduction post-processing step that corrects an initial embedding by minimizing a loss functional with both a local, metric term and a global, topological term. By fixing an initial embedding method (we use Isomap), DIPOLE can also be viewed as a full dimensionality-reduction pipeline. This framework is based on the strong theoretical and computational properties of distributed persistent homology and comes with the guarantee of almost sure convergence. We observe that DIPOLE outperforms popular methods like UMAP, t-SNE, and Isomap on a number of popular datasets, both visually and in terms of precise quantitative metrics.
翻訳日:2021-06-15 18:49:29 公開日:2021-06-14
# (参考訳) magic layouts: ユーザインタフェース設計におけるコンポーネント検出のための構造優先

Magic Layouts: Structural Prior for Component Detection in User Interface Designs ( http://arxiv.org/abs/2106.07615v1 )

ライセンス: CC BY 4.0
Dipu Manandhar, Hailin Jin, John Collomosse(参考訳) ユーザインタフェース(UI)レイアウトのスクリーンショットや手書きスケッチを解析する手法であるMagic Layoutsを提示する。 当社のコアコントリビューションは、既存の検出器を拡張して、UI設計の学習前の構造を活用することで、UIコンポーネント、ボタン、テキストボックスなどの堅牢な検出を可能にします。 具体的には、モバイルUIレイアウトよりも先に学習し、異なるUIコンポーネント間の共通空間的共起関係を符号化する。 そこで我々は,ユーザエクスペリエンス(UX)設計のディジタルプロトタイプを迅速に取得するためのインタラクティブなアプリケーションとして,コンテキスト内でのインタラクティブなアプリケーションとして,手書きUIとアプリのスクリーンショットの両方のUIレイアウト解析の性能向上を実証した。

We present Magic Layouts; a method for parsing screenshots or hand-drawn sketches of user interface (UI) layouts. Our core contribution is to extend existing detectors to exploit a learned structural prior for UI designs, enabling robust detection of UI components; buttons, text boxes and similar. Specifically we learn a prior over mobile UI layouts, encoding common spatial co-occurrence relationships between different UI components. Conditioning region proposals using this prior leads to performance gains on UI layout parsing for both hand-drawn UIs and app screenshots, which we demonstrate within the context an interactive application for rapidly acquiring digital prototypes of user experience (UX) designs.
翻訳日:2021-06-15 18:35:13 公開日:2021-06-14
# (参考訳) 階層的正規化深部予測

Hierarchically Regularized Deep Forecasting ( http://arxiv.org/abs/2106.07630v1 )

ライセンス: CC BY 4.0
Biswajit Paria, Rajat Sen, Amr Ahmed, Abhimanyu Das(参考訳) 階層的予測は、多くの実用的多変量予測アプリケーションにおいて重要な問題であり、その目標は、あらかじめ指定された集約階層に配置された大量の相関時系列を同時に予測することである。 課題は階層的相関を利用して、階層の異なるレベルにおける時系列の予測精度を向上させることである。 本稿では,時系列のグローバルな集合に沿った時系列の分解と,各時系列に対する基底分解係数を用いた階層的制約のモデル化に基づく階層的予測の新しい手法を提案する。 過去の手法とは異なり、このアプローチは推論時間(特定の時系列に対する予測は、自身のデータへのアクセスのみを必要とする)でスケーラブルであり、(ほぼ)時系列予測の中でコヒーレンスを維持する。 公開データセットをいくつか実験し,既存の階層的調整手法と比較して,階層の異なるレベルでの予測全体のパフォーマンスが著しく向上したことを示す。

Hierarchical forecasting is a key problem in many practical multivariate forecasting applications - the goal is to simultaneously predict a large number of correlated time series that are arranged in a pre-specified aggregation hierarchy. The challenge is to exploit the hierarchical correlations to simultaneously obtain good prediction accuracy for time series at different levels of the hierarchy. In this paper, we propose a new approach for hierarchical forecasting based on decomposing the time series along a global set of basis time series and modeling hierarchical constraints using the coefficients of the basis decomposition for each time series. Unlike past methods, our approach is scalable at inference-time (forecasting for a specific time series only needs access to its own data) while (approximately) preserving coherence among the time series forecasts. We experiment on several publicly available datasets and demonstrate significantly improved overall performance on forecasts at different levels of the hierarchy, compared to existing state-of-the-art hierarchical reconciliation methods.
翻訳日:2021-06-15 18:20:48 公開日:2021-06-14
# (参考訳) 変分因果ネットワーク:因果構造上の近似ベイズ推論

Variational Causal Networks: Approximate Bayesian Inference over Causal Structures ( http://arxiv.org/abs/2106.07635v1 )

ライセンス: CC BY 4.0
Yashas Annadani, Jonas Rothfuss, Alexandre Lacoste, Nino Scherrer, Anirudh Goyal, Yoshua Bengio, Stefan Bauer(参考訳) データの根底にある因果構造を学ぶことは、実世界の堅牢な意思決定への重要なステップです。 因果推論における既存の研究の大部分は、1つの有向非巡回グラフ(DAG)またはマルコフ同値類を決定することに焦点を当てている。 しかし、その不確実性を考慮した有限データ要求から推測された因果構造に関する知識に基づいて知的に行動する重要な側面である。 例えば、データを管理する因果メカニズムについてより詳しく知るための計画介入には、dagに対する認識の不確実性を定量化する必要がある。 ベイジアン因果推論はそれを可能にするが、少数の変数に対しても後部DAGは難解となる。 この問題を克服するために,構造因果モデル (Structure Causal Models, SCM) のグラフ上の変分推論形式を提案する。 この目的のために、離散DAGの空間上の自己回帰分布をモデル化したパラメトリック変動族を導入する。 そのパラメータの数は変数の数とともに指数関数的に増加せず、エビデンス・ロウアー・バウンド (ELBO) を最大化することで学習することができる。 実験では,提案した変分後部が真の後部を良好に近似できることを示した。

Learning the causal structure that underlies data is a crucial step towards robust real-world decision making. The majority of existing work in causal inference focuses on determining a single directed acyclic graph (DAG) or a Markov equivalence class thereof. However, a crucial aspect to acting intelligently upon the knowledge about causal structure which has been inferred from finite data demands reasoning about its uncertainty. For instance, planning interventions to find out more about the causal mechanisms that govern our data requires quantifying epistemic uncertainty over DAGs. While Bayesian causal inference allows to do so, the posterior over DAGs becomes intractable even for a small number of variables. Aiming to overcome this issue, we propose a form of variational inference over the graphs of Structural Causal Models (SCMs). To this end, we introduce a parametric variational family modelled by an autoregressive distribution over the space of discrete DAGs. Its number of parameters does not grow exponentially with the number of variables and can be tractably learned by maximising an Evidence Lower Bound (ELBO). In our experiments, we demonstrate that the proposed variational posterior is able to provide a good approximation of the true posterior.
翻訳日:2021-06-15 17:24:47 公開日:2021-06-14
# BoB: BERT over BERT for Training Persona-based Dialogue Models from Limited Personalized Data

BoB: BERT Over BERT for Training Persona-based Dialogue Models from Limited Personalized Data ( http://arxiv.org/abs/2106.06169v2 )

ライセンス: Link先を確認
Haoyu Song, Yan Wang, Kaiyan Zhang, Wei-Nan Zhang, Ting Liu(参考訳) 一貫性のあるパーソナラの維持は対話エージェントにとって不可欠である。 膨大な進歩がもたらされているが、注釈付きペルソナセンスデータの限られた規模は、堅牢で一貫性のあるパーソナベースの対話モデルへの障壁である。 本研究では,新たなBERT-over-BERT(BoB)モデルを用いて,ペルソナに基づく対話生成を2つのサブタスクに分離することで,課題に対処できることを示す。 具体的には、このモデルはbertベースのエンコーダと2つのbertベースのデコーダで構成されており、1つのデコーダが応答生成用であり、もう1つは一貫性の理解用である。 特に,大規模非対話推論データから整合性理解の能力を学ぶために,第2復号器を異なる方法で訓練する。 異なる限られたデータ設定下では、自動評価と人間評価の両方によって、提案モデルが応答品質とペルソナ一貫性において強いベースラインを上回ることが示されている。

Maintaining consistent personas is essential for dialogue agents. Although tremendous advancements have been brought, the limited-scale of annotated persona-dense data are still barriers towards training robust and consistent persona-based dialogue models. In this work, we show how the challenges can be addressed by disentangling persona-based dialogue generation into two sub-tasks with a novel BERT-over-BERT (BoB) model. Specifically, the model consists of a BERT-based encoder and two BERT-based decoders, where one decoder is for response generation, and another is for consistency understanding. In particular, to learn the ability of consistency understanding from large-scale non-dialogue inference data, we train the second decoder in an unlikelihood manner. Under different limited data settings, both automatic and human evaluations demonstrate that the proposed model outperforms strong baselines in response quality and persona consistency.
翻訳日:2021-06-15 16:40:40 公開日:2021-06-14
# 領域一般化のための不変情報ボトルネック

Invariant Information Bottleneck for Domain Generalization ( http://arxiv.org/abs/2106.06333v2 )

ライセンス: Link先を確認
Bo Li, Yifei Shen, Yezhen Wang, Wenzhen Zhu, Colorado J. Reed, Jun Zhang, Dongsheng Li, Kurt Keutzer, Han Zhao(参考訳) ドメイン一般化(DG)の主な課題は、複数のトレーニングドメインと目に見えないテストドメインの間の潜在的分散シフトを克服することである。 dgアルゴリズムの一般的なクラスの一つは、トレーニング領域にまたがる不変因果関係を持つ表現を学習することである。 しかし、いくつかの特徴は \emph{pseudo-invariant features} と呼ばれ、訓練領域では不変であるがテスト領域では存在せず、既存のアルゴリズムの性能を大幅に低下させることができる。 この問題に対処するため,我々は,トレーニング領域とテスト領域間で不変である最小の表現を学習する不変情報ボトルネック(iib)と呼ばれる新しいアルゴリズムを提案する。 表現と入力の相互情報を最小化することにより、IIBはDGに望ましい擬似不変特徴への依存を緩和する。 IIB の原理の有効性を検証するため,大規模な DG ベンチマークで広範な実験を行った。 その結果,IIBは不変学習ベースライン(例)よりも優れていた。 IRM)は2つの評価指標に対して平均2.8\%と3.8\%の精度である。

The main challenge for domain generalization (DG) is to overcome the potential distributional shift between multiple training domains and unseen test domains. One popular class of DG algorithms aims to learn representations that have an invariant causal relation across the training domains. However, certain features, called \emph{pseudo-invariant features}, may be invariant in the training domain but not the test domain and can substantially decreases the performance of existing algorithms. To address this issue, we propose a novel algorithm, called Invariant Information Bottleneck (IIB), that learns a minimally sufficient representation that is invariant across training and testing domains. By minimizing the mutual information between the representation and inputs, IIB alleviates its reliance on pseudo-invariant features, which is desirable for DG. To verify the effectiveness of the IIB principle, we conduct extensive experiments on large-scale DG benchmarks. The results show that IIB outperforms invariant learning baseline (e.g. IRM) by an average of 2.8\% and 3.8\% accuracy over two evaluation metrics.
翻訳日:2021-06-15 16:40:24 公開日:2021-06-14
# 注意に基づく部分顔認識

Attention-based Partial Face Recognition ( http://arxiv.org/abs/2106.06415v2 )

ライセンス: Link先を確認
Stefan H\"ormann and Zeyuan Zhang and Martin Knoche and Torben Teepe and Gerhard Rigoll(参考訳) 群衆のような制約のない環境で撮影された顔の写真は、しばしば前景の物や人によって隠されているため、現在の顔認識アプローチの課題となっている。 しかし、部分的な顔の認識に関する研究はほとんど行われていない。 そこで本研究では,異なる領域の異なる顔を認識することのできる部分的顔認識手法を提案する。 本稿では,resnetの中間特徴マップの注意プーリングと分離アグリゲーションモジュールを組み合わせることにより,これを実現する。 さらに,注意マップが多様であり,オクルードされた部分を扱うために,部分的な顔に共通の損失を適応させる。 我々の徹底的な分析は、自然および合成的に隠蔽された部分面を含む、複数のベンチマークプロトコルの下で全てのベースラインを上回ります。 本手法は,隠蔽面の関連部分に焦点をあてることが可能である。

Photos of faces captured in unconstrained environments, such as large crowds, still constitute challenges for current face recognition approaches as often faces are occluded by objects or people in the foreground. However, few studies have addressed the task of recognizing partial faces. In this paper, we propose a novel approach to partial face recognition capable of recognizing faces with different occluded areas. We achieve this by combining attentional pooling of a ResNet's intermediate feature maps with a separate aggregation module. We further adapt common losses to partial faces in order to ensure that the attention maps are diverse and handle occluded parts. Our thorough analysis demonstrates that we outperform all baselines under multiple benchmark protocols, including naturally and synthetically occluded partial faces. This suggests that our method successfully focuses on the relevant parts of the occluded face.
翻訳日:2021-06-15 16:40:07 公開日:2021-06-14
# 点雲のオクター表現符号化における確率のニューラルネットワークモデリング

Neural Network Modeling of Probabilities for Coding the Octree Representation of Point Clouds ( http://arxiv.org/abs/2106.06482v2 )

ライセンス: Link先を確認
Emre Can Kaya, Ioan Tabus(参考訳) 本稿では,ボクセル周辺の広い3次元の状況に応じて,ボクセルの占有状況の符号化確率をニューラルネットワークを用いて推定する,新しいロスレスポイントクラウド圧縮アルゴリズムについて述べる。 ポイントクラウドはoctreeとして表現され、各解像度層はシーケンシャルにエンコードされ、最下位の解像度から最終解像度に到達するまで算術符号化によってデコードされる。 octreeの各ノードにおける分割パターンの各ボクセルの占有確率はニューラルネットワークによってモデル化され、入力時にエンコードされるノードを取り巻く3dコンテキストに対応する複数のoctreeノードの既にエンコードされた占有状態(過去と現在の解像度)を有する。 アルゴリズムは高速で遅いバージョンを持ち、コンテキストの異なるボクセルを選択する高速バージョンは、エンコーダとデコーダの両方で、ニューラルネットワークによって推定される大きなテンプレートのバッチを送信することで並列化を増加させる。 提案したアルゴリズムは、ベンチマークデータセット上で最先端の結果を得る。 実装はhttps://github.com/marmus12/nnctxで公開される。

This paper describes a novel lossless point cloud compression algorithm that uses a neural network for estimating the coding probabilities for the occupancy status of voxels, depending on wide three dimensional contexts around the voxel to be encoded. The point cloud is represented as an octree, with each resolution layer being sequentially encoded and decoded using arithmetic coding, starting from the lowest resolution, until the final resolution is reached. The occupancy probability of each voxel of the splitting pattern at each node of the octree is modeled by a neural network, having at its input the already encoded occupancy status of several octree nodes (belonging to the past and current resolutions), corresponding to a 3D context surrounding the node to be encoded. The algorithm has a fast and a slow version, the fast version selecting differently several voxels of the context, which allows an increased parallelization by sending larger batches of templates to be estimated by the neural network, at both encoder and decoder. The proposed algorithms yield state-of-the-art results on benchmark datasets. The implementation will be made available at https://github.com/marmus12/nnctx
翻訳日:2021-06-15 16:39:54 公開日:2021-06-14
# ソフトマックスのクロスエントロピーと負サンプリングの統一解釈:知識グラフ埋め込みを事例として

Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding ( http://arxiv.org/abs/2106.07250v1 )

ライセンス: Link先を確認
Hidetaka Kamigaito, Katsuhiko Hayashi(参考訳) 知識グラフ埋め込みでは、ソフトマックスクロスエントロピーと負サンプリング損失関数の理論的関係は研究されていない。 これにより、2つの異なる損失関数の結果を正確に比較することは困難である。 本研究では,bregman divergenceを用いて,ソフトマックスクロスエントロピーと負サンプリング損失関数の統一解釈を試みた。 この解釈の下では、公正な比較のための理論的発見を導き出すことができる。 FB15k-237とWN18RRのデータセットによる実験結果は、理論的な発見が実用的な設定で有効であることを示している。

In knowledge graph embedding, the theoretical relationship between the softmax cross-entropy and negative sampling loss functions has not been investigated. This makes it difficult to fairly compare the results of the two different loss functions. We attempted to solve this problem by using the Bregman divergence to provide a unified interpretation of the softmax cross-entropy and negative sampling loss functions. Under this interpretation, we can derive theoretical findings for fair comparison. Experimental results on the FB15k-237 and WN18RR datasets show that the theoretical findings are valid in practical settings.
翻訳日:2021-06-15 16:39:35 公開日:2021-06-14
# 文書接地ダイアログのカスケードスパン抽出と応答生成

Cascaded Span Extraction and Response Generation for Document-Grounded Dialog ( http://arxiv.org/abs/2106.07275v1 )

ライセンス: Link先を確認
Nico Daheim, David Thulke, Christian Dugast, Hermann Ney(参考訳) 本稿では,目標指向文書グラウンデッドダイアログにおけるエージェント応答予測タスクに着目した最初のdiarddoc共有タスクの2つのサブタスクへのエントリを要約する。 タスクは2つのサブタスクに分割される: エージェントのターンを根拠とするドキュメントのスパンを予測し、ダイアログとグラウンドングドキュメントに基づいてエージェント応答を生成する。 最初のサブタスクでは、データセットで定義されたものに有効なスパンのセットを制限し、モデルスパンにバイアフィン分類器を使用し、最終的に異なるモデルのアンサンブルを使用する。 第2のサブタスクでは、完全なドキュメントではなく、予測されたスパンに応答予測を基礎付けるカスケードモデルを用いる。 これらの手法により,ベースラインと比較して両サブタスクに大きな改善が得られた。

This paper summarizes our entries to both subtasks of the first DialDoc shared task which focuses on the agent response prediction task in goal-oriented document-grounded dialogs. The task is split into two subtasks: predicting a span in a document that grounds an agent turn and generating an agent response based on a dialog and grounding document. In the first subtask, we restrict the set of valid spans to the ones defined in the dataset, use a biaffine classifier to model spans, and finally use an ensemble of different models. For the second subtask, we use a cascaded model which grounds the response prediction on the predicted span instead of the full document. With these approaches, we obtain significant improvements in both subtasks compared to the baseline.
翻訳日:2021-06-15 16:39:26 公開日:2021-06-14
# HuBERT:隠れたユニットのマスド予測による自己教師付き音声表現学習

HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units ( http://arxiv.org/abs/2106.07447v1 )

ライセンス: Link先を確認
Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed(参考訳) 音声表現学習の自己指導的アプローチは,(1)入力発話毎に複数の音声単位が存在すること,(2)事前学習期間中に入力音単位の語彙が存在しないこと,(3)音声単位が明瞭なセグメンテーションのない可変長を持つこと,の3つの特徴的問題に挑戦する。 これら3つの問題に対処するために、オフラインクラスタリングのステップを利用して、BERTのような予測損失に対してアライメントされたターゲットラベルを提供する、自己教師付き音声表現学習のためのHuBERT(Hidden-Unit BERT)アプローチを提案する。 提案手法の重要な要素は,マスキング領域にのみ予測損失を適用し,連続的な入力に対して音響モデルと言語モデルの組み合わせを学習させることである。 HuBERTは主に、割り当てられたクラスタラベルの固有の品質ではなく、教師なしクラスタリングステップの一貫性に依存している。 単純なk平均100クラスタの教師から始め、クラスタリングの2つのイテレーションを使用して、HuBERTモデルは、10min, 1h, 10h, 100h, 960hの微調整サブセットを持つLibrispeech (960h)とLibri-light (60,000h)のベンチマークで最先端のwav2vec 2.0のパフォーマンスにマッチするか改善する。 1Bパラメータモデルを使用することで、より困難なdev-otherおよびtest-other評価サブセットに対して最大19%と13%の相対的なWER削減を示す。

Self-supervised approaches for speech representation learning are challenged by three unique problems: (1) there are multiple sound units in each input utterance, (2) there is no lexicon of input sound units during the pre-training phase, and (3) sound units have variable lengths with no explicit segmentation. To deal with these three problems, we propose the Hidden-Unit BERT (HuBERT) approach for self-supervised speech representation learning, which utilizes an offline clustering step to provide aligned target labels for a BERT-like prediction loss. A key ingredient of our approach is applying the prediction loss over the masked regions only, which forces the model to learn a combined acoustic and language model over the continuous inputs. HuBERT relies primarily on the consistency of the unsupervised clustering step rather than the intrinsic quality of the assigned cluster labels. Starting with a simple k-means teacher of 100 clusters, and using two iterations of clustering, the HuBERT model either matches or improves upon the state-of-the-art wav2vec 2.0 performance on the Librispeech (960h) and Libri-light (60,000h) benchmarks with 10min, 1h, 10h, 100h, and 960h fine-tuning subsets. Using a 1B parameter model, HuBERT shows up to 19% and 13% relative WER reduction on the more challenging dev-other and test-other evaluation subsets.
翻訳日:2021-06-15 16:38:54 公開日:2021-06-14
# カールのないDAG:効率的なDAG構造学習手法

DAGs with No Curl: An Efficient DAG Structure Learning Approach ( http://arxiv.org/abs/2106.07197v1 )

ライセンス: Link先を確認
Yue Yu, Tian Gao, Naiyu Yin, Qiang Ji(参考訳) 近年,連続的非巡回性制約付き制約付き連続最適化問題としてDAG構造学習が定式化され,サブプロブレム最適化により反復的に解かれた。 そこで本研究では,DAG空間の重み付き隣接行列を直接モデル化し,学習するための新しい学習フレームワークを提案する。 具体的には、DAGの重み付き隣接行列の集合がグラフポテンシャル関数の重み付き勾配の集合と等価であることを示し、この等価なDAGの集合を探索することにより構造学習を行うことができる。 このアイデアをインスタンス化するために, 1 つの手順で最適化問題を効率的に解く新しいアルゴリズム DAG-NoCurl を提案する: 1) まず最適化問題に対する初期巡回解を見つけ, 2) グラフのホッジ分解を用いて、巡回グラフをポテンシャル関数の勾配に投影することで非巡回グラフを学習する。 ベンチマークデータセットに関する実験的研究は、線形および一般化構造方程式モデルの両方において、ベースラインdag構造学習法よりも精度は高いが効率が良いことを証明している。

Recently directed acyclic graph (DAG) structure learning is formulated as a constrained continuous optimization problem with continuous acyclicity constraints and was solved iteratively through subproblem optimization. To further improve efficiency, we propose a novel learning framework to model and learn the weighted adjacency matrices in the DAG space directly. Specifically, we first show that the set of weighted adjacency matrices of DAGs are equivalent to the set of weighted gradients of graph potential functions, and one may perform structure learning by searching in this equivalent set of DAGs. To instantiate this idea, we propose a new algorithm, DAG-NoCurl, which solves the optimization problem efficiently with a two-step procedure: 1) first we find an initial cyclic solution to the optimization problem, and 2) then we employ the Hodge decomposition of graphs and learn an acyclic graph by projecting the cyclic graph to the gradient of a potential function. Experimental studies on benchmark datasets demonstrate that our method provides comparable accuracy but better efficiency than baseline DAG structure learning methods on both linear and generalized structural equation models, often by more than one order of magnitude.
翻訳日:2021-06-15 16:38:04 公開日:2021-06-14
# 一般関数近似を用いた強化学習のためのオンラインサブサンプリング

Online Sub-Sampling for Reinforcement Learning with General Function Approximation ( http://arxiv.org/abs/2106.07203v1 )

ライセンス: Link先を確認
Dingwen Kong, Ruslan Salakhutdinov, Ruosong Wang, Lin F. Yang(参考訳) 一般関数近似を用いた有効効率なアルゴリズムの設計は強化学習において重要なオープン問題である。 最近、Wang et al.~[2020c]は、対数係数を抑えるために$\widetilde{O}(\mathrm{poly}(dH)\sqrt{K})$\footnote{Throughout the paper, we use $\widetilde{O}(\cdot)$. } を楽しむ一般関数近似を用いた値ベースのアルゴリズムを確立している。 残念なことに、$d$ は関数クラスの複雑さに依存し、$h$ は計画の地平線であり、$k$ はエピソードの総数である。 しかし、それらのアルゴリズムは1ラウンドあたり$\Omega(K)$計算時間を必要とし、このアルゴリズムは実用上非効率である。 本稿では,オンラインサブサンプリング手法を適用して,平均1ラウンドあたりの計算時間を$\widetilde{O}(\mathrm{poly}(dH))$$$\widetilde{O}(\mathrm{poly}(dH))とすることで,ほぼ同じ後悔点を持つアルゴリズムを開発した。 さらに、アルゴリズムは低スイッチングコスト、すなわち、実行中に$\widetilde{O}(\mathrm{poly}(dH))$時間だけポリシーを変更し、実際のシナリオで実装することをアピールする。 さらに, 高信頼度に基づく探索駆動報酬関数を用いて, 報奨条件下での環境を良好に探索する。 特に、$\widetilde{o}(\mathrm{poly}(dh))/\epsilon^2$ rounds of explorationの後、アルゴリズムは与えられた報酬関数に対して$\epsilon$-optimalポリシーを出力する。

Designing provably efficient algorithms with general function approximation is an important open problem in reinforcement learning. Recently, Wang et al.~[2020c] establish a value-based algorithm with general function approximation that enjoys $\widetilde{O}(\mathrm{poly}(dH)\sqrt{K})$\footnote{Throughout the paper, we use $\widetilde{O}(\cdot)$ to suppress logarithm factors. } regret bound, where $d$ depends on the complexity of the function class, $H$ is the planning horizon, and $K$ is the total number of episodes. However, their algorithm requires $\Omega(K)$ computation time per round, rendering the algorithm inefficient for practical use. In this paper, by applying online sub-sampling techniques, we develop an algorithm that takes $\widetilde{O}(\mathrm{poly}(dH))$ computation time per round on average, and enjoys nearly the same regret bound. Furthermore, the algorithm achieves low switching cost, i.e., it changes the policy only $\widetilde{O}(\mathrm{poly}(dH))$ times during its execution, making it appealing to be implemented in real-life scenarios. Moreover, by using an upper-confidence based exploration-driven reward function, the algorithm provably explores the environment in the reward-free setting. In particular, after $\widetilde{O}(\mathrm{poly}(dH))/\epsilon^2$ rounds of exploration, the algorithm outputs an $\epsilon$-optimal policy for any given reward function.
翻訳日:2021-06-15 16:37:44 公開日:2021-06-14
# Meta Two-Sample Testing: 限られたデータでテストするカーネルを学ぶ

Meta Two-Sample Testing: Learning Kernels for Testing with Limited Data ( http://arxiv.org/abs/2106.07636v1 )

ライセンス: Link先を確認
Feng Liu and Wenkai Xu and Jie Lu and Danica J. Sutherland(参考訳) 現代のカーネルベースの2サンプルテストは、適切な学習されたカーネルで複雑な高次元分布を区別することに成功した。 以前の研究は、各分布からかなりの数の観測サンプルを仮定して、このカーネル学習が成功することを示した。 しかし、非常に限られた数のデータサンプルを持つ現実的なシナリオでは、複雑な分布を識別できるほど強力なカーネルを特定するのは困難である。 本稿では,メタ2サンプルテスト(Meta Two-sample Testing, M2ST)の課題に対処する。これは,関連するタスクの補助的データを利用して,新しいターゲットタスクの強力なテストを素早く特定できるアルゴリズムを見つけることを目的としている。 我々は,このタスクに対して,ベースラインよりも改良した汎用スキームと,さらによく機能するよりカスタマイズされたアプローチという2つのアルゴリズムを提案する。 提案するメタテスト方式は,カーネルベースの試験を少ない観測結果から直接的に評価し,いつその手法が成功するかを示す理論的正当性と実証的証拠の両方を提供する。

Modern kernel-based two-sample tests have shown great success in distinguishing complex, high-dimensional distributions with appropriate learned kernels. Previous work has demonstrated that this kernel learning procedure succeeds, assuming a considerable number of observed samples from each distribution. In realistic scenarios with very limited numbers of data samples, however, it can be challenging to identify a kernel powerful enough to distinguish complex distributions. We address this issue by introducing the problem of meta two-sample testing (M2ST), which aims to exploit (abundant) auxiliary data on related tasks to find an algorithm that can quickly identify a powerful test on new target tasks. We propose two specific algorithms for this task: a generic scheme which improves over baselines and amore tailored approach which performs even better. We provide both theoretical justification and empirical evidence that our proposed meta-testing schemes out-perform learning kernel-based tests directly from scarce observations, and identify when such schemes will be successful.
翻訳日:2021-06-15 16:37:03 公開日:2021-06-14
# 深層学習のためのマルチステップ行列生成自然勾配法NG+

NG+ : A Multi-Step Matrix-Product Natural Gradient Method for Deep Learning ( http://arxiv.org/abs/2106.07454v1 )

ライセンス: Link先を確認
Minghan Yang, Dong Xu, Qiwen Cui, Zaiwen Wen and Pengxiang Xu(参考訳) 本稿では,NG+と呼ばれる新しい二階法を提案する。 勾配の形状はパラメータの形状と等しい」という規則に従うことによって、従来のベクトル化ではなく、行列形式の勾配の積を用いた一般化漁業情報行列(GFIM)を定義する。 そして、一般化された自然勾配方向は単にGFIMの逆数であり、行列形式の勾配を乗算する。 さらに、GFIMとその逆は、計算コストを制御できるように複数のステップで同じであり、一階法と同等である。 ある程度の温和な条件下でグローバル収束が確立され、オンライン学習環境にも後悔の念が与えられる。 ResNet50による画像分類、Schnetによる量子化学モデリング、Transformerによるニューラルネットワーク翻訳、DLRMによるレコメンデーションシステムは、GN+が最先端の手法と競合していることを示している。

In this paper, a novel second-order method called NG+ is proposed. By following the rule ``the shape of the gradient equals the shape of the parameter", we define a generalized fisher information matrix (GFIM) using the products of gradients in the matrix form rather than the traditional vectorization. Then, our generalized natural gradient direction is simply the inverse of the GFIM multiplies the gradient in the matrix form. Moreover, the GFIM and its inverse keeps the same for multiple steps so that the computational cost can be controlled and is comparable with the first-order methods. A global convergence is established under some mild conditions and a regret bound is also given for the online learning setting. Numerical results on image classification with ResNet50, quantum chemistry modeling with Schnet, neural machine translation with Transformer and recommendation system with DLRM illustrate that GN+ is competitive with the state-of-the-art methods.
翻訳日:2021-06-15 16:36:45 公開日:2021-06-14
# Sejong Face Database: マルチモーダルな顔データベース

Sejong Face Database: A Multi-Modal Disguise Face Database ( http://arxiv.org/abs/2106.07186v1 )

ライセンス: Link先を確認
Usman Cheema and Seungbin Moon(参考訳) 顔認識の商業的応用は、照明、閉塞、偽装、変装などの様々な課題に対して堅牢性を要求する。 顔認証は、国境におけるセキュリティチェックポイントなど、アクセス制御システムにおける新たな問題のひとつである。 しかし、様々な偽のアドオンを用いた顔データベースが利用できないため、この地域における学術研究の発展は制限される。 本稿では,偽顔認識研究を容易にするために,マルチモーダル変装顔データセットを提案する。 提示されたデータベースには8つの顔アドオンと7つの追加のアドオンが含まれている。 各顔画像は可視、可視、赤外線、赤外線、熱スペクトルで撮影される。 具体的には、100の被写体がサブセットa(30の被写体、1のモダリティ)と、サブセットb(70の被写体、5+のモダリティ)に分けられる。 また,提案するデータベース上でのベースライン顔検出結果を示し,参照結果を提供し,異なるモーダル性での性能を比較する。 擬似アドオンの難易度を評価するための定性的および定量的解析を行う。 データセットは研究論文の受理とともに公開される予定だ。 データベースはhttps://github.com/usmancheema89/sejongfacedatabase。

Commercial application of facial recognition demands robustness to a variety of challenges such as illumination, occlusion, spoofing, disguise, etc. Disguised face recognition is one of the emerging issues for access control systems, such as security checkpoints at the borders. However, the lack of availability of face databases with a variety of disguise addons limits the development of academic research in the area. In this paper, we present a multimodal disguised face dataset to facilitate the disguised face recognition research. The presented database contains 8 facial add-ons and 7 additional combinations of these add-ons to create a variety of disguised face images. Each facial image is captured in visible, visible plus infrared, infrared, and thermal spectra. Specifically, the database contains 100 subjects divided into subset-A (30 subjects, 1 image per modality) and subset-B (70 subjects, 5 plus images per modality). We also present baseline face detection results performed on the proposed database to provide reference results and compare the performance in different modalities. Qualitative and quantitative analysis is performed to evaluate the challenging nature of disguise addons. The dataset will be publicly available with the acceptance of the research article. The database is available at: https://github.com/usmancheema89/SejongFaceDatabase.
翻訳日:2021-06-15 16:35:59 公開日:2021-06-14
# 人間と機械の視界のギャップを埋める部分的成功

Partial success in closing the gap between human and machine vision ( http://arxiv.org/abs/2106.07411v1 )

ライセンス: Link先を確認
Robert Geirhos, Kantharaju Narayanappa, Benjamin Mitzkus, Tizian Thieringer, Matthias Bethge, Felix A. Wichmann, Wieland Brendel(参考訳) 数年前、最初のCNNがImageNetで人間のパフォーマンスを上回った。 しかしすぐに、マシンはより困難なテストケースに堅牢性を持たず、マシンを"野生"に展開し、人間の視覚知覚のより良い計算モデルを得るための大きな障害であることが明らかになった。 人間のビジョンとマシンビジョンのギャップを埋める作業は進んでいますか? この疑問に答えるために、90人を対象に85,120人のサイコ物理実験を録音し、「人間のベースラインを欠く」ことを付け加えた。 次に,目標関数(自己教師あり,敵意訓練,クリップ言語画像訓練),アーキテクチャ(例)の3軸に沿って,標準教師ありcnnから大きく逸脱する有望な機械学習開発について検討した。 vision transformer)とデータセットサイズ(1Mから1Bまで)。 私たちの発見は3倍です。 (1.) 人間とCNNの長年の堅牢性ギャップは閉ざされており、最高のモデルがほとんどのOODデータセットで人間のパフォーマンスにマッチまたは超えている。 (2.) 画像レベルの一貫性のギャップは依然として大きいため、人間はモデルとは異なるエラーを犯すことになる。 対照的に、ほとんどのモデルは分類誤差において体系的に一致しており、対照的な自己教師付きモデルと標準教師付きモデルとでは実質的に異なるモデルである。 (3.) 多くの場合、トレーニングデータセットのサイズが1~3桁に大きくなると、人間とモデル間の一貫性が向上する。 私たちの結果は、慎重な楽観主義の理由を与えます。改善の余地はまだまだありますが、人間とマシンビジョンの行動の違いは狭まっているのです。 今後の進捗を測定するため、画像レベルの人間の行動データを含む17のOODデータセットがベンチマークとして提供されている。

A few years ago, the first CNN surpassed human performance on ImageNet. However, it soon became clear that machines lack robustness on more challenging test cases, a major obstacle towards deploying machines "in the wild" and towards obtaining better computational models of human visual perception. Here we ask: Are we making progress in closing the gap between human and machine vision? To answer this question, we tested human observers on a broad range of out-of-distribution (OOD) datasets, adding the "missing human baseline" by recording 85,120 psychophysical trials across 90 participants. We then investigated a range of promising machine learning developments that crucially deviate from standard supervised CNNs along three axes: objective function (self-supervised, adversarially trained, CLIP language-image training), architecture (e.g. vision transformers), and dataset size (ranging from 1M to 1B). Our findings are threefold. (1.) The longstanding robustness gap between humans and CNNs is closing, with the best models now matching or exceeding human performance on most OOD datasets. (2.) There is still a substantial image-level consistency gap, meaning that humans make different errors than models. In contrast, most models systematically agree in their categorisation errors, even substantially different ones like contrastive self-supervised vs. standard supervised models. (3.) In many cases, human-to-model consistency improves when training dataset size is increased by one to three orders of magnitude. Our results give reason for cautious optimism: While there is still much room for improvement, the behavioural difference between human and machine vision is narrowing. In order to measure future progress, 17 OOD datasets with image-level human behavioural data are provided as a benchmark here: https://github.com/bethgelab/model-vs-human/
翻訳日:2021-06-15 16:35:40 公開日:2021-06-14
# Exhale と Inhale CT スキャン間の変形性肺登録のための再帰的リファインメントネットワーク

Recursive Refinement Network for Deformable Lung Registration between Exhale and Inhale CT Scans ( http://arxiv.org/abs/2106.07608v1 )

ライセンス: Link先を確認
Xinzi He, Jia Guo, Xuzhe Zhang, Hanwen Bi, Sarah Gerard, David Kaczka, Amin Motahari, Eric Hoffman, Joseph Reinhardt, R. Graham Barr, Elsa Angelini, Andrew Laine(参考訳) 教師なし学習に基づく医療画像登録手法は近年急速に発展している。 本稿では, 変形ベクトル場の再帰的改善という, 単純かつ確立された原理を, 一般に無視されるように再検討することを提案する。 本稿では,非教師付き医用画像登録のための再帰的リファインメントネットワーク(rrn)を導入し,マルチスケール特徴を抽出し,正規化された局所コスト相関ボリュームを構築し,再帰的に体積変形ベクトルフィールドを精製する。 RRNは、CT肺スキャンの呼吸-呼吸対の3D登録のためのアートパフォーマンスの状態を達成している。 DirLab COPDGeneデータセットでは、RRNは平均的なターゲット登録エラー(TRE)を0.83mmで返します。 従来の手法との比較に加えて、RRNはディープラーニングベースのピアアプローチと比較して89%のエラー削減につながる。

Unsupervised learning-based medical image registration approaches have witnessed rapid development in recent years. We propose to revisit a commonly ignored while simple and well-established principle: recursive refinement of deformation vector fields across scales. We introduce a recursive refinement network (RRN) for unsupervised medical image registration, to extract multi-scale features, construct normalized local cost correlation volume and recursively refine volumetric deformation vector fields. RRN achieves state of the art performance for 3D registration of expiratory-inspiratory pairs of CT lung scans. On DirLab COPDGene dataset, RRN returns an average Target Registration Error (TRE) of 0.83 mm, which corresponds to a 13% error reduction from the best result presented in the leaderboard. In addition to comparison with conventional methods, RRN leads to 89% error reduction compared to deep-learning-based peer approaches.
翻訳日:2021-06-15 16:35:11 公開日:2021-06-14
# PopSkipJump: 確率的分類のための決定に基づく攻撃

PopSkipJump: Decision-Based Attack for Probabilistic Classifiers ( http://arxiv.org/abs/2106.07445v1 )

ライセンス: Link先を確認
Carl-Johann Simon-Gabriel and Noman Ahmed Sheikh and Andreas Krause(参考訳) 現在の分類器のほとんどは、分類出力を変える小さな入力摂動の逆例に弱い。 多くの既存の攻撃アルゴリズムは、ホワイトボックスからブラックボックスの分類器まで様々な設定をカバーしているが、通常、答えは決定論的であり、多くの場合失敗する。 そこで本研究では,確率的アウトプットを持つ分類器を対象とする新たな攻撃手法を提案する。 これはChenらによるHopSkipJump攻撃に基づいている。 (2019, arXiv:1904.02144v5)は、決定論的分類器用に設計された、強力でクエリの効率的な決定ベースの攻撃である。 我々のP(robabilisticH)opSkipJump攻撃は、HopSkipJumpの出力品質を様々なノイズレベルにわたって維持し、ノイズレベルが減少するにつれてクエリ効率に収束する。 我々は、最先端の無作為防御を含む様々なノイズモデルに対する我々の攻撃をテストし、決定に基づく攻撃にほとんど強固さがないことを示した。 コードはhttps://github.com/cjsg/PopSkipJumpで入手できる。

Most current classifiers are vulnerable to adversarial examples, small input perturbations that change the classification output. Many existing attack algorithms cover various settings, from white-box to black-box classifiers, but typically assume that the answers are deterministic and often fail when they are not. We therefore propose a new adversarial decision-based attack specifically designed for classifiers with probabilistic outputs. It is based on the HopSkipJump attack by Chen et al. (2019, arXiv:1904.02144v5 ), a strong and query efficient decision-based attack originally designed for deterministic classifiers. Our P(robabilisticH)opSkipJump attack adapts its amount of queries to maintain HopSkipJump's original output quality across various noise levels, while converging to its query efficiency as the noise level decreases. We test our attack on various noise models, including state-of-the-art off-the-shelf randomized defenses, and show that they offer almost no extra robustness to decision-based attacks. Code is available at https://github.com/cjsg/PopSkipJump .
翻訳日:2021-06-15 16:34:46 公開日:2021-06-14
# GPT3-to-plan: GPT-3 を用いたテキストからのプラン抽出

GPT3-to-plan: Extracting plans from text using GPT-3 ( http://arxiv.org/abs/2106.07131v1 )

ライセンス: Link先を確認
Alberto Olmo, Sarath Sreedharan, Subbarao Kambhampati(参考訳) 金融や銀行を含む多くの重要な産業における業務は、しばしば反復的な業務を行う必要性によって特徴づけられる。 ビジネスへの批判にもかかわらず、ワークフローが完全に自動化されることはめったにないが、会社の従業員のためにこれらの手順を記述する自然言語文書が多数存在するかもしれない。 計画抽出手法は,そのような自然言語記述から計画/作業フローから構造計画を抽出する可能性を提供し,自動化システムによって活用できる。 本稿では,そのようなテキストから直接抽出する汎用言語モデルの有用性について検討する。 このようなモデルは、すでに複数の翻訳タスクにおいて非常に効果的であることが示されており、最初の結果は、計画抽出の文脈においても有効であることを示している。 特に, GPT-3は, アートプラン抽出手法の現在の多くの状況に匹敵するプラン抽出結果を生成することができることを示す。

Operations in many essential industries including finance and banking are often characterized by the need to perform repetitive sequential tasks. Despite their criticality to the business, workflows are rarely fully automated or even formally specified, though there may exist a number of natural language documents describing these procedures for the employees of the company. Plan extraction methods provide us with the possibility of extracting structure plans from such natural language descriptions of the plans/workflows, which could then be leveraged by an automated system. In this paper, we investigate the utility of generalized language models in performing such extractions directly from such texts. Such models have already been shown to be quite effective in multiple translation tasks, and our initial results seem to point to their effectiveness also in the context of plan extractions. Particularly, we show that GPT-3 is able to generate plan extraction results that are comparable to many of the current state of the art plan extraction methods.
翻訳日:2021-06-15 16:33:45 公開日:2021-06-14
# 事前学習モデル:過去・現在・未来

Pre-Trained Models: Past, Present and Future ( http://arxiv.org/abs/2106.07139v1 )

ライセンス: Link先を確認
Han Xu, Zhang Zhengyan, Ding Ning, Gu Yuxian, Liu Xiao, Huo Yuqi, Qiu Jiezhong, Zhang Liang, Han Wentao, Huang Minlie, Jin Qin, Lan Yanyan, Liu Yang, Liu Zhiyuan, Lu Zhiwu, Qiu Xipeng, Song Ruihua, Tang Jie, Wen Ji-Rong, Yuan Jinhui, Zhao Wayne Xin, Zhu Jun(参考訳) BERTやGPTのような大規模事前学習モデル(PTM)は、最近大きな成功を収め、人工知能(AI)分野におけるマイルストーンとなった。 高度な事前学習目標と巨大なモデルパラメータにより、大規模PTMは大量のラベル付きおよびラベルなしデータから知識を効果的に取得することができる。 知識を巨大なパラメータに格納し、特定のタスクを微調整することで、巨大なパラメータに暗黙的に符号化された豊富な知識は、様々な下流タスクの恩恵を受けることができる。 AIコミュニティが、モデルをスクラッチから学習するのではなく、下流タスクのバックボーンとしてPTMを採用することは、今や合意されている。 本稿では,プレトレーニングの歴史,特にトランスファーラーニングと自己教師型学習との関係を深く考察し,AI開発スペクトルにおけるPTMの重要位置を明らかにする。 さらに, PTMの最新のブレークスルーを概観する。 これらのブレークスルーは、効率的なアーキテクチャの設計、リッチなコンテキストの利用、計算効率の向上、解釈と理論解析の実行の4つの重要な方向に向かって、計算能力の急上昇とデータの可用性の向上によって引き起こされる。 最後に, PTM の一連のオープンな問題と研究方向性について論じるとともに, PTM の今後の研究に刺激を与え, 進展を期待する。

Large-scale pre-trained models (PTMs) such as BERT and GPT have recently achieved great success and become a milestone in the field of artificial intelligence (AI). Owing to sophisticated pre-training objectives and huge model parameters, large-scale PTMs can effectively capture knowledge from massive labeled and unlabeled data. By storing knowledge into huge parameters and fine-tuning on specific tasks, the rich knowledge implicitly encoded in huge parameters can benefit a variety of downstream tasks, which has been extensively demonstrated via experimental verification and empirical analysis. It is now the consensus of the AI community to adopt PTMs as backbone for downstream tasks rather than learning models from scratch. In this paper, we take a deep look into the history of pre-training, especially its special relation with transfer learning and self-supervised learning, to reveal the crucial position of PTMs in the AI development spectrum. Further, we comprehensively review the latest breakthroughs of PTMs. These breakthroughs are driven by the surge of computational power and the increasing availability of data, towards four important directions: designing effective architectures, utilizing rich contexts, improving computational efficiency, and conducting interpretation and theoretical analysis. Finally, we discuss a series of open problems and research directions of PTMs, and hope our view can inspire and advance the future study of PTMs.
翻訳日:2021-06-15 16:33:32 公開日:2021-06-14
# ディープラーニングに基づく自然言語処理におけるモデル説明可能性

Model Explainability in Deep Learning Based Natural Language Processing ( http://arxiv.org/abs/2106.07410v1 )

ライセンス: Link先を確認
Shafie Gholizadeh and Nengfeng Zhou(参考訳) 機械学習(ML)モデル説明容易性は特にモデルリスクと規制に関連する領域で注目されている。 本稿では,一般的なMLモデル説明可能性方法論,特に自然言語処理(NLP)モデルについてレビューし,比較する。 次に, nlp分類モデルに対して, 層間相関伝播法 (lrp) を適用した。 我々は,LRP法を用いて,各単語の関連点の導出を行った。 次に関連性スコアを集約し、モデルのグローバル変数重要度を達成する。 ケーススタディを通じて,NLPモデルの弱点を発見するために,局所的説明可能性法を偽陽性および偽陰性事例に適用する方法を実証した。 これらの分析は、NLPモデルのブラックボックスの性質により、NLPモデルをよりよく理解し、リスクを低減するのに役立つ。 また,NLPモデルの特殊性に起因する一般的な問題を明らかにし,モデルが訓練された後にこれらの問題を検出する制御として,説明可能性分析がどのように機能するかについて議論した。

Machine learning (ML) model explainability has received growing attention, especially in the area related to model risk and regulations. In this paper, we reviewed and compared some popular ML model explainability methodologies, especially those related to Natural Language Processing (NLP) models. We then applied one of the NLP explainability methods Layer-wise Relevance Propagation (LRP) to a NLP classification model. We used the LRP method to derive a relevance score for each word in an instance, which is a local explainability. The relevance scores are then aggregated together to achieve global variable importance of the model. Through the case study, we also demonstrated how to apply the local explainability method to false positive and false negative instances to discover the weakness of a NLP model. These analysis can help us to understand NLP models better and reduce the risk due to the black-box nature of NLP models. We also identified some common issues due to the special natures of NLP models and discussed how explainability analysis can act as a control to detect these issues after the model has been trained.
翻訳日:2021-06-15 16:33:08 公開日:2021-06-14
# 機械学習に基づく組込みシステムの認証:調査

Certification of embedded systems based on Machine Learning: A survey ( http://arxiv.org/abs/2106.07221v1 )

ライセンス: Link先を確認
Guillaume Vidot (IRIT-ARGOS), Christophe Gabreau, Ileana Ober (IRIT-ARGOS), Iulian Ober (IRIT-ARGOS)(参考訳) 機械学習(ML)の進歩は、ナビゲーション/監視支援(例)のようなアビオニクス領域の機能革新への道を開く。 視覚ベースのナビゲーション、障害物検知、仮想センシング、音声テキストアプリケーション、自律飛行、予測メンテナンス、コックピットアシスト。 現在の認定基準とプラクティスは、古典的なプログラミングを念頭に数十年にわたって定義され、洗練されてきましたが、この新しい開発パラダイムをサポートしていません。 本稿では、規制要件の遵守を示す上でMLがもたらした主な課題の概要と、これらの課題に関連する文献の調査、特にML結果の堅牢性や説明可能性に関する課題について概説する。

Advances in machine learning (ML) open the way to innovating functions in the avionic domain, such as navigation/surveillance assistance (e.g. vision-based navigation, obstacle sensing, virtual sensing), speechto-text applications, autonomous flight, predictive maintenance or cockpit assistance. Current certification standards and practices, which were defined and refined decades over decades with classical programming in mind, do not however support this new development paradigm. This article provides an overview of the main challenges raised by the use ML in the demonstration of compliance with regulation requirements, and a survey of literature relevant to these challenges, with particular focus on the issues of robustness and explainability of ML results.
翻訳日:2021-06-15 16:32:52 公開日:2021-06-14
# ビデオ超解像のためのグループベース双方向リカレントウェーブレットニューラルネットワーク

Group-based Bi-Directional Recurrent Wavelet Neural Networks for Video Super-Resolution ( http://arxiv.org/abs/2106.07190v1 )

ライセンス: Link先を確認
Young-Ju Choi, Young-Woon Lee, Byung-Gyu Kim(参考訳) ビデオ超解像(VSR)は、低解像度(LR)フレームから高解像度(HR)フレームを推定することを目的としている。 VSRの重要な課題は、フレーム内の空間的相関と連続フレーム間の時間的依存を効果的に活用することにある。 しかし,従来の手法のほとんどは異なる空間的特徴を同一に扱い,分離したモジュールから空間的特徴と時間的特徴を抽出する。 意味のある情報を得ることができず、細部が強化される。 vsrには、2d convolutional neural networks (cnn)、3d cnn、recurrent neural networks (rnn)の3種類の時間モデリングフレームワークがある。 その中でも、RNNベースのアプローチはシーケンシャルデータに適している。 これにより、隣接フレームの隠れ状態を用いることでsr性能を大幅に向上させることができる。 しかしながら、リカレント構造の各時間ステップにおいて、rnnベースの以前の作品は、隣り合う特徴を制限的に利用する。 タイムステップあたりのアクセシビリティな動きの範囲は狭いため、ダイナミックな動きや大きな動きの欠如した詳細を復元する制限がある。 本稿では,グループベース双方向リカレントウェーブレットニューラルネットワーク(GBR-WNN)を提案する。 グループベース双方向RNN (GBR) 時間モデリングフレームワークは,画像群 (GOP) を用いた構造化プロセス上に構築されている。 本稿では,空間的特徴と時間的特徴の両方に注意をあてる時間的ウェーブレットアテンション(TWA)モジュールを提案する。 実験結果から,提案手法は定量評価と定性評価の両方において,最先端の手法と比較して優れた性能を示すことが示された。

Video super-resolution (VSR) aims to estimate a high-resolution (HR) frame from a low-resolution (LR) frames. The key challenge for VSR lies in the effective exploitation of spatial correlation in an intra-frame and temporal dependency between consecutive frames. However, most of the previous methods treat different types of the spatial features identically and extract spatial and temporal features from the separated modules. It leads to lack of obtaining meaningful information and enhancing the fine details. In VSR, there are three types of temporal modeling frameworks: 2D convolutional neural networks (CNN), 3D CNN, and recurrent neural networks (RNN). Among them, the RNN-based approach is suitable for sequential data. Thus the SR performance can be greatly improved by using the hidden states of adjacent frames. However, at each of time step in a recurrent structure, the RNN-based previous works utilize the neighboring features restrictively. Since the range of accessible motion per time step is narrow, there are still limitations to restore the missing details for dynamic or large motion. In this paper, we propose a group-based bi-directional recurrent wavelet neural networks (GBR-WNN) to exploit the sequential data and spatio-temporal information effectively for VSR. The proposed group-based bi-directional RNN (GBR) temporal modeling framework is built on the well-structured process with the group of pictures (GOP). We propose a temporal wavelet attention (TWA) module, in which attention is adopted for both spatial and temporal features. Experimental results demonstrate that the proposed method achieves superior performance compared with state-of-the-art methods in both of quantitative and qualitative evaluations.
翻訳日:2021-06-15 16:32:22 公開日:2021-06-14
# オーバーフィット:オーバーフィットモデル特性に基づくノイズラベル検出

Over-Fit: Noisy-Label Detection based on the Overfitted Model Property ( http://arxiv.org/abs/2106.07217v1 )

ライセンス: Link先を確認
Seulki Park, Dae Ung Jo, and Jin Young Choi(参考訳) 大規模データセットにおけるノイズラベル問題に対処する必要性が高まっているため,近年,ノイズラベルを用いた学習が注目されている。 有望なアプローチとして、ディープニューラルネットワークがノイズラベルデータに適合する前に、小さなロスインスタンスを見つけることによって、クリーンなトレーニングデータを選択する研究が最近行われている。 しかし、過剰フィットを防ぐことは困難である。 本稿では,個々のデータ点に過度に適合する特性を利用した新しいノイズラベル検出アルゴリズムを提案する。 そこで本研究では,各トレーニングサンプルがモデルにどの程度異常に影響を及ぼすかを統計的に測定する2つの新しい基準を提案する。 この基準を用いて,本アルゴリズムはノイズラベルサンプルを除去し,さらなる性能向上が得られないまでの間,モデルを交互に再訓練する。 複数のベンチマークデータセットの実験では,アルゴリズムの有効性を実証し,正確なノイズ率が与えられていない場合,アルゴリズムが最先端の手法より優れていることを示す。 さらに,本手法は実世界のビデオデータセットに拡張できるだけでなく,オーバーフィッティングによる問題を解決するための正規化手法として見ることもできる。

Due to the increasing need to handle the noisy label problem in a massive dataset, learning with noisy labels has received much attention in recent years. As a promising approach, there have been recent studies to select clean training data by finding small-loss instances before a deep neural network overfits the noisy-label data. However, it is challenging to prevent overfitting. In this paper, we propose a novel noisy-label detection algorithm by employing the property of overfitting on individual data points. To this end, we present two novel criteria that statistically measure how much each training sample abnormally affects the model and clean validation data. Using the criteria, our iterative algorithm removes noisy-label samples and retrains the model alternately until no further performance improvement is made. In experiments on multiple benchmark datasets, we demonstrate the validity of our algorithm and show that our algorithm outperforms the state-of-the-art methods when the exact noise rates are not given. Furthermore, we show that our method can not only be expanded to a real-world video dataset but also can be viewed as a regularization method to solve problems caused by overfitting.
翻訳日:2021-06-15 16:31:57 公開日:2021-06-14
# 潜在空間におけるモデルベース計画のための時間予測符号化

Temporal Predictive Coding For Model-Based Planning In Latent Space ( http://arxiv.org/abs/2106.07156v1 )

ライセンス: Link先を確認
Tung Nguyen, Rui Shu, Tuan Pham, Hung Bui, Stefano Ermon(参考訳) 高次元観測は、実環境へのモデルベース強化学習(MBRL)の適用において大きな課題である。 高次元の感覚入力を扱うために、既存のアプローチでは表現学習を用いて高次元の観測結果をよりダイナミックス推定や計画に適した低次元の潜在空間にマッピングしている。 本研究では,時間的に予測可能な環境要素を符号化するために時間的予測符号化を用いる情報理論的手法を提案する。 本手法は,時間予測可能な情報をエンコーディングすることに焦点を当てているため,タスク関連コンポーネントのエンコーディングを,タスク関連ではない環境内のニュアンス情報よりも暗黙的に優先する。 この表現をリカレント状態空間モデルと組み合わせて学習することで、潜在空間で計画を実行することができる。 本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。 実験の結果,本モデルは従来の手法よりも複雑背景設定が優れているが,標準設定では現状モデルとの競争力は保たれていることがわかった。

High-dimensional observations are a major challenge in the application of model-based reinforcement learning (MBRL) to real-world environments. To handle high-dimensional sensory inputs, existing approaches use representation learning to map high-dimensional observations into a lower-dimensional latent space that is more amenable to dynamics estimation and planning. In this work, we present an information-theoretic approach that employs temporal predictive coding to encode elements in the environment that can be predicted across time. Since this approach focuses on encoding temporally-predictable information, we implicitly prioritize the encoding of task-relevant components over nuisance information within the environment that are provably task-irrelevant. By learning this representation in conjunction with a recurrent state space model, we can then perform planning in latent space. We evaluate our model on a challenging modification of standard DMControl tasks where the background is replaced with natural videos that contain complex but irrelevant information to the planning task. Our experiments show that our model is superior to existing methods in the challenging complex-background setting while remaining competitive with current state-of-the-art models in the standard setting.
翻訳日:2021-06-15 16:29:42 公開日:2021-06-14
# 配電シフト下におけるスプリアスの特徴の検証と対策

Examining and Combating Spurious Features under Distribution Shift ( http://arxiv.org/abs/2106.07171v1 )

ライセンス: Link先を確認
Chunting Zhou, Xuezhe Ma, Paul Michel, Graham Neubig(参考訳) 機械学習の主な目標は、入力特徴と出力ラベルの間の因果関係をキャプチャする堅牢な表現を学習することである。 しかし、有限または偏りのあるデータセットに対する経験的リスクを最小化することは、しばしば、問題に基礎的でないトレーニングの入出力ペア間の相関を分散させるモデルをもたらす。 本稿では,最小限の統計量の情報理論的概念を用いて,ロバスト表現とスプリアス表現を定義し,解析する。 入力分布(すなわち、入力分布)のバイアスしか存在しない場合でも、我々は証明する。 covariate shift)モデルでは、トレーニングデータからスプリアスな特徴を拾うことができる。 群分散ロバスト最適化(DRO)は、一組の事前定義されたグループに対する最悪のトレーニング損失を最小限に抑えることで、共変量シフトを軽減する効果的なツールを提供する。 我々の分析から着想を得た結果、グループDROは、データに発生する様々な突発的相関を直接考慮しない場合に失敗することを示した。 これを解決するために、最適化時に各グループ全体を扱うのではなく、グループとインスタンスの合同分布で定義されるより柔軟な分布の集合に対する最悪の損失を最小限に抑えることを提案する。 1つの画像と2つの言語タスクに関する広範な実験を通じて、我々のモデルは様々な分割の下で同等のベースラインよりもかなり堅牢であることを示した。 私たちのコードはhttps://github.com/violet-zct/group-conditional-DROで公開しています。

A central goal of machine learning is to learn robust representations that capture the causal relationship between inputs features and output labels. However, minimizing empirical risk over finite or biased datasets often results in models latching on to spurious correlations between the training input/output pairs that are not fundamental to the problem at hand. In this paper, we define and analyze robust and spurious representations using the information-theoretic concept of minimal sufficient statistics. We prove that even when there is only bias of the input distribution (i.e. covariate shift), models can still pick up spurious features from their training data. Group distributionally robust optimization (DRO) provides an effective tool to alleviate covariate shift by minimizing the worst-case training loss over a set of pre-defined groups. Inspired by our analysis, we demonstrate that group DRO can fail when groups do not directly account for various spurious correlations that occur in the data. To address this, we further propose to minimize the worst-case losses over a more flexible set of distributions that are defined on the joint distribution of groups and instances, instead of treating each group as a whole at optimization time. Through extensive experiments on one image and two language tasks, we show that our model is significantly more robust than comparable baselines under various partitions. Our code is available at https://github.com/violet-zct/group-conditional-DRO.
翻訳日:2021-06-15 16:29:25 公開日:2021-06-14
# ノード分類で知識グラフのリンク予測が可能に

Node Classification Meets Link Prediction on Knowledge Graphs ( http://arxiv.org/abs/2106.07297v1 )

ライセンス: Link先を確認
Ralph Abboud, \.Ismail \.Ilkan Ceylan(参考訳) ノード分類とリンク予測はグラフ表現学習において広く研究されている。 トランスダクティブノードの分類とリンク予測はどちらも単一の入力グラフ上で動作しますが、それらは単独で研究されています。 ノード分類モデルは、ノードの特徴と不完全なノードラベルを持つグラフを入力とし、暗黙的に入力グラフが関係的に完備であると仮定する。 これは、ノードの特徴を持たない入力グラフのリレーショナル不完全性によってのみ動機付けられるリンク予測モデルとは対照的である。 本稿では,不完全グラフ上の (i) トランスダクティブノード分類と (ii) ノード特徴を持つグラフ上のリンク予測の問題点について考察する。 我々は,既存のボックス埋め込みモデルの拡張を提案し,このモデルが完全に表現力があり,両タスクをエンドツーエンドで解決できることを示す。 このモデルを実証的に評価するために,ノードの特徴を持つ知識グラフを構築し,ノード分類とリンク予測の両面での課題を解決した。 本モデルでは,ノード分類とリンク予測のための各最先端モデルと比較し,ノード分類とナレッジグラフにおけるリンク予測の統一的視点の重要性を示す。

Node classification and link prediction are widely studied tasks in graph representation learning. While both transductive node classification and link prediction operate over a single input graph, they are studied in isolation so far, which leads to discrepancies. Node classification models take as input a graph with node features and incomplete node labels, and implicitly assume that the input graph is relationally complete, i.e., no edges are missing from the input graph. This is in sharp contrast with link prediction models that are solely motivated by the relational incompleteness of the input graph which does not have any node features. We propose a unifying perspective and study the problems of (i) transductive node classification over incomplete graphs and (ii) link prediction over graphs with node features. We propose an extension to an existing box embedding model, and show that this model is fully expressive, and can solve both of these tasks in an end-to-end fashion. To empirically evaluate our model, we construct a knowledge graph with node features, which is challenging both for node classification and link prediction. Our model performs very strongly when compared to the respective state-of-the-art models for node classification and link prediction on this dataset and shows the importance of a unified perspective for node classification and link prediction on knowledge graphs.
翻訳日:2021-06-15 16:29:03 公開日:2021-06-14
# 幾何学的安定性をもつ学習のサンプル複雑性について

On the Sample Complexity of Learning with Geometric Stability ( http://arxiv.org/abs/2106.07148v1 )

ライセンス: Link先を確認
Alberto Bietti, Luca Venturi, Joan Bruna(参考訳) 多くの教師付き学習問題は、画像、テキスト、グラフなどの高次元データを含む。 データの効率的な利用のために、翻訳への不変性、置換部分群、小さな変形に対する安定性などの問題における幾何的先行性を利用するのが有用である。 本研究では,球面上の関数の球面調和分解を考慮し,対象関数がそのような不変性と安定性特性を示す学習問題のサンプル複雑性について検討する。 我々は、カーネル法における非パラメトリック収束率を示し、対応する非不変カーネルと比較して、グループ上の不変カーネルを使用する場合の、グループのサイズに等しい係数によるサンプル複雑性の改善を示す。 これらの改善は、サンプルサイズが十分に大きい場合に有効であり、群のスペクトル特性に依存する漸近的な挙動を持つ。 最後に、これらのゲインは不変群を超えて拡張され、幾何学的安定性を小さな変形までカバーし、ここで置換の部分集合(必ずしも部分群ではない)としてモデル化される。

Many supervised learning problems involve high-dimensional data such as images, text, or graphs. In order to make efficient use of data, it is often useful to leverage certain geometric priors in the problem at hand, such as invariance to translations, permutation subgroups, or stability to small deformations. We study the sample complexity of learning problems where the target function presents such invariance and stability properties, by considering spherical harmonic decompositions of such functions on the sphere. We provide non-parametric rates of convergence for kernel methods, and show improvements in sample complexity by a factor equal to the size of the group when using an invariant kernel over the group, compared to the corresponding non-invariant kernel. These improvements are valid when the sample size is large enough, with an asymptotic behavior that depends on spectral properties of the group. Finally, these gains are extended beyond invariance groups to also cover geometric stability to small deformations, modeled here as subsets (not necessarily subgroups) of permutations.
翻訳日:2021-06-15 16:27:16 公開日:2021-06-14
# ワンショットコミュニケーションによるフェデレーションミオピックコミュニティの検出

Federated Myopic Community Detection with One-shot Communication ( http://arxiv.org/abs/2106.07255v1 )

ライセンス: Link先を確認
Chuyang Ke, Jean Honorio(参考訳) 本稿では,フェデレーション・ミオピック学習におけるネットワークのコミュニティ構造回復の課題について考察する。 このパラダイムの下では、いくつかのクライアントが存在し、それぞれが筋電図ビュー、すなわちネットワークの小さなサブグラフを観察する。 各クライアントは、検閲された証拠グラフを中央サーバに送信する。 クライアントのエビデンスから合意署名付き重み付きグラフを計算し、中央サーバの基盤となるネットワーク構造を復元する効率的なアルゴリズムを提案する。 ネットワークのトポロジ的構造条件と,ネットワーク構造の回復を可能にするクライアントの信号および雑音レベルを解析する。 本分析は, 正確な回復が可能であり, 多項式時間で達成可能であることを示す。 また、中央サーバが単一のクライアント証拠からネットワーク構造を復元するための情報理論上の制限も提供します。 最後に,本解析の副産物として,一般符号付き重み付きグラフに対する新しいチーガー型不等式を提案する。

In this paper, we study the problem of recovering the community structure of a network under federated myopic learning. Under this paradigm, we have several clients, each of them having a myopic view, i.e., observing a small subgraph of the network. Each client sends a censored evidence graph to a central server. We provide an efficient algorithm, which computes a consensus signed weighted graph from clients evidence, and recovers the underlying network structure in the central server. We analyze the topological structure conditions of the network, as well as the signal and noise levels of the clients that allow for recovery of the network structure. Our analysis shows that exact recovery is possible and can be achieved in polynomial time. We also provide information-theoretic limits for the central server to recover the network structure from any single client evidence. Finally, as a byproduct of our analysis, we provide a novel Cheeger-type inequality for general signed weighted graphs.
翻訳日:2021-06-15 16:27:00 公開日:2021-06-14
# オンライン実験における分散化のための機械学習

Machine Learning for Variance Reduction in Online Experiments ( http://arxiv.org/abs/2106.07263v1 )

ライセンス: Link先を確認
Yongyi Guo, Dominic Coey, Mikael Konutgan, Wenting Li, Chris Schoener, Matt Goldman(参考訳) 本研究では,無作為化実験における分散低減の問題点を,結果と相関するが治療とは無関係な共変量を用いて検討する。 そこで,我々はmlrateと呼ぶ機械学習回帰調整治療効果推定器を提案する。 MLRATEは、結果の機械学習予測器を使用して推定値の分散を低減する。 バイアスの過度な適合を避けるためにクロスフィッティングを採用し、一般的な条件下での一貫性と漸近正規性を証明する。 mlrateは、機械学習のステップから低い予測に堅牢である:もし予測が結果と無関係なら、推定者は標準の差分推定器よりも漸近的に実行され、予測が結果と高い相関関係にある場合、効率向上は大きい。 A/Aテストでは、Facebook実験で一般的に監視される48の結果指標のセットに対して、推定器は単純な差分推定器よりも70%以上分散し、結果の事前実験値にのみ適応する一般的な単変量法よりも約19パーセント低い分散を有する。

We consider the problem of variance reduction in randomized controlled trials, through the use of covariates correlated with the outcome but independent of the treatment. We propose a machine learning regression-adjusted treatment effect estimator, which we call MLRATE. MLRATE uses machine learning predictors of the outcome to reduce estimator variance. It employs cross-fitting to avoid overfitting biases, and we prove consistency and asymptotic normality under general conditions. MLRATE is robust to poor predictions from the machine learning step: if the predictions are uncorrelated with the outcomes, the estimator performs asymptotically no worse than the standard difference-in-means estimator, while if predictions are highly correlated with outcomes, the efficiency gains are large. In A/A tests, for a set of 48 outcome metrics commonly monitored in Facebook experiments the estimator has over 70\% lower variance than the simple difference-in-means estimator, and about 19\% lower variance than the common univariate procedure which adjusts only for pre-experiment values of the outcome.
翻訳日:2021-06-15 16:26:45 公開日:2021-06-14
# ベイズ四面体を用いた定常カーネル上のMarginalising

Marginalising over Stationary Kernels with Bayesian Quadrature ( http://arxiv.org/abs/2106.07452v1 )

ライセンス: Link先を確認
Saad Hamid, Sebastian Schulze, Michael A. Osborne, Stephen J. Roberts(参考訳) ガウス過程カーネルの族に対するマージンは、十分な不確実性推定を持つ柔軟なモデルクラスを生成する。 既存のアプローチでは、多くのカーネルを潜在的に評価する必要がある。 本稿では,この限界化をより効率的かつ実用的なベイズ二次スキームを提案する。 分布間の平均誤差を最大化することにより、スペクトル混合(SM)カーネル間の不変性を捉えるカーネル上のカーネルを定義する。 歪ベイズ二次の情報理論的取得関数を一般化して、カーネルサンプルを選択する。 我々は,最先端のベースラインよりも校正の不確実性が向上し,より正確な予測を実現することを実証する。

Marginalising over families of Gaussian Process kernels produces flexible model classes with well-calibrated uncertainty estimates. Existing approaches require likelihood evaluations of many kernels, rendering them prohibitively expensive for larger datasets. We propose a Bayesian Quadrature scheme to make this marginalisation more efficient and thereby more practical. Through use of the maximum mean discrepancies between distributions, we define a kernel over kernels that captures invariances between Spectral Mixture (SM) Kernels. Kernel samples are selected by generalising an information-theoretic acquisition function for warped Bayesian Quadrature. We show that our framework achieves more accurate predictions with better calibrated uncertainty than state-of-the-art baselines, especially when given limited (wall-clock) time budgets.
翻訳日:2021-06-15 16:26:19 公開日:2021-06-14
# 不分散学習のためのラスト層限界確率

Last Layer Marginal Likelihood for Invariance Learning ( http://arxiv.org/abs/2106.07512v1 )

ライセンス: Link先を確認
Pola Elisabeth Schw\"obel, Martin J{\o}rgensen, Sebastian W. Ober, Mark van der Wilk(参考訳) データ拡張はしばしば、帰納バイアスをモデルに組み込むために使われる。 伝統的に、これらは手作りで、クロス検証で調整される。 モデル選択のためのベイズパラダイムは、限界確率を最適化することにより、トレーニングデータのみを用いて不変性をエンドツーエンドに学習する道を提供する。 我々は、このアプローチをニューラルネットワークに導入するために、最終層にガウス過程を持つアーキテクチャを用いて、限界確率を計算できるモデルを構築している。 実験では,標準ベンチマーク,低データレジーム,医用イメージングタスクの適切な不分散を学習することにより,性能を向上させる。 invariant deep kernel gaussian processの最適化課題を同定し、堅牢なトレーニングスキームに到達するための体系的分析を行った。 これにより、従来よりも大きな可能性関数のクラスを推論することが可能となり、それによって、以前のアプローチで存在したトレーニング課題のいくつかを克服することができる。

Data augmentation is often used to incorporate inductive biases into models. Traditionally, these are hand-crafted and tuned with cross validation. The Bayesian paradigm for model selection provides a path towards end-to-end learning of invariances using only the training data, by optimising the marginal likelihood. We work towards bringing this approach to neural networks by using an architecture with a Gaussian process in the last layer, a model for which the marginal likelihood can be computed. Experimentally, we improve performance by learning appropriate invariances in standard benchmarks, the low data regime and in a medical imaging task. Optimisation challenges for invariant Deep Kernel Gaussian processes are identified, and a systematic analysis is presented to arrive at a robust training scheme. We introduce a new lower bound to the marginal likelihood, which allows us to perform inference for a larger class of likelihood functions than before, thereby overcoming some of the training challenges that existed with previous approaches.
翻訳日:2021-06-15 16:26:07 公開日:2021-06-14
# 画家の手を識別する:表面トポグラフィーによる機械学習

Discerning the painter's hand: machine learning on surface topography ( http://arxiv.org/abs/2106.07134v1 )

ライセンス: Link先を確認
F. Ji, M. S. McMaster, S. Schwab, G. Singh, L. N. Smith, S. Adhikari, M. O'Dwyer, F. Sayed, A. Ingrisano, D. Yoder, E. S. Bolman, I. T. Martin, M. Hinczewski, K. D. Singer(参考訳) 絵画の帰属は美術史において重要な問題である。 本研究は,絵画表面のトポグラフィーに機械学習解析を応用した。 正の帰属に関する統制的な研究は、美術学生の集団が制作した絵画でデザインされた。 絵画は、表面データを生成するために共焦点光学プロファイロメーターを用いてスキャンされた。 表面データは仮想パッチに分割され、帰属のために畳み込みニューラルネットワーク(CNN)のアンサンブルをトレーニングするために使用された。 パッチサイズは0.5mmから60mmの範囲で、結果として生じる帰属は60から96%の精度で、異なる色の領域を比較すると、絵画の色画像を用いたcnnのほぼ2倍の精度を示した。 注目すべきは、細い直径の2倍の短い長さのスケールが、アーティストの間で確実に区別する鍵であったことである。 これらの結果は,特にワークショップ実践において,実世界の帰属への期待を示す。

Attribution of paintings is a critical problem in art history. This study extends machine learning analysis to surface topography of painted works. A controlled study of positive attribution was designed with paintings produced by a class of art students. The paintings were scanned using a confocal optical profilometer to produce surface data. The surface data were divided into virtual patches and used to train an ensemble of convolutional neural networks (CNNs) for attribution. Over a range of patch sizes from 0.5 to 60 mm, the resulting attribution was found to be 60 to 96% accurate, and, when comparing regions of different color, was nearly twice as accurate as CNNs using color images of the paintings. Remarkably, short length scales, as small as twice a bristle diameter, were the key to reliably distinguishing among artists. These results show promise for real-world attribution, particularly in the case of workshop practice.
翻訳日:2021-06-15 16:24:05 公開日:2021-06-14
# 情報源画像の選択は敵攻撃の有効性に大きく影響する

Selection of Source Images Heavily Influences the Effectiveness of Adversarial Attacks ( http://arxiv.org/abs/2106.07141v1 )

ライセンス: Link先を確認
Utku Ozbulak, Esla Timothy Anzaku, Wesley De Neve, Arnout Van Messem(参考訳) 近年、ディープニューラルネットワーク(DNN)の採用率は大幅に増加しているが、敵の例に対する脆弱性の解決策はまだ見つかっていない。 結果として、この弱点を解決するためにかなりの研究努力が費やされ、多くの研究は典型的にソースイメージのサブセットを使用して逆例を生成し、このサブセット内のすべてのイメージを等しいものとして扱う。 実際、すべてのソースイメージがこの種の評価に等しく適しているわけではないことを実証する。 そこで我々は,ImageNetの適切なソース画像から生成した敵例の特性を,最も頻繁にデプロイされる攻撃の2つを巧みに分析する大規模モデル間転送可能性シナリオを考案した。 最近提案されたビジョントランスフォーマーを含む7つの異なるDNNモデルを含むトランスファービリティシナリオでは、モデルからモデルへのトランスファービリティの成功で最大$2.5\%、平均$L_2$摂動で$1.01$、平均$L_{\infty}$摂動で$0.03$(8/225$)の差がある可能性がある。 次に,実例作成に使用する画像のロバスト性を評価するための第一歩を踏み出し,不適切なソース画像を特定するための単純かつ効果的な手法を多数提案し,実験の極端なケースを軽減し,高品質なベンチマークをサポートする。

Although the adoption rate of deep neural networks (DNNs) has tremendously increased in recent years, a solution for their vulnerability against adversarial examples has not yet been found. As a result, substantial research efforts are dedicated to fix this weakness, with many studies typically using a subset of source images to generate adversarial examples, treating every image in this subset as equal. We demonstrate that, in fact, not every source image is equally suited for this kind of assessment. To do so, we devise a large-scale model-to-model transferability scenario for which we meticulously analyze the properties of adversarial examples, generated from every suitable source image in ImageNet by making use of two of the most frequently deployed attacks. In this transferability scenario, which involves seven distinct DNN models, including the recently proposed vision transformers, we reveal that it is possible to have a difference of up to $12.5\%$ in model-to-model transferability success, $1.01$ in average $L_2$ perturbation, and $0.03$ ($8/225$) in average $L_{\infty}$ perturbation when $1,000$ source images are sampled randomly among all suitable candidates. We then take one of the first steps in evaluating the robustness of images used to create adversarial examples, proposing a number of simple but effective methods to identify unsuitable source images, thus making it possible to mitigate extreme cases in experimentation and support high-quality benchmarking.
翻訳日:2021-06-15 16:23:52 公開日:2021-06-14
# 複素相対ラジオメトリック正規化モザイク化シナリオにおけるポアソン編集によるシーム線の自動除去

Automatically eliminating seam lines with Poisson editing in complex relative radiometric normalization mosaicking scenarios ( http://arxiv.org/abs/2106.07441v1 )

ライセンス: Link先を確認
Shiqi Liu, Jie Lian, Xuchen Zhan, Cong Liu, Yuze Tian, Hongwei Duan(参考訳) 複数のリモートセンシング画像間の相対ラジオメトリック正規化(RRN)モザイクは、地図作成、画像認識、セマンティックセグメンテーション、変化検出などの下流タスクに不可欠である。 しかし、モザイク境界と放射能コントラストには、特に複雑なシナリオでは、しばしばシーム線があり、モザイク画像の出現を不明瞭にし、後者の分類/認識アルゴリズムの精度を低下させる。 本稿では,複雑なRCNモザイクシナリオにおいて,シームラインを除去するための新しい自動アプローチを示す。 重なり領域のヒストグラムマッチングを利用して放射能コントラストを緩和し、ポアソン編集によりシーム線を除去し、マージ手順により正規化転送順序を決定する。 提案手法では, 任意の形状のモザイク線と, 極端に位相的関係のある画像(交叉面積が小さい)を扱える。 これらの条件により、線形重み付きブレンディングやラプラシアピラミッドブレンディングなど、主な羽毛やブレンディング方法が利用できない。 実験では,Poisson編集やGIMPソフトウェアを用いた手作業のぼやけや羽化を伴わない自動手法を視覚的に超えた。

Relative radiometric normalization (RRN) mosaicking among multiple remote sensing images is crucial for the downstream tasks, including map-making, image recognition, semantic segmentation, and change detection. However, there are often seam lines on the mosaic boundary and radiometric contrast left, especially in complex scenarios, making the appearance of mosaic images unsightly and reducing the accuracy of the latter classification/recognition algorithms. This paper renders a novel automatical approach to eliminate seam lines in complex RRN mosaicking scenarios. It utilizes the histogram matching on the overlap area to alleviate radiometric contrast, Poisson editing to remove the seam lines, and merging procedure to determine the normalization transfer order. Our method can handle the mosaicking seam lines with arbitrary shapes and images with extreme topological relationships (with a small intersection area). These conditions make the main feathering or blending methods, e.g., linear weighted blending and Laplacian pyramid blending, unavailable. In the experiment, our approach visually surpasses the automatic methods without Poisson editing and the manual blurring and feathering method using GIMP software.
翻訳日:2021-06-15 16:23:22 公開日:2021-06-14
# インライン座標を用いた2次元の完全解釈型機械学習

Full interpretable machine learning in 2D with inline coordinates ( http://arxiv.org/abs/2106.07568v1 )

ライセンス: Link先を確認
Boris Kovalerchuk, Hoang Phan(参考訳) 本稿では,2次元空間(2次元ml)のインライン座標における機械学習の新しい手法を提案する。 これは、n次元空間におけるn次元データを扱う必要がない完全な機械学習アプローチである。 2次元空間におけるn-Dパターンの発見は、2次元空間におけるn-Dデータのグラフ表現を用いてn-D情報を失うことなく可能である。 具体的には、静的座標や動的座標を含む、異なる修正のインラインベースの座標で行うことができる。 これらのインライン座標に基づく分類と回帰アルゴリズムを導入した。 ベンチマークデータに基づくケーススタディは、このアプローチの実現可能性を示した。 このアプローチは、有望なML方法論として、完全な2次元機械学習のまったく新しい領域を統合するのに役立つ。 モデルの発見とその正当化にエンドユーザーを積極的に巻き込む能力の利点がある。 もうひとつのメリットは、解釈可能なMLモデルを提供することだ。

This paper proposed a new methodology for machine learning in 2-dimensional space (2-D ML) in inline coordinates. It is a full machine learning approach that does not require to deal with n-dimensional data in n-dimensional space. It allows discovering n-D patterns in 2-D space without loss of n-D information using graph representations of n-D data in 2-D. Specifically, it can be done with the inline based coordinates in different modifications, including static and dynamic ones. The classification and regression algorithms based on these inline coordinates were introduced. A successful case study based on a benchmark data demonstrated the feasibility of the approach. This approach helps to consolidate further a whole new area of full 2-D machine learning as a promising ML methodology. It has advantages of abilities to involve actively the end-users into the discovering of models and their justification. Another advantage is providing interpretable ML models.
翻訳日:2021-06-15 16:23:00 公開日:2021-06-14
# 視覚と聴覚の感覚置換のための新しいマッピング

A Novel mapping for visual to auditory sensory substitution ( http://arxiv.org/abs/2106.07448v1 )

ライセンス: Link先を確認
Ezsan Mehrbani, Sezedeh Fatemeh Mirhoseini, Noushin Riahi(参考訳) 視覚情報は感覚置換デバイスを介して音声ストリームに変換でき、視覚障害者が日常の作業に容易に同時に周囲を知覚する機会を与えることができる。 本研究では,視覚環境特性であるコーディネート,物体の種類,大きさを,周波数,持続時間,音符の順列といった音楽音に関する音声特徴に割り当てる。 その結果, 本手法は, 正弦波トーンを応用した従来のVBTones法と比較して, 訓練時間効率が向上した。 さらに,実物に対する視覚的物体認識の結果は平均88.05であった。

visual information can be converted into audio stream via sensory substitution devices in order to give visually impaired people the chance of perception of their surrounding easily and simultaneous to performing everyday tasks. In this study, visual environmental features namely, coordinate, type of objects and their size are assigned to audio features related to music tones such as frequency, time duration and note permutations. Results demonstrated that this new method has more training time efficiency in comparison with our previous method named VBTones which sinusoidal tones were applied. Moreover, results in blind object recognition for real objects was achieved 88.05 on average.
翻訳日:2021-06-15 16:22:49 公開日:2021-06-14
# 1000層からなるグラフニューラルネットワークのトレーニング

Training Graph Neural Networks with 1000 Layers ( http://arxiv.org/abs/2106.07476v1 )

ライセンス: Link先を確認
Guohao Li, Matthias M\"uller, Bernard Ghanem, Vladlen Koltun(参考訳) ディープグラフニューラルネットワーク(GNN)は、数百万のノードとエッジを持つ大規模グラフデータセットのさまざまなタスクにおいて、優れた結果を得た。 しかし,ノード数,エッジ数,中間的アクティベーション数が多いため,実用化のための深部GNNのトレーニングでは,メモリ複雑性が大きな障害となっている。 gnnのスケーラビリティを改善するために、より小さなノードまたはサブグラフでgnnをトレーニングするためのスマートグラフサンプリングまたはパーティショニング戦略を提案する。 本研究では,GNNのメモリとパラメータ効率を向上させるために,可逆接続,グループ畳み込み,重み付け,平衡モデルについて検討する。 深いネットワークアーキテクチャと組み合わさった可逆接続により、複数のデータセット上の既存のメソッドを大幅に上回る、過パラメータ化されたGNNのトレーニングが可能になる。 我々のモデルであるRevGNN-Deep(それぞれ80のチャネルを持つ1001層)とRevGNN-Wide(それぞれ224のチャネルを持つ448層)は、いずれも単一のコモディティGPUでトレーニングされ、ogbn-oproteinsデータセット上で87.74 \pm 0.13$と8.14 \pm 0.15$のROC-AUCを達成した。 我々の知る限りでは、RevGNN-Deepは文学で最も深いGNNである。 詳細はプロジェクトのwebサイトhttps://www.deepgcns.org/arch/gnn1000を参照してください。

Deep graph neural networks (GNNs) have achieved excellent results on various tasks on increasingly large graph datasets with millions of nodes and edges. However, memory complexity has become a major obstacle when training deep GNNs for practical applications due to the immense number of nodes, edges, and intermediate activations. To improve the scalability of GNNs, prior works propose smart graph sampling or partitioning strategies to train GNNs with a smaller set of nodes or sub-graphs. In this work, we study reversible connections, group convolutions, weight tying, and equilibrium models to advance the memory and parameter efficiency of GNNs. We find that reversible connections in combination with deep network architectures enable the training of overparameterized GNNs that significantly outperform existing methods on multiple datasets. Our models RevGNN-Deep (1001 layers with 80 channels each) and RevGNN-Wide (448 layers with 224 channels each) were both trained on a single commodity GPU and achieve an ROC-AUC of $87.74 \pm 0.13$ and $88.14 \pm 0.15$ on the ogbn-proteins dataset. To the best of our knowledge, RevGNN-Deep is the deepest GNN in the literature by one order of magnitude. Please visit our project website https://www.deepgcns.org/arch/gnn1000 for more information.
翻訳日:2021-06-15 16:20:35 公開日:2021-06-14
# 中華人民共和国の国家支援情報運用におけるプロパガンダ手法のデータセット

Dataset of Propaganda Techniques of the State-Sponsored Information Operation of the People's Republic of China ( http://arxiv.org/abs/2106.07544v1 )

ライセンス: Link先を確認
Rong-Ching Chang, Chun-Ming Lai, Kai-Lai Chang, Chu-Hsing Lin(参考訳) デジタルメディアは、計算プロパガンダとして認識され、プロパガンダが限界なくリーチを拡張する経路を提供する。 国家支援のプロパガンダは、ある政党や権威を支持する団体に対する観客の認識を形作ることを目的としている。 さらに、敵に有利になるために使われた近代的な情報戦の一部となった。 現在の研究では、ソーシャルメディア上の特定の情報がプロパガンダであるかどうかを識別するために、機械学習、量的、質的な手法を使うことに焦点が当てられている。 主に英語のコンテンツを扱うが、中国語のマンダリンのコンテンツを扱う研究はほとんどない。 プロパガンダ検出からさらに一歩進んで、適用されるプロパガンダ技術についてより詳細な情報を提供したいと思っています。 本研究では,twitterが提供する国の支援情報運用データセットに基づいて,マンダリンにおけるマルチラベルプロパガンダ技術データセットを提供することにより,情報ギャップの橋渡しを図る。 データセットの提示に加えて、微調整されたbertを用いたマルチラベルテキスト分類を適用する。 これは、国家が支援するプロパガンダを、特に言語間のコンテキストとプラットフォーム間のアイデンティティ統合で検出する将来の研究に役立つ可能性がある。

The digital media, identified as computational propaganda provides a pathway for propaganda to expand its reach without limit. State-backed propaganda aims to shape the audiences' cognition toward entities in favor of a certain political party or authority. Furthermore, it has become part of modern information warfare used in order to gain an advantage over opponents. Most of the current studies focus on using machine learning, quantitative, and qualitative methods to distinguish if a certain piece of information on social media is propaganda. Mainly conducted on English content, but very little research addresses Chinese Mandarin content. From propaganda detection, we want to go one step further to provide more fine-grained information on propaganda techniques that are applied. In this research, we aim to bridge the information gap by providing a multi-labeled propaganda techniques dataset in Mandarin based on a state-backed information operation dataset provided by Twitter. In addition to presenting the dataset, we apply a multi-label text classification using fine-tuned BERT. Potentially this could help future research in detecting state-backed propaganda online especially in a cross-lingual context and cross platforms identity consolidation.
翻訳日:2021-06-15 16:20:11 公開日:2021-06-14
# 線形関数近似を用いたターゲットベースアクタ臨界アルゴリズムの解析

Analysis of a Target-Based Actor-Critic Algorithm with Linear Function Approximation ( http://arxiv.org/abs/2106.07472v1 )

ライセンス: Link先を確認
Anas Barakat, Pascal Bianchi, Julien Lehmann(参考訳) ターゲットネットワークを統合するアクター・クリティカルな手法は、深層強化学習において非常に成功した。 しかし、アクタ批判的手法における標的ネットワークの使用に関する理論的理解は文献にはほとんど欠落している。 本稿では,この理論と実践のギャップを,リニア関数近似を用いたオンラインターゲットベースアクター批判アルゴリズムの最初の理論的解析を割引報酬設定で提案することで橋渡しする。 私たちのアルゴリズムは3つのタイムスケールを使用します。1つはアクター、2つは批評家です。 標準的な単一時間スケール時間差(TD)学習アルゴリズムを批判として使用する代わりに、ターゲットネットワークを実装する実践的アクター批判アルゴリズムに強くインスパイアされた2つの時間スケール目標学習を使用する。 まず,マルコフサンプリング下の批評家と俳優の両方に対して漸近収束結果を確立する。 次に,対象ネットワークをアクタ批判手法に組み込むことが与える影響を,有限時間解析で示す。

Actor-critic methods integrating target networks have exhibited a stupendous empirical success in deep reinforcement learning. However, a theoretical understanding of the use of target networks in actor-critic methods is largely missing in the literature. In this paper, we bridge this gap between theory and practice by proposing the first theoretical analysis of an online target-based actor-critic algorithm with linear function approximation in the discounted reward setting. Our algorithm uses three different timescales: one for the actor and two for the critic. Instead of using the standard single timescale temporal difference (TD) learning algorithm as a critic, we use a two timescales target-based version of TD learning closely inspired from practical actor-critic algorithms implementing target networks. First, we establish asymptotic convergence results for both the critic and the actor under Markovian sampling. Then, we provide a finite-time analysis showing the impact of incorporating a target network into actor-critic methods.
翻訳日:2021-06-15 16:18:32 公開日:2021-06-14
# 混合線形回帰のためのWasserstein Minimaxフレームワーク

A Wasserstein Minimax Framework for Mixed Linear Regression ( http://arxiv.org/abs/2106.07537v1 )

ライセンス: Link先を確認
Theo Diamandis, Yonina C. Eldar, Alireza Fallah, Farzan Farnia, Asuman Ozdaglar(参考訳) マルチモーダル分布は、統計的学習タスクでクラスタ化されたデータをモデル化するために一般的に使用される。 本稿では,Mixed Linear Regression (MLR)問題について考察する。 本稿では,学習と目標混合回帰モデル間のwasserstein距離を最小化する,mlr問題の最適トランスポートベースフレームワークであるwasserstein mixed linear regression (wmlr)を提案する。 モデルに基づく双対性解析により、WMLR は基礎となる MLR タスクを非凸-凹極小最適化問題に還元し、グラディエント・Descent Ascent (GDA) アルゴリズムによりミニマックス定常点を求めることを証明可能とした。 2つの線形回帰モデルの混合の場合、WMLRが大域収束と一般化の保証を享受していることが示される。 We prove that WMLR's sample complexity growly with the dimension of data。 最後に、ネットワーク内の複数のエージェントがトレーニングサンプルを収集するフェデレート学習タスクへのWMLRの適用について論じる。 expectation Maximizationアルゴリズムとは異なり、WMLRは分散されたフェデレーション学習設定に直接拡張する。 我々はいくつかの数値実験を通じて理論的結果をサポートし、混合モデルを用いて統合学習環境を扱うフレームワークの能力を強調した。

Multi-modal distributions are commonly used to model clustered data in statistical learning tasks. In this paper, we consider the Mixed Linear Regression (MLR) problem. We propose an optimal transport-based framework for MLR problems, Wasserstein Mixed Linear Regression (WMLR), which minimizes the Wasserstein distance between the learned and target mixture regression models. Through a model-based duality analysis, WMLR reduces the underlying MLR task to a nonconvex-concave minimax optimization problem, which can be provably solved to find a minimax stationary point by the Gradient Descent Ascent (GDA) algorithm. In the special case of mixtures of two linear regression models, we show that WMLR enjoys global convergence and generalization guarantees. We prove that WMLR's sample complexity grows linearly with the dimension of data. Finally, we discuss the application of WMLR to the federated learning task where the training samples are collected by multiple agents in a network. Unlike the Expectation Maximization algorithm, WMLR directly extends to the distributed, federated learning setting. We support our theoretical results through several numerical experiments, which highlight our framework's ability to handle the federated learning setting with mixture models.
翻訳日:2021-06-15 16:18:17 公開日:2021-06-14
# MIA-COV19D : 3次元胸部CT画像解析によるCOVID-19検出

MIA-COV19D: COVID-19 Detection through 3-D Chest CT Image Analysis ( http://arxiv.org/abs/2106.07524v1 )

ライセンス: Link先を確認
Dimitrios Kollias and Anastasios Arsenos and Levon Soukissian and Stefanos Kollias(参考訳) 胸部3次元ctスキャンに基づく早期かつ信頼性の高い新型コロナウイルス診断は、重要な状況で医療専門家を助ける。 深層学習法は胸部CTスキャン解析と疾患予測の主要なアプローチである。 しかし、さまざまな国の様々な医療環境に新型コロナウイルスの診断を提供することができるディープラーニングモデルを開発するためには、大きな注釈付きデータベースが必要である。 プライバシー上の問題により、公開されているCOVID-19 CTデータセットの入手は非常に困難であり、CTスキャンに基づいたAI対応診断方法の研究と開発を妨げる。 本稿では,covid-19対応のcov19-ct-dbデータベースを,約5,000の3次元ctスキャンから作成し,トレーニング,検証,テストデータセットでデータベースを分割した。 前者の2つのデータセットは、機械学習モデルのトレーニングと検証に使用され、後者は、開発したモデルの評価に使用される。 また,CNN-RNNネットワークに基づく深層学習手法を提案し,その性能をCOVID19-CT-DBデータベース上で報告する。

Early and reliable COVID-19 diagnosis based on chest 3-D CT scans can assist medical specialists in vital circumstances. Deep learning methodologies constitute a main approach for chest CT scan analysis and disease prediction. However, large annotated databases are necessary for developing deep learning models that are able to provide COVID-19 diagnosis across various medical environments in different countries. Due to privacy issues, publicly available COVID-19 CT datasets are highly difficult to obtain, which hinders the research and development of AI-enabled diagnosis methods of COVID-19 based on CT scans. In this paper we present the COV19-CT-DB database which is annotated for COVID-19, consisting of about 5,000 3-D CT scans, We have split the database in training, validation and test datasets. The former two datasets can be used for training and validation of machine learning models, while the latter will be used for evaluation of the developed models. We also present a deep learning approach, based on a CNN-RNN network and report its performance on the COVID19-CT-DB database.
翻訳日:2021-06-15 16:16:29 公開日:2021-06-14
# 制御のための視覚的3次元キーポイントの教師なし学習

Unsupervised Learning of Visual 3D Keypoints for Control ( http://arxiv.org/abs/2106.07643v1 )

ライセンス: Link先を確認
Boyuan Chen, Pieter Abbeel, Deepak Pathak(参考訳) 高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。 先行研究では、視覚キーポイントのような構造化された潜在空間が、ロボット制御のための非構造化表現よりも優れていることが示されている。 しかしながら、これらの表現のほとんどは、通常3次元環境で実行されるにもかかわらず、2次元空間で学習される。 本研究では,画像から3次元の幾何学構造を直接教師なしで学習するフレームワークを提案する。 入力画像は、多視点整合性損失と下流タスク目的の両方を最適化するように訓練された微分可能なエンコーダを介して、潜在3Dキーポイントに埋め込まれる。 これらの発見済みの3dキーポイントは、時間と3d空間の両方において、ロボットの関節や物体の動きを一貫して捉える傾向にあります。 提案手法は,様々な強化学習ベンチマークにおいて,先行手法よりも優れている。 https://buoyancy99.github.io/unsup-3d-keypoints/

Learning sensorimotor control policies from high-dimensional images crucially relies on the quality of the underlying visual representations. Prior works show that structured latent space such as visual keypoints often outperforms unstructured representations for robotic control. However, most of these representations, whether structured or unstructured are learned in a 2D space even though the control tasks are usually performed in a 3D environment. In this work, we propose a framework to learn such a 3D geometric structure directly from images in an end-to-end unsupervised manner. The input images are embedded into latent 3D keypoints via a differentiable encoder which is trained to optimize both a multi-view consistency loss and downstream task objective. These discovered 3D keypoints tend to meaningfully capture robot joints as well as object movements in a consistent manner across both time and 3D space. The proposed approach outperforms prior state-of-art methods across a variety of reinforcement learning benchmarks. Code and videos at https://buoyancy99.github.io/unsup-3d-keypoints/
翻訳日:2021-06-15 16:16:13 公開日:2021-06-14
# マルチビューデータにおける自己教師付きメトリック学習:下流タスクの視点から

Self-Supervised Metric Learning in Multi-View Data: A Downstream Task Perspective ( http://arxiv.org/abs/2106.07138v1 )

ライセンス: Link先を確認
Shulei Wang(参考訳) 自己教師付きメトリック学習は、ラベルのないデータセットから距離を学習するアプローチとして成功している。 得られた距離は、計量学習段階において下流タスクからの情報が使われなくても、様々な距離ベースの下流タスクを改善するのに広く有用である。 本研究では,マルチビューデータの文脈において,自己教師付きメトリック学習が下流課題にどのように役立つかを理論的に研究するための統計的枠組みを考案する。 この枠組みの下では、メトリック学習の目標距離が下流タスクに必要ないくつかの特性を満たすことを示す。 一方,本研究では,各方向の重みを緩和することにより,目標距離をさらに改善できることを示す。 さらに,本分析では,サンプル識別,2サンプルテスト,$k$-meansクラスタリング,$k$-nearest近隣分類の4つのダウンストリームタスクに対して,自己教師付きメトリック学習による改善を正確に特徴付ける。 副産物として,目標距離の推定に最適で計算効率のよい自己教師付き距離学習のための簡易スペクトル法を提案する。 最後に,論文の理論的結果を支持する数値実験を行った。

Self-supervised metric learning has been a successful approach for learning a distance from an unlabeled dataset. The resulting distance is broadly useful for improving various distance-based downstream tasks, even when no information from downstream tasks is utilized in the metric learning stage. To gain insights into this approach, we develop a statistical framework to theoretically study how self-supervised metric learning can benefit downstream tasks in the context of multi-view data. Under this framework, we show that the target distance of metric learning satisfies several desired properties for the downstream tasks. On the other hand, our investigation suggests the target distance can be further improved by moderating each direction's weights. In addition, our analysis precisely characterizes the improvement by self-supervised metric learning on four commonly used downstream tasks: sample identification, two-sample testing, $k$-means clustering, and $k$-nearest neighbor classification. As a by-product, we propose a simple spectral method for self-supervised metric learning, which is computationally efficient and minimax optimal for estimating target distance. Finally, numerical experiments are presented to support the theoretical results in the paper.
翻訳日:2021-06-15 16:15:25 公開日:2021-06-14
# なぜ首を落とせるのか? BERTヘッドの転送方法の調査

Why Can You Lay Off Heads? Investigating How BERT Heads Transfer ( http://arxiv.org/abs/2106.07137v1 )

ライセンス: Link先を確認
Ting-Rui Chiang, Yun-Nung Chen(参考訳) 広く使われているBERTファミリーモデルの巨大なサイズは、近年のモデル蒸留への取り組みにつながっている。 蒸留の主な目的は、ダウンストリームタスクで微調整できるタスクに依存しない事前訓練モデルを作ることである。 蒸留の進展にもかかわらず、どの程度や理由から、蒸留からタスク非依存モデルを作成することができるかは、十分に研究されていない。 また,これらのBERTモデルの伝達学習のメカニズムについてもよく研究されていない。 そこで本研究は, 今後の蒸留法を導くため, 蒸留時の許容量の分析に重点を置いている。 具体的には、まず、RoBERTaおよびALBERTにおけるトランスフォーマーヘッドの刈取性について、Michelらの提案した頭部重み付け推定を用いて検討する。 (2019)、事前訓練されたタスクと下流タスクの間の重要なヘッドのコヒーレンスをチェックする。 したがって、モデル蒸留時の予め訓練したタスクにおける性能の許容的な推論を結果から導き出すことができ、さらに微調整前後における刈り込みモデルの挙動を比較できる。 本研究は,BERTファミリーモデル蒸留の今後の方向性に関するガイダンスを提供する。

The huge size of the widely used BERT family models has led to recent efforts about model distillation. The main goal of distillation is to create a task-agnostic pre-trained model that can be fine-tuned on downstream tasks without fine-tuning its full-sized version. Despite the progress of distillation, to what degree and for what reason a task-agnostic model can be created from distillation has not been well studied. Also, the mechanisms behind transfer learning of those BERT models are not well investigated either. Therefore, this work focuses on analyzing the acceptable deduction when distillation for guiding the future distillation procedure. Specifically, we first inspect the prunability of the Transformer heads in RoBERTa and ALBERT using their head importance estimation proposed by Michel et al. (2019), and then check the coherence of the important heads between the pre-trained task and downstream tasks. Hence, the acceptable deduction of performance on the pre-trained task when distilling a model can be derived from the results, and we further compare the behavior of the pruned model before and after fine-tuning. Our studies provide guidance for future directions about BERT family model distillation.
翻訳日:2021-06-15 16:12:20 公開日:2021-06-14
# エンドツーエンドのニューラルネットワークダイアリゼーション:transformerからconformerへ

End-to-end Neural Diarization: From Transformer to Conformer ( http://arxiv.org/abs/2106.07167v1 )

ライセンス: Link先を確認
Yi Chieh Liu and Eunjung Han and Chul Lee and Andreas Stolcke(参考訳) 我々は、畳み込みマッピングとTransformerを組み合わせて音声の局所的およびグローバル的依存関係をモデル化する、Conformerに基づく新しいエンドツーエンドニューラルダイアリゼーション(EEND)システムを提案する。 まず、データ拡張と畳み込みサブサンプリングレイヤにより、TransformerベースのEENDにおけるオリジナルの自己注意型EENDが向上し、ConformerはTransformerベースのEENDよりもさらに向上することを示す。 しかし,コンフォーメータベースeendは,トランスフォーメータベースモデルのようにシミュレーションデータから実会話データへの一般化には至っていない。 これにより,話者間のターンテイクを反映する時間統計量の観点から,シミュレーションデータと実話者行動のミスマッチを定量化し,ダイアリゼーション誤差との関連性を検討することができる。 EENDトレーニングにおけるシミュレーションデータと実データを組み合わせることで、さらにミスマッチを緩和し、コンバータベースのEENDはベースラインSA-EENDシステムに対して24%のエラー低減を実現し、2話者CALLHOMEデータ上で最高の拡張トランスフォーマベースのシステムよりも10%改善した。

We propose a new end-to-end neural diarization (EEND) system that is based on Conformer, a recently proposed neural architecture that combines convolutional mappings and Transformer to model both local and global dependencies in speech. We first show that data augmentation and convolutional subsampling layers enhance the original self-attentive EEND in the Transformer-based EEND, and then Conformer gives an additional gain over the Transformer-based EEND. However, we notice that the Conformer-based EEND does not generalize as well from simulated to real conversation data as the Transformer-based model. This leads us to quantify the mismatch between simulated data and real speaker behavior in terms of temporal statistics reflecting turn-taking between speakers, and investigate its correlation with diarization error. By mixing simulated and real data in EEND training, we mitigate the mismatch further, with Conformer-based EEND achieving 24% error reduction over the baseline SA-EEND system, and 10% improvement over the best augmented Transformer-based system, on two-speaker CALLHOME data.
翻訳日:2021-06-15 16:12:04 公開日:2021-06-14
# 弱教師付き質問応答におけるスプリアス解問題に対する相互情報最大化アプローチ

A Mutual Information Maximization Approach for the Spurious Solution Problem in Weakly Supervised Question Answering ( http://arxiv.org/abs/2106.07174v1 )

ライセンス: Link先を確認
Zhihong Shao, Lifeng Shang, Qun Liu, Minlie Huang(参考訳) 弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つが、正しい解は提供されない。 偶然に正しい答えを導き出す散発的な解が多数存在するかもしれないが、そのような解に対するトレーニングはモデルのパフォーマンスを損なう可能性がある(例えば、間違った解や答えを生み出す)。 例えば、DROPのような離散的推論タスクに対しては、数値解を導出する方程式が多数存在し、典型的にはそのうちの1つのみが正しい。 従来の学習手法は、主にヒューリスティックスやモデル信頼を用いて急激な解をフィルタリングするが、質問とその解のセマンティックな相関を明示的に利用しない。 本稿では,スプリアス解問題を軽減するために,質問応答対と予測解の相互情報を最大化することにより,これらの意味相関を明示的に活用することを提案する。 4つの質問応答データセットの広範囲な実験により,本手法は従来の学習方法よりもタスク性能に優れており,正しい解を生成するためのモデルの訓練に有効であることが示された。

Weakly supervised question answering usually has only the final answers as supervision signals while the correct solutions to derive the answers are not provided. This setting gives rise to the spurious solution problem: there may exist many spurious solutions that coincidentally derive the correct answer, but training on such solutions can hurt model performance (e.g., producing wrong solutions or answers). For example, for discrete reasoning tasks as on DROP, there may exist many equations to derive a numeric answer, and typically only one of them is correct. Previous learning methods mostly filter out spurious solutions with heuristics or using model confidence, but do not explicitly exploit the semantic correlations between a question and its solution. In this paper, to alleviate the spurious solution problem, we propose to explicitly exploit such semantic correlations by maximizing the mutual information between question-answer pairs and predicted solutions. Extensive experiments on four question answering datasets show that our method significantly outperforms previous learning methods in terms of task performance and is more effective in training models to produce correct solutions.
翻訳日:2021-06-15 16:11:43 公開日:2021-06-14
# 自動文書スケッチ: アナログテキストからドラフトを生成する

Automatic Document Sketching: Generating Drafts from Analogous Texts ( http://arxiv.org/abs/2106.07192v1 )

ライセンス: Link先を確認
Zeqiu Wu, Michel Galley, Chris Brockett, Yizhe Zhang, Bill Dolan(参考訳) 大規模な事前訓練された言語モデルの出現により、文書中の文の追加や変更方法に関する高品質な予測が可能になる。 しかし、テキスト生成に固有の高い分岐係数は、よりグローバルまたはドキュメントレベルで有用な編集提案を提供するための最強の言語モデルさえも含んでいる。 著者がレビューと修正を行うためのドラフト文書全体を生成する新しいタスクである文書スケッチを導入する。 これらのドラフトは、再利用可能なテキストの大きなセグメントを共有するという形で重複するドキュメントセットから構築されている。 この課題をサポートするために,wikipediaを用いた類似文書のデータセットを導入し,トランスフォーマーに基づく専門家の混合と強化学習の併用を含む,弱い教師付き手法の適用について検討する。 自動評価手法と人間評価手法を用いた実験を報告し,これらのモデルの相対的メリットについて考察する。

The advent of large pre-trained language models has made it possible to make high-quality predictions on how to add or change a sentence in a document. However, the high branching factor inherent to text generation impedes the ability of even the strongest language models to offer useful editing suggestions at a more global or document level. We introduce a new task, document sketching, which involves generating entire draft documents for the writer to review and revise. These drafts are built from sets of documents that overlap in form - sharing large segments of potentially reusable text - while diverging in content. To support this task, we introduce a Wikipedia-based dataset of analogous documents and investigate the application of weakly supervised methods, including use of a transformer-based mixture of experts, together with reinforcement learning. We report experiments using automated and human evaluation methods and discuss relative merits of these models.
翻訳日:2021-06-15 16:11:23 公開日:2021-06-14
# 不変合理化による有害言語検出におけるバイアス緩和

Mitigating Biases in Toxic Language Detection through Invariant Rationalization ( http://arxiv.org/abs/2106.07240v1 )

ライセンス: Link先を確認
Yung-Sung Chuang, Mingye Gao, Hongyin Luo, James Glass, Hung-yi Lee, Yun-Nung Chen, Shang-Wen Li(参考訳) 有害言語の自動検出は、ソーシャルメディア利用者、特に少数民族を言葉による虐待から守る上で重要な役割を担っている。 しかしながら、性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在している。 バイアスは学習したモデルを不公平にし、人々の限界化をさらに悪化させる。 一般自然言語理解タスクにおける現在のデバイアス手法は,毒性検出器のバイアスを効果的に軽減することができないことを考慮し,合理的生成器と予測器からなるゲーム理論の枠組みであるinvariant rationalization (invrat) を用いて,特定の構文パターン(例えば同一性参照,方言)と毒性ラベルとのスパーラスな相関を除外する。 本手法は,従来のデバイアス法よりも語彙特性および方言特性の偽陽性率が低いことを実証的に示す。

Automatic detection of toxic language plays an essential role in protecting social media users, especially minority groups, from verbal abuse. However, biases toward some attributes, including gender, race, and dialect, exist in most training datasets for toxicity detection. The biases make the learned models unfair and can even exacerbate the marginalization of people. Considering that current debiasing methods for general natural language understanding tasks cannot effectively mitigate the biases in the toxicity detectors, we propose to use invariant rationalization (InvRat), a game-theoretic framework consisting of a rationale generator and a predictor, to rule out the spurious correlation of certain syntactic patterns (e.g., identity mentions, dialect) to toxicity labels. We empirically show that our method yields lower false positive rate in both lexical and dialectal attributes than previous debiasing methods.
翻訳日:2021-06-15 16:11:10 公開日:2021-06-14
# 現代アンモリックコーパス:自動形態素合成タグ付きアンモリックコーパス

Contemporary Amharic Corpus: Automatically Morpho-Syntactically Tagged Amharic Corpus ( http://arxiv.org/abs/2106.07241v1 )

ライセンス: Link先を確認
Andargachew Mekonnen Gezmu, Binyam Ephrem Seyoum, Michael Gasser and Andreas N\"urnberger(参考訳) 我々は,モルフォシンタクティック情報にタグ付けされた現代アンハリックコーパスを導入した。 テキストは、異なるドメインの25,199件の文書から収集され、約2400万語がトークン化されている。 一部はウェブコーパスであるため,スペル誤りの自動修正を行った。 また,既存の形態素解析器である hornmorpho を改良して,自動タグ付けに用いた。

We introduced the contemporary Amharic corpus, which is automatically tagged for morpho-syntactic information. Texts are collected from 25,199 documents from different domains and about 24 million orthographic words are tokenized. Since it is partly a web corpus, we made some automatic spelling error correction. We have also modified the existing morphological analyzer, HornMorpho, to use it for the automatic tagging.
翻訳日:2021-06-15 16:10:53 公開日:2021-06-14
# 行列式ビーム探索

Determinantal Beam Search ( http://arxiv.org/abs/2106.07400v1 )

ライセンス: Link先を確認
Clara Meister, Martina Forster, Ryan Cotterell(参考訳) ビームサーチは、ニューラルシーケンスモデルをデコードするためのゴーツー戦略である。 このアルゴリズムは、対応する集合関数が候補間の相互作用を反映しないにもかかわらず、自然に部分最適化問題と見なすことができる。 経験上、これはしばしば高い重なりを示す集合に繋がる、例えば、文字列は1つの単語だけによって異なるかもしれない。 しかし、複数のソリューションを要求するユースケースでは、多様あるいは代表的なセットが望まれることが多い。 この問題に対処するために,我々は行列式ビーム探索と呼ぶビーム探索の再構成を提案する。 決定的ビーム探索は、本質的にセット内相互作用を符号化する集合上のモデルである決定的ポイントプロセス(DPP)と自然な関係を持つ。 ビームサーチを一連の行列式最大化問題として繰り返すことにより、アルゴリズムを多種多様なサブセット選択プロセスに変換することができる。 ケーススタディでは、文字列サブシーケンスカーネルを使用して、シーケンスモデルから生成されたテキストのn-gramカバレッジを明示的に奨励する。 我々のアルゴリズムは、言語生成の文脈において、他の多様な集合生成戦略と競合する性能を提供し、多様性を最適化するためのより一般的なアプローチを提供する。

Beam search is a go-to strategy for decoding neural sequence models. The algorithm can naturally be viewed as a subset optimization problem, albeit one where the corresponding set function does not reflect interactions between candidates. Empirically, this leads to sets often exhibiting high overlap, e.g., strings may differ by only a single word. Yet in use-cases that call for multiple solutions, a diverse or representative set is often desired. To address this issue, we propose a reformulation of beam search, which we call determinantal beam search. Determinantal beam search has a natural relationship to determinantal point processes (DPPs), models over sets that inherently encode intra-set interactions. By posing iterations in beam search as a series of subdeterminant maximization problems, we can turn the algorithm into a diverse subset selection process. In a case study, we use the string subsequence kernel to explicitly encourage n-gram coverage in text generated from a sequence model. We observe that our algorithm offers competitive performance against other diverse set generation strategies in the context of language generation, while providing a more general approach to optimizing for diversity.
翻訳日:2021-06-15 16:10:46 公開日:2021-06-14
# 意味サブスペースを用いたソーシャルメディアにおける嫌悪とヘイトスピーチのモデル化

Modeling Profanity and Hate Speech in Social Media with Semantic Subspaces ( http://arxiv.org/abs/2106.07505v1 )

ライセンス: Link先を確認
Vanessa Hahn, Dana Ruiter, Thomas Kleinbauer, Dietrich Klakow(参考訳) 特に英語以外の言語では、タスクの主観的な性質と既存のコーパスの注釈の互換性が原因で、憎しみの言葉や誇張検出はデータ疎結合に悩まされる。 本研究では,単語と文の表現における代名詞部分空間を同定し,その一般化能力について,ゼロショット設定で検討する。 これはモノリンガル語(ドイツ語)と、近縁語(英語)、遠縁語(フランス語)、非関連語(アラビア語)のタスクと交互に行われる。 類似のタスクと遠方のタスクの両方、および全ての言語において、サブスペースベースの表現はゼロショット設定の標準bert表現よりも効果的に転送され、テストされた全ての単言語およびクロスリンガルシナリオのベースラインよりもf1 +10.9とf1 +42.9が改善された。

Hate speech and profanity detection suffer from data sparsity, especially for languages other than English, due to the subjective nature of the tasks and the resulting annotation incompatibility of existing corpora. In this study, we identify profane subspaces in word and sentence representations and explore their generalization capability on a variety of similar and distant target tasks in a zero-shot setting. This is done monolingually (German) and cross-lingually to closely-related (English), distantly-related (French) and non-related (Arabic) tasks. We observe that, on both similar and distant target tasks and across all languages, the subspace-based representations transfer more effectively than standard BERT representations in the zero-shot setting, with improvements between F1 +10.9 and F1 +42.9 over the baselines across all tested monolingual and cross-lingual scenarios.
翻訳日:2021-06-15 16:10:28 公開日:2021-06-14
# コントラストコンテキストマッチングによるバイオメディカルエンティティリンク

Biomedical Entity Linking via Contrastive Context Matching ( http://arxiv.org/abs/2106.07583v1 )

ライセンス: Link先を確認
Shogo Ujiie, Hayate Iso, Eiji Aramaki(参考訳) バイオコムは,小型辞書と生の生の生物医学記事という2つの資源のみを用いた,生物医学的エンティティリンクのための対比学習フレームワークである。 具体的には、辞書マッチングによって生のPubMed記事からトレーニングインスタンスを構築し、コンテクスト対応エンティティリンクモデルとコントラスト学習のトレーニングに使用する。 最寄りのサーチにより,生物医学の正規化を推論時に予測する。 その結果、BioCoMは、特に低リソース環境において、エンティティのコンテキストを効果的に利用することにより、最先端モデルを大幅に上回ることがわかった。

We introduce BioCoM, a contrastive learning framework for biomedical entity linking that uses only two resources: a small-sized dictionary and a large number of raw biomedical articles. Specifically, we build the training instances from raw PubMed articles by dictionary matching and use them to train a context-aware entity linking model with contrastive learning. We predict the normalized biomedical entity at inference time through a nearest-neighbor search. Results found that BioCoM substantially outperforms state-of-the-art models, especially in low-resource settings, by effectively using the context of the entities.
翻訳日:2021-06-15 16:10:10 公開日:2021-06-14
# モーフィズムに基づく変形可能なバックボーンアーキテクチャを用いた微分可能なニューラルアーキテクチャ探索

Differentiable Neural Architecture Search with Morphism-based Transformable Backbone Architectures ( http://arxiv.org/abs/2106.07211v1 )

ライセンス: Link先を確認
Renlong Jie and Junbin Gao(参考訳) 本研究の目的は,アーキテクチャ検索プロセスをワンショットやオンライントレーニングに適応させることである。 既存のニューラルネットワーク探索研究から拡張され、トレーニングプロセス中に固定されるのではなく、バックボーンアーキテクチャを変換可能にしました。 既知のように、微分可能なニューラルネットワーク検索(darts)は事前定義されたオーバーパラメータのバックボーンアーキテクチャを必要とするが、サイズは手動で決定する必要がある。 また、DARTSのバックボーンでは、2つの元素のアダマール生成物は導入されず、LSTM細胞とGRU細胞の両方に存在する。 本研究では,ネットワーク・アモルファスに基づく微分可能なニューラルネットワーク探索のための成長メカニズムを提案する。 細胞構造を小さなサイズから大きなサイズまで、ワンショットトレーニングで成長させることができる。 成長およびオリジナルプルーニングプロセスの統合には2つのモードが適用できる。 また,最近提案されている再帰ニューラルネットワークのための2入力バックボーンアーキテクチャを実装した。 最初の実験結果から,多変量時系列予測や言語モデリングなどの学習タスクにおいて,LSTMを含む他のベースラインアーキテクチャと比較して,我々のアプローチと2入力バックボーン構造は極めて効果的であることが示唆された。 一方、動的ネットワーク変換は、微分可能なアーキテクチャ探索の効率を改善する上で有望であることがわかった。

This study aims at making the architecture search process more adaptive for one-shot or online training. It is extended from the existing study on differentiable neural architecture search, and we made the backbone architecture transformable rather than fixed during the training process. As is known, differentiable neural architecture search (DARTS) requires a pre-defined over-parameterized backbone architecture, while its size is to be determined manually. Also, in DARTS backbone, Hadamard product of two elements is not introduced, which exists in both LSTM and GRU cells for recurrent nets. This study introduces a growing mechanism for differentiable neural architecture search based on network morphism. It enables growing of the cell structures from small size towards large size ones with one-shot training. Two modes can be applied in integrating the growing and original pruning process. We also implement a recently proposed two-input backbone architecture for recurrent neural networks. Initial experimental results indicate that our approach and the two-input backbone structure can be quite effective compared with other baseline architectures including LSTM, in a variety of learning tasks including multi-variate time series forecasting and language modeling. On the other hand, we find that dynamic network transformation is promising in improving the efficiency of differentiable architecture search.
翻訳日:2021-06-15 16:08:28 公開日:2021-06-14
# 記憶システムの学習支援ヒューリスティックス設計

Learning-Aided Heuristics Design for Storage System ( http://arxiv.org/abs/2106.07288v1 )

ライセンス: Link先を確認
Yingtian Tang, Han Lu, Xijun Li, Lei Chen, Mingxuan Yuan and Jia Zeng(参考訳) ストレージシステムのようなコンピュータシステムは通常、人間の専門家が解釈可能な透明なホワイトボックスアルゴリズムを必要とする。 本研究では,深層強化学習 (drl) エージェントから人間が読める戦略を自動的に生成する学習支援ヒューリスティック設計手法を提案する。 この方法は深層学習の力の恩恵を受けるが、ブラックボックス特性の欠点を避ける。 ホワイトボックスのアドバンテージに加えて、storage productionsのリソース割り当てシナリオの実験では、このソリューションがシステムのデフォルト設定や、人間の専門家による精巧な手作り戦略よりも優れています。

Computer systems such as storage systems normally require transparent white-box algorithms that are interpretable for human experts. In this work, we propose a learning-aided heuristic design method, which automatically generates human-readable strategies from Deep Reinforcement Learning (DRL) agents. This method benefits from the power of deep learning but avoids the shortcoming of its black-box property. Besides the white-box advantage, experiments in our storage productions resource allocation scenario also show that this solution outperforms the systems default settings and the elaborately handcrafted strategy by human experts.
翻訳日:2021-06-15 16:08:07 公開日:2021-06-14
# 2次最適化による3次元rna折り畳みパターンの予測

Predicting 3D RNA Folding Patterns via Quadratic Binary Optimization ( http://arxiv.org/abs/2106.07527v1 )

ライセンス: Link先を確認
Mark W. Lewis, Amit Verma, Rick Hennig(参考訳) RNA分子の構造は、その生物学的機能に重要な役割を果たす。 RNAヌクレオチド塩基の1次元配列が与えられた予測構造は、困難かつ重要な問題である。 シリコ(英語版)として知られる多くのコンピュータプログラムは2次元(二次)構造を予測することができるが、3次元(二次)構造の予測は、主に3次元構造の熱力学的エネルギーに関する実験データが少ないため、はるかに困難である。 また、高度なX線結晶学と核磁気共鳴イメージング技術が利用可能であっても、最も可能性の高い3次元構造を検証することも困難である。 本稿では,擬似非拘束バイナリ最適化(QUBO)モデルに基づく従来の2次元アプローチにペナルティと報酬パラメータを加えることで,3次元RNAの折り畳み予測を開発する。 これらのパラメータは、3次元の折りたたみを許容する量の柔軟性を提供する。 本研究では,新しい重み付き相似構造測度による複数の近接最適構造の問題に対処し,局所最適解を漸進的に改善することで折りたたみ経路を説明する。 これらの問題は、何十万ものバイナリ変数を持つ問題を解く新しい商用QUBOソルバAlphaQUBO(Meta-Analytics, 2020)によって解決される。

The structure of an RNA molecule plays a significant role in its biological function. Predicting structure given a one dimensional sequence of RNA nucleotide bases is a difficult and important problem. Many computer programs (known as in silico) are available for predicting 2-dimensional (secondary) structures however 3-dimensional (tertiary) structure prediction is much more difficult mainly due to the far greater number of feasible solutions and fewer experimental data on the thermodynamic energies of 3D structures. It is also challenging to verify the most likely three dimensional structure even with the availability of sophisticated x-ray crystallography and nuclear magnetic resonance imaging technologies. In this paper we develop three dimensional RNA folding predictions by adding penalty and reward parameters to a previous two dimensional approach based on Quadratic Unconstrained Binary Optimization (QUBO) models. These parameters provide flexibility in the amount of three dimensional folding allowed. We address the problem of multiple near-optimal structures via a new weighted similarity structure measure and illustrate folding pathways via progressively improving local optimal solutions. The problems are solved via a new commercial QUBO solver AlphaQUBO (Meta-Analytics, 2020) that solves problems having hundreds of thousands of binary variables.
翻訳日:2021-06-15 16:07:57 公開日:2021-06-14
# 探索的学習環境における準最適ユーザ行動に対抗する枠組み:MOOCへの適用

A Framework to Counteract Suboptimal User-Behaviors in Exploratory Learning Environments: an Application to MOOCs ( http://arxiv.org/abs/2106.07555v1 )

ライセンス: Link先を確認
S\'ebastien Lall\'e and Cristina Conati(参考訳) ユーザ適応型サポートが教育システムの有効性を大幅に向上できるという証拠はあるが、そのような探索的学習環境(シミュレーションなど)へのサポートの設計は、インタラクションの開放的な性質から依然として困難である。 特に,このような環境下での学習には,学生の行動が有害な先入観がほとんどない。 この問題に対処するために、ログ化されたインタラクションデータを使用して、特定の学習環境とのインタラクション中にどの行動パターンやアクティビティパターンをトリガーすべきかを学習するデータ駆動型ユーザモデリングフレームワークに焦点を当てる。 このフレームワークはインタラクティブな学習シミュレーションにおいて適応的なサポートを提供するのに成功している。 本稿では,このフレームワークの新たな応用について紹介する。例えばmoocs(massive open online courses)とは,利用者の多様性が大きいが,その適応性に乏しい,適応型サポートのメリットを享受できる探索型環境の形式である。 本研究は,適応を正当化し,予備的な結果を報告できる学生の行動を特定するための枠組みの価値調査を目的とした実験である。

While there is evidence that user-adaptive support can greatly enhance the effectiveness of educational systems, designing such support for exploratory learning environments (e.g., simulations) is still challenging due to the open-ended nature of their interaction. In particular, there is little a priori knowledge of which student's behaviors can be detrimental to learning in such environments. To address this problem, we focus on a data-driven user-modeling framework that uses logged interaction data to learn which behavioral or activity patterns should trigger help during interaction with a specific learning environment. This framework has been successfully used to provide adaptive support in interactive learning simulations. Here we present a novel application of this framework we are working on, namely to Massive Open Online Courses (MOOCs), a form of exploratory environment that could greatly benefit from adaptive support due to the large diversity of their users, but typically lack of such adaptation. We describe an experiment aimed at investigating the value of our framework to identify student's behaviors that can justify adapting to, and report some preliminary results.
翻訳日:2021-06-15 16:07:38 公開日:2021-06-14
# SinIR: 単一画像再構成による画像操作の効率化

SinIR: Efficient General Image Manipulation with Single Image Reconstruction ( http://arxiv.org/abs/2106.07140v1 )

ライセンス: Link先を確認
Jihyeong Yoo and Qifeng Chen(参考訳) 超解像,編集,調和,ペイント・ツー・イメージ,フォトリアリスティック・スタイル・トランスファー,芸術的スタイル・トランスファーなどを含む,単一の自然なイメージをトレーニングした,効率的な再構成ベースのフレームワークであるSinIRを提案する。 各スケールのネットワークが画像再構成の責任を負うような,カスケードされたマルチスケール学習によって,単一のイメージ上でモデルをトレーニングする。 この再構成目的は、GAN目標と比較して、トレーニングの複雑さと実行時間を大幅に削減する。 しかし、復元目標もまた出力品質を悪化させる。 そこで,この問題を解決するために,デノージングオートエンコーダにインスパイアされた操作を制御できる単純なランダム画素シャッフルを用いる。 定量的評価により、SinIRは様々な画像操作タスクにおいて競合性能を有することを示す。 さらに、より単純な訓練目標(すなわち再構成)により、SinIRは同様の課題を解決するSinGAN(500 X 500画像)よりも33.5倍速く訓練される。 私たちのコードはgithub.com/YooJiHyeong/SinIRで公開されています。

We propose SinIR, an efficient reconstruction-based framework trained on a single natural image for general image manipulation, including super-resolution, editing, harmonization, paint-to-image, photo-realistic style transfer, and artistic style transfer. We train our model on a single image with cascaded multi-scale learning, where each network at each scale is responsible for image reconstruction. This reconstruction objective greatly reduces the complexity and running time of training, compared to the GAN objective. However, the reconstruction objective also exacerbates the output quality. Therefore, to solve this problem, we further utilize simple random pixel shuffling, which also gives control over manipulation, inspired by the Denoising Autoencoder. With quantitative evaluation, we show that SinIR has competitive performance on various image manipulation tasks. Moreover, with a much simpler training objective (i.e., reconstruction), SinIR is trained 33.5 times faster than SinGAN (for 500 X 500 images) that solves similar tasks. Our code is publicly available at github.com/YooJiHyeong/SinIR.
翻訳日:2021-06-15 15:59:02 公開日:2021-06-14
# 生体画像のための補助的特徴分割を用いたオブジェクト誘導インスタンスセグメンテーション

Object-Guided Instance Segmentation With Auxiliary Feature Refinement for Biological Images ( http://arxiv.org/abs/2106.07159v1 )

ライセンス: Link先を確認
Jingru Yi, Pengxiang Wu, Hui Tang, Bo Liu, Qiaoying Huang, Hui Qu, Lianyi Han, Wei Fan, Daniel J. Hoeppner, Dimitris N. Metaxas(参考訳) サンプルセグメンテーションは、神経細胞相互作用の研究、植物の表現型化、細胞が薬物治療にどう反応するかを定量的に測定するなど、多くの生物学的応用において非常に重要である。 本稿では,新しいボックスベースのインスタンスセグメンテーション手法を提案する。 Boxベースのインスタンスセグメンテーションメソッドは、バウンディングボックスを介してオブジェクトをキャプチャし、各バウンディングボックス領域内で個々のセグメンテーションを実行する。 しかし,既存の手法では,類似したテクスチャと低コントラスト境界のため,同一境界域内の隣接物体との区別が困難である。 本稿では,この問題に対処するため,オブジェクト誘導型インスタンスセグメンテーション手法を提案する。 提案手法は,まずオブジェクトの中心点を検出し,そこから境界ボックスパラメータが予測される。 セグメンテーションを行うには、検出ブランチとともにオブジェクト誘導粗分別分岐を構築する。 セグメンテーションブランチは、同じバウンディングボックス領域内の隣接するオブジェクトからターゲットオブジェクトを分離するためのガイダンスとしてオブジェクト機能を再利用する。 セグメンテーションの品質をさらに向上するため,我々は境界領域の点的特徴を高密度にサンプリングし,精錬する補助機能改善モジュールを設計した。 3つの生物学的画像データセットに関する実験結果は,本手法の利点を示している。 コードはhttps://github.com/yijingru/ObjGuided-Instance-Segmentationで入手できる。

Instance segmentation is of great importance for many biological applications, such as study of neural cell interactions, plant phenotyping, and quantitatively measuring how cells react to drug treatment. In this paper, we propose a novel box-based instance segmentation method. Box-based instance segmentation methods capture objects via bounding boxes and then perform individual segmentation within each bounding box region. However, existing methods can hardly differentiate the target from its neighboring objects within the same bounding box region due to their similar textures and low-contrast boundaries. To deal with this problem, in this paper, we propose an object-guided instance segmentation method. Our method first detects the center points of the objects, from which the bounding box parameters are then predicted. To perform segmentation, an object-guided coarse-to-fine segmentation branch is built along with the detection branch. The segmentation branch reuses the object features as guidance to separate target object from the neighboring ones within the same bounding box region. To further improve the segmentation quality, we design an auxiliary feature refinement module that densely samples and refines point-wise features in the boundary regions. Experimental results on three biological image datasets demonstrate the advantages of our method. The code will be available at https://github.com/yijingru/ObjGuided-Instance-Segmentation.
翻訳日:2021-06-15 15:58:42 公開日:2021-06-14
# 第2位 hc-stvg track of person in context challenge 2021

2rd Place Solutions in the HC-STVG track of Person in Context Challenge 2021 ( http://arxiv.org/abs/2106.07166v1 )

ライセンス: Link先を確認
YiYu and XinyingWang and WeiHu and XunLuo and ChengLi(参考訳) 本技術報告では,文章に基づくビデオ中の時空間人物をローカライズする手法を提案する。 HC-STVGの3rd Person in Context(PIC) Challengeにおける第2のvIOU(0.30025)を達成した。 1) 人間の属性情報は文から抽出され, 試験段階の管の提案をフィルタリングし, 分類器を監督し, 訓練段階の外観情報を学習することが有用である。 2) We detect human with YoloV5 and track human based on the DeepSort framework but then the original ReID network with FastReID。 3) 対象者の時空間的チューブを局在化するためのクロスモーダル表現を抽出するのに視覚トランスフォーマーを用いる。

In this technical report, we present our solution to localize a spatio-temporal person in an untrimmed video based on a sentence. We achieve the second vIOU(0.30025) in the HC-STVG track of the 3rd Person in Context(PIC) Challenge. Our solution contains three parts: 1) human attributes information is extracted from the sentence, it is helpful to filter out tube proposals in the testing phase and supervise our classifier to learn appearance information in the training phase. 2) we detect humans with YoloV5 and track humans based on the DeepSort framework but replace the original ReID network with FastReID. 3) a visual transformer is used to extract cross-modal representations for localizing a spatio-temporal tube of the target person.
翻訳日:2021-06-15 15:58:21 公開日:2021-06-14
# 教師なしクロスドメイン人物再同定のためのハードサンプル整定法

Hard Samples Rectification for Unsupervised Cross-domain Person Re-identification ( http://arxiv.org/abs/2106.07204v1 )

ライセンス: Link先を確認
Chih-Ting Liu, Man-Yu Lee, Tsai-Shien Chen, Shao-Yi Chien(参考訳) 人物再識別(re-ID)は教師付き学習法で大きな成功を収めている。 しかし、教師なしのクロスドメイン・リIDの課題はまだ難しい。 本稿では,対象データセットの強正および負のサンプルに対して,元のクラスタリング手法の弱点を解消するHSR学習手法を提案する。 当社のhsrには,異なる視点の人物を認識するためのカメラ間マイニング手法(ハード・ポジティブ)と,モデルが異なる人物を識別するが類似した外観(ハード・ネガティブ)を持つ部分的均質性(part-based homogeneity)技術という2つの部分が含まれている。 これら2つのハードケースを修正することで、re-IDモデルは効果的に学習し、2つの大規模ベンチマークで有望な結果が得られる。

Person re-identification (re-ID) has received great success with the supervised learning methods. However, the task of unsupervised cross-domain re-ID is still challenging. In this paper, we propose a Hard Samples Rectification (HSR) learning scheme which resolves the weakness of original clustering-based methods being vulnerable to the hard positive and negative samples in the target unlabelled dataset. Our HSR contains two parts, an inter-camera mining method that helps recognize a person under different views (hard positive) and a part-based homogeneity technique that makes the model discriminate different persons but with similar appearance (hard negative). By rectifying those two hard cases, the re-ID model can learn effectively and achieve promising results on two large-scale benchmarks.
翻訳日:2021-06-15 15:58:07 公開日:2021-06-14
# セマンティック事前学習による文脈認識画像の表現

Context-Aware Image Inpainting with Learned Semantic Priors ( http://arxiv.org/abs/2106.07220v1 )

ライセンス: Link先を確認
Wendong Zhang, Junwei Zhu, Ying Tai, Yunbo Wang, Wenqing Chu, Bingbing Ni, Chengjie Wang and Xiaokang Yang(参考訳) 画像インペインティングの最近の進歩は、かなり単純な背景に分かりやすい視覚詳細を生成する素晴らしい結果を示している。 しかし,複雑な場面では,不足領域内の文脈情報が曖昧になりがちであるため,合理的な内容の復元は依然として困難である。 この問題に対処するために,不足しているコンテンツの推定に意味的に意味のあるプリテキストタスクを導入する。 特に,プレテキストモデルによる知識蒸留を行い,画像のインペイントに適応する。 学習されたセマンティック先行は、高レベルのプリテキストタスクと低レベルのイメージインペイントの間に部分的に不変であるべきであり、これはグローバルな文脈を理解するのに役立つだけでなく、局所的なテクスチャの復元のための構造的ガイダンスを提供する。 さらに,このセマンティクスの優先順位に基づいて,グローバルセマンティクスと局所的な特徴を統一画像生成器に適応的に統合する,コンテキスト認識型イメージインパインティングモデルを提案する。 意味学習者と画像生成者は、エンドツーエンドで訓練される。 セマンティックプリエントを学習し活用する能力を強調するために、モデルSPLを命名する。 Places2、CelebA、Paris StreetViewデータセット上のアートの状態を達成している。

Recent advances in image inpainting have shown impressive results for generating plausible visual details on rather simple backgrounds. However, for complex scenes, it is still challenging to restore reasonable contents as the contextual information within the missing regions tends to be ambiguous. To tackle this problem, we introduce pretext tasks that are semantically meaningful to estimating the missing contents. In particular, we perform knowledge distillation on pretext models and adapt the features to image inpainting. The learned semantic priors ought to be partially invariant between the high-level pretext task and low-level image inpainting, which not only help to understand the global context but also provide structural guidance for the restoration of local textures. Based on the semantic priors, we further propose a context-aware image inpainting model, which adaptively integrates global semantics and local features in a unified image generator. The semantic learner and the image generator are trained in an end-to-end manner. We name the model SPL to highlight its ability to learn and leverage semantic priors. It achieves the state of the art on Places2, CelebA, and Paris StreetView datasets.
翻訳日:2021-06-15 15:57:54 公開日:2021-06-14
# SGEnet:圧縮GRUと情報エントロピーマップを用いたビデオオブジェクト検出

SGE net: Video object detection with squeezed GRU and information entropy map ( http://arxiv.org/abs/2106.07224v1 )

ライセンス: Link先を確認
Rui Su, Wenjing Huang, Haoyu Ma, Xiaowei Song, Jinglu Hu(参考訳) 近年,深層学習に基づくビデオ物体検出が注目されている。 静止画像の物体検出と比較すると,映像物体検出は物体の動きにより困難であり,時間的情報も豊富である。 RNNに基づくアルゴリズムは、時間情報付きビデオにおける検出性能を高める効果的な方法である。 しかし、この分野のほとんどの研究は計算コストとパラメータの数を無視しながら精度にのみ焦点をあてている。 本稿では,チャネル再生畳み込みGRU(Squeezed GRU)と映像オブジェクト検出のための情報エントロピーマップ(SGE-Net)を組み合わせた効率的な手法を提案する。 実験の結果, 情報エントロピー注意機構の精度向上, 圧縮された gru の計算節約, および識別性能の優越性が検証された。 mAPはベースラインと対照的に3.7増加し、パラメータの数は標準のGRUに比べて6.33万から0.67万に減少した。

Recently, deep learning based video object detection has attracted more and more attention. Compared with object detection of static images, video object detection is more challenging due to the motion of objects, while providing rich temporal information. The RNN-based algorithm is an effective way to enhance detection performance in videos with temporal information. However, most studies in this area only focus on accuracy while ignoring the calculation cost and the number of parameters. In this paper, we propose an efficient method that combines channel-reduced convolutional GRU (Squeezed GRU), and Information Entropy map for video object detection (SGE-Net). The experimental results validate the accuracy improvement, computational savings of the Squeezed GRU, and superiority of the information entropy attention mechanism on the classification performance. The mAP has increased by 3.7 contrasted with the baseline, and the number of parameters has decreased from 6.33 million to 0.67 million compared with the standard GRU.
翻訳日:2021-06-15 15:57:36 公開日:2021-06-14
# 畳み込みニューラルネットワークを用いた駐車空間の自動検出

Automated Parking Space Detection Using Convolutional Neural Networks ( http://arxiv.org/abs/2106.07228v1 )

ライセンス: Link先を確認
Julien Nyambal, Richard Klein(参考訳) 今日駐車スペースを見つけることは、無視すべきではなく、時間とエネルギーを消費する問題になっている。 We have used computer vision technique to infer the state of the parking lot because the data collected from the University of The Witwatersrand。 本稿では,CaffeとNvidia DiGITSフレームワークを用いた畳み込みニューラルネットワーク(CNN)に基づくリアルタイム駐車空間分類手法を提案する。 トレーニングプロセスはDigiTSを使用して行われており、出力は空き地や占有する駐車場を検出するための予測に使用されるカフェモデルである。 システムは、駐車場(システムの初期化時に定義された境界ボックス)が車(占有または空き地)を含むか否かを所定領域をチェックする。 それらのバウンディングボックス座標は、駐車場のビデオのフレームからJSON形式で保存され、その後、システムによって各駐車場のシーケンシャルな予測に使用される。 このシステムは、Nesterov Accelerated GradientをソルバとしてLeNetネットワーク、Stochastic Gradient DescentをソルバとしてAlexNetネットワークを使用してトレーニングされている。 両方のネットワークで99\%の検証セットの精度を得ることができたのです。 外部データセット(pklot)の精度も99\%で返された。 これらは、トレーニングセットに基づく実験結果であり、異なる駐車スペースで予測を行う必要がある場合、システムの堅牢性を示す。

Finding a parking space nowadays becomes an issue that is not to be neglected, it consumes time and energy. We have used computer vision techniques to infer the state of the parking lot given the data collected from the University of The Witwatersrand. This paper presents an approach for a real-time parking space classification based on Convolutional Neural Networks (CNN) using Caffe and Nvidia DiGITS framework. The training process has been done using DiGITS and the output is a caffemodel used for predictions to detect vacant and occupied parking spots. The system checks a defined area whether a parking spot (bounding boxes defined at initialization of the system) is containing a car or not (occupied or vacant). Those bounding box coordinates are saved from a frame of the video of the parking lot in a JSON format, to be later used by the system for sequential prediction on each parking spot. The system has been trained using the LeNet network with the Nesterov Accelerated Gradient as solver and the AlexNet network with the Stochastic Gradient Descent as solver. We were able to get an accuracy on the validation set of 99\% for both networks. The accuracy on a foreign dataset(PKLot) returned as well 99\%. Those are experimental results based on the training set shows how robust the system can be when the prediction has to take place in a different parking space.
翻訳日:2021-06-15 15:57:19 公開日:2021-06-14
# 決定論的lidar深度マップの完成

Deterministic Guided LiDAR Depth Map Completion ( http://arxiv.org/abs/2106.07256v1 )

ライセンス: Link先を確認
Bryan Krauss, Gregory Schroeder, Marko Gustke, Ahmed Hussein(参考訳) 自動運転車の環境分析には正確な深度推定が不可欠である。 本稿では,誘導型rgb画像を用いた疎lidarに基づく奥行きマップの非深層学習に基づく解法を提案する。 この目標を達成するために、RGB画像は最初、カメラとLiDARのミスアライメントアーティファクトの大部分からクリアされる。 その後、オーバーセグメンテーションされ、各スーパーピクセルの平面が近似される。 スーパーピクセルが平面でうまく表現されていない場合、平面は最も入射率の高い凸殻に対して近似される。 最後に、ピンホールカメラモデルを用いて補間処理を行い、残りの領域を補間する。 本研究の評価は,KITTI深度補完ベンチマークを用いて行われ,提案手法の有効性を検証し,最先端の非深度学習法や深度学習法よりも優れていることを示す。

Accurate dense depth estimation is crucial for autonomous vehicles to analyze their environment. This paper presents a non-deep learning-based approach to densify a sparse LiDAR-based depth map using a guidance RGB image. To achieve this goal the RGB image is at first cleared from most of the camera-LiDAR misalignment artifacts. Afterward, it is over segmented and a plane for each superpixel is approximated. In the case a superpixel is not well represented by a plane, a plane is approximated for a convex hull of the most inlier. Finally, the pinhole camera model is used for the interpolation process and the remaining areas are interpolated. The evaluation of this work is executed using the KITTI depth completion benchmark, which validates the proposed work and shows that it outperforms the state-of-the-art non-deep learning-based methods, in addition to several deep learning-based methods.
翻訳日:2021-06-15 15:56:58 公開日:2021-06-14
# TimeLens:イベントベースのビデオフレーム補間

TimeLens: Event-based Video Frame Interpolation ( http://arxiv.org/abs/2106.07286v1 )

ライセンス: Link先を確認
Stepan Tulyakov, Daniel Gehrig, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza(参考訳) State-of-the-art frame interpolation Methods generated intermediate frames by Infering object motions in the image from continuous key-frames。 追加情報がない場合は、一階近似、すなわち、 光の流れを使う必要があるが、この選択はモデル化可能な動きの種類を制限するため、非常にダイナミックなシナリオにおけるエラーにつながる。 イベントカメラは、フレーム間のブラインドタイムに補助的な視覚情報を提供することで、この制限に対処する新しいセンサーである。 ピクセル毎の輝度変化を非同期に測定し、高い時間分解能と低レイテンシでこれを行う。 イベントベースのフレーム補間法は通常、予測されたフレーム残差がキーフレームに直接適用される合成ベースのアプローチを採用する。 しかし、これらのアプローチは非線形な動きを捉えることができるが、ゴーストに苦しめられ、少ない事象で低テクスチュア領域で性能が低下する。 したがって、合成ベースおよびフローベースアプローチは相補的である。 本稿では,両者の長所を生かした均等な寄与法を示すtime lensを紹介する。 提案手法は,最新のフレームベースおよびイベントベース手法に比べて,PSNRにおいて最大5.21dBの改善を示す3つの実ベンチマークと2つの実ベンチマークで広く評価されている。 最後に、既存のメソッドの限界を押し上げることを目的とした、非常にダイナミックなシナリオで新しい大規模データセットをリリースします。

State-of-the-art frame interpolation methods generate intermediate frames by inferring object motions in the image from consecutive key-frames. In the absence of additional information, first-order approximations, i.e. optical flow, must be used, but this choice restricts the types of motions that can be modeled, leading to errors in highly dynamic scenarios. Event cameras are novel sensors that address this limitation by providing auxiliary visual information in the blind-time between frames. They asynchronously measure per-pixel brightness changes and do this with high temporal resolution and low latency. Event-based frame interpolation methods typically adopt a synthesis-based approach, where predicted frame residuals are directly applied to the key-frames. However, while these approaches can capture non-linear motions they suffer from ghosting and perform poorly in low-texture regions with few events. Thus, synthesis-based and flow-based approaches are complementary. In this work, we introduce Time Lens, a novel indicates equal contribution method that leverages the advantages of both. We extensively evaluate our method on three synthetic and two real benchmarks where we show an up to 5.21 dB improvement in terms of PSNR over state-of-the-art frame-based and event-based methods. Finally, we release a new large-scale dataset in highly dynamic scenarios, aimed at pushing the limits of existing methods.
翻訳日:2021-06-15 15:56:44 公開日:2021-06-14
# 顔ポーズ編集のスタイル保存のための画素サンプリング

Pixel Sampling for Style Preserving Face Pose Editing ( http://arxiv.org/abs/2106.07310v1 )

ライセンス: Link先を確認
Xiangnan Yin, Di Huang, Hongyu Yang, Zehua Fu, Yunhong Wang, Liming Chen(参考訳) 既存の自動エンコーダベースの顔ポーズ編集法は、主にポーズ合成時のアイデンティティ保存能力のモデル化に重点を置いているが、色、明るさ、彩度などのイメージスタイルを適切に保存できない。 本稿では、よく知られた前頭/目立たしい錯視を利用して、上記のジレンマを解決するための新しい2段階のアプローチを提案する。 入力面から画素を選択的にサンプリングし、提案した ``Pixel Attention Sampling" モジュールで相対位置をわずかに調整することにより、顔編集結果が画像スタイルとともにアイデンティティ情報を忠実に保持する。 塗装段階での高次元埋め込みを利用して、より微細な細部を生成する。 さらに、3D顔のランドマークをガイダンスとして、3自由度(ヨー、ピッチ、ロール)で顔のポーズを操作でき、現在の最先端技術で達成されるようなヨーの角度を単に制御するよりも、より柔軟な顔のポーズを編集できる。 定性評価と定量的評価の両方が提案手法の優位性を検証する。

The existing auto-encoder based face pose editing methods primarily focus on modeling the identity preserving ability during pose synthesis, but are less able to preserve the image style properly, which refers to the color, brightness, saturation, etc. In this paper, we take advantage of the well-known frontal/profile optical illusion and present a novel two-stage approach to solve the aforementioned dilemma, where the task of face pose manipulation is cast into face inpainting. By selectively sampling pixels from the input face and slightly adjust their relative locations with the proposed ``Pixel Attention Sampling" module, the face editing result faithfully keeps the identity information as well as the image style unchanged. By leveraging high-dimensional embedding at the inpainting stage, finer details are generated. Further, with the 3D facial landmarks as guidance, our method is able to manipulate face pose in three degrees of freedom, i.e., yaw, pitch, and roll, resulting in more flexible face pose editing than merely controlling the yaw angle as usually achieved by the current state-of-the-art. Both the qualitative and quantitative evaluations validate the superiority of the proposed approach.
翻訳日:2021-06-15 15:56:22 公開日:2021-06-14
# ショートビデオ顔解析チャレンジのための3位解法

3rd Place Solution for Short-video Face Parsing Challenge ( http://arxiv.org/abs/2106.07409v1 )

ライセンス: Link先を確認
Xiao Liu, XiaoFei Si, JiangTao Xie(参考訳) ショートビデオにはファッショントレンド、ホットスポット、ストリートインタビュー、公共教育、クリエイティブ広告など多くの応用がある。 本稿では,エッジ情報を用いてセグメント化エッジを洗練するエッジアウェアネットワーク(eanet)を提案する。 そして,提案したEANetが顔解析結果を起動することを示す実験を行った。 また、グリップカットのようなポストプロセスを使って解析結果を洗練し、マージします。

Short videos have many applications on fashion trends, hot spots, street interviews, public education, and creative advertising. We propose an Edge-Aware Network(EANet) that uses edge information to refine the segmentation edge. And experiments show our proposed EANet boots up the facial parsing results. We also use post-process like grab cut to refine and merge the parsing results.
翻訳日:2021-06-15 15:56:02 公開日:2021-06-14
# 分布シフト下における視覚トランスフォーマの一般化

Delving Deep into the Generalization of Vision Transformers under Distribution Shifts ( http://arxiv.org/abs/2106.07617v1 )

ライセンス: Link先を確認
Chongzhi Zhang, Mingyuan Zhang, Shanghang Zhang, Daisheng Jin, Qiang Zhou, Zhongang Cai, Haiyu Zhao, Shuai Yi, Xianglong Liu, Ziwei Liu(参考訳) 近年、視覚変換器(ViT)は様々な視覚タスクにおいて印象的な成果を上げている。 しかし,分布シフトの違いによる一般化能力の理解は稀である。 本研究では,ViTの分布外一般化に関する総合的研究を行う。 組織的な調査を支援するために,まず,これらを5つの概念群(汚職シフト,背景シフト,テクスチャシフト,破壊シフト,スタイルシフト)に分類し,分布シフトの分類を提示する。 次に,分布シフトの異なる群におけるvit変異の広範な評価を行い,その一般化能力とcnnとの比較を行った。 1) ViTsは複数の分布シフトの下でCNNsよりも一般化される。 同じまたは少ないパラメータで、ViTは、ほとんどの分散シフトの下で、トップ1の精度で、対応するCNNよりも5%以上進んでいる。 2) より大きなvitは, 徐々に分布内および分布外性能ギャップを狭くする。 さらに,vitsの一般化をさらに高めるために,敵対的学習,情報理論,自己教師付き学習を統合した一般化型vitの設計を行う。 3種類の一般化型vitを探索することにより,その勾配感受性を観察し,安定したトレーニングプロセスを実現するためのスムースな学習戦略を設計する。 トレーニングスキームの修正により,バニラVTからディストリビューションデータへの性能改善を4%向上する。 我々は3つの一般化されたViTと対応するCNNを包括的に比較し、次のことを観察する。 2) 一般化増強型VTは, 対応するCNNよりも過度パラメータに敏感である。 総合的な研究が,より一般化可能な学習アーキテクチャの設計に光を当ててくれることを願っています。

Recently, Vision Transformers (ViTs) have achieved impressive results on various vision tasks. Yet, their generalization ability under different distribution shifts is rarely understood. In this work, we provide a comprehensive study on the out-of-distribution generalization of ViTs. To support a systematic investigation, we first present a taxonomy of distribution shifts by categorizing them into five conceptual groups: corruption shift, background shift, texture shift, destruction shift, and style shift. Then we perform extensive evaluations of ViT variants under different groups of distribution shifts and compare their generalization ability with CNNs. Several important observations are obtained: 1) ViTs generalize better than CNNs under multiple distribution shifts. With the same or fewer parameters, ViTs are ahead of corresponding CNNs by more than 5% in top-1 accuracy under most distribution shifts. 2) Larger ViTs gradually narrow the in-distribution and out-of-distribution performance gap. To further improve the generalization of ViTs, we design the Generalization-Enhanced ViTs by integrating adversarial learning, information theory, and self-supervised learning. By investigating three types of generalization-enhanced ViTs, we observe their gradient-sensitivity and design a smoother learning strategy to achieve a stable training process. With modified training schemes, we achieve improvements on performance towards out-of-distribution data by 4% from vanilla ViTs. We comprehensively compare three generalization-enhanced ViTs with their corresponding CNNs, and observe that: 1) For the enhanced model, larger ViTs still benefit more for the out-of-distribution generalization. 2) generalization-enhanced ViTs are more sensitive to the hyper-parameters than corresponding CNNs. We hope our comprehensive study could shed light on the design of more generalizable learning architectures.
翻訳日:2021-06-15 15:55:58 公開日:2021-06-14
# 3次元プロットの自動解釈に向けて

Toward Automatic Interpretation of 3D Plots ( http://arxiv.org/abs/2106.07627v1 )

ライセンス: Link先を確認
Laura E. Brandt and William T. Freeman(参考訳) 本稿では,2変数関数の3次元曲面プロットにおけるデータ表現に用いる格子マーク付き表面のリバースエンジニアリングを機械に教えることの課題について検討する。 これらは科学や経済の出版物では一般的であり、曲線の単純な収集から、人間はそれらを容易かつ迅速に一般的な形や曲がりくねった情報を引き出すことができる。 機械にはそのような視覚的な直感はないが、表面の構造を導いたより詳細な定量的データを正確に抽出する能力がある。 我々は,3次元グリッドマーク付き表面の新たなデータセット(SurfaceGrid)を合成し,その形状を推定するために深層ニューラルネットワークを訓練することにより,この問題に対処する。 本アルゴリズムは,軸とシェーディング情報を除去した合成3次元表面プロットから形状情報を復元し,様々なグリッドタイプで描画し,様々な視点から見ることに成功した。

This paper explores the challenge of teaching a machine how to reverse-engineer the grid-marked surfaces used to represent data in 3D surface plots of two-variable functions. These are common in scientific and economic publications; and humans can often interpret them with ease, quickly gleaning general shape and curvature information from the simple collection of curves. While machines have no such visual intuition, they do have the potential to accurately extract the more detailed quantitative data that guided the surface's construction. We approach this problem by synthesizing a new dataset of 3D grid-marked surfaces (SurfaceGrid) and training a deep neural net to estimate their shape. Our algorithm successfully recovers shape information from synthetic 3D surface plots that have had axes and shading information removed, been rendered with a variety of grid types, and viewed from a range of viewpoints.
翻訳日:2021-06-15 15:55:33 公開日:2021-06-14
# 高分解能gan用改良トランス

Improved Transformer for High-Resolution GANs ( http://arxiv.org/abs/2106.07631v1 )

ライセンス: Link先を確認
Long Zhao, Zizhao Zhang, Ting Chen, Dimitris N. Metaxas, Han Zhang(参考訳) Transformerによって実証されたアテンションベースモデルは、効果的に長距離依存性をモデル化できるが、自己アテンション操作の二次的な複雑さに悩まされ、ジェネレーティブ・アディショナル・ネットワーク(GAN)に基づく高解像度画像生成には採用が難しい。 本稿では,この課題に対処するために,トランスフォーマーに2つの重要な要素を導入する。 第一に, 生成過程の低分解能段階では, 標準グローバルセルフアテンションを, 局所的およびグローバル的アテンションの効率的な混合を可能にする多軸ブロックセルフアテンションに置き換える。 第二に、高解像度の段階では、暗黙の神経機能を思い出させる多層パーセプトロンのみを保ちながら自己注意を落とします。 さらに性能を向上させるため,クロスアテンションに基づく付加的な自己変調コンポーネントを導入する。 HiTと呼ばれる結果のモデルは、画像サイズに関して線形計算の複雑さを持ち、したがって、高定義画像を合成するために直接スケールする。 実験では,無条件イメージネットでは31.87点と2.95点のfidスコアを達成し,それぞれ128 \times 128$とffhq $256 \times 256$をそれぞれ適度なスループットで達成した。 我々は、提案されたHiTが、完全に畳み込みのないGANのジェネレータにとって重要なマイルストーンであると考えている。

Attention-based models, exemplified by the Transformer, can effectively model long range dependency, but suffer from the quadratic complexity of self-attention operation, making them difficult to be adopted for high-resolution image generation based on Generative Adversarial Networks (GANs). In this paper, we introduce two key ingredients to Transformer to address this challenge. First, in low-resolution stages of the generative process, standard global self-attention is replaced with the proposed multi-axis blocked self-attention which allows efficient mixing of local and global attention. Second, in high-resolution stages, we drop self-attention while only keeping multi-layer perceptrons reminiscent of the implicit neural function. To further improve the performance, we introduce an additional self-modulation component based on cross-attention. The resulting model, denoted as HiT, has a linear computational complexity with respect to the image size and thus directly scales to synthesizing high definition images. We show in the experiments that the proposed HiT achieves state-of-the-art FID scores of 31.87 and 2.95 on unconditional ImageNet $128 \times 128$ and FFHQ $256 \times 256$, respectively, with a reasonable throughput. We believe the proposed HiT is an important milestone for generators in GANs which are completely free of convolutions.
翻訳日:2021-06-15 15:55:18 公開日:2021-06-14
# 文法方程式

Grammar Equations ( http://arxiv.org/abs/2106.07485v1 )

ライセンス: Link先を確認
Bob Coecke and Vincent Wang(参考訳) 文法的には、前グループのような文法計算は、その相互作用を解明するために単語間のワイヤーを提供し、句や文の文法的正しさを検証することができる。 本稿では,単語内の配線も提供する。 これにより、同じあるいは密接に関連していると思われる文法的構造を特定できる。 それゆえ、我々の作品は新しい文法理論への道を開き、新しい「文法的真理」を提供する。 単語の配線が事前注文されたモノイドには意味がないという事実に対して、私たちはノゴ理論を与えます。 その代わり、ダイアグラム、または(自由)モノイドのカテゴリが必要です。

Diagrammatically speaking, grammatical calculi such as pregroups provide wires between words in order to elucidate their interactions, and this enables one to verify grammatical correctness of phrases and sentences. In this paper we also provide wirings within words. This will enable us to identify grammatical constructs that we expect to be either equal or closely related. Hence, our work paves the way for a new theory of grammar, that provides novel `grammatical truths'. We give a nogo-theorem for the fact that our wirings for words make no sense for preordered monoids, the form which grammatical calculi usually take. Instead, they require diagrams -- or equivalently, (free) monoidal categories.
翻訳日:2021-06-15 15:54:11 公開日:2021-06-14
# ディープラーニングを用いたグラフ異常検出に関する総合的調査

A Comprehensive Survey on Graph Anomaly Detection with Deep Learning ( http://arxiv.org/abs/2106.07178v1 )

ライセンス: Link先を確認
Xiaoxiao Ma, Jia Wu, Shan Xue, Jian Yang, Quan Z. Sheng, Hui Xiong(参考訳) 異常は稀な観測(例えば、データ記録や出来事)であり、他のものとは大きく異なる。 過去40年間にわたり、異常の研究は多くの分野(コンピュータ科学、化学、生物学など)における重要性から大きな関心を集めてきた。 これらの稀な観測を識別することを目的とした異常検出は、最も重要な課題の一つであり、金融詐欺やネットワーク侵入などの有害事象の発生を防ぐ力を示している。 検出タスクは通常、特徴空間内の外部データポイントを検出し、実世界のデータの構造情報を本質的に見落としることで解決される。 グラフは構造情報を保存するために広く使われており、これは異常グラフオブジェクト(ノード、エッジ、サブグラフ)を識別するグラフ異常検出問題を引き起こす。 しかし、グラフデータの複雑さ(不規則構造、非独立構造、大規模構造など)のため、従来の異常検出技術ではこの問題をうまく解決できない。 これらの制限を破る深層学習の適性については、近年、深層学習によるグラフ異常検出が強化された研究を受けている。 本研究では,グラフ異常検出のための現代的深層学習手法の体系的かつ包括的レビューを行う。 具体的には、タスク駆動型戦略に従い、検出可能な異常グラフオブジェクトに従って既存の作業を分類する。 特に、既存の作品のモチベーション、キー直観、技術的な詳細に焦点を当てています。 また、オープンソース実装、パブリックデータセット、そして将来の研究で一般的に使用される評価指標についても要約する。 最後に, グラフデータや異常検出, 実アプリケーションで発生した問題について, 調査結果に基づいて, 今後の研究方向性を12点強調する。

Anomalies represent rare observations (e.g., data records or events) that are deviating significantly from others. Over the last forty years, researches on anomalies have received great interests because of their significance in many disciplines (e.g., computer science, chemistry, and biology). Anomaly detection, which aims to identify these rare observations, is among the most vital tasks and has shown its power in preventing detrimental events, such as financial fraud and network intrusion, from happening. The detection task is typically solved by detecting outlying data points in the features space and inherently overlooks the structural information in real-world data. Graphs have been prevalently used to preserve the structural information, and this raises the graph anomaly detection problem - identifying anomalous graph objects (i.e., nodes, edges and sub-graphs). However, conventional anomaly detection techniques cannot well solve this problem because of the complexity of graph data (e.g., irregular structures, non-independent and large-scale). For the aptitudes of deep learning in breaking these limitations, graph anomaly detection with deep learning has received intensified studies recently. In this survey, we aim to provide a systematic and comprehensive review of the contemporary deep learning techniques for graph anomaly detection. Specifically, our categorization follows a task-driven strategy and classifies existing works according to the anomalous graph objects they can detect. We especially focus on the motivations, key intuitions and technical details of existing works. We also summarize open-sourced implementations, public datasets, and commonly-used evaluation metrics for future studies. Finally, we highlight twelve future research directions according to our survey results covering emerging problems introduced by graph data, anomaly detection and real applications.
翻訳日:2021-06-15 15:46:20 公開日:2021-06-14
# バックドア学習曲線:影響関数を超えてバックドア中毒を説明する

Backdoor Learning Curves: Explaining Backdoor Poisoning Beyond Influence Functions ( http://arxiv.org/abs/2106.07214v1 )

ライセンス: Link先を確認
Antonio Emanuele Cin\`a, Kathrin Grosse, Sebastiano Vascon, Ambra Demontis, Battista Biggio, Fabio Roli, Marcello Pelillo(参考訳) バックドアアタックはトレーニング中に毒物サンプルを注入し、テスト時に特定のトリガーを提示すると、機械学習モデルにアタック・チョーゼンクラスを出力させる。 バックドア攻撃は様々な設定や異なるモデルで実証されているが、その成功に影響する要因はまだよく分かっていない。 本研究では,インクリメンタルな学習と影響関数のレンズ下でのバックドア学習の過程を研究するための統一的な枠組みを提供する。 バックドア攻撃の成功は,(i)ハイパーパラメータによって制御される学習アルゴリズムの複雑さ,および(ii)トレーニングセットに注入されたバックドアサンプルのごく一部に依存することを示した。 これらの要因は、機械学習モデルが学習し、バックドアトリガーの存在とターゲットクラスとの相関性に影響する。 興味深いことに, バックドア攻撃が有効でない場合, クリーンテスト試料の精度が依然として高いハイパーパラメータ領域が存在することを示し, 既存の防御を改善するための新たな基準を提案する。

Backdoor attacks inject poisoning samples during training, with the goal of enforcing a machine-learning model to output an attacker-chosen class when presented a specific trigger at test time. Although backdoor attacks have been demonstrated in a variety of settings and against different models, the factors affecting their success are not yet well understood. In this work, we provide a unifying framework to study the process of backdoor learning under the lens of incremental learning and influence functions. We show that the success of backdoor attacks inherently depends on (i) the complexity of the learning algorithm, controlled by its hyperparameters, and (ii) the fraction of backdoor samples injected into the training set. These factors affect how fast a machine-learning model learns to correlate the presence of a backdoor trigger with the target class. Interestingly, our analysis shows that there exists a region in the hyperparameter space in which the accuracy on clean test samples is still high while backdoor attacks become ineffective, thereby suggesting novel criteria to improve existing defenses.
翻訳日:2021-06-15 15:45:56 公開日:2021-06-14
# スケーラブルフラッドモデリングのための深層学習による物理認識ダウンサンプリング

Physics-Aware Downsampling with Deep Learning for Scalable Flood Modeling ( http://arxiv.org/abs/2106.07218v1 )

ライセンス: Link先を確認
Niv Giladi, Zvika Ben-Haim, Sella Nevo, Yossi Matias, Daniel Soudry(参考訳) 背景:洪水は世界でもっとも一般的な自然災害であり、数億人の命に影響を与えている。 したがって、洪水予測は重要な取り組みであり、通常は正確な地形標高図に依存する物理水流シミュレーションを用いて達成される。 しかし、偏微分方程式の解法に基づくそのようなシミュレーションは、大規模に計算的に禁止されている。 この拡張性の問題は通常、標高マップの粗いグリッド表現を使って軽減されるが、この表現は重要な地形の詳細を歪め、シミュレーションにおいて重大な不正確性をもたらす可能性がある。 コントリビューション:我々は、物理インフォームドされた地形図のダウンサンプリングを行うために、深層ニューラルネットワークを訓練する:我々は、地形図の粗い格子表現を最適化し、洪水予測が微細格子解に一致するようにする。 学習プロセスが成功するには、このタスク専用のデータセットを設定します。 この方法では, 正確な解法を維持しつつ, 計算コストを大幅に削減できることを示す。 参照実装は、論文とデータセットの再生のためのドキュメントとコードとを伴います。

Background: Floods are the most common natural disaster in the world, affecting the lives of hundreds of millions. Flood forecasting is therefore a vitally important endeavor, typically achieved using physical water flow simulations, which rely on accurate terrain elevation maps. However, such simulations, based on solving partial differential equations, are computationally prohibitive on a large scale. This scalability issue is commonly alleviated using a coarse grid representation of the elevation map, though this representation may distort crucial terrain details, leading to significant inaccuracies in the simulation. Contributions: We train a deep neural network to perform physics-informed downsampling of the terrain map: we optimize the coarse grid representation of the terrain maps, so that the flood prediction will match the fine grid solution. For the learning process to succeed, we configure a dataset specifically for this task. We demonstrate that with this method, it is possible to achieve a significant reduction in computational cost, while maintaining an accurate solution. A reference implementation accompanies the paper as well as documentation and code for dataset reproduction.
翻訳日:2021-06-15 15:45:35 公開日:2021-06-14
# RAPTOR: エンドツーエンドのリスク対応型MDP計画とバックプロパゲーションによる政策学習

RAPTOR: End-to-end Risk-Aware MDP Planning and Policy Learning by Backpropagation ( http://arxiv.org/abs/2106.07260v1 )

ライセンス: Link先を確認
Noah Patton, Jihwan Jeong, Michael Gimelfarb, Scott Sanner(参考訳) 計画は複雑な環境でシーケンシャルな決定を最適化するためのフレームワークを提供する。 連続的な作用空間を持つ決定的あるいは確率的高次元領域における効率的な計画の最近の進歩は、行動を直接最適化するために環境のモデルを通してバックプロパゲーションを活用する。 しかし、既存の手法は確率的領域を最適化する際にリスクを考慮せず、リターンのエントロピー的ユーティリティを最適化することでMDPに効率的に組み込むことができる。 我々は,エントロピー目的のエンドツーエンド最適化によるリスクセンシティブ計画のための新しいフレームワークであるpytorch(raptor)を用いて,リスク対応計画を導入することで,このギャップを埋める。 本手法の重要な技術的困難は,環境確率性が存在するため,バックプロパゲーションによるエントロピーユーティリティの直接的最適化は不可能である。 RAPTORの新規性は状態分布の再パラメータ化にあり、前方サンプリング軌道から計算されたエントロピーユーティリティの十分な統計により確率的バックプロパゲーションを適用することができる。 この経験的目的をエンドツーエンドに直接最適化することはリスク逆直線計画と呼ばれ、これは前もって一連の行動にコミットし、高度確率領域では準最適である。 当社のフレームワークでは,リスク対応のDeep Reactive Policies(RaDRP)を最適化することで,この問題に対処しています。 非線形ナビゲーション, HVAC 制御, 線形貯水池制御を含む3つの高度確率的ドメインに対して, これらの2種類のRAPTORを評価し比較し, 複雑なMDPのリスク管理能力を示す。

Planning provides a framework for optimizing sequential decisions in complex environments. Recent advances in efficient planning in deterministic or stochastic high-dimensional domains with continuous action spaces leverage backpropagation through a model of the environment to directly optimize actions. However, existing methods typically not take risk into account when optimizing in stochastic domains, which can be incorporated efficiently in MDPs by optimizing the entropic utility of returns. We bridge this gap by introducing Risk-Aware Planning using PyTorch (RAPTOR), a novel framework for risk-sensitive planning through end-to-end optimization of the entropic utility objective. A key technical difficulty of our approach lies in that direct optimization of the entropic utility by backpropagation is impossible due to the presence of environment stochasticity. The novelty of RAPTOR lies in the reparameterization of the state distribution, which makes it possible to apply stochastic backpropagatation through sufficient statistics of the entropic utility computed from forward-sampled trajectories. The direct optimization of this empirical objective in an end-to-end manner is called the risk-averse straight-line plan, which commits to a sequence of actions in advance and can be sub-optimal in highly stochastic domains. We address this shortcoming by optimizing for risk-aware Deep Reactive Policies (RaDRP) in our framework. We evaluate and compare these two forms of RAPTOR on three highly stochastic do-mains, including nonlinear navigation, HVAC control, and linear reservoir control, demonstrating the ability to manage risk in complex MDPs.
翻訳日:2021-06-15 15:45:19 公開日:2021-06-14
# 並列座標における解釈可能な機械学習モデルの発見

Discovering Interpretable Machine Learning Models in Parallel Coordinates ( http://arxiv.org/abs/2106.07474v1 )

ライセンス: Link先を確認
Boris Kovalerchuk, Dustin Hayes(参考訳) 本稿では,並列座標における視覚知識発見による解釈可能な機械学習に寄与する。 ハイパーキューブとハイパーブロックの概念は、パラレル座標の視覚形態のエンドユーザによって容易に理解できる。 混合および純超ブロック(HBs)を用いた分類のためのハイパーアルゴリズムを提案し、個別、複数、重複、重複しない設定において、ハイパーブロックを対話的に、かつ自動的に発見する。 ハイパーブロックと視覚パターンの言語記述の組み合わせについても述べる。 ハイパーモデルは決定木を一般化する。 ハイパーアルゴリズムはUCI MLリポジトリのベンチマークデータでテストされた。 すべてのデータで純粋な混合HBを発見し、10倍のクロスバリデーションを実現できる。 ハイパーブロック,次元縮小,可視化のリンクを確立する。 ハイパーブロック技術とハイパーアルゴリズムの主な利点は、すべてのクラスでパターンを可視化するサイドバイサイドの可視化を含む、エンドユーザーによるハイパーブロックの検出と観察を可能にすることである。 決定木に対するHBsのもう1つの利点は、データの過一般化と過適合の両方を避ける能力である。

This paper contributes to interpretable machine learning via visual knowledge discovery in parallel coordinates. The concepts of hypercubes and hyper-blocks are used as easily understandable by end-users in the visual form in parallel coordinates. The Hyper algorithm for classification with mixed and pure hyper-blocks (HBs) is proposed to discover hyper-blocks interactively and automatically in individual, multiple, overlapping, and non-overlapping setting. The combination of hyper-blocks with linguistic description of visual patterns is presented too. It is shown that Hyper models generalize decision trees. The Hyper algorithm was tested on the benchmark data from UCI ML repository. It allowed discovering pure and mixed HBs with all data and then with 10-fold cross validation. The links between hyper-blocks, dimension reduction and visualization are established. Major benefits of hyper-block technology and the Hyper algorithm are in their ability to discover and observe hyper-blocks by end-users including side by side visualizations making patterns visible for all classes. Another advantage of sets of HBs relative to the decision trees is the ability to avoid both data overgeneralization and overfitting.
翻訳日:2021-06-15 15:44:52 公開日:2021-06-14
# 遊びのようなトレーニング:医療分野における自動相談システム構築のための強化学習と知識グラフベースのフレームワーク

Training like Playing: A Reinforcement Learning And Knowledge Graph-based framework for building Automatic Consultation System in Medical Field ( http://arxiv.org/abs/2106.07502v1 )

ライセンス: Link先を確認
Yining Huang, Meilian Chen, Keke Tang(参考訳) 本稿では,知識グラフ埋め込みと強化学習コンポーネントを用いたaiベースの医療相談システムとその実装について紹介する。 本手法は,知識をグラフとして活用し,患者から収集されたエビデンスに従って,かつ動的に診断を行う。 性能を評価するために設計した実験によると、良い結果をアーカイブしています。 さらに重要なのは、より優れたパフォーマンスを得るために、研究者たちが革新的なアイデア、よく設計された実験、さらには臨床試験に基づいて、このフレームワークを実装できることだ。

We introduce a framework for AI-based medical consultation system with knowledge graph embedding and reinforcement learning components and its implement. Our implement of this framework leverages knowledge organized as a graph to have diagnosis according to evidence collected from patients recurrently and dynamically. According to experiment we designed for evaluating its performance, it archives a good result. More importantly, for getting better performance, researchers can implement it on this framework based on their innovative ideas, well designed experiments and even clinical trials.
翻訳日:2021-06-15 15:44:31 公開日:2021-06-14
# フェアウォッシングのリスクを特徴づける

Characterizing the risk of fairwashing ( http://arxiv.org/abs/2106.07504v1 )

ライセンス: Link先を確認
Ulrich A\"ivodji, Hiromi Arai, S\'ebastien Gambs, Satoshi Hara(参考訳) フェアウォッシング(Fairwashing)とは、不公平なブラックボックスモデルが、ポストホックな説明の操作を通じてフェアラーモデルによって説明できるリスクを指す。 しかし、これを実現するために、ポストホックの説明モデルは、いくつかの入力において元のブラックボックスとは異なる予測をしなければなりません。 本稿では,フェアウォッシング攻撃のリスクを,特に忠実・不公平なトレードオフを調査して特徴付けることを目的とする。 まず,実世界のデータセットでトレーニングされたブラックボックスモデルと,不公平さの低い高忠実な説明モデルを構築することができるという公平性に関するいくつかの統計的概念について,詳細な実証研究を行った。 例えば、フェアウォッシュされた説明モデルは、説明するブラックボックスモデルに対して最大99.20\%$不公平であると同時に、50\%$不公平であることを示すことができる。 これらの結果から,ブラックボックスの説明の質の指標として,忠実度だけでは使用すべきでないことが示唆された。 第二に、フェアウォッシュされた説明モデルは、訴訟群(\emph{i.e。 これは、より安定したフェアネスメソッドが開発されるにつれて、さらに悪化するだけである。 最後に,ブラックボックスモデル間でフェアウォッシング攻撃が移動可能であること,つまり,ブラックボックスモデルが予測を明示的に使わずにフェアウォッシングを行うことができることを実証する。

Fairwashing refers to the risk that an unfair black-box model can be explained by a fairer model through post-hoc explanations' manipulation. However, to realize this, the post-hoc explanation model must produce different predictions than the original black-box on some inputs, leading to a decrease in the fidelity imposed by the difference in unfairness. In this paper, our main objective is to characterize the risk of fairwashing attacks, in particular by investigating the fidelity-unfairness trade-off. First, we demonstrate through an in-depth empirical study on black-box models trained on several real-world datasets and for several statistical notions of fairness that it is possible to build high-fidelity explanation models with low unfairness. For instance, we find that fairwashed explanation models can exhibit up to $99.20\%$ fidelity to the black-box models they explain while being $50\%$ less unfair. These results suggest that fidelity alone should not be used as a proxy for the quality of black-box explanations. Second, we show that fairwashed explanation models can generalize beyond the suing group (\emph{i.e.}, data points that are being explained), which will only worsen as more stable fairness methods get developed. Finally, we demonstrate that fairwashing attacks can transfer across black-box models, meaning that other black-box models can perform fairwashing without explicitly using their predictions.
翻訳日:2021-06-15 15:44:21 公開日:2021-06-14
# フェデレーションドメイン適応のための動的勾配アグリゲーション

Dynamic Gradient Aggregation for Federated Domain Adaptation ( http://arxiv.org/abs/2106.07578v1 )

ライセンス: Link先を確認
Dimitrios Dimitriadis, Kenichi Kumatani, Robert Gmyr, Yashesh Gaur and Sefik Emre Eskimez(参考訳) 本稿では,フェデレーション学習(fl)のための新しい学習アルゴリズムを提案する。 提案手法は,2段階最適化を用いた重み付き勾配集約に基づいてフレキシブルなトレーニングパイプラインを提供する。 ここでは,BMUFやFedAvgのような他の分散またはFLトレーニングアルゴリズムと比較して,収束速度が大幅に向上することを示す。 さらに、集約アルゴリズムは勾配品質の正則化として機能する。 本研究では,制御・教師なし音声認識(SR)におけるFLアルゴリズムの効果について検討する。 実験的な検証は3つのタスクに基づいて行われる: まず、ベースライン結果と比較して、7xと6%の単語誤り率削減(WERR)のスピードアップを示すLibriSpeechタスク。 第2のタスクは、強力なLASモデルに対して20%のWERRを提供するセッション適応に基づいている。 最後に、教師なしパイプラインを会話SRタスクに適用する。 提案するflシステムは、収束速度とモデル全体の性能の両方においてベースラインシステムを上回る。

In this paper, a new learning algorithm for Federated Learning (FL) is introduced. The proposed scheme is based on a weighted gradient aggregation using two-step optimization to offer a flexible training pipeline. Herein, two different flavors of the aggregation method are presented, leading to an order of magnitude improvement in convergence speed compared to other distributed or FL training algorithms like BMUF and FedAvg. Further, the aggregation algorithm acts as a regularizer of the gradient quality. We investigate the effect of our FL algorithm in supervised and unsupervised Speech Recognition (SR) scenarios. The experimental validation is performed based on three tasks: first, the LibriSpeech task showing a speed-up of 7x and 6% word error rate reduction (WERR) compared to the baseline results. The second task is based on session adaptation providing 20% WERR over a powerful LAS model. Finally, our unsupervised pipeline is applied to the conversational SR task. The proposed FL system outperforms the baseline systems in both convergence speed and overall model performance.
翻訳日:2021-06-15 15:44:00 公開日:2021-06-14
# コミュニケーションは普遍的な溶媒である - atreya bot - 化学科学者のための対話型ボット

Communication is the universal solvent: atreya bot -- an interactive bot for chemical scientists ( http://arxiv.org/abs/2106.07257v1 )

ライセンス: Link先を確認
Mahak Sharma (1), Abhishek Kaushik (2), Rajesh Kumar (3), Sushant Kumar Rai (3), Harshada Hanumant Desai (3) and Sargam Yadav (3) ((1) Vidhya Bhawan Gandhiyan Institute of Educational Studies,(2) Dublin City University, Ireland,(3) Dublin Business School, Dublin, Ireland)(参考訳) 会話エージェントは、ユーザを支援するために複数の分野のアプリケーションにデプロイされる、人間とコンピュータのインタラクションの最近のトレンドである。 本稿では,化学愛好家,研究者,学生を対象に,ChEMBLデータベースの研究を行う対話型ボット「Atreya」を紹介する。 Atreyaは、人気のクラウドベースのインスタントメッセージングアプリケーションTelegramがホストしている。 このユーザフレンドリーなボットは、ChEMBLデータベースをクェリし、特定の疾患、その薬物に関連するターゲットなどの詳細を検索する。 本稿では,化学生や化学科学者の複雑な情報探索プロセスを支援する対話型エージェントの可能性について検討する。

Conversational agents are a recent trend in human-computer interaction, deployed in multidisciplinary applications to assist the users. In this paper, we introduce "Atreya", an interactive bot for chemistry enthusiasts, researchers, and students to study the ChEMBL database. Atreya is hosted by Telegram, a popular cloud-based instant messaging application. This user-friendly bot queries the ChEMBL database, retrieves the drug details for a particular disease, targets associated with that drug, etc. This paper explores the potential of using a conversational agent to assist chemistry students and chemical scientist in complex information seeking process.
翻訳日:2021-06-15 15:43:02 公開日:2021-06-14
# AEDシステムに対するオーディオ攻撃と防御 -実践的研究-

Audio Attacks and Defenses against AED Systems - A Practical Study ( http://arxiv.org/abs/2106.07428v1 )

ライセンス: Link先を確認
Rodrigo dos Santos and Shirin Nilizadeh(参考訳) オーディオイベント検出(aed)システムは、環境から音声をキャプチャし、特定の興味のある音の存在を検出するためにディープラーニングアルゴリズムを使用する。 本稿では,深層学習に基づくaedシステムにおける回避攻撃に対する攻撃事例の評価を行う。 複数のセキュリティクリティカルなaedタスクを実行し、cnns分類器として実装し、検出を避けるために敵が使用できるバックグラウンドとホワイトノイズの2つの異なるタイプのノイズを使用して、オーディオ敵の例を生成します。 また、Googleが製造するNestデバイスなど、既存のサードパーティのAED有能デバイスが、独自のブラックボックスディープラーニングモデルを実行することの堅牢性についても検討する。 本稿では,AED システムに対して,画像領域の敵対的事例に焦点をあてた作業と同様に,AED システムに誤分類を生じさせるような,音声の敵対的入力に集中できることを示す。 次に,攻撃対策を通じて分類器の堅牢性の向上を図る。 我々は、敵対的訓練とカスタム・デノージング技術を用いている。 これらの対策が,音声入力に適用された場合,単独でも組み合わせでも成功し,攻撃を受けた場合の分類器の性能が50%近く向上することを示す。

Audio Event Detection (AED) Systems capture audio from the environment and employ some deep learning algorithms for detecting the presence of a specific sound of interest. In this paper, we evaluate deep learning-based AED systems against evasion attacks through adversarial examples. We run multiple security critical AED tasks, implemented as CNNs classifiers, and then generate audio adversarial examples using two different types of noise, namely background and white noise, that can be used by the adversary to evade detection. We also examine the robustness of existing third-party AED capable devices, such as Nest devices manufactured by Google, which run their own black-box deep learning models. We show that an adversary can focus on audio adversarial inputs to cause AED systems to misclassify, similarly to what has been previously done by works focusing on adversarial examples from the image domain. We then, seek to improve classifiers' robustness through countermeasures to the attacks. We employ adversarial training and a custom denoising technique. We show that these countermeasures, when applied to audio input, can be successful, either in isolation or in combination, generating relevant increases of nearly fifty percent in the performance of the classifiers when these are under attack.
翻訳日:2021-06-15 15:42:50 公開日:2021-06-14
# crash:raw audio scoreに基づく高分解能ドラム合成のための生成モデル

CRASH: Raw Audio Score-based Generative Modeling for Controllable High-resolution Drum Sound Synthesis ( http://arxiv.org/abs/2106.07431v1 )

ライセンス: Link先を確認
Simon Rouard and Ga\"etan Hadjeres(参考訳) 本稿では,無条件生音声合成のための新しいスコアベース生成モデルを提案する。 本提案は, 確率微分方程式を用いた拡散過程モデリングの最新展開を基礎とし, すでに画像生成に有望な結果が得られている。 音声生成に適した拡散過程を選択するための新しいヒューリスティックスを動機付け、スコア関数を近似するための条件付きu-netの利用を検討する。 音声の拡散モデルに対する従来のアプローチは、主に中分解能の音声ボコーダとして設計されていたが、本手法はcrash (controllable raw audio synthesis with high- resolution) と呼ばれ、44.1khzの短い打楽器音を制御可能な方法で生成できる。 幅広い実験を通じて,本手法で提供される多数のサンプリング方式(無条件生成,決定論的生成,インパインティング,補間,バリエーション,クラス条件サンプリング)をドラム音生成タスクで紹介し,「ハイブリッド」音を生成する新しい手法であるクラス混合サンプリングを提案する。 提案手法は生オーディオにおけるgan方式とのギャップを解消すると同時に,より軽量で容易に学習できるモデルでより柔軟な生成機能を実現する。

In this paper, we propose a novel score-base generative model for unconditional raw audio synthesis. Our proposal builds upon the latest developments on diffusion process modeling with stochastic differential equations, which already demonstrated promising results on image generation. We motivate novel heuristics for the choice of the diffusion processes better suited for audio generation, and consider the use of a conditional U-Net to approximate the score function. While previous approaches on diffusion models on audio were mainly designed as speech vocoders in medium resolution, our method termed CRASH (Controllable Raw Audio Synthesis with High-resolution) allows us to generate short percussive sounds in 44.1kHz in a controllable way. Through extensive experiments, we showcase on a drum sound generation task the numerous sampling schemes offered by our method (unconditional generation, deterministic generation, inpainting, interpolation, variations, class-conditional sampling) and propose the class-mixing sampling, a novel way to generate "hybrid" sounds. Our proposed method closes the gap with GAN-based methods on raw audio, while offering more flexible generation capabilities with lighter and easier-to-train models.
翻訳日:2021-06-15 15:42:29 公開日:2021-06-14
# 現実よりも現実的:合成顔の人間の視覚知覚に関する研究

More Real than Real: A Study on Human Visual Perception of Synthetic Faces ( http://arxiv.org/abs/2106.07226v1 )

ライセンス: Link先を確認
Federica Lago, Cecilia Pasquini, Rainer B\"ohme, H\'el\`ene Dumont, Val\'erie Goffaux and Giulia Boato(参考訳) ディープフェイクは、現実主義の高まりにより、ここ数年で非常に人気を博した。 したがって、最先端の創造技術に直面すると、実際の顔画像と合成顔画像とを区別する人間の能力を測定する必要がある。 本研究は,最先端の創発的敵ネットワーク(pg-gan,stylegan,stylegan2)が生成する合成顔画像に対して,多種多様なボランティア群が露出した知覚実験の設計と結果について述べる。 実験の結果は、現代のAIによって生成された合成顔と実際の顔を区別する人間の能力に疑問を投げかけるべきかどうかを明らかにしている。

Deep fakes became extremely popular in the last years, also thanks to their increasing realism. Therefore, there is the need to measures human's ability to distinguish between real and synthetic face images when confronted with cutting-edge creation technologies. We describe the design and results of a perceptual experiment we have conducted, where a wide and diverse group of volunteers has been exposed to synthetic face images produced by state-of-the-art Generative Adversarial Networks (namely, PG-GAN, StyleGAN, StyleGAN2). The experiment outcomes reveal how strongly we should call into question our human ability to discriminate real faces from synthetic ones generated through modern AI.
翻訳日:2021-06-15 15:41:14 公開日:2021-06-14
# 深層強化学習に基づくユーザ誘導型パーソナライズ画像美的評価

User-Guided Personalized Image Aesthetic Assessment based on Deep Reinforcement Learning ( http://arxiv.org/abs/2106.07488v1 )

ライセンス: Link先を確認
Pei Lv, Jianqi Fan, Xixi Nie, Weiming Dong, Xiaoheng Jiang, Bing Zhou, Mingliang Xu and Changsheng Xu(参考訳) 近年,写真,映画,テレビ,電子商取引,ファッションデザインなど多岐にわたる応用において,個人化画像美的評価(PIAA)が注目されている。 このタスクは、ユーザが提供する主観的要因やサンプルによってより深刻な影響を受ける。 少量のサンプルで正確なパーソナライズされた美的分布を得るため,新たなユーザ誘導型パーソナライズ画像美的評価フレームワークを提案する。 本フレームワークは,ユーザ間のインタラクションを活用して,深層強化学習(DRL)に基づく審美評価のための画像のリタッチとランク付けを行い,異なるユーザの美的嗜好に合わせたパーソナライズされた審美分布を生成する。 主に2つの段階からなる。 第1段階では、インタラクティブな画像強調と手動ランキングによってパーソナライズされた審美的ランキングが生成され、2つのポリシーネットワークがトレーニングされる。 イメージは手作業でリタッチするためにユーザにプッシュされ、同時に強化ポリシーネットワークにもプッシュされる。 拡張ネットワークは、DRLの最適化目標として手動修正結果を利用する。 その後、ランキング処理は、前述したリタッチと同様の操作を実行する。 これら2つのネットワークは反復的かつ代替的にトレーニングされ、パーソナライズされた審美評価が自動的に完了する。 第2段階では、これらの修正された画像を1つのスタイル固有の分類器で美的属性にラベル付けし、それらの画像の複数の美的属性に基づいてパーソナライズされた美的分布を生成する。

Personalized image aesthetic assessment (PIAA) has recently become a hot topic due to its usefulness in a wide variety of applications such as photography, film and television, e-commerce, fashion design and so on. This task is more seriously affected by subjective factors and samples provided by users. In order to acquire precise personalized aesthetic distribution by small amount of samples, we propose a novel user-guided personalized image aesthetic assessment framework. This framework leverages user interactions to retouch and rank images for aesthetic assessment based on deep reinforcement learning (DRL), and generates personalized aesthetic distribution that is more in line with the aesthetic preferences of different users. It mainly consists of two stages. In the first stage, personalized aesthetic ranking is generated by interactive image enhancement and manual ranking, meanwhile two policy networks will be trained. The images will be pushed to the user for manual retouching and simultaneously to the enhancement policy network. The enhancement network utilizes the manual retouching results as the optimization goals of DRL. After that, the ranking process performs the similar operations like the retouching mentioned before. These two networks will be trained iteratively and alternatively to help to complete the final personalized aesthetic assessment automatically. In the second stage, these modified images are labeled with aesthetic attributes by one style-specific classifier, and then the personalized aesthetic distribution is generated based on the multiple aesthetic attributes of these images, which conforms to the aesthetic preference of users better.
翻訳日:2021-06-15 15:41:01 公開日:2021-06-14
# ソーシャルメディア分析のためのレシピ

A Recipe for Social Media Analysis ( http://arxiv.org/abs/2106.07307v1 )

ライセンス: Link先を確認
Shahid Alam, Juvariya Khan(参考訳) スマートフォンのユビキタスな性質は、公共、政府、企業の間でFacebook、Twitter、TikTok、LinkedInなどのソーシャルメディアプラットフォームの利用を著しく増加させてきた。 facebookの2019年の売上は700億ドルで、前年同期比で27%増だった。 ソーシャルメディアは、異なる国の政治的変化に責任を持つ社会抗議のアウトブレイクにも大きな役割を果たしている。 上記の例からわかるように、ソーシャルメディアはビジネスインテリジェンスと国際政治において大きな役割を果たす。 本稿では,ソーシャルメディア分析(SMA)の高レベルの機能的インテリジェンスモデル(レシピ)について述べる。 このモデルは入力データを合成し、操作可能なレコメンデーションを提供するために運用インテリジェンスを使用する。 さらに、環境から得られる経験と学習の合成機能とも一致します。 提示されるSMAモデルはアプリケーションドメインとは独立しており、教育、ヘルスケア、政府など、さまざまなドメインに適用することができる。 最後に、SMAが直面している課題と、本稿で提示したSMAモデルがどのように解決するかを示す。

The Ubiquitous nature of smartphones has significantly increased the use of social media platforms, such as Facebook, Twitter, TikTok, and LinkedIn, etc., among the public, government, and businesses. Facebook generated ~70 billion USD in 2019 in advertisement revenues alone, a ~27% increase from the previous year. Social media has also played a strong role in outbreaks of social protests responsible for political changes in different countries. As we can see from the above examples, social media plays a big role in business intelligence and international politics. In this paper, we present and discuss a high-level functional intelligence model (recipe) of Social Media Analysis (SMA). This model synthesizes the input data and uses operational intelligence to provide actionable recommendations. In addition, it also matches the synthesized function of the experiences and learning gained from the environment. The SMA model presented is independent of the application domain, and can be applied to different domains, such as Education, Healthcare and Government, etc. Finally, we also present some of the challenges faced by SMA and how the SMA model presented in this paper solves them.
翻訳日:2021-06-15 15:39:59 公開日:2021-06-14
# 汚染混合モデルによる多変量関数データの異常検出

Outlier detection in multivariate functional data through a contaminated mixture model ( http://arxiv.org/abs/2106.07222v1 )

ライセンス: Link先を確認
Martial Amovin-Assagba (ERIC, AMK), Ir\`ene Gannaz, Julien Jacques (ERIC)(参考訳) この研究は、センサーのアクティビティを高頻度で記録する産業環境での応用によって動機付けられている。 目的は、異常な測定行動を自動的に検出することである。 センサ測度を機能データとして考慮し,多変量関数データセットにおける異常値の検出に正式に関心を持っている。 このデータセットの不均一性のため、提案した汚染混合モデルの両方が多変量関数データを同種群にクラスタリングし、外れ値を検出する。 この手続きの競合相手に対する大きな利点は、外れ値の比率を指定する必要がないことである。 モデル推論は期待-決定的最大化アルゴリズムを用いて行われ、BIC基準を用いてクラスタ数を選択する。 シミュレーションデータを用いた数値実験により, 推定アルゴリズムの高性能化が示された。 特に、提案されたモデルは競合より優れている。 本研究の動機となった実データへの応用は,異常行動を正確に検出することを可能にする。

This work is motivated by an application in an industrial context, where the activity of sensors is recorded at a high frequency. The objective is to automatically detect abnormal measurement behaviour. Considering the sensor measures as functional data, we are formally interested in detecting outliers in a multivariate functional data set. Due to the heterogeneity of this data set, the proposed contaminated mixture model both clusters the multivariate functional data into homogeneous groups and detects outliers. The main advantage of this procedure over its competitors is that it does not require us to specify the proportion of outliers. Model inference is performed through an Expectation-Conditional Maximization algorithm, and the BIC criterion is used to select the number of clusters. Numerical experiments on simulated data demonstrate the high performance achieved by the inference algorithm. In particular, the proposed model outperforms competitors. Its application on the real data which motivated this study allows us to correctly detect abnormal behaviours.
翻訳日:2021-06-15 15:39:23 公開日:2021-06-14
# 未知外乱位相をもつネットワーク識別のためのスケーラブルなマルチステップ最小二乗法

A scalable multi-step least squares method for network identification with unknown disturbance topology ( http://arxiv.org/abs/2106.07548v1 )

ライセンス: Link先を確認
Stefanie J.M. Fonken, Karthik R. Ramaswamy, Paul M.J. Van den Hof(参考訳) 動的ネットワークの同定法は一般にネットワークと外乱トポロジーの事前知識を必要とし、しばしばスケーラビリティの低い非凸最適化問題を解くことに依存する。 ネットワークトポロジーを推定する方法は文献で利用可能であるが、外乱トポロジー、すなわち(空間的)ノイズ相関構造と雑音ランクの推定にはあまり注意が払われていない。 本稿では,外乱トポロジーの推定が既知のネットワークトポロジーを持つフルダイナミックネットワークの同定に先行する動的ネットワークの同定手法を提案する。 この目的のために,多段階逐次線形回帰法と重み付きヌル空間フィッティング法を拡張し,ランクノイズの低減に対応し,これらの手法を用いて外乱トポロジーとネットワークダイナミクスを推定する。 その結果、並列計算能力を持ち、明示的な解析解のみに依存するマルチステップ最小二乗アルゴリズムを提供することにより、通常の非凸最適化を回避できる。 これにより、計算負担を低く抑えつつ、Box Jenkinsモデル構造の動的ネットワークを一貫して推定する。 実験設計における励起信号の割り当てのための経路に基づくデータ情報化条件を含む整合性証明を提供する。 ランクノイズを低減した動的ネットワーク上で行う数値シミュレーションは,この手法の可能性を明らかに示している。

Identification methods for dynamic networks typically require prior knowledge of the network and disturbance topology, and often rely on solving poorly scalable non-convex optimization problems. While methods for estimating network topology are available in the literature, less attention has been paid to estimating the disturbance topology, i.e., the (spatial) noise correlation structure and the noise rank. In this work we present an identification method for dynamic networks, in which an estimation of the disturbance topology precedes the identification of the full dynamic network with known network topology. To this end we extend the multi-step Sequential Linear Regression and Weighted Null Space Fitting methods to deal with reduced rank noise, and use these methods to estimate the disturbance topology and the network dynamics. As a result, we provide a multi-step least squares algorithm with parallel computation capabilities and that rely only on explicit analytical solutions, thereby avoiding the usual non-convex optimizations involved. Consequently we consistently estimate dynamic networks of Box Jenkins model structure, while keeping the computational burden low. We provide a consistency proof that includes path-based data informativity conditions for allocation of excitation signals in the experimental design. Numerical simulations performed on a dynamic network with reduced rank noise clearly illustrate the potential of this method.
翻訳日:2021-06-15 15:39:09 公開日:2021-06-14
# cfedavg:非iid連合学習における効率的なコミュニケーションと高速収束の実現

CFedAvg: Achieving Efficient Communication and Fast Convergence in Non-IID Federated Learning ( http://arxiv.org/abs/2106.07155v1 )

ライセンス: Link先を確認
Haibo Yang, Jia Liu, Elizabeth S. Bentley(参考訳) フェデレートラーニング(Federated Learning, FL)は、多くの労働者がトレーニングデータを共有せずにモデルを共同で学習する分散ラーニングパラダイムである。 しかし、FLでは大規模(深層)学習モデルと帯域幅制限接続により通信コストが高くなる可能性がある。 本稿では,非i.i.dを持つflのためのcfedavgと呼ばれる通信効率の高いアルゴリズムフレームワークを提案する。 データセットは、一般的な(バイアス付きまたはバイアスなし)SNR制約圧縮機で動作する。 非凸関数に対するCFedAvgの収束速度を一定かつ減衰する学習速度で解析する。 cfedavgアルゴリズムは、一定の学習率で$\mathcal{o}(1 / \sqrt{mkt} + 1 / t)$の収束率を達成でき、労働者の数が増えるにつれて収束の線形速度が向上し、そこでは$k$が局所的なステップ数、$t$が総通信ラウンド数、$m$が総ワーカー数となる。 これは圧縮を伴わずに分散/フェデレート学習の収束率に一致し、flの学習精度を犠牲にすることなく高い通信効率を実現している。 さらにcfedavgを異種ローカルステップのケースにも拡張し,各作業者が異なるローカルステップを実行して,自身の状況に適応できるようにした。 一般に興味深い観察は、圧縮機によって導入されたノイズ/分散が、非i.dの全体的な収束率順序に影響しないことである。 FL。 異なる圧縮比の勾配圧縮スキームを持つ3つのデータセットに対するcfedavgアルゴリズムの有効性を検証する。

Federated learning (FL) is a prevailing distributed learning paradigm, where a large number of workers jointly learn a model without sharing their training data. However, high communication costs could arise in FL due to large-scale (deep) learning models and bandwidth-constrained connections. In this paper, we introduce a communication-efficient algorithmic framework called CFedAvg for FL with non-i.i.d. datasets, which works with general (biased or unbiased) SNR-constrained compressors. We analyze the convergence rate of CFedAvg for non-convex functions with constant and decaying learning rates. The CFedAvg algorithm can achieve an $\mathcal{O}(1 / \sqrt{mKT} + 1 / T)$ convergence rate with a constant learning rate, implying a linear speedup for convergence as the number of workers increases, where $K$ is the number of local steps, $T$ is the number of total communication rounds, and $m$ is the total worker number. This matches the convergence rate of distributed/federated learning without compression, thus achieving high communication efficiency while not sacrificing learning accuracy in FL. Furthermore, we extend CFedAvg to cases with heterogeneous local steps, which allows different workers to perform a different number of local steps to better adapt to their own circumstances. The interesting observation in general is that the noise/variance introduced by compressors does not affect the overall convergence rate order for non-i.i.d. FL. We verify the effectiveness of our CFedAvg algorithm on three datasets with two gradient compression schemes of different compression ratios.
翻訳日:2021-06-15 15:35:43 公開日:2021-06-14
# annotator co-occurrence imputation と provable symmetric non negative matrix factorization によるクラウドソーシング

Crowdsourcing via Annotator Co-occurrence Imputation and Provable Symmetric Nonnegative Matrix Factorization ( http://arxiv.org/abs/2106.07193v1 )

ライセンス: Link先を確認
Shahana Ibrahim, Xiao Fu(参考訳) Dawid-Skene(D&S)モデルのノイズ、不完全、クラウドソースアノテーションからの教師なし学習は長年にわたる課題であり、大量のデータを確実にラベル付けするための重要なステップである。 最近の研究は、結合非負行列分解(CNMF)の観点を採り、魅力的な特徴を示している: これはD\&Sモデルの識別可能性を確保し、アノテータラベルの共起点の推定のみを含むため、サンプルの複雑さを低くする。 しかしながら、特定性は、クラウドソーシングの文脈である程度制限的な条件が満たされる場合にのみ保持される。 cnmfの基準を最適化するコストも高く、収束保証は理解できない。 この研究は、ペアの共起に基づくD&Sモデル学習問題を対称NMF(SymNMF)問題として再放送する。 実際には、SymNMFモデルはしばしば(大部分は)不完全である。 共起計算のための2つの軽量アルゴリズムを提案する。 そこで,低複雑性シフト整流線形ユニット(ReLU)を用いたSymNMFアルゴリズムを提案し,D&Sモデルの同定を行った。 様々な性能特性(例えば、共起回復性の欠如、安定性、収束性)と評価も提示される。

Unsupervised learning of the Dawid-Skene (D&S) model from noisy, incomplete and crowdsourced annotations has been a long-standing challenge, and is a critical step towards reliably labeling massive data. A recent work takes a coupled nonnegative matrix factorization (CNMF) perspective, and shows appealing features: It ensures the identifiability of the D\&S model and enjoys low sample complexity, as only the estimates of the co-occurrences of annotator labels are involved. However, the identifiability holds only when certain somewhat restrictive conditions are met in the context of crowdsourcing. Optimizing the CNMF criterion is also costly -- and convergence assurances are elusive. This work recasts the pairwise co-occurrence based D&S model learning problem as a symmetric NMF (SymNMF) problem -- which offers enhanced identifiability relative to CNMF. In practice, the SymNMF model is often (largely) incomplete, due to the lack of co-labeled items by some annotators. Two lightweight algorithms are proposed for co-occurrence imputation. Then, a low-complexity shifted rectified linear unit (ReLU)-empowered SymNMF algorithm is proposed to identify the D&S model. Various performance characterizations (e.g., missing co-occurrence recoverability, stability, and convergence) and evaluations are also presented.
翻訳日:2021-06-15 15:35:13 公開日:2021-06-14
# 境界コスト下での公平なクラスタリング

Fair Clustering Under a Bounded Cost ( http://arxiv.org/abs/2106.07239v1 )

ライセンス: Link先を確認
Seyed A. Esmaeili, Brian Brubach, Aravind Srinivasan, John P. Dickerson(参考訳) クラスタリングは、データセットをメトリクス空間内の近くのポイントで構成されるクラスタに分割する、基本的な教師なし学習問題である。 最近の変種であるフェアクラスタリング(fair clustering)は、その色とそのグループメンバーシップを表す各点を関連付け、各色がグループフェアネスを満たすために各クラスタに(ほぼ)等しい表現を持つ必要がある。 このモデルでは, クラスタリング目標のコストは, アルゴリズムの公平性によって増大する。 コストの相対的な増加である「公正の価格」は、実際には非有界である。 そこで本稿では,クラスタリング問題に対する制約として,クラスタリング対象の上限を扱い,それに基づく表現の等式を最大化することを提案する。 我々は,2つの公平性目標,すなわち,グループ実用性目標とグループ平等性目標,およびグループ平等性目標を一般化するグループレキシミン目標を考える。 我々は、実用的および平等主義的目的の近似に関する根本的な下限を導き、証明可能な保証付きアルゴリズムを導入する。 レキシミンの目的のために、有効なヒューリスティックアルゴリズムを導入する。 我々はさらに、他の自然の公平性目標に対する不可能性結果も導出する。 提案アルゴリズムの有効性を実証する実世界のデータセットに関する実験結果について結論付けた。

Clustering is a fundamental unsupervised learning problem where a dataset is partitioned into clusters that consist of nearby points in a metric space. A recent variant, fair clustering, associates a color with each point representing its group membership and requires that each color has (approximately) equal representation in each cluster to satisfy group fairness. In this model, the cost of the clustering objective increases due to enforcing fairness in the algorithm. The relative increase in the cost, the ''price of fairness,'' can indeed be unbounded. Therefore, in this paper we propose to treat an upper bound on the clustering objective as a constraint on the clustering problem, and to maximize equality of representation subject to it. We consider two fairness objectives: the group utilitarian objective and the group egalitarian objective, as well as the group leximin objective which generalizes the group egalitarian objective. We derive fundamental lower bounds on the approximation of the utilitarian and egalitarian objectives and introduce algorithms with provable guarantees for them. For the leximin objective we introduce an effective heuristic algorithm. We further derive impossibility results for other natural fairness objectives. We conclude with experimental results on real-world datasets that demonstrate the validity of our algorithms.
翻訳日:2021-06-15 15:34:50 公開日:2021-06-14
# FastICARL: 音声センシングにおける効率的な予算割当を用いた高速インクリメンタル分類と表現学習

FastICARL: Fast Incremental Classifier and Representation Learning with Efficient Budget Allocation in Audio Sensing Applications ( http://arxiv.org/abs/2106.07268v1 )

ライセンス: Link先を確認
Young D. Kwon, Jagmohan Chauhan, and Cecilia Mascolo(参考訳) さまざまなインクリメンタル学習(il)アプローチが提案されており、ディープラーニングモデルが新しいタスクやクラスを継続的に学習するのに役立つ。 新たなタスクを動的に取り入れ、ユーザからの入力分布を変更する必要があるデプロイされたオーディオセンシングアプリケーションが増えているため、ILオンデバイス機能は、効率とユーザのプライバシの両方に不可欠である。 しかし、以前の作業は高い計算コストとストレージ要求に苦しむため、デバイスへのilのデプロイが妨げられる。 本稿では,これらの制約を克服するために,音声ベースのアプリケーションにおいて,例題ベースのilと量子化を組み込んだ,エンドツーエンドでオンデバイスなilフレームワークであるfasticarlを開発した。 まずk-nearest-neighborを用いてILのレイテンシを低減する。 そして,ilの保存要件を減らすために,量子化手法を併用した。 我々は,FastICARLを2種類のモバイルデバイスに実装し,FastICARLが性能を犠牲にすることなく,IL時間を78~92%,ストレージ要求を2~4倍減少させることを示した。 FastICARLはデバイス上の完全なILを可能にし、ユーザデータがデバイスを離れる必要がないため、ユーザのプライバシを確保する。

Various incremental learning (IL) approaches have been proposed to help deep learning models learn new tasks/classes continuously without forgetting what was learned previously (i.e., avoid catastrophic forgetting). With the growing number of deployed audio sensing applications that need to dynamically incorporate new tasks and changing input distribution from users, the ability of IL on-device becomes essential for both efficiency and user privacy. However, prior works suffer from high computational costs and storage demands which hinders the deployment of IL on-device. In this work, to overcome these limitations, we develop an end-to-end and on-device IL framework, FastICARL, that incorporates an exemplar-based IL and quantization in the context of audio-based applications. We first employ k-nearest-neighbor to reduce the latency of IL. Then, we jointly utilize a quantization technique to decrease the storage requirements of IL. We implement FastICARL on two types of mobile devices and demonstrate that FastICARL remarkably decreases the IL time up to 78-92% and the storage requirements by 2-4 times without sacrificing its performance. FastICARL enables complete on-device IL, ensuring user privacy as the user data does not need to leave the device.
翻訳日:2021-06-15 15:34:32 公開日:2021-06-14
# データサイエンス方法論の現状と今後の課題

Data Science Methodologies: Current Challenges and Future Approaches ( http://arxiv.org/abs/2106.07287v1 )

ライセンス: Link先を確認
I\~nigo Martinez, Elisabeth Viles, Igor G. Olaizola(参考訳) データサイエンスは高度な分析の開発、データモデルの改善、新しいアルゴリズムの育成に多大な研究を続けてきた。 しかし、データサイエンスプロジェクトを実行する際に生じる組織的および社会技術的課題には、多くの著者が遭遇していない: ビジョンと明確な目的の欠如、技術的な問題への偏り、アドホックなプロジェクトの成熟度が低いこと、データサイエンスにおける役割の曖昧さ。 この種の課題に取り組む文献について提案されている方法論はほとんどなく、1990年中頃までさかのぼるものもあるため、現在のパラダイムやビッグデータや機械学習技術の最新の発展には更新されていない。 さらに、チーム、プロジェクト、データおよび情報管理の完全なガイドラインを提供する方法論は少ない。 この記事では、データサイエンスプロジェクトを実行するためのより包括的なアプローチを開発する必要性について検討する。 データサイエンスプロジェクトに取り組むための文献に提示された方法論をまずレビューし,その対象であるプロジェクト,チーム,データおよび情報管理に従って分類する。 最後に、総合的な視点でデータサイエンスプロジェクトを管理する方法論が持つべき一般的な特徴を含む概念的枠組みを提案する。 このフレームワークは、他の研究者によって、新しいデータサイエンス方法論の設計や既存手法の更新のロードマップとして使用することができる。

Data science has employed great research efforts in developing advanced analytics, improving data models and cultivating new algorithms. However, not many authors have come across the organizational and socio-technical challenges that arise when executing a data science project: lack of vision and clear objectives, a biased emphasis on technical issues, a low level of maturity for ad-hoc projects and the ambiguity of roles in data science are among these challenges. Few methodologies have been proposed on the literature that tackle these type of challenges, some of them date back to the mid-1990, and consequently they are not updated to the current paradigm and the latest developments in big data and machine learning technologies. In addition, fewer methodologies offer a complete guideline across team, project and data & information management. In this article we would like to explore the necessity of developing a more holistic approach for carrying out data science projects. We first review methodologies that have been presented on the literature to work on data science projects and classify them according to the their focus: project, team, data and information management. Finally, we propose a conceptual framework containing general characteristics that a methodology for managing data science projects with a holistic point of view should have. This framework can be used by other researchers as a roadmap for the design of new data science methodologies or the updating of existing ones.
翻訳日:2021-06-15 15:34:10 公開日:2021-06-14
# 非線形次元低減のための量子拡散マップ

Quantum diffusion map for nonlinear dimensionality reduction ( http://arxiv.org/abs/2106.07302v1 )

ライセンス: Link先を確認
Apimuk Sornsaeng, Ninnat Dangniam, Pantita Palittapongarnpim, Thiparat Chotibut(参考訳) グラフ上のランダムウォークにインスパイアされた拡散マップ(DM)は、高次元データセットに隠された低次元データ構造の自動識別を提供する教師なし機械学習のクラスである。 近年、多くの応用において、DMは多体系における関連する秩序パラメータの発見に成功し、物質の量子位相の自動分類を可能にしている。 しかし、古典的DMアルゴリズムは大規模データセットでは計算が禁止されており、時間複雑性の低減が望ましい。 量子計算の高速化を念頭に置いて,量子拡散マップ(qdm)と呼ばれるdmのための量子アルゴリズムを提案する。 我々のqDMは、入力Nの古典的データベクトルとして、時間$O(\log^3 N)$でマルコフ遷移行列の固有分解を行い、古典的には固有ベクトルの読み出し(トモグラフィ)を通して拡散マップを構築し、合計ランタイムは$O(N^2 \text{polylog}\, N)$である。 最後に、マルコフ遷移作用素を構成するためのqDMの量子サブルーチンとそのスペクトル特性の分析は、他のランダムウォークベースのアルゴリズムにも有用である。

Inspired by random walk on graphs, diffusion map (DM) is a class of unsupervised machine learning that offers automatic identification of low-dimensional data structure hidden in a high-dimensional dataset. In recent years, among its many applications, DM has been successfully applied to discover relevant order parameters in many-body systems, enabling automatic classification of quantum phases of matter. However, classical DM algorithm is computationally prohibitive for a large dataset, and any reduction of the time complexity would be desirable. With a quantum computational speedup in mind, we propose a quantum algorithm for DM, termed quantum diffusion map (qDM). Our qDM takes as an input N classical data vectors, performs an eigen-decomposition of the Markov transition matrix in time $O(\log^3 N)$, and classically constructs the diffusion map via the readout (tomography) of the eigenvectors, giving a total runtime of $O(N^2 \text{polylog}\, N)$. Lastly, quantum subroutines in qDM for constructing a Markov transition operator, and for analyzing its spectral properties can also be useful for other random walk-based algorithms.
翻訳日:2021-06-15 15:33:48 公開日:2021-06-14
# 低次元ユークリッド空間における制約付きk中間およびk平均クラスタリングのコアセット

Coresets for constrained k-median and k-means clustering in low dimensional Euclidean space ( http://arxiv.org/abs/2106.07319v1 )

ライセンス: Link先を確認
Melanie Schmidt and Julian Wargalla(参考訳) 私たちはストリーミングモデルに制約付きで、k$medianとk$-means(euclidean)を調べました。 制約の下で実現可能性の多項式計算可能性(もしクラスタリングが制約を満たすなら計算する)や効率的な割当オラクルの存在(センターの集合を配置し、制約を満たすセンターへの最適なポイントの割り当てを生成する)といった穏やかな仮定を除いて、手元に特定の制約の知識を用いることなく、制約付き$k$-means問題を解くための統一アルゴリズムの設計が近年行われている。 これらのアルゴリズムは、実行時間は$k$で指数関数的であるが、幅広い制約に適用できる。 2019年に提案された制限付きストリーミング$k$-means問題の解法、すなわちフェア$k$-meansクラスタリングは、実際にこれらの制約すべてに対してストリーミングアルゴリズムを暗示している。 これらは低次元ユークリッド空間に作用する。 [なお、現在、k$-meansをストリーミングするためのアルゴリズムが増えていることに注意してください。特に、高次元空間にも存在します。]

We study (Euclidean) $k$-median and $k$-means with constraints in the streaming model. There have been recent efforts to design unified algorithms to solve constrained $k$-means problems without using knowledge of the specific constraint at hand aside from mild assumptions like the polynomial computability of feasibility under the constraint (compute if a clustering satisfies the constraint) or the presence of an efficient assignment oracle (given a set of centers, produce an optimal assignment of points to the centers which satisfies the constraint). These algorithms have a running time exponential in $k$, but can be applied to a wide range of constraints. We demonstrate that a technique proposed in 2019 for solving a specific constrained streaming $k$-means problem, namely fair $k$-means clustering, actually implies streaming algorithms for all these constraints. These work for low dimensional Euclidean space. [Note that there are more algorithms for streaming fair $k$-means today, in particular they exist for high dimensional spaces now as well.]
翻訳日:2021-06-15 15:33:27 公開日:2021-06-14
# MLPerf Tinyベンチマーク

MLPerf Tiny Benchmark ( http://arxiv.org/abs/2106.07597v1 )

ライセンス: Link先を確認
Colby Banbury, Vijay Janapa Reddi, Peter Torelli, Jeremy Holleman, Nat Jeffries, Csaba Kiraly, Pietro Montino, David Kanter, Sebastian Ahmed, Danilo Pau, Urmish Thakker, Antonio Torrini, Peter Warden, Jay Cordaro, Giuseppe Di Guglielmo, Javier Duarte, Stephen Gibellini, Videet Parekh, Honson Tran, Nhan Tran, Niu Wenxu, Xu Xuesong(参考訳) 超低消費電力の小さな機械学習(TinyML)システムの進歩は、まったく新しいタイプのスマートアプリケーションをアンロックすることを約束する。 しかし、これらのシステムに対する広く受け入れられ、容易に再現可能なベンチマークが欠如しているため、継続的な進歩は限られている。 このニーズを満たすために、超低消費電力の小型機械学習システムのための業界標準ベンチマークスイートであるmlperf tinyを紹介します。 ベンチマークスイートは、業界や学界から50以上の組織による協力作業であり、コミュニティのニーズを反映している。 MLPerf Tinyは、機械学習推論の正確性、レイテンシ、エネルギーを測定し、システム間のトレードオフを適切に評価する。 さらに、MLPerf Tinyは、ベンチマーク提出者がMLデプロイメントスタックのどこに落ちても、公平かつ再現可能な方法で、製品のメリットを示すことができるモジュール設計を実装している。 このスイートには、キーワードスポッティング、視覚覚醒語、画像分類、異常検出の4つのベンチマークがある。

Advancements in ultra-low-power tiny machine learning (TinyML) systems promise to unlock an entirely new class of smart applications. However, continued progress is limited by the lack of a widely accepted and easily reproducible benchmark for these systems. To meet this need, we present MLPerf Tiny, the first industry-standard benchmark suite for ultra-low-power tiny machine learning systems. The benchmark suite is the collaborative effort of more than 50 organizations from industry and academia and reflects the needs of the community. MLPerf Tiny measures the accuracy, latency, and energy of machine learning inference to properly evaluate the tradeoffs between systems. Additionally, MLPerf Tiny implements a modular design that enables benchmark submitters to show the benefits of their product, regardless of where it falls on the ML deployment stack, in a fair and reproducible manner. The suite features four benchmarks: keyword spotting, visual wake words, image classification, and anomaly detection.
翻訳日:2021-06-15 15:32:53 公開日:2021-06-14
# 曲面上のベクトル場の比較:皮質の折りたたみの向きを特徴付けるための興味

Comparing vector fields across surfaces: interest for characterizing the orientations of cortical folds ( http://arxiv.org/abs/2106.07470v1 )

ライセンス: Link先を確認
Amine Bohi, Guillaume Auzias and Julien Lef\`evre(参考訳) 曲面上で定義されるベクトル場は、関連性があり有用な表現を構成するが、ほとんど使われない。 一つの理由は、同じ属の2つの曲面でベクトル場を比較することは自明なものではなく、元の曲面から共通の領域へベクトル場を輸送する必要があるからかもしれない。 本稿では,ベクトル場を共通空間にマッピングし,微分幾何学の概念を用いて,この課題を達成するための枠組みを提案する。 提案フレームワークはベクトル場上の統計の計算を可能にする。 我々は,皮質の折りたたみパターンの複雑な幾何学を記述した曲率方向の再現性を定量的に評価し,実データに適用することに興味を示した。 提案するフレームワークは汎用的であり,様々な種類のベクトル場や表面に適用することができる。

Vectors fields defined on surfaces constitute relevant and useful representations but are rarely used. One reason might be that comparing vector fields across two surfaces of the same genus is not trivial: it requires to transport the vector fields from the original surfaces onto a common domain. In this paper, we propose a framework to achieve this task by mapping the vector fields onto a common space, using some notions of differential geometry. The proposed framework enables the computation of statistics on vector fields. We demonstrate its interest in practice with an application on real data with a quantitative assessment of the reproducibility of curvature directions that describe the complex geometry of cortical folding patterns. The proposed framework is general and can be applied to different types of vector fields and surfaces, allowing for a large number of high potential applications in medical imaging.
翻訳日:2021-06-15 15:32:38 公開日:2021-06-14
# 機械学習の分子動力学への応用

Machine Learning Implicit Solvation for Molecular Dynamics ( http://arxiv.org/abs/2106.07492v1 )

ライセンス: Link先を確認
Yaoyi Chen, Andreas Kr\"amer, Nicholas E. Charron, Brooke E. Husic, Cecilia Clementi, Frank No\'e(参考訳) 生物分子の溶媒環境の正確なモデリングは、計算生物学と薬物設計に不可欠である。 システムサイズの長いシミュレーション時間スケールを達成するための一般的なアプローチは、溶媒の効果を暗黙の溶媒モデルで平均場に組み込むことである。 しかしながら、既存の暗黙溶媒モデルにおける課題は、無視された溶媒分子の多体効果が平均場としてモデル化することが困難であるため、明示溶媒モデルと比較して精度や特定の物理的性質が欠けていることである。 そこで,我々は機械学習 (ml) と多スケール粗粒化 (cg) を利用して,与えられた明示的な溶媒モデルのエネルギー的および熱力学的性質を十分に訓練されたデータから任意の精度で近似できる暗黙の溶媒モデルを学習する。 従来の ml-cg モデル cgnet と cgschnet に続いて,グラフニューラルネットワークである issnet を導入し,平均力の暗黙の溶媒ポテンシャルをモデル化する。 ISSNetは明示的な溶媒シミュレーションデータから学習でき、MDシミュレーションにも容易に適用できる。 2つのペプチド系に対する溶解処理における溶質配座分布の比較を行った。 その結果, ISSNetモデルでは, 顕在溶媒に対する小タンパク質系の熱力学の再現において, 広く用いられている一般化ボルンモデルや表面積モデルよりも優れることが示された。 この手法の成功は、シリコ研究および生物医学応用における溶媒効果の正確なモデリングに機械学習手法を適用する潜在的な利点を示している。

Accurate modeling of the solvent environment for biological molecules is crucial for computational biology and drug design. A popular approach to achieve long simulation time scales for large system sizes is to incorporate the effect of the solvent in a mean-field fashion with implicit solvent models. However, a challenge with existing implicit solvent models is that they often lack accuracy or certain physical properties compared to explicit solvent models, as the many-body effects of the neglected solvent molecules is difficult to model as a mean field. Here, we leverage machine learning (ML) and multi-scale coarse graining (CG) in order to learn implicit solvent models that can approximate the energetic and thermodynamic properties of a given explicit solvent model with arbitrary accuracy, given enough training data. Following the previous ML--CG models CGnet and CGSchnet, we introduce ISSNet, a graph neural network, to model the implicit solvent potential of mean force. ISSNet can learn from explicit solvent simulation data and be readily applied to MD simulations. We compare the solute conformational distributions under different solvation treatments for two peptide systems. The results indicate that ISSNet models can outperform widely-used generalized Born and surface area models in reproducing the thermodynamics of small protein systems with respect to explicit solvent. The success of this novel method demonstrates the potential benefit of applying machine learning methods in accurate modeling of solvent effects for in silico research and biomedical applications.
翻訳日:2021-06-15 15:32:25 公開日:2021-06-14
# プライベートシンセティックデータの反復的手法:フレームワークの統一と新しい手法

Iterative Methods for Private Synthetic Data: Unifying Framework and New Methods ( http://arxiv.org/abs/2106.07153v1 )

ライセンス: Link先を確認
Terrance Liu, Giuseppe Vietri, Zhiwei Steven Wu(参考訳) そこで我々は,大量の統計クエリに対する回答を概ね保存する,機密性の高いデータセットのサニタイズバージョンを構築することを目的とした,クエリリリースのためのプライベートな合成データ生成について検討した。 まず、文献における反復アルゴリズムの長い行を統一するアルゴリズムフレームワークを提案する。 この枠組みでは2つの新しい手法を提案する。 第1の手法であるプライベートエントロピープロジェクション(PEP)は、過去のクエリ測定を適応的に再利用して精度を高めるMWEMの高度な変種と見なすことができる。 第2の手法である指数関数機構(GEM)による生成ネットワークは,ニューラルネットワークによってパラメータ化される生成モデルを最適化することにより,MWEMやPEPといったアルゴリズムの計算ボトルネックを回避する。 我々は、PEPとGEMが既存のアルゴリズムを実証的に上回ることを示した。 さらに、GEMは、公開データを利用した既存の最先端手法であるPMW^Pubの限界を克服しつつ、公開データからの事前情報をうまく取り入れていることを示す。

We study private synthetic data generation for query release, where the goal is to construct a sanitized version of a sensitive dataset, subject to differential privacy, that approximately preserves the answers to a large collection of statistical queries. We first present an algorithmic framework that unifies a long line of iterative algorithms in the literature. Under this framework, we propose two new methods. The first method, private entropy projection (PEP), can be viewed as an advanced variant of MWEM that adaptively reuses past query measurements to boost accuracy. Our second method, generative networks with the exponential mechanism (GEM), circumvents computational bottlenecks in algorithms such as MWEM and PEP by optimizing over generative models parameterized by neural networks, which capture a rich family of distributions while enabling fast gradient-based optimization. We demonstrate that PEP and GEM empirically outperform existing algorithms. Furthermore, we show that GEM nicely incorporates prior information from public data while overcoming limitations of PMW^Pub, the existing state-of-the-art method that also leverages public data.
翻訳日:2021-06-15 15:30:14 公開日:2021-06-14
# ニューラルプログラム合成のためのサンプルごとの解の組み合わせ学習

Learning to Combine Per-Example Solutions for Neural Program Synthesis ( http://arxiv.org/abs/2106.07175v1 )

ライセンス: Link先を確認
Disha Shrivastava, Hugo Larochelle, Daniel Tarlow(参考訳) 例からのプログラム合成の目標は、与えられた入出力例のセットと一致するコンピュータプログラムを見つけることである。 ほとんどの学習ベースのアプローチは、一度にすべての例を満たすプログラムを見つけようとします。 対照的に、我々の研究は問題を2段階に分割するアプローチを考察している: (a) 1つの例のみを満たすプログラムを見つけ、 (b) 例ごとのソリューションを活用して全ての例を満たすプログラムを得る。 マルチヘッドアテンション機構をベースとしたCross Aggregatorニューラルネットモジュールを導入し、これらのサンプルごとのソリューションに存在するキューを組み合わせることで、グローバルなソリューションを合成する。 異なる長さのプログラムと2つの異なる実験環境での評価により、同じ時間予算が与えられると、pccoder arxiv:1809.04682v2[cs.lg]や他のアブレーションベースラインよりも成功率が著しく向上することが明らかとなった。 私たちの仕事のコード、データ、トレーニングされたモデルは、https://github.com/shrivastavadisha/n-pepsにあります。

The goal of program synthesis from examples is to find a computer program that is consistent with a given set of input-output examples. Most learning-based approaches try to find a program that satisfies all examples at once. Our work, by contrast, considers an approach that breaks the problem into two stages: (a) find programs that satisfy only one example, and (b) leverage these per-example solutions to yield a program that satisfies all examples. We introduce the Cross Aggregator neural network module based on a multi-head attention mechanism that learns to combine the cues present in these per-example solutions to synthesize a global solution. Evaluation across programs of different lengths and under two different experimental settings reveal that when given the same time budget, our technique significantly improves the success rate over PCCoder arXiv:1809.04682v2 [cs.LG] and other ablation baselines. The code, data and trained models for our work can be found at https://github.com/shrivastavadisha/N-PEPS.
翻訳日:2021-06-15 15:29:56 公開日:2021-06-14
# 多層ネットワークにおける最適輸送

Optimal transport in multilayer networks ( http://arxiv.org/abs/2106.07202v1 )

ライセンス: Link先を確認
Abdullahi Adinoyi Ibrahim, Alessandro Lonardi and Caterina De Bacco(参考訳) 多層ネットワークにおけるトラフィック分布のモデル化と最適フローの抽出は、効率的なマルチモーダルネットワークインフラストラクチャを設計する上で最も重要である。 最適輸送理論に基づく最近の結果は、この問題に対処するための強力で計算効率の良い手法を提供するが、それらは主に単層ネットワークのモデリングに焦点を当てている。 本稿では,多層ネットワーク上での最適流れの分散について検討する。 本稿では,各層上の最適フローが,コストの最小化に寄与するモデルを提案する。 これは、レイヤによって異なるパラメータによって行われるため、様々なレイヤのトラフィック混雑に対する感度を柔軟に調整することができる。 アプリケーションとして,各層が異なる輸送システムと関連づけられた輸送ネットワークを考察し,このパラメータをレイヤ間でチューニングすることで,トラフィック分布がどのように変化するかを示す。 この結果は、バスと路面電車のあるボルドー市の実際の2層ネットワークに例を示し、ある地域では路面電車網の存在が道路網の交通を著しく損なうことを発見した。 本モデルは, 実マルチ層ネットワークにおける最適流れと航法性戦略のさらなる解析方法である。

Modeling traffic distribution and extracting optimal flows in multilayer networks is of utmost importance to design efficient multi-modal network infrastructures. Recent results based on optimal transport theory provide powerful and computationally efficient methods to address this problem, but they are mainly focused on modeling single-layer networks. Here we adapt these results to study how optimal flows distribute on multilayer networks. We propose a model where optimal flows on different layers contribute differently to the total cost to be minimized. This is done by means of a parameter that varies with layers, which allows to flexibly tune the sensitivity to traffic congestion of the various layers. As an application, we consider transportation networks, where each layer is associated to a different transportation system and show how the traffic distribution varies as we tune this parameter across layers. We show an example of this result on the real 2-layer network of the city of Bordeaux with bus and tram, where we find that in certain regimes the presence of the tram network significantly unburdens the traffic on the road network. Our model paves the way to further analysis of optimal flows and navigability strategies in real multilayer networks.
翻訳日:2021-06-15 15:29:35 公開日:2021-06-14
# 分散化連帯型min-max問題

Decentralized Personalized Federated Min-Max Problems ( http://arxiv.org/abs/2106.07289v1 )

ライセンス: Link先を確認
Aleksandr Beznosikov and Vadim Sushko and Abdurakhmon Sadiev and Alexander Gasnikov(参考訳) パーソナライズド・フェデレートド・ラーニング(Personalized Federated Learning)は、最近大きく進歩し、トレーニングに使用されるデータのプライバシを保存する新しい機械学習アプリケーションの設計を可能にした。 この分野での既存の理論結果は、主に最小化問題の下での分散最適化に焦点を当てている。 本論文は,より広範な最適化タスクを網羅し,最小化よりも応用性が高い,サドル点問題に対するPFLを初めて研究したものである。 本研究では,グローバルモデルの学習をローカル分散学習者と組み合わせた手法である混合目的関数を用いた最近提案されたPFLについて考察する。 中央集権的な設定のみを考慮した以前のほとんどの論文とは異なり、より一般的で分散化された設定で作業しています。 これにより、デバイスとネットワークを接続するより実用的で連合した方法の設計と分析が可能になる。 我々はこの問題に対して2つの新しいアルゴリズムを提案する。 この手法の理論的解析は滑らかな(強い)凸-(強い)凹点問題に対して提示される。 また,逆方向雑音を持つニューラルネットワーク実験における問題定式化と提案アルゴリズムの有効性を実証した。

Personalized Federated Learning has recently seen tremendous progress, allowing the design of novel machine learning applications preserving privacy of the data used for training. Existing theoretical results in this field mainly focus on distributed optimization under minimization problems. This paper is the first to study PFL for saddle point problems, which cover a broader class of optimization tasks and are thus of more relevance for applications than the minimization. In this work, we consider a recently proposed PFL setting with the mixing objective function, an approach combining the learning of a global model together with local distributed learners. Unlike most of the previous papers, which considered only the centralized setting, we work in a more general and decentralized setup. This allows to design and to analyze more practical and federated ways to connect devices to the network. We present two new algorithms for our problem. A theoretical analysis of the methods is presented for smooth (strongly-)convex-(strongly-)concave saddle point problems. We also demonstrate the effectiveness of our problem formulation and the proposed algorithms on experiments with neural networks with adversarial noise.
翻訳日:2021-06-15 15:29:16 公開日:2021-06-14
# INNformant: 境界サンプルを透かしとして

iNNformant: Boundary Samples as Telltale Watermarks ( http://arxiv.org/abs/2106.07303v1 )

ライセンス: Link先を確認
Alexander Schl\"ogl, Tobias Kupek, Rainer B\"ohme(参考訳) 境界サンプルは、結果のアウトプットラベルによって推論に使用される実行環境を特定するために作られた人工ニューラルネットワークへの特別な入力である。 本論文は,透明境界サンプル生成のためのアルゴリズムを提示し,評価する。 透明性とは、ホスト信号(すなわち、自然な入力サンプル)の小さな知覚的歪みを指す。 FMNIST 上の ResNet と CIFAR10 の2つの画像分類器に対して,テストされた4つのマイクロアーキテクチャのいずれかを識別できる境界サンプルセットを生成することができることを示す。 これらのセットは70dbより低いピーク信号対ノイズ比のサンプルを含まないように構築できる。 検索複雑性と結果の透明性の関係を解析する。

Boundary samples are special inputs to artificial neural networks crafted to identify the execution environment used for inference by the resulting output label. The paper presents and evaluates algorithms to generate transparent boundary samples. Transparency refers to a small perceptual distortion of the host signal (i.e., a natural input sample). For two established image classifiers, ResNet on FMNIST and CIFAR10, we show that it is possible to generate sets of boundary samples which can identify any of four tested microarchitectures. These sets can be built to not contain any sample with a worse peak signal-to-noise ratio than 70dB. We analyze the relationship between search complexity and resulting transparency.
翻訳日:2021-06-15 15:29:01 公開日:2021-06-14
# バロン空間における楕円型PDE解の表現について

On the Representation of Solutions to Elliptic PDEs in Barron Spaces ( http://arxiv.org/abs/2106.07539v1 )

ライセンス: Link先を確認
Ziang Chen, Jianfeng Lu, Yulong Lu(参考訳) ニューラルネットワークに基づく高次元偏微分方程式(PDE)の数値解は、エキサイティングな発展を遂げている。 本稿では、バロン空間における$d$次元2階楕円型PDEの解の複雑性推定を導出する。これはパラメータ上の確率測度に対してあるパラメトリックリッジ関数の積分を許容する関数の集合である。 いくつかの適切な仮定の下で、楕円型PDEの係数と原項がバロン空間にあるなら、PDEの解はバロン函数のノルムに対して$H^1$-閉である。 さらに、この近似解のバロンノルムの次元-明示境界は、PDEの次元$d$の多項式によって証明される。 複雑性推定の直接的な結果として、pdeの解は次元指数収束率の$h^1$ノルムに関する2層ニューラルネットワークによって任意の有界領域上で近似することができる。

Numerical solutions to high-dimensional partial differential equations (PDEs) based on neural networks have seen exciting developments. This paper derives complexity estimates of the solutions of $d$-dimensional second-order elliptic PDEs in the Barron space, that is a set of functions admitting the integral of certain parametric ridge function against a probability measure on the parameters. We prove under some appropriate assumptions that if the coefficients and the source term of the elliptic PDE lie in Barron spaces, then the solution of the PDE is $\epsilon$-close with respect to the $H^1$ norm to a Barron function. Moreover, we prove dimension-explicit bounds for the Barron norm of this approximate solution, depending at most polynomially on the dimension $d$ of the PDE. As a direct consequence of the complexity estimates, the solution of the PDE can be approximated on any bounded domain by a two-layer neural network with respect to the $H^1$ norm with a dimension-explicit convergence rate.
翻訳日:2021-06-15 15:28:50 公開日:2021-06-14
# 汎用ネットワーク上での分散最適化のための圧縮勾配追従法

Compressed Gradient Tracking for Decentralized Optimization Over General Directed Networks ( http://arxiv.org/abs/2106.07243v1 )

ライセンス: Link先を確認
Zhuoqing Song, Lei Shi, Shi Pu, Ming Yan(参考訳) 本稿では,汎用的なネットワークトポロジを持つマルチエージェントネットワーク上での分散最適化のための2つの通信効率アルゴリズムを提案する。 まず,Push-Pull法とPush-Pull法を組み合わせた,CPP(Compressed Push-Pull)と呼ばれる通信効率の高い勾配追跡手法を提案する。 その結果, cpp は非バイアス圧縮作用素の一般クラスに適用可能であり, 強凸および滑らかな対象関数に対して線形収束を実現する。 第2部では、目的関数の同じ条件下での線形収束率も達成するCPP(B-CPP)の放送様バージョンを提案する。 B-CPPは非同期ブロードキャスト設定に適用でき、CPPと比較して通信コストをさらに削減できる。 数値実験は理論解析を補完し,提案手法の有効性を確認する。

In this paper, we propose two communication-efficient algorithms for decentralized optimization over a multi-agent network with general directed network topology. In the first part, we consider a novel communication-efficient gradient tracking based method, termed Compressed Push-Pull (CPP), which combines the Push-Pull method with communication compression. We show that CPP is applicable to a general class of unbiased compression operators and achieves linear convergence for strongly convex and smooth objective functions. In the second part, we propose a broadcast-like version of CPP (B-CPP), which also achieves linear convergence rate under the same conditions for the objective functions. B-CPP can be applied in an asynchronous broadcast setting and further reduce communication costs compared to CPP. Numerical experiments complement the theoretical analysis and confirm the effectiveness of the proposed methods.
翻訳日:2021-06-15 15:28:05 公開日:2021-06-14
# 単純錯体の信号処理

Signal processing on simplicial complexes ( http://arxiv.org/abs/2106.07471v1 )

ライセンス: Link先を確認
Michael T. Schaub, Jean-Baptiste Seby, Florian Frantzen, T. Mitchell Roddenberry, Yu Zhu, Santiago Segarra(参考訳) これまで、高階ネットワークは、主に複雑なシステムの構造、すなわち構成体を接続する高階関係やマルチウェイ関係の研究の文脈において検討されてきた。 最近では、流行の広がりや意見形成といった文脈で、そのような高次依存関係を明示的にacカウントする動的過程を多くの研究が検討している。 本章では,高次ネットワーク構造をサポートする信号やデータを処理するために,高次関係をどのように利用できるか,という,密接に関連するが明確な第3の視点に焦点を当てる。 特に、時系列や画像といった正規ドメインでサポートされているデータの信号処理からのアイデアをグラフや簡素なコンプレックスに拡張する方法について調査する。 本稿では, ニューラルネットワークを用いたフーリエ解析, 信号復号化, 信号補間, 非線形処理について述べる。 我々の発展の鍵はホッジラプラシアン行列(hodge laplacian matrix)であり、単純複体の特殊構造を利用してグラフ信号処理においてラプラシアン行列の望ましい性質を一般化する多項作用素である。

Higher-order networks have so far been considered primarily in the context of studying the structure of complex systems, i.e., the higher-order or multi-way relations connecting the constituent entities. More recently, a number of studies have considered dynamical processes that explicitly ac- count for such higher-order dependencies, e.g., in the context of epidemic spreading processes or opinion formation. In this chapter, we focus on a closely related, but distinct third perspective: how can we use higher-order relationships to process signals and data supported on higher-order network structures. In particular, we survey how ideas from signal processing of data supported on regular domains, such as time series or images, can be extended to graphs and simplicial complexes. We discuss Fourier analysis, signal denois- ing, signal interpolation, and nonlinear processing through neural networks based on simplicial complexes. Key to our developments is the Hodge Laplacian matrix, a multi-relational operator that leverages the special structure of simplicial complexes and generalizes desirable properties of the Laplacian matrix in graph signal processing.
翻訳日:2021-06-15 15:27:52 公開日:2021-06-14