このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220201となっている論文です。

PDF登録状況(公開日: 20220201)

TitleAuthorsAbstract論文公表日・翻訳日
# AdS/qCFTのテンソルネットワークモデル

Tensor network models of AdS/qCFT ( http://arxiv.org/abs/2004.04173v4 )

ライセンス: Link先を確認
Alexander Jahn, Zolt\'an Zimbor\'as, Jens Eisert(参考訳) 共形場理論(CFT)による臨界量子多体系の研究は、現代の量子物理学の柱の1つである。 ある種のcftは反ド・ジッター/共形場理論(ads/cft)による高次元重力理論と双対であることが理解されている。 AdS/CFTの様々な特徴を再現するため、テンソルネットワークに基づく多数の離散モデルが提案されている。 ホログラフィック量子誤差補正のおもちゃモデルを含む最近のモデルのいくつかは、広告の正規時間スライス離散化に基づいて構築されている。 本稿では、これらのモデルの対称性が共形対称性の離散部分群を強制するので、cft状態の近似に適していることを示す。 これらの対称性に基づき、準周期共形場理論(qCFT)の概念を導入する。 ホログラフィック符号状態とその再正規化群フローを,分数中心電荷を持つqcftの具体的実装として議論し,その挙動が既存モデルと将来のモデルに一般化すると主張する。 CFT特性の近似以外にも、これらは離散ホログラフィーのパラダイムに属するものとして理解することができる。

The study of critical quantum many-body systems through conformal field theory (CFT) is one of the pillars of modern quantum physics. Certain CFTs are also understood to be dual to higher-dimensional theories of gravity via the anti-de Sitter/conformal field theory (AdS/CFT) correspondence. To reproduce various features of AdS/CFT, a large number of discrete models based on tensor networks have been proposed. Some recent models, most notably including toy models of holographic quantum error correction, are constructed on regular time-slice discretizations of AdS. In this work, we show that the symmetries of these models are well suited for approximating CFT states, as their geometry enforces a discrete subgroup of conformal symmetries. Based on these symmetries, we introduce the notion of a quasiperiodic conformal field theory (qCFT), a critical theory less restrictive than a full CFT and with characteristic multi-scale quasiperiodicity. We discuss holographic code states and their renormalization group flow as specific implementations of a qCFT with fractional central charges and argue that their behavior generalizes to a large class of existing and future models. Beyond approximating CFT properties, we show that these can be best understood as belonging to a paradigm of discrete holography.
翻訳日:2023-05-25 11:34:53 公開日:2022-02-01
# 臨界相互作用スピン鎖の固有状態絡み合いスケーリング

Eigenstate entanglement scaling for critical interacting spin chains ( http://arxiv.org/abs/2010.07265v3 )

ライセンス: Link先を確認
Qiang Miao and Thomas Barthel(参考訳) サブシステムのサイズとエネルギーの増大に伴い、エネルギー固有状態の二部結合エントロピーは基底状態のスケーリングから体積法則に渡る。 前報では, 強いあるいは弱い固有状態熱化(ETH)を適用すると, それぞれ, あるいは, ほぼすべての固有状態の絡み合いエントロピーが1つのクロスオーバー関数に従うことを指摘した。 クロスオーバー関数は、熱状態のサブシステムエントロピーによって決定され、量子臨界系における普遍スケーリング形式を仮定する。 これは場理論的な議論と非相互作用フェルミオンとボソンの大規模系の解析によって証明された。 ここでは、完全対角化を用いた臨界点における可積分および非可積分相互作用スピン1/2鎖のスケーリング特性を仮定する。 特に,次のアレスト近傍相互作用を伴わないXXZおよび横フィールドIsingモデルの解析を行った。 実際、熱サブシステムのエントロピーのクロスオーバーは共形場理論から従う普遍スケーリング関数によって記述できる。 さらに,これらのモデルにおける絡み合いに対するETHの有効性を分析する。 シミュレーション可能な比較的小さなシステムサイズであっても、固有状態の絡み合いエントロピーの分布は対応する熱アンサンブルのサブシステムエントロピーの周りに鋭くピークとなる。

With increasing subsystem size and energy, bipartite entanglement entropies of energy eigenstates cross over from the groundstate scaling to a volume law. In previous work, we pointed out that, when strong or weak eigenstate thermalization (ETH) applies, the entanglement entropies of all or, respectively, almost all eigenstates follow a single crossover function. The crossover functions are determined by the subsystem entropy of thermal states and assume universal scaling forms in quantum-critical regimes. This was demonstrated by field-theoretical arguments and the analysis of large systems of non-interacting fermions and bosons. Here, we substantiate such scaling properties for integrable and non-integrable interacting spin-1/2 chains at criticality using exact diagonalization. In particular, we analyze XXZ and transverse-field Ising models with and without next-nearest-neighbor interactions. Indeed, the crossover of thermal subsystem entropies can be described by a universal scaling function following from conformal field theory. Furthermore, we analyze the validity of ETH for entanglement in these models. Even for the relatively small system sizes that can be simulated, the distributions of eigenstate entanglement entropies are sharply peaked around the subsystem entropies of the corresponding thermal ensembles.
翻訳日:2023-04-29 02:34:54 公開日:2022-02-01
# 線形フィードバック制御による量子電池の充電

Charging a quantum battery with linear feedback control ( http://arxiv.org/abs/2012.00350v3 )

ライセンス: Link先を確認
Mark T. Mitchison, John Goold, and Javier Prior(参考訳) エネルギー貯蔵は多くの応用において基本的な物理過程である。 このタスクを量子スケールで考えるとき、記憶装置や電池へのエネルギー移動の非平衡ダイナミクスを最適化することが重要である。 本稿では,量子フィードバック制御手法を用いてこの問題に対処する。 具体的には、補助充電器による量子電池へのエネルギーの堆積について検討する。 後者は、出力信号が駆動磁場振幅に直線的にフィードバックされるホモダイン測定を受ける駆動散逸2レベルシステムである。 充電器の状態において、集団または量子コヒーレンスを安定化することを目的とした2つの異なる制御戦略を検討する。 いずれの場合も、線形フィードバックは環境騒音のランダム化の影響に対処し、安定かつ効果的な電池充電を可能にする。 現実的な制御精度の影響を分析し、この優れた性能が非効率な測定と小さなフィードバック遅延に耐えられることを示した。 本結果は,量子状態におけるエネルギー量の制御に対する連続的なフィードバックの可能性を強調した。

Energy storage is a basic physical process with many applications. When considering this task at the quantum scale, it becomes important to optimise the non-equilibrium dynamics of energy transfer to the storage device or battery. Here, we tackle this problem using the methods of quantum feedback control. Specifically, we study the deposition of energy into a quantum battery via an auxiliary charger. The latter is a driven-dissipative two-level system subjected to a homodyne measurement whose output signal is fed back linearly into the driving field amplitude. We explore two different control strategies, aiming to stabilise either populations or quantum coherences in the state of the charger. In both cases, linear feedback is shown to counteract the randomising influence of environmental noise and allow for stable and effective battery charging. We analyse the effect of realistic control imprecisions, demonstrating that this good performance survives inefficient measurements and small feedback delays. Our results highlight the potential of continuous feedback for the control of energetic quantities in the quantum regime.
翻訳日:2023-04-22 12:18:44 公開日:2022-02-01
# 低エネルギー中性子による基本量子力学と暗黒相互作用の実験 --拡張版

Tests of Fundamental Quantum Mechanics and Dark Interactions with Low Energy Neutrons -- Extended Version ( http://arxiv.org/abs/2012.09048v2 )

ライセンス: Link先を確認
Stephan Sponar, Rene I.P. Sedmik, Mario Pitschmann, Hartmut Abele, Yuji Hasegawa(参考訳) 既知の粒子のうち、中性子は4つの基本的な力と幅広い仮説上の相互作用の実験的なアクセスを提供するため、特別な位置を取る。 不安定であるにもかかわらず、自由中性子は、低エネルギースケールを示すインターフェロメトリー、分光、散乱実験において、試験粒子として使われるほど長寿命である。 1970年代に既に認識されていたように、量子力学の基本概念はシリコン完全結晶を用いた中性子干渉法でテストできる。 不確実性、ベルの不等式、および同様に、中性子は、拡張された物質波関数に作用する重力や仮説上の暗力の影響を観測する機会を提供する。 このようなテストは、宇宙論の理解における不整合の発見や、量子力学と一般相対性理論の非互換性に照らして重要である。 そのため、低エネルギー中性子を用いた実験は基礎物理学の探究に不可欠であり、衝突体への補完的なアプローチを表している。 本稿では、この低エネルギー物理学のフロンティアで用いられる歴史と実験手法について論じ、量子力学的関係とダークエネルギー相互作用の境界と限界を収集する。

Among the known particles, the neutron takes a special position, as it provides experimental access to all four fundamental forces and a wide range of hypothetical interactions. Despite being unstable, free neutrons live long enough to be used as test particles in interferometric, spectroscopic, and scattering experiments probing low-energy scales. As was already recognized in the 1970s, fundamental concepts of quantum mechanics can be tested in neutron interferometry using silicon perfect-single-crystals. Besides allowing for tests of uncertainty relations, Bell inequalities and alike, neutrons offer the opportunity to observe the effects of gravity and hypothetical dark forces acting on extended matter wave functions. Such tests gain importance in the light of recent discoveries of inconsistencies in our understanding of cosmology as well as the incompatibility between quantum mechanics and general relativity. Experiments with low-energy neutrons are thus indispensable tools for probing fundamental physics and represent a complementary approach to colliders. In this review we discuss the history and experimental methods used at this low-energy frontier of physics and collect bounds and limits on quantum mechanical relations and dark energy interactions.
翻訳日:2023-04-20 11:13:02 公開日:2022-02-01
# SPDC: 近距離域外における横絡みのパラメータについて

SPDC: once again on the parameters of transverse entanglement outside the near zone ( http://arxiv.org/abs/2103.00143v2 )

ライセンス: Link先を確認
M.V. Fedorov, S.S. Mernova, K.V. Sliporod(参考訳) 既知のように、光子波ベクトル(モメンタ)または座標の逆成分に対する双光子の状態の絡み合いの度合いは、シュミット分解に付随するパラメータK、あるいは、二光子の状態の無条件および条件付き単一粒子分布の幅の比として定義されるパラメータRによって特徴づけることができる。 絡み合いは状態の基本的な性質であるため、異なる表現の選択から独立していなければならない、すなわち、その絡み合いパラメータは座標と運動量表現で同一でなければならない。 同様に、絡み合い自体とその特性パラメータは光子伝播長に沿って一定でなければならない。 しかしながら、パラメータ k のみがこれらの要件に従うことは知られているが、座標表現のパラメータ r は、k から近辺のゾーンを超えて逸脱し、したがって、表の度合いの尺度として適用できない。 しかし、下記のように、修正されたパラメータ R が運動量と座標表現の両方においてパラメータ K と同程度に良いことが分かるように、その定義を修正してパラメータ R を保存する方法がある。 新たに定義されたパラメータRを実験的に測定する方法についても論じる。

As known, the degree of entanglement of biphoton states with respect to the transverse components of photon wave vectors (momenta) or coordinates can be characterized either by the parameter K associated with the Schmidt decompositions, or by the parameter R, defined as the ratio of the widths of the unconditional and conditional single-particle distributions of biphoton states. As entanglement is a fundamental characteristics of a state, it must be independent of a choice of its different representations, i.e. its entanglement parameters must be identical in the coordinate and momentum representations. Likewise, entanglement itself and its characterization parameters must remain constant along the photon propagation length. It's known, however, that only the parameter K obeys these requirements, whereas the parameter R in the coordinate representation deviates from K beyond the near zone and, thus, becomes inapplicable as a measure of the degree of entablement. But, as shown below, there is a way of saving the parameter R by means of modifying its definition in such a way that the modified parameter R turns out to be as good as the parameter K both in the momentum and coordinate representations, as well as in the near and far zones and everywhere between them. We will discuss also possible ways of measuring this newly defined parameter R experimentally.
翻訳日:2023-04-09 18:31:22 公開日:2022-02-01
# 高速断熱電荷移動を用いたマヨラナ非アベリア特性の実証

Demonstrating Majorana non-Abelian properties using fast adiabatic charge-transfer ( http://arxiv.org/abs/2107.11833v3 )

ライセンス: Link先を確認
Svend Kr{\o}jer, Rub\'en Seoane Souto and Karsten Flensberg(参考訳) マヨラナ非アベリア特性の実証は、トポロジカル超伝導の分野における大きな課題である。 本研究では,量子ドットと2つのマヨラナ境界状態間の電荷移動操作と,第2のドットを用いたパリティ状態の読み出しを組み合わせた非アベリア特性の最小限のデバイスとプロトコルを提案する。 断熱摂動理論を用いて,高速な断熱パスを見つけ,演算を行い,断熱エラーを考慮させる。 パラメータ空間における理想的なパラメータスイープと、定数速度駆動に対する電荷移動操作時間1〜2桁を小さくする領域を求める。 現実的なパラメータを用いて、時間スケールにおける下限を$\sim10$ nsに減らすことができると推定する。 理想的なパラメータからの逸脱は、望ましくない動的位相の蓄積につながり、提案プロトコルの結果に影響を与える。 さらに,フラックスエコーを用いた動的位相の影響を低減することを提案する。 echoプロトコルは位相状態の4ドルの周期性に基づいており、自明な境界状態が存在しない。

Demonstration of Majorana non-Abelian properties is a major challenge in the field of topological superconductivity. In this work, we propose a minimal device and protocol for testing non-Abelian properties using charge-transfer operations between a quantum dot and two Majorana bound states combined with reading the parity state using a second dot. We use an adiabatic perturbation theory to find fast adiabatic paths to perform operations and to account for nonadiabatic errors. We find the ideal parameter sweep and a region in parameter space which reduces the charge-transfer operation time 1-2 orders of magnitude with respect to constant velocity driving. Using realistic parameters, we estimate that the lower bound for the time scale can be reduced to $\sim10$ ns. Deviations from the ideal parameters lead to the accumulation of an undesired dynamical phase, affecting the outcome of the proposed protocol. We furthermore suggest to reduce the influence from the dynamical phase using a flux echo. The echo protocol is based on the $4\pi$-periodicity of the topological state, absent for trivial bound states.
翻訳日:2023-03-20 23:26:45 公開日:2022-02-01
# ボース・アインシュタイン凝縮体におけるトンクス・ジラルドーガスの自己ピンニング遷移

Self-Pinning Transition of a Tonks-Girardeau Gas in a Bose-Einstein Condensate ( http://arxiv.org/abs/2109.01500v2 )

ライセンス: Link先を確認
Tim Keller, Thom\'as Fogarty, Thomas Busch(参考訳) ボース・アインシュタイン凝縮物に浸漬したトンクス・ギラルドー(tg)ガスは、外部に格子ポテンシャルを課すことなく、原子間に規則的な間隔を持つ結晶状モット状態へと遷移する。 この相転移を, tgガスの種間相互作用と温度の関数として特徴づけ, 寒冷原子実験で観測可能な観測器を用いて測定する方法を示す。 また,ピン止め絶縁体状態のシステムを正確に記述し,遷移の臨界温度を導出する効果的なモデルを開発した。

We show that a Tonks-Girardeau (TG) gas that is immersed in a Bose-Einstein condensate can undergo a transition to a crystal-like Mott state with regular spacing between the atoms without any externally imposed lattice potential. We characterize this phase transition as a function of the interspecies interaction and temperature of the TG gas, and show how it can be measured via accessible observables in cold atom experiments. We also develop an effective model that accurately describes the system in the pinned insulator state and which allows us to derive the critical temperature of the transition.
翻訳日:2023-03-16 08:27:00 公開日:2022-02-01
# 捕捉イオンの輸送可能な絡み込みゲート

Transport-enabled entangling gate for trapped ions ( http://arxiv.org/abs/2109.03865v2 )

ライセンス: Link先を確認
Holly N. Tinkey, Craig R. Clark, Brian C. Sawyer, Kenton R. Brown(参考訳) 我々は、表面電極ポールトラップ内の静止二色光学ビームを介して、2つの共輸送された$^{40}\mathrm{Ca}^{+}$イオンを輸送することにより、2量子エンタングリングM{\o}lmer-S{\o}レンセン相互作用を実装した。 移動閉じ込め電位の微細な時間的調整を用いた輸送中におけるドップラーシフトの一定を達成する手順について述べる。 レーザービームを介して輸送されるイオンと、動的に変化するアクスタークシフトの固定相互作用期間は、静止ゲートに使用される校正手順の変更を必要とする。 この相互作用を利用して、同じシステムで実行される固定ゲートと相同なフィディティーを持つベル状態を生成する。 この結果、量子情報絡み込み操作にイオン輸送を積極的に組み込むことが可能となる。

We implement a two-qubit entangling M{\o}lmer-S{\o}rensen interaction by transporting two co-trapped $^{40}\mathrm{Ca}^{+}$ ions through a stationary, bichromatic optical beam within a surface-electrode Paul trap. We describe a procedure for achieving a constant Doppler shift during the transport which uses fine temporal adjustment of the moving confinement potential. The fixed interaction duration of the ions transported through the laser beam as well as the dynamically changing ac Stark shift require alterations to the calibration procedures used for a stationary gate. We use the interaction to produce Bell states with fidelities commensurate to those of stationary gates performed in the same system. This result establishes the feasibility of actively incorporating ion transport into quantum information entangling operations.
翻訳日:2023-03-15 20:14:48 公開日:2022-02-01
# 光学系における励起光とフォック状態の交差ケラー相互作用を用いたゴッテマン・キタエフ・プレスキル量子ビットの生成

Generating Gottesman-Kitaev-Preskill qubit using a cross-Kerr interaction between a squeezed light and Fock states in optics ( http://arxiv.org/abs/2109.04801v2 )

ライセンス: Link先を確認
Kosuke Fukui, Mamoru Endo, Warit Asavanant, Atsushi Sakaguchi, Jun-ichi Yoshikawa, Akira Furusawa(参考訳) Gottesman-Kitaev-Preskill (GKP) qubitは、耐雑音性とスケーラビリティの利点から、光連続変数におけるフォールトトレラント量子計算(FTQC)の有望な要素である。 しかし、光学的GKP量子ビットの作成における主な問題は、非線形性を得るのが難しいことである。 クロスカー相互作用はこの非線形性の有望な候補の1つである。 FTQC用の光GKP量子ビットを生成するためにクロスケラー相互作用を使用する方法は存在しない。 本研究では, 圧縮光とフォック状態の重畳との交差ケラー相互作用を用いたGKP量子ビットの生成法を提案する。 10dbのgkp量子ビットは、それぞれ2.7と4.8%の確率で平均99.99と99.9%で生成可能であることを数値的に示す。 そこで本手法では,光gkp量子ビットをftqcに必要な品質で生成する可能性を秘めている。

Gottesman-Kitaev-Preskill (GKP) qubit is a promising ingredient for fault-tolerant quantum computation (FTQC) in optical continuous variables due to its advantage of noise tolerance and scalability. However, one of the main problems in the preparation of the optical GKP qubit is the difficulty in obtaining the nonlinearity. Cross-Kerr interaction is one of the promising candidates for this nonlinearity. There is no existing scheme to use the cross-Kerr interaction to generate the optical GKP qubit for FTQC. In this work, we propose a generation method of the GKP qubit by using a cross-Kerr interaction between a squeezed light and a superposition of Fock states. We numerically show that the GKP qubit with the 10 dB can be generated with a mean fidelities of 99.99 and 99.9% at the success probabilities of 2.7 and 4.8%, respectively. Therefore, our method has potential method to generate the optical GKP qubit with a quality required for FTQC when we obtain the sufficient technologies for the preparation of ancillary Fock states and a cross-Kerr interaction.
翻訳日:2023-03-15 11:47:34 公開日:2022-02-01
# トレースノルムにおけるbirkhoff-james直交性と量子資源理論への応用

Birkhoff-James Orthogonality in the Trace Norm, with Applications to Quantum Resource Theories ( http://arxiv.org/abs/2109.05552v2 )

ライセンス: Link先を確認
Nathaniel Johnston, Shirin Moein, Rajesh Pereira, and Sarah Plosker(参考訳) 複素エルミート行列が birkhoff-james orthogonal であるときに、トレースノルムにおいて、(エルミート的)正の半定義行列または正の半定義行列の集合に特徴づける多くの結果を生み出す。 例えば、トレースノルムにおいて、どのエルミート行列がバーホフ=ジェームズ直交であるかを、すべての正の半定値対角行列の集合に決定する単純な検証基準を開発する。 次に、量子資源理論における我々の研究の応用を探求する。 例えば、どの量子状態がコヒーレンスのトレース距離を 1 に修正したか(最大可能な値)を正確に特徴づけ、修正された2-エンタングルメントのトレース距離とNPPT境界エンタングルメント問題との接続を確立する。

We develop numerous results that characterize when a complex Hermitian matrix is Birkhoff-James orthogonal, in the trace norm, to a (Hermitian) positive semidefinite matrix or set of positive semidefinite matrices. For example, we develop a simple-to-test criterion that determines which Hermitian matrices are Birkhoff-James orthogonal, in the trace norm, to the set of all positive semidefinite diagonal matrices. We then explore applications of our work in the theory of quantum resources. For example, we characterize exactly which quantum states have modified trace distance of coherence equal to 1 (the maximal possible value), and we establish a connection between the modified trace distance of 2-entanglement and the NPPT bound entanglement problem.
翻訳日:2023-03-15 07:16:36 公開日:2022-02-01
# 変動型dirac-coulombによる原子と分子の相関計算

Variational Dirac-Coulomb explicitly correlated computations for atoms and molecules ( http://arxiv.org/abs/2110.06638v4 )

ライセンス: Link先を確認
P\'eter Jeszenszki, D\'avid Ferenc, Edit M\'atyus(参考訳) 正エネルギー射影を持つディラック・クーロン方程式は、明示的に相関したガウス関数を用いて解く。 アルゴリズムと計算手順は、高分解能原子及び分子分光法と関連したさらなる比較とさらなる発展のための出発点を提供するために、エネルギーの数十億分単位の収束を目標としている。 基本スピノル構造、置換および点群対称性の実装に関する詳細な議論に加えて、正エネルギー射影手順の様々な選択肢が提示されている。 無対のディラック・クーロンエネルギーは、核電荷数が小さい原子系や分子系の摂動結果と比較される。 次の論文 [paper ii: d. ferenc, p. jeszenszki, e. m\'atyus (2022)] では、このフレームワークにおけるbreitインタラクションの実装について説明している。

The Dirac-Coulomb equation with positive-energy projection is solved using explicitly correlated Gaussian functions. The algorithm and computational procedure aims for a parts-per-billion convergence of the energy to provide a starting point for further comparison and further developments in relation with high-resolution atomic and molecular spectroscopy. Besides a detailed discussion of the implementation of the fundamental spinor structure, permutation and point-group symmetries, various options for the positive-energy projection procedure are presented. The no-pair Dirac-Coulomb energy converged to a parts-per-billion precision is compared with perturbative results for atomic and molecular systems with small nuclear charge numbers. The subsequent paper [Paper II: D. Ferenc, P. Jeszenszki, and E. M\'atyus (2022)] describes the implementation of the Breit interaction in this framework.
翻訳日:2023-03-11 14:52:00 公開日:2022-02-01
# A単位演算と量子条件エントロピー

A-unital Operations and Quantum Conditional Entropy ( http://arxiv.org/abs/2110.12527v3 )

ライセンス: Link先を確認
Mahathi Vempati, Saumya Shah, Nirman Ganguly, Indranil Chakrabarty(参考訳) 負の量子条件エントロピー状態は、超密度符号化、状態マージ、一方方向エンタングルメント蒸留のような情報理論上のタスクの鍵となる要素である。 この研究では、チャネルが負の条件エントロピー状態を作成するのに役立つかどうかをどうやって検出するのか? 我々は、条件付きエントロピー非減少チャネルの最大クラスであるa単位チャネルのクラスを導入することで、この質問に答える。 また、a-ユニタリチャネルは、非負条件エントロピーを持つ状態のクラスに対する完全自由操作であることも証明する。 さらに, エンタングルメントの資源理論に関連するA-ユニタリチャネルと他のチャネルのクラスとの関係について検討した。 次に、前述した関連する状態のクラスであるACVENNの同様の結果を証明し、状態の最大および最小条件エントロピーとフォン・ノイマンエントロピーを関連付ける。 A-ユニタリチャネルの定義は、自然に、このクラスのチャネルのメンバシップを決定する手順に結びつく。 したがって,条件付きエントロピーの文脈における資源チャネルの検出には,我々の研究が有用である。

Negative quantum conditional entropy states are key ingredients for information theoretic tasks such as superdense coding, state merging and one-way entanglement distillation. In this work, we ask: how does one detect if a channel is useful in preparing negative conditional entropy states? We answer this question by introducing the class of A-unital channels, which we show are the largest class of conditional entropy non-decreasing channels. We also prove that A-unital channels are precisely the completely free operations for the class of states with non-negative conditional entropy. Furthermore, we study the relationship between A-unital channels and other classes of channels pertinent to the resource theory of entanglement. We then prove similar results for ACVENN: a previously defined, relevant class of states and also relate the maximum and minimum conditional entropy of a state with its von Neumann entropy. The definition of A-unital channels naturally lends itself to a procedure for determining membership of channels in this class. Thus, our work is valuable for the detection of resourceful channels in the context of conditional entropy.
翻訳日:2023-03-10 11:30:24 公開日:2022-02-01
# srのマジック波長(5s^2\;^1\! s_0$-$5s5p\;^3\!p_1$) 5s5p\;^3\!p_1$-$5p^2\;^3\! P_2$遷移

Magic wavelengths of the Sr ($5s^2\;^1\!S_0$--$5s5p\;^3\!P_1$) intercombination transition near the $5s5p\;^3\!P_1$--$5p^2\;^3\!P_2$ transition ( http://arxiv.org/abs/2111.04812v2 )

ライセンス: Link先を確認
Grady Kestler, Khang Ton, Dmytro Filin, Marianna S. Safronova, Julio T. Barreiro(参考訳) 魔法の波長を正確に予測するには、近くの原子遷移の電気双極子行列要素の正確な知識が必要である。 その結果、魔法の波長の測定により、他の方法では探索できない行列要素の理論的予測をテストすることができる。 ここでは、魔法の波長を5ドル^2\,^1\! S_0 - 5s5p\,^3\! p_1$ {}^{88}$sr の相互結合遷移。 実験的には、$\delta m=0$ (\pi$ transition) で 473.361(4)$ nm 、$\delta m=-1$ (\sigma^{-}$ transition) で 473.133(14)$ nm である。 理論計算では、それぞれ 473.375(22)$~nm と 473.145(20)$ nm となる。 お値段は$^3\! p_1$ 偏極性は 5p^2\, ^3\! P$レベルと理論と実験の優れた一致は、これらの行列要素の理論値とそれらの不確実性の推定の両方を検証する。

Predicting magic wavelengths accurately requires precise knowledge of electric-dipole matrix elements of nearby atomic transitions. As a result, measurements of magic wavelengths allow us to test theoretical predictions for the matrix elements that frequently can not be probed by any other methods. Here, we calculate and measure a magic wavelength near $473$ nm of the $5s^2\,^1\!S_0 - 5s5p\,^3\!P_1$ intercombination transition of ${}^{88}$Sr. Experimentally, we find $473.361(4)$ nm for $\Delta m=0$ ($\pi$ transition) and $473.133(14)$ nm for $\Delta m=-1$ ($\sigma^{-}$ transition). Theoretical calculations yield $473.375(22)$~nm and $473.145(20)$ nm, respectively. The $^3\!P_1$ polarizability is dominated by the contributions to the $5p^2\, ^3\!P$ levels and excellent agreement of theory and experiment validates both theoretical values of these matrix elements and estimates of their uncertainties.
翻訳日:2023-03-08 20:05:56 公開日:2022-02-01
# Hartree-Fock-Bogoliubov波動関数の行列積状態

Matrix product states for Hartree-Fock-Bogoliubov wave functions ( http://arxiv.org/abs/2111.09101v2 )

ライセンス: Link先を確認
Hui-Ke Jin, Rong-Yang Sun, Yi Zhou, Hong-Hao Tu(参考訳) 本稿では,Hartree-Fock-Bogoliubov波動関数を行列積状態(MPS)に変換するための効率的かつ正確な方法を提案する。 これらの波動関数はBogoliubov vacuaとしても知られ、密度行列の固有ベクトルもBogoliubov vacuaである特別な絡み合い構造を示す。 我々は、この重要な特徴を利用して、最適なMPS近似を求め、対応するMPS行列の明示的な公式を導出する。 本手法の性能は,ハニカム格子上でのKitaev鎖とMajorana-Hubbardモデルでベンチマークした。 この手法はHartree-Fock-Bogoliubov波動関数の応用を容易にし、密度行列再正規化法と組み合わせるのに最適である。

We provide an efficient and accurate method for converting Hartree-Fock-Bogoliubov wave functions into matrix product states (MPSs). These wave functions, also known as Bogoliubov vacua, exhibit a peculiar entanglement structure that the eigenvectors of the reduced density matrix are also Bogoliubov vacua. We exploit this important feature to obtain their optimal MPS approximation and derive an explicit formula for corresponding MPS matrices. The performance of our method is benchmarked with the Kitaev chain and the Majorana-Hubbard model on the honeycomb lattice. The approach facilitates the applications of Hartree-Fock-Bogoliubov wave functions and is ideally suited for combining with the density-matrix renormalization group method.
翻訳日:2023-03-07 21:45:41 公開日:2022-02-01
# マルコフ連鎖モンテカルロ拡張変分量子アルゴリズム

Markov Chain Monte-Carlo Enhanced Variational Quantum Algorithms ( http://arxiv.org/abs/2112.02190v2 )

ライセンス: Link先を確認
Taylor L. Patti, Omar Shehab, Khadijeh Najafi, Susanne F. Yelin(参考訳) 変分量子アルゴリズムは、古典的コンビネータ論、量子化学、凝縮物質など、高次元最適化に大きな影響を与えると考えられている。 しかしながら、これらのアルゴリズムの最適化の状況は概して非凸であり、大域的ではなく局所的収束による非最適解を引き起こす。 本研究では,古典マルコフ連鎖モンテカルロ法による変分量子アルゴリズムを導入し,大域的最小値に確実に収束する。 これらの性能ガウランティーは、我々のアルゴリズムの状態空間のエルゴード性から派生し、解析的境界をその時間複雑度に設定することができる。 本手法の有効性と,MaxCutインスタンスの量子回路シミュレーションによる解析の有効性を両立させ,これらの問題を決定論的かつ完全精度で解く。 我々の手法は、変分量子アルゴリズムの分野を広く豊かにし、これらの有望だがしばしばヒューリスティックな手法の性能を改善し、保証することにある。

Variational quantum algorithms are poised to have significant impact on high-dimensional optimization, with applications in classical combinatorics, quantum chemistry, and condensed matter. Nevertheless, the optimization landscape of these algorithms is generally nonconvex, causing suboptimal solutions due to convergence to local, rather than global, minima. In this work, we introduce a variational quantum algorithm that uses classical Markov chain Monte Carlo techniques to provably converge to global minima. These performance gaurantees are derived from the ergodicity of our algorithm's state space and enable us to place analytic bounds on its time-complexity. We demonstrate both the effectiveness of our technique and the validity of our analysis through quantum circuit simulations for MaxCut instances, solving these problems deterministically and with perfect accuracy. Our technique stands to broadly enrich the field of variational quantum algorithms, improving and gauranteeing the performance of these promising, yet often heuristic, methods.
翻訳日:2023-03-05 23:47:59 公開日:2022-02-01
# 量子コンピュータ上でのディジタル符号化マルチグリッドアルゴリズムの実装

Implementation of a digitally encoded multigrid algorithm on a quantum computer ( http://arxiv.org/abs/2201.04513v2 )

ライセンス: Link先を確認
Peter Jaksch(参考訳) マルチグリッドは、計算流体力学(CFD)など、現実の最も困難な計算問題を解くための一般的な方法となっている。 この理由は、問題の大きさに関してしばしば線型あるいは線形に近い多重グリッドの非常に優れたスケーリング特性である。 本稿では,マルチグリッドアルゴリズムの量子バージョンの実装に用いる手法を提案する。 この方法は計算全体を通して同じ重ね合わせで維持される量子状態に依存しており、古典的なコンピュータに近い方法で情報を量子ビットにデジタル的に符号化する。 これは、重畳中の量子状態の振幅に情報を符号化する既存の多くの量子アルゴリズムとは異なる。 この手法の核心は、重ね合わせ中の状態間で情報を共有するアルゴリズムである。 指数速度アップは、解ベクトルを効率的に圧縮することができ、量子コンパイラが量子回路の深さを効率的に低減できる問題のクラスに与えられる。

Multigrid has become a popular method for solving some of the most challenging real-world computational problems, such as computational fluid dynamics (CFD). The reason for this is the very good scaling properties of multigrid, which is often linear, or close to linear, with respect to problem size. In this paper a method is presented, which can be used to implement a quantum version of the multigrid algorithm. The method relies upon a quantum state that is maintained in a equal superposition throughout the calculation, and where information is encoded digitally in the qubits in a way more similar to a classical computer. This differs from many existing quantum algorithms where information is encoded in the amplitudes of the quantum states in the superposition. At the core of the method is an algorithm for sharing information between the states in the superposition. An exponential speedup is provided for classes of problems where the solution vector can be compressed efficiently, and where a quantum compiler can reduce the quantum circuit depth efficiently.
翻訳日:2023-03-01 08:48:47 公開日:2022-02-01
# facebookのヘルス広告:プライバシーとポリシーの考察

Health Advertising on Facebook: Privacy & Policy Considerations ( http://arxiv.org/abs/2201.07263v3 )

ライセンス: Link先を確認
Andrea Downing, Eric Perakslis(参考訳) 本研究では,デジタル医療企業のコンテンツやマーケティング戦略を分析し,利用者から健康情報を抽出するための各種クロスサイト追跡ミドルウェアを無許可で評価した。 具体的には、広告やリードジェネレーションのために、デジタル医療企業とFacebookの間でブラウジングデータを交換する方法を検討する。 分析は、ソーシャルメディアに頻繁に関わるがんコミュニティ内の患者にサービスを提供する企業の小さなエコシステムに焦点を当てていた。 コンテンツ分析のいくつかの企業は、連邦取引委員会(Federal Trade Commission)がカバーする個人健康記録ベンダーの法的定義に適合するかもしれない。 この分析の結果は、連邦取引委員会(Federal Trade Commission)のHealth Breach Notification Rule(健康漂白通知規則)の違反を構成するものに関する政策上の問題を引き起こす。 いくつか例は、一貫性のないプライバシープラクティスに関する深刻な問題を示し、デジタル医療のダークパターンが、広告を提供する患者や企業から不正なデータを引き出す方法を明らかにしている。 さらに、これらの一般的なマーケティングプラクティスが、脆弱な患者集団に対する医療広告の監視とターゲティングをいかに可能にするかについて議論する。

In this study we analyzed content and marketing tactics of digital medicine companies to evaluate various types of cross site tracking middleware used to extract health information from users without permission. More specifically we examine how browsing data can be exchanged between digital medicine companies and Facebook for advertising and lead generation purposes. The analysis was focused on a small ecosystem of companies offering services to patients within the cancer community that frequently engage on social media. Some companies in our content analysis may fit the legal definition of a personal health record vendor covered by the Federal Trade Commission, others are HIPAA covered entities. The findings of our analysis raise policy questions about what constitutes a breach under the Federal trade Commission's Health Breach Notification Rule. Several examples demonstrate serious problems with inconsistent privacy practices and reveal how digital medicine dark patterns may elicit unauthorized data from patients and companies serving ads. Further we discuss how these common marketing practices enable surveillance and targeting of medical ads to vulnerable patient populations, which may not be apparent to the companies targeting ads.
翻訳日:2023-02-28 20:31:48 公開日:2022-02-01
# 絡み合い理論における試行パターン

A triality pattern in entanglement theory ( http://arxiv.org/abs/2201.11083v2 )

ライセンス: Link先を確認
Daniel Cariello(参考訳) 本研究では, 部分転置状態の正, 正係数の状態の対称, 再定義状態の不変の3種類の量子状態間の新たな接続を示す。 まず,スペクトル半径の共通上限とフィルタ正規形上の結果を得る。 そして、それらの階数に対する下限の存在と、この境界が達成されたとき、状態は分離可能であることを証明する。 これらの関係は、これらのタイプの1つの証明された結果に対して、他の2つと相反するものが存在するというパターンに新たな証拠を与える。

In this work, we present new connections between three types of quantum states: positive under partial transpose states, symmetric with positive coefficients states and invariant under realignment states. First, we obtain a common upper bound for their spectral radii and a result on their filter normal forms. Then we prove the existence of a lower bound for their ranks and the fact that whenever this bound is attained the states are separable. These connections add new evidence to the pattern that for every proven result for one of these types, there are counterparts for the other two, which is a potential source of information for entanglement theory.
翻訳日:2023-02-27 20:16:05 公開日:2022-02-01
# 4ビット状態の分類

Classification of four-rebit states ( http://arxiv.org/abs/2201.11777v2 )

ライセンス: Link先を確認
Heiko Dietrich, Willem A. de Graaf, Alessio Marrani, Marcos Origlia(参考訳) 4つの再ビットの状態を分類する、すなわち、$(\mathbb r^2)^{\otimes 4}$ の空間において、群 $\widehat{g}(\mathbb r) = \mathrm{\mathop{sl}}(2,\mathbb r)^4$ の軌道を分類する。 これは量子情報理論におけるよく知られたSLOCC演算の真のアナログである。 $\widehat{G}(\mathbb R)$-module $(\mathbb R^2)^{\otimes 4}$を$\mathbb Z/2\mathbb Z$-grading of the simple split real Lie algebra of type $D_4$ で構成することにより、軌道は半単純、零、混合の3つの群に分けられる。 零軌道はDietrich et al. (2017)に分類され、理論物理学($\mathcal{N}=2, D=4$超重力のSTUモデルにおける極大ブラックホール、Ruggeri and Trigiante (2017)を参照)に応用されている。 ここでは、最近開発されたガロアコホモロジーに基づく手法で分類した半単純かつ混合軌道に焦点を当てる(Borovoi et al. (2021))。 これらの軌道は、STUモデルにおける非極端(または極端過剰回転)と2中心極端ブラックホール解の分類に関係している。

We classify states of four rebits, that is, we classify the orbits of the group $\widehat{G}(\mathbb R) = \mathrm{\mathop{SL}}(2,\mathbb R)^4$ in the space $(\mathbb R^2)^{\otimes 4}$. This is the real analogon of the well-known SLOCC operations in quantum information theory. By constructing the $\widehat{G}(\mathbb R)$-module $(\mathbb R^2)^{\otimes 4}$ via a $\mathbb Z/2\mathbb Z$-grading of the simple split real Lie algebra of type $D_4$, the orbits are divided into three groups: semisimple, nilpotent and mixed. The nilpotent orbits have been classified in Dietrich et al. (2017), yielding applications in theoretical physics (extremal black holes in the STU model of $\mathcal{N}=2, D=4$ supergravity, see Ruggeri and Trigiante (2017)). Here we focus on the semisimple and mixed orbits which we classify with recently developed methods based on Galois cohomology, see Borovoi et al. (2021). These orbits are relevant to the classification of non-extremal (or extremal over-rotating) and two-center extremal black hole solutions in the STU model.
翻訳日:2023-02-27 18:00:42 公開日:2022-02-01
# 量子制御最適化によるリコメンダシステム

Recommender System Expedited Quantum Control Optimization ( http://arxiv.org/abs/2201.12550v2 )

ライセンス: Link先を確認
Priya Batra, M. Harshanth Ram, T. S. Mahesh(参考訳) 量子制御最適化アルゴリズムは、最適な量子ゲートや効率的な量子状態転送を生成するために日常的に使用される。 しかし、効率的な最適化アルゴリズムの設計には、局所最適に対する感度を克服し、計算速度を向上する2つの大きな課題がある。 従来の課題は、勾配法とシミュレートされたアニール法の組み合わせのようなハイブリッドアルゴリズムを設計することで対処できる。 本稿では,計算効率向上のための後者の課題に対処するために,機械学習手法,特にレコメンダシステム(rs)を提案する。 まず、勾配やゲート忠実度を含む評価行列を設定する方法について述べる。 次に、RSがスパース評価行列の要素を迅速かつ正確に予測できることを確かめる。 このアプローチを用いることで、GRAPEと呼ばれる勾配上昇に基づく量子制御最適化を高速化し、最大8量子ビットでの高速な性能を示す。 最後に,ハイブリッドアルゴリズムであるSAGRAPEの計算速度の向上について述べる。

Quantum control optimization algorithms are routinely used to generate optimal quantum gates or efficient quantum state transfers. However, there are two main challenges in designing efficient optimization algorithms, namely overcoming the sensitivity to local optima and improving the computational speed. The former challenge can be dealt with by designing hybrid algorithms, such as a combination of gradient and simulated annealing methods. Here, we propose and demonstrate the use of a machine learning method, specifically the recommender system (RS), to deal with the latter challenge of enhancing computational efficiency. We first describe ways to set up a rating matrix involving gradients or gate fidelities. We then establish that RS can rapidly and accurately predict elements of a sparse rating matrix. Using this approach, we expedite a gradient ascent based quantum control optimization, namely GRAPE and demonstrate the faster performance for up to 8 qubits. Finally, we describe and implement the enhancement of the computational speed of a hybrid algorithm, namely SAGRAPE.
翻訳日:2023-02-27 09:00:47 公開日:2022-02-01
# ランダムバイローカライズ回路における測定誘起エンタングルメント相転移

Measurement-Induced Entanglement Phase Transition in Random Bilocal Circuits ( http://arxiv.org/abs/2201.12704v2 )

ライセンス: Link先を確認
Xuyang Yu and Xiao-Liang Qi(参考訳) 近年, 絡み合うユニタリダイナミクスと非絡み合う射影測定の競合によって引き起こされる測定誘起絡み合い相転移が, 様々なランダム回路モデルで研究されている。 本稿では、全対全ランダム相互作用および測定値を持つ単純なn$-qudit brownian回路モデルにおける平均純度ダイナミクスについて検討する。 大きな$N$の極限では、我々のモデルは半古典的極限の1次元量子連鎖にマッピングされるので、モデルの重要な挙動や様々な性質を解析的に研究することができる。 本研究では,システム全体のエントロピーの挙動を長期にわたって区別する2つの相が存在することを示す。 さらに、2つの相は異なるサブシステムエントロピー挙動を持つ。 低測定速度位相は、ランダム状態の「ページ曲線」と同様に、第2レニーエントロピー対サブシステムサイズにおける挙動における第1導出的不連続性を有し、他方相は滑らかなエントロピー曲線を有する。

Measurement-induced entanglement phase transitions, caused by the competition between entangling unitary dynamics and disentangling projective measurements, have been studied in various random circuit models in recent years. In this paper, we study the dynamics of averaged purity for a simple $N$-qudit Brownian circuit model with all-to-all random interaction and measurements. In the large-$N$ limit, our model is mapped to a one-dimensional quantum chain in the semi-classical limit, which allows us to analytically study critical behaviors and various other properties of the model. We show that there are two phases distinguished by the behavior of the total system entropy in the long time. In addition, the two phases also have distinct subsystem entropy behavior. The low measurement rate phase has a first-derivative discontinuity in the behavior of second Renyi entropy versus subsystem size, similar to the "Page curve" of a random state, while the other phase has a smooth entropy curve.
翻訳日:2023-02-27 07:18:54 公開日:2022-02-01
# 合成スピン軌道場におけるシリコンスピン量子緩和の理論

Theory of Silicon Spin Qubit Relaxation in a Synthetic Spin-Orbit Field ( http://arxiv.org/abs/2201.13173v2 )

ライセンス: Link先を確認
Amin Hosseinkhani, Guido Burkard(参考訳) 我々は磁場勾配の存在下で単電子シリコンスピン量子ビット緩和の理論を発展させる。 このような磁場勾配はオンチップマイクロマグネットによって定期的に生成され、スピン量子ビット上の電気的に制御される量子ゲートを可能にする。 我々は、界面に任意の粗さを持つシリコン量子ドットにおける電子波関数の解析を可能にするバレー依存エンベロープ関数理論に基づいて構築する。 我々はSi/SiGe界面における単層原子ステップの存在を仮定し、勾配場の存在がスピン混合機構をどのように変化させるかを研究する。 本研究では,マイクロマグネットの存在下でのシリコン中のクビット緩和実験の結果を定量的に再現できることを示す。 さらに、磁場勾配がシリコンスピンキュービットのEDSR Rabi周波数をどのように変更できるかを詳細に研究する。 これは界面の粗さに強く依存するが、興味深いことに、理想的な界面を持つスピン量子ビットの上にマイクロマグネットを加えることで、外部磁場強度のある程度の間隔でedsr周波数を減少させることができる。

We develop the theory of single-electron silicon spin qubit relaxation in the presence of a magnetic field gradient. Such field gradients are routinely generated by on-chip micromagnets to allow for electrically controlled quantum gates on spin qubits. We build on a valley-dependent envelope function theory that enables the analysis of the electron wave function in a silicon quantum dot with an arbitrary roughness at the interface. We assume the presence of single-layer atomic steps at a Si/SiGe interface and study how the presence of a gradient field modifies the spin-mixing mechanisms. We show that our theoretical modeling can quantitatively reproduce results of experimental measurements of qubit relaxation in silicon in the presence of a micromagnet. We further study in detail how a field gradient can modify the EDSR Rabi frequency of a silicon spin qubit. While this strongly depends on the details of the interface roughness, interestingly, we find that adding a micromagnet on top of a spin qubit with an ideal interface can even reduce the EDSR frequency within some interval of the external magnetic field strength.
翻訳日:2023-02-27 05:22:43 公開日:2022-02-01
# 干渉計の経路における中性子の存在の定量化

Quantifying the presence of a neutron in the paths of an interferometer ( http://arxiv.org/abs/2202.00272v1 )

ライセンス: Link先を確認
Hartmut Lemmel, Niels Geerits, Armin Danner, Yuji Hasegawa, Holger F. Hofmann, Stephan Sponar(参考訳) 一般に、経路間の量子干渉が観測されると、粒子が取る経路について正確な実験情報を得ることはできないと仮定される。 しかし、近年の量子系の計測と制御の進歩は、従来の不確実性限界を回避して欠落情報を提供する可能性がある。 ここでは、2経路干渉計を移動する中性子が2つの経路の間に物理的に分散している可能性について実験的に検討する。 この目的のためには、経路の1つで完全な粒子を見つける確率と、両方の経路上で個々の粒子の分布を区別することが重要である。 この区別は、一方の経路に磁場を印加し、干渉計の2つの出力ポートで中性子スピンに対する効果の正確な値を観測することで達成される。 その結果、各粒子は1つの経路に印加された磁場の特定の分画を経験し、2つの経路の干渉が登録される前の経路に粒子の分画や複数個さえ存在することを示した。 得られた経路の存在は経路プロジェクターの弱い値と等しく、統計平均ではなく、最近導入されたフィードバック補償法で検証された個々の中性子に適用される。

It is commonly assumed that no accurate experimental information can be obtained on the path taken by a particle when quantum interference between the paths is observed. However, recent progress in the measurement and control of quantum systems may provide the missing information by circumventing the conventional uncertainty limits. Here, we experimentally investigate the possibility that an individual neutron moving through a two-path interferometer may actually be physically distributed between the two paths. For this purpose, it is important to distinguish between the probability of finding the complete particle in one of the paths and the distribution of an individual particle over both paths. We accomplish this distinction by applying a magnetic field in only one of the paths and observing the exact value of its effect on the neutron spin in the two output ports of the interferometer. The results show that individual particles experience a specific fraction of the magnetic field applied in one of the paths, indicating that a fraction or even a multiple of the particle was present in the path before the interference of the two paths was registered. The obtained path presence equals the weak value of the path projector and is not a statistical average but applies to every individual neutron, verified by the recently introduced method of feedback compensation.
翻訳日:2023-02-27 03:23:27 公開日:2022-02-01
# 局所摂動多体量子系の熱化

Thermalization of locally perturbed many-body quantum systems ( http://arxiv.org/abs/2202.00271v1 )

ライセンス: Link先を確認
Lennart Dabelow, Patrick Vorndamme, and Peter Reimann(参考訳) マクロ力学系が基礎となる量子多体ダイナミクスから直接熱分解する条件の導出は、理論物理学における長年の課題である。 有名な固有状態熱化仮説(ETH)は、鍵となるメカニズムであると推定されているが、これまでは一般的なシステムに対する厳密な検証に欠けていた。 対照的に、より弱い変種 (weak eth) は、多くの可積分モデルを含む多種多様なシステムに対して確実に有効であるが、熱化問題に関するその影響は依然としてほとんど解明されていない。 ここでは, 弱 eth を満たす系が, 与えられた局所可観測性の非平衡期待値が予め設定されているすべての純状態の圧倒的多数と, 局所的性質が突然変化する形で量子クエンチを受けるハミルトニアンのギブス状態の2つの非常に自然な初期条件に対して熱分解を示すことを解析的に証明する。

Deriving conditions under which a macroscopic system thermalizes directly from the underlying quantum many-body dynamics of its microscopic constituents is a long-standing challenge in theoretical physics. The well-known eigenstate thermalization hypothesis (ETH) is presumed to be a key mechanism, but has defied rigorous verification for generic systems thus far. A weaker variant (weak ETH), by contrast, is provably true for a large variety of systems, including even many integrable models, but its implications with respect to the problem of thermalization are still largely unexplored. Here we analytically demonstrate that systems satisfying the weak ETH exhibit thermalization for two very natural classes of far-from-equilibrium initial conditions: the overwhelming majority of all pure states with a preset non-equilibrium expectation value of some given local observable, and the Gibbs states of a Hamiltonian which subsequently is subject to a quantum quench in the form of a sudden change of some local system properties.
翻訳日:2023-02-27 03:23:05 公開日:2022-02-01
# 零温度テンソルネットワークによる量子多体熱力学の効率的なシミュレーション

Efficient Simulation of Quantum Many-body Thermodynamics by Tailoring Zero-temperature Tensor Network ( http://arxiv.org/abs/2202.00244v1 )

ライセンス: Link先を確認
Ding-Zu Wang, Guo-Feng Zhang, Maciej Lewenstein, Shi-Ju Ran(参考訳) 数値アニーリングと再正規化群は、摂動や展開理論が機能しない強相関系の熱力学を研究するために様々な成功したアプローチを考案した。 温度を下げる過程は通常異なる方法で行われるため、一般的にこれらのアプローチは低温でははるかに効率が悪く、正確になる。 本研究では、ゼロ温度分割関数を表すテンソルネットワーク(TN)から有限温度特性にアクセスすることを提案する。 このような無限大tnから有限部分の「シッシャー」と、虚時方向に沿って周期境界条件を持つ「スティッチ」を提案する。 このアプローチをTNの調整として行います。 線形化テンソル再正規化群[phys. rev. lett. 106, 127202 (2011)]、連続行列積作用素[phys. rev. lett. 125, 170604 (2020)]などを含む従来の方法を超える精巧なチューン過程によって、例外的な精度を達成する。 高い効率性を示し、非常に低い温度を含む目標温度とは時間コストがほぼ無関係である。 提案されたアイデアはボソンとフェルミオンの高次元系に拡張することができる。

Numerical annealing and renormalization group have conceived various successful approaches to study the thermodynamics of strongly-correlated systems where perturbation or expansion theories fail to work. As the process of lowering the temperatures is usually involved in different manners, these approaches in general become much less efficient or accurate at the low temperatures. In this work, we propose to access the finite-temperature properties from the tensor network (TN) representing the zero-temperature partition function. We propose to "scissor" a finite part from such an infinite-size TN, and "stitch" it to possess the periodic boundary condition along the imaginary-time direction. We dub this approach as TN tailoring. Exceptional accuracy is achieved with a fine-tune process, surpassing the previous methods including the linearized tensor renormalization group [Phys. Rev. Lett. 106, 127202 (2011)], continuous matrix product operator [Phys. Rev. Lett. 125, 170604 (2020)], and etc. High efficiency is demonstrated, where the time cost is nearly independent of the target temperature including the extremely-low temperatures. The proposed idea can be extended to higher-dimensional systems of bosons and fermions.
翻訳日:2023-02-27 03:22:22 公開日:2022-02-01
# 量子オートエンコーダによる量子誤差補正

Quantum Error Correction with Quantum Autoencoders ( http://arxiv.org/abs/2202.00555v1 )

ライセンス: Link先を確認
David F. Locher, Lorenzo Cardarelli, Markus M\"uller(参考訳) アクティブ量子誤差補正は、堅牢な量子プロセッサを実現するための中心的な要素である。 本稿では,量子誤り訂正のための量子機械学習の可能性を検討する。 具体的には、量子オートエンコーダという形で量子ニューラルネットワークを訓練することで、空間的相関のある計算エラーや量子ビットロスを含む、エラーのアクティブな検出と修正のための最適な戦略を学習できることを実証する。 量子オートエンコーダの復号化能力は、特定の状態の保護に限らず、論理的コード空間全体に拡張されることを強調した。 また,量子ニューラルネットワークを用いて,基礎となる雑音に最適に適応した新しい論理エンコーディングを探索できることを示す。 さらに,量子オートエンコーダ自体に中程度のノイズが存在する場合でも,有効な量子誤り訂正を行うのに有効であることが判明した。

Active quantum error correction is a central ingredient to achieve robust quantum processors. In this paper we investigate the potential of quantum machine learning for quantum error correction. Specifically, we demonstrate how quantum neural networks, in the form of quantum autoencoders, can be trained to learn optimal strategies for active detection and correction of errors, including spatially correlated computational errors as well as qubit losses. We highlight that the denoising capabilities of quantum autoencoders are not limited to the protection of specific states but extend to the entire logical codespace. We also show that quantum neural networks can be used to discover new logical encodings that are optimally adapted to the underlying noise. Moreover, we find that, even in the presence of moderate noise in the quantum autoencoders themselves, they may still be successfully used to perform beneficial quantum error correction.
翻訳日:2023-02-27 03:18:08 公開日:2022-02-01
# 量子力学の情報理論と測定問題(その1)

The Information-Theoretic View of Quantum Mechanics and the Measurement Problem(s) ( http://arxiv.org/abs/2202.00510v1 )

ライセンス: Link先を確認
Federico Laudisa(参考訳) Until recently Jeffrey Bub and Itamar Pitowsky, in the framework of an information theoretic view of quantum mechanics, claimed first that to the measurement problem in its ordinary formulation there correspond in effect two measurement problems (simply called the big and the small measurement problems), with a different degree of relevance and, second, that the analysis of a quantum measurement is a problem only if other assumptions, taken by Pitowsky and Bub to be unnecessary 'dogmas', are assumed. ここでは、この測度問題に対する非伝統的なスタンスを批判的に議論し、ブブとピトースキーの議論は、主により議論の的になっている特殊相対性理論の基礎に関する区別の量子領域への不当な拡張に依存するため、決定的でないと論じる。

Until recently Jeffrey Bub and Itamar Pitowsky, in the framework of an information theoretic view of quantum mechanics, claimed first that to the measurement problem in its ordinary formulation there correspond in effect two measurement problems (simply called the big and the small measurement problems), with a different degree of relevance and, second, that the analysis of a quantum measurement is a problem only if other assumptions, taken by Pitowsky and Bub to be unnecessary 'dogmas', are assumed. Here I critically discuss this unconventional stance on the measurement problem and argue that the Bub and Pitowsky arguments are inconclusive, mainly because they rely on an unwarranted extension to the quantum realm of a distinction concerning the foundations of special relativity which is in itself rather controversial.
翻訳日:2023-02-27 03:17:53 公開日:2022-02-01
# 結合した$PT$-symmetric Hamiltonianのフォトニック量子シミュレーション

Photonic quantum simulations of coupled $PT$-symmetric Hamiltonians ( http://arxiv.org/abs/2202.00358v1 )

ライセンス: Link先を確認
Nicola Maraviglia, Patrick Yard, Ross Wakefield, Jacques Carolan, Chris Sparrow, Levon Chakhmakhchyan, Chris Harrold, Toshikazu Hashimoto, Nobuyuki Matsuda, Andrew K. Harter, Yogesh N. Joglekar, Anthony Laing(参考訳) パリティ時(PT$)対称ハミルトニアンは一般に非エルミート的であり、固有ベクトルが結合する例外点における量子系におけるエキゾチックな振る舞いを引き起こす。 量子系における最近の$PT$対称ハミルトニアンの実現は、例外点を越えて多くの粒子量子系をシミュレートし、研究する努力に火をつけた。 ここでは、プログラマブルな統合フォトニックチップを使用して、2組の2組の対称ハミルトニアンの双対からなるモデルをシミュレートします。 2粒子と3粒子の干渉や、時間反転進化中のサブシステム間の干渉によって生じる粒子の絡み合いなど、例外的な点の量子力学をシミュレートする。 これらの結果は、プログラム可能な量子シミュレータを用いて量子力学の基礎的問題を調査する方法を示している。

Parity-time ($PT$) symmetric Hamiltonians are generally non-Hermitian and give rise to exotic behaviour in quantum systems at exceptional points, where eigenvectors coalesce. The recent realisation of $PT$-symmetric Hamiltonians in quantum systems has ignited efforts to simulate and investigate many-particle quantum systems across exceptional points. Here we use a programmable integrated photonic chip to simulate a model comprised of twin pairs of $PT$-symmetric Hamiltonians, with each the time reverse of its twin. We simulate quantum dynamics across exceptional points including two- and three-particle interference, and a particle-trembling behaviour that arises due to interference between subsystems undergoing time-reversed evolutions. These results show how programmable quantum simulators can be used to investigate foundational questions in quantum mechanics.
翻訳日:2023-02-27 03:17:21 公開日:2022-02-01
# C^*$-extreme point of entanglement breaking map

$C^*$-extreme points of entanglement breaking maps ( http://arxiv.org/abs/2202.00341v1 )

ライセンス: Link先を確認
B. V. Rajarama Bhat, Repana Devendra, Nirupama Mallick, K. Sumesh(参考訳) 本稿では,行列代数上の単位エンタングルメント破れ(EB-)写像の$C^*$-凸集合について検討する。 一般的な性質と$C^*$-エクストリーム点の抽象的特徴について論じる。 EB-写像のクラスに対するラドン-ニコディム型定理を確立することにより、$C^*$-エクストリーム点の完全な記述を与える。 単位 EB-map $\Phi:M_{d_1}\to M_{d_2}$ が $C^*$-extreme であることと、Choi-rank が $d_2$ に等しい場合に限る。 最後に、EB-写像のホレボ形式の直接的な帰結として、単体EB-写像の集合のC^*$-凸性に対して、クライン・ミルマンの定理の非可換な類似を導出する。

In this paper we study the $C^*$-convex set of unital entanglement breaking (EB-)maps on matrix algebras. General properties and an abstract characterization of $C^*$-extreme points are discussed. By establishing a Radon-Nikodym type theorem for a class of EB-maps we give a complete description of the $C^*$-extreme points. It is shown that a unital EB-map $\Phi:M_{d_1}\to M_{d_2}$ is $C^*$-extreme if and only if it has Choi-rank equal to $d_2$. Finally, as a direct consequence of the Holevo form of EB-maps, we derive a noncommutative analogue of the Krein-Milman theorem for $C^*$-convexity of the set of unital EB-maps.
翻訳日:2023-02-27 03:17:04 公開日:2022-02-01
# チタン添加ニオブ酸リチウム導波路の極低温電気光学変調

Cryogenic electro-optic modulation in titanium in-diffused lithium niobate waveguides ( http://arxiv.org/abs/2202.00306v1 )

ライセンス: Link先を確認
Frederik Thiele, Felix vom Bruch, Julian Brockmeier, Maximilian Protte, Thomas Hummel, Raimund Ricken, Victor Quiring, Sebastian Lengeling, Harald Herrmann, Christof Eigner, Christine Silberhorn, and Tim J. Bartley(参考訳) ニオブリチウムは集積量子光学のための有望なプラットフォームである。 このプラットフォームでは、超伝導単一光子検出器と変調器を組み合わせることで、量子状態の効率的な操作と検出を目指している。 超伝導単光子検出器の低温動作は、同じ運転条件下での電気光学変調器の最適化を決定する。 そこで, 位相変調器, 方向性カプラ, 偏極変換器を環境温度と低温温度の両方で特徴付ける。 これらの変調器の動作電圧$V_{\pi/2}$は、位相変調器の電気光学効果が74%減少し、方向カプラの84%、偏光変換器の35%が8.5$\,\mathrm{K}$以下であるために増加する。 位相変調器はブロードバンド特性を保ち、特性波長範囲の光を変調する。 方向カプラの偏りのないバー状態は85$\,\mathrm{nm}$の波長シフトで変化し、装置を5$,\mathrm{k}$に冷却した。 偏光変換器は周期的なポーリングを用いて2つの直交偏光を位相整合する。 使用したポーリングの位相整合波長は5$\,\mathrm{K}$に冷却すると112$,\mathrm{nm}$に変化する

Lithium niobate is a promising platform for integrated quantum optics. In this platform we aim to efficiently manipulate and detect quantum states by combining superconducting single photon detectors and modulators. The cryogenic operation of a superconducting single photon detector dictates the optimisation of the electro-optic modulators under the same operating conditions. To that end, we characterise a phase modulator, directional coupler, and polarisation converter at both ambient and cryogenic temperatures. The operation voltage $V_{\pi/2}$ of these modulators increases due to the decrease of the electro-optic effect by 74% for the phase modulator, 84% for the directional coupler and 35% for the polarisation converter below 8.5$\,\mathrm{K}$. The phase modulator preserves its broadband nature and modulates light in the characterised wavelength range. The unbiased bar state of the directional coupler changed by a wavelength shift of 85$\,\mathrm{nm}$ while cooling the device down to 5$\,\mathrm{K}$. The polarisation converter uses periodic poling to phasematch the two orthogonal polarisations. The phasematched wavelength of the used poling changes by 112$\,\mathrm{nm}$ when cooling to 5$\,\mathrm{K}$
翻訳日:2023-02-27 03:16:04 公開日:2022-02-01
# 量子軌道の古典的追跡

Classical Tracking for Quantum Trajectories ( http://arxiv.org/abs/2202.00276v1 )

ライセンス: Link先を確認
Jason F Ralph, Simon Maskell, Michael Ransom, Hendrik Ulbricht(参考訳) 確率的マスター方程式(smes)の数値積分に基づく量子状態推定は、連続的な弱測定を受ける量子系の進化の見積もりを提供する。 この手法は古典的状態推定法と似ており、SMEを解いた量子軌道は連続的な古典的測定信号で条件付けられる。 本稿では,光トラップ内で連続的なフィードバック冷却を行う物質オブジェクトとして,実験的に実現可能なシステムに基づく量子システムに対する古典的状態推定の利用について検討する。 特に,粒子フィルタに基づく古典的追跡手法は,量子状態の追跡に有用であり,量子状態推定が計算的に要求されるような高温領域では特に有用であることを示す。

Quantum state estimation, based on the numerical integration of stochastic master equations (SMEs), provides estimates for the evolution of quantum systems subject to continuous weak measurements. The approach is similar to classical state estimation methods in that the quantum trajectories produced by solving the SME are conditioned on continuous classical measurement signals. In this paper, we explore the use of classical state estimation for a candidate quantum system, one based on an experimentally realisable system: a material object undergoing continuous feedback cooling in an optical trap. In particular, we demonstrate that classical tracking methods based on particle filters can be used to track quantum states, and are particularly useful for higher temperature regimes where quantum state estimation becomes computationally demanding.
翻訳日:2023-02-27 03:15:17 公開日:2022-02-01
# 運動メトロロジーのためのトラップイオン中のフォック混合物の生成

Production of Fock Mixtures in Trapped Ions for Motional Metrology ( http://arxiv.org/abs/2202.00626v1 )

ライセンス: Link先を確認
Antonis Delakouras, Daniel Rodr\'iguez and Javier Cerrillo(参考訳) 閉じ込められたイオン中の非熱フォック状態混合物のクラスを生成するプロトコルを提案する。 この状態のクラスは基底状態に対する明確なメトロロジー上の利点を特徴とし、したがって狭い電子遷移において完全なサイドバンド冷却とフォック状態の準備を必要とせずに標準量子限界を克服する。 このプロトコルは、red-sidebandの繰り返し、測定および準備レーザーパルスからなる。 プロトコルのクラウスマップ表現により、赤のサイドバンドパルスの長さを生成可能な特定の状態のクラスに関連付けることができる。 数値シミュレーションの助けを借りて,これらの状態が確実に再現できるパラメトリック・レジームの解析を行う。

We present a protocol to produce a class of non-thermal Fock state mixtures in trapped ions. This class of states features a clear metrological advantage with respect to the ground state, thus overcoming the standard quantum limit without the need for full sideband cooling and Fock-state preparation on a narrow electronic transition. The protocol consists in the cyclic repetition of red-sideband, measurement and preparation laser pulses. By means of the Kraus map representation of the protocol, it is possible to relate the length of the red sideband pulses to the specific class of states that can be generated. With the help of numerical simulations, we analyze the parametric regime where these states can be reliably reproduced.
翻訳日:2023-02-27 03:08:08 公開日:2022-02-01
# 自由電子と光励起の絡み合い

Entangling free electrons and optical excitations ( http://arxiv.org/abs/2202.00604v1 )

ライセンス: Link先を確認
Andrea Kone\v{c}n\'a, Fadil Iyikanat, and F. Javier Garc\'ia de Abajo(参考訳) 空飛ぶ粒子と光ナノキャビティの間の非弾性的な相互作用は、前者のエネルギーまたは運動量の変化と後者の励起が対になる絡み合い状態を引き起こす。 特に、自由電子とナノキャビティモードの絡み合いは、電子の強い相互作用能力に関連する魅力的な機会を開く。 しかし、光共振器との電子相互作用によって現在達成可能な絡み合いの度合いは、生成した状態混合物に対する外部選択性の欠如によって著しく制限される。 本稿では,キャビティ内の指定された光励起と分離可能な自由電子状態との間の純粋な絡み合いを生成する手法を提案する。 具体的には、電子波動関数プロファイルを形作り、アクセス可能なキャビティモードの数を劇的に減らし、同時にターゲットの電子散乱方向と関連付ける。 この概念を、銀ナノ粒子の縮退および非縮退プラズモンモードと無機分子の原子振動による自由電子の絡み合いの理論的な説明を通じて実証する。 生成した絡み合いは電子成分を介してさらに伝播し、現在探索されているプロトコルを超えて量子相互作用を拡張することができる。

The inelastic interaction between flying particles and optical nanocavities gives rise to entangled states in which some excitations of the latter are paired with changes in the energy or momentum of the former. In particular, entanglement of free electrons and nanocavity modes opens appealing opportunities associated with the strong interaction capabilities of the electrons. However, the degree of entanglement that is currently achievable by electron interaction with optical cavities is severely limited by the lack of external selectivity over the resulting state mixtures. Here, we propose a scheme to generate pure entanglement between designated optical excitations in a cavity and separable free-electron states. Specifically, we shape the electron wave-function profile to dramatically reduce the number of accessible cavity modes and simultaneously associate them with targeted electron scattering directions. We exemplify this concept through a theoretical description of free-electron entanglement with degenerate and nondegenerate plasmon modes in silver nanoparticles as well as atomic vibrations in an inorganic molecule. The generated entanglement can be further propagated through its electron component to extend quantum interactions beyond currently explored protocols.
翻訳日:2023-02-27 03:07:36 公開日:2022-02-01
# sicの次元塔。 II。 いくつかの建設

Dimension towers of SICs. II. Some constructions ( http://arxiv.org/abs/2202.00600v1 )

ライセンス: Link先を確認
Ingemar Bengtsson and Basudha Srivastava(参考訳) SIC は有限次元ヒルベルト空間における最大等角的強フレームである。 次元 $d$ の SIC が与えられたとき、その次元 $d(d-2)$ の整列 SIC が常に存在し、予測可能な対称性とより小さな等角的タイトフレームが組み込まれているという確証がある。 これらの性質を共有する次元$d(d-2)$のベクトル集合を計算するためのレシピを提供する。 これらは、$d$次元のSICに入る数によって定義される部分空間の最大絡み合ったベクトルからなる。 しかし、この構成には自由パラメータが含まれており、これらのベクトルの集合の1つが SIC となるように常に選択できることは証明されていない。 私たちは、読者にどのように建設を改善できるかを提案できるいくつかの実例を紹介します。 単純さのために、我々は奇数次元の場合に限定される。

A SIC is a maximal equiangular tight frame in a finite dimensional Hilbert space. Given a SIC in dimension $d$, there is good evidence that there always exists an aligned SIC in dimension $d(d-2)$, having predictable symmetries and smaller equiangular tight frames embedded in them. We provide a recipe for how to calculate sets of vectors in dimension $d(d-2)$ that share these properties. They consist of maximally entangled vectors in certain subspaces defined by the numbers entering the $d$ dimensional SIC. However, the construction contains free parameters and we have not proven that they can always be chosen so that one of these sets of vectors is a SIC. We give some worked examples that, we hope, may suggest to the reader how our construction can be improved. For simplicity we restrict ourselves to the case of odd dimensions.
翻訳日:2023-02-27 03:07:19 公開日:2022-02-01
# 金融における量子機械学習:時系列予測

Quantum Machine Learning in Finance: Time Series Forecasting ( http://arxiv.org/abs/2202.00599v1 )

ライセンス: Link先を確認
Dimitrios Emmanoulopoulos and Sofija Dimoska(参考訳) シミュレーション量子フォワード伝搬を用いた時系列信号を予測するための量子ニューラルネットワーク(QNN)としてパラメトリド量子回路(PQC)の新規使用の有効性を検討する。 時間的信号はいくつかの正弦波成分(決定論的信号)からなり、トレンドや付加雑音と混合される。 pqcsの性能は、従来の双方向のlong short-term memory(bilstm)ニューラルネットワークと比較される。 以上の結果から,PQCsは,振幅雑音の変動が小さい(定性信号の振幅の最大40%)時系列信号に対して,古典的BiLSTMネットワークと同じような性能を示し,数千のパラメータで処理し,振幅雑音の変動が大きい信号に対して性能を向上することを示した。 したがって、qnnは、量子コンピュータにおける古典的な機械学習モデルよりも大幅に高速にトレーニングされるという大きな利点を持つ時系列のモデル化に効果的に使用できる。

We explore the efficacy of the novel use of parametrised quantum circuits (PQCs) as quantum neural networks (QNNs) for forecasting time series signals with simulated quantum forward propagation. The temporal signals consist of several sinusoidal components (deterministic signal), blended together with trends and additive noise. The performance of the PQCs is compared against that of classical bidirectional long short-term memory (BiLSTM) neural networks. Our results show that for time series signals consisting of small amplitude noise variations (up to 40 per cent of the amplitude of the deterministic signal) PQCs, with only a few parameters, perform similar to classical BiLSTM networks, with thousands of parameters, and outperform them for signals with higher amplitude noise variations. Thus, QNNs can be used effectively to model time series having, at the same time, the significant advantage of being trained significantly faster than a classical machine learning model in a quantum computer.
翻訳日:2023-02-27 03:07:04 公開日:2022-02-01
# 超低温原子ガス中の光誘起双極子-ジポール力の観測

Observation of Light-Induced Dipole-Dipole Forces in Ultracold Atomic Gases ( http://arxiv.org/abs/2202.00562v1 )

ライセンス: Link先を確認
Mira Maiw\"oger, Matthias Sonnleitner, Tiantian Zhang, Igor Mazets, Marion Mallweger, Dennis R\"atzel, Filippo Borselli, Sebastian Erne, J\"org Schmiedmayer, Philipp Haslinger(参考訳) 光誘起双極子-双極子相互作用によって引き起こされる誘引力について検討した。 非局所的な性質を示し、赤と青の調整された光場の両方に魅力的であり、原子密度の勾配に依存する非常に強い力を引き起こす。 実験データは、原子雲が散乱する光に対する局所場アプローチに基づく理論モデルの枠組みで議論される。

We investigate an attractive force caused by light induced dipole-dipole interactions in freely expanding ultracold 87Rb atoms. This collective, light-triggered effect results in a self-confining potential with interesting features: it exhibits nonlocal properties, is attractive for both red and blue-detuned light fields and induces a remarkably strong force that depends on the gradient of the atomic density. The experimental data are discussed in the framework of a theoretical model based on a local-field approach for the light scattered by the atomic cloud.
翻訳日:2023-02-27 03:06:20 公開日:2022-02-01
# MolNet:分子特性予測のための化学直観型グラフニューラルネットワーク

MolNet: A Chemically Intuitive Graph Neural Network for Prediction of Molecular Properties ( http://arxiv.org/abs/2203.09456v1 )

ライセンス: Link先を確認
Yeji Kim, Yoonho Jeong, Jihoo Kim, Eok Kyun Lee, Won June Kim, and Insung S. Choi(参考訳) グラフニューラルネットワーク(GNN)は、分子グラフと密接な関係にあるため、化学領域における強力なディープラーニングツールである。 ほとんどのGNNモデルは、基本的に3D分子の2次元グラフ表現に基づく、供給された原子(および場合によっては結合)の特徴から原子と分子の特徴を収集し、更新する。 それに対応して、共有結合や等価データ構造(例えばリスト)に関する情報を含む隣接行列は、グラフ畳み込みのような機能更新プロセスの主要なコアとなっている。 しかし、2Dベースのモデルは、3D分子とその物理化学的性質を忠実に表現せず、「スルー・ボンド」効果ではなく「スルー・スペース」効果である見過ごされた場効果によって例示される。 ここで提案されているgnnモデルは、分子内の3d非結合情報と非共有結合性行列 $\bf{\bar a}$ および重み付き結合行列 $\bf{b}$ からの結合強度情報とを包含して、化学的に直感的である。 分子内の所定の原子に直接結合しない非共有結合原子は、それぞれ1, 1.5, 2, 3のエッジ重みを持ち、それぞれ1, 1.5, 2, 3の単結合、芳香族結合、二重結合、三重結合を構成するために5$\unicode{x212b}$のカットオフ範囲内で同定される。 比較研究により、MorNetは様々なベースラインGNNモデルより優れており、BACEデータセットの分類タスクとESOLデータセットの回帰タスクにおいて最先端のパフォーマンスを提供することが示された。 この研究は、化学的に直感的で既存の化学概念やツールに匹敵する深層学習モデルの構築における深層学習化学の今後の方向性を示唆している。

The graph neural network (GNN) has been a powerful deep-learning tool in chemistry domain, due to its close connection with molecular graphs. Most GNN models collect and update atom and molecule features from the fed atom (and, in some cases, bond) features, which are basically based on the two-dimensional (2D) graph representation of 3D molecules. Correspondingly, the adjacency matrix, containing the information on covalent bonds, or equivalent data structures (e.g., lists) have been the main core in the feature-updating processes, such as graph convolution. However, the 2D-based models do not faithfully represent 3D molecules and their physicochemical properties, exemplified by the overlooked field effect that is a "through-space" effect, not a "through-bond" effect. The GNN model proposed herein, denoted as MolNet, is chemically intuitive, accommodating the 3D non-bond information in a molecule, with a noncovalent adjacency matrix $\bf{\bar A}$, and also bond-strength information from a weighted bond matrix $\bf{B}$. The noncovalent atoms, not directly bonded to a given atom in a molecule, are identified within 5 $\unicode{x212B}$ of cut-off range for the construction of $\bf{\bar A}$, and $\bf{B}$ has edge weights of 1, 1.5, 2, and 3 for single, aromatic, double, and triple bonds, respectively. Comparative studies show that MolNet outperforms various baseline GNN models and gives a state-of-the-art performance in the classification task of BACE dataset and regression task of ESOL dataset. This work suggests a future direction of deep-learning chemistry in the construction of deep-learning models that are chemically intuitive and comparable with the existing chemistry concepts and tools.
翻訳日:2023-02-27 02:59:36 公開日:2022-02-01
# ソーシャルネットワークからの安全信号検出のためのAIベースのアプローチ:2017年のDoctissimo ForumにおけるLevothyrox Scandalへの応用

AI-based Approach for Safety Signals Detection from Social Networks: Application to the Levothyrox Scandal in 2017 on Doctissimo Forum ( http://arxiv.org/abs/2203.03538v1 )

ライセンス: Link先を確認
Valentin Roche, Jean-Philippe Robert, Hanan Salam(参考訳) ソーシャルメディアは、薬物移動における新しい安全信号の検出を容易にする重要な情報源となり得る。 有害薬物事象を検出するために,NLP技術などのAIを用いたソーシャルメディアデータの解析を行った。 既存のアプローチでは、逆薬物反応、薬物と薬物の相互作用、薬物の誤用の抽出と識別に焦点が当てられている。 しかし、関連する指標の時間的変化を考慮に入れて、潜在的な安全信号の検出に取り組むことは無かった。 さらに,様々な医療応用における深層学習の成功にもかかわらず,この課題は検討されなかった。 本研究は, 薬物移動監視プロセスの一部として使用可能な患者のレビューから薬剤安全信号を検出するためのAIベースのアプローチを提案し, 詳細な薬剤移動調査の必要性を警告する。 我々は,フランスのレボチロックス症例に焦点をあて,薬剤公式の変化を契機にメディアから大きな注目を集め,通常患者に報告される副作用の頻度が増加した。 我々のアプローチは2つある。 1) 単語, n-grams頻度, 意味的類似性, 副作用, 感情分析など, 患者評価から抽出した様々なnlp指標について検討した。 2) 患者コメントから抽出した単語クラウド上でCNNを訓練する,Word Cloud Convolutional Neural Network (WC-CNN) というディープラーニングアーキテクチャを提案する。 異なる時間分解能と異なるnlp前処理技術がモデル性能に及ぼす影響について検討した。 その結果,提案手法は将来,新たな安全信号の有効検出に活用できることが示唆された。 毎月の解像度で抽出された単語クラウドをトレーニングしたwc-cnnモデルは、75%の精度で他を上回っている。

Social media can be an important source of information facilitating the detection of new safety signals in pharmacovigilance. Various approaches have investigated the analysis of social media data using AI such as NLP techniques for detecting adverse drug events. Existing approaches have focused on the extraction and identification of Adverse Drug Reactions, Drug-Drug Interactions and drug misuse. However, non of the works tackled the detection of potential safety signals by taking into account the evolution in time of relevant indicators. Moreover, despite the success of deep learning in various healthcare applications, it was not explored for this task. We propose an AI-based approach for the detection of potential pharmaceutical safety signals from patients' reviews that can be used as part of the pharmacovigilance surveillance process to flag the necessity of an in-depth pharmacovigilance investigation. We focus on the Levothyrox case in France which triggered huge attention from the media following the change of the medication formula, leading to an increase in the frequency of adverse drug reactions normally reported by patients. Our approach is two-fold. (1) We investigate various NLP-based indicators extracted from patients' reviews including words and n-grams frequency, semantic similarity, Adverse Drug Reactions mentions, and sentiment analysis. (2) We propose a deep learning architecture, named Word Cloud Convolutional Neural Network (WC-CNN) which trains a CNN on word clouds extracted from the patients comments. We study the effect of different time resolutions and different NLP pre-processing techniques on the model performance. Our results show that the proposed indicators could be used in the future to effectively detect new safety signals. The WC-CNN model trained on word clouds extracted at monthly resolution outperforms the others with an accuracy of 75%.
翻訳日:2023-02-27 02:59:04 公開日:2022-02-01
# 量子ドット中の交換結合の空洞誘起測定法の提案

Proposal for a cavity-induced measurement of the exchange coupling in quantum dots ( http://arxiv.org/abs/2202.00797v1 )

ライセンス: Link先を確認
Florian Ginzel, Guido Burkard(参考訳) スピンキュービットアレイでは、交換結合を利用して2量子ゲートを実装し、スピンバスに沿った中間レンジキュービット接続を実現する。 本研究では,隣接量子ドット中の電子間の交換結合を特徴付ける手法を提案する。 2個の電子が占有する三重量子ドット(tqd)に結合したマイクロ波共振器の伝送を理論的に検討する。 右量子ドット(QD)は常に1つの電子によって占有されていると仮定し、第2の電子は左と中央のQDの間をトンネルすることができる。 2つの電子が隣接する点にある場合、交換結合を介して相互作用する。 解析計算により、共振器の透過プロファイルは2つの電子間の交換結合強度の値を直接明らかにすることを示した。 摂動理論から2階まで、磁気勾配の存在下でも交換が特定可能であると結論付ける。 トンネル間カップリングに匹敵する谷の分割は、谷の位相にも依存するキャビティ伝達のディップのさらなる修正につながる。

In spin qubit arrays the exchange coupling can be harnessed to implement two-qubit gates and to realize intermediate-range qubit connectivity along a spin bus. In this work, we propose a scheme to characterize the exchange coupling between electrons in adjacent quantum dots. We investigate theoretically the transmission of a microwave resonator coupled to a triple quantum dot (TQD) occupied by two electrons. We assume that the right quantum dot (QD) is always occupied by one electron while the second electron can tunnel between the left and center QD. If the two electrons are in adjacent dots they interact via the exchange coupling. By means of analytical calculations we show that the transmission profile of the resonator directly reveals the value of the exchange coupling strength between two electrons. From perturbation theory up to second order we conclude that the exchange can still be identified in the presence of magnetic gradients. A valley splitting comparable to the inter-dot tunnel coupling will lead to further modifications of the cavity transmission dips that also depend on the valley phases.
翻訳日:2023-02-27 02:58:36 公開日:2022-02-01
# 永久双極子モーメントを有する閉ループ$\lambda$システムにおけるパルス増幅

Pulse amplification in a closed loop $\Lambda$ system with permanent dipole moments ( http://arxiv.org/abs/2202.00778v1 )

ライセンス: Link先を確認
Nilamoni Daloi, Partha Das, and Tarak Nath Dey(参考訳) 永久双極子モーメント (pdms) を持つ閉ループ $\lambda$ システムによる弱ガウスプローブパルスの伝播を, 強制御場の存在下で, 三次元場とともに検討した。 pdmの存在は多重光子励起を可能にするが、それ以外は禁止される。 PDMはプローブのラビ周波数、制御、及びプローブパルスの伝搬に顕著に影響を及ぼす媒体内の第3のフィールドを変更する。 プローブパルスは、伝播中にガウス形状をそのまま増幅する。 2つの光子励起が阻害されないため、第3の磁場の助けを借りて、制御場の周波数の2倍の周波数のプローブパルスを増幅することができる。

Propagation of a weak Gaussian probe pulse through a closed loop $\Lambda$ system with permanent dipole moments (PDMs) is investigated in presence of a strong control field along with a third field. The presence of PDMs allows multi photon excitation, which are otherwise forbidden. The PDMs modify the Rabi frequencies of the probe, control, and the third field inside the medium which noticeably affects the propagation of probe pulse. The probe pulse is amplified during propagation with its Gaussian shape intact. Due to unprohibited two photon excitation it is possible to amplify a probe pulse whose frequency is twice of the control field's frequency, with the help of the third field.
翻訳日:2023-02-27 02:58:20 公開日:2022-02-01
# 弱い値を用いたメカニカル・クアチュアの増幅

Amplification of mechanical quadratures using weak values ( http://arxiv.org/abs/2202.00750v1 )

ライセンス: Link先を確認
Sergio Carrasco and Miguel Orszag(参考訳) 光キャビティの可動ミラーの二次構造に対する単一光子の効果を増大させるために、弱い値増幅の手法が実装された干渉計配置を提案する。 光子は放射圧を介して鏡と弱い相互作用をし、干渉計の暗いポートで選択される。 角運動量型フォトニック作用素の弱値の実部と虚部はミラー二次の増幅を生じさせ、これは全ての光子が考慮されるシナリオ、すなわち、ポスト選択を行わない場合と比べて大きい。 この効果は、熱的およびコヒーレントな状態において初期化されたミラーとして研究される。 熱状態においては、弱値増幅効果は、弱値の虚部によって生じるミラーの粒子数によって促進される。

An interferometric arrangement is proposed in which the technique of weak value amplification is implemented in order to enlarge the effect of a single photon on the quadratures of a movable mirror of an optical cavity. The photon interacts weakly with the mirror via radiation pressure and is post-selected in the dark port of the interferometer. The real and imaginary parts of weak values of angular momentum type photonic operators produce an amplification of the mirror quadratures, which is large as compared to the scenario in which all photons are taken into consideration, i.e. when no post-selection is performed. The effect is studied both for a mirror initialized in a thermal and coherent states. For a thermal state, the weak value amplification effect is boosted with the number of particles of the mirror, which occurs due to the imaginary part of the weak values.
翻訳日:2023-02-27 02:58:08 公開日:2022-02-01
# 3量子ビット埋め込み分割ケイリー六角形は文脈性に敏感

Three-Qubit-Embedded Split Cayley Hexagon is Contextuality Sensitive ( http://arxiv.org/abs/2202.00726v1 )

ライセンス: Link先を確認
Fr\'ed\'eric Holweck, Henri de Boutray and Metod Saniga(参考訳) 階数 2 のケイリー六角形を$\mathcal{W}(5,2)$、階数 3 の双対シンプレクティック極空間に2つの非等価な埋め込みが存在することが知られている。 3量子パウリ群の63の標準可観測値から、(その)群の要素間の交換関係によって引き起こされるシンプレクティック極性(英語版)(symplectic polarity)に対する$\mathcal{w}(5,2)$の63点をラベル付けすると、2種類の埋め込みは量子コンテクスト性に敏感であることが分かる。 特に, 古典組込み六角形の補集合は文脈的ではなく, 歪組込みの補集合は文脈的ではないことを示す。

It is known that there are two non-equivalent embeddings of the split Cayley hexagon of order two into $\mathcal{W}(5,2)$, the binary symplectic polar space of rank three, called classical and skew. Labelling the 63 points of $\mathcal{W}(5,2)$ by the 63 canonical observables of the three-qubit Pauli group subject to the symplectic polarity induced by the (commutation relations between the elements of the) group, the two types of embedding are found to be quantum contextuality sensitive. In particular, we show that the complement of a classically-embedded hexagon is not contextual, whereas that of a skewly-embedded one is.
翻訳日:2023-02-27 02:57:42 公開日:2022-02-01
# Rydberg原子における分数チャーン絶縁体の実験的利用法

Experimentally accessible scheme for a fractional Chern insulator in Rydberg atoms ( http://arxiv.org/abs/2202.00699v1 )

ライセンス: Link先を確認
Sebastian Weber, Rukmani Bai, Nastasia Makki, Johannes M\"ogerle, Thierry Lahaye, Antoine Browaeys, Maria Daghofer, Nicolai Lang, Hans Peter B\"uchler(参考訳) 人工物質中のボゾン分数チャーン絶縁体を実現するためのRydberg原子のセットアップを提案する。 提案された構成は、ハニカム格子に配置されたリドベルグ原子に依存しており、そこでは励起は双極子交換相互作用によって格子を跳躍し、ハードコアボソンと解釈できる。 量子多体ハミルトニアンは正確な対角化とdmrgで研究されている。 すべてのシグネチャが$\nu=1/2$bosonic Laughlin状態と同じ位相特性を持つ分数状態の出現を示す実験的なパラメータを同定する。 本研究では, 有限系のトポロジカルな状態の調製が可能な断熱法を実証し, 分数的な励起に対して実験的にアクセス可能な喫煙銃シグネチャを示す。

We present a setup with Rydberg atoms for the realization of a bosonic fractional Chern insulator in artificial matter. The suggested setup relies on Rydberg atoms arranged in a honeycomb lattice, where excitations hop through the lattice by dipolar exchange interactions, and can be interpreted as hard-core bosons. The quantum many-body Hamiltonian is studied within exact diagonalization and DMRG. We identify experimentally accessible parameters where all signatures indicate the appearance of a fractional state with the same topological properties as the $\nu=1/2$ bosonic Laughlin state. We demonstrate an adiabatic ramping procedure, which allows for the preparation of the topological state in a finite system, and demonstrate an experimentally accessible smoking gun signature for the fractional excitations.
翻訳日:2023-02-27 02:57:00 公開日:2022-02-01
# 人々の意志とは何か? 誤情報に対するモデレーションの選好

What is the Will of the People? Moderation Preferences for Misinformation ( http://arxiv.org/abs/2202.00799v1 )

ライセンス: Link先を確認
Shubham Atreja, Libby Hemphill, Paul Resnick(参考訳) 誤情報の拡散を減らすために、ソーシャルメディアプラットフォームは、情報警告ラベルの追加、配布の削減、コンテンツの完全削除など、悪質なコンテンツに対する強制措置を取る可能性がある。 しかし、彼らの行動と不行は論争を巻き起こし、党派偏見の主張に悩まされている。 この論争は、事実の正確さの疑問に巧みに還元されない可能性があるため、どのような行動を取るべきかの明確さの欠如によって説明できる。 意思決定が争われると、意思決定プロセスの正当性が公共の承認に不可欠となる。 プラットフォームはルールやコードブックを通じて明確に定義された手順に従って決定を正当化しようと試みている。 本稿では,人々の意志という,別の正当性源を検討する。 当然のことながら、一般大衆が特定のコンテンツに対してプラットフォームに何をして欲しいのかは分かっていない。 368のニュース記事に対するプラットフォーム行動に対するレイ・レートラーの選好に関する実証的な証拠を提供する。 その結果、多くの項目において、どの行動をとるべきか明確なコンセンサスがないことが確認された。 プラットフォーム行動にふさわしい項目がいくつあるかという点では、党派的な違いはないが、リベラル派は保守的なソースからのコンテンツに対するアクションを少しだけ好んでいる。 我々は、認識された重大さの明確な階層を見つけ、情報を最も厳しい行動とみなし、次に減らし、そして取り除く。 また,「誤解」と「危害」という2つの総合的性質に関する判断が,利率者の多数派がどのような行為を承認するかを判断する効果的な指標となることも見いだした。 我々は、人々の意志を約束しながら、解決しなければならない実践的な詳細を認めながら締めくくります。

To reduce the spread of misinformation, social media platforms may take enforcement actions against offending content, such as adding informational warning labels, reducing distribution, or removing content entirely. However, both their actions and their inactions have been controversial and plagued by allegations of partisan bias. The controversy in part can be explained by a lack of clarity around what actions should be taken, as they may not neatly reduce to questions of factual accuracy. When decisions are contested, the legitimacy of decision-making processes becomes crucial to public acceptance. Platforms have tried to legitimize their decisions by following well-defined procedures through rules and codebooks. In this paper, we consider an alternate source of legitimacy -- the will of the people. Surprisingly little is known about what ordinary people want the platforms to do about specific content. We provide empirical evidence about lay raters' preferences for platform actions on 368 news articles. Our results confirm that on many items there is no clear consensus on which actions to take. There is no partisan difference in terms of how many items deserve platform actions but liberals do prefer somewhat more action on content from conservative sources, and vice versa. We find a clear hierarchy of perceived severity, with inform being the least severe action, followed by reduce, and then remove. We also find that judgments about two holistic properties, misleadingness and harm, could serve as an effective proxy to determine what actions would be approved by a majority of raters. We conclude with the promise of the will of the people while acknowledging the practical details that would have to be worked out.
翻訳日:2023-02-19 14:37:46 公開日:2022-02-01
# サッカーにおける支配空間の物理駆動研究

A physics-driven study of dominance space in soccer ( http://arxiv.org/abs/2202.00414v1 )

ライセンス: Link先を確認
Costas J. Efthimiou, Gregory DeCamillis, Indranil Ghosh(参考訳) arXiv:2107.05714では、ボロノイ図の概念が理論的観点から密接に研究された。 そして, サッカーにおける支配空間の改良モデルを作成するために, 物理駆動運動学法が導入された。 決定論的アプローチを忠実に保ちながら、我々は原著を導入によって拡張する (a)周囲のプレイヤーの非対称的な影響 (b)選手の動きに対する摩擦力、及び (c)両方の効果の同時組み合わせ。 非対称な影響はかなり直感的であり、プレイヤーは他のどの方向よりも多くの方向を制御できる。 ピッチ上の点に到達しなければならない曲がり角が鋭くなるほど、その点の制御力が弱くなる。 単純なキネマティック法則から、この効果は明確に定量化することができる。 摩擦力については、一部は空気抵抗によるものであり、流体力学でよく知られているようにプレイヤーの速度の2乗に比例する。 その他の外部摩擦力はないが、生体運動学の提言では、筋肉によるエネルギー消費に関連する内部摩擦力があり、これはプレイヤーの速度に比例する。 これらの追加は直感的に理解されているが、数学的には多くの解析的複雑性をもたらす。 我々は、いくつかの合理的な単純化仮定を導入することにより、ピッチの優位領域の正確な解析解を確立する。 これらの解を考えると、新しいボロノイ図はMetrica Sportsによって公開されているデータのために描かれる。 一般に、支配領域が凸である必要はなくなったが、それらは穴を含む可能性があり、切断される可能性がある。 最速のプレイヤーが他のプレイヤーから遠く離れた地点を支配するかもしれない。

In arXiv:2107.05714 the concept of the Voronoi diagram was investigated closely from a theoretical point of view. Then, a physics-driven kinematical method was introduced to produce an improved model for dominance space in soccer. Remaining faithful to the deterministic approach, we extend the original work by the introduction of (a) an asymmetric influence of the players in their surrounding area, (b) the frictional forces to the players' motion, and (c) the simultaneous combination of both effects. The asymmetric influence is fairly intuitive; players have more control in the direction they are running than any other direction. The sharper the turn they must make to reach a point on the pitch, the weaker their control of that point will be. From simple kinematical laws, this effect can be quantified explicitly. For the frictional force, a portion comes from air resistance, and so will be proportional to the square of the player's speed, as is well known from fluid dynamics. There are no other external frictional forces, but, at the suggestion of biokinematics, there is an internal frictional force, relating to the consumption of energy by the muscles, which is proportional to the player's speed. Although these additions are intuitively understood, mathematically they introduce many analytical complexities. We establish exact analytical solutions of the dominance areas of the pitch by introducing a few reasonable simplifying assumptions. Given these solutions the new Voronoi diagrams are drawn for the publicly available data by Metrica Sports. In general, it is not necessary anymore for the dominance regions to be convex, they might contain holes, and may be disconnected. The fastest player may dominate points far away from the rest of the players.
翻訳日:2023-02-19 14:37:01 公開日:2022-02-01
# フリーハンドスケッチのためのディープラーニング: 調査

Deep Learning for Free-Hand Sketch: A Survey ( http://arxiv.org/abs/2001.02600v3 )

ライセンス: Link先を確認
Peng Xu, Timothy M. Hospedales, Qiyue Yin, Yi-Zhe Song, Tao Xiang, Liang Wang(参考訳) フリーハンドのスケッチは非常にイラスト的であり、古代から現代までの物や物語を描くために人間によって広く用いられてきた。 タッチスクリーンデバイスが最近普及し、スケッチ作成がこれまで以上に簡単になったため、スケッチ指向のアプリケーションがますます人気になった。 ディープラーニングの進歩は、フリーハンドのスケッチ研究と応用に大きな恩恵をもたらした。 本稿では,フリーハンドスケッチデータに指向するディープラーニング技術とその応用について,包括的調査を行う。 本調査の主な内容は以下のとおりである。 一 スケッチデータと他のデータモダリティ、例えば自然写真との本質的な差異を強調するために、フリーハンドスケッチの固有の特徴とユニークな課題について議論すること。 (ii)詳細な分類と実験的評価を通して既存のデータセット、研究トピック、最先端手法を調査して、深層学習時代のフリーハンドスケッチ研究の発展を振り返る。 (iii)ボトルネック、オープン問題、コミュニティの潜在的な研究方向に関する議論による今後の作業の促進。

Free-hand sketches are highly illustrative, and have been widely used by humans to depict objects or stories from ancient times to the present. The recent prevalence of touchscreen devices has made sketch creation a much easier task than ever and consequently made sketch-oriented applications increasingly popular. The progress of deep learning has immensely benefited free-hand sketch research and applications. This paper presents a comprehensive survey of the deep learning techniques oriented at free-hand sketch data, and the applications that they enable. The main contents of this survey include: (i) A discussion of the intrinsic traits and unique challenges of free-hand sketch, to highlight the essential differences between sketch data and other data modalities, e.g., natural photos. (ii) A review of the developments of free-hand sketch research in the deep learning era, by surveying existing datasets, research topics, and the state-of-the-art methods through a detailed taxonomy and experimental evaluation. (iii) Promotion of future work via a discussion of bottlenecks, open problems, and potential research directions for the community.
翻訳日:2023-01-13 10:10:40 公開日:2022-02-01
# 再帰、進化、意識

Recursion, evolution and conscious self ( http://arxiv.org/abs/2001.11825v3 )

ライセンス: Link先を確認
A.D. Arvanitakis(参考訳) 自己参照の潜在的な計算現象(すなわち、そのプログラムを入力として持つアルゴリズムの潜在的な能力)に基づいて、大まかに自動的な学習理論、すなわち、初期プログラミングの最小の必要のない学習理論を導入し、研究する。 結論は生物学と神経科学の両方の科学的知見と一致し、進化に関する(ダーウィン主義と合わせて)多くの説明と、人間の脳の機能と学習能力の両方を提供する。

We introduce and study a learning theory which is roughly automatic, that is, it does not require but a minimum of initial programming, and is based on the potential computational phenomenon of self-reference, (i.e. the potential ability of an algorithm to have its program as an input). The conclusions agree with scientific findings in both biology and neuroscience and provide a plethora of explanations both (in conjunction with Darwinism) about evolution, as well as for the functionality and learning capabilities of human brain, (most importantly), as we perceive them in ourselves.
翻訳日:2023-01-11 14:04:44 公開日:2022-02-01
# 情報拡散における相互作用:確率ブロックモデルを用いた量化と解釈

Interactions in information spread: quantification and interpretation using stochastic block models ( http://arxiv.org/abs/2004.04552v3 )

ライセンス: Link先を確認
Ga\"el Poux-M\'edard, Julien Velcin, Sabine Loudcher(参考訳) ほとんどの実世界のアプリケーションでは、与えられた観測可能が環境から独立して進化するケースはほとんどない。 ソーシャルネットワークでは、ユーザの行動は、対話する人、フィード内のニュース、あるいはトレンドトピックから得られる。 自然言語では、句の意味は単語の組み合わせから生じる。 一般的な医学では、症状の相互作用に基づいて診断が確立される。 本稿では、エンティティ間の相互作用(ハッシュタグ、単語、ミームなど)の役割を調査し、上記のコーパスの中でそれらの重要性を定量化するIMMSBM(Interactive Mixed Membership Stochastic Block Model)を提案する。 これらのコーパスでは,相互作用が重要な役割を担っている。 推論タスクでは、それらを考慮すれば、結果の確率の最大150\%の非相互作用モデルに対する平均的な相対的な変化につながる。 さらに、その役割はモデルの予測能力を大幅に向上させる。 実世界の現象をモデル化するときの相互作用の無視は、誤った結論をもたらす可能性がある。

In most real-world applications, it is seldom the case that a given observable evolves independently of its environment. In social networks, users' behavior results from the people they interact with, news in their feed, or trending topics. In natural language, the meaning of phrases emerges from the combination of words. In general medicine, a diagnosis is established on the basis of the interaction of symptoms. Here, we propose a new model, the Interactive Mixed Membership Stochastic Block Model (IMMSBM), which investigates the role of interactions between entities (hashtags, words, memes, etc.) and quantifies their importance within the aforementioned corpora. We find that interactions play an important role in those corpora. In inference tasks, taking them into account leads to average relative changes with respect to non-interactive models of up to 150\% in the probability of an outcome. Furthermore, their role greatly improves the predictive power of the model. Our findings suggest that neglecting interactions when modeling real-world phenomena might lead to incorrect conclusions being drawn.
翻訳日:2022-12-15 02:28:27 公開日:2022-02-01
# サドル点周辺の勾配降下軌道近似のための出口時間解析

Exit Time Analysis for Approximations of Gradient Descent Trajectories Around Saddle Points ( http://arxiv.org/abs/2006.01106v2 )

ライセンス: Link先を確認
Rishabh Dixit, Mert Gurbuzbalaban, and Waheed U. Bajwa(参考訳) 本稿では,初期境界条件下でのサドル地区からの勾配関連一階法軌跡の退避時間について考察する。 サドル点を取り囲む「平坦」な幾何学を考えると、一階法は、遭遇する勾配の小さいため、これらの領域を素早く脱出するのに苦労する。 特に、勾配関連一階法は厳密なサドル近傍を逃れることが知られているが、既存の解析手法は勾配軌道の挙動を制御するためにサドル点周辺の局所幾何学を明示的に活用していない。 この文脈では, 行列摂動理論を用いて, 厳密なサドル近傍における勾配-日射法の厳密な幾何学的解析を行う。 そうすることで、任意の初期条件に対して近似勾配軌道を生成するのに使用できる重要な結果が得られる。 さらに, 本解析は, 問題次元への依存, サドル近傍の条件付けなど, 厳密なサドル関数のクラスを明示的に引き出すような, 一定の初期条件下での勾配-descent法に対する線形終了時間解を導出する。

This paper considers the problem of understanding the exit time for trajectories of gradient-related first-order methods from saddle neighborhoods under some initial boundary conditions. Given the `flat' geometry around saddle points, first-order methods can struggle to escape these regions in a fast manner due to the small magnitudes of gradients encountered. In particular, while it is known that gradient-related first-order methods escape strict-saddle neighborhoods, existing analytic techniques do not explicitly leverage the local geometry around saddle points in order to control behavior of gradient trajectories. It is in this context that this paper puts forth a rigorous geometric analysis of the gradient-descent method around strict-saddle neighborhoods using matrix perturbation theory. In doing so, it provides a key result that can be used to generate an approximate gradient trajectory for any given initial conditions. In addition, the analysis leads to a linear exit-time solution for gradient-descent method under certain necessary initial conditions, which explicitly bring out the dependence on problem dimension, conditioning of the saddle neighborhood, and more, for a class of strict-saddle functions.
翻訳日:2022-11-26 07:50:37 公開日:2022-02-01
# 信号解析と機械学習を用いた物理行動分類

Physical Action Categorization using Signal Analysis and Machine Learning ( http://arxiv.org/abs/2008.06971v2 )

ライセンス: Link先を確認
Asad Mansoor Khan, Ayesha Sadiq, Sajid Gul Khawaja, Norah Saleh Alghamdi, Muhammad Usman Akram, Ali Saeed(参考訳) 世界中の何千人もの個人の日常生活は、四肢運動に関連する身体的または精神的な障害によって苦しめられている。 このような個人の生活の質は、補助的なアプリケーションやシステムを使うことで、より良くすることができる。 このようなシナリオでは、運動からコンピュータ支援アプリケーションへの物理的なアクションのマッピングが解決の道のりを導くことができる。 表面筋電図 (SEMG) は, 物理的運動を信号に変換して分類し, 使用するための非侵襲的なメカニズムを示す。 本稿では,4つの物理行動の分類のための機械学習に基づくフレームワークを提案する。 このフレームワークは、時間領域、周波数領域、高次統計、チャネル間統計から貢献する様々なモダリティの様々な特徴を考察する。 次に,特徴集合を用いたk-NN, SVM, ELM分類器の比較分析を行った。 特徴集合の異なる組み合わせの影響も記録されている。 最後に、機能のサブセットに対するSVMと1-NNベースの分類器による分類器の精度は、それぞれ95.21と95.83の精度を与える。 さらに,PCAによる次元減少は,元の特徴セットの9.22%しか使用せず,精度が5.55%未満の小さな低下にしかならないことも示唆している。 これらの発見はアルゴリズム設計者がアルゴリズムの実行に利用可能なリソースを念頭に置いて最良のアプローチを選択するのに役立つ。

Daily life of thousands of individuals around the globe suffers due to physical or mental disability related to limb movement. The quality of life for such individuals can be made better by use of assistive applications and systems. In such scenario, mapping of physical actions from movement to a computer aided application can lead the way for solution. Surface Electromyography (sEMG) presents a non-invasive mechanism through which we can translate the physical movement to signals for classification and use in applications. In this paper, we propose a machine learning based framework for classification of 4 physical actions. The framework looks into the various features from different modalities which contribution from time domain, frequency domain, higher order statistics and inter channel statistics. Next, we conducted a comparative analysis of k-NN, SVM and ELM classifier using the feature set. Effect of different combinations of feature set has also been recorded. Finally, the classifier accuracy with SVM and 1-NN based classifier for a subset of features gives an accuracy of 95.21 and 95.83 respectively. Additionally, we have also proposed that dimensionality reduction by use of PCA leads to only a minor drop of less than 5.55% in accuracy while using only 9.22% of the original feature set. These finding are useful for algorithm designer to choose the best approach keeping in mind the resources available for execution of algorithm.
翻訳日:2022-10-28 12:07:34 公開日:2022-02-01
# グラフニューラルネットワークと複数の証拠の調和を用いたcovid-19の薬物再導入

Drug repurposing for COVID-19 using graph neural network and harmonizing multiple evidence ( http://arxiv.org/abs/2009.10931v3 )

ライセンス: Link先を確認
Kanglin Hsieh, Yinyin Wang, Luyao Chen, Zhongming Zhao, Sean Savitz, Xiaoqian Jiang, Jing Tang, Yejin Kim(参考訳) SARS-CoV-2が感染した2019年の新型コロナウイルス(COVID-19)のパンデミックが続く中、予防と治療のための薬物研究が急速に行われているが、これらの取り組みは今のところ成功していない。 本研究の目的は,複数のSARS-CoV-2と薬物相互作用,ディープグラフニューラルネットワーク,ビトロ/ポピュレーションに基づくバリデーションを体系的に統合する薬物再資源パイプラインを用いて,再資源化可能な薬剤を優先することである。 まず、ctdbaseを通じて、covid-19患者の治療にかかわる利用可能な薬物(n=3,635)を収集した。 ウイルスベイト,宿主遺伝子,経路,薬物,表現型間の相互作用に基づくSARS-CoV-2知識グラフを構築した。 ディープグラフニューラルネットワークを用いて、生物学的相互作用に基づいて候補表現を導出した。 臨床治験歴を用いて候補薬剤を優先し,遺伝子プロファイル,in vitro実験の有効性,電子健康記録で検証した。 Azithromycin, Atorvastatin, Aspirin, Acetaminophen, Albuterolを含むトップ22の薬剤について検討した。 さらに、covid-19を相乗的にターゲットとする薬物の組み合わせについても指摘しました。 まとめると、広範囲な相互作用、深層ニューラルネットワーク、厳密な検証の統合によって、新型コロナウイルス治療の候補薬の迅速な識別が容易になることを実証した。 最終認証版は、https://www.nature.com/articles/s41598-021-02353-5でオンラインで入手できる。

Amid the pandemic of 2019 novel coronavirus disease (COVID-19) infected by SARS-CoV-2, a vast amount of drug research for prevention and treatment has been quickly conducted, but these efforts have been unsuccessful thus far. Our objective is to prioritize repurposable drugs using a drug repurposing pipeline that systematically integrates multiple SARS-CoV-2 and drug interactions, deep graph neural networks, and in-vitro/population-based validations. We first collected all the available drugs (n= 3,635) involved in COVID-19 patient treatment through CTDbase. We built a SARS-CoV-2 knowledge graph based on the interactions among virus baits, host genes, pathways, drugs, and phenotypes. A deep graph neural network approach was used to derive the candidate representation based on the biological interactions. We prioritized the candidate drugs using clinical trial history, and then validated them with their genetic profiles, in vitro experimental efficacy, and electronic health records. We highlight the top 22 drugs including Azithromycin, Atorvastatin, Aspirin, Acetaminophen, and Albuterol. We further pinpointed drug combinations that may synergistically target COVID-19. In summary, we demonstrated that the integration of extensive interactions, deep neural networks, and rigorous validation can facilitate the rapid identification of candidate drugs for COVID-19 treatment. This is a post-peer-review, pre-copyedit version of an article published in Scientific Reports The final authenticated version is available online at: https://www.nature.com/articles/s41598-021-02353-5
翻訳日:2022-10-15 16:57:41 公開日:2022-02-01
# ulixes: 敵対的機械学習による顔認識プライバシ

Ulixes: Facial Recognition Privacy with Adversarial Machine Learning ( http://arxiv.org/abs/2010.10242v2 )

ライセンス: Link先を確認
Thomas Cilloni, Wei Wang, Charles Walter, Charles Fleming(参考訳) 顔認識ツールは、画像から人を識別するのに非常に正確になっている。 しかし、これは写真管理(ソーシャルメディアプラットフォームなど)を伴うオンラインサービスのユーザのプライバシのコストにかかっている。 特に問題なのは、ユーザがイメージをラベル付けしていない場合でも、教師なし学習を利用して顔を認識することだ。 本稿では,顔エンコーダの埋め込み空間における識別可能なユーザクラスタの形成を防止し,非侵襲的な顔ノイズマスクを視覚的に生成する手法であるulixesを提案する。 これは、ユーザーがアンマスクされ、ラベル付き画像がオンラインで利用可能である場合でも適用できる。 様々な分類法とクラスタリング法が,我々が生成する逆例を確実にラベル付けできないことを示すことにより,ulixesの有効性を実証する。 また,様々なブラックボックス設定におけるulixesの効果について検討し,それと機械学習の現在の技術との比較を行った。 最後に,Ulixesの対向訓練モデルに対する有効性に挑戦し,その対策が堅牢であることを示す。

Facial recognition tools are becoming exceptionally accurate in identifying people from images. However, this comes at the cost of privacy for users of online services with photo management (e.g. social media platforms). Particularly troubling is the ability to leverage unsupervised learning to recognize faces even when the user has not labeled their images. In this paper we propose Ulixes, a strategy to generate visually non-invasive facial noise masks that yield adversarial examples, preventing the formation of identifiable user clusters in the embedding space of facial encoders. This is applicable even when a user is unmasked and labeled images are available online. We demonstrate the effectiveness of Ulixes by showing that various classification and clustering methods cannot reliably label the adversarial examples we generate. We also study the effects of Ulixes in various black-box settings and compare it to the current state of the art in adversarial machine learning. Finally, we challenge the effectiveness of Ulixes against adversarially trained models and show that it is robust to countermeasures.
翻訳日:2022-10-05 06:29:29 公開日:2022-02-01
# Wasserstein-2カーネルを用いた階層ガウス過程

Hierarchical Gaussian Processes with Wasserstein-2 Kernels ( http://arxiv.org/abs/2010.14877v2 )

ライセンス: Link先を確認
Sebastian Popescu, David Sharp, James Cole and Ben Glocker(参考訳) ガウス過程の積み重ねは、モデルの異常値検出能力を大幅に低下させ、非ゼロ平均関数と組み合わせると、より低い非パラメトリック分散を低トレーニングデータ密度領域に外挿する。 Varifold理論から着想を得たハイブリッドカーネルを提案し、ユークリッド空間とワッサーシュタイン空間の両方で動作する。 Wasserstein-2 距離の計算のばらつきを考慮に入れることは、階層全体の不整合状態を維持する上で重要であると仮定する。 本研究では,中規模・大規模データセットの性能向上と,玩具および実データにおける分布外検出の強化について述べる。

Stacking Gaussian Processes severely diminishes the model's ability to detect outliers, which when combined with non-zero mean functions, further extrapolates low non-parametric variance to low training data density regions. We propose a hybrid kernel inspired from Varifold theory, operating in both Euclidean and Wasserstein space. We posit that directly taking into account the variance in the computation of Wasserstein-2 distances is of key importance towards maintaining outlier status throughout the hierarchy. We show improved performance on medium and large scale datasets and enhanced out-of-distribution detection on both toy and real data.
翻訳日:2022-10-02 04:55:41 公開日:2022-02-01
# (参考訳) マクロな交通状態推定のためのハイブリッド物理機械学習手法

A Hybrid Physics Machine Learning Approach for Macroscopic Traffic State Estimation ( http://arxiv.org/abs/2202.01888v1 )

ライセンス: CC BY 4.0
Zhao Zhang, Ding Zhao, Xianfeng Terry Yang(参考訳) 高速道路におけるインテリジェントトランスポーテーションシステム(ITS)の運用の成功には、フルフィールドの交通状況情報(流れ、速度、密度など)が不可欠である。 しかし,ほとんどの地域では不十分な交通検知器から不完全な交通情報が直接収集される傾向にあり,ITSの普及の大きな障害となっている。 本稿では,トラヒック物理モデル(第2次マクロトラヒックフローモデルなど)を用いて,トラヒックセンサからの限られた情報を入力として使用し,高速道路システムのための高精度かつフルフィールドな推定トラヒック状態を構築できる,ハイブリッド回帰型機械学習手法(例えば,ニューラルネットワーク(ann),ランダムフォレスト(rf),サポートベクタマシン(svm))をハイブリッド化した,革新的なトラヒック状態推定(tse)フレームワークを提案する。 提案するTSEフレームワークの有効性を検討するため,ユタ州ソルトレイクシティのI-15高速道路から収集した実世界のデータセットについて実験的検討を行った。 実験の結果,提案手法は実地交通情報を正確に推定できることが証明された。 したがって,提案手法は高精度かつフルフィールドの交通情報を提供し,ITSの普及の基盤となる。

Full-field traffic state information (i.e., flow, speed, and density) is critical for the successful operation of Intelligent Transportation Systems (ITS) on freeways. However, incomplete traffic information tends to be directly collected from traffic detectors that are insufficiently installed in most areas, which is a major obstacle to the popularization of ITS. To tackle this issue, this paper introduces an innovative traffic state estimation (TSE) framework that hybrid regression machine learning techniques (e.g., artificial neural network (ANN), random forest (RF), and support vector machine (SVM)) with a traffic physics model (e.g., second-order macroscopic traffic flow model) using limited information from traffic sensors as inputs to construct accurate and full-field estimated traffic state for freeway systems. To examine the effectiveness of the proposed TSE framework, this paper conducted empirical studies on a real-world data set collected from a stretch of I-15 freeway in Salt Lake City, Utah. Experimental results show that the proposed method has been proved to estimate full-field traffic information accurately. Hence, the proposed method could provide accurate and full-field traffic information, thus providing the basis for the popularization of ITS.
翻訳日:2022-02-14 00:31:29 公開日:2022-02-01
# (参考訳) 深層学習と信号分解法を用いた短期多層住宅電力負荷予測

Short-term Multi-horizon Residential Electric Load Forecasting using Deep Learning and Signal Decomposition Methods ( http://arxiv.org/abs/2202.03264v1 )

ライセンス: CC BY 4.0
Mohamed Aymane Ahajjam, Daniel Bonilla Licea, Mounir Ghogho, Abdellatif Kobbane(参考訳) 先進的なデジタル技術の急成長に伴い、家庭の電力消費に関する詳細かつタイムリーな情報を得ることができるようになった。 これらの技術は家庭の電力消費量(すなわち負荷)を予測するのにも使うことができる。 本稿では,変動モード分解法と深層学習法を用いて,負荷予測問題の精度を向上させる手法について検討する。 この問題は文献で研究されているが、適切な分解レベルとより良い予測性能を提供するディープラーニング技術の選択は、比較的注目されていない。 この研究は、6つの分解レベルと5つの異なるディープラーニングネットワークの効果を研究することで、このギャップを埋める。 原負荷プロファイルは、まず変動モード分解を用いて本質モード関数に分解され、非定常的な側面を緩和する。 そして、4レベルウェーブレット分解ネットワークモデルに3次元入力シーケンスとして、日、時間、過去の電力消費データを供給する。 最後に、異なる固有モード関数に関連する予測シーケンスを結合して集約予測シーケンスを形成する。 提案手法は,モロッコの5世帯の電力消費データセット(MORED)の負荷プロファイルを用いて評価し,現状の時系列モデルとベースラインの持続性モデルと比較した。

With the booming growth of advanced digital technologies, it has become possible for users as well as distributors of energy to obtain detailed and timely information about the electricity consumption of households. These technologies can also be used to forecast the household's electricity consumption (a.k.a. the load). In this paper, we investigate the use of Variational Mode Decomposition and deep learning techniques to improve the accuracy of the load forecasting problem. Although this problem has been studied in the literature, selecting an appropriate decomposition level and a deep learning technique providing better forecasting performance have garnered comparatively less attention. This study bridges this gap by studying the effect of six decomposition levels and five distinct deep learning networks. The raw load profiles are first decomposed into intrinsic mode functions using the Variational Mode Decomposition in order to mitigate their non-stationary aspect. Then, day, hour, and past electricity consumption data are fed as a three-dimensional input sequence to a four-level Wavelet Decomposition Network model. Finally, the forecast sequences related to the different intrinsic mode functions are combined to form the aggregate forecast sequence. The proposed method was assessed using load profiles of five Moroccan households from the Moroccan buildings' electricity consumption dataset (MORED) and was benchmarked against state-of-the-art time-series models and a baseline persistence model.
翻訳日:2022-02-14 00:17:52 公開日:2022-02-01
# (参考訳) 運転行動分類のためのスマートフォンを用いた機械学習センシング

A Machine Learning Smartphone-based Sensing for Driver Behavior Classification ( http://arxiv.org/abs/2202.01893v1 )

ライセンス: CC BY 4.0
Sarra Ben Brahim, Hakim Ghazzai, Hichem Besbes, Yehia Massoud(参考訳) ドライバーの行動プロファイリングは、保険業界やフリートマネジメントの主要な問題の一つであり、低コストのモバイルアプリケーションでドライバーの行動を分類できることは、自動運転のスポットライトのままである。 しかし、モバイルセンサーを使うことは、セキュリティ、プライバシー、信頼の問題に直面する可能性がある。 これらの課題を克服するために,スマートフォン(加速度計,ジャイロスコープ,GPS)で利用可能なCarla Simulatorを用いて,現在の道路および気象条件の速度制限を考慮した速度,加速度,方向,3軸回転角(ヨー,ピッチ,ロール)を用いて運転者の行動の分類を行うことを提案する。 第2に,複数のセンサから軸間データを1つのファイルに融合した後,時系列分類のための異なる機械学習アルゴリズムを探索し,最もパフォーマンスの高いアルゴリズムを評価する。

Driver behavior profiling is one of the main issues in the insurance industries and fleet management, thus being able to classify the driver behavior with low-cost mobile applications remains in the spotlight of autonomous driving. However, using mobile sensors may face the challenge of security, privacy, and trust issues. To overcome those challenges, we propose to collect data sensors using Carla Simulator available in smartphones (Accelerometer, Gyroscope, GPS) in order to classify the driver behavior using speed, acceleration, direction, the 3-axis rotation angles (Yaw, Pitch, Roll) taking into account the speed limit of the current road and weather conditions to better identify the risky behavior. Secondly, after fusing inter-axial data from multiple sensors into a single file, we explore different machine learning algorithms for time series classification to evaluate which algorithm results in the highest performance.
翻訳日:2022-02-13 23:54:27 公開日:2022-02-01
# (参考訳) 情報融合と変化検出による海洋航行のサイバーレジリエンス

Cyber-resilience for marine navigation by information fusion and change detection ( http://arxiv.org/abs/2202.03268v1 )

ライセンス: CC BY 4.0
Dimitrios Dagdilelis, Mogens Blanke, Rasmus Hjorth Andersen, Roberto Galeazzi(参考訳) サイバーレジリエンスは、船舶の自律航法ソリューション開発における関心が高まっている。 本稿では,複数のセンサ情報融合,非正常動作の診断,変化検出の3つのエッジを有するプリズムによる海洋航行のサイバーレジリエンス特性について検討する。 沿岸航法に用いるセンサ信号の診断と緩和のための2段階推定器を提案する。 Likelihood Fieldアプローチの開発の第1段階では、レーダーから海岸線の特徴を抽出し、それらを電子ナビゲーションチャートにマッチさせる。 第2ステージは、ブイとビーコンをレーダーからチャート情報に関連付ける。 海上試験で記録された実データと模擬スプーフィングを組み合わせることで、タイムリーに診断し、位置測定を妥協する試みを分離する能力を検証する。 個々の感覚入力の基盤となる技術とは無関係な、受信データの高レベルな処理に対して、その一貫性を評価する新しいアプローチが提案されている。 パラメトリックガウスモデルとカーネル密度推定の組み合わせを提案し,スライディングウインドウを用いた一般化された確率比変化検出器と比較した。 本論文は, 攻撃時やセンサの欠陥発生時に, コンポーネントの特異な振る舞いや分離からの逸脱がいかに可能かを示す。

Cyber-resilience is an increasing concern in developing autonomous navigation solutions for marine vessels. This paper scrutinizes cyber-resilience properties of marine navigation through a prism with three edges: multiple sensor information fusion, diagnosis of not-normal behaviours, and change detection. It proposes a two-stage estimator for diagnosis and mitigation of sensor signals used for coastal navigation. Developing a Likelihood Field approach, a first stage extracts shoreline features from radar and matches them to the electronic navigation chart. A second stage associates buoy and beacon features from the radar with chart information. Using real data logged at sea tests combined with simulated spoofing, the paper verifies the ability to timely diagnose and isolate an attempt to compromise position measurements. A new approach is suggested for high level processing of received data to evaluate their consistency, that is agnostic to the underlying technology of the individual sensory input. A combined parametric Gaussian modelling and Kernel Density Estimation is suggested and compared with a generalized likelihood ratio change detector that uses sliding windows. The paper shows how deviations from nominal behaviour and isolation of the components is possible when under attack or when defects in sensors occur.
翻訳日:2022-02-13 23:45:09 公開日:2022-02-01
# FisrEbp: リスク内とスパイルオーバーリスクを融合した企業破産予測

FisrEbp: Enterprise Bankruptcy Prediction via Fusing its Intra-risk and Spillover-Risk ( http://arxiv.org/abs/2202.03874v1 )

ライセンス: Link先を確認
Yu Zhao, Shaopeng Wei, Yu Guo, Qing Yang, Gang Kou(参考訳) 本稿では,企業倒産リスクのモデルとして,リスク内リスクと流出リスクを融合してモデル化する。 本研究では,LSTMベースのリスク内エンコーダとGNNベースのリスク内エンコーダを備える新しい手法を提案する。 具体的には、リスク内エンコーダは、基本業務情報と訴訟情報から統計相関指標を用いて、企業内リスクを捕捉することができる。 流出リスクエンコーダはハイパーグラフニューラルネットワークとヘテロジニアスグラフニューラルネットワークから構成されており、企業知識グラフ間のハイパーエッジと多重ヘテロジニアスの関係という2つの側面を通じて流出リスクをモデル化することを目的としている。 提案モデルを評価するため,複数ソースの中小企業データを収集し,提案手法の優位性を示す新しいデータセットSMEsDを構築した。 このデータセットは中小企業の倒産予測のための重要なベンチマークデータセットとなり、金融リスク研究のさらなる発展を促進することが期待されている。

In this paper, we propose to model enterprise bankruptcy risk by fusing its intra-risk and spillover-risk. Under this framework, we propose a novel method that is equipped with an LSTM-based intra-risk encoder and GNNs-based spillover-risk encoder. Specifically, the intra-risk encoder is able to capture enterprise intra-risk using the statistic correlated indicators from the basic business information and litigation information. The spillover-risk encoder consists of hypergraph neural networks and heterogeneous graph neural networks, which aim to model spillover risk through two aspects, i.e. hyperedge and multiplex heterogeneous relations among enterprise knowledge graph, respectively. To evaluate the proposed model, we collect multi-sources SMEs data and build a new dataset SMEsD, on which the experimental results demonstrate the superiority of the proposed method. The dataset is expected to become a significant benchmark dataset for SMEs bankruptcy prediction and promote the development of financial risk study further.
翻訳日:2022-02-13 14:39:47 公開日:2022-02-01
# 重み付きランダムカットフォレストアルゴリズムによる異常検出

Weighted Random Cut Forest Algorithm for Anomaly Detections ( http://arxiv.org/abs/2202.01891v1 )

ライセンス: Link先を確認
Sijin Yeom and Jae-Hun Jung(参考訳) ランダムカットフォレスト(RCF)アルゴリズムは,特に時系列データにおける異常検出のために開発されている。 RCFアルゴリズムは分離森林アルゴリズムの改良版である。 分離フォレストアルゴリズムとは異なり、RCFアルゴリズムは、構築されたツリーネットワークに入力を挿入することでリアルタイム入力が異常であるかどうかを判定する能力を有する。 Robust RCF (RRCF) を含む様々な RCF アルゴリズムが開発されており、カット手順は確率的に適応的に選択される。 RRCFは、データの幾何学的範囲に基づいて切断寸法を決定するため、孤立林と比較して優れた性能を示す。 しかし、全体的なデータ構造はRRCFによる適応的切断アルゴリズムでは考慮されていない。 本稿では,重み付きRCF(WRCF)と呼ばれる新しいRCFを提案する。 WRCFを導入するために、我々はまず、WRCFの構築に不可欠である新しい幾何測度、すなわち \textit{density measure}を導入する。 我々は密度測定の様々な数学的性質を提供する。 提案したWRCFは木ネットワークを適応的に切断するが,データの密度を考慮した。 提案手法は,データを構造化し,rrcfよりも高速に所望の異常スコアを得る場合,より効率的である。 我々の主張を数値的な例で証明する定理を提供する。

Random cut forest (RCF) algorithms have been developed for anomaly detection, particularly for the anomaly detection in time-series data. The RCF algorithm is the improved version of the isolation forest algorithm. Unlike the isolation forest algorithm, the RCF algorithm has the power of determining whether the real-time input has anomaly by inserting the input in the constructed tree network. There have been developed various RCF algorithms including Robust RCF (RRCF) with which the cutting procedure is adaptively chosen probabilistically. RRCF shows better performance compared to the isolation forest as the cutting dimension is decided based on the geometric range of the data. The overall data structure is, however, not considered in the adaptive cutting algorithm with the RRCF. In this paper, we propose a new RCF, so-called the weighted RCF (WRCF). In order to introduce the WRCF, we first introduce a new geometric measure, i.e., a \textit{density measure} which is crucial for the construction of the WRCF. We provide various mathematical properties of the density measure. The proposed WRCF also cuts the tree network adaptively, but with consideration of the denseness of the data. The proposed method is more efficient when the data is structured and achieves the desired anomaly score more rapidly than the RRCF. We provide theorems that prove our claims with numerical examples.
翻訳日:2022-02-13 14:28:44 公開日:2022-02-01
# コンテキストインフォームドダイナミクスモデルによる新しい物理系への一般化

Generalizing to New Physical Systems via Context-Informed Dynamics Model ( http://arxiv.org/abs/2202.01889v1 )

ライセンス: Link先を確認
Matthieu Kirchmeyer (MLIA), Yuan Yin (MLIA), J\'er\'emie Don\`a (MLIA), Nicolas Baskiotis (MLIA), Alain Rakotomamonjy (LITIS), Patrick Gallinari (MLIA)(参考訳) 物理システムのモデリングに対するデータ駆動アプローチは、学習領域と同じ一般ダイナミクスを持つが、異なる物理コンテキストに対応する未認識のシステムへの一般化に失敗します。 本稿では,新しい力学への適応を迅速かつ効率的に行うために,システム間の分散シフトを考慮したコンテキストインフォームド・ダイナミクス・アダプティブ(CoDA)を提案する。 CoDAは異なる動的に関連付けられた複数の環境を活用し、各環境固有のコンテキストパラメータに動的モデルを条件付けることを学ぶ。 コンディショニングはハイパーネットワークを介して行われ、観測データからコンテキストベクトルと共同で学習される。 提案する定式化は探索仮説空間を制約し,高速な適応と環境間のより良い一般化を促進する。 既存のメソッドの表現性を拡張する。 理論的には、このアプローチを動機付け、様々なアプリケーションドメインを表現する非線形ダイナミクスの集合に最先端の一般化結果を示す。 また,これらのシステムでは,新しいシステムパラメータが最小限の監督でコンテキストベクトルから推測できることを示す。

Data-driven approaches to modeling physical systems fail to generalize to unseen systems that share the same general dynamics with the learning domain, but correspond to different physical contexts. We propose a new framework for this key problem, context-informed dynamics adaptation (CoDA), which takes into account the distributional shift across systems for fast and efficient adaptation to new dynamics. CoDA leverages multiple environments, each associated to a different dynamic, and learns to condition the dynamics model on contextual parameters, specific to each environment. The conditioning is performed via a hypernetwork, learned jointly with a context vector from observed data. The proposed formulation constrains the search hypothesis space to foster fast adaptation and better generalization across environments. It extends the expressivity of existing methods. We theoretically motivate our approach and show state-ofthe-art generalization results on a set of nonlinear dynamics, representative of a variety of application domains. We also show, on these systems, that new system parameters can be inferred from context vectors with minimal supervision.
翻訳日:2022-02-13 14:24:30 公開日:2022-02-01
# NeurIPS 2021でのTeam Cogitat: EEG Transfer Learning competitionのベンチマーク

Team Cogitat at NeurIPS 2021: Benchmarks for EEG Transfer Learning Competition ( http://arxiv.org/abs/2202.03267v1 )

ライセンス: Link先を確認
Stylianos Bakas, Siegfried Ludwig, Konstantinos Barmpas, Mehdi Bahri, Yannis Panagakis, Nikolaos Laskaris, Dimitrios A. Adamos, Stefanos Zafeiriou(参考訳) 脳波デコードのための主題非依存のディープラーニングモデルの構築は、異なるデータセット、主題、記録セッション間で強い共変量シフトの課題に直面している。 この課題に対処するためのアプローチは、単純な統計的手法とより表現力のある訓練可能な手法の両方を用いて、ディープラーニングモデルの様々な層に特徴分布を明示的に整列させることである。 これは共分散に基づくアライメント法と同様に、しばしばリーマン多様体の文脈で使われる。 ここで提案された方法論は、NeurIPSカンファレンスで開催された2021年のEEG Transfer Learning (BEETL)コンペで優勝した。 競争の最初のタスクは睡眠ステージの分類であり、若い被験者に訓練されたモデルに、個人化されたキャリブレーションデータなしで複数の年齢層の被験者を推論し、被験者に依存しないモデルを必要とする。 2つ目のタスクは、1つまたは複数のソースモーターイメージデータセットの被験者にトレーニングされたモデルを転送して、2つのターゲットデータセットで推論を行い、複数のテスト対象に対して少数のパーソナライズされたキャリブレーションデータを提供する。

Building subject-independent deep learning models for EEG decoding faces the challenge of strong covariate-shift across different datasets, subjects and recording sessions. Our approach to address this difficulty is to explicitly align feature distributions at various layers of the deep learning model, using both simple statistical techniques as well as trainable methods with more representational capacity. This follows in a similar vein as covariance-based alignment methods, often used in a Riemannian manifold context. The methodology proposed herein won first place in the 2021 Benchmarks in EEG Transfer Learning (BEETL) competition, hosted at the NeurIPS conference. The first task of the competition consisted of sleep stage classification, which required the transfer of models trained on younger subjects to perform inference on multiple subjects of older age groups without personalized calibration data, requiring subject-independent models. The second task required to transfer models trained on the subjects of one or more source motor imagery datasets to perform inference on two target datasets, providing a small set of personalized calibration data for multiple test subjects.
翻訳日:2022-02-13 14:24:13 公開日:2022-02-01
# MetaDLの進歩: AAAI 2021チャレンジとワークショップ

Advances in MetaDL: AAAI 2021 challenge and workshop ( http://arxiv.org/abs/2202.01890v1 )

ライセンス: Link先を確認
Adrian El Baz, Isabelle Guyon (TAU), Zhengying Liu (TAU), Jan van Rijn (LIACS), Sebastien Treguer, Joaquin Vanschoren (TU/e)(参考訳) 深層学習技術(MetaDL)を用いたメタラーニングの進歩を促進するため,2021年に課題と関連するワークショップを開催した。 本稿では,課題の設計とその成果について述べ,ワークショップで行ったプレゼンテーションを要約する。 課題は,小画像のマイナショット学習分類課題に焦点をあてた。 参加者のコードは厳密な計算制約の下で一様に実行される。 これにより、既存のアーキテクチャバックボーンやトレーニング済みネットワークを使用するソリューション設計に圧力がかかった。 優勝方法は、人気のあるcnnバックボーンの第2層上でトレーニングされた様々な分類器を特徴とし、メタトレーニングデータ(必ずしもエピソディックな方法ではない)に微調整され、ラベル付きサポートでトレーニングされ、メタテストデータのラベル付きクエリセット上でテストされた。

To stimulate advances in metalearning using deep learning techniques (MetaDL), we organized in 2021 a challenge and an associated workshop. This paper presents the design of the challenge and its results, and summarizes presentations made at the workshop. The challenge focused on few-shot learning classification tasks of small images. Participants' code submissions were run in a uniform manner, under tight computational constraints. This put pressure on solution designs to use existing architecture backbones and/or pre-trained networks. Winning methods featured various classifiers trained on top of the second last layer of popular CNN backbones, fined-tuned on the meta-training data (not necessarily in an episodic manner), then trained on the labeled support and tested on the unlabeled query sets of the meta-test data.
翻訳日:2022-02-13 14:23:53 公開日:2022-02-01
# (参考訳) 超音波音速再構成のための深層学習:訓練データの多様性が安定性とロバスト性に及ぼす影響

Deep Learning for Ultrasound Speed-of-Sound Reconstruction: Impacts of Training Data Diversity on Stability and Robustness ( http://arxiv.org/abs/2202.01208v1 )

ライセンス: CC BY 4.0
Farnaz Khun Jush, Markus Biele, Peter M. Dueppenbecker, Andreas Maier(参考訳) 超音波bモードイメージングは質的なアプローチであり、診断品質はオペレータのトレーニングと経験に強く依存する。 定量的なアプローチは、組織特性に関する情報を提供することができるため、組織中の音速などの様々な組織タイプを識別するために、特に乳房イメージングにおいて、組織悪性のバイオマーカーとして使用できる。 最近の研究では、シミュレーションデータに基づいて完全に訓練されたディープニューラルネットワークを用いた音速再構成の可能性を示した。 しかし、シミュレーションデータと測定データの間の領域シフトが続いているため、実際のセットアップにおけるこれらのモデルの安定性と性能はまだ議論中である。 本研究では,複数種類の幾何学的および自然シミュレーションファントム構造を用いて,トレーニングデータの多様性がネットワークの堅牢性に与える影響を検討した。 シミュレーションデータを用いて,ドメイン外エコー発生,ジオメトリ,ノイズの存在下でのネットワークの性能について検討した。 さらに, 実際のデータ取得装置における組織モデリングの安定性について検討した。 幾何および自然組織モデルを含むデータセットの合同でネットワークを訓練することで,シミュレーションデータと計測データの両方で予測される音速の安定性が向上することを示した。

Ultrasound b-mode imaging is a qualitative approach and diagnostic quality strongly depends on operators' training and experience. Quantitative approaches can provide information about tissue properties; therefore, can be used for identifying various tissue types, e.g., speed-of-sound in the tissue can be used as a biomarker for tissue malignancy, especially in breast imaging. Recent studies showed the possibility of speed-of-sound reconstruction using deep neural networks that are fully trained on simulated data. However, because of the ever present domain shift between simulated and measured data, the stability and performance of these models in real setups are still under debate. In this study, we investigated the impacts of training data diversity on the robustness of these networks by using multiple kinds of geometrical and natural simulated phantom structures. On the simulated data, we investigated the performance of the networks on out-of-domain echogenicity, geometries, and in the presence of noise. We further inspected the stability of employing such tissue modeling in a real data acquisition setup. We demonstrated that training the network with a joint set of datasets including both geometrical and natural tissue models improves the stability of the predicted speed-of-sound values both on simulated and measured data.
翻訳日:2022-02-05 05:40:02 公開日:2022-02-01
# (参考訳) 層状深層ネットワークは閉じた重みを持つ

Deep Layer-wise Networks Have Closed-Form Weights ( http://arxiv.org/abs/2202.01210v1 )

ライセンス: CC BY 4.0
Chieh Wu, Aria Masoomi, Arthur Gretton, Jennifer Dy(参考訳) 現在、脳がバックプロパゲーション(BP)を行う可能性について神経科学コミュニティ内で議論がある。 脳を模倣するために、bpをバイパスする代替として「シングルフォワードパス」のみを用いたネットワーク \textit{one layer at a time} のトレーニングが提案されている。 我々は,2つの優れた質問に答えることで,階層型ネットワークの研究を継続する。 まず、$\textit{彼らはクローズドフォームソリューションを持っていますか? 次に、なぜレイヤーを追加するのをやめるタイミングを知っていますか? この研究は、カーネル平均埋め込みがネットワーク全体の最適性を達成し、ネットワークを分類するために非常に望ましいカーネルへと収束させる閉形式重みであることを証明している。

There is currently a debate within the neuroscience community over the likelihood of the brain performing backpropagation (BP). To better mimic the brain, training a network \textit{one layer at a time} with only a "single forward pass" has been proposed as an alternative to bypass BP; we refer to these networks as "layer-wise" networks. We continue the work on layer-wise networks by answering two outstanding questions. First, $\textit{do they have a closed-form solution?}$ Second, $\textit{how do we know when to stop adding more layers?}$ This work proves that the Kernel Mean Embedding is the closed-form weight that achieves the network global optimum while driving these networks to converge towards a highly desirable kernel for classification; we call it the $\textit{Neural Indicator Kernel}$.
翻訳日:2022-02-05 05:38:59 公開日:2022-02-01
# 機械学習モデルの一般化可能性:3つの方法論的落とし穴の定量的評価

Generalizability of Machine Learning Models: Quantitative Evaluation of Three Methodological Pitfalls ( http://arxiv.org/abs/2202.01337v1 )

ライセンス: Link先を確認
Farhad Maleki, Katie Ovens, Rajiv Gupta, Caroline Reinhold, Alan Spatz, Reza Forghani(参考訳) 機械学習の大きな可能性にもかかわらず、一般化性の欠如は、日常的な臨床実践におけるこれらの技術の普及を妨げている。 本研究では,(1)独立性の仮定違反,(2)不適切な性能指標を用いたモデル評価,(3)バッチ効果,(3)これらの落とし穴が機械学習モデルの一般化可能性に与える影響について検討する。 頭頸部ct,肺ct,胸部x線,病理画像など,複数の医用画像データセットを用いてランダムフォレストおよび深層畳み込みニューラルネットワークモデルを実装し,これらの落とし穴の効果を定量化し,示す。 これらのモデルを落とし穴なく開発し、精度、精度、リコール、およびf1スコアの観点から結果モデルの性能を比較する。 その結果,独立仮説違反はモデル一般化可能性に大きく影響を及ぼす可能性が示唆された。 具体的には、(i)データをトレイン、バリデーション、テストセットに分割する前にオーバーサンプリングする、(ii)データを分割する前にデータ拡張を行う、(iii) トレーニング、バリデーション、テストセットを通して被験者のためのデータポイントを配布する、(iv) 分割前に特徴選択を適用すると、モデルパフォーマンスが表面的に向上する。 また,不適切な性能指標が誤った結論につながることも見出した。 また、バッチ効果は一般化性に欠けるモデルの開発につながる可能性がある。 前述の方法論的落とし穴は、過剰に最適化されたパフォーマンスを持つ機械学習モデルにつながる。 これらの誤りは内部モデル評価では捉えられず、モデルによる不正確な予測は間違った結論と解釈をもたらす可能性がある。 したがって、これらの落とし穴を避けることは一般化可能なモデルを開発する上で必要条件である。

Despite the great potential of machine learning, the lack of generalizability has hindered the widespread adoption of these technologies in routine clinical practice. We investigate three methodological pitfalls: (1) violation of independence assumption, (2) model evaluation with an inappropriate performance indicator, and (3) batch effect and how these pitfalls could affect the generalizability of machine learning models. We implement random forest and deep convolutional neural network models using several medical imaging datasets, including head and neck CT, lung CT, chest X-Ray, and histopathological images, to quantify and illustrate the effect of these pitfalls. We develop these models with and without the pitfall and compare the performance of the resulting models in terms of accuracy, precision, recall, and F1 score. Our results showed that violation of the independence assumption could substantially affect model generalizability. More specifically, (I) applying oversampling before splitting data into train, validation and test sets; (II) performing data augmentation before splitting data; (III) distributing data points for a subject across training, validation, and test sets; and (IV) applying feature selection before splitting data led to superficial boosts in model performance. We also observed that inappropriate performance indicators could lead to erroneous conclusions. Also, batch effect could lead to developing models that lack generalizability. The aforementioned methodological pitfalls lead to machine learning models with over-optimistic performance. These errors, if made, cannot be captured using internal model evaluation, and the inaccurate predictions made by the model may lead to wrong conclusions and interpretations. Therefore, avoiding these pitfalls is a necessary condition for developing generalizable models.
翻訳日:2022-02-04 14:28:45 公開日:2022-02-01
# クロスドメイン・ファウショット学習の理解 : 実験的検討

Understanding Cross-Domain Few-Shot Learning: An Experimental Study ( http://arxiv.org/abs/2202.01339v1 )

ライセンス: Link先を確認
Jaehoon Oh, Sungnyun Kim, Namgyu Ho, Jin-Hwa Kim, Hwanjun Song, Se-Young Yun(参考訳) クロスドメイン 少数ショット学習は、ソースとターゲットドメインの大きな違いを扱うことに注目が集まっている。 これらの大きな違いを克服するために、最近の研究は、訓練前の段階でターゲットドメインから小規模の未ラベルデータを活用することを検討している。 このデータは、ソースドメインの教師付き事前トレーニングに加えて、ターゲットドメインでの自己教師付き事前トレーニングを可能にする。 本稿では,各事前学習方式をドメインの類似度と少数ショット難易度に基づいて有利に利用するシナリオを実証的に検討する: ドメインの類似度が小さく,あるいは少数ショット難易度が低い場合,教師付き事前学習よりも自己教師付き事前学習の性能向上。 さらに、2つの事前学習スキーム、混合教師と2段階学習を設計し、性能を向上する。 本報では,領域の類似度や難易度が異なる3つのソースと8つのターゲットベンチマークデータセットについて,広範囲な実験と分析によって支援されたCD-FSLの7つの結果を示す。 私たちのコードはhttps://anonymous.4open.science/r/understandingCDFSLで利用可能です。

Cross-domain few-shot learning has drawn increasing attention for handling large differences between the source and target domains--an important concern in real-world scenarios. To overcome these large differences, recent works have considered exploiting small-scale unlabeled data from the target domain during the pre-training stage. This data enables self-supervised pre-training on the target domain, in addition to supervised pre-training on the source domain. In this paper, we empirically investigate scenarios under which it is advantageous to use each pre-training scheme, based on domain similarity and few-shot difficulty: performance gain of self-supervised pre-training over supervised pre-training increases when domain similarity is smaller or few-shot difficulty is lower. We further design two pre-training schemes, mixed-supervised and two-stage learning, that improve performance. In this light, we present seven findings for CD-FSL which are supported by extensive experiments and analyses on three source and eight target benchmark datasets with varying levels of domain similarity and few-shot difficulty. Our code is available at https://anonymous.4open.science/r/understandingCDFSL.
翻訳日:2022-02-04 14:21:28 公開日:2022-02-01
# 回帰変換器:数値およびテクスチュアルトークンのブレンディングによるコンカレント条件生成と回帰

Regression Transformer: Concurrent Conditional Generation and Regression by Blending Numerical and Textual Tokens ( http://arxiv.org/abs/2202.01338v1 )

ライセンス: Link先を確認
Jannis Born, Matteo Manica(参考訳) 本稿では,回帰を条件列モデリング問題として抽象化するレグレッショントランスフォーマ(rt)について報告する。 RTは数値トークンのシーケンスとして連続性をキャストし、それらを従来のトークンとともにエンコードする。 これにより、回帰タスクと条件生成タスクの間をシームレスに移行できる双対モデルが得られ、マスク位置によってのみ支配される。 我々は,XLNetの目的に対するいくつかの拡張を提案し,自己整合性損失に基づくプロパティ予測と条件文生成を同時に最適化する交互学習手法を採用した。 ケミカルおよびタンパクの両言語における実験により,クロスエントロピー損失の訓練にもかかわらず,従来の回帰モデルの性能を超越できることを示した。 重要なことに、同じモデルを連続的な特性でプライミングすると、制約された特性最適化ベンチマークにおいて、特別なアプローチよりも優れた競合条件生成モデルが得られる。 要するにRegression Transformerは、レグレッションと条件生成の両方で優れている"swiss Army knife"モデルのドアを開く。 このことは、特にプロパティ駆動で、化学またはタンパク質空間の局所的な探索に応用される。

We report the Regression Transformer (RT), a method that abstracts regression as a conditional sequence modeling problem. The RT casts continuous properties as sequences of numerical tokens and encodes them jointly with conventional tokens. This yields a dichotomous model that can seamlessly transition between solving regression tasks and conditional generation tasks; solely governed by the mask location. We propose several extensions to the XLNet objective and adopt an alternating training scheme to concurrently optimize property prediction and conditional text generation based on a self-consistency loss. Our experiments on both chemical and protein languages demonstrate that the performance of traditional regression models can be surpassed despite training with cross entropy loss. Importantly, priming the same model with continuous properties yields a highly competitive conditional generative models that outperforms specialized approaches in a constrained property optimization benchmark. In sum, the Regression Transformer opens the door for "swiss army knife" models that excel at both regression and conditional generation. This finds application particularly in property-driven, local exploration of the chemical or protein space.
翻訳日:2022-02-04 13:34:35 公開日:2022-02-01
# テキスト意図マイニングのための柔軟なクラスタリングパイプライン

A Flexible Clustering Pipeline for Mining Text Intentions ( http://arxiv.org/abs/2202.01211v1 )

ライセンス: Link先を確認
Xinyu Chen and Ian Beaver(参考訳) 大量の自然言語入力から潜伏する意図をマイニングすることは、データアナリストが顧客サービスとセールスサポートのためにIntelligent Virtual Assistants(IVA)を設計および洗練するための重要なステップである。 Verint Intent Manager(VIM)内にフレキシブルでスケーラブルなクラスタリングパイプラインを作成し、言語モデルの微調整、高性能なk-NNライブラリ、コミュニティ検出技術を統合して、アナリストが会話テキストから関連するユーザの意図を素早く把握し整理するのに役立つようにしました。 事前訓練された言語モデルでは、対象のテキストが見えないドメインから、あるいはクラスタリングタスクがトピック検出でない場合に、特定のクラスタリング構造を効率的に表現できないため、微調整のステップが必要である。 実世界の3つのテキストマイニングタスクにおいてBERTを用いてパイプラインを記述し,その性能を示す。 VIMアプリケーションにデプロイされるように、このクラスタリングパイプラインは、高品質な結果を生成し、データアナリストのパフォーマンスを改善し、カスタマサービスデータから意図を明らかにするのに要する時間を削減し、新たなドメインでのIVAの構築とデプロイに要する時間を削減します。

Mining the latent intentions from large volumes of natural language inputs is a key step to help data analysts design and refine Intelligent Virtual Assistants (IVAs) for customer service and sales support. We created a flexible and scalable clustering pipeline within the Verint Intent Manager (VIM) that integrates the fine-tuning of language models, a high performing k-NN library and community detection techniques to help analysts quickly surface and organize relevant user intentions from conversational texts. The fine-tuning step is necessary because pre-trained language models cannot encode texts to efficiently surface particular clustering structures when the target texts are from an unseen domain or the clustering task is not topic detection. We describe the pipeline and demonstrate its performance using BERT on three real-world text mining tasks. As deployed in the VIM application, this clustering pipeline produces high quality results, improving the performance of data analysts and reducing the time it takes to surface intentions from customer service data, thereby reducing the time it takes to build and deploy IVAs in new domains.
翻訳日:2022-02-04 13:32:42 公開日:2022-02-01
# (参考訳) 情報過剰:CDCLソルバは忘れ、再起動する必要がある

Too much information: CDCL solvers need to forget and perform restarts ( http://arxiv.org/abs/2202.01030v1 )

ライセンス: CC BY 4.0
Tom Kr\"uger and Jan-Hendrik Lorenz and Florian W\"orz(参考訳) 競合駆動型節学習(CDCL)は命題論理の満足度問題を解くための極めて成功したパラダイムである。 単純な深さ優先のバックトラックアプローチの代わりに、この種の解法は、追加の節の形で競合が発生する理由を学ぶ。 しかし、CDCLソルバの圧倒的な成功にもかかわらず、これらのソルバの性能にどのような影響を及ぼすかは、まだ理解されていない。 この論文は、節の学習(いくつかの節を削除せずに)がランタイムを改善できるだけでなく、しばしばそれを劇的に悪化させることを示した。 広範な経験的分析を行うことにより,CDCLソルバのランタイム分布が多モードであることが判明した。 この多モード性は、前述の劣化現象の理由と見なすことができる。 同時に、この現象にもかかわらずSAT解決の事実上のデファクトスタンダードである条項削除と再起動の組み合わせによる節学習の理由を示す。 最後に,ワイブル混合分布がマルチモーダル分布を正確に記述できることを示す。 したがって、ベースインスタンスに新しい節を追加することは、ランタイムを長期化する本質的に効果がある。 この洞察は、リスタートや節削除のテクニックがcdclソルバで有用である理由に関する理論的説明を提供する。

Conflict-driven clause learning (CDCL) is a remarkably successful paradigm for solving the satisfiability problem of propositional logic. Instead of a simple depth-first backtracking approach, this kind of solver learns the reason behind occurring conflicts in the form of additional clauses. However, despite the enormous success of CDCL solvers, there is still only a shallow understanding of what influences the performance of these solvers in what way. This paper will demonstrate, quite surprisingly, that clause learning (without being able to get rid of some clauses) can not only improve the runtime but can oftentimes deteriorate it dramatically. By conducting extensive empirical analysis, we find that the runtime distributions of CDCL solvers are multimodal. This multimodality can be seen as a reason for the deterioration phenomenon described above. Simultaneously, it also gives an indication of why clause learning in combination with clause deletion and restarts is virtually the de facto standard of SAT solving in spite of this phenomenon. As a final contribution, we will show that Weibull mixture distributions can accurately describe the multimodal distributions. Thus, adding new clauses to a base instance has an inherent effect of making runtimes long-tailed. This insight provides a theoretical explanation as to why the techniques of restarts and clause deletion are useful in CDCL solvers.
翻訳日:2022-02-04 03:54:12 公開日:2022-02-01
# (参考訳) 音声認識の可視化 - 理解を深めるための方法?

Visualizing Automatic Speech Recognition -- Means for a Better Understanding? ( http://arxiv.org/abs/2202.00673v1 )

ライセンス: CC BY 4.0
Karla Markert and Romain Parracone and Mykhailo Kulakov and Philip Sperl and Ching-Yu Kao and Konstantin B\"ottinger(参考訳) 自動音声認識(asr)は、人間の音声処理を模倣する技術をさらに改善している。 しかしながら、ASRの機能は、それらが基盤とするディープニューラルネットワーク(DNN)の複雑な構造によって、かなり難読化されている。 本稿では、画像認識からインポートし、音声データの処理に適した適応を行ういわゆる属性手法が、ASRの動作を明らかにするのにどのように役立つかを示す。 ASRのエンドツーエンドモデルであるDeepSpeechをケーススタディとして、これらの手法が、入力のどの特徴が出力を決定するのに最も影響するかを可視化するのにどのように役立つかを示す。 レイヤワイド・レバレンス・プロパゲーション(LRP)、サリエンシ・マップ(Saliency Maps)、シェープ・アダプティブ・エクスプメンテーション(Shapley Additive Explanations,SHAP)の3つの可視化技術に注目した。 これらの手法を比較し、敵例の検出など、さらなる応用の可能性について論じる。

Automatic speech recognition (ASR) is improving ever more at mimicking human speech processing. The functioning of ASR, however, remains to a large extent obfuscated by the complex structure of the deep neural networks (DNNs) they are based on. In this paper, we show how so-called attribution methods, that we import from image recognition and suitably adapt to handle audio data, can help to clarify the working of ASR. Taking DeepSpeech, an end-to-end model for ASR, as a case study, we show how these techniques help to visualize which features of the input are the most influential in determining the output. We focus on three visualization techniques: Layer-wise Relevance Propagation (LRP), Saliency Maps, and Shapley Additive Explanations (SHAP). We compare these methods and discuss potential further applications, such as in the detection of adversarial examples.
翻訳日:2022-02-04 03:33:08 公開日:2022-02-01
# (参考訳) 連続時間マルコフ連鎖からmttfを計算する別の方法

Just Another Method to Compute MTTF from Continuous Time Markov Chain ( http://arxiv.org/abs/2202.00674v1 )

ライセンス: CC BY 4.0
Eduardo M. Vasconcelos(参考訳) 平均失敗時間 (Meantime to Failure) は、システムが吸収状態に入るのにどれだけの時間を費やすかを決定する統計である。 この統計は、ほとんどの分野の知識で利用できる。 例えばエンジニアリングでは、機器の信頼性の尺度として、そしてビジネスでは、プロセスのパフォーマンスの尺度として使用することができる。 本研究は,連続時間マルコフ連鎖モデルから故障までの時間を取得する手法を提案する。 この手法は直感的であり、より実装が容易である。なぜなら、線形方程式の系を解いて構成されるからである。

The Meantime to Failure is a statistic used to determine how much time a system spends to enter one of its absorption states. This statistic can be used in most areas of knowledge. In engineering, for example, can be used as a measure of equipment reliability, and in business, as a measure of processes performance. This work presents a method to obtain the Meantime to Failure from a Continuous Time Markov Chain models. The method is intuitive and is simpler to be implemented, since, it consists of solving a system of linear equations.
翻訳日:2022-02-04 03:22:40 公開日:2022-02-01
# (参考訳) 微分同相変形画像登録のための学習不要再帰的多分解能フレームワーク

A training-free recursive multiresolution framework for diffeomorphic deformable image registration ( http://arxiv.org/abs/2202.00675v1 )

ライセンス: CC BY 4.0
Ameneh Sheikhjafari, Michelle Noga, Kumaradevan Punithakumar and Nilanjan Ray(参考訳) Diffomorphic deformable Image registrationは、医用画像解析において重要な課題の1つであり、変換のトポロジーと可逆性を保ちながら、ユニークな変換を見つけることを目的としている。 深層畳み込みニューラルネットワーク(deep convolutional neural networks, cnns)は、大規模なデータセットから事前変換を学習することで、画像登録に適したアプローチを生み出した。 これらの手法の性能改善は、特定のデータ領域にフレームワークを組み込むのが難しいいくつかのサンプル医療画像から情報を学習する能力に関連している。 本稿では,通常の微分方程式の原理に基づいて,新しい二相的トレーニングフリーアプローチを提案する。 我々の定式化は、固定像と移動像のピラミッド間の空間変換の変化を異なる解像度で推定するオイラー積分型再帰的スキームをもたらす。 提案されたアーキテクチャは設計が単純である。 移動画像は、各解像度で順次ワープされ、最終的に固定画像に整列される。この手順は、各解像度において、完全な畳み込みネットワーク(FCN)が現在のワープ画像の変形の進行変化をモデル化する方法で再帰的に行われる。 システム全体はエンドツーエンドであり、一対のイメージに最適化されている。 学習に基づく手法と比較すると,提案手法では専用のトレーニングセットも必要とせず,トレーニングバイアスも持たない。 本手法を3つの心画像データセットで評価した。 評価結果は,提案手法が望ましい微分型特性を維持しつつ,最先端の登録精度を実現することを示す。

Diffeomorphic deformable image registration is one of the crucial tasks in medical image analysis, which aims to find a unique transformation while preserving the topology and invertibility of the transformation. Deep convolutional neural networks (CNNs) have yielded well-suited approaches for image registration by learning the transformation priors from a large dataset. The improvement in the performance of these methods is related to their ability to learn information from several sample medical images that are difficult to obtain and bias the framework to the specific domain of data. In this paper, we propose a novel diffeomorphic training-free approach; this is built upon the principle of an ordinary differential equation. Our formulation yields an Euler integration type recursive scheme to estimate the changes of spatial transformations between the fixed and the moving image pyramids at different resolutions. The proposed architecture is simple in design. The moving image is warped successively at each resolution and finally aligned to the fixed image; this procedure is recursive in a way that at each resolution, a fully convolutional network (FCN) models a progressive change of deformation for the current warped image. The entire system is end-to-end and optimized for each pair of images from scratch. In comparison to learning-based methods, the proposed method neither requires a dedicated training set nor suffers from any training bias. We evaluate our method on three cardiac image datasets. The evaluation results demonstrate that the proposed method achieves state-of-the-art registration accuracy while maintaining desirable diffeomorphic properties.
翻訳日:2022-02-04 03:19:51 公開日:2022-02-01
# (参考訳) 半監督医用画像分割のための恥ずかしいほど単純な一貫性規則化法

An Embarrassingly Simple Consistency Regularization Method for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2202.00677v1 )

ライセンス: CC BY 4.0
Hritam Basak, Rajarshi Bhattacharya, Rukhshanda Hussain, Agniv Chatterjee(参考訳) 医用画像のセグメンテーションタスクでは,ピクセルレベルのアノテーションの不足が問題となっている。 本稿では,半教師付き医用画像分割のための補間に基づく混合を含む新しい正規化戦略を提案する。 提案手法は,2つのラベルなしデータの補間を分割し,それらのデータのセグメンテーションマップの補間と一致させる新しい一貫性正規化戦略である。 本手法は,ラベル付きデータの高信頼値における過度な適合を最小化するための,データ適応正規化パラダイムの一種である。 提案手法は,追加計算を必要とせず,逆モデルや生成モデルよりも有利である。 ACDCとMMWHSの2つの公開MRIデータセットを評価すると、既存の半教師付きモデルと比較して提案手法の優位性を示す実験結果が得られた。

The scarcity of pixel-level annotation is a prevalent problem in medical image segmentation tasks. In this paper, we introduce a novel regularization strategy involving interpolation-based mixing for semi-supervised medical image segmentation. The proposed method is a new consistency regularization strategy that encourages segmentation of interpolation of two unlabelled data to be consistent with the interpolation of segmentation maps of those data. This method represents a specific type of data-adaptive regularization paradigm which aids to minimize the overfitting of labelled data under high confidence values. The proposed method is advantageous over adversarial and generative models as it requires no additional computation. Upon evaluation on two publicly available MRI datasets: ACDC and MMWHS, experimental results demonstrate the superiority of the proposed method in comparison to existing semi-supervised models.
翻訳日:2022-02-04 03:05:14 公開日:2022-02-01
# (参考訳) グラフニューラルネットワークにおける転送学習の検討

Investigating Transfer Learning in Graph Neural Networks ( http://arxiv.org/abs/2202.00740v1 )

ライセンス: CC BY 4.0
Nishai Kooverjee, Steven James, Terence van Zyl(参考訳) グラフニューラルネットワーク(GNN)は、グラフ空間で使用するように拡張することで、ディープラーニングモデルの成功に基づいて構築される。 トランスファー学習は、従来のディープラーニング問題において非常に成功していることが証明されている。 GNNとその利用例への関心が高まっているにもかかわらず、転送可能性についてはほとんど研究されていない。 本研究は,移動学習がGNNに対して有効であることを示し,ソースタスクとGNNの選択が一般化可能な知識を学習する能力に与える影響について述べる。 ノード分類とグラフ分類の文脈内で実世界および合成データを用いて実験を行う。 この目的のために,転送学習実験のための一般的な手法を提供し,合成グラフ分類タスクを生成する新しいアルゴリズムを提案する。 合成と実世界の両方のデータセットでGCN, GraphSAGE, GINの性能を比較した。 以上の結果より, 誘導操作によるGNNは, 統計的に有意な転写改善をもたらすことが示された。 さらに、ソースタスクとターゲットタスクのコミュニティ構造における類似性は、ノード属性のみの使用以上の転送において統計的に有意な改善をもたらすことを示す。

Graph neural networks (GNNs) build on the success of deep learning models by extending them for use in graph spaces. Transfer learning has proven extremely successful for traditional deep learning problems: resulting in faster training and improved performance. Despite the increasing interest in GNNs and their use cases, there is little research on their transferability. This research demonstrates that transfer learning is effective with GNNs, and describes how source tasks and the choice of GNN impact the ability to learn generalisable knowledge. We perform experiments using real-world and synthetic data within the contexts of node classification and graph classification. To this end, we also provide a general methodology for transfer learning experimentation and present a novel algorithm for generating synthetic graph classification tasks. We compare the performance of GCN, GraphSAGE and GIN across both the synthetic and real-world datasets. Our results demonstrate empirically that GNNs with inductive operations yield statistically significantly improved transfer. Further we show that similarity in community structure between source and target tasks support statistically significant improvements in transfer over and above the use of only the node attributes.
翻訳日:2022-02-04 02:56:58 公開日:2022-02-01
# (参考訳) モジュラーバイアス緩和器とアンサンブルの実証的研究

An Empirical Study of Modular Bias Mitigators and Ensembles ( http://arxiv.org/abs/2202.00751v1 )

ライセンス: CC BY 4.0
Michael Feffer, Martin Hirzel, Samuel C. Hoffman, Kiran Kate, Parikshit Ram, Avraham Shinnar(参考訳) 機械学習モデルにはアルゴリズムバイアスを低減できるバイアス緩和器がいくつかあるが、残念ながら、異なるデータ分割で測定した場合、公平性に対する緩和器の効果は安定しないことが多い。 より安定したモデルをトレーニングするための一般的なアプローチは、アンサンブル学習である。 バグング、ブースティング、投票、積み重ねなどのアンサンブルは、予測性能をより安定させることに成功した。 したがって、バイアス緩和器とアンサンブルの利点を組み合わせることができるかどうかを問うことができる。 この問題を調査するためには、まずバイアス緩和器とアンサンブルを併用する必要があります。 我々は,10個のマイティゲータ,4つのアンサンブル,対応するハイパーパラメータのモジュール構成が可能なオープンソースライブラリを構築した。 このライブラリに基づいて,本ライブラリが新たに収集したデータセットに加えて,フェアネス文学で一般的に使用されるデータセットを含む,13のデータセットのコンビネーションの空間を実証的に検討した。 さらに,その成果を実践者の指導図にまとめた。 この論文はバイアス緩和の安定性向上に寄与することを願っている。

There are several bias mitigators that can reduce algorithmic bias in machine learning models but, unfortunately, the effect of mitigators on fairness is often not stable when measured across different data splits. A popular approach to train more stable models is ensemble learning. Ensembles, such as bagging, boosting, voting, or stacking, have been successful at making predictive performance more stable. One might therefore ask whether we can combine the advantages of bias mitigators and ensembles? To explore this question, we first need bias mitigators and ensembles to work together. We built an open-source library enabling the modular composition of 10 mitigators, 4 ensembles, and their corresponding hyperparameters. Based on this library, we empirically explored the space of combinations on 13 datasets, including datasets commonly used in fairness literature plus datasets newly curated by our library. Furthermore, we distilled the results into a guidance diagram for practitioners. We hope this paper will contribute towards improving stability in bias mitigation.
翻訳日:2022-02-04 02:41:33 公開日:2022-02-01
# (参考訳) ColloSSL: 人間の活動認識のための協調的自己監視学習

ColloSSL: Collaborative Self-Supervised Learning for Human Activity Recognition ( http://arxiv.org/abs/2202.00758v1 )

ライセンス: CC BY 4.0
Yash Jain, Chi Ian Tang, Chulhong Min, Fahim Kawsar, and Akhil Mathur(参考訳) 堅牢なヒューマンアクティビティ認識モデル(HAR)のトレーニングにおける大きなボトルネックは、大規模ラベル付きセンサーデータセットの必要性である。 大量のセンサーデータのラベリングは高価な作業であるため、ラベルを必要とせずにデータから優れた特徴を学習できる教師なし、半教師なしの学習技術が登場している。 本稿では,この研究を拡張し,ユーザが装着した複数のデバイスから収集したラベルのないデータを利用して,高品質なデータの特徴を学習するColloSSLという新しい手法を提案する。 ColloSSLの設計を支える重要な洞察は、複数のデバイスによって同時にキャプチャされたラベルのないセンサデータセットが互いに自然な変換と見なされ、表現学習のための監視信号を生成するために利用されることである。 本稿では,従来の自己教師付き学習アルゴリズムをマルチデバイス設定に拡張するための3つの技術革新について述べる: 正と負のデバイスを選択してコントラスト学習を可能にするデバイス選択アプローチ,多デバイス設定で正と負のサンプルをサンプリングするコントラストサンプリングアルゴリズム,および標準コントラスト損失をマルチデバイス設定に拡張するマルチビューコントラスト損失と呼ばれる損失関数。 3つのマルチデバイスデータセットによる実験結果から,ColroSSLは実験環境の大部分において,完全教師付きと半教師付きの両方の学習技術より優れており,F_1スコアの絶対的に7.9%向上することがわかった。 また、ColroSSLは、利用可能なラベル付きデータの10分の1をベストケースで使用することで、低データ方式で完全に教師されたメソッドよりも優れていることを示す。

A major bottleneck in training robust Human-Activity Recognition models (HAR) is the need for large-scale labeled sensor datasets. Because labeling large amounts of sensor data is an expensive task, unsupervised and semi-supervised learning techniques have emerged that can learn good features from the data without requiring any labels. In this paper, we extend this line of research and present a novel technique called Collaborative Self-Supervised Learning (ColloSSL) which leverages unlabeled data collected from multiple devices worn by a user to learn high-quality features of the data. A key insight that underpins the design of ColloSSL is that unlabeled sensor datasets simultaneously captured by multiple devices can be viewed as natural transformations of each other, and leveraged to generate a supervisory signal for representation learning. We present three technical innovations to extend conventional self-supervised learning algorithms to a multi-device setting: a Device Selection approach which selects positive and negative devices to enable contrastive learning, a Contrastive Sampling algorithm which samples positive and negative examples in a multi-device setting, and a loss function called Multi-view Contrastive Loss which extends standard contrastive loss to a multi-device setting. Our experimental results on three multi-device datasets show that ColloSSL outperforms both fully-supervised and semi-supervised learning techniques in majority of the experiment settings, resulting in an absolute increase of upto 7.9% in F_1 score compared to the best performing baselines. We also show that ColloSSL outperforms the fully-supervised methods in a low-data regime, by just using one-tenth of the available labeled data in the best case.
翻訳日:2022-02-04 02:21:24 公開日:2022-02-01
# (参考訳) 視点変形に基づく多視点残差共分散モデル

A Model for Multi-View Residual Covariances based on Perspective Deformation ( http://arxiv.org/abs/2202.00765v1 )

ライセンス: CC BY 4.0
Alejandro Fontan, Laura Oliva, Javier Civera and Rudolph Triebel(参考訳) 本研究では,マルチビューSfM,オドメトリ,SLAMセットアップにおける視覚的残差の共分散モデルを提案する。 我々のアプローチの核心は、幾何学的および測光的ノイズ源の組み合わせとしての残留共分散の定式化である。 そして、我々の重要な新しい貢献は、局所的な2Dパッチが1点あたりの3D表面を撮像する際に、どのように視点変形に苦しむかをモデル化する用語の導出である。 これらを組み合わせることで、機能ベースと直接メソッドの両方の精度を向上させるだけでなく、より正確な状態エントロピーの測定値の推定や、より優れた確立された点可視性しきい値の推定にも使用できる、効率的で一般的な定式化が可能になる。 合成データと実データを用いてモデルを検証し,光度および特徴量に基づくバンドル調整に統合し,その精度を無視できないオーバーヘッドで向上する。

In this work, we derive a model for the covariance of the visual residuals in multi-view SfM, odometry and SLAM setups. The core of our approach is the formulation of the residual covariances as a combination of geometric and photometric noise sources. And our key novel contribution is the derivation of a term modelling how local 2D patches suffer from perspective deformation when imaging 3D surfaces around a point. Together, these add up to an efficient and general formulation which not only improves the accuracy of both feature-based and direct methods, but can also be used to estimate more accurate measures of the state entropy and hence better founded point visibility thresholds. We validate our model with synthetic and real data and integrate it into photometric and feature-based Bundle Adjustment, improving their accuracy with a negligible overhead.
翻訳日:2022-02-04 01:48:05 公開日:2022-02-01
# (参考訳) ローエンドデバイス用変圧器との局所的特徴マッチング

Local Feature Matching with Transformers for low-end devices ( http://arxiv.org/abs/2202.00770v1 )

ライセンス: CC BY 4.0
Kyrylo Kolodiazhnyi(参考訳) LoFTR arXiv:2104.00680は画像対上の適切な局所特徴マッチングを見つけるための効率的なディープラーニング手法である。 本稿では,計算性能が低くメモリが限られたデバイス上で動作するための最適化について報告する。 オリジナルのLoFTRアプローチはResNet arXiv:1512.03385ヘッドとLinear Transformer arXiv:2006.04768アーキテクチャに基づく2つのモジュールに基づいている。 提案手法では,粗マッチングブロックのみが残され,パラメータ数が大幅に減少し,知識蒸留技術を用いてネットワークを訓練した。 比較の結果,粗いマッチングブロックにおける教師モデルと比較して,モデルサイズが大幅に減少しているにもかかわらず,学生モデルに対して適切な特徴検出精度が得られることがわかった。 また、NVIDIA TensorRTランタイムとモデル互換化に必要な追加ステップを示し、ローエンドGPUのトレーニング方法を最適化するためのアプローチを示す。

LoFTR arXiv:2104.00680 is an efficient deep learning method for finding appropriate local feature matches on image pairs. This paper reports on the optimization of this method to work on devices with low computational performance and limited memory. The original LoFTR approach is based on a ResNet arXiv:1512.03385 head and two modules based on Linear Transformer arXiv:2006.04768 architecture. In the presented work, only the coarse-matching block was left, the number of parameters was significantly reduced, and the network was trained using a knowledge distillation technique. The comparison showed that this approach allows to obtain an appropriate feature detection accuracy for the student model compared to the teacher model in the coarse matching block, despite the significant reduction of model size. Also, the paper shows additional steps required to make model compatible with NVIDIA TensorRT runtime, and shows an approach to optimize training method for low-end GPUs.
翻訳日:2022-02-04 01:32:02 公開日:2022-02-01
# (参考訳) 構造化データグラディエントプルーニングによるDNN学習の高速化

Accelerating DNN Training with Structured Data Gradient Pruning ( http://arxiv.org/abs/2202.00774v1 )

ライセンス: CC BY 4.0
Bradley McDanel, Helia Dinh, John Magallanes(参考訳) ウェイトプルーニング(Weight pruning)は、トレーニング中のモデルパラメータ数を削減し、ディープニューラルネットワーク(DNN)の推論をより効率的にする手法である。 しかし、ほとんどの重み付け技術は一般的にDNNトレーニングをスピードアップせず、モデル収束に達するためにより多くのイテレーションを必要とすることもある。 本研究では,モデル収束に影響を与えることなくトレーニングを高速化するSDGP(Structured Data Gradient Pruning)手法を提案する。 このアプローチは特定の空間構造を強制し、行列内のすべての M 要素のうち N のみが 0 でないことができ、ハードウェアの加速に有効である。 Nvidia A100 GPUのような現代のアクセラレーターは、このタイプの構造化された空間を4要素あたり2つの非ゼロでサポートしている。 2:4間隔でのハードウェアサポートを仮定すると、本手法は性能に大きな影響を及ぼすことなく、トレーニング時間を15~25%削減できる。 ソースコードと事前トレーニングされたモデルは \url{https://github.com/bradmcdanel/sdgp} で入手できる。

Weight pruning is a technique to make Deep Neural Network (DNN) inference more computationally efficient by reducing the number of model parameters over the course of training. However, most weight pruning techniques generally does not speed up DNN training and can even require more iterations to reach model convergence. In this work, we propose a novel Structured Data Gradient Pruning (SDGP) method that can speed up training without impacting model convergence. This approach enforces a specific sparsity structure, where only N out of every M elements in a matrix can be nonzero, making it amenable to hardware acceleration. Modern accelerators such as the Nvidia A100 GPU support this type of structured sparsity for 2 nonzeros per 4 elements in a reduction. Assuming hardware support for 2:4 sparsity, our approach can achieve a 15-25\% reduction in total training time without significant impact to performance. Source code and pre-trained models are available at \url{https://github.com/BradMcDanel/sdgp}.
翻訳日:2022-02-04 01:24:31 公開日:2022-02-01
# (参考訳) AdaAnn:確率密度近似のための適応型アニーリングスケジューリング

AdaAnn: Adaptive Annealing Scheduler for Probability Density Approximation ( http://arxiv.org/abs/2202.00792v1 )

ライセンス: CC BY 4.0
Emma R. Cobian, Jonathan D. Hauenstein, Fang Liu and Daniele E. Schiavazzi(参考訳) 確率分布の近似は、特に高い幾何学的複雑性の領域でサポートされたり、複数のモードを示す場合、難しい作業である。 アニーリングは、逆温度で事前選択されたインクリメントの定数と組み合わされることが多いこのタスクの促進に使うことができる。 しかし, 一定インクリメントを用いることで, 焼鈍密度のスムーズな変化がより大きなインクリメントと等しく扱える状況に適応できないため, 計算効率が制限される。 AdaAnnは適応型焼鈍スケジューラで、十分に密着した焼鈍温度の2つの分布間のクルバック・リーブラーのばらつきの変化に基づいて温度インクリメントを自動的に調整する。 adaannは実装が容易で、変分推論のためのフローの正規化やマルコフ連鎖モンテカルロといった既存のサンプリングアプローチに統合することができる。 本稿では,密度近似や動的システムのパラメータ推定など,多くの例で正規化フローを用いた変分推論のためのadaannスケジューラの計算効率を示す。

Approximating probability distributions can be a challenging task, particularly when they are supported over regions of high geometrical complexity or exhibit multiple modes. Annealing can be used to facilitate this task which is often combined with constant a priori selected increments in inverse temperature. However, using constant increments limit the computational efficiency due to the inability to adapt to situations where smooth changes in the annealed density could be handled equally well with larger increments. We introduce AdaAnn, an adaptive annealing scheduler that automatically adjusts the temperature increments based on the expected change in the Kullback-Leibler divergence between two distributions with a sufficiently close annealing temperature. AdaAnn is easy to implement and can be integrated into existing sampling approaches such as normalizing flows for variational inference and Markov chain Monte Carlo. We demonstrate the computational efficiency of the AdaAnn scheduler for variational inference with normalizing flows on a number of examples, including density approximation and parameter estimation for dynamical systems.
翻訳日:2022-02-04 01:11:09 公開日:2022-02-01
# (参考訳) トラッキングデータを用いたサッカーにおける自動イベント検出

Automatic event detection in football using tracking data ( http://arxiv.org/abs/2202.00804v1 )

ライセンス: CC BY 4.0
Ferran Vidal-Codina, Nicolas Evans, Bahaeddine El Fakir, Johsan Billingham(参考訳) 近年分析に広く使われてきたサッカーにおけるイベントデータの主な欠点の1つは、手作業による収集がまだ必要であり、それによって大会数が減っていることである。 本研究では,すべての選手と球の座標の追跡データを用いて,サッカーイベントを自動的に抽出する計算フレームワークを提案する。 本手法は2つのモデルから構成される:(1)保持モデルは、ボールがプレイされていない時間間隔において、どのプレーヤーがボールを所有しているかを評価するだけでなく、異なるプレイヤーの設定を評価する;(2) ボール保持の変化に依存する、すなわちパス、ショット、クロス、セーブ、レシーブ、インターセプション、およびセットピースを決定する。 まず,ボール保持判定のための追跡データの精度と,手作業で収集したイベントの時間アノテーションの精度を分析する。 次に、自動検出イベントを手動でアノテートしたイベントのデータセットでベンチマークし、ほとんどのカテゴリにおいて提案手法が+90\%$検出率を達成したことを示す。 最後に、自動検出イベントの粒度を高めるために、追跡データによって提供される文脈情報をいかに活用できるかを実証し、サッカーにおける無数のデータ分析を行うために、提案するフレームワークがどのように使用されるかを示す。

One of the main shortcomings of event data in football, which has been extensively used for analytics in the recent years, is that it still requires manual collection, thus limiting its availability to a reduced number of tournaments. In this work, we propose a computational framework to automatically extract football events using tracking data, namely the coordinates of all players and the ball. Our approach consists of two models: (1) the possession model evaluates which player was in possession of the ball at each time, as well as the distinct player configurations in the time intervals where the ball is not in play; (2) the event detection model relies on the changes in ball possession to determine in-game events, namely passes, shots, crosses, saves, receptions and interceptions, as well as set pieces. First, analyze the accuracy of tracking data for determining ball possession, as well as the accuracy of the time annotations for the manually collected events. Then, we benchmark the auto-detected events with a dataset of manually annotated events to show that in most categories the proposed method achieves $+90\%$ detection rate. Lastly, we demonstrate how the contextual information offered by tracking data can be leveraged to increase the granularity of auto-detected events, and exhibit how the proposed framework may be used to conduct a myriad of data analyses in football.
翻訳日:2022-02-04 00:50:17 公開日:2022-02-01
# (参考訳) 分散構造グラフに対する局所微分プライバシーを用いたGromov-Wasserstein差分法

Gromov-Wasserstein Discrepancy with Local Differential Privacy for Distributed Structural Graphs ( http://arxiv.org/abs/2202.00808v1 )

ライセンス: CC BY 4.0
Hongwei Jin, Xun Chen(参考訳) 構造化データ、特にグラフ間の類似性を学ぶことは、重要な問題の1つです。 グラフカーネルのようなアプローチに加えて、Gromov-Wasserstein (GW) 距離は、最近、トポロジ的特徴と特徴的特徴の両方を捉える柔軟性と、置換不変性を扱う柔軟性のために大きな注目を集めている。 しかし、構造化データは異なるデータマイニングと機械学習アプリケーションのために広く配布されている。 プライバシの懸念により、分散データへのアクセスは個々のクライアントまたは異なるサイロに限定される。 そこで本研究では,グラフニューラルネットワークから局部的に学習したノード埋め込みのgw不一致をフェデレーションフレーバーで解析し,マルチビットエンコーダに基づいて局所微分プライバシー(ldp)を明示的に配置して機密情報を保護するプライバシ保存フレームワークを提案する。 我々の実験は、$\varepsilon$-LDPアルゴリズムによって保証される強力なプライバシ保護により、提案するフレームワークは、グラフ学習におけるプライバシを保存するだけでなく、GW距離下でノイズのある構造的メトリクスも提示する。 さらに, LDPに基づくGW距離の理論的根拠を解析的に, 実証的に考察する。

Learning the similarity between structured data, especially the graphs, is one of the essential problems. Besides the approach like graph kernels, Gromov-Wasserstein (GW) distance recently draws big attention due to its flexibility to capture both topological and feature characteristics, as well as handling the permutation invariance. However, structured data are widely distributed for different data mining and machine learning applications. With privacy concerns, accessing the decentralized data is limited to either individual clients or different silos. To tackle these issues, we propose a privacy-preserving framework to analyze the GW discrepancy of node embedding learned locally from graph neural networks in a federated flavor, and then explicitly place local differential privacy (LDP) based on Multi-bit Encoder to protect sensitive information. Our experiments show that, with strong privacy protections guaranteed by the $\varepsilon$-LDP algorithm, the proposed framework not only preserves privacy in graph learning but also presents a noised structural metric under GW distance, resulting in comparable and even better performance in classification and clustering tasks. Moreover, we reason the rationale behind the LDP-based GW distance analytically and empirically.
翻訳日:2022-02-04 00:49:03 公開日:2022-02-01
# データリライディングによる不便なコストで公正を達成する

Achieving Fairness at No Utility Cost via Data Reweighing ( http://arxiv.org/abs/2202.00787v1 )

ライセンス: Link先を確認
Peizhao Li and Hongfu Liu(参考訳) アルゴリズムガバナンスの急速な発展に伴い、公正性は意図しない差別を抑制するために機械学習モデルに必須の性質となっている。 本稿では,公平性を達成するための前処理の側面に着目し,トレーニング段階におけるサンプルの重み付けのみを調整するデータ緩和手法を提案する。 各(サブ)グループに一様重みを割り当てる従来の改良法と異なり、各トレーニングサンプルからフェアネスと予測実用性に関する影響を詳細にモデル化し、フェアネスと実用性の両方の制約の影響に基づいて個々の重みを計算する。 実験の結果, 従来手法では, 実用性に乏しいコストで公平性を達成できたが, 重要な利点として, 実証的にトレードオフを解放し, コストフリーな公平性を得ることができた。 複数の表型データセットのベースラインメソッドと比較して,バニラ分類器と標準訓練プロセスによるコストフリーフェアネスを異なるフェアネス概念で示す。

With the fast development of algorithmic governance, fairness has become a compulsory property for machine learning models to suppress unintentional discrimination. In this paper, we focus on the pre-processing aspect for achieving fairness, and propose a data reweighing approach that only adjusts the weight for samples in the training phase. Different from most previous reweighing methods which assign a uniform weight for each (sub)group, we granularly model the influence from each training sample with regard to fairness and predictive utility, and compute individual weights based on the influence with constraints of both fairness and utility. Experimental results reveal that previous methods achieve fairness at a non-negligible cost of utility, while as a significant advantage, our approach can empirically release the tradeoff and obtain cost-free fairness. We demonstrate the cost-free fairness through vanilla classifiers and standard training processes on different fairness notions, compared to baseline methods on multiple tabular datasets.
翻訳日:2022-02-03 15:25:13 公開日:2022-02-01
# LocUNet:ラジオマップとディープラーニングを用いた高速都市位置決め

LocUNet: Fast Urban Positioning Using Radio Maps and Deep Learning ( http://arxiv.org/abs/2202.00738v1 )

ライセンス: Link先を確認
\c{C}a\u{g}kan Yapar, Ron Levie, Gitta Kutyniok, Giuseppe Caire(参考訳) 本稿では,密集した都市シナリオにおけるセルネットワークの局在の問題を扱う。 グローバル・ナビゲーション・サテライト・システム(gnss: global navigation satellite systems)は、視力が低くなる都市環境では性能が悪いため、適切な精度のために代替のローカライズ手法が求められている。 本稿では,基地局 (BS) から受信信号強度 (RSS) をベースとした局所化学習手法を提案する。これは,到着時刻や到着角に依存する手法とは異なり,デバイス標準操作に関して,ユーザデバイスにおける計算複雑性の増大を必要としない。 提案手法では,rssをbssから中央処理ユニット(cpu)にローカライズし,クラウドに配置する。 あるいは、ユーザに対してローカルにローカライズすることができる。 推定されたBSのパスロスラジオマップを用いて、LocUNetは最先端の精度でユーザをローカライズし、無線マップの不正確性に対して高い堅牢性を享受する。 提案手法は環境の事前サンプリングを必要とせず、ニューラルネットワークベースの無線マップ推定器であるRadioUNetのおかげでリアルタイムアプリケーションに適している。 また,現実都市環境におけるrssと到着時刻(toa)の数値比較が可能なデータセットを2つ導入した。

This paper deals with the problem of localization in a cellular network in a dense urban scenario. Global Navigation Satellite Systems (GNSS) typically perform poorly in urban environments, where the likelihood of line-of-sight conditions is low, and thus alternative localization methods are required for good accuracy. We present LocUNet: A deep learning method for localization, based merely on Received Signal Strength (RSS) from Base Stations (BSs), which does not require any increase in computation complexity at the user devices with respect to the device standard operations, unlike methods that rely on time of arrival or angle of arrival information. In the proposed method, the user to be localized reports the RSS from BSs to a Central Processing Unit (CPU), which may be located in the cloud. Alternatively, the localization can be performed locally at the user. Using estimated pathloss radio maps of the BSs, LocUNet can localize users with state-of-the-art accuracy and enjoys high robustness to inaccuracies in the radio maps. The proposed method does not require pre-sampling of the environment; and is suitable for real-time applications, thanks to the RadioUNet, a neural network-based radio map estimator. We also introduce two datasets that allow numerical comparisons of RSS and Time of Arrival (ToA) methods in realistic urban environments.
翻訳日:2022-02-03 15:19:59 公開日:2022-02-01
# 再構成可能なハードウェアアクセラレータのコンパイラ駆動シミュレーション

Compiler-Driven Simulation of Reconfigurable Hardware Accelerators ( http://arxiv.org/abs/2202.00739v1 )

ライセンス: Link先を確認
Zhijing Li, Yuwei Ye, Stephen Neuendorffer, Adrian Sampso(参考訳) ハイパフォーマンスコンピューティングの需要に対応するためにカスタマイズされた加速器の設計がますます人気になってきており、現代のシミュレータ設計がこのような多種多様な加速器に適応することは困難である。 既存のシミュレータは、ハードウェアをモデル化できるが、かなりの労力と実行時間を要するrtlシミュレーションのような低レベルおよび一般的なアプローチと、より高速で使いやすいが1回限りのエンジニアリング労力を必要とする高レベルのアプリケーション固有のモデルである。 本研究は,構成可能なハードウェアアクセラレータをモデル化するコンパイラ駆動シミュレーションワークフローを提案する。 鍵となるアイデアは、様々なハードウェア構成を柔軟に表現できる中間言語を開発することで、構造表現をシミュレーションから分離することである。 我々は、明示的なデータ移動と分散イベントベース制御を備えた任意のハードウェアアクセラレータをモデル化可能なMLIRのEvent Queue(EQueue)方言を設計し、異なる抽象レベルを表すハイブリッドMLIR方言でEQueueプログラムをモデル化するための汎用シミュレーションエンジンを実装した。 本稿では、EQueue実装アクセラレータの2つのケーススタディとして、現代のFPGAにおける畳み込みとSIMDプロセッサのシストリック配列を示す。 前者では、EQueueシミュレーションは最先端のシミュレータと同じくらい正確であり、高い拡張性とコンパイラパスによるイテレーションコストの低減を提供する。 後者では、可視化可能なシミュレーションアウトプットを用いて、設計を効率的に改善できるシミュレーションフローを示す。

As customized accelerator design has become increasingly popular to keep up with the demand for high performance computing, it poses challenges for modern simulator design to adapt to such a large variety of accelerators. Existing simulators tend to two extremes: low-level and general approaches, such as RTL simulation, that can model any hardware but require substantial effort and long execution times; and higher-level application-specific models that can be much faster and easier to use but require one-off engineering effort. This work proposes a compiler-driven simulation workflow that can model configurable hardware accelerator. The key idea is to separate structure representation from simulation by developing an intermediate language that can flexibly represent a wide variety of hardware constructs. We design the Event Queue (EQueue) dialect of MLIR, a dialect that can model arbitrary hardware accelerators with explicit data movement and distributed event-based control; we also implement a generic simulation engine to model EQueue programs with hybrid MLIR dialects representing different abstraction levels. We demonstrate two case studies of EQueue-implemented accelerators: the systolic array of convolution and SIMD processors in a modern FPGA. In the former we show EQueue simulation is as accurate as a state-of-the-art simulator, while offering higher extensibility and lower iteration cost via compiler passes. In the latter we demonstrate our simulation flow can guide designer efficiently improve their design using visualizable simulation outputs.
翻訳日:2022-02-03 15:19:34 公開日:2022-02-01
# 最適アクティブ粒子ナビゲーションの強化学習

Reinforcement learning of optimal active particle navigation ( http://arxiv.org/abs/2202.00812v1 )

ライセンス: Link先を確認
Mahdi Nasiri, Benno Liebchen(参考訳) マイクロスケールとナノスケールでの自己推進粒子の開発は、能動物質物理学、マイクロサージリー、標的薬のデリバリーにおける将来の応用に大きな可能性をもたらした。 しかし、後者の応用は、例えばがん細胞のような標的に向かって最適に移動する方法の探求を引き起こすが、十分に複雑な環境で最適な経路を決定するための簡単な方法はまだ存在しない。 ここでは,複雑な環境で自由に操縦できる自己推進剤の漸近的最適経路を初めて決定できる機械学習ベースの手法を開発した。 本手法は,政策勾配に基づく深層強化学習技術に依存しており,特に報酬形成やヒューリスティックスを必要としない。 提案手法は, 最適軌道を求める現在の解析手法に代わる強力な代替手段を提供し, 将来の知的粒子のためのユニバーサルパスプランナーへの道を開く。

The development of self-propelled particles at the micro- and the nanoscale has sparked a huge potential for future applications in active matter physics, microsurgery, and targeted drug delivery. However, while the latter applications provoke the quest on how to optimally navigate towards a target, such as e.g. a cancer cell, there is still no simple way known to determine the optimal route in sufficiently complex environments. Here we develop a machine learning-based approach that allows us, for the first time, to determine the asymptotically optimal path of a self-propelled agent which can freely steer in complex environments. Our method hinges on policy gradient-based deep reinforcement learning techniques and, crucially, does not require any reward shaping or heuristics. The presented method provides a powerful alternative to current analytical methods to calculate optimal trajectories and opens a route towards a universal path planner for future intelligent active particles.
翻訳日:2022-02-03 15:19:09 公開日:2022-02-01
# 散歩しましょうか。 ビデオデータによるエネルギー消費量の推定

Should I take a walk? Estimating Energy Expenditure from Video Data ( http://arxiv.org/abs/2202.00712v1 )

ライセンス: Link先を確認
Kunyu Peng, Alina Roitberg, Kailun Yang, Jiaming Zhang, Rainer Stiefelhagen(参考訳) 本研究は,身体活動中に人体が使用するキロカロリーを自動的に推定する問題をビデオ観察から検討する。 医療文献で確立されたモデルに基づくエネルギー支出アノテーションを導出する高強度・低強度の両方を特徴とするビデオデータから、カロリー消費を推定するための全ソースベンチマークであるVid2Burnを紹介する。 実際には、トレーニングセットは特定のアクティビティタイプのみをカバーするものであり、トレーニング中に見られる特定のアクティビティカテゴリの固定値を記憶する代わりに、モデルが実際にエネルギー消費の本質(例えば、どの筋肉が関与し、どの筋肉がどれだけ激しいか)を捉えているかどうかを検証することが重要である。 理想的には、モデルはそのようなカテゴリー固有のバイアスを越えて、トレーニング中に明示的に存在しない活動カテゴリを描写したビデオのカロリーコストを抑えるべきである。 この特性を念頭に置いて、Vid2Burnはクロスカテゴリベンチマークを伴い、トレーニング中に存在しない身体活動の種類に対するカロリー消費を抑える。 エネルギー支出推定タスクのために修正された映像認識の最先端手法の広範な評価は、特にテスト時の新しい活動タイプにおいて、この問題の難しさを示している。 データセットとコードはhttps://github.com/kpeng9510/vid2burnで入手できる。

We explore the problem of automatically inferring the amount of kilocalories used by human during physical activity from his/her video observation. To study this underresearched task, we introduce Vid2Burn -- an omni-source benchmark for estimating caloric expenditure from video data featuring both, high- and low-intensity activities for which we derive energy expenditure annotations based on models established in medical literature. In practice, a training set would only cover a certain amount of activity types, and it is important to validate, if the model indeed captures the essence of energy expenditure, (e.g., how many and which muscles are involved and how intense they work) instead of memorizing fixed values of specific activity categories seen during training. Ideally, the models should look beyond such category-specific biases and regress the caloric cost in videos depicting activity categories not explicitly present during training. With this property in mind, Vid2Burn is accompanied with a cross-category benchmark, where the task is to regress caloric expenditure for types of physical activities not present during training. An extensive evaluation of state-of-the-art approaches for video recognition modified for the energy expenditure estimation task demonstrates the difficulty of this problem, especially for new activity types at test-time, marking a new research direction. Dataset and code are available at https://github.com/KPeng9510/Vid2Burn.
翻訳日:2022-02-03 14:59:13 公開日:2022-02-01
# 凸クラスタリングによる個人化フェデレーション学習

Personalized Federated Learning via Convex Clustering ( http://arxiv.org/abs/2202.00718v1 )

ライセンス: Link先を確認
Aleksandar Armacki, Dragana Bajovic, Dusan Jakovetic, Soummya Kar(参考訳) 本稿では,局所凸型ユーザコストを用いた個人化フェデレーション学習のためのパラメトリックなアルゴリズム群を提案する。 提案するフレームワークは凸クラスタリングの一般化に基づいており,各ユーザのモデルの違いは,ペナルティパラメータ$\lambda$で重み付けされたノームの和によってペナルティ化される。 提案手法は,隠れクラスタ構造やクラスタ数の事前知識を必要とせずに,"自動"モデルクラスタリングを可能にする。 同時パーソナライズ、一般化、自動モデルクラスタリングにつながる重みパラメータに関する分析的な境界が提供される。 この形式化された問題に対する解決策は、異なるクラスタにまたがる異なるモデルを提供することでパーソナライズを可能にし、個別に計算されたユーザー毎のモデルとは異なるモデルを提供することで一般化を可能にする。 次に,並列方向乗算器法(pdmm)に基づく効率的なアルゴリズムを提案し,提案手法をフェデレーションサーバユーザ設定で解く。 数値実験は我々の発見を裏付ける。 興味深い副産物として、この結果は凸クラスタリングへのいくつかの一般化を提供する。

We propose a parametric family of algorithms for personalized federated learning with locally convex user costs. The proposed framework is based on a generalization of convex clustering in which the differences between different users' models are penalized via a sum-of-norms penalty, weighted by a penalty parameter $\lambda$. The proposed approach enables "automatic" model clustering, without prior knowledge of the hidden cluster structure, nor the number of clusters. Analytical bounds on the weight parameter, that lead to simultaneous personalization, generalization and automatic model clustering are provided. The solution to the formulated problem enables personalization, by providing different models across different clusters, and generalization, by providing models different than the per-user models computed in isolation. We then provide an efficient algorithm based on the Parallel Direction Method of Multipliers (PDMM) to solve the proposed formulation in a federated server-users setting. Numerical experiments corroborate our findings. As an interesting byproduct, our results provide several generalizations to convex clustering.
翻訳日:2022-02-03 14:56:41 公開日:2022-02-01
# 微分学習シミュレータを用いた物理設計

Physical Design using Differentiable Learned Simulators ( http://arxiv.org/abs/2202.00728v1 )

ライセンス: Link先を確認
Kelsey R. Allen, Tatiana Lopez-Guevara, Kimberly Stachenfeld, Alvaro Sanchez-Gonzalez, Peter Battaglia, Jessica Hamrick, Tobias Pfaff(参考訳) ツールやその他の機能構造などの目的に果たす物理的アーティファクトを設計することは、エンジニアリングと日々の人間の振る舞いの中心である。 設計の自動化には大きな約束があるが、汎用的手法はまだ存在しない。 ここでは,グラフニューラルネットワークに基づく学習フォワードシミュレータと勾配に基づく設計最適化を組み合わせた,シンプルで高速でロバストな逆設計手法を提案する。 本手法は, 流体の流れを制御し, 抵抗を最小限に抑えるために翼形状を最適化する表面や工具の設計を含む, 複雑な物理力学の高次元問題を解く。 このフレームワークは、設計タスクとは大きく異なるデータ上の単一ステップ予測のために事前訓練されたモデルを使用しても、数百ステップの軌道で勾配を伝播することで高品質な設計を生成する。 流体操作タスクでは,サンプリングベース最適化手法により得られた結果よりも優れた結果を得た。 翼の設計では、特殊な解法で得られるものの品質と一致した。 以上の結果から,機械学習に基づくシミュレータは,課題が残っているにもかかわらず,様々な分野にわたる汎用設計の最適化を支援できる段階まで成熟していることが示唆された。

Designing physical artifacts that serve a purpose - such as tools and other functional structures - is central to engineering as well as everyday human behavior. Though automating design has tremendous promise, general-purpose methods do not yet exist. Here we explore a simple, fast, and robust approach to inverse design which combines learned forward simulators based on graph neural networks with gradient-based design optimization. Our approach solves high-dimensional problems with complex physical dynamics, including designing surfaces and tools to manipulate fluid flows and optimizing the shape of an airfoil to minimize drag. This framework produces high-quality designs by propagating gradients through trajectories of hundreds of steps, even when using models that were pre-trained for single-step predictions on data substantially different from the design tasks. In our fluid manipulation tasks, the resulting designs outperformed those found by sampling-based optimization techniques. In airfoil design, they matched the quality of those obtained with a specialized solver. Our results suggest that despite some remaining challenges, machine learning-based simulators are maturing to the point where they can support general-purpose design optimization across a variety of domains.
翻訳日:2022-02-03 14:56:22 公開日:2022-02-01
# 教師なしマルチソースフリードメイン適応のための擬似ラベルにおける選択性の効果について

On the Benefits of Selectivity in Pseudo-Labeling for Unsupervised Multi-Source-Free Domain Adaptation ( http://arxiv.org/abs/2202.00796v1 )

ライセンス: Link先を確認
Maohao Shen, Yuheng Bu, Gregory Wornell(参考訳) プライバシやストレージ、その他の制約のため、ソースモデルのコレクションのトレーニングに使用されるデータにアクセスする必要のないマシンラーニングにおいて、教師なしのドメイン適応技術がますます必要になる。 このようなマルチソースフリーなドメイン適応のための既存の手法は通常、利用可能なソースモデルによって生成されるターゲットデータのための擬似ラベルと共に教師あり技術を使ってターゲットモデルを訓練する。 しかし,対象データのサブセットのみに擬似ラベルを割り当てることにより,性能が向上することを示す。 特に,対象モデルの一般化誤差に基づく情報理論的な境界を開発し,部分集合選択によって制御される固有バイアス分散トレードオフを実証する。 そこで本研究では,対象データを擬似ラベル付きおよび未ラベルのサブセットに分割し,トレードオフのバランスをとる手法を開発した。 疑似ラベル付きサブセットの活用に加えて、従来の教師なしドメイン適応機能アライメント手順により、未ラベルサブセットの情報をさらに活用する。 複数のベンチマークデータセットの実験により,提案手法の優れた性能が示された。

Due to privacy, storage, and other constraints, there is a growing need for unsupervised domain adaptation techniques in machine learning that do not require access to the data used to train a collection of source models. Existing methods for such multi-source-free domain adaptation typically train a target model using supervised techniques in conjunction with pseudo-labels for the target data, which are produced by the available source models. However, we show that assigning pseudo-labels to only a subset of the target data leads to improved performance. In particular, we develop an information-theoretic bound on the generalization error of the resulting target model that demonstrates an inherent bias-variance trade-off controlled by the subset choice. Guided by this analysis, we develop a method that partitions the target data into pseudo-labeled and unlabeled subsets to balance the trade-off. In addition to exploiting the pseudo-labeled subset, our algorithm further leverages the information in the unlabeled subset via a traditional unsupervised domain adaptation feature alignment procedure. Experiments on multiple benchmark datasets demonstrate the superior performance of the proposed method.
翻訳日:2022-02-03 14:56:05 公開日:2022-02-01
# IFOR:ロボット物体再構成のための反復フロー最小化

IFOR: Iterative Flow Minimization for Robotic Object Rearrangement ( http://arxiv.org/abs/2202.00732v1 )

ライセンス: Link先を確認
Ankit Goyal, Arsalan Mousavian, Chris Paxton, Yu-Wei Chao, Brian Okorn, Jia Deng, Dieter Fox(参考訳) 視覚からの正確なオブジェクトの再構成は、非構造化環境での様々な実世界のロボットアプリケーションにとって重要な問題である。 本研究は,ロボットの物体再配置のためのifor,反復フロー最小化,および原シーンと最終シーンのrgbd画像による未知物体の物体再配置問題に対するエンドツーエンド手法を提案する。 まず,合成データから物体の相対的変換を推定するために,raftに基づく光フローモデルを学ぶ。 この流れは、未確認物体の正確な位置決めを実現するために反復最小化アルゴリズムで使用される。 重要なことに,本手法は,合成データのみをトレーニングしながら,散らばったシーンや現実世界に適用される。 ビデオはhttps://imankgoyal.github.io/ifor.htmlで閲覧できる。

Accurate object rearrangement from vision is a crucial problem for a wide variety of real-world robotics applications in unstructured environments. We propose IFOR, Iterative Flow Minimization for Robotic Object Rearrangement, an end-to-end method for the challenging problem of object rearrangement for unknown objects given an RGBD image of the original and final scenes. First, we learn an optical flow model based on RAFT to estimate the relative transformation of the objects purely from synthetic data. This flow is then used in an iterative minimization algorithm to achieve accurate positioning of previously unseen objects. Crucially, we show that our method applies to cluttered scenes, and in the real world, while training only on synthetic data. Videos are available at https://imankgoyal.github.io/ifor.html.
翻訳日:2022-02-03 14:52:44 公開日:2022-02-01
# ポジティヴ・ジャコビアンに向けて:行列指数による差分像登録のプロセス後学習

Towards Positive Jacobian: Learn to Postprocess Diffeomorphic Image Registration with Matrix Exponential ( http://arxiv.org/abs/2202.00749v1 )

ライセンス: Link先を確認
Soumyadeep Pal, Matthew Tennant and Nilanjan Ray(参考訳) 本稿では, 変形可能な画像登録のための後処理層を提案する。 逆行性, 変換の滑らかさ, グリッドのトポロジー保存/非折り畳み性などの性質から, 医用画像研究において二相性画像登録は重要である。 これらの特性の侵害は、画像登録中に近隣の破壊と解剖学的構造の接続につながる可能性がある。 最近のディープラーニング手法のほとんどは、この折りたたみ問題に明示的に対処しておらず、登録フィールドの滑らかな正規化によって解決しようとする。 本稿では,任意の登録フィールドを入力とする微分可能層を提案し,入力のヤコビ行列の指数関数を計算し,ポアソン再構成を用いた指数化ヤコビ行列から新しい登録フィールドを再構成する。 提案したポアソン復元損失は,最終登録分野における正のジャコビアンを強制する。 このように,本手法は学習可能なパラメータを含まない後処理層として機能し,ディープラーニングパイプラインの端に配置してエンドツーエンドの学習可能なフレームワークを構築することができる。 本稿では,一般的なディープラーニング登録手法であるVoxelmorphの有効性を示し,それを3次元脳MRIスキャンを含むデータセットを用いて評価する。 以上の結果から, 登録精度が著しく低下することなく, 非陽性ヤコビアンの数が有意に減少し, 登録フィールドがより二相化することが認められた。 私たちのコードはhttps://github.com/soumyadeep-pal/diffeomorphic-image-registration-postprocess.comで利用可能です。

We present a postprocessing layer for deformable image registration to make a registration field more diffeomorphic by encouraging Jacobians of the transformation to be positive. Diffeomorphic image registration is important for medical imaging studies because of the properties like invertibility, smoothness of the transformation, and topology preservation/non-folding of the grid. Violation of these properties can lead to destruction of the neighbourhood and the connectivity of anatomical structures during image registration. Most of the recent deep learning methods do not explicitly address this folding problem and try to solve it with a smoothness regularization on the registration field. In this paper, we propose a differentiable layer, which takes any registration field as its input, computes exponential of the Jacobian matrices of the input and reconstructs a new registration field from the exponentiated Jacobian matrices using Poisson reconstruction. Our proposed Poisson reconstruction loss enforces positive Jacobians for the final registration field. Thus, our method acts as a post-processing layer without any learnable parameters of its own and can be placed at the end of any deep learning pipeline to form an end-to-end learnable framework. We show the effectiveness of our proposed method for a popular deep learning registration method Voxelmorph and evaluate it with a dataset containing 3D brain MRI scans. Our results show that our post-processing can effectively decrease the number of non-positive Jacobians by a significant amount without any noticeable deterioration of the registration accuracy, thus making the registration field more diffeomorphic. Our code is available online at https://github.com/Soumyadeep-Pal/Diffeomorphic-Image-Registration-Postprocess.
翻訳日:2022-02-03 14:52:30 公開日:2022-02-01
# 連合学習の課題と機会--展望

Federated Learning Challenges and Opportunities: An Outlook ( http://arxiv.org/abs/2202.00807v1 )

ライセンス: Link先を確認
Jie Ding, Eric Tramel, Anit Kumar Sahu, Shuang Wu, Salman Avestimehr, Tao Zhang(参考訳) フェデレートラーニング(FL)は、エッジデバイスのリソースを活用し、顧客のプライバシを高め、規制を遵守し、開発コストを削減するための有望なフレームワークとして開発されている。 FLのための多くの手法や応用が開発されているが、実用FLシステムのいくつかの重要な課題は未解決のままである。 本稿では,fl開発の展望を,アルゴリズム基盤,パーソナライゼーション,ハードウェアとセキュリティの制約,生涯学習,非標準データという,flの新しい5つの方向に分類した。 私たちのユニークな視点は、エッジデバイスのための大規模フェデレーションシステムの実践的な観察によって裏付けられています。

Federated learning (FL) has been developed as a promising framework to leverage the resources of edge devices, enhance customers' privacy, comply with regulations, and reduce development costs. Although many methods and applications have been developed for FL, several critical challenges for practical FL systems remain unaddressed. This paper provides an outlook on FL development, categorized into five emerging directions of FL, namely algorithm foundation, personalization, hardware and security constraints, lifelong learning, and nonstandard data. Our unique perspectives are backed by practical observations from large-scale federated systems for edge devices.
翻訳日:2022-02-03 14:25:09 公開日:2022-02-01
# AlphaDesign: AlphaFoldDBのグラフタンパク質設計方法とベンチマーク

AlphaDesign: A graph protein design method and benchmark on AlphaFoldDB ( http://arxiv.org/abs/2202.01079v1 )

ライセンス: Link先を確認
Zhangyang Gao, Cheng Tan, Stan. Z Li(参考訳) DeepMindは、タンパク質の折り畳みを一時的に解決しているが、その逆問題である3D構造からタンパク質配列を予測するタンパク質設計は、依然として重大な課題に直面している。 特に、大規模標準ベンチマークの欠如と不十分なaccurayが研究の進展を妨げている。 比較を標準化し、さらなる研究の関心を引くために、我々は、世界最大のタンパク質構造データベースであるAlphaFold DBを使用して、新しいグラフベースのベンチマークであるAlphaDesignを確立する。 AlphaDesignに基づいて,タンパク質角を新しい特徴として導入し,グラフトランスフォーマーエンコーダ(SGT)を簡略化し,信頼性に配慮したタンパク質デコーダ(CPD)を提案することにより,ADesignと呼ばれる新しい手法を提案する。 一方、SGTとCDDは、トレーニングやテスト手順を簡素化することで、モデルの効率も向上する。 実験の結果、ADesignは従来のグラフモデルよりも大幅に優れており、例えば平均精度は8\%向上し、推論速度は以前より40倍速くなっている。

While DeepMind has tentatively solved protein folding, its inverse problem -- protein design which predicts protein sequences from their 3D structures -- still faces significant challenges. Particularly, the lack of large-scale standardized benchmark and poor accuray hinder the research progress. In order to standardize comparisons and draw more research interest, we use AlphaFold DB, one of the world's largest protein structure databases, to establish a new graph-based benchmark -- AlphaDesign. Based on AlphaDesign, we propose a new method called ADesign to improve accuracy by introducing protein angles as new features, using a simplified graph transformer encoder (SGT), and proposing a confidence-aware protein decoder (CPD). Meanwhile, SGT and CPD also improve model efficiency by simplifying the training and testing procedures. Experiments show that ADesign significantly outperforms previous graph models, e.g., the average accuracy is improved by 8\%, and the inference speed is 40+ times faster than before.
翻訳日:2022-02-03 14:24:19 公開日:2022-02-01
# 形態変化の深層学習による実装

A deep residual learning implementation of Metamorphosis ( http://arxiv.org/abs/2202.00676v1 )

ライセンス: Link先を確認
Matthis Maillard, Anton Fran\c{c}ois, Joan Glaun\`es, Isabelle Bloch, Pietro Gori(参考訳) 医用画像では、ほとんどの画像登録法は、ソースとターゲット画像(すなわち微分同相)の1対1対応を暗黙的に仮定する。 しかし、病的医療画像(例えば、腫瘍、病変など)を扱う場合、必ずしもそうではない。 この問題に対処するために,変形モデルが提案されている。 幾何学的および位相的差異に対処するために、画像の形状と外観の両方を修飾する。 しかし、高い計算時間と負荷は、これまでその応用を妨げてきた。 本稿では,推論時の計算時間を劇的に削減するメタモルフィズムの残差学習実装を提案する。 さらに,提案手法は,空間的正規化として機能する位相変化(例えばセグメンテーションマスク)の局所化に関する事前知識を容易に統合でき,正確に見栄えや形状変化を区別できることを示した。 提案手法はBraTS 2021データセット上でテストし,脳腫瘍と画像のアライメントにおいて最先端の手法よりも優れていることを示した。

In medical imaging, most of the image registration methods implicitly assume a one-to-one correspondence between the source and target images (i.e., diffeomorphism). However, this is not necessarily the case when dealing with pathological medical images (e.g., presence of a tumor, lesion, etc.). To cope with this issue, the Metamorphosis model has been proposed. It modifies both the shape and the appearance of an image to deal with the geometrical and topological differences. However, the high computational time and load have hampered its applications so far. Here, we propose a deep residual learning implementation of Metamorphosis that drastically reduces the computational time at inference. Furthermore, we also show that the proposed framework can easily integrate prior knowledge of the localization of topological changes (e.g., segmentation masks) that can act as spatial regularization to correctly disentangle appearance and shape changes. We test our method on the BraTS 2021 dataset, showing that it outperforms current state-of-the-art methods in the alignment of images with brain tumors.
翻訳日:2022-02-03 14:21:24 公開日:2022-02-01
# 畳み込みニューラルネットワークを用いた皮膚癌画像の分類

Classification of Skin Cancer Images using Convolutional Neural Networks ( http://arxiv.org/abs/2202.00678v1 )

ライセンス: Link先を確認
Kartikeya Agarwal, Tismeet Singh(参考訳) 皮膚がんは最も一般的なヒト悪性腫瘍(American Cancer Society)であり、主に視覚的に診断され、初期臨床検査から始まり、皮膚内視鏡検査、生検、病理組織検査が続く可能性がある。 皮膚がんは、皮膚細胞のDNAにエラー(突然変異)が発生したときに起こる。 この変異により、細胞は制御不能に成長し、がん細胞の塊を形成する。 本研究の目的は,畳み込みニューラルネットワークを用いて皮膚病変の画像の分類を行うことである。 深層ニューラルネットワークは、環境によって示される大きな変動を考慮した画像分類の可能性を示す。 ここではピクセル値に基づいて画像を訓練し,疾患ラベルに基づいて分類した。 データセットは、ISIC(International Skin Imaging Collaboration) Archiveから取得したオープンソースKaggle Repository(Kaggle Dataset)から取得された。 トレーニングは、転送学習を伴う複数のモデルで実施された。 最も高いモデル精度は86.65%以上であった。 使用するデータセットは、前述の結果の信頼性と再現性を保証するために公開されている。

Skin cancer is the most common human malignancy(American Cancer Society) which is primarily diagnosed visually, starting with an initial clinical screening and followed potentially by dermoscopic(related to skin) analysis, a biopsy and histopathological examination. Skin cancer occurs when errors (mutations) occur in the DNA of skin cells. The mutations cause the cells to grow out of control and form a mass of cancer cells. The aim of this study was to try to classify images of skin lesions with the help of convolutional neural networks. The deep neural networks show humongous potential for image classification while taking into account the large variability exhibited by the environment. Here we trained images based on the pixel values and classified them on the basis of disease labels. The dataset was acquired from an Open Source Kaggle Repository(Kaggle Dataset)which itself was acquired from ISIC(International Skin Imaging Collaboration) Archive. The training was performed on multiple models accompanied with Transfer Learning. The highest model accuracy achieved was over 86.65%. The dataset used is publicly available to ensure credibility and reproducibility of the aforementioned result.
翻訳日:2022-02-03 14:21:05 公開日:2022-02-01
# ADG-Pose:実世界の人文推定のための自動データセット生成

ADG-Pose: Automated Dataset Generation for Real-World Human Pose Estimation ( http://arxiv.org/abs/2202.00753v1 )

ライセンス: Link先を確認
Ghazal Alinezhad Noghre, Armin Danesh Pazho, Justin Sanchez, Nathan Hewitt, Christopher Neff, Hamed Tabkhi(参考訳) コンピュータビジョンの最近の進歩は、人間のポーズを理解するためにニューラルネットワークを用いた応用が普及している。 しかし、Stand-of-the-Artデータセットでは精度が着実に向上しているが、これらのデータセットは現実世界のアプリケーションで見られる課題に対処しないことが多い。 これらの課題は、カメラから遠く離れた人々、群衆の中の人々、そして密集した人々を扱うことです。 その結果、実世界のアプリケーションの多くは、デプロイ中のデータを反映しないデータに基づいてトレーニングを行い、パフォーマンスが大幅に低下した。 本稿では,実世界の人間のポーズ推定のためのデータセットを自動生成するADG-Poseを提案する。 これらのデータセットは、人の距離、混雑度、閉塞分布を決定するためにカスタマイズできる。 我々の方法でトレーニングされたモデルは、他のデータセットでトレーニングされたモデルが失敗するこれらの課題の存在下で実行することができる。 ADG-Poseを用いることで、現実の骨格に基づく行動認識におけるエンドツーエンドの精度は、適度な距離と閉塞レベルを持つシーンでは20%向上し、他のモデルがランダムよりもパフォーマンスが良くない遠隔シーンでは4倍向上する。

Recent advancements in computer vision have seen a rise in the prominence of applications using neural networks to understand human poses. However, while accuracy has been steadily increasing on State-of-the-Art datasets, these datasets often do not address the challenges seen in real-world applications. These challenges are dealing with people distant from the camera, people in crowds, and heavily occluded people. As a result, many real-world applications have trained on data that does not reflect the data present in deployment, leading to significant underperformance. This article presents ADG-Pose, a method for automatically generating datasets for real-world human pose estimation. These datasets can be customized to determine person distances, crowdedness, and occlusion distributions. Models trained with our method are able to perform in the presence of these challenges where those trained on other datasets fail. Using ADG-Pose, end-to-end accuracy for real-world skeleton-based action recognition sees a 20% increase on scenes with moderate distance and occlusion levels, and a 4X increase on distant scenes where other models failed to perform better than random.
翻訳日:2022-02-03 14:20:49 公開日:2022-02-01
# ラベルの少ない火星地層セグメンテーション

Mars Terrain Segmentation with Less Labels ( http://arxiv.org/abs/2202.00791v1 )

ライセンス: Link先を確認
Edwin Goh, Jingdao Chen, Brian Wilson(参考訳) 惑星ローバーシステムは、乾燥可能な地域を識別し、サンプル収集のための特定の種類の土壌を特定するために、地形のセグメンテーションを行う必要がある。 最新の火星の地形区分法は教師あり学習に依存しており、非常にデータに飢えており、少数のラベル付きサンプルしか使用できない訓練が困難である。 さらに、セマンティクスクラスは、異なるアプリケーション(例えばローバートラバーサル対地質学)に対して異なる定義であり、結果としてネットワークは、リソースの非効率的な使用である、毎回スクラッチからトレーニングされなければならない。 本研究では,無ラベル画像を用いた深層セグメンテーションネットワークを,少数のラベル付き画像で訓練された地形セグメンテーションのタスクに転送する,火星の地形セグメンテーションのための半教師付き学習フレームワークを提案する。 このネットワークは、コントラスト損失関数を用いてトレーニングされるバックボーンモジュールと、画素毎のクロスエントロピー損失関数を用いてトレーニングされる出力アトラス畳み込みモジュールとを組み込む。 セグメンテーション精度の指標を用いた評価の結果, コントラストプリトレーニングによる手法は, 教師あり学習を2%~10%上回ることがわかった。 さらに,提案モデルでは,教師付き学習の81.9%に対して161のトレーニング画像(オリジナルデータセットの1%)のみを用いて,91.1%のセグメンテーション精度を実現することができた。

Planetary rover systems need to perform terrain segmentation to identify drivable areas as well as identify specific types of soil for sample collection. The latest Martian terrain segmentation methods rely on supervised learning which is very data hungry and difficult to train where only a small number of labeled samples are available. Moreover, the semantic classes are defined differently for different applications (e.g., rover traversal vs. geological) and as a result the network has to be trained from scratch each time, which is an inefficient use of resources. This research proposes a semi-supervised learning framework for Mars terrain segmentation where a deep segmentation network trained in an unsupervised manner on unlabeled images is transferred to the task of terrain segmentation trained on few labeled images. The network incorporates a backbone module which is trained using a contrastive loss function and an output atrous convolution module which is trained using a pixel-wise cross-entropy loss function. Evaluation results using the metric of segmentation accuracy show that the proposed method with contrastive pretraining outperforms plain supervised learning by 2%-10%. Moreover, the proposed model is able to achieve a segmentation accuracy of 91.1% using only 161 training images (1% of the original dataset) compared to 81.9% with plain supervised learning.
翻訳日:2022-02-03 14:20:29 公開日:2022-02-01
# グラフに基づくニューラルネットワークによる多重組織標本の免疫プロファイリング

A Graph Based Neural Network Approach to Immune Profiling of Multiplexed Tissue Samples ( http://arxiv.org/abs/2202.00813v1 )

ライセンス: Link先を確認
Natalia Garcia Martin, Stefano Malacrino, Marta Wojciechowska, Leticia Campo, Helen Jones, David C. Wedge, Chris Holmes, Korsuk Sirinukunwattana, Heba Sailem, Clare Verrill, and Jens Rittscher(参考訳) 多重免疫蛍光は、特定の細胞間および細胞微小環境相互作用を研究する前例のない機会を提供する。 組織形態から得られた特徴とタンパク質発現の測定を組み合わせるためにグラフニューラルネットワークを用い,異なる腫瘍ステージに関連付けられた腫瘍の微小環境を解析した。 我々のフレームワークは、これらの複雑な多次元データセットを分析して処理する新しいアプローチを示し、これらのデータ分析におけるいくつかの重要な課題を克服し、生物学的に有意義な相互作用を抽象化する機会を開く。

Multiplexed immunofluorescence provides an unprecedented opportunity for studying specific cell-to-cell and cell microenvironment interactions. We employ graph neural networks to combine features obtained from tissue morphology with measurements of protein expression to profile the tumour microenvironment associated with different tumour stages. Our framework presents a new approach to analysing and processing these complex multi-dimensional datasets that overcomes some of the key challenges in analysing these data and opens up the opportunity to abstract biologically meaningful interactions.
翻訳日:2022-02-03 14:17:59 公開日:2022-02-01
# コンテキスト帯域におけるコンテキスト不確かさとリコメンダシステムへの応用

Context Uncertainty in Contextual Bandits with Applications to Recommender Systems ( http://arxiv.org/abs/2202.00805v1 )

ライセンス: Link先を確認
Hao Wang, Yifei Ma, Hao Ding, Yuyang Wang(参考訳) リカレントニューラルネットワークは,レコメンデータシステムの逐次ユーザフィードバックのモデル化に有効であることが証明されている。 しかし、通常はアイテムの関連性のみに重点を置いており、ユーザのための多様なアイテムを効果的に探索できないため、長期的にはシステムパフォーマンスを損なう。 この問題に対処するために,リカレント探索ネットワーク(REN)と呼ばれる新しいタイプのリカレントニューラルネットワークを提案する。 RENは、表現の不確実性を考慮して、妥当性と探索のバランスをとる。 我々の理論的分析は,RENが学習表現に不確実性がある場合でも,レート最適サブ線形後悔を保てることを示す。 我々の実証研究は、RENが合成および実世界のレコメンデーションデータセットに満足な長期報酬を得られることを示した。

Recurrent neural networks have proven effective in modeling sequential user feedbacks for recommender systems. However, they usually focus solely on item relevance and fail to effectively explore diverse items for users, therefore harming the system performance in the long run. To address this problem, we propose a new type of recurrent neural networks, dubbed recurrent exploration networks (REN), to jointly perform representation learning and effective exploration in the latent space. REN tries to balance relevance and exploration while taking into account the uncertainty in the representations. Our theoretical analysis shows that REN can preserve the rate-optimal sublinear regret even when there exists uncertainty in the learned representations. Our empirical study demonstrates that REN can achieve satisfactory long-term rewards on both synthetic and real-world recommendation datasets, outperforming state-of-the-art models.
翻訳日:2022-02-03 13:54:13 公開日:2022-02-01
# テキストからの意図抽出のための半監督深層クラスタリングパイプライン

A Semi-Supervised Deep Clustering Pipeline for Mining Intentions From Texts ( http://arxiv.org/abs/2202.00802v1 )

ライセンス: Link先を確認
Xinyu Chen and Ian Beaver(参考訳) 大量の自然言語入力から潜伏する意図をマイニングすることは、データアナリストが顧客のサービス用にIntelligent Virtual Assistant(IVA)を設計および洗練するのを助ける重要なステップである。 このタスクでデータアナリストを支援するために、分析プラットフォームであるVerint Intent Manager(VIM)を紹介します。 データの最初の調査には、ハイパフォーマンス言語モデルの微調整、分散k-nnグラフ構築方法、テキストから意図やトピックをマイニングするためのコミュニティ検出技術を統合する、教師なしで半教師なしの新しいパイプラインを使用します。 事前訓練された言語モデルでは、対象のテキストが見えないドメインから、あるいはクラスタリングタスクがトピック検出でない場合に、特定のクラスタリング構造を効率的に表現できないため、微調整のステップが必要である。 クラスタ数を指定する必要がある場合と、クラスタ数を自動的に検出してクラスタ品質を比較できるが、計算時間を犠牲にしている場合の2つのクラスタリングアプローチをデプロイする。 アプリケーションとデプロイメントについて説明し,bertを用いて3つのテキストマイニングタスクでその性能を示す。 実験の結果,BERTはタスクデータの0.5%程度のラベル付きサブセットを用いて,より優れたタスク認識表現を創出し始めた。 タスクデータのわずか2.5%のラベル付きサブセットでbertが微調整された場合、クラスタリングの品質は最先端の結果を超える。 VIMアプリケーションにデプロイされるように、この柔軟なクラスタリングパイプラインは、高品質な結果をもたらし、データアナリストのパフォーマンスを改善し、カスタマサービスデータから意図を明らかにするのに要する時間を削減し、新たなドメインでのIVAの構築とデプロイに要する時間を削減します。

Mining the latent intentions from large volumes of natural language inputs is a key step to help data analysts design and refine Intelligent Virtual Assistants (IVAs) for customer service. To aid data analysts in this task we present Verint Intent Manager (VIM), an analysis platform that combines unsupervised and semi-supervised approaches to help analysts quickly surface and organize relevant user intentions from conversational texts. For the initial exploration of data we make use of a novel unsupervised and semi-supervised pipeline that integrates the fine-tuning of high performing language models, a distributed k-NN graph building method and community detection techniques for mining the intentions and topics from texts. The fine-tuning step is necessary because pre-trained language models cannot encode texts to efficiently surface particular clustering structures when the target texts are from an unseen domain or the clustering task is not topic detection. For flexibility we deploy two clustering approaches: where the number of clusters must be specified and where the number of clusters is detected automatically with comparable clustering quality but at the expense of additional computation time. We describe the application and deployment and demonstrate its performance using BERT on three text mining tasks. Our experiments show that BERT begins to produce better task-aware representations using a labeled subset as small as 0.5% of the task data. The clustering quality exceeds the state-of-the-art results when BERT is fine-tuned with labeled subsets of only 2.5% of the task data. As deployed in the VIM application, this flexible clustering pipeline produces high quality results, improving the performance of data analysts and reducing the time it takes to surface intentions from customer service data, thereby reducing the time it takes to build and deploy IVAs in new domains.
翻訳日:2022-02-03 13:51:28 公開日:2022-02-01
# 注意および視覚変換器を用いた値ベースモデルのサンプル効率向上

Improving Sample Efficiency of Value Based Models Using Attention and Vision Transformers ( http://arxiv.org/abs/2202.00710v1 )

ライセンス: Link先を確認
Amir Ardalan Kalantari, Mohammad Amini, Sarath Chandar, Doina Precup(参考訳) 最近のDeep Reinforcement Learningの成功の多くは、世界の効果的な内部表現を学習し、活用する神経アーキテクチャの可能性に起因している。 多くのアルゴリズムがシミュレーターにアクセスして大量のデータでトレーニングするが、現実的な設定では、人に対してプレイできるゲームもあれば、収集体験は非常にコストがかかる。 本稿では,性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。 我々は近年,自然言語処理とコンピュータビジョンの分野で達成された進歩を取り入れて,このアーキテクチャを設計する。 具体的には、トランスフォーマーを用いて状態表現の特徴マップ上で自己照応機構を学習し、同時に戻り値を最適化する視覚注意モデルを提案する。 我々は、このアーキテクチャがいくつかのatari環境のサンプル複雑さを改善し、いくつかのゲームでより良いパフォーマンスを達成することを実証的に示している。

Much of recent Deep Reinforcement Learning success is owed to the neural architecture's potential to learn and use effective internal representations of the world. While many current algorithms access a simulator to train with a large amount of data, in realistic settings, including while playing games that may be played against people, collecting experience can be quite costly. In this paper, we introduce a deep reinforcement learning architecture whose purpose is to increase sample efficiency without sacrificing performance. We design this architecture by incorporating advances achieved in recent years in the field of Natural Language Processing and Computer Vision. Specifically, we propose a visually attentive model that uses transformers to learn a self-attention mechanism on the feature maps of the state representation, while simultaneously optimizing return. We demonstrate empirically that this architecture improves sample complexity for several Atari environments, while also achieving better performance in some of the games.
翻訳日:2022-02-03 13:50:12 公開日:2022-02-01
# 勾配に基づくクラスタリング

Gradient Based Clustering ( http://arxiv.org/abs/2202.00720v1 )

ライセンス: Link先を確認
Aleksandar Armacki, Dragana Bajovic, Dusan Jakovetic, Soummya Kar(参考訳) 本稿では,クラスタ割り当てやクラスタ中心位置に対するクラスタリング品質を測定するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。 このアプローチは、反復的な2段階の手順(クラスタ割り当てとクラスタセンター更新の相互調整)であり、いくつかの穏やかな仮定を満たす幅広い機能に適用できる。 提案手法の主な利点は、シンプルで計算量的に安いアップデートルールである。 クラスタリング問題の特定の定式化に特化する従来の手法とは異なり,ハマーロスに基づく非ブレグマンクラスタリング手法を含む,幅広いコストに対して適用可能である。 提案アルゴリズムの収束を解析し、任意の中心初期化の下で適切に定義された固定点の集合に収束することを示す。 ブレグマンのコスト関数の特別な場合、アルゴリズムは、以前の研究と整合した中心的ボロノイ分割の集合に収束する。 実データを用いた数値実験により,提案手法の有効性が示された。

We propose a general approach for distance based clustering, using the gradient of the cost function that measures clustering quality with respect to cluster assignments and cluster center positions. The approach is an iterative two step procedure (alternating between cluster assignment and cluster center updates) and is applicable to a wide range of functions, satisfying some mild assumptions. The main advantage of the proposed approach is a simple and computationally cheap update rule. Unlike previous methods that specialize to a specific formulation of the clustering problem, our approach is applicable to a wide range of costs, including non-Bregman clustering methods based on the Huber loss. We analyze the convergence of the proposed algorithm, and show that it converges to the set of appropriately defined fixed points, under arbitrary center initialization. In the special case of Bregman cost functions, the algorithm converges to the set of centroidal Voronoi partitions, which is consistent with prior works. Numerical experiments on real data demonstrate the effectiveness of the proposed method.
翻訳日:2022-02-03 13:49:38 公開日:2022-02-01
# 地域説明の忠実度評価のための枠組み

Framework for Evaluating Faithfulness of Local Explanations ( http://arxiv.org/abs/2202.00734v1 )

ライセンス: Link先を確認
Sanjoy Dasgupta, Nave Frost, Michal Moshkovitz(参考訳) 基礎となる予測モデルに対する説明システムの忠実性について検討する。 このことは,一貫性と十分性という2つの性質によって捉えることができ,その程度を定量的に測定できることを示す。 興味深いことに、これらの測定はテスト時のデータ分布に依存する。 アンカーなどの既存システムでは,これらの量について解析的に検討する。 また,ブラックボックス説明システムの忠実さを実証的に決定するための推定子とサンプル複雑性境界も提供する。 最後に,新しい特性と推定器を実験的に検証した。

We study the faithfulness of an explanation system to the underlying prediction model. We show that this can be captured by two properties, consistency and sufficiency, and introduce quantitative measures of the extent to which these hold. Interestingly, these measures depend on the test-time data distribution. For a variety of existing explanation systems, such as anchors, we analytically study these quantities. We also provide estimators and sample complexity bounds for empirically determining the faithfulness of black-box explanation systems. Finally, we experimentally validate the new properties and estimators.
翻訳日:2022-02-03 13:48:24 公開日:2022-02-01
# シンクホーン反復による分布強化学習

Distributional Reinforcement Learning via Sinkhorn Iterations ( http://arxiv.org/abs/2202.00769v1 )

ライセンス: Link先を確認
Ke Sun, Yingnan Zhao, Yi Liu, Bei Jiang, Linglong Kong(参考訳) distributional reinforcement learning~(rl)は、期待値だけでなく総リターンの分布全体を推定する最先端アルゴリズムのクラスである。 分布RLの実証的な成功には,各分布の表現方法と分布の分散の選択が重要である。 本稿では,各帰納分布から有限個の統計値集合,すなわち決定論的サンプルを学習し,その帰納分布からシンクホーン反復を利用して現在のベルマン分布と対象ベルマン分布との間のシンクホーン距離を評価する,新しいクラスである \textit{sinkhorn distributional rl} を提案する。 注目すべきことに、シンクホーンの発散はワッサーシュタイン距離と最大平均離散度~(MMD)の間に補間する。 これにより,提案するシンクホーン分布rlアルゴリズムは,最適移動距離の幾何とmmdの偏りのない勾配推定を生かしたスイートスポットを見つけることができる。 最後に、アタリゲームの一組の実験により、既存の最先端アルゴリズムとは対照的にシンクホーン分布RLアルゴリズムの競合性能が示された。

Distributional reinforcement learning~(RL) is a class of state-of-the-art algorithms that estimate the whole distribution of the total return rather than only its expectation. The representation manner of each return distribution and the choice of distribution divergence are pivotal for the empirical success of distributional RL. In this paper, we propose a new class of \textit{Sinkhorn distributional RL} algorithm that learns a finite set of statistics, i.e., deterministic samples, from each return distribution and then leverages Sinkhorn iterations to evaluate the Sinkhorn distance between the current and target Bellmen distributions. Remarkably, as Sinkhorn divergence interpolates between the Wasserstein distance and Maximum Mean Discrepancy~(MMD). This allows our proposed Sinkhorn distributional RL algorithms to find a sweet spot leveraging the geometry of optimal transport-based distance, and the unbiased gradient estimates of MMD. Finally, experiments on a suite of Atari games reveal the competitive performance of Sinkhorn distributional RL algorithm as opposed to existing state-of-the-art algorithms.
翻訳日:2022-02-03 13:48:16 公開日:2022-02-01
# 正規化座標MLPについて

On Regularizing Coordinate-MLPs ( http://arxiv.org/abs/2202.00790v1 )

ライセンス: Link先を確認
Sameera Ramasinghe, Lachlan MacDonald, Simon Lucey(参考訳) 深部ニューラルネットワークの典型的な暗黙的正規化仮定(回帰)は、高周波数信号を表すためにコンピュータビジョンにおいて現在ユビキタスなMLPの族である座標MLPを保たないことを示す。 このような暗黙のバイアスの欠如は、トレーニングサンプル間のスムーズな補間を混乱させ、異なるスペクトルの信号領域に一般化する障害となる。 この挙動をフーリエレンズを用いて検討し、座標mlpの帯域幅が増大するにつれて、適切なプリエントが明示的に提供されない限り低周波が抑制される傾向があることを明らかにする。 これらの知見に基づき、アーキテクチャの変更なしに既存のネットワークに組み込むことができる、上記の問題を緩和できるシンプルな正規化手法を提案する。

We show that typical implicit regularization assumptions for deep neural networks (for regression) do not hold for coordinate-MLPs, a family of MLPs that are now ubiquitous in computer vision for representing high-frequency signals. Lack of such implicit bias disrupts smooth interpolations between training samples, and hampers generalizing across signal regions with different spectra. We investigate this behavior through a Fourier lens and uncover that as the bandwidth of a coordinate-MLP is enhanced, lower frequencies tend to get suppressed unless a suitable prior is provided explicitly. Based on these insights, we propose a simple regularization technique that can mitigate the above problem, which can be incorporated into existing networks without any architectural modifications.
翻訳日:2022-02-03 13:46:06 公開日:2022-02-01
# モンジュパッチ上のラグランジュ多様体モンテカルロ

Lagrangian Manifold Monte Carlo on Monge Patches ( http://arxiv.org/abs/2202.00755v1 )

ライセンス: Link先を確認
Marcelo Hartmann and Mark Girolami and Arto Klami(参考訳) マルコフ連鎖モンテカルロ(mcmc)の効率は、問題の基本的な形状をどのように考慮するかに依存する。 強い曲率を持つ分布に対して、リーマン計量はターゲット分布の効率的な探索に役立つ。 残念なことに、計量テンソルの繰り返し反転による計算上のオーバーヘッドが大きく、フィッシャー情報行列を用いて多様体を誘導する現在の幾何学的mcmc法は実際には遅い。 対象分布を高次元ユークリッド空間にモンジュパッチとして埋め込み,直接幾何学的推論によって決定される誘導計量を用いることにより,mcmc の新たなリーマン計量を提案する。 我々の計量は1次勾配情報のみを必要とし、高速な逆行列と行列式を持ち、問題次元における個々の反復の計算複雑性を3次から2次に減らすことができる。 この計量でラグランジアンモンテカルロがターゲット分布を効率的に探索する方法を実証する。

The efficiency of Markov Chain Monte Carlo (MCMC) depends on how the underlying geometry of the problem is taken into account. For distributions with strongly varying curvature, Riemannian metrics help in efficient exploration of the target distribution. Unfortunately, they have significant computational overhead due to e.g. repeated inversion of the metric tensor, and current geometric MCMC methods using the Fisher information matrix to induce the manifold are in practice slow. We propose a new alternative Riemannian metric for MCMC, by embedding the target distribution into a higher-dimensional Euclidean space as a Monge patch and using the induced metric determined by direct geometric reasoning. Our metric only requires first-order gradient information and has fast inverse and determinants, and allows reducing the computational complexity of individual iterations from cubic to quadratic in the problem dimensionality. We demonstrate how Lagrangian Monte Carlo in this metric efficiently explores the target distributions.
翻訳日:2022-02-03 13:43:19 公開日:2022-02-01
# (参考訳) 固定足場とのヘテロ結合による破滅的記憶のないコンテンツアドレス記憶

Content addressable memory without catastrophic forgetting by heteroassociation with a fixed scaffold ( http://arxiv.org/abs/2202.00159v1 )

ライセンス: CC BY 4.0
Sugandha Sharma, Sarthak Chandra, Ila R. Fiete(参考訳) content-addressable memory (cam) と呼ばれるネットワークは、格納されたアイテムを部分的または腐敗したバージョンでリコールできるため、容量以下の少数の情報拡散パターンと'メモリクリフ'のほとんど完全なリコールを示し、単一の追加パターンを挿入すると、すべての格納されたパターンを壊滅的に忘れてしまう。 少ない数のパターンは、完全な情報回復機能を備えた標準カムで保存され、より多くのパターンを挿入しても、パターン数と逆スケールするパターン毎の情報とともに、すべてのパターンを部分的にリコールする。 脳のエントルヒナル-海馬記憶回路のアーキテクチャに動機づけられたメッシュは、内部安定化状態の所定のセットと、内部状態と任意の外部パターンとのヘテロアソシエーションを使用するペアワイズ相互作用を持つ三部構成である。 解析的および実験的に、MESHはCAMネットワークの総情報バウンド(シナプス数で表される)をほぼ飽和し、記憶パターンの数に不変であり、既存のCAMモデルよりも優れていることを示す。

Content-addressable memory (CAM) networks, so-called because stored items can be recalled by partial or corrupted versions of the items, exhibit near-perfect recall of a small number of information-dense patterns below capacity and a `memory cliff' beyond, such that inserting a single additional pattern results in catastrophic forgetting of all stored patterns. We propose a novel ANN architecture, Memory Scaffold with Heteroassociation (MESH), that gracefully trades-off pattern richness with pattern number to generate a CAM continuum without a memory cliff: Small numbers of patterns are stored with complete information recovery matching standard CAMs, while inserting more patterns still results in partial recall of every pattern, with an information per pattern that scales inversely with the number of patterns. Motivated by the architecture of the Entorhinal-Hippocampal memory circuit in the brain, MESH is a tripartite architecture with pairwise interactions that uses a predetermined set of internally stabilized states together with heteroassociation between the internal states and arbitrary external patterns. We show analytically and experimentally that MESH nearly saturates the total information bound (given by the number of synapses) for CAM networks, invariant of the number of stored patterns, outperforming all existing CAM models.
翻訳日:2022-02-03 01:51:16 公開日:2022-02-01
# (参考訳) CIC:教師なしスキル発見のための対照的な内在的制御

CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery ( http://arxiv.org/abs/2202.00161v1 )

ライセンス: CC BY 4.0
Michael Laskin, Hao Liu, Xue Bin Peng, Denis Yarats, Aravind Rajeswaran, Pieter Abbeel(参考訳) 本研究では,スキルと状態遷移の相互情報を最大化する教師なしスキル発見のためのアルゴリズムであるコントラスト内在制御(cic)を提案する。 従来のほとんどのアプローチとは対照的に、CICは状態エントロピーを最大化することで多様な振る舞いを明示的に動機付ける相互情報の分解を使用する。 状態エントロピーのための粒子推定器を組み合わせ、多様な振る舞いを生成し、対照的な学習を行い、これらの振る舞いを異なるスキルに蒸留する新しい低境界推定法を導出する。 本研究では,非教師付き強化学習ベンチマーク(Unsupervised Reinforcement Learning Benchmark)に基づくアルゴリズムの評価を行った。 我々は、CICが教師なしスキル発見手法よりも大幅に改善し、下流タスク性能の観点から、次の先導的な総合探索アルゴリズムよりも優れていることを発見した。

We introduce Contrastive Intrinsic Control (CIC), an algorithm for unsupervised skill discovery that maximizes the mutual information between skills and state transitions. In contrast to most prior approaches, CIC uses a decomposition of the mutual information that explicitly incentivizes diverse behaviors by maximizing state entropy. We derive a novel lower bound estimate for the mutual information which combines a particle estimator for state entropy to generate diverse behaviors and contrastive learning to distill these behaviors into distinct skills. We evaluate our algorithm on the Unsupervised Reinforcement Learning Benchmark, which consists of a long reward-free pre-training phase followed by a short adaptation phase to downstream tasks with extrinsic rewards. We find that CIC substantially improves over prior unsupervised skill discovery methods and outperforms the next leading overall exploration algorithm in terms of downstream task performance.
翻訳日:2022-02-03 01:23:30 公開日:2022-02-01
# (参考訳) 点雲圧縮のためのフラクショナルモーション推定

Fractional Motion Estimation for Point Cloud Compression ( http://arxiv.org/abs/2202.00172v1 )

ライセンス: CC BY 4.0
Haoran Hong, Eduardo Pavez, Antonio Ortega, Ryosuke Watanabe, Keisuke Nonaka(参考訳) ビデオ符号化における分数画素運動の成功に触発され、動的3次元点雲の色属性の圧縮のための分数ボクセル分解能を用いた動き推定の設計について検討する。 提案手法は,フレーム内およびフレーム間におけるボクセル分布の不規則性といった,点雲とビデオの基本的な差異を考慮に入れたブロックベース分数ボクセル運動推定手法である。 運動補償は,高分解能基準と分数精度による変位の精度が向上することを示す。 提案手法は,整数運動のみを用いる手法よりも優れている。 提案されたスキームは、領域適応グラフフーリエ変換や領域適応ハール変換のような変換を用いる最先端システムと組み合わせ、拡張することができる。

Motivated by the success of fractional pixel motion in video coding, we explore the design of motion estimation with fractional-voxel resolution for compression of color attributes of dynamic 3D point clouds. Our proposed block-based fractional-voxel motion estimation scheme takes into account the fundamental differences between point clouds and videos, i.e., the irregularity of the distribution of voxels within a frame and across frames. We show that motion compensation can benefit from the higher resolution reference and more accurate displacements provided by fractional precision. Our proposed scheme significantly outperforms comparable methods that only use integer motion. The proposed scheme can be combined with and add sizeable gains to state-of-the-art systems that use transforms such as Region Adaptive Graph Fourier Transform and Region Adaptive Haar Transform.
翻訳日:2022-02-03 00:54:43 公開日:2022-02-01
# (参考訳) 時間グラフニューラルネットワークによる半教師付き3次元物体検出

Semi-supervised 3D Object Detection via Temporal Graph Neural Networks ( http://arxiv.org/abs/2202.00182v1 )

ライセンス: CC BY 4.0
Jianren Wang, Haiming Gang, Siddarth Ancha, Yi-Ting Chen, David Held(参考訳) 3dオブジェクト検出は、自動運転やその他のロボットアプリケーションにおいて重要な役割を果たす。 しかし、これらの検出器は通常、収集に要する費用と時間を要する大量の注釈付きデータの訓練を必要とする。 代わりに,時間的グラフニューラルネットワークによる3次元物体検出器の半教師付き学習により,多量の無ラベル点クラウドビデオを活用することを提案する。 我々の洞察では、時間的平滑化はラベルのないデータでより正確な検出結果を生成することができ、これらの平滑化検出は検出器の再訓練に使用できる。 この時間的推論をグラフニューラルネットワークを用いて行うことを学び、エッジは異なる時間枠における候補検出の関係を表す。 半教師付き学習の後,本手法は,同じラベル付きデータに基づいてトレーニングされたベースラインと比較して,難易度の高いnuScenesとH3Dベンチマークの最先端検出性能を実現する。 プロジェクトとコードはhttps://www.jianrenw.com/SOD-TGNN/.comで公開されている。

3D object detection plays an important role in autonomous driving and other robotics applications. However, these detectors usually require training on large amounts of annotated data that is expensive and time-consuming to collect. Instead, we propose leveraging large amounts of unlabeled point cloud videos by semi-supervised learning of 3D object detectors via temporal graph neural networks. Our insight is that temporal smoothing can create more accurate detection results on unlabeled data, and these smoothed detections can then be used to retrain the detector. We learn to perform this temporal reasoning with a graph neural network, where edges represent the relationship between candidate detections in different time frames. After semi-supervised learning, our method achieves state-of-the-art detection performance on the challenging nuScenes and H3D benchmarks, compared to baselines trained on the same amount of labeled data. Project and code are released at https://www.jianrenw.com/SOD-TGNN/.
翻訳日:2022-02-03 00:43:41 公開日:2022-02-01
# (参考訳) Deep Reference Priors: モデルを事前トレーニングする最善の方法は何か?

Deep Reference Priors: What is the best way to pretrain a model? ( http://arxiv.org/abs/2202.00187v1 )

ライセンス: CC BY 4.0
Yansong Gao, Rahul Ramesh, Pratik Chaudhari(参考訳) 特定のタスクを学習するために、同じタスクからラベルなしのデータや、関連するタスクからのラベル付きデータといった、余分なデータを利用する最善の方法は何か? 本稿では,参照優先理論を用いて質問を形式化する。 参照優先事項は客観的であり、モデルのタスクと重み付けの間の相互情報を最大化する非変形ベイズ優先事項である。 このような事前は、タスクがベイズ後部に与える影響を最大化することができる、例えば、参照先行はタスクを学習するのに利用可能なサンプルの数に依存し、非常に小さなサンプルサイズの場合、前者は仮説空間の低複雑さモデルにより多くの確率質量を与える。 本稿では,中規模深層ネットワークと画像ベースデータの参照優先性を示す最初の例を示す。 我々は、参照優先の一般化を開発し、2つの問題への応用を実証する。 まず,ラベルなしのデータを用いて参照を事前に計算することにより,クラス毎のサンプル数が少ない場合でも有効なベイズ型半教師付き学習手法を新たに開発する。 第2に、ソースタスクからのラベル付きデータを用いて参照先を計算し、ターゲットタスクからのデータをベイズ後方に最大に影響を及ぼすような転送学習のための新しい事前学習手法を開発する。 これらの手法の実証検証は画像分類データセット上で行われる。

What is the best way to exploit extra data -- be it unlabeled data from the same task, or labeled data from a related task -- to learn a given task? This paper formalizes the question using the theory of reference priors. Reference priors are objective, uninformative Bayesian priors that maximize the mutual information between the task and the weights of the model. Such priors enable the task to maximally affect the Bayesian posterior, e.g., reference priors depend upon the number of samples available for learning the task and for very small sample sizes, the prior puts more probability mass on low-complexity models in the hypothesis space. This paper presents the first demonstration of reference priors for medium-scale deep networks and image-based data. We develop generalizations of reference priors and demonstrate applications to two problems. First, by using unlabeled data to compute the reference prior, we develop new Bayesian semi-supervised learning methods that remain effective even with very few samples per class. Second, by using labeled data from the source task to compute the reference prior, we develop a new pretraining method for transfer learning that allows data from the target task to maximally affect the Bayesian posterior. Empirical validation of these methods is conducted on image classification datasets.
翻訳日:2022-02-03 00:30:22 公開日:2022-02-01
# (参考訳) 認識認識による画像圧縮

Recognition-Aware Learned Image Compression ( http://arxiv.org/abs/2202.00198v1 )

ライセンス: CC BY 4.0
Maxime Kawawa-Beaudan, Ryan Roggenkemper, Avideh Zakhor(参考訳) 学習画像圧縮手法は一般にレート歪み損失を最適化し、付加ビットレートに対する視覚歪みの改善をトレードオフする。 しかし、圧縮画像は分類、物体検出、超解像など様々なタスクの深層学習ネットワークへの入力として使われるようになっている。 本稿では,タスク固有の損失を伴う速度歪み損失を最適化し,共同学習型圧縮・認識ネットワークを提案する。 階層型オートエンコーダに基づく圧縮ネットワークを高効率ネット認識モデルで拡張し、2つのハイパーパラメータを用いて歪み、ビットレート、認識性能をトレードオフする。 本研究では,提案手法の分類精度をビットレートの関数として特徴付け,低ビットレートの場合の認識精度をbetter portable graphics (bpg) などの従来の手法と比較して26%向上させることを示す。

Learned image compression methods generally optimize a rate-distortion loss, trading off improvements in visual distortion for added bitrate. Increasingly, however, compressed imagery is used as an input to deep learning networks for various tasks such as classification, object detection, and superresolution. We propose a recognition-aware learned compression method, which optimizes a rate-distortion loss alongside a task-specific loss, jointly learning compression and recognition networks. We augment a hierarchical autoencoder-based compression network with an EfficientNet recognition model and use two hyperparameters to trade off between distortion, bitrate, and recognition performance. We characterize the classification accuracy of our proposed method as a function of bitrate and find that for low bitrates our method achieves as much as 26% higher recognition accuracy at equivalent bitrates compared to traditional methods such as Better Portable Graphics (BPG).
翻訳日:2022-02-03 00:08:48 公開日:2022-02-01
# (参考訳) 高調波混合音からの合成パラメータ抽出のための可変ディジタル信号処理混合モデル

Differentiable Digital Signal Processing Mixture Model for Synthesis Parameter Extraction from Mixture of Harmonic Sounds ( http://arxiv.org/abs/2202.00200v1 )

ライセンス: CC BY 4.0
Masaya Kawamura, Tomohiko Nakamura, Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi, Kazunobu Kondo(参考訳) 微分可能なデジタル信号処理(ddsp)オートエンコーダ(英: differentiable digital signal processing)は、ディープニューラルネットワーク(dnn)とスペクトルモデリング合成を組み合わせた音楽音響合成器である。 入力音から抽出した基本周波数,音色特徴,ラウドネス(合成パラメータ)を変化させることで,柔軟に音を編集することができる。 しかし、モノフォニック・ハーモニック・サウンド用に設計されており、ハーモニック・サウンドの混合を扱えない。 本稿では,複数の事前学習されたDDSPオートエンコーダの出力の和として混合を表現するモデル(DDSP混合モデル)を提案する。 提案モデルの出力を観測混合物に適合させることにより、各ソースの合成パラメータを直接推定することができる。 合成パラメータ抽出実験により, ddspオートエンコーダを音源分離法で分離した信号に適用する簡単な手法と比較して, 提案手法は高い安定性能を有することを示す。

A differentiable digital signal processing (DDSP) autoencoder is a musical sound synthesizer that combines a deep neural network (DNN) and spectral modeling synthesis. It allows us to flexibly edit sounds by changing the fundamental frequency, timbre feature, and loudness (synthesis parameters) extracted from an input sound. However, it is designed for a monophonic harmonic sound and cannot handle mixtures of harmonic sounds. In this paper, we propose a model (DDSP mixture model) that represents a mixture as the sum of the outputs of multiple pretrained DDSP autoencoders. By fitting the output of the proposed model to the observed mixture, we can directly estimate the synthesis parameters of each source. Through synthesis parameter extraction experiments, we show that the proposed method has high and stable performance compared with a straightforward method that applies the DDSP autoencoder to the signals separated by an audio source separation method.
翻訳日:2022-02-03 00:00:20 公開日:2022-02-01
# (参考訳) 深層学習による多重散乱の遠方性:電子回折パターンからのひずみマッピングへの応用

Disentangling multiple scattering with deep learning: application to strain mapping from electron diffraction patterns ( http://arxiv.org/abs/2202.00204v1 )

ライセンス: CC BY 4.0
Joydeep Munshi, Alexander Rakowski, Benjamin H Savitzky, Steven E Zeltmann, Jim Ciston, Matthew Henderson, Shreyas Cholia, Andrew M Minor, Maria KY Chan, and Colin Ophus(参考訳) 高速でロバストで完全自動化された結晶構造決定用パイプラインの実装と結晶材料のひずみマッピングは、多くの技術応用において重要である。 走査型電子ナノ回折は、高い精度と高い空間分解能でひずみマップを同定し収集する手順を提供する。 しかし、特に電子ビームが多重散乱し、信号の非線形性をもたらす厚い試料では、この技術の適用は限られている。 深層学習法はこれらの複雑な信号を反転させる可能性があるが、以前の実装は結晶構造や顕微鏡パラメータ位相空間の小さなサブセットにのみ訓練されている。 本研究では,fcu-netと呼ばれるフーリエ空間の複素値深層ニューラルネットワークを実装し,高非線形電子回折パターンを対応する定量的構造因子画像に変換する。 結晶構造, 配向, 厚さ, 顕微鏡パラメータ, 実験器具の様々な組み合わせを含む20,000以上のユニークな動的回折パターンを用いてFCU-Netを訓練した。 シミュレーションおよび実験による4d-stem回折データセットに対するfcu-netモデルの評価を行った。 シミュレーションされた回折パターンライブラリ、FCU-Netの実装、訓練されたモデルの重み付けはオープンソースリポジトリで自由に利用可能であり、様々な回折測定問題に適応できる。

Implementation of a fast, robust, and fully-automated pipeline for crystal structure determination and underlying strain mapping for crystalline materials is important for many technological applications. Scanning electron nanodiffraction offers a procedure for identifying and collecting strain maps with good accuracy and high spatial resolutions. However, the application of this technique is limited, particularly in thick samples where the electron beam can undergo multiple scattering, which introduces signal nonlinearities. Deep learning methods have the potential to invert these complex signals, but previous implementations are often trained only on specific crystal systems or a small subset of the crystal structure and microscope parameter phase space. In this study, we implement a Fourier space, complex-valued deep neural network called FCU-Net, to invert highly nonlinear electron diffraction patterns into the corresponding quantitative structure factor images. We trained the FCU-Net using over 200,000 unique simulated dynamical diffraction patterns which include many different combinations of crystal structures, orientations, thicknesses, microscope parameters, and common experimental artifacts. We evaluated the trained FCU-Net model against simulated and experimental 4D-STEM diffraction datasets, where it substantially out-performs conventional analysis methods. Our simulated diffraction pattern library, implementation of FCU-Net, and trained model weights are freely available in open source repositories, and can be adapted to many different diffraction measurement problems.
翻訳日:2022-02-02 23:49:34 公開日:2022-02-01
# (参考訳) GNNRank: グラフニューラルネットワークによるペアワイズ比較からグローバルランキングを学習

GNNRank: Learning Global Rankings from Pairwise Comparisons via Directed Graph Neural Networks ( http://arxiv.org/abs/2202.00211v1 )

ライセンス: CC BY 4.0
Yixuan He and Quan Gan and David Wipf and Gesine Reinert and Junchi Yan and Mihai Cucuringu(参考訳) ペア比較からグローバルランキングを復元することは、時間同期からスポーツチームランキングまで、多くのアプリケーションにおいて重要な問題である。 競合におけるマッチに対応する対比較は、有向グラフ(digraph)のエッジとして自然に解釈でき、ノードは未知のランクやスキルの強さを持つ競合を表す。 しかし、これまでのランク推定問題に対処する既存の手法では、強力なニューラルネットワークアーキテクチャを使用してランキング目標を最適化していない。 そこで本稿では,ニューラルネットワーク,特にグラフニューラルネットワーク(GNN)を手前の問題に対する一貫性のために拡張するアルゴリズムを提案する。 本稿では,グラフ埋め込みを学習可能なGNNと互換性のあるモデリングフレームワークであるGNNRankを紹介する。 このフレームワークは、ランキングスコア推定アプローチを含み、学習可能な類似性行列から構築されたグラフのFiedlerベクトル計算を展開させることにより、有用な帰納バイアスを与える。 実験結果から,本手法は既存の手法に比べて競争力が高く,性能も優れていることがわかった。 また、トレーニングされたgnnモデルに基づいた新しいデータへの転送能力も示す。

Recovering global rankings from pairwise comparisons is an important problem with many applications, ranging from time synchronization to sports team ranking. Pairwise comparisons corresponding to matches in a competition can naturally be construed as edges in a directed graph (digraph), whose nodes represent competitors with an unknown rank or skill strength. However, existing methods addressing the rank estimation problem have thus far not utilized powerful neural network architectures to optimize ranking objectives. Hence, we propose to augment an algorithm with neural network, in particular graph neural network (GNN) for its coherence to the problem at hand. In this paper, we introduce GNNRank, a modeling framework that is compatible with any GNN capable of learning digraph embeddings, and we devise trainable objectives to encode ranking upsets/violations. This framework includes a ranking score estimation approach, and adds a useful inductive bias by unfolding the Fiedler vector computation of the graph constructed from a learnable similarity matrix. Experimental results on a wide range of data sets show that our methods attain competitive and often superior performance compared with existing approaches. It also shows promising transfer ability to new data based on the trained GNN model.
翻訳日:2022-02-02 23:19:32 公開日:2022-02-01
# (参考訳) 状態オブザーバを用いた映像からの敵対的模倣学習

Adversarial Imitation Learning from Video using a State Observer ( http://arxiv.org/abs/2202.00243v1 )

ライセンス: CC BY 4.0
Haresh Karnan, Garrett Warnell, Faraz Torabi, Peter Stone(参考訳) 模倣学習研究コミュニティは最近、人工エージェントがビデオデモだけで行動の模倣を可能にするという目標に向けて大きな進歩を遂げている。 しかし,この問題に対する最先端のアプローチは,映像観察の高次元性に起因して,高いサンプル複雑性を示す。 本稿では, 状態観察者vgaifo-soを用いた視覚生成逆模倣法という新しいアルゴリズムを提案する。 中心となるVGAIfO-SOは、高次元画像から低次元の受容状態表現を推定する、新しい自己監督状態オブザーバを用いてサンプル非効率に対処しようとする。 複数の連続制御環境では、vgaifo-soはビデオのみのデモンストレーションから学習する他のifoアルゴリズムよりもサンプル効率が良く、時にはデモストラクタの摂理状態情報へのアクセスを特権とするgaifo(generative adversarial imitation from observation)アルゴリズムに近い性能が得られる。

The imitation learning research community has recently made significant progress towards the goal of enabling artificial agents to imitate behaviors from video demonstrations alone. However, current state-of-the-art approaches developed for this problem exhibit high sample complexity due, in part, to the high-dimensional nature of video observations. Towards addressing this issue, we introduce here a new algorithm called Visual Generative Adversarial Imitation from Observation using a State Observer VGAIfO-SO. At its core, VGAIfO-SO seeks to address sample inefficiency using a novel, self-supervised state observer, which provides estimates of lower-dimensional proprioceptive state representations from high-dimensional images. We show experimentally in several continuous control environments that VGAIfO-SO is more sample efficient than other IfO algorithms at learning from video-only demonstrations and can sometimes even achieve performance close to the Generative Adversarial Imitation from Observation (GAIfO) algorithm that has privileged access to the demonstrator's proprioceptive state information.
翻訳日:2022-02-02 23:17:47 公開日:2022-02-01
# (参考訳) オフポリシー強化学習による逐次探索

Sequential Search with Off-Policy Reinforcement Learning ( http://arxiv.org/abs/2202.00245v1 )

ライセンス: CC BY 4.0
Dadong Miao, Yanan Wang, Guoyu Tang, Lin Liu, Sulong Xu, Bo Long, Yun Xiao, Lingfei Wu, Yunjiang Jiang(参考訳) 近年,逐次的ユーザ行動とユーザとアイテム間のインタラクションを時間とともに理解し,モデル化することを目的とした,逐次的レコメンデーション(Sequential Recommendation, SR)への関心が高まっている。 驚くべきことに、逐次的レコメンデーションが大きな成功を収めたにも関わらず、ユーザーの現在および過去の検索クエリを考慮に入れる2つの学習タスクであるシーケンシャル検索(ss)について、過去のクエリセッションでの振る舞いに加えて、ほとんど研究されていない。 ss学習タスクは、オンラインサービスの需要が大きく、トラフィック量も大きいため、ほとんどのe-commence企業にとってsrタスクよりも重要である。 そこで本稿では,RNN学習フレームワークを短期間のユーザ・イテムインタラクションで活用した高度にスケーラブルなハイブリッド学習モデルと,長期のインタラクションから選択した項目のみの機能を活用したアテンションモデルを提案する。 新たな最適化ステップとして,学習バッチ内の1つのrnnパスに複数の短いユーザシーケンスを配置し,グルーディ・ナップサック問題をオンザフライで解決する。 さらに,マルチセッションパーソナライズされた検索ランキングにおけるオフ・ポリティクス強化学習の利用について検討する。 具体的には,ペアワイズ分類誤差の観点でユーザの長期的な報酬を効果的に獲得する,ペアワイズ深い決定論的ポリシー勾配モデルを設計する。 大規模なアブレーション実験は、さまざまなオフラインおよびオンラインメトリクスに基づいて、各コンポーネントが最先端のベースラインに大幅な改善をもたらすことを示している。

Recent years have seen a significant amount of interests in Sequential Recommendation (SR), which aims to understand and model the sequential user behaviors and the interactions between users and items over time. Surprisingly, despite the huge success Sequential Recommendation has achieved, there is little study on Sequential Search (SS), a twin learning task that takes into account a user's current and past search queries, in addition to behavior on historical query sessions. The SS learning task is even more important than the counterpart SR task for most of E-commence companies due to its much larger online serving demands as well as traffic volume. To this end, we propose a highly scalable hybrid learning model that consists of an RNN learning framework leveraging all features in short-term user-item interactions, and an attention model utilizing selected item-only features from long-term interactions. As a novel optimization step, we fit multiple short user sequences in a single RNN pass within a training batch, by solving a greedy knapsack problem on the fly. Moreover, we explore the use of off-policy reinforcement learning in multi-session personalized search ranking. Specifically, we design a pairwise Deep Deterministic Policy Gradient model that efficiently captures users' long term reward in terms of pairwise classification error. Extensive ablation experiments demonstrate significant improvement each component brings to its state-of-the-art baseline, on a variety of offline and online metrics.
翻訳日:2022-02-02 23:05:17 公開日:2022-02-01
# (参考訳) 自然言語課題における複数領域のアクティブラーニング

Active Learning Over Multiple Domains in Natural Language Tasks ( http://arxiv.org/abs/2202.00254v1 )

ライセンス: CC BY 4.0
Shayne Longpre, Julia Reisler, Edward Greg Huang, Yi Lu, Andrew Frank, Nikhil Ramesh, Chris DuBois(参考訳) アクティブラーニングの研究は、伝統的にターゲットとソースデータは単一のドメインに由来すると仮定する。 しかし、現実的なアプリケーションでは、実践者は複数のアウト・オブ・ディストリビューションデータソースでアクティブな学習を必要とすることが多い。 質問応答と感情分析の難易度を検討するため, アクティブラーニング(AL), ドメインシフト検出(DS), マルチドメインサンプリングの多種多様な手法を調査した。 1)この課題にどのような方法が有効であるか? そして、(2)選択された例とドメインの特性は、強い結果をもたらすか? 4種類の方法から得られた18種類の取得関数のうち,h-発散法,特に提案するdal-eは,ランダムベースラインに対して平均2-3%改善した。 また、ドメインの多彩な割り当ての重要性と、既存のメソッドをドメイン選択とサンプル選択の両方で改善する余地があることも示す。 本研究は,自然言語タスクにおけるマルチドメインアクティブラーニングに直面する実践者にとって,既存の方法と新しい方法の両方について,初めて包括的な分析を行うものである。

Studies of active learning traditionally assume the target and source data stem from a single domain. However, in realistic applications, practitioners often require active learning with multiple sources of out-of-distribution data, where it is unclear a priori which data sources will help or hurt the target domain. We survey a wide variety of techniques in active learning (AL), domain shift detection (DS), and multi-domain sampling to examine this challenging setting for question answering and sentiment analysis. We ask (1) what family of methods are effective for this task? And, (2) what properties of selected examples and domains achieve strong results? Among 18 acquisition functions from 4 families of methods, we find H- Divergence methods, and particularly our proposed variant DAL-E, yield effective results, averaging 2-3% improvements over the random baseline. We also show the importance of a diverse allocation of domains, as well as room-for-improvement of existing methods on both domain and example selection. Our findings yield the first comprehensive analysis of both existing and novel methods for practitioners faced with multi-domain active learning for natural language tasks.
翻訳日:2022-02-02 22:48:07 公開日:2022-02-01
# (参考訳) DoCoM-SGT:分散学習のための2重圧縮モーメント支援確率勾配追従アルゴリズム

DoCoM-SGT: Doubly Compressed Momentum-assisted Stochastic Gradient Tracking Algorithm for Communication Efficient Decentralized Learning ( http://arxiv.org/abs/2202.00255v1 )

ライセンス: CC BY 4.0
Chung-Yiu Yau, Hoi-To Wai(参考訳) 本稿では,Douubly Compressed Momentum-assisted Stochastic Gradient Tracking Algorithm (DoCoM-SGT)を提案する。 DoCoM-SGTは、平均的反復勾配と確率勾配を同時に追跡するため、通信ラウンド当たりの2つの圧縮ステップを利用する。 さらに、DoCoM-SGTは勾配推定のばらつきを低減するモーメントに基づく手法を取り入れている。 我々は、DoCoM-SGT が、非凸目的函数に対して $\mathbb{E} [ \| \nabla f(\bar{\theta}) \|^2 ] = {\cal O}(1 / T^{2/3} )$ を満たす解 $\bar{\theta}$ in $T$ iterations を発見し、他の関数クラスに対して競合収束率保証を提供する。 合成データと実データに関する数値実験により,本アルゴリズムの有効性が検証された。

This paper proposes the Doubly Compressed Momentum-assisted Stochastic Gradient Tracking algorithm (DoCoM-SGT) for communication efficient decentralized learning. DoCoM-SGT utilizes two compression steps per communication round as the algorithm tracks simultaneously the averaged iterate and stochastic gradient. Furthermore, DoCoM-SGT incorporates a momentum based technique for reducing variances in the gradient estimates. We show that DoCoM-SGT finds a solution $\bar{\theta}$ in $T$ iterations satisfying $\mathbb{E} [ \| \nabla f(\bar{\theta}) \|^2 ] = {\cal O}( 1 / T^{2/3} )$ for non-convex objective functions; and we provide competitive convergence rate guarantees for other function classes. Numerical experiments on synthetic and real datasets validate the efficacy of our algorithm.
翻訳日:2022-02-02 22:27:47 公開日:2022-02-01
# (参考訳) 非負行列因子化のためのグラフベースニューラル加速法

Graph-based Neural Acceleration for Nonnegative Matrix Factorization ( http://arxiv.org/abs/2202.00264v1 )

ライセンス: CC BY 4.0
Jens Sj\"olund and Maria B{\aa}nkestad(参考訳) 本稿では,非負行列分解のためのグラフに基づくニューラルネットワークの高速化手法について述べる。これは行列と2部グラフの連結を基盤とし,ある分野(例えばスパース線形代数)でよく知られているが,行列計算のためのグラフニューラルネットワークの設計にはまだ活用されていない。 まず,低ランク分解をより広く検討し,グラフニューラルネットワークに適した問題のグラフ表現を提案する。 そこで我々は,非負行列分解の課題に焦点をあて,乗算器の交互方向法に基づく更新で二部的自己認識層をインターリーブするグラフニューラルネットワークを提案する。 人工的なデータセットと2つの実世界のデータセットに対する実証的な評価は、より小さな合成インスタンスに対して教師なしの方法でのみ訓練しても、かなり加速できることを示している。

We describe a graph-based neural acceleration technique for nonnegative matrix factorization that builds upon a connection between matrices and bipartite graphs that is well-known in certain fields, e.g., sparse linear algebra, but has not yet been exploited to design graph neural networks for matrix computations. We first consider low-rank factorization more broadly and propose a graph representation of the problem suited for graph neural networks. Then, we focus on the task of nonnegative matrix factorization and propose a graph neural network that interleaves bipartite self-attention layers with updates based on the alternating direction method of multipliers. Our empirical evaluation on synthetic and two real-world datasets shows that we attain substantial acceleration, even though we only train in an unsupervised fashion on smaller synthetic instances.
翻訳日:2022-02-02 22:25:26 公開日:2022-02-01
# (参考訳) 暗号化特徴マップを用いた物体検出モデルのアクセス制御

Access Control of Object Detection Models Using Encrypted Feature Maps ( http://arxiv.org/abs/2202.00265v1 )

ライセンス: CC BY 4.0
Teru Nagamori, Hiroki Ito, April Pyone Maung Maung, Hitoshi Kiya(参考訳) 本稿では,オブジェクト検出モデルに対するアクセス制御手法を提案する。 暗号化された画像や暗号化された特徴マップの使用は、不正アクセスからモデルのアクセス制御に有効であることが示されている。 しかし、このアプローチの有効性は画像分類モデルと意味セグメンテーションモデルのみで確認されているが、対象検出モデルでは確認されていない。 本稿では,オブジェクト検出モデルのアクセス制御において,暗号化された特徴マップの利用が初めて有効であることを示す。

In this paper, we propose an access control method for object detection models. The use of encrypted images or encrypted feature maps has been demonstrated to be effective in access control of models from unauthorized access. However, the effectiveness of the approach has been confirmed in only image classification models and semantic segmentation models, but not in object detection models. In this paper, the use of encrypted feature maps is shown to be effective in access control of object detection models for the first time.
翻訳日:2022-02-02 22:03:24 公開日:2022-02-01
# (参考訳) サロゲート勾配設計

Surrogate Gradients Design ( http://arxiv.org/abs/2202.00282v1 )

ライセンス: CC BY 4.0
Luca Herranz-Celotti and Jean Rouat(参考訳) surrogategradient(sg)トレーニングは、ディープラーニングで得られるすべての成果を、ニューラルネットワークコンピューティングとニューロモルフィックプロセッサに迅速に移行する可能性を提供し、エネルギー消費量を減少させる。 ハイパーパラメータの広範囲な探索の後、トレーニングはsg形状の選択に堅牢である、という証拠がある。 しかし、ハイパーパラメータのランダムあるいはグリッド探索は、よりハイパーパラメータを考えると指数関数的に不可能になる。 さらに、検索のすべての点は、大きなネットワークや大きなデータセットに対して非常に時間とエネルギーを消費することができる。 本稿では、複雑なタスクやネットワークがSG選択にどのように敏感であるかを示す。 第2に, 低減衰, 高鋭度, 低尾脂肪度が好ましいことを示す。 第3に、Grorot Uniform の初期化は一般にほとんどの SG 選択に好まれており、その結果は可変である。 そこで我々は,SG形状と初期化の精度向上を実現するため,拡張グリッド探索の必要性を低減できる理論解を提案する。

Surrogate gradient (SG) training provides the possibility to quickly transfer all the gains made in deep learning to neuromorphic computing and neuromorphic processors, with the consequent reduction in energy consumption. Evidence supports that training can be robust to the choice of SG shape, after an extensive search of hyper-parameters. However, random or grid search of hyper-parameters becomes exponentially unfeasible as we consider more hyper-parameters. Moreover, every point in the search can itself be highly time and energy consuming for large networks and large datasets. In this article we show how complex tasks and networks are more sensitive to SG choice. Secondly, we show how low dampening, high sharpness and low tail fatness are preferred. Thirdly, we observe that Glorot Uniform initialization is generally preferred by most SG choices, with variability in the results. We finally provide a theoretical solution to reduce the need of extensive gridsearch, to find SG shape and initializations that result in improved accuracy.
翻訳日:2022-02-02 21:56:07 公開日:2022-02-01
# (参考訳) 高次元2層ニューラルネットワークにおける確率勾配の位相図

Phase diagram of Stochastic Gradient Descent in high-dimensional two-layer neural networks ( http://arxiv.org/abs/2202.00293v1 )

ライセンス: CC BY 4.0
Rodrigo Veiga, Ludovic Stephan, Bruno Loureiro, Florent Krzakala, Lenka Zdeborov\'a(参考訳) 非凸最適化の展望にもかかわらず、過パラメータの浅いネットワークは勾配降下下でグローバル収束を達成することができる。 この画像は狭いネットワークでは根本的に異なるが、局所的な極小視では行き詰まる傾向がある。 本稿では,これら2つのレジームの高次元設定におけるクロスオーバーについて検討し,特に,いわゆる平均場・流体力学的レジームとsaad & sollaの独創的アプローチとの関係について検討する。 ガウスデータに着目し,確率勾配勾配(SGD)の高次元的ダイナミクスにおける学習速度,時間スケール,隠れた単位数との相互作用について検討した。 我々の研究は、統計的物理学から高次元のSGDを決定論的に記述し、それを拡張し、厳密な収束率を提供する。

Despite the non-convex optimization landscape, over-parametrized shallow networks are able to achieve global convergence under gradient descent. The picture can be radically different for narrow networks, which tend to get stuck in badly-generalizing local minima. Here we investigate the cross-over between these two regimes in the high-dimensional setting, and in particular investigate the connection between the so-called mean-field/hydrodynamic regime and the seminal approach of Saad & Solla. Focusing on the case of Gaussian data, we study the interplay between the learning rate, the time scale, and the number of hidden units in the high-dimensional dynamics of stochastic gradient descent (SGD). Our work builds on a deterministic description of SGD in high-dimensions from statistical physics, which we extend and for which we provide rigorous convergence rates.
翻訳日:2022-02-02 21:28:37 公開日:2022-02-01
# (参考訳) 医療分野における質問分類手法に関する研究

Research on Question Classification Methods in the Medical Field ( http://arxiv.org/abs/2202.00298v1 )

ライセンス: CC BY 4.0
Jinzhang Liu(参考訳) 質問分類は質問・回答システム研究における重要なリンクの一つである。 既存の質問分類モデルは、公開データセットでより訓練されている。 現在、特定の分野、特に医療分野において、質問分類データセットが不足している。 このギャップを補うために,医療分野における質問分類のためのデータセットを提案する。 さらに,複数のニューラルネットワークモデルを組み合わせて質問の特徴を多次元的に抽出する手法を提案し,多次元特徴抽出に基づく質問分類モデルを提案する。 実験の結果,提案手法は質問分類の性能を効果的に向上できることがわかった。

Question classification is one of the important links in the research of question and answering system. The existing question classification models are more trained on public data sets. At present, there is a lack of question classification data sets in specific fields, especially in the medical field. To make up for this gap, this paper presents a data set for question classification in the medical field. Moreover, this paper proposes a multi-dimensional extraction of the characteristics of the question by combining multiple neural network models, and proposes a question classification model based on multi-dimensional feature extraction. The experimental results show that the proposed method can effectively improve the performance of question classification.
翻訳日:2022-02-02 20:58:38 公開日:2022-02-01
# (参考訳) page-pg:確率的勾配推定を用いた簡易かつループレス分散低減ポリシー勾配法

PAGE-PG: A Simple and Loopless Variance-Reduced Policy Gradient Method with Probabilistic Gradient Estimation ( http://arxiv.org/abs/2202.00308v1 )

ライセンス: CC BY 4.0
Matilde Gargiani, Andrea Zanelli, Andrea Martinelli, Tyler Summers, John Lygeros(参考訳) その成功にもかかわらず、政策勾配法は勾配推定の高分散に悩まされ、不満足なサンプルの複雑さをもたらす可能性がある。 近年、サンプルの複雑さと競合する数値性能を確実に向上させる政策勾配法の拡張が多数提案されている。 主分散低減強化型手法のいくつかについてコンパクトな調査を行った後,2種類の更新の確率的切り替えに基づく新しいループレス分散低減型ポリシー勾配法であるポリシー勾配(page-pg)の確率的勾配推定を提案する。 本手法は,教師付き学習のためのpage estimatorにインスパイアされ,重要度サンプリングを利用して偏りのない勾配推定器を得る。 page-pg は $\mathcal{o}\left( \epsilon^{-3} \right)$ 平均的なサンプル複雑性を享受し、$\epsilon$-定常解に到達する。 古典的制御タスクにおける本手法の競合性能を数値評価により確認する。

Despite their success, policy gradient methods suffer from high variance of the gradient estimate, which can result in unsatisfactory sample complexity. Recently, numerous variance-reduced extensions of policy gradient methods with provably better sample complexity and competitive numerical performance have been proposed. After a compact survey on some of the main variance-reduced REINFORCE-type methods, we propose ProbAbilistic Gradient Estimation for Policy Gradient (PAGE-PG), a novel loopless variance-reduced policy gradient method based on a probabilistic switch between two types of updates. Our method is inspired by the PAGE estimator for supervised learning and leverages importance sampling to obtain an unbiased gradient estimator. We show that PAGE-PG enjoys a $\mathcal{O}\left( \epsilon^{-3} \right)$ average sample complexity to reach an $\epsilon$-stationary solution, which matches the sample complexity of its most competitive counterparts under the same setting. A numerical evaluation confirms the competitive performance of our method on classical control tasks.
翻訳日:2022-02-02 20:53:26 公開日:2022-02-01
# (参考訳) マルチハイパーグラフにおけるベイズフィルタによる集合タスクのアクティビティ認識

Activity Recognition in Assembly Tasks by Bayesian Filtering in Multi-Hypergraphs ( http://arxiv.org/abs/2202.00332v1 )

ライセンス: CC BY 4.0
Timon Felske, Stefan L\"udtke, Sebastian Bader, Thomas Kirste(参考訳) 組み立て作業などの手作業プロセスにおいて,センサに基づくヒューマンアクティビティ認識について検討する。 そのようなプロセスでは、システム状態は、しばしば、オブジェクトプロパティとリレーションを含むリッチな構造を持つ。 したがって、再帰的なベイズフィルタによるセンサ観測から隠れた系状態を推定することは、システム状態の組合せ爆発のため非常に困難である。 この問題を軽減するために,そのようなプロセスに対する効率的なベイズフィルタモデルを提案する。 本手法では,システム状態はマルチハイパーグラフで表現され,システムダイナミクスはグラフ書き換え規則によってモデル化される。 本稿では,マルチハイパーグラフ上の分布を全列挙法よりもコンパクトに表現できる予備概念を示し,このコンパクト表現に直接作用する推論アルゴリズムを提案する。 実際のデータセット上でのアルゴリズムの適用性を示す。

We study sensor-based human activity recognition in manual work processes like assembly tasks. In such processes, the system states often have a rich structure, involving object properties and relations. Thus, estimating the hidden system state from sensor observations by recursive Bayesian filtering can be very challenging, due to the combinatorial explosion in the number of system states. To alleviate this problem, we propose an efficient Bayesian filtering model for such processes. In our approach, system states are represented by multi-hypergraphs, and the system dynamics is modeled by graph rewriting rules. We show a preliminary concept that allows to represent distributions over multi-hypergraphs more compactly than by full enumeration, and present an inference algorithm that works directly on this compact representation. We demonstrate the applicability of the algorithm on a real dataset.
翻訳日:2022-02-02 19:59:57 公開日:2022-02-01
# (参考訳) 学習と推論における関連性の定量化

Quantifying Relevance in Learning and Inference ( http://arxiv.org/abs/2202.00339v1 )

ライセンス: CC BY 4.0
Matteo Marsili and Yasser Roudi(参考訳) 学習は知的行動の独特な特徴である。 高スループットの実験データとビッグデータは、細胞や脳、社会といった複雑なシステムに新しい窓を開くことを約束します。 しかし、人工知能と機械学習の成功は、まだ学習に関する概念的な理解が不十分であることを示している。 これらの応用は、データが高次元で不足している非チャート領域に統計的推論をプッシュし、「真の」モデルに関する事前情報は、完全に欠落していない場合はスキャンされる。 本稿では,「関連性」の概念に基づく学習の理解の最近の進歩を概観する。 関連性は、ここで定義するとおり、データセットや学習機械の内部表現がデータの生成モデルに含んでいる情報の量を定量化する。 これにより、最大情報化サンプルを一方に、最適学習マシンを他方に定義することができる。 これらはサンプルと機械の理想的な限界であり、与えられた解像度(または圧縮レベル)において、未知の生成過程に関する情報の最大量を含む。 最大情報的サンプルは、正則周波数分布(統計的臨界度)と最適学習機械によって、異常に大きな感受性によって特徴づけられる。 分解能(すなわち圧縮)と関連性の間のトレードオフは、ノイズ表現の規則と損失圧縮の規則を区別する。 これらはZipfの法則統計によって特徴づけられる特別な点によって分離される。 これはZipfの法則に従うサンプルを、最大関連性という意味で最適である最も圧縮された損失のない表現として特定する。 最適学習機械の臨界度はエネルギー準位の指数的な縮退に現れ、異常な熱力学特性をもたらす。

Learning is a distinctive feature of intelligent behaviour. High-throughput experimental data and Big Data promise to open new windows on complex systems such as cells, the brain or our societies. Yet, the puzzling success of Artificial Intelligence and Machine Learning shows that we still have a poor conceptual understanding of learning. These applications push statistical inference into uncharted territories where data is high-dimensional and scarce, and prior information on "true" models is scant if not totally absent. Here we review recent progress on understanding learning, based on the notion of "relevance". The relevance, as we define it here, quantifies the amount of information that a dataset or the internal representation of a learning machine contains on the generative model of the data. This allows us to define maximally informative samples, on one hand, and optimal learning machines on the other. These are ideal limits of samples and of machines, that contain the maximal amount of information about the unknown generative process, at a given resolution (or level of compression). Both ideal limits exhibit critical features in the statistical sense: Maximally informative samples are characterised by a power-law frequency distribution (statistical criticality) and optimal learning machines by an anomalously large susceptibility. The trade-off between resolution (i.e. compression) and relevance distinguishes the regime of noisy representations from that of lossy compression. These are separated by a special point characterised by Zipf's law statistics. This identifies samples obeying Zipf's law as the most compressed loss-less representations that are optimal in the sense of maximal relevance. Criticality in optimal learning machines manifests in an exponential degeneracy of energy levels, that leads to unusual thermodynamic properties.
翻訳日:2022-02-02 19:53:44 公開日:2022-02-01
# (参考訳) DNNにおける階層的意思決定の探索

Exploring layerwise decision making in DNNs ( http://arxiv.org/abs/2202.00345v1 )

ライセンス: CC BY 4.0
Coenraad Mouton and Marelie H. Davel(参考訳) ディープニューラルネットワーク(DNN)は多くの機械学習タスクの標準アーキテクチャとなっているが、内部決定プロセスと一般的な解釈可能性はまだ理解されていない。 逆に、一般的な決定木は容易に解釈でき、理論的によく理解される。 ノードの離散的なサンプル活性化値をバイナリ表現として符号化することにより、ReLU活性化多層パーセプトロン(MLP)において各レイヤの分類手順を説明する決定木を抽出できることを示す。 次に、モデルの各レイヤの解釈を生成するために、これらの決定木と既存の特徴属性技術を組み合わせる。 最後に、生成された解釈、バイナリエンコーディングの振る舞い、ニューラルネットワークのトレーニングプロセス中に生成されたサンプルグルーピングとの関連性について分析する。

While deep neural networks (DNNs) have become a standard architecture for many machine learning tasks, their internal decision-making process and general interpretability is still poorly understood. Conversely, common decision trees are easily interpretable and theoretically well understood. We show that by encoding the discrete sample activation values of nodes as a binary representation, we are able to extract a decision tree explaining the classification procedure of each layer in a ReLU-activated multilayer perceptron (MLP). We then combine these decision trees with existing feature attribution techniques in order to produce an interpretation of each layer of a model. Finally, we provide an analysis of the generated interpretations, the behaviour of the binary encodings and how these relate to sample groupings created during the training process of the neural network.
翻訳日:2022-02-02 19:52:15 公開日:2022-02-01
# (参考訳) 進化戦略を用いたデジタル双対ネットワーク最適化のための深層強化学習の高速化

Accelerating Deep Reinforcement Learning for Digital Twin Network Optimization with Evolutionary Strategies ( http://arxiv.org/abs/2202.00360v1 )

ライセンス: CC BY 4.0
Carlos G\"uemes-Palau (1), Paul Almasan (1), Shihan Xiao (2), Xiangle Cheng (2), Xiang Shi (2), Pere Barlet-Ros (1), Albert Cabellos-Aparicio (1) ((1) Barcelona Neural Networking Center, Universitat Polit\`ecnica de Catalunya, Spain (2) Network Technology Lab., Huawei Technologies Co., Ltd.)(参考訳) 近年の緊急ネットワークアプリケーション(衛星ネットワーク、車両ネットワークなど)の成長は、現代の通信ネットワークの管理の複雑さを増している。 その結果、コミュニティは効率的なネットワーク管理の鍵となる手段としてDigital Twin Networks (DTN)を提案した。 ネットワークオペレータはDTNを利用して異なる最適化タスク(例えば、トラフィックエンジニアリング、ネットワークプランニング)を実行することができる。 Deep Reinforcement Learning (DRL) は,ネットワーク最適化問題の解法として高い性能を示した。 DTNの文脈では、DRLは現実世界のネットワーク動作に直接影響を与えずに最適化問題を解決するために利用することができる。 しかし、DRLは問題の大きさと複雑さに乏しい。 本稿では,経路最適化問題の解法として,進化的戦略(ES)を用いてDRLエージェントの訓練を行う。 実験の結果, ES は NSFNET と GEANT2 のトポロジーでそれぞれ 18 と 6 のトレーニングタイムアップを達成した。

The recent growth of emergent network applications (e.g., satellite networks, vehicular networks) is increasing the complexity of managing modern communication networks. As a result, the community proposed the Digital Twin Networks (DTN) as a key enabler of efficient network management. Network operators can leverage the DTN to perform different optimization tasks (e.g., Traffic Engineering, Network Planning). Deep Reinforcement Learning (DRL) showed a high performance when applied to solve network optimization problems. In the context of DTN, DRL can be leveraged to solve optimization problems without directly impacting the real-world network behavior. However, DRL scales poorly with the problem size and complexity. In this paper, we explore the use of Evolutionary Strategies (ES) to train DRL agents for solving a routing optimization problem. The experimental results show that ES achieved a training time speed-up of 128 and 6 for the NSFNET and GEANT2 topologies respectively.
翻訳日:2022-02-02 19:42:27 公開日:2022-02-01
# (参考訳) ファン文化を見つめる男性としてのディープフェイクポルノ

Deepfake pornography as a male gaze on fan culture ( http://arxiv.org/abs/2202.00374v1 )

ライセンス: CC BY 4.0
Inna Suvorova(参考訳) このエッセイは、ファン文化に対するディープフェイク技術の影響を示している。 この革新的な技術は、男性の聴衆にアイデアやプロットを表現するための道具を提供した。 その後、ディープフェイクポルノの台頭に繋がった。 有名人の研究の一部と見なされることが多いが、このエッセイはファンフィックの一種であり、参加文化の産物、コミュニティの起源の共有、商業企業による搾取、ディープセクシュアライゼーションとも考えられる。 これら2つのファンフィック進化の枝は、マシニマポルノグラフィーのジャンルを通して繋がることができる。 テクスト的なファンタジーは主に女性によって作られ、男性を描いているが、それ以外の場合は、ディープフェイクポルノとマチニマは男性と女性をターゲットにした男性によって作られる。

This essay shows the impact of deepfake technology on fan culture. The innovative technology provided the male audience with an instrument to express its ideas and plots. Which subsequently led to the rise of deepfake pornography. It is often seen as a part of celebrity studies; however, the essay shows that it could also be considered a type of fanfic and a product of participatory culture, sharing community origin, exploitation by commercial companies and deep sexualisation. These two branches of fanfic evolution can be connected via the genre of machinima pornography. Textual fanfics are mainly created by females for females, depicting males; otherwise, deepfake pornography and machinima are made by males and for males targeting females.
翻訳日:2022-02-02 19:32:10 公開日:2022-02-01
# (参考訳) 議論の学習を通して説明可能なAI

Explainable AI through the Learning of Arguments ( http://arxiv.org/abs/2202.00383v1 )

ライセンス: CC BY 4.0
Jonas Bei, David Pomerenke, Lukas Schreiner, Sepideh Sharbaf, Pieter Collins, Nico Roos(参考訳) 学習の議論は、説明可能な人工知能の分野と非常に関係がある。 これは、特に人間に解釈可能なシンボリック機械学習技術のファミリーである。 これらのテクニックは、中間表現として引数の集合を学ぶ。 引数は、予測や決定を行うためのより大きな引数にチェーンできる例外を持つ小さなルールである。 議論の学習,特にVerheij [34]の提案した「ケースモデル」からの議論の学習について検討する。 verheijのアプローチのケースモデルは、法的設定のケースまたはシナリオである。 ケースモデルのケース数は相対的に少ない。 本稿では、verheijのアプローチが、より多くのインスタンスを持つ他の種類のデータセットから引数を学ぶのに使えるかどうかについて検討する。 ケースモデルからの議論の学習とHeROアルゴリズム [15] を比較し,意思決定木を学習する。

Learning arguments is highly relevant to the field of explainable artificial intelligence. It is a family of symbolic machine learning techniques that is particularly human-interpretable. These techniques learn a set of arguments as an intermediate representation. Arguments are small rules with exceptions that can be chained to larger arguments for making predictions or decisions. We investigate the learning of arguments, specifically the learning of arguments from a 'case model' proposed by Verheij [34]. The case model in Verheij's approach are cases or scenarios in a legal setting. The number of cases in a case model are relatively low. Here, we investigate whether Verheij's approach can be used for learning arguments from other types of data sets with a much larger number of instances. We compare the learning of arguments from a case model with the HeRO algorithm [15] and learning a decision tree.
翻訳日:2022-02-02 19:19:04 公開日:2022-02-01
# (参考訳) 不均衡クラスインクリメンタル学習における校正法の比較検討

A Comparative Study of Calibration Methods for Imbalanced Class Incremental Learning ( http://arxiv.org/abs/2202.00386v1 )

ライセンス: CC BY 4.0
Umang Aggarwal, Adrian Popescu, Eden Belouadah and C\'eline Hudelot(参考訳) ディープラーニングのアプローチは、幅広いai問題、特に視覚認識タスクで成功しています。 しかし、視覚情報のストリームを処理する能力とデータセットにおけるクラス不均衡の管理には、まだ未解決の問題がある。 既存の研究は、これら2つの問題を現実の応用で共起しながら別々にアプローチしている。 本稿では、不均衡なデータセットから漸進的に学習する問題を考察する。 我々は、一定の深層モデル複雑性を持つアルゴリズムに焦点をあて、インクリメンタルな状態にまたがる古いクラスの例を記憶するために境界メモリを使用する。 メモリは境界なので、古いクラスは新しいクラスよりも少ないイメージで学習され、インクリメンタルな学習による不均衡が初期データセットの不均衡に追加される。 新しいクラスを選好するスコア予測バイアスが出現し、それを減らすためのスコア校正手法の包括的なセットを評価する。 評価は3つのデータセットで行われ、2つのデータセットの不均衡構成と3つの境界メモリサイズを使用する。 その結果,ほとんどのキャリブレーション手法は有効であり,メモリサイズが小さい場合に最も有用であることが示唆された。 二次的貢献として,通常蒸留成分をインクリメンタル学習アルゴリズムの損失関数から除去する。 非バランスなインクリメンタル学習アルゴリズムにとって,よりシンプルなバニラ微調整がより強固なバックボーンであることを示す。

Deep learning approaches are successful in a wide range of AI problems and in particular for visual recognition tasks. However, there are still open problems among which is the capacity to handle streams of visual information and the management of class imbalance in datasets. Existing research approaches these two problems separately while they co-occur in real world applications. Here, we study the problem of learning incrementally from imbalanced datasets. We focus on algorithms which have a constant deep model complexity and use a bounded memory to store exemplars of old classes across incremental states. Since memory is bounded, old classes are learned with fewer images than new classes and an imbalance due to incremental learning is added to the initial dataset imbalance. A score prediction bias in favor of new classes appears and we evaluate a comprehensive set of score calibration methods to reduce it. Evaluation is carried with three datasets, using two dataset imbalance configurations and three bounded memory sizes. Results show that most calibration methods have beneficial effect and that they are most useful for lower bounded memory sizes, which are most interesting in practice. As a secondary contribution, we remove the usual distillation component from the loss function of incremental learning algorithms. We show that simpler vanilla fine tuning is a stronger backbone for imbalanced incremental learning algorithms.
翻訳日:2022-02-02 19:05:57 公開日:2022-02-01
# (参考訳) 不均衡データセットのためのマイノリティクラス指向アクティブラーニング

Minority Class Oriented Active Learning for Imbalanced Datasets ( http://arxiv.org/abs/2202.00390v1 )

ライセンス: CC BY 4.0
Umang Aggarwal, Adrian Popescu, and C\'eline Hudelot(参考訳) active learningは、リソースが制約されたときにデータセットのアノテーションプロセスを最適化することを目的としている。 既存のほとんどのメソッドはバランスの取れたデータセット用に設計されている。 彼らの実用的適用性は、実際のデータセットの大部分が実際に不均衡であるという事実によって制限される。 本稿では,不均衡なデータセットを対象とした新しいアクティブ学習手法を提案する。 これは、ラベル付きサブセットの不均衡を減らし、これらのクラスのより良い表現を作成するために、マイノリティクラスにある可能性が高いサンプルを好む。 また,本研究は,(1)モデル微調整を反復毎に用いた深層能動学習と(2)伝達学習にインスパイアされ,汎用的な事前学習モデルを活用し,各反復に対して浅い分類器を訓練する手法の2つを比較した。 評価は3つの不均衡データセットで実行される。 その結果,提案手法は競争ベースラインを上回っていることがわかった。 同様に興味深いことに、トランスファーラーニングトレーニングスキームは、ジェネリックデータセットからラベルなしデータセットへ機能が転送可能であれば、モデルファインチューニングよりも優れていることを示している。 この最後の結果は驚きであり、コミュニティに深いアクティブな学習方法の設計を探求するよう促すべきである。

Active learning aims to optimize the dataset annotation process when resources are constrained. Most existing methods are designed for balanced datasets. Their practical applicability is limited by the fact that a majority of real-life datasets are actually imbalanced. Here, we introduce a new active learning method which is designed for imbalanced datasets. It favors samples likely to be in minority classes so as to reduce the imbalance of the labeled subset and create a better representation for these classes. We also compare two training schemes for active learning: (1) the one commonly deployed in deep active learning using model fine tuning for each iteration and (2) a scheme which is inspired by transfer learning and exploits generic pre-trained models and train shallow classifiers for each iteration. Evaluation is run with three imbalanced datasets. Results show that the proposed active learning method outperforms competitive baselines. Equally interesting, they also indicate that the transfer learning training scheme outperforms model fine tuning if features are transferable from the generic dataset to the unlabeled one. This last result is surprising and should encourage the community to explore the design of deep active learning methods.
翻訳日:2022-02-02 18:33:04 公開日:2022-02-01
# (参考訳) Twitterの時代における政治と処女性: ギリシャ、スペイン、イギリスにおける大規模横断的センチメント分析

Politics and Virality in the Time of Twitter: A Large-Scale Cross-Party Sentiment Analysis in Greece, Spain and United Kingdom ( http://arxiv.org/abs/2202.00396v1 )

ライセンス: CC BY 4.0
Dimosthenis Antypas, Alun Preece, Jose Camacho Collados(参考訳) ソーシャルメディアは、近代社会、特に西洋社会における政策立案に関して非常に影響力を持つようになった(例えば、ヨーロッパ人の48%が毎日、あるいはほぼ毎日ソーシャルメディアを使用している)。 twitterのようなプラットフォームでは、ユーザーは政治家をフォローできるので、市民は政治議論にもっと関与できる。 同様に、政治家はTwitterを使って意見を表明し、現在の話題について議論し、有権者の行動に影響を与えるための政治議題を推進している。 これまでの研究では、ネガティブな感情を伝えるツイートがより頻繁にリツイートされることが示されている。 本稿では、各国の政治家のツイートを分析し、彼らのツイートが同じ傾向を辿っているかどうかを探る。 最先端の事前学習された言語モデルを活用して,ギリシャ,スペイン,英国議会の議員が収集した多言語ツイートに対する感情分析を行った。 私たちは、影響力のあるツイートとあまり人気のないツイートの違いを体系的に探索し分析することでこれを達成しました。 分析の結果、政治家のネガティブなツイートは、特に近年、広く拡散し、感情と人気の交点で興味深い傾向が浮き彫りになった。

Social media has become extremely influential when it comes to policy making in modern societies especially in the western world (e.g., 48% of Europeans use social media every day or almost every day). Platforms such as Twitter allow users to follow politicians, thus making citizens more involved in political discussion. In the same vein, politicians use Twitter to express their opinions, debate among others on current topics and promote their political agenda aiming to influence voter behaviour. Previous studies have shown that tweets conveying negative sentiment are likely to be retweeted more frequently. In this paper, we attempt to analyse tweets from politicians from different countries and explore if their tweets follow the same trend. Utilising state-of-the-art pre-trained language models we performed sentiment analysis on multilingual tweets collected from members of parliament of Greece, Spain and United Kingdom, including devolved administrations. We achieved this by systematically exploring and analysing the differences between influential and less popular tweets. Our analysis indicates that politicians' negatively charged tweets spread more widely, especially in more recent times, and highlights interesting trends in the intersection of sentiment and popularity.
翻訳日:2022-02-02 18:18:19 公開日:2022-02-01
# (参考訳) 音声認識システムにおける逆攻撃の言語依存性

Language Dependencies in Adversarial Attacks on Speech Recognition Systems ( http://arxiv.org/abs/2202.00399v1 )

ライセンス: CC BY 4.0
Karla Markert and Donika Mirdita and Konstantin B\"ottinger(参考訳) 自動音声認識 (asr) システムは, 日常的デバイスにおいてユビキタスに存在している。 敵の攻撃に対して脆弱で、操作された入力サンプルはASRシステムの認識を騙す。 様々な英語のASRシステムの逆例はすでに分析されているが、言語間比較脆弱性分析は存在しない。 我々は、Deepspeechを例として、ドイツ語と英語のASRシステムの攻撃可能性を比較した。 一方の言語モデルが他方よりも操作に影響を受けやすいかを検討する。 実験結果から, 対数実例の生成に要する計算労力の面では, 英語とドイツ語の統計的に有意な差異が示唆された。 この結果は、ASRのロバスト性解析における言語依存特性のさらなる研究を促進する。

Automatic speech recognition (ASR) systems are ubiquitously present in our daily devices. They are vulnerable to adversarial attacks, where manipulated input samples fool the ASR system's recognition. While adversarial examples for various English ASR systems have already been analyzed, there exists no inter-language comparative vulnerability analysis. We compare the attackability of a German and an English ASR system, taking Deepspeech as an example. We investigate if one of the language models is more susceptible to manipulations than the other. The results of our experiments suggest statistically significant differences between English and German in terms of computational effort necessary for the successful generation of adversarial examples. This result encourages further research in language-dependent characteristics in the robustness analysis of ASR.
翻訳日:2022-02-02 18:01:16 公開日:2022-02-01
# (参考訳) コンピュータビジョンのためのシリアルおよび並列マイカット/マックスフローアルゴリズムのレビュー

Review of Serial and Parallel Min-Cut/Max-Flow Algorithms for Computer Vision ( http://arxiv.org/abs/2202.00418v1 )

ライセンス: CC BY 4.0
Patrick M. Jensen, Niels Jeppesen, Anders B. Dahl and Vedrana A. Dahl(参考訳) 最小カット/最大フロー (min-cut/max-flow) アルゴリズムはコンピュータビジョンの様々な問題を解決するために用いられ、高速のmin-cut/max-flowアルゴリズムの開発に多大な努力が払われている。 これにより、与えられた問題、特に完全比較されていない並列アルゴリズムに対して最適なアルゴリズムを選択することが困難になる。 本稿では,コンピュータビジョンにおける非構造化グラフに対する最先端のmin-cut/max-flowアルゴリズムについて述べる。 本稿では,一連のグラフカット問題に対する逐次アルゴリズムと並列アルゴリズムの様々な実装の実行時間性能とメモリ使用について評価する。 以上の結果から,Hochbaum擬似フローアルゴリズムは最も高速なシリアルアルゴリズムであり,Excesses Incremental Breadth First Searchアルゴリズムがそれに近づき,Boykov-Kolmogorovアルゴリズムは最もメモリ効率が高いことがわかった。 最良の並列アルゴリズムは、LiuとSunによる適応的なボトムアップマージアプローチである。 さらに,異なる実装間の性能が,低レベルの実装の重要さを強調した同じアルゴリズムで大きく変化することを示す。 最後に、既存の並列マイトカット/マックスフローアルゴリズムは、大問題ではシリアルアルゴリズムを著しく上回るが、中小問題ではオーバーヘッドが増大する。 すべてのアルゴリズムの実装はhttps://github.com/patmjen/maxflow_algorithmsで利用可能である。

Minimum cut / maximum flow (min-cut/max-flow) algorithms are used to solve a variety of problems in computer vision and thus significant effort has been put into developing fast min-cut/max-flow algorithms. This makes it difficult to choose an optimal algorithm for a given problem - especially for parallel algorithms, which have not been thoroughly compared. In this paper, we review the state-of-the-art min-cut/max-flow algorithms for unstructured graphs in computer vision. We evaluate run time performance and memory use of various implementations of both serial and parallel algorithms on a set of graph cut problems. Our results show that the Hochbaum pseudoflow algorithm is the fastest serial algorithm closely followed by the Excesses Incremental Breadth First Search algorithm, while the Boykov-Kolmogorov algorithm is the most memory efficient. The best parallel algorithm is the adaptive bottom-up merging approach by Liu and Sun. Additionally, we show significant variations in performance between different implementations the same algorithms highlighting the importance of low-level implementation details. Finally, we note that existing parallel min-cut/max-flow algorithms can significantly outperform serial algorithms on large problems but suffers from added overhead on small to medium problems. Implementations of all algorithms are available at https://github.com/patmjen/maxflow_algorithms
翻訳日:2022-02-02 17:48:27 公開日:2022-02-01
# (参考訳) 低複雑性正規化器の反復正則化

Iterative regularization for low complexity regularizers ( http://arxiv.org/abs/2202.00420v1 )

ライセンス: CC BY 4.0
Cesare Molinari and Mathurin Massias and Lorenzo Rosasco and Silvia Villa(参考訳) 反復正則化は最適化アルゴリズムの暗黙のバイアスを利用して不適切な問題を正則化する。 このような正則化機構を組み込んだアルゴリズムの構築は、逆問題だけでなく、現代の機械学習においても古典的な課題であり、アルゴリズム解析に対する新たな視点と、明示的な正則化と比較して大幅なスピードアップを提供する。 本研究では,非滑らかかつ非強凸汎関数によって記述されるバイアスを扱える最初の反復正規化手法を提案し,検討する。 提案手法は,元の問題が実現不可能な場合においても,収束特性と安定性特性を解析する原始双対アルゴリズムに基づいている。 一般的な結果は、$\ell_1$ペナルティを伴うスパース回復の特別な場合を考慮して示される。 我々の理論結果は、我々のアプローチの計算上の利点を示す実験によって補完される。

Iterative regularization exploits the implicit bias of an optimization algorithm to regularize ill-posed problems. Constructing algorithms with such built-in regularization mechanisms is a classic challenge in inverse problems but also in modern machine learning, where it provides both a new perspective on algorithms analysis, and significant speed-ups compared to explicit regularization. In this work, we propose and study the first iterative regularization procedure able to handle biases described by non smooth and non strongly convex functionals, prominent in low-complexity regularization. Our approach is based on a primal-dual algorithm of which we analyze convergence and stability properties, even in the case where the original problem is unfeasible. The general results are illustrated considering the special case of sparse recovery with the $\ell_1$ penalty. Our theoretical results are complemented by experiments showing the computational benefits of our approach.
翻訳日:2022-02-02 17:20:14 公開日:2022-02-01
# (参考訳) メモリベースのメッセージパッシング: 差別禁止のためのメッセージの分離

Memory-based Message Passing: Decoupling the Message for Propogation from Discrimination ( http://arxiv.org/abs/2202.00423v1 )

ライセンス: CC BY 4.0
Jie Chen, Weiqi Liu, Jian Pu(参考訳) メッセージパッシングは、グラフ表現学習の分野におけるグラフニューラルネットワークの基本的な手順である。 ホモフィリー仮定に基づいて、現在のメッセージパッシングは、グラフラプラシアン平滑化プロセスのような連結ノードの特徴を常に集約する。 しかし、実世界のグラフはノイズが多く、非滑らかである傾向がある。 ホモフィリー仮定は必ずしも成り立たないので、準最適結果をもたらす。 修正されたメッセージパッシングメソッドは、隣接ノードからメッセージを集約する場合、各ノードの識別能力を維持する必要がある。 この目的のために、各ノードのメッセージを識別のための自己埋め込み部と伝搬のためのメモリ部に分離するメモリベースのメッセージパッシング(MMP)手法を提案する。 さらに、各ノードに対するメモリ内のメッセージを吸収・排除する比率を制御するための制御機構と分離正規化を開発する。 さらに重要なのは、私たちのMMPは、従来のGNNのパフォーマンス向上に役立つ追加レイヤとして機能する一般的なスキルです。 相同比の異なる様々なデータセットに関する広範囲な実験により,提案手法の有効性とロバスト性が示された。

Message passing is a fundamental procedure for graph neural networks in the field of graph representation learning. Based on the homophily assumption, the current message passing always aggregates features of connected nodes, such as the graph Laplacian smoothing process. However, real-world graphs tend to be noisy and/or non-smooth. The homophily assumption does not always hold, leading to sub-optimal results. A revised message passing method needs to maintain each node's discriminative ability when aggregating the message from neighbors. To this end, we propose a Memory-based Message Passing (MMP) method to decouple the message of each node into a self-embedding part for discrimination and a memory part for propagation. Furthermore, we develop a control mechanism and a decoupling regularization to control the ratio of absorbing and excluding the message in the memory for each node. More importantly, our MMP is a general skill that can work as an additional layer to help improve traditional GNNs performance. Extensive experiments on various datasets with different homophily ratios demonstrate the effectiveness and robustness of the proposed method.
翻訳日:2022-02-02 17:19:15 公開日:2022-02-01
# (参考訳) 高エネルギー物理学のためのパラメトリックニューラルネットワークの改良

Improving Parametric Neural Networks for High-Energy Physics (and Beyond) ( http://arxiv.org/abs/2202.00424v1 )

ライセンス: CC BY 4.0
Luca Anzalone, Tommaso Diotalevi and Daniele Bonacorsi(参考訳) 信号背景分類は高エネルギー物理学の中心的な問題であり、新しい基本粒子の発見に重要な役割を果たしている。 最近の手法であるパラメトリックニューラルネットワーク(pNN)は、複数の信号質量仮説を付加的な入力特徴として利用して、個々の分類器の集合全体を効果的に置き換え、それぞれが単一の質量仮説に対して(原則として)最良の応答を提供する。 本研究は,実環境におけるpNNの理解を深めることを目的としている。 パラメトリックネットワークの特徴がいくつか発見され,直観,メトリクス,ガイドラインが得られた。 さらに、AffinePNNという新しいパラメトリゼーションニューラルネットワークアーキテクチャと、他の多くの一般的な改善点を提案する。 最後に、我々のモデルをHEPMASSデータセット上で広範囲に評価し、その不均衡バージョン(HEPMASS-IMBと呼ばれる)とともに、我々のアプローチをさらに検証するために、ここで初めて提供する。 その結果,提案する設計決定,分類性能,補間能力の影響について検討した。

Signal-background classification is a central problem in High-Energy Physics, that plays a major role for the discovery of new fundamental particles. A recent method -- the Parametric Neural Network (pNN) -- leverages multiple signal mass hypotheses as an additional input feature to effectively replace a whole set of individual classifier, each providing (in principle) the best response for a single mass hypothesis. In this work we aim at deepening the understanding of pNNs in light of real-world usage. We discovered several peculiarities of parametric networks, providing intuition, metrics, and guidelines to them. We further propose an alternative parametrization scheme, resulting in a new parametrized neural network architecture: the AffinePNN; along with many other generally applicable improvements. Finally, we extensively evaluate our models on the HEPMASS dataset, along its imbalanced version (called HEPMASS-IMB) we provide here for the first time to further validate our approach. Provided results are in terms of the impact of the proposed design decisions, classification performance, and interpolation capability as well.
翻訳日:2022-02-02 17:10:25 公開日:2022-02-01
# (参考訳) 動作単位検出のためのマルチオーダーネットワーク

Multi-Order Networks for Action Unit Detection ( http://arxiv.org/abs/2202.00446v1 )

ライセンス: CC BY 4.0
Gauthier Tallec, Arnaud Dapogny and Kevin Bailly(参考訳) ひとつのネットワーク内で複数のタスクが学習されるディープマルチタスク手法が近年注目されている。 この注意の燃える点は、タスク間の関係を捉える能力です。 現在のアプローチでは、ウェイトシェアリングのみに依存するか、ベイズ連鎖則を用いてタスクジョイント分布を分解することで明示的な依存性モデリングを追加する。 後者の戦略が包括的なタスク間関係をモデル化するならば、任意の順序を未順序のタスクセットに含める必要がある。 最も重要なことは、このシーケンスオーダ選択がパフォーマンスの変動の重要な原因として特定されていることである。 本稿では,タスク順序を最適化したマルチタスク学習手法であるMulti-Order Network(MONET)を提案する。 MONETは、Birkhoffのポリトープ内のソフトオーダーモデリングに基づいて、最適な連鎖順序でタスクワイズリカレントモジュールを共同で学習するために、微分可能な順序選択を使用する。 さらに,秩序探索を奨励し,秩序選択を高めるために暖かみと秩序の低下を導入する。 実験では,まずMONETのキャパシティを検証し,玩具環境での最適順序を求める。 次に、属性検出シナリオを使用して、MONETが既存のマルチタスクベースラインを広範囲の依存性設定で上回ることを示す。 最後に,MONET が顔行動単位検出における最先端性能を著しく拡張することを示す。

Deep multi-task methods, where several tasks are learned within a single network, have recently attracted increasing attention. Burning point of this attention is their capacity to capture inter-task relationships. Current approaches either only rely on weight sharing, or add explicit dependency modelling by decomposing the task joint distribution using Bayes chain rule. If the latter strategy yields comprehensive inter-task relationships modelling, it requires imposing an arbitrary order into an unordered task set. Most importantly, this sequence ordering choice has been identified as a critical source of performance variations. In this paper, we present Multi-Order Network (MONET), a multi-task learning method with joint task order optimization. MONET uses a differentiable order selection based on soft order modelling inside Birkhoff's polytope to jointly learn task-wise recurrent modules with their optimal chaining order. Furthermore, we introduce warm up and order dropout to enhance order selection by encouraging order exploration. Experimentally, we first validate MONET capacity to retrieve the optimal order in a toy environment. Second, we use an attribute detection scenario to show that MONET outperforms existing multi-task baselines on a wide range of dependency settings. Finally, we demonstrate that MONET significantly extends state-of-the-art performance in Facial Action Unit detection.
翻訳日:2022-02-02 16:53:33 公開日:2022-02-01
# (参考訳) きめ細かい微分可能な物理--織物の糸レベルモデル

Fine-grained differentiable physics: a yarn-level model for fabrics ( http://arxiv.org/abs/2202.00504v1 )

ライセンス: CC BY 4.0
Deshan Gong, Zhanxing Zhu, Andrew J.Bulpitt, He Wang(参考訳) 微分可能な物理モデリングは、物理モデルと勾配に基づく学習を組み合わせて、モデル説明可能性とデータ効率を提供する。 ダイナミックスを学び、逆問題の解決と設計の促進に使われており、影響の発端にある。 現在の成功は、剛体や変形可能なシートなどの一般的な物理学モデルに集中し、比較的単純な構造や力を仮定している。 その粒度は本質的に粗く、複雑な物理現象をモデル化できない。 洗練された材料構造と勾配に基づく学習との強制的な相互作用を組み込むために、きめ細かいモデルがまだ開発されている。 この動機を活かし,繊維の粒度を考察し,糸とヤーンの相互作用をモデル化し,布などの複合材料に対する新しい微分可能な織物モデルを提案する。 この目的のために, 経験物理学では非微分可能となるいくつかの微分可能力を提案し, 勾配に基づく学習を容易にする。 これらの力は布に当てはまるが、様々な物理的システムにおいてユビキタスである。 総合的な評価と比較を通じて,本モデルが有意義な物理パラメータを学習する可能性,複雑な物理構造と異質な材料を組み込む場合の汎用性,学習におけるデータ効率,微妙なダイナミクスを捉える際の高忠実性を示す。

Differentiable physics modeling combines physics models with gradient-based learning to provide model explicability and data efficiency. It has been used to learn dynamics, solve inverse problems and facilitate design, and is at its inception of impact. Current successes have concentrated on general physics models such as rigid bodies, deformable sheets, etc., assuming relatively simple structures and forces. Their granularity is intrinsically coarse and therefore incapable of modelling complex physical phenomena. Fine-grained models are still to be developed to incorporate sophisticated material structures and force interactions with gradient-based learning. Following this motivation, we propose a new differentiable fabrics model for composite materials such as cloths, where we dive into the granularity of yarns and model individual yarn physics and yarn-to-yarn interactions. To this end, we propose several differentiable forces, whose counterparts in empirical physics are indifferentiable, to facilitate gradient-based learning. These forces, albeit applied to cloths, are ubiquitous in various physical systems. Through comprehensive evaluation and comparison, we demonstrate our model's explicability in learning meaningful physical parameters, versatility in incorporating complex physical structures and heterogeneous materials, data-efficiency in learning, and high-fidelity in capturing subtle dynamics.
翻訳日:2022-02-02 16:30:52 公開日:2022-02-01
# (参考訳) 分散確率分散還元超勾配法

Decentralized Stochastic Variance Reduced Extragradient Method ( http://arxiv.org/abs/2202.00509v1 )

ライセンス: CC BY 4.0
Luo Luo, Haishan Ye(参考訳) そこで$m$はエージェントの数であり、各局所関数は$f_i(x,y)=\frac{1}{n}\sum_{j=1}^n f_{i,j}(x,y)$と書くことができる。 本稿では,マルチコンセンサス確率分散低減法(multi-consensus stochastic variance reduced extragradient)と呼ばれる分散最適化アルゴリズムを提案する。 具体的には、各エージェントは$\mathcal O((n+\kappa\sqrt{n})\log(1/\varepsilon))$ SFOコールは強凸-強凹問題であり、$\mathcal O((n+\sqrt{n}L/\varepsilon)\log(1/\varepsilon))$ SFOコールは一般凸-凸問題で$\varepsilon$-accurate解を期待して、$\kappa$は条件数であり、$L$は滑らか性パラメータである。 数値実験により,提案手法はベースラインよりも優れた性能を示す。

This paper studies decentralized convex-concave minimax optimization problems of the form $\min_x\max_y f(x,y) \triangleq\frac{1}{m}\sum_{i=1}^m f_i(x,y)$, where $m$ is the number of agents and each local function can be written as $f_i(x,y)=\frac{1}{n}\sum_{j=1}^n f_{i,j}(x,y)$. We propose a novel decentralized optimization algorithm, called multi-consensus stochastic variance reduced extragradient, which achieves the best known stochastic first-order oracle (SFO) complexity for this problem. Specifically, each agent requires $\mathcal O((n+\kappa\sqrt{n})\log(1/\varepsilon))$ SFO calls for strongly-convex-strongly-concave problem and $\mathcal O((n+\sqrt{n}L/\varepsilon)\log(1/\varepsilon))$ SFO call for general convex-concave problem to achieve $\varepsilon$-accurate solution in expectation, where $\kappa$ is the condition number and $L$ is the smoothness parameter. The numerical experiments show the proposed method performs better than baselines.
翻訳日:2022-02-02 16:28:26 公開日:2022-02-01
# (参考訳) ラジカル化経路の低減に向けての次回勧告の見直し

Rewiring What-to-Watch-Next Recommendations to Reduce Radicalization Pathways ( http://arxiv.org/abs/2202.00640v1 )

ライセンス: CC BY 4.0
Francesco Fabbri, Yanhao Wang, Francesco Bonchi, Carlos Castillo, Michael Mathioudakis(参考訳) レコメンダシステムは、通常、過去に消費したものに似たユーザーコンテンツを提案する。 もしユーザーが強く分極されたコンテンツに晒された場合、彼女はその後、より過激なコンテンツに向けて彼女を操るレコメンデーションを受け取り、最終的に私たちが「ラジカル化経路」と呼ぶものに閉じ込められるかもしれない。 本稿では,グラフベースアプローチによるラジカル化経路の緩和問題について検討する。 具体的には、"What-to-watch-next"レコメンデーションのセットを、ノードがコンテンツ項目、レコメンデーションへのリンク、ユーザセッションへのパスに対応するd-regular Directed graphとしてモデル化する。 我々は,過激化コンテンツを表すノードの「分離」スコアを,そのノードから非ラジカル化コンテンツを表すノードへのランダムウォークの予測長として測定する。 高い隔離スコアは、ユーザーを過激化経路に閉じ込めるチャンスの増加に関係している。 そこで我々は,複数のエッジを"リワイヤ"に選択することで,ラジカル化経路の頻度を低減し,すべてのノード間の分離スコアの最大化を図り,レコメンデーションの関連性を維持しながら課題を定めている。 rewireの最適な推奨セットを見つける問題は、任意の係数内で近似するnp-hardとnp-hardであることが証明される。 そこで,我々はヒューリスティックスに注意を向け,吸収ランダムウォーク理論に基づく効率的かつ効果的なグリーディアルゴリズムを提案する。 ビデオおよびニュースレコメンデーションの文脈における実世界のデータセットに関する実験により,提案の有効性が確認された。

Recommender systems typically suggest to users content similar to what they consumed in the past. If a user happens to be exposed to strongly polarized content, she might subsequently receive recommendations which may steer her towards more and more radicalized content, eventually being trapped in what we call a "radicalization pathway". In this paper, we study the problem of mitigating radicalization pathways using a graph-based approach. Specifically, we model the set of recommendations of a "what-to-watch-next" recommender as a d-regular directed graph where nodes correspond to content items, links to recommendations, and paths to possible user sessions. We measure the "segregation" score of a node representing radicalized content as the expected length of a random walk from that node to any node representing non-radicalized content. High segregation scores are associated to larger chances to get users trapped in radicalization pathways. Hence, we define the problem of reducing the prevalence of radicalization pathways by selecting a small number of edges to "rewire", so to minimize the maximum of segregation scores among all radicalized nodes, while maintaining the relevance of the recommendations. We prove that the problem of finding the optimal set of recommendations to rewire is NP-hard and NP-hard to approximate within any factor. Therefore, we turn our attention to heuristics, and propose an efficient yet effective greedy algorithm based on the absorbing random walk theory. Our experiments on real-world datasets in the context of video and news recommendations confirm the effectiveness of our proposal.
翻訳日:2022-02-02 16:26:48 公開日:2022-02-01
# 高精度磁場イメージングのための機械学習量子センサ

Machine-learning-enhanced quantum sensors for accurate magnetic field imaging ( http://arxiv.org/abs/2202.00380v1 )

ライセンス: Link先を確認
Moeta Tsukamoto, Shuji Ito, Kensuke Ogawa, Yuto Ashida, Kento Sasaki and Kensuke Kobayashi(参考訳) 磁場の局所検出はナノ材料やマイクロ材料の特徴付けに不可欠であり、様々な走査技術やダイヤモンド量子センサーを用いて実装されている。 ダイヤモンドナノ粒子(ナノダイヤモンド)は、表面に取り付けるだけで、わずか10nm以内で容易にターゲットに近づくことができるため、高い空間分解能を得る魅力的な機会を提供する。 このようなランダム指向ナノダイアモンドアンサンブル(NDE)の物理モデルが利用可能であるが、実際の実験条件の複雑さは依然として磁場の低減の精度を制限している。 ここでは、NDEと機械学習を物理モデルなしで組み合わせた1.8$\mu$Tの高精度な磁場イメージングを実演する。 また,nde信号の場方向依存性を発見し,ベクトル磁気計測の応用の可能性と既存モデルの改良を示唆した。 さらにNDEの性能を向上し, 原子層材料中のメソスコピック電流と磁気を可視化し, 生体を含む任意の形状の材料への適用性を高める。 この成果は、正確な測定のために機械学習と量子センシングを橋渡しする。

Local detection of magnetic fields is crucial for characterizing nano- and micro-materials and has been implemented using various scanning techniques or even diamond quantum sensors. Diamond nanoparticles (nanodiamonds) offer an attractive opportunity to chieve high spatial resolution because they can easily be close to the target within a few 10 nm simply by attaching them to its surface. A physical model for such a randomly oriented nanodiamond ensemble (NDE) is available, but the complexity of actual experimental conditions still limits the accuracy of deducing magnetic fields. Here, we demonstrate magnetic field imaging with high accuracy of 1.8 $\mu$T combining NDE and machine learning without any physical models. We also discover the field direction dependence of the NDE signal, suggesting the potential application for vector magnetometry and improvement of the existing model. Our method further enriches the performance of NDE to achieve the accuracy to visualize mesoscopic current and magnetism in atomic-layer materials and to expand the applicability in arbitrarily shaped materials, including living organisms. This achievement will bridge machine learning and quantum sensing for accurate measurements.
翻訳日:2022-02-02 16:02:08 公開日:2022-02-01
# 蛍光相関分光法によるがん患者由来細胞外小胞のマシンインテリジェンス駆動分類:試験的検討

Machine Intelligence-Driven Classification of Cancer Patients-Derived Extracellular Vesicles using Fluorescence Correlation Spectroscopy: Results from a Pilot Study ( http://arxiv.org/abs/2202.00495v1 )

ライセンス: Link先を確認
Abicumaran Uthamacumaran, Mohamed Abdouh, Kinshuk Sengupta, Zu-hua Gao, Stefano Forte, Thupten Tsering, Julia V Burnier, Goffredo Arena(参考訳) 複雑な生物学的貨物を含む患者由来の細胞外小胞(evs)は、早期発見、がんスクリーニング、精密なナノ治療に役立つ液体生検診断の貴重な源である。 本研究では,がん患者の血液由来EVと時間分解分光法と人工知能(AI)を結合させることで,がん検診と追跡ツールの確立が期待できた。 方法:24試料EVを用いた蛍光相関分光法(FCS)の測定を行った。 血液サンプルは癌15例(5種類の癌)と健常者9例(良性病変を含む)から得られた。 得られたFCS自己相関スペクトルをFast-Fourier Transformアルゴリズムを用いてパワースペクトルに処理し,正常な制御スペクトルから癌スペクトルを識別する各種機械学習アルゴリズムを適用した。 AdaBoost Random Forest (RF) 分類器, サポートベクターマシン, 多層パーセプトロンの性能をN=118パワースペクトルの選択周波数で試験した。 rf分類器は, 癌患者のfcsパワースペクトルと健常者との識別において, 90%の分類精度と高い感度と特異性を示した。 さらに、パワースペクトル画像に対して、画像畳み込みニューラルネットワーク(CNN)、ResNetネットワーク、量子CNNを追加の検証ツールとして評価した。 全ての画像ベースCNNは、ほぼ同等の分類性能を示し、精度はおよそ82%、感度と特異度は合理的に高い。 我々のパイロット研究は、AI-アルゴリズムと時間分解SFSパワースペクトルが、異なる組織サブタイプの異なるがんサンプルから、複雑な患者由来EVを正確に、微分的に分類できることを示した。

Patient-derived extracellular vesicles (EVs) that contains a complex biological cargo is a valuable source of liquid biopsy diagnostics to aid in early detection, cancer screening, and precision nanotherapeutics. In this study, we predicted that coupling cancer patient blood-derived EVs to time-resolved spectroscopy and artificial intelligence (AI) could provide a robust cancer screening and follow-up tools. Methods: Fluorescence correlation spectroscopy (FCS) measurements were performed on 24 blood samples-derived EVs. Blood samples were obtained from 15 cancer patients (presenting 5 different types of cancers), and 9 healthy controls (including patients with benign lesions). The obtained FCS autocorrelation spectra were processed into power spectra using the Fast-Fourier Transform algorithm and subjected to various machine learning algorithms to distinguish cancer spectra from healthy control spectra. Results and Applications: The performance of AdaBoost Random Forest (RF) classifier, support vector machine, and multilayer perceptron, were tested on selected frequencies in the N=118 power spectra. The RF classifier exhibited a 90% classification accuracy and high sensitivity and specificity in distinguishing the FCS power spectra of cancer patients from those of healthy controls. Further, an image convolutional neural network (CNN), ResNet network, and a quantum CNN were assessed on the power spectral images as additional validation tools. All image-based CNNs exhibited a nearly equal classification performance with an accuracy of roughly 82% and reasonably high sensitivity and specificity scores. Our pilot study demonstrates that AI-algorithms coupled to time-resolved FCS power spectra can accurately and differentially classify the complex patient-derived EVs from different cancer samples of distinct tissue subtypes.
翻訳日:2022-02-02 16:01:52 公開日:2022-02-01
# 深層学習によるパウリスピン遮断の同定

Identifying Pauli spin blockade using deep learning ( http://arxiv.org/abs/2202.00574v1 )

ライセンス: Link先を確認
Jonas Schuff, Dominic T. Lennon, Simon Geyer, David L. Craig, Federico Fedele, Florian Vigneau, Leon C. Camenzind, Andreas V. Kuhlmann, G. Andrew D. Briggs, Dominik M. Zumb\"uhl, Dino Sejdinovic, Natalia Ares(参考訳) パウリスピンブロック(psb)は、高温でもスピン量子ビットの初期化と読み出しのための優れた資源として利用できるが、識別は困難である。 電荷輸送測定を用いてPSBを自動的に識別できる機械学習アルゴリズムを提案する。 PSBデータの不足は、シミュレーションデータを用いてアルゴリズムを訓練し、デバイス間検証によって回避される。 シリコン電界効果トランジスタデバイスへのアプローチを実証し、異なるテストデバイス上で96%の精度を報告し、このアプローチがデバイス変動にロバストであることを示す。 このアプローチは、あらゆる種類の量子ドットデバイスで採用されることが期待される。

Pauli spin blockade (PSB) can be employed as a great resource for spin qubit initialisation and readout even at elevated temperatures but it can be difficult to identify. We present a machine learning algorithm capable of automatically identifying PSB using charge transport measurements. The scarcity of PSB data is circumvented by training the algorithm with simulated data and by using cross-device validation. We demonstrate our approach on a silicon field-effect transistor device and report an accuracy of 96% on different test devices, giving evidence that the approach is robust to device variability. The approach is expected to be employable across all types of quantum dot devices.
翻訳日:2022-02-02 16:01:21 公開日:2022-02-01
# 有限次元可換半単純代数上の一般化高次特異値分解による画像の近似

Approximation of Images via Generalized Higher Order Singular Value Decomposition over Finite-dimensional Commutative Semisimple Algebra ( http://arxiv.org/abs/2202.00450v1 )

ライセンス: Link先を確認
Liang Liao, Sen Lin, Lun Li, Xiuwei Zhang, Song Zhao, Yan Wang, Xinqiang Wang, Qi Gao, Jingyu Wang(参考訳) 特異値分解による画像の低ランク近似は、ビッグデータの時代においてよく認識される。 しかし、特異値分解(SVD)は2次データ(行列)に限られる。 高次入力をマトリックスに平らにするか、あるいは一連の2次スライスに分割することで、マルチスペクトル画像やsvdによるビデオといった高次データに取り組む必要がある。 高階特異値分解(HOSVD)はSVDを拡張し、少数のランク1成分の和を用いて高階データを近似することができる。 有限次元可換代数上でのHOSVDの一般化の問題を考える。 この代数はt-代数と呼ばれ、複素数の体を一般化する。 t-スカラーと呼ばれる代数の元は複素数の固定サイズの配列である。 t-スカラー上で行列やテンソルを一般化し、HOSVDを含む多くの標準行列やテンソルアルゴリズムを拡張して高性能版を得る。 HOSVDの一般化はTHOSVDと呼ばれる。 マルチウェイデータの近似性能は、交互アルゴリズムによりさらに向上することができる。 THOSVDはまた、幅広い主成分分析アルゴリズムを統一する。 画像の近似にt-スカラーを用いる一般化アルゴリズムの可能性を活用するために,画素近傍戦略を用いて各画素を「deeper-order」t-スカラーに変換する。 公開されている画像の実験では、THOSVDと呼ばれるt-スカラー上の一般化されたアルゴリズムが、標準のものと好意的に比較されている。

Low-rank approximation of images via singular value decomposition is well-received in the era of big data. However, singular value decomposition (SVD) is only for order-two data, i.e., matrices. It is necessary to flatten a higher order input into a matrix or break it into a series of order-two slices to tackle higher order data such as multispectral images and videos with the SVD. Higher order singular value decomposition (HOSVD) extends the SVD and can approximate higher order data using sums of a few rank-one components. We consider the problem of generalizing HOSVD over a finite dimensional commutative algebra. This algebra, referred to as a t-algebra, generalizes the field of complex numbers. The elements of the algebra, called t-scalars, are fix-sized arrays of complex numbers. One can generalize matrices and tensors over t-scalars and then extend many canonical matrix and tensor algorithms, including HOSVD, to obtain higher-performance versions. The generalization of HOSVD is called THOSVD. Its performance of approximating multi-way data can be further improved by an alternating algorithm. THOSVD also unifies a wide range of principal component analysis algorithms. To exploit the potential of generalized algorithms using t-scalars for approximating images, we use a pixel neighborhood strategy to convert each pixel to "deeper-order" t-scalar. Experiments on publicly available images show that the generalized algorithm over t-scalars, namely THOSVD, compares favorably with its canonical counterparts.
翻訳日:2022-02-02 15:59:29 公開日:2022-02-01
# (参考訳) 極小サイズ高次元データにおける組込み特徴選択のためのNested Cross-Validationと自動ハイパーパラメータ最適化の併用

Combined Pruning for Nested Cross-Validation to Accelerate Automated Hyperparameter Optimization for Embedded Feature Selection in High-Dimensional Data with Very Small Sample Sizes ( http://arxiv.org/abs/2202.00598v1 )

ライセンス: CC BY 4.0
Sigrun May, Sven Hartmann and Frank Klawonn(参考訳) 非常に小さなサンプルサイズを持つ高次元データの無関係な特徴を排除するためにツリーベースの組み込み特徴選択を適用するには、モデル構築プロセスに最適化されたハイパーパラメータが必要である。 さらに、バイアスドモデルのパフォーマンスを避けるために、ネストしたクロスバリデーションをこの種のデータに適用する必要がある。 結果としての長い計算時間をプルーニングで高速化することができる。 しかし, 標準的な刈り込みアルゴリズムは, 性能評価基準のばらつきが大きいため, 予測可能なハイパーパラメータ集合の計算を遅らせるか, リスクを回避しなければならない。 これを解決するために、最先端の半減期プルーナーの使用を適応させ、ドメインや事前知識に基づく2つの新しいプルーニング戦略と組み合わせる。 追加のプルーニング戦略は、選択されたハイパーパラメータの組み合わせに対する意味的に意味のない結果による試行の計算を直ちに停止する。 もう一つは、高分散のネストクロスバリデーションに適した外挿しきい値プルーニング戦略である。 提案する3層prunerは,最先端の非同期連続型halvingpruner単独と比較して,最大81,3%のモデル数を削減しながら,有望な試験を継続する。 我々の3層プルーナー実装(https://github.com/sigrun-may/cv-prunerで利用可能)はデータ解析を高速化するか、あるいは同じ計算時間内でより深いハイパーパラメータ検索を可能にする。 これにより、時間とお金とエネルギーを節約し、CO2排出量を減らす。

Applying tree-based embedded feature selection to exclude irrelevant features in high-dimensional data with very small sample sizes requires optimized hyperparameters for the model building process. In addition, nested cross-validation must be applied for this type of data to avoid biased model performance. The resulting long computation time can be accelerated with pruning. However, standard pruning algorithms must prune late or risk aborting calculations of promising hyperparameter sets due to high variance in the performance evaluation metric. To address this, we adapt the usage of a state-of-the-art successive halving pruner and combine it with two new pruning strategies based on domain or prior knowledge. One additional pruning strategy immediately stops the computation of trials with semantically meaningless results for the selected hyperparameter combinations. The other is an extrapolating threshold pruning strategy suitable for nested-cross-validation with high variance. Our proposed combined three-layer pruner keeps promising trials while reducing the number of models to be built by up to 81,3% compared to using a state-of-the-art asynchronous successive halving pruner alone. Our three-layer pruner implementation(available at https://github.com/sigrun-may/cv-pruner) speeds up data analysis or enables deeper hyperparameter search within the same computation time. It consequently saves time, money and energy, reducing the CO2 footprint.
翻訳日:2022-02-02 15:58:11 公開日:2022-02-01
# MotifExplainer: Motifベースのグラフニューラルネットワーク説明器

MotifExplainer: a Motif-based Graph Neural Network Explainer ( http://arxiv.org/abs/2202.00519v1 )

ライセンス: Link先を確認
Zhaoning Yu, Hongyang Gao(参考訳) 本稿では,グラフニューラルネットワーク(gnns)の説明問題を考える。 既存のGNN説明手法の多くは、最も重要なエッジやノードを識別するが、グラフデータにとってより重要な部分構造を考慮できない。 部分グラフを考える唯一の方法は、可能なすべての部分グラフを探索し、最も重要な部分グラフを識別しようとすることである。 しかし、識別された部分グラフは再帰的あるいは統計的に重要ではない。 本研究では,グラフにおける重要なモチーフ,再帰的,統計的に重要なパターンを識別し,GNNを説明する手法であるMotifExplainerを提案する。 提案手法は,ノード,エッジ,正規部分グラフに基づく手法よりも,人間の理解しやすい説明を提供する。 入力グラフと事前学習GNNモデルが与えられた場合、まず、適切に設計されたモチーフ抽出規則を用いてグラフ内のモチーフを抽出する。 そして、事前学習したGNNにモチーフを供給することでモチーフ埋め込みを生成する。 最後に,最終予測結果に対する説明として,最も影響力のあるモチーフを特定するための注意に基づく手法を提案する。 合成データと実世界のデータの両方に関する実証研究により,本手法の有効性が示された。

We consider the explanation problem of Graph Neural Networks (GNNs). Most existing GNN explanation methods identify the most important edges or nodes but fail to consider substructures, which are more important for graph data. The only method that considers subgraphs tries to search all possible subgraphs and identify the most significant subgraphs. However, the subgraphs identified may not be recurrent or statistically important. In this work, we propose a novel method, known as MotifExplainer, to explain GNNs by identifying important motifs, recurrent and statistically significant patterns in graphs. Our proposed motif-based methods can provide better human-understandable explanations than methods based on nodes, edges, and regular subgraphs. Given an input graph and a pre-trained GNN model, our method first extracts motifs in the graph using well-designed motif extraction rules. Then we generate motif embedding by feeding motifs into the pre-trained GNN. Finally, we employ an attention-based method to identify the most influential motifs as explanations for the final prediction results. The empirical studies on both synthetic and real-world datasets demonstrate the effectiveness of our method.
翻訳日:2022-02-02 15:43:07 公開日:2022-02-01
# 不均一モチーフグラフ構築による分子グラフ表現学習

Molecular Graph Representation Learning via Heterogeneous Motif Graph Construction ( http://arxiv.org/abs/2202.00529v1 )

ライセンス: Link先を確認
Zhaoning Yu, Hongyang Gao(参考訳) 分子グラフの特徴表現学習問題を考察する。 グラフニューラルネットワークは分子グラフの特徴表現学習に広く用いられている。 しかし、既存の手法の多くは分子グラフを個別に扱うが、モチーフレベルの関係のような接続を無視する。 本稿では,異種モチーフグラフを構築した新しい分子グラフ表現学習法を提案する。 特に、モチーフノードと分子ノードを含む不均一モチーフグラフを構築する。 各モチーフノードは分子から抽出されたモチーフに対応する。 次に,不均質モチーフグラフにおける各ノードの特徴表現を学習するための不均質モチーフグラフニューラルネットワーク(hm-gnn)を提案する。 我々の異種モチーフグラフは、特に小さな分子データセットに対して効果的なマルチタスク学習を可能にする。 そこで本研究では,計算資源使用量を大幅に削減できるエッジサンプリング器を提案する。 実験結果から,我々のモデルは従来モデルより一貫して優れていたことがわかった。 マルチタスク環境では,複合データセットにおける提案手法の有望な性能が,小さな分子データセットのための新しい学習パラダイムに光を当てた。 最後に, エッジサンプリングを用いて, 計算資源を著しく削減し, 同様の性能を実現することを示す。

We consider feature representation learning problem of molecular graphs. Graph Neural Networks have been widely used in feature representation learning of molecular graphs. However, most existing methods deal with molecular graphs individually while neglecting their connections, such as motif-level relationships. We propose a novel molecular graph representation learning method by constructing a heterogeneous motif graph to address this issue. In particular, we build a heterogeneous motif graph that contains motif nodes and molecular nodes. Each motif node corresponds to a motif extracted from molecules. Then, we propose a Heterogeneous Motif Graph Neural Network (HM-GNN) to learn feature representations for each node in the heterogeneous motif graph. Our heterogeneous motif graph also enables effective multi-task learning, especially for small molecular datasets. To address the potential efficiency issue, we propose to use an edge sampler, which can significantly reduce computational resources usage. The experimental results show that our model consistently outperforms previous state-of-the-art models. Under multi-task settings, the promising performances of our methods on combined datasets shed light on a new learning paradigm for small molecular datasets. Finally, we show that our model achieves similar performances with significantly less computational resources by using our edge sampler.
翻訳日:2022-02-02 15:42:50 公開日:2022-02-01
# IDP-Z3:FO()の推論エンジン。

IDP-Z3: a reasoning engine for FO(.) ( http://arxiv.org/abs/2202.00343v1 )

ライセンス: Link先を確認
Pierre Carbonnelle, Simon Vandevelde, Joost Vennekens and Marc Denecker(参考訳) FO(.) (別名FO-dot) は古典的な一階述語論理を拡張した言語で、複雑な知識を自然で実験的な方法で表現できるようにする。 idp-z3はfo(.)言語のための新しい推論エンジンであり、fo(.)で表される知識を使って様々な汎用計算タスクを実行することができる。 従来のIDP3に取って代わり、実数に対する線形算術のサポートや概念上の定量化といった新機能を備える。 IDP-Z3は、様々な問題領域における対話型アプリケーションをサポートし、通常3秒未満の応答時間である。

FO(.) (aka FO-dot) is a language that extends classical first-order logic with constructs to allow complex knowledge to be represented in a natural and elaboration-tolerant way. IDP-Z3 is a new reasoning engine for the FO(.) language: it can perform a variety of generic computational tasks using knowledge represented in FO(.). It supersedes IDP3, its predecessor, with new capabilities such as support for linear arithmetic over reals and quantification over concepts. We present four knowledge-intensive industrial use cases, and show that IDP-Z3 delivers real value to its users at low development costs: it supports interactive applications in a variety of problem domains, with a response time typically below 3 seconds.
翻訳日:2022-02-02 15:42:33 公開日:2022-02-01
# DexVIP: ビデオから人間の手の動きを事前に学習する

DexVIP: Learning Dexterous Grasping with Human Hand Pose Priors from Video ( http://arxiv.org/abs/2202.00164v1 )

ライセンス: Link先を確認
Priyanka Mandikal and Kristen Grauman(参考訳) 奇抜なマルチフィンガーロボットハンドは、強力なアクションスペースを持っているが、人間の手と形態的な類似性は、ロボット学習を加速する大きな可能性を秘めている。 本研究は,youtubeの動画における人間と物体のインタラクションからロボットによる把握を学習する手法であるdexvipを提案する。 我々は,人間と物体のインタラクションビデオからの把握イメージをキュレートし,深層強化学習による把握を学習する際にエージェントの手のポーズに前置する。 本手法の重要な利点は,学習方針が自由形式の視覚データを活用できることである。 結果として、新しい物体に容易にスケールできるようになり、実験室で人間のデモを集めるという標準的な慣行を脇に置き、人間の専門知識を捉えるためのより高価で間接的な方法となる。 ロボットハンドを30-DoFで模擬した27の物体を実験した結果、手ポーズの無い既存のアプローチや、人間のデモンストレーションを得るための特殊な遠隔操作装置に頼らず、訓練の迅速さを実証した。 プロジェクトページ: https://vision.cs.utexas.edu/projects/dexvip-dexterous-grasp-pose-prior

Dexterous multi-fingered robotic hands have a formidable action space, yet their morphological similarity to the human hand holds immense potential to accelerate robot learning. We propose DexVIP, an approach to learn dexterous robotic grasping from human-object interactions present in in-the-wild YouTube videos. We do this by curating grasp images from human-object interaction videos and imposing a prior over the agent's hand pose when learning to grasp with deep reinforcement learning. A key advantage of our method is that the learned policy is able to leverage free-form in-the-wild visual data. As a result, it can easily scale to new objects, and it sidesteps the standard practice of collecting human demonstrations in a lab -- a much more expensive and indirect way to capture human expertise. Through experiments on 27 objects with a 30-DoF simulated robot hand, we demonstrate that DexVIP compares favorably to existing approaches that lack a hand pose prior or rely on specialized tele-operation equipment to obtain human demonstrations, while also being faster to train. Project page: https://vision.cs.utexas.edu/projects/dexvip-dexterous-grasp-pose-prior
翻訳日:2022-02-02 15:42:01 公開日:2022-02-01
# 変分深部画像を用いたブラインド画像デコンボリューション

Blind Image Deconvolution Using Variational Deep Image Prior ( http://arxiv.org/abs/2202.00179v1 )

ライセンス: Link先を確認
Dong Huo, Abbas Masoumzadeh, Rafsanjany Kushol, Yee-Hong Yang(参考訳) 従来のデコンボリューション法は、最適化を制約するために手作りのイメージプリエントを用いる。 ディープラーニングベースの手法では、エンドツーエンドトレーニングによる最適化が簡略化されているが、トレーニングデータセットで目に見えないぼやけにうまく一般化できていない。 したがって、画像固有モデルの訓練は、より高い一般化のために重要である。 Deep Image prior (DIP) は、1つの劣化した画像でランダムに初期化されたネットワークの重みを最大化して最適化する手法を提供する。 統計的に得られた従来の手作り画像と異なり、画像と対応するネットワークアーキテクチャの関係が不明確であるため、適切なネットワークアーキテクチャを見つけることは困難である。 その結果、ネットワークアーキテクチャは潜在シャープイメージに対して十分な制約を与えることができない。 本稿では,潜在シャープ画像に対する手作り画像の付加的プリエントを活用し,サブ最適解を避けるために各画素の分布を近似するブラインド画像デコンボリューションのための新しい変分深画像プリレント(vdip)を提案する。 数理解析の結果,提案手法は最適化をよりよく制約できることがわかった。 実験の結果, 生成した画像は, ベンチマークデータセットの元々のディップよりも品質が良いことがわかった。 VDIPのソースコードはhttps://github.com/Dong-Huo/VDIP-Deconvolutionで公開されています。

Conventional deconvolution methods utilize hand-crafted image priors to constrain the optimization. While deep-learning-based methods have simplified the optimization by end-to-end training, they fail to generalize well to blurs unseen in the training dataset. Thus, training image-specific models is important for higher generalization. Deep image prior (DIP) provides an approach to optimize the weights of a randomly initialized network with a single degraded image by maximum a posteriori (MAP), which shows that the architecture of a network can serve as the hand-crafted image prior. Different from the conventional hand-crafted image priors that are statistically obtained, it is hard to find a proper network architecture because the relationship between images and their corresponding network architectures is unclear. As a result, the network architecture cannot provide enough constraint for the latent sharp image. This paper proposes a new variational deep image prior (VDIP) for blind image deconvolution, which exploits additive hand-crafted image priors on latent sharp images and approximates a distribution for each pixel to avoid suboptimal solutions. Our mathematical analysis shows that the proposed method can better constrain the optimization. The experimental results further demonstrate that the generated images have better quality than that of the original DIP on benchmark datasets. The source code of our VDIP is available at https://github.com/Dong-Huo/VDIP-Deconvolution.
翻訳日:2022-02-02 15:40:12 公開日:2022-02-01
# sd-oct画像における網膜内嚢胞セグメンテーションのためのu-netモデルに基づく汎用的アプローチ

A generalizable approach based on U-Net model for automatic Intra retinal cyst segmentation in SD-OCT images ( http://arxiv.org/abs/2202.00465v1 )

ライセンス: Link先を確認
Razieh Ganjee, Mohsen Ebrahimi Moghaddam, Ramin Nourinia(参考訳) 網膜内液や嚢胞は黄斑病の重要な症状の1つであり、OCT画像で効率よく可視化される。 これらの異常の自動分割は医用画像処理研究で広く研究されている。 本稿では,従来のディープベース技術が直面する課題を改善するために,異なるベンダー間での網膜内嚢胞分節に対する新しいU-Netベースのアプローチを提案する。 提案手法は,1-事前情報埋め込みと入力データ調整,および2-IRCセグメンテーションモデルである。 最初のステップでは、情報をネットワークに注入することで、データの受信や重要な文脈知識の学習において、ネットワークの制限を克服します。 そして次のステップでは、エンコーダからデコーダへより効果的に情報を転送する標準u-netアーキテクチャのエンコーダとデコーダ間の接続モジュールを導入しました。 提案手法の評価にはOPTIMAとKERMANYという2つの公開データセットを用いた。 その結果,提案手法は,OPTIMAおよびKERMANYデータセットの平均Dice値0.78と0.81のIRCセグメンテーションに対して,効率的なベンダーに依存しないアプローチであることがわかった。

Intra retinal fluids or Cysts are one of the important symptoms of macular pathologies that are efficiently visualized in OCT images. Automatic segmentation of these abnormalities has been widely investigated in medical image processing studies. In this paper, we propose a new U-Net-based approach for Intra retinal cyst segmentation across different vendors that improves some of the challenges faced by previous deep-based techniques. The proposed method has two main steps: 1- prior information embedding and input data adjustment, and 2- IRC segmentation model. In the first step, we inject the information into the network in a way that overcomes some of the network limitations in receiving data and learning important contextual knowledge. And in the next step, we introduced a connection module between encoder and decoder parts of the standard U-Net architecture that transfers information more effectively from the encoder to the decoder part. Two public datasets namely OPTIMA and KERMANY were employed to evaluate the proposed method. Results showed that the proposed method is an efficient vendor-independent approach for IRC segmentation with mean Dice values of 0.78 and 0.81 on the OPTIMA and KERMANY datasets, respectively.
翻訳日:2022-02-02 15:39:47 公開日:2022-02-01
# 静止肯定:拡張現実のための非負画像合成

Stay Positive: Non-Negative Image Synthesis for Augmented Reality ( http://arxiv.org/abs/2202.00659v1 )

ライセンス: Link先を確認
Katie Luo, Guandao Yang, Wenqi Xian, Harald Haraldsson, Bharath Hariharan, Serge Belongie(参考訳) オプティカルシースルーやプロジェクター拡張現実のようなアプリケーションでは、画像を生成することは、既存の画像に光を加えることしかできない非負のイメージ生成を解決できる。 しかし、ほとんどの画像生成方法は、各ピクセルに任意の色を割り当てることができるという仮定で、この問題設定には不向きである。 実際、既存の手法は、MNIST桁のような単純なドメインでも、光を加えることでより暗いピクセルを作ることができないため、単純な適用では失敗する。 しかし、人間の視覚系は、ある空間的な明るさとコントラストの配置を含む錯視によって騙される可能性がある。 私たちの重要な洞察は、この動作を利用して、無視できるアーティファクトで高品質な画像を生成することができるということです。 例えば、周囲のピクセルを明るくすることで、より暗いパッチの錯覚を作り出すことができる。 意味的制約と非否定的制約の両方を満たす画像を生成するための新しい最適化手法を提案する。 提案手法は,既存の最先端手法を取り入れ,画像から画像への翻訳やスタイルの伝達など,様々なタスクにおいて高い性能を示す。

In applications such as optical see-through and projector augmented reality, producing images amounts to solving non-negative image generation, where one can only add light to an existing image. Most image generation methods, however, are ill-suited to this problem setting, as they make the assumption that one can assign arbitrary color to each pixel. In fact, naive application of existing methods fails even in simple domains such as MNIST digits, since one cannot create darker pixels by adding light. We know, however, that the human visual system can be fooled by optical illusions involving certain spatial configurations of brightness and contrast. Our key insight is that one can leverage this behavior to produce high quality images with negligible artifacts. For example, we can create the illusion of darker patches by brightening surrounding pixels. We propose a novel optimization procedure to produce images that satisfy both semantic and non-negativity constraints. Our approach can incorporate existing state-of-the-art methods, and exhibits strong performance in a variety of tasks including image-to-image translation and style transfer.
翻訳日:2022-02-02 15:38:53 公開日:2022-02-01
# Interactron: 身体的適応オブジェクト検出

Interactron: Embodied Adaptive Object Detection ( http://arxiv.org/abs/2202.00660v1 )

ライセンス: Link先を確認
Klemen Kotar, Roozbeh Mottaghi(参考訳) 近年,物体検出問題に対する様々な手法が提案されている。 最近我々は、強力なディープニューラルネットワークの出現により、この領域で大きな進歩を目の当たりにしている。 しかし、一般的にこれらのアプローチには2つの主要な仮定がある。 まず、モデルが一定のトレーニングセットでトレーニングされ、予め記録されたテストセットで評価される。 第2に、トレーニングフェーズ終了後はモデルが凍結されるため、トレーニング終了後にさらなる更新は行われない。 これら2つの仮定は、実世界の設定に適用性を制限する。 本稿では,インタラクティブな環境下での適応物体検出手法であるInteractronを提案する。 私たちのアイデアは、推論中のトレーニングを継続し、環境とのインタラクションを通じて明示的な監督なしにテスト時にモデルを適用することです。 我々の適応物体検出モデルは、最近の高性能物体検出器DETRよりもAP(およびAP50の19.1点)を11.8点改善する。 さらに, 物体検出モデルは, 外観特性が全く異なる環境に適応し, その性能は, その環境を十分に監視する訓練されたモデルと同等であることを示した。

Over the years various methods have been proposed for the problem of object detection. Recently, we have witnessed great strides in this domain owing to the emergence of powerful deep neural networks. However, there are typically two main assumptions common among these approaches. First, the model is trained on a fixed training set and is evaluated on a pre-recorded test set. Second, the model is kept frozen after the training phase, so no further updates are performed after the training is finished. These two assumptions limit the applicability of these methods to real-world settings. In this paper, we propose Interactron, a method for adaptive object detection in an interactive setting, where the goal is to perform object detection in images observed by an embodied agent navigating in different environments. Our idea is to continue training during inference and adapt the model at test time without any explicit supervision via interacting with the environment. Our adaptive object detection model provides a 11.8 point improvement in AP (and 19.1 points in AP50) over DETR, a recent, high-performance object detector. Moreover, we show that our object detection model adapts to environments with completely different appearance characteristics, and its performance is on par with a model trained with full supervision for those environments.
翻訳日:2022-02-02 15:38:35 公開日:2022-02-01
# ニューラルネットワークにおける畳み込み構造の創発

Data-driven emergence of convolutional structure in neural networks ( http://arxiv.org/abs/2202.00565v1 )

ライセンス: Link先を確認
Alessandro Ingrosso and Sebastian Goldt(参考訳) データ不変性の爆発は、人工神経回路と生物学的神経回路の両方で効率的な学習に不可欠である。 ニューラルネットワークが入力の基盤となる対称性を活用できる適切な表現を見つける方法を理解することは、機械学習と神経科学において重要である。 例えば畳み込みニューラルネットワークは、翻訳対称性を利用するように設計されており、その能力がディープラーニングの成功の最初の波を引き起こした。 しかし、完全に接続されたネットワークで翻訳不変データから直接畳み込みを学習することは、これまで実証されてきた。 ここでは、まず、識別タスクを解く完全連結ニューラルネットワークが、入力から直接畳み込み構造を学習し、局所化された空間型受容場を実現する方法を示す。 これらの受容場は同じタスクで訓練された畳み込みネットワークのフィルタと一致する。 視覚シーンのデータモデルを慎重に設計することにより、このパターンの出現は、長年自然画像の目印として認識されてきた入力の非ガウス的、高次局所構造によって引き起こされることを示す。 本稿では,この現象に責任を持つパターン形成機構の解析的,数値的特徴付けを行い,高次入力相関の受容場形成とテンソル分解との予期せぬ関係を導出する。 これらの結果は、様々な感覚様相の低レベル特徴検出器の開発に新たな展望を与え、ニューラルネットワークにおける学習に対する高次統計の影響を研究するための道を開く。

Exploiting data invariances is crucial for efficient learning in both artificial and biological neural circuits. Understanding how neural networks can discover appropriate representations capable of harnessing the underlying symmetries of their inputs is thus crucial in machine learning and neuroscience. Convolutional neural networks, for example, were designed to exploit translation symmetry and their capabilities triggered the first wave of deep learning successes. However, learning convolutions directly from translation-invariant data with a fully-connected network has so far proven elusive. Here, we show how initially fully-connected neural networks solving a discrimination task can learn a convolutional structure directly from their inputs, resulting in localised, space-tiling receptive fields. These receptive fields match the filters of a convolutional network trained on the same task. By carefully designing data models for the visual scene, we show that the emergence of this pattern is triggered by the non-Gaussian, higher-order local structure of the inputs, which has long been recognised as the hallmark of natural images. We provide an analytical and numerical characterisation of the pattern-formation mechanism responsible for this phenomenon in a simple model, which results in an unexpected link between receptive field formation and the tensor decomposition of higher-order input correlations. These results provide a new perspective on the development of low-level feature detectors in various sensory modalities, and pave the way for studying the impact of higher-order statistics on learning in neural networks.
翻訳日:2022-02-02 15:37:53 公開日:2022-02-01
# 経済エージェントモデルに対するブラックボックスベイズ推定

Black-box Bayesian inference for economic agent-based models ( http://arxiv.org/abs/2202.00625v1 )

ライセンス: Link先を確認
Joel Dyer, Patrick Cannon, J. Doyne Farmer, Sebastian Schmon(参考訳) シミュレーションモデル、特にエージェントベースモデルが経済学で人気を集めている。 彼らが提供するかなりの柔軟性と、複雑なシステムの様々な経験的に観察された振る舞いを再現する能力は、幅広い魅力を与え、安価なコンピューティングパワーの可用性が高まり、その使用が実現可能になった。 しかし、現実のモデリングや意思決定のシナリオにおいて広く採用されているのは、そのようなモデルに対してパラメータ推定を行うのが難しいためである。 一般に、シミュレーションモデルは、標準的な統計推論技術の直接的な応用を妨げない、扱いやすい確率関数を欠いている。 いくつかの最近の研究は、パラメータ推定を観測データとシミュレーション出力とのある種の比較によって決定する、可能性のない推論手法の適用を通じてこの問題に対処しようとしている。 しかし これらのアプローチは (a)限定的な前提、及び/又は b)典型的には数十万のシミュレーションを必要とする。 これらの性質は、経済学における大規模シミュレーションには適さないものであり、そのようなシナリオにおいてこれらの推論手法の有効性に疑問を投げかけることができる。 本稿では,確率論的機械学習コミュニティにおいて最近注目されている2種類のブラックボックス近似ベイズ推論手法の有効性について検討する。 我々は,ニューラルネットワークに基づくブラックボックス手法が,経済シミュレーションモデルにおけるアートパラメータ推論の状態を提示し,汎用多変量時系列データと互換性があることを実証するベンチマーク実験を行った。 さらに,経済シミュレーションモデルの近似ベイズ推定手順の将来のベンチマークについて,適切な評価基準を提案する。

Simulation models, in particular agent-based models, are gaining popularity in economics. The considerable flexibility they offer, as well as their capacity to reproduce a variety of empirically observed behaviours of complex systems, give them broad appeal, and the increasing availability of cheap computing power has made their use feasible. Yet a widespread adoption in real-world modelling and decision-making scenarios has been hindered by the difficulty of performing parameter estimation for such models. In general, simulation models lack a tractable likelihood function, which precludes a straightforward application of standard statistical inference techniques. Several recent works have sought to address this problem through the application of likelihood-free inference techniques, in which parameter estimates are determined by performing some form of comparison between the observed data and simulation output. However, these approaches are (a) founded on restrictive assumptions, and/or (b) typically require many hundreds of thousands of simulations. These qualities make them unsuitable for large-scale simulations in economics and can cast doubt on the validity of these inference methods in such scenarios. In this paper, we investigate the efficacy of two classes of black-box approximate Bayesian inference methods that have recently drawn significant attention within the probabilistic machine learning community: neural posterior estimation and neural density ratio estimation. We present benchmarking experiments in which we demonstrate that neural network based black-box methods provide state of the art parameter inference for economic simulation models, and crucially are compatible with generic multivariate time-series data. In addition, we suggest appropriate assessment criteria for future benchmarking of approximate Bayesian inference procedures for economic simulation models.
翻訳日:2022-02-02 15:37:30 公開日:2022-02-01
# 0/1-多面体ゲームのためのカーネル化された乗算重み:多角形ゲームと正規形ゲームの間のギャップを埋める

Kernelized Multiplicative Weights for 0/1-Polyhedral Games: Bridging the Gap Between Learning in Extensive-Form and Normal-Form Games ( http://arxiv.org/abs/2202.00237v1 )

ライセンス: Link先を確認
Gabriele Farina, Chung-Wei Lee, Haipeng Luo, Christian Kroer(参考訳) 広角形式ゲーム(EFG)は正規形式ゲーム(NFG)に変換できるが、戦略空間の指数的な爆発のコストがかかる。 したがって、NFGsとEFGsの進歩は歴史的に別途続き、EFGコミュニティはより大きなNFGコミュニティからの進歩(例えば、最終段階の収束と予測的後悔境界)に追いつく必要がある。 本稿では,楽観的乗法重み更新(omwu)アルゴリズム -- nfgs の初等学習アルゴリズム -- を,カーネルトリックを用いてゲームツリーサイズの反復時間当たりの efg と等価な正規形式上でシミュレートできることを示す。 結果として得られたアルゴリズムである Kernelized OMWU (KOMWU) は、カーネルを効率的に評価できる限り、戦略空間が0/1積分頂点を持つポリトープである全ての凸ゲームに広く適用される。 EFG の特定の場合において、KoMWU は NFG と EFG の学習の間にいくつかの定常的なギャップを埋め、これまで NFG でのみ達成できることが知られていた学習力学の望ましい性質の EFG への直接的、ブラックボックス転送を可能にした。 特に、KoMWUは、前回の収束を同時に保証する最初のアルゴリズム、ゲームツリーのサイズへの依存度を以前の全てのアルゴリズムより低くするアルゴリズム、そして全てのプレイヤーが続くと後悔する$\tilde{\mathcal{O}}(1)を与える。

While extensive-form games (EFGs) can be converted into normal-form games (NFGs), doing so comes at the cost of an exponential blowup of the strategy space. So, progress on NFGs and EFGs has historically followed separate tracks, with the EFG community often having to catch up with advances (e.g., last-iterate convergence and predictive regret bounds) from the larger NFG community. In this paper we show that the Optimistic Multiplicative Weights Update (OMWU) algorithm -- the premier learning algorithm for NFGs -- can be simulated on the normal-form equivalent of an EFG in linear time per iteration in the game tree size using a kernel trick. The resulting algorithm, Kernelized OMWU (KOMWU), applies more broadly to all convex games whose strategy space is a polytope with 0/1 integral vertices, as long as the kernel can be evaluated efficiently. In the particular case of EFGs, KOMWU closes several standing gaps between NFG and EFG learning, by enabling direct, black-box transfer to EFGs of desirable properties of learning dynamics that were so far known to be achievable only in NFGs. Specifically, KOMWU gives the first algorithm that guarantees at the same time last-iterate convergence, lower dependence on the size of the game tree than all prior algorithms, and $\tilde{\mathcal{O}}(1)$ regret when followed by all players.
翻訳日:2022-02-02 15:33:32 公開日:2022-02-01
# 混乱による位相遷移としての絡み合いの学習

Learning entanglement breakdown as a phase transition by confusion ( http://arxiv.org/abs/2202.00348v1 )

ライセンス: Link先を確認
M.A. Gavreev, A.S. Mastiukova, E.O. Kiktenko, A.K. Fedorov(参考訳) 量子技術は、絡み合った多粒子状態の準備と操作の方法を必要とする。 しかし、与えられた量子状態が絡み合うか分離可能であるかを決定する問題は一般にnp問題であることが知られており、与えられた量子状態のクラスに対する絡み合い分解を検出する作業でさえ困難である。 本研究では,「混乱による学習」として知られる機械学習技術を用いて,絡み合いの分解を明らかにする手法を開発する。 量子状態の族を考えると、この族の中に分離および絡み合った1つの臨界値分割状態が存在するようにパラメータ化される。 我々は「混乱による学習」スキームが臨界値を決定することを実証する。 具体的には,標準的な絡み合い対策が効果的に機能しない2量子,2量子,2量子の絡み合い状態に対する手法の性能について検討する。 さらに,混乱の枠組みにおける局所分極特性と一般化振幅減衰チャネルについて検討した。 w の形状を構成するための特別な軌道のパラメータ化のアプローチの中で、量子チャネルの絡み合い分解'位相図'を求め、絡み合い(分離可能)状態の領域と絡み合い破壊領域を示す。 次に,任意の状態が絡み合っているか分離可能であるかを認識するための「混乱による学習」スキームの使用方法を拡張する。 提案手法は, 正部分転位 (PPT) を持つ絡み合った状態を含む, 様々な状態に対して正しい回答を提供する。 また,ノイズ中規模量子(nisq)デバイスにおける絡み合い破壊の研究に適した,より実用的な手法を提案する。 我々は、利用可能なクラウドベースのibm量子プロセッサを用いてその性能を実証する。

Quantum technologies require methods for preparing and manipulating entangled multiparticle states. However, the problem of determining whether a given quantum state is entangled or separable is known to be an NP-hard problem in general, and even the task of detecting entanglement breakdown for a given class of quantum states is difficult. In this work, we develop an approach for revealing entanglement breakdown using a machine learning technique, which is known as 'learning by confusion'. We consider a family of quantum states, which is parameterized such that there is a single critical value dividing states within this family on separate and entangled. We demonstrate the 'learning by confusion' scheme allows determining the critical value. Specifically, we study the performance of the method for the two-qubit, two-qutrit, and two-ququart entangled state, where the standard entanglement measures do not work efficiently. In addition, we investigate the properties of the local depolarization and the generalized amplitude damping channel in the framework of the confusion scheme. Within our approach and setting the parameterization of special trajectories to construct W shapes, we obtain an entanglement-breakdown 'phase diagram' of a quantum channel, which indicates regions of entangled (separable) states and the entanglement-breakdown region. Then we extend the way of using the 'learning by confusion' scheme for recognizing whether an arbitrary given state is entangled or separable. We show that the developed method provides correct answers for a variety of states, including entangled states with positive partial transpose (PPT). We also present a more practical version of the method, which is suitable for studying entanglement breakdown in noisy intermediate-scale quantum (NISQ) devices. We demonstrate its performance using an available cloud-based IBM quantum processor.
翻訳日:2022-02-02 15:32:59 公開日:2022-02-01
# 量子パターン認識と軽量CNNアーキテクチャを用いたフォトプレソグラム信号の信号品質評価

Signal Quality Assessment of Photoplethysmogram Signals using Quantum Pattern Recognition and lightweight CNN Architecture ( http://arxiv.org/abs/2202.00606v1 )

ライセンス: Link先を確認
Tamaghno Chatterjee, Aayushman Ghosh and Sayan Sarkar(参考訳) photoplethysmography (ppg) 信号は、心肺の健康に関連する生理的情報を含んでいる。 しかし、記録中、これらのppg信号は運動アーチファクトや体の動きによって容易に破壊され、ノイズが濃厚で品質の悪い信号に繋がる。 したがって、呼吸情報を正確に抽出するには高品質な信号を確保する必要がある。 PPG信号の品質評価にはルールベースと機械学習(ML)ベースのアプローチがいくつか存在するが、アルゴリズムの有効性には疑問がある。 そこで本研究では,新しい量子パターン認識(QPR)技術を用いた信号品質評価のための軽量CNNアーキテクチャを提案する。 提案アルゴリズムはクイーンズランド大学データベースから手動で得られた注釈付きデータに基づいて検証される。 合計28366, 5s信号セグメントは前処理され、20×500ピクセルの画像ファイルに変換される。 画像ファイルは、2D CNNアーキテクチャの入力として扱われる。 開発したモデルは、ppg信号を99.3%の感度、94.5%の特異性、98.9%のf1-scoreを持つ98.3%の精度で‘good’または‘bad’と分類する。 最後に,提案フレームワークの性能を,<Welltory app' 収集 PPG データベースのノイズに対して検証する。 ノイズの多い環境でも、提案されたアーキテクチャはその能力を示した。 実験解析により,スリムアーキテクチャと新しい時空間パターン認識技術によりシステムの性能が向上した。 したがって,提案手法は,資源に制約のあるウェアラブル実装のための良質なppg信号と悪質なppg信号の分類に有用である。

Photoplethysmography (PPG) signal comprises physiological information related to cardiorespiratory health. However, while recording, these PPG signals are easily corrupted by motion artifacts and body movements, leading to noise enriched, poor quality signals. Therefore ensuring high-quality signals is necessary to extract cardiorespiratory information accurately. Although there exists several rule-based and Machine-Learning (ML) - based approaches for PPG signal quality estimation, those algorithms' efficacy is questionable. Thus, this work proposes a lightweight CNN architecture for signal quality assessment employing a novel Quantum pattern recognition (QPR) technique. The proposed algorithm is validated on manually annotated data obtained from the University of Queensland database. A total of 28366, 5s signal segments are preprocessed and transformed into image files of 20 x 500 pixels. The image files are treated as an input to the 2D CNN architecture. The developed model classifies the PPG signal as `good' or `bad' with an accuracy of 98.3% with 99.3% sensitivity, 94.5% specificity and 98.9% F1-score. Finally, the performance of the proposed framework is validated against the noisy `Welltory app' collected PPG database. Even in a noisy environment, the proposed architecture proved its competence. Experimental analysis concludes that a slim architecture along with a novel Spatio-temporal pattern recognition technique improve the system's performance. Hence, the proposed approach can be useful to classify good and bad PPG signals for a resource-constrained wearable implementation.
翻訳日:2022-02-02 15:29:35 公開日:2022-02-01
# 進化に触発された社会ロボットの報酬機能

A General, Evolution-Inspired Reward Function for Social Robotics ( http://arxiv.org/abs/2202.00617v1 )

ライセンス: Link先を確認
Thomas Kingsford(参考訳) 社会ロボット工学の分野は、デザインされた行動と模倣学習のパラダイムから離れ、ロボットが人間と流動的で効果的に対話できるように、現代的な強化学習(RL)手法を採用する必要があるだろう。 本稿では,(1)ソーシャルロボットにおけるrlエージェントの展開に必要なリアルタイムかつ高密度な報酬機能,(2)異なるソーシャルロボットの有効性を比較するための標準化された客観的指標を提供するためのメカニズムとして,ソーシャル報酬機能を提案する。 社会的報酬機能は、単純で安定で文化に依存しない報酬機能を提供するために、人間の遺伝的に付与された社会的知覚能力を密接に模倣するように設計されている。 現在、社会ロボティクスで使用されるデータセットは、社会ロボティクスに関して、小さくも著しくドメイン外である。 ソーシャル・リワード・ファンクション(Social Reward Function)を使用することで、より大きなドメイン内のデータセットを社会ロボットの行動ポリシーに近く収集することができる。 これが将来、効果的なソーシャルロボットを開発するための鍵となると信じています。

The field of social robotics will likely need to depart from a paradigm of designed behaviours and imitation learning and adopt modern reinforcement learning (RL) methods to enable robots to interact fluidly and efficaciously with humans. In this paper, we present the Social Reward Function as a mechanism to provide (1) a real-time, dense reward function necessary for the deployment of RL agents in social robotics, and (2) a standardised objective metric for comparing the efficacy of different social robots. The Social Reward Function is designed to closely mimic those genetically endowed social perception capabilities of humans in an effort to provide a simple, stable and culture-agnostic reward function. Presently, datasets used in social robotics are either small or significantly out-of-domain with respect to social robotics. The use of the Social Reward Function will allow larger in-domain datasets to be collected close to the behaviour policy of social robots, which will allow both further improvements to reward functions and to the behaviour policies of social robots. We believe this will be the key enabler to developing efficacious social robots in the future.
翻訳日:2022-02-02 15:29:12 公開日:2022-02-01
# CLA-NeRF:カテゴリーレベルArticulated Neural Radiance Field

CLA-NeRF: Category-Level Articulated Neural Radiance Field ( http://arxiv.org/abs/2202.00181v1 )

ライセンス: Link先を確認
Wei-Cheng Tseng, Hung-Ju Liao, Yen-Chen Lin, Min Sun(参考訳) cla-nerf -- 視点合成、部分セグメンテーション、明瞭なポーズ推定が可能な、カテゴリレベルのarticulated neural radiance fieldを提案する。 cla-nerfはcadモデルと奥行きを使わずにオブジェクトのカテゴリレベルでトレーニングされるが、グラインド・トゥルート・カメラのポーズと部分セグメントを備えたrgbイメージのセットである。 推論中は、既知のカテゴリ内の未知の3DオブジェクトインスタンスのいくつかのRGBビュー(すなわち、数ショット)しか必要とせず、対象部分のセグメンテーションと神経放射場を推測する。 入力として調音されたポーズが与えられた場合、CLA-NeRFは調音対応ボリュームレンダリングを行い、任意のカメラポーズで対応するRGB画像を生成する。 さらに、物体の明瞭なポーズを逆レンダリングによって推定することができる。 実験では,合成データと実世界データの両方において,5つのカテゴリにわたるフレームワークを評価した。 いずれの場合も,本手法は現実的な変形結果と正確なポーズ推定を示す。 本研究は,ロボットが未確認の物体を知覚し,操作する上で,撮影対象のレンダリングとポーズ推定の両方がオープンドアであると考えている。

We propose CLA-NeRF -- a Category-Level Articulated Neural Radiance Field that can perform view synthesis, part segmentation, and articulated pose estimation. CLA-NeRF is trained at the object category level using no CAD models and no depth, but a set of RGB images with ground truth camera poses and part segments. During inference, it only takes a few RGB views (i.e., few-shot) of an unseen 3D object instance within the known category to infer the object part segmentation and the neural radiance field. Given an articulated pose as input, CLA-NeRF can perform articulation-aware volume rendering to generate the corresponding RGB image at any camera pose. Moreover, the articulated pose of an object can be estimated via inverse rendering. In our experiments, we evaluate the framework across five categories on both synthetic and real-world data. In all cases, our method shows realistic deformation results and accurate articulated pose estimation. We believe that both few-shot articulated object rendering and articulated pose estimation open doors for robots to perceive and interact with unseen articulated objects.
翻訳日:2022-02-02 15:28:54 公開日:2022-02-01
# CAESR:学習空間スケーラビリティのための条件付きオートエンコーダと超解法

CAESR: Conditional Autoencoder and Super-Resolution for Learned Spatial Scalability ( http://arxiv.org/abs/2202.00416v1 )

ライセンス: Link先を確認
Charles Bonnineau, Wassim Hamidouche, Jean-Fran\c{c}ois Travers, Naty Sidaty, Jean-Yves Aubi\'e, Olivier Deforges(参考訳) 本稿では,多目的ビデオ符号化(VVC)標準に基づく空間スケーラビリティのためのハイブリッド学習に基づく符号化手法CAESRを提案する。 本フレームワークでは,VVCイントラモードをベース層(BL)として符号化した低分解能信号と,高優先度(AE-HP)を用いたディープコンディショニングオートエンコーダを拡張層(EL)モデルとして検討する。 ELエンコーダは、スケールアップされたBL再構成と原画像の両方を入力として取る。 本手法は,ソースと拡張bl画像の最適な混合を学習し,残差符号化よりも優れた性能を実現する条件付き符号化に依拠する。 デコーダ側では、高分解能の詳細を回復し、条件付きコーディングプロセスを反転させるためにスーパーレゾリューション(sr)モジュールが使用される。 実験の結果,本ソリューションはスケーラブルなvvcフルレゾリューションイントラコーディングと競合することがわかった。

In this paper, we present CAESR, an hybrid learning-based coding approach for spatial scalability based on the versatile video coding (VVC) standard. Our framework considers a low-resolution signal encoded with VVC intra-mode as a base-layer (BL), and a deep conditional autoencoder with hyperprior (AE-HP) as an enhancement-layer (EL) model. The EL encoder takes as inputs both the upscaled BL reconstruction and the original image. Our approach relies on conditional coding that learns the optimal mixture of the source and the upscaled BL image, enabling better performance than residual coding. On the decoder side, a super-resolution (SR) module is used to recover high-resolution details and invert the conditional coding process. Experimental results have shown that our solution is competitive with the VVC full-resolution intra coding while being scalable.
翻訳日:2022-02-02 15:28:32 公開日:2022-02-01
# 頭部運動の除去が音声・視覚音声強調に与える影響

The impact of removing head movements on audio-visual speech enhancement ( http://arxiv.org/abs/2202.00538v1 )

ライセンス: Link先を確認
Zhiqi Kang, Mostafa Sadeghi, Radu Horaud, Xavier Alameda-Pineda, Jacob Donley and Anurag Kumar(参考訳) 本稿では,頭部運動が音声・視覚音声強調(AVSE)に与える影響について検討する。 彼らはしばしば、クリーンで前頭、安定した顔画像で訓練されたモデルのパフォーマンスを劣化させるため、今日の学習ベースの手法に挑戦している。 この問題を軽減するために、可変オートエンコーダ(VAE)モデルに基づくAVSE法と組み合わせて、頑健な顔のフロンダライゼーション(RFF)を提案する。 提案するパイプラインの基本成分を簡潔に説明し,最近リリースされた視聴覚データセットを用いて実験を行う。 これらの実験を踏まえ、STOI, PESQ, SI-SDRの3つの標準指標に基づき、RFFはAVSEの性能をかなり向上させると結論付けた。

This paper investigates the impact of head movements on audio-visual speech enhancement (AVSE). Although being a common conversational feature, head movements have been ignored by past and recent studies: they challenge today's learning-based methods as they often degrade the performance of models that are trained on clean, frontal, and steady face images. To alleviate this problem, we propose to use robust face frontalization (RFF) in combination with an AVSE method based on a variational auto-encoder (VAE) model. We briefly describe the basic ingredients of the proposed pipeline and we perform experiments with a recently released audio-visual dataset. In the light of these experiments, and based on three standard metrics, namely STOI, PESQ and SI-SDR, we conclude that RFF improves the performance of AVSE by a considerable margin.
翻訳日:2022-02-02 15:28:15 公開日:2022-02-01
# (参考訳) マルチタスク推論エージェント内のプランナー・リゾナ

Planner-Reasoner Inside a Multi-task Reasoning Agent ( http://arxiv.org/abs/2202.00531v1 )

ライセンス: CC BY 4.0
Daoming Lyu, Bo Liu, and Jianshu Chen(参考訳) エージェントが(一階述語)論理推論によって複数のタスクを解くことができるマルチタスク推論(MTR)の問題を考察する。 この能力は、強力な一般化性と複数のタスクを扱うための単純さのため、人間のような知性に欠かせない。 しかし、効果的なMTRを開発する上での大きな課題は、推論能力と効率の本質的な衝突である。 MTR対応エージェントは、多様なタスクに取り組むために大量の"スキル"をマスターする必要がありますが、推論段階で特定のタスクを実行するには、すぐに関連するスキルの小さなサブセットしか必要ありません。 広い推論能力と効率的な特定タスクのパフォーマンスを維持するにはどうすればいいのか? この問題に対処するために,最先端のMTR能力と高効率を実現するPlanner-Reasonerフレームワークを提案する。 Reasonerモデルは共有可能な(一階の)論理推論ルールであり、Plannerはサブセットを選択して効率的な推論パスを構成する。 モデル全体は、深層強化学習を用いてエンドツーエンドで訓練され、様々な領域に関する実験的研究がその有効性を検証する。

We consider the problem of multi-task reasoning (MTR), where an agent can solve multiple tasks via (first-order) logic reasoning. This capability is essential for human-like intelligence due to its strong generalizability and simplicity for handling multiple tasks. However, a major challenge in developing effective MTR is the intrinsic conflict between reasoning capability and efficiency. An MTR-capable agent must master a large set of "skills" to tackle diverse tasks, but executing a particular task at the inference stage requires only a small subset of immediately relevant skills. How can we maintain broad reasoning capability and also efficient specific-task performance? To address this problem, we propose a Planner-Reasoner framework capable of state-of-the-art MTR capability and high efficiency. The Reasoner models shareable (first-order) logic deduction rules, from which the Planner selects a subset to compose into efficient reasoning paths. The entire model is trained in an end-to-end manner using deep reinforcement learning, and experimental studies over a variety of domains validate its effectiveness.
翻訳日:2022-02-02 15:25:20 公開日:2022-02-01
# 連続ドメインを最適化する学習のための償却最適化のチュートリアル

Tutorial on amortized optimization for learning to optimize over continuous domains ( http://arxiv.org/abs/2202.00665v1 )

ライセンス: Link先を確認
Brandon Amos(参考訳) 最適化はユビキタスなモデリングツールであり、同じ問題を繰り返し解決する設定にしばしばデプロイされる。 償却最適化手法は、学習を用いてこれらの設定における問題の解を予測する。 これは同様の問題インスタンス間の共有構造を利用する。 このチュートリアルでは、大まかに分類して、償却最適化の背後にある重要な設計選択について論じる。 1) 完全同化および半同化アプローチへのモデル、及び 2)回帰ベースおよび客観的ベースへの学習方法 次に、これらの基盤を通して既存のアプリケーションを見て、多様体最適化、変分推論、スパースコーディング、メタ学習、制御、強化学習、凸最適化、ディープ平衡ネットワークなど、それらの間の接続を描く。 このフレーミングにより、例えば、変分オートエンコーダの償却推論が、客観的な損失を伴う完全修飾モデルを使用するため、制御および強化学習における値勾配と概念的に同一であることを容易に確認できる。 このチュートリアルのソースコードはhttps://www.github.com/facebookresearch/amortized-optimization-tutorialで入手できる。

Optimization is a ubiquitous modeling tool that is often deployed in settings that repeatedly solve similar instances of the same problem. Amortized optimization methods use learning to predict the solutions to problems in these settings. This leverages the shared structure between similar problem instances. In this tutorial, we will discuss the key design choices behind amortized optimization, roughly categorizing 1) models into fully-amortized and semi-amortized approaches, and 2) learning methods into regression-based and objective-based. We then view existing applications through these foundations to draw connections between them, including for manifold optimization, variational inference, sparse coding, meta-learning, control, reinforcement learning, convex optimization, and deep equilibrium networks. This framing enables us easily see, for example, that the amortized inference in variational autoencoders is conceptually identical to value gradients in control and reinforcement learning as they both use fully-amortized models with a objective-based loss. The source code for this tutorial is available at https://www.github.com/facebookresearch/amortized-optimization-tutorial
翻訳日:2022-02-02 14:51:28 公開日:2022-02-01
# $\ell_0$-$\ell_2$正規化によるロジスティック回帰の安全なスクリーニング

Safe Screening for Logistic Regression with $\ell_0$-$\ell_2$ Regularization ( http://arxiv.org/abs/2202.00467v1 )

ライセンス: Link先を確認
Anna Deza, Alper Atamturk(参考訳) ロジスティック回帰では、特に利用可能なラベルに比べて多数の機能を持つ問題に対して、スパースソリューションを促進するために正規化を利用することが望ましいことが多い。 本稿では,ロジスティック回帰から問題解決前に$\ell_0-\ell_2$正規化を安全に除去するスクリーニングルールを提案する。 提案した安全なスクリーニングルールは、ロジスティック回帰問題の強い円錐緩和のフェンシェル双対による下界に基づいている。 実データと合成データを用いた数値実験により、高いパーセンテージの機能が効果的かつ安全に apriori を除去できることが示され、計算の高速化に繋がる。

In logistic regression, it is often desirable to utilize regularization to promote sparse solutions, particularly for problems with a large number of features compared to available labels. In this paper, we present screening rules that safely remove features from logistic regression with $\ell_0-\ell_2$ regularization before solving the problem. The proposed safe screening rules are based on lower bounds from the Fenchel dual of strong conic relaxations of the logistic regression problem. Numerical experiments with real and synthetic data suggest that a high percentage of the features can be effectively and safely removed apriori, leading to substantial speed-up in the computations.
翻訳日:2022-02-02 14:50:53 公開日:2022-02-01
# Performative Feedback を用いたレグレト最小化

Regret Minimization with Performative Feedback ( http://arxiv.org/abs/2202.00628v1 )

ライセンス: Link先を確認
Meena Jagadeesan, Tijana Zrnic, Celestine Mendler-D\"unner(参考訳) 実行予測では、予測モデルのデプロイがデータ分散のシフトをトリガーする。 これらのシフトは通常、事前に未知であるため、学習者は、それが引き起こす分布に関するフィードバックを得るためにモデルをデプロイする必要がある。 再現性を維持しつつ, ほぼ最適モデルを求める問題について検討した。 表面的には、この問題はバンディット問題と等価に思えるかもしれない。 しかし、基本的にはよりリッチなフィードバック構造を示しており、我々はパフォーマンス的なフィードバックと呼ぶ: デプロイのたびに、学習者は報酬に関する盗聴フィードバックだけでなく、シフトした分布からサンプルを受け取る。 我々の主な貢献は、分配シフトの複雑さにのみスケールする後悔境界であり、報酬関数のそれではない。 鍵となるアルゴリズムのアイデアは、未探索モデルのリスクに基づいた新しい信頼境界の構築を知らせる分布シフトを慎重に探索することである。 構造はシフトの滑らかさにのみ依存し、凸性を仮定しない。 より広範に、我々の研究は、演奏的フィードバックによる後悔の最小化を目的として、盗賊文献からツールを活用するための概念的アプローチを確立している。

In performative prediction, the deployment of a predictive model triggers a shift in the data distribution. As these shifts are typically unknown ahead of time, the learner needs to deploy a model to get feedback about the distribution it induces. We study the problem of finding near-optimal models under performativity while maintaining low regret. On the surface, this problem might seem equivalent to a bandit problem. However, it exhibits a fundamentally richer feedback structure that we refer to as performative feedback: after every deployment, the learner receives samples from the shifted distribution rather than only bandit feedback about the reward. Our main contribution is regret bounds that scale only with the complexity of the distribution shifts and not that of the reward function. The key algorithmic idea is careful exploration of the distribution shifts that informs a novel construction of confidence bounds on the risk of unexplored models. The construction only relies on smoothness of the shifts and does not assume convexity. More broadly, our work establishes a conceptual approach for leveraging tools from the bandits literature for the purpose of regret minimization with performative feedback.
翻訳日:2022-02-02 14:50:38 公開日:2022-02-01
# ISNet: 深層分類のためのコストレス画像分割と新型コロナウイルス検出への応用

ISNet: Costless and Implicit Image Segmentation for Deep Classifiers, with Application in COVID-19 Detection ( http://arxiv.org/abs/2202.00232v1 )

ライセンス: Link先を確認
Pedro R.A.S. Bassi(参考訳) 本研究では,2つのネットワークの共通パイプラインを1つのモデルで置換し,画像分割と分類の課題を解決する新しいディープニューラルネットワーク(dnn)アーキテクチャisnetを提案する。 私たちは、ISNetを高い柔軟性とパフォーマンスのために設計しました。これは、事実上あらゆる分類されたニューラルネットワークアーキテクチャが、まるで以前セグメンテーションされたかのように、共通のイメージを分析することができます。 さらに、元の分類器に関して、ISNetは実行時に計算コストやアーキテクチャの変更を発生させることはない。 そこで本研究では,レイヤワイズ・アソシエーション・プロパゲーション (lrp) によって作成されたヒートマップにおいて,関連性セグメント化のためのdnnを最適化する手法を提案する。 胸部X線におけるCOVID-19検出の課題を解決するために,DenseNet121分類器に基づくISNetを適用した。 DenseNet121 と DenseNet121 を併用した U-net (performing lung segmentation) と,DenseNet121 とを比較した。 暗黙的な分割のため、isnetは肺外のx線領域を正確に無視し、外部データベースによる94.5 +/-4.1%の平均精度を達成し、強力な一般化能力を示し、他のモデルの性能を6から7.9%上回った。 ISNetはセグメント化に先立って分類を行うための高速で軽量な手法を提供するが、標準パイプラインよりも正確である。

In this work we propose a novel deep neural network (DNN) architecture, ISNet, to solve the task of image segmentation followed by classification, substituting the common pipeline of two networks by a single model. We designed the ISNet for high flexibility and performance: it allows virtually any classification neural network architecture to analyze a common image as if it had been previously segmented. Furthermore, in relation to the original classifier, the ISNet does not cause any increment in computational cost or architectural changes at run-time. To accomplish this, we introduce the concept of optimizing DNNs for relevance segmentation in heatmaps created by Layer-wise Relevance Propagation (LRP), which proves to be equivalent to the classification of previously segmented images. We apply an ISNet based on a DenseNet121 classifier to solve the task of COVID-19 detection in chest X-rays. We compare the model to a U-net (performing lung segmentation) followed by a DenseNet121, and to a standalone DenseNet121. Due to the implicit segmentation, the ISNet precisely ignored the X-ray regions outside of the lungs; it achieved 94.5 +/-4.1% mean accuracy with an external database, showing strong generalization capability and surpassing the other models' performances by 6 to 7.9%. ISNet presents a fast and light methodology to perform classification preceded by segmentation, while also being more accurate than standard pipelines.
翻訳日:2022-02-02 14:48:31 公開日:2022-02-01
# Laplacian2Mesh: Laplacianベースのメッシュ理解

Laplacian2Mesh: Laplacian-Based Mesh Understanding ( http://arxiv.org/abs/2202.00307v1 )

ライセンス: Link先を確認
Qiujie Dong, Zixiong Wang, Junjie Gao, Shuangmin Chen, Zhenyu Shu, Shiqing Xin(参考訳) 幾何学的深層学習は、形状分類や3次元幾何学曲面のセマンティックセグメンテーションといった形状理解タスクを行うコンピュータグラフィックスへの関心が高まっている。 以前の研究では、三角形メッシュ上の畳み込みとプーリングの操作を定義することで、重要な方向を検討したが、ほとんどの方法はメッシュのグラフ接続構造を明示的に利用していた。 幾何学的スペクトル表面再構成理論に動機づけられ、ユークリッド空間のメッシュの特徴を2次元cnnのマルチレゾリューション入力に類似した多次元ラプラシアン・ベルトラミ空間にマッピングする、ラプラシアン2meshと呼ばれる新しい柔軟な畳み込みニューラルネットワーク(cnn)モデルを導入した。 メッシュプーリングは、表面トポロジーを保持するラプラシアンの多空間変換により、ネットワークの受容場を拡張するために適用され、新しい空間にチャネル自己注意畳み込みを適用する。 メッシュの固有測地接続を隣接行列を介して暗黙的に使用するので、頂点の隣人の数を考慮せず、異なる頂点数のメッシュデータを入力することができる。 3次元メッシュに適用した様々な学習タスクの実験は、lalacian2meshの有効性と効率を示している。

Geometric deep learning has sparked a rising interest in computer graphics to perform shape understanding tasks, such as shape classification and semantic segmentation on three-dimensional (3D) geometric surfaces. Previous works explored the significant direction by defining the operations of convolution and pooling on triangle meshes, but most methods explicitly utilized the graph connection structure of the mesh. Motivated by the geometric spectral surface reconstruction theory, we introduce a novel and flexible convolutional neural network (CNN) model, called Laplacian2Mesh, for 3D triangle mesh, which maps the features of mesh in the Euclidean space to the multi-dimensional Laplacian-Beltrami space, which is similar to the multi-resolution input in 2D CNN. Mesh pooling is applied to expand the receptive field of the network by the multi-space transformation of Laplacian which retains the surface topology, and channel self-attention convolutions are applied in the new space. Since implicitly using the intrinsic geodesic connections of the mesh through the adjacency matrix, we do not consider the number of the neighbors of the vertices, thereby mesh data with different numbers of vertices can be input. Experiments on various learning tasks applied to 3D meshes demonstrate the effectiveness and efficiency of Laplacian2Mesh.
翻訳日:2022-02-02 14:48:03 公開日:2022-02-01
# 形状優先を用いた生成逆数ネットワークによるシングラム強調

Sinogram Enhancement with Generative Adversarial Networks using Shape Priors ( http://arxiv.org/abs/2202.00419v1 )

ライセンス: Link先を確認
Emilien Valat, Katayoun Farrahi, Thomas Blumensath(参考訳) 計算モデルからそれらを推測することで、不足測定を補正することは、不測の逆問題に対処する方法である。 我々は, 生成モデルを用いて一連の取得を完了し, スキャン対象を事前に把握することで, 限られた角度トモグラフィに取り組む。 モデルとしてジェネレーティブ・アドバイサル・ネットワークを用い,コンピュータ支援設計データを形状として用いることにより,他の最先端手法よりも定量的かつ質的な手法の利点を示す。 連続した測定結果の欠如を推測することで、我々は、我々の研究に対する満足な回答を得られていない他の画像塗布技術に代わる手段を提供する: 測定結果の欠如を推測するために、生成モデルを用いてX線露光を低減できるか?

Compensating scarce measurements by inferring them from computational models is a way to address ill-posed inverse problems. We tackle Limited Angle Tomography by completing the set of acquisitions using a generative model and prior-knowledge about the scanned object. Using a Generative Adversarial Network as model and Computer-Assisted Design data as shape prior, we demonstrate a quantitative and qualitative advantage of our technique over other state-of-the-art methods. Inferring a substantial number of consecutive missing measurements, we offer an alternative to other image inpainting techniques that fall short of providing a satisfying answer to our research question: can X-Ray exposition be reduced by using generative models to infer lacking measurements?
翻訳日:2022-02-02 14:47:40 公開日:2022-02-01
# 勾配拡大による大規模連合学習におけるユーザデータの釣り

Fishing for User Data in Large-Batch Federated Learning via Gradient Magnification ( http://arxiv.org/abs/2202.00580v1 )

ライセンス: Link先を確認
Yuxin Wen, Jonas Geiping, Liam Fowl, Micah Goldblum, Tom Goldstein(参考訳) フェデレートラーニング(FL)は、プライバシーと効率性の約束により急速に人気が高まっている。 以前の作業では、グラデーション更新からユーザデータを復元することで、flパイプラインのプライバシの脆弱性を露呈している。 しかし、既存の攻撃は現実的な設定に対処できない。 1)非常に小さなバッチサイズを持つ 'toy' 設定が必要です。 2)非現実的で目立ったアーキテクチャの変更が必要です。 アーキテクチャの変更なしに、任意のサイズのバッチで運用するために既存の攻撃を劇的に高める新しい戦略を導入する。 我々のモデルに依存しない戦略は、多くのシナリオにおいて現実的な脅威モデルであるユーザに送るモデルパラメータの変更のみを必要とする。 クロスデバイスおよびクロスサイロ・フェデレーション学習において,高忠実度データを抽出し,大規模設定に挑戦する戦略を実証する。

Federated learning (FL) has rapidly risen in popularity due to its promise of privacy and efficiency. Previous works have exposed privacy vulnerabilities in the FL pipeline by recovering user data from gradient updates. However, existing attacks fail to address realistic settings because they either 1) require a `toy' settings with very small batch sizes, or 2) require unrealistic and conspicuous architecture modifications. We introduce a new strategy that dramatically elevates existing attacks to operate on batches of arbitrarily large size, and without architectural modifications. Our model-agnostic strategy only requires modifications to the model parameters sent to the user, which is a realistic threat model in many scenarios. We demonstrate the strategy in challenging large-scale settings, obtaining high-fidelity data extraction in both cross-device and cross-silo federated learning.
翻訳日:2022-02-02 14:47:24 公開日:2022-02-01
# メッセージパッシンググラフニューラルネットワークの安定性と一般化機能

Stability and Generalization Capabilities of Message Passing Graph Neural Networks ( http://arxiv.org/abs/2202.00645v1 )

ライセンス: Link先を確認
Sohir Maskey, Yunseok Lee, Ron Levie, Gitta Kutyniok(参考訳) メッセージパッシングニューラルネットワーク(MPNN)は、グラフ構造化データへの畳み込みニューラルネットワークの一般化として導入されて以来、急速に人気が高まっている。 グラフ分類におけるMPNNの一般化能力について検討する。 異なるクラスのグラフは異なるランダムグラフモデルからサンプリングされると仮定する。 このデータ分布に基づいて、経験的損失と統計的損失の間の一般化ギャップの非漸近境界を導出し、グラフが大きくなるにつれてゼロに減少する。 これは、グラフに適用されたMPNNが、グラフが識別する幾何学モデルに適用されたMPNNに近似することを示して証明される。

Message passing neural networks (MPNN) have seen a steep rise in popularity since their introduction as generalizations of convolutional neural networks to graph structured data, and are now considered state-of-the-art tools for solving a large variety of graph-focused problems. We study the generalization capabilities of MPNNs in graph classification. We assume that graphs of different classes are sampled from different random graph models. Based on this data distribution, we derive a non-asymptotic bound on the generalization gap between the empirical and statistical loss, that decreases to zero as the graphs become larger. This is proven by showing that a MPNN, applied on a graph, approximates the MPNN applied on the geometric model that the graph discretizes.
翻訳日:2022-02-02 14:47:13 公開日:2022-02-01
# webformer: 構造情報抽出のためのwebページトランスフォーマ

WebFormer: The Web-page Transformer for Structure Information Extraction ( http://arxiv.org/abs/2202.00217v1 )

ライセンス: Link先を確認
Qifan Wang, Yi Fang, Anirudh Ravula, Fuli Feng, Xiaojun Quan, Dongfang Liu(参考訳) 構造情報抽出とは、ウェブページから構造化テキストフィールドを抽出する作業のことであり、商品タイトル、説明、ブランド、価格を含むショッピングページから商品提供物を抽出する。 文書理解とWeb検索で広く研究されている重要な研究テーマである。 シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を示している。 しかし、非構造化webページからトークンを効果的にシリアライズすることは、様々なwebレイアウトパターンのため、実際には困難である。 限られた作業は、テキストフィールドを抽出するためのWebレイアウトのモデリングに焦点を当てている。 本稿では,Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。 まず,HTML の各 DOM ノードに対する HTML トークンを,近隣のトークンからの表現をグラフアテンションに埋め込むことで設計する。 第2に,html トークンとテキストトークン間の集中度の高いパターンを構築し,web レイアウトを効果的に注意重み計算に活用する。 swde と common crawl ベンチマークに関する広範囲な実験を行った。 実験結果は,提案手法が最先端手法よりも優れていることを示した。

Structure information extraction refers to the task of extracting structured text fields from web pages, such as extracting a product offer from a shopping page including product title, description, brand and price. It is an important research topic which has been widely studied in document understanding and web search. Recent natural language models with sequence modeling have demonstrated state-of-the-art performance on web information extraction. However, effectively serializing tokens from unstructured web pages is challenging in practice due to a variety of web layout patterns. Limited work has focused on modeling the web layout for extracting the text fields. In this paper, we introduce WebFormer, a Web-page transFormer model for structure information extraction from web documents. First, we design HTML tokens for each DOM node in the HTML by embedding representations from their neighboring tokens through graph attention. Second, we construct rich attention patterns between HTML tokens and text tokens, which leverages the web layout for effective attention weight computation. We conduct an extensive set of experiments on SWDE and Common Crawl benchmarks. Experimental results demonstrate the superior performance of the proposed approach over several state-of-the-art methods.
翻訳日:2022-02-02 14:46:34 公開日:2022-02-01
# xalign: 低リソース言語のための言語間ファクトツーテキストアライメントと生成

XAlign: Cross-lingual Fact-to-Text Alignment and Generation for Low-Resource Languages ( http://arxiv.org/abs/2202.00291v1 )

ライセンス: Link先を確認
Tushar Abhishek, Shivprasad Sagare, Bhavyajeet Singh, Anubhav Sharma, Manish Gupta and Vasudeva Varma(参考訳) 英語のInfoboxに与えられたウィキペディアテキスト生成のような)複数の重要なシナリオでは、英語のファクトトリプルから低リソース(LR)言語で記述テキストを自動的に生成する必要がある。 これまでの研究は、英語のファクト・トゥ・テキスト(F2T)生成に焦点を当ててきた。 我々の知る限りでは、LR言語に対する言語間アライメントや生成の試みは、これまでなかった。 効果的な言語間F2T (XF2T) システムの構築には、英語の構造化事実とLR文のアライメントが必要となる。 言語間アライメントのための教師なし手法を2つ提案する。 XALIGNは8言語で0.45万ペアのXF2Tデータセットで、5402ペアが手動で注釈付けされている。 また、XAlignデータセット上で強力なベースラインXF2T生成モデルをトレーニングする。

Multiple critical scenarios (like Wikipedia text generation given English Infoboxes) need automated generation of descriptive text in low resource (LR) languages from English fact triples. Previous work has focused on English fact-to-text (F2T) generation. To the best of our knowledge, there has been no previous attempt on cross-lingual alignment or generation for LR languages. Building an effective cross-lingual F2T (XF2T) system requires alignment between English structured facts and LR sentences. We propose two unsupervised methods for cross-lingual alignment. We contribute XALIGN, an XF2T dataset with 0.45M pairs across 8 languages, of which 5402 pairs have been manually annotated. We also train strong baseline XF2T generation models on the XAlign dataset.
翻訳日:2022-02-02 14:46:17 公開日:2022-02-01
# 最大文字確率と強化学習を用いたWordleの最適人文戦略の探索

Finding the optimal human strategy for Wordle using maximum correct letter probabilities and reinforcement learning ( http://arxiv.org/abs/2202.00557v1 )

ライセンス: Link先を確認
Benton J. Anderson, Jesse G. Meyer(参考訳) Wordleは2022年1月に普及したオンラインパズルゲームである。 目標は、隠れた5文字の単語を推測することだ。 それぞれの推測の後、プレイヤーは、推測された文字が単語の中に存在するか、正しい位置にあるかの情報を得る。 多くのブログが推測戦略と、勝利の可能性を高める単語リストの開始を提案している。 最適化されたアルゴリズムは、6つの許容試験のうち5つでゲームの100%を勝ち取ることができる。 しかし、全ての既知の5文字単語を完全にリコールし、情報ゲインを最適化する複雑な計算を行うことができないため、人間のプレイヤーはこれらのアルゴリズムを使用することができない。 本稿では,強化学習に基づく最適な人間戦略を発見するための枠組みとともに,単語選択のための2つの異なる手法を提案する。 人間のWordleプレーヤーは、私たちが発見するルールを使って勝利のチャンスを最適化することができる。

Wordle is an online word puzzle game that gained viral popularity in January 2022. The goal is to guess a hidden five letter word. After each guess, the player gains information about whether the letters they guessed are present in the word, and whether they are in the correct position. Numerous blogs have suggested guessing strategies and starting word lists that improve the chance of winning. Optimized algorithms can win 100% of games within five of the six allowed trials. However, it is infeasible for human players to use these algorithms due to an inability to perfectly recall all known 5-letter words and perform complex calculations that optimize information gain. Here, we present two different methods for choosing starting words along with a framework for discovering the optimal human strategy based on reinforcement learning. Human Wordle players can use the rules we discover to optimize their chance of winning.
翻訳日:2022-02-02 14:45:53 公開日:2022-02-01
# 時系列ワークフローのためのクラウドコンピューティングサービスのセマンティック

Semantic of Cloud Computing services for Time Series workflows ( http://arxiv.org/abs/2202.00609v1 )

ライセンス: Link先を確認
Manuel Parra-Roy\'on, Francisco Baldan, Ghislain Atemezing, J.M. Benitez(参考訳) 時系列(TS)は多くの知識、研究、工学の分野に存在している。 tsの処理および分析は,データから知識を抽出し,予測および予測保守タスクに取り組むために不可欠であり,tsのモデリングは難しい課題であり,データマイニング(dm)と機械学習(ml)手法の適用に関する優れた知識だけでなく,高い統計知識を必要とする。 TSの全体的な作業は、いくつかのテクニックの線形アプリケーションに限らず、メソッドとテストのオープンワークフローで構成されている。 これらのワークフローは、主にプログラミング言語に基づいて開発され、クラウドコンピューティング(CC)環境を含むさまざまなシステム上で実行および実行するのに複雑である。 CCの採用により、サービスの統合とポータビリティが促進され、インターネット技術(IT)産業化に向けたソリューションが採用される。 tsのworkflow servicesの定義と説明は、cc環境におけるこの種の問題の導入における複雑さの低減に関する、新たな可能性のセットを開く。 この意味で、我々は、CCサービスとしての時系列モデリングのためのワークフローの完全な記述を提供する意味モデリング(または語彙)に基づく効果的な提案を設計した。 我々の提案には、最も拡張されたオペレーションの幅広いスペクトルが含まれており、タイムシリーズの分類、回帰、クラスタリング問題に適用されるワークフロー、評価指標、情報、テスト、機械学習アルゴリズムなどが含まれる。

Time series (TS) are present in many fields of knowledge, research, and engineering. The processing and analysis of TS are essential in order to extract knowledge from the data and to tackle forecasting or predictive maintenance tasks among others The modeling of TS is a challenging task, requiring high statistical expertise as well as outstanding knowledge about the application of Data Mining(DM) and Machine Learning (ML) methods. The overall work with TS is not limited to the linear application of several techniques, but is composed of an open workflow of methods and tests. These workflow, developed mainly on programming languages, are complicated to execute and run effectively on different systems, including Cloud Computing (CC) environments. The adoption of CC can facilitate the integration and portability of services allowing to adopt solutions towards services Internet Technologies (IT) industrialization. The definition and description of workflow services for TS open up a new set of possibilities regarding the reduction of complexity in the deployment of this type of issues in CC environments. In this sense, we have designed an effective proposal based on semantic modeling (or vocabulary) that provides the full description of workflow for Time Series modeling as a CC service. Our proposal includes a broad spectrum of the most extended operations, accommodating any workflow applied to classification, regression, or clustering problems for Time Series, as well as including evaluation measures, information, tests, or machine learning algorithms among others.
翻訳日:2022-02-02 14:45:38 公開日:2022-02-01
# 議論段階的意味論の逆問題

The Inverse Problem for Argumentation Gradual Semantics ( http://arxiv.org/abs/2202.00294v1 )

ライセンス: Link先を確認
Nir Oren and Bruno Yun and Srdjan Vesic and Murilo Baptista(参考訳) 抽象的な議論を伴う段階的な意味論は、各引数にその受容性を反映したスコアを与える。 文学において、様々な段階的な意味論が提案され、それぞれ異なる原則に従い、異なる議論のランキングを生み出している。 このような意味論のサブクラス、いわゆる重み付き意味論は、グラフ構造に加えて、引数に対する初期重みのセットを入力として取り、これらの重みは結果の引数ランキングに影響を与える。 本研究では,このような重み付き意味論に対する逆問題を考える。 すなわち、議論の枠組みと望ましい議論のランキングが与えられた場合、特定の意味論が与えられたランキングを生成するような初期重みが存在するかどうかを問う。 本論文の貢献は,(1)この問題に答えるアルゴリズム,(2)アルゴリズムを動作させるためには段階的意味論が満たさなければならない特性のキャラクタリゼーション,(3)提案アルゴリズムの実証的評価である。

Gradual semantics with abstract argumentation provide each argument with a score reflecting its acceptability, i.e. how "much" it is attacked by other arguments. Many different gradual semantics have been proposed in the literature, each following different principles and producing different argument rankings. A sub-class of such semantics, the so-called weighted semantics, takes, in addition to the graph structure, an initial set of weights over the arguments as input, with these weights affecting the resultant argument ranking. In this work, we consider the inverse problem over such weighted semantics. That is, given an argumentation framework and a desired argument ranking, we ask whether there exist initial weights such that a particular semantics produces the given ranking. The contribution of this paper are: (1) an algorithm to answer this problem, (2) a characterisation of the properties that a gradual semantics must satisfy for the algorithm to operate, and (3) an empirical evaluation of the proposed algorithm.
翻訳日:2022-02-02 14:45:16 公開日:2022-02-01
# 歪み補正と高精度特徴検出を用いた学習型カメラ校正フレームワーク

Learning-Based Framework for Camera Calibration with Distortion Correction and High Precision Feature Detection ( http://arxiv.org/abs/2202.00158v1 )

ライセンス: Link先を確認
Yesheng Zhang, Xu Zhao and Dahong Qian(参考訳) カメラキャリブレーションは多くのロボットシステムの性能に大きな影響を及ぼす重要な技術である。 堅牢性と高精度は、常に多様な校正方法の追求である。 しかし、Zhangの手法に基づく最先端のキャリブレーション技術は、環境ノイズ、ラジアルレンズ歪み、準最適パラメータ推定に悩まされている。 そこで本稿では,学習に基づくアプローチと,これらのボトルネックに対処する従来の手法を組み合わせたハイブリッドカメラキャリブレーションフレームワークを提案する。 特にこのフレームワークは、効率的な歪み補正とロバストなチェスボードコーナー座標符号化を行うために学習に基づくアプローチを利用する。 コーナー検出のサブピクセル精度向上のために,組込み外乱除去機構を備えた特別設計座標復号アルゴリズムを提案する。 提案手法は, RANSACアルゴリズムによる従来のパラメータ推定を改良し, 安定した結果を得る。 広範に使われている2つのカメラキャリブレーションツールボックスと比較して、実データと合成データの両方の実験結果は、提案フレームワークのより良い堅牢性と高い精度を示す。 大規模な合成データセットは、当社のフレームワークの十分なパフォーマンスの基礎であり、https://github.com/Easonyesheng/CCS.comのコードとともに公開されます。

Camera calibration is a crucial technique which significantly influences the performance of many robotic systems. Robustness and high precision have always been the pursuit of diverse calibration methods. State-of-the-art calibration techniques based on classical Zhang's method, however, still suffer from environmental noise, radial lens distortion and sub-optimal parameter estimation. Therefore, in this paper, we propose a hybrid camera calibration framework which combines learning-based approaches with traditional methods to handle these bottlenecks. In particular, this framework leverages learning-based approaches to perform efficient distortion correction and robust chessboard corner coordinate encoding. For sub-pixel accuracy of corner detection, a specially-designed coordinate decoding algorithm with embed outlier rejection mechanism is proposed. To avoid sub-optimal estimation results, we improve the traditional parameter estimation by RANSAC algorithm and achieve stable results. Compared with two widely-used camera calibration toolboxes, experiment results on both real and synthetic datasets manifest the better robustness and higher precision of the proposed framework. The massive synthetic dataset is the basis of our framework's decent performance and will be publicly available along with the code at https://github.com/Easonyesheng/CCS.
翻訳日:2022-02-02 14:44:12 公開日:2022-02-01
# オブジェクトガイド型クロスモーダルキャリブレーション・セマンティクスによる人間と物体の相互作用の検出

Detecting Human-Object Interactions with Object-Guided Cross-Modal Calibrated Semantics ( http://arxiv.org/abs/2202.00259v1 )

ライセンス: Link先を確認
Hangjie Yuan, Mang Wang, Dong Ni and Liangpeng Xu(参考訳) ヒューマン・オブジェクト・インタラクション(HOI)検出は、きめ細かい視点から人間中心の画像を理解するために不可欠なタスクである。 エンドツーエンドのhoi検出モデルは繁栄するが、並列人間/オブジェクト検出と動詞クラス予測のパラダイムは、2段階のメソッドのメリットを失う。 1つの hoi triplet のオブジェクトは、予測される動詞の直接の手がかりを与える。 本稿では,オブジェクト指向統計モデルを用いたエンドツーエンドモデルの構築を目標とする。 具体的には,Verb Semantic Model (VSM) とセマンティックアグリゲーション(セマンティックアグリゲーション)を用いて,このオブジェクト誘導階層から利益を得る。 HOIデータセットの事前値に合わせてVSMを最適化するために、類似性KL(SKL)損失が提案されている。 静的意味埋め込み問題を克服するために, クロスモーダルキャリブレーション(cmc)により, 相互モダリティを認識できる視覚および意味的特徴を生成することを提案する。 上記のモジュールは、オブジェクト指向のクロスモーダルキャリブレーションネットワーク(OCN)を構成する。 2つの一般的なHOI検出ベンチマークで実施された実験は、統計的事前知識を取り入れ、最先端のパフォーマンスを生み出すことの重要性を示している。 より詳細な分析では、提案するモジュールはより強力な動詞予測器であり、より優れた事前知識を利用する方法であることを示している。 コードは \url{https://github.com/JacobYuan7/OCN-HOI-Benchmark} で公開されている。

Human-Object Interaction (HOI) detection is an essential task to understand human-centric images from a fine-grained perspective. Although end-to-end HOI detection models thrive, their paradigm of parallel human/object detection and verb class prediction loses two-stage methods' merit: object-guided hierarchy. The object in one HOI triplet gives direct clues to the verb to be predicted. In this paper, we aim to boost end-to-end models with object-guided statistical priors. Specifically, We propose to utilize a Verb Semantic Model (VSM) and use semantic aggregation to profit from this object-guided hierarchy. Similarity KL (SKL) loss is proposed to optimize VSM to align with the HOI dataset's priors. To overcome the static semantic embedding problem, we propose to generate cross-modality-aware visual and semantic features by Cross-Modal Calibration (CMC). The above modules combined composes Object-guided Cross-modal Calibration Network (OCN). Experiments conducted on two popular HOI detection benchmarks demonstrate the significance of incorporating the statistical prior knowledge and produce state-of-the-art performances. More detailed analysis indicates proposed modules serve as a stronger verb predictor and a more superior method of utilizing prior knowledge. The codes are available at \url{https://github.com/JacobYuan7/OCN-HOI-Benchmark}.
翻訳日:2022-02-02 14:43:52 公開日:2022-02-01
# 説明からセグメンテーションへ:画像セグメンテーションに説明可能なAIを使う

From Explanations to Segmentation: Using Explainable AI for Image Segmentation ( http://arxiv.org/abs/2202.00315v1 )

ライセンス: Link先を確認
Clemens Seibold, Johannes K\"unzel, Anna Hilsmann, Peter Eisert(参考訳) ディープニューラルネットワーク(dnn)のパワーを活用した新たなイメージセグメンテーションの時代には、価格タグが付いている。 ピクセル単位のセグメンテーションのためにニューラルネットワークをトレーニングするには、大量のトレーニングサンプルをピクセル精度で手作業でラベル付けする必要がある。 本研究では,これを間接解法に従うことで解決する。 我々は、説明可能なAI(XAI)コミュニティの進歩の上に構築し、分類ネットワークの決定を説明するレイヤワイド関連伝搬(LRP)の出力から画素ワイドバイナリセグメンテーションを抽出する。 既存のu-netセグメンテーションアーキテクチャと比較して同様の結果が得られたが、トレーニングデータの生成は大幅に単純化された。 提案手法は,トレーニングサンプルを画像レベルでのみラベル付けすると同時に,セグメンテーションマスクの出力を可能にするため,弱教師付き方式でトレーニングすることができる。 これは特に、退屈なピクセルレベルのラベリングがしばしば不可能な、広範囲の実際のアプリケーションに適用できる。

The new era of image segmentation leveraging the power of Deep Neural Nets (DNNs) comes with a price tag: to train a neural network for pixel-wise segmentation, a large amount of training samples has to be manually labeled on pixel-precision. In this work, we address this by following an indirect solution. We build upon the advances of the Explainable AI (XAI) community and extract a pixel-wise binary segmentation from the output of the Layer-wise Relevance Propagation (LRP) explaining the decision of a classification network. We show that we achieve similar results compared to an established U-Net segmentation architecture, while the generation of the training data is significantly simplified. The proposed method can be trained in a weakly supervised fashion, as the training samples must be only labeled on image-level, at the same time enabling the output of a segmentation mask. This makes it especially applicable to a wider range of real applications where tedious pixel-level labelling is often not possible.
翻訳日:2022-02-02 14:42:36 公開日:2022-02-01
# セマンティクスセグメンテーションにおけるインクリメンタル学習のための連続的注意融合

Continual Attentive Fusion for Incremental Learning in Semantic Segmentation ( http://arxiv.org/abs/2202.00432v1 )

ライセンス: Link先を確認
Guanglei Yang, Enrico Fini, Dan Xu, Paolo Rota, Mingli Ding, Hao Tang, Xavier Alameda-Pineda, Elisa Ricci(参考訳) 過去数年間、コンピュータビジョンにおける多くのタスクと同様にセマンティックセグメンテーションは、ディープニューラルネットワークの進歩から恩恵を受け、パフォーマンスが大幅に向上した。 しかし、勾配に基づく手法で訓練された深いアーキテクチャは破滅的な忘れ込みに悩まされ、これは新しいタスクを学習しながら学習した知識を忘れる傾向にある。 この効果に対抗する戦略を考案することを目指して、インクリメンタルな学習アプローチがここ数年で人気を集めている。 しかし、意味セグメンテーションのための最初のインクリメンタルな学習方法が最近登場した。 効果的ではあるが、これらのアプローチはピクセルレベルの密集した予測問題、すなわち注意メカニズムの役割において重要な側面を考慮しない。 このギャップを埋めるため,本稿では,空間的およびチャネルレベルの意味的依存関係を考慮しつつ,壊滅的忘れを緩和する新しい注意的特徴蒸留手法を提案する。 さらに,新しいタスクの特徴を学習しながら,新しいタスクと古いタスクから得られた注意を生かした,連続的注意融合構造を提案する。 最後に,蒸留損失の背景クラスを考慮し,バイアスド予測を防止するための新しい戦略を提案する。 われわれはPascal-VOC 2012 とADE20K を広範囲に評価し,本手法の有効性を実証した。

Over the past years, semantic segmentation, as many other tasks in computer vision, benefited from the progress in deep neural networks, resulting in significantly improved performance. However, deep architectures trained with gradient-based techniques suffer from catastrophic forgetting, which is the tendency to forget previously learned knowledge while learning new tasks. Aiming at devising strategies to counteract this effect, incremental learning approaches have gained popularity over the past years. However, the first incremental learning methods for semantic segmentation appeared only recently. While effective, these approaches do not account for a crucial aspect in pixel-level dense prediction problems, i.e. the role of attention mechanisms. To fill this gap, in this paper we introduce a novel attentive feature distillation approach to mitigate catastrophic forgetting while accounting for semantic spatial- and channel-level dependencies. Furthermore, we propose a {continual attentive fusion} structure, which takes advantage of the attention learned from the new and the old tasks while learning features for the new task. Finally, we also introduce a novel strategy to account for the background class in the distillation loss, thus preventing biased predictions. We demonstrate the effectiveness of our approach with an extensive evaluation on Pascal-VOC 2012 and ADE20K, setting a new state of the art.
翻訳日:2022-02-02 14:42:18 公開日:2022-02-01
# HCSC:階層的コントラスト選択符号化

HCSC: Hierarchical Contrastive Selective Coding ( http://arxiv.org/abs/2202.00455v1 )

ライセンス: Link先を確認
Yuanfan Guo, Minghao Xu, Jiawen Li, Bingbing Ni, Xuanyu Zhu, Zhenbang Sun, Yi Xu(参考訳) 階層的セマンティック構造は自然にイメージデータセットに存在し、いくつかのセマンティックなイメージクラスタを、粗いセマンティックスを持つより大きなクラスタに統合することができる。 このような構造を画像表現でキャプチャすることは、様々な下流タスクのセマンティック理解に大きな恩恵をもたらす。 既存のコントラスト表現学習手法には、そのような重要なモデル能力がない。 さらに、これらの手法で用いられる負対は意味的に区別されることが保証されないため、学習された画像表現の構造的正しさをさらに阻害する可能性がある。 これらの制約に対処するために,階層的コントラスト選択符号化 (HCSC) と呼ばれる新しいコントラスト学習フレームワークを提案する。 このフレームワークでは、一連の階層型プロトタイプが構築され、動的に更新され、潜在空間におけるデータの基盤となる階層型セマンティック構造を表現する。 画像表現をそのような意味構造に合致させるため、より精巧なペア選択スキームを通じて、従来のインスタンスワイズおよびプロトタイプ的コントラスト学習を取り入れ、さらに改善する。 このスキームは、類似のセマンティクスを持つより多様な正のペアと、真に異なるセマンティクスを持つより正確な負のペアを選択することを目指している。 大規模ダウンストリームタスクでは,最先端のコントラスト法に比べてHCSCの優れた性能が検証され,多くの解析研究により主要モデル成分の有効性が証明された。 ソースコードとモデルの重み付けはhttps://github.com/gyfastas/HCSCで確認できる。

Hierarchical semantic structures naturally exist in an image dataset, in which several semantically relevant image clusters can be further integrated into a larger cluster with coarser-grained semantics. Capturing such structures with image representations can greatly benefit the semantic understanding on various downstream tasks. Existing contrastive representation learning methods lack such an important model capability. In addition, the negative pairs used in these methods are not guaranteed to be semantically distinct, which could further hamper the structural correctness of learned image representations. To tackle these limitations, we propose a novel contrastive learning framework called Hierarchical Contrastive Selective Coding (HCSC). In this framework, a set of hierarchical prototypes are constructed and also dynamically updated to represent the hierarchical semantic structures underlying the data in the latent space. To make image representations better fit such semantic structures, we employ and further improve conventional instance-wise and prototypical contrastive learning via an elaborate pair selection scheme. This scheme seeks to select more diverse positive pairs with similar semantics and more precise negative pairs with truly distinct semantics. On extensive downstream tasks, we verify the superior performance of HCSC over state-of-the-art contrastive methods, and the effectiveness of major model components is proved by plentiful analytical studies. Our source code and model weights are available at https://github.com/gyfastas/HCSC
翻訳日:2022-02-02 14:41:53 公開日:2022-02-01
# 半構造化Ayurvedicテキストに基づく意味アノテーションとクエリフレームワーク

Semantic Annotation and Querying Framework based on Semi-structured Ayurvedic Text ( http://arxiv.org/abs/2202.00216v1 )

ライセンス: Link先を確認
Hrishikesh Terdalkar, Arnab Bhattacharya, Madhulika Dubey, Ramamurthy S, Bhavna Naneria Singh(参考訳) 知識ベース(KB)は多くの自然言語処理(NLP)や情報検索(IR)タスクにおいて重要なリソースである。 また、テキストから情報を得ようとする研究者にも役立ちます。 しかし残念なことに、sanskrit nlpの最先端技術では、ツールやメソッドの精度が不十分なため、知識ベースの自動構築は許可されていない。 そこで本研究では,知識グラフ(KG)作成を目的としたサンスクリットテキストのマニュアルアノテーションに関する取り組みについて述べる。 ayurvedic text bhavaprakasha の bhavaprakashanighantu から dhanyavarga の章を注釈として選択する。 構築された知識グラフは、410のエンティティと764の関係を含んでいる。 bhavaprakashanighantuは、異なる物質の様々な特性を記述する技術用語集であるので、テキストに存在するエンティティと関係型のセマンティクスを捉えるための精巧なオントロジーを開発する。 知識グラフを問合せするために、一般的な質問パターンのほとんどをカバーする31のクエリテンプレートを設計する。 手動のアノテーションとクエリについては、以前私たちが開発したSangrahakaフレームワークをカスタマイズします。 データセットを含むシステム全体は、https://sanskrit.iitk.ac.in/ayurveda/から利用できる。 手動のアノテーションやその後のキュレーションを通じて作成した知識グラフが,将来的にNLPツールの開発とテスト,さらにはBhavaprakasanighantuテキストの研究に役立ちたいと思っています。

Knowledge bases (KB) are an important resource in a number of natural language processing (NLP) and information retrieval (IR) tasks, such as semantic search, automated question-answering etc. They are also useful for researchers trying to gain information from a text. Unfortunately, however, the state-of-the-art in Sanskrit NLP does not yet allow automated construction of knowledge bases due to unavailability or lack of sufficient accuracy of tools and methods. Thus, in this work, we describe our efforts on manual annotation of Sanskrit text for the purpose of knowledge graph (KG) creation. We choose the chapter Dhanyavarga from Bhavaprakashanighantu of the Ayurvedic text Bhavaprakasha for annotation. The constructed knowledge graph contains 410 entities and 764 relationships. Since Bhavaprakashanighantu is a technical glossary text that describes various properties of different substances, we develop an elaborate ontology to capture the semantics of the entity and relationship types present in the text. To query the knowledge graph, we design 31 query templates that cover most of the common question patterns. For both manual annotation and querying, we customize the Sangrahaka framework previously developed by us. The entire system including the dataset is available from https://sanskrit.iitk.ac.in/ayurveda/ . We hope that the knowledge graph that we have created through manual annotation and subsequent curation will help in development and testing of NLP tools in future as well as studying of the Bhavaprakasanighantu text.
翻訳日:2022-02-02 14:41:16 公開日:2022-02-01
# トランスに基づく音声用テキスト正規化モデル

Transformer-based Models of Text Normalization for Speech Applications ( http://arxiv.org/abs/2202.00153v1 )

ライセンス: Link先を確認
Jae Hun Ro, Felix Stahlberg, Ke Wu, Shankar Kumar(参考訳) テキスト正規化(テキスト正規化、英: Text normalization)とは、テキストから音声合成(TTS)などの音声応用において重要である。 ttsでは、システムは "1995" を "19 ninety five" を "born in 1995" として、あるいは "1 thousand nine hundred ninety five" を "page 1995" として、動詞化するかどうかを決定する必要がある。 本稿では,トランスフォーマーを用いたテキスト正規化のシーケンス・ツー・シーケンス(seq2seq)モデルを実験的に比較し,その正規化音声形式に整合したテキストのさまざまなデータセット上で評価する。 これらのモデルには、Zhang et al. (2019) によって導入された2段階の RNN ベースのタグ付け/seq2seq アーキテクチャの変種が含まれており、1つ以上のステージで RNN を Transformer に置き換えるだけでなく、編集シーケンスの文字列表現を出力するvanilla Transformer も含んでいる。 提案手法では,2段階モデルにおける文文脈エンコーディングに Transformer を用いることで,細調整したBERTエンコーダが最高の性能を得ることができた。

Text normalization, or the process of transforming text into a consistent, canonical form, is crucial for speech applications such as text-to-speech synthesis (TTS). In TTS, the system must decide whether to verbalize "1995" as "nineteen ninety five" in "born in 1995" or as "one thousand nine hundred ninety five" in "page 1995". We present an experimental comparison of various Transformer-based sequence-to-sequence (seq2seq) models of text normalization for speech and evaluate them on a variety of datasets of written text aligned to its normalized spoken form. These models include variants of the 2-stage RNN-based tagging/seq2seq architecture introduced by Zhang et al. (2019), where we replace the RNN with a Transformer in one or more stages, as well as vanilla Transformers that output string representations of edit sequences. Of our approaches, using Transformers for sentence context encoding within the 2-stage model proved most effective, with the fine-tuned BERT encoder yielding the best performance.
翻訳日:2022-02-02 14:38:48 公開日:2022-02-01
# フェデレートアクティブラーニング(F-AL):フェデレートラーニングのための効果的なアノテーション戦略

Federated Active Learning (F-AL): an Efficient Annotation Strategy for Federated Learning ( http://arxiv.org/abs/2202.00195v1 )

ライセンス: Link先を確認
Jin-Hyun Ahn, Kyungsang Kim, Jeongwan Koh, Quanzheng Li(参考訳) 連合学習(federated learning, ffl)は、コミュニケーション効率、プライバシー、公平性の観点から集中的に研究されてきた。 しかし、現実のFLアプリケーションでは問題となる効率的なアノテーションは研究されていない。 本稿では,FLフレームワークにアクティブラーニング(AL)とサンプリング戦略を適用し,アノテーションの作業量を削減することを提案する。 alとflは相補的に相互のパフォーマンスを向上させることを期待する。 提案手法では,F-AL(Federated Active Learning, F-AL)をクライアントが共同で実装し,分散最適化方式でFLに情報を与えるインスタンスを得る。 本研究では,従来のランダムサンプリング戦略,クライアントレベルの分離AL(S-AL),提案するF-ALを用いて,グローバルFLモデルの精度を比較する。 画像分類タスクにおいて,F-ALがベースライン法より優れていることを示す。

Federated learning (FL) has been intensively investigated in terms of communication efficiency, privacy, and fairness. However, efficient annotation, which is a pain point in real-world FL applications, is less studied. In this project, we propose to apply active learning (AL) and sampling strategy into the FL framework to reduce the annotation workload. We expect that the AL and FL can improve the performance of each other complementarily. In our proposed federated active learning (F-AL) method, the clients collaboratively implement the AL to obtain the instances which are considered as informative to FL in a distributed optimization manner. We compare the test accuracies of the global FL models using the conventional random sampling strategy, client-level separate AL (S-AL), and the proposed F-AL. We empirically demonstrate that the F-AL outperforms baseline methods in image classification tasks.
翻訳日:2022-02-02 14:38:25 公開日:2022-02-01
# Factorized-FL:カーネルファクトリゼーションと類似性マッチングを併用したAgnostic Personalized Federated Learning

Factorized-FL: Agnostic Personalized Federated Learning with Kernel Factorization & Similarity Matching ( http://arxiv.org/abs/2202.00270v1 )

ライセンス: Link先を確認
Wonyong Jeong, Sung Ju Hwang(参考訳) 実世界のフェデレートされた学習シナリオでは、参加者は異なるラベルの置換を使用したり、まったく異なるタスクやドメインに対処するため、他のクライアントと互換性のない独自のラベルを持つことができる。 しかしながら、既存のFLアプローチのほとんどは、(1)全ての参加者が同期されたラベルセットを使用し、(2)同じドメインから同じタスクでトレーニングしていると仮定するので、このような非常に異種なシナリオに効果的に対処することはできない。 本研究では、これらの課題に対処するために、モデルパラメータを2つのベクトルに分解することで、ラベルとタスクを効果的に対応できるFactized-FLを導入し、各ローカルモデルが取り組んだタスクに特有の知識を各ラベルとタスクにまたがる共通知識をキャプチャする。 さらに、クライアント固有のベクトル空間の距離に基づいて、Facterized-FLは選択的なアグリゲーションスキームを実行し、関連する参加者からの知識のみをクライアントごとに活用する。 提案手法はラベルとドメインのヘテロゲネス設定の両方において広範囲に検証し,その効果を検証した。

In real-world federated learning scenarios, participants could have their own personalized labels which are incompatible with those from other clients, due to using different label permutations or tackling completely different tasks or domains. However, most existing FL approaches cannot effectively tackle such extremely heterogeneous scenarios since they often assume that (1) all participants use a synchronized set of labels, and (2) they train on the same task from the same domain. In this work, to tackle these challenges, we introduce Factorized-FL, which allows to effectively tackle label- and task-heterogeneous federated learning settings by factorizing the model parameters into a pair of vectors, where one captures the common knowledge across different labels and tasks and the other captures knowledge specific to the task each local model tackles. Moreover, based on the distance in the client-specific vector space, Factorized-FL performs selective aggregation scheme to utilize only the knowledge from the relevant participants for each client. We extensively validate our method on both label- and domain-heterogeneous settings, on which it outperforms the state-of-the-art personalized federated learning methods.
翻訳日:2022-02-02 14:38:10 公開日:2022-02-01
# 物理-粒子相互作用の学習

Learning Physics-Consistent Particle Interactions ( http://arxiv.org/abs/2202.00299v1 )

ライセンス: Link先を確認
Zhichao Han, David S. Kammer, Olga Fink(参考訳) 相互作用粒子系は科学と工学において重要な役割を果たしている。 制御粒子相互作用法則へのアクセスは、そのようなシステムの完全な理解に不可欠である。 しかし、固有のシステムの複雑さは、多くのケースで粒子の相互作用を隠している。 機械学習手法は、実験とデータ分析法を組み合わせることで、相互作用する粒子システムの振る舞いを学習する可能性がある。 しかし、既存のアルゴリズムのほとんどは粒子レベルでの運動学の学習に焦点を当てている。 ペアワイズ相互作用、例えばペアワイズ力やペアワイズポテンシャルエネルギーの学習は、依然としてオープンな課題である。 本稿では,グラフネットワークフレームワークを適応させるアルゴリズムを提案する。このアルゴリズムは,一対の相互作用を学習するためのエッジ部分と,粒子レベルでのダイナミクスをモデル化するためのノード部分を含む。 ニューラルネットワークを両部分で使用する既存のアプローチとは異なり、ノード部に決定論的演算子を設計する。 ノード上の設計された物理演算子は、エッジニューラルネットワークの出力空間を正確にペアの相互作用に制限する。 我々は,提案手法を複数データセット上でテストし,既存の純粋データ駆動モデルよりも基礎となる物理値と一致しつつ,ペアインタラクションを正しく推論することで,かなり優れた性能を実現することを実証する。 基礎となる粒子相互作用の法則をよりよく理解し、発見し、そのため、対象特性を持つ材料の設計を導くことができる。

Interacting particle systems play a key role in science and engineering. Access to the governing particle interaction law is fundamental for a complete understanding of such systems. However, the inherent system complexity keeps the particle interaction hidden in many cases. Machine learning methods have the potential to learn the behavior of interacting particle systems by combining experiments with data analysis methods. However, most existing algorithms focus on learning the kinetics at the particle level. Learning pairwise interaction, e.g., pairwise force or pairwise potential energy, remains an open challenge. Here, we propose an algorithm that adapts the Graph Networks framework, which contains an edge part to learn the pairwise interaction and a node part to model the dynamics at particle level. Different from existing approaches that use neural networks in both parts, we design a deterministic operator in the node part. The designed physics operator on the nodes restricts the output space of the edge neural network to be exactly the pairwise interaction. We test the proposed methodology on multiple datasets and demonstrate that it achieves considerably better performance in inferring correctly the pairwise interactions while also being consistent with the underlying physics on all the datasets than existing purely data-driven models. The developed methodology can support a better understanding and discovery of the underlying particle interaction laws, and hence guide the design of materials with targeted properties.
翻訳日:2022-02-02 14:37:48 公開日:2022-02-01
# 右潜在因子に対する権利:絡み合いによる生成モデルの偏り

Right for the Right Latent Factors: Debiasing Generative Models via Disentanglement ( http://arxiv.org/abs/2202.00391v1 )

ライセンス: Link先を確認
Xiaoting Shao, Karl Stelzner, Kristian Kersting(参考訳) ほとんどの統計的機械学習手法の重要な前提は、テスト時に遭遇するデータの分布から独立したサンプルにアクセスすることである。 したがって、これらの手法はしばしばバイアスデータに直面して性能が悪く、この仮定を破る。 特に機械学習モデルは、巧妙なハンスのような振る舞いを示すことが示されており、トレーニングセットにおけるスプリアス相関が不注意に学習されることを意味する。 深い分類器を修正して適切な相関関係を学習するために、多くの研究が提案されている。 しかし、現在まで生成モデルは見過ごされている。 生成モデルもまた、Clever-Hansのような振る舞いをしがちである。 この問題に対処するために,人間のフィードバックによって達成される内部表現を解消し,生成モデルをデバイアス化する手法を提案する。 実験の結果,人間のフィードバックが所望の分布のごく一部をカバーしている場合でも,バイアスの除去に有効であることがわかった。 また,近年の手法と定量的に比較した結果を得た。

A key assumption of most statistical machine learning methods is that they have access to independent samples from the distribution of data they encounter at test time. As such, these methods often perform poorly in the face of biased data, which breaks this assumption. In particular, machine learning models have been shown to exhibit Clever-Hans-like behaviour, meaning that spurious correlations in the training set are inadvertently learnt. A number of works have been proposed to revise deep classifiers to learn the right correlations. However, generative models have been overlooked so far. We observe that generative models are also prone to Clever-Hans-like behaviour. To counteract this issue, we propose to debias generative models by disentangling their internal representations, which is achieved via human feedback. Our experiments show that this is effective at removing bias even when human feedback covers only a small fraction of the desired distribution. In addition, we achieve strong disentanglement results in a quantitative comparison with recent methods.
翻訳日:2022-02-02 14:37:31 公開日:2022-02-01
# 機械学習を用いた企業関係性

Firm-based relatedness using machine learning ( http://arxiv.org/abs/2202.00458v1 )

ライセンス: Link先を確認
Giambattista Albora, Andrea Zaccaria(参考訳) 経済行為者(例えば国や会社)と製品との間の関係性は、その経済活動の実現可能性の尺度である。 そのため、民間・機関レベルでの投資の原動力となっている。 伝統的に、関係性は国レベルの共起によって導かれる複雑なネットワークアプローチを用いて測定される。 本研究では、国と企業の両方で訓練された複雑なネットワークと機械学習アルゴリズムを比較した。 関連度を定量的に比較するために,より多くの関連商品が近い将来に輸出される可能性が高いと仮定して,国・企業レベルでの将来輸出予測に使用する。 その結果,関係性はスケール依存型であることが示され,予測したいデータと同一の型で機械学習を用いて最良の評価が得られた。 また、国別データに基づく関連措置は企業には適さないが、企業レベルのデータも国の発展を予測する上で非常に有益である。 この意味では、企業データに基づいて構築されたモデルは、国レベルのデータに関する関連性をよりよく評価する。 また,ネットワークベースのベンチマークをはるかに上回る予測性能を維持しつつ,高いブロック数に分割することで計算時間を短縮できることを示すことで,コミュニティ検出アルゴリズムとパラメータ最適化の効果について考察した。

The relatedness between an economic actor (for instance a country, or a firm) and a product is a measure of the feasibility of that economic activity. As such, it is a driver for investments both at a private and institutional level. Traditionally, relatedness is measured using complex networks approaches derived by country-level co-occurrences. In this work, we compare complex networks and machine learning algorithms trained on both country and firm-level data. In order to quantitatively compare the different measures of relatedness, we use them to predict the future exports at country and firm-level, assuming that more related products have higher likelihood to be exported in the near future. Our results show that relatedness is scale-dependent: the best assessments are obtained by using machine learning on the same typology of data one wants to predict. Moreover, while relatedness measures based on country data are not suitable for firms, firm-level data are quite informative also to predict the development of countries. In this sense, models built on firm data provide a better assessment of relatedness with respect to country-level data. We also discuss the effect of using community detection algorithms and parameter optimization, finding that a partition into a higher number of blocks decreases the computational time while maintaining a prediction performance that is well above the network based benchmarks.
翻訳日:2022-02-02 14:37:16 公開日:2022-02-01
# (参考訳) 現代ニューラルネットワークのフラットミニマ最適化への疑問

Questions for Flat-Minima Optimization of Modern Neural Networks ( http://arxiv.org/abs/2202.00661v1 )

ライセンス: CC BY 4.0
Jean Kaddour, Linqing Liu, Ricardo Silva, Matt J. Kusner(参考訳) ニューラルネットワークのトレーニングでは、一様低損失(フラットミニマ)近傍のパラメータを求めるフラットミニマオプティマイザが、確率的および適応的勾配に基づく手法により改善することが示されている。 平らなミニマを見つけるための2つの方法が際立っている。 1.平均化方法(確率ウェイト平均化、SWA)及び 2.ミニマックス法(シャープネス認識最小化、SAM) しかし、同様の動機にもかかわらず、その性質に関する調査は限られており、両者の包括的比較は行われていない。 本研究では,コンピュータビジョン,自然言語処理,グラフ学習タスクにまたがるこれらのアプローチの体系的ベンチマークによる損失面について検討する。 どちらのアプローチも直交的な方法で平坦な解を見つけるので、それらを組み合わせることでさらに一般化が改善されるはずだ。 42例中39例において,フラットミニマアプローチによる改善が確認できた。 そうでなければ、潜在的な説明を提供する。 画像、グラフ、テキストデータにわたる結果が、研究者がディープラーニングオプティマイザを改善するのに役立つことを期待しています。

For training neural networks, flat-minima optimizers that seek to find parameters in neighborhoods having uniformly low loss (flat minima) have been shown to improve upon stochastic and adaptive gradient-based methods. Two methods for finding flat minima stand out: 1. Averaging methods (i.e., Stochastic Weight Averaging, SWA), and 2. Minimax methods (i.e., Sharpness Aware Minimization, SAM). However, despite similar motivations, there has been limited investigation into their properties and no comprehensive comparison between them. In this work, we investigate the loss surfaces from a systematic benchmarking of these approaches across computer vision, natural language processing, and graph learning tasks. This leads us to a hypothesis: since both approaches find flat solutions in orthogonal ways, combining them should improve generalization even further. We verify this improves over either flat-minima approach in 39 out of 42 cases. When it does not, we provide potential explanations. We hope our results across image, graph, and text data will help researchers to improve deep learning optimizers, and practitioners to pinpoint the optimizer for the problem at hand.
翻訳日:2022-02-02 14:36:00 公開日:2022-02-01
# Few-Bit Backward:メモリフットプリント削減のためのアクティベーション関数の量子化勾配

Few-Bit Backward: Quantized Gradients of Activation Functions for Memory Footprint Reduction ( http://arxiv.org/abs/2202.00441v1 )

ライセンス: Link先を確認
Georgii Novikov, Daniel Bershatsky, Julia Gusak, Alex Shonenkov, Denis Dimitrov, and Ivan Oseledets(参考訳) メモリフットプリントは、大規模なニューラルネットワークトレーニングの主要な制限要因のひとつだ。 バックプロパゲーションでは、計算グラフ内の各演算に入力を格納する必要がある。 現代のすべてのニューラルネットワークモデルは、そのアーキテクチャにおいてかなりいくつかのポイントワイズな非線形性を持ち、そのような操作は、私たちが示すように、勾配の量子化によって大幅に削減できる追加のメモリコストを誘導する。 本稿では,各要素あたり数ビットしか持たない点次非線形関数の残留勾配の最適量子化を求める体系的手法を提案する。 このような近似は、動的プログラミングによって実現できるアクティベーション関数の微分の最適一貫した近似を計算することで実現できることを示す。 ドロップイン置換はすべての一般的な非線形性に対して実装されており、既存のパイプラインで使用することができる。 いくつかのオープンベンチマークでメモリ削減と同じ収束を確認した。

Memory footprint is one of the main limiting factors for large neural network training. In backpropagation, one needs to store the input to each operation in the computational graph. Every modern neural network model has quite a few pointwise nonlinearities in its architecture, and such operation induces additional memory costs which -- as we show -- can be significantly reduced by quantization of the gradients. We propose a systematic approach to compute optimal quantization of the retained gradients of the pointwise nonlinear functions with only a few bits per each element. We show that such approximation can be achieved by computing optimal piecewise-constant approximation of the derivative of the activation function, which can be done by dynamic programming. The drop-in replacements are implemented for all popular nonlinearities and can be used in any existing pipeline. We confirm the memory reduction and the same convergence on several open benchmarks.
翻訳日:2022-02-02 14:00:01 公開日:2022-02-01
# 無限幅限界を超えるニューラルタンジェントカーネル:深さと初期化の影響

Neural Tangent Kernel Beyond the Infinite-Width Limit: Effects of Depth and Initialization ( http://arxiv.org/abs/2202.00553v1 )

ライセンス: Link先を確認
Mariia Seleznova, Gitta Kutyniok(参考訳) ニューラル・タンジェント・カーネル(ntk)は、(jacot et al., 2018):無限幅限界において、トレーニング中にntkが決定論的かつ定数であることから、過パラメータ化されたニューラルネットワークを分析するために広く使われている。 しかし、深さと幅が同時に無限になる場合、一般には保持されないため、この結果はディープネットワークの挙動を説明することができない。 本稿では,幅に匹敵する深さを持つ完全接続型ReLUネットワークのNTKについて検討する。 NTK特性は初期化時のパラメータの深さ-幅比と分布に大きく依存することを示す。 実際、我々の結果は(poole et al., 2016)で同定された超パラメータ空間における3つの位相の重要性を示している:順序、カオス、カオスのエッジ(eoc)。 これら3つの位相の無限深度および幅制限におけるNTK分散の正確な式を導出し,EOCおよびカオス相においてNTK変動は指数関数的に増大するが,順序相では変化しないと結論付けた。 また, 深層ネットワークのNTKは, トレーニング中にのみ一定であり, トレーニング中にNTK行列の構造がどのように変化するかについて議論する。

Neural Tangent Kernel (NTK) is widely used to analyze overparametrized neural networks due to the famous result by (Jacot et al., 2018): in the infinite-width limit, the NTK is deterministic and constant during training. However, this result cannot explain the behavior of deep networks, since it generally does not hold if depth and width tend to infinity simultaneously. In this paper, we study the NTK of fully-connected ReLU networks with depth comparable to width. We prove that the NTK properties depend significantly on the depth-to-width ratio and the distribution of parameters at initialization. In fact, our results indicate the importance of the three phases in the hyperparameter space identified in (Poole et al., 2016): ordered, chaotic and the edge of chaos (EOC). We derive exact expressions for the NTK dispersion in the infinite-depth-and-width limit in all three phases and conclude that the NTK variability grows exponentially with depth at the EOC and in the chaotic phase but not in the ordered phase. We also show that the NTK of deep networks may stay constant during training only in the ordered phase and discuss how the structure of the NTK matrix changes during training.
翻訳日:2022-02-02 13:59:47 公開日:2022-02-01
# 強化学習によるスケーラブルフラグメントに基づく3次元分子設計

Scalable Fragment-Based 3D Molecular Design with Reinforcement Learning ( http://arxiv.org/abs/2202.00658v1 )

ライセンス: Link先を確認
Daniel Flam-Shepherd, Alexander Zhigalin and Al\'an Aspuru-Guzik(参考訳) 機械学習は分子設計を自動化し、新しい機能性化合物の発見を劇的に加速する可能性がある。 この目的のために、文字列とグラフ表現を用いた生成モデルと強化学習(RL)が新しい分子の探索に成功している。 しかしながら、これらのアプローチは分子の3次元構造を無視するため制限されている。 実際、幾何は逆分子設計、特に創薬において多くの応用において重要な役割を果たす。 したがって、プロパティ指向幾何学的制約に基づいて3次元空間で分子構造を生成できるモデルを構築することが重要である。 これを解決するために、1つのアプローチは、空間上の位置に原子を逐次配置することで3Dポイントの雲として分子を生成することである。 しかし、個々の原子を配置することで探索が不要に深くなり、生成可能な分子の複雑さが制限されるため、このアプローチは非効率である。 さらに、分子を最適化する際、有機化学と医薬化学は、単一の原子ではなく既知の断片と官能基を用いる。 本稿では,スケーラブルな3d設計のための新しいrlフレームワークについて紹介する。3d空間に分子構造を順次配置することにより,分子設計の分野における既存の人間の知識を基盤とする階層的エージェントを用いた分子構築を行う。 異なるサブ構造を持つ様々な実験において、我々のエージェントはエネルギーだけを考慮し、薬物様分子、有機led分子、生体分子を含む多くの分布から100以上の原子を持つ分子を効率的に生成できることを示しました。

Machine learning has the potential to automate molecular design and drastically accelerate the discovery of new functional compounds. Towards this goal, generative models and reinforcement learning (RL) using string and graph representations have been successfully used to search for novel molecules. However, these approaches are limited since their representations ignore the three-dimensional (3D) structure of molecules. In fact, geometry plays an important role in many applications in inverse molecular design, especially in drug discovery. Thus, it is important to build models that can generate molecular structures in 3D space based on property-oriented geometric constraints. To address this, one approach is to generate molecules as 3D point clouds by sequentially placing atoms at locations in space -- this allows the process to be guided by physical quantities such as energy or other properties. However, this approach is inefficient as placing individual atoms makes the exploration unnecessarily deep, limiting the complexity of molecules that can be generated. Moreover, when optimizing a molecule, organic and medicinal chemists use known fragments and functional groups, not single atoms. We introduce a novel RL framework for scalable 3D design that uses a hierarchical agent to build molecules by placing molecular substructures sequentially in 3D space, thus attempting to build on the existing human knowledge in the field of molecular design. In a variety of experiments with different substructures, we show that our agent, guided only by energy considerations, can efficiently learn to produce molecules with over 100 atoms from many distributions including drug-like molecules, organic LED molecules, and biomolecules.
翻訳日:2022-02-02 13:59:22 公開日:2022-02-01
# フェデレーション学習におけるリサイクリングモデル更新:勾配部分空間は低ランクか?

Recycling Model Updates in Federated Learning: Are Gradient Subspaces Low-Rank? ( http://arxiv.org/abs/2202.00280v1 )

ライセンス: Link先を確認
Sheikh Shams Azam, Seyyedali Hosseinalipour, Qiang Qiu, Christopher Brinton(参考訳) 本稿では,フェデレート学習中に分散システムを介して大量のパラメータを伝播する根拠を疑問視する。 まず, 集中型モデル学習において, エポックにまたがる勾配(つまり勾配空間)にまたがる部分空間のランク特性を調べ, この勾配空間は, 説明された分散の圧倒的多数(95~99%)を占めるいくつかの主要な主成分から構成されていることを観察した。 そこで我々は,この低ランク性を利用して,フェデレート学習のモデル更新ラウンド間の勾配リサイクルを実現し,大きなパラメータの送信を単一スカラーに削減する「Look-back Gradient Multiplier(LBGM)」アルゴリズムを提案する。 我々は,LBGMの収束挙動を解析的に特徴付け,通信貯蓄とモデル性能のトレードオフの性質を明らかにする。 実験の結果,LBGMは複数のデータセットや深層学習モデルにおいて,従来のフェデレーション学習に比べて通信オーバーヘッドが向上することを示した。 さらに,LBGMは,既存の分散モデルトレーニングのためのスペーシフィケーション技術の上に,スタンドアロンあるいは積み重ねて使用可能な汎用的なプラグアンドプレイアルゴリズムであることを示す。

In this paper, we question the rationale behind propagating large numbers of parameters through a distributed system during federated learning. We start by examining the rank characteristics of the subspace spanned by gradients across epochs (i.e., the gradient-space) in centralized model training, and observe that this gradient-space often consists of a few leading principal components accounting for an overwhelming majority (95-99%) of the explained variance. Motivated by this, we propose the "Look-back Gradient Multiplier" (LBGM) algorithm, which exploits this low-rank property to enable gradient recycling between model update rounds of federated learning, reducing transmissions of large parameters to single scalars for aggregation. We analytically characterize the convergence behavior of LBGM, revealing the nature of the trade-off between communication savings and model performance. Our subsequent experimental results demonstrate the improvement LBGM obtains in communication overhead compared to conventional federated learning on several datasets and deep learning models. Additionally, we show that LBGM is a general plug-and-play algorithm that can be used standalone or stacked on top of existing sparsification techniques for distributed model training.
翻訳日:2022-02-02 13:58:43 公開日:2022-02-01
# 私のディープネットワークのパフォーマンスは、本当になるには良くないのでしょうか? 二項分類におけるベイズ誤差の直接推定法

Is the Performance of My Deep Network Too Good to Be True? A Direct Approach to Estimating the Bayes Error in Binary Classification ( http://arxiv.org/abs/2202.00395v1 )

ライセンス: Link先を確認
Takashi Ishida, Ikko Yamane, Nontawat Charoenphakdee, Gang Niu, Masashi Sugiyama(参考訳) 予測対象の必然的な不確実性のため、機械学習モデルが達成できる予測性能には、基本的な制限がある。 分類問題において、これは任意の分類器で達成可能な最良の誤りであるベイズ誤差によって特徴づけられる。 ベイズ誤差は、最先端のパフォーマンスで分類器を評価する基準として使用することができ、テストセットのオーバーフィッティングを検出するために使用することができる。 我々は単純で直接的なベイズ誤差推定器を提案する。ここでは、クラスが \emph{uncertainty} を示すラベルの平均を取る。 我々の柔軟なアプローチは、弱い教師付きデータでもベイズ誤差を推定できる。 他の方法とは対照的に、我々の手法はモデルフリーであり、インスタンスフリーである。 さらに、ハイパーパラメータを持たず、分類器ベースのベースラインよりも正確にベイズ誤差を推定する。 この手法を用いた実験により、最近提案された分類器であるvision transformerが、特定のベンチマークデータセットのベイズ誤差に達している可能性が示唆された。

There is a fundamental limitation in the prediction performance that a machine learning model can achieve due to the inevitable uncertainty of the prediction target. In classification problems, this can be characterized by the Bayes error, which is the best achievable error with any classifier. The Bayes error can be used as a criterion to evaluate classifiers with state-of-the-art performance and can be used to detect test set overfitting. We propose a simple and direct Bayes error estimator, where we just take the mean of the labels that show \emph{uncertainty} of the classes. Our flexible approach enables us to perform Bayes error estimation even for weakly supervised data. In contrast to others, our method is model-free and even instance-free. Moreover, it has no hyperparameters and gives a more accurate estimate of the Bayes error than classifier-based baselines. Experiments using our method suggest that a recently proposed classifier, the Vision Transformer, may have already reached the Bayes error for certain benchmark datasets.
翻訳日:2022-02-02 13:58:18 公開日:2022-02-01
# グラフノード埋め込みのためのメッセージパッシングを満足する次元リダクション

Dimensionality Reduction Meets Message Passing for Graph Node Embeddings ( http://arxiv.org/abs/2202.00408v1 )

ライセンス: Link先を確認
Krzysztof Sadowski, Micha{\l} Szarmach, Eddie Mattia(参考訳) グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク分析から分子の化学的性質のモデル化まで、様々な用途で一般的なアプローチとなっている。 GNNは、しばしば公開データセットで顕著なパフォーマンスを示すが、過剰なスムーシングと過剰な監視傾向のため、データ内の長距離依存関係を学ぶのに苦労する可能性がある。 そこで本研究では,主成分分析 (pca) とメッセージパッシングを組み合わせることでノード埋め込みを教師なしな方法で生成し,分類タスクに勾配強調決定木を利用する手法であるpcapassを提案する。 提案手法は, ノード分類ベンチマークで人気の高いGNNと比較して, 距離の長い地域からの情報を収集しながら, 競争性能が向上することを示す。 本研究は,グラフ構造化データの長距離依存性を集約するための有望なメカニズムとして,メッセージパッシングとスキップ接続による次元縮小を適用することを実証する。

Graph Neural Networks (GNNs) have become a popular approach for various applications, ranging from social network analysis to modeling chemical properties of molecules. While GNNs often show remarkable performance on public datasets, they can struggle to learn long-range dependencies in the data due to over-smoothing and over-squashing tendencies. To alleviate this challenge, we propose PCAPass, a method which combines Principal Component Analysis (PCA) and message passing for generating node embeddings in an unsupervised manner and leverages gradient boosted decision trees for classification tasks. We show empirically that this approach provides competitive performance compared to popular GNNs on node classification benchmarks, while gathering information from longer distance neighborhoods. Our research demonstrates that applying dimensionality reduction with message passing and skip connections is a promising mechanism for aggregating long-range dependencies in graph structured data.
翻訳日:2022-02-02 13:58:03 公開日:2022-02-01
# 失われたDGを見つける:モデル複雑性による領域一般化の説明

Finding lost DG: Explaining domain generalization via model complexity ( http://arxiv.org/abs/2202.00563v1 )

ライセンス: Link先を確認
Da Li, Henry Gouk, Timothy Hospedales(参考訳) ドメイン一般化(DG)問題設定では、複数の既知のデータ分布で訓練されたモデルが、見えないデータ分布をうまく一般化する。 その実用的重要性から、この問題に対処するために多くの方法が提案されている。 しかし、DG問題の公式なモデル化が困難であるため、汎用的なDGの作業の多くはヒューリスティックに動機付けられており、最近の評価は、特に十分に調整された経験的リスク最小化ベースラインと比較して、既存の手法の実用性に疑問を投げかけている。 本稿では,モデルのラデマッハ複雑性の観点から,未認識領域の一般化性能を制限したdgの学習理論上の新しい一般化について述べる。 これに基づいて,既存の手法の有効性や欠如は,経験的リスク対予測的複雑性トレードオフによって大部分的に決定され,これらの用語でその性能変動が説明できることを示す。 アルゴリズムにより,領域の一般化は,領域間相互検証を目的とし,規則化されたERMを実行するだけで達成できることを示す。 DomainBedベンチマークの実証結果は、これを裏付けている。

The domain generalization (DG) problem setting challenges a model trained on multiple known data distributions to generalise well on unseen data distributions. Due to its practical importance, a large number of methods have been proposed to address this challenge. However much of the work in general purpose DG is heuristically motivated, as the DG problem is hard to model formally; and recent evaluations have cast doubt on existing methods' practical efficacy -- in particular compared to a well tuned empirical risk minimisation baseline. We present a novel learning-theoretic generalisation bound for DG that bounds unseen domain generalisation performance in terms of the model's Rademacher complexity. Based on this, we conjecture that existing methods' efficacy or lack thereof is largely determined by an empirical risk vs predictor complexity trade-off, and demonstrate that their performance variability can be explained in these terms. Algorithmically, this analysis suggests that domain generalisation should be achieved by simply performing regularised ERM with a leave-one-domain-out cross-validation objective. Empirical results on the DomainBed benchmark corroborate this.
翻訳日:2022-02-02 13:56:30 公開日:2022-02-01
# タスク境界のないオンラインメタ学習

Fully Online Meta-Learning Without Task Boundaries ( http://arxiv.org/abs/2202.00263v1 )

ライセンス: Link先を確認
Jathushan Rajasegaran, Chesea Finn, Sergey Levine(参考訳) ディープネットワークは分類器、検出器、トラッカーなどの複雑な機能を学ぶことができるが、多くのアプリケーションは入力分布の変化、タスクの変化、環境条件の変化に継続的に適応するモデルを必要とする。 実際、知識を継続的に探求し、過去の経験を使って継続的に新しいタスクを素早く学習する能力は、インテリジェントシステムの重要な特性の1つです。 複雑で高次元の問題は、勾配降下のような標準的な学習アルゴリズムでモデルを継続的に更新するだけで、適応が遅くなる可能性がある。 メタラーニングは適応を加速する強力なツールを提供するが、従来はバッチ設定で研究されている。 本稿では,この性質のオンライン問題にメタラーニングを適用し,タスクや入力分布の変化に適応し,モデルにメタトレーニングを施して,より迅速な適応を実現する方法について検討する。 メタラーニングをオンライン環境に拡張することは、独自の課題を示し、いくつかの先行した手法が関連する問題を研究してきたが、一般にはタスクの離散的な概念を必要とする。 このようなメソッドは通常、タスク間で連続的に適応するのではなく、タスク間でモデルをリセットする。 多くの現実世界では、そのような離散境界は利用できず、存在すらしない。 これらの設定に対処するために、タスク境界に関する基礎的な真理知識を必要とせず、トレーニング済みの重みに戻すことなく完全にオンラインに留まる完全オンラインメタラーニング(FOML)アルゴリズムを提案する。 我々の実験によると、FOMLはRainbow-MNIST、CIFAR100、CELEBAデータセットの最先端のオンライン学習手法よりも早く新しいタスクを学習できた。

While deep networks can learn complex functions such as classifiers, detectors, and trackers, many applications require models that continually adapt to changing input distributions, changing tasks, and changing environmental conditions. Indeed, this ability to continuously accrue knowledge and use past experience to learn new tasks quickly in continual settings is one of the key properties of an intelligent system. For complex and high-dimensional problems, simply updating the model continually with standard learning algorithms such as gradient descent may result in slow adaptation. Meta-learning can provide a powerful tool to accelerate adaptation yet is conventionally studied in batch settings. In this paper, we study how meta-learning can be applied to tackle online problems of this nature, simultaneously adapting to changing tasks and input distributions and meta-training the model in order to adapt more quickly in the future. Extending meta-learning into the online setting presents its own challenges, and although several prior methods have studied related problems, they generally require a discrete notion of tasks, with known ground-truth task boundaries. Such methods typically adapt to each task in sequence, resetting the model between tasks, rather than adapting continuously across tasks. In many real-world settings, such discrete boundaries are unavailable, and may not even exist. To address these settings, we propose a Fully Online Meta-Learning (FOML) algorithm, which does not require any ground truth knowledge about the task boundaries and stays fully online without resetting back to pre-trained weights. Our experiments show that FOML was able to learn new tasks faster than the state-of-the-art online learning methods on Rainbow-MNIST, CIFAR100 and CELEBA datasets.
翻訳日:2022-02-02 13:56:10 公開日:2022-02-01
# StyleGAN-XL:StyleGANの大規模分散データセットへのスケーリング

StyleGAN-XL: Scaling StyleGAN to Large Diverse Datasets ( http://arxiv.org/abs/2202.00273v1 )

ライセンス: Link先を確認
Axel Sauer, Katja Schwarz, Andreas Geiger(参考訳) コンピュータグラフィックスは、フォトリアリスティックで制御可能なコンテンツ作成のためのデータ中心のアプローチが最近急増している。 styleganは特に、画像品質と制御可能性に関する生成モデリングの新しい標準を設定している。 しかし、styleganのパフォーマンスはimagenetのような大きな非構造化データセットで著しく低下する。 StyleGANは制御性のために設計されたため、以前の研究は制限的な設計が多様なデータセットに適さないと推測していた。 対照的に、私たちは現在のトレーニング戦略の主な制限要因を見つけます。 最近導入されたProjected GANパラダイムに従い、強力なニューラルネットワークプリエントと進歩的な成長戦略を活用して、ImageNet上で最新のStyleGAN3ジェネレータをトレーニングしました。 最後のモデルであるStyleGAN-XLは、大規模な画像合成に新たな最先端を設定でき、そのようなデータセットスケールで1024^2$の解像度で画像を生成できる最初のモデルです。 このモデルは、ポートレートの狭い領域や特定のオブジェクトクラスを越えて、画像を反転および編集できることを実証する。

Computer graphics has experienced a recent surge of data-centric approaches for photorealistic and controllable content creation. StyleGAN in particular sets new standards for generative modeling regarding image quality and controllability. However, StyleGAN's performance severely degrades on large unstructured datasets such as ImageNet. StyleGAN was designed for controllability; hence, prior works suspect its restrictive design to be unsuitable for diverse datasets. In contrast, we find the main limiting factor to be the current training strategy. Following the recently introduced Projected GAN paradigm, we leverage powerful neural network priors and a progressive growing strategy to successfully train the latest StyleGAN3 generator on ImageNet. Our final model, StyleGAN-XL, sets a new state-of-the-art on large-scale image synthesis and is the first to generate images at a resolution of $1024^2$ at such a dataset scale. We demonstrate that this model can invert and edit images beyond the narrow domain of portraits or specific object classes.
翻訳日:2022-02-02 13:55:40 公開日:2022-02-01
# Filtered-CoPhy: ピクセル空間における非教師なしの対物物理学習

Filtered-CoPhy: Unsupervised Learning of Counterfactual Physics in Pixel Space ( http://arxiv.org/abs/2202.00368v1 )

ライセンス: Link先を確認
Steeven Janny, Fabien Baradel, Natalia Neverova, Madiha Nadri, Greg Mori, Christian Wolf(参考訳) 高次元データ(画像、ビデオ)で因果関係を学ぶことは難しい作業であり、それらはしばしば低次元多様体上で定義され、データの外観、照明、テクスチャ、そしてスプリアス相関によって支配される複雑な信号から抽出されなければならない。 本稿では,初期条件に対する介入の影響を予測するため,画素空間における物理過程の反実的推論を学習する手法を提案する。 構造的関係の同定を超えて、長い地平線上で生動画を予測するという困難な問題に対処する。 本手法は基礎的真理位置や他の対象やシーン特性の知識や監督を必要としない。 本モデルは,高密度特徴,2次元キーポイントの集合,およびキーポイント当たりの付加潜在ベクトルの組み合わせに基づいて,適切なハイブリッド潜在表現を学習し,作用する。 これは、純粋に密度が高いあるいは疎い表現よりも、物理過程のダイナミクスを捉えるのがよいことを示す。 我々は,画素空間における予測と物理に着想を得たMLとビデオ予測における強いベースラインを上回り,挑戦的で慎重に設計された反実的ベンチマークを導入する。

Learning causal relationships in high-dimensional data (images, videos) is a hard task, as they are often defined on low dimensional manifolds and must be extracted from complex signals dominated by appearance, lighting, textures and also spurious correlations in the data. We present a method for learning counterfactual reasoning of physical processes in pixel space, which requires the prediction of the impact of interventions on initial conditions. Going beyond the identification of structural relationships, we deal with the challenging problem of forecasting raw video over long horizons. Our method does not require the knowledge or supervision of any ground truth positions or other object or scene properties. Our model learns and acts on a suitable hybrid latent representation based on a combination of dense features, sets of 2D keypoints and an additional latent vector per keypoint. We show that this better captures the dynamics of physical processes than purely dense or sparse representations. We introduce a new challenging and carefully designed counterfactual benchmark for predictions in pixel space and outperform strong baselines in physics-inspired ML and video prediction.
翻訳日:2022-02-02 13:55:23 公開日:2022-02-01
# 特徴属性の評価:情報理論の視点から

Evaluating Feature Attribution: An Information-Theoretic Perspective ( http://arxiv.org/abs/2202.00449v1 )

ライセンス: Link先を確認
Yao Rong, Tobias Leemann, Vadim Borisov, Gjergji Kasneci, Enkelejda Kasneci(参考訳) 近年, 様々な特徴帰属手法が提案されているため, フォローアップ研究はいくつかの評価戦略を提案した。 異なる帰属技法における帰属品質を評価するために、画像領域におけるこれらの評価戦略で最も人気のあるのは画素摂動である。 しかし、近年の進歩により、異なる評価戦略が帰属方法の矛盾するランキングを生み出し、計算に不当にコストがかかることが判明した。 本研究では,画素摂動に基づく評価戦略の情報理論解析について述べる。 その結果, 異なる評価手法による出力は, 実際の値と対照的に, 除去画素の形状による情報漏洩の影響が強いことがわかった。 まず,共同設立者の影響を緩和し,評価戦略の整合性を高めることを目的とした,新たな評価フレームワークであるRemove and Debias(ROAD)を提案する。 第二に、ROADは計算的に高価な再訓練ステップを必要とせず、最先端技術と比較して計算コストを最大99%削減する。 ソースコードはhttps://github.com/tleemann/road_evaluationで入手できます。

With a variety of local feature attribution methods being proposed in recent years, follow-up work suggested several evaluation strategies. To assess the attribution quality across different attribution techniques, the most popular among these evaluation strategies in the image domain use pixel perturbations. However, recent advances discovered that different evaluation strategies produce conflicting rankings of attribution methods and can be prohibitively expensive to compute. In this work, we present an information-theoretic analysis of evaluation strategies based on pixel perturbations. Our findings reveal that the results output by different evaluation strategies are strongly affected by information leakage through the shape of the removed pixels as opposed to their actual values. Using our theoretical insights, we propose a novel evaluation framework termed Remove and Debias (ROAD) which offers two contributions: First, it mitigates the impact of the confounders, which entails higher consistency among evaluation strategies. Second, ROAD does not require the computationally expensive retraining step and saves up to 99% in computational costs compared to the state-of-the-art. Our source code is available at https://github.com/tleemann/road_evaluation.
翻訳日:2022-02-02 13:53:27 公開日:2022-02-01
# 深層カーネル化密度幾何マッチング

Deep Kernelized Dense Geometric Matching ( http://arxiv.org/abs/2202.00667v1 )

ライセンス: Link先を確認
Johan Edstedt, M{\aa}rten Wadenb\"ack, Michael Felsberg(参考訳) デンス幾何マッチングはコンピュータビジョンの課題であり、低テクスチャ領域であっても、視点と照明の極端な変化の下で正確な対応を必要とする。 この課題では、後の精練段階において正確なグローバル対応を見つけることが不可欠である。 現在の学習に基づくパラダイムは、グローバルな固定サイズ相関を実行し、次いで、対応を予測するためのフラット化と畳み込みを行う。 本研究では,この問題を異なる視点から検討し,大域対応推定をディープカーネルを用いた連続確率回帰タスクとして定式化し,密接な対応を学習するための新しいアプローチを提案する。 我々の完全なアプローチである \textbf{D}eep \textbf{K}ernelized \textbf{M}atching は、競争力のあるHPatches と YFCC100m ベンチマークの最先端と比較して大幅に改善され、徹底的なアブレーション研究における私たちの貢献の成果を識別する。

Dense geometric matching is a challenging computer vision task, requiring accurate correspondences under extreme variations in viewpoint and illumination, even for low-texture regions. In this task, finding accurate global correspondences is essential for later refinement stages. The current learning based paradigm is to perform global fixed-size correlation, followed by flattening and convolution to predict correspondences. In this work, we consider the problem from a different perspective and propose to formulate global correspondence estimation as a continuous probabilistic regression task using deep kernels, yielding a novel approach to learning dense correspondences. Our full approach, \textbf{D}eep \textbf{K}ernelized \textbf{M}atching, achieves significant improvements compared to the state-of-the-art on the competitive HPatches and YFCC100m benchmarks, and we dissect the gains of our contributions in a thorough ablation study.
翻訳日:2022-02-02 13:53:09 公開日:2022-02-01
# ATEK:屋内レイアウト合成のエキスパート知識によるトランスフォーマーの強化

ATEK: Augmenting Transformers with Expert Knowledge for Indoor Layout Synthesis ( http://arxiv.org/abs/2202.00185v1 )

ライセンス: Link先を確認
Kurt Leimer, Paul Guerrero, Tomer Weiss, Przemyslaw Musialski(参考訳) 本稿では,コンピュータグラフィックス研究の継続課題である屋内レイアウト合成の問題に対処する。 最新の研究はデータ駆動生成法を使って大きな進歩を遂げたが、これらのアプローチは適切なデータセットに依存している。 実際には、データセットには望ましいレイアウトプロパティが存在しない場合がある。 本稿では,例えばエルゴノミクスに関する知識と,一般的なTransformerアーキテクチャに基づくデータ駆動型ジェネレータを組み合わせる手法を提案する。 知識は微分可能なスカラー関数として与えられ、これは重み付けや損失関数の項として使うことができる。 この知識を用いることで、データセットにこれらの特性が存在しない場合でも、合成されたレイアウトは望ましい特性を示すためにバイアスを受けることができる。 弊社のアプローチは、データの欠如やデータの欠陥の問題も軽減できる。 本研究の目的は、設計者やアマチュアのための新しいツールを内部レイアウト作成の問題に対して提供し、モデリングのための生成機械学習を改善することである。

We address the problem of indoor layout synthesis, which is a topic of continuing research interest in computer graphics. The newest works made significant progress using data-driven generative methods; however, these approaches rely on suitable datasets. In practice, desirable layout properties may not exist in a dataset, for instance, specific expert knowledge can be missing in the data. We propose a method that combines expert knowledge, for example, knowledge about ergonomics, with a data-driven generator based on the popular Transformer architecture. The knowledge is given as differentiable scalar functions, which can be used both as weights or as additional terms in the loss function. Using this knowledge, the synthesized layouts can be biased to exhibit desirable properties, even if these properties are not present in the dataset. Our approach can also alleviate problems of lack of data and imperfections in the data. Our work aims to improve generative machine learning for modeling and provide novel tools for designers and amateurs for the problem of interior layout creation.
翻訳日:2022-02-02 13:52:49 公開日:2022-02-01
# Sim2Real Object-Centric Keypoint Detection and Description

Sim2Real Object-Centric Keypoint Detection and Description ( http://arxiv.org/abs/2202.00448v1 )

ライセンス: Link先を確認
Chengliang Zhong, Chao Yang, Jinshan Qi, Fuchun Sun, Huaping Liu, Xiaodong Mu, Wenbing Huang(参考訳) キーポイント検出と説明はコンピュータビジョンにおいて中心的な役割を果たす。 既存のメソッドのほとんどは、異なるキーポイントのオブジェクトクラスを返すことなく、シーンレベルの予測の形式である。 本稿では,従来の設定を超えて,各関心点が属する対象をさらに識別するオブジェクト中心の定式化を提案する。 このような詳細な情報によって,クラスタ環境におけるオブジェクトレベルのマッチングやポーズ推定といった,より下流的なポテンシャルが実現されるのです。 実世界におけるラベル収集の難しさを回避するため,シミュレーションで訓練されたモデルを実世界アプリケーションに一般化できるsim2現実のコントラスト学習機構を開発した。 我々の訓練方法の目新しさは3つある。 (i)不確実性を学習フレームワークに統合し、例えば、テキストの少ないパッチや対称パッチなど、ハードケースの特徴記述を改善する。 (ii)オブジェクトディスクリプタを2つの出力ブランチに分離する(オブジェクト内サリアンスとオブジェクト間区別性)。 (iii)表現学習におけるロバスト性を高めるために、横断的意味的一貫性を強制する。 画像マッチングと6次元ポーズ推定に関する総合実験により,シミュレーションから現実に至るまでの手法の一般化能力を検証する。 特に6次元ポーズ推定では,本手法は一般的な教師なし/シミュリアルな手法よりも優れており,完全に教師付きされた手法とのギャップが深くなっている。

Keypoint detection and description play a central role in computer vision. Most existing methods are in the form of scene-level prediction, without returning the object classes of different keypoints. In this paper, we propose the object-centric formulation, which, beyond the conventional setting, requires further identifying which object each interest point belongs to. With such fine-grained information, our framework enables more downstream potentials, such as object-level matching and pose estimation in a clustered environment. To get around the difficulty of label collection in the real world, we develop a sim2real contrastive learning mechanism that can generalize the model trained in simulation to real-world applications. The novelties of our training method are three-fold: (i) we integrate the uncertainty into the learning framework to improve feature description of hard cases, e.g., less-textured or symmetric patches; (ii) we decouple the object descriptor into two output branches -- intra-object salience and inter-object distinctness, resulting in a better pixel-wise description; (iii) we enforce cross-view semantic consistency for enhanced robustness in representation learning. Comprehensive experiments on image matching and 6D pose estimation verify the encouraging generalization ability of our method from simulation to reality. Particularly for 6D pose estimation, our method significantly outperforms typical unsupervised/sim2real methods, achieving a closer gap with the fully supervised counterpart.
翻訳日:2022-02-02 13:52:33 公開日:2022-02-01
# コネクショニストネットワークにおける幸運な期待

Fortuitous Forgetting in Connectionist Networks ( http://arxiv.org/abs/2202.00155v1 )

ライセンス: Link先を確認
Hattie Zhou, Ankit Vani, Hugo Larochelle, Aaron Courville(参考訳) 忘れることはしばしば、人間と機械学習の両方において望ましくない特徴と見なされる。 しかし,本研究では,忘れることが学習に有利なことを提案する。 ニューラルネットワークの学習軌跡を形作るための強力なパラダイムとして,"forget-and-relearn"を導入する。 この過程で、忘れるステップは、モデルから好ましくない情報を選択的に取り除き、再学習ステップは、異なる条件下で一貫して有用な特徴を補強する。 このフレームワークは,画像分類や言語出現文献において,既存の反復学習アルゴリズムを統一し,望ましくない情報の忘れ方の観点から,これらのアルゴリズムの成功を理解することができる。 我々は、この理解を利用して既存のアルゴリズムを改善する。 私たちの分析から得られた洞察は、ニューラルネットワークにおける反復的トレーニングのダイナミクスに関するコヒーレントな見解を提供し、パフォーマンス改善に向けた明確な道筋を提供する。

Forgetting is often seen as an unwanted characteristic in both human and machine learning. However, we propose that forgetting can in fact be favorable to learning. We introduce "forget-and-relearn" as a powerful paradigm for shaping the learning trajectories of artificial neural networks. In this process, the forgetting step selectively removes undesirable information from the model, and the relearning step reinforces features that are consistently useful under different conditions. The forget-and-relearn framework unifies many existing iterative training algorithms in the image classification and language emergence literature, and allows us to understand the success of these algorithms in terms of the disproportionate forgetting of undesirable information. We leverage this understanding to improve upon existing algorithms by designing more targeted forgetting operations. Insights from our analysis provide a coherent view on the dynamics of iterative training in neural networks and offer a clear path towards performance improvements.
翻訳日:2022-02-02 13:51:49 公開日:2022-02-01
# (参考訳) BEA-Base: 自発ハンガリーのASRベンチマーク

BEA-Base: A Benchmark for ASR of Spontaneous Hungarian ( http://arxiv.org/abs/2202.00601v1 )

ライセンス: CC BY 4.0
P. Mihajlik, A. Balog, T. E. Gr\'aczi, A. Koh\'ari, B. Tarj\'an and K. M\'ady(参考訳) ハンガリー語は1500万人によって話されていますが、asr(asr)ベンチマークデータセット(特に自発的な音声)は事実上利用できませんでした。 本稿では,主に140人の話者の自発的な発話を含むBEA音声ハンガリー語データベースのサブセットであるBEA-Baseを紹介する。 ASR(主に会話型AIアプリケーション)を評価するために開発された。 音声認識サブセットとタスクを定義した後、オープンソースのツールキットを用いて、古典的HMM-DNNハイブリッドやエンドツーエンドのアプローチを含むいくつかのベースラインを開発する。 得られた最良の結果は、外部言語モデルや追加の教師付きデータを適用することなく、従来の手法と比較して45%の認識誤差率の削減を達成する多言語自己教師付き事前学習に基づいている。 その結果,beaベースを用いたハンガリー音声認識システムの学習と評価が可能となった。

Hungarian is spoken by 15 million people, still, easily accessible Automatic Speech Recognition (ASR) benchmark datasets - especially for spontaneous speech - have been practically unavailable. In this paper, we introduce BEA-Base, a subset of the BEA spoken Hungarian database comprising mostly spontaneous speech of 140 speakers. It is built specifically to assess ASR, primarily for conversational AI applications. After defining the speech recognition subsets and task, several baselines - including classic HMM-DNN hybrid and end-to-end approaches augmented by cross-language transfer learning - are developed using open-source toolkits. The best results obtained are based on multilingual self-supervised pretraining, achieving a 45% recognition error rate reduction as compared to the classical approach - without the application of an external language model or additional supervised data. The results show the feasibility of using BEA-Base for training and evaluation of Hungarian speech recognition systems.
翻訳日:2022-02-02 13:51:06 公開日:2022-02-01
# 言葉と関係表現の理論的理解に向けて

Towards a Theoretical Understanding of Word and Relation Representation ( http://arxiv.org/abs/2202.00486v1 )

ライセンス: Link先を確認
Carl Allen(参考訳) ベクトルまたは埋め込みによる単語の表現は、計算推論を可能にし、自然言語タスクの自動化の基礎となる。 例えば、類似した単語の単語埋め込みが類似した値を含む場合、単語の類似度は容易に評価できるが、その綴りからはしばしば不可能(例えば猫/ネコ)であり、すべての単語間の類似度をあらかじめ判断し保存することは、時間的消費、記憶集約的、主観的である。 テキストコーパスと知識グラフから学習した単語埋め込みに注目した。 いくつかのよく知られたアルゴリズムは、word2vecやgloveなど、各単語の周囲で発生する単語を予測することによって、教師なしのテキストから単語埋め込みを学習する。 このような単語埋め込みのパラメータは単語共起統計を反映していることが知られているが、意味的意味の捉え方は不明確である。 知識グラフ表現モデルは、エンティティ(単語、人、場所など)とそれらの関係の両方の表現を学習する。 実際の予測精度は着実に改善されているものの、これを可能にする潜在構造についてはほとんど理解されていない。 潜在意味構造が単語埋め込みや知識グラフ表現の幾何学にどのようにエンコードされているかの限定的な理解は、その性能、信頼性、解釈性を改善する原則的な手段である。 1) 単語2vecやGloVeのようなアルゴリズムによって学習された単語埋め込み間の特定の幾何学的関係が単語間の意味的関係に対応するという経験的観察を理論的に正当化し、2) 意味論と幾何学的対応を知識グラフの実体と関係に拡張し、単語埋め込みと関連する知識グラフ表現の潜在構造モデルを提供する。

Representing words by vectors, or embeddings, enables computational reasoning and is foundational to automating natural language tasks. For example, if word embeddings of similar words contain similar values, word similarity can be readily assessed, whereas judging that from their spelling is often impossible (e.g. cat /feline) and to predetermine and store similarities between all words is prohibitively time-consuming, memory intensive and subjective. We focus on word embeddings learned from text corpora and knowledge graphs. Several well-known algorithms learn word embeddings from text on an unsupervised basis by learning to predict those words that occur around each word, e.g. word2vec and GloVe. Parameters of such word embeddings are known to reflect word co-occurrence statistics, but how they capture semantic meaning has been unclear. Knowledge graph representation models learn representations both of entities (words, people, places, etc.) and relations between them, typically by training a model to predict known facts in a supervised manner. Despite steady improvements in fact prediction accuracy, little is understood of the latent structure that enables this. The limited understanding of how latent semantic structure is encoded in the geometry of word embeddings and knowledge graph representations makes a principled means of improving their performance, reliability or interpretability unclear. To address this: 1. we theoretically justify the empirical observation that particular geometric relationships between word embeddings learned by algorithms such as word2vec and GloVe correspond to semantic relations between words; and 2. we extend this correspondence between semantics and geometry to the entities and relations of knowledge graphs, providing a model for the latent structure of knowledge graph representation linked to that of word embeddings.
翻訳日:2022-02-02 13:36:37 公開日:2022-02-01
# 拡散モデルの高速サンプリングのための進行蒸留

Progressive Distillation for Fast Sampling of Diffusion Models ( http://arxiv.org/abs/2202.00512v1 )

ライセンス: Link先を確認
Tim Salimans and Jonathan Ho(参考訳) 拡散モデルは最近、生成モデル、知覚的品質におけるGAN、密度推定における自己回帰モデルに優れることを示す。 高品質なサンプルを生成するには、数百から数千のモデル評価が必要になります。 まず、少数のサンプリングステップを使用する場合の安定性を高める拡散モデルの新しいパラメータ化を提案する。 第2に,訓練された決定論的拡散サンプラーを,多くのステップを用いて,サンプリングステップの半分を要する新しい拡散モデルに蒸留する方法を提案する。 そして、この蒸留手順を段階的にモデルに適用し、必要なサンプリングステップの数を毎回半減させます。 cifar-10、imagenet、lsunのような標準的な画像生成ベンチマークでは、最先端のサンプラーは最大8192ステップを踏んでおり、知覚的品質を損なうことなく、最大4ステップのモデルに蒸留することができる。 最後に,完全プログレッシブ蒸留法が元のモデルを訓練するのに要する時間よりも長くはかからないことを示した。

Diffusion models have recently shown great promise for generative modeling, outperforming GANs on perceptual quality and autoregressive models at density estimation. A remaining downside is their slow sampling time: generating high quality samples takes many hundreds or thousands of model evaluations. Here we make two contributions to help eliminate this downside: First, we present new parameterizations of diffusion models that provide increased stability when using few sampling steps. Second, we present a method to distill a trained deterministic diffusion sampler, using many steps, into a new diffusion model that takes half as many sampling steps. We then keep progressively applying this distillation procedure to our model, halving the number of required sampling steps each time. On standard image generation benchmarks like CIFAR-10, ImageNet, and LSUN, we start out with state-of-the-art samplers taking as many as 8192 steps, and are able to distill down to models taking as few as 4 steps without losing much perceptual quality; achieving, for example, a FID of 3.0 on CIFAR-10 in 4 steps. Finally, we show that the full progressive distillation procedure does not take more time than it takes to train the original model, thus representing an efficient solution for generative modeling using diffusion at both train and test time.
翻訳日:2022-02-02 13:35:41 公開日:2022-02-01
# シーケンス決定のためのメタ学習仮説空間

Meta-Learning Hypothesis Spaces for Sequential Decision-making ( http://arxiv.org/abs/2202.00602v1 )

ライセンス: Link先を確認
Parnian Kassraie, Jonas Rothfuss, Andreas Krause(参考訳) 予測関数(仮説)に対する信頼性が高く適応的な信頼セットを得ることは、バンディットやモデルベースの強化学習のような逐次的な意思決定タスクにおいて中心的な課題である。 これらの信頼集合は通常、仮説空間(例えば、再生ケルネルヒルベルト空間(RKHS)の既知の核)に先行仮定に依存する。 このようなカーネルのハンドデザインはエラーを起こしやすく、誤特定は性能の低下や安全性の低下につながる可能性がある。 本研究では,オフラインデータ(Meta-KeL)からカーネルをメタ学習することを提案する。 未知のカーネルが既知のベースカーネルの組み合わせである場合、構造的空間性に基づく推定器を開発する。 穏やかな条件下では、推定されたRKHSが正当性を持つことを保証し、オフラインデータの量が増加するにつれて、真の未知のカーネルが与えられたものと同じくらい厳密になる。 我々は、カーネル化された帯域幅問題(すなわちベイズ最適化)に対する我々のアプローチを実証し、真のカーネルが与えられたものと競合する後悔境界を確立する。 また,ベイズ最適化におけるアプローチの有効性を実証的に評価した。

Obtaining reliable, adaptive confidence sets for prediction functions (hypotheses) is a central challenge in sequential decision-making tasks, such as bandits and model-based reinforcement learning. These confidence sets typically rely on prior assumptions on the hypothesis space, e.g., the known kernel of a Reproducing Kernel Hilbert Space (RKHS). Hand-designing such kernels is error prone, and misspecification may lead to poor or unsafe performance. In this work, we propose to meta-learn a kernel from offline data (Meta-KeL). For the case where the unknown kernel is a combination of known base kernels, we develop an estimator based on structured sparsity. Under mild conditions, we guarantee that our estimated RKHS yields valid confidence sets that, with increasing amounts of offline data, become as tight as those given the true unknown kernel. We demonstrate our approach on the kernelized bandit problem (a.k.a.~Bayesian optimization), where we establish regret bounds competitive with those given the true kernel. We also empirically evaluate the effectiveness of our approach on a Bayesian optimization task.
翻訳日:2022-02-02 13:35:17 公開日:2022-02-01
# データモデル:トレーニングデータから予測予測

Datamodels: Predicting Predictions from Training Data ( http://arxiv.org/abs/2202.00622v1 )

ライセンス: Link先を確認
Andrew Ilyas, Sung Min Park, Logan Engstrom, Guillaume Leclerc, Aleksander Madry(参考訳) 本稿では、トレーニングデータの観点からモデルクラスの振る舞いを分析するための概念的フレームワークであるdatamodelingを提案する。 固定された"ターゲット"の例の場合、$x$、トレーニングセット$S$、学習アルゴリズムの場合、データモデルはパラメータ化関数 $2^S \to \mathbb{R}$ であり、$S' \subset S$ の任意のサブセットの場合、$S'$ に含まれる例のどれかの情報のみを使用し、$S'$ のモデルトレーニングの結果を予測し、$x$ で評価する。 基礎となるプロセスの潜在的な複雑さ(例えば、ディープニューラルネットワークのエンドツーエンドのトレーニングと評価)にもかかわらず、単純な線形データモデルでさえモデル出力をうまく予測できることが示される。 次に、データモデルは、データセットの反事実の影響を正確に予測し、脆い予測を識別し、セマンティックに類似した例を見つけ、トレイン・テストのリークを定量化し、データをよく理解され機能豊富な表現空間に埋め込み、様々な応用をもたらすことを実証した。 この論文のデータ(事前計算されたデータモデルと400万の訓練されたディープニューラルネットワークの生の予測を含む)はhttps://github.com/MadryLab/datamodels-dataで公開されている。

We present a conceptual framework, datamodeling, for analyzing the behavior of a model class in terms of the training data. For any fixed "target" example $x$, training set $S$, and learning algorithm, a datamodel is a parameterized function $2^S \to \mathbb{R}$ that for any subset of $S' \subset S$ -- using only information about which examples of $S$ are contained in $S'$ -- predicts the outcome of training a model on $S'$ and evaluating on $x$. Despite the potential complexity of the underlying process being approximated (e.g., end-to-end training and evaluation of deep neural networks), we show that even simple linear datamodels can successfully predict model outputs. We then demonstrate that datamodels give rise to a variety of applications, such as: accurately predicting the effect of dataset counterfactuals; identifying brittle predictions; finding semantically similar examples; quantifying train-test leakage; and embedding data into a well-behaved and feature-rich representation space. Data for this paper (including pre-computed datamodels as well as raw predictions from four million trained deep neural networks) is available at https://github.com/MadryLab/datamodels-data .
翻訳日:2022-02-02 13:34:12 公開日:2022-02-01
# Retrieval Augmented Conditional Prompt Tuningを用いた新規制御パラフレーズ生成

Novelty Controlled Paraphrase Generation with Retrieval Augmented Conditional Prompt Tuning ( http://arxiv.org/abs/2202.00535v1 )

ライセンス: Link先を確認
Jishnu Ray Chowdhury, Yong Zhuang, Shuyi Wang(参考訳) パラフレーズ生成は自然言語処理における基本的かつ長年の課題である。 本稿では,(1)大規模事前学習言語モデルによるパラフラーゼ生成をパラメータ効率良く行う手法としてrapt( search augmented prompt tuning)を提案し,(2)難解性条件付きrapt(nc-rapt)を,語彙レベルの異なるパラフラーゼ生成制御のための特殊なプロンプトトークンを用いた簡易なモデル非依存手法として提案する。 提案手法は,4つのデータセットについて広範な実験を行い,テキストのセマンティックな内容を維持しつつ,語彙的新規性を誘導する手法の有効性を実証する。

Paraphrase generation is a fundamental and long-standing task in natural language processing. In this paper, we concentrate on two contributions to the task: (1) we propose Retrieval Augmented Prompt Tuning (RAPT) as a parameter-efficient method to adapt large pre-trained language models for paraphrase generation; (2) we propose Novelty Conditioned RAPT (NC-RAPT) as a simple model-agnostic method of using specialized prompt tokens for controlled paraphrase generation with varying levels of lexical novelty. By conducting extensive experiments on four datasets, we demonstrate the effectiveness of the proposed approaches for retaining the semantic content of the original text while inducing lexical novelty in the generation.
翻訳日:2022-02-02 13:33:16 公開日:2022-02-01
# 自然言語生成のための典型的復号

Typical Decoding for Natural Language Generation ( http://arxiv.org/abs/2202.00666v1 )

ライセンス: Link先を確認
Clara Meister, Tiago Pimentel, Gian Wiher, Ryan Cotterell(参考訳) 無限の自然言語コーパスにおいて驚くほど低い難易度を達成しているにもかかわらず、今日の言語モデルは、テキストを生成するときにしばしば性能が劣っている。 この二分法がここ数年、言語生成コミュニティを混乱させてきた。 本稿では,コミュニケーションチャネルとしての自然言語の抽象化(1948年)が,確率的言語生成器の振る舞い,例えば高確率テキストが退屈あるいは反復的である理由について,新たな洞察を与えることができると仮定する。 人間は、情報を伝達する手段として言語を使用し、効率的かつ誤りを最小化する方法で、この目的を念頭に置いて、文字列中の各単語を選択する。 確率モデルからの生成はこの振る舞いを模倣すべきである。 低シャノン情報コンテンツを有する分布の高確率領域から常に単語を選択するのではなく、我々は、その期待値に近い情報内容を持つ単語の集合から、すなわち、モデルの条件エントロピーに近い単語をサンプリングした。 この決定基準は、典型的なサンプリングと呼ばれる単純で効率的な実装によって実現できる。 自動的および人為的評価は、核とトップkサンプリングと比較して、典型的なサンプリングは品質の点で競争性能を提供し、縮退繰り返しの回数を一貫して減少させることを示している。

Despite achieving incredibly low perplexities on myriad natural language corpora, today's language models still often underperform when used to generate text. This dichotomy has puzzled the language generation community for the last few years. In this work, we posit that the abstraction of natural language as a communication channel (\`a la Shannon, 1948) can provide new insights into the behaviors of probabilistic language generators, e.g., why high-probability texts can be dull or repetitive. Humans use language as a means of communicating information, and do so in an efficient yet error-minimizing manner, choosing each word in a string with this (perhaps subconscious) goal in mind. We propose that generation from probabilistic models should mimic this behavior. Rather than always choosing words from the high-probability region of the distribution--which have a low Shannon information content--we sample from the set of words with an information content close to its expected value, i.e., close to the conditional entropy of our model. This decision criterion can be realized through a simple and efficient implementation, which we call typical sampling. Automatic and human evaluations show that, in comparison to nucleus and top-k sampling, typical sampling offers competitive performance in terms of quality while consistently reducing the number of degenerate repetitions.
翻訳日:2022-02-02 13:32:58 公開日:2022-02-01
# セマンティクスセグメンテーションのための拡張連続確率場

Dilated Continuous Random Field for Semantic Segmentation ( http://arxiv.org/abs/2202.00162v1 )

ライセンス: Link先を確認
Xi Mo, Xiangyu Chen, Cuncong Zhong, Rui Li, Kaidong Li, Usman Sajid(参考訳) 平均場近似法は、セマンティックセグメンテーションの洗練のための現代連続ランダム場(CRF)ベースのソリューションの基礎を築いた。 本稿では,各ノードのエネルギー項を確率的グラフィカルモデルから最小化し,拡張スパース畳み込みモジュール(DSConv)を用いた大域的最適化により,平均場近似の制約を緩和することを提案する。 さらに、完全連結層の置換として、適応的グローバル平均プールと適応的グローバル最大プールを実装した。 DSConvを統合するために、我々はエンドツーエンドで時間効率の良いDilatedCRFパイプラインを設計する。 一元的エネルギー項は、プレソフトマックスとポストソフトマックスの特徴、または従来の分類器を用いた予測割当マップから派生しており、様々な分類器にDilatedCRFを実装するのが容易である。 また,他のCRF法と比較して,吸入データセットに対する提案手法の優れた実験結果を示す。

Mean field approximation methodology has laid the foundation of modern Continuous Random Field (CRF) based solutions for the refinement of semantic segmentation. In this paper, we propose to relax the hard constraint of mean field approximation - minimizing the energy term of each node from probabilistic graphical model, by a global optimization with the proposed dilated sparse convolution module (DSConv). In addition, adaptive global average-pooling and adaptive global max-pooling are implemented as replacements of fully connected layers. In order to integrate DSConv, we design an end-to-end, time-efficient DilatedCRF pipeline. The unary energy term is derived either from pre-softmax and post-softmax features, or the predicted affordance map using a conventional classifier, making it easier to implement DilatedCRF for varieties of classifiers. We also present superior experimental results of proposed approach on the suction dataset comparing to other CRF-based approaches.
翻訳日:2022-02-02 13:32:34 公開日:2022-02-01
# トランスフォーマーを用いた自然言語からコードへの変換

Natural Language to Code Using Transformers ( http://arxiv.org/abs/2202.00367v1 )

ライセンス: Link先を確認
Uday Kusupati and Venkata Ravi Teja Ailavarapu(参考訳) 我々は、CoNaLaデータセットを用いて自然言語記述からコードスニペットを生成する問題に取り組む。 自己アテンションに基づくトランスフォーマアーキテクチャを用いて,リカレント注意型エンコーダデコーダよりも優れた性能を示す。 さらに,バックエンド翻訳の修正形式を開発し,モデルのエンドツーエンドなトレーニングに一貫したサイクルの損失を使用する。 BLEUスコアは16.99で、これまでに報告されたCoNaLaチャレンジのベースラインを上回ります。

We tackle the problem of generating code snippets from natural language descriptions using the CoNaLa dataset. We use the self-attention based transformer architecture and show that it performs better than recurrent attention-based encoder decoder. Furthermore, we develop a modified form of back translation and use cycle consistent losses to train the model in an end-to-end fashion. We achieve a BLEU score of 16.99 beating the previously reported baseline of the CoNaLa challenge.
翻訳日:2022-02-02 13:32:05 公開日:2022-02-01
# 機械翻訳のための言語モデルアーキテクチャのスケーリングと転送の検討

Examining Scaling and Transfer of Language Model Architectures for Machine Translation ( http://arxiv.org/abs/2202.00528v1 )

ライセンス: Link先を確認
Biao Zhang, Behrooz Ghorbani, Ankur Bapna, Yong Cheng, Xavier Garcia, Jonathan Shen, Orhan Firat(参考訳) 自然言語の理解と生成モデルは、2つの主要なアーキテクチャパラダイムの1つである: 言語モデル(LM)は1つのレイヤで連結シーケンスを処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。 機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。 本研究では,多言語・多言語・ゼロショット翻訳タスクにおけるLMの性能に対するアーキテクチャ設計選択の役割を,データ条件とモデルサイズを体系的に変化させることで,徹底的に検討する。 結果はこう示しています (i)異なるLMは異なるスケーリング特性を持ち、アーキテクチャの違いは小さなスケールでのモデル性能に大きな影響を与えることが多いが、パラメータの数が増えるにつれて性能差は狭まる。 (二 ソースシーケンスの因果マスキング及び言語モデル目的を含むいくつかの設計選択が翻訳品質に有害な影響を及ぼすこと。) 三 ソースシーケンスのフル可視マスキングと組み合わせたときは、教師付きバイリンガルおよび多言語翻訳タスクにおいてEncDecと同等に動作し、オフターゲット翻訳の削減を容易にし、ゼロショット方向を大幅に改善することができる。

Natural language understanding and generation models follow one of the two dominant architectural paradigms: language models (LMs) that process concatenated sequences in a single stack of layers, and encoder-decoder models (EncDec) that utilize separate layer stacks for input and output processing. In machine translation, EncDec has long been the favoured approach, but with few studies investigating the performance of LMs. In this work, we thoroughly examine the role of several architectural design choices on the performance of LMs on bilingual, (massively) multilingual and zero-shot translation tasks, under systematic variations of data conditions and model sizes. Our results show that: (i) Different LMs have different scaling properties, where architectural differences often have a significant impact on model performance at small scales, but the performance gap narrows as the number of parameters increases, (ii) Several design choices, including causal masking and language-modeling objectives for the source sequence, have detrimental effects on translation quality, and (iii) When paired with full-visible masking for source sequences, LMs could perform on par with EncDec on supervised bilingual and multilingual translation tasks, and improve greatly on zero-shot directions by facilitating the reduction of off-target translations.
翻訳日:2022-02-02 13:31:56 公開日:2022-02-01
# 継続的学習における建築問題

Architecture Matters in Continual Learning ( http://arxiv.org/abs/2202.00275v1 )

ライセンス: Link先を確認
Seyed Iman Mirzadeh, Arslan Chaudhry, Dong Yin, Timothy Nguyen, Razvan Pascanu, Dilan Gorur, Mehrdad Farajtabar(参考訳) 連続学習における大規模な研究は、分散シフトにロバストな新しいアルゴリズムを設計することによって、ニューラルネットワークの破滅的な忘れを克服することに注力している。 しかしながら、これらの研究の大部分は、"固定されたニューラルネットワークアーキテクチャ"に対する継続的学習の"アルゴリズム"部分に厳密に焦点を合わせており、異なるアーキテクチャを使用することによる影響はほとんど無視されている。 モデルを変更する数少ない既存の連続学習方法でさえも、固定されたアーキテクチャを仮定し、学習経験を通してモデルを効率的に利用するアルゴリズムの開発を目指している。 しかし,本研究では,アーキテクチャの選択が連続的な学習性能に大きく影響することを示し,異なるアーキテクチャが過去のタスクを記憶する能力と新しいタスクを学習する能力のトレードオフを生じさせる。 さらに, 各種アーキテクチャ決定の影響について検討し, 継続的な学習性能を向上させるためのベストプラクティスと勧告について検討した。

A large body of research in continual learning is devoted to overcoming the catastrophic forgetting of neural networks by designing new algorithms that are robust to the distribution shifts. However, the majority of these works are strictly focused on the "algorithmic" part of continual learning for a "fixed neural network architecture", and the implications of using different architectures are mostly neglected. Even the few existing continual learning methods that modify the model assume a fixed architecture and aim to develop an algorithm that efficiently uses the model throughout the learning experience. However, in this work, we show that the choice of architecture can significantly impact the continual learning performance, and different architectures lead to different trade-offs between the ability to remember previous tasks and learning new ones. Moreover, we study the impact of various architectural decisions, and our findings entail best practices and recommendations that can improve the continual learning performance.
翻訳日:2022-02-02 13:28:57 公開日:2022-02-01
# (参考訳) グラフ畳み込みネットワークの過平滑化効果

Over-smoothing Effect of Graph Convolutional Networks ( http://arxiv.org/abs/2201.12830v2 )

ライセンス: CC BY-SA 4.0
Fang Sun(参考訳) オーバースムーシングはグラフ畳み込みネットワークの深さを制限する深刻な問題である。 本稿では,グラフ畳み込みネットワークの背後にあるメカニズムとオーバースムーシング効果の包括的解析を行う。 この記事では、オーバースムーシングの背後にある重要な要因についての洞察を提供する、オーバースムーシングの発生の上限を提案する。 本稿では,過度なスムーシングを緩和するアルゴリズムの実現可能性について述べる。

Over-smoothing is a severe problem which limits the depth of Graph Convolutional Networks. This article gives a comprehensive analysis of the mechanism behind Graph Convolutional Networks and the over-smoothing effect. The article proposes an upper bound for the occurrence of over-smoothing, which offers insight into the key factors behind over-smoothing. The results presented in this article successfully explain the feasibility of several algorithms that alleviate over-smoothing.
翻訳日:2022-02-02 12:24:35 公開日:2022-02-01
# 大きな線形層によるメモリ効率のよいバックプロパゲーション

Memory-Efficient Backpropagation through Large Linear Layers ( http://arxiv.org/abs/2201.13195v2 )

ライセンス: Link先を確認
Daniel Bershatsky, Aleksandr Mikhalev, Alexandr Katrutsa, Julia Gusak, Daniil Merkulov and Ivan Oseledets(参考訳) Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。 本研究では,線形層を介してバックプロパゲーションを行うためのメモリ削減手法を提案する。 線形層の勾配は行列の乗算によって計算されるため、ランダム化行列の乗算の手法を検討し、テスト精度を緩やかに低下させることなく、少ないメモリを必要とすることを示す。 また,ランダム化行列の乗算によって引き起こされる勾配推定のばらつきについて検討する。 このばらつきを,サンプルのバッチに基づく勾配推定から得られるばらつきと比較する。 GLUEタスク上で事前学習したRoBERTaモデルの微調整における提案手法の利点を示す。

In modern neural networks like Transformers, linear layers require significant memory to store activations during backward pass. This study proposes a memory reduction approach to perform backpropagation through linear layers. Since the gradients of linear layers are computed by matrix multiplications, we consider methods for randomized matrix multiplications and demonstrate that they require less memory with a moderate decrease of the test accuracy. Also, we investigate the variance of the gradient estimate induced by the randomized matrix multiplication. We compare this variance with the variance coming from gradient estimation based on the batch of samples. We demonstrate the benefits of the proposed method on the fine-tuning of the pre-trained RoBERTa model on GLUE tasks.
翻訳日:2022-02-02 12:17:13 公開日:2022-02-01
# 回転物体検出のためのKFIoU損失

The KFIoU Loss for Rotated Object Detection ( http://arxiv.org/abs/2201.12558v2 )

ライセンス: Link先を確認
Xue Yang, Yue Zhou, Gefan Zhang, Jirui Yang, Wentao Wang, Junchi Yan, Xiaopeng Zhang, Qi Tian(参考訳) コンピュータフレンドリーなIoUベースの損失が容易に採用され,検出基準に適合する,高度に発達した水平物体検出領域から逸脱する。 対照的に、回転検出器は勾配に基づく訓練に不都合なSkewIoUに基づくより複雑な損失を伴うことが多い。 本稿では,厳密な価値水準の同一性ではなく,スキューiouの損失とトレンドレベルの整合を実現できる近似的損失を考案する有効な方法の1つを論じる。 具体的には、対象をガウス分布としてモデル化し、カルマンフィルタを用いてSkewIoUのメカニズムを本質的に模倣し、トレンドレベルでSkewIoUとの整合を示す。 これは、最近のガウスモデルに基づく回転検出器、例えば、超パラメータチューニングを必要とする人間の特定分布距離メトリックを含むkldとは対照的である。 KFIoUと呼ばれる新たな損失は実装が簡単で、重複しないケースをフルに識別できるため、正確なSkewIoUよりもうまく動作する。 さらに,この手法を2次元検出と同じ問題に直面する3次元ケースにも拡張した。 2-d/3-d,air aerial/text/face image) とベース検出器の異なる各種公開データセットの詳細な結果は,本手法の有効性を示している。

Differing from the well-developed horizontal object detection area whereby the computing-friendly IoU based loss is readily adopted and well fits with the detection metrics. In contrast, rotation detectors often involve a more complicated loss based on SkewIoU which is unfriendly to gradient-based training. In this paper, we argue that one effective alternative is to devise an approximate loss who can achieve trend-level alignment with SkewIoU loss instead of the strict value-level identity. Specifically, we model the objects as Gaussian distribution and adopt Kalman filter to inherently mimic the mechanism of SkewIoU by its definition, and show its alignment with the SkewIoU at trend-level. This is in contrast to recent Gaussian modeling based rotation detectors e.g. GWD, KLD that involves a human-specified distribution distance metric which requires additional hyperparameter tuning. The resulting new loss called KFIoU is easier to implement and works better compared with exact SkewIoU, thanks to its full differentiability and ability to handle the non-overlapping cases. We further extend our technique to the 3-D case which also suffers from the same issues as 2-D detection. Extensive results on various public datasets (2-D/3-D, aerial/text/face images) with different base detectors show the effectiveness of our approach.
翻訳日:2022-02-02 12:17:03 公開日:2022-02-01
# セマンティックセグメンテーションのための自己半教師型ニューラルネットワーク探索

Self Semi Supervised Neural Architecture Search for Semantic Segmentation ( http://arxiv.org/abs/2201.12646v2 )

ライセンス: Link先を確認
Lo\"ic Pauletto and Massih-Reza Amini and Nicolas Winckler(参考訳) 本稿では,セマンティックセグメンテーションタスクのための自己管理と半教師付き学習に基づくニューラルアーキテクチャ探索戦略を提案する。 提案手法は,未ラベル学習データ上で自己教師付き学習によって発見されたジグソー述語タスクを共同で解き,未ラベルデータの構造を半教師付き学習で活用することにより,このタスクに最適化されたニューラルネットワーク(NN)モデルを構築する。 NNモデルのアーキテクチャの探索は勾配降下アルゴリズムを用いて動的ルーティングによって行われる。 CityscapesとPASCAL VOC 2012データセットの実験では、発見されたニューラルネットワークは、浮動小数点演算の4倍少ない最先端の手作りNNモデルよりも効率的であることが示されている。

In this paper, we propose a Neural Architecture Search strategy based on self supervision and semi-supervised learning for the task of semantic segmentation. Our approach builds an optimized neural network (NN) model for this task by jointly solving a jigsaw pretext task discovered with self-supervised learning over unlabeled training data, and, exploiting the structure of the unlabeled data with semi-supervised learning. The search of the architecture of the NN model is performed by dynamic routing using a gradient descent algorithm. Experiments on the Cityscapes and PASCAL VOC 2012 datasets demonstrate that the discovered neural network is more efficient than a state-of-the-art hand-crafted NN model with four times less floating operations.
翻訳日:2022-02-02 12:16:42 公開日:2022-02-01
# マルチエージェント制御への後悔最小化アプローチ

A Regret Minimization Approach to Multi-Agent Control ( http://arxiv.org/abs/2201.13288v2 )

ライセンス: Link先を確認
Udaya Ghai, Udari Madhushani, Naomi Leonard, Elad Hazan(参考訳) 本研究では,動的システムのマルチエージェント制御の問題点について考察する。 本研究は,中央集権的な事前計算を行なわない最適制御に焦点をあて,安定化制御のみを備えた異なるエージェントに対する適応制御ポリシーを提案する。 我々は、任意の(標準的な)後悔の少ない制御方法を分散アルゴリズムに還元する。 この削減により、得られた分散アルゴリズムは、最適な事前計算された共同ポリシに対して、後悔の少ないことが保証される。 提案手法は,オンライン凸最適化をマルチエージェント設定に一般化し,非定型制御からの最近のツールを適用することを含む。 本手法は過度に作動する航空機のモデルを用いて実験的に評価する。 分散手法は, 障害に対して頑健であり, ダイナミックスにおける逆摂動に対して頑健であることを示す。

We study the problem of multi-agent control of a dynamical system with known dynamics and adversarial disturbances. Our study focuses on optimal control without centralized precomputed policies, but rather with adaptive control policies for the different agents that are only equipped with a stabilizing controller. We give a reduction from any (standard) regret minimizing control method to a distributed algorithm. The reduction guarantees that the resulting distributed algorithm has low regret relative to the optimal precomputed joint policy. Our methodology involves generalizing online convex optimization to a multi-agent setting and applying recent tools from nonstochastic control derived for a single agent. We empirically evaluate our method on a model of an overactuated aircraft. We show that the distributed method is robust to failure and to adversarial perturbations in the dynamics.
翻訳日:2022-02-02 12:16:29 公開日:2022-02-01
# GARNET:ロバストでスケーラブルなグラフニューラルネットワークのための低ランクトポロジー学習

GARNET: Reduced-Rank Topology Learning for Robust and Scalable Graph Neural Networks ( http://arxiv.org/abs/2201.12741v2 )

ライセンス: Link先を確認
Chenhui Deng, Xiuyu Li, Zhuo Feng, Zhiru Zhang(参考訳) グラフニューラルネットワーク(GNN)は、非ユークリッドデータでの学習を含むさまざまなアプリケーションにますます導入されている。 しかし、近年の研究では、GNNはグラフ敵攻撃に弱いことが示されている。 敵成分を除去することでGNNの堅牢性を改善するための防御手法はいくつか存在するが、GNNトレーニングに寄与する基礎となるクリーングラフ構造を損なう可能性もある。 加えて、計算の複雑さとメモリ使用量が高いため、大規模なグラフにスケールできる防衛モデルはほとんどない。 本稿では,GNNモデルの対角的ロバスト性を高めるため,スケーラブルなスペクトル法であるGARNETを提案する。 GARNETはまず、重み付きスペクトル埋め込みを利用してベースグラフを構築する。 次に、GARNETは確率的グラフィカルモデルに基づいて、追加の非クリティカルエッジをプルーニングすることで、ベースグラフをさらに洗練する。 GARNETは、数百万のノードを持つ大きなグラフを含む、さまざまなデータセットで評価されている。 GARNETは,最先端のGNNモデルに対して,それぞれ最大13.27%,14.7倍の精度向上と実行速度向上を実現している。

Graph neural networks (GNNs) have been increasingly deployed in various applications that involve learning on non-Euclidean data. However, recent studies show that GNNs are vulnerable to graph adversarial attacks. Although there are several defense methods to improve GNN robustness by eliminating adversarial components, they may also impair the underlying clean graph structure that contributes to GNN training. In addition, few of those defense models can scale to large graphs due to their high computational complexity and memory usage. In this paper, we propose GARNET, a scalable spectral method to boost the adversarial robustness of GNN models. GARNET first leverages weighted spectral embedding to construct a base graph, which is not only resistant to adversarial attacks but also contains critical (clean) graph structure for GNN training. Next, GARNET further refines the base graph by pruning additional uncritical edges based on probabilistic graphical model. GARNET has been evaluated on various datasets, including a large graph with millions of nodes. Our extensive experiment results show that GARNET achieves adversarial accuracy improvement and runtime speedup over state-of-the-art GNN (defense) models by up to 13.27% and 14.7x, respectively.
翻訳日:2022-02-02 12:16:16 公開日:2022-02-01
# 物理インフォームドニューラルネットワークによる複数の電気解剖学的マップからの心臓線維配向の学習

Physics-informed neural networks to learn cardiac fiber orientation from multiple electroanatomical maps ( http://arxiv.org/abs/2201.12362v2 )

ライセンス: Link先を確認
Carlos Ruiz Herrera, Thomas Grandits, Gernot Plank, Paris Perdikaris, Francisco Sahli Costabal and Simone Pezzuto(参考訳) 本研究では, 複数のカテーテル記録からヒト心房の心線維構造をin-vivoで推定するfibernetを提案する。 心臓線維は心臓の電気機械機能において中心的な役割を担っているが、生体内決定が困難であり、それゆえ、既存の心臓モデルにおいて真に患者特異的であることは稀である。 逆問題は、スパース活性化マップの集合から心臓伝播モデルの伝導速度テンソルを特定することである。 局所繊維角を含む伝導速度テンソルの全ての成分を同時に同定し, 合成2次元および3次元例, 拡散テンソル繊維, 患者特有の場合についてfibernetを広範囲にテストした。 3つの地図は繊維を正確に捉えるのに十分であり、ノイズの予測にも十分であることを示す。 地図が少なければ、正規化の役割は顕著になる。 さらに, 適応モデルにより, 目に見えないアクティベーションマップを頑健に再現できることを示す。 FiberNetはパーソナライズされた医療のための患者固有のモデルを作成するのに役立つことを期待しています。

We propose FiberNet, a method to estimate in-vivo the cardiac fiber architecture of the human atria from multiple catheter recordings of the electrical activation. Cardiac fibers play a central rolein the electro-mechanical function of the heart, yet they aredifficult to determine in-vivo, and hence rarely truly patient-specificin existing cardiac models.FiberNet learns the fibers arrangement by solvingan inverse problem with physics-informed neural networks. The inverse problem amounts to identifyingthe conduction velocity tensor of a cardiac propagation modelfrom a set of sparse activation maps. The use of multiple mapsenables the simultaneous identification of all the componentsof the conduction velocity tensor, including the local fiber angle.We extensively test FiberNet on synthetic 2-D and 3-D examples, diffusion tensor fibers, and a patient-specific case. We show that 3 maps are sufficient to accurately capture the fibers, also in thepresence of noise. With fewer maps, the role of regularization becomesprominent. Moreover, we show that the fitted model can robustlyreproduce unseen activation maps. We envision that FiberNet will help the creation of patient-specific models for personalized medicine.The full code is available at http://github.com/fsahli/FiberNet.
翻訳日:2022-02-02 12:15:59 公開日:2022-02-01
# 探索の克服:時間論理の仕様から複雑な環境での深層強化学習

Overcoming Exploration: Deep Reinforcement Learning in Complex Environments from Temporal Logic Specifications ( http://arxiv.org/abs/2201.12231v2 )

ライセンス: Link先を確認
Mingyu Cai, Erfan Aasi, Calin Belta, Cristian-Ioan Vasile(参考訳) 大規模複雑な環境に展開する未知の連続時間ダイナミクスを持つタスク誘導型ロボットに対して,深層強化学習(drl)アルゴリズムを提案する。 リニア時間論理(LTL)は、リッチなロボット仕様を表現するために用いられる。 環境問題に対処するため,我々は,未知のロボット力学により計算された幾何学的経路が実現不可能な状態空間に密接な経路計画誘導型報酬スキームを提案する。 提案手法は,LTLミッションを分散DRLを用いて解いたサブタスクに分解し,そのサブタスクをDeep Policy Gradientアルゴリズムを用いて並列にトレーニングする。 本フレームワークは,大規模複雑な環境下での複雑なミッションをこなすロボットの性能(有効性,効率)を著しく向上させる。

We present a Deep Reinforcement Learning (DRL) algorithm for a task-guided robot with unknown continuous-time dynamics deployed in a large-scale complex environment. Linear Temporal Logic (LTL) is applied to express a rich robotic specification. To overcome the environmental challenge, we propose a novel path planning-guided reward scheme that is dense over the state space, and crucially, robust to infeasibility of computed geometric paths due to the unknown robot dynamics. To facilitate LTL satisfaction, our approach decomposes the LTL mission into sub-tasks that are solved using distributed DRL, where the sub-tasks are trained in parallel, using Deep Policy Gradient algorithms. Our framework is shown to significantly improve performance (effectiveness, efficiency) and exploration of robots tasked with complex missions in large-scale complex environments.
翻訳日:2022-02-02 12:15:40 公開日:2022-02-01