このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230202となっている論文です。

PDF登録状況(公開日: 20230202)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子力学における摂動理論と半古典展開の関係について

On connection between perturbation theory and semiclassical expansion in quantum mechanics ( http://arxiv.org/abs/2102.04623v3 )

ライセンス: Link先を確認
A.V. Turbiner and E. Shuryak(参考訳) ポテンシャル $V(x) = a x^2 + b g x^3 +\ldots=\frac{1}{g^2}\,\hat{V}(gx)$ と、放射発振器 $V(r)=\frac{1}{g^2}\,\hat{V}(gr)$ と摂動クーロン問題 $V(r)=\frac {\alpha}{r}+ \beta g r + \ldots = g\,\tilde{V}(gr)$ と、結合定数 $g$ (弱結合系) のパワーにおける摂動理論と、結合定数 $g$ (弱結合系) のパワーにおける半古典的な拡張の $V(r)$ とが一致することが示されている。 これは、2つの空間で発展した動力学: $x\ (r)$-space と $gx\ (gr)$-space であり、同じエネルギースペクトルに繋がるという事実に関連している。 これら2つの空間の動力学を支配する方程式、それぞれ、リカティ・ブロッホ方程式と一般化ブロッホ方程式を示す。 gx\ (gr)$-空間の波動関数の対数微分に対する摂動理論は、$\hbar^{1/2}$の(真の)半古典的展開をもたらすことが示され、1次元の場合、これはユークリッド時間(虚)における経路積分形式における密度行列のフラクトン計算に対応する。 摂動理論を$g$の力でマッチングし、波動関数に対して$\hbar^{1/2}$の半古典的展開は座標空間全体の高度に正確な局所近似をもたらすので、ハミルトニアンに対する期待値は摂動系列の和の処方を提供する。

It is shown that for the one-dimensional anharmonic oscillator with potential $V(x)= a x^2 + b g x^3 +\ldots=\frac{1}{g^2}\,\hat{V}(gx)$, as well as for the radial oscillator $V(r)=\frac{1}{g^2}\,\hat{V}(gr)$ and for the perturbed Coulomb problem $V(r)=\frac{\alpha}{r}+ \beta g r + \ldots = g\,\tilde{V}(gr)$, the Perturbation Theory in powers of the coupling constant $g$ (weak coupling regime) and the semiclassical expansion in powers of $\hbar^{1/2}$ for the energies coincide. This is related to the fact that the dynamics developed in two spaces: $x\ (r)$-space and $gx\ (gr)$-space, lead to the same energy spectra. The equations which govern dynamics in these two spaces, the Riccati-Bloch equation and the Generalized Bloch equation, respectively, are presented. It is shown that the perturbation theory for the logarithmic derivative of the wavefunction in $gx\ (gr)$- space leads to (true) semiclassical expansion in powers of $\hbar^{1/2}$; for the one-dimensional case this corresponds to the flucton calculus for the density matrix in the path integral formalism in Euclidean (imaginary) time proposed by one of the authors, Shuryak(1988). Matching the perturbation theory in powers of $g$ and the semiclassical expansion in powers of $\hbar^{1/2}$ for the wavefunction leads to a highly accurate local approximation in the entire coordinate space, its expectation value for the Hamiltonian provides a prescription for the summation of the perturbative (trans)-series.
翻訳日:2023-04-12 03:32:50 公開日:2023-02-02
# スピンアンサンブルにおける数相不確かさ関係と二部交絡検出

Number-phase uncertainty relations and bipartite entanglement detection in spin ensembles ( http://arxiv.org/abs/2104.05663v3 )

ライセンス: Link先を確認
Giuseppe Vitagliano, Matteo Fadel, Iagoba Apellaniz, Matthias Kleinmann, Bernd L\"ucke, Carsten Klempt, G\'eza T\'oth(参考訳) 分割スピンアンサンブルにおける数相的不確実性関係に基づく二部構造絡み検出手法を提案する。 まず、スピン系における数相不確かさの役割を担う不確実性関係を導出する。 関係はよく定義され容易に測定できる量で与えられ、無限次元の体系を仮定する必要はないことが重要である。 この不確実性関係に基づいて,スピン1/2粒子の非分極ディッケ状態における二成分の絡み合いを検出する方法を示す。 粒子を2つのサブアンサンブルに分割し、2つの部分で集合的な角運動量測定を行う。 まず,2部構成のEinstein-Podolsky-Rosen(EPR)ステアリング基準を提案する。 そして,このようなシステムにおける二部交絡を検知できる絡み合い条件を提案する。 K. Lange et al. の最近の実験にそれらを適用することで、基準の有効性を実証する。 [Science 360, 416 (2018)] コールド原子のボース・アインシュタイン凝縮におけるディック状態を実現し、2つのサブアンサンブルを空間的に分離した。 スピンスクイーズ状態の分割を考慮した場合も,本手法は有効である。 分割ノイズを含む非零粒子数分散などの実験的不完全性に対処する方法を包括的に示すとともに、理想的にはBECは単一空間モードを占有するが、実際には他の空間モードの人口を完全に抑制することはできないという事実を示す。

We present a method to detect bipartite entanglement based on number-phase-like uncertainty relations in split spin ensembles. First, we derive an uncertainty relation that plays the role of a number-phase uncertainty for spin systems. It is important that the relation is given with well-defined and easily measurable quantities, and that it does not need assuming infinite dimensional systems. Based on this uncertainty relation, we show how to detect bipartite entanglement in an unpolarized Dicke state of many spin-1/2 particles. The particles are split into two subensembles, then collective angular momentum measurements are carried out locally on the two parts. First, we present a bipartite Einstein-Podolsky-Rosen (EPR) steering criterion. Then, we present an entanglement condition that can detect bipartite entanglement in such systems. We demonstrate the utility of the criteria by applying them to a recent experiment given in K. Lange et al. [Science 360, 416 (2018)] realizing a Dicke state in a Bose-Einstein condensate of cold atoms, in which the two subensembles were spatially separated from each other. Our methods also work well if split spin-squeezed states are considered. We show in a comprehensive way how to handle experimental imperfections, such as the nonzero particle number variance including the partition noise, and the fact that, while ideally BECs occupy a single spatial mode, in practice the population of other spatial modes cannot be fully suppressed.
翻訳日:2023-04-04 01:43:15 公開日:2023-02-02
# Maxwell Demon と Einstein-Podolsky-Rosen ステアリング

Maxwell Demon and Einstein-Podolsky-Rosen Steering ( http://arxiv.org/abs/2105.05656v2 )

ライセンス: Link先を確認
Meng-Jun Hu, Xiao-Min Hu, and Yong-Sheng Zhang(参考訳) マクスウェル・デーモンと量子エンタングルメントの研究は、物理学における基礎的な意味だけでなく、量子情報への潜在的な応用によっても重要である。 マクスウェル・デーモンに関するこれまでの研究は、量子相関を考慮した熱力学に重点を置いている。 ここでは、別の観点から、量子非局所性相関を仕事によってシミュレートできるかどうかを問う。 このため、マクスウェルのデモンアシストであるアインシュタイン・ポドルスキー・ローゼン(EPR)ステアリングが提案され、新しいタイプの抜け穴が示唆された。 ランダウアーの消去原理の適用は、操舵作業中にこの抜け穴を閉じる唯一の方法は、参加者による局所環境の熱変動を継続的に監視することであることを示している。 我々は、現在のプログラマブル量子プロセッサ(例えば超伝導量子コンピュータ)で実証できるMaxwellデモンアシスト型EPRステアリングの量子回路モデルを構築した。 この量子回路モデルに基づき、デーモンの作用によるエネルギー散逸と量子非局所性相関の関係を記述する定量的公式を得る。 この結果は、量子非局所性、情報、熱力学の関係を探索し理解する新しい方法を提供するため、非常に物理的に興味深い。

The study of Maxwell demon and quantum entanglement is of importance not only because of its foundational meaning in physics but also due to its potential applications in quantum information. Previous researches on Maxwell demon mainly focus on thermodynamics by taking account of quantum correlations. Here we consider from the another perspective, and ask whether or not quantum non-locality correlation can be simulated by doing work. The Maxwell demon-assistant Einstein-Podolsky-Rosen (EPR) steering is thus proposed, which implies a new-type loophole. The application of the Landauer's erasure principle suggests that the only way to close this loophole during steering task is by continuously monitoring the heat fluctuation of local environment by participant. We construct the quantum circuit model of Maxwell demon-assistant EPR steering, which can be demonstrated by current programmable quantum processors, e.g., superconducting quantum computers. Based on this quantum circuit model, we obtain quantitative formula describing the relation between energy dissipation due to work of the demon and quantum non-locality correlation. The result is of great physical interest because it provides a new way to explore and understand the relation between quantum non-locality, information and thermodynamics.
翻訳日:2023-03-31 08:53:22 公開日:2023-02-02
# 対称性と絡み合いの生成元としてのPivot Hamiltonian

Pivot Hamiltonians as generators of symmetry and entanglement ( http://arxiv.org/abs/2110.07599v2 )

ライセンス: Link先を確認
Nathanan Tantivasadakarn, Ryan Thorngren, Ashvin Vishwanath, Ruben Verresen(参考訳) 対称性保護位相(SPT)位相は、有限深さユニタリ作用素であるエンタングルにより自明位相から得られることが知られている。 ここでは、局所的な 'pivot' Hamiltonian $H_{piv}$ から、$U = e^{i\pi H_{piv}}$ となるエンタングルを得る。 自明な位相とSPT位相の間をピボットするハミルトンのこの視点は、ここで探求する2つの新しい方向を開く。 (i) sptハミルトニアンとエンタングルマーが同じ立場にあるため、他の興味深い状態を作り出すためにこのプロセスを繰り返すことはできますか? (ii) エンタングルはSPT遷移における離散対称性として生じることが知られているので、どのような条件で$U(1)$ 'pivot'対称性を$H_{piv}$? 本研究では,これら2つの質問について検討する。 第一に、sptモデルをピボットとして反復的に使用して次のwebを生成することにより得られた双対性の豊かなwebの例を示す。 2つ目の質問は、自明なハミルトニアンとsptハミルトニアンの間の直接補間が u(1)$ pivot 対称性を持つことを保証する単純な基準を導出する。 我々はこれを様々な例で示し、イジングチェーンやトーリック符号のハミルトニアンを含む$h_{piv}$ の様々な形式を仮定する。 そのような$U(1)$ピボット対称性の顕著な性質は、近傍のSPT位相を保護する対称性と相互異常を共有することである。 このような異常および非オンサイト$U(1)$対称性が、固定点トーリック符号状態によってギャップのない基底状態が与えられるSPT多臨界点を含む、出現可能なエキゾチック位相図を説明する方法について論じる。

It is well-known that symmetry-protected topological (SPT) phases can be obtained from the trivial phase by an entangler, a finite-depth unitary operator $U$. Here, we consider obtaining the entangler from a local 'pivot' Hamiltonian $H_{piv}$ such that $U = e^{i\pi H_{piv}}$. This perspective of Hamiltonians pivoting between the trivial and SPT phase opens up two new directions which we explore here. (i) Since SPT Hamiltonians and entanglers are now on the same footing, can we iterate this process to create other interesting states? (ii) Since entanglers are known to arise as discrete symmetries at SPT transitions, under what conditions can this be enhanced to $U(1)$ 'pivot' symmetry generated by $H_{piv}$? In this work we explore both of these questions. With regard to the first, we give examples of a rich web of dualities obtained by iteratively using an SPT model as a pivot to generate the next one. For the second question, we derive a simple criterion guaranteeing that the direct interpolation between the trivial and SPT Hamiltonian has a $U(1)$ pivot symmetry. We illustrate this in a variety of examples, assuming various forms for $H_{piv}$, including the Ising chain, and the toric code Hamiltonian. A remarkable property of such a $U(1)$ pivot symmetry is that it shares a mutual anomaly with the symmetry protecting the nearby SPT phase. We discuss how such anomalous and non-onsite $U(1)$ symmetries explain the exotic phase diagrams that can appear, including an SPT multicritical point where the gapless ground state is given by the fixed-point toric code state.
翻訳日:2023-03-11 12:10:59 公開日:2023-02-02
# ピボットハミルトニアンからのトポロジカル量子臨界性のモデルの構築

Building models of topological quantum criticality from pivot Hamiltonians ( http://arxiv.org/abs/2110.09512v2 )

ライセンス: Link先を確認
Nathanan Tantivasadakarn, Ryan Thorngren, Ashvin Vishwanath, Ruben Verresen(参考訳) 対称性保護トポロジカル位相(SPT)の理解の進展は、これらの状態を実現する格子モデルを構築する能力によって大いに助けられている。 対照的に、SPT相間の量子臨界点を実現するモデルを構築するための体系的なアプローチは、特に次元$d>1$において欠落している。 ここでは、最近導入されたピボット・ハミルトンの概念(SPT相間の回転)がそのような構成を促進することを示す。 自明な相とSPT相の間の中間である三角形格子上にスピンモデルを構築することで、このアプローチを実証する。 ピボットハミルトニアンは直接SPT遷移の安定化に役立つ$U(1)$ピボット対称性を生成する。 ピボット対称性を保持する追加のイジング相互作用を持つモデルの符号-確率自由性は、量子モンテカルロシミュレーションを用いて位相図を得ることを可能にする。 自明な位相とSPTの位相間の直接遷移の証拠は、分断された量子臨界点と、創発的な$SO(5)$対称性を持つ。 後者の既知の異常は、$U(1)$ピボット対称性の非局所性によって可能である。 興味深いことに、この対称性を生成するピボットハミルトニアンは、スタッガーされたバクスター・ウー三スピン相互作用に他ならない。 本研究は、u(1)$ピボット対称性の重要性を示し、他の格子や次元に対してそのような異常対称性群を持つspt遷移の符号プロブレムフリー格子モデルを構築する方法を提案する。

Progress in understanding symmetry-protected topological (SPT) phases has been greatly aided by our ability to construct lattice models realizing these states. In contrast, a systematic approach to constructing models that realize quantum critical points between SPT phases is lacking, particularly in dimension $d>1$. Here, we show how the recently introduced notion of the pivot Hamiltonian -- generating rotations between SPT phases -- facilitates such a construction. We demonstrate this approach by constructing a spin model on the triangular lattice, which is midway between a trivial and SPT phase. The pivot Hamiltonian generates a $U(1)$ pivot symmetry which helps to stabilize a direct SPT transition. The sign-problem free nature of the model -- with an additional Ising interaction preserving the pivot symmetry -- allows us to obtain the phase diagram using quantum Monte Carlo simulations. We find evidence for a direct transition between trivial and SPT phases that is consistent with a deconfined quantum critical point with emergent $SO(5)$ symmetry. The known anomaly of the latter is made possible by the non-local nature of the $U(1)$ pivot symmetry. Interestingly, the pivot Hamiltonian generating this symmetry is nothing other than the staggered Baxter-Wu three-spin interaction. This work illustrates the importance of $U(1)$ pivot symmetries and proposes how to generally construct sign-problem-free lattice models of SPT transitions with such anomalous symmetry groups for other lattices and dimensions.
翻訳日:2023-03-11 04:09:26 公開日:2023-02-02
# eprの定量化:共生群集の非古典性に関する資源理論

Quantifying EPR: the resource theory of nonclassicality of common-cause assemblages ( http://arxiv.org/abs/2111.10244v2 )

ライセンス: Link先を確認
Beata Zjawin, David Schmid, Matty J. Hoban, Ana Bel\'en Sainz(参考訳) アインシュタイン=ポドルスキー=ローゼン(Einstein-Podolsky-Rosen、EPR)のステアリングは、しばしば(単純または明示的に)、不気味な行動と距離の証拠である。 オルタナティブな見方として、アリスはボブの体系の物理的状態に因果的な影響を与えていない、という見方がある。 そこで本研究では,eprのシナリオにおける相関関係の資源論的処理を導くために,この視点を詳細に検討する(「ステアリング」という用語は不適切であると考えられる)。 二部構成と多部構成の両方のシナリオに対して、自由操作が局所演算と共有ランダム性(LOSR)であるような結果となる資源理論を開発する。 このパラダイムにおける自由操作下でのリソース変換は、半定値プログラムの単一インスタンスで評価できるため、問題を数値的に把握可能であることを示す。 さらに,資源の事前順序構造は,非比較可能な資源の無限族など,興味深い性質を持つことがわかった。 これを示すために、新しいEPRリソースモノトンを導出する。 また,従来の「ステアリング」の資源理論の提案に対するアプローチのアドバンテージについても論じ,マルチパーティの集合体が古典的に説明できるような基本的な問題にどのように光を当てるかについて議論する。

Einstein-Podolsky-Rosen (EPR) steering is often (implicitly or explicitly) taken to be evidence for spooky action-at-a-distance. An alternative perspective on steering is that Alice has no causal influence on the physical state of Bob's system; rather, Alice merely updates her knowledge of the state of Bob's system by performing a measurement on a system correlated with his. In this work, we elaborate on this perspective (from which the very term 'steering' is seen to be inappropriate), and we are led to a resource-theoretic treatment of correlations in EPR scenarios. For both bipartite and multipartite scenarios, we develop the resulting resource theory, wherein the free operations are local operations and shared randomness (LOSR). We show that resource conversion under free operations in this paradigm can be evaluated with a single instance of a semidefinite program, making the problem numerically tractable. Moreover, we find that the structure of the pre-order of resources features interesting properties, such as infinite families of incomparable resources. In showing this, we derive new EPR resource monotones. We also discuss advantages of our approach over a pre-existing proposal for a resource theory of 'steering', and discuss how our approach sheds light on basic questions, such as which multipartite assemblages are classically explainable.
翻訳日:2023-03-07 10:01:41 公開日:2023-02-02
# 開フェルミオン系およびボゾン系に対する準自由および二次リンドブラッドマスター方程式の解法

Solving quasi-free and quadratic Lindblad master equations for open fermionic and bosonic systems ( http://arxiv.org/abs/2112.08344v5 )

ライセンス: Link先を確認
Thomas Barthel, Yikang Zhang(参考訳) マルコフ開量子系の力学はリンドブラッドマスター方程式によって記述される。 準自由であるフェルミオン系とボソニック系、すなわちラダー作用素で二次的なハミルトン系とラダー作用素で線型なリンドブラッド作用素に対して、共分散行列の運動方程式を導出する。 これはガウスの初期状態と定常状態の進化を決定づけ、これもガウス状態である。 はしご超作用素(第3量子化)を用いて、リウヴィリアンが多体ヨルダン正規形式に変換され、また完全な多体スペクトルが明らかになることを示す。 プロゼンとセリグマンによる以前の研究を拡張して、フェルミオン系とボソニック系をマヨラナ作用素と同等の足場で扱い、いくつかの導出を短くして完備化し、フェルミオンの奇パリティセクターに対処し、ボソニック定常状態の存在の基準を与え、ボゾンに対しても非対角化可能なリウビリアン系をカバーし、二次系を含む。 準自由開系の拡張において、二次開系は、はしご作用素において二次的なエルミート・リンドブラッド作用素からなる。 ガウス状態は非ガウス状態へと発展するかもしれないが、リウヴィリアンは依然として有用なブロック三角形形式に変換され、$k$ポイントグリーン函数の運動方程式は閉階層を形成する。 この定式化に基づいて, それらのモデルにおける臨界および散逸相転移の結果を共用紙[arXiv:2204.05346]で論じる。

The dynamics of Markovian open quantum systems are described by Lindblad master equations. For fermionic and bosonic systems that are quasi-free, i.e., with Hamiltonians that are quadratic in the ladder operators and Lindblad operators that are linear in the ladder operators, we derive the equation of motion for the covariance matrix. This determines the evolution of Gaussian initial states and the steady states, which are also Gaussian. Using ladder super-operators (a.k.a. third quantization), we show how the Liouvillian can be transformed to a many-body Jordan normal form which also reveals the full many-body spectrum. Extending previous work by Prosen and Seligman, we treat fermionic and bosonic systems on equal footing with Majorana operators, shorten and complete some derivations, also address the odd-parity sector for fermions, give a criterion for the existence of bosonic steady states, cover non-diagonalizable Liouvillians also for bosons, and include quadratic systems. In extension of the quasi-free open systems, quadratic open systems comprise additional Hermitian Lindblad operators that are quadratic in the ladder operators. While Gaussian states may then evolve into non-Gaussian states, the Liouvillian can still be transformed to a useful block-triangular form, and the equations of motion for $k$-point Green's functions form a closed hierarchy. Based on this formalism, results on criticality and dissipative phase transitions in such models are discussed in a companion paper [arXiv:2204.05346].
翻訳日:2023-03-04 11:49:05 公開日:2023-02-02
# 一般化不確実性原理に基づく非相対論的等方性モデルの枠組み

A framework for nonrelativistic isotropic models based on generalized uncertainty principles ( http://arxiv.org/abs/2202.02044v3 )

ライセンス: Link先を確認
Andre H. Gomes(参考訳) 自然界における基本長さスケールの存在は、異なる量子重力モデルの一般的な予測である。 そのような発見は量子現象の現在の知識を大きく変え、ハイゼンベルクの不確実性原理の修正が期待できる。 過去数十年の間にこの可能性に注意が向けられたにもかかわらず、一般化不確実性原理(GUP)と呼ばれる体系的な研究の枠組みは存在しなかった。 この研究では、非相対論的量子力学の文脈でそのような枠組みを提供する。 私たちのアプローチは、基本的な長さスケール、空間等方性、パリティと時間反転による不変性、位置と運動量演算子の対称性など、ごくわずかな仮定に基づいている。 本稿では,任意の等方的一般化不確実性原理(igup)を含む統一フレームワークの構築を可能にし,フレームワークの関連する理論的側面を詳述した上で,この文脈で人気のあるgupモデルについて議論する。 最終的に、3つの GUP モデルの現在の境界を、そのような統一 iGUP フレームワークのパラメータ上の境界に変換する。

The existence of a fundamental length scale in Nature is a common prediction of distinct quantum gravity models. Discovery of such would profoundly change current knowledge of quantum phenomena and modifications to the Heisenberg uncertainty principle may be expected. Despite the attention given to this possibility in the past decades, there has been no common framework for a systematic investigation of so called generalized uncertainty principles (GUP). In this work we provide such framework in the context of nonrelativistic quantum mechanics. Our approach is based on very few assumptions: there is a fundamental length scale, space isotropy, invariance under parity and time reversal transformations, and symmetricity of the position and momentum operators. We show simple dimensional analysis allows for building a unified framework containing any isotropic generalized uncertainty principle (iGUP) and discuss some popular GUP models in this context after elaborating on relevant theoretical aspects of the framework. At last, we translate current bounds on three often investigated GUP models into bounds on parameters of such unified iGUP framework.
翻訳日:2023-02-26 21:00:43 公開日:2023-02-02
# 多変量システムリスク対策とディープラーニングアルゴリズム

Multivariate Systemic Risk Measures and Deep Learning Algorithms ( http://arxiv.org/abs/2302.10183v1 )

ライセンス: Link先を確認
Alessandro Doldi, Yichen Feng, Jean-Pierre Fouque, Marco Frittelli(参考訳) 本研究では,多変量ユーティリティ関数によって定義されるシステム的短絡リスク尺度の計算のための深層学習に基づくアルゴリズムを提案する。 本稿では,主観的最適性と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。 私たちが提供しているアルゴリズムは、予備最適化の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。 アルゴリズムをベンチマークモデルと比較し,一対の指数的ユーティリティ関数をベースとして,明示的な公式を提供するアルゴリズムを検証した。 また、明示的な公式が得られない場合においても収束の証拠を示す。

In this work we propose deep learning-based algorithms for the computation of systemic shortfall risk measures defined via multivariate utility functions. We discuss the key related theoretical aspects, with a particular focus on the fairness properties of primal optima and associated risk allocations. The algorithms we provide allow for learning primal optimizers, optima for the dual representation and corresponding fair risk allocations. We test our algorithms by comparison to a benchmark model, based on a paired exponential utility function, for which we can provide explicit formulas. We also show evidence of convergence in a case for which explicit formulas are not available.
翻訳日:2023-02-26 14:34:43 公開日:2023-02-02
# 高速フーリエ変換を用いたコンピュータビジョンニューラルネットワークのスケールアップ

Scaling Up Computer Vision Neural Networks Using Fast Fourier Transform ( http://arxiv.org/abs/2302.12185v1 )

ライセンス: Link先を確認
Siddharth Agrawal(参考訳) ディープラーニングベースのコンピュータビジョン分野は、畳み込みニューラルネットワークを効果的にスケールアップするために、より大きなカーネルを探索しようとしている。 同時に、視覚トランスフォーマーのようなモデルの新しいパラダイムでは、入力シーケンスの2次複雑性のため、より大きな高解像度画像へのスケールアップが困難である。 本稿では,これらの問題に対する解決策を提供するために,Fast Fourier Transformを様々な方法で活用する。

Deep Learning-based Computer Vision field has recently been trying to explore larger kernels for convolution to effectively scale up Convolutional Neural Networks. Simultaneously, new paradigm of models such as Vision Transformers find it difficult to scale up to larger higher resolution images due to their quadratic complexity in terms of input sequence. In this report, Fast Fourier Transform is utilised in various ways to provide some solutions to these issues.
翻訳日:2023-02-26 13:14:51 公開日:2023-02-02
# 翻訳不変量子系の平衡へのアプローチ:いくつかの構造的結果

Approach to equilibrium in translation-invariant quantum systems: some structural results ( http://arxiv.org/abs/2204.00440v3 )

ライセンス: Link先を確認
Vojkan Jak\v{s}i\'c, Claude-Alain Pillet, Cl\'ement Tauber(参考訳) 代数的量子統計力学における平衡へのアプローチの問題を定式化し、熱力学の零法則(平衡へのアプローチ)と第二法則(エントロピーの増加)の関係に着目して、その構造的側面について研究する。 我々の主な結果は、平衡へのアプローチは必ずしも特定の(平均)エネルギーとエントロピーの厳密な増加を伴うことである。 解析の過程では、独立した関心を持つ量子弱ギブス状態の概念を導入する。

We formulate the problem of approach to equilibrium in algebraic quantum statistical mechanics and study some of its structural aspects, focusing on the relation between the zeroth law of thermodynamics (approach to equilibrium) and the second law (increase of entropy). Our main result is that approach to equilibrium is necessarily accompanied by a strict increase of the specific (mean) energy and entropy. In the course of our analysis, we introduce the concept of quantum weak Gibbs state which is of independent interest.
翻訳日:2023-02-20 02:48:48 公開日:2023-02-02
# #roeoverturned: 中絶権論争に関するtwitterのデータセット

#RoeOverturned: Twitter Dataset on the Abortion Rights Controversy ( http://arxiv.org/abs/2302.01439v1 )

ライセンス: Link先を確認
Rong-Ching Chang, Ashwin Rao, Qiankun Zhong, Magdalena Wojcieszak and Kristina Lerman(参考訳) 2022年6月24日、アメリカ合衆国最高裁判所は1973年のロー対ウェイド判決を覆した。 ドブス対ジャクソン女性保健機関の多数決による判事は、中絶は憲法上の権利ではないと判断し、選出された代議員に中絶の問題を返した。 この決定は、特に2022年11月の中間選挙の文脈で、全米で複数の抗議や議論を引き起こした。 多くの市民がソーシャルメディアプラットフォームを使って自分の見解を表現し、集団行動に動員し、オンライン討論が世論、政治参加、ニュースメディアの報道、政治的意思決定に有意義な効果をもたらすことを考えると、この話題を取り巻くオンライン議論を理解することは重要である。 この目的に向けて,米国における中絶権論争で収集された最初の大規模twitterデータセットを提示する。 2022年1月1日から2023年1月6日までの1年間に774万ツイートを体系的に収集した。

On June 24, 2022, the United States Supreme Court overturned landmark rulings made in its 1973 verdict in Roe v. Wade. The justices by way of a majority vote in Dobbs v. Jackson Women's Health Organization, decided that abortion wasn't a constitutional right and returned the issue of abortion to the elected representatives. This decision triggered multiple protests and debates across the US, especially in the context of the midterm elections in November 2022. Given that many citizens use social media platforms to express their views and mobilize for collective action, and given that online debate provides tangible effects on public opinion, political participation, news media coverage, and the political decision-making, it is crucial to understand online discussions surrounding this topic. Toward this end, we present the first large-scale Twitter dataset collected on the abortion rights debate in the United States. We present a set of 74M tweets systematically collected over the course of one year from January 1, 2022 to January 6, 2023.
翻訳日:2023-02-19 14:01:30 公開日:2023-02-02
# 世界的なパンデミックの早期警戒システム構築の課題と機会

The Challenges and Opportunities in Creating an Early Warning System for Global Pandemics ( http://arxiv.org/abs/2302.00863v1 )

ライセンス: Link先を確認
David C. Danko, James Golden, Charles Vorosmarty, Anthony Cak, Fabio Corsi, Christopher E. Mason, Rafael Maciel-de-Freitas, Dorottya Nagy-Szakal, Niamh B. OHara(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、世界保健、社会システム、経済が、ますます相互に相互に依存している世界で驚くほど脆弱であることを明らかにした。 しかし,2022年後半には,いくつかの国で重要な感染症モニタリングプログラムを解体し始めた。 このようなプログラムがなければ、局部的な生物学的リスクは、新興の健康リスクに対する監視の欠如に直接関連した世界的ショックへと変化します。 さらに、最近の研究では、すべての感染症の半分以上が気候変動によって悪化し、パンデミックの封じ込めが複雑になることが示されている。 このような複雑さにもかかわらず、パンデミックにつながる要因は概ね予測可能であるが、よく設計されたグローバル早期警戒システムによってのみ実現可能である。 このようなシステムは、ゲノム学、気候と環境、社会動態、医療インフラからのデータを統合する必要がある。 このようなシステムの接着剤は、コミュニティ駆動モデリング、データの現代的なロジスティクス、AIツールの民主化である。 ブラジルにおけるデング熱の例を用いて、デザインされた技術プラットフォームが、システム的ショックへの曝露を著しく低減し、科学情報による公衆衛生政策を加速し、世界的な持続可能な開発課題の本質的な部分として信頼できる医療と経済の機会を提供する、グローバルスケールの精度の高い疾患検出と対応システムを構築することができることを実証することができる。

The COVID-19 pandemic revealed that global health, social systems, and economies can be surprisingly fragile in an increasingly interconnected and interdependent world. Yet, during the last half of 2022, and quite remarkably, we began dismantling essential infectious disease monitoring programs in several countries. Absent such programs, localized biological risks will transform into global shocks linked directly to our lack of foresight regarding emerging health risks. Additionally, recent studies indicate that more than half of all infectious diseases could be made worse by climate change, complicating pandemic containment. Despite this complexity, the factors leading to pandemics are largely predictable but can only be realized through a well-designed global early warning system. Such a system should integrate data from genomics, climate and environment, social dynamics, and healthcare infrastructure. The glue for such a system is community-driven modeling, a modern logistics of data, and democratization of AI tools. Using the example of dengue fever in Brazil, we can demonstrate how thoughtfully designed technology platforms can build global-scale precision disease detection and response systems that significantly reduce exposure to systemic shocks, accelerate science-informed public health policies, and deliver reliable healthcare and economic opportunities as an intrinsic part of the global sustainable development agenda.
翻訳日:2023-02-19 14:00:28 公開日:2023-02-02
# プロンプトは本当にアートなのか?

Is Writing Prompts Really Making Art? ( http://arxiv.org/abs/2301.13049v2 )

ライセンス: Link先を確認
Jon McCormack, Camilo Cruz Gambardella, Nina Rajcic, Stephen James Krol, Maria Teresa Llano, Meng Yang(参考訳) 近年、生成機械学習システムは大幅に進歩している。 現在の生成システムの波は、テキストプロンプトを使って複雑な画像、ビデオ、さらには3dデータセットを作成する。 これらのシステムのクリエーターは、プロンプトをタイプできる人に創造性と芸術をもたらす革命を主張する。 本稿では,これらの主張の基礎を疑問視し,言語記述の限界,データセットの意味,最後には具体性と具体化の問題という3つの領域に分析を分割した。 我々は,プロンプトベースのシステムによって実現される創造的可能性の分析から,新たな芸術的媒体として考えられるかどうかを問う。

In recent years Generative Machine Learning systems have advanced significantly. A current wave of generative systems use text prompts to create complex imagery, video, even 3D datasets. The creators of these systems claim a revolution in bringing creativity and art to anyone who can type a prompt. In this position paper, we question the basis for these claims, dividing our analysis into three areas: the limitations of linguistic descriptions, implications of the dataset, and lastly, matters of materiality and embodiment. We conclude with an analysis of the creative possibilities enabled by prompt-based systems, asking if they can be considered a new artistic medium.
翻訳日:2023-02-19 13:57:25 公開日:2023-02-02
# 純粋ノイズ誘起遷移の量子論:数パリティに敏感な真の非古典的極限サイクル

A quantum theory of pure noise-induced transitions: A truly nonclassical limit cycle sensitive to number parity ( http://arxiv.org/abs/2204.03267v5 )

ライセンス: Link先を確認
A. Chia, W.-K. Mok, C. Noh and L. C. Kwek(参考訳) ノイズが複雑な非平衡系に秩序をもたらすことは広く受け入れられている。 最も驚くべきことに、ノイズのないシステムでは見られない全く新しい状態は、純粋に乗法的なノイズを含むことによって引き起こされる。 1980年代にスーパー流体で初めて観測された。 複雑な非平衡系における最近の結果は、昆虫コロニーの採餌行動や魚類の放流など、純粋なノイズによって引き起こされる遷移から新しい集団状態が生まれることも示している。 本稿では,量子力学系におけるノイズの影響について報告する。 乗法量子ノイズは古典的に禁止された遷移を引き起こす。 我々は, 非線形減衰振動子の最小限のモデルを用いて, 解析的に牽引可能で, 微視的物理の理解が可能な変動環境について検討した。 環境騒音を含む場合、システムはリミットサイクル状態に遷移する。 ノイズ誘起量子極限サイクルは、位相空間におけるウィグナーネガティビティや数パリティ感受性循環のような真の非古典的特徴を示す。 このような量子極限サイクルも保守的である。 これらの性質は、文学において広く使われる極限サイクルとは対照的で、散逸性があり、全てのウィグナーネガティビティを失う。 この結果は、非古典的でオープン量子系に特有の純粋ノイズ誘起遷移の存在を確立した。 これらは量子ノイズと古典ノイズの根本的な違いを示している。

It is universally accepted that noise may bring order to complex nonequilibrium systems. Most strikingly, entirely new states not seen in the noiseless system can be induced purely by including multiplicative noise - an effect known as pure noise-induced transitions. It was first observed in superfluids in the 1980s. Recent results in complex nonequilibrium systems have also shown how new collective states emerge from such pure noise-induced transitions, such as the foraging behavior of insect colonies, and schooling in fish. Here we report such effects of noise in a quantum-mechanical system. We find that multiplicative quantum noise can induce a classically forbidden transition. We use a minimal model of a nonlinearly damped oscillator in a fluctuating environment that is analytically tractable, and whose microscopic physics can be understood. When environmental noise is included, the system is seen to transition to a limit-cycle state. The noise-induced quantum limit cycle exhibits genuine nonclassical traits such as Wigner negativity and number-parity sensitive circulation in phase space. Such quantum limit cycles are also conservative. These properties are in stark contrast to those of a widely used limit cycle in the literature, which is dissipative and loses all Wigner negativity. Our results establish the existence of a pure noise-induced transition that is nonclassical and unique to open quantum systems. They illustrate a fundamental difference between quantum and classical noise.
翻訳日:2023-02-18 00:04:50 公開日:2023-02-02
# ダイヤモンドの窒素空洞中心における相互作用誘起凍結による核スピンの分離

Decoupling Nuclear Spins via Interaction-Induced Freezing in Nitrogen Vacancy Centers in Diamond ( http://arxiv.org/abs/2204.03877v2 )

ライセンス: Link先を確認
Abhishek Kejriwal, Dasika Shishir, Sumiran Pujari, Kasturi Saha(参考訳) ダイヤモンド中の窒素空白(nv)中心は、量子メモリレジスタとして長い核スピンコヒーレンス時間など、様々な新興量子技術のための室温プラットフォームを提供する。 我々はNV中心が固有の核スピンをノイズの多い電磁環境から分離するための凍結プロトコルを実証する。 核スピンの初期状態は、超微粒子の電子と核スピンが不等級のrabi周波数で同時に駆動されるときに凍結することができる。 数値シミュレーションにより,我々のプロトコルは強い駆動場やノイズ場から核スピンを効果的に保護できることを示す。 また、電子-核スピン系の量子不一致を測定することにより、凍結核スピン状態における量子相関の明確な抑制を観測する。 これらの特徴は、ハイブリッド量子システムにおけるnv核スピンベースの量子メモリの記憶時間を延ばすのに役立つ。

Nitrogen-Vacancy (NV) centers in diamonds provide a room-temperature platform for various emerging quantum technologies, e.g. the long nuclear spin coherence times as potential quantum memory registers. We demonstrate a freezing protocol for an NV center to isolate its intrinsic nuclear spin from a noisy electromagnetic environment. Any initial state of the nuclear spin can be frozen when the hyperfine-coupled electron and nuclear spins are simultaneously driven with unequal Rabi frequencies. Through numerical simulations, we show that our protocol can effectively shield the nuclear spin from strong drive or noise fields. We also observe a clear suppression of quantum correlations in the frozen nuclear spin regime by measuring the quantum discord of the electron-nuclear spin system. These features can be instrumental in extending the storage times of NV nuclear-spin based quantum memories in hybrid quantum systems.
翻訳日:2023-02-17 21:25:33 公開日:2023-02-02
# 二次開放量子多体系の臨界度と位相分類

Criticality and Phase Classification for Quadratic Open Quantum Many-Body Systems ( http://arxiv.org/abs/2204.05346v2 )

ライセンス: Link先を確認
Yikang Zhang and Thomas Barthel(参考訳) 我々は、リンドブラッドマスター方程式によって支配される翻訳不変な開量子多体系の定常状態について研究し、そこでは、ハミルトニアンははしご作用素において二次的であり、リンドブラッド作用素は線型あるいは二次的、エルミート的のいずれかである。 これらの系はそれぞれ準自由系と二次系と呼ばれる。 有限次元相互作用を持つ一次元系の定常状態は必ずグリーン関数を指数関数的に減衰させる。 二次リンドブラド作用素を持たない準自由の場合に対し、有限次元相互作用を持つフェルミオン系は任意の空間次元に対して非臨界であり、相関長の境界を与える。 準自由ボソニック系は、$D>1$次元において臨界となる。 最後に、二次系における相転移の問題に対処し、単粒子基底と粒子ホール変換の下で不変性を超えた対称性の制約がなければ、すべてのガッピングされたリウビリアンは同じ相に属することが分かる。

We study the steady states of translation-invariant open quantum many-body systems governed by Lindblad master equations, where the Hamiltonian is quadratic in the ladder operators, and the Lindblad operators are either linear or quadratic and Hermitian. These systems are called quasifree and quadratic, respectively. We find that steady states of one-dimensional systems with finite-range interactions necessarily have exponentially decaying Green's functions. For the quasifree case without quadratic Lindblad operators, we show that fermionic systems with finite-range interactions are noncritical for any number of spatial dimensions and provide bounds on the correlation lengths. Quasifree bosonic systems can be critical in $D>1$ dimensions. Last, we address the question of phase transitions in quadratic systems and find that, without symmetry constraints beyond invariance under single-particle basis and particle-hole transformations, all gapped Liouvillians belong to the same phase.
翻訳日:2023-02-17 08:02:39 公開日:2023-02-02
# 極端量子化に着目したLightGBMによる衛星とゲージ計測降雨の融合

Merging satellite and gauge-measured precipitation using LightGBM with an emphasis on extreme quantiles ( http://arxiv.org/abs/2302.03606v1 )

ライセンス: Link先を確認
Hristos Tyralis, Georgia Papacharalampous, Nikolaos Doulamis, Anastasios Doulamis(参考訳) 宇宙と時間の実際の降水を知ることは水文学的モデリングアプリケーションでは重要であるが、雨量計の駅の空間範囲は経済的な制約のため限られている。 格子状衛星降水データセットは、一様に広い領域をカバーして実際の降水量を推定する代替オプションを提供するが、関連する見積もりは正確ではない。 降水量の予測を改善するため、雨量計に基づく計測と格子状衛星降水生成物の統合に機械学習を適用した。 この文脈では、観測された降水は依存変数の役割を担い、衛星データは予測変数の役割を担っている。 ランダムフォレストは、関連するアプリケーションにおける機械学習アルゴリズムの主流である。 これらの空間予測設定では、依存変数の点予測(主に条件分布の平均または中央値)が発行される。 本稿では,light gradient boosting machine (lightgbm) を用いた降水の確率的空間予測手法を提案する。 LightGBMは、予測と予測の競争において賞を獲得したエントリーによって強調される、ブースティングアルゴリズムである。 光GBMを評価するために,日中降水量測定とPERSIANNとGPM-IMERG衛星降水データを組み合わせた大規模アプリケーションを開発した。 我々は、依存変数の確率分布の極端量子化に焦点をあて、そこではLightGBMが量子化回帰林(QRF、ランダム森林の変種)を量子化スコアで上回る。 光GBMとQRFは条件中央値を含む条件確率分布の中心における関数を予測する際に同様の性能を示す。 本研究は,機械学習を用いた空間環境における確率的予測の理解を提供する。

Knowing the actual precipitation in space and time is critical in hydrological modelling applications, yet the spatial coverage with rain gauge stations is limited due to economic constraints. Gridded satellite precipitation datasets offer an alternative option for estimating the actual precipitation by covering uniformly large areas, albeit related estimates are not accurate. To improve precipitation estimates, machine learning is applied to merge rain gauge-based measurements and gridded satellite precipitation products. In this context, observed precipitation plays the role of the dependent variable, while satellite data play the role of predictor variables. Random forests is the dominant machine learning algorithm in relevant applications. In those spatial predictions settings, point predictions (mostly the mean or the median of the conditional distribution) of the dependent variable are issued. Here we propose, issuing probabilistic spatial predictions of precipitation using Light Gradient Boosting Machine (LightGBM). LightGBM is a boosting algorithm, highlighted by prize-winning entries in prediction and forecasting competitions. To assess LightGBM, we contribute a large-scale application that includes merging daily precipitation measurements in contiguous US with PERSIANN and GPM-IMERG satellite precipitation data. We focus on extreme quantiles of the probability distribution of the dependent variable, where LightGBM outperforms quantile regression forests (QRF, a variant of random forests) in terms of quantile score. LightGBM and QRF show similar performance when predicting functionals at the centre of the conditional probability distribution, including the conditional median. Our study offers understanding of probabilistic predictions in spatial settings using machine learning.
翻訳日:2023-02-12 13:05:53 公開日:2023-02-02
# 深層ネットワーク訓練における意外な不安定性と理論的解析

Surprising Instabilities in Training Deep Networks and a Theoretical Analysis ( http://arxiv.org/abs/2206.02001v3 )

ライセンス: Link先を確認
Yuxin Sun, Dong Lao, Ganesh Sundaramoorthi, Anthony Yezzi(参考訳) 確率的勾配降下(sgd)を伴う深層ネットワークの現在のトレーニング実践で抑制された数値不安定性を見出した。 トレーニング深度ネットにおいて浮動小数点演算から誘導される数値誤差(最小浮動小数点ビットの順)を著しく増幅することができ、SGDの確率性によるテスト精度のばらつきに匹敵する有意なテスト精度のばらつきを生じさせる。 重みテンソル空間の反復と領域上の局所化を抑えられる最適化力学の不安定性に、このことがいかにトレースされたかを示す。 本研究では、偏微分方程式(PDE)の数値解析を用いて理論的枠組みを提示し、畳み込みニューラルネットワーク(CNN)の勾配降下PDEを解析する。 学習速度と減量率の一定の条件下でしか安定しないことを示す。 条件が破られたときに爆発する代わりに、不安定さを抑えることができることを示す。 これはCNNの勾配降下に伴う非線形PDEの結果であり、その局所線形化は離散化のステップサイズを過度に運転すると変化し、安定化効果をもたらす。 古典的理論によって予測される安定なステップサイズは、損失の最適化と収束を継続しながら超過する、最近発見された安定性のエッジ(eos)現象に拘束された不安定性を関連付ける。 eosにおいて抑制された不安定性が生じるため、本理論はeos、特に正規化の役割とネットワーク複雑性への依存に関する新しい予測を提供する。

We discover restrained numerical instabilities in current training practices of deep networks with stochastic gradient descent (SGD). We show numerical error (on the order of the smallest floating point bit) induced from floating point arithmetic in training deep nets can be amplified significantly and result in significant test accuracy variance, comparable to the test accuracy variance due to stochasticity in SGD. We show how this is likely traced to instabilities of the optimization dynamics that are restrained, i.e., localized over iterations and regions of the weight tensor space. We do this by presenting a theoretical framework using numerical analysis of partial differential equations (PDE), and analyzing the gradient descent PDE of convolutional neural networks (CNNs). We show that it is stable only under certain conditions on the learning rate and weight decay. We show that rather than blowing up when the conditions are violated, the instability can be restrained. We show this is a consequence of the non-linear PDE associated with the gradient descent of the CNN, whose local linearization changes when over-driving the step size of the discretization, resulting in a stabilizing effect. We link restrained instabilities to the recently discovered Edge of Stability (EoS) phenomena, in which the stable step size predicted by classical theory is exceeded while continuing to optimize the loss and still converging. Because restrained instabilities occur at the EoS, our theory provides new predictions about the EoS, in particular, the role of regularization and the dependence on the network complexity.
翻訳日:2023-02-10 17:51:07 公開日:2023-02-02
# scene2bir: 教材学習に基づく実世界3次元シーン再生のためのバイノーラルインパルス応答生成

Scene2BIR: Material-aware learning-based binaural impulse response generator for reconstructed real-world 3D scenes ( http://arxiv.org/abs/2302.02809v1 )

ライセンス: Link先を確認
Anton Jeran Ratnarajah, Dinesh Manocha(参考訳) 実世界のモデルに対して,両耳間インパルス応答生成器 (BIR) をリアルタイムに生成する。 本手法では, ニューラルネットワークを用いた新しいBIRジェネレータ (Scene2BIR) を再構成3次元モデルに適用する。 本稿では,3次元シーンの材料情報とトポロジー情報の両方を用いて,シーン潜在ベクトルを生成するグラフニューラルネットワークを提案する。 さらに,条件付き生成逆数ネットワーク(CGAN)を用いて,シーン潜時ベクトルからBIRを生成する。 我々のネットワークは、再構成された3Dメッシュモデルでホールや他のアーティファクトを処理できる。 空間音響効果を組み込むために,ジェネレータネットワークに効率的なコスト関数を提案する。 ソースとリスナの位置を考慮すれば、NVIDIA GeForce RTX 2080 Ti GPU上で0.1ミリ秒でBIRを生成し、複数のソースを容易に処理できる。 提案手法の精度を実世界のBIRとインタラクティブな幾何学的音響伝搬アルゴリズムを用いて評価した。

We present an end-to-end binaural impulse response generator (BIR) to generate plausible sounds in real-time for real-world models. Our approach uses a novel neural-network-based BIR generator (Scene2BIR) for the reconstructed 3D model. We propose a graph neural network that uses both the material and the topology information of the 3D scenes and generates a scene latent vector. Moreover, we use a conditional generative adversarial network (CGAN) to generate BIRs from the scene latent vector. Our network is able to handle holes or other artifacts in the reconstructed 3D mesh model. We present an efficient cost function to the generator network to incorporate spatial audio effects. Given the source and the listener position, our approach can generate a BIR in 0.1 milliseconds on an NVIDIA GeForce RTX 2080 Ti GPU and can easily handle multiple sources. We have evaluated the accuracy of our approach with real-world captured BIRs and an interactive geometric sound propagation algorithm.
翻訳日:2023-02-07 16:27:49 公開日:2023-02-02
# 訓練データが異なるモデルに対する自然分布シフトに対する効果的なロバスト性

Effective Robustness against Natural Distribution Shifts for Models with Different Training Data ( http://arxiv.org/abs/2302.01381v1 )

ライセンス: Link先を確認
Zhouxing Shi, Nicholas Carlini, Ananth Balashankar, Ludwig Schmidt, Cho-Jui Hsieh, Alex Beutel, Yao Qin(参考訳) 効果的なロバスト性''は、分散(id)性能から予測できる以上の余分な分散(ood)ロバスト性を測定する。 既存の有効ロバスト性評価では、通常はimagenetのような単一のテストセットを使用してid精度を評価する。 例えば、ImageNetでトレーニングされたモデルとLAIONでトレーニングされたゼロショット言語イメージでトレーニングされたモデルを比較すると、これは問題になる。 本稿では,異なるデータ分布で学習したモデルの有効ロバスト性を比較するために,新しい有効ロバスト性評価指標を提案する。 これを実現するために、評価された全てのモデルのトレーニング分布をカバーする複数のIDテストセットの精度を制御する。 我々の新しい評価基準は、有効ロバスト性をよりよく評価し、1つのIDデータセットのみを考慮した場合のゼロショットCLIP様モデルの驚くべき有効ロバスト性ゲインを説明する。

``Effective robustness'' measures the extra out-of-distribution (OOD) robustness beyond what can be predicted from the in-distribution (ID) performance. Existing effective robustness evaluations typically use a single test set such as ImageNet to evaluate ID accuracy. This becomes problematic when evaluating models trained on different data distributions, e.g., comparing models trained on ImageNet vs. zero-shot language-image pre-trained models trained on LAION. In this paper, we propose a new effective robustness evaluation metric to compare the effective robustness of models trained on different data distributions. To do this we control for the accuracy on multiple ID test sets that cover the training distributions for all the evaluated models. Our new evaluation metric provides a better estimate of the effectiveness robustness and explains the surprising effective robustness gains of zero-shot CLIP-like models exhibited when considering only one ID dataset, while the gains diminish under our evaluation.
翻訳日:2023-02-06 18:36:31 公開日:2023-02-02
# レコメンデーションシステムにおける露出制約による学習

Learning with Exposure Constraints in Recommendation Systems ( http://arxiv.org/abs/2302.01377v1 )

ライセンス: Link先を確認
Omer Ben-Porat and Rotem Torkan(参考訳) 勧告システムは、複数の利害関係者のニーズのバランスをとる動的な経済システムである。 最近の研究は、コンテンツ提供者の視点によるインセンティブの研究である。 コンテンツプロバイダ(vloggersやbloggersなど)は、新鮮なコンテンツを提供し、ユーザーエンゲージメントを頼りに収益を創出し、運営に資金を提供する。 本研究では,コンテントプロバイダの露出依存性をモデル化するためのコンテキスト的マルチアームバンディット設定を提案する。 本モデルでは,各ラウンドでユーザコンテキストを受信し,各アームを選択する必要がある。 すべてのarmはコンテンツプロバイダであり、一定期間(例えば1ヶ月)ごとに最小数のプルを受け取り、後続のラウンドで存続しなければならない。 本システムは,利用者の福祉を最大化することを目的とする。 そのためには、どの腕が不可欠かを学び、必要であれば腕の引っ張りを補助することで、それを確実に維持する必要がある。 我々は,アルゴリズムが対数的因子に最適であることを示す下位境界とともに,サブ線形後悔を伴うアルゴリズムを開発する。

Recommendation systems are dynamic economic systems that balance the needs of multiple stakeholders. A recent line of work studies incentives from the content providers' point of view. Content providers, e.g., vloggers and bloggers, contribute fresh content and rely on user engagement to create revenue and finance their operations. In this work, we propose a contextual multi-armed bandit setting to model the dependency of content providers on exposure. In our model, the system receives a user context in every round and has to select one of the arms. Every arm is a content provider who must receive a minimum number of pulls every fixed time period (e.g., a month) to remain viable in later rounds; otherwise, the arm departs and is no longer available. The system aims to maximize the users' (content consumers) welfare. To that end, it should learn which arms are vital and ensure they remain viable by subsidizing arm pulls if needed. We develop algorithms with sub-linear regret, as well as a lower bound that demonstrates that our algorithms are optimal up to logarithmic factors.
翻訳日:2023-02-06 18:36:10 公開日:2023-02-02
# 逆摂動に対するランダム化アンサンブルのロバスト性について

On the Robustness of Randomized Ensembles to Adversarial Perturbations ( http://arxiv.org/abs/2302.01375v1 )

ライセンス: Link先を確認
Hassan Dbouk, Naresh R. Shanbhag(参考訳) 1つの分類器が推論中にランダムに選択されるランダム化アンサンブル分類器(recs)は、計算要件が限定された可逆的ロバスト分類器を実現する伝統的な意味付け手法の魅力的な代替として登場した。 しかし、最近の研究は、RECの構築方法が当初主張していたよりも脆弱であることを示し、「RECはいつ有用か?」「限界は何か?」「どのようにトレーニングするのか?」といった根本的な疑問を提起している。 本研究では,recsの理論的限界,有用であるために必要な条件等に関する基礎的な結果が導出され,まずrecsを非神秘化する。 この新たな理解を活用して、ロバストなRECをトレーニングするための新しいブースティングアルゴリズム(BARRE)を提案し、さまざまなネットワークアーキテクチャやデータセットにまたがる強い$\ell_\infty$ノルムバウンドな敵に対する防御効果を実証的に実証する。

Randomized ensemble classifiers (RECs), where one classifier is randomly selected during inference, have emerged as an attractive alternative to traditional ensembling methods for realizing adversarially robust classifiers with limited compute requirements. However, recent works have shown that existing methods for constructing RECs are more vulnerable than initially claimed, casting major doubts on their efficacy and prompting fundamental questions such as: "When are RECs useful?", "What are their limits?", and "How do we train them?". In this work, we first demystify RECs as we derive fundamental results regarding their theoretical limits, necessary and sufficient conditions for them to be useful, and more. Leveraging this new understanding, we propose a new boosting algorithm (BARRE) for training robust RECs, and empirically demonstrate its effectiveness at defending against strong $\ell_\infty$ norm-bounded adversaries across various network architectures and datasets.
翻訳日:2023-02-06 18:35:53 公開日:2023-02-02
# 共有特徴を用いたデータベース拡張のためのニューラルネットワークアーキテクチャ

Neural Network Architecture for Database Augmentation Using Shared Features ( http://arxiv.org/abs/2302.01374v1 )

ライセンス: Link先を確認
William C. Sleeman IV, Rishabh Kapoor, Preetam Ghosh(参考訳) 機械学習とニューラルネットワークによるデータからの学習の人気は、ほぼすべての問題領域に対する多くの新しいデータセットの作成につながっている。 しかし、単一のドメイン内でも、これらのデータセットは、しばしば異なる特徴で収集され、異なるサブ人口からサンプリングされ、異なる時点に記録される。 個々のデータセットが多すぎるとしても、これらの小さなデータセットをマージするのは簡単ではないことが多いため、大規模なデータサイエンスプロジェクトは難しい場合がある。 医学のような領域では、大きな単一ソースデータセットや同一の機能を持つマルチソースデータセットを作成することも非常に困難である。 これらの非マッチングデータセットを直接マージする代わりに、これらのデータセット間で共通する機能を使用してデータ拡張を提供するニューラルネットワークアーキテクチャを提案する。 この方法では,画像データと表データの両方に有効であることを示す。

The popularity of learning from data with machine learning and neural networks has lead to the creation of many new datasets for almost every problem domain. However, even within a single domain, these datasets are often collected with disparate features, sampled from different sub-populations, and recorded at different time points. Even with the plethora of individual datasets, large data science projects can be difficult as it is often not trivial to merge these smaller datasets. Inherent challenges in some domains such as medicine also makes it very difficult to create large single source datasets or multi-source datasets with identical features. Instead of trying to merge these non-matching datasets directly, we propose a neural network architecture that can provide data augmentation using features common between these datasets. Our results show that this style of data augmentation can work for both image and tabular data.
翻訳日:2023-02-06 18:35:31 公開日:2023-02-02
# グラディエントブースティングツリーによる不均一処理効果の増強学習

Augmented Learning of Heterogeneous Treatment Effects via Gradient Boosting Trees ( http://arxiv.org/abs/2302.01367v1 )

ライセンス: Link先を確認
Heng Chen, Michael L. LeBlanc and James Y. Dai(参考訳) 患者の遺伝子的・臨床的要因に基づく異種治療効果(hte)は、精密医療に重要な関心を寄せている。 高次元予測マーカーを用いたランダム化臨床試験のhteと対応する主要効果を同時にモデル化することは困難である。 本稿では,HTEを最適効率で推定し,任意の相互作用モデルに一般化し,強力な極度勾配向上木(XGBoost)を活用するための2段階統計学習手法を提案する。 HTEの目標推定値は、定量的な結果の平均差の尺度、または特殊な損失関数の最小値である二分結果のリスク比で定義される。 第1段階は、結果に基づいてベースラインマーカーの主効果等価性を推定し、HTEの第2段階推定において拡張項として使用される。 提案した2段階の手順は、主効果の誤特定をモデル化し、XGBoostなどの非パラメトリック関数推定によるHTEの推定効率を向上させる。 HTEの証拠を世界規模で評価するための置換試験が提案されている。 swog cancer research network が主導する前立腺がん予防治験における遺伝子研究の分析を行い、2段階法の特性と有用性について紹介した。

Heterogeneous treatment effects (HTE) based on patients' genetic or clinical factors are of significant interest to precision medicine. Simultaneously modeling HTE and corresponding main effects for randomized clinical trials with high-dimensional predictive markers is challenging. Motivated by the modified covariates approach, we propose a two-stage statistical learning procedure for estimating HTE with optimal efficiency augmentation, generalizing to arbitrary interaction model and exploiting powerful extreme gradient boosting trees (XGBoost). Target estimands for HTE are defined in the scale of mean difference for quantitative outcomes, or risk ratio for binary outcomes, which are the minimizers of specialized loss functions. The first stage is to estimate the main-effect equivalency of the baseline markers on the outcome, which is then used as an augmentation term in the second stage estimation for HTE. The proposed two-stage procedure is robust to model mis-specification of main effects and improves efficiency for estimating HTE through nonparametric function estimation, e.g., XGBoost. A permutation test is proposed for global assessment of evidence for HTE. An analysis of a genetic study in Prostate Cancer Prevention Trial led by the SWOG Cancer Research Network, is conducted to showcase the properties and the utilities of the two-stage method.
翻訳日:2023-02-06 18:35:17 公開日:2023-02-02
# 量子機械学習における文脈性と帰納バイアス

Contextuality and inductive bias in quantum machine learning ( http://arxiv.org/abs/2302.01365v1 )

ライセンス: Link先を確認
Joseph Bowles, Victoria J Wright, M\'at\'e Farkas, Nathan Killoran, Maria Schuld(参考訳) 機械学習の一般化は、しばしばデータに存在する構造をモデルクラスの帰納的バイアスにエンコードする能力に依存する。 したがって、量子機械学習のパワーを理解するには、量子モデルに自然に寄与するデータ構造の種類を特定することが不可欠である。 この研究では、量子的文脈性 -- 計算上有利な関係を持つ非古典性の形式 -- を、この問題に対する答えとして検討しています。 我々は、機械学習における文脈性を研究するためのフレームワークを導入し、学習モデルが文脈性である意味を定義する。 このことから,操作等価性(Operation equivalence)と呼ばれる中心的な文脈性の概念を,ラベル空間内の線形に保存された量を符号化するモデルの能力に結びつける。 この関係の結果として、文脈性は表現性に結びついている: 帰納的バイアスをエンコードする文脈モデルクラスは、一般的に、非文脈的バイアスよりも表現力が高い。 これを証明するために,ゼロサムゲームのペイオフ動作を学習することに基づいて,明示的なおもちゃ学習問題を構築する。 幾何学的量子機械学習のツールを活用することで、関連する帰納的バイアスを伴う量子学習モデルの構築方法を記述し、それらが対応する古典的代理モデルより優れていることを示す。 このことは、この形式の学習問題を理解することが、量子機械学習のパワーに関する有用な洞察につながることを示唆している。

Generalisation in machine learning often relies on the ability to encode structures present in data into an inductive bias of the model class. To understand the power of quantum machine learning, it is therefore crucial to identify the types of data structures that lend themselves naturally to quantum models. In this work we look to quantum contextuality -- a form of nonclassicality with links to computational advantage -- for answers to this question. We introduce a framework for studying contextuality in machine learning, which leads us to a definition of what it means for a learning model to be contextual. From this, we connect a central concept of contextuality, called operational equivalence, to the ability of a model to encode a linearly conserved quantity in its label space. A consequence of this connection is that contextuality is tied to expressivity: contextual model classes that encode the inductive bias are generally more expressive than their noncontextual counterparts. To demonstrate this, we construct an explicit toy learning problem -- based on learning the payoff behaviour of a zero-sum game -- for which this is the case. By leveraging tools from geometric quantum machine learning, we then describe how to construct quantum learning models with the associated inductive bias, and show through our toy problem that they outperform their corresponding classical surrogate models. This suggests that understanding learning problems of this form may lead to useful insights about the power of quantum machine learning.
翻訳日:2023-02-06 18:34:56 公開日:2023-02-02
# カオス多体量子系における電荷のフルカウント統計

Full Counting Statistics of Charge in Chaotic Many-body Quantum Systems ( http://arxiv.org/abs/2302.01355v1 )

ライセンス: Link先を確認
Ewan McCulloch, Jacopo De Nardis, Sarang Gopalakrishnan, Romain Vasseur(参考訳) 我々は$U(1)$-symmetric random unitary circuitにおける電荷輸送の総計数統計について検討する。 系の左半減期と右半減期の間に化学ポテンシャル不均衡が生じる初期混合状態について検討し, 典型回路における中心結合を横切る電荷の変動について検討した。 実効的なレプリカ統計力学モデルとヒルベルト空間次元において有効である創発的古典確率過程への写像を用いて、電荷移動のゆらぎが長い時間で対称排除過程に近づき、$t^{-1/2}$量子補正が導かれることを示す。 古典的非平衡系の変動流体力学とマクロ揺らぎ理論の文脈での結果を考察し, 直接行列-積状態計算に対する予測を確認する。

We investigate the full counting statistics of charge transport in $U(1)$-symmetric random unitary circuits. We consider an initial mixed state prepared with a chemical potential imbalance between the left and right halves of the system, and study the fluctuations of the charge transferred across the central bond in typical circuits. Using an effective replica statistical mechanics model and a mapping onto an emergent classical stochastic process valid at large onsite Hilbert space dimension, we show that charge transfer fluctuations approach those of the symmetric exclusion process at long times, with subleading $t^{-1/2}$ quantum corrections. We discuss our results in the context of fluctuating hydrodynamics and macroscopic fluctuation theory of classical non-equilibrium systems, and check our predictions against direct matrix-product state calculations.
翻訳日:2023-02-06 18:34:33 公開日:2023-02-02
# クラウド量子コンピュータにおける二次コヒーレンススケールの測定

Measuring the quadrature coherence scale on a cloud quantum computer ( http://arxiv.org/abs/2302.01343v1 )

ライセンス: Link先を確認
Aaron Z. Goldberg, Guillaume S. Thekkadath, and Khabat Heshami(参考訳) コヒーレンスは量子現象の根底にあるが、古典理論に現れており、コヒーレンスの役割は難解な仕事である。 二次コヒーレンススケール(QCS)は、位相空間の配向を選ばず、任意の単一モードボゾン系の量子的特徴を定量化するために発明された。 QCSは任意の状態に対して定義され、ガウス状態や純粋な状態を含む、よく知られた量にまで減少し、おそらくはコヒーレンス測度において、デコヒーレンスに対して非常に敏感である。 最近までqcsの測定方法が分かっておらず、ここでは絞られた光と熱状態のqcsの初期測定について報告する。 これはxanaduのマシンboraalisを使ってクラウドからアクセスし、qcsを測定するのに必須なコンフィグレーション可能なビームスプリッターと光子数分解検出器を提供する。 データと理論はよく一致し、量子性を証明するための干渉計と光子計装置の有用性が証明される。

Coherence underlies quantum phenomena, yet it is manifest in classical theories; delineating coherence's role is a fickle business. The quadrature coherence scale (QCS) was invented to remove such ambiguity, quantifying quantum features of any single-mode bosonic system without choosing a preferred orientation of phase space. The QCS is defined for any state, reducing to well-known quantities in appropriate limits including Gaussian and pure states, and, perhaps most importantly for a coherence measure, it is highly sensitive to decoherence. Until recently, it was unknown how to measure the QCS; we here report on an initial measurement of the QCS for squeezed light and thermal states of light. This is performed using Xanadu's machine Borealis, accessed through the cloud, which offers the configurable beam splitters and photon-number-resolving detectors essential to measuring the QCS. The data and theory match well, certifying the usefulness of interferometers and photon-counting devices in certifying quantumness.
翻訳日:2023-02-06 18:34:16 公開日:2023-02-02
# カリキュラムガイドによる抽象要約

Curriculum-Guided Abstractive Summarization ( http://arxiv.org/abs/2302.01342v1 )

ライセンス: Link先を確認
Sajad Sotudeh, Hanieh Deilamsalehy, Franck Dernoncourt, Nazli Goharian(参考訳) 最近のトランスフォーマイゼーションモデルは抽象的要約に有望なアプローチを提供している。 文選択や抽出戦略を超越して、新しい単語生成や文言い換えといったより複雑なタスクに対処する。 にもかかわらず、これらのモデルには2つの欠点がある:(1)コンテンツ選択が不十分な場合が多く、(2)トレーニング戦略があまり効率的ではないため、モデルの性能が制限される。 本稿では,これらの落とし穴を補う2つの直交法について検討する。 まず,デコーダ内の文クロスアテンションモジュールでTransformerネットワークを拡張し,適切なコンテンツの抽象化を促進する。 第2に,トレーニングサンプルの重み付けを行い,効率的な学習手順を実現するためのカリキュラム学習手法を提案する。 トランスフォーマーネットワークのトレーニング戦略を強化するための第2のアプローチは,第1のアプローチと比較して,強力な成果を上げています。 我々はReddit TIFUポストの極端な要約データセットに適用する。 さらに3つのドメイン間要約データセット(Webis-TLDR-17, CNN/DM, XSum)を調べ, 要約に適用した場合のカリキュラム学習の有効性を測定した。 さらに,提案手法の有効性を,質的基準,すなわち,流動性,情報性,総合的品質で示すために,人間による評価を行った。

Recent Transformer-based summarization models have provided a promising approach to abstractive summarization. They go beyond sentence selection and extractive strategies to deal with more complicated tasks such as novel word generation and sentence paraphrasing. Nonetheless, these models have two shortcomings: (1) they often perform poorly in content selection, and (2) their training strategy is not quite efficient, which restricts model performance. In this paper, we explore two orthogonal ways to compensate for these pitfalls. First, we augment the Transformer network with a sentence cross-attention module in the decoder, encouraging more abstraction of salient content. Second, we include a curriculum learning approach to reweight the training samples, bringing about an efficient learning procedure. Our second approach to enhance the training strategy of Transformers networks makes stronger gains as compared to the first approach. We apply our model on extreme summarization dataset of Reddit TIFU posts. We further look into three cross-domain summarization datasets (Webis-TLDR-17, CNN/DM, and XSum), measuring the efficacy of curriculum learning when applied in summarization. Moreover, a human evaluation is conducted to show the efficacy of the proposed method in terms of qualitative criteria, namely, fluency, informativeness, and overall quality.
翻訳日:2023-02-06 18:33:57 公開日:2023-02-02
# 哲学者の大規模言語モデルの作成

Creating a Large Language Model of a Philosopher ( http://arxiv.org/abs/2302.01339v1 )

ライセンス: Link先を確認
Eric Schwitzgebel, David Schwitzgebel, and Anna Strasser(参考訳) 大規模言語モデルは、人間の哲学者が作成したテキストと区別しにくい哲学的テキストを生成するように訓練できるだろうか? この問題に対処するため、我々は哲学者ダニエル・C・デネット(Daniel C. Dennett)によるOpenAIのGPT-3を追加のトレーニングデータとして微調整した。 dennettモデルを調査するために、実際のdennettに哲学的な質問を10つ求め、言語モデルに同じ質問を付けて、チェリーピッキングなしで各質問に対して4つの回答を集めた。 我々はデンネットの回答を4つのマシン生成回答と区別するために425人の参加者を募集した。 デネットの業績の専門家(N = 25)は20%の確率より51%の確率で成功しましたが、仮説の80%の確率では不十分でした。 10の質問のうち2つについて、言語モデルは少なくとも1つの回答を生み出し、専門家がdennett自身の回答よりも頻繁に選択した。 哲学ブログの読者(N = 302)は専門家と類似し、通常の研究参加者(N = 98)はGPT-3の反応を「実際の人間の哲学者」と区別する機会に近かった。

Can large language models be trained to produce philosophical texts that are difficult to distinguish from texts produced by human philosophers? To address this question, we fine-tuned OpenAI's GPT-3 with the works of philosopher Daniel C. Dennett as additional training data. To explore the Dennett model, we asked the real Dennett ten philosophical questions and then posed the same questions to the language model, collecting four responses for each question without cherry-picking. We recruited 425 participants to distinguish Dennett's answer from the four machine-generated answers. Experts on Dennett's work (N = 25) succeeded 51% of the time, above the chance rate of 20% but short of our hypothesized rate of 80% correct. For two of the ten questions, the language model produced at least one answer that experts selected more frequently than Dennett's own answer. Philosophy blog readers (N = 302) performed similarly to the experts, while ordinary research participants (N = 98) were near chance distinguishing GPT-3's responses from those of an "actual human philosopher".
翻訳日:2023-02-06 18:33:37 公開日:2023-02-02
# シーングラフ生成のための自己教師付き関係アライメント

Self-Supervised Relation Alignment for Scene Graph Generation ( http://arxiv.org/abs/2302.01403v1 )

ライセンス: Link先を確認
Bicheng Xu, Renjie Liao, Leonid Sigal(参考訳) シーングラフ生成の目標は、ノードが識別および局所化されたオブジェクトとエッジと対応する相互作用述語に対応する入力画像からグラフを予測することである。 既存のメソッドは、完全に監督された方法でトレーニングされ、メッセージパッシングメカニズム、損失関数、および/またはバイアス緩和にフォーカスします。 本研究では,シーングラフ生成性能の向上を目的とした,単純かつ効率的な自己教師付きリレーショナルアライメント正規化を提案する。 提案されたアライメントは一般的であり、既存のシーングラフ生成フレームワークと組み合わせることができ、元のモデルの目的と並行してトレーニングされる。 このアライメントは、教師付きアラインメントとパラメータをミラーし共有する補助関係予測分岐をデザインした蒸留によって達成される。 補助分岐では、関係入力機能はメッセージパッシングと予測予測の前に部分的にマスクされる。 マスクされた関係の予測は、メッセージの送信後に監督された関係と整列される。 この自己教師付きリレーショナルアライメントの有効性を,sgtrとニューラルモチーフという2つのシーングラフ生成アーキテクチャと組み合わせて説明し,いずれの場合においても有意にパフォーマンスが向上することを示す。

The goal of scene graph generation is to predict a graph from an input image, where nodes correspond to identified and localized objects and edges to their corresponding interaction predicates. Existing methods are trained in a fully supervised manner and focus on message passing mechanisms, loss functions, and/or bias mitigation. In this work we introduce a simple-yet-effective self-supervised relational alignment regularization designed to improve the scene graph generation performance. The proposed alignment is general and can be combined with any existing scene graph generation framework, where it is trained alongside the original model's objective. The alignment is achieved through distillation, where an auxiliary relation prediction branch, that mirrors and shares parameters with the supervised counterpart, is designed. In the auxiliary branch, relational input features are partially masked prior to message passing and predicate prediction. The predictions for masked relations are then aligned with the supervised counterparts after the message passing. We illustrate the effectiveness of this self-supervised relational alignment in conjunction with two scene graph generation architectures, SGTR and Neural Motifs, and show that in both cases we achieve significantly improved performance.
翻訳日:2023-02-06 18:27:57 公開日:2023-02-02
# モバイルセンサデータによる血糖動態の個人的理解

Personalized Understanding of Blood Glucose Dynamics via Mobile Sensor Data ( http://arxiv.org/abs/2302.01400v1 )

ライセンス: Link先を確認
Sam Royston(参考訳) 連続血糖モニター(CGM)は糖尿病患者が血糖値を管理する能力に革命をもたらし、人工膵システムへの道を開いた。 本稿では,携帯電話で収集したセンサ入力を用いてccmデータを拡張し,患者や臨床医に分析ツールを提供する。 GPSデータ, 活動分類, 血糖値のデータを, 単独のフリーライフ1型糖尿病患者から9カ月間, カスタムiOSアプリケーションを用いて収集した。 このデータセットは、そのサイズ、gpsデータの導入、そして自由生活の患者から非意図的に収集されたという事実という点で、斬新なものです。 本研究は,GPSおよび活動データに基づいてライフスタイル「textit{events」の発生を計測し,食事摂取事例の把握が可能であり,血糖値の変化と相関していることを示す。 最後に、これらのイベント表現をシステムに統合し、患者が糖尿病を管理するのを助ける有用な可視化と通知を作成します。

Continuous Blood Glucose (CGM) monitors have revolutionized the ability of diabetics to manage their blood glucose, and paved the way for artificial pancreas systems. In this paper we augment CGM data with sensor input collected by a smart phone and use it to provide analytical tools for patients and clinicians. We collected GPS data, activity classifications, and blood glucose data with a custom iOS application over a 9 month period from a single free-living type-1 diabetic patient. This data set is novel in terms of it's size, the inclusion of GPS data, and the fact that it was collected non-intrusively from a free-living patient. We describe a method to measure the occurrence of lifestyle \textit{events} based on GPS and activity data, and show that they can capture instances of food consumption and are therefore correlated to changes in blood glucose. Finally, we incorporate these event representations into our system to create useful visualizations and notifications to aid patients in managing their diabetes.
翻訳日:2023-02-06 18:27:39 公開日:2023-02-02
# 深層強化学習における事前計算からの値関数推定による政策勾配の促進

Accelerating Policy Gradient by Estimating Value Function from Prior Computation in Deep Reinforcement Learning ( http://arxiv.org/abs/2302.01399v1 )

ライセンス: Link先を確認
Md Masudur Rahman and Yexiang Xue(参考訳) 本稿では,事前計算を用いて,強化学習におけるオンライン政策勾配法におけるサンプル効率向上のための値関数を推定する。 提案手法は,dqnで学習したqネットワークや,異なるが関連する環境で訓練された値関数から,事前計算から値関数を推定する。 特に,事前計算から推定値と組み合わせることで,対象タスクの新たな値関数を学習する。 最後に、得られた値関数を、ポリシー勾配法におけるベースラインとして用いる。 このベースラインの使用は、勾配計算のばらつきを低減し、試料効率を向上させる理論的性質を有する。 実験では,様々な場面で事前値推定が成功し,複数のタスクでサンプル効率が向上したことを示す。

This paper investigates the use of prior computation to estimate the value function to improve sample efficiency in on-policy policy gradient methods in reinforcement learning. Our approach is to estimate the value function from prior computations, such as from the Q-network learned in DQN or the value function trained for different but related environments. In particular, we learn a new value function for the target task while combining it with a value estimate from the prior computation. Finally, the resulting value function is used as a baseline in the policy gradient method. This use of a baseline has the theoretical property of reducing variance in gradient computation and thus improving sample efficiency. The experiments show the successful use of prior value estimates in various settings and improved sample efficiency in several tasks.
翻訳日:2023-02-06 18:27:24 公開日:2023-02-02
# 数ショット学習の機械翻訳における不合理な効果

The unreasonable effectiveness of few-shot learning for machine translation ( http://arxiv.org/abs/2302.01398v1 )

ライセンス: Link先を確認
Xavier Garcia, Yamini Bansal, Colin Cherry, George Foster, Maxim Krikun, Fangxiaoyu Feng, Melvin Johnson, Orhan Firat(参考訳) 高度・低リソースの言語ペアに対して,非ペア型言語データを用いて学習した,少数の翻訳システムの可能性を示す。 自己教師付き学習でのみ訓練されたトランスフォーマーデコーダのみのモデルでは,推論時に提示される質の高い翻訳データの例が5つに過ぎず,より一般的な商用翻訳システムと同様に,専門的な教師付き翻訳モデルとマッチングできることが示されている。 特に,wmt'21英語-中国語ニュース翻訳タスクにおいて,推論時の英語-中国語パラレルデータの5つの例のみを用いて,最高のパフォーマンスシステムを構築した。 さらに,これらのモデル構築におけるアプローチは,共同学習や後方翻訳を必要とせず,概念的にシンプルであり,多言語設定に拡張する可能性を示している。 さらに、得られたモデルは最先端の言語モデルよりも2桁小さい。 次に,マイナショット翻訳システムの性能に影響を与える要因を分析し,マイナショットデモンストレーションの品質がモデルが生成する翻訳の質に大きく左右される点を強調した。 最後に、マイナショットパラダイムは翻訳の特定の属性を制御する手段も提供しています -- 推論において5つの例のみを使用して、地域品種と形式を制御できることを示し、制御可能な機械翻訳システムへの道を開くことができます。

We demonstrate the potential of few-shot translation systems, trained with unpaired language data, for both high and low-resource language pairs. We show that with only 5 examples of high-quality translation data shown at inference, a transformer decoder-only model trained solely with self-supervised learning, is able to match specialized supervised state-of-the-art models as well as more general commercial translation systems. In particular, we outperform the best performing system on the WMT'21 English - Chinese news translation task by only using five examples of English - Chinese parallel data at inference. Moreover, our approach in building these models does not necessitate joint multilingual training or back-translation, is conceptually simple and shows the potential to extend to the multilingual setting. Furthermore, the resulting models are two orders of magnitude smaller than state-of-the-art language models. We then analyze the factors which impact the performance of few-shot translation systems, and highlight that the quality of the few-shot demonstrations heavily determines the quality of the translations generated by our models. Finally, we show that the few-shot paradigm also provides a way to control certain attributes of the translation -- we show that we are able to control for regional varieties and formality using only a five examples at inference, paving the way towards controllable machine translation systems.
翻訳日:2023-02-06 18:27:10 公開日:2023-02-02
# MoE-Fusion:赤外線と可視画像融合のための試験片の埋め込み

MoE-Fusion: Instance Embedded Mixture-of-Experts for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2302.01392v1 )

ライセンス: Link先を確認
Yiming Sun, Bing Cao, Pengfei Zhu, Qinghua Hu(参考訳) 赤外および可視画像融合は、単モードイメージングの不完全性を補うことができ、クロスモーダル補完性に基づくより包括的なシーン記述を提供する。 ほとんどの研究は、画像レベルでの高頻度および低周波制約による全体的なクロスモーダル特徴の学習に重点を置いており、クロスモーダルのインスタンスレベルの特徴がより価値のある情報を含んでいるという事実を無視している。 このギャップを埋めるために、インスタンス情報を初めて複数のエキスパート(moes)のセットに組み込むことで、クロスモーダルなインスタンスレベルの機能をモデル化し、イメージ融合ネットワークにインスタンスレベルの情報を具体的に学習させる。 赤外線と可視光の融合のための組込みMixture-of-Expertsを例として,組込みMoEグループ(IE-MoE),MoEデコーダ,2つのエンコーダ,および2つの補助検出ネットワークを含む,MoE-Fusionと呼ぶ新しいフレームワークを提案する。 補助ネットワークに学習したインスタンスレベルの情報を埋め込むことで、IE-MoEは、クロスモーダルフォアグラウンドとバックグラウンドの特徴を専門的に学習する。 MoE-Decoderは、クロスモーダルな特徴デコーディングに適した専門家を適応的に選択し、動的に融合結果を得る。 我々のMoE-Fusionはコントラストやテクスチャの保存において、クロスモーダル画像のインスタンスレベルの情報を学習することで、最先端の手法よりも優れていることを示す。

Infrared and visible image fusion can compensate for the incompleteness of single-modality imaging and provide a more comprehensive scene description based on cross-modal complementarity. Most works focus on learning the overall cross-modal features by high- and low-frequency constraints at the image level alone, ignoring the fact that cross-modal instance-level features often contain more valuable information. To fill this gap, we model cross-modal instance-level features by embedding instance information into a set of Mixture-of-Experts (MoEs) for the first time, prompting image fusion networks to specifically learn instance-level information. We propose a novel framework with instance embedded Mixture-of-Experts for infrared and visible image fusion, termed MoE-Fusion, which contains an instance embedded MoE group (IE-MoE), an MoE-Decoder, two encoders, and two auxiliary detection networks. By embedding the instance-level information learned in the auxiliary network, IE-MoE achieves specialized learning of cross-modal foreground and background features. MoE-Decoder can adaptively select suitable experts for cross-modal feature decoding and obtain fusion results dynamically. Extensive experiments show that our MoE-Fusion outperforms state-of-the-art methods in preserving contrast and texture details by learning instance-level information in cross-modal images.
翻訳日:2023-02-06 18:26:46 公開日:2023-02-02
# スケールド勾配投影による連続学習

Continual Learning with Scaled Gradient Projection ( http://arxiv.org/abs/2302.01386v1 )

ライセンス: Link先を確認
Gobinda Saha, Kaushik Roy(参考訳) ニューラルネットワークでは、連続学習はシーケンシャルタスク間の勾配干渉を引き起こし、新しいタスクを学習しながら古いタスクを破滅的に忘れてしまう。 この問題は、古いタスクの重要な勾配空間を保存し、新しいタスクの間直交的にモデルを更新することで、近年の手法で解決されている。 しかし、このような制限的な直交勾配更新は、新しいタスクの学習能力を妨げ、亜最適性能をもたらす。 そこで本稿では,過去のタスクで重要な勾配空間に沿って,直交勾配投影とスケールド勾配ステップを組み合わせたスケールド勾配投影(sgp)法を提案する。 これらの空間に沿った勾配のスケーリングの度合いは、それらにまたがるベースの重要性に依存する。 本稿では,各タスクに対する入力表現の特異値分解を用いて,これらのベースの重要性を計算・蓄積する効率的な方法を提案する。 我々は,連続的な画像分類から強化学習タスクまで幅広い実験を行い,最先端のアプローチよりも少ないトレーニングオーバーヘッドで優れた性能を報告した。

In neural networks, continual learning results in gradient interference among sequential tasks, leading to catastrophic forgetting of old tasks while learning new ones. This issue is addressed in recent methods by storing the important gradient spaces for old tasks and updating the model orthogonally during new tasks. However, such restrictive orthogonal gradient updates hamper the learning capability of the new tasks resulting in sub-optimal performance. To improve new learning while minimizing forgetting, in this paper we propose a Scaled Gradient Projection (SGP) method, where we combine the orthogonal gradient projections with scaled gradient steps along the important gradient spaces for the past tasks. The degree of gradient scaling along these spaces depends on the importance of the bases spanning them. We propose an efficient method for computing and accumulating importance of these bases using the singular value decomposition of the input representations for each task. We conduct extensive experiments ranging from continual image classification to reinforcement learning tasks and report better performance with less training overhead than the state-of-the-art approaches.
翻訳日:2023-02-06 18:26:04 公開日:2023-02-02
# 感性属性アクセスのない公平な分類のためのハイパーパラメータチューニング

Hyper-parameter Tuning for Fair Classification without Sensitive Attribute Access ( http://arxiv.org/abs/2302.01385v1 )

ライセンス: Link先を確認
Akshaj Kumar Veldanda, Ivan Brugere, Sanghamitra Dutta, Alan Mishler, Siddharth Garg(参考訳) 公正な機械学習手法は、人種や性別といったセンシティブな属性に基づいて定義された人口動態サブグループ間でモデルパフォーマンスのバランスをとるモデルを訓練しようとする。 敏感な属性は通常、トレーニング中に知られていると仮定されるが、プライバシやその他の論理的懸念のために実際には利用できない可能性がある。 最近の研究は、トレーニングデータに繊細な属性を持たずに公平なモデルを訓練することを模索している。 しかし、これらの手法は、良好な結果を得るために、広範囲なハイパーパラメータチューニングが必要であり、従って、重要な属性が検証データで知られていると仮定する。 しかし、この仮定も実用的ではないかもしれない。 ここでは、トレーニングデータや検証データに対して、機密属性にアクセスせずに公平な分類器を訓練するフレームワークであるAntigoneを提案する。 その代わりに、偏見付き分類器を訓練し、少数派(多数派)群のプロキシとして誤って(正しく)ラベル付けされた例を用いて検証データに擬似的な属性を生成する。 人口統計学的パリティ,等しい機会,サブグループの正確さといった公平度指標は,ノイズに敏感な属性情報であっても比例定数内で推定できるため,平均的精度制約下では,これらのプロキシラベルが公平さを最大化するために利用できることを理論的に経験的に示す。 本結果の鍵となるのが, 偏差分級器の超パラメータを非教師的手法で選択する原理的手法であり, ノイズと地味感性ラベルを用いて推定した公平性の間のギャップを最小化する。

Fair machine learning methods seek to train models that balance model performance across demographic subgroups defined over sensitive attributes like race and gender. Although sensitive attributes are typically assumed to be known during training, they may not be available in practice due to privacy and other logistical concerns. Recent work has sought to train fair models without sensitive attributes on training data. However, these methods need extensive hyper-parameter tuning to achieve good results, and hence assume that sensitive attributes are known on validation data. However, this assumption too might not be practical. Here, we propose Antigone, a framework to train fair classifiers without access to sensitive attributes on either training or validation data. Instead, we generate pseudo sensitive attributes on the validation data by training a biased classifier and using the classifier's incorrectly (correctly) labeled examples as proxies for minority (majority) groups. Since fairness metrics like demographic parity, equal opportunity and subgroup accuracy can be estimated to within a proportionality constant even with noisy sensitive attribute information, we show theoretically and empirically that these proxy labels can be used to maximize fairness under average accuracy constraints. Key to our results is a principled approach to select the hyper-parameters of the biased classifier in a completely unsupervised fashion (meaning without access to ground truth sensitive attributes) that minimizes the gap between fairness estimated using noisy versus ground-truth sensitive labels.
翻訳日:2023-02-06 18:25:48 公開日:2023-02-02
# ビジョンモデルのためのエネルギー駆動型自己監督型事前訓練

Energy-Inspired Self-Supervised Pretraining for Vision Models ( http://arxiv.org/abs/2302.01384v1 )

ライセンス: Link先を確認
Ze Wang, Jiang Wang, Zicheng Liu, and Qiang Qiu(参考訳) 入力表現と出力表現の対称写像は,深層ネットワークの前方・後方通過が自然に形成するという事実に触発され,エネルギーベースモデル(EBM)にインスパイアされた,シンプルで効果的な自己監督型視覚モデル事前学習フレームワークを導入する。 提案フレームワークでは, 余剰デコーダなどの補助的コンポーネントを使わずに, 単一のネットワークの前方・後方通過として, エネルギー推定とデータ復元をモデル化する。 フォワードパスでは、未ラベルのデータセットに属するサンプルに低エネルギースコアを割り当てるエネルギー関数にネットワークを適合させ、それ以外は高エネルギーを割り当てる。 後方通過のために,エネルギー最小化の方向に沿って勾配に基づく最適化を用いて,劣化したバージョンからデータを反復的に復元する。 このようにして、マスク画像モデリングで広く使用されるエンコーダ・デコーダアーキテクチャを、単一のビジョンモデルの前方および後方のパスに自然に折り畳む。 そこで,本フレームワークでは,様々なデータ汚濁手法を用いて,さまざまなプリテキストタスクを受け付け,マスク付き画像モデリング,パッチソート,画像復元から,超解像,デノナイズ,カラー化を含むモデルを事前訓練することができる。 提案手法は,最先端の自己監督型視覚モデル事前学習法と比較して,訓練のエポックさを極めて少なく抑えつつ,同等かつ優れた性能を提供することを示す。 本研究は,マスク画像モデリング以外の自己教師付き視覚モデルの事前学習とプリテキストタスクのさらなる探求に光を当てた。

Motivated by the fact that forward and backward passes of a deep network naturally form symmetric mappings between input and output representations, we introduce a simple yet effective self-supervised vision model pretraining framework inspired by energy-based models (EBMs). In the proposed framework, we model energy estimation and data restoration as the forward and backward passes of a single network without any auxiliary components, e.g., an extra decoder. For the forward pass, we fit a network to an energy function that assigns low energy scores to samples that belong to an unlabeled dataset, and high energy otherwise. For the backward pass, we restore data from corrupted versions iteratively using gradient-based optimization along the direction of energy minimization. In this way, we naturally fold the encoder-decoder architecture widely used in masked image modeling into the forward and backward passes of a single vision model. Thus, our framework now accepts a wide range of pretext tasks with different data corruption methods, and permits models to be pretrained from masked image modeling, patch sorting, and image restoration, including super-resolution, denoising, and colorization. We support our findings with extensive experiments, and show the proposed method delivers comparable and even better performance with remarkably fewer epochs of training compared to the state-of-the-art self-supervised vision model pretraining methods. Our findings shed light on further exploring self-supervised vision model pretraining and pretext tasks beyond masked image modeling.
翻訳日:2023-02-06 18:25:20 公開日:2023-02-02
# 感度誘導探索によるニューラルネットワークの混合精度ポストトレーニング量子化

Mixed Precision Post Training Quantization of Neural Networks with Sensitivity Guided Search ( http://arxiv.org/abs/2302.01382v1 )

ライセンス: Link先を確認
Clemens JS Schaefer, Elfie Guo, Caitlin Stanton, Xiaofan Zhang, Tom Jablin, Navid Lambert-Shirzad, Jian Li, Chiachen Chou, Yu Emma Wang, Siddharth Joshi(参考訳) 大規模機械学習(ML)モデルを効率的かつ低レイテンシで実行することは、モデルのサイズと複雑さの増加によって困難になっている。 モデルの量子化は、メモリと計算要求を同時に削減し、幅広いアクセスを容易にする。 しかし、大きなモデルの場合、全ての層が同じ数値精度に等しく対応できるわけではなく、アグレッシブな量子化はモデルの精度を損なう可能性がある。 この精度劣化を防ぐ1つのアプローチは混合精度量子化であり、現代のハードウェアの能力を活用して、異なるテンソルを様々な数値精度のレベルに量子化することができる。 このような混合精度量子化は、より効果的に異なるテンソルに数値精度を割り当てることができ、モデル精度を保ちながら、フットプリントと計算レイテンシを削減できる。 本稿では,トレーニング後の混合精度量子化を用いて,mlモデルにおける異なるテンソルの量子化構成を効率的に決定する手法を提案する。 3つの感度指標を分析し,2つのアルゴリズムの構成探索を導くための評価を行った。 我々は,コンピュータビジョンと自然言語処理の手法を評価し,ベースライン16ビット浮動小数点モデルと比較して最大27.59%,34.31%のレイテンシ低減を実証し,1%以上の精度の劣化を保証した。

Serving large-scale machine learning (ML) models efficiently and with low latency has become challenging owing to increasing model size and complexity. Quantizing models can simultaneously reduce memory and compute requirements, facilitating their widespread access. However, for large models not all layers are equally amenable to the same numerical precision and aggressive quantization can lead to unacceptable loss in model accuracy. One approach to prevent this accuracy degradation is mixed-precision quantization, which allows different tensors to be quantized to varying levels of numerical precision, leveraging the capabilities of modern hardware. Such mixed-precision quantiztaion can more effectively allocate numerical precision to different tensors `as needed' to preserve model accuracy while reducing footprint and compute latency. In this paper, we propose a method to efficiently determine quantization configurations of different tensors in ML models using post-training mixed precision quantization. We analyze three sensitivity metrics and evaluate them for guiding configuration search of two algorithms. We evaluate our method for computer vision and natural language processing and demonstrate latency reductions of up to 27.59% and 34.31% compared to the baseline 16-bit floating point model while guaranteeing no more than 1% accuracy degradation.
翻訳日:2023-02-06 18:24:56 公開日:2023-02-02
# 高速・微分可能・スパーストップ-k:凸解析の観点から

Fast, Differentiable and Sparse Top-k: a Convex Analysis Perspective ( http://arxiv.org/abs/2302.01425v1 )

ライセンス: Link先を確認
Michael E. Sander, Joan Puigcerver, Josip Djolonga, Gabriel Peyr\'e and Mathieu Blondel(参考訳) トップk演算子は k-スパースベクトルを返し、非ゼロ値は入力の k 最大の値に対応する。 残念ながら、不連続関数であるため、トレーニングされたエンドツーエンドとバックプロパゲーションを組み込むのは難しい。 近年の研究では、正規化または摂動法に基づく微分可能な緩和が検討されている。 しかし、これまでのところ、完全に微分可能でスパースなアプローチは存在しません。 本稿では,新しい微分可能かつスパースなトップk演算子を提案する。 我々はtop-k作用素を、置換の凸包であるペルムタヘドロン上の線型プログラムと考える。 次に、演算子を滑らかにするためにpノルム正規化項を導入し、その計算を等張最適化に還元できることを示す。 我々のフレームワークは既存のフレームワークよりもはるかに一般的であり、例えば、大小の値を選択するトップk演算子を表現できる。 アルゴリズム側では, 隣り合うビオレータ(pav)アルゴリズムのプールに加えて, 等張最適化問題を解決するための新しいgpu/tpuフレンドリーなdykstraアルゴリズムを提案する。 私たちは、ニューラルネットワークの重み付け、微調整の視覚変換器、そして未熟な専門家のルーターとして、オペレーターをうまく利用しました。

The top-k operator returns a k-sparse vector, where the non-zero values correspond to the k largest values of the input. Unfortunately, because it is a discontinuous function, it is difficult to incorporate in neural networks trained end-to-end with backpropagation. Recent works have considered differentiable relaxations, based either on regularization or perturbation techniques. However, to date, no approach is fully differentiable and sparse. In this paper, we propose new differentiable and sparse top-k operators. We view the top-k operator as a linear program over the permutahedron, the convex hull of permutations. We then introduce a p-norm regularization term to smooth out the operator, and show that its computation can be reduced to isotonic optimization. Our framework is significantly more general than the existing one and allows for example to express top-k operators that select values in magnitude. On the algorithmic side, in addition to pool adjacent violator (PAV) algorithms, we propose a new GPU/TPU-friendly Dykstra algorithm to solve isotonic optimization problems. We successfully use our operators to prune weights in neural networks, to fine-tune vision transformers, and as a router in sparse mixture of experts.
翻訳日:2023-02-06 18:18:02 公開日:2023-02-02
# 非エルミートスピンチェーン系のスペクトルクロスオーバー:ランダム行列理論との比較

Spectral crossover in non-hermitian spin chain systems: comparison with random matrix theory ( http://arxiv.org/abs/2302.01423v1 )

ライセンス: Link先を確認
Ayana Sarkar, Sunidhi Sen and Santosh Kumar(参考訳) 複素間隔比を用いた3つの非エルミートスピンチェーンハミルトニアンの短距離スペクトル揺らぎ特性を体系的に研究した。 特に、Zhang と Song が [Phys.Rev.A {\bf 87}, 012114 (2013)] で解析的に検討した固有回転時間反転対称性を持つ標準一次元異方性XYモデルの非エルミートバージョンに焦点を当てる。 対応するヘミチアンも正確に解けており、いくつかの凝縮物質物理学問題において玩具モデルとして広く用いられている。 我々は、$x$方向に沿ったランダム場の存在と、$z$に沿ったランダム場の存在が、確率行列理論のポアソン的ユニタリ(GinUE)統計に類似したスペクトル交叉によって示される量子カオス挙動の積分可能性の破れと出現を促進することを示した。 さらに,2つの$n \times n$ dimensional phenomenological random matrix modelを導入し,クロスオーバーパラメータによって,複素スペーシング比によって測定された変動特性は,GinUEとGinUEの1D-PoissonとGinUEの2D-Poissonの補間を示す。 ここで 1d と 2d poisson はそれぞれ実数レベルと複素非相関レベルに対応している。

We systematically study the short-range spectral fluctuation properties of three non-hermitian spin chain hamiltonians using complex spacing ratios. In particular we focus on the non-hermitian version of the standard one-dimensional anisotropic XY model having intrinsic rotation-time-reversal symmetry that has been explored analytically by Zhang and Song in [Phys.Rev.A {\bf 87}, 012114 (2013)]. The corresponding hermitian counterpart is also exactly solvable and has been widely employed as a toy model in several condensed matter physics problems. We show that the presence of a random field along the $x$-direction together with the one along $z$,facilitates integrability breaking and emergence of quantum chaotic behaviour indicated by a spectral crossover resembling Poissonian to Ginibre unitary (GinUE) statistics of random matrix theory. Additionally, we introduce two $n \times n$ dimensional phenomenological random matrix models in which, depending upon crossover parameters, the fluctuation properties measured by the complex spacing ratios show an interpolation between 1D-Poisson to GinUE and 2D-Poisson to GinUE. Here 1D and 2D Poisson correspond to real and complex uncorrelated levels, respectively.
翻訳日:2023-02-06 18:17:42 公開日:2023-02-02
# 双レベル最適化とスタックルバーグゲームのための収束一階法

Convergent First-Order Methods for Bi-level Optimization and Stackelberg Games ( http://arxiv.org/abs/2302.01421v1 )

ライセンス: Link先を確認
Chinmay Maheshwari and S. Shankar Sasty and Lillian Ratliff and Eric Mazumdar(参考訳) 本稿では,2段階最適化問題のクラスを1次情報のみを用いて解くアルゴリズムを提案する。 特に、内部最小化がユニークな解を持つクラスに焦点を当てる。 現代のアルゴリズムとは異なり、このアルゴリズムはoracle estimatorをbiレベル目標の勾配に使用する必要はなく、内部問題に対する近似解法も必要としない。 代わりに、Na\ の最適化手法を用いて内部問題を下降し、特別に構築された勾配推定器を用いて上層目標関数を下降する。 閉ループ関数の凸性がない場合,両レベル対象の定常点に非漸近収束率を与えるとともに,双レベル問題の局所最小値にのみ漸近収束を示す。 この手法は2時間確率近似アルゴリズムの文献から着想を得たものである。

We propose an algorithm to solve a class of bi-level optimization problems using only first-order information. In particular, we focus on a class where the inner minimization has unique solutions. Unlike contemporary algorithms, our algorithm does not require the use of an oracle estimator for the gradient of the bi-level objective or an approximate solver for the inner problem. Instead, we alternate between descending on the inner problem using na\"ive optimization methods and descending on the upper-level objective function using specially constructed gradient estimators. We provide non-asymptotic convergence rates to stationary points of the bi-level objective in the absence of convexity of the closed-loop function and further show asymptotic convergence to only local minima of the bi-level problem. The approach is inspired by ideas from the literature on two-timescale stochastic approximation algorithms.
翻訳日:2023-02-06 18:17:17 公開日:2023-02-02
# MRI脳画像における認知症ステージに基づくアルツハイマー病早期予測のための畳み込みモデル

A Convolutional-based Model for Early Prediction of Alzheimer's based on the Dementia Stage in the MRI Brain Images ( http://arxiv.org/abs/2302.01417v1 )

ライセンス: Link先を確認
Shrish Pellakur, Nelly Elsayed, Zag ElSayed, Murat Ozer(参考訳) アルツハイマー病は変性脳疾患である。 成人の認知症の主な原因であり、脳の記憶を徐々に破壊する。 アルツハイマー病は、現在治療法を持っていないが、早期に診断することは、病気の重症度を減らすのに役立つ。 したがって、アルツハイマーの早期診断は、疾患の進行を減少または阻止するのに役立つ。 本稿では,アルツハイマー病の早期発症を検出するためのMRI画像に基づいて,成人の認知症ステージを決定するために,深層畳み込みニューラルネットワークを用いた学習モデルを提案する。

Alzheimer's disease is a degenerative brain disease. Being the primary cause of Dementia in adults and progressively destroys brain memory. Though Alzheimer's disease does not have a cure currently, diagnosing it at an earlier stage will help reduce the severity of the disease. Thus, early diagnosis of Alzheimer's could help to reduce or stop the disease from progressing. In this paper, we proposed a deep convolutional neural network-based model for learning model using to determine the stage of Dementia in adults based on the Magnetic Resonance Imaging (MRI) images to detect the early onset of Alzheimer's.
翻訳日:2023-02-06 18:17:02 公開日:2023-02-02
# デジタルマーケティングコンテンツデザインのためのニューラルインサイト

Neural Insights for Digital Marketing Content Design ( http://arxiv.org/abs/2302.01416v1 )

ライセンス: Link先を確認
Fanjie Kong, Yuan Li, Houssam Nassif, Tanner Fiez, Shreya Chakrabarti, Ricardo Henao(参考訳) デジタルマーケティングでは、新しいwebサイトコンテンツの実験が顧客エンゲージメントを向上させる重要なレバーの1つだ。 しかし、マーケティングコンテンツを成功させることは、明確な指針に欠ける手作業と時間を要するプロセスである。 本稿では,コンテンツ作成とオンライン実験のループを閉じるために,マーケターが過去のデータに基づくAIによる行動可能な洞察を提供することにより,創造プロセスを改善する。 本稿では、マーケティングコンテンツデザインからインサイトをスコアし抽出するニューラルネットワークシステム、すなわち、マルチモーダルニューラルネットワークがマーケティングコンテンツの魅力を予測し、ポストホック属性法は、マーケターが特定のマーケティングロケーションでコンテンツを改善するための実用的なインサイトを生成する。 私たちの洞察は、与えられた現在のコンテンツの利点と欠点を指摘するだけでなく、過去のデータに基づいたデザインレコメンデーションも提供します。 評価モデルと洞察は定量的にも質的にもうまく機能することを示す。

In digital marketing, experimenting with new website content is one of the key levers to improve customer engagement. However, creating successful marketing content is a manual and time-consuming process that lacks clear guiding principles. This paper seeks to close the loop between content creation and online experimentation by offering marketers AI-driven actionable insights based on historical data to improve their creative process. We present a neural-network-based system that scores and extracts insights from a marketing content design, namely, a multimodal neural network predicts the attractiveness of marketing contents, and a post-hoc attribution method generates actionable insights for marketers to improve their content in specific marketing locations. Our insights not only point out the advantages and drawbacks of a given current content, but also provide design recommendations based on historical data. We show that our scoring model and insights work well both quantitatively and qualitatively.
翻訳日:2023-02-06 18:16:52 公開日:2023-02-02
# 変動計算によるHCOOHの振動赤外スペクトルとラマンスペクトル

Vibrational infrared and Raman spectrum of HCOOH from variational computations ( http://arxiv.org/abs/2302.01414v1 )

ライセンス: Link先を確認
Gustavo Avila, Alberto Mart\'in Santa Dar\'ia, Edit M\'atyus(参考訳) トランス, シス-, 脱局在化-) ギ酸分子のすべての振動エネルギーは、 GenIUSH-Smolyak 変分法によりゼロ点振動エネルギーを超える最大4500 cm$^{-1} まで収束し、アブ初期ポテンシャルエネルギー表面 (D. P. Tew, W. Mizukami, J. Phys. Chem. A, 120, 9815-9828 (2016)] を用いる。 CCSD/aug-cc-pVTZ理論で計算された点に、全次元双極子と偏光性曲面を合わせる。 そして, 体固定振動双極子と偏光性遷移モーメントを評価し, HCOOHのジェット冷却赤外線とラマンスペクトルをシミュレートする。 標準品質の振動エネルギー、遷移モーメント、波動関数リストは、振動実験と比較して更なる研究や、さらなる再検証計算に使用される。

All vibrational energies of the (trans-, cis-, delocalized-) formic acid molecule are converged up to 4500 cm$^{-1}$ beyond the zero-point vibrational energy with the GENIUSH-Smolyak variational approach and using an ab initio potential energy surface [D. P. Tew and W. Mizukami, J. Phys. Chem. A, 120, 9815-9828 (2016)]. Full-dimensional dipole and polarizability surfaces are fitted to points computed at the CCSD/aug-cc-pVTZ level of theory. Then, body-fixed vibrational dipole and polarizability transition moments are evaluated and used to simulate jet-cooled infrared and Raman spectra of HCOOH. The benchmark-quality vibrational energy, transition moment, and wave function list will be used in further work in comparison with vibrational experiments, and in further rovibrational computations.
翻訳日:2023-02-06 18:16:36 公開日:2023-02-02
# 物理インフォームド機械学習を用いた2次元量子固有値問題の解法

Solving two-dimensional quantum eigenvalue problems using physics-informed machine learning ( http://arxiv.org/abs/2302.01413v1 )

ライセンス: Link先を確認
Elliott G. Holliday, John F. Lindner, William L. Ditto(参考訳) 不可能な箱に閉じ込められた粒子は、無限平方井戸ポテンシャルでモデル化されたパラダイム的で正確に解ける1次元量子システムである。 ここでは、物理に変形したニューラルネットワークを用いて、矩形、楕円形、三角形、心身形の箱に閉じ込められた粒子を含む、2次元への無限個の一般化のいくつかを探索する。 特に,教師なし学習アルゴリズムを一般化し,粒子の固有値と固有関数を求める。 トレーニング中、ニューラルネットワークはその重みとバイアスを調整し、そのうちの1つはエネルギー固有値であり、その出力は正規化および相互直交固有関数を持つシュリンガー方程式をほぼ解く。 同じ手順は、ドラムヘッド上の波の高調波と振動モード、または電磁キャビティの逆磁気モードのヘルムホルツ方程式を解く。 関連する応用としては、動的ビリヤード、量子カオス、ラプラシアスペクトルがある。

A particle confined to an impassable box is a paradigmatic and exactly solvable one-dimensional quantum system modeled by an infinite square well potential. Here we explore some of its infinitely many generalizations to two dimensions, including particles confined to rectangle, elliptic, triangle, and cardioid-shaped boxes, using physics-informed neural networks. In particular, we generalize an unsupervised learning algorithm to find the particles' eigenvalues and eigenfunctions. During training, the neural network adjusts its weights and biases, one of which is the energy eigenvalue, so its output approximately solves the Schr\"odinger equation with normalized and mutually orthogonal eigenfunctions. The same procedure solves the Helmholtz equation for the harmonics and vibration modes of waves on drumheads or transverse magnetic modes of electromagnetic cavities. Related applications include dynamical billiards, quantum chaos, and Laplacian spectra.
翻訳日:2023-02-06 18:16:13 公開日:2023-02-02
# 双曲的コントラスト学習

Hyperbolic Contrastive Learning ( http://arxiv.org/abs/2302.01409v1 )

ライセンス: Link先を確認
Yun Yue, Fangzhou Lin, Kazunori D Yamada, Ziming Zhang(参考訳) 下流タスクに有益な優れたイメージ表現を学ぶことは、コンピュータビジョンにおいて難しいタスクです。 このように、多種多様な自己指導型学習手法が提案されている。 対照的な学習は、いくつかのベンチマークデータセットで競合するパフォーマンスを示している。 対比学習の埋め込みは、ユークリッド空間における距離測定として内部(dot)積を使用する超球面上に配置される。 しかし、ソーシャルネットワーク、脳画像、コンピュータグラフィックスデータといった多くの科学分野の基盤となる構造は、ユークリッドの潜在幾何学ではない。 双曲空間における意味関係を学ぶための新しいコントラスト学習フレームワークを提案する。 双曲空間は、自然に階層構造をモデル化する能力を持つ木の連続バージョンであり、効率的なコントラスト表現学習に有用である。 また,提案したHCL(Hyperbolic Contrastive Learning)を教師付き領域に拡張し,HCLの対角的堅牢性を検討した。 包括的実験により,本手法は,自己教師付き事前訓練,教師付き分類,およびベースライン法よりもロバストな精度が得られた。

Learning good image representations that are beneficial to downstream tasks is a challenging task in computer vision. As such, a wide variety of self-supervised learning approaches have been proposed. Among them, contrastive learning has shown competitive performance on several benchmark datasets. The embeddings of contrastive learning are arranged on a hypersphere that results in using the inner (dot) product as a distance measurement in Euclidean space. However, the underlying structure of many scientific fields like social networks, brain imaging, and computer graphics data exhibit highly non-Euclidean latent geometry. We propose a novel contrastive learning framework to learn semantic relationships in the hyperbolic space. Hyperbolic space is a continuous version of trees that naturally owns the ability to model hierarchical structures and is thus beneficial for efficient contrastive representation learning. We also extend the proposed Hyperbolic Contrastive Learning (HCL) to the supervised domain and studied the adversarial robustness of HCL. The comprehensive experiments show that our proposed method achieves better results on self-supervised pretraining, supervised classification, and higher robust accuracy than baseline methods.
翻訳日:2023-02-06 18:15:58 公開日:2023-02-02
# 仮説テストと機械学習:cohenのf2を用いた深層ニューラルネットワークにおける可変効果の解釈

Hypothesis Testing and Machine Learning: Interpreting Variable Effects in Deep Artificial Neural Networks using Cohen's f2 ( http://arxiv.org/abs/2302.01407v1 )

ライセンス: Link先を確認
Wolfgang Messner(参考訳) ディープニューラルネットワークは、多くの分野で高い予測性能を示すが、統計的な推論は行わず、ブラックボックス操作は人間が理解するには複雑すぎる。 科学実験や研究モデルにおいて、関係が存在するという仮定は予測よりも重要であり、機械学習は推論統計よりもはるかに少ない。 さらに統計学は、研究中の現象の大きさを示すことによって理論のテストを改善することを要求する。 本稿では、現在のXAI手法を拡張し、機械学習のためのモデルに依存しない仮説テストフレームワークを開発する。 まず、フィッシャーの可変置換アルゴリズムを微調整して、ols回帰モデルに対するコーエンのf2と同等の効果サイズ測度を計算する。 第2に、単調性のマン・ケンドール検定とテイル・セン推定器がアプリーの蓄積した局所効果プロットに適用され、変数の影響方向と統計的意義が特定される。 このアプローチの有用性は,人工データセットとPythonサンドボックス実装によるソーシャルサーベイで実証されている。

Deep artificial neural networks show high predictive performance in many fields, but they do not afford statistical inferences and their black-box operations are too complicated for humans to comprehend. Because positing that a relationship exists is often more important than prediction in scientific experiments and research models, machine learning is far less frequently used than inferential statistics. Additionally, statistics calls for improving the test of theory by showing the magnitude of the phenomena being studied. This article extends current XAI methods and develops a model agnostic hypothesis testing framework for machine learning. First, Fisher's variable permutation algorithm is tweaked to compute an effect size measure equivalent to Cohen's f2 for OLS regression models. Second, the Mann-Kendall test of monotonicity and the Theil-Sen estimator is applied to Apley's accumulated local effect plots to specify a variable's direction of influence and statistical significance. The usefulness of this approach is demonstrated on an artificial data set and a social survey with a Python sandbox implementation.
翻訳日:2023-02-06 18:15:40 公開日:2023-02-02
# ニューラルネットワークの予兆を想像する

Provably Bounding Neural Network Preimages ( http://arxiv.org/abs/2302.01404v1 )

ライセンス: Link先を確認
Suhas Kotha, Christopher Brix, Zico Kolter, Krishnamurthy (Dj) Dvijotham, Huan Zhang(参考訳) ニューラルネットワークの形式的検証に関するほとんどの研究は、ニューラルネットワークの前方画像の境界、すなわち、与えられた入力のセットに対応するニューラルネットワークの出力のセット(例えば、名目入力の有界摂動)に焦点を当てている。 しかし、ニューラルネットワーク検証の多くのユースケースは、逆問題、すなわち特定の出力につながる入力の集合を過度に近似することを必要とする。 本研究では,ニューラルネットワークの線形制約された出力セットのプリイメージ上の特性を検証するための,最初の効率的な境界伝搬アルゴリズム INVPROP を提案する。 提案手法では,中間層の境界が前後の緩和に依存するため,中間境界細分化の複数の通過が可能であり,密な逆検証に不可欠である。 本稿では,動的システムのための安全な制御領域の定量化と,ニューラルネットワークへの分布外入力の検出に関するアプリケーションに関するアルゴリズムを実証する。 その結果、特定の設定で、同じハードウェア上で2.5倍高速で、以前の作業の2500倍以上の厳密なオーバー近似を見つけることができた。

Most work on the formal verification of neural networks has focused on bounding forward images of neural networks, i.e., the set of outputs of a neural network that correspond to a given set of inputs (for example, bounded perturbations of a nominal input). However, many use cases of neural network verification require solving the inverse problem, i.e, over-approximating the set of inputs that lead to certain outputs. In this work, we present the first efficient bound propagation algorithm, INVPROP, for verifying properties over the preimage of a linearly constrained output set of a neural network, which can be combined with branch-and-bound to achieve completeness. Our efficient algorithm allows multiple passes of intermediate bound refinements, which are crucial for tight inverse verification because the bounds of an intermediate layer depend on relaxations both before and after this layer. We demonstrate our algorithm on applications related to quantifying safe control regions for a dynamical system and detecting out-of-distribution inputs to a neural network. Our results show that in certain settings, we can find over-approximations that are over 2500 times tighter than prior work while being 2.5 times faster on the same hardware.
翻訳日:2023-02-06 18:15:22 公開日:2023-02-02
# CTE:文脈表抽出のためのデータセット

CTE: A Dataset for Contextualized Table Extraction ( http://arxiv.org/abs/2302.01451v1 )

ライセンス: Link先を確認
Andrea Gemelli, Emanuele Vivoli, Simone Marinai(参考訳) 文書の関連情報は、しばしば表にまとめられ、読者が有用な事実を特定するのに役立つ。 ほとんどのベンチマークデータセットはドキュメントレイアウト解析またはテーブル理解をサポートしているが、両方のタスクを統一的な方法で適用するためのデータを提供していない。 文書のテクスチュアコンテキストを考慮した表の構造を抽出し,定義することを目的とした文脈化表抽出(CTE)のタスクを定義する。 データセットは、35k以上のテーブルを含む75kページの科学論文からなる。 PubMed Centralから収集されたデータは、PubTables-1MとPubLayNetデータセットのアノテーションによって提供される情報をマージする。 データセットはcteをサポートし、元のクラスに新しいクラスを追加できる。 生成されたアノテーションは、ドキュメントレイアウト分析、テーブル検出、構造認識、機能解析など、さまざまなタスクのエンドツーエンドパイプラインの開発に使用することができる。 我々は、CTEと評価メトリクスを正式に定義し、どのサブタスクに取り組むことができるかを示し、このデータ収集の利点、制限、今後の作業について説明する。 アノテーションとコードはhttps://github.com/AILab-UniFI/cte-dataset.comからアクセスできる。

Relevant information in documents is often summarized in tables, helping the reader to identify useful facts. Most benchmark datasets support either document layout analysis or table understanding, but lack in providing data to apply both tasks in a unified way. We define the task of Contextualized Table Extraction (CTE), which aims to extract and define the structure of tables considering the textual context of the document. The dataset comprises 75k fully annotated pages of scientific papers, including more than 35k tables. Data are gathered from PubMed Central, merging the information provided by annotations in the PubTables-1M and PubLayNet datasets. The dataset can support CTE and adds new classes to the original ones. The generated annotations can be used to develop end-to-end pipelines for various tasks, including document layout analysis, table detection, structure recognition, and functional analysis. We formally define CTE and evaluation metrics, showing which subtasks can be tackled, describing advantages, limitations, and future works of this collection of data. Annotations and code will be accessible a https://github.com/AILab-UniFI/cte-dataset.
翻訳日:2023-02-06 18:09:31 公開日:2023-02-02
# ポリシーに基づく平均報酬強化学習アルゴリズムの性能限界

Performance Bounds for Policy-Based Average Reward Reinforcement Learning Algorithms ( http://arxiv.org/abs/2302.01450v1 )

ライセンス: Link先を確認
Yashaswini Murthy, Mehrdad Moharrami and R. Srikant(参考訳) 多くのポリシーベース強化学習(RL)アルゴリズムは、近似ポリシー反復(PI)のインスタンス化、すなわち、政策改善と政策評価を概ね行うことができる。 平均報酬目標が有意義なパフォーマンス指標であるアプリケーションでは、しばしば割引された報酬の定式化が使われ、割引係数は1に近くなり、期待される地平線を非常に大きくする。 しかし、対応する理論的境界は地平線の正方形による誤差性能のスケールである。 したがって、全報酬を水平線長で分割した後でも、平均報酬問題に対する対応する性能境界は無限大となる。 したがって、平均逆設定に対する近似PIおよびRLアルゴリズムの有意義な性能境界を得るというオープンな問題があった。 本稿では、政策評価や政策改善のエラーがゼロとなる極限においてゼロとなる平均逆 MDP に対して、最初の非自明な誤差境界を求めることにより、この問題を解決する。

Many policy-based reinforcement learning (RL) algorithms can be viewed as instantiations of approximate policy iteration (PI), i.e., where policy improvement and policy evaluation are both performed approximately. In applications where the average reward objective is the meaningful performance metric, often discounted reward formulations are used with the discount factor being close to 1, which is equivalent to making the expected horizon very large. However, the corresponding theoretical bounds for error performance scale with the square of the horizon. Thus, even after dividing the total reward by the length of the horizon, the corresponding performance bounds for average reward problems go to infinity. Therefore, an open problem has been to obtain meaningful performance bounds for approximate PI and RL algorithms for the average-reward setting. In this paper, we solve this open problem by obtaining the first non-trivial error bounds for average-reward MDPs which go to zero in the limit where when policy evaluation and policy improvement errors go to zero.
翻訳日:2023-02-06 18:09:13 公開日:2023-02-02
# 文脈外:「サービスとしての人工的知性」のバイアスと公平性に関する調査

Out of Context: Investigating the Bias and Fairness Concerns of "Artificial Intelligence as a Service" ( http://arxiv.org/abs/2302.01448v1 )

ライセンス: Link先を確認
Kornel Lewicki, Michelle Seng Ah Lee, Jennifer Cobbe, Jatinder Singh(参考訳) AI as a Service"(AIaaS)は急速に成長している市場であり、様々なプラグイン・アンド・プレイのAIサービスやツールを提供している。 AIaaSは、専門知識やデータ、リソースを欠いている顧客(ユーザ)に対して、AI機能をアプリケーションに簡単に構築し統合するための独自のシステムを開発することを可能にする。 しかし、AIシステムは社会的影響を持つバイアスや不平等をカプセル化できることが知られている。 本稿では、公正さの文脈に敏感な性質は、しばしばAIaaSの「一大フィット」アプローチと相容れないため、問題や緊張につながると論じる。 具体的には,AIサービスの分類を,ユーザに与えられる自律性レベルに基づいて提案することにより,AIaaS分野を見直し,体系化する。 次に、AIaaSの異なるカテゴリを批判的に検討し、これらのサービスがどのようにバイアスにつながるか、あるいはエンドユーザアプリケーションのコンテキストで有害かを説明します。 そのために私たちは、この新興分野の課題に研究の注意を向けようとしている。

"AI as a Service" (AIaaS) is a rapidly growing market, offering various plug-and-play AI services and tools. AIaaS enables its customers (users) - who may lack the expertise, data, and/or resources to develop their own systems - to easily build and integrate AI capabilities into their applications. Yet, it is known that AI systems can encapsulate biases and inequalities that can have societal impact. This paper argues that the context-sensitive nature of fairness is often incompatible with AIaaS' 'one-size-fits-all' approach, leading to issues and tensions. Specifically, we review and systematise the AIaaS space by proposing a taxonomy of AI services based on the levels of autonomy afforded to the user. We then critically examine the different categories of AIaaS, outlining how these services can lead to biases or be otherwise harmful in the context of end-user applications. In doing so, we seek to draw research attention to the challenges of this emerging area.
翻訳日:2023-02-06 18:08:55 公開日:2023-02-02
# DOR:ニューズレコメンデーションシステムのための2元観測に基づく新しいアプローチ

DOR: A Novel Dual-Observation-Based Approach for News Recommendation Systems ( http://arxiv.org/abs/2302.01443v1 )

ライセンス: Link先を確認
Mengyan Wang, Weihua Li, Jingli Shi, Shiqing Wu and Quan Bai(参考訳) オンラインソーシャルメディアプラットフォームは膨大な情報へのアクセスを提供しているが、大量のニュースを流すのは読者にとって圧倒的で疲れる。 パーソナライズドレコメンデーションアルゴリズムは、ユーザーが興味のある情報を見つけるのに役立つ。 しかし、既存のモデルのほとんどは、履歴の閲覧や、ニュースとユーザの事前知識とのつながりを無視するなど、ユーザの振る舞いの観察のみに頼っている。 これにより、個人に対する多様な推奨が欠如する可能性がある。 本稿では,ニュースレコメンデーションの複雑な問題に対処する新しい手法を提案する。 このアプローチは、ニュース記事の主な焦点と記事に対するユーザの焦点を特定するために、観察機構を備えたディープニューラルネットワークを使用するという、二重観察の考え方に基づいている。 これは、個人の関心や偏見を反映したユーザーの信念ネットワークを考慮することで達成される。 ニュースの内容とユーザの視点の両方を考慮することで、よりパーソナライズされた正確なレコメンデーションを提供することができる。 本研究では,実世界のデータセットにおけるモデルの性能を評価し,提案手法がいくつかのベースラインを上回ることを示す。

Online social media platforms offer access to a vast amount of information, but sifting through the abundance of news can be overwhelming and tiring for readers. personalised recommendation algorithms can help users find information that interests them. However, most existing models rely solely on observations of user behaviour, such as viewing history, ignoring the connections between the news and a user's prior knowledge. This can result in a lack of diverse recommendations for individuals. In this paper, we propose a novel method to address the complex problem of news recommendation. Our approach is based on the idea of dual observation, which involves using a deep neural network with observation mechanisms to identify the main focus of a news article as well as the focus of the user on the article. This is achieved by taking into account the user's belief network, which reflects their personal interests and biases. By considering both the content of the news and the user's perspective, our approach is able to provide more personalised and accurate recommendations. We evaluate the performance of our model on real-world datasets and show that our proposed method outperforms several popular baselines.
翻訳日:2023-02-06 18:08:35 公開日:2023-02-02
# 制御可能な共感対話生成のためのコモンセンス対応プロンプト

Commonsense-Aware Prompting for Controllable Empathetic Dialogue Generation ( http://arxiv.org/abs/2302.01441v1 )

ライセンス: Link先を確認
Yiren Liu, Halil Kilicoglu(参考訳) 事前学習された言語モデルの感情的認識を改善することは対話生成タスクにとって重要な問題である。 従来の研究は共感的対話生成を改善する手法を導入しているが、制御可能な対話生成のための訓練済み言語モデルにコモンセンス知識を組み込む方法についての議論は少ない。 本研究では,事前学習言語モデルを用いた共感的対話生成を改善する新しいフレームワークを提案する。 1)迅速な言語化による常識知識の活用 2)戦略駆動型未来判別器を用いた対話生成制御 社会的コモンセンス知識の導入と世代管理の実施が世代業績の向上に寄与することを明らかにする実験を行った。 最後に,今後の研究に向けた研究の意義について論じる。

Improving the emotional awareness of pre-trained language models is an emerging important problem for dialogue generation tasks. Although prior studies have introduced methods to improve empathetic dialogue generation, few have discussed how to incorporate commonsense knowledge into pre-trained language models for controllable dialogue generation. In this study, we propose a novel framework that improves empathetic dialogue generation using pre-trained language models by 1) incorporating commonsense knowledge through prompt verbalization, and 2) controlling dialogue generation using a strategy-driven future discriminator. We conducted experiments to reveal that both the incorporation of social commonsense knowledge and enforcement of control over generation help to improve generation performance. Finally, we discuss the implications of our study for future research.
翻訳日:2023-02-06 18:08:19 公開日:2023-02-02
# ディープニューラルネットワークの一般化された不確実性:分類とその応用

Generalized Uncertainty of Deep Neural Networks: Taxonomy and Applications ( http://arxiv.org/abs/2302.01440v1 )

ライセンス: Link先を確認
Chengyu Dong(参考訳) ディープニューラルネットワークは、様々な現実世界のアプリケーションで大きな成功を収めています。 ポイント推定としての予測以外にも、予測の不確かさの定量化に注目が集まっている。 本総説では,深層ニューラルネットワークの不確実性は,解釈可能性や透明性という意味では重要であるだけでなく,特に堅牢性と効率性を求める学習システムにおいて,その性能をさらに向上させる上でも重要であることを示す。 我々は、深層ニューラルネットワークの不確実性の定義を、入力または入力ラベルペアに関連する任意の数またはベクトルに一般化し、そのような不確かさを深層モデルから「マイニング」する既存の手法をカタログ化する。 我々は、従来の不確実性定量化の分野の手法と、ディープニューラルネットワークに特有の手法を含める。 次に, 雑音学習, 敵対的ロバスト学習, 半教師付き学習, 弱教師付き学習などのデータ効率のよい学習, モデル圧縮や知識蒸留といったモデル効率のよい学習など, 現実的な学習タスクにおける一般化された不確かさの幅広い応用例を示す。

Deep neural networks have seen enormous success in various real-world applications. Beyond their predictions as point estimates, increasing attention has been focused on quantifying the uncertainty of their predictions. In this review, we show that the uncertainty of deep neural networks is not only important in a sense of interpretability and transparency, but also crucial in further advancing their performance, particularly in learning systems seeking robustness and efficiency. We will generalize the definition of the uncertainty of deep neural networks to any number or vector that is associated with an input or an input-label pair, and catalog existing methods on ``mining'' such uncertainty from a deep model. We will include those methods from the classic field of uncertainty quantification as well as those methods that are specific to deep neural networks. We then show a wide spectrum of applications of such generalized uncertainty in realistic learning tasks including robust learning such as noisy learning, adversarially robust learning; data-efficient learning such as semi-supervised and weakly-supervised learning; and model-efficient learning such as model compression and knowledge distillation.
翻訳日:2023-02-06 18:08:07 公開日:2023-02-02
# 潜在空間近似軌道コレクターを用いたターゲット特異的ペプチド設計

Target specific peptide design using latent space approximate trajectory collector ( http://arxiv.org/abs/2302.01435v1 )

ライセンス: Link先を確認
Tong Lin, Sijie Chen, Ruchira Basu, Dehu Pei, Xiaolin Cheng and Levent Burak Kara(参考訳) デノボ分子設計における深層学習の応用の普及と成功にもかかわらず、特定のタンパク質を標的とするペプチド生成の問題は未解決のままである。 これに対する主な障壁は、高品質なトレーニングデータの不足である。 この問題に対処するために,Llatent Space Approximate Trajectory Collector (LSATC) と呼ばれる,機械学習に基づく新しいペプチド設計アーキテクチャを提案する。 これは、潜在空間における望ましい性質を持つペプチドの分布を近似する非常に非凸エネルギーランドスケープ上の最適化軌道上の一連のサンプラーからなる。 このプロセスはほとんど人間の介入を伴わず、エンドツーエンドで実装できる。 我々は、標準的wntシグナル伝達に関与する核エフェクタータンパク質であるβ-カテニンを標的としたペプチド拡張の設計により、このモデルを実証する。 ランダムなサンプラーと比較すると、lsatcは結合スコアが36\%低いペプチドを、iqr(interquartile range)の16$倍小さく、iqrの14$284\%未満の疎水性でサンプルすることができる。 LSATCは、他の一般的な生成モデルよりも優れている。 最後に,100 lsatcで設計したペプチドから4種類のペプチドを選択できるクラスタリングアルゴリズムを用いて検証を行った。 その結果、LSATCにより拡張された4つのペプチドは、β-カテニン結合を少なくとも20.0\%$で改善し、2つのペプチドは、塩基性ペプチドと比較して結合親和性が3ドル以上上昇していることが確認された。

Despite the prevalence and many successes of deep learning applications in de novo molecular design, the problem of peptide generation targeting specific proteins remains unsolved. A main barrier for this is the scarcity of the high-quality training data. To tackle the issue, we propose a novel machine learning based peptide design architecture, called Latent Space Approximate Trajectory Collector (LSATC). It consists of a series of samplers on an optimization trajectory on a highly non-convex energy landscape that approximates the distributions of peptides with desired properties in a latent space. The process involves little human intervention and can be implemented in an end-to-end manner. We demonstrate the model by the design of peptide extensions targeting Beta-catenin, a key nuclear effector protein involved in canonical Wnt signalling. When compared with a random sampler, LSATC can sample peptides with $36\%$ lower binding scores in a $16$ times smaller interquartile range (IQR) and $284\%$ less hydrophobicity with a $1.4$ times smaller IQR. LSATC also largely outperforms other common generative models. Finally, we utilized a clustering algorithm to select 4 peptides from the 100 LSATC designed peptides for experimental validation. The result confirms that all the four peptides extended by LSATC show improved Beta-catenin binding by at least $20.0\%$, and two of the peptides show a $3$ fold increase in binding affinity as compared to the base peptide.
翻訳日:2023-02-06 18:07:23 公開日:2023-02-02
# データセット蒸留がデータセット再構築攻撃を修正

Dataset Distillation Fixes Dataset Reconstruction Attacks ( http://arxiv.org/abs/2302.01428v1 )

ライセンス: Link先を確認
Noel Loo, Ramin Hasani, Mathias Lechner, Daniela Rus(参考訳) 現代のディープラーニングには大量のデータが必要であり、リークできない機密情報やプライベート情報を含む可能性がある。 最近の研究では、このトレーニングデータの大部分は、トレーニング済みのネットワークパラメータにのみアクセスすることで再構成可能であることが示されている。 この攻撃は実証的に機能することが示されているが、その効果体制とそれに対する防御方法に関する正式な理解はほとんどない。 本研究では,まず,データセット再構築攻撃のより強力なバージョンを構築し,無限幅でトレーニングセット全体を確実に回復する方法を示す。 次に,2層ネットワークに対する攻撃特性を実験的に検討し,その成功は,凍結した無限幅の神経接核限界からの逸脱に大きく依存することを明らかにした。 さらに重要なことは、データセット再構築攻撃がデータセット蒸留のバリエーションであることを初めて正式に示すことである。 データセットの再構築と蒸留の統一に関するこの重要な理論的結果は、攻撃の特性により多くの光を放つだけでなく、蒸留アルゴリズムによってそれらに対する防御機構を設計することができる。

Modern deep learning requires large volumes of data, which could contain sensitive or private information which cannot be leaked. Recent work has shown for homogeneous neural networks a large portion of this training data could be reconstructed with only access to the trained network parameters. While the attack was shown to work empirically, there exists little formal understanding of its effectiveness regime, and ways to defend against it. In this work, we first build a stronger version of the dataset reconstruction attack and show how it can provably recover its entire training set in the infinite width regime. We then empirically study the characteristics of this attack on two-layer networks and reveal that its success heavily depends on deviations from the frozen infinite-width Neural Tangent Kernel limit. More importantly, we formally show for the first time that dataset reconstruction attacks are a variation of dataset distillation. This key theoretical result on the unification of dataset reconstruction and distillation not only sheds more light on the characteristics of the attack but enables us to design defense mechanisms against them via distillation algorithms.
翻訳日:2023-02-06 18:06:53 公開日:2023-02-02
# ライセンスプレート認識のための確率的深層学習手法のベンチマーク

Benchmarking Probabilistic Deep Learning Methods for License Plate Recognition ( http://arxiv.org/abs/2302.01427v1 )

ライセンス: Link先を確認
Franziska Schirrmacher, Benedikt Lorch, Anatol Maier, Christian Riess(参考訳) 自動ライセンスプレート認識のための学習ベースのアルゴリズムは、トレーニングとテストデータが適切に一致していると暗黙的に仮定する。 しかし、極端な環境条件下、または特定の取得装置のためにシステムが訓練できない法医学的応用においては、このことは当てはまらない。 このような分布外画像の予測は失敗する可能性がある。 しかし、この障害ケースは、人間のオペレータや自動システムの認識が難しいことが多い。 そこで本研究では,ライセンスプレート認識の予測の不確かさを明示的にモデル化することを提案する。 このような不確実性測定は、自動ナンバープレート認識の結果を信頼しない場合にアナリストを示す誤った予測を検出することができる。 本稿では,2つのアーキテクチャ上での不確実性定量化を行う3つの手法を比較する。 合成ノイズやぼやけた低分解能画像の実験は、予測の不確実性が確実に間違った予測を見出すことを示した。 また,マルチタスクの分類と超解像の組み合わせにより,認識性能が109\%向上し,誤予測が29%向上することを示した。

Learning-based algorithms for automated license plate recognition implicitly assume that the training and test data are well aligned. However, this may not be the case under extreme environmental conditions, or in forensic applications where the system cannot be trained for a specific acquisition device. Predictions on such out-of-distribution images have an increased chance of failing. But this failure case is oftentimes hard to recognize for a human operator or an automated system. Hence, in this work we propose to model the prediction uncertainty for license plate recognition explicitly. Such an uncertainty measure allows to detect false predictions, indicating an analyst when not to trust the result of the automated license plate recognition. In this paper, we compare three methods for uncertainty quantification on two architectures. The experiments on synthetic noisy or blurred low-resolution images show that the predictive uncertainty reliably finds wrong predictions. We also show that a multi-task combination of classification and super-resolution improves the recognition performance by 109\% and the detection of wrong predictions by 29 %.
翻訳日:2023-02-06 18:06:34 公開日:2023-02-02
# iohprofilerを用いた部分モジュラー最適化問題のベンチマークアルゴリズム

Benchmarking Algorithms for Submodular Optimization Problems Using IOHProfiler ( http://arxiv.org/abs/2302.01464v1 )

ライセンス: Link先を確認
Frank Neumann, Aneta Neumann, Chao Qian, Viet Anh Do, Jacob de Nobel, Diederick Vermetten, Saba Sadeghi Ahouei, Furong Ye, Hao Wang, Thomas B\"ack(参考訳) サブモジュラ関数は、リターンの低下に直面する多くの現実世界の問題をモデル化できるため、最適化の領域において重要な役割を果たす。 進化的アルゴリズムは、様々な種類の制約の下で幅広いサブモジュラー問題に対して強い理論的性能保証を得ることが示されており、標準グリーディ近似アルゴリズムを明らかに上回っている。 本稿では,サブモジュール最適化問題に対するベンチマークアルゴリズムのセットアップを紹介し,サブモジュール最適化問題に対する新しいアルゴリズムの性能を向上・比較するためのフレームワークを研究者に提供する。 その焦点は進化アルゴリズムのような反復探索アルゴリズムの開発であり、iohprofilerの実装と統合されており、反復探索アルゴリズムの進捗と性能を追跡および比較することができる。 本稿では,iohprofilerに統合されたサブモジュラー最適化問題を示し,様々な設定における反復探索アルゴリズムの解析と比較にそのセットアップをどのように利用できるかを示す。

Submodular functions play a key role in the area of optimization as they allow to model many real-world problems that face diminishing returns. Evolutionary algorithms have been shown to obtain strong theoretical performance guarantees for a wide class of submodular problems under various types of constraints while clearly outperforming standard greedy approximation algorithms. This paper introduces a setup for benchmarking algorithms for submodular optimization problems with the aim to provide researchers with a framework to enhance and compare the performance of new algorithms for submodular problems. The focus is on the development of iterative search algorithms such as evolutionary algorithms with the implementation provided and integrated into IOHprofiler which allows for tracking and comparing the progress and performance of iterative search algorithms. We present a range of submodular optimization problems that have been integrated into IOHprofiler and show how the setup can be used for analyzing and comparing iterative search algorithms in various settings.
翻訳日:2023-02-06 17:58:18 公開日:2023-02-02
# 線形相関雑音による勾配降下の収束と微分プライベート学習への応用

Convergence of Gradient Descent with Linearly Correlated Noise and Applications to Differentially Private Learning ( http://arxiv.org/abs/2302.01463v1 )

ライセンス: Link先を確認
Anastasia Koloskova, Ryan McKenna, Zachary Charles, Keith Rush, Brendan McMahan(参考訳) 線形相関雑音を用いた確率最適化について検討する。 本研究は,行列分解機構を介してノイズを注入するDP-FTRLなど,近年の差分プライバシ(DP)最適化手法によって動機付けられている。 本稿では,これらのDP手法の鍵面を除去し,線形相関雑音による摂動勾配を含む最適化問題を提案する。 凸損失関数と非凸損失関数の枠組みにおける勾配降下の収束率の向上を導出する。 我々の理論分析は新しく、独立した関心を持つかもしれない。 これらの収束率を用いて、微分的プライベート最適化のための新しい効率的な行列因子分解を開発し、理論的および経験的にこれらの因子分解の利点を強調する。

We study stochastic optimization with linearly correlated noise. Our study is motivated by recent methods for optimization with differential privacy (DP), such as DP-FTRL, which inject noise via matrix factorization mechanisms. We propose an optimization problem that distils key facets of these DP methods and that involves perturbing gradients by linearly correlated noise. We derive improved convergence rates for gradient descent in this framework for convex and non-convex loss functions. Our theoretical analysis is novel and might be of independent interest. We use these convergence rates to develop new, effective matrix factorizations for differentially private optimization, and highlight the benefits of these factorizations theoretically and empirically.
翻訳日:2023-02-06 17:58:04 公開日:2023-02-02
# トラップ型超伝導ナノワイヤ単光線検出器の高耐RF性

Trap-Integrated Superconducting Nanowire Single-Photon Detectors with Improved RF Tolerance for Trapped-Ion Qubit State Readout ( http://arxiv.org/abs/2302.01462v1 )

ライセンス: Link先を確認
Benedikt Hampel, Daniel H. Slichter, Dietrich Leibfried, Richard P. Mirin, Sae Woo Nam, Varun B. Verma(参考訳) トラップ集積検出器によるトラップイオン量子ビットの状態読み出しは、スケーラブルな量子コンピューティングにおいて重要な課題に対処できるが、トラップに使用される強いrf電界は検出器の性能に影響を及ぼす。 本稿では,接地アルミニウム鏡を電気遮蔽材として用いたnbtin超伝導ナノワイヤ単光子検出器(snspds)について報告する。 シールドされたSNSPDは、最大で$\mathrm{54\,V_{peak}}$、最大で$\mathrm{70\,MHz}$、最大で$\mathrm{6\,K}$、最大で$\mathrm{68\,\%}$のrfトラップ電位で正常に動作することができる。 この性能は、典型的な低温発生装置において、広範囲に閉じ込められたイオン種の並列高忠実度読出しを可能にするのに十分である。

State readout of trapped-ion qubits with trap-integrated detectors can address important challenges for scalable quantum computing, but the strong rf electric fields used for trapping can impact detector performance. Here, we report on NbTiN superconducting nanowire single-photon detectors (SNSPDs) employing grounded aluminum mirrors as electrical shielding that are integrated into linear surface-electrode rf ion traps. The shielded SNSPDs can be successfully operated at applied rf trapping potentials of up to $\mathrm{54\,V_{peak}}$ at $\mathrm{70\,MHz}$ and temperatures of up to $\mathrm{6\,K}$, with a maximum system detection efficiency of $\mathrm{68\,\%}$. This performance should be sufficient to enable parallel high-fidelity state readout of a wide range of trapped ion species in typical cryogenic apparatus.
翻訳日:2023-02-06 17:57:53 公開日:2023-02-02
# クラス外分布検出のためのスライスwasserstein距離に基づくアプローチ

A sliced-Wasserstein distance-based approach for out-of-class-distribution detection ( http://arxiv.org/abs/2302.01459v1 )

ライセンス: Link先を確認
Mohammad Shifat E Rabbi, Abu Hasnat Mohammad Rubaiyat, Yan Zhuang, Gustavo K Rohde(参考訳) 多数の医療画像、画像処理、顔認証、医療診断、文字認識、自動運転車などのコンピュータビジョン応用など、インテリジェントシステムへの関心が高まっている。 これらの応用は通常、未知のデータ生成プロセスを伴う複雑な画像を含む複雑な分類問題を解く必要がある。 機能工学とディープラーニングによる最近の分類アプローチの成功に加えて、ロバスト性の欠如、一般化可能性、解釈可能性といったいくつかの欠点も観測されている。 これらの方法は、しばしば広範なトレーニングデータを必要とし、計算コストが高く、例えば逆攻撃のような分散サンプルに対して脆弱である。 近年,データ効率,計算効率,ロバストなトランスポートベース分類手法が提案され,分類問題の特定のカテゴリに対する生成モデルに基づく問題定式化と閉形式解が提案されている。 しかしながら、これらのアプローチには、トレーニング中に使用されるクラス分布の外でテストサンプルを検出するメカニズムがない。 収集されたトレーニングサンプルがすべてのクラスを消耗またはカバーできない現実の環境では、従来の分類スキームでは目に見えないクラスを効果的に処理できないため、特に自動運転や医療画像診断のような安全クリティカルなシステムでは問題となる。 本研究では,ラドン累積分布変換(r-cdt)部分空間からスライス・ワッサースタイン距離の分布に基づいてクラス外分布を検出する手法を提案する。 本手法をMNISTと2つの医用画像データセットで検証し, クラス外分布検出法を使わずに, 最先端の手法よりも精度が高いことを示した。

There exist growing interests in intelligent systems for numerous medical imaging, image processing, and computer vision applications, such as face recognition, medical diagnosis, character recognition, and self-driving cars, among others. These applications usually require solving complex classification problems involving complex images with unknown data generative processes. In addition to recent successes of the current classification approaches relying on feature engineering and deep learning, several shortcomings of them, such as the lack of robustness, generalizability, and interpretability, have also been observed. These methods often require extensive training data, are computationally expensive, and are vulnerable to out-of-distribution samples, e.g., adversarial attacks. Recently, an accurate, data-efficient, computationally efficient, and robust transport-based classification approach has been proposed, which describes a generative model-based problem formulation and closed-form solution for a specific category of classification problems. However, all these approaches lack mechanisms to detect test samples outside the class distributions used during training. In real-world settings, where the collected training samples are unable to exhaust or cover all classes, the traditional classification schemes are unable to handle the unseen classes effectively, which is especially an important issue for safety-critical systems, such as self-driving and medical imaging diagnosis. In this work, we propose a method for detecting out-of-class distributions based on the distribution of sliced-Wasserstein distance from the Radon Cumulative Distribution Transform (R-CDT) subspace. We tested our method on the MNIST and two medical image datasets and reported better accuracy than the state-of-the-art methods without an out-of-class distribution detection procedure.
翻訳日:2023-02-06 17:57:32 公開日:2023-02-02
# ノイズ平均場熱処理とコヒーレントイジングマシンにより得られた二次元アイジングモデルの熱力学量

Thermodynamic quantities of two-dimensional Ising models obtained by noisy mean field annealing and coherent Ising machine ( http://arxiv.org/abs/2302.01454v1 )

ライセンス: Link先を確認
Kensuke Inaba, Yasuhiro Yamada, Hiroki Takesue(参考訳) ノイズ平均場アニール (NMFA) は、イジング問題を解くための光学系であるコヒーレントイジングマシン (CIM) を模倣するアルゴリズムである。 NMFAは、スピンと平均場近似との相互作用を単純化しながらも、限られた大きさのシステムに対するCIMの解法性能を再現した。 しかし、様々な熱力学量を観察した最近の実験により、cimは平均場が捕捉できない二次元イジングモデルの相転移を捉えることができることが明らかになった。 この状況は、NMFAが相転移に伴う熱力学量の特徴をどれだけうまく捉えられるかという根本的な疑問に繋がる。 本報告では,NMFAは平均場の熱力学特性を再現するが,CIMの結果は再現できない。 これは、サンプリングの観点からは、CIMのパフォーマンスのレベルがNMFAのレベルを超えることを示唆している。

Noisy mean field annealing (NMFA) is an algorithm that mimics a coherent Ising machine (CIM), which is an optical system for solving Ising problems. The NMFA has reproduced the solver performance of the CIM for systems of limited size even though it simplifies the interaction between spins with a mean-field approximation. However, recent experiments observing various thermodynamic quantities have revealed that the CIM can capture the phase transitions of the two-dimensional Ising models that the mean field cannot capture. This situation leads to a fundamental question as to how well the NMFA can capture the features of the thermodynamic quantities around the phase transition. This paper answers that the NMFA reproduces the thermodynamic features of the mean field, but cannot reproduce the CIM results. This suggests that, in terms of sampling, the level of performance of the CIM is beyond that of the NMFA.
翻訳日:2023-02-06 17:57:04 公開日:2023-02-02
# 部分コヒーレンス対絡み合い

Partial coherence versus entanglement ( http://arxiv.org/abs/2302.01760v1 )

ライセンス: Link先を確認
Sunho Kim, Chunhe Xiong, Shunlong Luo, Asutosh Kumar, and Junde Wu(参考訳) 部分的コヒーレンスとその絡み合いとの関係について検討する。 まず、部分的不整合演算の下での双分極純状態変換に十分かつ必要条件を与える: 双分極純状態が、その部分的コヒーレンスベクトル間での偏化関係が成立する場合に限り、別の状態に変換することができる。 その結果, 極大部分コヒーレント状態の概念を, 部分的非コヒーレント操作によって同一系の任意の二成分状態を構築することができるという観点から導入する。 第二に、対称凹凸関数を用いて部分コヒーレンスの測定方法を構築するための戦略を提供する。 第3に,部分的コヒーレンスと絡み合いの関係を確立する。 局所ユニタリ操作の下での最小部分コヒーレンスは二成分純状態の絡み合いの尺度であり、凸ルーフによってすべての混合状態へ拡張できることを示した。 また,両部純状態に対する部分的不整合操作下での最大絡み合いにより部分的コヒーレンス対策が誘導されることを示した。 絡み合いと部分コヒーレンス測度の間には1対1の対応がある。

We study partial coherence and its connections with entanglement. First, we provide a sufficient and necessary condition for bipartite pure state transformation under partial incoherent operations: A bipartite pure state can be transformed to another one if and only if a majorization relationship holds between their partial coherence vectors. As a consequence, we introduce the concept of maximal partial coherent states in the sense that they can be used to construct any bipartite state of the same system via partial incoherent operations. Second, we provide a strategy to construct measures of partial coherence by the use of symmetric concave functions. Third, we establish some relationships between partial coherence and entanglement. We show that the minimal partial coherence under local unitary operations is a measure of entanglement for bipartite pure states, which can be extended to all mixed states by convex-roof. We also show that partial coherence measures are induced through maximal entanglement under partial incoherent operations for bipartite pure states. There is a one-to-one correspondence between entanglement and partial coherence measures.
翻訳日:2023-02-06 16:10:58 公開日:2023-02-02
# 確率的PCAモデルによるネットワークセキュリティ異常検出のための多変量統計ネットワーク監視フレームワークの理解

Leveraging a Probabilistic PCA Model to Understand the Multivariate Statistical Network Monitoring Framework for Network Security Anomaly Detection ( http://arxiv.org/abs/2302.01759v1 )

ライセンス: Link先を確認
Fernando P\'erez-Bueno and Luz Garc\'ia and Gabriel Maci\'a-Fern\'andez and Rafael Molina(参考訳) ネットワーク異常検出は、特にネットワークセキュリティの分野での複数の応用のために、現在非常に重要な研究分野である。 変分自己エンコーダと生成逆数ネットワークに基づく新しいモデルの強化は、従来の異常検出手法の再評価を動機付けている。 しかし、ネットワークセキュリティデータを異常検出のために何年も評価してきた経験から、これらの新しいモデルを理解することは不可欠である。 本稿では,確率的生成モデルの観点からPCAに基づく異常検出手法を再検討し,それらに関連する数学的モデルに寄与する。 具体的には,確率的PCAモデルから始め,その多変量統計ネットワークモニタリング(MSNM)フレームワークとの関係を説明する。 MSNMは、産業プロセスの異常検出経験をネットワーク分野に組み込む手段として、最近、成功した。 2つの異なるデータセットを用いて数学的モデルを評価した。 1つ目は、提案された分析をよりよく理解するために作成された合成データセットで、2つ目は、ネットワークセキュリティ異常検出用に特別に設計された実際のデータセット ugr'16 である。 我々は,ネットワークセキュリティ検出に生成モデルを適用する際に有用であると考えられる結論を導いた。

Network anomaly detection is a very relevant research area nowadays, especially due to its multiple applications in the field of network security. The boost of new models based on variational autoencoders and generative adversarial networks has motivated a reevaluation of traditional techniques for anomaly detection. It is, however, essential to be able to understand these new models from the perspective of the experience attained from years of evaluating network security data for anomaly detection. In this paper, we revisit anomaly detection techniques based on PCA from a probabilistic generative model point of view, and contribute a mathematical model that relates them. Specifically, we start with the probabilistic PCA model and explain its connection to the Multivariate Statistical Network Monitoring (MSNM) framework. MSNM was recently successfully proposed as a means of incorporating industrial process anomaly detection experience into the field of networking. We have evaluated the mathematical model using two different datasets. The first, a synthetic dataset created to better understand the analysis proposed, and the second, UGR'16, is a specifically designed real-traffic dataset for network security anomaly detection. We have drawn conclusions that we consider to be useful when applying generative models to network security detection.
翻訳日:2023-02-06 16:10:36 公開日:2023-02-02
# 絡み合いによる長距離非局所性試験と変位測定

Long Distance Nonlocality Test with Entanglement Swapping and Displacement-Based Measurements ( http://arxiv.org/abs/2302.01752v1 )

ライセンス: Link先を確認
Anders J. E. Bjerrum and Jonatan B. Brask and Jonas S. Neergaard-Nielsen and Ulrik L. Andersen(参考訳) 我々は,確率的絡み合いのスワップを利用して,ベルの不平等を長距離にわたって防止できる全光学装置を解析する。 この装置は2モードの圧縮機、変位、ビームスプリッター、オン/オフ検出器のみを含む。 本研究では,2次入力と出力を用いたシナリオを分析し,位相・振幅・暗数等の雑音や損失に関して,ベルの不等式違反の頑健性を確認した。

We analyze an all-optical setup which enables Bell-inequality violation over long distances by exploiting probabilistic entanglement swapping. The setup involves only two-mode squeezers, displacements, beamsplitters, and on/off detectors. We analyze a scenario with dichotomic inputs and outputs, and check the robustness of the Bell inequality violation for up to 6 parties, with respect to phase-, amplitude-, and dark-count noise, as well as loss.
翻訳日:2023-02-06 16:10:03 公開日:2023-02-02
# 複数の非線形非対称ゲートを持つ線形導波路における超音速非相互性学習

Machine Learning Extreme Acoustic Non-reciprocity in a Linear Waveguide with Multiple Nonlinear Asymmetric Gates ( http://arxiv.org/abs/2302.01746v1 )

ライセンス: Link先を確認
Anargyros Michaloliakos, Chongan Wang, Alexander F. Vakakis(参考訳) この研究は、2つの局所的非線形非対称ゲートを組み込んだ受動1次元線形導波路による音響的非相互性の研究である。 2つの局所非線形ゲートは導波路の対称性と線形性を壊し、高調波励起の応用によって非常に異なる音響応答が発生するように、強い大域的な非相反音響を生成する。 著者らの知る限りでは, この2本の導波路は, 能動型や受動型などにより報告されるものよりも, 極めて高い音響的非相反性を有しており, また, この極端な性能は, 所望の波動伝搬方向における透過性の許容レベルと組み合わさっている。 機械学習は、高次元パラメータ空間解析に必要な計算時間を短縮することを目的として、このゲート導波路の透過性と非相互性の尺度を用いて予測設計に使用される。 この研究は、これらのメディアの物理に新しい光を当て、この種の物理的問題を分析するためにニューラルネットワークを使用する利点と限界を考察している。 予測された非相反性予測パラメータ空間では、最大透過率は最大40%に達し、上流から下流への透過エネルギーは波の伝播方向によって最大9桁まで変化する。 この研究の数値的手法とともに機械学習ツールは、非相反導波路や局所非線形ゲートを組み込んだ音響メタマテリアルの予測設計に役立てることができる。 本論文は, 非線形ゲートの組み合わせは, 所望の透過性を維持しつつ, 極めて高い非相互性をもたらすことを示す。

This work is a study of acoustic non-reciprocity exhibited by a passive one-dimensional linear waveguide incorporating two local strongly nonlinear, asymmetric gates. Two local nonlinear gates break the symmetry and linearity of the waveguide, yielding strong global non-reciprocal acoustics, in the way that extremely different acoustical responses occur depending on the side of application of harmonic excitation. To the authors' best knowledge that the present two-gated waveguide is capable of extremely high acoustic non-reciprocity, at a much higher level to what is reported by active or passive devices in the current literature; moreover, this extreme performance combines with acceptable levels of transmissibility in the desired direction of wave propagation. Machine learning is utilized for predictive design of this gated waveguide in terms of the measures of transmissibility and non-reciprocity, with the aim of reducing the required computational time for high-dimensional parameter space analysis. The study sheds new light into the physics of these media and considers the advantages and limitations of using neural networks to analyze this type of physical problems. In the predicted desirable parameter space for intense non-reciprocity, the maximum transmissibility reaches as much as 40%, and the transmitted energy from upstream to downstream varies up to nine orders of magnitude, depending on the direction of wave transmission. The machine learning tools along with the numerical methods of this work can inform predictive designs of practical non-reciprocal waveguides and acoustic metamaterials that incorporate local nonlinear gates. The current paper shows that combinations of nonlinear gates can lead to extremely high non-reciprocity while maintaining desired levels of transmissibility.
翻訳日:2023-02-06 16:09:54 公開日:2023-02-02
# ボース・アインシュタイン凝縮体に浸漬した数体ボース気体のフェルミオン化

Fermionization of a Few-Body Bose Gas Immersed into a Bose-Einstein Condensate ( http://arxiv.org/abs/2302.01743v1 )

ライセンス: Link先を確認
Tim Keller, Thom\'as Fogarty, Thomas Busch(参考訳) ボース・アインシュタイン凝縮体に没入した成分が有限種内相互作用強度を持つ場合、準1次元2成分量子気体中の最近導入された自己ピン遷移(Phys. Lett. 128, 053401 (2022))について検討する。 物質波バックアクションの結果、無限種内反発の限界におけるフェルミオン化は、静的トラップポテンシャルの漸近的挙動とは対照的に、自己ピンド状態への一階の相転移によって起こる。 このシステムはまた、種間相互作用が種内反発を克服できる場合、浸漬された成分に対して追加の超流動状態を示す。 本稿では,過流動状態を含む解析モデルを提案し,位相図の遷移線への近似を導出する。 系の全位相図は、浸漬成分中のN=2原子とN=3原子の場合に数値的にマッピングされる。

We study the recently introduced self-pinning transition [Phys. Rev. Lett. 128, 053401 (2022)] in a quasi-one-dimensional two-component quantum gas in the case where the component immersed into the Bose-Einstein condensate has a finite intraspecies interaction strength. As a result of the matter-wave backaction, the fermionization in the limit of infinite intraspecies repulsion occurs via a first-order phase transition to the self-pinned state, which is in contrast to the asymptotic behavior in static trapping potentials. The system also exhibits an additional superfluid state for the immersed component if the interspecies interaction is able to overcome the intraspecies repulsion. We present an analytical model that includes the superfluid state and derive an approximation to the transition line in the phase diagram. The full phase diagram of the system is mapped out numerically for the case of N=2 and N=3 atoms in the immersed component.
翻訳日:2023-02-06 16:09:25 公開日:2023-02-02
# Avalanche: ディープラーニングのためのPyTorchライブラリ

Avalanche: A PyTorch Library for Deep Continual Learning ( http://arxiv.org/abs/2302.01766v1 )

ライセンス: Link先を確認
Antonio Carta, Lorenzo Pellegrini, Andrea Cossu, Hamed Hemati, Vincenzo Lomonaco(参考訳) 継続的学習は、非定常的なデータストリームから学習する問題であり、時間とともに深層ニューラルネットワークの持続的かつ効率的なトレーニングの基本的な問題である。 残念ながら、ディープラーニングライブラリは、モデルアーキテクチャとデータが固定されていると仮定して、オフライントレーニングのためのプリミティブのみを提供する。 Avalancheは、ContinualAIの非営利団体が管理するオープンソースライブラリで、動的アーキテクチャ、データセットストリーム、インクリメンタルトレーニングと評価方法のファーストクラスサポートを提供することで、PyTorchを拡張している。 Avalancheは、事前定義されたベンチマークとトレーニングアルゴリズムの大規模なセットを提供し、幅広い継続的な学習シナリオをサポートしながら、拡張とモジュール化が容易である。 ドキュメントは \url{https://avalanche.continualai.org} で入手できる。

Continual learning is the problem of learning from a nonstationary stream of data, a fundamental issue for sustainable and efficient training of deep neural networks over time. Unfortunately, deep learning libraries only provide primitives for offline training, assuming that model's architecture and data are fixed. Avalanche is an open source library maintained by the ContinualAI non-profit organization that extends PyTorch by providing first-class support for dynamic architectures, streams of datasets, and incremental training and evaluation methods. Avalanche provides a large set of predefined benchmarks and training algorithms and it is easy to extend and modular while supporting a wide range of continual learning scenarios. Documentation is available at \url{https://avalanche.continualai.org}.
翻訳日:2023-02-06 15:59:33 公開日:2023-02-02
# スピン相空間エントロピー生成速度における初期コヒーレンスの役割について

On the role of initial coherence in the spin phase-space entropy production rate ( http://arxiv.org/abs/2207.05627v3 )

ライセンス: Link先を確認
G. Zicari, B. \c{C}akmak, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu, M. Paternostro(参考訳) 近年の研究では、仕事、熱、エントロピー生成などの熱力学的関連性の数値が、システムで利用可能な量子コヒーレンス量に本質的に依存していることが指摘されている。 しかしながら、コヒーレンスがそのような熱力学性能の量化器によって取られた値の妨げとなるか、あるいは強化されるかはまだ確認されていない。 局所非ユニタリチャネルを介して有限サイズの二成分量子系を平衡から取り出す過程で発生するエントロピー生成を考えると、エントロピー生成と系の状態における量子コヒーレンス度の間には一般の単調性関係が存在しないことが示されている。 このような量間の直接対応は、好適に選択された初期状態に適用された特定の形態の開系力学を考えると得られる。 我々の結果は、量子プロセスの非平衡熱力学における真の量子特徴の役割を体系的に研究することを要求する。

Recent studies have pointed out the intrinsic dependence of figures of merit of thermodynamic relevance -- such as work, heat and entropy production -- on the amount of quantum coherences that is made available to a system. However, whether coherences hinder or enhance the value taken by such quantifiers of thermodynamic performance is yet to be ascertained. We show that, when considering entropy production generated in a process taking a finite-size bipartite quantum system out of equilibrium through local non-unitary channels, no general monotonicity relationship exists between the entropy production and degree of quantum coherence in the state of the system. A direct correspondence between such quantities can be retrieved when considering specific forms of open-system dynamics applied to suitably chosen initial states. Our results call for a systematic study of the role of genuine quantum features in the non-equilibrium thermodynamics of quantum processes.
翻訳日:2023-02-05 09:39:04 公開日:2023-02-02
# 符号問題と位相遷移の関係はいかに普遍的であるか

How universal is the relation between sign problem and phase transition ( http://arxiv.org/abs/2301.12438v2 )

ライセンス: Link先を確認
Zheng Yan, Jun-Song Sun, Gaopei Pan, Chen Cheng and Nvsen Ma(参考訳) 量子モンテカルロシミュレーションにおける悪名高い符号問題の謎は、フェルミオン系やフラストレーション系における手法の適用をうまく制限している。 最近の研究 (Science \textbf{375}, 418 (2022)) は、符号問題において顕著なブレークスルーを行い、符号と位相遷移の間の正のつながりを示唆した。 この議論は、凝縮物物理学、量子化学、核物理学など多体系に関連する様々な分野において極めて重要である。 異なる手法による典型例と数値シミュレーションの普遍的分析に基づいて,この記号の研究が,特定のモデルやアルゴリズムに依存しない一般システムにおける相転移に関する有用な情報を提供する時期と方法について論じる。 我々の結果は、悪名高いサインが量子多体問題の探索に新たな角度をもたらすことを支持しているが、このサインを活用することは、未知のシステムでサイン問題自体を中和するのと同じくらい困難であることにも気付く。

The mystery of the infamous sign problem in quantum Monte Carlo simulations mightily restricts applications of the method in fermionic and frustrated systems. A recent work [Science \textbf{375}, 418 (2022)] made a remarkable breakthrough in the sign problem and suggested a positive connection between the sign and phase transition. How general this argument is can be crucial in various fields related to many-body systems, such as condensed matter physics, quantum chemistry, and nuclear physics. Based on universal analyses of typical examples and numerical simulations from different approaches, we discuss when and how studying the sign can provide helpful information on phase transitions in general systems independent of specific models and algorithms. While our results support that the notorious sign offers new angles in exploring quantum many-body problems, we also notice that taking advantage of the sign can even be as challenging as neutralizing the sign problem itself in unknown systems.
翻訳日:2023-02-03 16:54:50 公開日:2023-02-02
# コンテンツキャッシングと省エネルギーのためのセマンティックス強化時間グラフネットワーク

Semantics-enhanced Temporal Graph Networks for Content Caching and Energy Saving ( http://arxiv.org/abs/2301.12355v2 )

ライセンス: Link先を確認
Jianhang Zhu, Rongpeng Li, Xianfu Chen, Shiwen Mao, Jianjun Wu, Zhifeng Zhao(参考訳) ネットワーク機器やユーザの増加は、マルチメディアサービスにおけるインターネットトラフィックの大幅な増加を意味する。 トラフィックプレッシャーを軽減するため、ネットワーク上のストレージを持つアーキテクチャは、ユーザに近いノードで人気のあるコンテンツをキャッシュし、バックホールリンクを短縮する。 一方、伝送距離の削減は省エネにも寄与している。 しかし、ストレージが限られているため、キャッシュできるコンテンツはごくわずかだが、最も人気のあるコンテンツのキャッシュは費用対効果が高い。 それに応じて、効果的な人気予測方法を考案することが不可欠となる。 この点において、既存の取り組みでは動的グラフニューラルネットワーク(DGNN)モデルを採用しているが、スパースデータセットに取り組むことは依然として難しい。 本稿ではまず,dgnnモデルの時間的および構造的学習を強化するために,追加的な意味的メッセージを利用するstgnと呼ばれる修正時相グラフネットワークを提案する。 さらに,様々なセマンティクスを細粒度に集約するユーザ固有の注意機構を提案する。 最後に、広範囲なシミュレーションにより、STGNモデルの優位性を検証し、省エネの可能性を示す。

The enormous amount of network equipment and users implies a tremendous growth of Internet traffic for multimedia services. To mitigate the traffic pressure, architectures with in-network storage are proposed to cache popular content at nodes in close proximity to users to shorten the backhaul links. Meanwhile, the reduction of transmission distance also contributes to the energy saving. However, due to limited storage, only a fraction of the content can be cached, while caching the most popular content is cost-effective. Correspondingly, it becomes essential to devise an effective popularity prediction method. In this regard, existing efforts adopt dynamic graph neural network (DGNN) models, but it remains challenging to tackle sparse datasets. In this paper, we first propose a reformative temporal graph network, which is named STGN, that utilizes extra semantic messages to enhance the temporal and structural learning of a DGNN model, since the consideration of semantics can help establish implicit paths within the sparse interaction graph and hence improve the prediction performance. Furthermore, we propose a user-specific attention mechanism to fine-grainedly aggregate various semantics. Finally, extensive simulations verify the superiority of our STGN models and demonstrate their high potential in energy-saving.
翻訳日:2023-02-03 16:54:32 公開日:2023-02-02
# ラベル効率の高いインクリメンタル学習に向けて:調査

Towards Label-Efficient Incremental Learning: A Survey ( http://arxiv.org/abs/2302.00353v2 )

ライセンス: Link先を確認
Mert Kilickaya, Joost van de Weijer and Yuki M. Asano(参考訳) 機械学習モデルを構築する際の現在の支配的なパラダイムは、収束するまでデータセットを何度も繰り返すことです。 このようなアプローチは非規範的であり、すべてのカテゴリの画像へのアクセスを一度に想定している。 しかし、多くのアプリケーションにとって、非増分学習は非現実的である。 そこで研究者たちは、学習者が過去の知識の忘れを防ぎながら、様々な分布を持つ入力データストリームに適応する必要があるインクリメンタルラーニングを研究する。 しかし、多くの作品が完全に監督された設定に焦点を合わせており、これらのアルゴリズムをラベル・ハングリーにすることで実際の展開を制限している。 そこで本稿では,ラベル効率の高いインクリメンタル・ラーニングに対する関心が高まっている最近の調査を初めて実施する。 ラベル付け作業を減らすために, セミショット, 数ショット, 自己教師型学習の3つの区分を同定した。 最後に,ラベル効率をさらに向上させ,インクリメンタル・ラーニング・スケーラビリティを向上させるための新しい方向を特定する。 プロジェクトウェブサイト: https://github.com/kilickaya/label-efficient-il

The current dominant paradigm when building a machine learning model is to iterate over a dataset over and over until convergence. Such an approach is non-incremental, as it assumes access to all images of all categories at once. However, for many applications, non-incremental learning is unrealistic. To that end, researchers study incremental learning, where a learner is required to adapt to an incoming stream of data with a varying distribution while preventing forgetting of past knowledge. Significant progress has been made, however, the vast majority of works focus on the fully supervised setting, making these algorithms label-hungry thus limiting their real-life deployment. To that end, in this paper, we make the first attempt to survey recently growing interest in label-efficient incremental learning. We identify three subdivisions, namely semi-, few-shot- and self-supervised learning to reduce labeling efforts. Finally, we identify novel directions that can further enhance label-efficiency and improve incremental learning scalability. Project website: https://github.com/kilickaya/label-efficient-il.
翻訳日:2023-02-03 16:46:36 公開日:2023-02-02
# 因果関係の方法・課題・展望に関する調査

A Survey of Methods, Challenges and Perspectives in Causality ( http://arxiv.org/abs/2302.00293v2 )

ライセンス: Link先を確認
Ga\"el Gendron, Michael Witbrock and Gillian Dobbie(参考訳) 因果関係を明らかにするための体系的な方法を見つけることを目的としている。 このような手法は、多くの研究分野に応用され、この分野に対する大きな関心を正当化することができる。 機械学習モデルは、高次元データから相関パターンを抽出することで、様々なタスクで成功したが、初期分布を一般化する際にはまだ苦労している。 因果エンジンはデータ配信から独立したメカニズムを学習することを目的としているため、機械学習と因果関係を組み合わせることで、2つの分野にメリットをもたらす可能性がある。 私たちの仕事では、この仮定にモチベーションを与え、アプリケーションを提供します。 まず、様々な観点から因果関係の理論と方法について概観する。 次に、因果関係と機械学習の関係をより深く観察し、2つのドメインが直面する課題について説明する。 フィールドをまとめようという初期の試みと、将来の展望を示します。 私たちはCausalityのテクニックに対して、さまざまなアプリケーションを提供することで終了します。

The Causality field aims to find systematic methods for uncovering cause-effect relationships. Such methods can find applications in many research fields, justifying a great interest in this domain. Machine Learning models have shown success in a large variety of tasks by extracting correlation patterns from high-dimensional data but still struggle when generalizing out of their initial distribution. As causal engines aim to learn mechanisms that are independent from a data distribution, combining Machine Learning with Causality has the potential to bring benefits to the two fields. In our work, we motivate this assumption and provide applications. We first perform an extensive overview of the theories and methods for Causality from different perspectives. We then provide a deeper look at the connections between Causality and Machine Learning and describe the challenges met by the two domains. We show the early attempts to bring the fields together and the possible perspectives for the future. We finish by providing a large variety of applications for techniques from Causality.
翻訳日:2023-02-03 16:46:18 公開日:2023-02-02
# ジョイントリスト:ジョイントトレーニングによるマルチインストラクト転写と音源分離の同時改善

Jointist: Simultaneous Improvement of Multi-instrument Transcription and Music Source Separation via Joint Training ( http://arxiv.org/abs/2302.00286v2 )

ライセンス: Link先を確認
Kin Wai Cheuk, Keunwoo Choi, Qiuqiang Kong, Bochen Li, Minz Won, Ju-Chiang Wang, Yun-Ning Hung, Dorien Herremans(参考訳) 本稿では,複数の楽器を音声クリップから書き起こし,認識し,分離することのできる,楽器を意識したマルチインストラクトフレームワークであるJointistを紹介する。 ジョイントリストは、他の2つのモジュールを条件とする楽器認識モジュールと、楽器固有のピアノロールを出力する転写モジュールと、楽器情報と転写結果を利用するソース分離モジュールで構成されている。 転写およびソース分離モジュールの共同トレーニングは、両方のタスクのパフォーマンスを向上させるのに役立つ。 instrumentモジュールはオプションで、人間によって直接制御できる。 これによってjointistはフレキシブルなユーザコントロール可能なフレームワークになる。 我々の挑戦的な問題定式化は、現代ポピュラー音楽が一般的に複数の楽器で構成されていることを考えると、実世界では非常に有用である。 しかし、その新しさは、そのようなモデルを評価する新しい視点を必要としている。 実験では,提案手法を様々な側面から評価し,多構成転写の新たな評価視点を提供する。 主観的な聞き取り調査により,mt3のような既存のマルチインストゥルメント転写モデルと比較して,ジョイントストはポピュラー音楽において最先端のパフォーマンスを達成していることが示された。 その結果,提案手法では1パーセンテージ(ppt)以上,ソース分離(5sdr),ダウンビート検出(1.8ppt)が改善した。 1.4pptでコード認識を行う。 1.4pptであった。 は、Jointistから得られた転写結果を利用する場合。 デモは \url{https://jointist.github.io/Demo} で公開されている。

In this paper, we introduce Jointist, an instrument-aware multi-instrument framework that is capable of transcribing, recognizing, and separating multiple musical instruments from an audio clip. Jointist consists of an instrument recognition module that conditions the other two modules: a transcription module that outputs instrument-specific piano rolls, and a source separation module that utilizes instrument information and transcription results. The joint training of the transcription and source separation modules serves to improve the performance of both tasks. The instrument module is optional and can be directly controlled by human users. This makes Jointist a flexible user-controllable framework. Our challenging problem formulation makes the model highly useful in the real world given that modern popular music typically consists of multiple instruments. Its novelty, however, necessitates a new perspective on how to evaluate such a model. In our experiments, we assess the proposed model from various aspects, providing a new evaluation perspective for multi-instrument transcription. Our subjective listening study shows that Jointist achieves state-of-the-art performance on popular music, outperforming existing multi-instrument transcription models such as MT3. We conducted experiments on several downstream tasks and found that the proposed method improved transcription by more than 1 percentage points (ppt.), source separation by 5 SDR, downbeat detection by 1.8 ppt., chord recognition by 1.4 ppt., and key estimation by 1.4 ppt., when utilizing transcription results obtained from Jointist. Demo available at \url{https://jointist.github.io/Demo}.
翻訳日:2023-02-03 16:46:05 公開日:2023-02-02
# 反統一と一般化:調査

Anti-unification and Generalization: A Survey ( http://arxiv.org/abs/2302.00277v2 )

ライセンス: Link先を確認
David M. Cerna and Temur Kutsia(参考訳) 反ユニフィケーション(英: anti-unification, AU)は、帰納的推論に使用される基本演算であり、定理証明の基礎における演算である統一に対する二重演算である。 AIとその関連コミュニティからのAUへの関心は高まっているが、この概念の体系的な研究や既存の研究の調査がなければ、調査7はしばしば、既存のアプローチによってカバーされる可能性のあるアプリケーション固有の手法の開発に頼っている。 我々は、AU研究とその応用に関する最初の調査と、現在および将来の開発を分類するための一般的なフレームワークを提供する。

Anti-unification (AU), also known as generalization, is a fundamental operation used for inductive inference and is the dual operation to unification, an operation at the foundation of theorem proving. Interest in AU from the AI and related communities is growing, but without a systematic study of the concept, nor surveys of existing work, investigations7 often resort to developing application-specific methods that may be covered by existing approaches. We provide the first survey of AU research and its applications, together with a general framework for categorizing existing and future developments.
翻訳日:2023-02-03 16:45:39 公開日:2023-02-02
# テキスト誘導ビデオ生成によるユニバーサルポリシーの学習

Learning Universal Policies via Text-Guided Video Generation ( http://arxiv.org/abs/2302.00111v2 )

ライセンス: Link先を確認
Yilun Du, Mengjiao Yang, Bo Dai, Hanjun Dai, Ofir Nachum, Joshua B. Tenenbaum, Dale Schuurmans, Pieter Abbeel(参考訳) 人工知能の目標は、さまざまなタスクを解決できるエージェントを構築することである。 テキスト誘導画像合成の最近の進歩は、複雑な新しい画像を生成する能力を持つ印象的なモデルを生み出した。 この成功に動機づけられたツールが、より汎用的なエージェントを構築するのに使えるかどうかを調査した。 具体的には、所望のゴールのテキスト符号化仕様を前提として、計画者は、将来計画されたアクションを記述した将来のフレームを合成し、生成したビデオから制御アクションを抽出する、テキスト条件付きビデオ生成問題としてシーケンシャル意思決定問題を論じる。 テキストを基礎となる目標仕様として活用することにより、自然かつ組合せ的に新しい目標に一般化することができる。 提案するポリシ・アズ・ビデオの定式化は,画像の統一空間における状態と動作空間の異なる環境を,例えば様々なロボット操作タスクにおける学習と一般化を可能にする。 最後に、事前訓練された言語埋め込みとインターネットから広く利用可能なビデオを活用することで、実際のロボットに対して非常に現実的なビデオプランを予測することによって、知識伝達を可能にする。

A goal of artificial intelligence is to construct an agent that can solve a wide variety of tasks. Recent progress in text-guided image synthesis has yielded models with an impressive ability to generate complex novel images, exhibiting combinatorial generalization across domains. Motivated by this success, we investigate whether such tools can be used to construct more general-purpose agents. Specifically, we cast the sequential decision making problem as a text-conditioned video generation problem, where, given a text-encoded specification of a desired goal, a planner synthesizes a set of future frames depicting its planned actions in the future, after which control actions are extracted from the generated video. By leveraging text as the underlying goal specification, we are able to naturally and combinatorially generalize to novel goals. The proposed policy-as-video formulation can further represent environments with different state and action spaces in a unified space of images, which, for example, enables learning and generalization across a variety of robot manipulation tasks. Finally, by leveraging pretrained language embeddings and widely available videos from the internet, the approach enables knowledge transfer through predicting highly realistic video plans for real robots.
翻訳日:2023-02-03 16:45:28 公開日:2023-02-02
# braixdet:不完全アノテーションによる乳腺悪性病変検出の学習

BRAIxDet: Learning to Detect Malignant Breast Lesion with Incomplete Annotations ( http://arxiv.org/abs/2301.13418v2 )

ライセンス: Link先を確認
Yuanhong Chen, Yuyuan Liu, Chong Wang, Michael Elliott, Chun Fung Kwok, Carlos Pena-Solorzano, Yu Tian, Fengbei Liu, Helen Frazer, Davis J. McCarthy, Gustavo Carneiro(参考訳) マンモグラムのスクリーニングから悪性病変を検出する方法は、通常、完全な注釈付きデータセットで訓練され、画像はがん病変の局所化と分類でラベル付けされる。 しかし、現実世界の検診用マンモグラムデータセットは、完全に注釈付けされた部分集合と、グローバル分類(つまり、病変の局所化のない部分集合)で弱い注釈を持つ。 このようなデータセットの大きさを考えると、研究者は通常、弱いアノテートされたサブセットとのジレンマに直面します。 第1の選択肢は、データセット全体を使用しないため、検出精度を低下させる。第2の選択肢は、専門家の放射線技師がアノテーションを行う必要があるため、高価すぎる。 本稿では,このジレンマの中間的解決法を提案する。これは,不完全アノテーションによる悪性乳腺病変検出と呼ばれる,弱い,半教師あり学習問題としてトレーニングを定式化するものである。 この問題に対処するため,本手法は以下の2つの段階からなる。 1)データセット全体からの監督が弱いマルチビューマンモグラム分類器の事前学習,および 2) 訓練された分類器を、セミ教師付き学生-教師学習で訓練されたマルチビュー検出器に拡張し、トレーニングセットは、完全かつ弱注釈のマンモグラムを含む。 不完全アノテーションを含む2つの実世界の検診用マンモグラムデータセットの広範な検出結果を示し,本手法が不完全アノテーションによる悪性乳腺病変の検出に最先端の結果をもたらすことを示す。

Methods to detect malignant lesions from screening mammograms are usually trained with fully annotated datasets, where images are labelled with the localisation and classification of cancerous lesions. However, real-world screening mammogram datasets commonly have a subset that is fully annotated and another subset that is weakly annotated with just the global classification (i.e., without lesion localisation). Given the large size of such datasets, researchers usually face a dilemma with the weakly annotated subset: to not use it or to fully annotate it. The first option will reduce detection accuracy because it does not use the whole dataset, and the second option is too expensive given that the annotation needs to be done by expert radiologists. In this paper, we propose a middle-ground solution for the dilemma, which is to formulate the training as a weakly- and semi-supervised learning problem that we refer to as malignant breast lesion detection with incomplete annotations. To address this problem, our new method comprises two stages, namely: 1) pre-training a multi-view mammogram classifier with weak supervision from the whole dataset, and 2) extending the trained classifier to become a multi-view detector that is trained with semi-supervised student-teacher learning, where the training set contains fully and weakly-annotated mammograms. We provide extensive detection results on two real-world screening mammogram datasets containing incomplete annotations, and show that our proposed approach achieves state-of-the-art results in the detection of malignant breast lesions with incomplete annotations.
翻訳日:2023-02-03 16:45:06 公開日:2023-02-02
# ニューラルネットワークのデバイアス化のための対向的特徴学習戦略

An adversarial feature learning strategy for debiasing neural networks ( http://arxiv.org/abs/2301.13293v2 )

ライセンス: Link先を確認
Rishabh Tiwari, Pradeep Shenoy(参考訳) 単純さバイアス(Simplicity bias)とは、より強くより複雑な特徴を排除し、単純で弱い予測的特徴に深く依存するディープネットワークの傾向である。 これは、多くの実世界のアプリケーションにおいてバイアス付き不正確なモデル予測を引き起こし、突発的な特徴ラベル相関を含む不完全なトレーニングデータによって悪化する。 本稿では,DNNにおける単純さバイアスに対処するための直接的,介入的手法を提案する。 我々は,ネットワークの下位層で容易に計算可能なスプリアス機能を自動的に識別し,抑制することを目指しており,より高いネットワークレベルがよりリッチで意味のある表現を抽出し,活用できるようにする。 我々は、制御されたデータセットと実世界の画像の両方に関連した特徴のこの差分抑制と強化の具体的な証拠を提供し、多くの実世界のデバイアスベンチマーク(Imagenet-Aでは11.4%、BARでは3.2%)でかなりの利得を報告している。 重要なのは、このような情報を使用しない方法にもかかわらず、既知のスプリアス属性やバイアス属性に関する知識を組み込んだ多くのベースラインよりも優れています。 深層ネットワークにおける特徴抽出と表現学習の自動化において,我々の機能シーブ作業がエキサイティングな新たな研究方向を開くと信じています。

Simplicity bias is the concerning tendency of deep networks to over-depend on simple, weakly predictive features, to the exclusion of stronger, more complex features. This causes biased, incorrect model predictions in many real-world applications, exacerbated by incomplete training data containing spurious feature-label correlations. We propose a direct, interventional method for addressing simplicity bias in DNNs, which we call the feature sieve. We aim to automatically identify and suppress easily-computable spurious features in lower layers of the network, thereby allowing the higher network levels to extract and utilize richer, more meaningful representations. We provide concrete evidence of this differential suppression & enhancement of relevant features on both controlled datasets and real-world images, and report substantial gains on many real-world debiasing benchmarks (11.4% relative gain on Imagenet-A; 3.2% on BAR, etc). Crucially, we outperform many baselines that incorporate knowledge about known spurious or biased attributes, despite our method not using any such information. We believe that our feature sieve work opens up exciting new research directions in automated adversarial feature extraction & representation learning for deep networks.
翻訳日:2023-02-03 16:44:25 公開日:2023-02-02
# 一般計測フレーム上のシャドウトモグラフィ

Shadow tomography on general measurement frames ( http://arxiv.org/abs/2301.13229v2 )

ライセンス: Link先を確認
Luca Innocenti, Salvatore Lorenzo, Ivan Palmisano, Francesco Albarelli, Alessandro Ferraro, Mauro Paternostro, G. Massimo Palma(参考訳) 観測フレームの一般理論との深い関係を示すことによって,影トモグラフィーの新しい視点を提供する。 測定フレームの形式化がシャドウトモグラフィーの自然な枠組みであることを示すことによって、'古典的なシャドウ'は、与えられた測定に関連付けられた適切な2つのフレームから導かれる偏りのない推定値に対応する。 このような視点から,計測結果の処理に使用される計測,再構成観測,推定値間の相互作用を検証し,入力状態と基底空間の寸法が推定誤差に与える影響を評価する方法を提案する。 本手法は[H]で記述した手法を一般化する。 -y。 Huang et al. など。 Nat, Nat。 Phys 16, 1050 (2020)] は, 共変測定フレームの特別な場合において, 結果が回収される。 そこで本研究では,厳密なランク-1測定フレームのクラス全体に対して,シャドウトモグラフィの追尾目標を達成できることを実証する。つまり,要求されるサンプル数と状態次元の増大を回避しつつ,有限個の一般的なランク-1有界可観測集合を正確に推定することが可能である。

We provide a new perspective on shadow tomography by demonstrating its deep connections with the general theory of measurement frames. By showing that the formalism of measurement frames offers a natural framework for shadow tomography -- in which ``classical shadows'' correspond to unbiased estimators derived from a suitable dual frame associated with the given measurement -- we highlight the intrinsic connection between standard state tomography and shadow tomography. Such perspective allows us to examine the interplay between measurements, reconstructed observables, and the estimators used to process measurement outcomes, while paving the way to assess the influence of the input state and the dimension of the underlying space on estimation errors. Our approach generalizes the method described in [H.-Y. Huang {\it et al.}, Nat. Phys. 16, 1050 (2020)], whose results are recovered in the special case of covariant measurement frames. As an application, we demonstrate that a sought-after target of shadow tomography can be achieved for the entire class of tight rank-1 measurement frames -- namely, that it is possible to accurately estimate a finite set of generic rank-1 bounded observables while avoiding the growth of the number of the required samples with the state dimension.
翻訳日:2023-02-03 16:44:01 公開日:2023-02-02
# アクティブシーケンシャル2サンプルテスト

Active Sequential Two-Sample Testing ( http://arxiv.org/abs/2301.12616v3 )

ライセンス: Link先を確認
Weizhi Li, Karthikeyan Natesan Ramamurthy, Prad Kadambi, Pouria Saidi, Gautam Dasarathy, Visar Berisha(参考訳) 2つのサンプルを生成する分布が同一かどうかを2サンプルでテストした。 サンプル測定(またはサンプル特徴)が安価にアクセスできるが、グループメンバーシップ(またはラベル)が高価である新しいシナリオにおいて、2サンプルテストの問題を提起する。 この問題に対処するために,最初の \emph{active sequential two-sample testing framework} を逐次的だけでなく, \emph{actively query} サンプルラベルも考案した。 我々のテスト統計は、全てのクラス前の最大化によって1つの確率が見つかる確率比であり、もう1つは分類モデルによって与えられる。 分類モデルは適応的に更新され、次にbimodal queryと呼ばれるアクティブなクエリスキームを導いて、特徴変数とラベル変数の間に高い依存性を持つ領域のサンプルフィーチャをラベル付けする。 本論文の理論的貢献は,我々のフレームワークが<emph{anytime-valid} $p$-value</e>を生成すること,そして,到達可能な条件と軽微な仮定の下で,このフレームワークは,特徴変数とラベル変数が最も依存度が高い場合にのみ,受動的クエリスキームが達成できる最小正規化対数比統計を漸近的に生成する。 最後に、受動的クエリからアクティブクエリにいつ切り替えるかを判断し、バイモーダルクエリを適用してテストの試験能力を高めるために、 \emph{query-switching (QS)アルゴリズムを提供する。 広範な実験は、理論的な貢献とqsの有効性を正当化する。

Two-sample testing tests whether the distributions generating two samples are identical. We pose the two-sample testing problem in a new scenario where the sample measurements (or sample features) are inexpensive to access, but their group memberships (or labels) are costly. We devise the first \emph{active sequential two-sample testing framework} that not only sequentially but also \emph{actively queries} sample labels to address the problem. Our test statistic is a likelihood ratio where one likelihood is found by maximization over all class priors, and the other is given by a classification model. The classification model is adaptively updated and then used to guide an active query scheme called bimodal query to label sample features in the regions with high dependency between the feature variables and the label variables. The theoretical contributions in the paper include proof that our framework produces an \emph{anytime-valid} $p$-value; and, under reachable conditions and a mild assumption, the framework asymptotically generates a minimum normalized log-likelihood ratio statistic that a passive query scheme can only achieve when the feature variable and the label variable have the highest dependence. Lastly, we provide a \emph{query-switching (QS)} algorithm to decide when to switch from passive query to active query and adapt bimodal query to increase the testing power of our test. Extensive experiments justify our theoretical contributions and the effectiveness of QS.
翻訳日:2023-02-03 16:43:39 公開日:2023-02-02
# ndjir: 実際の物体の幾何学、光、および材料のための神経直接および合同逆レンダリング

NDJIR: Neural Direct and Joint Inverse Rendering for Geometry, Lights, and Materials of Real Object ( http://arxiv.org/abs/2302.00675v1 )

ライセンス: Link先を確認
Kazuki Yoshiyama, Takuya Narihira(参考訳) 逆レンダリングの目標は、幾何、光、多視点画像の素材を分解することである。 この目的を達成するために、ニューラルダイレクトおよびジョイント逆レンダリング(NDJIR)を提案する。 レンダリング方程式の近似に依存する以前の研究と異なり、NDJIRは直接レンダリング方程式の積分に対処し、幾何学を共同で分解する:符号付き距離関数、光:環境と暗黙の光、材料:ベース色、粗さ、スペクトル反射率、強力で柔軟なボリュームレンダリングフレームワーク、ボクセルグリッド特徴、ベイズ前駆体。 本手法では, 物理的レンダリングを直接使用することにより, 抽出したメッシュをDCCツールにシームレスにエクスポートし, 材料変換例を示す。 提案手法は,フォトグラム設定における実物体のセマンティックな分解や,正確な逆レンダリングに寄与する要因を示すため,集中的な実験を行う。

The goal of inverse rendering is to decompose geometry, lights, and materials given pose multi-view images. To achieve this goal, we propose neural direct and joint inverse rendering, NDJIR. Different from prior works which relies on some approximations of the rendering equation, NDJIR directly addresses the integrals in the rendering equation and jointly decomposes geometry: signed distance function, lights: environment and implicit lights, materials: base color, roughness, specular reflectance using the powerful and flexible volume rendering framework, voxel grid feature, and Bayesian prior. Our method directly uses the physically-based rendering, so we can seamlessly export an extracted mesh with materials to DCC tools and show material conversion examples. We perform intensive experiments to show that our proposed method can decompose semantically well for real object in photogrammetric setting and what factors contribute towards accurate inverse rendering.
翻訳日:2023-02-03 16:35:10 公開日:2023-02-02
# 高精度リコールダイバージェンスを用いた正規化フローの訓練

Training Normalizing Flows with the Precision-Recall Divergence ( http://arxiv.org/abs/2302.00628v2 )

ライセンス: Link先を確認
Alexandre Verine, Benjamin Negrevergne, Muni Sreenivas Pydi, Yann Chevaleyre(参考訳) 生成モデルは、モードドロップや低品質のサンプルのような異なる障害モードを持つことができ、単一のスカラーメトリックではキャプチャできない。 そこで本研究では, 試料の質を高精度に測定し, 目標分布のカバレッジを評価するため, 精度とリコールを用いた生成モデルの評価を提案する。 生成モデルの訓練には,目標と推定分布の相違点が多岐にわたって使用されているが,その相違点の選択によって,どの程度の精度・リコールトレードオフが達成されるのかは明らかでない。 本稿では,特定精度リコールトレードオフを達成することは,我々が「.em PR-divergences }」と呼ぶ家族からの発散を最小化することに相当することを示す。 逆に、任意の-divergence は pr-divergences の線形結合として書くことができ、したがって重み付き精度-リコールトレードオフの最小化に対応する。 さらに,正規化フローを訓練し,任意の-divergenceを最小化し,特に与えられた精度-リコールトレードオフを達成する新しい生成モデルを提案する。

Generative models can have distinct mode of failures like mode dropping and low quality samples, which cannot be captured by a single scalar metric. To address this, recent works propose evaluating generative models using precision and recall, where precision measures quality of samples and recall measures the coverage of the target distribution. Although a variety of discrepancy measures between the target and estimated distribution are used to train generative models, it is unclear what precision-recall trade-offs are achieved by various choices of the discrepancy measures. In this paper, we show that achieving a specified precision-recall trade-off corresponds to minimising -divergences from a family we call the {\em PR-divergences }. Conversely, any -divergence can be written as a linear combination of PR-divergences and therefore correspond to minimising a weighted precision-recall trade-off. Further, we propose a novel generative model that is able to train a normalizing flow to minimise any -divergence, and in particular, achieve a given precision-recall trade-off.
翻訳日:2023-02-03 16:34:47 公開日:2023-02-02
# 二重量子井戸を用いた微小キャビティの強い機械的スクイーズ

Strong mechanical squeezing in microcavity with double quantum wells ( http://arxiv.org/abs/2302.00534v2 )

ライセンス: Link先を確認
Muhammad Asjad, Berihu Teklu, and Hichem Eleuch(参考訳) 二色レーザーで励起された移動端ミラーを備えたキャビティ内に2つの量子井戸を配置したハイブリッド量子システムにおいて、メカニカル共振器のスクイーズ状態を生成する。 エキシトンモードとメカニカル共振器はマイクロキャビティフィールドを介して間接的に相互作用する。 生成した結合条件下では, 実験パラメータで解決されたサイドバンド状態を超えて, 機械モードのスクイーズを予測できる。 最後に, メカニカルモードのスクイーズは, フォノン熱浴温度に対して頑健であることを示す。

We address the creation of squeezed states of a mechanical resonator in a hybrid quantum system consisting of two quantum wells placed inside a cavity with a moving end mirror pumped by bichromatic laser fields. The exciton mode and mechanical resonator interact indirectly via microcavity fields. Under the conditions of the generated coupling, we predict squeezing of the mechanical-mode beyond the resolved side-band regime with available experimental parameters. Finally, we show that the squeezing of the mechanical mode is robust against the phonon thermal bath temperature.
翻訳日:2023-02-03 16:34:27 公開日:2023-02-02
# 蒸留政策最適化

Distillation Policy Optimization ( http://arxiv.org/abs/2302.00533v2 )

ライセンス: Link先を確認
Jianfei Ma(参考訳) しかし、オン・ポリシーのアルゴリズムはまだ安定しているはずだ。 過去の経験を利用したオフポリシーアルゴリズムは、一般的にはサンプル効率だが不安定であると考えられている。 法外データを活用するアルゴリズムを設計できる一方で、法外通路に沿って航行することで安定した学習を活用できるだろうか? 本稿では,関心の分布的視点を借用して評価し,高速な学習を可能にし,幅広いアルゴリズムに適用可能な,政策改善のための2つのデータソースを交互に交配する,アクタ-批判学習フレームワークを提案する。 そのバックボーンにおいて、一般化された優位推定器(GAE)を任意の状態依存ベースラインに適用するように拡張する統一的優位推定器(UAE)や、政策勾配の安定化に長けた学習ベースラインなどの分散低減機構を第一に、単にアクション値関数へのブリッジであるだけでなく、有利な学習信号を蒸留する。 最後に,本手法がサンプル効率を向上し,異なるレベルを補間できることが実証的に示される。 有機的な全体であり、その混合はアルゴリズム設計により多くのインスピレーションを与える。

On-policy algorithms are supposed to be stable, however, sample-intensive yet. Off-policy algorithms utilizing past experiences are deemed to be sample-efficient, nevertheless, unstable in general. Can we design an algorithm that can employ the off-policy data, while exploit the stable learning by sailing along the course of the on-policy walkway? In this paper, we present an actor-critic learning framework that borrows the distributional perspective of interest to evaluate, and cross-breeds two sources of the data for policy improvement, which enables fast learning and can be applied to a wide class of algorithms. In its backbone, the variance reduction mechanisms, such as unified advantage estimator (UAE), that extends generalized advantage estimator (GAE) to be applicable on any state-dependent baseline, and a learned baseline, that is competent to stabilize the policy gradient, are firstly put forward to not merely be a bridge to the action-value function but also distill the advantageous learning signal. Lastly, it is empirically shown that our method improves sample efficiency and interpolates different levels well. Being of an organic whole, its mixture places more inspiration to the algorithm design.
翻訳日:2023-02-03 16:34:20 公開日:2023-02-02
# 確率論理プログラミングのハイブリッド:推論と学習

Hybrid Probabilistic Logic Programming: Inference and Learning ( http://arxiv.org/abs/2302.00496v2 )

ライセンス: Link先を確認
Nitesh Kumar(参考訳) この論文は確率論的論理プログラミング(PLP)の進歩に焦点を当て、不確実性の確率理論と関係性のための論理プログラミングを組み合わせたものである。 この論文は、数値データを持つアプリケーションに必要な離散変数と連続変数の両方をサポートするためにPLPを拡張することを目的としている。 最初の貢献は、計算のゲインにコンテキスト固有の非依存を利用する新しいサンプリングアルゴリズムcs-lw(context-specific likelihood weighting)の導入である。 次に、新しいハイブリッドPLPであるDC#が導入され、分散クロースとベイズ論理プログラムの構文を統合し、3種類の非依存性を表す。 一 ベイズネットワークでモデル化された条件不一致(CI) 二 論理規則で表される文脈特化独立度(CSIs) 三 規則の組み合わせにより表される関係モデルにおける関連対象の属性の差分 スケーラブルな推論アルゴリズムFO-CS-LWがDC#で導入された。 最後に、この論文は、ハイブリッドPLPの構造とパラメータを学習し、リレーショナルオートコンプリート問題に取り組むDiceMLの導入により、リレーショナルデータから(確率的な)バックグラウンド知識を欠くハイブリッドPLPを学習するためのアプローチの欠如に対処する。 この結論は,ハイブリッドPLPの今後の方向性と課題を論じるものである。

This thesis focuses on advancing probabilistic logic programming (PLP), which combines probability theory for uncertainty and logic programming for relations. The thesis aims to extend PLP to support both discrete and continuous random variables, which is necessary for applications with numeric data. The first contribution is the introduction of context-specific likelihood weighting (CS-LW), a new sampling algorithm that exploits context-specific independencies for computational gains. Next, a new hybrid PLP, DC#, is introduced, which integrates the syntax of Distributional Clauses with Bayesian logic programs and represents three types of independencies: i) conditional independencies (CIs) modeled in Bayesian networks; ii) context-specific independencies (CSIs) represented by logical rules, and iii) independencies amongst attributes of related objects in relational models expressed by combining rules. The scalable inference algorithm FO-CS-LW is introduced for DC#. Finally, the thesis addresses the lack of approaches for learning hybrid PLP from relational data with missing values and (probabilistic) background knowledge with the introduction of DiceML, which learns the structure and parameters of hybrid PLP and tackles the relational autocompletion problem. The conclusion discusses future directions and open challenges for hybrid PLP.
翻訳日:2023-02-03 16:34:00 公開日:2023-02-02
# 粒子物理学のための高精度回帰器

High-precision regressors for particle physics ( http://arxiv.org/abs/2302.00753v1 )

ライセンス: Link先を確認
Fady Bishara, Ayan Paul, and Jennifer Dy(参考訳) CERNの大型ハドロン衝突型加速器のような粒子衝突器における物理過程のモンテカルロシミュレーションは、計算予算の大部分を占めている。 いくつかのシミュレーションでは、最初の原則から計算するのに数秒、数分、あるいは数時間かかる。 シミュレーション毎に必要となるデータポイント数は10^9$ -10^{12}$であるので、この計算負担を大幅に軽減するために、物理シミュレータの代わりに機械学習レグレシタを使用することができる。 しかし、このタスクは、関数のドメイン全体にわたって1\%$または0.1\%$以下の相対誤差でデータを配信できる高精度な回帰器を必要とする。 本稿では,高精度要件を満たすため,最適な学習戦略を開発し,各種機械学習回帰器をチューニングする。 素粒子物理学の対称性の議論を利用してレグレッサーの性能を最適化する。 ResNetsにインスパイアされた我々は、完全に接続されたディープニューラルネットワークよりも優れたスキップ接続を備えたディープニューラルネットワークを設計した。 低次元の意思決定木はニューラルネットワークをはるかに上回り、高次元のニューラルネットワークは極めて優れたパフォーマンスを示すことが分かりました。 これらの回帰器はモンテカルロシミュレーションで現在使われている第一原理計算よりも10^3$ -10^6$でシミュレーションを高速化できることを示す。 さらに、粒子物理学から導かれる対称性の引数を用いて、各シミュレーションに必要な回帰器の数を桁違いに削減する。 我々の研究は、現在および将来の衝突実験におけるモンテカルロシミュレーションの訓練と貯蔵の負担を大幅に削減することができる。

Monte Carlo simulations of physics processes at particle colliders like the Large Hadron Collider at CERN take up a major fraction of the computational budget. For some simulations, a single data point takes seconds, minutes, or even hours to compute from first principles. Since the necessary number of data points per simulation is on the order of $10^9$ - $10^{12}$, machine learning regressors can be used in place of physics simulators to significantly reduce this computational burden. However, this task requires high-precision regressors that can deliver data with relative errors of less than $1\%$ or even $0.1\%$ over the entire domain of the function. In this paper, we develop optimal training strategies and tune various machine learning regressors to satisfy the high-precision requirement. We leverage symmetry arguments from particle physics to optimize the performance of the regressors. Inspired by ResNets, we design a Deep Neural Network with skip connections that outperform fully connected Deep Neural Networks. We find that at lower dimensions, boosted decision trees far outperform neural networks while at higher dimensions neural networks perform significantly better. We show that these regressors can speed up simulations by a factor of $10^3$ - $10^6$ over the first-principles computations currently used in Monte Carlo simulations. Additionally, using symmetry arguments derived from particle physics, we reduce the number of regressors necessary for each simulation by an order of magnitude. Our work can significantly reduce the training and storage burden of Monte Carlo simulations at current and future collider experiments.
翻訳日:2023-02-03 16:18:12 公開日:2023-02-02
# 空中レーダによる積雪の時空間予測のための繰り返しグラフ畳み込みネットワーク

Recurrent Graph Convolutional Networks for Spatiotemporal Prediction of Snow Accumulation Using Airborne Radar ( http://arxiv.org/abs/2302.00817v1 )

ライセンス: Link先を確認
Benjamin Zalatan, Maryam Rahnemoonfar(参考訳) 気候変動の影響と地球温暖化の増加に対処するため,年間降雪量の正確な予測と推定が重要になっている。 スノーレーダのような空中レーダーセンサーは、大規模な堆積率パターンを測定し、進行中の気候変動がグリーンランドの降水と流出に与える影響を監視することができる。 Snow Radarは超広帯域で、内部の氷層を捉えるのに役立つ垂直解像度を実現している。 本稿では,レーダーデータを用いて,過去数年間の積雪の蓄積量を考慮し,繰り返しグラフ畳み込みネットワークに基づく機械学習モデルを提案する。 その結果,同値な非幾何学的モデルや非時間的モデルよりも精度が高く,一貫性が高いことがわかった。

The accurate prediction and estimation of annual snow accumulation has grown in importance as we deal with the effects of climate change and the increase of global atmospheric temperatures. Airborne radar sensors, such as the Snow Radar, are able to measure accumulation rate patterns at a large-scale and monitor the effects of ongoing climate change on Greenland's precipitation and run-off. The Snow Radar's use of an ultra-wide bandwidth enables a fine vertical resolution that helps in capturing internal ice layers. Given the amount of snow accumulation in previous years using the radar data, in this paper, we propose a machine learning model based on recurrent graph convolutional networks to predict the snow accumulation in recent consecutive years at a certain location. We found that the model performs better and with more consistency than equivalent nongeometric and nontemporal models.
翻訳日:2023-02-03 15:52:01 公開日:2023-02-02
# リッジ推定による透過電子顕微鏡映像中の動的原子カラム検出

Dynamic Atomic Column Detection in Transmission Electron Microscopy Videos via Ridge Estimation ( http://arxiv.org/abs/2302.00816v1 )

ライセンス: Link先を確認
Yuchen Xu, Andrew M. Thomas, Peter A. Crozier, David S. Matteson(参考訳) リッジ検出は画像処理における曲線の特徴を抽出する古典的なツールである。 そのため、物質科学問題、特にTEM(Transmission Electron Microscopy)ビデオのような画像シーケンスにおける比較的安定した原子形状の物体の傾向をフィルタリングする分野では、非常に有望である。 TEMビデオの標準解析はフレーム単位のオブジェクト認識に限られる。 代わりに,時空間画像テンソルとして特定される長像列の同時解析により,フレーム間の時間相関を利用する。 我々は,原子レベル物体位置の非パラメトリックな明示的軌跡を時間連続関数として推定する新しいリッジ検出アルゴリズムを定義する。 我々のアプローチは、確率的に消え、その後シーケンスを通して再び現れるように見える物体の時間的分析に特化している。 提案手法はシミュレーションシナリオにおいて高い効率と効率を示し,他の材料科学ベンチマークと比較して,tem実験において顕著な性能改善をもたらす。

Ridge detection is a classical tool to extract curvilinear features in image processing. As such, it has great promise in applications to material science problems; specifically, for trend filtering relatively stable atom-shaped objects in image sequences, such as Transmission Electron Microscopy (TEM) videos. Standard analysis of TEM videos is limited to frame-by-frame object recognition. We instead harness temporal correlation across frames through simultaneous analysis of long image sequences, specified as a spatio-temporal image tensor. We define new ridge detection algorithms to non-parametrically estimate explicit trajectories of atomic-level object locations as a continuous function of time. Our approach is specially tailored to handle temporal analysis of objects that seemingly stochastically disappear and subsequently reappear throughout a sequence. We demonstrate that the proposed method is highly effective and efficient in simulation scenarios, and delivers notable performance improvements in TEM experiments compared to other material science benchmarks.
翻訳日:2023-02-03 15:51:38 公開日:2023-02-02
# 長い水平後退を伴う確率的文脈帯域

Stochastic Contextual Bandits with Long Horizon Rewards ( http://arxiv.org/abs/2302.00814v1 )

ライセンス: Link先を確認
Yuzhen Qin, Yingcong Li, Fabio Pasqualetti, Maryam Fazel, Samet Oymak(参考訳) 複雑な意思決定や言語モデリング問題への関心が高まる中、非常に長い地平線のサンプル効率の高い学習の重要性が浮き彫りになっている。 この研究は、現在の報酬が少なくとも$s$以前のアクションとコンテキスト(必ずしも連続ではない)に依存している文脈的線形包帯を$h$の時間的地平線まで調べることによって、この方向に一歩踏み出す。 h$ に対する多項式依存を避けるために,スパルシリティを活用し,従属パターンとアームパラメータを協調的に発見する新しいアルゴリズムを提案する。 data-poor(T<h$) と data-rich(T\ge h$) のレギュレーションの両方を検討し、それぞれの後悔の上限を $\tilde O(d\sqrt{sT} +\min\{ q, T\})$ と $\tilde O(\sqrt{sdT})$ と $\tilde O(\sqrt{sdT})$ で表す。 従属パターンとアームパラメータは rank-1 行列を形成するが、循環行列は rank-1 多様体よりも等尺的ではなく、サンプル複雑性はスパース報酬依存構造から恩恵を受ける。 以上の結果から,データ全体にわたる長期時間依存性に対する新たな解析が必要となり,報奨地平線上の多項式依存性を回避できた。 具体的には、依存準ガウスベクトルによって形成される循環行列の制限等尺性への接続を利用し、独立性を持つ新しい保証を確立する。

The growing interest in complex decision-making and language modeling problems highlights the importance of sample-efficient learning over very long horizons. This work takes a step in this direction by investigating contextual linear bandits where the current reward depends on at most $s$ prior actions and contexts (not necessarily consecutive), up to a time horizon of $h$. In order to avoid polynomial dependence on $h$, we propose new algorithms that leverage sparsity to discover the dependence pattern and arm parameters jointly. We consider both the data-poor ($T<h$) and data-rich ($T\ge h$) regimes, and derive respective regret upper bounds $\tilde O(d\sqrt{sT} +\min\{ q, T\})$ and $\tilde O(\sqrt{sdT})$, with sparsity $s$, feature dimension $d$, total time horizon $T$, and $q$ that is adaptive to the reward dependence pattern. Complementing upper bounds, we also show that learning over a single trajectory brings inherent challenges: While the dependence pattern and arm parameters form a rank-1 matrix, circulant matrices are not isometric over rank-1 manifolds and sample complexity indeed benefits from the sparse reward dependence structure. Our results necessitate a new analysis to address long-range temporal dependencies across data and avoid polynomial dependence on the reward horizon $h$. Specifically, we utilize connections to the restricted isometry property of circulant matrices formed by dependent sub-Gaussian vectors and establish new guarantees that are also of independent interest.
翻訳日:2023-02-03 15:51:12 公開日:2023-02-02
# ゴールアライメント: 価値アライメントの問題に対する人間の意識

Goal Alignment: A Human-Aware Account of Value Alignment Problem ( http://arxiv.org/abs/2302.00813v1 )

ライセンス: Link先を確認
Malek Mechergui and Sarath Sreedharan(参考訳) バリューアライメント問題は、AIエージェントの指定された目的がそのユーザの真の目的と一致しないシナリオで発生する。 この問題はAIの中心的な安全問題の一つであると広く主張されている。 残念なことに、価値アライメントの既存の作品の多くは、報酬関数が目的を特定する直観的なメカニズムであるという事実に主に関係している問題に焦点を当てる傾向がある。 しかし、目的仕様機構の複雑さは、ユーザが目的を誤って特定した多くの理由の1つである。 これらの作品で見過ごされている不一致の根本的な原因は、エージェントの行動とエージェントが特定の目的のために生成した振る舞いに対する人間の期待に固有の非対称性である。 そこで本研究では,値アライメントに関わるいくつかの中心的課題に焦点をあてたゴールアライメントという,値アライメント問題の新たな定式化を提案する。 そうすることで、現在異なる価値アライメントとヒューマン・アウェア・プランニングの研究領域を橋渡しします。 さらに,エージェントに関する誤った信念の下で生成された情報を利用して,ユーザの真の目的を判断できる対話型アルゴリズムを提案する。

Value alignment problems arise in scenarios where the specified objectives of an AI agent don't match the true underlying objective of its users. The problem has been widely argued to be one of the central safety problems in AI. Unfortunately, most existing works in value alignment tend to focus on issues that are primarily related to the fact that reward functions are an unintuitive mechanism to specify objectives. However, the complexity of the objective specification mechanism is just one of many reasons why the user may have misspecified their objective. A foundational cause for misalignment that is being overlooked by these works is the inherent asymmetry in human expectations about the agent's behavior and the behavior generated by the agent for the specified objective. To address this lacuna, we propose a novel formulation for the value alignment problem, named goal alignment that focuses on a few central challenges related to value alignment. In doing so, we bridge the currently disparate research areas of value alignment and human-aware planning. Additionally, we propose a first-of-its-kind interactive algorithm that is capable of using information generated under incorrect beliefs about the agent, to determine the true underlying goal of the user.
翻訳日:2023-02-03 15:50:34 公開日:2023-02-02
# 平均制約ポリシー最適化

Average-Constrained Policy Optimization ( http://arxiv.org/abs/2302.00808v1 )

ライセンス: Link先を確認
Akhil Agnihotri, Rahul Jain, Haipeng Luo(参考訳) 制約のある強化学習(RL)は、様々なアプリケーションにとってますます重要な問題になりつつある。 平均的な基準の方が適していることが多い。 しかし、平均基準制約付きMDPのRLは依然として難しい問題である。 割引制約付きRL問題のために設計されたアルゴリズムは、平均CMDP設定ではうまく機能しないことが多い。 本稿では,平均基準の制約付きmdpに対する新しいポリシー最適化アルゴリズムを提案する。 平均制約付き政策最適化(ACPO)アルゴリズムは信頼領域法に基づくPPO型アルゴリズムに着想を得たものである。 我々は,平均的MDPに対する基本感度理論を開発し,それに対応する境界をアルゴリズムの設計に用いる。 我々は,その性能に関する理論的保証を提供し,様々な挑戦的なmujoco環境における広範囲な実験を通じて,平均cmdp設定に適応した他の最先端アルゴリズムと比較して,アルゴリズムの優れた性能を示す。

Reinforcement Learning (RL) with constraints is becoming an increasingly important problem for various applications. Often, the average criterion is more suitable. Yet, RL for average criterion-constrained MDPs remains a challenging problem. Algorithms designed for discounted constrained RL problems often do not perform well for the average CMDP setting. In this paper, we introduce a new (possibly the first) policy optimization algorithm for constrained MDPs with the average criterion. The Average-Constrained Policy Optimization (ACPO) algorithm is inspired by the famed PPO-type algorithms based on trust region methods. We develop basic sensitivity theory for average MDPs, and then use the corresponding bounds in the design of the algorithm. We provide theoretical guarantees on its performance, and through extensive experimental work in various challenging MuJoCo environments, show the superior performance of the algorithm when compared to other state-of-the-art algorithms adapted for the average CMDP setting.
翻訳日:2023-02-03 15:50:14 公開日:2023-02-02
# 深部神経オペレーターは形状最適化のための正確なサロゲートとして機能する:翼のケーススタディ

Deep neural operators can serve as accurate surrogates for shape optimization: A case study for airfoils ( http://arxiv.org/abs/2302.00807v1 )

ライセンス: Link先を確認
Khemraj Shukla, Vivek Oommen, Ahmad Peyvan, Michael Penwarden, Luis Bravo, Anindya Ghoshal, Robert M. Kirby and George Em Karniadakis(参考訳) DeepONetsのようなディープ・ニューラル作用素は、高次元非線形回帰のパラダイムを関数回帰から(微分)演算子の回帰に変化させ、計算工学の応用に大きな変化をもたらす。 本稿では, 空力力学における重要な設計問題である形状最適化を目的とし, 翼翼まわりの流れ場推定にdeeponetsを用いた場合について検討する。 本稿では,オンライン最適化コストを桁違いに削減しつつ,予測精度の低下がほとんどない結果を示す。 NACA翼の形状は4桁のパラメトリゼーションにより容易に定義できるため,提案手法の試験ケースとして検討する。 本研究では,NACAの4桁の制約問題を最大化するために最適化し,高次CFDソルバと比較して全結果の検証を行った。 ディープネッツは一般化誤差が低く、目に見えない形状の解を生成するのに理想的である。 具体的には、圧力、密度、速度場を1秒で正確に推定することにより、現在の作業で考慮されるリフト・アンド・ドラッグ比の最大化を超える汎用関数の使用を可能にする。

Deep neural operators, such as DeepONets, have changed the paradigm in high-dimensional nonlinear regression from function regression to (differential) operator regression, paving the way for significant changes in computational engineering applications. Here, we investigate the use of DeepONets to infer flow fields around unseen airfoils with the aim of shape optimization, an important design problem in aerodynamics that typically taxes computational resources heavily. We present results which display little to no degradation in prediction accuracy, while reducing the online optimization cost by orders of magnitude. We consider NACA airfoils as a test case for our proposed approach, as their shape can be easily defined by the four-digit parametrization. We successfully optimize the constrained NACA four-digit problem with respect to maximizing the lift-to-drag ratio and validate all results by comparing them to a high-order CFD solver. We find that DeepONets have low generalization error, making them ideal for generating solutions of unseen shapes. Specifically, pressure, density, and velocity fields are accurately inferred at a fraction of a second, hence enabling the use of general objective functions beyond the maximization of the lift-to-drag ratio considered in the current work.
翻訳日:2023-02-03 15:50:03 公開日:2023-02-02
# Oracleが保持する潜水流

Oracle-Preserving Latent Flows ( http://arxiv.org/abs/2302.00806v1 )

ライセンス: Link先を確認
Alexander Roman, Roy T. Forestano, Konstantin T. Matchev, Katia Matcheva, Eyup B. Unlu(参考訳) ラベル付きデータセット全体にわたる複数の非自明な連続対称性を同時に発見するためのディープラーニング手法を開発した。 対称性変換と対応するジェネレータは、所望の対称性特性を保証する特別に構築された損失関数で訓練された完全連結ニューラルネットワークでモデル化される。 この研究における2つの新しい要素は、縮小次元の潜在空間の使用と高次元のオラクルに関して不変な変換への一般化である。 この方法はmnist桁データセットのいくつかの例で示される。

We develop a deep learning methodology for the simultaneous discovery of multiple nontrivial continuous symmetries across an entire labelled dataset. The symmetry transformations and the corresponding generators are modeled with fully connected neural networks trained with a specially constructed loss function ensuring the desired symmetry properties. The two new elements in this work are the use of a reduced-dimensionality latent space and the generalization to transformations invariant with respect to high-dimensional oracles. The method is demonstrated with several examples on the MNIST digit dataset.
翻訳日:2023-02-03 15:49:40 公開日:2023-02-02
# 条件付き予測モデル:リスクと戦略

Conditioning Predictive Models: Risks and Strategies ( http://arxiv.org/abs/2302.00805v1 )

ライセンス: Link先を確認
Evan Hubinger, Adam Jermyn, Johannes Treutlein, Rubi Hudson, Kate Woolverton(参考訳) 我々の意図は、潜在知識問題を引き起こす解決策がなければ、予測モデルを使うのに何が必要か、決定的な基準を提供することです。 さらに, 大規模言語モデルは世界の予測モデルとして理解でき, このような概念化は, 望ましい出力を予測するために, 慎重に条件付けすることで, 安全かつ強力な使用が可能となると信じている。 残念なことに、このようなアプローチはさまざまな致命的な安全性問題を引き起こします。特に、予測モデルが他のaiシステムのアウトプットを予測している状況です。 しかし、特に、我々が望むもの(例えば、人間)を予測するために慎重に調整するモデルによって、我々が望まないもの(例えば、悪質なai)よりも多くの潜在的な解決策が存在する。 さらに、予測対象の単純さから、予測モデルは我々が認識している最も簡単な内部アライメント問題を示すと信じている。 その結果、予測モデルに対する条件付けアプローチは、大きな言語モデルや他の類似した将来モデルから人間レベルとわずかに超人的能力を引き出す最も安全な方法であると考えている。

Our intention is to provide a definitive reference on what it would take to safely make use of predictive models in the absence of a solution to the Eliciting Latent Knowledge problem. Furthermore, we believe that large language models can be understood as such predictive models of the world, and that such a conceptualization raises significant opportunities for their safe yet powerful use via carefullly conditioning them to predict desirable outputs. Unfortunately, such approaches also raise a variety of potentially fatal safety problems, particularly surrounding situations where predictive models predict the output of other AI systems, potentially unbeknownst to us. There are numerous potential solutions to such problems, however, primarily via carefully conditioning models to predict the things we want (e.g. humans) rather than the things we don't (e.g. malign AIs). Furthermore, due to the simplicity of the prediction objective, we believe that predictive models present the easiest inner alignment problem that we are aware of. As a result, we think that conditioning approaches for predictive models represent the safest known way of eliciting human-level and slightly superhuman capabilities from large language models and other similar future models.
翻訳日:2023-02-03 15:49:34 公開日:2023-02-02
# エノクティビズムと客観的最適超知能

Enactivism & Objectively Optimal Super-Intelligence ( http://arxiv.org/abs/2302.00843v1 )

ライセンス: Link先を確認
Michael Timothy Bennett(参考訳) ソフトウェアが世界に与える影響は、それを解釈するハードウェアにかかっている。 ハードウェアを標準化するため、これは問題にならない傾向があります。 AIは通常、そのような交換可能なハードウェア上で動くソフトウェア ``mind'' として考えられている。 これは、ソフトウェア ``mind'' が任意の数の標準化された体上で実行できるという点で、心身双対論を形式化する。 これは単純なアプリケーションではうまく機能するが、このアプローチはagi(artificial general intelligence)やasi(artificial super-intelligence)を形式化する目的には理想的ではない。 一般的な強化学習剤AIXIは最適である。 しかし、AIXIのパフォーマンスに関するこの主張は、インタプリタの選択に依存するため、非常に主観的である。 そこで本研究では,この課題を考察し,enactive cognition と pancomputationalism に基づくアプローチを定式化した。 弱点は単純さの尺度であり、圧縮とは無関係な'proxy for intelligence' である。 仮説が長さよりも弱点の観点から評価されれば、パフォーマンスに関する客観的な主張をすることができる。 次に,AGI と ASI の客観的に最適な概念を提案し,前者は計算可能であり,後者は計算可能である(非現実的ではあるが)。

Software's effect upon the world hinges upon the hardware that interprets it. This tends not to be an issue, because we standardise hardware. AI is typically conceived of as a software ``mind'' running on such interchangeable hardware. This formalises mind-body dualism, in that a software ``mind'' can be run on any number of standardised bodies. While this works well for simple applications, we argue that this approach is less than ideal for the purposes of formalising artificial general intelligence (AGI) or artificial super-intelligence (ASI). The general reinforcement learning agent AIXI is pareto optimal. However, this claim regarding AIXI's performance is highly subjective, because that performance depends upon the choice of interpreter. We examine this problem and formulate an approach based upon enactive cognition and pancomputationalism to address the issue. Weakness is a measure of simplicity, a ``proxy for intelligence'' unrelated to compression. If hypotheses are evaluated in terms of weakness, rather than length, we are able to make objective claims regarding performance. Subsequently, we propose objectively optimal notions of AGI and ASI such that the former is computable and the latter anytime computable (though impractical).
翻訳日:2023-02-03 15:43:05 公開日:2023-02-02
# コンフォーマルコスト制御による高速オンライン価値最大化予測セット

Fast Online Value-Maximizing Prediction Sets with Conformal Cost Control ( http://arxiv.org/abs/2302.00839v1 )

ライセンス: Link先を確認
Zhen Lin, Shubhendu Trivedi, Cao Xiao, Jimeng Sung(参考訳) 実世界のマルチラベル予測問題の多くは、下流の使用によって引き起こされる特定の要件を満たさなければならない集合値予測を伴う。 このような要求が互いに競合する、個別に \textit{value} と \textit{cost} を符号化する典型的なシナリオに焦点を当てる。 例えば、病院はスマート診断システムによって、重篤で、しばしば共死的な病気(その価値)をできるだけ多く捉え、誤った予測(コスト)を厳格にコントロールすることを期待しているかもしれない。 このようなシナリオのコストを制御しながら、価値を最大化するために、FavMacと呼ばれる一般的なパイプラインを提案する。 FavMacは、ほとんどすべてのマルチラベル分類器と組み合わせて、コスト管理における分布のない理論的保証を提供する。 さらに、以前の作業とは異なり、favmacは、注意深い設計のオンラインアップデート機構を通じて、現実世界の大規模アプリケーションを扱うことができる。 FavMacは、厳格なコスト管理を維持しつつ、いくつかの変種やベースラインよりも高い価値を提供する。

Many real-world multi-label prediction problems involve set-valued predictions that must satisfy specific requirements dictated by downstream usage. We focus on a typical scenario where such requirements, separately encoding \textit{value} and \textit{cost}, compete with each other. For instance, a hospital might expect a smart diagnosis system to capture as many severe, often co-morbid, diseases as possible (the value), while maintaining strict control over incorrect predictions (the cost). We present a general pipeline, dubbed as FavMac, to maximize the value while controlling the cost in such scenarios. FavMac can be combined with almost any multi-label classifier, affording distribution-free theoretical guarantees on cost control. Moreover, unlike prior works, FavMac can handle real-world large-scale applications via a carefully designed online update mechanism, which is of independent interest. Our methodological and theoretical contributions are supported by experiments on several healthcare tasks and synthetic datasets - FavMac furnishes higher value compared with several variants and baselines while maintaining strict cost control.
翻訳日:2023-02-03 15:42:44 公開日:2023-02-02
# 深層学習型アクセシブルパーキング管理システムShine

SHINE: Deep Learning-Based Accessible Parking Management System ( http://arxiv.org/abs/2302.00837v1 )

ライセンス: Link先を確認
Dhiraj Neupane, Aashish Bhattarai, Sunil Aryal, Mohamed Reda Bouadjenek, Uk-Min Seok, and Jongwon Seok(参考訳) 科学技術の強化は、かつてないほど都市を拡大するのに役立った。 自家用車の所有という不確実な利点のため、韓国を含む世界中の多くの地域で自動車の数が急増している。 しかし、車両数の段階的な増加は、障害駐車スペースの濫用など、駐車関連の問題に繋がる(以下、アクセス可能な駐車スペースとして参照)。 監視カメラのフレームレートが高いため、従来のナンバープレート認識(LPR)システムはリアルタイムでは有効ではない。 一方,自然音や人工音や照明や気象条件の違いは,これらのシステムでは検出や認識が困難である。 パーキング4.0の概念の高まりにより、多くのセンサー、IoTおよびディープラーニングベースのアプローチが自動LPRとパーキング管理システムに適用された。 しかし,韓国では,アクセス可能な駐車スペースを管理するための頑健で効率的なモデルの必要性が示唆された。 我々は,車両,ナンバープレート,障害バッジ(カード,バッジ,以降のアクセスバッジ)の検出にディープラーニングに基づく物体検出アルゴリズムを用いた「SHINE」という新しいシステムを提案し,その後,中央サーバと協調してアクセス可能な駐車場を利用する権利を認証した。 このモデルは平均精度92.16%に達し、アクセス可能な駐車スペース乱用の問題を解決していると考えられている。

The enhancement of science and technology has helped expand urban cities like never before. Due to the undeniable benefits of owning a private vehicle, the number of cars has rocketed in many parts of the world, including South Korea. However, these gradual increments in the number of vehicles lead to parking-related problems, including the abuse of disabled parking spaces (referred to as accessible parking spaces hereafter). Due to the high frame rate of surveillance cameras, traditional license plate recognition (LPR) systems are ineffective in real-time. On the other hand, natural and artificial noise and differences in lighting and weather conditions make detection and recognition difficult for these systems. With the growing concept of parking 4.0, many sensors, IoT and deep learning-based approaches have been applied to automatic LPR and parking management systems. However, the studies show a need for a robust and efficient model for managing accessible parking spaces in South Korea. We have proposed a novel system called 'SHINE', which uses the deep learning-based object detection algorithm for detecting the vehicle, license plate, and disability badges (referred to as cards, badges, or access badges hereafter) and then authenticates the rights to use the accessible parking spaces by coordinating with the central server. This model, achieving 92.16% mean average precision, is believed to solve the problem of accessible parking space abuse.
翻訳日:2023-02-03 15:42:25 公開日:2023-02-02
# 低音源カントン音声認識のための音声拡張と統一書き込みによる希少単語認識の改善

Improving Rare Words Recognition through Homophone Extension and Unified Writing for Low-resource Cantonese Speech Recognition ( http://arxiv.org/abs/2302.00836v1 )

ライセンス: Link先を確認
HoLam Chung, Junan Li, Pengfei Liu1, Wai-Kim Leung, Xixin Wu, Helen Meng(参考訳) ホモホン文字は、マンダリンやカントン語のような音節ベースの言語で一般的である。 データ集約型エンドツーエンド自動音声認識(asr)システムは、低リソース設定下でホモホン文字やレアワードを誤認識する傾向が強い。 本稿では,低音源のカントーン音声認識の問題に対して,音素辞書の人間的知識を言語モデル再構成によるビーム探索復号処理に統合する新しいホモフォン拡張手法を提案する。 また、カントン文字の変種をマージし、音声アノテーションガイドラインを標準化する自動統一ライティング手法を提案し、マージ文字のサンプルを多く提供することにより、ラベル付き発話をより効率的に利用できるようにする。 その結果、ホモホン拡張と統一書き込みの両方がドメイン内テストセットとドメイン外テストセットの両方において認識性能を大幅に向上させ、絶対文字誤り率(cer)は約5%と18%の低下を示した。

Homophone characters are common in tonal syllable-based languages, such as Mandarin and Cantonese. The data-intensive end-to-end Automatic Speech Recognition (ASR) systems are more likely to mis-recognize homophone characters and rare words under low-resource settings. For the problem of lowresource Cantonese speech recognition, this paper presents a novel homophone extension method to integrate human knowledge of the homophone lexicon into the beam search decoding process with language model re-scoring. Besides, we propose an automatic unified writing method to merge the variants of Cantonese characters and standardize speech annotation guidelines, which enables more efficient utilization of labeled utterances by providing more samples for the merged characters. We empirically show that both homophone extension and unified writing improve the recognition performance significantly on both in-domain and out-of-domain test sets, with an absolute Character Error Rate (CER) decrease of around 5% and 18%.
翻訳日:2023-02-03 15:42:05 公開日:2023-02-02
# 深部ReLUニューラルネットワークによる不規則空間データの補間におけるシャープ下界

Sharp Lower Bounds on Interpolation by Deep ReLU Neural Networks at Irregularly Spaced Data ( http://arxiv.org/abs/2302.00834v1 )

ライセンス: Link先を確認
Jonathan W. Siegel(参考訳) 我々は深層reluニューラルネットワークの補間、あるいは記憶力について研究する。 具体的には,パラメータ数の観点からは,深部ReLUネットワークが距離$\delta$で区切られた単位球内の値N$のデータポイントをいかに効率的に補間できるかを考える。 Omega(N)$パラメータは、$\delta$が指数関数的に$N$で小さい状態において必要であり、$O(N)$パラメータが常に十分であることから、この状態において鋭い結果を与える。 これはまた、VC次元の低い境界を証明するために使われるビット抽出技術が不規則に空間化されたデータポイントに適用できないことを示す。

We study the interpolation, or memorization, power of deep ReLU neural networks. Specifically, we consider the question of how efficiently, in terms of the number of parameters, deep ReLU networks can interpolate values at $N$ datapoints in the unit ball which are separated by a distance $\delta$. We show that $\Omega(N)$ parameters are required in the regime where $\delta$ is exponentially small in $N$, which gives the sharp result in this regime since $O(N)$ parameters are always sufficient. This also shows that the bit-extraction technique used to prove lower bounds on the VC dimension cannot be applied to irregularly spaced datapoints.
翻訳日:2023-02-03 15:41:51 公開日:2023-02-02
# RobustNeRF:ロバスト損失によるディトラクタの無視

RobustNeRF: Ignoring Distractors with Robust Losses ( http://arxiv.org/abs/2302.00833v1 )

ライセンス: Link先を確認
Sara Sabour, Suhani Vora, Daniel Duckworth, Ivan Krasin, David J. Fleet, Andrea Tagliasacchi(参考訳) 静的シーンのマルチビュー・キャリブレーション画像が与えられたニューラルレイディアンス場(NeRF)は、新しいビューの合成に優れる。 イメージキャプチャー(移動物体、照明のバリエーション、影)の間に永続的でない邪魔物を含む場合、人工物はビュー依存効果または「フローター」として現れる。 注意散らしに対処するため,我々はNeRFトレーニングのための頑健な推定形式を提案し,最適化問題の外れ値としてトレーニングデータ中の注意散らしをモデル化する。 提案手法はシーンから異常値を取り除くのに成功し,合成および実世界のシーンにおいてベースラインを改善した。 我々の手法は、ハイパーパラメータが少ない現代のNeRFフレームワークに組み込むのが簡単である。 イントラクタの種類に関する事前知識を前提とせず、代わりに過渡オブジェクトの事前処理やモデリングよりも最適化の問題に重点を置いている。 詳細は、https://robustnerf.github.io/public.com/。

Neural radiance fields (NeRF) excel at synthesizing new views given multi-view, calibrated images of a static scene. When scenes include distractors, which are not persistent during image capture (moving objects, lighting variations, shadows), artifacts appear as view-dependent effects or 'floaters'. To cope with distractors, we advocate a form of robust estimation for NeRF training, modeling distractors in training data as outliers of an optimization problem. Our method successfully removes outliers from a scene and improves upon our baselines, on synthetic and real-world scenes. Our technique is simple to incorporate in modern NeRF frameworks, with few hyper-parameters. It does not assume a priori knowledge of the types of distractors, and is instead focused on the optimization problem rather than pre-processing or modeling transient objects. More results on our page https://robustnerf.github.io/public.
翻訳日:2023-02-03 15:41:38 公開日:2023-02-02
# Inform the Uninformed: AIを利用したチャットボットによるオンラインインフォームドコンテンツ読み込みの改善

Inform the uninformed: Improving Online Informed Consent Reading with an AI-Powered Chatbot ( http://arxiv.org/abs/2302.00832v1 )

ライセンス: Link先を確認
Ziang Xiao, Tiffany Wenting Li, Karrie Karahalios, Hari Sundaram(参考訳) インフォームド・コンセントは、人間の主題研究における倫理の基礎である。 インフォームド・コンセント・プロセスを通じて、参加者は研究手順、利益、リスクなどを学び、インフォームド・意思決定を行う。 しかし、最近の研究では、特にオンライン研究において、現在の実践が非インフォームドな決定を導き、参加者を未知のリスクに晒すことが示されている。 研究者の存在と指導がなければ、オンライン参加者は自分の質問に答えることなく、長いフォームを自分で読む必要がある。 本稿では,オンラインのインフォームドコンセント向上におけるAIを利用したチャットボットの役割を検討した。 チャットボットとフォームベースインタラクションを比較したところ,チャットボットは同意フォーム読解を改善し,参加者のエージェンシー感を高め,参加者と研究者のパワーギャップを埋めることができた。 探索分析の結果, パワー・ダイナミクスが変化すれば, 結果の質が向上する可能性が示唆された。 より広い環境で効果的なインフォームド・コンセントを提供するために,AIを活用したチャットボットを開発する上での設計上の意味について議論した。

Informed consent is a core cornerstone of ethics in human subject research. Through the informed consent process, participants learn about the study procedure, benefits, risks, and more to make an informed decision. However, recent studies showed that current practices might lead to uninformed decisions and expose participants to unknown risks, especially in online studies. Without the researcher's presence and guidance, online participants must read a lengthy form on their own with no answers to their questions. In this paper, we examined the role of an AI-powered chatbot in improving informed consent online. By comparing the chatbot with form-based interaction, we found the chatbot improved consent form reading, promoted participants' feelings of agency, and closed the power gap between the participant and the researcher. Our exploratory analysis further revealed the altered power dynamic might eventually benefit study response quality. We discussed design implications for creating AI-powered chatbots to offer effective informed consent in broader settings.
翻訳日:2023-02-03 15:41:21 公開日:2023-02-02
# 機械学習から見たバイオマスサステナビリティ指標の分析

Analysis of Biomass Sustainability Indicators from a Machine Learning Perspective ( http://arxiv.org/abs/2302.00828v1 )

ライセンス: Link先を確認
Syeda Nyma Ferdous, Xin Li, Kamalakanta Sahoo, Richard Bergman(参考訳) 植物バイオマスの推定は、異なる環境要因の変動とそれに関連する作物管理の実践のために重要である。 この評価は、異なる環境サステナビリティ指標の正確な予測に大きく影響している。 サステナビリティ指標を予測するための堅牢なモデルは、バイオマスコミュニティにとって必須である。 本研究では,機械学習モデルを用いてサステナビリティ指標を解析し,バイオマスサステナビリティ予測のためのロバストモデルを提案する。 回帰問題を分析するためにアンサンブル学習の展望も検討した。 全ての実験は、オハイオ州の作物残基データに基づいて行われた。 10種類の機械学習モデル,すなわち線形回帰,隆起回帰,多層パーセプトロン,k-アネレスト近傍,支持ベクトルマシン,決定木,勾配押し上げ,ランダム森林,積み上げ,投票を行い,土壌浸食係数,土壌条件指標,有機物係数の3つのバイオマス持続可能性指標を推定した。 モデルの性能はクロス相関(R2)、ルート平均二乗誤差、平均絶対誤差メトリクスを用いて評価した。 その結果,無作為林は持続可能性指標を評価する最善のモデルであった。 分析されたモデルは、サステナビリティ指標をリアルタイムに評価するためのガイドとして機能する。

Plant biomass estimation is critical due to the variability of different environmental factors and crop management practices associated with it. The assessment is largely impacted by the accurate prediction of different environmental sustainability indicators. A robust model to predict sustainability indicators is a must for the biomass community. This study proposes a robust model for biomass sustainability prediction by analyzing sustainability indicators using machine learning models. The prospect of ensemble learning was also investigated to analyze the regression problem. All experiments were carried out on a crop residue data from the Ohio state. Ten machine learning models, namely, linear regression, ridge regression, multilayer perceptron, k-nearest neighbors, support vector machine, decision tree, gradient boosting, random forest, stacking and voting, were analyzed to estimate three biomass sustainability indicators, namely soil erosion factor, soil conditioning index, and organic matter factor. The performance of the model was assessed using cross-correlation (R2), root mean squared error and mean absolute error metrics. The results showed that Random Forest was the best performing model to assess sustainability indicators. The analyzed model can now serve as a guide for assessing sustainability indicators in real time.
翻訳日:2023-02-03 15:41:03 公開日:2023-02-02
# SpaceYOLO: リアルタイム・オンボード・スペースクラフト特徴検出のための人間インスパイアされたモデル

SpaceYOLO: A Human-Inspired Model for Real-time, On-board Spacecraft Feature Detection ( http://arxiv.org/abs/2302.00824v1 )

ライセンス: Link先を確認
Trupti Mahendrakar, Ryan T. White, Markus Wilde, Madhur Tiwari(参考訳) 非協力的な宇宙船と軌道上の宇宙ゴミの急激な増加は、軌道上のサービシングと宇宙ゴミの除去の需要を、自律的なミッションのみに対処できる規模で増加させてきたが、未知の非協力的な宇宙物体を安全に捕獲するために必要な自律航法と飛行経路は、オープンな問題である。 これは、衝突事故(ソーラーパネルやアンテナなど)や安全なドッキング機能(衛星体やスラスタなど)の場所を特定するために、宇宙船のリアルタイム自動特徴認識のためのアルゴリズムを必要とするため、安全で効果的な飛行経路を計画できる。 この領域での先行研究により、コンピュータビジョンモデルのパフォーマンスは、トレーニングデータセットと、デプロイ時に発生する実際のシナリオと視覚的に類似したシナリオのカバレッジに大きく依存していることが分かる。 したがって、追尾機の目標宇宙船へのランデブー操作条件が同一であっても、一定の照明条件下での性能が低下する可能性がある。 この研究は、宇宙工学の学生が宇宙船の形や部品を経験し、Landsat、Envisat、Anik、そしてオービタミールの3つの宇宙船の特徴をどう認識するかを調査することで、人間の作業の仕方を調べます。 調査の結果、人間の検出プロセスの最も一般的なパターンは、アンテナ、ソーラーパネル、スラスタ、衛星体といった特徴の形状とテクスチャを考慮することだった。 このアルゴリズムは、形状とテクスチャを活かしたこれらの人間にインスパイアされた決定プロセスに基づいて、最先端のオブジェクト検出器YOLOv5を別のニューラルネットワークに融合する。 SpaceYOLOの自律型宇宙船検出の性能は、フロリダ工科大学のORION研究所で異なる照明および追尾条件下でのループ内のハードウェア実験において、通常のYOLOv5と比較される。

The rapid proliferation of non-cooperative spacecraft and space debris in orbit has precipitated a surging demand for on-orbit servicing and space debris removal at a scale that only autonomous missions can address, but the prerequisite autonomous navigation and flightpath planning to safely capture an unknown, non-cooperative, tumbling space object is an open problem. This requires algorithms for real-time, automated spacecraft feature recognition to pinpoint the locations of collision hazards (e.g. solar panels or antennas) and safe docking features (e.g. satellite bodies or thrusters) so safe, effective flightpaths can be planned. Prior work in this area reveals the performance of computer vision models are highly dependent on the training dataset and its coverage of scenarios visually similar to the real scenarios that occur in deployment. Hence, the algorithm may have degraded performance under certain lighting conditions even when the rendezvous maneuver conditions of the chaser to the target spacecraft are the same. This work delves into how humans perform these tasks through a survey of how aerospace engineering students experienced with spacecraft shapes and components recognize features of the three spacecraft: Landsat, Envisat, Anik, and the orbiter Mir. The survey reveals that the most common patterns in the human detection process were to consider the shape and texture of the features: antennas, solar panels, thrusters, and satellite bodies. This work introduces a novel algorithm SpaceYOLO, which fuses a state-of-the-art object detector YOLOv5 with a separate neural network based on these human-inspired decision processes exploiting shape and texture. Performance in autonomous spacecraft detection of SpaceYOLO is compared to ordinary YOLOv5 in hardware-in-the-loop experiments under different lighting and chaser maneuver conditions at the ORION Laboratory at Florida Tech.
翻訳日:2023-02-03 15:40:43 公開日:2023-02-02
# オープンハードウェアとしてのハイブリッドディジタル/アナログ量子物理学エミュレータの設計

Designing a Hybrid Digital / Analog Quantum Physics Emulator as Open Hardware ( http://arxiv.org/abs/2302.00821v1 )

ライセンス: Link先を確認
Marcus Edwards(参考訳) 最もエキサイティングな量子エミュレーション [1] のブレークスルーの1つは、普遍量子コンピュータ [2] のアナログ信号に基づくエミュレーションであった。 これは非常に興味深い論文となったが、実際は使われなかった。 この理由は、宇宙の近似年齢(約13.77億年)の信号持続時間は、約95量子ビットしか収容できないためである。 以下の特性を持つ新しいスキームを提案する。 1) 一対の発振器又は正弦波源は、識別可能な混合又は絡み合う能力を有するn重畳状態のエミュレートに十分である。 2) 状態の測定を行うのに要する時間は,状態の複雑さとともに十分にスケールしてはならない。 3)ハードウェア部品の固定セットは、相当数の量子ビットのシステムをエミュレートするのに十分でなければならない。 4) 少なくとも理論量子コンピューティングシステムにおいて測定可能であると期待されるエミュレートされた量子状態について知る必要がある。 量子情報を古典的信号にエンコーディングする新しい手法に基づいて,時間複雑性が好適にスケールする設計を実現するとともに,最新の電気ハードウェアを用いて最大20キュービットのエンコーディングが可能となることを予測した。

One of the most exciting quantum emulation [1] breakthroughs was the first analog signal-based emulation of a universal quantum computer [2]. This yielded a very interesting paper, but no practical use - even for theorists. The reason for this was that a signal duration of the approximate age of the universe (13.77 billion years) could accommodate only about 95 qubits. We propose a new scheme with the following properties: 1) a pair of oscillators or sinusioidal wave sources must be sufficient to emulate n superimposed states with the ability to be identifiably mixed or entangled, 2) the time required to perform a measurement of a state must not scale poorly with the complexity of the state, 3) a fixed set of hardware components must be sufficient to emulate a system of a significant number of qubits, and 4) at least as much must be knowable about an emulated quantum state as is expected to be measurable in a theoretical quantum computing system. We achieve a design whose time complexity scales favourably based on a new method of encoding quantum information into classical signals, but only anticipate the feasibility of encodings of up to 20 qubits with modern electrical hardware.
翻訳日:2023-02-03 15:40:09 公開日:2023-02-02
# SimMTM: Masked Time-Series Modelingのためのシンプルな事前トレーニングフレームワーク

SimMTM: A Simple Pre-Training Framework for Masked Time-Series Modeling ( http://arxiv.org/abs/2302.00861v1 )

ライセンス: Link先を確認
Jiaxiang Dong, Haixu Wu, Haoran Zhang, Li Zhang, Jianmin Wang, Mingsheng Long(参考訳) 時系列分析は広範囲で広く使われている。 近年,ラベリング費用を削減し,様々な業務に利益をもたらすために,自己監督型事前研修が注目されている。 メインストリームのパラダイムはマスクモデリングであり、マスクされていない部分に基づいてマスクされたコンテンツを再構築するために学習することで、深層モデルを事前学習することに成功している。 しかし、時系列の意味情報は主に時間変化に含まれているため、時間の一部にランダムにマスキングする標準的な方法は、時系列の重要な時間変化をひどく損なうことになり、表現学習を導くのが難しくなる。 そこで我々は,マスク付き時系列モデリングのための簡易事前学習フレームワークSimMTMを提案する。 マスク付きモデリングと多様体学習を関連づけることで、SimMTMは、複数の隣人の重み付けによるマスク付き時間点の復元を提案する。 SimMTMはさらに、マスクモデリングに役立つ多様体の局所構造を明らかにすることを学ぶ。 実験により、SimMTMは2つの標準時系列解析タスク(予測と分類)において最先端の微調整性能を達成する。

Time series analysis is widely used in extensive areas. Recently, to reduce labeling expenses and benefit various tasks, self-supervised pre-training has attracted immense interest. One mainstream paradigm is masked modeling, which successfully pre-trains deep models by learning to reconstruct the masked content based on the unmasked part. However, since the semantic information of time series is mainly contained in temporal variations, the standard way of randomly masking a portion of time points will ruin vital temporal variations of time series seriously, making the reconstruction task too difficult to guide representation learning. We thus present SimMTM, a Simple pre-training framework for Masked Time-series Modeling. By relating masked modeling to manifold learning, SimMTM proposes to recover masked time points by the weighted aggregation of multiple neighbors outside the manifold, which eases the reconstruction task by assembling ruined but complementary temporal variations from multiple masked series. SimMTM further learns to uncover the local structure of the manifold helpful for masked modeling. Experimentally, SimMTM achieves state-of-the-art fine-tuning performance in two canonical time series analysis tasks: forecasting and classification, covering both in- and cross-domain settings.
翻訳日:2023-02-03 15:34:42 公開日:2023-02-02
# 拡散モデルによる干渉・反事実推論

Interventional and Counterfactual Inference with Diffusion Models ( http://arxiv.org/abs/2302.00860v1 )

ライセンス: Link先を確認
Patrick Chao, Patrick Bl\"obaum, Shiva Prasad Kasiviswanathan(参考訳) 観察データと因果グラフのみが利用可能な因果的に十分な設定において,観察的,介入的,反事実的問合せに回答する問題を考える。 拡散モデルにおける最近の発展を利用して, 因果メカニズムを学習するために拡散ベース因果モデル(dcm)を導入し, 介入による直接サンプリングと反事実のアブダクションを可能にした。 DCMを用いて構造方程式をモデル化し、各ノードを潜在表現、外因性雑音のプロキシに符号化し、信頼性の高い因果文と推定を提供する柔軟で正確なモデリングを提供するので、拡散モデルはここで自然候補となる。 我々の実証評価は、因果クエリに応答する既存の最先端手法よりも大幅に改善されたことを示す。 提案手法は, 一般エンコーダ/デコーダモデルの非現実的誤りを独立に解析する手法である。

We consider the problem of answering observational, interventional, and counterfactual queries in a causally sufficient setting where only observational data and the causal graph are available. Utilizing the recent developments in diffusion models, we introduce diffusion-based causal models (DCM) to learn causal mechanisms, that generate unique latent encodings to allow for direct sampling under interventions as well as abduction for counterfactuals. We utilize DCM to model structural equations, seeing that diffusion models serve as a natural candidate here since they encode each node to a latent representation, a proxy for the exogenous noise, and offer flexible and accurate modeling to provide reliable causal statements and estimates. Our empirical evaluations demonstrate significant improvements over existing state-of-the-art methods for answering causal queries. Our theoretical results provide a methodology for analyzing the counterfactual error for general encoder/decoder models which could be of independent interest.
翻訳日:2023-02-03 15:34:19 公開日:2023-02-02
# 知識不変性とスプレッドアウト特性によるオンライン連続学習

Online Continual Learning via the Knowledge Invariant and Spread-out Properties ( http://arxiv.org/abs/2302.00858v1 )

ライセンス: Link先を確認
Ya-nan Han, Jian-wei Liu(参考訳) 連続学習の目標は、先行タスクをうまく実行しながら、以前のタスクから得た知識を用いて、一連のタスクを継続的に学習できるインテリジェントエージェントを提供することである。 しかし、この継続的な学習パラダイムにおける重要な課題は、破滅的な忘れ、すなわち、新しいタスクにモデルを適用することは、しばしば以前のタスクに重大なパフォーマンス低下をもたらす。 現在のメモリベースのアプローチは、新しいタスクが学習されたときに過去のタスクから例を再生することで、破滅的な忘れる問題を軽減することに成功したことを示している。 しかし、これらの手法は、以前のタスク、すなわち異なるインスタンス間の類似性や相違性から構造的知識を伝達することができない。 さらに、現在のタスクと以前のタスクの間の学習バイアスも、解決すべき緊急の問題である。 本研究では,知識不変性と拡散アウト特性(oclkisp)を通じて,知識不変性と拡散アウト特性(kisp)による埋め込み特徴の進化を制約する,オンライン連続学習という新しい手法を提案する。 これにより、学習バイアスによる忘れることを軽減しつつ、以前のタスクのインスタンス間構造知識を更に転送することができる。 提案手法を,CIFAR 100, Split SVHN, Split CUB200, Split Tiny-Image-Netの4つのベンチマークで実証的に評価した。 実験により,提案手法の有効性を,最先端の連続学習アルゴリズムと比較した。

The goal of continual learning is to provide intelligent agents that are capable of learning continually a sequence of tasks using the knowledge obtained from previous tasks while performing well on prior tasks. However, a key challenge in this continual learning paradigm is catastrophic forgetting, namely adapting a model to new tasks often leads to severe performance degradation on prior tasks. Current memory-based approaches show their success in alleviating the catastrophic forgetting problem by replaying examples from past tasks when new tasks are learned. However, these methods are infeasible to transfer the structural knowledge from previous tasks i.e., similarities or dissimilarities between different instances. Furthermore, the learning bias between the current and prior tasks is also an urgent problem that should be solved. In this work, we propose a new method, named Online Continual Learning via the Knowledge Invariant and Spread-out Properties (OCLKISP), in which we constrain the evolution of the embedding features via Knowledge Invariant and Spread-out Properties (KISP). Thus, we can further transfer the inter-instance structural knowledge of previous tasks while alleviating the forgetting due to the learning bias. We empirically evaluate our proposed method on four popular benchmarks for continual learning: Split CIFAR 100, Split SVHN, Split CUB200 and Split Tiny-Image-Net. The experimental results show the efficacy of our proposed method compared to the state-of-the-art continual learning algorithms.
翻訳日:2023-02-03 15:34:04 公開日:2023-02-02
# タスク境界検出によるオンラインメタ学習のためのアルゴリズム設計

Algorithm Design for Online Meta-Learning with Task Boundary Detection ( http://arxiv.org/abs/2302.00857v1 )

ライセンス: Link先を確認
Daouda Sow, Sen Lin, Yingbin Liang, Junshan Zhang(参考訳) オンラインメタラーニングは、最近、バッチメタラーニングとオンラインラーニングの結婚として登場し、新しいタスクへの迅速な適応を生涯にわたって達成している。 しかし、既存のほとんどのアプローチは、オンラインタスクの分布が既知のタスク境界で固定されている制限的な設定に焦点を当てている。 本研究では,これらの仮定を緩和し,非定常環境におけるタスクに依存しないオンラインメタラーニングのための新しいアルゴリズムを提案する。 More specifically, we first propose two simple but effective detection mechanisms of task switches and distribution shift based on empirical observations, which serve as a key building block for more elegant online model updates in our algorithm: the task switch detection mechanism allows reusing of the best model available for the current task at hand, and the distribution shift detection mechanism differentiates the meta model update in order to preserve the knowledge for in-distribution tasks and quickly learn the new knowledge for out-of-distribution tasks. 特に、オンラインのメタモデル更新は、現在のデータのみに基づいており、既存のほとんどのメソッドで必要とされるように、以前のデータを保存する必要がなくなる。 さらに, 軽度条件下では, アルゴリズムのサブ線形タスク平均後悔が達成可能であることを示す。 3つの異なるベンチマークに関する実証的研究は、関連するベースラインアプローチよりもアルゴリズムの大きな利点を明確に示しています。

Online meta-learning has recently emerged as a marriage between batch meta-learning and online learning, for achieving the capability of quick adaptation on new tasks in a lifelong manner. However, most existing approaches focus on the restrictive setting where the distribution of the online tasks remains fixed with known task boundaries. In this work, we relax these assumptions and propose a novel algorithm for task-agnostic online meta-learning in non-stationary environments. More specifically, we first propose two simple but effective detection mechanisms of task switches and distribution shift based on empirical observations, which serve as a key building block for more elegant online model updates in our algorithm: the task switch detection mechanism allows reusing of the best model available for the current task at hand, and the distribution shift detection mechanism differentiates the meta model update in order to preserve the knowledge for in-distribution tasks and quickly learn the new knowledge for out-of-distribution tasks. In particular, our online meta model updates are based only on the current data, which eliminates the need of storing previous data as required in most existing methods. We further show that a sublinear task-averaged regret can be achieved for our algorithm under mild conditions. Empirical studies on three different benchmarks clearly demonstrate the significant advantage of our algorithm over related baseline approaches.
翻訳日:2023-02-03 15:33:41 公開日:2023-02-02
# idt5:インドネシア版多言語t5トランスフォーマー

idT5: Indonesian Version of Multilingual T5 Transformer ( http://arxiv.org/abs/2302.00856v1 )

ライセンス: Link先を確認
Mukhlish Fuadi, Adhi Dharma Wibawa, Surya Sumpeno(参考訳) インドネシア語はおよそ2億人の人々が話しており、世界で10番目に多く話されている言語であるが、nlp(natural language processing)研究ではあまり語られていない。 言語資源の多さはインドネシアにおける以前の研究を妨げている。 Transformerは新しいアーキテクチャで、畳み込みニューラルネットワークやリカレントニューラルネットワークといった選択肢を超越して、NLPで急速に支配的になっている。 T5 (Text-to-Text Transfer Transformer) は、すべてのテキストベースの言語問題を英語のテキストからテキストへ変換するトランスフォーマーモデルである。 多言語型はmt5(multilingual t5)であり、言語間で多くのnlpタスクで有望な結果を示している。 しかし、この多言語モデルのサイズは、しばしば1つの言語しか必要としない実際の実運用アプリケーションに適用する上での欠点である。 本研究では,mT5モデルがインドネシア語にのみ適用され,インドネシア語のみに限定した訓練済みのT5モデルが得られた。 性能比較のために,このモデルとmT5モデルを,感覚分析(SA),質問生成(QG),質問回答(QA)タスクに,正確なメカニズムとデータセットで微調整した。 本モデルに基づく微調整モデルでは,SAでは77.18%,mT5モデルより8%高い精度を示し,QGおよびQAではmT5モデルとほぼ同じスコアを得た。 その結果、モデルサイズを最大58%削減しつつ、同等の収率を維持する、より小さな事前訓練モデルを作成することが可能であることが確認された。 さらに、結果のモデルではメモリの削減、ロードの高速化、推論の高速化が要求される。

Indonesian language is spoken by almost 200 million people and is the 10th most spoken language in the world, but it is under-represented in NLP (Natural Language Processing) research. A sparsity of language resources has hampered previous work on Indonesian. The Transformer is a new architecture rapidly becoming dominant for NLP, surpassing alternatives like convolutional and recurrent neural networks. T5 (Text-to-Text Transfer Transformer) is a Transformer model that converts all text-based language problems to text-to-text format for English. The multilingual variant is mT5 (multilingual T5) which has shown promising results on many NLP tasks across languages. However, the size of this multilingual model is a drawback for its application in real production applications, which sometimes require only one language. In this study, the mT5 model was adapted for only one language, Indonesian, resulting in a pre-trained T5 model that was specific only for Indonesian with a smaller size. For performance comparison, we fine-tuned this model and the mT5 model to the Sentiment Analysis (SA), Question Generation (QG), and Question Answering (QA) tasks with the exact mechanism and dataset. Fine-tuned model based on our model achieved 77.18% accuracy on SA, 8% higher than the mT5-based model, and obtained nearly the same score as the mT5-based model on QG and QA. The results confirm that it is possible to produce a smaller pre-trained model that maintains comparable yields while reducing the model size by up to 58%. In addition, the resulting model requires less memory, loads faster, and inference times faster.
翻訳日:2023-02-03 15:33:23 公開日:2023-02-02
# 精密3次元原子システムモデリングのための分子形状認識変換器

Molecular Geometry-aware Transformer for accurate 3D Atomic System modeling ( http://arxiv.org/abs/2302.00855v1 )

ライセンス: Link先を確認
Zheng Yuan, Yaoyun Zhang, Chuanqi Tan, Wei Wang, Fei Huang, Songfang Huang(参考訳) 分子動力学シミュレーションは計算物理学、化学、材料、生物学において重要である。 機械学習に基づく手法は、分子エネルギーと特性を予測する能力が高く、dft計算よりもずっと高速である。 分子エネルギーは少なくとも原子、結合、結合角、ねじれ角、非結合性原子対と関連している。 以前のトランスフォーマーモデルは、上記の因子の明示的なモデリングを欠いた入力として原子のみを使用する。 ノード(原子)とエッジ(ボンドと非結合原子ペア)を入力とし、それらの相互作用を回転的および変換的不変な幾何学・アウェア空間エンコーディングを用いてモデル化する、新しいトランスフォーマーアーキテクチャであるmoleformerを提案する。 提案した空間符号化は、ノードとエッジ間の距離と角度を含む相対位置情報を算出する。 筆者らはoc20およびqm9データセット上でのmoleformerのベンチマークを行い,初期状態におけるoc20のエネルギー予測を緩和し,qm9では他のトランスフォーマおよびグラフニューラルネットワーク(gnn)法と比較して量子化学的特性の予測に非常に競争力があることを示した。

Molecular dynamic simulations are important in computational physics, chemistry, material, and biology. Machine learning-based methods have shown strong abilities in predicting molecular energy and properties and are much faster than DFT calculations. Molecular energy is at least related to atoms, bonds, bond angles, torsion angles, and nonbonding atom pairs. Previous Transformer models only use atoms as inputs which lack explicit modeling of the aforementioned factors. To alleviate this limitation, we propose Moleformer, a novel Transformer architecture that takes nodes (atoms) and edges (bonds and nonbonding atom pairs) as inputs and models the interactions among them using rotational and translational invariant geometry-aware spatial encoding. Proposed spatial encoding calculates relative position information including distances and angles among nodes and edges. We benchmark Moleformer on OC20 and QM9 datasets, and our model achieves state-of-the-art on the initial state to relaxed energy prediction of OC20 and is very competitive in QM9 on predicting quantum chemical properties compared to other Transformer and Graph Neural Network (GNN) methods which proves the effectiveness of the proposed geometry-aware spatial encoding in Moleformer.
翻訳日:2023-02-03 15:32:55 公開日:2023-02-02
# 時系列連続モデリングのためのPDEソリューションオペレータの学習

Learning PDE Solution Operator for Continuous Modeling of Time-Series ( http://arxiv.org/abs/2302.00854v1 )

ライセンス: Link先を確認
Yesom Park, Jaemoo Choi, Changyeon Yoon, Chang hoon Song, Myungjoo Kang(参考訳) データから基礎となるダイナミクスを学ぶことは、多くの現実世界のシナリオにおいて重要で難しい。 連続ネットワークの設計に微分方程式(DE)を組み込むことは近年注目されているが、多くの先行研究はDESのタイプについて特定の仮定をしており、特定の問題に特化している。 この研究は、動的モデリング能力を改善する偏微分方程式(PDE)に基づくフレームワークを提案する。 最近のフーリエニューラル演算子に基づいて,反復操作や時間的離散化の特定のグリッドを必要とせずに,連続的な時間処理が可能なニューラル演算子を提案する。 その普遍性を示す理論的結果が提供される。 また,安定性を確保することにより,データ効率とモデル一般化を改善するニューラル演算子の特性を明らかにする。 従来のモデルと比較して時間依存型PDEの処理精度は優れている。 さらに,いくつかの数値的な証拠から,本手法はより広い範囲のダイナミックスを表現し,実時間系列アプリケーションにおいて最先端のデベースモデルを上回ることを証明した。 私たちのフレームワークは、現実世界のアプリケーションに容易に適用可能な、ニューラルネットワークの連続表現のための新しい方法を開きます。

Learning underlying dynamics from data is important and challenging in many real-world scenarios. Incorporating differential equations (DEs) to design continuous networks has drawn much attention recently, however, most prior works make specific assumptions on the type of DEs, making the model specialized for particular problems. This work presents a partial differential equation (PDE) based framework which improves the dynamics modeling capability. Building upon the recent Fourier neural operator, we propose a neural operator that can handle time continuously without requiring iterative operations or specific grids of temporal discretization. A theoretical result demonstrating its universality is provided. We also uncover an intrinsic property of neural operators that improves data efficiency and model generalization by ensuring stability. Our model achieves superior accuracy in dealing with time-dependent PDEs compared to existing models. Furthermore, several numerical pieces of evidence validate that our method better represents a wide range of dynamics and outperforms state-of-the-art DE-based models in real-time-series applications. Our framework opens up a new way for a continuous representation of neural networks that can be readily adopted for real-world applications.
翻訳日:2023-02-03 15:32:31 公開日:2023-02-02
# 重球運動量加速確率勾配降下における暗黙的正則化

Implicit regularization in Heavy-ball momentum accelerated stochastic gradient descent ( http://arxiv.org/abs/2302.00849v1 )

ライセンス: Link先を確認
Avrajit Ghosh, He Lyu, Xitong Zhang, Rongrong Wang(参考訳) 勾配降下 (gd) における有限ステップサイズ (h$) は、より平坦な極小への解を暗黙的に正則化することが知られている。 自然な疑問は、「重いボール(H.B)の運動量加速勾配降下(GD+M)において、運動量パラメータ$\beta$は暗黙の正則化において役割を果たすか」である。 この質問に答えるために、まず、離散的なH.B運動量更新(GD+M)が、元の損失と暗黙の正則化からなる修正損失によって誘導される連続的な軌跡に従うことを示す。 すると、(GD+M)のこの暗黙正則化器は、(GD)のそれよりも$(\frac{1+\beta}{1-\beta})$より強く、なぜ(GD+M)が(GD)よりも優れた一般化性能とテスト精度を示すのかを説明する。 さらに,この解析を運動量を伴う勾配降下の確率的バージョン(SGD+M)に拡張し,(SGD+M)の更新の連続的な軌跡をポイントワイズで特徴づける。 我々は、我々の理論を検証する一連の実験を通して、(SGD+M)と(GD+M)の暗黙正則化を探求する。

It is well known that the finite step-size ($h$) in Gradient Descent (GD) implicitly regularizes solutions to flatter minima. A natural question to ask is "Does the momentum parameter $\beta$ play a role in implicit regularization in Heavy-ball (H.B) momentum accelerated gradient descent (GD+M)?". To answer this question, first, we show that the discrete H.B momentum update (GD+M) follows a continuous trajectory induced by a modified loss, which consists of an original loss and an implicit regularizer. Then, we show that this implicit regularizer for (GD+M) is stronger than that of (GD) by factor of $(\frac{1+\beta}{1-\beta})$, thus explaining why (GD+M) shows better generalization performance and higher test accuracy than (GD). Furthermore, we extend our analysis to the stochastic version of gradient descent with momentum (SGD+M) and characterize the continuous trajectory of the update of (SGD+M) in a pointwise sense. We explore the implicit regularization in (SGD+M) and (GD+M) through a series of experiments validating our theory.
翻訳日:2023-02-03 15:32:10 公開日:2023-02-02
# 因果効果の推定:最近の進歩、課題、機会

Causal Effect Estimation: Recent Advances, Challenges, and Opportunities ( http://arxiv.org/abs/2302.00848v1 )

ライセンス: Link先を確認
Zhixuan Chu, Jianmin Huang, Ruopeng Li, Wei Chu, Sheng Li(参考訳) 因果推論は、医療、マーケティング、政治科学、オンライン広告など、多くの分野において多くの実世界の応用がある。 因果推論における基本的な問題である治療効果推定は、数十年にわたって統計学で広く研究されてきた。 しかし、従来の処理効果推定法は、大規模および高次元の異種データを十分に扱えない。 近年では、従来の治療効果推定アプローチ(傾向スコア、マッチング、緩和など)と高度な機械学習アプローチ(表現学習、逆学習、グラフニューラルネットワークなど)の利点を組み合わせた、幅広い人工知能分野において、新たな研究方向が注目されている。 高度な機械学習アプローチは、治療効果の推定において異常なパフォーマンスを示しているが、多くの新しいトピックや新しい研究課題も伴っている。 因果推論分野における最新の研究成果を踏まえ,治療効果推定課題の3つの中核的構成要素,すなわち治療,共変量,結果に対する課題と機会に関する総合的な議論を行う。 さらに,このトピックの有望な研究方向性を,複数の視点から紹介する。

Causal inference has numerous real-world applications in many domains, such as health care, marketing, political science, and online advertising. Treatment effect estimation, a fundamental problem in causal inference, has been extensively studied in statistics for decades. However, traditional treatment effect estimation methods may not well handle large-scale and high-dimensional heterogeneous data. In recent years, an emerging research direction has attracted increasing attention in the broad artificial intelligence field, which combines the advantages of traditional treatment effect estimation approaches (e.g., propensity score, matching, and reweighing) and advanced machine learning approaches (e.g., representation learning, adversarial learning, and graph neural networks). Although the advanced machine learning approaches have shown extraordinary performance in treatment effect estimation, it also comes with a lot of new topics and new research questions. In view of the latest research efforts in the causal inference field, we provide a comprehensive discussion of challenges and opportunities for the three core components of the treatment effect estimation task, i.e., treatment, covariates, and outcome. In addition, we showcase the promising research directions of this topic from multiple perspectives.
翻訳日:2023-02-03 15:31:44 公開日:2023-02-02
# 順序付きスケールアップ: 分散トレーニングのための優れたデータ置換を見つける

Scale up with Order: Finding Good Data Permutations for Distributed Training ( http://arxiv.org/abs/2302.00845v1 )

ライセンス: Link先を確認
Wentao Guo, Khiem Pham, Yucheng Lu, Tiancheng Yuan, Charlie F. Ruan, Christopher De Sa(参考訳) Gradient Balancing(グラディエント・バランシング、GraB)は、有限データセット上で複数のエポックを持つモデルをトレーニングする際に、確実に優れたデータ置換を求める手法である。 広く採用されているランダムなリシャッフルよりも速い速度で収束し、隣接した例の勾配の不一致を最小限に抑える。 しかし、GraBは小さなバッチサイズや集中型データといった重要な前提の下でのみ動作し、大規模にサンプルを注文する方法、すなわち分散学習と分散データという疑問を解き放つ。 この制限を緩和するために,本論文では,2つの新しい設計を含むd-grabを提案する。(1) 学習速度の小さいgrabにおいて,定位勾配平均を使用する必要がなくなる$\textsf{pairbalance}$ と,データ順序付けと並列処理の両方から恩恵を受ける分散環境において$\textsf{pairbalance}$ を実行する順序付けプロトコルである。 d-grab は、滑らかな非凸目的に対する $\tilde{o}((mnt)^{-2/3})$ と pl 条件下で $\tilde{o}((mnt)^{-2})$ で線形速度が向上することを証明し、ここで $n$ は並列ワーカーの数を表し、$m$ はワーカー当たりのサンプル数を表し、$t$ はエポック数を表す。 実験では,GLUE, CIFAR10, WikiText-2 など,D-GraB が初歩的な並列 GraB と分散ランダムリシャッフルをトレーニング性能と検証性能の両方で上回っていることを示す。

Gradient Balancing (GraB) is a recently proposed technique that finds provably better data permutations when training models with multiple epochs over a finite dataset. It converges at a faster rate than the widely adopted Random Reshuffling, by minimizing the discrepancy of the gradients on adjacently selected examples. However, GraB only operates under critical assumptions such as small batch sizes and centralized data, leaving open the question of how to order examples at large scale -- i.e. distributed learning with decentralized data. To alleviate the limitation, in this paper we propose D-GraB that involves two novel designs: (1) $\textsf{PairBalance}$ that eliminates the requirement to use stale gradient mean in GraB which critically relies on small learning rates; (2) an ordering protocol that runs $\textsf{PairBalance}$ in a distributed environment with negligible overhead, which benefits from both data ordering and parallelism. We prove D-GraB enjoys linear speed up at rate $\tilde{O}((mnT)^{-2/3})$ on smooth non-convex objectives and $\tilde{O}((mnT)^{-2})$ under PL condition, where $n$ denotes the number of parallel workers, $m$ denotes the number of examples per worker and $T$ denotes the number of epochs. Empirically, we show on various applications including GLUE, CIFAR10 and WikiText-2 that D-GraB outperforms naive parallel GraB and Distributed Random Reshuffling in terms of both training and validation performance.
翻訳日:2023-02-03 15:31:27 公開日:2023-02-02
# 文脈ラッソ:ディープニューラルネットワークによるスパース線形モデル

The Contextual Lasso: Sparse Linear Models via Deep Neural Networks ( http://arxiv.org/abs/2302.00878v1 )

ライセンス: Link先を確認
Ryan Thompson, Amir Dezfouli, Robert Kohn(参考訳) スパース線形モデルは、多くの領域で意思決定に浸透する予測モデルとして重要になる分野である、解釈可能な機械学習のための金の標準ツールである。 残念ながら、スパース線形モデルは、ディープニューラルネットワークのようなブラックボックスモデルよりも、入力機能の関数としてはるかに柔軟性が低い。 この能力ギャップを念頭に置いて、入力特徴を2つのグループに分けた、説明的特徴(説明的特徴)と文脈的特徴(文脈的特徴)をモデル化し、モデルの説明を判断する。 この二分法により,スパース性パターンと係数が文脈的特徴によって異なるスパース線形モデルに適合する新しい統計推定器であるcontextual lassoを提案する。 適合するプロセスは、文脈的特徴ベクトルからスパース係数ベクトルまで、ディープニューラルネットワークによって実現される非パラメトリックマップを学習する。 スパース係数を得るために、ネットワークの出力を$\ell_1$-constrained linear modelの空間にマッピングするプロジェクション層の形で、新しいラッソ正規化器を用いてネットワークを訓練する。 実データと合成データに関する広範な実験は、学習されたモデルは、非常に透明でありながら、標準のディープニューラルネットワークの予測力を犠牲にすることなく、通常のラッソよりもスパーザーであることを示唆している。

Sparse linear models are a gold standard tool for interpretable machine learning, a field of emerging importance as predictive models permeate decision-making in many domains. Unfortunately, sparse linear models are far less flexible as functions of their input features than black-box models like deep neural networks. With this capability gap in mind, we study a not-uncommon situation where the input features dichotomize into two groups: explanatory features, which we wish to explain the model's predictions, and contextual features, which we wish to determine the model's explanations. This dichotomy leads us to propose the contextual lasso, a new statistical estimator that fits a sparse linear model whose sparsity pattern and coefficients can vary with the contextual features. The fitting process involves learning a nonparametric map, realized via a deep neural network, from contextual feature vector to sparse coefficient vector. To attain sparse coefficients, we train the network with a novel lasso regularizer in the form of a projection layer that maps the network's output onto the space of $\ell_1$-constrained linear models. Extensive experiments on real and synthetic data suggest that the learned models, which remain highly transparent, can be sparser than the regular lasso without sacrificing the predictive power of a standard deep neural network.
翻訳日:2023-02-03 15:25:15 公開日:2023-02-02
# 非エルミートフロッケフリー解析可解時間依存系

Non-Hermitian Floquet-Free Analytically Solvable Time Dependant Systems ( http://arxiv.org/abs/2302.00877v1 )

ライセンス: Link先を確認
Hamed Ghaemi-Dizicheh, Hamidreza Ramezani(参考訳) パリティ (P) と時間反転 (T) 作用素の下で対称な非エルミート模型は、新しい超感度光電子デバイスを作るための基礎となる。 しかし、そのようなシステムに利得を与えるには、通常、非線形過程の正確な確証が必要であり、その適用は制限される。 本稿では,この障害を回避すべく,時間依存な非エルミート・ハミルトニアン(必ずしもフロッケではない)のクラスを導入し,オンサイト電位とカップリングを時間的に変調した2レベルシステムを記述する。 適切な非ユニタリゲージ変換の実装は、元のシステムをバランスのとれたゲインと損失を持つ有効なシステムに変換する。 これにより、状態の進化を解析的に導き出すことができる。 提案するハミルトニアンのクラスは,電子回路や音響,フォトニクスなどの異なるプラットフォームを用いて,想像上のオンサイト増幅や吸収機構を伴わずに隠れたpt対称性を持つ構造を設計できる。

The non-Hermitian models, which are symmetric under parity (P) and time-reversal (T) operators, are the cornerstone for the fabrication of new ultra-sensitive optoelectronic devices. However, providing the gain in such systems usually demands precise contorol of nonlinear processes, limiting their application. In this paper, to bypass this obstacle, we introduce a class of time-dependent non-Hermitian Hamiltonians (not necessarily Floquet) that can describe a two-level system with temporally modulated on-site potential and couplings. We show that implementing an appropriate non-Unitary gauge transformation converts the original system to an effective one with a balanced gain and loss. This will allow us to derive the evolution of states analytically. Our proposed class of Hamiltonians can be employed in different platforms such as electronic circuits, acoustics, and photonics to design structures with hidden PT-symmetry potentially without imaginary onsite amplification and absorption mechanism to obtain an exceptional point.
翻訳日:2023-02-03 15:24:49 公開日:2023-02-02
# 一般化ゼロショット学習のための視覚トランスフォーマーに基づく特徴抽出

Vision Transformer-based Feature Extraction for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2302.00875v1 )

ライセンス: Link先を確認
Jiseob Kim, Kyuhong Shim, Junhan Kim, Byonghyo Shim(参考訳) 一般化ゼロショット学習(gzsl)は、ディープラーニングモデルをトレーニングして、イメージ属性を使用して未知のクラスを識別するテクニックである。 本稿では,画像特徴に含まれる属性関連情報を最大化するために,視覚変換器(ViT)を利用した新しいGZSL手法を提案する。 ViTでは、画像解像度を劣化させることなく全画像領域を処理し、局所画像情報をパッチ特徴として保存する。 ViTのこれらの利点を十分に享受するために、属性関連画像の特徴抽出においてパッチ機能とCLS機能を利用する。 特に,アトリビュート・アテンション・モジュール (AAM) と呼ばれる新しいアトリビュート・アテンション・アテンション・モジュールを提案し,アトリビュート関連情報をパッチ機能に集約する。 aamでは、各パッチの特徴と合成画像属性との相関を各パッチの重要性重みとして用いる。 ベンチマークデータセットの広範な実験から,提案手法が最先端のGZSLアプローチよりも大きなマージンで優れていることを示す。

Generalized zero-shot learning (GZSL) is a technique to train a deep learning model to identify unseen classes using the image attribute. In this paper, we put forth a new GZSL approach exploiting Vision Transformer (ViT) to maximize the attribute-related information contained in the image feature. In ViT, the entire image region is processed without the degradation of the image resolution and the local image information is preserved in patch features. To fully enjoy these benefits of ViT, we exploit patch features as well as the CLS feature in extracting the attribute-related image feature. In particular, we propose a novel attention-based module, called attribute attention module (AAM), to aggregate the attribute-related information in patch features. In AAM, the correlation between each patch feature and the synthetic image attribute is used as the importance weight for each patch. From extensive experiments on benchmark datasets, we demonstrate that the proposed technique outperforms the state-of-the-art GZSL approaches by a large margin.
翻訳日:2023-02-03 15:24:29 公開日:2023-02-02
# グラフ上のサイレント多数予測:知識伝達型グラフニューラルネットワーク

Predicting the Silent Majority on Graphs: Knowledge Transferable Graph Neural Network ( http://arxiv.org/abs/2302.00873v1 )

ライセンス: Link先を確認
Wendong Bi, Bingbing Xu, Xiaoqian Sun, Li Xu, Huawei Shen, Xueqi Cheng(参考訳) 声門ノード(声門少数派)とサイレントノード(サイレント多数派)からなるグラフ、すなわちVS-Graphは現実世界に広く存在している。 声帯には豊富な特徴とラベルがある傾向がある。 対照的に、サイレントノードは不完全な特徴と稀なラベルしか持たず、例えば、政治家(声)の記述と政治的傾向は豊富であるが、Twitterのソーシャルネットワーク上の一般の人々(サイレント)には及ばない。 サイレントマジョリティの予測は、依然として極めて困難な問題である。 しかし、既存のメッセージパスベースのGNNの多くは、すべてのノードが、欠落した機能やドメイン間の分散シフトを考慮せずに、同じドメインに属していると仮定しているため、VS-Graphに対処する能力は貧弱である。 上記の課題に対処するために,音声ノードからサイレントノードへ知識を伝達することで,メッセージパッシングと表現学習における分散シフトをモデル化する知識伝達可能なグラフニューラルネットワーク(KT-GNN)を提案する。 具体的には、ドメイン差を保ちながらノード表現学習のためのドメイン適応型「機能補完とメッセージパッシング機構」を設計する。 そして、KL分割に基づく知識伝達可能な分類器に従う。 実世界のシナリオに関する総合的な実験(企業財務リスク評価と政治選挙)は,本手法の優れた性能を示す。 ソースコードがオープンソース化されました。

Graphs consisting of vocal nodes ("the vocal minority") and silent nodes ("the silent majority"), namely VS-Graph, are ubiquitous in the real world. The vocal nodes tend to have abundant features and labels. In contrast, silent nodes only have incomplete features and rare labels, e.g., the description and political tendency of politicians (vocal) are abundant while not for ordinary people (silent) on the twitter's social network. Predicting the silent majority remains a crucial yet challenging problem. However, most existing message-passing based GNNs assume that all nodes belong to the same domain, without considering the missing features and distribution-shift between domains, leading to poor ability to deal with VS-Graph. To combat the above challenges, we propose Knowledge Transferable Graph Neural Network (KT-GNN), which models distribution shifts during message passing and representation learning by transferring knowledge from vocal nodes to silent nodes. Specifically, we design the domain-adapted "feature completion and message passing mechanism" for node representation learning while preserving domain difference. And a knowledge transferable classifier based on KL-divergence is followed. Comprehensive experiments on real-world scenarios (i.e., company financial risk assessment and political elections) demonstrate the superior performance of our method. Our source code has been open sourced.
翻訳日:2023-02-03 15:24:11 公開日:2023-02-02
# 直接最適化されたインダクティブ・コンフォーマル回帰を用いた深層学習のための信頼性予測区間

Reliable Prediction Intervals with Directly Optimized Inductive Conformal Regression for Deep Learning ( http://arxiv.org/abs/2302.00872v1 )

ライセンス: Link先を確認
Haocheng Lei and Anthony Bellotti(参考訳) ディープラーニング回帰における各予測の不確かさを定量化する予測間隔(pis)を生成することにより、誤った予測のリスクを効果的に制御することができる。 高品質なPIは可能な限り狭くする必要があるが、実際のラベルのプリセット割合はカバーしている。 現在、PIの品質向上のための多くのアプローチは、PIの幅を効果的に削減することができるが、実際のラベルが十分に取得されることは保証されていない。 Inductive Conformal Predictor (ICP)は、理論上、予め設定されたデータの比率をカバーすることが保証される効果的なPIを生成するアルゴリズムである。 しかし、一般的にICPはPI幅を最小にするために直接最適化されていない。 しかし,本研究では,損失関数としてPIの平均幅のみを考慮し,適切な実ラベルをPIで取得する妥当性条件下での最適化スキームによりPIの品質を向上させる,直接最適化インダクティブ・コンダクティブ・レグレッション(DOICR)を用いる。 ベンチマーク実験により、DOICRは、グラフデータと画像データの両方において、基盤となるDeep Neural Network構造を用いて、回帰問題に対する現在の最先端アルゴリズムよりも優れていることが示された。

By generating prediction intervals (PIs) to quantify the uncertainty of each prediction in deep learning regression, the risk of wrong predictions can be effectively controlled. High-quality PIs need to be as narrow as possible, whilst covering a preset proportion of real labels. At present, many approaches to improve the quality of PIs can effectively reduce the width of PIs, but they do not ensure that enough real labels are captured. Inductive Conformal Predictor (ICP) is an algorithm that can generate effective PIs which is theoretically guaranteed to cover a preset proportion of data. However, typically ICP is not directly optimized to yield minimal PI width. However, in this study, we use Directly Optimized Inductive Conformal Regression (DOICR) that takes only the average width of PIs as the loss function and increases the quality of PIs through an optimized scheme under the validity condition that sufficient real labels are captured in the PIs. Benchmark experiments show that DOICR outperforms current state-of-the-art algorithms for regression problems using underlying Deep Neural Network structures for both tabular and image data.
翻訳日:2023-02-03 15:23:48 公開日:2023-02-02
# インコンテキスト学習による対話の安全性向上

Using In-Context Learning to Improve Dialogue Safety ( http://arxiv.org/abs/2302.00871v1 )

ライセンス: Link先を確認
Nicholas Meade, Spandana Gella, Devamanyu Hazarika, Prakhar Gupta, Di Jin, Siva Reddy, Yang Liu, Dilek Hakkani-T\"ur(参考訳) 大規模なニューラルベースの会話モデルが対話エージェントとしてより熟達する一方で、最近の研究はこれらのシステムにおける安全性の問題を強調している。 例えば、これらのシステムは有害なコンテンツを生成し、しばしば社会的バイアスやステレオタイプを持続させる。 ニューラルネットワークチャットボットから発生する応答のバイアスや毒性を低減するための検索ベースフレームワークについて検討する。 コンテキスト内学習を使用して、モデルをより安全な世代に向けて操る。 具体的には、安全でない対話コンテキストに対する応答を生成するために、同様の対話コンテキストに対する安全なモデル応答のデモを検索する。 提案手法は,ファインチューニングを用いた強力なベースラインと競合する。 例えば、自動評価を用いて、最高の微調整ベースラインは、DiaSafety 2.92%以上の安全でない対話コンテキストに対してのみ安全な応答を生成する。 最後に,応答の安全性をさらに向上する簡単な再品位手順を提案する。

While large neural-based conversational models have become increasingly proficient as dialogue agents, recent work has highlighted safety issues with these systems. For example, these systems can be goaded into generating toxic content, which often perpetuates social biases or stereotypes. We investigate a retrieval-based framework for reducing bias and toxicity in responses generated from neural-based chatbots. It uses in-context learning to steer a model towards safer generations. Concretely, to generate a response to an unsafe dialogue context, we retrieve demonstrations of safe model responses to similar dialogue contexts. We find our proposed approach performs competitively with strong baselines which use fine-tuning. For instance, using automatic evaluation, we find our best fine-tuned baseline only generates safe responses to unsafe dialogue contexts from DiaSafety 2.92% more than our approach. Finally, we also propose a straightforward re-ranking procedure which can further improve response safeness.
翻訳日:2023-02-03 15:23:27 公開日:2023-02-02
# 疎因果干渉による潜在表現の歪み

Disentanglement of Latent Representations via Sparse Causal Interventions ( http://arxiv.org/abs/2302.00869v1 )

ライセンス: Link先を確認
Ga\"el Gendron, Michael Witbrock and Gillian Dobbie(参考訳) 画像などのデータを生成するプロセスは、独立かつ未知の変動要因によって制御される。 これらの変数の検索は、絡み合い、因果表現学習、独立成分分析分野において広く研究されている。 近年、これらのドメインを結合するアプローチは大きな成功を収めている。 ばらつきの要因を直接表現する代わりに、絡み合いの問題は、1つのイメージに1つの要因に変化をもたらす介入を見つけることと見なすことができる。 この仮定に従い,因果性理論とベクトル量子化変分オートエンコーダを組み合わせた因果動力学に触発された新たな不等角化法を提案する。 本モデルは,量子化されたベクトルを因果変数と考え,それらを因果グラフに関連付ける。 グラフの因果的介入を行い、画像の変動のユニークな要因に影響を与える原子遷移を生成する。 また,2つの画像間の遷移に責任を負う行動を見つけることで,新たな行動検索タスクを導入する。 提案手法は,標準合成および実世界のディコンタングルメントデータセットで検証する。 変動要因を効果的に解き、不均衡なデータ分布であっても画質に影響を与えずに画像の高レベルな意味的属性を正確に介入できることを示す。

The process of generating data such as images is controlled by independent and unknown factors of variation. The retrieval of these variables has been studied extensively in the disentanglement, causal representation learning, and independent component analysis fields. Recently, approaches merging these domains together have shown great success. Instead of directly representing the factors of variation, the problem of disentanglement can be seen as finding the interventions on one image that yield a change to a single factor. Following this assumption, we introduce a new method for disentanglement inspired by causal dynamics that combines causality theory with vector-quantized variational autoencoders. Our model considers the quantized vectors as causal variables and links them in a causal graph. It performs causal interventions on the graph and generates atomic transitions affecting a unique factor of variation in the image. We also introduce a new task of action retrieval that consists of finding the action responsible for the transition between two images. We test our method on standard synthetic and real-world disentanglement datasets. We show that it can effectively disentangle the factors of variation and perform precise interventions on high-level semantic attributes of an image without affecting its quality, even with imbalanced data distributions.
翻訳日:2023-02-03 15:23:13 公開日:2023-02-02
# セルラーネットワークにおける仮想会議のための音声強調

Speech Enhancement for Virtual Meetings on Cellular Networks ( http://arxiv.org/abs/2302.00868v1 )

ライセンス: Link先を確認
Hojeong Lee, Minseon Gwak, Kawon Lee, Minjeong Kim, Joseph Konan and Ojas Bhargave(参考訳) 本研究では,音声品質に影響を及ぼす背景雑音や伝達損失を有する携帯端末上での仮想会議におけるディープラーニング(DL)を用いた音声強調について検討した。 Deep Noise Suppression (DNS) Challenge データセットは実用的な障害を含まないため、T-Mobile ネットワーク上でZoom Meetings を用いて送信された DNS (t-DNS) データセットを収集する。 DemucsとFullSubNetの2つのベースラインモデルを選択します。 Demucsは時間領域の入力を受け、時間領域の認知音声を出力するエンド・ツー・エンドのモデルであり、FullSubNetは時間周波数領域の入力を受け、入力中のターゲット音声のエネルギー比を出力する。 このプロジェクトの目標は、ディープラーニングモデルを使用して、セルラーネットワーク上で送信される音声を強化することである。

We study speech enhancement using deep learning (DL) for virtual meetings on cellular devices, where transmitted speech has background noise and transmission loss that affects speech quality. Since the Deep Noise Suppression (DNS) Challenge dataset does not contain practical disturbance, we collect a transmitted DNS (t-DNS) dataset using Zoom Meetings over T-Mobile network. We select two baseline models: Demucs and FullSubNet. The Demucs is an end-to-end model that takes time-domain inputs and outputs time-domain denoised speech, and the FullSubNet takes time-frequency-domain inputs and outputs the energy ratio of the target speech in the inputs. The goal of this project is to enhance the speech transmitted over the cellular networks using deep learning models.
翻訳日:2023-02-03 15:22:54 公開日:2023-02-02
# 金および薄磁性誘電体板間の反発カシミール力の増強

Enhanced repulsive Casimir forces between gold and thin magnetodielectric plates ( http://arxiv.org/abs/2302.00865v1 )

ライセンス: Link先を確認
Calum Shelden, Benjamin Spreng, Jeremy N. Munday(参考訳) 金属板と磁性板の間の反発力を計算するとともに, 磁気板の特性を, 反発のノブのチューニングとして定量的に探究する。 すなわち、板の厚さと誘電率と透過性は周波数が消える。 また, 温度が引力および引力相互作用間の遷移距離に及ぼす影響についても検討した。 サブミクロン分離条件下での反発を可能にするためにパラメータを調整できることを示し、磁力ファンデルワールス材料を用いた既知の高分解能測定技術が利用できる可能性を示した。

We calculate repulsive Casimir forces between metallic and magnetic plates and quantitatively probe the magnetic plate's properties as tuning knobs for the repulsion. Namely, the plate's thickness and its permittivity and permeability at vanishing frequency. We also explore the effect of temperature on the repulsion and transition distance between attractive and repulsive interactions. We show how the parameters can be tuned to allow repulsion at sub-micron separation regimes, making it potentially accessible to known high-resolution measurement techniques using magnetic van der Waals materials.
翻訳日:2023-02-03 15:22:38 公開日:2023-02-02
# CLIPood: CLIPをアウト・オブ・ディストリビューションに一般化する

CLIPood: Generalizing CLIP to Out-of-Distributions ( http://arxiv.org/abs/2302.00864v1 )

ライセンス: Link先を確認
Yang Shu, Xingzhuo Guo, Jialong Wu, Ximei Wang, Jianmin Wang, Mingsheng Long(参考訳) トレーニングから分散シフトを扱うモデルであるアウト・オブ・ディストリビューション(OOD)の一般化は、機械学習の大きな課題である。 近年, 言語画像事前学習(CLIP)モデルでは, OOD一般化への道のりが目覚ましいゼロショット能力を示している。 しかし、ゼロショット性能を高めるために、下流タスクへのCLIPのさらなる適応は必須だが、OODの一般化能力は好ましくない。 本稿では,CLIPを下流タスクにおける分散テストデータに一般化することを目的とする。 ドメインシフトとオープンクラスという2つの標準的なOOD状況の他に、我々は、見知らぬテストデータに両方のOOD状況が発生するという、より一般的だが困難な状況に対処する。 我々は、CLIPモデルをすべてのOOD状況に適応できる簡単な微調整手法であるCLIPoodを提案する。 テキストモダリティからクラス間のセマンティックな関係を利用するために、CLIPoodは新しいトレーニング目標であるマージンメトリック・ソフトマックス(MMS)を導入し、クラス適応マージンを微調整する。 さらに、事前訓練されたゼロショットモデルと微調整されたタスク適応モデルの両方を組み込むため、clipoodはベータ分布に応じてテンポラルアンサンブルを維持するための新しいベータ移動平均(bma)を提案する。 さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。

Out-of-distribution (OOD) generalization, where the model needs to handle distribution shifts from training, is a major challenge of machine learning. Recently, contrastive language-image pre-training (CLIP) models have shown impressive zero-shot ability, revealing a promising path toward OOD generalization. However, to boost upon zero-shot performance, further adaptation of CLIP on downstream tasks is indispensable but undesirably degrades OOD generalization ability. In this paper, we aim at generalizing CLIP to out-of-distribution test data on downstream tasks. Beyond the two canonical OOD situations, domain shift and open class, we tackle a more general but difficult in-the-wild setting where both OOD situations may occur on the unseen test data. We propose CLIPood, a simple fine-tuning method that can adapt CLIP models to all OOD situations. To exploit semantic relations between classes from the text modality, CLIPood introduces a new training objective, margin metric softmax (MMS), with class adaptive margins for fine-tuning. Moreover, to incorporate both the pre-trained zero-shot model and the fine-tuned task-adaptive model, CLIPood proposes a new Beta moving average (BMA) to maintain a temporal ensemble according to Beta distribution. Experiments on diverse datasets with different OOD scenarios show that CLIPood consistently outperforms existing generalization techniques.
翻訳日:2023-02-03 15:22:30 公開日:2023-02-02
# KSTミキサー:コロニー形状推定のための運動時空間データミキサー

KST-Mixer: Kinematic Spatio-Temporal Data Mixer For Colon Shape Estimation ( http://arxiv.org/abs/2302.00899v1 )

ライセンス: Link先を確認
Masahiro Oda, Kazuhiro Furukawa, Nassir Navab, Kensaku Mori(参考訳) 大腸内視鏡挿入による変形を伴う大腸の形状を推定するための時空間混合運動データ推定法を提案する。 臓器穿孔などの合併症を軽減するためには、内視鏡追跡または医師を標的位置に誘導するナビゲーションシステムが必要である。 気管支内視鏡と外科内視鏡の追跡に焦点をあてた従来手法は多くあったが,大腸内視鏡の追跡法はほとんど提案されなかった。 これは大腸内視鏡挿入時に大腸が大きく変形するためである。 変形は重大な追跡エラーを引き起こす。 大腸の変形は追跡過程において考慮すべきである。 大腸内視鏡挿入時に使用できるキネマティック時空間データミキサー(kst-mixer)を用いた大腸形状推定法を提案する。 電磁気センサと深度センサを用いて, 中心線の位置と方向を含む大腸内視鏡および大腸の運動データを得る。 提案手法は,データを空間軸と時間軸に沿った部分群に分割する。 KST-Mixerは運動学的特徴を抽出し、空間的および時間的軸に沿って複数回混合する。 ファントム研究における大腸形状推定精度について検討した。 提案手法は従来手法の最小であるユークリッド距離誤差を11.92mmとした。 統計的解析の結果,提案手法は従来の手法に比べて誤差を著しく低減した。

We propose a spatio-temporal mixing kinematic data estimation method to estimate the shape of the colon with deformations caused by colonoscope insertion. Endoscope tracking or a navigation system that navigates physicians to target positions is needed to reduce such complications as organ perforations. Although many previous methods focused to track bronchoscopes and surgical endoscopes, few number of colonoscope tracking methods were proposed. This is because the colon largely deforms during colonoscope insertion. The deformation causes significant tracking errors. Colon deformation should be taken into account in the tracking process. We propose a colon shape estimation method using a Kinematic Spatio-Temporal data Mixer (KST-Mixer) that can be used during colonoscope insertions to the colon. Kinematic data of a colonoscope and the colon, including positions and directions of their centerlines, are obtained using electromagnetic and depth sensors. The proposed method separates the data into sub-groups along the spatial and temporal axes. The KST-Mixer extracts kinematic features and mix them along the spatial and temporal axes multiple times. We evaluated colon shape estimation accuracies in phantom studies. The proposed method achieved 11.92 mm mean Euclidean distance error, the smallest of the previous methods. Statistical analysis indicated that the proposed method significantly reduced the error compared to the previous methods.
翻訳日:2023-02-03 15:16:11 公開日:2023-02-02
# テキストデータ拡張のための"Good"サンプルの選択方法

How to choose "Good" Samples for Text Data Augmentation ( http://arxiv.org/abs/2302.00894v1 )

ライセンス: Link先を確認
Xiaotian Lin, Nankai Lin, Yingwen Fu, Ziyu Yang and Shengyi Jiang(参考訳) 深層学習に基づくテキスト分類モデルは、競合性能を得るために豊富なラベル付きデータを必要とする。 残念ながら、大型コーパスに注釈をつけるのは時間と労力を要する。 これに対処するために、複数の研究がコーパスのサイズを拡大するためにデータ拡張を試みている。 しかし、データ拡張はノイズの多い拡張サンプルを生成する可能性がある。 現在、自然言語処理分野におけるサンプル選択に関する研究は行われていない。 本稿では,データ拡張から高品質なサンプルを選択するための,2つのセレクタを持つ新しい自己学習選択フレームワークを提案する。 具体的には、まずエントロピーに基づく戦略とモデル予測を用いて、拡張サンプルを選択する。 上記のステップで品質の高いサンプルが誤ってフィルタされる可能性があることを考慮し,単語重なりと意味的類似性という2つの視点からそれを思い出す。 実験の結果,フレームワークの有効性と単純さが示された。

Deep learning-based text classification models need abundant labeled data to obtain competitive performance. Unfortunately, annotating large-size corpus is time-consuming and laborious. To tackle this, multiple researches try to use data augmentation to expand the corpus size. However, data augmentation may potentially produce some noisy augmented samples. There are currently no works exploring sample selection for augmented samples in nature language processing field. In this paper, we propose a novel self-training selection framework with two selectors to select the high-quality samples from data augmentation. Specifically, we firstly use an entropy-based strategy and the model prediction to select augmented samples. Considering some samples with high quality at the above step may be wrongly filtered, we propose to recall them from two perspectives of word overlap and semantic similarity. Experimental results show the effectiveness and simplicity of our framework.
翻訳日:2023-02-03 15:15:54 公開日:2023-02-02
# MetaTKG: 時間知識グラフ推論のための進化的メタ知識の学習

MetaTKG: Learning Evolutionary Meta-Knowledge for Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2302.00893v1 )

ライセンス: Link先を確認
Yuwei Xia, Mengqi Zhang, Qiang Liu, Shu Wu, Xiao-Yu Zhang(参考訳) 時間的知識グラフ(TKG)に対する推論は、与えられた履歴に基づいて将来の事実を予測することを目的としている。 予測の重要な課題の1つは、事実の進化を学ぶことである。 既存のほとんどの研究は、実体と関係の効果的な時間的埋め込みを得るために、歴史における進化情報の探索に重点を置いているが、事実の進化パターンのバリエーションを無視しているため、異なる進化パターンで将来のデータに適応するのに苦労している。 さらに、新しい実体は時間とともに事実の進化と共に現れ続けている。 既存のモデルは、エンティティの埋め込みを学ぶために歴史情報に大きく依存しているため、歴史情報が少ないようなエンティティではうまく機能しない。 これらの課題に対処するために,TKG推論のための時間的メタラーニングフレームワークMetaTKGを提案する。 具体的には,tkg予測を多くの時間的メタタスクと捉え,設計した時間的メタリーナーを用いてこれらのメタタスクから進化的メタ知識を学習する。 提案手法は,将来のデータに迅速に適応できるようにバックボーンを誘導し,学習したメタ知識による履歴情報が少ないエンティティを扱うことを目的としている。 特に,時間的メタリーナーでは,メタタスク間の時間的相関を適応的に確立するゲーティング統合モジュールを設計する。 広範に使用されている4つのデータセットと3つのバックボーンに関する広範な実験は、この手法が性能を大幅に改善できることを示しています。

Reasoning over Temporal Knowledge Graphs (TKGs) aims to predict future facts based on given history. One of the key challenges for prediction is to learn the evolution of facts. Most existing works focus on exploring evolutionary information in history to obtain effective temporal embeddings for entities and relations, but they ignore the variation in evolution patterns of facts, which makes them struggle to adapt to future data with different evolution patterns. Moreover, new entities continue to emerge along with the evolution of facts over time. Since existing models highly rely on historical information to learn embeddings for entities, they perform poorly on such entities with little historical information. To tackle these issues, we propose a novel Temporal Meta-learning framework for TKG reasoning, MetaTKG for brevity. Specifically, our method regards TKG prediction as many temporal meta-tasks, and utilizes the designed Temporal Meta-learner to learn evolutionary meta-knowledge from these meta-tasks. The proposed method aims to guide the backbones to learn to adapt quickly to future data and deal with entities with little historical information by the learned meta-knowledge. Specially, in temporal meta-learner, we design a Gating Integration module to adaptively establish temporal correlations between meta-tasks. Extensive experiments on four widely-used datasets and three backbones demonstrate that our method can greatly improve the performance.
翻訳日:2023-02-03 15:15:42 公開日:2023-02-02
# 量子グラフ学習:フロンティアと展望

Quantum Graph Learning: Frontiers and Outlook ( http://arxiv.org/abs/2302.00892v1 )

ライセンス: Link先を確認
Shuo Yu, Ciyuan Peng, Yingbo Wang, Ahsan Shehzad, Feng Xia, Edwin R. Hancock(参考訳) 量子理論は機械学習の強化においてその優位性を示している。 しかし、量子理論のグラフ学習の促進は、その初期段階にある。 本調査は,量子グラフ学習(qgl)の最近の進歩を,基礎となる理論,手法,展望という3つの視点から検討する。 まず、QGLを考察し、量子論とグラフ学習の相互主義、グラフ構造化データの特異性、グラフ学習のボトルネックについて議論する。 qglの新しい分類法、すなわちグラフ上の量子コンピューティング、量子グラフ表現、およびグラフニューラルネットワークのための量子回路が提示される。 落とし穴トラップは強調表示され、説明される。 この調査は、未調査のフロンティアと見通しに関する詳細な議論とともに、この新興分野への簡潔だが洞察に富んだ簡単な紹介を提供することを目的としている。

Quantum theory has shown its superiority in enhancing machine learning. However, facilitating quantum theory to enhance graph learning is in its infancy. This survey investigates the current advances in quantum graph learning (QGL) from three perspectives, i.e., underlying theories, methods, and prospects. We first look at QGL and discuss the mutualism of quantum theory and graph learning, the specificity of graph-structured data, and the bottleneck of graph learning, respectively. A new taxonomy of QGL is presented, i.e., quantum computing on graphs, quantum graph representation, and quantum circuits for graph neural networks. Pitfall traps are then highlighted and explained. This survey aims to provide a brief but insightful introduction to this emerging field, along with a detailed discussion of frontiers and outlook yet to be investigated.
翻訳日:2023-02-03 15:15:18 公開日:2023-02-02
# リンク予測のための補完付きニューラルコモン近傍

Neural Common Neighbor with Completion for Link Prediction ( http://arxiv.org/abs/2302.00890v1 )

ライセンス: Link先を確認
Xiyuan Wang, Haotong Yang, Muhan Zhang(参考訳) 様々なグラフタスクにおける優れたパフォーマンスにもかかわらず、バニラメッセージパッシングニューラルネットワーク(MPNN)は通常、リンク予測タスクで失敗する。 ペアワイズ関係を捉えるために、いくつかのモデルは入力グラフに手動の機能を加え、MPNNの出力を使ってペアワイズ表現を生成する。 対照的に、手動機能をペアワイズ表現として直接使用するものもある。 この単純化は各リンクにgnnを個別に適用することを避け、拡張性を向上させるが、手作りで理解できないペアワイズ機能のために、これらのモデルはまだ性能改善の余地がある。 スケーラビリティを維持しつつ性能をアップグレードするために,学習可能なペアワイズ表現を用いたneural common neighbor (ncn)を提案する。 NCNをさらに高めるために、未観測リンク問題について検討する。 グラフの不完全性はユビキタスであり、トレーニングとテストセット間の分散シフト、一般的な隣り合う情報の損失、モデルの性能劣化につながる。 そこで本研究では,近接補完法と目標リンク除去法という2つの介入法を提案する。 この2つの手法をNCNと組み合わせて,NCNC(Neural Common Neighbor with Completion)を提案する。 NCNとNCNCは、最近の強いベースラインを大きなマージンで上回っている。 NCNCはリンク予測タスクにおいて最先端のパフォーマンスを達成する。

Despite its outstanding performance in various graph tasks, vanilla Message Passing Neural Network (MPNN) usually fails in link prediction tasks, as it only uses representations of two individual target nodes and ignores the pairwise relation between them. To capture the pairwise relations, some models add manual features to the input graph and use the output of MPNN to produce pairwise representations. In contrast, others directly use manual features as pairwise representations. Though this simplification avoids applying a GNN to each link individually and thus improves scalability, these models still have much room for performance improvement due to the hand-crafted and unlearnable pairwise features. To upgrade performance while maintaining scalability, we propose Neural Common Neighbor (NCN), which uses learnable pairwise representations. To further boost NCN, we study the unobserved link problem. The incompleteness of the graph is ubiquitous and leads to distribution shifts between the training and test set, loss of common neighbor information, and performance degradation of models. Therefore, we propose two intervention methods: common neighbor completion and target link removal. Combining the two methods with NCN, we propose Neural Common Neighbor with Completion (NCNC). NCN and NCNC outperform recent strong baselines by large margins. NCNC achieves state-of-the-art performance in link prediction tasks.
翻訳日:2023-02-03 15:15:05 公開日:2023-02-02
# AOP-Net:ジョイントLiDARによる3次元物体検出とパノプティックセグメンテーションのためのオールインワン知覚ネットワーク

AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object Detection and Panoptic Segmentation ( http://arxiv.org/abs/2302.00885v1 )

ライセンス: Link先を確認
Yixuan Xu, Hamidreza Fazlali, Yuan Ren, Bingbing Liu(参考訳) LiDARをベースとした3Dオブジェクト検出と単眼セグメンテーションは、自動運転車とロボットの認識システムにおいて重要な2つのタスクである。 本稿では,3次元物体検出とpanopticセグメンテーションを組み合わせたlidarベースのマルチタスクフレームワークであるall-in-one perception network (aop-net)を提案する。 入力lidar点クラウドからpanopticレベルと検出レベルの両方の機能を抽出するために,デュアルタスク3dバックボーンを開発した。 また、マルチレイヤー・パーセプトロン(mlp)と畳み込み層とを挟む新しい2次元バックボーンをデザインし、検出タスクの性能をさらに向上させる。 最後に, 3次元バックボーンにおけるダウンサンプリング動作中に廃棄された有用な特徴を回収し, 検出ヘッドを誘導する新規モジュールを提案する。 このモジュールは推定インスタンスセグメンテーションマスクを利用して、各候補オブジェクトから詳細な情報を復元する。 AOP-Netは、nuScenesベンチマークの3Dオブジェクト検出とパノプティックセグメンテーションの両タスクで、最先端のパフォーマンスを達成する。 また,本手法はBEVを用いた3次元物体検出手法に適応し,性能を著しく向上することを示す。

LiDAR-based 3D object detection and panoptic segmentation are two crucial tasks in the perception systems of autonomous vehicles and robots. In this paper, we propose All-in-One Perception Network (AOP-Net), a LiDAR-based multi-task framework that combines 3D object detection and panoptic segmentation. In this method, a dual-task 3D backbone is developed to extract both panoptic- and detection-level features from the input LiDAR point cloud. Also, a new 2D backbone that intertwines Multi-Layer Perceptron (MLP) and convolution layers is designed to further improve the detection task performance. Finally, a novel module is proposed to guide the detection head by recovering useful features discarded during down-sampling operations in the 3D backbone. This module leverages estimated instance segmentation masks to recover detailed information from each candidate object. The AOP-Net achieves state-of-the-art performance for published works on the nuScenes benchmark for both 3D object detection and panoptic segmentation tasks. Also, experiments show that our method easily adapts to and significantly improves the performance of any BEV-based 3D object detection method.
翻訳日:2023-02-03 15:14:44 公開日:2023-02-02
# 可視赤外人物再同定のための不変表現探索

Exploring Invariant Representation for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2302.00884v1 )

ライセンス: Link先を確認
Lei Tan, Yukang Zhang, Shengmei Shen, Yan Wang, Pingyang Dai, Xianming Lin, Yongjian Wu, Rongrong Ji(参考訳) 異なるスペクトルを横断する歩行者にアイデンティティを関連付けることを目的とした、クロススペクトルの人物再識別は、モダリティの相違の主な課題に直面している。 本稿では,ロバスト特徴マイニングネットワーク(rfm)と呼ばれるエンドツーエンドハイブリッド学習フレームワークにおいて,画像レベルと特徴レベルの両方から問題に対処する。 特に、異なる波長で撮影された写真における同じ表面の反射強度を線形モデルを用いて変換できることを観察した。 さらに, 異なる面にまたがる変数線形因子が, モダリティの不一致を引き起こす主な原因であることを示す。 このような反射観察を線形変換生成器(ltg)の提案により画像レベルのデータ拡張に組み込む。 さらに,機能レベルでは,よりコンパクトなクラス内分布とモダリティを意識した空間的注意を探索し,テクスチャ化された領域をより効率的に活用するために,クロスセンターロスを導入する。 RegDBとSYSU-MM01の2つの標準的なクロススペクトル人物識別データセットの実験結果から,最先端の性能が示された。

Cross-spectral person re-identification, which aims to associate identities to pedestrians across different spectra, faces a main challenge of the modality discrepancy. In this paper, we address the problem from both image-level and feature-level in an end-to-end hybrid learning framework named robust feature mining network (RFM). In particular, we observe that the reflective intensity of the same surface in photos shot in different wavelengths could be transformed using a linear model. Besides, we show the variable linear factor across the different surfaces is the main culprit which initiates the modality discrepancy. We integrate such a reflection observation into an image-level data augmentation by proposing the linear transformation generator (LTG). Moreover, at the feature level, we introduce a cross-center loss to explore a more compact intra-class distribution and modality-aware spatial attention to take advantage of textured regions more efficiently. Experiment results on two standard cross-spectral person re-identification datasets, i.e., RegDB and SYSU-MM01, have demonstrated state-of-the-art performance.
翻訳日:2023-02-03 15:14:23 公開日:2023-02-02
# 物理キャラクタ・シーン相互作用の合成

Synthesizing Physical Character-Scene Interactions ( http://arxiv.org/abs/2302.00883v1 )

ライセンス: Link先を確認
Mohamed Hassan, Yunrong Guo, Tingwu Wang, Michael Black, Sanja Fidler, Xue Bin Peng(参考訳) 動きとは、人々が環境と対話し、影響を及ぼす方法である。 現実のキャラクタアニメーションでは,仮想キャラクタとその周囲とのインタラクションを合成する必要がある。 機械学習を用いたキャラクターアニメーションの最近の進歩にもかかわらず、ほとんどのシステムはエージェントの動きを比較的単純で均質な環境で制御することに集中している。 さらに、人間とシーンの相互作用を合成する以前の多くのアプローチでは、トレーニングデータのかなりの手動ラベリングが必要である。 対照的に、逆模倣学習と強化学習を用いて、自然と生活のような方法でシーンインタラクションタスクを行う物理的にシミュレーションされたキャラクターを訓練するシステムを提案する。 本手法は,動きデータの手動アノテーションを使わずに,大規模な動きデータセットからシーンインタラクションの振る舞いを学習する。 これらのシーンの相互作用は、シーンのコンテキスト内の動きの現実性を評価する敵の判別器を用いて学習される。 重要な新規性は、差別者とポリシーネットワークの両方をシーンコンテキストで条件付けることである。 本研究では,環境中の物体に対するキャラクターの動きの調整を必要とする3つの場面インタラクションタスク,すなわち搬送,着座,横転によるアプローチの有効性を実証する。 私たちの方針は、アイドリング、歩行、着座といったさまざまな行動のシームレスな移行を学習します。 トレーニング中にオブジェクトの性質と配置をランダムにすることで、トレーニングデータセットに表されるオブジェクトやシナリオを超えて一般化し、さまざまなオブジェクト形状や配置に対して自然な文字とシーンのインタラクションを生成することができる。 このアプローチは、物理学に基づくキャラクターモーション生成を幅広い適用性に一歩近づける。

Movement is how people interact with and affect their environment. For realistic character animation, it is necessary to synthesize such interactions between virtual characters and their surroundings. Despite recent progress in character animation using machine learning, most systems focus on controlling an agent's movements in fairly simple and homogeneous environments, with limited interactions with other objects. Furthermore, many previous approaches that synthesize human-scene interactions require significant manual labeling of the training data. In contrast, we present a system that uses adversarial imitation learning and reinforcement learning to train physically-simulated characters that perform scene interaction tasks in a natural and life-like manner. Our method learns scene interaction behaviors from large unstructured motion datasets, without manual annotation of the motion data. These scene interactions are learned using an adversarial discriminator that evaluates the realism of a motion within the context of a scene. The key novelty involves conditioning both the discriminator and the policy networks on scene context. We demonstrate the effectiveness of our approach through three challenging scene interaction tasks: carrying, sitting, and lying down, which require coordination of a character's movements in relation to objects in the environment. Our policies learn to seamlessly transition between different behaviors like idling, walking, and sitting. By randomizing the properties of the objects and their placements during training, our method is able to generalize beyond the objects and scenarios depicted in the training dataset, producing natural character-scene interactions for a wide variety of object shapes and placements. The approach takes physics-based character motion generation a step closer to broad applicability.
翻訳日:2023-02-03 15:14:04 公開日:2023-02-02
# 浅層量子回路は局所ノイズを大域的ホワイトノイズにスクランブルできるのか?

Can shallow quantum circuits scramble local noise into global white noise? ( http://arxiv.org/abs/2302.00881v1 )

ライセンス: Link先を確認
Jonathan Foldager, B\'alint Koczor(参考訳) 浅層量子回路は、初期の実用的な量子優位性を達成するための最も有望な候補であると信じられている。これは、大域的非分極化(ホワイト)ノイズモデルによって量子状態が近似された場合、一般的に性能が向上する幅広い誤り緩和技術の開発を動機付けた。 ランダム回路が局所ノイズを大域ホワイトノイズ(これは厳密に証明されている特性)にスクランブルする量子超越性を示すことが重要であるが、実際に浅い量子回路が局所ノイズを大域ホワイトノイズにスクランブルする方法を調査している。 2つの主要な指標を (a)密度行列固有値均一性と b) 可換ノルム 前者はホワイトノイズからの距離を決定する一方、後者は浄化に基づく誤差軽減の性能を決定する。 解析的近似境界をそのスケーリングで導出し, ほとんどの場合, 数値結果によく合致する。 一方、我々は、幅広い種類の実用的な量子回路をシミュレートし、ホワイトノイズが特定の場合において、より単純な誤り軽減スキームの性能に重大な制限をもたらす悪い近似であることを示す。 正に、すべてのケースにおいて、可換ノルムは十分に小さく、浄化に基づく誤差軽減の非常に優れた性能を保証する。 最後に、ゲート挿入やランダム化コンパイルによって動的リー代数の次元性を高めるなど、両方の指標を減少させるテクニックを同定する。

Shallow quantum circuits are believed to be the most promising candidates for achieving early practical quantum advantage - this has motivated the development of a broad range of error mitigation techniques whose performance generally improves when the quantum state is well approximated by a global depolarising (white) noise model. While it has been crucial for demonstrating quantum supremacy that random circuits scramble local noise into global white noise - a property that has been proved rigorously - we investigate to what degree practical shallow quantum circuits scramble local noise into global white noise. We define two key metrics as (a) density matrix eigenvalue uniformity and (b) commutator norm. While the former determines the distance from white noise, the latter determines the performance of purification based error mitigation. We derive analytical approximate bounds on their scaling and find in most cases they nicely match numerical results. On the other hand, we simulate a broad class of practical quantum circuits and find that white noise is in certain cases a bad approximation posing significant limitations on the performance of some of the simpler error mitigation schemes. On a positive note, we find in all cases that the commutator norm is sufficiently small guaranteeing a very good performance of purification-based error mitigation. Lastly, we identify techniques that may decrease both metrics, such as increasing the dimensionality of the dynamical Lie algebra by gate insertions or randomised compiling.
翻訳日:2023-02-03 15:13:39 公開日:2023-02-02
# adaboost's error boundの実験的解析

Empirical Analysis of the AdaBoost's Error Bound ( http://arxiv.org/abs/2302.00880v1 )

ライセンス: Link先を確認
Arman Bolatov and Kaisar Dauletbek(参考訳) 機械学習アルゴリズムの精度限界を理解するためには、データサイエンティストがパフォーマンスを適切に測定し、モデルの予測能力を継続的に改善することが不可欠である。 本研究では,合成データと実世界のデータの両方に対するAdaBoostアルゴリズムの誤差境界を実証的に検証した。 その結果、エラーバウンダリが実際に保たれていることを示し、その効率性と様々なアプリケーションに対する重要性を示す。 対応するソースコードはhttps://github.com/armanbolatov/adaboost_error_boundで入手できる。

Understanding the accuracy limits of machine learning algorithms is essential for data scientists to properly measure performance so they can continually improve their models' predictive capabilities. This study empirically verified the error bound of the AdaBoost algorithm for both synthetic and real-world data. The results show that the error bound holds up in practice, demonstrating its efficiency and importance to a variety of applications. The corresponding source code is available at https://github.com/armanbolatov/adaboost_error_bound.
翻訳日:2023-02-03 15:13:14 公開日:2023-02-02
# ダイソンモデルから多体量子カオスへ

From Dyson Models to Many-Body Quantum Chaos ( http://arxiv.org/abs/2302.00917v1 )

ライセンス: Link先を確認
Alexei Andreanov, Matteo Carrega, Jeff Murugan, Jan Olle, Dario Rosa and Ruth Shir(参考訳) 多体量子カオスの基礎となるメカニズムを理解することは、理論物理学における大きな課題の1つである。 我々は、グラフ上で定義された摂動四角形 Sachdev-Ye-Kitaev (SYK) Hamiltonian の集合を考えることでこの問題に取り組む。 これにより、作用素成長と \emph{delocalization} の曖昧さを解消することができ、後者が単粒子から多体カオス遷移における支配的な過程であることを示す。 この結果は、非常に大きなハミルトニアンの所望のエネルギー窓から固有値を抽出できる最先端の数値手法を用いて数値的に検証され、この場合の次元は2^{19}\times 2^{19}$である。 われわれのアプローチは基本的に、多体カオスを単一粒子の観点から見る新しい方法を提供する。

Understanding the mechanisms underlying many-body quantum chaos is one of the big challenges in theoretical physics. We tackle this problem by considering a set of perturbed quadratic Sachdev-Ye-Kitaev (SYK) Hamiltonians defined on graphs. This allows to disambiguate between operator growth and \emph{delocalization}, showing that the latter is the dominant process in the single-particle to many-body chaotic transition. Our results are verified numerically with state-of-the-art numerical techniques, capable of extracting eigenvalues in a desired energy window of very large Hamiltonians, in this case up to dimension $2^{19}\times 2^{19}$. Our approach essentially provides a new way of viewing many-body chaos from a single-particle perspective.
翻訳日:2023-02-03 15:07:14 公開日:2023-02-02
# 協調行動に基づく障害物検出とARレンダリングによる状況認識の増大

Cooperative Saliency-based Obstacle Detection and AR Rendering for Increased Situational Awareness ( http://arxiv.org/abs/2302.00916v1 )

ライセンス: Link先を確認
Gerasimos Arvanitis, Nikolaos Stagakis, Evangelia I. Zacharaki, Konstantinos Moustakas(参考訳) 自動運転車は今後数年間、実生活の道路条件下で安全に運用されることが期待されている。 それでも、道路の範囲に予期せぬ物体が存在するなどの予期せぬ出来事は、安全性を危険にさらす可能性がある。 センシング・コミュニケーション技術とモノのインターネットの進歩は、協調運転方式における危険状況の認識と情報交換を促進し、協調的状況認識の増大のための新たな機会を提供する。 得られた情報の安全で控えめな可視化は、現在、フロントガラスの形で新しい拡張現実(AR)インターフェースを採用することで実現されている。 そこで本稿では,このような技術的機会に動機づけられ,運転者の状況認識を高めるために,サリエンシーに基づく分散・協調型障害物検出・レンダリング手法を提案する。 (i)自動障害物検出 (ii)arの可視化と (三)他の連結車両又は道路インフラとの情報共有(潜在的危険を克服) ポットホール検出のための多種多様な実データセットを用いた広範な評価研究により,提案手法は,近年および関連するアプローチと比較して,良好な結果と特徴を提供することがわかった。

Autonomous vehicles are expected to operate safely in real-life road conditions in the next years. Nevertheless, unanticipated events such as the existence of unexpected objects in the range of the road, can put safety at risk. The advancement of sensing and communication technologies and Internet of Things may facilitate the recognition of hazardous situations and information exchange in a cooperative driving scheme, providing new opportunities for the increase of collaborative situational awareness. Safe and unobtrusive visualization of the obtained information may nowadays be enabled through the adoption of novel Augmented Reality (AR) interfaces in the form of windshields. Motivated by these technological opportunities, we propose in this work a saliency-based distributed, cooperative obstacle detection and rendering scheme for increasing the driver's situational awareness through (i) automated obstacle detection, (ii) AR visualization and (iii) information sharing (upcoming potential dangers) with other connected vehicles or road infrastructure. An extensive evaluation study using a variety of real datasets for pothole detection showed that the proposed method provides favorable results and features compared to other recent and relevant approaches.
翻訳日:2023-02-03 15:06:57 公開日:2023-02-02
# マルチモーダルリモートセンシング画像登録の進歩と課題

Advances and Challenges in Multimodal Remote Sensing Image Registration ( http://arxiv.org/abs/2302.00912v1 )

ライセンス: Link先を確認
Bai Zhu, Liang Zhou, Simiao Pu, Jianwei Fan, Yuanxin Ye(参考訳) 過去数十年間、グローバルな航空宇宙技術と空中リモートセンシング技術の急速な発展により、センサーの種類は従来のモノモーダルセンサー(光センサーなど)から、新しい世代のマルチモーダルセンサー(マルチスペクトル、ハイパースペクトル、光検出と測光(LiDAR)、合成開口レーダー(SAR)センサー)へと進化してきた。 これらの高度なデバイスは、様々な応用要件に応じて、空間、時間、スペクトルの解像度の異なる多様な多モードリモートセンシング画像を動的に提供することができる。 それ以来、マルチモーダルリモートセンシング画像登録の研究は科学的に非常に重要であり、これはマルチモーダルデータ間の補完情報を統合し、地球表面を包括的に観察・分析するための重要なステップである。 本稿では,マルチモーダル画像登録の分野への独自の貢献を述べるとともに,既存のマルチモーダル画像登録手法の利点と限界を要約し,残りの課題を議論し,今後の展開を展望する。

Over the past few decades, with the rapid development of global aerospace and aerial remote sensing technology, the types of sensors have evolved from the traditional monomodal sensors (e.g., optical sensors) to the new generation of multimodal sensors [e.g., multispectral, hyperspectral, light detection and ranging (LiDAR) and synthetic aperture radar (SAR) sensors]. These advanced devices can dynamically provide various and abundant multimodal remote sensing images with different spatial, temporal, and spectral resolutions according to different application requirements. Since then, it is of great scientific significance to carry out the research of multimodal remote sensing image registration, which is a crucial step for integrating the complementary information among multimodal data and making comprehensive observations and analysis of the Earths surface. In this work, we will present our own contributions to the field of multimodal image registration, summarize the advantages and limitations of existing multimodal image registration methods, and then discuss the remaining challenges and make a forward-looking prospect for the future development of the field.
翻訳日:2023-02-03 15:06:39 公開日:2023-02-02
# 欠落データ計算に対する条件付き期待

Conditional expectation for missing data imputation ( http://arxiv.org/abs/2302.00911v1 )

ライセンス: Link先を確認
Mai Anh Vu, Thu Nguyen, Tu T. Do, Nhan Phan, P{\aa}l Halvorsen, Michael A. Riegler, Binh T. Nguyen(参考訳) データの欠落は、医学、スポーツ、金融など、さまざまな分野で検索されたデータセットでよく見られる。 多くの場合、そのようなデータの適切な信頼性のある解析を可能にするために、欠落した値はしばしばインプットされ、使用法はインプットと真の値の間に低いルート平均二乗誤差(RMSE)を持つ必要がある。 さらに、いくつかの重要なアプリケーションでは、命令の背後にある論理が説明可能であるという要求もしばしばあり、特にディープラーニングに基づく複雑な手法では難しい。 これにより、条件分布に基づくImputation of Missing Values (DIMV)アルゴリズムの導入が動機となる。 このアプローチは、完全に観察された機能に基づいて、欠落したエントリを持つ機能の条件付き分布を見つけることで機能する。 論文に示すように、DIMV i) 入力された値に対して,比較対象の最先端手法と比較して低いRMSEを与える。 (ii)説明可能。 (iii) あるサンプルの欠落値に対する近似信頼領域を提供することができる。 (iv)小規模データと大規模データの両方に作用する。 (v) 多くのシナリオでは、ディープラーニングアプローチとして大量のパラメータを必要としないため、モバイルデバイスやWebブラウザで使用することができる。 (vi)理論上の根拠が依存する通常分布仮定にロバストである。 dimvに加えて,データから平均および共分散行列を推定するためのdperの速度を改善するdper*アルゴリズムを導入し,実験により高速化を確認した。

Missing data is common in datasets retrieved in various areas, such as medicine, sports, and finance. In many cases, to enable proper and reliable analyses of such data, the missing values are often imputed, and it is necessary that the method used has a low root mean square error (RMSE) between the imputed and the true values. In addition, for some critical applications, it is also often a requirement that the logic behind the imputation is explainable, which is especially difficult for complex methods that are for example, based on deep learning. This motivates us to introduce a conditional Distribution based Imputation of Missing Values (DIMV) algorithm. This approach works based on finding the conditional distribution of a feature with missing entries based on the fully observed features. As will be illustrated in the paper, DIMV (i) gives a low RMSE for the imputed values compared to state-of-the-art methods under comparison; (ii) is explainable; (iii) can provide an approximated confidence region for the missing values in a given sample; (iv) works for both small and large scale data; (v) in many scenarios, does not require a huge number of parameters as deep learning approaches and therefore can be used for mobile devices or web browsers; and (vi) is robust to the normally distributed assumption that its theoretical grounds rely on. In addition to DIMV, we also introduce the DPER* algorithm improving the speed of DPER for estimating the mean and covariance matrix from the data, and we confirm the speed-up via experiments.
翻訳日:2023-02-03 15:06:20 公開日:2023-02-02
# 局所零次法を用いたSNNのエネルギー効率向上

Energy Efficient Training of SNN using Local Zeroth Order Method ( http://arxiv.org/abs/2302.00910v1 )

ライセンス: Link先を確認
Bhaskar Mukhoty, Velibor Bojkovic, William de Vazelhes, Huan Xiong, Bin Gu, Giulia De Masi(参考訳) スパイクニューラルネットワークは、従来のANNに匹敵する精度で現実世界のタスクにおいて、低エネルギー要求のために人気が高まっている。 snnトレーニングアルゴリズムは、モデルパラメータに対するモデル損失を最小限に抑えるため、ヘビーサイド関数による勾配情報の損失と非微分可能性に直面する。 問題サーロゲート法は後方パスにおけるヘビーサイドの微分可能な近似を用い、前方パスはスパイキング関数としてヘビーサイドを用いる。 本稿では, ニューロンレベルでゼロオーダー法を用いて, この二分法を解き, 自動微分ツールで用いることを提案する。 その結果,提案手法と既存のサロゲート法と逆転法とを理論的に関連付けることができた。 提案手法は,GPU上でのSNNのエネルギー効率向上に自然に寄与する。 ニューロモルフィックデータセットを用いた実験の結果、このような実装では1%未満のニューロンが後方通行で活動する必要があり、結果として後方計算時間の100倍のスピードアップが得られた。 本手法は, 同様の効率を保ちながら, 最先端のエネルギー効率技術よりも優れた一般化を実現する。

Spiking neural networks are becoming increasingly popular for their low energy requirement in real-world tasks with accuracy comparable to the traditional ANNs. SNN training algorithms face the loss of gradient information and non-differentiability due to the Heaviside function in minimizing the model loss over model parameters. To circumvent the problem surrogate method uses a differentiable approximation of the Heaviside in the backward pass, while the forward pass uses the Heaviside as the spiking function. We propose to use the zeroth order technique at the neuron level to resolve this dichotomy and use it within the automatic differentiation tool. As a result, we establish a theoretical connection between the proposed local zeroth-order technique and the existing surrogate methods and vice-versa. The proposed method naturally lends itself to energy-efficient training of SNNs on GPUs. Experimental results with neuromorphic datasets show that such implementation requires less than 1 percent neurons to be active in the backward pass, resulting in a 100x speed-up in the backward computation time. Our method offers better generalization compared to the state-of-the-art energy-efficient technique while maintaining similar efficiency.
翻訳日:2023-02-03 15:05:58 公開日:2023-02-02
# GANalyzer:制御可能な顔合成のためのGANの潜時空間の解析と操作

GANalyzer: Analysis and Manipulation of GANs Latent Space for Controllable Face Synthesis ( http://arxiv.org/abs/2302.00908v1 )

ライセンス: Link先を確認
Ali Pourramezan Fard, Mohammad H. Mahoor, Sarah Ariel Lamer, and Timothy Sweeny(参考訳) generative adversarial networks (gans) は高品質な顔画像を合成することができる。 彼らの成功にもかかわらず、GANは入力ベクトルと生成された画像の関係に関する情報を提供していない。 現在、顔のGANは不均衡なデータセットでトレーニングされており、より多様な画像を生成する。 例えば、StyleGAN3を用いてランダムに合成した100K画像の77%以上がHappyに分類され、Angryはわずか3%である。 顔の属性の混合が望まれると、問題はさらに悪化する。生成されたサンプルの1%未満はアングリーウーマンであり、約2%はハッピーブラックである。 これらの問題に対処するために, GANalyzer というフレームワークを提案し, 十分に訓練された GAN の潜伏空間の解析と操作を行う。 GANalyzerは、表情、年齢、ジェンダー、レースなどの特定の顔属性に対する潜伏ベクトルを操作するために設計された一連の変換関数で構成されている。 我々は,ganの潜在空間における顔属性の絡み合いを分析し,異種顔属性の編集に提案するトランスフォーメーションを適用した。 実験の結果,GANalyzerは顔の属性を編集し,どのような顔でも生成できることがわかった。 また、バランスの取れた写真リアルな人間の顔データセットを作成しリリースします。 私たちのコードはgithubで公開されている。

Generative Adversarial Networks (GANs) are capable of synthesizing high-quality facial images. Despite their success, GANs do not provide any information about the relationship between the input vectors and the generated images. Currently, facial GANs are trained on imbalanced datasets, which generate less diverse images. For example, more than 77% of 100K images that we randomly synthesized using the StyleGAN3 are classified as Happy, and only around 3% are Angry. The problem even becomes worse when a mixture of facial attributes is desired: less than 1% of the generated samples are Angry Woman, and only around 2% are Happy Black. To address these problems, this paper proposes a framework, called GANalyzer, for the analysis, and manipulation of the latent space of well-trained GANs. GANalyzer consists of a set of transformation functions designed to manipulate latent vectors for a specific facial attribute such as facial Expression, Age, Gender, and Race. We analyze facial attribute entanglement in the latent space of GANs and apply the proposed transformation for editing the disentangled facial attributes. Our experimental results demonstrate the strength of GANalyzer in editing facial attributes and generating any desired faces. We also create and release a balanced photo-realistic human face dataset. Our code is publicly available on GitHub.
翻訳日:2023-02-03 15:05:40 公開日:2023-02-02
# マルチセッションオープンドメイン対話システムのための履歴認識階層変換器

History-Aware Hierarchical Transformer for Multi-session Open-domain Dialogue System ( http://arxiv.org/abs/2302.00907v1 )

ライセンス: Link先を確認
Tong Zhang, Yong Liu, Boyang Li, Zhiwei Zeng, Pengwei Wang, Yuan You, Chunyan Miao, Lizhen Cui(参考訳) 事前訓練された言語モデルの進化により、現在のオープンドメイン対話システムはワンセッション会話の実行において大きな進歩を遂げている。 対照的に、マルチセッション会話(Multi-Session Conversation, MSC)は、複数のセッションを長期間にわたって同じユーザで構成する。 本稿では,マルチセッションオープンドメイン対話のための履歴認識階層変換器(HAHT)を提案する。 HAHTは歴史会話の長期記憶を維持し、歴史情報を用いて現在の会話状況を理解し、適切な情報と文脈関連応答を生成する。 具体的には、HAHTは履歴会話セッションを階層的にヒストリメモリにエンコードする。 そして、HAHTは履歴情報を活用し、履歴記憶を現在のコンテキストとアテンションベースのメカニズムと共に符号化することで、現在の会話コンテキストの理解を容易にする。 最後に、履歴情報を明示的に活用するために、hahtは、ジェネリック語彙と履歴認識語彙を切り替える履歴認識応答生成器を使用している。 大規模mscデータセットにおける実験結果から,提案するhahtモデルがベースラインモデルを上回ることが示唆された。 人間の評価結果は、HAHTがベースラインモデルよりも人間的、文脈的、歴史的応答を生成することを裏付ける。

With the evolution of pre-trained language models, current open-domain dialogue systems have achieved great progress in conducting one-session conversations. In contrast, Multi-Session Conversation (MSC), which consists of multiple sessions over a long term with the same user, is under-investigated. In this paper, we propose History-Aware Hierarchical Transformer (HAHT) for multi-session open-domain dialogue. HAHT maintains a long-term memory of history conversations and utilizes history information to understand current conversation context and generate well-informed and context-relevant responses. Specifically, HAHT first encodes history conversation sessions hierarchically into a history memory. Then, HAHT leverages historical information to facilitate the understanding of the current conversation context by encoding the history memory together with the current context with attention-based mechanisms. Finally, to explicitly utilize historical information, HAHT uses a history-aware response generator that switches between a generic vocabulary and a history-aware vocabulary. Experimental results on a large-scale MSC dataset suggest that the proposed HAHT model consistently outperforms baseline models. Human evaluation results support that HAHT generates more human-like, context-relevant and history-relevant responses than baseline models.
翻訳日:2023-02-03 15:05:22 公開日:2023-02-02
# 誰も残っていない:現実世界のフェデレーション・クラス・インクリメンタル・ラーニング

No One Left Behind: Real-World Federated Class-Incremental Learning ( http://arxiv.org/abs/2302.00903v1 )

ライセンス: Link先を確認
Jiahua Dong, Yang Cong, Gan Sun, Yulun Zhang, Bernt Schiele and Dengxin Dai(参考訳) Federated Learning(FL)は、分散化されたローカルクライアントのモデルパラメータを集約する、ホットコラボレーティブなトレーニングフレームワークである。 しかし、既存のモデルの多くは、FLフレームワークのデータカテゴリが事前に知られ、fxされていると不当に仮定している。 ローカルクライアントが古いカテゴリを記憶する限られたメモリ下で連続して新しいカテゴリを受け取ると、グローバルモデルが古いカテゴリ(すなわち壊滅的な忘れ)の認識性能を著しく低下させる。 さらに、新しいカテゴリを収集した新しいローカルクライアントは、flトレーニングに不規則に導入され、古いカテゴリの壊滅的な忘れ方をさらに悪化させる可能性がある。 以上の課題に対処するために,従来のカテゴリーにおける局所的・グローバル的破滅的な忘れを解消する,新たな局所的・グローバル的アンチフォッゲッティング(LGA)モデルを提案する。 具体的には,局所的クライアントのクラス不均衡を考慮し,局所的リテインティングを克服し,カテゴリ均衡勾配適応補償損失とカテゴリ勾配誘起意味蒸留損失について検討する。 それらは、異なるインクリメンタルタスク内で固有のクラス関係の整合性を確保しながら、不均一な忘れ物速度のバランスをとることができる。 さらに、プロキシサーバは、異なるクライアント間の非IIDクラス不均衡に起因するグローバルな忘れに対処するように設計されている。 プライバシー保護下でのプロトタイプグラデーションコミュニケーションを通じて、ローカルクライアントから新しいカテゴリの摂動的プロトタイプ画像を収集し、自己監督型プロトタイプ拡張により、最良のグローバルモデルを選択し、ローカル蒸留ゲインを改善する。 代表的データセットの実験は、他の比較手法と比較して、我々のモデルの優れた性能を検証する。

Federated learning (FL) is a hot collaborative training framework via aggregating model parameters of decentralized local clients. However, most existing models unreasonably assume that data categories of FL framework are known and fxed in advance. It renders the global model to signifcantly degrade recognition performance on old categories (i.e., catastrophic forgetting), when local clients receive new categories consecutively under limited memory of storing old categories. Moreover, some new local clients that collect novel categories unseen by other clients may be introduced to the FL training irregularly, which further exacerbates the catastrophic forgetting on old categories. To tackle the above issues, we propose a novel Local-Global Anti-forgetting (LGA) model to address local and global catastrophic forgetting on old categories, which is a pioneering work to explore a global class-incremental model in the FL feld. Specifcally, considering tackling class imbalance of local client to surmount local forgetting, we develop a category-balanced gradient-adaptive compensation loss and a category gradient-induced semantic distillation loss. They can balance heterogeneous forgetting speeds of hard-to-forget and easy-to-forget old categories, while ensure intrinsic class relations consistency within different incremental tasks. Moreover, a proxy server is designed to tackle global forgetting caused by Non-IID class imbalance between different clients. It collects perturbed prototype images of new categories from local clients via prototype gradient communication under privacy preservation, and augments them via self-supervised prototype augmentation to choose the best old global model and improve local distillation gain. Experiments on representative datasets verify superior performance of our model against other comparison methods.
翻訳日:2023-02-03 15:05:02 公開日:2023-02-02
# 言語量子化オートエンコーダ:教師なしテキスト画像アライメントに向けて

Language Quantized AutoEncoders: Towards Unsupervised Text-Image Alignment ( http://arxiv.org/abs/2302.00902v1 )

ライセンス: Link先を確認
Hao Liu, Wilson Yan, Pieter Abbeel(参考訳) 大規模言語モデルのスケールアップにおける最近の進歩は、さまざまなテキストベースのタスクで、わずかなショットで学習する能力を示している。 しかし、重要な制限は、これらの言語モデルが基本的に視覚知覚を欠いていることである - 視覚問合せやロボット工学のような、現実世界と対話し、視覚タスクを解決するためにこれらのモデルを拡張するために必要となる重要な属性である。 以前の作品は、キュレートされた画像テキストデータセットの事前トレーニングと/または微調整を通じて、画像とテキストをほぼ接続しており、コストとコストのかかるプロセスである。 この制限を解決するために,言語量化オートエンコーダ(lqae)と呼ばれる,事前学習された言語モデル(bert,robertaなど)を活用して,教師なしの方法でテキスト画像データのアラインメントを学ぶvq-vaeの改良手法を提案する。 我々の主な考え方は、事前訓練された言語コードブックを用いて画像埋め込みを直接定量化することで、画像をテキストトークンのシーケンスとしてエンコードすることである。 次に、無作為マスキングとBERTモデルを適用し、デコーダがBERT予測テキストトークン埋め込みから元の画像を再構成する。 これにより、LQAEは類似した画像と類似したテキストトークンのクラスタを表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。 これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類やBERTテキストの特徴に基づく画像の線形分類が可能になる。 私たちの知る限りでは,事前学習した言語モデルのパワーを活用することで,マルチモーダルタスクに不整合なイメージを使用する最初の作業です。

Recent progress in scaling up large language models has shown impressive capabilities in performing few-shot learning across a wide range of text-based tasks. However, a key limitation is that these language models fundamentally lack visual perception - a crucial attribute needed to extend these models to be able to interact with the real world and solve vision tasks, such as in visual-question answering and robotics. Prior works have largely connected image to text through pretraining and/or fine-tuning on curated image-text datasets, which can be a costly and expensive process. In order to resolve this limitation, we propose a simple yet effective approach called Language-Quantized AutoEncoder (LQAE), a modification of VQ-VAE that learns to align text-image data in an unsupervised manner by leveraging pretrained language models (e.g., BERT, RoBERTa). Our main idea is to encode image as sequences of text tokens by directly quantizing image embeddings using a pretrained language codebook. We then apply random masking followed by a BERT model, and have the decoder reconstruct the original image from BERT predicted text token embeddings. By doing so, LQAE learns to represent similar images with similar clusters of text tokens, thereby aligning these two modalities without the use of aligned text-image pairs. This enables few-shot image classification with large language models (e.g., GPT-3) as well as linear classification of images based on BERT text features. To the best of our knowledge, our work is the first work that uses unaligned images for multimodal tasks by leveraging the power of pretrained language models.
翻訳日:2023-02-03 15:04:30 公開日:2023-02-02
# Longformer: Longitudinal Transformer : 構造MRIによるアルツハイマー病分類

Longformer: Longitudinal Transformer for Alzheimer's Disease Classification with Structural MRIs ( http://arxiv.org/abs/2302.00901v1 )

ライセンス: Link先を確認
Qiuhui Chen, Yi Hong(参考訳) 構造核磁気共鳴画像(sMRI)は脳神経疾患の診断に広く用いられているが、アルツハイマー病(AD)の診断に使用されるように、経時的MRIは疾患の進行をモニターし、捉えるためにしばしば収集される。 しかし、現在のほとんどの手法はADの進歩的な性質を無視し、ADを認識するには単一のsMRIしか必要としない。 本稿では,被検体の縦方向MRIをAD識別に活用することの問題点について考察する。 本研究では,SMRIの経時的変化を捉えた新しいモデルLongformerを提案する。このネットワークは,各時点において,SMRI上で空間的に注意機構を実行し,時間とともに脳領域の特徴を統合して,分類のための経時的埋め込みを得る。 我々のLongformerはADNIデータセットを用いてADの異なるステージを分離する2つのバイナリ分類タスクで最先端のパフォーマンスを実現する。 ソースコードはhttps://github.com/qybc/longformerで入手できます。

Structural magnetic resonance imaging (sMRI) is widely used for brain neurological disease diagnosis; while longitudinal MRIs are often collected to monitor and capture disease progression, as clinically used in diagnosing Alzheimer's disease (AD). However, most current methods neglect AD's progressive nature and only take a single sMRI for recognizing AD. In this paper, we consider the problem of leveraging the longitudinal MRIs of a subject for AD identification. To capture longitudinal changes in sMRIs, we propose a novel model Longformer, a spatiotemporal transformer network that performs attention mechanisms spatially on sMRIs at each time point and integrates brain region features over time to obtain longitudinal embeddings for classification. Our Longformer achieves state-of-the-art performance on two binary classification tasks of separating different stages of AD using the ADNI dataset. Our source code is available at https://github.com/Qybc/LongFormer.
翻訳日:2023-02-03 15:04:00 公開日:2023-02-02
# 弱依存ランダム過程の漸近下最大値に基づく高次元変動クラスタリング

High-dimensional variable clustering based on sub-asymptotic maxima of a weakly dependent random process ( http://arxiv.org/abs/2302.00934v1 )

ライセンス: Link先を確認
Alexis Boulin, Elena Di Bernardino, Thomas Lalo\"e, Gwladys Toulemonde(参考訳) 本稿では,多変量定常混合ランダムプロセスの最大値の独立性に基づいて,集団レベルのクラスタを定義したAsymsymotic Independent Block (AI-block)モデルと呼ばれる,変数クラスタリングの新しいクラスを提案する。 このモデルのクラスは識別可能であり、つまり分割の間に部分順序を持つ極大要素が存在し、統計的推論が可能となる。 また,<emph{a priori} のクラスタ数を指定せずに,変数のクラスタを復元するアルゴリズムを提案する。 我々の研究はアルゴリズムの整合性に関する理論的知見を提供し、ある条件下では、データ内のクラスタを次元の多項式である計算複雑性で効果的に識別できることを示した。 これは、依存過程のブロック極大が亜漸近のみであるような群を非パラメトリックに学習できることを意味する。

We propose a new class of models for variable clustering called Asymptotic Independent block (AI-block) models, which defines population-level clusters based on the independence of the maxima of a multivariate stationary mixing random process among clusters. This class of models is identifiable, meaning that there exists a maximal element with a partial order between partitions, allowing for statistical inference. We also present an algorithm for recovering the clusters of variables without specifying the number of clusters \emph{a priori}. Our work provides some theoritical insights into the consistency of our algorithm, demonstrating that under certain conditions it can effectively identify clusters in the data with a computational complexity that is polynomial in the dimension. This implies that groups can be learned nonparametrically in which block maxima of a dependent process are only sub-asymptotic.
翻訳日:2023-02-03 14:58:53 公開日:2023-02-02
# 機械学習を用いたラットECoGの睡眠時変化の簡易検出法

Simple method for detecting sleep episodes in rats ECoG using machine learning ( http://arxiv.org/abs/2302.00933v1 )

ライセンス: Link先を確認
Konstantin Sergeev, Anastasiya Runnova, Maxim Zhuravlev, Evgenia Sitnikova, Elizaveta Rutskova, Kirill Smirnov, Andrei Slepnev, Nadezhda Semenova(参考訳) 本稿では,心電図データを用いた自由移動ラットにおける行動睡眠状態(BS)と覚醒状態(WS)の自動認識法を提案する。 右前頭葉,右前頭葉,右前頭葉の3チャンネルECoG信号が得られた。 我々は,ANNの入力として,2チャンネルまたは3チャンネルからのECoG信号の平均値と標準偏差を用いた,単純な人工ニューラルネットワーク(ANN)を用いた。 ウェーブレットによる同一データにおけるBS/WSの認識結果を用いて,ANNを訓練し,分類器の正当性を評価する。 BS/WSを検出するためのECoGチャネルの異なる組み合わせを検討した。 その結果,ANN分類の精度はECoGチャネルに依存しないことがわかった。 任意のECoGチャネルに対して、ネットワークは1匹のラットで訓練され、少なくとも80~\%の精度で別のラットに適用された。 非常に単純なネットワークトポロジを用いて比較的高い分類精度を実現することが重要である。 分類器は入力信号といくつかの重みの単純な線形結合に基づいており、これらの重みは分類精度を低下させることなく、訓練された全アンの平均重みに置き換えることができた。 本稿では,ネットワークトレーニングを必要とせず,新たな睡眠認識手法を提案する。 この論文で示唆される係数と方程式を知るには十分である。 提案手法は非常に高速で簡単な計算が可能であり,実時間実験で使用することができる。 予防管理や睡眠覚醒パターンのモニタリングを必要とするげっ歯類の前臨床研究には高い需要があるかもしれない。

In this paper we propose a new method for the automatic recognition of the state of behavioral sleep (BS) and waking state (WS) in freely moving rats using their electrocorticographic (ECoG) data. Three-channels ECoG signals were recorded from frontal left, frontal right and occipital right cortical areas. We employed a simple artificial neural network (ANN), in which the mean values and standard deviations of ECoG signals from two or three channels were used as inputs for the ANN. Results of wavelet-based recognition of BS/WS in the same data were used to train the ANN and evaluate correctness of our classifier. We tested different combinations of ECoG channels for detecting BS/WS. Our results showed that the accuracy of ANN classification did not depend on ECoG-channel. For any ECoG-channel, networks were trained on one rat and applied to another rat with an accuracy of at least 80~\%. Itis important that we used a very simple network topology to achieve a relatively high accuracy of classification. Our classifier was based on a simple linear combination of input signals with some weights, and these weights could be replaced by the averaged weights of all trained ANNs without decreases in classification accuracy. In all, we introduce a new sleep recognition method that does not require additional network training. It is enough to know the coefficients and the equations suggested in this paper. The proposed method showed very fast performance and simple computations, therefore it could be used in real time experiments. It might be of high demand in preclinical studies in rodents that require vigilance control or monitoring of sleep-wake patterns.
翻訳日:2023-02-03 14:58:38 公開日:2023-02-02
# 低忠実度専門家のダイナミックアンサンブル:NAS「コールドスタート」の緩和

Dynamic Ensemble of Low-fidelity Experts: Mitigating NAS "Cold-Start" ( http://arxiv.org/abs/2302.00932v1 )

ライセンス: Link先を確認
Junbo Zhao, Xuefei Ning, Enshu Liu, Binxin Ru, Zixuan Zhou, Tianchen Zhao, Chen Chen, Jiajin Zhang, Qingmin Liao and Yu Wang(参考訳) 予測子に基づくニューラルアーキテクチャ探索(nas)は、サンプル効率を改善するためにアーキテクチャ性能予測器を用いる。 しかし,予測器をベースとしたNASは,動作予測器を得るために大量のアーキテクチャ性能データを必要とするため,深刻な「コールドスタート」問題に悩まされている。 本稿では,予測者訓練の大規模データ要求を軽減すべく,より安価な性能推定(すなわち低忠実度情報)における情報活用に焦点をあてる。 この考え方の直感的さにもかかわらず、不適切な低忠実度情報を使うことは予測能力を損なうことすらあり、異なる検索空間は低忠実度情報タイプに対する好みが異なることが観察される。 そこで本稿では,2つのステップからなる新しい動的アンサンブル予測フレームワークを提案する。 最初のステップでは、異なる種類の低忠実度情報に基づいて異なるサブ予測器を訓練し、低忠実度の専門家として有益な知識を抽出する。 第2のステップでは、各入力ニューラルネットワークで条件付けられた重み付け係数のセットを動的に出力するゲーティングネットワークを学習し、異なる低忠実度専門家の予測を重み付け和で組み合わせる。 全体予測器は、アーキテクチャパフォーマンスデータの小さなセットに最適化され、異なる低忠実度の専門家の知識を融合して最終的な予測を行う。 様々な実験環境において,異なるアーキテクチャエンコーダを用いた5つの検索空間で広範な実験を行う。 提案手法は,既存の予測器ベースのNASフレームワークに容易に組み込んで,より優れたアーキテクチャを発見することができる。

Predictor-based Neural Architecture Search (NAS) employs an architecture performance predictor to improve the sample efficiency. However, predictor-based NAS suffers from the severe ``cold-start'' problem, since a large amount of architecture-performance data is required to get a working predictor. In this paper, we focus on exploiting information in cheaper-to-obtain performance estimations (i.e., low-fidelity information) to mitigate the large data requirements of predictor training. Despite the intuitiveness of this idea, we observe that using inappropriate low-fidelity information even damages the prediction ability and different search spaces have different preferences for low-fidelity information types. To solve the problem and better fuse beneficial information provided by different types of low-fidelity information, we propose a novel dynamic ensemble predictor framework that comprises two steps. In the first step, we train different sub-predictors on different types of available low-fidelity information to extract beneficial knowledge as low-fidelity experts. In the second step, we learn a gating network to dynamically output a set of weighting coefficients conditioned on each input neural architecture, which will be used to combine the predictions of different low-fidelity experts in a weighted sum. The overall predictor is optimized on a small set of actual architecture-performance data to fuse the knowledge from different low-fidelity experts to make the final prediction. We conduct extensive experiments across five search spaces with different architecture encoders under various experimental settings. Our method can easily be incorporated into existing predictor-based NAS frameworks to discover better architectures.
翻訳日:2023-02-03 14:58:14 公開日:2023-02-02
# 小型潜時ネットワークを用いた適応型シームズ追跡

Adaptive Siamese Tracking with a Compact Latent Network ( http://arxiv.org/abs/2302.00930v1 )

ライセンス: Link先を確認
Xingping Dong, Jianbing Shen, Fatih Porikli, Jiebo Luo, and Ling Shao(参考訳) 本稿では,シームズに基づくトラッカーを簡易化するために,トラッキングタスクを分類に変換し,直感的なビューアを提供する。 この見地から,視覚シミュレーションや実追跡例を通じて詳細な解析を行い,いくつかの困難な状況における障害事例をオフライントレーニングにおける決定的サンプルの欠落問題とみなすことができる。 最初の(最初の)フレームのサンプルは、豊富なシーケンス固有情報を含んでいるので、シーケンス全体を表す決定的なサンプルとみなすことができる。 ベースモデルを新しいシーンに迅速に適応させるために、これらの決定的なサンプルをフル活用して、コンパクトな潜在ネットワークを提示する。 具体的には,逐次的情報抽出を効率的に行うことで,高速調整のための統計に基づくコンパクトな潜在性特徴を提案する。 さらに,提案するコンパクト潜在ネットワークの識別能力をさらに向上させるための,新たな多種多様なサンプルマイニング戦略を考案した。 最後に,追跡フェーズ中のシーン変動を効率的に処理するために,基本モデルを更新するための条件付き更新戦略を提案する。 本手法の一般化と有効性を評価するため,siamrpn++,siamfc,siambanの3つの古典的なsiameseベースのトラッカーを調整した。 最近の6つのデータセットの大規模な実験結果から、3つの調整されたトラッカーは高い走行速度を保ちながら精度で優れた性能が得られることが示された。

In this paper, we provide an intuitive viewing to simplify the Siamese-based trackers by converting the tracking task to a classification. Under this viewing, we perform an in-depth analysis for them through visual simulations and real tracking examples, and find that the failure cases in some challenging situations can be regarded as the issue of missing decisive samples in offline training. Since the samples in the initial (first) frame contain rich sequence-specific information, we can regard them as the decisive samples to represent the whole sequence. To quickly adapt the base model to new scenes, a compact latent network is presented via fully using these decisive samples. Specifically, we present a statistics-based compact latent feature for fast adjustment by efficiently extracting the sequence-specific information. Furthermore, a new diverse sample mining strategy is designed for training to further improve the discrimination ability of the proposed compact latent network. Finally, a conditional updating strategy is proposed to efficiently update the basic models to handle scene variation during the tracking phase. To evaluate the generalization ability and effectiveness and of our method, we apply it to adjust three classical Siamese-based trackers, namely SiamRPN++, SiamFC, and SiamBAN. Extensive experimental results on six recent datasets demonstrate that all three adjusted trackers obtain the superior performance in terms of the accuracy, while having high running speed.
翻訳日:2023-02-03 14:57:46 公開日:2023-02-02
# 予測によるウォームスタートの再検討:より高速な$\text{l}$-/$\text{l}^\natural$-convex関数最小化のための最適解のセットに近い学習予測

Rethinking Warm-Starts with Predictions: Learning Predictions Close to Sets of Optimal Solutions for Faster $\text{L}$-/$\text{L}^\natural$-Convex Function Minimization ( http://arxiv.org/abs/2302.00928v1 )

ライセンス: Link先を確認
Shinsaku Sakaue and Taihei Oki(参考訳) 機械学習による予測は、二成分マッチングのような離散最適化問題に対するウォームスタートアルゴリズムに有用であることを示した。 従来の研究では、予測と最適解の間の距離に比例した時間複雑性が示されており、過去の最適解から予測を学習することで、ほぼ最小化することができる。 しかし、複数の最適解が存在する場合、そのような保証は意味をなさない。 実際、二部マッチングの双対問題とより一般的には、$\text{L}$-/$\text{L}^\natural$-convex関数の最小化は任意に多くの最適解を持ち、そのような予測依存境界は任意に大きい。 この理論的に重要な問題を解決するために、$\text{L}$-/$\text{L}^\natural$-convex関数最小化のための新しいウォームスタート予測フレームワークを提案する。 我々のフレームワークは、予測と最適解の集合の間の距離に比例した時間複雑性を提供する。 主な技術的困難は、オンラインの漸進的未熟な方法を示す最適解の集合に確実に近い予測を学習することにある。 したがって、複数の最適解によらず、確実にウォームスタートアルゴリズムを実現できる予測の多項式時間学習性を与える。

An emerging line of work has shown that machine-learned predictions are useful to warm-start algorithms for discrete optimization problems, such as bipartite matching. Previous studies have shown time complexity bounds proportional to some distance between a prediction and an optimal solution, which we can approximately minimize by learning predictions from past optimal solutions. However, such guarantees may not be meaningful when multiple optimal solutions exist. Indeed, the dual problem of bipartite matching and, more generally, $\text{L}$-/$\text{L}^\natural$-convex function minimization have arbitrarily many optimal solutions, making such prediction-dependent bounds arbitrarily large. To resolve this theoretically critical issue, we present a new warm-start-with-prediction framework for $\text{L}$-/$\text{L}^\natural$-convex function minimization. Our framework offers time complexity bounds proportional to the distance between a prediction and the set of all optimal solutions. The main technical difficulty lies in learning predictions that are provably close to sets of all optimal solutions, for which we present an online-gradient-descent-based method. We thus give the first polynomial-time learnability of predictions that can provably warm-start algorithms regardless of multiple optimal solutions.
翻訳日:2023-02-03 14:57:23 公開日:2023-02-02
# 位相相転移の証人としての時間-秩序相関

Out-of-Time-Order Correlation as a Witness for Topological Phase Transitions ( http://arxiv.org/abs/2302.00927v1 )

ライセンス: Link先を確認
Qian Bin, Liang-Liang Wan, Franco Nori, Ying Wu, Xin-You L\"u(参考訳) 実験により観測可能な時間外相関(OTOC)を用いて,位相相転移(TPT)を動的に検出する物理証人を提案する。 区別可能なオトックダイナミクスは位相的局所性に起因する位相的自明な位相と非自明な位相に現れる。 時間制限では、OTOC は TPT の臨界点において 0 から 有限値遷移を行う。 この遷移は、システムの初期状態とOTOCで使用される演算子の選択に対して堅牢である。 提案されたOTOC証人は、例えばSSHモデル、クルーツモデル、ハルデンモデルで記述された格子など、キラル対称性を持たずともシステムに適用することができる。 さらに, 本提案は, 実空間における物理的証人として, 障害の存在下でも有効である。 我々の研究は、OTOCをTPTの領域に持ち込み、新しいトポロジカル物理学を量子相関で探求する可能性を秘めている。

We propose a physical witness for dynamically detecting topological phase transitions (TPTs) via an experimentally observable out-of-time-order correlation (OTOC). The distinguishable OTOC dynamics appears in the topological trivial and non-trivial phases due to the topological locality. In the long-time limit, the OTOC undergoes a {\it zero-to-finite-value transition} at the critical point of the TPTs. This transition is robust to the choices of the initial state of the system and the used operators in OTOC. The proposed OTOC witness can be applied into the systems with and without chiral symmetry, e.g., the lattices described by the SSH model, Creutz model, and Haldane model. Moreover, our proposal, as a physical witness in real space, is still valid even in the presence of disorder. Our work fundamentally brings the OTOC in the realm of TPTs, and offers the prospect of exploring new topological physics with quantum correlations.
翻訳日:2023-02-03 14:56:53 公開日:2023-02-02
# LMC: 予測収束を用いたサブグラフサンプリングによるGNNの高速トレーニング

LMC: Fast Training of GNNs via Subgraph Sampling with Provable Convergence ( http://arxiv.org/abs/2302.00924v1 )

ライセンス: Link先を確認
Zhihao Shi, Xize Liang, Jie Wang(参考訳) メッセージパッシングベースのグラフニューラルネットワーク(GNN)は多くの現実世界アプリケーションで大きな成功を収めている。 しかしながら、大規模グラフでのgnnのトレーニングは、よく知られた隣り合う爆発問題、すなわちメッセージパッシング層の数でノードの指数関数的に増加する依存性に苦しむ。 subgraph-wise sampling method -- 有望なミニバッチトレーニングテクニックのクラス -- は、勾配推定精度を犠牲にして隣の爆発問題を避けるために、ミニバッチの外側のメッセージを後方に破棄する。 これは収束解析と収束速度に大きな課題をもたらし、現実の信頼性を著しく制限する。 この課題に対処するために,収束保証,すなわちローカルメッセージ補償(LMC)を備えた新しいサブグラフワイズサンプリング手法を提案する。 我々の知る限りでは、LCCは証明可能な収束性を持つ部分グラフワイドサンプリング法である。 LMCの鍵となる考え方は、後方パスのメッセージパスの定式化に基づいて、破棄されたメッセージを後方パスで取り出すことである。 前と後の両方で破棄されたメッセージの効率よく効果的な補償によって、LCCは正確なミニバッチ勾配を計算し、収束を加速する。 さらに、LCCはGNNの1次定常点に収束することを示す。 大規模ベンチマークタスクの実験では、LCCは効率の点で最先端のサブグラフワイドサンプリング手法よりも大幅に優れていた。

The message passing-based graph neural networks (GNNs) have achieved great success in many real-world applications. However, training GNNs on large-scale graphs suffers from the well-known neighbor explosion problem, i.e., the exponentially increasing dependencies of nodes with the number of message passing layers. Subgraph-wise sampling methods -- a promising class of mini-batch training techniques -- discard messages outside the mini-batches in backward passes to avoid the neighbor explosion problem at the expense of gradient estimation accuracy. This poses significant challenges to their convergence analysis and convergence speeds, which seriously limits their reliable real-world applications. To address this challenge, we propose a novel subgraph-wise sampling method with a convergence guarantee, namely Local Message Compensation (LMC). To the best of our knowledge, LMC is the {\it first} subgraph-wise sampling method with provable convergence. The key idea of LMC is to retrieve the discarded messages in backward passes based on a message passing formulation of backward passes. By efficient and effective compensations for the discarded messages in both forward and backward passes, LMC computes accurate mini-batch gradients and thus accelerates convergence. We further show that LMC converges to first-order stationary points of GNNs. Experiments on large-scale benchmark tasks demonstrate that LMC significantly outperforms state-of-the-art subgraph-wise sampling methods in terms of efficiency.
翻訳日:2023-02-03 14:56:37 公開日:2023-02-02
# 言語モデルにおけるマルチモーダル連鎖思考推論

Multimodal Chain-of-Thought Reasoning in Language Models ( http://arxiv.org/abs/2302.00923v1 )

ライセンス: Link先を確認
Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis, Alex Smola(参考訳) 大規模言語モデル (LLM) は、中間的推論連鎖を推論する論理として生成し、複雑な推論において顕著な性能を示す。 しかしながら、既存のCoT研究は、LLMの展開が難しい言語モダリティにおいて、主に孤立している。 CoT推論をマルチモーダルで行うためには、ビジョンと言語特徴を融合させてCoT推論を実行することで、小さな言語モデルを微調整することが可能になる。 重要な課題は、これらの言語モデルが、答え推論を誤解させる幻覚的推論連鎖を生成する傾向があることです。 このような誤りの影響を軽減するために,視覚特徴を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。 このフレームワークは合理性生成と解答推論を2段階に分けている。 両段階に視覚的特徴を組み込むことで、モデルが答えの推論に寄与する効果的な合理性を生成することができる。 マルチモーダルCoTでは,従来のLCM(GPT-3.5)を16%(75.17%->91.68%)上回る10億パラメータ未満のモデルがScienceQAベンチマークで達成され,人的パフォーマンスを上回りました。 コードはhttps://github.com/amazon-science/mm-cotで公開されている。

Large language models (LLMs) have shown impressive performance on complex reasoning by leveraging chain-of-thought (CoT) prompting to generate intermediate reasoning chains as the rationale to infer the answer. However, existing CoT studies are mostly isolated in the language modality with LLMs, where LLMs are hard to deploy. To elicit CoT reasoning in multimodality, a possible solution is to fine-tune small language models by fusing the vision and language features to perform CoT reasoning. The key challenge is that those language models tend to generate hallucinated reasoning chains that mislead the answer inference. To mitigate the effect of such mistakes, we propose Multimodal-CoT that incorporates vision features in a decoupled training framework. The framework separates the rationale generation and answer inference into two stages. By incorporating the vision features in both stages, the model is able to generate effective rationales that contribute to answer inference. With Multimodal-CoT, our model under 1 billion parameters outperforms the previous state-of-the-art LLM (GPT-3.5) by 16% (75.17%->91.68%) on the ScienceQA benchmark and even surpasses human performance. Code is publicly available at https://github.com/amazon-science/mm-cot.
翻訳日:2023-02-03 14:56:12 公開日:2023-02-02
# QCM-SGM+:Score-based Generative Models for General Sensing Matricesによる量子圧縮センシングの改良

QCM-SGM+: Improved Quantized Compressed Sensing With Score-Based Generative Models for General Sensing Matrices ( http://arxiv.org/abs/2302.00919v1 )

ライセンス: Link先を確認
Xiangming Meng and Yoshiyuki Kabashima(参考訳) 現実的な圧縮センシング(CS)のシナリオでは、得られた測定値は通常、送信や記憶の前に有限ビットに量子化されなければならないため、特に1ビットの符号測定のような非常に粗い量子化において、回復の困難が生じる。 近年、Meng & KabashimaはQCS-SGMと呼ばれる効率的な量子化圧縮センシングアルゴリズムを提案した。 QCS-SGMは、前者のリッチな構造を捉えるためのスコアベース生成モデルの力により、従来の量子化CS法よりも驚くほど優れた性能を達成する。 しかし、qcs-sgm は(ほぼ)行-orthogonal sensing matrices に制限される。 本稿では,QCS-SGMを改良したQCS-SGM+を提案する。 鍵となる考え方は、確率スコア計算のベイズ推論の観点であり、確率スコアを概算するために期待伝搬アルゴリズムが提案される。 各種ベースラインデータセットにおける実験により,提案するqcs-sgm+がqcs-sgmを大きなマージンで上回ることが示された。

In realistic compressed sensing (CS) scenarios, the obtained measurements usually have to be quantized to a finite number of bits before transmission and/or storage, thus posing a challenge in recovery, especially for extremely coarse quantization such as 1-bit sign measurements. Recently Meng & Kabashima proposed an efficient quantized compressed sensing algorithm called QCS-SGM using the score-based generative models as an implicit prior. Thanks to the power of score-based generative models in capturing the rich structure of the prior, QCS-SGM achieves remarkably better performances than previous quantized CS methods. However, QCS-SGM is restricted to (approximately) row-orthogonal sensing matrices since otherwise the likelihood score becomes intractable. To address this challenging problem, in this paper we propose an improved version of QCS-SGM, which we call QCS-SGM+, which also works well for general matrices. The key idea is a Bayesian inference perspective of the likelihood score computation, whereby an expectation propagation algorithm is proposed to approximately compute the likelihood score. Experiments on a variety of baseline datasets demonstrate that the proposed QCS-SGM+ outperforms QCS-SGM by a large margin when sensing matrices are far from row-orthogonal.
翻訳日:2023-02-03 14:55:44 公開日:2023-02-02
# フェイススワップ映像の視覚リアリズム評価

Visual Realism Assessment for Face-swap Videos ( http://arxiv.org/abs/2302.00918v1 )

ライセンス: Link先を確認
Xianyun Sun, Beibei Dong, Caiyong Wang, Bo Peng, Jing Dong(参考訳) ディープラーニングベースのフェイススワップビデオは、ディープフェイク(deep fakes)としても知られ、ますます現実的になりつつある。 これらの顔スワップビデオの悪質な利用は、幅広い懸念を引き起こした。 研究コミュニティは、これらの偽ビデオの自動検出に力を入れているが、人間の目が知覚する視覚リアリズムのセサメントは、まだ探究されていない次元である。 視覚リアリズムアセスメント(VRA)は、特定のフェイススワップビデオによってもたらされる潜在的な影響を評価するために不可欠であり、異なるフェイススワップ手法を比較するための品質評価指標としても重要である。 本稿では,従来の手作り機能からさまざまなディープラーニング機能まで,さまざまな自動VRAモデルの有効性を評価するベンチマークを構築することで,この新たなVRA方向を下方修正するための小さなステップを示す。 この評価はDFGC 2022という名称の最近の競合データセットに基づいており、これは視覚リアリズムに関する平均オピニオンスコア(MOS)で注釈付けされた1400種類のフェイススワップビデオを含んでいる。 11のモデルと3つのプロトコルを用いた包括的な実験結果を示し,考察した。 フェース・スワップ・ビデオと手法の評価に有効なVRAモデルの開発の可能性を示す。 既存のVRAのディープフェイク検出機能の有用性も注目に値する。 コードとベンチマークは一般公開される予定だ。

Deep-learning based face-swap videos, also known as deep fakes, are becoming more and more realistic and deceiving. The malicious usage of these face-swap videos has caused wide concerns. The research community has been focusing on the automatic detection of these fake videos, but the as sessment of their visual realism, as perceived by human eyes, is still an unexplored dimension. Visual realism assessment, or VRA, is essential for assessing the potential impact that may be brought by a specific face-swap video, and it is also important as a quality assessment metric to compare different face-swap methods. In this paper, we make a small step to wards this new VRA direction by building a benchmark for evaluating the effectiveness of different automatic VRA models, which range from using traditional hand-crafted features to different kinds of deep-learning features. The evaluations are based on a recent competition dataset named as DFGC 2022, which contains 1400 diverse face-swap videos that are annotated with Mean Opinion Scores (MOS) on visual realism. Comprehensive experiment results using 11 models and 3 protocols are shown and discussed. We demonstrate the feasibility of devising effective VRA models for assessing face-swap videos and methods. The particular usefulness of existing deepfake detection features for VRA is also noted. The code and benchmark will be made publicly available.
翻訳日:2023-02-03 14:55:21 公開日:2023-02-02
# QR-CLIP: 位置と時間推論のための明示的なオープンワールド知識の導入

QR-CLIP: Introducing Explicit Open-World Knowledge for Location and Time Reasoning ( http://arxiv.org/abs/2302.00952v1 )

ライセンス: Link先を確認
Weimin Shi, Mingchen Zhuge, Zhong Zhou, Dehong Gao, Deng-Ping Fan(参考訳) 日々のイメージは、私たちが記憶し、それらから深い情報を推測する必要がある抽象的な意味を伝える。 このような人間的な推論を促進するために、我々は機械に従来のセグメンテーションや分類といった基本的なタスクではなく、いつ、どこで、いつ取られたかを予測するように教える。 Horn氏のQR理論に触発されて、2つのコンポーネントからなる新しいQR-CLIPモデルを設計した。 1)Quantityモジュールは,まず,候補言語の入力として,よりオープンワールドな知識を振り返る。 2) 関連モジュールは,視覚と言語手がかりを慎重に推定し,位置と時刻を推定する。 実験によりQR-CLIPの有効性が示され、各タスクにおける以前のSOTAを、位置と時間的推論の観点から平均約10%と130%の相対的なリフトで上回ります。 本研究は,位置情報と時間的推論の技術的基礎を築いており,オープンワールド知識の効果的な導入が課題のパナセの1つであることを示唆する。

Daily images may convey abstract meanings that require us to memorize and infer profound information from them. To encourage such human-like reasoning, in this work, we teach machines to predict where and when it was taken rather than performing basic tasks like traditional segmentation or classification. Inspired by Horn's QR theory, we designed a novel QR-CLIP model consisting of two components: 1) the Quantity module first retrospects more open-world knowledge as the candidate language inputs; 2) the Relevance module carefully estimates vision and language cues and infers the location and time. Experiments show our QR-CLIP's effectiveness, and it outperforms the previous SOTA on each task by an average of about 10% and 130% relative lift in terms of location and time reasoning. This study lays a technical foundation for location and time reasoning and suggests that effectively introducing open-world knowledge is one of the panaceas for the tasks.
翻訳日:2023-02-03 14:48:32 公開日:2023-02-02
# transfool: ニューラルネットワークの翻訳モデルに対する敵対的攻撃

TransFool: An Adversarial Attack against Neural Machine Translation Models ( http://arxiv.org/abs/2302.00944v1 )

ライセンス: Link先を確認
Sahar Sadrizadeh, Ljiljana Dolamic, Pascal Frossard(参考訳) ディープニューラルネットワークは、敵攻撃として知られる入力の小さな摂動に弱いことが示されている。 本稿では,ニューラルネットワーク翻訳(NMT)モデルの敵攻撃に対する脆弱性を調査し,TransFoolと呼ばれる新たな攻撃アルゴリズムを提案する。 NMTモデルを騙すため、TransFoolは多項最適化問題と勾配投影ステップの上に構築されている。 言語モデルの埋め込み表現を統合することで、クリーンなサンプルと高いレベルのセマンティックな類似性を保ちながら、ソース言語に流動的な逆の例を生成する。 実験の結果,異なる翻訳タスクやNTTアーキテクチャでは,原文と逆文のセマンティックな類似性が高いまま,翻訳品質を著しく低下させることができることがわかった。 さらに,TransFoolは未知のターゲットモデルに転送可能であることを示す。 最後に、自動的および人的評価に基づいて、transfoolは、ホワイトボックスとブラックボックスの両方の既存の攻撃と比較して、成功率、意味的類似性、そして流動性の改善をもたらす。 そこでTransFoolは,NMTモデルの脆弱性をより正確に評価し,より強力な防御機構とより堅牢なNMTシステムの設計の必要性を概説する。

Deep neural networks have been shown to be vulnerable to small perturbations of their inputs, known as adversarial attacks. In this paper, we investigate the vulnerability of Neural Machine Translation (NMT) models to adversarial attacks and propose a new attack algorithm called TransFool. To fool NMT models, TransFool builds on a multi-term optimization problem and a gradient projection step. By integrating the embedding representation of a language model, we generate fluent adversarial examples in the source language that maintain a high level of semantic similarity with the clean samples. Experimental results demonstrate that, for different translation tasks and NMT architectures, our white-box attack can severely degrade the translation quality while the semantic similarity between the original and the adversarial sentences stays high. Moreover, we show that TransFool is transferable to unknown target models. Finally, based on automatic and human evaluations, TransFool leads to improvement in terms of success rate, semantic similarity, and fluency compared to the existing attacks both in white-box and black-box settings. Thus, TransFool permits us to better characterize the vulnerability of NMT models and outlines the necessity to design strong defense mechanisms and more robust NMT systems for real-life applications.
翻訳日:2023-02-03 14:48:14 公開日:2023-02-02
# 効率的なグラフフィールド積分器がポイントクラウドと出会う

Efficient Graph Field Integrators Meet Point Clouds ( http://arxiv.org/abs/2302.00942v1 )

ライセンス: Link先を確認
Krzysztof Choromanski, Arijit Sehanobish, Han Lin, Yunfan Zhao, Eli Berger, Tetiana Parshakova, Alvin Pan, David Watkins, Tianyi Zhang, Valerii Likhosherstov, Somnath Basu Roy Chowdhury, Avinava Dubey, Deepali Jain, Tamas Sarlos, Snigdha Chaturvedi, Adrian Weller(参考訳) 点雲を符号化するグラフ上での効率的な場積分のためのアルゴリズムを2種類提案する。 第1のクラスであるSeparatorFactorization(SF)は、ポイントメッシュグラフの有界属を利用するが、第2のクラスであるRFDiffusion(RFD)は、ポイントクラウドの一般的なepsilon-nearest-neighborグラフ表現を使用する。 どちらも、効率的な統合に多大な影響を与えたFMM(Fast Multipole Methods)の機能を提供するが、非ユークリッド空間ではそうではない。 ポイント間の歩行長さの分布(例えば、最短経路距離)によって引き起こされるジオメトリに注目した。 アルゴリズムの広範な理論的解析を行い,副産物として構造グラフ理論の新たな結果を得た。 また,剛体および変形可能な物体の面補間(特にメッシュ力学モデリング),点雲のwasserstein距離計算,gromov-wasserstein変種など,徹底的な実験評価を行う。

We present two new classes of algorithms for efficient field integration on graphs encoding point clouds. The first class, SeparatorFactorization(SF), leverages the bounded genus of point cloud mesh graphs, while the second class, RFDiffusion(RFD), uses popular epsilon-nearest-neighbor graph representations for point clouds. Both can be viewed as providing the functionality of Fast Multipole Methods (FMMs), which have had a tremendous impact on efficient integration, but for non-Euclidean spaces. We focus on geometries induced by distributions of walk lengths between points (e.g., shortest-path distance). We provide an extensive theoretical analysis of our algorithms, obtaining new results in structural graph theory as a byproduct. We also perform exhaustive empirical evaluation, including on-surface interpolation for rigid and deformable objects (particularly for mesh-dynamics modeling), Wasserstein distance computations for point clouds, and the Gromov-Wasserstein variant.
翻訳日:2023-02-03 14:47:52 公開日:2023-02-02
# 統計的学習を用いたロバスト多項目オークション設計:入札者の型分布の不確実性克服

Robust multi-item auction design using statistical learning: Overcoming uncertainty in bidders' types distributions ( http://arxiv.org/abs/2302.00941v1 )

ライセンス: Link先を確認
Jiale Han and Xiaowu Dai(参考訳) 本稿では,不確定な入札者型分布を持つマルチ項目オークション設定のための新しいメカニズム設計を提案する。 提案手法は,非パラメトリック密度推定を用いて,入札者のタイプを正確に推定し,vickrey-clarke-groves (vcg) 機構に基づいてベイズインセンティブ互換性 (bic) と$\delta$-individual rationality (ir) の満足度を保証する。 提案手法の効率をさらに高めるため,提案手法では,推定分布によって生成される信頼区間内において,潜在的勝者の値領域を探索するフィルタリング手法と,その長さがしきい値以下である場合に,区間の下限を推定値として指定する分類手法を新たに導入する。 小規模データと大規模データの両方で実施したシミュレーション実験により,本機構は,収益の最大化とクエリの削減,特に大規模シナリオにおいて,既存の手法を一貫して上回っていることが示された。 これにより,提案機構は,マルチイテムオークションの領域における販売者にとって,極めて望ましい,効果的な選択肢となる。

This paper presents a novel mechanism design for multi-item auction settings with uncertain bidders' type distributions. Our proposed approach utilizes nonparametric density estimation to accurately estimate bidders' types from historical bids, and is built upon the Vickrey-Clarke-Groves (VCG) mechanism, ensuring satisfaction of Bayesian incentive compatibility (BIC) and $\delta$-individual rationality (IR). To further enhance the efficiency of our mechanism, we introduce two novel strategies for query reduction: a filtering method that screens potential winners' value regions within the confidence intervals generated by our estimated distribution, and a classification strategy that designates the lower bound of an interval as the estimated type when the length is below a threshold value. Simulation experiments conducted on both small-scale and large-scale data demonstrate that our mechanism consistently outperforms existing methods in terms of revenue maximization and query reduction, particularly in large-scale scenarios. This makes our proposed mechanism a highly desirable and effective option for sellers in the realm of multi-item auctions.
翻訳日:2023-02-03 14:47:31 公開日:2023-02-02
# NOON状態を超える無条件で堅牢な量子力学上の優位性

Unconditional and robust quantum metrological advantage beyond NOON states ( http://arxiv.org/abs/2302.00940v1 )

ライセンス: Link先を確認
Jian Qin, Yu-Hao Deng, Han-Sen Zhong, Li-Chao Peng, Hao Su, Yi-Han Luo, Jia-Min Xu, Dian Wu, Si-Qiu Gong, Hua-Liang Liu, Hui Wang, Ming-Cheng Chen, Li Li, Nai-Le Liu, Chao-Yang Lu, Jian-Wei Pan(参考訳) 量子メートル法は古典的に達成できる以上の測定感度を高めるために量子資源を用いる。 多光子絡み合ったNOON状態は、原則としてショットノイズ限界を破ってハイゼンベルク限界に達することができるが、高いNOON状態は準備が難しく、光子損失に脆弱であり、無条件の量子メトロジー上の利点に到達することを妨げる。 本稿では,従来型非線形干渉計の考え方と,従来フォトニック量子コンピュータであるjiuzhangで開発されたシュイーズド光の放射を組み合わせることで,スケーラブルで無条件でロバストな量子メトロロジー上の優位性を実現する新しいスキームを提案し,実現する。 我々は,光子の損失や不完全性を抑えることなく,光子毎に抽出したフィッシャー情報のショットノイズ限界を超える5.8(1)倍の強調を観測した。 ハイゼンベルク制限スケーリング、外部光子損失に対するロバスト性、およびこの方法の使いやすさは、低光子フラックス領域での実用的な量子計測に適用できる。

Quantum metrology employs quantum resources to enhance the measurement sensitivity beyond that can be achieved classically. While multi-photon entangled NOON states can in principle beat the shot-noise limit and reach the Heisenberg limit, high NOON states are difficult to prepare and fragile to photon loss which hinders it from reaching unconditional quantum metrological advantages. Here, we combine the idea of unconventional nonlinear interferometers and stimulated emission of squeezed light, previously developed for photonic quantum computer Jiuzhang, to propose and realize a new scheme that achieves a scalable, unconditional, and robust quantum metrological advantage. We observe a 5.8(1)-fold enhancement above the shot-noise limit in the Fisher information extracted per photon, without discounting for photon loss and imperfections, which outperforms ideal 5-NOON states. The Heisenberg-limited scaling, the robustness to external photon loss, and the ease-to-use of our method make it applicable in practical quantum metrology at low photon flux regime.
翻訳日:2023-02-03 14:47:08 公開日:2023-02-02
# 分布外異常検出モデルの最適化法

An optimization method for out-of-distribution anomaly detection models ( http://arxiv.org/abs/2302.00939v1 )

ライセンス: Link先を確認
Ji Qiu, Hongmei Shi, Yu Hen Hu, and Zujun Yu(参考訳) 頻繁な誤報は、産業応用における教師なし異常検出アルゴリズムの推進を妨げる。 分布異常検出タスクにおける予測スコアの密度確率分布を調べることにより、訓練された検出器による誤報の電位特性を明らかにする。 SVMベースの分類器は後処理モジュールとして利用され、オブジェクトレベルでの異常マップから誤報を識別する。 さらに、サンプル合成戦略を考案し、異常のないトレーニングデータセットに特定の応用に関するファジィ事前知識を組み込む。 実験結果から,提案手法は2つの産業アプリケーションにおける画像および画素レベルの2つのセグメンテーションモデルの性能を総合的に改善することを示した。

Frequent false alarms impede the promotion of unsupervised anomaly detection algorithms in industrial applications. Potential characteristics of false alarms depending on the trained detector are revealed by investigating density probability distributions of prediction scores in the out-of-distribution anomaly detection tasks. An SVM-based classifier is exploited as a post-processing module to identify false alarms from the anomaly map at the object level. Besides, a sample synthesis strategy is devised to incorporate fuzzy prior knowledge on the specific application in the anomaly-free training dataset. Experimental results illustrate that the proposed method comprehensively improves the performances of two segmentation models at both image and pixel levels on two industrial applications.
翻訳日:2023-02-03 14:46:47 公開日:2023-02-02
# 数値偏微分方程式における演算子学習のための拡張VサイクルMgNetモデル

An Enhanced V-cycle MgNet Model for Operator Learning in Numerical Partial Differential Equations ( http://arxiv.org/abs/2302.00938v1 )

ライセンス: Link先を確認
Jianqing Zhu, Juncai He and Qiumei Huang(参考訳) 本研究は,数値偏微分方程式(pdes)の解法としてmgnetとして知られるマルチグリッド型畳み込みニューラルネットワークアーキテクチャを用いた。 低周波誤差が緩やかに減衰する多重グリッド法における平滑化繰り返しの特性を考慮し, 標準VサイクルMgNetを強化するために, 低周波補正構造を導入した。 強化されたMgNetモデルは、標準のVサイクルMgNetよりもはるかに優れた解の低周波特性を捉えることができる。 いくつかの標準的な演算子学習タスクを用いて得られた数値結果は、多くの最先端手法を用いて得られた数値よりも優れており、これらのモデルの効率性を実証している。

This study used a multigrid-based convolutional neural network architecture known as MgNet in operator learning to solve numerical partial differential equations (PDEs). Given the property of smoothing iterations in multigrid methods where low-frequency errors decay slowly, we introduced a low-frequency correction structure for residuals to enhance the standard V-cycle MgNet. The enhanced MgNet model can capture the low-frequency features of solutions considerably better than the standard V-cycle MgNet. The numerical results obtained using some standard operator learning tasks are better than those obtained using many state-of-the-art methods, demonstrating the efficiency of our model.Moreover, numerically, our new model is more robust in case of low- and high-resolution data during training and testing, respectively.
翻訳日:2023-02-03 14:46:36 公開日:2023-02-02
# 文分割における読みやすさの再構築

The Fewer Splits are Better: Deconstructing Readability in Sentence Splitting ( http://arxiv.org/abs/2302.00937v1 )

ライセンス: Link先を確認
Tadashi Nomoto(参考訳) 本研究は,文の分割に焦点をあて,文章の簡易化のサブフィールドである文の分割に着目する。 この論文の主な目標は、これが本当かどうかを調べることです。 特に、文を2つか3つに分けるかは問題なのでしょうか? amazon mechanical turkに基づく結果について報告する。 より具体的には、複雑な文を分割する特定の方法が可読性にどの程度影響するかを、臨床言語学や認知言語学など様々な観点から採用されている他のパラメータとともに、さらに調査するためのベイズモデリングフレームワークを導入する。 ベイズ模型実験は、文を二分すると、三分法で作るものよりも可読性が高まるという明確な証拠を与える。

In this work, we focus on sentence splitting, a subfield of text simplification, motivated largely by an unproven idea that if you divide a sentence in pieces, it should become easier to understand. Our primary goal in this paper is to find out whether this is true. In particular, we ask, does it matter whether we break a sentence into two or three? We report on our findings based on Amazon Mechanical Turk. More specifically, we introduce a Bayesian modeling framework to further investigate to what degree a particular way of splitting the complex sentence affects readability, along with a number of other parameters adopted from diverse perspectives, including clinical linguistics, and cognitive linguistics. The Bayesian modeling experiment provides clear evidence that bisecting the sentence leads to enhanced readability to a degree greater than what we create by trisection.
翻訳日:2023-02-03 14:46:23 公開日:2023-02-02
# ガウスボソンサンプリングを用いたグラフ問題の解法

Solving Graph Problems Using Gaussian Boson Sampling ( http://arxiv.org/abs/2302.00936v1 )

ライセンス: Link先を確認
Yu-Hao Deng, Si-Qiu Gong, Yi-Chao Gu, Zhi-Jiong Zhang, Hua-Liang Liu, Hao Su, Hao-Yang Tang, Jia-Min Xu, Meng-Hao Jia, Ming-Cheng Chen, Han-Sen Zhong, Hui Wang, Jiarong Yan, Yi Hu, Jia Huang, Wei-Jun Zhang, Hao Li, Xiao Jiang, Lixing You, Zhen Wang, Li Li, Nai-Le Liu, Chao-Yang Lu, Jian-Wei Pan(参考訳) ガウス・ボーソンサンプリング(英: gaussian boson sampling、gbs)は、量子計算の利点を示すためのプロトコルであるだけでなく、特定のグラフや量子化学の問題と数学的に関連付けられる。 特に、GBSから生成されたサンプルを用いて、グラフの特徴を探索する際の古典確率アルゴリズムを強化することが提案されている。 ここでは、ノイズの多い中間スケール量子コンピュータであるJuzhangを用いてグラフ問題を解く。 サンプルは144モードのフル接続フォトニックプロセッサから生成され、量子計算の利点は最大80光子クリックである。 我々は,従来の確率的アルゴリズムに対するGBSの強化が,計算学的に興味深い状況下でノイズの多い量子デバイス上でのシステムサイズの増加とともに持続するか否かという,オープンな疑問について検討する。 我々は,大きな光子クリック数を持つGBS増強の存在と,特定の雑音下での強化の頑健さを実験的に観察した。 我々の研究は、既存のノイズの多い中間スケール量子コンピュータを用いて現実世界の問題をテストするためのステップである。

Gaussian boson sampling (GBS) is not only a feasible protocol for demonstrating quantum computational advantage, but also mathematically associated with certain graph-related and quantum chemistry problems. In particular, it is proposed that the generated samples from the GBS could be harnessed to enhance the classical stochastic algorithms in searching some graph features. Here, we use Jiuzhang, a noisy intermediate-scale quantum computer, to solve graph problems. The samples are generated from a 144-mode fully-connected photonic processor, with photon-click up to 80 in the quantum computational advantage regime. We investigate the open question of whether the GBS enhancement over the classical stochastic algorithms persists -- and how it scales -- with an increasing system size on noisy quantum devices in the computationally interesting regime. We experimentally observe the presence of GBS enhancement with large photon-click number and a robustness of the enhancement under certain noise. Our work is a step toward testing real-world problems using the existing noisy intermediate-scale quantum computers.
翻訳日:2023-02-03 14:46:07 公開日:2023-02-02
# オフライン・オンライン強化学習のための政策拡張

Policy Expansion for Bridging Offline-to-Online Reinforcement Learning ( http://arxiv.org/abs/2302.00935v1 )

ライセンス: Link先を確認
Haichao Zhang, We Xu, Haonan Yu(参考訳) オフラインデータによる事前学習と強化学習を用いたオンライン微調整は、サンプル効率と性能の観点から両世界の最善を生かして制御政策を学ぶ上で有望な戦略である。 1つの自然なアプローチは、オンライン学習のポリシーをトレーニングされたオフラインで初期化することだ。 本稿では,この課題に対する政策拡張スキームを紹介する。 オフラインポリシーを学んだ後、ポリシーセットでひとつの候補ポリシーとして使用します。 そして、そのポリシーセットを、さらなる学習に責任を持つ別のポリシーで拡張します。 2つのポリシーは、環境と対話するための適応的な方法で構成されます。 このアプローチでは、以前に学習したオフラインポリシがオンライン学習中に完全に保持されるため、オンライン学習の初期段階におけるオフラインポリシの有用な動作の破棄や、オフラインポリシが自然に探索に適応的に参加することといった潜在的な問題を軽減できる。 さらに、新たな有用な行動は、学習を通じて新たに追加されたポリシーによって捉えられる可能性がある。 様々な課題に対して実験を行い,提案手法の有効性を実証した。

Pre-training with offline data and online fine-tuning using reinforcement learning is a promising strategy for learning control policies by leveraging the best of both worlds in terms of sample efficiency and performance. One natural approach is to initialize the policy for online learning with the one trained offline. In this work, we introduce a policy expansion scheme for this task. After learning the offline policy, we use it as one candidate policy in a policy set. We then expand the policy set with another policy which will be responsible for further learning. The two policies will be composed in an adaptive manner for interacting with the environment. With this approach, the policy previously learned offline is fully retained during online learning, thus mitigating the potential issues such as destroying the useful behaviors of the offline policy in the initial stage of online learning while allowing the offline policy participate in the exploration naturally in an adaptive manner. Moreover, new useful behaviors can potentially be captured by the newly added policy through learning. Experiments are conducted on a number of tasks and the results demonstrate the effectiveness of the proposed approach.
翻訳日:2023-02-03 14:45:48 公開日:2023-02-02
# 夢見るドメインの一般化

Domain Generalization Emerges from Dreaming ( http://arxiv.org/abs/2302.00980v1 )

ライセンス: Link先を確認
Hwan Heo, Youngjin Oh, Jaewon Lee, Hyunwoo J. Kim(参考訳) 最近の研究では、人間の視覚とは異なり、DNNは形ではなくテクスチャ情報を利用する傾向があることが証明されている。 このようなテクスチャバイアスは、DNNの一般化性能が劣る要因の1つである。 テクスチャバイアスがドメイン内一般化だけでなく、分散外一般化、すなわちドメイン一般化にも悪影響を及ぼすことを観察する。 そこで本研究では,Stylized Dreamと呼ばれる新しい最適化に基づくデータ拡張により,モデルのテクスチャバイアスを低減する新しいフレームワークを提案する。 本フレームワークは,アダプティブ・インスタンス正規化(adain)を利用してオリジナル画像のスタイルを拡張し,コンテンツを保存する。 次に,スタイライゼーションドリームとオリジナル画像の一貫した出力を予測するために正規化損失を適用し,モデルが形状に基づく表現を学ぶように促す。 大規模な実験の結果,提案手法はPACS, VLCS, OfficeHome, TerraIncognita, DomainNetといった,公開ベンチマークデータセット上でのアウト・オブ・ディストリビューション・セッティングにおいて,最先端のパフォーマンスを実現することがわかった。

Recent studies have proven that DNNs, unlike human vision, tend to exploit texture information rather than shape. Such texture bias is one of the factors for the poor generalization performance of DNNs. We observe that the texture bias negatively affects not only in-domain generalization but also out-of-distribution generalization, i.e., Domain Generalization. Motivated by the observation, we propose a new framework to reduce the texture bias of a model by a novel optimization-based data augmentation, dubbed Stylized Dream. Our framework utilizes adaptive instance normalization (AdaIN) to augment the style of an original image yet preserve the content. We then adopt a regularization loss to predict consistent outputs between Stylized Dream and original images, which encourages the model to learn shape-based representations. Extensive experiments show that the proposed method achieves state-of-the-art performance in out-of-distribution settings on public benchmark datasets: PACS, VLCS, OfficeHome, TerraIncognita, and DomainNet.
翻訳日:2023-02-03 14:40:33 公開日:2023-02-02
# 散逸的相互作用量子における相関の欠如:ノーゴー理論

Absence of Correlations in Dissipative Interacting Qubits: a No-Go Theorem ( http://arxiv.org/abs/2302.00976v1 )

ライセンス: Link先を確認
Zeqing Wang, Ran Qi, Yao Lu, Zhigang Wu, and Jianwen Jie(参考訳) モデル問題の厳密な解法は、多くの身体相互作用系を理解するための解法であるが強力なツールである。 ハイゼンベルク相互作用を伴う散逸量子ビットの系を研究し、ある条件下では、そのダイナミクスを記述するリンドブラッドマスター方程式に対する厳密な定常解を得る。 そのような解の物理的内容は注目すべきno-go定理であり、減衰率と利得率の同一の比率を持つ量子ビットに対して、それらの間の定常状態の相関は確立されないと述べる。 この定理の2つの結果は、量子ビットの量子同期の文脈で議論される。 1つ目は、前述の条件下で量子ビットの量子同期を完全に遮断することであり、散逸したカー・アンハーモニック発振器に見られるものよりも広い範囲を持つ効果である。 第二に、より重要な結果として、複雑なオールツーオールキュービットネットワークを、エンジニアリングによってより単純なワンツーオールネットワークに還元する可能性が挙げられる。 このような削減は、複雑な量子ビットネットワークの量子同期を最適化する効果的なツールを提供するため望ましい。 最後に,本モデルの実装と予測実験のための2つの具体的な実験手法を提案する。

Exact solutions of model problems are elusive but potent tools for understanding many body interacting systems. We study a system of dissipative qubits with the Heisenberg interaction and obtain, for qubits under a certain condition, an exact steady state solution to the Lindblad master equation describing its dynamics. The physical content of such a solution is a remarkable no-go theorem, which states that for qubits possessing identical ratios of the damping and gain rates, no correlation can be established between them in the steady state. Two consequences of this theorem are discussed in the context of quantum synchronization of qubits. The first is a complete blockade of quantum synchronization of qubits under the aforementioned condition, an effect reminiscent of, but having a much broader scope than, that found in dissipated Kerr-anharmonic oscillators. The second, and a more important consequence is the possibility of reducing a complex all-to-all qubit network to a much simpler one-to-all network by engineering the dissipation. Such a reduction is desired because it provides an effective tool to optimize the quantum synchronization of a complex qubit network. Finally, we propose two concrete experimental schemes to implement our model and to test our predictions.
翻訳日:2023-02-03 14:40:11 公開日:2023-02-02
# すべての投影計測は自己検査できる

All Projective Measurements Can be Self-tested ( http://arxiv.org/abs/2302.00974v1 )

ライセンス: Link先を確認
Ranyiliu Chen, Jurij Vol\v{c}i\v{c}, Laura Man\v{c}inska(参考訳) 実数値射影測定はすべて相関から自己検査できることを示す。 これを実現するために,既存の自己テスト戦略を拡張し,より多くの測定値を取り込むポストホック自己テストの理論を展開する。 所定の戦略によってポストホックな自己テストを行うための射影的測定のための十分かつ計算可能な条件が証明される。 Man{\v{c}}inskaらによる最近の研究。 [arxiv:2103.01729] は、$d+1$ 2-アウトプット射影計測と、局所次元 $d$ の最大絡み合い状態を含む戦略が自己テストされることを示した。 この研究にポストホックな自己テスト技術を適用すると、任意の実数値の射影計測を組み込める拡張戦略が生まれます。 さらに,初期戦略の状態が最大に絡み合っている場合の反復後自己テストの一般理論についても検討し,初期戦略によって生成されるジョルダン代数を用いて反復後自己テスト測定を特徴付ける。

We show that every real-valued projective measurement can be self-tested from correlations. To achieve this, we develop the theory of post-hoc self-testing, which extends existing self-tested strategies to incorporate more measurements. A sufficient and computationally feasible condition for a projective measurement to be post-hoc self-tested by a given strategy is proven. Recent work by Man{\v{c}}inska et al. [arxiv:2103.01729] showed that a strategy containing $d+1$ two-output projective measurements and the maximally entangled state with the local dimension $d$ is self-tested. Applying the post-hoc self-testing technique to this work results in an extended strategy that can incorporate any real-valued projective measurement. We further study the general theory of iterative post-hoc self-testing whenever the state in the initial strategy is maximally entangled, and characterize the iteratively post-hoc self-tested measurements in terms of a Jordan algebra generated by the initial strategy.
翻訳日:2023-02-03 14:39:53 公開日:2023-02-02
# 効率的なパーキンソン病診断のための軽量CNNモデル

A Light-weight CNN Model for Efficient Parkinson's Disease Diagnostics ( http://arxiv.org/abs/2302.00973v1 )

ライセンス: Link先を確認
Xuechao Wang, Junqing Huang, Marianna Chatzakou, Kadri Medijainen, Pille Taba, Aaro Toomela, Sven Nomm and Michael Ruzhansky(参考訳) 近年,深層学習手法は,実用的応用において高い性能を発揮することで,様々な分野で大きな成功を収めている。 本稿では,パーキンソン病診断のための軽量ニューラルネットワークを提案する。パーキンソン病患者と健常者とを識別するために,手描きのデータを収集する。 提案モデルは,長期記憶(LSTM)にカスケードする畳み込みニューラルネットワーク(CNN)を用いて,収集した時系列信号の特性を適応する。 これらの利点をフル活用するために、まず、多層LSTMモデルを用いて、生データと連結し、より浅い1次元(1D)CNNモデルに入力し、効率的な分類を行う。 実験の結果,提案モデルはパラメータや操作の少ない複数の評価指標に対して高品質な診断結果を得ることができ,従来のサポートベクターマシン(svm),ランダムフォレスト(rf),ライトgbm(lgb),cnnベースの手法よりも優れていた。

In recent years, deep learning methods have achieved great success in various fields due to their strong performance in practical applications. In this paper, we present a light-weight neural network for Parkinson's disease diagnostics, in which a series of hand-drawn data are collected to distinguish Parkinson's disease patients from healthy control subjects. The proposed model consists of a convolution neural network (CNN) cascading to long-short-term memory (LSTM) to adapt the characteristics of collected time-series signals. To make full use of their advantages, a multilayered LSTM model is firstly used to enrich features which are then concatenated with raw data and fed into a shallow one-dimensional (1D) CNN model for efficient classification. Experimental results show that the proposed model achieves a high-quality diagnostic result over multiple evaluation metrics with much fewer parameters and operations, outperforming conventional methods such as support vector machine (SVM), random forest (RF), lightgbm (LGB) and CNN-based methods.
翻訳日:2023-02-03 14:39:34 公開日:2023-02-02
# ニューラルネットワークアーキテクチャの学習におけるエネルギー効率 : 実証的研究

Energy Efficiency of Training Neural Network Architectures: An Empirical Study ( http://arxiv.org/abs/2302.00967v1 )

ライセンス: Link先を確認
Yinlena Xu, Silverio Mart\'inez-Fern\'andez, Matias Martinez, and Xavier Franch(参考訳) ディープラーニングモデルの評価は、伝統的に精度、F1スコア、関連する指標などの基準に焦点を当ててきた。 高計算能力環境の可用性が高まると、より深くより複雑なモデルが作成できる。 しかし、そのようなモデルのトレーニングに必要な計算は、大きな炭素フットプリントを必要とする。 本研究では, 深い畳み込みニューラルネットワークを用いた実験実験により, 学習中に発生するエネルギー消費とco$_2$排出の観点で, dlモデルアーキテクチャと環境影響の関係について検討した。 具体的には、 (i) 建築及び計算が生産されるエネルギー消費量及び排出量に与える影響 二 正確性とエネルギー効率のトレードオフ (iii)ソフトウェア・ハードウェア・ツールを用いた消費エネルギーの測定方法の違い

The evaluation of Deep Learning models has traditionally focused on criteria such as accuracy, F1 score, and related measures. The increasing availability of high computational power environments allows the creation of deeper and more complex models. However, the computations needed to train such models entail a large carbon footprint. In this work, we study the relations between DL model architectures and their environmental impact in terms of energy consumed and CO$_2$ emissions produced during training by means of an empirical study using Deep Convolutional Neural Networks. Concretely, we study: (i) the impact of the architecture and the location where the computations are hosted on the energy consumption and emissions produced; (ii) the trade-off between accuracy and energy efficiency; and (iii) the difference on the method of measurement of the energy consumed using software-based and hardware-based tools.
翻訳日:2023-02-03 14:39:16 公開日:2023-02-02
# Patch Rewardsを用いた視覚模倣学習

Visual Imitation Learning with Patch Rewards ( http://arxiv.org/abs/2302.00965v1 )

ライセンス: Link先を確認
Minghuan Liu, Tairan He, Weinan Zhang, Shuicheng Yan, Zhongwen Xu(参考訳) 視覚模倣学習により、強化学習エージェントは、明確に定義された報酬なしで、ビデオや画像シーケンスのような専門的な視覚的なデモンストレーションから振る舞うことができる。 これまでの研究では、教師付き学習技術を採用するか、画像のデモに含まれる濃密な情報を無視して、ピクセルから単純で粗いスカラー報酬を誘導していた。 本研究では,画像サンプルの各種局所領域の専門知識,あるいは \textit{patches} と呼ばれる知識を測定し,それに応じて多次元 \textit{patch rewards} を回収する手法を提案する。 パッチ報酬は、きめ細かい専門知識の測定と視覚的説明可能性のツールとして機能する、より正確な報酬評価である。 具体的には,特定の画像から異なる部分の専門知識を計測し,パッチ報酬を提供するパッチベース判別器(patchail)を用いた,敵対的模倣学習(adversarial imitation learning with patch rewards)を提案する。 パッチベースの知識は、集約された報酬を規則化し、トレーニングを安定化するためにも使われる。 我々はDeepMind Control SuiteとAtariタスクについて評価を行った。 実験の結果、pattailはベースラインメソッドよりも優れており、視覚的なデモンストレーションに有用な解釈を提供することがわかった。

Visual imitation learning enables reinforcement learning agents to learn to behave from expert visual demonstrations such as videos or image sequences, without explicit, well-defined rewards. Previous research either adopted supervised learning techniques or induce simple and coarse scalar rewards from pixels, neglecting the dense information contained in the image demonstrations. In this work, we propose to measure the expertise of various local regions of image samples, or called \textit{patches}, and recover multi-dimensional \textit{patch rewards} accordingly. Patch reward is a more precise rewarding characterization that serves as a fine-grained expertise measurement and visual explainability tool. Specifically, we present Adversarial Imitation Learning with Patch Rewards (PatchAIL), which employs a patch-based discriminator to measure the expertise of different local parts from given images and provide patch rewards. The patch-based knowledge is also used to regularize the aggregated reward and stabilize the training. We evaluate our method on DeepMind Control Suite and Atari tasks. The experiment results have demonstrated that PatchAIL outperforms baseline methods and provides valuable interpretations for visual demonstrations.
翻訳日:2023-02-03 14:39:00 公開日:2023-02-02
# FV-MgNet: 解釈可能な時系列予測のための完全連結VサイクルMgNet

FV-MgNet: Fully Connected V-cycle MgNet for Interpretable Time Series Forecasting ( http://arxiv.org/abs/2302.00962v1 )

ライセンス: Link先を確認
Jianqing Zhu, Juncai He, Lian Zhang and Jinchao Xu(参考訳) 制約付き線形モデルのための反復的手法を検討することにより,長期時系列予測のための完全連結型vサイクルmgnetの新たなクラスを提案する。 MgNetは、離散偏微分方程式(PDE)を解くための乗法(MG)法に基づいて、画像分類のためのCNNモデルである。 畳み込み操作を既存のMgNetで完全に接続された操作に置き換え、それを予測問題に適用する。 さらに, 完全連結MgNetのVサイクル版であるFV-MgNetを提案し, 特徴を階層的に抽出する。 一般的なデータセット上でのFV-MgNetの性能を評価し,それを最先端モデルと比較することにより,FV-MgNetはメモリ使用量が少なく,推論速度も速く,より良い結果が得られることを示す。 さらに,FV-MgNetの構造が多くの変種の中で最適であることを示すアブレーション実験を開発した。

By investigating iterative methods for a constrained linear model, we propose a new class of fully connected V-cycle MgNet for long-term time series forecasting, which is one of the most difficult tasks in forecasting. MgNet is a CNN model that was proposed for image classification based on the multigrid (MG) methods for solving discretized partial differential equations (PDEs). We replace the convolutional operations with fully connected operations in the existing MgNet and then apply them to forecasting problems. Motivated by the V-cycle structure in MG, we further propose the FV-MgNet, a V-cycle version of the fully connected MgNet, to extract features hierarchically. By evaluating the performance of FV-MgNet on popular data sets and comparing it with state-of-the-art models, we show that the FV-MgNet achieves better results with less memory usage and faster inference speed. In addition, we develop ablation experiments to demonstrate that the structure of FV-MgNet is the best choice among the many variants.
翻訳日:2023-02-03 14:38:26 公開日:2023-02-02
# Resilient Binary Neural Network

Resilient Binary Neural Network ( http://arxiv.org/abs/2302.00956v1 )

ライセンス: Link先を確認
Sheng Xu, Yanjing Li, Teli Ma, Mingbao Lin, Hao Dong, Baochang Zhang, Peng Gao, Jinhu Lv(参考訳) バイナリニューラルネットワーク(BNN)は、ストレージ負荷を低減し、推論時間を短縮する優れた能力によって、ますます人気が高まっている。 しかし,本質的なトレーニング時の重み振動が頻繁に発生するため,実数値ネットワークに比べて性能が低下している。 本稿では、高頻度発振を緩和し、BNNのトレーニングを改善するためにResilient Binary Neural Network(ReBNN)を提案する。 重みの振動は主に非パラメトリックなスケーリング係数に起因していることが明らかとなった。 この問題に対処するために,スケーリング係数のパラメータ化と重み付き再構成損失を導入し,適応的なトレーニング目標を構築することを提案する。 % 我々の知る限りでは、動的に再重み付けされた損失関数に基づいてBNNを解くのは初めてである。 まず, 重み振動は復元損失に付随する平衡パラメータによって制御され, バック伝搬におけるパラメータ化の理論的基礎となることを示す。 そこで我々は,その最大等級に基づいてパラメータ { balanced} を計算することで,ReBNNを学習し,弾力性トレーニングプロセスによる重み振動を効果的に軽減する。 コンピュータビジョンのためのResNetやFaster-RCNN、自然言語処理のためのBERTなど、さまざまなネットワークモデルで大規模な実験が行われている。 その結果,先行技術に対するReBNNの圧倒的な性能が示された。 例えば、私たちのReBNNは、ImageNetデータセットのResNet-18バックボーンを使用して、66.9\% Top-1の精度を達成しています。 私たちのコードはhttps://github.com/SteveTsui/ReBNN.comで公開されている。

Binary neural networks (BNNs) have received ever-increasing popularity for their great capability of reducing storage burden as well as quickening inference time. However, there is a severe performance drop compared with {real-valued} networks, due to its intrinsic frequent weight oscillation during training. In this paper, we introduce a Resilient Binary Neural Network (ReBNN) to mitigate the frequent oscillation for better BNNs' training. We identify that the weight oscillation mainly stems from the non-parametric scaling factor. To address this issue, we propose to parameterize the scaling factor and introduce a weighted reconstruction loss to build an adaptive training objective. %To the best of our knowledge, it is the first work to solve BNNs based on a dynamically re-weighted loss function. For the first time, we show that the weight oscillation is controlled by the balanced parameter attached to the reconstruction loss, which provides a theoretical foundation to parameterize it in back propagation. Based on this, we learn our ReBNN by {calculating} the {balanced} parameter {based on} its maximum magnitude, which can effectively mitigate the weight oscillation with a resilient training process. Extensive experiments are conducted upon various network models, such as ResNet and Faster-RCNN for computer vision, as well as BERT for natural language processing. The results demonstrate the overwhelming performance of our ReBNN over prior arts. For example, our ReBNN achieves 66.9\% Top-1 accuracy with ResNet-18 backbone on the ImageNet dataset, surpassing existing state-of-the-arts by a significant margin. Our code is open-sourced at https://github.com/SteveTsui/ReBNN.
翻訳日:2023-02-03 14:38:03 公開日:2023-02-02
# メンタルヘルスオンラインポストのためのカリキュラム誘導抽象要約

Curriculum-guided Abstractive Summarization for Mental Health Online Posts ( http://arxiv.org/abs/2302.00954v1 )

ライセンス: Link先を確認
Sajad Sotudeh, Nazli Goharian, Hanieh Deilamsalehy, Franck Dernoncourt(参考訳) オンラインのメンタルヘルス投稿から短い要約を自動生成することで、カウンセラーの読書時間を節約し、疲労を軽減し、精神状態を改善する手助けを求める人たちにタイムリーな回答を提供することができる。 近年のトランスフォーマーに基づく要約モデルは抽象的な要約に有望なアプローチを示している。 文選択や抽出戦略を超越して、新しい単語生成や文言い換えといったより複雑なタスクに対処する。 しかしながら、これらのモデルには顕著な欠点があり、トレーニング戦略はあまり効率的ではなく、モデルの性能を制限している。 本稿では,学習サンプルを充実させ,効率的な学習手順を実現するためのカリキュラム学習手法を提案する。 我々は、Redditソーシャルメディアのメンタルヘルス関連投稿のデータセットであるMentSumポストの極端な要約データセットに適用する。 現状のモデルと比較して,提案手法はルージュとベルツコアの評価基準において,3.5% (ルージュ-1),10.4% (ルージュ-2),4.7% (ルージュ-L),1.5% (ベルツコア) の相対的改善が得られた。

Automatically generating short summaries from users' online mental health posts could save counselors' reading time and reduce their fatigue so that they can provide timely responses to those seeking help for improving their mental state. Recent Transformers-based summarization models have presented a promising approach to abstractive summarization. They go beyond sentence selection and extractive strategies to deal with more complicated tasks such as novel word generation and sentence paraphrasing. Nonetheless, these models have a prominent shortcoming; their training strategy is not quite efficient, which restricts the model's performance. In this paper, we include a curriculum learning approach to reweigh the training samples, bringing about an efficient learning procedure. We apply our model on extreme summarization dataset of MentSum posts -- a dataset of mental health related posts from Reddit social media. Compared to the state-of-the-art model, our proposed method makes substantial gains in terms of Rouge and Bertscore evaluation metrics, yielding 3.5% (Rouge-1), 10.4% (Rouge-2), and 4.7% (Rouge-L), 1.5% (Bertscore) relative improvements.
翻訳日:2023-02-03 14:37:35 公開日:2023-02-02
# CTスキャンによる非外傷性頭蓋内出血の早期診断のための深層学習ツール

Deep-Learning Tool for Early Identifying Non-Traumatic Intracranial Hemorrhage Etiology based on CT Scan ( http://arxiv.org/abs/2302.00953v1 )

ライセンス: Link先を確認
Meng Zhao, Yifan Hu, Ruixuan Jiang, Yuanli Zhao, Dong Zhang, Yan Zhang, Rong Wang, Yong Cao, Qian Zhang, Yonggang Ma, Jiaxi Li, Shaochen Yu, Wenjie Li, Ran Zhang, Yefeng Zheng, Shuo Wang, Jizong Zhao(参考訳) 背景:非造影CT(NCCT)スキャンに基づく急性非外傷性頭蓋内出血(ICH)の病因を正確に同定し,臨床医が診断において有用であるかどうかを調べる人工知能システムを開発する。 材料と方法: 深層学習モデルは, 2011年1月から2018年4月までに収集した非外傷性ICCを用いた, 1868個のNCCTスキャンを用いて開発された。 2018年4月以降に収集した2つの独立したデータセット(tt200とsd98)でモデルをテストした。 このモデルの診断性能は臨床医のパフォーマンスと比較された。 さらに, 臨床医のパフォーマンスと深層学習システムの強化の有無を比較したシミュレーション実験を行った。 結果: 深部学習システムでは, 動脈瘤に対する0.986 (95% ci 0.967-1.000) , 高血圧性出血に対する0.952 (0.917-0.987) , 動静脈奇形(avm)に対する0.950 (0.860-1.000) , モヤモヤ病(mmd)に対する0.749 (0.586-0.912) , 洞状奇形(cm), 0.837 (0.704-0.969) およびtt200データセットのその他の原因について, 0.839 (0.722-0.959) が得られた。 90%の特異性がみられ,大動脈瘤とavm診断の感度は97.1%,90.9%であった。 モデルはまた、独立したデータセットSD98で印象的な一般化性を示している。 臨床医は, システム拡張による特定の出血エチオロジーの感度, 特異性, 精度を著しく改善した。 結論:提案したディープラーニングアルゴリズムは,NCCTスキャンに基づく出血エチオロジーの早期同定に有効なツールである。 また、トリアージのための臨床医や、さらなる画像検査の選択のための情報も提供できる。

Background: To develop an artificial intelligence system that can accurately identify acute non-traumatic intracranial hemorrhage (ICH) etiology based on non-contrast CT (NCCT) scans and investigate whether clinicians can benefit from it in a diagnostic setting. Materials and Methods: The deep learning model was developed with 1868 eligible NCCT scans with non-traumatic ICH collected between January 2011 and April 2018. We tested the model on two independent datasets (TT200 and SD 98) collected after April 2018. The model's diagnostic performance was compared with clinicians's performance. We further designed a simulated study to compare the clinicians's performance with and without the deep learning system augmentation. Results: The proposed deep learning system achieved area under the receiver operating curve of 0.986 (95% CI 0.967-1.000) on aneurysms, 0.952 (0.917-0.987) on hypertensive hemorrhage, 0.950 (0.860-1.000) on arteriovenous malformation (AVM), 0.749 (0.586-0.912) on Moyamoya disease (MMD), 0.837 (0.704-0.969) on cavernous malformation (CM), and 0.839 (0.722-0.959) on other causes in TT200 dataset. Given a 90% specificity level, the sensitivities of our model were 97.1% and 90.9% for aneurysm and AVM diagnosis, respectively. The model also shows an impressive generalizability in an independent dataset SD98. The clinicians achieve significant improvements in the sensitivity, specificity, and accuracy of diagnoses of certain hemorrhage etiologies with proposed system augmentation. Conclusions: The proposed deep learning algorithms can be an effective tool for early identification of hemorrhage etiologies based on NCCT scans. It may also provide more information for clinicians for triage and further imaging examination selection.
翻訳日:2023-02-03 14:37:14 公開日:2023-02-02
# Constrained Online Two-stage Stochastic Optimization: Adversarial Learningによる新しいアルゴリズム

Constrained Online Two-stage Stochastic Optimization: New Algorithms via Adversarial Learning ( http://arxiv.org/abs/2302.00997v1 )

ライセンス: Link先を確認
Jiashuo Jiang(参考訳) 有限地平線上の長期制約付きオンライン2段階確率最適化をT$周期で検討する。 各期間において、第一段階のアクションをとり、モデルパラメータの実現を観察し、第一段階の決定とモデルパラメータの両方に依存する実行可能セットから第二段階のアクションを取る。 我々は,長期平均2段階決定が集合に属することを保証しながら,累積目標値の最小化を目指す。 本稿では,オンライン二段階問題のオンラインアルゴリズムを逆学習アルゴリズムから導出する一般アルゴリズムフレームワークを提案する。 また、我々のアルゴリズムカムの後悔の限界は、組込み逆学習アルゴリズムの後悔の限界に還元される。 フレームワークに基づいて、さまざまな設定で新しい結果を得る。 各期間のモデルパラメータが同一分布から引き出されるとき、我々は特別な場合における過去の境界を改善する最先端の後悔境界を導出する。 このアルゴリズムはモデルパラメータ実現の逆破壊にも頑健である。 モデルパラメータが未知の非定常分布から引き出され、その分布の事前推定が与えられたとき、我々はこのフレームワークから新たなアルゴリズムを開発し、result $o(w_t+\sqrt{t})$、ここで$w_t$は事前推定の完全な不正確性を測定する。

We consider an online two-stage stochastic optimization with long-term constraints over a finite horizon of $T$ periods. At each period, we take the first-stage action, observe a model parameter realization and then take the second-stage action from a feasible set that depends both on the first-stage decision and the model parameter. We aim to minimize the cumulative objective value while guaranteeing that the long-term average second-stage decision belongs to a set. We propose a general algorithmic framework that derives online algorithms for the online two-stage problem from adversarial learning algorithms. Also, the regret bound of our algorithm cam be reduced to the regret bound of embedded adversarial learning algorithms. Based on our framework, we obtain new results under various settings. When the model parameter at each period is drawn from identical distributions, we derive state-of-art regret bound that improves previous bounds under special cases. Our algorithm is also robust to adversarial corruptions of model parameter realizations. When the model parameters are drawn from unknown non-stationary distributions and we are given prior estimates of the distributions, we develop a new algorithm from our framework with a regret $O(W_T+\sqrt{T})$, where $W_T$ measures the total inaccuracy of the prior estimates.
翻訳日:2023-02-03 14:30:57 公開日:2023-02-02
# オープンソースマルチターゲットドメイン適応

Open-Set Multi-Source Multi-Target Domain Adaptation ( http://arxiv.org/abs/2302.00995v1 )

ライセンス: Link先を確認
Rohit Lal, Arihant Gaur, Aadhithya Iyer, Muhammed Abdullah Shaikh and Ritik Agrawal(参考訳) single-source single-target domain adaptation (1s1t) はラベル付きソースドメインとラベルなしのターゲットドメインの間のギャップを埋めることを目的としている。 1s1tはよく研究されたトピックだが、通常は現実世界にデプロイされない。 マルチソース・ドメイン・アダプションやマルチターゲット・ドメイン・アダプションのような手法は実世界の問題をモデル化するために進化してきたが、まだ一般化していない。 これらの方法のほとんどがソースとターゲットの間の共通のラベルセットを仮定しているという事実は、非常に制限的である。 最近のOpen-Set Domain Adaptation法は、未知のターゲットラベルを扱うが、複数のドメインで一般化できない。 これらの課題を克服するために,まず,オープンセットマルチターゲットドメイン適応(os-nsmt)と呼ばれる新しいジェネリックドメイン適応(da)設定を提案し,nとmをそれぞれソースドメインとターゲットドメインの数とする。 次に、ターゲットの正確なラベルセットを知らずに複数のソースとターゲットドメインから情報をキャプチャできる、グラフ注目ベースのフレームワークdegaaを提案する。 提案手法は複数のソースと複数のターゲットに対して提供されているが,他の様々なDA設定に依存しない場合もある。 DEGAAの堅牢性と汎用性を確認するため,本研究では,十分な実験とアブレーション研究を行った。

Single-Source Single-Target Domain Adaptation (1S1T) aims to bridge the gap between a labelled source domain and an unlabelled target domain. Despite 1S1T being a well-researched topic, they are typically not deployed to the real world. Methods like Multi-Source Domain Adaptation and Multi-Target Domain Adaptation have evolved to model real-world problems but still do not generalise well. The fact that most of these methods assume a common label-set between source and target is very restrictive. Recent Open-Set Domain Adaptation methods handle unknown target labels but fail to generalise in multiple domains. To overcome these difficulties, first, we propose a novel generic domain adaptation (DA) setting named Open-Set Multi-Source Multi-Target Domain Adaptation (OS-nSmT), with n and m being number of source and target domains respectively. Next, we propose a graph attention based framework named DEGAA which can capture information from multiple source and target domains without knowing the exact label-set of the target. We argue that our method, though offered for multiple sources and multiple targets, can also be agnostic to various other DA settings. To check the robustness and versatility of DEGAA, we put forward ample experiments and ablation studies.
翻訳日:2023-02-03 14:30:34 公開日:2023-02-02
# 非ペア化マルチドメイン因果表現学習

Unpaired Multi-Domain Causal Representation Learning ( http://arxiv.org/abs/2302.00993v1 )

ライセンス: Link先を確認
Nils Sturma, Chandler Squires, Mathias Drton, Caroline Uhler(参考訳) 因果表現学習の目標は、因果関係の潜在変数からなるデータの表現を見つけることである。 因果表現を共有する可能性のある複数のドメインからのデータにアクセスするセットアップを検討する。 重要なことは、異なる領域における観測は不対面であると仮定され、すなわち、各領域における限界分布のみを観測するが、それらの共同分布は観測しない。 本稿では,線形配置におけるジョイント分布と共有因果グラフの識別性について十分な条件を与える。 Identifiability は、各領域の辺分布から結合分布と共有因果表現を一意に回収できるかどうかを判断する。 我々は、識別可能性の結果を共有因果グラフを復元する実用的な方法に変換する。 さらに、有限データ設定における共有因果変数の誤検出において、複数の領域が誤りを減じる方法について検討する。

The goal of causal representation learning is to find a representation of data that consists of causally related latent variables. We consider a setup where one has access to data from multiple domains that potentially share a causal representation. Crucially, observations in different domains are assumed to be unpaired, that is, we only observe the marginal distribution in each domain but not their joint distribution. In this paper, we give sufficient conditions for identifiability of the joint distribution and the shared causal graph in a linear setup. Identifiability holds if we can uniquely recover the joint distribution and the shared causal representation from the marginal distributions in each domain. We transform our identifiability results into a practical method to recover the shared latent causal graph. Moreover, we study how multiple domains reduce errors in falsely detecting shared causal variables in the finite data setting.
翻訳日:2023-02-03 14:30:08 公開日:2023-02-02
# CSIの公開:CSIによるWi-Fiセンシング能力と限界の体系的調査

Exposing the CSI: A Systematic Investigation of CSI-based Wi-Fi Sensing Capabilities and Limitations ( http://arxiv.org/abs/2302.00992v1 )

ライセンス: Link先を確認
Marco Cominelli, Francesco Gringoli, Francesco Restuccia(参考訳) wi-fiホットスポットのユビキタスな展開のおかげで、チャネル状態情報(csi)ベースのwi-fiセンシングは、ヘルスケア、セキュリティ、エンタテインメントなど、さまざまな分野のゲームチェンジアプリケーションを解き放つことができる。 しかし、Wi-Fiセンサーに関する10年間の研究にもかかわらず、既存の研究の多くはレガシーのIEEE 802.11nデバイス、特に厳密に制御された環境についてのみ検討している。 さらに悪いことに、160MHzの帯域幅、MIMO(Multiple-input multiple-output)送信、IEEE 802.11ax(Wi-Fi 6)のスペクトル解像度向上など、CSIベースの現代のWi-Fi機能に対する影響についての理解の欠如がある。 この研究は、Wi-Fi 6の機能がセンシング性能に与える影響を明らかにし、将来のWi-Fiセンシング研究のためのベンチマークを作成することを目的としている。 この目的のために,Wi-Fi 6信号を用いて3人,3環境,12活動を含む広範囲なCSIデータ収集キャンペーンを行う。 ビデオ記録によって得られた匿名化された地上の真実は、3つのコレクターから約2時間分のCSIデータを含む80GBのデータセットを伴っている。 私たちはデータセットを利用して、さまざまな環境や個人にまたがる最先端のセンシングフレームワークのパフォーマンスを分析します。 私たちの重要な発見は (i)MIMO伝送と高スペクトル分解能は、センシングアプリケーションにおいてより大きな帯域幅よりも有益かもしれない。 (II)環境に依存しないフレームワークへの道のりはいまだ不確実であるため、Wi-Fiセンシングの研究を標準化する必要性が高まっている。 実験の複製性を容易にし、現在のWi-Fi 6 CSIデータセットの欠如に対処するため、80GBデータセットをコミュニティにリリースします。

Thanks to the ubiquitous deployment of Wi-Fi hotspots, channel state information (CSI)-based Wi-Fi sensing can unleash game-changing applications in many fields, such as healthcare, security, and entertainment. However, despite one decade of active research on Wi-Fi sensing, most existing work only considers legacy IEEE 802.11n devices, often in particular and strictly-controlled environments. Worse yet, there is a fundamental lack of understanding of the impact on CSI-based sensing of modern Wi-Fi features, such as 160-MHz bandwidth, multiple-input multiple-output (MIMO) transmissions, and increased spectral resolution in IEEE 802.11ax (Wi-Fi 6). This work aims to shed light on the impact of Wi-Fi 6 features on the sensing performance and to create a benchmark for future research on Wi-Fi sensing. To this end, we perform an extensive CSI data collection campaign involving 3 individuals, 3 environments, and 12 activities, using Wi-Fi 6 signals. An anonymized ground truth obtained through video recording accompanies our 80-GB dataset, which contains almost two hours of CSI data from three collectors. We leverage our dataset to dissect the performance of a state-of-the-art sensing framework across different environments and individuals. Our key findings suggest that (i) MIMO transmissions and higher spectral resolution might be more beneficial than larger bandwidth for sensing applications; (ii) there is a pressing need to standardize research on Wi-Fi sensing because the path towards a truly environment-independent framework is still uncertain. To ease the experiments' replicability and address the current lack of Wi-Fi 6 CSI datasets, we release our 80-GB dataset to the community.
翻訳日:2023-02-03 14:29:52 公開日:2023-02-02
# プロセス最適化のための物理インフォームドピスワイズ線形ニューラルネットワーク

Physics Informed Piecewise Linear Neural Networks for Process Optimization ( http://arxiv.org/abs/2302.00990v1 )

ライセンス: Link先を確認
Ece S. Koksal and Erdal Aydin(参考訳) 第一原理モデルの構築は通常、実際のプロセスの複雑さのために困難で時間を要する作業である。 一方、データ駆動モデリング、特にニューラルネットワークモデルは、しばしば過剰フィッティングや有用で高品質なデータの欠如といった問題に苦しんでいる。 同時に、トレーニングされた機械学習モデルを直接最適化問題に組み込むことは、物理に変形したトレーニングによって性能が向上するサーロゲート最適化の効果的かつ最先端のアプローチとなった。 本研究は、ニューラルネットワークモデルを埋め込んだ最適化問題に対して、物理知識を組み込んだ線形ニューラルネットワークモデルをアップグレードすることを提案する。 本研究は,広く受け入れられている線形整流線形単位(relu)活性化関数の他に,双曲的接点活性化関数に対する部分的線形近似による領域の拡大も示唆する。 3つのケーススタディ,ブレンディングプロセス,産業蒸留カラム,原油カラムの最適化について検討した。 すべてのケースにおいて、物理インフォームドトレーニングニューラルネットワークに基づく最適結果は、大域的最適性に近い。 最後に、最適化問題に関連するCPU時間は、標準最適化結果よりもはるかに短い。

Constructing first-principles models is usually a challenging and time-consuming task due to the complexity of the real-life processes. On the other hand, data-driven modeling, and in particular neural network models often suffer from issues such as overfitting and lack of useful and highquality data. At the same time, embedding trained machine learning models directly into the optimization problems has become an effective and state-of-the-art approach for surrogate optimization, whose performance can be improved by physics-informed training. In this study, it is proposed to upgrade piece-wise linear neural network models with physics informed knowledge for optimization problems with neural network models embedded. In addition to using widely accepted and naturally piece-wise linear rectified linear unit (ReLU) activation functions, this study also suggests piece-wise linear approximations for the hyperbolic tangent activation function to widen the domain. Optimization of three case studies, a blending process, an industrial distillation column and a crude oil column are investigated. For all cases, physics-informed trained neural network based optimal results are closer to global optimality. Finally, associated CPU times for the optimization problems are much shorter than the standard optimization results.
翻訳日:2023-02-03 14:29:18 公開日:2023-02-02
# 複数視点協調型自己監督学習によるハンズポーズ推定

Hand Pose Estimation via Multiview Collaborative Self-Supervised Learning ( http://arxiv.org/abs/2302.00988v1 )

ライセンス: Link先を確認
Xiaozheng Zheng, Chao Wen, Zhou Xue, Jingyu Wang(参考訳) 3dハンドポーズ推定は近年大きく進歩している。 しかし、この改善は大規模な注釈付きデータセットの出現に大きく依存している。 ラベル・ハングリー制限を緩和するために,多視点協調型自己教師付き学習フレームワークhamucoを提案する。 私たちは2段階の戦略を用いて、ノイズの多いラベルチャレンジとマルチビューの ``groupthink''' 問題に取り組む。 第1段階では、各ビューに対する3dハンドポーズを独立して見積もる。 第2段階では、クロスビュー対応特徴を捉えるためにクロスビューインタラクションネットワークを採用し、ビュー間の協調学習を実現するためにマルチビュー一貫性損失を使用する。 シングルビューとマルチビューのコラボレーションをさらに強化するため、全ビューの結果を融合してシングルビューネットワークを監督する。 まとめると、クロスビューレベルとマルチビューからシングルビューレベルという2つのフォールドで協調学習を導入する。 本手法は多視点自己監督型ポーズ推定における最先端性能を実現することができる。 さらに、アブレーション研究は各成分の有効性を検証する。 複数のデータセットの結果はさらに,ネットワークの一般化能力を示している。

3D hand pose estimation has made significant progress in recent years. However, the improvement is highly dependent on the emergence of large-scale annotated datasets. To alleviate the label-hungry limitation, we propose a multi-view collaborative self-supervised learning framework, HaMuCo, that estimates hand pose only with pseudo labels for training. We use a two-stage strategy to tackle the noisy label challenge and the multi-view ``groupthink'' problem. In the first stage, we estimate the 3D hand poses for each view independently. In the second stage, we employ a cross-view interaction network to capture the cross-view correlated features and use multi-view consistency loss to achieve collaborative learning among views. To further enhance the collaboration between single-view and multi-view, we fuse the results of all views to supervise the single-view network. To summarize, we introduce collaborative learning in two folds, the cross-view level and the multi- to single-view level. Extensive experiments show that our method can achieve state-of-the-art performance on multi-view self-supervised hand pose estimation. Moreover, ablation studies verify the effectiveness of each component. Results on multiple datasets further demonstrate the generalization ability of our network.
翻訳日:2023-02-03 14:28:59 公開日:2023-02-02
# eloss in the way:インテリジェント運転のためのセンシティブな入力品質指標

Eloss in the way: A Sensitive Input Quality Metrics for Intelligent Driving ( http://arxiv.org/abs/2302.00986v1 )

ライセンス: Link先を確認
Haobo Yang, Shiyan Zhang, Zhuoyi Yang, Xinyu Zhang(参考訳) 交通環境の複雑化に伴い、インテリジェントな運転における安全認識の重要性が高まっている。 従来のインテリジェント運転のロバストな知覚法は、異常データを用いたトレーニングモデルに焦点をあて、ディープニューラルネットワークが異常に対処する方法を決定する。 しかし、これらのモデルは、多様で複雑な実環境にスムーズに適応できない。 本稿では,Elossと呼ばれる新しいタイプのメトリクスを提案し,異常検出の側面から知覚モデルを強化するための新しいトレーニング戦略を提案する。 Elossは知覚モデルの情報圧縮層の説明に基づいて設計されている。 具体的には、通信システムの設計から着想を得て、情報圧縮ネットワークの情報伝達プロセスには、情報量が着実に変化し、情報エントロピーが減少し続けるという2つの期待がある。 次に、上記の期待に応じてElossを取得でき、関連するネットワークパラメータの更新を誘導し、モデル性能を維持しながら異常を識別するための感度の高いメトリックを生成する。 実験により,elossは異常データを持つ100以上の係数で標準値から逸脱し,類似するが異なる種類の異常に対して特異な値を生成できることが示され,提案手法の有効性が示された。 私たちのコードは:(紙が受け入れられた後に入手できる)で利用可能です。

With the increasing complexity of the traffic environment, the importance of safety perception in intelligent driving is growing. Conventional methods in the robust perception of intelligent driving focus on training models with anomalous data, letting the deep neural network decide how to tackle anomalies. However, these models cannot adapt smoothly to the diverse and complex real-world environment. This paper proposes a new type of metric known as Eloss and offers a novel training strategy to empower perception models from the aspect of anomaly detection. Eloss is designed based on an explanation of the perception model's information compression layers. Specifically, taking inspiration from the design of a communication system, the information transmission process of an information compression network has two expectations: the amount of information changes steadily, and the information entropy continues to decrease. Then Eloss can be obtained according to the above expectations, guiding the update of related network parameters and producing a sensitive metric to identify anomalies while maintaining the model performance. Our experiments demonstrate that Eloss can deviate from the standard value by a factor over 100 with anomalous data and produce distinctive values for similar but different types of anomalies, showing the effectiveness of the proposed method. Our code is available at: (code available after paper accepted).
翻訳日:2023-02-03 14:28:42 公開日:2023-02-02
# Speed-Oblivious Online Scheduling: Knowing (Precise) Speeds is not necessary

Speed-Oblivious Online Scheduling: Knowing (Precise) Speeds is not Necessary ( http://arxiv.org/abs/2302.00985v1 )

ライセンス: Link先を確認
Alexander Lindermayr, Nicole Megow, Martin Rapp(参考訳) アルゴリズムがジョブ依存の処理速度を正確に把握していないような,非関連(ヘテロゲネス)マシン上でのオンラインスケジューリングについて検討する。 我々は, 透視的および非透視的アルゴリズムに対する強い不可能性を示し, 実用的設定に触発されたモデルで克服する。 (i)速度の予測が与えられると仮定して、競争力のある学習増強アルゴリズムを提供する。 (ii)我々は、未知のジョブ依存の速度に応じて1つのグローバルオーダーのマシンが知られている速度順序付けモデルのための競合アルゴリズムを提供する。 我々は,その理論的保証を強く証明し,代表的ヘテロジニアスマルチコアプロセッサ上での知見を評価する。 これらは、実際のハードウェア上で非合成環境で実行される予測付きアルゴリズムの最初の経験的な結果である。

We consider online scheduling on unrelated (heterogeneous) machines in a speed-oblivious setting, where an algorithm is unaware of the exact job-dependent processing speeds. We show strong impossibility results for clairvoyant and non-clairvoyant algorithms and overcome them in models inspired by practical settings: (i) we provide competitive learning-augmented algorithms, assuming that (possibly erroneous) predictions on the speeds are given, and (ii) we provide competitive algorithms for the speed-ordered model, where a single global order of machines according to their unknown job-dependent speeds is known. We prove strong theoretical guarantees and evaluate our findings on a representative heterogeneous multi-core processor. These seem to be the first empirical results for algorithms with predictions that are performed in a non-synthetic environment on real hardware.
翻訳日:2023-02-03 14:28:22 公開日:2023-02-02
# バナッハ空間における確率的最適輸送による多変量量子タイルの定式化

Stochastic optimal transport in Banach Spaces for regularized estimation of multivariate quantiles ( http://arxiv.org/abs/2302.00982v1 )

ライセンス: Link先を確認
Bernard Bercu, J\'er\'emie Bigot and Gauthier Thurin(参考訳) 絶対連続確率測度$\mu$と$\nu$の間のエントロピー最適輸送(EOT)を解くための新しい確率的アルゴリズムを導入する。 我々の研究は、モンゲ・カントロヴィチ量子の特定の設定によって動機付けられており、この測度$\mu$は単位ハイパーキューブ上の一様分布または球状一様分布である。 ソース測度に関する知識を用いて、フーリエ係数によるカントロビッチ双対ポテンシャルのパラメータ化を提案する。 このようにして、我々の確率的アルゴリズムの各反復は、2つのフーリエ変換に還元され、高速フーリエ変換(FFT)を用いることで、EOTを解くための高速数値法を実装することができる。 我々は、無限次元バナッハ空間でその値を取る確率的アルゴリズムのほぼ確実に収束することを研究する。 次に,数値実験を用いて正規化モンゲ・カントロヴィチ四量体の計算における我々の手法の性能を示す。 特に,多変量体のスムーズな推定におけるエントロピー正則化の可能性について,目標値$\nu$からサンプリングしたデータを用いて検討した。

We introduce a new stochastic algorithm for solving entropic optimal transport (EOT) between two absolutely continuous probability measures $\mu$ and $\nu$. Our work is motivated by the specific setting of Monge-Kantorovich quantiles where the source measure $\mu$ is either the uniform distribution on the unit hypercube or the spherical uniform distribution. Using the knowledge of the source measure, we propose to parametrize a Kantorovich dual potential by its Fourier coefficients. In this way, each iteration of our stochastic algorithm reduces to two Fourier transforms that enables us to make use of the Fast Fourier Transform (FFT) in order to implement a fast numerical method to solve EOT. We study the almost sure convergence of our stochastic algorithm that takes its values in an infinite-dimensional Banach space. Then, using numerical experiments, we illustrate the performances of our approach on the computation of regularized Monge-Kantorovich quantiles. In particular, we investigate the potential benefits of entropic regularization for the smooth estimation of multivariate quantiles using data sampled from the target measure $\nu$.
翻訳日:2023-02-03 14:28:06 公開日:2023-02-02
# 生体ネットワークと分子表現の学習による分子標的相互作用の予測

Predicting Molecule-Target Interaction by Learning Biomedical Network and Molecule Representations ( http://arxiv.org/abs/2302.00981v1 )

ライセンス: Link先を確認
Jinjiang Guo and Jie Li(参考訳) 分子-標的相互作用の研究は、標的同定、経路研究、薬物-薬物相互作用などの観点からの薬物発見において極めて重要である。 既存の手法の多くは、生体ネットワーク情報または分子構造情報を使用して、潜在的な相互作用リンクを予測する。 しかし, 生体医学的ネットワーク情報に基づく手法は, 通常はコールドスタート問題に苦しむが, 構造的手法は構造/相互作用の仮定とデータ品質によって性能が制限されることが多い。 これらの問題に対処するために,生物医学的ネットワークトポロジと分子構造・化学情報の両方を表現として学習し,与えられた分子と標的対の潜在的な相互作用を予測する,擬似シムグラフニューラルネットワーク手法 MTINet+ を提案する。 MTINet+では、バイオメディカルネットワークの既知の相互作用から、与えられた分子の1-ホップ部分グラフと標的ペアを抽出し、一方、分子構造と化学的属性を分子情報として処理する。 mtinet+はこれら2種類の情報を、ペアリンクを予測する埋め込み機能として学習する。 異なる分子標的相互作用タスクの実験では、mtinet+は最先端のベースラインを上回る。 さらに, 設計したネットワークスポーシティ実験において, MTINet+は, 異なる疎いバイオメディカルネットワークに対して強い堅牢性を示す。

The study of molecule-target interaction is quite important for drug discovery in terms of target identification, pathway study, drug-drug interaction, etc. Most existing methodologies utilize either biomedical network information or molecule structural features to predict potential interaction link. However, the biomedical network information based methods usually suffer from cold start problem, while structure based methods often give limited performance due to the structure/interaction assumption and data quality. To address these issues, we propose a pseudo-siamese Graph Neural Network method, namely MTINet+, which learns both biomedical network topological and molecule structural/chemical information as representations to predict potential interaction of given molecule and target pair. In MTINet+, 1-hop subgraphs of given molecule and target pair are extracted from known interaction of biomedical network as topological information, meanwhile the molecule structural and chemical attributes are processed as molecule information. MTINet+ learns these two types of information as embedding features for predicting the pair link. In the experiments of different molecule-target interaction tasks, MTINet+ significantly outperforms over the state-of-the-art baselines. In addition, in our designed network sparsity experiments , MTINet+ shows strong robustness against different sparse biomedical networks.
翻訳日:2023-02-03 14:27:46 公開日:2023-02-02
# ポリプセグメンテーション用FCB-SwinV2トランス

FCB-SwinV2 Transformer for Polyp Segmentation ( http://arxiv.org/abs/2302.01027v1 )

ライセンス: Link先を確認
Kerr Fitzgerald, Bogdan Matuszewski(参考訳) 深層学習モデルを用いた大腸内視鏡ビデオフレーム内のポリプセグメンテーションは、臨床医のワークフローを自動化する可能性がある。 これにより、大腸癌に進展するポリプの早期検出率と特性が向上する可能性がある。 最近の最先端のディープラーニングポリープセグメンテーションモデルは、並列に動作する完全な畳み込みネットワークアーキテクチャとトランスフォーマーネットワークアーキテクチャの出力を組み合わせている。 本稿では,現在最先端のポリプセグメンテーションモデルであるFCBFormerの修正を提案する。 FCBFormer のトランスアーキテクチャは SwinV2 Transformer-UNET に置き換えられ、FCB-SwinV2 Transformer を作成するために完全な畳み込みネットワークアーキテクチャのマイナーな変更が行われた。 kvasir-segおよびcvc-clinicdbを用いてfcb-swinv2変圧器の性能評価を行った。 総合試験も行われている。 fcb-swinv2トランスは、すべてのテストで高いmdiceスコアを一貫して達成できるため、新たな最先端のパフォーマンスを示している。 文献内での大腸内視鏡的セグメンテーションモデルの性能評価に関する問題も再レポートされ議論されている。 CVC-ClinicDBデータセットのパフォーマンスを評価する場合、トレーニング/バリデーション/テストデータパーティション中に、ビデオシーケンスからのデータ漏洩が発生しないことを保証することが望ましい。

Polyp segmentation within colonoscopy video frames using deep learning models has the potential to automate the workflow of clinicians. This could help improve the early detection rate and characterization of polyps which could progress to colorectal cancer. Recent state-of-the-art deep learning polyp segmentation models have combined the outputs of Fully Convolutional Network architectures and Transformer Network architectures which work in parallel. In this paper we propose modifications to the current state-of-the-art polyp segmentation model FCBFormer. The transformer architecture of the FCBFormer is replaced with a SwinV2 Transformer-UNET and minor changes to the Fully Convolutional Network architecture are made to create the FCB-SwinV2 Transformer. The performance of the FCB-SwinV2 Transformer is evaluated on the popular colonoscopy segmentation bench-marking datasets Kvasir-SEG and CVC-ClinicDB. Generalizability tests are also conducted. The FCB-SwinV2 Transformer is able to consistently achieve higher mDice scores across all tests conducted and therefore represents new state-of-the-art performance. Issues found with how colonoscopy segmentation model performance is evaluated within literature are also re-ported and discussed. One of the most important issues identified is that when evaluating performance on the CVC-ClinicDB dataset it would be preferable to ensure no data leakage from video sequences occurs during the training/validation/test data partition.
翻訳日:2023-02-03 14:21:16 公開日:2023-02-02
# アルツハイマー病早期診断のための意味的コヒーレンスマーカー

Semantic Coherence Markers for the Early Diagnosis of the Alzheimer Disease ( http://arxiv.org/abs/2302.01025v1 )

ライセンス: Link先を確認
Davide Colla, Matteo Delsanto, Marco Agosto, Benedetto Vitiello, Daniele Paolo Radicioni(参考訳) 本研究では,言語モデルを用いて言語分析を行い,パープレキシティ指標を用いて精神障害者と健常者の判別を行う。 パープレキシティはもともと、与えられた言語モデルがテキストのシーケンスを予測するのにどの程度適しているか、あるいは単語のシーケンスが特定の言語モデルにどの程度適合するかを評価するための情報理論的な尺度として考え出された。 N-gram から 5-gram まで多種多様な言語モデルと変換器ベースの言語モデル GPT-2 を用いて,公開データを用いた広範囲な実験を行った。 健常者とアルツハイマー病(AD)患者との鑑別にパープレキシティスコアが有用かどうかを検討した。 評価対象をADクラスと対照群の両方から分類し,完全精度とFスコア(精度/特異度とリコール/感度)を得た。 これらの結果から,パープレキシティは精神疾患の早期診断に有効な分析指標となる可能性が示唆された。

In this work we explore how language models can be employed to analyze language and discriminate between mentally impaired and healthy subjects through the perplexity metric. Perplexity was originally conceived as an information-theoretic measure to assess how much a given language model is suited to predict a text sequence or, equivalently, how much a word sequence fits into a specific language model. We carried out an extensive experimentation with the publicly available data, and employed language models as diverse as N-grams, from 2-grams to 5-grams, and GPT-2, a transformer-based language model. We investigated whether perplexity scores may be used to discriminate between the transcripts of healthy subjects and subjects suffering from Alzheimer Disease (AD). Our best performing models achieved full accuracy and F-score (1.00 in both precision/specificity and recall/sensitivity) in categorizing subjects from both the AD class and control subjects. These results suggest that perplexity can be a valuable analytical metrics with potential application to supporting early diagnosis of symptoms of mental disorders.
翻訳日:2023-02-03 14:20:54 公開日:2023-02-02
# 分散ニューラルネットワークにおけるメタ学習:より一般的なaiに向けて

Meta Learning in Decentralized Neural Networks: Towards More General AI ( http://arxiv.org/abs/2302.01020v1 )

ライセンス: Link先を確認
Yuwei Sun(参考訳) メタ学習は通常、他の学習アルゴリズムから学習する学習アルゴリズムを指す。 ニューラルネットワークの予測における不確実性の問題から、世界は部分的に予測可能であり、学習されたニューラルネットワークはその周囲の環境に一般化できないことが分かる。 したがって、予測モデルが同時に複数の予測を表現できるかが問題となる。 我々は、分散ニューラルネットワーク(分散nn)の内容を学ぶための学習の基本的な理解を提供することを目的としており、これは自律型知能マシンを構築する上で最も重要な疑問と前提条件の1つだと信じている。 この目的のために、分散NNにおけるメタラーニングで上記の問題に取り組むためのいくつかの証拠を示す。 特に,このような分散学習システムを構築するための3つのアプローチを提示する。(1)多くのレプリカニューラルネットワークからの学習,(2)異なる機能のためのニューラルネットワークの階層の構築,(3)異なるモダリティ専門家を活用したクロスモーダル表現の学習である。

Meta-learning usually refers to a learning algorithm that learns from other learning algorithms. The problem of uncertainty in the predictions of neural networks shows that the world is only partially predictable and a learned neural network cannot generalize to its ever-changing surrounding environments. Therefore, the question is how a predictive model can represent multiple predictions simultaneously. We aim to provide a fundamental understanding of learning to learn in the contents of Decentralized Neural Networks (Decentralized NNs) and we believe this is one of the most important questions and prerequisites to building an autonomous intelligence machine. To this end, we shall demonstrate several pieces of evidence for tackling the problems above with Meta Learning in Decentralized NNs. In particular, we will present three different approaches to building such a decentralized learning system: (1) learning from many replica neural networks, (2) building the hierarchy of neural networks for different functions, and (3) leveraging different modality experts to learn cross-modal representations.
翻訳日:2023-02-03 14:20:34 公開日:2023-02-02
# 時間グラフのためのグラフニューラルネットワーク:最先端、オープン課題、そして機会

Graph Neural Networks for temporal graphs: State of the art, open challenges, and opportunities ( http://arxiv.org/abs/2302.01018v1 )

ライセンス: Link先を確認
Antonio Longa, Veronica Lachi, Gabriele Santin, Monica Bianchini, Bruno Lepri, Pietro Lio, Franco Scarselli and Andrea Passerini(参考訳) グラフニューラルネットワーク(GNN)は、(静的)グラフ構造化データを学ぶための主要なパラダイムとなっている。 しかし、グラフとノード/エッジ属性は時間とともに変化するため、現実世界のシステムの多くは本質的に動的である。 近年, 時間グラフのためのGNNベースのモデルが, GNNの能力を拡張するための研究分野として注目されている。 本稿では,時間的GNNの現状を概観し,学習環境とタスクの厳密な形式化と,時間的側面の表現・処理方法の観点から既存のアプローチを分類する新たな分類法を提案する。 調査は、研究とアプリケーションの両方の観点から、この分野の最も関連するオープンチャレンジについて議論して締めくくった。

Graph Neural Networks (GNNs) have become the leading paradigm for learning on (static) graph-structured data. However, many real-world systems are dynamic in nature, since the graph and node/edge attributes change over time. In recent years, GNN-based models for temporal graphs have emerged as a promising area of research to extend the capabilities of GNNs. In this work, we provide the first comprehensive overview of the current state-of-the-art of temporal GNN, introducing a rigorous formalization of learning settings and tasks and a novel taxonomy categorizing existing approaches in terms of how the temporal aspect is represented and processed. We conclude the survey with a discussion of the most relevant open challenges for the field, from both research and application perspectives.
翻訳日:2023-02-03 14:20:19 公開日:2023-02-02
# OpenSpike: OpenRAM SNNアクセラレータ

OpenSpike: An OpenRAM SNN Accelerator ( http://arxiv.org/abs/2302.01015v1 )

ライセンス: Link先を確認
Farhad Modaresi, Matthew Guthaus, Jason K. Eshraghian(参考訳) 本稿では,完全にオープンソースなEDAツール,プロセス設計キット(PDK),OpenRAMを用いたメモリマクロを用いたスパイキングニューラルネットワーク(SNN)アクセラレータを提案する。 チップは130nmのSkyWaterプロセスで取り出され、100万以上のシナプス重みを統合し、再プログラム可能なアーキテクチャを提供する。 クロック速度は40MHz、供給は1.8V、制御にはPicoRV32コアを使用し、面積は33.3mm^2である。 加速器のスループットは毎秒48,262画像で、ウォールクロック時間20.72 us、56.8 gops/wである。 スパイクニューロンはヒステリシスを用いて、状態不安定を減少させる適応しきい値(すなわちシュミットトリガー)を提供する。 これにより、最先端のフル精度のSNNと競合する、さまざまなベンチマークで高性能なSNNが実現される。 設計はオープンソースで、オンラインで公開されている。

This paper presents a spiking neural network (SNN) accelerator made using fully open-source EDA tools, process design kit (PDK), and memory macros synthesized using OpenRAM. The chip is taped out in the 130 nm SkyWater process and integrates over 1 million synaptic weights, and offers a reprogrammable architecture. It operates at a clock speed of 40 MHz, a supply of 1.8 V, uses a PicoRV32 core for control, and occupies an area of 33.3 mm^2. The throughput of the accelerator is 48,262 images per second with a wallclock time of 20.72 us, at 56.8 GOPS/W. The spiking neurons use hysteresis to provide an adaptive threshold (i.e., a Schmitt trigger) which can reduce state instability. This results in high performing SNNs across a range of benchmarks that remain competitive with state-of-the-art, full precision SNNs. The design is open sourced and available online: https://github.com/sfmth/OpenSpike
翻訳日:2023-02-03 14:20:04 公開日:2023-02-02
# 食品概念とレシピの事前定義されたドメイン特化埋め込み:不均質なレシピデータセットを事例として

Predefined domain specific embeddings of food concepts and recipes: A case study on heterogeneous recipe datasets ( http://arxiv.org/abs/2302.01005v1 )

ライセンス: Link先を確認
Gordana Ispirova, Tome Eftimov, and Barbara Korou\v{s}i\'c Seljak(参考訳) レシピデータは非常に簡単に手に入るが、食材、食材ごとの栄養価、レシピごとのアレルゲンなど、完全なレシピデータセットを見つけることは極めて困難である。 レシピデータセットは通常、ユーザーがレシピを投稿して公開するソーシャルメディアウェブサイトから収集される。 通常、標準単位と非標準単位の両方を用いて、ほとんどあるいは全く構造を持たない形で書かれる。 6つの異なるレシピデータセットを公開し、異なるフォーマットで収集します。 これらのデータセットをすべて、栄養予測のために機械学習(ML)パイプラインを適用するために必要なフォーマットに組み込むこと [1],[2]は、辞書ベースの名前付きエンティティ認識(NER)、ルールベースのNER、および外部ドメイン固有のリソースを使用した変換を含む。 要素のリストから、すべてのレシピに対して同じ埋め込み空間を使って、ドメイン固有の埋め込みが作成されます。 この正規化プロセスの結果は2つのコーパス、ひとつは予め定義された成分の埋め込み、もう一つは事前に定義されたレシピの埋め込みである。 6つのレシピデータセットすべてで、MLパイプラインが評価される。 このユースケースの結果は、ドメインヒューリスティックでマージされた埋め込みがベースラインよりも良い結果をもたらすことも確認しています。

Although recipe data are very easy to come by nowadays, it is really hard to find a complete recipe dataset - with a list of ingredients, nutrient values per ingredient, and per recipe, allergens, etc. Recipe datasets are usually collected from social media websites where users post and publish recipes. Usually written with little to no structure, using both standardized and non-standardized units of measurement. We collect six different recipe datasets, publicly available, in different formats, and some including data in different languages. Bringing all of these datasets to the needed format for applying a machine learning (ML) pipeline for nutrient prediction [1], [2], includes data normalization using dictionary-based named entity recognition (NER), rule-based NER, as well as conversions using external domain-specific resources. From the list of ingredients, domain-specific embeddings are created using the same embedding space for all recipes - one ingredient dataset is generated. The result from this normalization process is two corpora - one with predefined ingredient embeddings and one with predefined recipe embeddings. On all six recipe datasets, the ML pipeline is evaluated. The results from this use case also confirm that the embeddings merged using the domain heuristic yield better results than the baselines.
翻訳日:2023-02-03 14:19:46 公開日:2023-02-02
# 非対称ノードスケーリングによる過パラメータ浅層ニューラルネットワーク:グローバル収束保証と機能学習

Over-parameterised Shallow Neural Networks with Asymmetrical Node Scaling: Global Convergence Guarantees and Feature Learning ( http://arxiv.org/abs/2302.01002v1 )

ライセンス: Link先を確認
Francois Caron, Fadhel Ayed, Paul Jung, Hoil Lee, Juho Lee, Hongseok Yang(参考訳) 本研究では,各隠れノードの出力を正のパラメータでスケールする勾配流による大規模および浅層ニューラルネットワークの最適化を検討する。 我々は,従来のニューラルタンジェントカーネル(NTK)のパラメータ化と異なり,ノードのスケーリングが識別できない場合に焦点を当てる。 大規模なニューラルネットワークでは、高い確率で勾配流がグローバルな最小限に収束し、NTK体制とは異なり、特徴を学習できることを実証する。 また、合成データと実世界のデータセットに関する実験を行い、理論結果を示し、刈り取りと転送学習の観点でこのようなスケーリングの利点を示す。

We consider the optimisation of large and shallow neural networks via gradient flow, where the output of each hidden node is scaled by some positive parameter. We focus on the case where the node scalings are non-identical, differing from the classical Neural Tangent Kernel (NTK) parameterisation. We prove that, for large neural networks, with high probability, gradient flow converges to a global minimum AND can learn features, unlike in the NTK regime. We also provide experiments on synthetic and real-world datasets illustrating our theoretical results and showing the benefit of such scaling in terms of pruning and transfer learning.
翻訳日:2023-02-03 14:19:24 公開日:2023-02-02
# 複数の準粒子型を持つ閉および開量子多体系の系列展開

Series expansions in closed and open quantum many-body systems with multiple quasiparticle types ( http://arxiv.org/abs/2302.01000v1 )

ライセンス: Link先を確認
L. Lenke, A. Schellenberger, K. P. Schmidt(参考訳) 摂動連続ユニタリ変換(pCUTs)の確立されたアプローチは、1つの準粒子型の数を保存する摂動級数として有効な量子多体ハミルトニアンを構成する。 複素数値エネルギーを持つ複数の準粒子に対して$\mathrm{pcst}^{\texttt{++}}$allowing と呼ばれる類似変換に pCUT 法を拡張する。 これにより、任意の重畳ラダースペクトルに対応する非摂動作用素を持つ閉および開量子多体系への応用分野が拡大される。 この目的のために、シュミーディンホフとuhrig (arxiv:2203.15532) が最近導入したオープン量子システムの準粒子生成器と一般化数え算演算子を組み合わせる。 すると $\mathrm{pcst}^{\texttt{++}}$ はモデル非依存のブロック対角有効ハミルトニアンとリンドブラディアンは、従来の pCUT 法と同様の熱力学極限における連結クラスター展開を可能にする。 代表的閉かつ開かつ非エルミート量子系を議論することで、$\mathrm{pcst}^{\texttt{++}}$法の応用を説明する。

The established approach of perturbative continuous unitary transformations (pCUTs) constructs effective quantum many-body Hamiltonians as perturbative series that conserve the number of one quasiparticle type. We extend the pCUT method to similarity transformations - dubbed $\mathrm{pcst}^{\texttt{++}}$ - allowing for multiple quasiparticle types with complex-valued energies. This enlarges the field of application to closed and open quantum many-body systems with unperturbed operators corresponding to arbitrary superimposed ladder spectra. To this end, a generalized counting operator is combined with the quasiparticle generator for open quantum systems recently introduced by Schmiedinghoff and Uhrig (arXiv:2203.15532). The $\mathrm{pcst}^{\texttt{++}}$ then yields model-independent block-diagonal effective Hamiltonians and Lindbladians allowing a linked-cluster expansion in the thermodynamic limit similar to the conventional pCUT method. We illustrate the application of the $\mathrm{pcst}^{\texttt{++}}$ method by discussing representative closed, open, and non-Hermitian quantum systems.
翻訳日:2023-02-03 14:19:11 公開日:2023-02-02
# 確率的最適化と変分不等式に対する高確率境界:非有界分散の場合

High-Probability Bounds for Stochastic Optimization and Variational Inequalities: the Case of Unbounded Variance ( http://arxiv.org/abs/2302.00999v1 )

ライセンス: Link先を確認
Abdurakhmon Sadiev, Marina Danilova, Eduard Gorbunov, Samuel Horv\'ath, Gauthier Gidel, Pavel Dvurechensky, Alexander Gasnikov, Peter Richt\'arik(参考訳) 近年,確率的最適化手法の高確率収束に対する最適化と機械学習コミュニティの関心が高まっている。 この主な理由の1つは、高確率の複雑性境界が観測値よりも正確で研究の少ないことである。 しかし、SOTA高確率非漸近収束結果は、勾配雑音分散の有界性や目的の勾配自体の有界性といった強い仮定の下で導出される。 本稿では,制約の少ない仮定下で高い確率収束結果を持つアルゴリズムを提案する。 特に、勾配/演算ノイズが、次の設定で$\alpha \in (1,2]$の中央$\alpha$-thのモーメントを有界とする仮定の下で、新しい高確率収束結果を得る。 (i)滑らかな非凸/ポリak-ロヤシーヴィチ/凸/強凸/準強凸最小化問題 (II)リプシッツ / スターコヒールシブ, モノトン / 準強いモノトン変分不等式。 これらの結果は、確率最適化で研究されている標準関数クラスに適合しない問題を解くための考慮された方法の使用を正当化する。

During recent years the interest of optimization and machine learning communities in high-probability convergence of stochastic optimization methods has been growing. One of the main reasons for this is that high-probability complexity bounds are more accurate and less studied than in-expectation ones. However, SOTA high-probability non-asymptotic convergence results are derived under strong assumptions such as the boundedness of the gradient noise variance or of the objective's gradient itself. In this paper, we propose several algorithms with high-probability convergence results under less restrictive assumptions. In particular, we derive new high-probability convergence results under the assumption that the gradient/operator noise has bounded central $\alpha$-th moment for $\alpha \in (1,2]$ in the following setups: (i) smooth non-convex / Polyak-Lojasiewicz / convex / strongly convex / quasi-strongly convex minimization problems, (ii) Lipschitz / star-cocoercive and monotone / quasi-strongly monotone variational inequalities. These results justify the usage of the considered methods for solving problems that do not fit standard functional classes studied in stochastic optimization.
翻訳日:2023-02-03 14:18:55 公開日:2023-02-02
# 非確率触媒による模擬量子アニールの収束条件

Convergence condition of simulated quantum annealing with a non-stoquastic catalyst ( http://arxiv.org/abs/2302.00998v1 )

ライセンス: Link先を確認
Yusuke Kimura and Hidetoshi Nishimori(参考訳) 横磁場と反強磁性相互作用を持つイジングモデルは、正符号と負符号の両方の非零オフ対角要素を持つ計算基底において行列として表現され、従って非stoquasticと見なされる。 したがって,パラメータ値がパラメータ空間全体の部分空間に制限されている場合に,符号問題なく古典的にシミュレートできる可能性がある。 次に、この系の量子アニーリングを長時間の極限で熱平衡に収束させるために漸近的に満たすパラメータの条件を導出する。

The Ising model with a transverse field and an antiferromagnetic transverse interaction is represented as a matrix in the computational basis with non-zero off-diagonal elements with both positive and negative signs and thus may be regarded to be non-stoquastic. We show that the local Boltzmann factors of such a system under an appropriate Suzuki-Trotter representation can be chosen non-negative and thus may potentially be simulated classically without a sign problem if the parameter values are limited to a subspace of the whole parameter space. We then derive conditions for parameters to satisfy asymptotically in order that simulated quantum annealing of this system converges to thermal equilibrium in the long-time limit.
翻訳日:2023-02-03 14:18:38 公開日:2023-02-02
# 不確実性定量化のためのランダム化前ウェーブレットニューラル演算子

Randomized prior wavelet neural operator for uncertainty quantification ( http://arxiv.org/abs/2302.01051v1 )

ライセンス: Link先を確認
Shailesh Garg and Souvik Chakraborty(参考訳) 本稿では,新しいデータ駆動型演算子学習フレームワークである「textit{Randomized Prior Wavelet Neural Operator} (RP-WNO)」を提案する。 提案したRP-WNOは、最近提案されたウェーブレットニューラル演算子の拡張であり、優れた一般化能力を有するが、その予測に関する不確実性を推定できない。 rp-wnoはバニラwnoとは異なり、固有の不確実性量子化モジュールを備えており、科学者やエンジニアにも非常に有用であると考えられている。 RP-WNOは、事前情報を考慮し、ベイジアンよりも大規模で複雑なディープラーニングアーキテクチャの実装が容易なランダム化された事前ネットワークを使用している。 提案したフレームワークをテストするための4つの例が解決され,提案フレームワークの有効性を良好に推し進める結果が得られた。

In this paper, we propose a novel data-driven operator learning framework referred to as the \textit{Randomized Prior Wavelet Neural Operator} (RP-WNO). The proposed RP-WNO is an extension of the recently proposed wavelet neural operator, which boasts excellent generalizing capabilities but cannot estimate the uncertainty associated with its predictions. RP-WNO, unlike the vanilla WNO, comes with inherent uncertainty quantification module and hence, is expected to be extremely useful for scientists and engineers alike. RP-WNO utilizes randomized prior networks, which can account for prior information and is easier to implement for large, complex deep-learning architectures than its Bayesian counterpart. Four examples have been solved to test the proposed framework, and the results produced advocate favorably for the efficacy of the proposed framework.
翻訳日:2023-02-03 14:12:54 公開日:2023-02-02
# 無限量子スピンチェーンの群型と代数

Groupoid and algebra of the infinite quantum spin chain ( http://arxiv.org/abs/2302.01050v1 )

ライセンス: Link先を確認
Florio Maria Ciaglia, Fabio Di Cosmo, Paolo Facchi, Alberto Ibort, Arturo Konderak, Giuseppe Marmo(参考訳) 量子論の特定の特徴がヒルベルト空間上の標準的な図形では説明できないことはよく知られている。 特に、量子場理論、または有限密度の熱力学系を正式にフレーム化しようとすると、これは起こる。 これにより異なる種類の代数を導入せざるを得なくなり、通常、量子力学の標準的なコースで遭遇する代数よりも一般化される。 これらの代数が自然に無限スピン鎖の量子力学のシュヴィンガーの記述に現れることを示す。 特に,最近の研究で開発されたdirac-feynman-schwinger(dfs)状態の機構を用いて,富田竹崎のモジュラー理論に基づく力学を導入する。

It is well known that certain features of a quantum theory cannot be described in the standard picture on a Hilbert space. In particular, this happens when we try to formally frame a quantum field theory, or a thermodynamic system with finite density. This forces us to introduce different types of algebras, more general than the ones we usually encounter in a standard course of quantum mechanics. We show how these algebras naturally arise in the Schwinger description of the quantum mechanics of an infinite spin chain. In particular, we use the machinery of Dirac-Feynman-Schwinger (DFS) states developed in recent works to introduce a dynamics based on the modular theory by Tomita-Takesaki, and consequently we apply this approach to describe the Ising model.
翻訳日:2023-02-03 14:12:40 公開日:2023-02-02
# 画像セグメンテーションのための予測とラベルの不確かさを伴うペーストキュリオクルム蒸留

Paced-Curriculum Distillation with Prediction and Label Uncertainty for Image Segmentation ( http://arxiv.org/abs/2302.01049v1 )

ライセンス: Link先を確認
Mobarakol Islam and Lalithkumar Seenivasan and S. P. Sharan and V. K. Viekash and Bhavesh Gupta and Ben Glocker and Hongliang Ren(参考訳) 目的: カリキュラム学習では, より簡単なサンプルをまず訓練し, 難易度を徐々に高め, 自己ペース学習では, ペアリング関数が学習の進行に適応するための速度を定義する。 どちらの手法もデータサンプルの難易度を評価する能力に大きく依存しているが、最適なスコアリング関数はまだ探索中である。 方法: 蒸留は、教師ネットワークがランダムサンプルのシーケンスを供給して学生ネットワークを誘導する知識伝達アプローチである。 我々は、効率的なカリキュラム戦略で学生ネットワークを導くことは、モデルの一般化と堅牢性を改善することができると論じている。 この目的のために,医療画像セグメンテーションのための自己蒸留における不確実性に基づくペースドカリキュラムを設計する。 予測の不確実性とアノテーション境界の不確かさを融合させ,新しいペースド・キュリオム蒸留法(pcd)を開発した。 教師モデルを用いて,ガウス核を用いた予測不確実性と空間変動ラベル平滑化を行い,アノテーションからセグメンテーション境界不確実性を生成する。 また,画像摂動と汚損の多種多様さと重症度を適用して,本手法のロバスト性についても検討した。 結果: 提案手法は, 乳房超音波画像分割とロボット支援手術シーン分割の2つの医療データセットで検証され, セグメント化とロバスト性の観点から有意に優れた性能を得た。 結論: P-CDはパフォーマンスを改善し、データセットシフトよりも一般化と堅牢性を向上させる。 カリキュラム学習は、ペーシング機能のためにハイパーパラメータの広範なチューニングを必要とするが、パフォーマンス改善のレベルはこの制限を抑える。

Purpose: In curriculum learning, the idea is to train on easier samples first and gradually increase the difficulty, while in self-paced learning, a pacing function defines the speed to adapt the training progress. While both methods heavily rely on the ability to score the difficulty of data samples, an optimal scoring function is still under exploration. Methodology: Distillation is a knowledge transfer approach where a teacher network guides a student network by feeding a sequence of random samples. We argue that guiding student networks with an efficient curriculum strategy can improve model generalization and robustness. For this purpose, we design an uncertainty-based paced curriculum learning in self distillation for medical image segmentation. We fuse the prediction uncertainty and annotation boundary uncertainty to develop a novel paced-curriculum distillation (PCD). We utilize the teacher model to obtain prediction uncertainty and spatially varying label smoothing with Gaussian kernel to generate segmentation boundary uncertainty from the annotation. We also investigate the robustness of our method by applying various types and severity of image perturbation and corruption. Results: The proposed technique is validated on two medical datasets of breast ultrasound image segmentation and robotassisted surgical scene segmentation and achieved significantly better performance in terms of segmentation and robustness. Conclusion: P-CD improves the performance and obtains better generalization and robustness over the dataset shift. While curriculum learning requires extensive tuning of hyper-parameters for pacing function, the level of performance improvement suppresses this limitation.
翻訳日:2023-02-03 14:12:26 公開日:2023-02-02
# プロジェクトベース学習による高等教育におけるmlops教育

Teaching MLOps in Higher Education through Project-Based Learning ( http://arxiv.org/abs/2302.01048v1 )

ライセンス: Link先を確認
Filippo Lanubile, Silverio Mart\'inez-Fern\'andez, Luigi Quaranta(参考訳) プロダクショングレードのML対応コンポーネントの構築とメンテナンスは、研究室におけるMLモデルパフォーマンスの最適化に焦点を当てた、現在の学術教育のアプローチを超えた、複雑な取り組みである。 本稿では,ml対応コンポーネント構築の自動化を目的とした,新たなプラクティスやツールの実証と経験に焦点を当てた,mlops教育のためのプロジェクトベース学習手法を提案する。 本稿では,モデル構築から製品展開まで,エンドツーエンドのMLコンポーネントライフサイクルをカバーする実験室セッションを含む,このアプローチに基づくコースの設計について検討する。 また,本コースの第1版から予備結果について報告する。 本年中、同科の更新版が2つの独立大学に提供され、関連する学習成果を評価し、この特定の科目に対するプロジェクトベース学習の有効性を分析する。

Building and maintaining production-grade ML-enabled components is a complex endeavor that goes beyond the current approach of academic education, focused on the optimization of ML model performance in the lab. In this paper, we present a project-based learning approach to teaching MLOps, focused on the demonstration and experience with emerging practices and tools to automatize the construction of ML-enabled components. We examine the design of a course based on this approach, including laboratory sessions that cover the end-to-end ML component life cycle, from model building to production deployment. Moreover, we report on preliminary results from the first edition of the course. During the present year, an updated version of the same course is being delivered in two independent universities; the related learning outcomes will be evaluated to analyze the effectiveness of project-based learning for this specific subject.
翻訳日:2023-02-03 14:11:57 公開日:2023-02-02
# オンライン連続学習におけるリアルタイム評価 : 新しいパラダイム

Real-Time Evaluation in Online Continual Learning: A New Paradigm ( http://arxiv.org/abs/2302.01047v1 )

ライセンス: Link先を確認
Yasir Ghunaim, Adel Bibi, Kumail Alhamoud, Motasem Alfarra, Hasan Abed Al Kader Hammoud, Ameya Prabhu, Philip H. S. Torr, Bernard Ghanem(参考訳) 現在のCL(Continuous Learning)手法の評価では、トレーニング時間や計算に制約がないと仮定することが多い。 ストリームはモデルが予測のために次のデータを明らかにする前にトレーニングを完了するのを待たない、連続学習の実用的なリアルタイム評価です。 そこで本研究では,現在のCL手法を計算コストに対して評価する。 この新しい評価パラダイムの下では、計算上要求されるclアプローチは、異なる分布を持つストリームでパフォーマンスが悪くなるかもしれないと仮定する。 位置ラベル付き3900万のタイムスタンプ画像を含む大規模データセットであるCLOCについて広範な実験を行った。 本評価では, 現状のCL手法よりも単純なベースラインが優れており, 現実的な設定における既存手法の適用性に疑問を呈する。 さらに,メモリサンプリング戦略や正規化アプローチなど,文献で一般的に使用される様々なclコンポーネントについて検討する。 考慮されたすべてのメソッドが、私たちの単純なベースラインと競合しないことがわかった。 これは、既存のCL文献の大部分は、実用的でない特定の種類のストリームに適合していることを驚くほど示唆している。 我々は,オンライン連続学習手法の開発において,計算コストを考慮するためのパラダイムシフトに向けた第一歩となることを期待する。

Current evaluations of Continual Learning (CL) methods typically assume that there is no constraint on training time and computation. This is an unrealistic assumption for any real-world setting, which motivates us to propose: a practical real-time evaluation of continual learning, in which the stream does not wait for the model to complete training before revealing the next data for predictions. To do this, we evaluate current CL methods with respect to their computational costs. We hypothesize that under this new evaluation paradigm, computationally demanding CL approaches may perform poorly on streams with a varying distribution. We conduct extensive experiments on CLOC, a large-scale dataset containing 39 million time-stamped images with geolocation labels. We show that a simple baseline outperforms state-of-the-art CL methods under this evaluation, questioning the applicability of existing methods in realistic settings. In addition, we explore various CL components commonly used in the literature, including memory sampling strategies and regularization approaches. We find that all considered methods fail to be competitive against our simple baseline. This surprisingly suggests that the majority of existing CL literature is tailored to a specific class of streams that is not practical. We hope that the evaluation we provide will be the first step towards a paradigm shift to consider the computational cost in the development of online continual learning methods.
翻訳日:2023-02-03 14:11:43 公開日:2023-02-02
# 光に強く結合した2重不純物アンダーソン模型における近藤効果と光子トラップ

The Kondo effect and photon trapping in a two-impurity Anderson model ultra-strongly coupled to light ( http://arxiv.org/abs/2302.01044v1 )

ライセンス: Link先を確認
Po-Chen Kuo, Neill Lambert, Mauro Cirio, Yi-Te Huang, Franco Nori, Yueh-Nan Chen(参考訳) 近藤効果は強い相関の量子多体物理学の最も研究された例の1つである。 光と物質の間の超強結合は、最近になって詳細に研究され(そして実験的にアクセス可能になった)、強い相関を持つ物理学の別のタイプである。 本稿では,2つの不純物モデルであるアンダーソンモデルと単一モードキャビティを超強結合した2つの現象を組み合わせたシステムについて検討する。 抽象モデルとして提示されているが、将来のハイブリッドキャビティqedシステムと関係がある。 動きの階層方程式を用いて, 空洞光子と電子状態(不純物)の超強結合は近藤雲の多体相関の破壊による電子近藤共鳴を顕著に抑制することを示した。 我々は,不純物・キャビティサブシステムのエントロピーと相互情報を計算することにより,近藤雲から空洞への相関関係を観測する。 弱い鉛結合限界とゼロバイアスでは、モデルは不純物-キャビティ相互作用における逆回転項から生じる基底状態光子蓄積効果を示す。 興味深いことに、強い鉛結合限界において、この蓄積は、リードへのハイブリダイゼーションを増加させると、新しい遷移経路が開くことで近藤を包含する。 これは仮想状態から実光子を生成するための新しいメカニズムを示唆する。 本研究は,光と物質の超強結合を用いた近藤効果と光子蓄積効果の同時制御への道を開くものである。

The Kondo effect is one of the most studied examples of strongly correlated quantum many-body physics. Another type of strongly correlated physics that has only recently been explored in detail (and become experimentally accessible) is that of ultrastrong coupling between light and matter. Here, we study a system which combines both phenomena, consisting of a two-impurity Anderson model ultra-strongly coupled to a single-mode cavity. While presented as an abstract model, it is relevant for a range of future hybrid cavity-QED systems. Using the hierarchical equations of motion approach we show that the ultrastrong coupling of cavity photons to the electronic states (impurity) noticeably suppresses the electronic Kondo resonance due to the destruction of many-body correlations of the Kondo cloud. We observe this transfer of correlations from the Kondo cloud to the cavity by computing the entropy and mutual information of the impurity-cavity subsystems. In the weak lead-coupling limit and at zero-bias, the model exhibits a ground-state photon accumulation effect originating entirely from counter-rotating terms in the impurity-cavity interaction. Interestingly, in the strong lead-coupling limit, this accumulation is Kondo-enhanced by new transition paths opening when increasing the hybridization to the leads. This suggests a new mechanism for the generation of real photons from virtual states. Our findings pave the way for the simultaneous control of both the Kondo effect and a photon accumulation effect using the ultrastrong coupling of light and matter.
翻訳日:2023-02-03 14:11:25 公開日:2023-02-02
# TAPS Responsibility Matrix: 設計による責任あるデータサイエンスのためのツール

TAPS Responsibility Matrix: A tool for responsible data science by design ( http://arxiv.org/abs/2302.01041v1 )

ライセンス: Link先を確認
Visara Urovi, Remzi Celebi, Chang Sun, Linda Rieswijk, Michael Erard, Arif Yilmaz, Kody Moodley, Parveen Kumar and Michel Dumontier(参考訳) データサイエンスは学際的な研究分野であり、科学者は典型的に異なる分野から来るデータを扱う。 データを使用、分析する際には、これらの分野で設定された標準、手順、規則に従うことに暗黙的に同意する。 しかし、データサイエンティストとデータサイエンスプロジェクトに関わる他のアクターの責任に関するガイダンスは、一般的に欠落している。 文献によると、オープンサイエンス、データ再利用、研究データ管理をサポートする新しいフレームワークやツールが提案されているが、現在、データサイエンスプロジェクトの責任を完全に表現できるフレームワークは存在しない。 本稿では,データサイエンスプロジェクトの社会的,法的,倫理的側面を探求する枠組みとして,透明性,説明責任,プライバシー,社会責任マトリックス(TAPS-RM)について述べる。 TAPS-RMは、主要な成果以上のプロジェクトの全体像をユーザに提供し、アクターの責任を明らかにするツールとして機能する。 taps-rmの開発モデルをオープンデータ(fact、fair、datasheets for datasetsなど)のためによく知られたイニシアティブとマップします。 TAPS-RMはデータサイエンスプロジェクトのレベルで責任を反映するツールであり、設計による責任あるデータサイエンスの推進に使用できると結論付けている。

Data science is an interdisciplinary research area where scientists are typically working with data coming from different fields. When using and analyzing data, the scientists implicitly agree to follow standards, procedures, and rules set in these fields. However, guidance on the responsibilities of the data scientists and the other involved actors in a data science project is typically missing. While literature shows that novel frameworks and tools are being proposed in support of open-science, data reuse, and research data management, there are currently no frameworks that can fully express responsibilities of a data science project. In this paper, we describe the Transparency, Accountability, Privacy, and Societal Responsibility Matrix (TAPS-RM) as framework to explore social, legal, and ethical aspects of data science projects. TAPS-RM acts as a tool to provide users with a holistic view of their project beyond key outcomes and clarifies the responsibilities of actors. We map the developed model of TAPS-RM with well-known initiatives for open data (such as FACT, FAIR and Datasheets for datasets). We conclude that TAPS-RM is a tool to reflect on responsibilities at a data science project level and can be used to advance responsible data science by design.
翻訳日:2023-02-03 14:11:00 公開日:2023-02-02
# メカニカルドライブを用いた4ミラーキャビティオプトメカニクスにおける工学的カオス

Engineering chaos in a four-mirror cavity-optomechanics with mechanical drives ( http://arxiv.org/abs/2302.01040v1 )

ライセンス: Link先を確認
Kashif Ammar Yasir and Gao Xianlong(参考訳) 本研究では,2つの横位置移動端ミラーと外部に相互作用するメカニカルドライブを有する4ミラーオプトメカニカルキャビティにおけるカオスの発生について検討した。 ポンプレーザーにより駆動される強いキャビティモードは、両端ミラー内の機械的振動を放射圧で励起する。 これらの放射圧による機械的効果は、2つの横ミラー間の間接結合につながり、キャビティ内の磁場は2つの機械的な物体の間のバネとして模倣される。 両鏡のPoincar\e面を幅広い初期条件で計算することにより、安定した島々と混在する混在する混在する海と、外部の機械駆動による断面のPoincar\e面の遷移を例示する。 メカニカルドライブによるカオスの発生についてさらに検討するため,当初はポアンカーリーの混合区間に位置する移動端ミラーの時空間応答を測定した。 どちらのミラーも、外部のメカニカルドライブが存在しない場合でも、外部のメカニカルドライブとカオス的な時間的進化をたどる。 カオスの発生を定量的に測定するため,システム内のリアプノフ指数とコルモゴロフ・シナイエントロピーを計算した。 最大のリャプノフ指数と対応するコルモゴロフ-シナイエントロピーは、外部駆動の増加とともに正の値を得るだけでなく、ポアンカーの面から選択された初期条件にも決定的に依存する。 さらに,鏡の振動運動に伴う機械的減衰速度の存在下での鏡のカオスダイナミクスの増大を示す。

We study occurrence of chaos in a four-mirror optomechanical cavity with mechanical drives externally interacting with two transversely located moving-end mirrors of the cavity. The strong cavity mode, driven by the pump laser, excites mechanical oscillations in both moving-end mirrors with its radiation pressure. These radiation-pressure-induced mechanical effects then lead to the indirect coupling between two transverse mirrors, where intra-cavity field mimics as a spring between two mechanical objects. By computing Poincar\'e surface of sections for both mirrors over a wide interval of initial conditions, we illustrate the transition from stable to mixed -- containing stable islands and chaotic seas -- Poincar\'e surface of sections with external mechanical drives. To further explore the occurrence of chaos with mechanical drives, we measure the spatio-temporal responses of moving-end mirrors initially located in mixed Poincar\'e sections. We find that both of the mirrors follow chaotic temporal evolution with external mechanical drives, even in the absence of any one of the mechanical drives. To quantitatively measure the occurrence of chaos, we computed the possible Lyapunov exponents and collective Kolmogorov-Sinai Entropy of the system. We find that the largest Lyapunov exponent, and corresponding Kolmogorov-Sinai Entropy, not only gains positive values with increase in external drives but also crucially depends on the initial conditions chosen from the Poincar\'e surface of sections. Furthermore, we show the enhancement in chaotic dynamics of mirrors in the presence of mechanical damping rates associated with the oscillatory motion of the mirrors.
翻訳日:2023-02-03 14:10:40 公開日:2023-02-02
# 3次元LiDARの効率よい凸ハル型車両電位推定法

An Efficient Convex Hull-Based Vehicle Pose Estimation Method for 3D LiDAR ( http://arxiv.org/abs/2302.01034v1 )

ライセンス: Link先を確認
Ningning Ding(参考訳) 自動車のポーズ推定は自動運転の認識技術において不可欠である。 しかし、LiDAR点雲の密度分布が異なるため、既存のポーズ推定手法を用いて3次元LiDARに基づく正確な方向抽出を実現することは困難である。 本稿では,新しい凸殻型車両ポーズ推定法を提案する。 抽出した3dクラスタを凸殻に縮小し、計算負荷を低減する。 そして、探索に基づくアルゴリズムに対して、最小閉塞面積に基づく新しい基準を開発し、正確なポーズ推定を実現する。 提案アルゴリズムは,工業団地で取得したKITTIデータセットと手動ラベル付きデータセットで検証される。 その結果,提案手法は実時間速度を維持しながら,3つの主流アルゴリズムよりも精度が高いことがわかった。

Vehicle pose estimation is essential in the perception technology of autonomous driving. However, due to the different density distributions of the LiDAR point cloud, it is challenging to achieve accurate direction extraction based on 3D LiDAR by using the existing pose estimation methods. In this paper, we proposed a novel convex hull-based vehicle pose estimation method. The extracted 3D cluster is reduced to the convex hull, reducing the computation burden. Then a novel criterion based on the minimum occlusion area is developed for the search-based algorithm, which can achieve accurate pose estimation. The proposed algorithm is validated on the KITTI dataset and a manually labeled dataset acquired at an industrial park. The results show that our proposed method can achieve better accuracy than the three mainstream algorithms while maintaining real-time speed.
翻訳日:2023-02-03 14:10:10 公開日:2023-02-02
# adamの適応ステップ範囲の抑制と一般化性能の向上について

On Suppressing Range of Adaptive Stepsizes of Adam to Improve Generalisation Performance ( http://arxiv.org/abs/2302.01029v1 )

ライセンス: Link先を確認
Guoqiang Zhang(参考訳) 最近のアダプティブオプティマイザは、適応ステップの分散を本質的に減少させ、運動量でsgdに近づくことにより、adamの一般化性能を向上させる。 上記のモチベーションに従えば、階層的勾配統計を利用してアダムの適応段階化の範囲を抑えることができる。 特に、各イテレーションにおいて、DNNモデルの更新に使用する前に、第2運動量v_tで連続して3つの操作を実行することを提案する:(1)ダウンスケーリング、(2)エプシロン埋め込み、(3)ダウン翻訳。 結果のアルゴリズムはSET-Adamと呼ばれ、SETは3つの操作の簡単な表記である。 v_tの層状サブベクタと対応するオールワンサブベクタとの角度を利用して、v_t上のダウンスケーリング動作を行う。 SET-Adam は NLP の変換器と LSTM のトレーニングにおいて 8 つの適応最適化器より優れており,CIAF10 と CIFAR100 のイメージ分類では VGG と ResNet が,画像生成タスクの WGAN-GP モデルのトレーニングでは 8 つの適応手法の最適性能に適合している。 さらに、SET-AdamはImageNet上でResNet18をトレーニングするためにAdamやAdaBeliefよりも高い検証精度を生成する。

A number of recent adaptive optimizers improve the generalisation performance of Adam by essentially reducing the variance of adaptive stepsizes to get closer to SGD with momentum. Following the above motivation, we suppress the range of the adaptive stepsizes of Adam by exploiting the layerwise gradient statistics. In particular, at each iteration, we propose to perform three consecutive operations on the second momentum v_t before using it to update a DNN model: (1): down-scaling, (2): epsilon-embedding, and (3): down-translating. The resulting algorithm is referred to as SET-Adam, where SET is a brief notation of the three operations. The down-scaling operation on v_t is performed layerwise by making use of the angles between the layerwise subvectors of v_t and the corresponding all-one subvectors. Extensive experimental results show that SET-Adam outperforms eight adaptive optimizers when training transformers and LSTMs for NLP, and VGG and ResNet for image classification over CIAF10 and CIFAR100 while matching the best performance of the eight adaptive methods when training WGAN-GP models for image generation tasks. Furthermore, SET-Adam produces higher validation accuracies than Adam and AdaBelief for training ResNet18 over ImageNet.
翻訳日:2023-02-03 14:09:58 公開日:2023-02-02
# monoflow:微分方程式の観点から見た発散ガンの再考

MonoFlow: Rethinking Divergence GANs via the Perspective of Differential Equations ( http://arxiv.org/abs/2302.01075v1 )

ライセンス: Link先を確認
Mingxuan Yi, Zhanxing Zhu, Song Liu(参考訳) GAN(Generative Adversarial Network)における対人訓練の従来の理解は、判別器が分散を推定するために訓練され、生成器はこの分散を最小化する。 GANの多くの変種がこのパラダイムに従って開発されたという事実にもかかわらず、GANとその実践的アルゴリズムの現在の理論的理解は矛盾している。 本稿では,サンプル空間における粒子の進化を特徴づけるwasserstein勾配流を利用して,ganの理論的洞察とアルゴリズム的インスピレーションを得る。 粒子の進化は単調に増大する対数密度比のマッピングによって再スケールされる。 本手法では, 識別器の訓練によりモノフローのベクトル場を得る手順として, 相手のベクトル場によって定義される粒子流を描画することを学ぶ。 また,変動発散最小化と逆行訓練の基本的な違いを明らかにする。 この解析は,ganの学習にどのような種類のジェネレータ損失関数が寄与するかを明らかにするのに役立ち,モノフローを実現する限り,ganは文献以上の損失設計(例えば,不飽和損失)を持つ可能性があることを示唆する。 本フレームワークの有効性を検証するため, 一貫性のある実証研究を含む。

The conventional understanding of adversarial training in generative adversarial networks (GANs) is that the discriminator is trained to estimate a divergence, and the generator learns to minimize this divergence. We argue that despite the fact that many variants of GANs were developed following this paradigm, the current theoretical understanding of GANs and their practical algorithms are inconsistent. In this paper, we leverage Wasserstein gradient flows which characterize the evolution of particles in the sample space, to gain theoretical insights and algorithmic inspiration of GANs. We introduce a unified generative modeling framework - MonoFlow: the particle evolution is rescaled via a monotonically increasing mapping of the log density ratio. Under our framework, adversarial training can be viewed as a procedure first obtaining MonoFlow's vector field via training the discriminator and the generator learns to draw the particle flow defined by the corresponding vector field. We also reveal the fundamental difference between variational divergence minimization and adversarial training. This analysis helps us to identify what types of generator loss functions can lead to the successful training of GANs and suggest that GANs may have more loss designs beyond the literature (e.g., non-saturated loss), as long as they realize MonoFlow. Consistent empirical studies are included to validate the effectiveness of our framework.
翻訳日:2023-02-03 14:03:37 公開日:2023-02-02
# moir\'e磁性ヘテロ構造における層状2次元skyrmion格子の設計

Designing layered 2D skyrmion lattices in moir\'e magnetic hetero-structures ( http://arxiv.org/abs/2302.01074v1 )

ライセンス: Link先を確認
Bilal Jabakhanji and Doried Ghader(参考訳) skyrmionsは次世代のスピントロニクスとマグノニックデバイスに有望だ。 しかし、磁気膜や多層膜におけるキラル相互作用による安定性と制御核化は依然として困難である。 ここでは,moir\'eによる2次元磁気ヘテロ構造の可能性を明らかにし,これらの課題を克服する。 本稿では,Moir\'e CrBr3/CrI3ヘテロ構造のLandau-Lifshitz-Gilbertシミュレーションを用いて解析を行った。 信頼性シミュレーションの前提条件として、ヘテロ構造における全てのスピン自由度と競合する相互作用を含む理論モデルを開発する。 CrBr3/CrI3二層膜では, より弱い層間交換によりCrBr3層に特異的に出現する無場モイレスカイミオン格子の制御核形成が成功している。 crbr3層とcri3層のツイスト及びプリスチン積層を垂直三層形状に組み合わせることにより、磁気近接効果により設計可能な層状2次元skyrmion格子を実現する。 その結果, 磁気異構造体におけるスピンテクスチャの制御可能な層間加工により, スカイミオン系機能性材料を作製する方法が明らかになった。

Skyrmions are promising for next-generation spintronic and magnonic devices. However, their stability and controlled nucleation through chiral interactions in magnetic films and multilayers remain challenging. Here, we reveal the potential of moir\'e-engineered 2D magnetic heterostructures to overcome these challenges. We illustrate our findings through stochastic Landau-Lifshitz-Gilbert simulations of moir\'e CrBr3/CrI3 heterostructures. As a prerequisite for reliable simulations, we develop theoretical models that involve all spin degrees of freedom and competing interactions in the heterostructures. In CrBr3/CrI3 bilayers, we successfully establish the controlled nucleation of field-free moir\'e skyrmion lattices, emerging specifically in the CrBr3 layer due to its weaker intralayer exchange. By combining twisted and pristine stackings of CrBr3 and CrI3 layers in a vertical trilayer geometry, we achieve designable layered 2D skyrmion lattices via the magnetic proximity effect. Our results uncover a path for fabricating skyrmion-based functional materials through controllable layer-by-layer engineering of spin textures in moir\'e magnetic heterostructures.
翻訳日:2023-02-03 14:03:14 公開日:2023-02-02
# Fed-GLOSS-DP: 最高レベルの差分プライバシーを持つ合成集合を用いたグローバル学習

Fed-GLOSS-DP: Federated, Global Learning using Synthetic Sets with Record Level Differential Privacy ( http://arxiv.org/abs/2302.01068v1 )

ライセンス: Link先を確認
Hui-Po Wang, Dingfan Chen, Raouf Kerkouche, Mario Fritz(参考訳) この研究は、フェデレーションモデルのトレーニングに合成データを使用するプライバシー保護学習の新しいアプローチであるFed-GLOSS-DPを提案する。 提案手法では,サーバがクライアントから受信した合成サンプルに基づいて,地域近郊のグローバル損失景観の近似を復元する。 従来の勾配に基づく線形近似(FedAvgなど)とは対照的に,我々の定式化は,非IIDフェデレーション設定において特に有益な大域的最適化を可能にする。 また、記録レベルのディファレンシャルプライバシを厳格に補完する方法も紹介する。 その結果,新たな定式化によって,収束速度や通信コストの面で大幅な改善がもたらされた。 当社のフェデレーション学習に対する新たなアプローチは,勾配更新ではなく,差動的にプライベートな合成データを送信することによって,プライバシと説明責任の調和への潜在的な道を開くものだ,と論じています。 ソースコードは公開時に公開される。

This work proposes Fed-GLOSS-DP, a novel approach to privacy-preserving learning that uses synthetic data to train federated models. In our approach, the server recovers an approximation of the global loss landscape in a local neighborhood based on synthetic samples received from the clients. In contrast to previous, point-wise, gradient-based, linear approximation (such as FedAvg), our formulation enables a type of global optimization that is particularly beneficial in non-IID federated settings. We also present how it rigorously complements record-level differential privacy. Extensive results show that our novel formulation gives rise to considerable improvements in terms of convergence speed and communication costs. We argue that our new approach to federated learning can provide a potential path toward reconciling privacy and accountability by sending differentially private, synthetic data instead of gradient updates. The source code will be released upon publication.
翻訳日:2023-02-03 14:02:55 公開日:2023-02-02
# 合成一般化の応用に関する調査

A Survey on Compositional Generalization in Applications ( http://arxiv.org/abs/2302.01067v1 )

ライセンス: Link先を確認
Baihan Lin, Djallel Bouneffouf, Irina Rish(参考訳) 構成一般化の分野は現在、古典的な構成一般化問題の上に構築され、様々な実践的応用によって動機付けられた新しい問題設定とアルゴリズムが導入され、AIにおけるルネサンスを経験している。 本稿では,合成一般化の複数の実生活応用における最新の展開を概観する。 具体的には,共通応用の分類法を紹介し,それらの各分野の最先端を要約する。 さらに,現在,重要なトレンドを特定し,この急成長する分野の将来に関する新たな展望を提供する。

The field of compositional generalization is currently experiencing a renaissance in AI, as novel problem settings and algorithms motivated by various practical applications are being introduced, building on top of the classical compositional generalization problem. This article aims to provide a comprehensive review of top recent developments in multiple real-life applications of the compositional generalization. Specifically, we introduce a taxonomy of common applications and summarize the state-of-the-art for each of those domains. Furthermore, we identify important current trends and provide new perspectives pertaining to the future of this burgeoning field.
翻訳日:2023-02-03 14:02:37 公開日:2023-02-02
# 炭化ケイ素の核スピンを用いたスケーラブル量子メモリノード

Scalable quantum memory nodes using nuclear spins in Silicon Carbide ( http://arxiv.org/abs/2302.01065v1 )

ライセンス: Link先を確認
Shravan Kumar Parthasarathy, Birgit Kallinger, Florian Kaiser, Patrick Berwian, Durga B. R. Dasari, Jochen Friedrich, and Roland Nagy(参考訳) 分散量子ネットワークは、高い忠実度で任意の量子情報プロトコルを実行できる量子ノードを必要とする。 これまでの課題は、スケーラブルな量子コンピューティング機能を備えた量子ノードの実現にある。 ここでは, 4H-Silicon Carbide (4H-SiC) の固体スピンを用いることで, 核スピンを用いた高コヒーレント量子ビットレジスタの制御が可能であることを示す。 制御された同位体濃度とコヒーレント制御を用いて、シリコン空孔色中心(V_{Si}^-$-center)と非相互作用核スピンの電子スピンによって形成される中心スピン系の原子論的モデリングを行う。 このことから,4h-sicの$v_{si}^-$-centerに関連する中心電子スピンを用いた相互制御操作と並行して,量子ビットの独立制御を実現するスケーラブルな核スピン($^{13}c$または$^{29}si$)レジスタを実現するための条件を提示する。 さらに、ここで提供されるデコヒーレンスおよび絡み合い解析は、これらのノードの量子体積を評価するのに使うことができる。 分散量子コンピューティングネットワークや量子情報プロトコルにおけるスケーラブルな量子メモリノードの実現に向けた明確な道筋を示す。

A distributed quantum network would require quantum nodes capable of performing arbitrary quantum information protocols with high fidelity. So far the challenge has been in realizing such quantum nodes with features for scalable quantum computing. We show here that using the solid-state spins in 4H-Silicon Carbide (4H-SiC) such a goal could be realized, wherein a controlled generation of highly coherent qubit registers using nuclear spins is possible. Using a controlled isotope concentration and coherent control we perform here atomistic modeling of the central spin system formed by the electron spin of a silicon vacancy color center ($V_{Si}^-$-center) and the non-interacting nuclear spins. From this we lay out conditions for realizing a scalable nuclear-spin ($^{13}C$ or $^{29}Si$) register, wherein independent control of the qubits alongside their mutual controlled operations using the central electron spin associated to the $V_{Si}^-$-center in 4H-SiC are achieved. Further, the decoherence and entanglement analysis provided here could be used to evaluate the quantum volume of these nodes. Our results mark a clear route towards realizing scalable quantum memory nodes for applications in distributed quantum computing networks and further for quantum information protocols.
翻訳日:2023-02-03 14:02:29 公開日:2023-02-02
# パフォーマンス制御と可観測性を強化したMLOps

MLOps with enhanced performance control and observability ( http://arxiv.org/abs/2302.01061v1 )

ライセンス: Link先を確認
Indradumna Banerjee, Dinesh Ghanta, Girish Nautiyal, Pradeep Sanchana, Prateek Katageri, and Atin Modi(参考訳) ここ数年、データの爆発と複雑さの増大により、MLOpsシステムは障害を起こしやすくなり、そのような障害を避けるために、新しいツールをそのようなシステムに組み込む必要がある。 このデモでは、mlopsシステムの可観測性モジュールに重要なツールを導入し、最適なモデル選択のためにデータdrfitやモデルバージョンコントロールといった難しい問題をターゲットにします。 MLOpsパイプラインにこれらの機能を統合することは、初期のMLシステムの障害に対して堅牢なシステムを構築する上で、長い道のりになると思います。

The explosion of data and its ever increasing complexity in the last few years, has made MLOps systems more prone to failure, and new tools need to be embedded in such systems to avoid such failure. In this demo, we will introduce crucial tools in the observability module of a MLOps system that target difficult issues like data drfit and model version control for optimum model selection. We believe integrating these features in our MLOps pipeline would go a long way in building a robust system immune to early stage ML system failures.
翻訳日:2023-02-03 14:02:03 公開日:2023-02-02
# 不確かさ量子化による物理制約運動予測

Physics Constrained Motion Prediction with Uncertainty Quantification ( http://arxiv.org/abs/2302.01060v1 )

ライセンス: Link先を確認
Renukanandan Tumu, Lars Lindemann, Truong Nghiem, Rahul Mangharam(参考訳) 動的エージェントの動作を予測することは、自律システムの安全性を保証する上で重要なタスクである。 特に、動き予測アルゴリズムはダイナミクスの制約に従い、信頼の尺度として予測の不確かさを定量化するべきである。 本稿では, 代用動力学モデルを用いて, 予測軌道が動的に実現可能であることを保証する運動予測のための物理制約付きアプローチを提案する。 動力学的制約を考慮したインテントと軌道予測からなる2段階の統合を提案する。 また,不確実性を定量化し,共形予測を用いて自律運転に適した予測領域を構築した。 物理制約運動予測は、自律的なレーシングデータセットを使用した実験において、ADEが41%、FDEが56%、IoUが19%向上した。

Predicting the motion of dynamic agents is a critical task for guaranteeing the safety of autonomous systems. A particular challenge is that motion prediction algorithms should obey dynamics constraints and quantify prediction uncertainty as a measure of confidence. We present a physics-constrained approach for motion prediction which uses a surrogate dynamical model to ensure that predicted trajectories are dynamically feasible. We propose a two-step integration consisting of intent and trajectory prediction subject to dynamics constraints. We also construct prediction regions that quantify uncertainty and are tailored for autonomous driving by using conformal prediction, a popular statistical tool. Physics Constrained Motion Prediction achieves a 41% better ADE, 56% better FDE, and 19% better IoU over a baseline in experiments using an autonomous racing dataset.
翻訳日:2023-02-03 14:01:54 公開日:2023-02-02
# IKOL:3次元ポーズのための逆運動学最適化層とガウスニュートン微分による形状推定

IKOL: Inverse kinematics optimization layer for 3D human pose and shape estimation via Gauss-Newton differentiation ( http://arxiv.org/abs/2302.01058v1 )

ライセンス: Link先を確認
Juze Zhang, Ye Shi, Ye Shi, Lan Xu, Jingyi Yu, Jingya Wang(参考訳) 本稿では, エンドツーエンドフレームワークにおける最適化手法と回帰手法の両方の長所を生かした3次元人間のポーズと形状推定のための逆キネマティック最適化層(IKOL)を提案する。 IKOLは、画像の3Dキーポイントとボディ形状から相対的なボディ部分回転への暗黙のマッピングを確立する非凸最適化を含む。 3Dキーポイントとボディ形状は入力であり、相対的なボディ部分回転は解である。 しかし、この手順は暗黙的であり、差別化が難しい。 そこで我々は, ikol を識別するための gauss-newton differentiation (gn-diff) 法を考案した。 GN-ディフは非凸目的関数を反復線型化し、閉形式解を持つガウス-ニュートン方向を得る。 次に、エンドツーエンドトレーニングのためのヤコビ行列を生成するために、自動微分手順を直接適用する。 特にgn-diffプロシージャは、時間を要する暗黙的な微分手順に依存しないため、高速に動作する。 ツイストローテーションと形状パラメータはニューラルネットワークから学習され、その結果、IKOLは既存の最適化手法よりも計算オーバーヘッドがはるかに小さい。 さらに、既存の回帰ベースの手法と比較して、IKOLはより正確なメッシュイメージ対応を提供する。 これはキーポイント間の距離を反復的に削減し、またポーズ構造の信頼性を高めるためである。 広範な実験により, 提案手法が, 幅広い3次元ポーズおよび形状推定法において優れていることを実証した。

This paper presents an inverse kinematic optimization layer (IKOL) for 3D human pose and shape estimation that leverages the strength of both optimization- and regression-based methods within an end-to-end framework. IKOL involves a nonconvex optimization that establishes an implicit mapping from an image's 3D keypoints and body shapes to the relative body-part rotations. The 3D keypoints and the body shapes are the inputs and the relative body-part rotations are the solutions. However, this procedure is implicit and hard to make differentiable. So, to overcome this issue, we designed a Gauss-Newton differentiation (GN-Diff) procedure to differentiate IKOL. GN-Diff iteratively linearizes the nonconvex objective function to obtain Gauss-Newton directions with closed form solutions. Then, an automatic differentiation procedure is directly applied to generate a Jacobian matrix for end-to-end training. Notably, the GN-Diff procedure works fast because it does not rely on a time-consuming implicit differentiation procedure. The twist rotation and shape parameters are learned from the neural networks and, as a result, IKOL has a much lower computational overhead than most existing optimization-based methods. Additionally, compared to existing regression-based methods, IKOL provides a more accurate mesh-image correspondence. This is because it iteratively reduces the distance between the keypoints and also enhances the reliability of the pose structures. Extensive experiments demonstrate the superiority of our proposed framework over a wide range of 3D human pose and shape estimation methods.
翻訳日:2023-02-03 14:01:41 公開日:2023-02-02
# 事前訓練された機能を超えて:ノイズ画像モデリングは敵の防御を提供する

Beyond Pretrained Features: Noisy Image Modeling Provides Adversarial Defense ( http://arxiv.org/abs/2302.01056v1 )

ライセンス: Link先を確認
Zunzhi You, Daochang Liu, Chang Xu(参考訳) Masked Image Modeling (MIM) は、自己教師型視覚表現学習において一般的なフレームワークである。 トレーニング済みのファインタニングパラダイムの中で、MIMフレームワークは、エンコーダを使用して微調整を行う際に放棄されるデコーダの助けを借りて、マスク付きイメージパッチを再構築することでエンコーダを訓練する。 クリーンな画像に対する最先端のパフォーマンスにもかかわらず、MIMモデルは敵の攻撃に対して脆弱であり、実際のアプリケーションを制限する。 本稿では,プリテキストタスクとしてデノイジングを使用するmimの変種であるノイズ画像モデリング(nim)が,事前学習された視覚機能だけでなく,下流モデルの効果的な防御機能も提供することを発見した。 さらに,より高精度で精度のよいトレードオフを実現するために,グローバルに設定する代わりに,ランダム分布から再構成困難を制御するハイパーパラメータと,復号化画像を用いたダウンストリームネットワークの微細化を提案する。 実験結果から,事前学習したデノナイジングオートエンコーダは,異なるホワイトボックス,グレーボックス,ブラックボックスアタックに対して,敵画像のトレーニングを行わずに有効であり,微調整モデルのクリーンな精度を損なわないことが示された。 ソースコードとモデルは利用可能になる。

Masked Image Modeling (MIM) has been a prevailing framework for self-supervised visual representation learning. Within the pretraining-finetuning paradigm, the MIM framework trains an encoder by reconstructing masked image patches with the help of a decoder which would be abandoned when the encoder is used for finetuning. Despite its state-of-the-art performance on clean images, MIM models are vulnerable to adversarial attacks, limiting its real-world application, and few studies have focused on this issue. In this paper, we have discovered that noisy image modeling (NIM), a variant of MIM that uses denoising as the pre-text task, provides not only good pretrained visual features, but also effective adversarial defense for downstream models. To achieve a better accuracy-robustness trade-off, we further propose to sample the hyperparameter that controls the reconstruction difficulty from random distributions instead of setting it globally, and fine-tune downstream networks with denoised images. Experimental results demonstrate that our pre-trained denoising autoencoders are effective against different white-box, gray-box, and black-box attacks without being trained with adversarial images, while not harming the clean accuracy of fine-tuned models. Source code and models will be made available.
翻訳日:2023-02-03 14:01:17 公開日:2023-02-02
# モーメント法によるサイト固有の深層学習パス損失モデル

Site-specific Deep Learning Path Loss Models based on the Method of Moments ( http://arxiv.org/abs/2302.01052v1 )

ライセンス: Link先を確認
Conor Brennan and Kevin McGuinness(参考訳) 本稿では, 畳み込みニューラルネットワークに基づく深層学習モデルについて, 農村部におけるem波伝播予測問題に適用する。 ファストファーフィールド近似を用いてモーメント法を用いて解く表面積分方程式の定式化を用いて、ランダムに生成された1次元地形プロファイル上で計算された経路損失を含む合成トレーニングデータを生成する。 これらは2つのネットワークをトレーニングするために使用され、1つはフラクタルプロファイルに基づいており、もう1つはガウス過程を用いて生成されたプロファイルに基づいている。 これらのモデルは、トレーニングデータを作成するのと同じ統計プロセスを用いて生成されたテストプロファイルに適用した場合に優れた一致を示し、実生活問題に適用する場合に非常に優れた精度を示す。

This paper describes deep learning models based on convolutional neural networks applied to the problem of predicting EM wave propagation over rural terrain. A surface integral equation formulation, solved with the method of moments and accelerated using the Fast Far Field approximation, is used to generate synthetic training data which comprises path loss computed over randomly generated 1D terrain profiles. These are used to train two networks, one based on fractal profiles and one based on profiles generated using a Gaussian process. The models show excellent agreement when applied to test profiles generated using the same statistical process used to create the training data and very good accuracy when applied to real life problems.
翻訳日:2023-02-03 14:00:52 公開日:2023-02-02
# lesionaid : 視覚トランスフォーマーに基づく皮膚病変の生成と分類

LesionAid: Vision Transformers-based Skin Lesion Generation and Classification ( http://arxiv.org/abs/2302.01104v1 )

ライセンス: Link先を確認
Ghanta Sai Krishna, Kundrapu Supriya, Mallikharjuna Rao K, Meetiksha Sorgile(参考訳) 皮膚がんはヒトの最も一般的ながんの1つである。 臨床スクリーニングから始まり, 皮膚内視鏡検査, 組織学的評価, 検体採取まで, 主に視覚的に認識される。 深層畳み込みニューラルネットワーク(cnns)は、分類された細粒オブジェクトに対して高度に分離され、潜在的に普遍的なタスクを実行する。 本研究では,ViTとViTGANに基づいて皮膚病変を分類する新しいマルチクラス予測フレームワークを提案する。 ビジョントランスフォーマーに基づくgan(generative adversarial network)は、クラス不均衡に取り組むために利用される。 フレームワークは、ViTGAN、画像処理、説明可能なAIの4つの主要なフェーズで構成されている。 フェーズ1は、データセット内のすべてのクラスのバランスをとるために合成画像を生成することで構成される。 フェーズ2は、異なるデータ拡張技術と形態素演算を適用して、データのサイズを増加させる。 フェーズ3と4では、エッジコンピューティングシステムのためのViTモデルが開発され、パターンを特定し、画像で見えるユーザの皮膚の皮膚病変を分類する。 フェーズ3では、病変をViTで所望のクラスに分類した後、より説明可能な結果(アクティベーションマップなど)につながる説明可能なAI(XAI)を使用し、高い予測精度を確保します。 皮膚疾患のリアルタイム画像は、モバイルアプリケーションのカメラを用いて、医師または患者によって、早期検査を行い、皮膚病変の原因を決定することができる。 フレームワーク全体が既存の皮膚病変検出フレームワークと比較される。

Skin cancer is one of the most prevalent forms of human cancer. It is recognized mainly visually, beginning with clinical screening and continuing with the dermoscopic examination, histological assessment, and specimen collection. Deep convolutional neural networks (CNNs) perform highly segregated and potentially universal tasks against a classified finegrained object. This research proposes a novel multi-class prediction framework that classifies skin lesions based on ViT and ViTGAN. Vision transformers-based GANs (Generative Adversarial Networks) are utilized to tackle the class imbalance. The framework consists of four main phases: ViTGANs, Image processing, and explainable AI. Phase 1 consists of generating synthetic images to balance all the classes in the dataset. Phase 2 consists of applying different data augmentation techniques and morphological operations to increase the size of the data. Phases 3 & 4 involve developing a ViT model for edge computing systems that can identify patterns and categorize skin lesions from the user's skin visible in the image. In phase 3, after classifying the lesions into the desired class with ViT, we will use explainable AI (XAI) that leads to more explainable results (using activation maps, etc.) while ensuring high predictive accuracy. Real-time images of skin diseases can capture by a doctor or a patient using the camera of a mobile application to perform an early examination and determine the cause of the skin lesion. The whole framework is compared with the existing frameworks for skin lesion detection.
翻訳日:2023-02-03 13:54:54 公開日:2023-02-02
# ガウス過程状態を持つ効率的なabイニティオ電子構造の枠組み

A framework for efficient ab initio electronic structure with Gaussian Process States ( http://arxiv.org/abs/2302.01099v1 )

ライセンス: Link先を確認
Yannic Rath and George H. Booth(参考訳) 本稿では、量子多体状態の表現を現代機械学習にインスパイアされた現実的なフェルミオン系の効率的なシミュレーションのための一般的なフレームワークについて述べる。 これらの機械学習にインスパイアされたアンサーゼは、(第1の量子化された)連続体と離散フォック空間の表現の両方において近づきつつあるが、しかしながら、現実的な相互作用に対する後者のアプローチの本質的なスケーリングは、これまでのところ、実用的応用に限られている。 機械学習における系統的改良可能なカーネルモデルにインスパイアされた最近導入されたansatzである「gaussian process state」の適用により、計算フォック空間の表現を定義するための異なる選択について論じる。 本稿では,局所表現が期待値の確率的サンプリングに特に適合することを示すとともに,連続体定式モデルに対するスケーリングの差を克服する経路を示す。 我々は、最大64個の電子を持つ系に対して、三次元水素中のモット転移の単純化されたモデルを含む競争精度を示すことができ、構成サンプルの適度な数であっても、同様のアプローチよりも大幅に改善されていることを示す。

We present a general framework for the efficient simulation of realistic fermionic systems with modern machine learning inspired representations of quantum many-body states, towards a universal tool for ab initio electronic structure. These machine learning inspired ansatzes have recently come to the fore in both a (first quantized) continuum and discrete Fock space representations, where however the inherent scaling of the latter approach for realistic interactions has so far limited practical applications. With application to the 'Gaussian Process State', a recently introduced ansatz inspired by systematically improvable kernel models in machine learning, we discuss different choices to define the representation of the computational Fock space. We show how local representations are particularly suited for stochastic sampling of expectation values, while also indicating a route to overcome the discrepancy in the scaling compared to continuum formulated models. We are able to show competitive accuracy for systems with up to 64 electrons, including a simplified (yet fully ab initio) model of the Mott transition in three-dimensional hydrogen, indicating a significant improvement over similar approaches, even for moderate numbers of configurational samples.
翻訳日:2023-02-03 13:54:30 公開日:2023-02-02
# 行動状態エントロピー正規化報酬最大化のための一般的なマルコフ決定過程形式

A general Markov decision process formalism for action-state entropy-regularized reward maximization ( http://arxiv.org/abs/2302.01098v1 )

ライセンス: Link先を確認
Dmytro Grytskyy, Jorge Ram\'irez-Ruiz, Rub\'en Moreno-Bote(参考訳) 以前の研究では、異なる形態のアクション、状態と状態のエントロピーの規則化、純粋な探索、空間の占有について別々に取り組んだ。 これらの問題は、正規化、一般化、学習のスピードアップ、前例のないレベルで堅牢なソリューションの提供に非常に関係している。 しかし、これらの問題の解は、凸最適化や非凸最適化、制約のない最適化から制約付き最適化まで多岐にわたる。 ここでは、任意の作用と状態エントロピーの混合に対して、制約付き最適化問題を非制約凸に変換する一般双対関数形式を提供する。 純粋な作用エントロピーと純粋な状態エントロピーのケースは、混合物の極限として理解される。

Previous work has separately addressed different forms of action, state and action-state entropy regularization, pure exploration and space occupation. These problems have become extremely relevant for regularization, generalization, speeding up learning and providing robust solutions at unprecedented levels. However, solutions of those problems are hectic, ranging from convex and non-convex optimization, and unconstrained optimization to constrained optimization. Here we provide a general dual function formalism that transforms the constrained optimization problem into an unconstrained convex one for any mixture of action and state entropies. The cases with pure action entropy and pure state entropy are understood as limits of the mixture.
翻訳日:2023-02-03 13:54:07 公開日:2023-02-02
# 根重み付き木オートマトンによるサブツリーカーネル計算のための新しい線形時間アルゴリズム

New Linear-time Algorithm for SubTree Kernel Computation based on Root-Weighted Tree Automata ( http://arxiv.org/abs/2302.01097v1 )

ライセンス: Link先を確認
Ludovic Mignot, Faissal Ouardi and Djelloul Ziadi(参考訳) 木カーネルは、自然言語アプリケーションの自動学習として多くの分野で使われることが提案されている。 本稿では,SubTreeカーネル計算のための重み付き木オートマトンの概念に基づく線形時間アルゴリズムを提案する。 まず、ルート重み付き木オートマタと呼ばれる新しい重み付き木オートマタとその関連形式木シリーズを紹介する。 そして、このクラスから有限木言語に対するコンパクトな計算モデルを表すSubTree Automaticaを定義する。 これにより、重み付き木オートマトン交叉に基づいてSubTreeカーネルを演算するための理論的に保証された線形時間アルゴリズムを設計できる。 提案アルゴリズムの背後にある重要なアイデアは、重み付き木オートマトンアプローチで許容される状態同値クラス計算によって前回のアプローチで使われたdag削減とノードソートステップを置き換えることである。 私たちのアプローチには3つの大きなメリットがあります – アウトプットに敏感で、ツリータイプ(順序付きツリー対非順序付きツリー)から自由で、インクリメンタルなツリーカーネルベースの学習方法にも適しています。 最後に,深層アルゴリズム解析に適応した多種多様な合成木言語データセットについて,様々な比較実験を行った。 その結果,提案アルゴリズムは最先端手法よりも優れていた。

Tree kernels have been proposed to be used in many areas as the automatic learning of natural language applications. In this paper, we propose a new linear time algorithm based on the concept of weighted tree automata for SubTree kernel computation. First, we introduce a new class of weighted tree automata, called Root-Weighted Tree Automata, and their associated formal tree series. Then we define, from this class, the SubTree automata that represent compact computational models for finite tree languages. This allows us to design a theoretically guaranteed linear-time algorithm for computing the SubTree Kernel based on weighted tree automata intersection. The key idea behind the proposed algorithm is to replace DAG reduction and nodes sorting steps used in previous approaches by states equivalence classes computation allowed in the weighted tree automata approach. Our approach has three major advantages: it is output-sensitive, it is free sensitive from the tree types (ordered trees versus unordered trees), and it is well adapted to any incremental tree kernel based learning methods. Finally, we conduct a variety of comparative experiments on a wide range of synthetic tree languages datasets adapted for a deep algorithm analysis. The obtained results show that the proposed algorithm outperforms state-of-the-art methods.
翻訳日:2023-02-03 13:53:54 公開日:2023-02-02
# NFRsTDO v1.2の用語, 性質, 関係性 -- 最上位の非Functional Requirements Ontology

NFRsTDO v1.2's Terms, Properties, and Relationships -- A Top-Domain Non-Functional Requirements Ontology ( http://arxiv.org/abs/2302.01096v1 )

ライセンス: Link先を確認
Luis Olsina, Mar\'ia Fernanda Papa, Pablo Becker(参考訳) このプレプリントは、NFRsTDO(Non-Functional Requirements Top-Domain Ontology)の用語、性質、関係を規定し定義する。 NFRsTDO v1.2は、UMLの概念化を図1に示すもので、前バージョンであるNFRsTDO v1.1をわずかに更新したものである。 nfrstdoは、質(非機能)要求と品質/コストビューを主に対象とするオントロジーであり、fcd-ontoarch (foundational, core, domain, and instance ontological architecture for sciences)と呼ばれる多層オントロジーアーキテクチャの文脈において、トップドメインレベルに位置する。 図2は、基本、コア、トップドメイン、ロードメイン、インスタンスを含む5つの層を示しています。 各レベルには、存在論的要素または言い換えれば、オントロジーが集まっている。 同じレベルのオントロジーは、基礎レベルではThingFO(Thing Foundational Ontology)のみが見つかることを除いて、相互に関連付けられる。 さらに、より低いレベルのオントロジの用語と関係は、上位レベルのオントロジの用語と関係によって意味的に富むことができる。 NFRsTDO の用語と関係は主に ThingFO や situationCO (Situation Core Ontology)、Process Core Ontology (Process Core Ontology)、FRsTDO (Functional Requirements Top-Domain Ontology) から拡張・再利用されている。 ステレオタイプはNFRsTDO項の強化に使用されるメカニズムである。 以前のバージョン(NFRsTDO v1.1)から現在のバージョン(v1.2)への更新のアノテーションは、Appendix Aで見ることができる。

This preprint specifies and defines all the Terms, Properties, and Relationships of NFRsTDO (Non-Functional Requirements Top-Domain Ontology). NFRsTDO v1.2, whose UML conceptualization is shown in Figure 1 is a slightly updated version of its predecessor, namely NFRsTDO v1.1. NFRsTDO is an ontology mainly devoted to quality (non-functional) requirements and quality/cost views, which is placed at the top-domain level in the context of a multilayer ontological architecture called FCD-OntoArch (Foundational, Core, Domain, and instance Ontological Architecture for sciences). Figure 2 depicts its five tiers, which entail Foundational, Core, Top-Domain, Low-Domain, and Instance. Each level is populated with ontological components or, in other words, ontologies. Ontologies at the same level can be related to each other, except at the foundational level, where only ThingFO (Thing Foundational Ontology) is found. In addition, ontologies' terms and relationships at lower levels can be semantically enriched by ontologies' terms and relationships from the higher levels. NFRsTDO's terms and relationships are mainly extended/reused from ThingFO, SituationCO (Situation Core Ontology), ProcessCO (Process Core Ontology), and FRsTDO (Functional Requirements Top-Domain Ontology). Stereotypes are the used mechanism for enriching NFRsTDO terms. Note that annotations of updates from the previous version (NFRsTDO v1.1) to the current one (v1.2) can be found in Appendix A.
翻訳日:2023-02-03 13:53:34 公開日:2023-02-02
# 信頼度と分散性: 教師なし精度推定のための予測行列の特徴付け

Confidence and Dispersity Speak: Characterising Prediction Matrix for Unsupervised Accuracy Estimation ( http://arxiv.org/abs/2302.01094v1 )

ライセンス: Link先を確認
Weijian Deng, Yumin Suh, Stephen Gould, Liang Zheng(参考訳) 本研究の目的は,ラベルを使わずに,分散シフト下でのモデルの性能を評価することである。 最近の手法では予測の信頼性が研究されているが、この研究は予測の分散性が有益であると報告している。 分散性は、全体的な予測がすべてのカテゴリにどのように分散しているかを示す。 私たちの重要な洞察は、優れたモデルが高い信頼性と高い分散性で予測するべきだということです。 すなわち、より正確な見積もりを行うために両方の特性を考慮する必要がある。 この目的のために、両方の特性を特徴づけるのに有効であることが示されている核規範を用いる。 大規模な実験は、様々なモデル(ViTやConvNeXtなど)、異なるデータセット(ImageNetやCUB-200など)、様々な種類の分散シフト(スタイルシフトや再生シフトなど)に対する核規範の有効性を検証する。 核ノルムは, 従来の手法よりも精度が高く, 頑健であることを示す。 さらに,分散性と信頼性を特徴付ける他の測定(相互情報最大化など)の可能性を検証する。 最後に、核規範の限界を調査し、重度クラス不均衡下で改良された変種を調べ、潜在的な方向性について議論する。

This work aims to assess how well a model performs under distribution shifts without using labels. While recent methods study prediction confidence, this work reports prediction dispersity is another informative cue. Confidence reflects whether the individual prediction is certain; dispersity indicates how the overall predictions are distributed across all categories. Our key insight is that a well-performing model should give predictions with high confidence and high dispersity. That is, we need to consider both properties so as to make more accurate estimates. To this end, we use the nuclear norm that has been shown to be effective in characterizing both properties. Extensive experiments validate the effectiveness of nuclear norm for various models (e.g., ViT and ConvNeXt), different datasets (e.g., ImageNet and CUB-200), and diverse types of distribution shifts (e.g., style shift and reproduction shift). We show that the nuclear norm is more accurate and robust in accuracy estimation than existing methods. Furthermore, we validate the feasibility of other measurements (e.g., mutual information maximization) for characterizing dispersity and confidence. Lastly, we investigate the limitation of the nuclear norm, study its improved variant under severe class imbalance, and discuss potential directions.
翻訳日:2023-02-03 13:53:01 公開日:2023-02-02
# ab initio深層学習屈折光学のためのカリキュラム学習

Curriculum Learning for ab initio Deep Learned Refractive Optics ( http://arxiv.org/abs/2302.01089v1 )

ライセンス: Link先を確認
Xinge Yang, Qiang Fu, Wolfgang Heidrich(参考訳) 近年、ディープレンズの最適化は計算イメージングシステムの設計の新たなパラダイムとして登場したが、単一のDOEまたはメタレンからなる単純な光学系、あるいは優れた初期設計から複合レンズを微調整することに限定されている。 本稿では,カリキュラム学習に基づく深部レンズ設計手法を提案する。これは,複合レンズの光学設計をランダムな初期化面から学習することができるため,優れた初期設計の必要性を克服することができる。 提案手法は,携帯電話型形状因子,非球面,短焦点長などを用いたフィールド深度カメラの完全自動設計で実証する。

Deep lens optimization has recently emerged as a new paradigm for designing computational imaging systems, however it has been limited to either simple optical systems consisting of a single DOE or metalens, or the fine-tuning of compound lenses from good initial designs. Here we present a deep lens design method based on curriculum learning, which is able to learn optical designs of compound lenses ab initio from randomly initialized surfaces, therefore overcoming the need for a good initial design. We demonstrate this approach with the fully-automatic design of an extended depth-of-field computational camera in a cellphone-style form factor, highly aspherical surfaces, and a short back focal length.
翻訳日:2023-02-03 13:52:40 公開日:2023-02-02
# リッジレス線形回帰のスケッチ:ダウンサンプリングの役割

Sketched Ridgeless Linear Regression: The Role of Downsampling ( http://arxiv.org/abs/2302.01088v1 )

ライセンス: Link先を確認
Xin Chen, Yicheng Zeng, Siyue Yang, Qiang Sun(参考訳) オーバーパラメトリゼーションは、しばしば一般化性能を改善するのに役立つ。 本稿では, オーバーパラメトリゼーションの双対的視点から, ダウンサンプリングが一般化の助けとなることを示唆する。 この双対的視点に動機づけられ、比例法において、スケッチされたリッジレス最小二乗推定子の2つの予測リスクを特徴付ける: $m\asymp n \asymp p$; ここで、$m$はスケッチサイズ、$n$はサンプルサイズ、$p$は特徴次元である。 その結果,ダウンサンプリングの統計的役割が明らかになった。 特に、ダウンサンプリングは、必ずしも一般化のパフォーマンスを損なうわけではない。 提案手法では,推定リスクを最小化する最適なスケッチサイズを特定し,最適なスケッチ推定器のリスク曲線が安定しており,全サンプル推定器のピークを除去できることを示す。 次に,最適なスケッチサイズを実証的に同定する手法を提案する。 最後に、結果は中央極限定理と不定形モデルをカバーするように拡張する。 数値的研究は我々の理論を強く支持している。

Overparametrization often helps improve the generalization performance. This paper proposes a dual view of overparametrization suggesting that downsampling may also help generalize. Motivated by this dual view, we characterize two out-of-sample prediction risks of the sketched ridgeless least square estimator in the proportional regime $m\asymp n \asymp p$, where $m$ is the sketching size, $n$ the sample size, and $p$ the feature dimensionality. Our results reveal the statistical role of downsampling. Specifically, downsampling does not always hurt the generalization performance, and may actually help improve it in some cases. We identify the optimal sketching sizes that minimize the out-of-sample prediction risks, and find that the optimally sketched estimator has stabler risk curves that eliminates the peaks of those for the full-sample estimator. We then propose a practical procedure to empirically identify the optimal sketching size. Finally, we extend our results to cover central limit theorems and misspecified models. Numerical studies strongly support our theory.
翻訳日:2023-02-03 13:52:28 公開日:2023-02-02
# フェアネスアセスメントの不確かさ:変動にもかかわらず安定したコンクルージョンを維持する

Uncertainty in Fairness Assessment: Maintaining Stable Conclusions Despite Fluctuations ( http://arxiv.org/abs/2302.01079v1 )

ライセンス: Link先を確認
Ainhize Barrainkua, Paula Gordaliza, Jose A. Lozano, Novi Quadrianto(参考訳) 最近のいくつかの研究は、教師付き設定における分類アルゴリズムのパフォーマンスと公平性指標を評価する際にベイズフレームワークの使用を奨励している。 本研究では,任意の基準の組み合わせの後方分布を一般化する不確実性物質(UM)フレームワークを提案し,バイアスを考慮した環境下での安定な性能評価を実現する。ベイズ法により更新された多項分布を用いて,各階層群の混乱行列をモデル化することを提案する。 UMをK-foldクロスバリデーション法で適用できるように拡張する。 実験は、情報性と安定性に関する古典的な評価フレームワークに対するumの利点を強調している。

Several recent works encourage the use of a Bayesian framework when assessing performance and fairness metrics of a classification algorithm in a supervised setting. We propose the Uncertainty Matters (UM) framework that generalizes a Beta-Binomial approach to derive the posterior distribution of any criteria combination, allowing stable performance assessment in a bias-aware setting.We suggest modeling the confusion matrix of each demographic group using a Multinomial distribution updated through a Bayesian procedure. We extend UM to be applicable under the popular K-fold cross-validation procedure. Experiments highlight the benefits of UM over classical evaluation frameworks regarding informativeness and stability.
翻訳日:2023-02-03 13:52:10 公開日:2023-02-02
# UW-CVGAN:カプセルベクトル量子化による水中画像強調

UW-CVGAN: UnderWater Image Enhancement with Capsules Vectors Quantization ( http://arxiv.org/abs/2302.01144v1 )

ライセンス: Link先を確認
Rita Pucci, Christian Micheloni, Niki Martinel(参考訳) 水中画像の劣化は、波長依存性の光減衰、散乱、そしてそれらが捕獲される水の種類の違いによるものである。 ディープニューラルネットワークはこの分野で一歩を踏み出し、水中画像の強化を達成できる自律型モデルを提供する。 本稿では,VQGANの離散的特徴量化パラダイムに基づく水中カプセルベクトルGAN UWCVGANを提案する。 提案したUWCVGANは、画像を潜在表現に圧縮する符号化ネットワークとデコードネットワークを組み合わせることで、唯一の潜在表現から画像の拡張を再構築することができる。 VQGANとは対照的に、UWCVGANはカプセル層のクラスタ化能力を利用して特徴量化を実現し、モデルを完全に訓練可能で管理しやすくする。 モデルでは、高品質で詳細な水中画像を得る。 さらに、トレーニングされたエンコーダはデコーダとは独立しており、イメージに必要なメモリスペースを3ドル以上削減する圧縮アルゴリズムとしてコレクタに埋め込まれる可能性がある。 ベンチマークデータセットの量的・質的分析によって検証され,その技術と比較した測定結果を示す。

The degradation in the underwater images is due to wavelength-dependent light attenuation, scattering, and to the diversity of the water types in which they are captured. Deep neural networks take a step in this field, providing autonomous models able to achieve the enhancement of underwater images. We introduce Underwater Capsules Vectors GAN UWCVGAN based on the discrete features quantization paradigm from VQGAN for this task. The proposed UWCVGAN combines an encoding network, which compresses the image into its latent representation, with a decoding network, able to reconstruct the enhancement of the image from the only latent representation. In contrast with VQGAN, UWCVGAN achieves feature quantization by exploiting the clusterization ability of capsule layer, making the model completely trainable and easier to manage. The model obtains enhanced underwater images with high quality and fine details. Moreover, the trained encoder is independent of the decoder giving the possibility to be embedded onto the collector as compressing algorithm to reduce the memory space required for the images, of factor $3\times$. \myUWCVGAN{ }is validated with quantitative and qualitative analysis on benchmark datasets, and we present metrics results compared with the state of the art.
翻訳日:2023-02-03 13:45:56 公開日:2023-02-02
# SceneScape: テキスト駆動の一貫性のあるシーン生成

SceneScape: Text-Driven Consistent Scene Generation ( http://arxiv.org/abs/2302.01133v1 )

ライセンス: Link先を確認
Rafail Fridman, Amit Abecasis, Yoni Kasten, Tali Dekel(参考訳) シーンとカメラのポーズを記述した入力テキストのみから任意のシーンの長い動画を合成する,テキスト駆動の永久ビュー生成手法を提案する。 本稿では,事前学習されたテキストから画像への生成能力と,事前学習された単眼深度予測モデルによって学習された幾何学的事前性を組み合わせたオンライン手法を提案する。 3次元の一貫性を実現するため、例えば、幾何学的に表現可能なシーンを表現したビデオを生成するために、オンラインテストタイムトレーニングを展開して、現在のフレームの予測された深度マップを合成シーンと幾何学的に整合させるように促し、深度マップを使用して、世代を通じて更新され、レンダリングに使用されるシーンの統一メッシュ表現を構築する。 限られた領域(例:風景)のみに適用できる以前の作品とは対照的に、我々の枠組みは宇宙船、洞窟、氷の城などの様々なシーンを生み出している。 プロジェクトページ: https://scenescape.github.io/

We propose a method for text-driven perpetual view generation -- synthesizing long videos of arbitrary scenes solely from an input text describing the scene and camera poses. We introduce a novel framework that generates such videos in an online fashion by combining the generative power of a pre-trained text-to-image model with the geometric priors learned by a pre-trained monocular depth prediction model. To achieve 3D consistency, i.e., generating videos that depict geometrically-plausible scenes, we deploy an online test-time training to encourage the predicted depth map of the current frame to be geometrically consistent with the synthesized scene; the depth maps are used to construct a unified mesh representation of the scene, which is updated throughout the generation and is used for rendering. In contrast to previous works, which are applicable only for limited domains (e.g., landscapes), our framework generates diverse scenes, such as walkthroughs in spaceships, caves, or ice castles. Project page: https://scenescape.github.io/
翻訳日:2023-02-03 13:45:31 公開日:2023-02-02
# 接続認識モチーフマイニングによるde novo分子生成

De Novo Molecular Generation via Connection-aware Motif Mining ( http://arxiv.org/abs/2302.01129v1 )

ライセンス: Link先を確認
Zijie Geng, Shufang Xie, Yingce Xia, Lijun Wu, Tao Qin, Jie Wang, Yongdong Zhang, Feng Wu and Tie-Yan Liu(参考訳) de novo分子生成は、科学の発見に欠かせない課題である。 近年、フラグメントベースの深層生成モデルは、既存の分子断片に基づく新規分子の生成の柔軟性から、多くの研究の注目を集めている。 しかしながら、頻繁な断片の集まりであるモチーフ語彙は、通常ヒューリスティックな規則に基づいて構築され、大量の分子から共通部分構造を捉えるのが困難である。 本研究では,マイニングされた結合認識モチーフに基づいて分子を生成する新しい方法であるMiCaMを提案する。 具体的には、データ駆動アルゴリズムを利用して、分子ライブラリからのモチーフを自動的に発見する。 得られたモチーフ語彙は、分子モチーフ(頻繁な断片)だけでなく、それらの接続情報からなり、モチーフが相互にどのように接続されているかを示す。 マイニングされた接続アウェアモチーフに基づいて、micamは接続アウェアジェネレータを構築し、同時にモチーフをピックアップし、接続方法を決定する。 本手法は, 分散学習ベンチマーク(例えば, 与えられたトレーニングセットの分布に類似する新規分子の生成)と目標指向ベンチマーク(すなわち, 目標特性を持つ分子の生成)で検証し, 以前のフラグメントベースベースラインよりも大幅に改善した。 さらに,本手法は,タスクごとにドメイン固有のモチーフを効果的にマイニングできることを示す。

De novo molecular generation is an essential task for science discovery. Recently, fragment-based deep generative models have attracted much research attention due to their flexibility in generating novel molecules based on existing molecule fragments. However, the motif vocabulary, i.e., the collection of frequent fragments, is usually built upon heuristic rules, which brings difficulties to capturing common substructures from large amounts of molecules. In this work, we propose a new method, MiCaM, to generate molecules based on mined connection-aware motifs. Specifically, it leverages a data-driven algorithm to automatically discover motifs from a molecule library by iteratively merging subgraphs based on their frequency. The obtained motif vocabulary consists of not only molecular motifs (i.e., the frequent fragments), but also their connection information, indicating how the motifs are connected with each other. Based on the mined connection-aware motifs, MiCaM builds a connection-aware generator, which simultaneously picks up motifs and determines how they are connected. We test our method on distribution-learning benchmarks (i.e., generating novel molecules to resemble the distribution of a given training set) and goal-directed benchmarks (i.e., generating molecules with target properties), and achieve significant improvements over previous fragment-based baselines. Furthermore, we demonstrate that our method can effectively mine domain-specific motifs for different tasks.
翻訳日:2023-02-03 13:45:13 公開日:2023-02-02
# mnemosyne:トランスフォーマーによるトランスフォーマーのトレーニングを学ぶ

Mnemosyne: Learning to Train Transformers with Transformers ( http://arxiv.org/abs/2302.01128v1 )

ライセンス: Link先を確認
Deepali Jain, Krzysztof Marcin Choromanski, Sumeet Singh, Vikas Sindhwani, Tingnan Zhang, Jie Tan, Avinava Dubey(参考訳) 複雑な機械学習(ML)アーキテクチャのトレーニングには、適切なオプティマイザを選択し、ハイパーパラメータをチューニングする計算と時間を要する。 データからオプティマイザを学習する新たなパラダイムが,手作業で設計したMLオプティマイザの代替として登場した。 暗黙の低ランクアテンション変換器であるPerformerを利用するMnemosyneオプティマイザを提案する。 タスク固有のオプティマイザチューニングなしで、他のトランスフォーマーを含むニューラルネットワークアーキテクチャ全体をトレーニングすることを学ぶことができる。 mnemosyneをお見せします (a)一般的なLSTMオプティマイザよりも優れた一般化を行う。 (b)特に標準mlpでメタトレーニングしながら視覚トランスフォーマー(vits)をうまく訓練することができる。 (c)ロボットアプリケーションにおけるより高速な収束のために最適化器を初期化することができる。 これらの結果は,通常のトランスフォーマートレーニングの課題に対処可能な基礎最適化モデルを構築する上で,トランスフォーマーを使用する可能性を開くものだと考えている。 我々は、Mnemosyneが使用するコンパクトな連想記憶の広範な理論的解析でその結果を補完する。

Training complex machine learning (ML) architectures requires a compute and time consuming process of selecting the right optimizer and tuning its hyper-parameters. A new paradigm of learning optimizers from data has emerged as a better alternative to hand-designed ML optimizers. We propose Mnemosyne optimizer, that uses Performers: implicit low-rank attention Transformers. It can learn to train entire neural network architectures including other Transformers without any task-specific optimizer tuning. We show that Mnemosyne: (a) generalizes better than popular LSTM optimizer, (b) in particular can successfully train Vision Transformers (ViTs) while meta--trained on standard MLPs and (c) can initialize optimizers for faster convergence in Robotics applications. We believe that these results open the possibility of using Transformers to build foundational optimization models that can address the challenges of regular Transformer training. We complement our results with an extensive theoretical analysis of the compact associative memory used by Mnemosyne.
翻訳日:2023-02-03 13:44:49 公開日:2023-02-02
# metaverse: 要件、アーキテクチャ、標準、ステータス、課題、パースペクティブ

Metaverse: Requirements, Architecture, Standards, Status, Challenges, and Perspectives ( http://arxiv.org/abs/2302.01125v1 )

ライセンス: Link先を確認
Danda B Rawat and Hassan El alami(参考訳) metaverseは、デジタルワールド(インターネット)を単一の共有で没入的で永続的な3d仮想空間に置き換えることで、新しい機会のために次のイノベーションの波を動かしている。 本稿では,メタバースの要件,アーキテクチャ,標準,課題,ソリューションについて述べる。 具体的には、メタバースアーキテクチャと要件、開発とデプロイメントの基盤となるメタバースのさまざまな標準を提供しています。 さらに、最近の状況、AIとMetaverseの統合、Metaverseにおけるセキュリティとプライバシ、視点とソリューションなどの課題を提示する。

The Metaverse is driving the next wave of innovation for new opportunities by replacing the digital world (Internet) with the virtual world through a single, shared, immersive, persistent 3D virtual space. In this paper, we present requirements, architecture, standards, challenges, and solutions for Metaverse. Specifically, we provide Metaverse architecture and requirements, and different standards for Metaverse which serve as the basis for the development and deployment. Moreover, we present recent status, challenges such as integration of AI and Metaverse, security and privacy in Metaverse, etc., and perspectives and solutions.
翻訳日:2023-02-03 13:44:35 公開日:2023-02-02
# 明るいspd源の最適集光条件

Optimal focusing conditions for bright SPDC sources ( http://arxiv.org/abs/2302.01118v1 )

ライセンス: Link先を確認
Lorenzo Coccia, Alberto Santamato, Giuseppe Vallone, Paolo Villoresi(参考訳) 自然パラメトリックダウン変換(SPDC)の輝度を最適化することは、多くの量子情報アプリケーションにとって重要な課題である。 本研究では,SPDCプロセスで生成し,単一モードファイバと結合する光子数を最大化する最適焦点条件について検討する。 2光子波動関数の一般表現を提供し、コリニアおよび非線形発光を考慮し、既知結果を一般化する。 本研究は, 薄結晶限界における解析式を示し, 文献にすでに存在する異なる焦点条件の関係を明らかにする。 これまで報告したものと異なり、ポンプのウエストと生成された光子の間の最適比は、放出角度に依存する:コリニア縮退放出には1/\sqrt{2}$、より大きな集束角には1/2$である。 スペクトルフィルタの役割も分析される。 我々は,BBO結晶におけるI型SPDCのための数値シミュレーションによる議論を支援し,強化する。 この種の発光には, 結晶層外における横ウォークオフの役割についても検討する。

Optimizing the brightness of a spontaneous parametric down conversion (SPDC) source is an important task for many quantum information applications. We investigate the optimal focusing conditions to maximize the number of photons produced in an SPDC process and coupled with single mode fibers. We provide a general expression for the two-photon wavefunction, generalizing previous known results, by considering collinear and non-collinear emission. We present analytical expressions for our results in the thin crystal limit and clarify the relation between different focusing conditions already existing in the literature. Differently to what previously reported, we show that the optimal ratio between the pump waist and the generated photons waist depends on the emission angle: it is $1/\sqrt{2}$ for collinear degenerate emission and approaches $1/2$ for larger collection angles. The role of spectral filters is also analyzed. We support and enrich our discussion with numerical simulations, performed for Type I SPDC in a BBO crystal. For this type of emission, we also investigate the role of the transverse walk-off outside the thin crystal regime.
翻訳日:2023-02-03 13:44:24 公開日:2023-02-02
# フルレンジ角度による直接2次元頭部電位推定のための簡易ベースライン

A Simple Baseline for Direct 2D Multi-Person Head Pose Estimation with Full-range Angles ( http://arxiv.org/abs/2302.01110v1 )

ライセンス: Link先を確認
Huayi Zhou, Fei Jiang, and Hongtao Lu(参考訳) 既存のヘッドポーズ推定(hpe)は主に、事前に検出されたフロントヘッドを持つ1人の人に焦点を当てている。 これらのHPE法は, 顔領域が見えない頭部において, 全視点で十分に一般化できない, 個別に訓練された顔検出器に頼っているため, マルチパーソンヘッドポーズ推定(MPHPE)では脆弱で非効率である。 本稿では,フルレンジMPHPE問題に焦点をあて,DirectMHPというエンドツーエンドのシンプルなベースラインを提案する。 フルレンジの mphpe に適用可能なデータセットが不足していることから,まずは agora と cmu panoptic の公開データセットから,ヘッド検出のための接地ラベルとヘッドオリエンテーションを抽出して,2つのベンチマークを構築した。 彼らは、多くの遮断され、閉塞され、小さく、不均等に照らされた人間の頭を持つことに、かなり挑戦している。 そこで我々は,MPHPE問題に対処するために,マルチヘッドの位置と向きを協調的に回帰することで,エンドツーエンドのトレーニング可能な新しいワンステージネットワークアーキテクチャを設計する。 具体的には、ポーズを頭部の補助的な属性とみなし、従来のオブジェクト予測の後に追加する。 オイラー角のような任意ポーズ表現はこの柔軟な設計で受け入れられる。 次に,これら2つのタスクを機能共有と適切な多重損失の活用により,協調して最適化する。 このようにして,本手法は,頭部検出性能を維持しつつ,HPEの精度を向上させるために,より多くの環境から暗黙的に恩恵を受けることができる。 提案手法は, 提案したMPHPEデータセットのベースライン結果に優れ, 従来のHPE手法と比較して総合的に比較する。 データセットとコードはhttps://github.com/hnuzhy/DirectMHPで公開されている。

Existing head pose estimation (HPE) mainly focuses on single person with pre-detected frontal heads, which limits their applications in real complex scenarios with multi-persons. We argue that these single HPE methods are fragile and inefficient for Multi-Person Head Pose Estimation (MPHPE) since they rely on the separately trained face detector that cannot generalize well to full viewpoints, especially for heads with invisible face areas. In this paper, we focus on the full-range MPHPE problem, and propose a direct end-to-end simple baseline named DirectMHP. Due to the lack of datasets applicable to the full-range MPHPE, we firstly construct two benchmarks by extracting ground-truth labels for head detection and head orientation from public datasets AGORA and CMU Panoptic. They are rather challenging for having many truncated, occluded, tiny and unevenly illuminated human heads. Then, we design a novel end-to-end trainable one-stage network architecture by joint regressing locations and orientations of multi-head to address the MPHPE problem. Specifically, we regard pose as an auxiliary attribute of the head, and append it after the traditional object prediction. Arbitrary pose representation such as Euler angles is acceptable by this flexible design. Then, we jointly optimize these two tasks by sharing features and utilizing appropriate multiple losses. In this way, our method can implicitly benefit from more surroundings to improve HPE accuracy while maintaining head detection performance. We present comprehensive comparisons with state-of-the-art single HPE methods on public benchmarks, as well as superior baseline results on our constructed MPHPE datasets. Datasets and code are released in https://github.com/hnuzhy/DirectMHP.
翻訳日:2023-02-03 13:44:05 公開日:2023-02-02
# graphreg:ジオメトリアウェアグラフ信号処理による動的ポイントクラウド登録

GraphReg: Dynamical Point Cloud Registration with Geometry-aware Graph Signal Processing ( http://arxiv.org/abs/2302.01109v1 )

ライセンス: Link先を確認
Zhao Mingyang, Ma Lei, Jia Xiaohong, Yan Dong-Ming, and Huang Tiejun(参考訳) 本研究では,多くの重要な3次元視覚問題の中核である3次元点雲登録のための高精度,効率的,物理的に誘導された手法を提案する。 空間的点情報のみを考慮し、表面幾何学を無視する既存の物理学的手法とは対照的に、粒子(点)の動きを調節する幾何学的剛体力学を探索し、より正確で堅牢な登録を行う。 提案手法は4つのモジュールからなる。 まず、グラフ信号処理(gsp)フレームワークを利用して、局所的な表面変動の記述、キーポイントの再サンプリング、異なる粒子の識別に成功する新しいシグネチャ(すなわち各点に対する点応答強度)を定義する。 次に, 正解率に敏感な現在の物理系アプローチの欠点に対処するため, 正準絶対偏差(MAD)に対する定義点応答強度を頑健な統計量に適用し, 適応型外乱抑制のX84原理を採用し, 頑健かつ安定した登録を確保する。 次に,点雲の高次特徴を取り入れた剛体変換の下での新しい幾何学的不変量を提案し,ペアワイズスキャン間の対応を忠実に導くための力モデリングに組み込む。 最後に,グローバルに最適なアニーリングを探索し,登録プロセスを実質的に高速化する適応型シミュレートアニーリング(asa)法を提案する。 レンジスキャナーからLiDARまで,様々なデータセットから提案手法を評価するための総合的な実験を行った。 以上の結果から,提案手法は精度において最先端の手法よりも優れており,大規模点雲の登録に適していることが示された。 さらに、ほとんどの競合製品よりもかなり高速で頑丈です。

This study presents a high-accuracy, efficient, and physically induced method for 3D point cloud registration, which is the core of many important 3D vision problems. In contrast to existing physics-based methods that merely consider spatial point information and ignore surface geometry, we explore geometry aware rigid-body dynamics to regulate the particle (point) motion, which results in more precise and robust registration. Our proposed method consists of four major modules. First, we leverage the graph signal processing (GSP) framework to define a new signature, (i.e., point response intensity for each point), by which we succeed in describing the local surface variation, resampling keypoints, and distinguishing different particles. Then, to address the shortcomings of current physics-based approaches that are sensitive to outliers, we accommodate the defined point response intensity to median absolute deviation (MAD) in robust statistics and adopt the X84 principle for adaptive outlier depression, ensuring a robust and stable registration. Subsequently, we propose a novel geometric invariant under rigid transformations to incorporate higher-order features of point clouds, which is further embedded for force modeling to guide the correspondence between pairwise scans credibly. Finally, we introduce an adaptive simulated annealing (ASA) method to search for the global optimum and substantially accelerate the registration process. We perform comprehensive experiments to evaluate the proposed method on various datasets captured from range scanners to LiDAR. Results demonstrate that our proposed method outperforms representative state-of-the-art approaches in terms of accuracy and is more suitable for registering large-scale point clouds. Furthermore, it is considerably faster and more robust than most competitors.
翻訳日:2023-02-03 13:43:33 公開日:2023-02-02
# 変圧器の効率的な訓練に関する調査研究

A Survey on Efficient Training of Transformers ( http://arxiv.org/abs/2302.01107v1 )

ライセンス: Link先を確認
Bohan Zhuang, Jing Liu, Zizheng Pan, Haoyu He, Yuetian Weng, Chunhua Shen(参考訳) トランスフォーマーの最近の進歩は、コンピュータリソースに対する大きな要求を伴い、トランスフォーマーのトレーニングをより速く、低コストで、計算とメモリリソースの効率的な使用により精度を高めるために効率的なトレーニング技術を開発することの重要性を強調している。 この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供し、加速度演算とハードウェアの最近の進歩をカバーし、前者に焦点を当てている。 中間テンソルの計算とメモリコストを節約する手法を,ハードウェア/アルゴリズムの共同設計手法と合わせて分析・比較した。 今後の研究の課題と将来性について論じる。

Recent advances in Transformers have come with a huge requirement on computing resources, highlighting the importance of developing efficient training techniques to make Transformer training faster, at lower cost, and to higher accuracy by the efficient use of computation and memory resources. This survey provides the first systematic overview of the efficient training of Transformers, covering the recent progress in acceleration arithmetic and hardware, with a focus on the former. We analyze and compare methods that save computation and memory costs for intermediate tensors during training, together with techniques on hardware/algorithm co-design. We finally discuss challenges and promising areas for future research.
翻訳日:2023-02-03 13:43:01 公開日:2023-02-02
# 光子相関におけるフォノンシグネチャ

Phonon signatures in photon correlations ( http://arxiv.org/abs/2302.01105v1 )

ライセンス: Link先を確認
Ben S. Humphries, Dale Green, Magnus O. Borgh, Garth A. Jones(参考訳) 熱浴中のビブロニック分子から放出されるフォノンと光子の2次および2次相関関数は,それぞれ束縛と反バンチング(純粋量子効果)をもたらすことを示した。 光子-光子相関では、フォノン交換と環境に関するシグナルが明らかにされる。 相関関数が検出順序に強く依存していることを示し,フォノンダイナミクスが光の放出に与える影響について考察した。 この研究は、凝縮相分子系の量子効果を研究する新しい機会を提供する。

We show that the second-order, two-time correlation functions for phonons and photons emitted from a vibronic molecule in a thermal bath result in bunching and anti-bunching (a purely quantum effect), respectively. Signatures relating to phonon exchange with the environment are revealed in photon-photon correlations. We demonstrate that cross-correlation functions have a strong dependence on the order of detection giving insight into how phonon dynamics influences the emission of light. This work offers new opportunities to investigate quantum effects in condensed-phase molecular systems.
翻訳日:2023-02-03 13:42:49 公開日:2023-02-02
# サイリエンシ・プロンプトによる教師なし事前学習による低データインスタンスセグメンテーションの促進

Boosting Low-Data Instance Segmentation by Unsupervised Pre-training with Saliency Prompt ( http://arxiv.org/abs/2302.01171v1 )

ライセンス: Link先を確認
Hao Li, Dingwen Zhang, Nian Liu, Lechao Cheng, Yalun Dai, Chao Zhang, Xinggang Wang, Junwei Han(参考訳) 近年,クエリベースのエンドツーエンドインスタンスセグメンテーション (QEIS) 手法は,大規模なデータセット上でCNNベースのモデルよりも優れている。 しかし、重要なクエリやカーネルがローカライゼーションや事前の形状を学ぶのが難しいため、少量のトレーニングデータしか利用できない場合、有効性が失われます。 この目的のために、この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。 近年のプロンプト手法の成功に触発されて,クエリ/カーネルにサリエンシプロンプトを与えることで,qeisモデルを促進する新しい事前学習手法を提案する。 私たちの方法は3つの部分を含む。 1) サリーエンシーマスクの提案は、サリーエンシー機構に基づいてラベルのない画像から疑似マスクを生成する責任がある。 2) Prompt-Kernel Matchingは擬似マスクをプロンプトに転送し,対応する局所化と形状を最良整合カーネルに注入する。 3) 堅牢な学習のためのカーネルレベルでの監視をカーネル監視に適用する。 実践的な観点から、我々の事前学習手法はQEISモデルとCNNベースモデルとの類似の収束速度と同等の性能を実現するのに役立つ。 実験の結果,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることがわかった。 コードは利用可能になる。

Recently, inspired by DETR variants, query-based end-to-end instance segmentation (QEIS) methods have outperformed CNN-based models on large-scale datasets. Yet they would lose efficacy when only a small amount of training data is available since it's hard for the crucial queries/kernels to learn localization and shape priors. To this end, this work offers a novel unsupervised pre-training solution for low-data regimes. Inspired by the recent success of the Prompting technique, we introduce a new pre-training method that boosts QEIS models by giving Saliency Prompt for queries/kernels. Our method contains three parts: 1) Saliency Masks Proposal is responsible for generating pseudo masks from unlabeled images based on the saliency mechanism. 2) Prompt-Kernel Matching transfers pseudo masks into prompts and injects the corresponding localization and shape priors to the best-matched kernels. 3) Kernel Supervision is applied to supply supervision at the kernel level for robust learning. From a practical perspective, our pre-training method helps QEIS models achieve a similar convergence speed and comparable performance with CNN-based models in low-data regimes. Experimental results show that our method significantly boosts several QEIS models on three datasets. Code will be made available.
翻訳日:2023-02-03 13:36:56 公開日:2023-02-02
# Timewarp: 時間相関ダイナミクスの学習による分子動力学の伝達可能な加速

Timewarp: Transferable Acceleration of Molecular Dynamics by Learning Time-Coarsened Dynamics ( http://arxiv.org/abs/2302.01170v1 )

ライセンス: Link先を確認
Leon Klein, Andrew Y. K. Foong, Tor Erlend Fjelde, Bruno Mlodozeniec, Marc Brockschmidt, Sebastian Nowozin, Frank No\'e, Ryota Tomioka(参考訳) 分子動力学 (md) シミュレーションは分子系をシミュレートするために広く使われている手法であり、最も一般的には運動方程式がフェムト秒の順序で時間ステップと統合される全原子分解能(英語版)において用いられる($1\textrm{fs}=10^{-15}\textrm{s}$)。 MDはしばしば平衡特性の計算に使われ、ボルツマン分布のような平衡分布からのサンプリングを必要とする。 しかし、結合や折り畳みなどの多くの重要なプロセスはミリ秒以上の時間スケールで発生し、従来のMDでは効率的にサンプル化できない。 さらに、研究する分子システムごとに新しいmdシミュレーションをスクラッチから行う必要がある。 ボルツマン分布をターゲットとしたマルコフ連鎖モンテカルロ法において,正規化フローを提案分布として利用する拡張サンプリング手法であるTimewarpを提案する。 フローはmd軌道上でオフラインでトレーニングされ、10^{5} - 10^{6}\:\textrm{fs}$の分子動力学をシミュレートして、大きなステップを経ることを学ぶ。 重要なことは、Timewarpは分子システム間で転送可能であり、トレーニングされると、未確認の小さなペプチド(2-4アミノ酸)に一般化し、その準安定状態を探索し、標準MDと比較してサンプリング時に壁時計加速度を与える。 本手法は,MDの高速化のための汎用的,転送可能なアルゴリズムを開発するための重要なステップとなる。

Molecular dynamics (MD) simulation is a widely used technique to simulate molecular systems, most commonly at the all-atom resolution where the equations of motion are integrated with timesteps on the order of femtoseconds ($1\textrm{fs}=10^{-15}\textrm{s}$). MD is often used to compute equilibrium properties, which requires sampling from an equilibrium distribution such as the Boltzmann distribution. However, many important processes, such as binding and folding, occur over timescales of milliseconds or beyond, and cannot be efficiently sampled with conventional MD. Furthermore, new MD simulations need to be performed from scratch for each molecular system studied. We present Timewarp, an enhanced sampling method which uses a normalising flow as a proposal distribution in a Markov chain Monte Carlo method targeting the Boltzmann distribution. The flow is trained offline on MD trajectories and learns to make large steps in time, simulating the molecular dynamics of $10^{5} - 10^{6}\:\textrm{fs}$. Crucially, Timewarp is transferable between molecular systems: once trained, we show that it generalises to unseen small peptides (2-4 amino acids), exploring their metastable states and providing wall-clock acceleration when sampling compared to standard MD. Our method constitutes an important step towards developing general, transferable algorithms for accelerating MD.
翻訳日:2023-02-03 13:36:35 公開日:2023-02-02
# 車両故障耐性ロバスト送電線検査計画

Vehicle Fault-Tolerant Robust Power Transmission Line Inspection Planning ( http://arxiv.org/abs/2302.01163v1 )

ライセンス: Link先を確認
Franti\v{s}ek Nekov\'a\v{r}, Jan Faigl, Martin Saska(参考訳) 本稿では,複数販売者問題の一般化をめざした耐故障性送電線検査計画について述べる。 対応した検査計画問題は、検査車両が検査時間を制限したバッテリ予算によって制約される単発多車シナリオとして定式化されている。 検査車両は、飛行速度の広い自律型マルチコプターであり、バッテリー消費に影響を与えると考えられている。 検査計画は、検査対象の電力線を網羅する車両のための複数のルートで表現される。 検査計画の実行中にいつでも発生する可能性のある検査車両のミッション中断時に、残りの車両と残りのバッテリー予算を用いて検査を再計画する。 ロバストネスは、再計画成功の時間窓を最大化する初期計画に適したコスト関数を選択することで導入される。 これにより、残りの車両はそれぞれのバッテリー予算を使って全ての検査目標を達成できる。 様々なコスト関数を持つ組合せメタヒューリスティックアルゴリズムは、検査中に計画と高速な再計画に使用される。

This paper concerns fault-tolerant power transmission line inspection planning as a generalization of the multiple traveling salesmen problem. The addressed inspection planning problem is formulated as a single-depot multiple-vehicle scenario, where the inspection vehicles are constrained by the battery budget limiting their inspection time. The inspection vehicle is assumed to be an autonomous multi-copter with a wide range of possible flight speeds influencing battery consumption. The inspection plan is represented by multiple routes for vehicles providing full coverage over inspection target power lines. On an inspection vehicle mission interruption, which might happen at any time during the execution of the inspection plan, the inspection is re-planned using the remaining vehicles and their remaining battery budgets. Robustness is introduced by choosing a suitable cost function for the initial plan that maximizes the time window for successful re-planning. It enables the remaining vehicles to successfully finish all the inspection targets using their respective remaining battery budgets. A combinatorial metaheuristic algorithm with various cost functions is used for planning and fast re-planning during the inspection.
翻訳日:2023-02-03 13:36:03 公開日:2023-02-02
# get3dhuman:pixel-aligned reconstruction priorsを用いたstylegan-humanの3次元生成モデル

Get3DHuman: Lifting StyleGAN-Human into a 3D Generative Model using Pixel-aligned Reconstruction Priors ( http://arxiv.org/abs/2302.01162v1 )

ライセンス: Link先を確認
Zhangyang Xiong, Di Kang, Derong Jin, Weikai Chen, Linchao Bao, Xiaoguang Han(参考訳) エンタテインメントからプロの関心事まで,多数のアプリケーションにおいて,高品質な3dデジタルヒューマンの迅速な生成が重要である。 近年の微分可能レンダリングの進歩により、3次元基底真理を必要とせずに3次元生成モデルのトレーニングが可能となった。 しかし、生成された3d人間の品質は、忠実性と多様性の両面で改善の余地がある。 本稿では, 3次元地上データのみを用いて, 生成結果のリアリズムと多様性を著しく高めることのできる, 新たな3次元ヒューマンフレームワーク get3dhuman を提案する。 我々のキーとなる観察は、この3Dジェネレータは、人間の2Dジェネレータと3Dコンストラクタを通して学んだ、人間関係の先行技術から利益を得ることができるということだ。 具体的には,Get3DHumanの潜伏空間とStyleGAN-Humanを,特別に設計された事前ネットワークを介してブリッジする。 前のネットワークの結果は、メインジェネレータネットワークの監視信号として利用される。 効果的なトレーニングを実現するため,生成した特徴量と中間特徴量マップに適用した3つの補正された損失を提案する。 大規模な実験により、Get3DHumanは他の最先端のアプローチを大きく上回り、形状補間、形状再構成、潜伏反転による単一ビュー再構成を含む幅広いアプリケーションをサポートすることが示されている。

Fast generation of high-quality 3D digital humans is important to a vast number of applications ranging from entertainment to professional concerns. Recent advances in differentiable rendering have enabled the training of 3D generative models without requiring 3D ground truths. However, the quality of the generated 3D humans still has much room to improve in terms of both fidelity and diversity. In this paper, we present Get3DHuman, a novel 3D human framework that can significantly boost the realism and diversity of the generated outcomes by only using a limited budget of 3D ground-truth data. Our key observation is that the 3D generator can profit from human-related priors learned through 2D human generators and 3D reconstructors. Specifically, we bridge the latent space of Get3DHuman with that of StyleGAN-Human via a specially-designed prior network, where the input latent code is mapped to the shape and texture feature volumes spanned by the pixel-aligned 3D reconstructor. The outcomes of the prior network are then leveraged as the supervisory signals for the main generator network. To ensure effective training, we further propose three tailored losses applied to the generated feature volumes and the intermediate feature maps. Extensive experiments demonstrate that Get3DHuman greatly outperforms the other state-of-the-art approaches and can support a wide range of applications including shape interpolation, shape re-texturing, and single-view reconstruction through latent inversion.
翻訳日:2023-02-03 13:35:49 公開日:2023-02-02
# シナリオベーステストのためのベクトルシナリオ記述と動作予測

Vectorized Scenario Description and Motion Prediction for Scenario-Based Testing ( http://arxiv.org/abs/2302.01161v1 )

ライセンス: Link先を確認
Max Winkelmann, Constantin Vasconi, Steffen M\"uller(参考訳) 自動車両(AV)は様々なシナリオでテストされ、通常速度、距離、曲線半径などのパラメータによって特定される。 そこで本研究では,道路形状と車両軌跡によって定義されるベクトル化されたシナリオ記述を提案する。 この形式のデータは3つのシナリオで生成され、マージされ、モーション予測モデルであるVectorNetのトレーニングに使用される。 VectorNetはシナリオ評価メトリクスを予測し、3つのシナリオのデータとは別に処理する回帰モデルよりも低いエラーを部分的に達成する。 しかし、総合的な一般化には、トレーニングデータの十分なばらつきを確保する必要がある。 したがって,既存の手法とは対照的に,提案手法は多様なシナリオのデータをマージし,ベクトル化されたシナリオ記述において空間的・時間的ニュアンスを活用できる。 その結果、特定のテストシナリオと実世界のシナリオのデータを比較し、(予測的な)分析とシナリオ選択に組み合わせることができる。

Automated vehicles (AVs) are tested in diverse scenarios, typically specified by parameters such as velocities, distances, or curve radii. To describe scenarios uniformly independent of such parameters, this paper proposes a vectorized scenario description defined by the road geometry and vehicles' trajectories. Data of this form are generated for three scenarios, merged, and used to train the motion prediction model VectorNet, allowing to predict an AV's trajectory for unseen scenarios. Predicting scenario evaluation metrics, VectorNet partially achieves lower errors than regression models that separately process the three scenarios' data. However, for comprehensive generalization, sufficient variance in the training data must be ensured. Thus, contrary to existing methods, our proposed method can merge diverse scenarios' data and exploit spatial and temporal nuances in the vectorized scenario description. As a result, data from specified test scenarios and real-world scenarios can be compared and combined for (predictive) analyses and scenario selection.
翻訳日:2023-02-03 13:35:21 公開日:2023-02-02
# データ拡張で複数の州で感染拡大の予測を下方修正

Deep COVID-19 Forecasting for Multiple States with Data Augmentation ( http://arxiv.org/abs/2302.01155v1 )

ライセンス: Link先を確認
Chung Yan Fong and Dit-Yan Yeung(参考訳) 本研究は、米国(米国)における毎週の累積死亡状況と、ドイツにおけるインシデント事件の状況を予測するためのディープラーニングアプローチを提案する。 このアプローチには、変圧器モデル、アンサンブル法、時系列データ拡張技術が含まれる。 変換器の入力を、異なる状態の予測が他の状態の傾向に付随するように配置する。 新型コロナウイルス(COVID-19)パンデミックのトレーニングデータの不足を克服するため、トレーニングに有用なデータを生成する新しいデータ拡張技術を開発した。 さらに重要なことに、生成されたデータはモデル検証にも使用できる。 そのため、2倍の利点がある。 1)より実際の観察を訓練に用いることができ、 2) 予測された状況に近い分布を持つデータに基づいてモデルを検証できる。 私たちのモデルは、米国とドイツ向けのCOVID-19 Forecast Hubで、最高の州レベルの成果を達成しました。

In this work, we propose a deep learning approach to forecasting state-level COVID-19 trends of weekly cumulative death in the United States (US) and incident cases in Germany. This approach includes a transformer model, an ensemble method, and a data augmentation technique for time series. We arrange the inputs of the transformer in such a way that predictions for different states can attend to the trends of the others. To overcome the issue of scarcity of training data for this COVID-19 pandemic, we have developed a novel data augmentation technique to generate useful data for training. More importantly, the generated data can also be used for model validation. As such, it has a two-fold advantage: 1) more actual observations can be used for training, and 2) the model can be validated on data which has distribution closer to the expected situation. Our model has achieved some of the best state-level results on the COVID-19 Forecast Hub for the US and for Germany.
翻訳日:2023-02-03 13:35:05 公開日:2023-02-02
# リアルタイム日次排出予測における統計モデルと機械学習モデルの比較研究

A comparative study of statistical and machine learning models on near-real-time daily emissions prediction ( http://arxiv.org/abs/2302.01152v1 )

ライセンス: Link先を確認
Xiangqian Li(参考訳) 二酸化炭素排出量の急激な上昇は地球温暖化と気候変動の主要な原因であり、人類の生存に大きな脅威となり、地球生態系に広範な影響を及ぼしている。 そのため, 変化傾向を経時的に正確に予測し, 分析することにより, 二酸化炭素排出量削減対策の参考として, 二酸化炭素排出量を効果的に制御する必要がある。 本稿は,2020年1月1日から2022年9月30日までの日次単変量データ(電力,産業,地上輸送,住宅,国内航空,国際航空)に基づいて,ほぼリアルタイムの日次排出予測に適したモデルを選択することを目的とする。 本研究では,grey prediction (gm(1,1)), autoregressive integrated moving average (arima), seasonal autoregressive integrated moving average with exogenous factors (sarimax), 3つの機械学習モデル (artificial neural network (ann), random forest (rf), long short term memory (lstm)) を含む6つの予測モデルを提案した。 これらのモデルの性能を評価するために、平均二乗誤差(mse)、根平均二乗誤差(rmse)、平均絶対誤差(mae)、平均絶対パーセンテージ誤差(mape)、決定係数()の5つの基準を輸入し、詳細に議論する。 その結果、3つの機械学習モデルは3つの統計モデルよりも優れており、LSTMモデルは3.5179e-04 MSE値、0.0187 RMSE値、0.0140 MAE値、14.8291% MAPE値、0.9844値で、日次排出予測の5つの基準値で最良となる。

The rapid ascent in carbon dioxide emissions is a major cause of global warming and climate change, which pose a huge threat to human survival and impose far-reaching influence on the global ecosystem. Therefore, it is very necessary to effectively control carbon dioxide emissions by accurately predicting and analyzing the change trend timely, so as to provide a reference for carbon dioxide emissions mitigation measures. This paper is aiming to select a suitable model to predict the near-real-time daily emissions based on univariate daily time-series data from January 1st, 2020 to September 30st, 2022 of all sectors (Power, Industry, Ground Transport, Residential, Domestic Aviation, International Aviation) in China. We proposed six prediction models, which including three statistical models: Grey prediction (GM(1,1)), autoregressive integrated moving average (ARIMA) and seasonal autoregressive integrated moving average with exogenous factors (SARIMAX); three machine learning models: artificial neural network (ANN), random forest (RF) and long short term memory (LSTM). To evaluate the performance of these models, five criteria: Mean Squared Error (MSE), Root Mean Squared Error (RMSE), Mean Absolute Error (MAE), Mean Absolute Percentage Error (MAPE) and Coefficient of Determination () are imported and discussed in detail. In the results, three machine learning models perform better than that three statistical models, in which LSTM model performs the best on five criteria values for daily emissions prediction with the 3.5179e-04 MSE value, 0.0187 RMSE value, 0.0140 MAE value, 14.8291% MAPE value and 0.9844 value.
翻訳日:2023-02-03 13:34:51 公開日:2023-02-02
# シュウィンガー模型の動的量子相転移:ibm量子上のリアルタイムダイナミクス

Dynamical quantum phase transitions of the Schwinger model: real-time dynamics on IBM Quantum ( http://arxiv.org/abs/2302.01151v1 )

ライセンス: Link先を確認
Domenico Pomarico, Leonardo Cosmai, Paolo Facchi, Cosmo Lupo, Saverio Pascazio, Francesco V. Pepe(参考訳) ゲージ理論のリアルタイムダイナミクスのシミュレーションは、非自明な入力状態の準備、離散時間進化、長距離絡み合い、ノイズの多い環境での測定を含むため、量子コンピュータのハードウェア能力をテストするためのパラダイム的なユースケースである。 格子ゲージ理論の枠組みにおけるシュウィンガーモデルに近似する数量子ビット系のリアルタイムダイナミクスをシミュレートするアルゴリズムを実装し,動的量子相転移の発生に特に注目する。 IBM Quantumのシミュレーション能力の限界は、トロッター進化の分解を組み合わせた単一量子ビットと2量子ビットゲートの応用に影響を与えるノイズによって課される。 ibm quantumで実行される量子アルゴリズムで収集された実験結果はノイズモデルと比較され、エラー緩和がない場合のパフォーマンスを特徴付ける。

Simulating real-time dynamics of gauge theories represents a paradigmatic use case to test the hardware capabilities of a quantum computer, since it can involve non-trivial input states preparation, discretized time evolution, long-distance entanglement, and measurement in a noisy environment. We implement an algorithm to simulate the real-time dynamics of a few-qubit system that approximates the Schwinger model in the framework of lattice gauge theories, with specific attention to the occurrence of a dynamical quantum phase transition. Limitations in the simulation capabilities on IBM Quantum are imposed by noise affecting the application of single-qubit and two-qubit gates, which combine in the decomposition of Trotter evolution. The experimental results collected in quantum algorithm runs on IBM Quantum are compared with noise models to characterize the performance in the absence of error mitigation.
翻訳日:2023-02-03 13:34:15 公開日:2023-02-02
# Tab2KG:軽量セマンティックプロファイルを用いたセマンティックテーブル解釈

Tab2KG: Semantic Table Interpretation with Lightweight Semantic Profiles ( http://arxiv.org/abs/2302.01150v1 )

ライセンス: Link先を確認
Simon Gottschalk, Elena Demidova(参考訳) 表データは多くのデータ分析や機械学習タスクにおいて重要な役割を果たす。 通常、表データには機械可読セマンティクスがない。 この文脈では、データ分析ワークフローをより堅牢で説明しやすいものにするために、セマンティックテーブル解釈が不可欠です。 本稿では,テーブルを非表示データで解釈し,セマンティクスを自動的に推論して意味データグラフに変換する新しい方法であるTab2KGを提案する。 ドメインオントロジーの概念と関係を豊かにし、ドメインとテーブルの特徴を表現する、オリジナル軽量なセマンティックプロファイルを導入する。 本稿では,これらのプロファイルを用いて,未発見のインスタンスを含む表型データセットをドメインオントロジーにマップする,ワンショット学習手法を提案する。 既存のセマンティックテーブルの解釈アプローチとは対照的に、Tab2KGはセマンティックプロファイルのみに依存しており、インスタンスのルックアップを必要としない。 この特性により、tab2kgは、データテーブルが通常新しいインスタンスを含むデータ分析コンテキストに特に適している。 異なるアプリケーション領域からの複数の実世界のデータセットに対する実験的評価により、Tab2KGは最先端のセマンティックテーブル解釈ベースラインより優れていることが示された。

Tabular data plays an essential role in many data analytics and machine learning tasks. Typically, tabular data does not possess any machine-readable semantics. In this context, semantic table interpretation is crucial for making data analytics workflows more robust and explainable. This article proposes Tab2KG - a novel method that targets at the interpretation of tables with previously unseen data and automatically infers their semantics to transform them into semantic data graphs. We introduce original lightweight semantic profiles that enrich a domain ontology's concepts and relations and represent domain and table characteristics. We propose a one-shot learning approach that relies on these profiles to map a tabular dataset containing previously unseen instances to a domain ontology. In contrast to the existing semantic table interpretation approaches, Tab2KG relies on the semantic profiles only and does not require any instance lookup. This property makes Tab2KG particularly suitable in the data analytics context, in which data tables typically contain new instances. Our experimental evaluation on several real-world datasets from different application domains demonstrates that Tab2KG outperforms state-of-the-art semantic table interpretation baselines.
翻訳日:2023-02-03 13:33:59 公開日:2023-02-02
# マルチクエリ集中要約のためのディープニューラルリグレードと教師なし抽出の組み合わせ

Combining Deep Neural Reranking and Unsupervised Extraction for Multi-Query Focused Summarization ( http://arxiv.org/abs/2302.01148v1 )

ライセンス: Link先を確認
Philipp Seeberger, Korbinian Riedhammer(参考訳) CrisisFACTS Trackは、イベントトラッキングの領域におけるマルチストリームファクトフィニングのような課題に対処することを目的としており、参加者のシステムは、時間的順序を取り入れながら、いくつかの災害関連イベントから重要な事実を抽出する。 本稿では、検索、再ランク付け、よく知られた整数線形プログラミング(ILP)とMMR(Maximal Marginal Relevance)フレームワークの組み合わせを提案する。 従来の2つのモジュールでは,エンティティベースのベースライン,事前学習と微調整による質問応答システム,ColBERTなど,さまざまな手法が検討されている。 次に、多様性と新規性基準を考慮して、後者のモジュールを抽出的な要約成分として利用する。 自動スコアリングの実行は、評価設定全体で強い結果を示すが、欠点や課題も明らかにする。

The CrisisFACTS Track aims to tackle challenges such as multi-stream fact-finding in the domain of event tracking; participants' systems extract important facts from several disaster-related events while incorporating the temporal order. We propose a combination of retrieval, reranking, and the well-known Integer Linear Programming (ILP) and Maximal Marginal Relevance (MMR) frameworks. In the former two modules, we explore various methods including an entity-based baseline, pre-trained and fine-tuned Question Answering systems, and ColBERT. We then use the latter module as an extractive summarization component by taking diversity and novelty criteria into account. The automatic scoring runs show strong results across the evaluation setups but also reveal shortcomings and challenges.
翻訳日:2023-02-03 13:33:41 公開日:2023-02-02
# 破滅的な事態を避けるための注意深い専門家の派遣

Imitating careful experts to avoid catastrophic events ( http://arxiv.org/abs/2302.01193v1 )

ライセンス: Link先を確認
Jack R. P. Hanslope and Laurence Aitchison(参考訳) RLは、人間と密接に対話するロボットシステムを制御するために、ますます使われている。 この相互作用は安全なRLの問題を提起する:例えば、RLが制御するロボットシステムが人間を傷つけないようにする方法。 この問題は、これらの結果を含む報酬関数を明確に書き下すことができないリッチで現実的な設定において特に困難である。 これらの状況では、おそらく唯一実行可能なアプローチは、人間のデモンストレーションから報酬を推測するIRLに基づいている。 しかし、IRLは、多くの異なる報酬が同じ最適政策につながるため、非常に過小評価されており、これは(人を傷つけるなど)破滅的な結果と単に望ましくない結果とを区別することが困難であることを示している。 私たちの重要な洞察は、破滅的な結果が得られれば、人間は異なる行動を示すということです。 我々は、注意信号をIRLに組み込んで、IRLが破滅的な結果から望ましくないものを曖昧にすることが、将来の現実世界の人間とロボットの相互作用の安全性を保証するために重要であることを発見した。

RL is increasingly being used to control robotic systems that interact closely with humans. This interaction raises the problem of safe RL: how to ensure that a RL-controlled robotic system never, for instance, injures a human. This problem is especially challenging in rich, realistic settings where it is not even possible to clearly write down a reward function which incorporates these outcomes. In these circumstances, perhaps the only viable approach is based on IRL, which infers rewards from human demonstrations. However, IRL is massively underdetermined as many different rewards can lead to the same optimal policies; we show that this makes it difficult to distinguish catastrophic outcomes (such as injuring a human) from merely undesirable outcomes. Our key insight is that humans do display different behaviour when catastrophic outcomes are possible: they become much more careful. We incorporate carefulness signals into IRL, and find that they do indeed allow IRL to disambiguate undesirable from catastrophic outcomes, which is critical to ensuring safety in future real-world human-robot interactions.
翻訳日:2023-02-03 13:28:28 公開日:2023-02-02
# 差動小数点画像分類の有効性について

On the Efficacy of Differentially Private Few-shot Image Classification ( http://arxiv.org/abs/2302.01190v1 )

ライセンス: Link先を確認
Marlon Tobaben, Aliaksandra Shysheya, John Bronskill, Andrew Paverd, Shruti Tople, Santiago Zanella-Beguelin, Richard E Turner, Antti Honkela(参考訳) 最良の非プライベートモデルにアプローチする精度を達成するための差分プライベート(DP)モデルのトレーニングが、近年著しく進歩している。 これらのDPモデルは通常、大規模な公開データセットで事前トレーニングされ、下流データセットで微調整される。 (i)比較的大きい、そして (ii)事前学習データと同様の分布である。 しかし、パーソナライゼーションを含む多くのアプリケーションでは、大量のラベル付きデータを取得することが問題となる可能性や、様々な専門的な設定で使用する様々なドメインの画像が問題となるため、少数の設定でうまく機能することが重要である。 最小ショットdpが有効な条件について理解するため,我々は,クラス毎のショット数,プライバシレベル,モデルアーキテクチャ,データセット,学習可能なパラメータのサブセットなどによって,少数ショットdpイメージ分類モデルの攻撃の正確性と脆弱性がどのように影響を受けるかを明らかにするための,徹底的な実験を行う。 非プライベートモデルと同等のdp精度を達成するためには、cifar-100のプライバシレベルが$\epsilon=1$で32$\times$になるので、クラスごとのショットを増やす必要がある。 また、少数ショットの非プライベートモデルがメンバーシップ推論攻撃の影響を受けやすいことも分かりました。 DPは攻撃に対する明確な緩和を提供するが、効果的に防止するためには小さな$\epsilon$が必要である。 最後に,dpフェデレーション学習システムを評価し,難解なflairフェデレーション学習ベンチマークで最先端のパフォーマンスを確立する。

There has been significant recent progress in training differentially private (DP) models which achieve accuracy that approaches the best non-private models. These DP models are typically pretrained on large public datasets and then fine-tuned on downstream datasets that are (i) relatively large, and (ii) similar in distribution to the pretraining data. However, in many applications including personalization, it is crucial to perform well in the few-shot setting, as obtaining large amounts of labeled data may be problematic; and on images from a wide variety of domains for use in various specialist settings. To understand under which conditions few-shot DP can be effective, we perform an exhaustive set of experiments that reveals how the accuracy and vulnerability to attack of few-shot DP image classification models are affected as the number of shots per class, privacy level, model architecture, dataset, and subset of learnable parameters in the model vary. We show that to achieve DP accuracy on par with non-private models, the shots per class must be increased as the privacy level increases by as much as 32$\times$ for CIFAR-100 at $\epsilon=1$. We also find that few-shot non-private models are highly susceptible to membership inference attacks. DP provides clear mitigation against the attacks, but a small $\epsilon$ is required to effectively prevent them. Finally, we evaluate DP federated learning systems and establish state-of-the-art performance on the challenging FLAIR federated learning benchmark.
翻訳日:2023-02-03 13:28:08 公開日:2023-02-02
# ベストなQ-Learning

Best Possible Q-Learning ( http://arxiv.org/abs/2302.01188v1 )

ライセンス: Link先を確認
Jiechuan Jiang and Zongqing Lu(参考訳) グローバル情報、すなわち他のエージェントの行動がアクセス不能である完全分散学習は、協調型マルチエージェント強化学習における根本的な課題である。 しかし、ほとんどの分散アルゴリズムの収束と最適性は、全てのエージェントが同時にポリシーを更新するため、遷移確率は不安定であるため、理論的には保証されない。 この課題に取り組むために,新たな分散演算子である最善のオペレータを提案するとともに,各エージェントが個別の状態動作値をオペレータによって独立に更新した場合,エージェントのポリシーが最適なジョイントポリシに収束することを示す。 さらに,更新をより効率的かつ実用的なものにするために,操作を単純化し,収束と最適性が簡略化された操作で保たれていることを証明した。 単純化演算子のインスタンス化により、導出された完全分散アルゴリズムであるbest possible q-learning (bql) は非定常性に苦しむことはない。 実験により,BQLは様々な協調型マルチエージェントタスクにおいて,ベースラインよりも顕著に改善されていることを示す。

Fully decentralized learning, where the global information, i.e., the actions of other agents, is inaccessible, is a fundamental challenge in cooperative multi-agent reinforcement learning. However, the convergence and optimality of most decentralized algorithms are not theoretically guaranteed, since the transition probabilities are non-stationary as all agents are updating policies simultaneously. To tackle this challenge, we propose best possible operator, a novel decentralized operator, and prove that the policies of agents will converge to the optimal joint policy if each agent independently updates its individual state-action value by the operator. Further, to make the update more efficient and practical, we simplify the operator and prove that the convergence and optimality still hold with the simplified one. By instantiating the simplified operator, the derived fully decentralized algorithm, best possible Q-learning (BQL), does not suffer from non-stationarity. Empirically, we show that BQL achieves remarkable improvement over baselines in a variety of cooperative multi-agent tasks.
翻訳日:2023-02-03 13:27:43 公開日:2023-02-02
# 過パラメータ低ランクマトリクスセンシングにおけるプリコンディショニングのパワー

The Power of Preconditioning in Overparameterized Low-Rank Matrix Sensing ( http://arxiv.org/abs/2302.01186v1 )

ライセンス: Link先を確認
Xingyu Xu, Yandi Shen, Yuejie Chi, Cong Ma(参考訳) 真のランクが不明な場合や、行列が不条件である場合の低ランク行列センシング問題に対処するための事前条件付き勾配降下法である、$\textsf{scaledgd($\lambda$)}$を提案する。 オーバーパラメータ化係数表現を使用すると、$\textsf{ScaledGD($\lambda$)}$は小さなランダム初期化から始まり、減衰プレコンディショニングの特定の形式で勾配降下して、オーバーパラメータ化や悪曲率に対処する。 プリコンディショナーによって引き起こされる光計算オーバーヘッドを犠牲にして、$\textsf{ScaledGD($\lambda$)}$は、過小評価でさえもバニラ勾配降下($\textsf{GD}$)と比較して非常に堅牢である。 具体的には、ガウス設計の下で、$\textsf{ScaledGD($\lambda$)}$は条件数と問題次元に関して対数的にしかスケールしない少数の反復の後に、真の低ランク行列に一定の線形速度で収束することを示す。 これにより、条件数に対する多項式依存に苦しむvanilla $\textsf{GD}$の収束率を大幅に改善する。 我々の研究は、過パラメータ学習における一般化を損なうことなく収束を加速する前処理の力を示す。

We propose $\textsf{ScaledGD($\lambda$)}$, a preconditioned gradient descent method to tackle the low-rank matrix sensing problem when the true rank is unknown, and when the matrix is possibly ill-conditioned. Using overparametrized factor representations, $\textsf{ScaledGD($\lambda$)}$ starts from a small random initialization, and proceeds by gradient descent with a specific form of damped preconditioning to combat bad curvatures induced by overparameterization and ill-conditioning. At the expense of light computational overhead incurred by preconditioners, $\textsf{ScaledGD($\lambda$)}$ is remarkably robust to ill-conditioning compared to vanilla gradient descent ($\textsf{GD}$) even with overprameterization. Specifically, we show that, under the Gaussian design, $\textsf{ScaledGD($\lambda$)}$ converges to the true low-rank matrix at a constant linear rate after a small number of iterations that scales only logarithmically with respect to the condition number and the problem dimension. This significantly improves over the convergence rate of vanilla $\textsf{GD}$ which suffers from a polynomial dependency on the condition number. Our work provides evidence on the power of preconditioning in accelerating the convergence without hurting generalization in overparameterized learning.
翻訳日:2023-02-03 13:27:24 公開日:2023-02-02
# 測定ベース量子熱機械における$\mathcal{PT}$-symmetric効果

$\mathcal{PT}$-symmetric effects in measurement-based quantum thermal machines ( http://arxiv.org/abs/2302.01181v1 )

ライセンス: Link先を確認
Jonas F. G. Santos, Pritam Chattopadhyay(参考訳) 測定ベースの量子熱機械は、測定プロトコルがサイクルのパフォーマンスと機能に重要な役割を果たす熱力学サイクルの魅力的なモデルである。 理論的進歩にもかかわらず、興味深い実験的な実装が報告されている。 ここでは、このサイクルのクラス $\mathcal{pt}$-symmetric non-hermitian hamiltonian と一般化された測定によって加速される量子熱機械におけるそれらの意味を考えることにより、さらに一歩前進する。 我々は,$\mathcal{pt}$-symmetric 効果と測定プロトコルがサイクルに沿って関連していることを示す理論的結果を示す。 さらに、パラメータを適切にチューニングすることで、オットー極限で動作する出力(エンジン構成)と冷却速度(冷凍機構成)を量子断熱定理を満たす有限時間サイクルで改善することができる。 また, 測定プロトコルの強度に応じて, サイクル, エンジン, 冷蔵庫の構成を切り替えることもできる。

Measurement-based quantum thermal machines are fascinating models of thermodynamic cycles where measurement protocols play an important role in the performance and functioning of the cycle. Despite theoretical advances, interesting experimental implementations have been reported. Here we move a step further by considering in this class of cycle $\mathcal{PT}$-symmetric non-Hermitian Hamiltonians and their implications in quantum thermal machines fueled by generalized measurements. We present theoretical results indicating that $\mathcal{PT}$-symmetric effects and measurement protocols are related along the cycle. Furthermore, tuning the parameters suitably it is possible to improve the power output (engine configuration) and the cooling rate (refrigerator configuration), operating in the Otto limit, in a finite-time cycle that satisfies the quantum adiabatic theorem. Our model also allows switching the configuration of the cycle, engine, or refrigerator, depending on the strength of the measurement protocol.
翻訳日:2023-02-03 13:26:57 公開日:2023-02-02
# 排除による多様性:価値分解による強化学習のためのニッチ同定

Diversity Through Exclusion (DTE): Niche Identification for Reinforcement Learning through Value-Decomposition ( http://arxiv.org/abs/2302.01180v1 )

ライセンス: Link先を確認
Peter Sunehag, Alexander Sasha Vezhnevets, Edgar Du\'e\~nez-Guzm\'an, Igor Mordach, Joel Z. Leibo(参考訳) 多くの環境は可変値の多くの利用可能なニッチを含み、それぞれが行動の空間(政治空間)において異なる局所的最適に関連付けられている。 このような状況下では、最適なニッチに突き当たるのに十分な長さの貧弱なローカルオプティマによる気晴らしを避けることができる学習プロセスを設計することはしばしば困難である。 本研究では,複数の可変値ニッチを持つ環境において,ベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。 提案するアルゴリズムは,エージェントアーキテクチャと学習規則という2つの部分から構成される。 エージェントアーキテクチャは複数のサブ政治を含む。 学習ルールは、進化的計算におけるフィットネス共有にインスパイアされ、単一のエージェントの内部集団に対して新しい方法でバリュー分解ネットワークを用いた強化学習に適用される。 具体的には、ある政策の経験が他のすべての政策を更新するのに使われる余分な損失項を追加することで、訪問した州の価値見積を減少させることができる。 特に、あるサブポリティクスが特定の州を頻繁に訪れると、他のサブポリティクスで予測される値を減少させる。 さらに,異なる資源(すなわち複数のニッチ)を利用する複数の報酬戦略を持つタスクを容易に作成できる,人工化学インスパイアされたプラットフォームも紹介する。 この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れ、代わりに、人工化学環境と簡易なイラストレーション環境の両方において、より高価値な戦略に収束することを示します。

Many environments contain numerous available niches of variable value, each associated with a different local optimum in the space of behaviors (policy space). In such situations it is often difficult to design a learning process capable of evading distraction by poor local optima long enough to stumble upon the best available niche. In this work we propose a generic reinforcement learning (RL) algorithm that performs better than baseline deep Q-learning algorithms in such environments with multiple variably-valued niches. The algorithm we propose consists of two parts: an agent architecture and a learning rule. The agent architecture contains multiple sub-policies. The learning rule is inspired by fitness sharing in evolutionary computation and applied in reinforcement learning using Value-Decomposition-Networks in a novel manner for a single-agent's internal population. It can concretely be understood as adding an extra loss term where one policy's experience is also used to update all the other policies in a manner that decreases their value estimates for the visited states. In particular, when one sub-policy visits a particular state frequently this decreases the value predicted for other sub-policies for going to that state. Further, we introduce an artificial chemistry inspired platform where it is easy to create tasks with multiple rewarding strategies utilizing different resources (i.e. multiple niches). We show that agents trained this way can escape poor-but-attractive local optima to instead converge to harder-to-discover higher value strategies in both the artificial chemistry environments and in simpler illustrative environments.
翻訳日:2023-02-03 13:26:39 公開日:2023-02-02
# 送電線計画検査におけるマルチツーリング・トラベルセールスマン問題

Multi-Tour Set Traveling Salesman Problem in Planning Power Transmission Line Inspection ( http://arxiv.org/abs/2302.01179v1 )

ライセンス: Link先を確認
Franti\v{s}ek Nekov\'a\v{r}, Jan Faigl, Martin Saska(参考訳) この手紙は、複数ルートのワンデポットシナリオの走行セールスマン問題の一般化として定式化された最適な送電線検査に関するものである。 問題は、限られた旅行予算を持つ検査車両に定式化されている。 したがって、ソリューションは与えられた電力線を網羅する複数のランで構成することができる。 さらに、この解決策は、1回の走行で検査できる車両の数を示している。 この問題の最適解法は、提案された整数線形計画法(ILP)の定式化によって解決される。 したがって、計算要求は組合せメタヒューリスティックによって対処される。 適応探索法は、競合するソリューションを提供しながら要求が大幅に小さく、ILPベースの手法よりも問題サイズにスケールする。 提案した定式化とアルゴリズムは実世界のシナリオで実証され、電力線セグメントを電気変電所で検査する。

This letter concerns optimal power transmission line inspection formulated as a proposed generalization of the traveling salesman problem for a multi-route one-depot scenario. The problem is formulated for an inspection vehicle with a limited travel budget. Therefore, the solution can be composed of multiple runs to provide full coverage of the given power lines. Besides, the solution indicates how many vehicles can perform the inspection in a single run. The optimal solution of the problem is solved by the proposed Integer Linear Programming (ILP) formulation, which is, however, very computationally demanding. Therefore, the computational requirements are addressed by the combinatorial metaheuristic. The employed greedy randomized adaptive search procedure is significantly less demanding while providing competitive solutions and scales better with the problem size than the ILP-based approach. The proposed formulation and algorithms are demonstrated in a real-world scenario to inspect power line segments at the electrical substation.
翻訳日:2023-02-03 13:26:02 公開日:2023-02-02
# 畳み込み型ニューラル演算子

Convolutional Neural Operators ( http://arxiv.org/abs/2302.01178v1 )

ライセンス: Link先を確認
Bogdan Raoni\'c, Roberto Molinaro, Tobias Rohner, Siddhartha Mishra, Emmanuel de Bezenac(参考訳) 機械学習では非常に成功したが、畳み込みベースのニューラルネットワークアーキテクチャ(関数空間では一貫性がないと考えられている)は、pdesの学習ソリューションオペレーターの文脈で無視されている。 ここでは畳み込みニューラルネットワークを用いて,関数をインプットやアウトプットとして処理できることを実証する。 結果として得られたアーキテクチャは畳み込みニューラルネットワーク(convolutional neural operators, cnos)と呼ばれ、ベンチマーク実験で競合するモデルを大幅に上回っており、学習オペレーターのための代替ロバストで正確なフレームワークの設計の道筋を示している。

Although very successfully used in machine learning, convolution based neural network architectures -- believed to be inconsistent in function space -- have been largely ignored in the context of learning solution operators of PDEs. Here, we adapt convolutional neural networks to demonstrate that they are indeed able to process functions as inputs and outputs. The resulting architecture, termed as convolutional neural operators (CNOs), is shown to significantly outperform competing models on benchmark experiments, paving the way for the design of an alternative robust and accurate framework for learning operators.
翻訳日:2023-02-03 13:25:36 公開日:2023-02-02
# 粒子フィルタのサンプリング分布の教師なし学習

Unsupervised Learning of Sampling Distributions for Particle Filters ( http://arxiv.org/abs/2302.01174v1 )

ライセンス: Link先を確認
Fernando Gama, Nicolas Zilberstein, Martin Sevilla, Richard Baraniuk, Santiago Segarra(参考訳) 非線形力学系の状態の正確な推定は、その設計、合成、解析に不可欠である。 粒子フィルタは、サンプリング分布から軌道をシミュレートし、その重要度に基づいてそれらを平均化する推定器である。 粒子フィルタを計算的にトラクタブルにするためには, サンプリング分布から引き出すことにより, 軌道をシミュレートする必要がある。 同時に、これらの軌道は非線形力学系の現実を反映し、結果として生じる推定値が正確になる。 したがって、粒子フィルターの欠如はサンプリング分布の設計に関係しており、サンプリングが容易であり、正確な推定に繋がる。 本研究では,サンプリング分布の学習法を提案する。 観測結果からサンプリング分布を学習する4つの方法を提案する。 3つの手法はパラメトリックな手法であり、多変量ガウス分布の平均と共分散行列を学習し、各手法はデータの異なる側面(ジェネリック、時間構造、グラフ構造)を利用する。 第4の方法は、一様確率変数の変換を直接学習する非パラメトリックな代替である。 4つの手法はすべて、観測された測定結果を生成する可能性の最大化によって教師なしの方法で訓練される。 実験の結果,学習標本分布は,設計した最小縮退標本分布よりも優れた性能を示すことがわかった。

Accurate estimation of the states of a nonlinear dynamical system is crucial for their design, synthesis, and analysis. Particle filters are estimators constructed by simulating trajectories from a sampling distribution and averaging them based on their importance weight. For particle filters to be computationally tractable, it must be feasible to simulate the trajectories by drawing from the sampling distribution. Simultaneously, these trajectories need to reflect the reality of the nonlinear dynamical system so that the resulting estimators are accurate. Thus, the crux of particle filters lies in designing sampling distributions that are both easy to sample from and lead to accurate estimators. In this work, we propose to learn the sampling distributions. We put forward four methods for learning sampling distributions from observed measurements. Three of the methods are parametric methods in which we learn the mean and covariance matrix of a multivariate Gaussian distribution; each methods exploits a different aspect of the data (generic, time structure, graph structure). The fourth method is a nonparametric alternative in which we directly learn a transform of a uniform random variable. All four methods are trained in an unsupervised manner by maximizing the likelihood that the states may have produced the observed measurements. Our computational experiments demonstrate that learned sampling distributions exhibit better performance than designed, minimum-degeneracy sampling distributions.
翻訳日:2023-02-03 13:25:21 公開日:2023-02-02
# STEP: 事前条件付きスクラッチによるN:M構造空間の学習

STEP: Learning N:M Structured Sparsity Masks from Scratch with Precondition ( http://arxiv.org/abs/2302.01172v1 )

ライセンス: Link先を確認
Yucheng Lu, Shivani Agrawal, Suvinay Subramanian, Oleg Rybakov, Christopher De Sa, Amir Yazdanbakhsh(参考訳) 最近のハードウェア(例えばNvidia A100)の革新は、高速モデル推論のためにスクラッチからN:M構造化された空間マスクを学習する動機となった。 しかし、この体制における最先端の学習レシピ(SR-STEなど)は、モーメントSGDのような非適応最適化に対して提案されている。 本稿では,マスク付き重みによって与えられるアダム状態の2次モーメント(分散)の低さから,このようなギャップの起源を最初に示す。 我々は、AdamとN:Mマスクを学習することは、分散推定の臨界状態を考慮するべきであると推測する。 そこで本研究では,N:Mマスクを2つのフェーズで学習するAdam-AwareのレシピであるSTEPを提案する。まず,STEPは信頼性のある分散推定(プレコンディションフェーズ)を算出し,その後,その分散を固定し,N:Mマスク(マスク学習フェーズ)を学習するための前提条件として使用する。 STEPは、トレーニング軌道上の分散変化を動的にサンプリングし、サンプル濃度をテストすることにより、2つの位相の切り替え点を自動的に識別する。 CIFAR分類, 機械翻訳, LLMファインチューニング(BERT-Base, GPT-2)など, ASP や SR-STE などのSTEP などのベースラインを複数タスクで評価した。 ステップはベースラインレシピの精度低下を緩和し,攻撃的な構造的スパーシティ比に頑健であることを示す。

Recent innovations on hardware (e.g. Nvidia A100) have motivated learning N:M structured sparsity masks from scratch for fast model inference. However, state-of-the-art learning recipes in this regime (e.g. SR-STE) are proposed for non-adaptive optimizers like momentum SGD, while incurring non-trivial accuracy drop for Adam-trained models like attention-based LLMs. In this paper, we first demonstrate such gap origins from poorly estimated second moment (i.e. variance) in Adam states given by the masked weights. We conjecture that learning N:M masks with Adam should take the critical regime of variance estimation into account. In light of this, we propose STEP, an Adam-aware recipe that learns N:M masks with two phases: first, STEP calculates a reliable variance estimate (precondition phase) and subsequently, the variance remains fixed and is used as a precondition to learn N:M masks (mask-learning phase). STEP automatically identifies the switching point of two phases by dynamically sampling variance changes over the training trajectory and testing the sample concentration. Empirically, we evaluate STEP and other baselines such as ASP and SR-STE on multiple tasks including CIFAR classification, machine translation and LLM fine-tuning (BERT-Base, GPT-2). We show STEP mitigates the accuracy drop of baseline recipes and is robust to aggressive structured sparsity ratios.
翻訳日:2023-02-03 13:24:58 公開日:2023-02-02
# 気候適応度測定のための機械学習アプローチ

A Machine Learning Approach to Measuring Climate Adaptation ( http://arxiv.org/abs/2302.01236v1 )

ライセンス: Link先を確認
Max Vilgalys(参考訳) 気象の短期変化と長期変化の弾力性を比較することで、気候変動への適応を計測する。 パネル設定でこれらの弾性を柔軟に測定するための偏りのある機械学習手法を提案する。 シミュレーションエクササイズでは、デバイアスド機械学習は、特に高次元設定において、標準的な機械学習や通常の最小二乗と比較してかなりの利点があることを示す。 次に、米国トウモロコシと大豆の生産における熱被曝の損傷に対する適応を測定する。 温度と降水量の変化の豊富なセットを用いて、損傷熱による短期的な影響が長期にわたって著しく相違していることを示す。 これは熱暴露の長期的変化による影響が、熱暴露に対する短期的衝撃と同じ機能的形態に従わないためである。

I measure adaptation to climate change by comparing elasticities from short-run and long-run changes in damaging weather. I propose a debiased machine learning approach to flexibly measure these elasticities in panel settings. In a simulation exercise, I show that debiased machine learning has considerable benefits relative to standard machine learning or ordinary least squares, particularly in high-dimensional settings. I then measure adaptation to damaging heat exposure in United States corn and soy production. Using rich sets of temperature and precipitation variation, I find evidence that short-run impacts from damaging heat are significantly offset in the long run. I show that this is because the impacts of long-run changes in heat exposure do not follow the same functional form as short-run shocks to heat exposure.
翻訳日:2023-02-03 13:18:14 公開日:2023-02-02
# Dual Propagation:Dydic Neuronsによるコントラスト学習の促進

Dual Propagation: Accelerating Contrastive Hebbian Learning with Dyadic Neurons ( http://arxiv.org/abs/2302.01228v1 )

ライセンス: Link先を確認
Rasmus H{\o}ier, D. Staudt, Christopher Zach(参考訳) 活性差に基づく学習アルゴリズム、例えば対照的なヘビアン学習や平衡伝播は、生物学的に妥当な代替手段として提案されている。 しかし、従来のデジタルチップでは、これらのアルゴリズムはコストのかかる推論問題を2回解決しなければならないため、バックプロパゲーションよりも2桁以上遅い。 アナログ領域の平衡伝播は高速かつエネルギー効率のよい学習に期待できるが、状態は2回推論され保存される必要がある。 ニューラルネットワークと区画ニューロンモデルに着想を得て,2つの内在的状態を持つダイナドである2重伝播と呼ばれる,単純なエネルギーベースの区画ニューロンモデルを提案する。 推論時、これらの固有状態は、それぞれの差と平均を通じてエラー/アクティビティの双対性を符号化する。 この方法の利点は、単一の推論フェーズのみが必要であり、推論は階層的に閉じた形式で解くことができることである。 実験により、Imagenet32x32を含む一般的なコンピュータビジョンデータセットにおいて、二重伝搬は、精度と実行時間の両方でバックプロパゲーションと等価であることを示す。

Activity difference based learning algorithms-such as contrastive Hebbian learning and equilibrium propagation-have been proposed as biologically plausible alternatives to error back-propagation. However, on traditional digital chips these algorithms suffer from having to solve a costly inference problem twice, making these approaches more than two orders of magnitude slower than back-propagation. In the analog realm equilibrium propagation may be promising for fast and energy efficient learning, but states still need to be inferred and stored twice. Inspired by lifted neural networks and compartmental neuron models we propose a simple energy based compartmental neuron model, termed dual propagation, in which each neuron is a dyad with two intrinsic states. At inference time these intrinsic states encode the error/activity duality through their difference and their mean respectively. The advantage of this method is that only a single inference phase is needed and that inference can be solved in layerwise closed-form. Experimentally we show on common computer vision datasets, including Imagenet32x32, that dual propagation performs equivalently to back-propagation both in terms of accuracy and runtime.
翻訳日:2023-02-03 13:18:02 公開日:2023-02-02
# factor fields: ニューラルフィールドとそれ以降の統一フレームワーク

Factor Fields: A Unified Framework for Neural Fields and Beyond ( http://arxiv.org/abs/2302.01226v1 )

ライセンス: Link先を確認
Anpei Chen, Zexiang Xu, Xinyue Wei, Siyu Tang, Hao Su, Andreas Geiger(参考訳) 信号のモデル化と表現のための新しいフレームワークであるファクタフィールドを提案する。 因子場は信号を因子の積に分解し、それぞれが座標変換された入力信号を操作する神経または正則なフィールド表現で表される。 この分解により,nerf,plenoxels,eg3d,instant-ngp,tensorfなどの最近の信号表現を一般化する統一フレームワークが得られた。 さらに,本論文で提案するCoBaFa(Coefficient-Basis Factorization, CoBaFa)のような,強力な新しい信号表現の創出を可能にする。 実験で証明されたように、cobafaは、神経信号表現における3つの重要な目標である近似品質、コンパクト性、効率性の観点から、以前の高速再構成法よりも改善される。 実験により,2次元画像回帰タスクでは画像の近似精度が向上し,3次元符号付き距離場を再構成する場合の幾何的品質が向上し,従来の高速再構成手法に比べて精度が向上することが実証された。 さらに,このCoBaFa表現は,トレーニング中に信号間で基底を共有することで一般化が可能であり,スパース観測による画像回帰や数発の放射場再構成といった一般化タスクも実現している。

We present Factor Fields, a novel framework for modeling and representing signals. Factor Fields decomposes a signal into a product of factors, each of which is represented by a neural or regular field representation operating on a coordinate transformed input signal. We show that this decomposition yields a unified framework that generalizes several recent signal representations including NeRF, PlenOxels, EG3D, Instant-NGP, and TensoRF. Moreover, the framework allows for the creation of powerful new signal representations, such as the Coefficient-Basis Factorization (CoBaFa) which we propose in this paper. As evidenced by our experiments, CoBaFa leads to improvements over previous fast reconstruction methods in terms of the three critical goals in neural signal representation: approximation quality, compactness and efficiency. Experimentally, we demonstrate that our representation achieves better image approximation quality on 2D image regression tasks, higher geometric quality when reconstructing 3D signed distance fields and higher compactness for radiance field reconstruction tasks compared to previous fast reconstruction methods. Besides, our CoBaFa representation enables generalization by sharing the basis across signals during training, enabling generalization tasks such as image regression with sparse observations and few-shot radiance field reconstruction.
翻訳日:2023-02-03 13:17:41 公開日:2023-02-02
# 実践的バンド: 産業の展望

Practical Bandits: An Industry Perspective ( http://arxiv.org/abs/2302.01223v1 )

ライセンス: Link先を確認
Bram van den Akker, Olivier Jeunen, Ying Li, Ben London, Zahra Nazari, Devesh Parekh(参考訳) Banditパラダイムは、不確実性の下で意思決定を必要とする問題に対する統一されたモデリングフレームワークを提供する。 多くのビジネスメトリクスは、アクションから生じる報酬(すなわちユーティリティ)と見なすことができるため、banditアルゴリズムは、検索、推奨、広告といった産業アプリケーションから、大きく関心を集めている。 実際、バンディットレンズによって、私たちが関心を持っているメトリクスの直接最適化が約束されます。 にもかかわらず、生産にバンディットをうまく適用する道筋は容易ではない。 アクションスペースや報酬が明確に定義されている場合でも、マルチアームやコンテキストアプローチ、オンまたはオフポリシーのセットアップ、遅延または即時のフィードバック、近視的あるいは長期の最適化などに関する意思決定を行う必要があります。 さらに悪いことに、産業プラットフォームは通常、既存のアプローチが崩壊する傾向にある大きなアクションスペースを生み出します。 これらのトピックに関する研究文献は広く広大なが、これは実践的な問題の解決を主な目的とする実践者を圧倒し、プロジェクト毎に特定のインスタンス化やアプローチを決定する必要がある。 このチュートリアルは、バンディットの理論と実践の間のギャップを埋めるための一歩を踏み出す。 我々の目標は、この分野と既存の用語、概念、アルゴリズムの統一的な概要を示し、産業に関連する問題に焦点を当てることです。 当社の産業的視点は,バンディットパラダイムを活用したい将来的な実践者を支援することを願っています。

The bandit paradigm provides a unified modeling framework for problems that require decision-making under uncertainty. Because many business metrics can be viewed as rewards (a.k.a. utilities) that result from actions, bandit algorithms have seen a large and growing interest from industrial applications, such as search, recommendation and advertising. Indeed, with the bandit lens comes the promise of direct optimisation for the metrics we care about. Nevertheless, the road to successfully applying bandits in production is not an easy one. Even when the action space and rewards are well-defined, practitioners still need to make decisions regarding multi-arm or contextual approaches, on- or off-policy setups, delayed or immediate feedback, myopic or long-term optimisation, etc. To make matters worse, industrial platforms typically give rise to large action spaces in which existing approaches tend to break down. The research literature on these topics is broad and vast, but this can overwhelm practitioners, whose primary aim is to solve practical problems, and therefore need to decide on a specific instantiation or approach for each project. This tutorial will take a step towards filling that gap between the theory and practice of bandits. Our goal is to present a unified overview of the field and its existing terminology, concepts and algorithms -- with a focus on problems relevant to industry. We hope our industrial perspective will help future practitioners who wish to leverage the bandit paradigm for their application.
翻訳日:2023-02-03 13:17:19 公開日:2023-02-02
# 風力予測のための変動モード分解を用いた時間融合変圧器

Temporal fusion transformer using variational mode decomposition for wind power forecasting ( http://arxiv.org/abs/2302.01222v1 )

ライセンス: Link先を確認
Meiyu Jiang, Xuetao Jiang, and Qingguo Zhou(参考訳) 風力タービンの出力は、異なる高さでの風速、風向き、温度、タービン特性など、様々な要因に依存する。 特に風速と方向は複雑なサイクルを持ち、劇的に変動し、風力発電量に大きな不確実性をもたらす。 本研究では,次回の1h,3h,6hの風力予測に,変分モード分解(VMD)を用いて風力系列と時間融合変圧器(TFT)を分解する。 実験の結果、VMDは他の分解アルゴリズムより優れ、TFTモデルは他の分解モデルより優れていた。

The power output of a wind turbine depends on a variety of factors, including wind speed at different heights, wind direction, temperature and turbine properties. Wind speed and direction, in particular, have complex cycles and fluctuate dramatically, leading to large uncertainties in wind power output. This study uses variational mode decomposition (VMD) to decompose the wind power series and Temporal fusion transformer (TFT) to forecast wind power for the next 1h, 3h and 6h. The experimental results show that VMD outperforms other decomposition algorithms and the TFT model outperforms other decomposition models.
翻訳日:2023-02-03 13:16:55 公開日:2023-02-02
# Denoising Diffusion Probabilistic Model を用いた画像塗布の理論的正当性

A Theoretical Justification for Image Inpainting using Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2302.01217v1 )

ライセンス: Link先を確認
Litu Rout and Advait Parulekar and Constantine Caramanis and Sanjay Shakkottai(参考訳) 線形モデル設定における拡散画像の塗布によるサンプル回収の理論的正当性を提供する。 多くの塗布アルゴリズムは,新しいマスクごとに再トレーニングを必要とするが,塗布による拡散は再トレーニングを伴わずに未確認マスクに一般化することが証明された。 我々は最近提案されたRePaint (Lugmayr et al., 2022) という拡散に基づく塗布アルゴリズムを解析し, 二状態拡散過程においてもサンプルの回収を阻害する不整合による偏りを示す。 そこで本研究では,真サンプルを再現し,線形収束率を享受するrepaint$^+$と呼ばれる修正されたrepaintアルゴリズムを提案する。 逆過程のドリフト及び分散に存在する不一致誤差を正すことでこれを達成する。 我々の知る限りでは、これは拡散ベースの画像インペイントアルゴリズムにおける最初の線形収束結果である。

We provide a theoretical justification for sample recovery using diffusion based image inpainting in a linear model setting. While most inpainting algorithms require retraining with each new mask, we prove that diffusion based inpainting generalizes well to unseen masks without retraining. We analyze a recently proposed popular diffusion based inpainting algorithm called RePaint (Lugmayr et al., 2022), and show that it has a bias due to misalignment that hampers sample recovery even in a two-state diffusion process. Motivated by our analysis, we propose a modified RePaint algorithm we call RePaint$^+$ that provably recovers the underlying true sample and enjoys a linear rate of convergence. It achieves this by rectifying the misalignment error present in drift and dispersion of the reverse process. To the best of our knowledge, this is the first linear convergence result for a diffusion based image inpainting algorithm.
翻訳日:2023-02-03 13:16:43 公開日:2023-02-02
# 単一および多視点動的グラフに対するラプラシアン変化点検出

Laplacian Change Point Detection for Single and Multi-view Dynamic Graphs ( http://arxiv.org/abs/2302.01204v1 )

ライセンス: Link先を確認
Shenyang Huang, Samy Coulombe, Yasmeen Hitti, Reihaneh Rabbany, Guillaume Rabusseau(参考訳) 動的グラフは、時間とともにエンティティ間の複雑な関係をモデル化するために使用されるリッチなデータ構造である。 特に、時間グラフにおける異常検出は、ネットワークシステムにおける侵入識別、生態系の乱れの検出、アウトブレイクの検出など、多くの現実世界の応用にとって重要である。 本稿では,動的グラフにおける変化点検出に着目し,この問題に関連する3つの課題を解決する。 私)。 グラフスナップショットを時間にわたって比較する方法。 i)。 時間的依存を捉える方法や iii)。 時間グラフのさまざまなビューを組み合わせる方法。 上記の課題を解決するために,まず,グラフラプラシアンスペクトルを各スナップショットにおけるグラフ構造の低次元埋め込みとして用いるラプラシアン異常検出(lad)を提案する。 LADは2つのスライディングウィンドウを適用することで、短期および長期の依存関係を明示的にモデル化する。 次に,多視点グラフへのLADの単純かつ効果的な一般化であるMultiLADを提案する。 MultiLADはマルチビュー動的グラフに対する最初の変更点検出方法を提供する。 これはスカラーパワー平均演算を通して異なる視点から正規化グラフラプラシアンの特異値を集約する。 広範囲にわたる合成実験を通して 私)。 LADとMultiLADは精度が高く、最先端のベースラインとそのマルチビュー拡張を大きなマージンで上回る。 i)。 競合者に対するMultiLADのアドバンテージは、追加のビューが利用可能になると大幅に増加する。 iii)。 MultiLADは個々の視点からのノイズに対して非常に堅牢である。 5つの実世界の動的グラフにおいて,ladとmultiladは,多視点交通ネットワークにおける人口移動に影響を与える政府によるcovid-19介入の実行など,重要な事象をトップアノマリーとして認識している。

Dynamic graphs are rich data structures that are used to model complex relationships between entities over time. In particular, anomaly detection in temporal graphs is crucial for many real world applications such as intrusion identification in network systems, detection of ecosystem disturbances and detection of epidemic outbreaks. In this paper, we focus on change point detection in dynamic graphs and address three main challenges associated with this problem: i). how to compare graph snapshots across time, ii). how to capture temporal dependencies, and iii). how to combine different views of a temporal graph. To solve the above challenges, we first propose Laplacian Anomaly Detection (LAD) which uses the spectrum of graph Laplacian as the low dimensional embedding of the graph structure at each snapshot. LAD explicitly models short term and long term dependencies by applying two sliding windows. Next, we propose MultiLAD, a simple and effective generalization of LAD to multi-view graphs. MultiLAD provides the first change point detection method for multi-view dynamic graphs. It aggregates the singular values of the normalized graph Laplacian from different views through the scalar power mean operation. Through extensive synthetic experiments, we show that i). LAD and MultiLAD are accurate and outperforms state-of-the-art baselines and their multi-view extensions by a large margin, ii). MultiLAD's advantage over contenders significantly increases when additional views are available, and iii). MultiLAD is highly robust to noise from individual views. In five real world dynamic graphs, we demonstrate that LAD and MultiLAD identify significant events as top anomalies such as the implementation of government COVID-19 interventions which impacted the population mobility in multi-view traffic networks.
翻訳日:2023-02-03 13:16:26 公開日:2023-02-02
# 予算・ROI制約下における繰り返し非実効入札におけるオンライン入札

Online Bidding in Repeated Non-Truthful Auctions under Budget and ROI Constraints ( http://arxiv.org/abs/2302.01203v1 )

ライセンス: Link先を確認
Matteo Castiglioni, Andrea Celli, Christian Kroer(参考訳) オンライン広告プラットフォームは通常、広告の配置を競売メカニズムで割り当てる。 広告主は繰り返しオークションに参加し、一定の制約に固執しながら報酬を最大化する入札を選択する必要がある。 我々は、広告主が予算とROI(Return-on-investment)制約を持つシナリオに焦点を当てる。 原価競売などの非実効的競売における予算・ROI制約入札の問題について検討し, 確率的, 対角的両入力下での保証のないベスト・オブ・ワールド・フレームワークを提案する。 本研究では,時間的後悔という概念を生かして,現実的な判断が難しい問題に対する特定のパラメータの知識を必要としないことを示す。 本手法は, 対角的, 確率的双方に最小限の修正を加えて適用でき, 両問題に対する統一的な視点を与えることができる。 また,各ラウンドにおけるオフライン最適化問題に対して,厳密な解決が可能であるという従来の要件を緩和することも可能であることを示す。

Online advertising platforms typically use auction mechanisms to allocate ad placements. Advertisers participate in a series of repeated auctions, and must select bids that will maximize their overall rewards while adhering to certain constraints. We focus on the scenario in which the advertiser has budget and return-on-investment (ROI) constraints. We investigate the problem of budget- and ROI-constrained bidding in repeated non-truthful auctions, such as first-price auctions, and present a best-of-both-worlds framework with no-regret guarantees under both stochastic and adversarial inputs. By utilizing the notion of interval regret, we demonstrate that our framework does not require knowledge of specific parameters of the problem which could be difficult to determine in practice. Our proof techniques can be applied to both the adversarial and stochastic cases with minimal modifications, thereby providing a unified perspective on the two problems. In the adversarial setting, we also show that it is possible to loosen the traditional requirement of having a strictly feasible solution to the offline optimization problem at each round.
翻訳日:2023-02-03 13:15:57 公開日:2023-02-02
# 因果リフティングとリンク予測

Causal Lifting and Link Prediction ( http://arxiv.org/abs/2302.01198v1 )

ライセンス: Link先を確認
Leonardo Cotta, Beatrice Bevilacqua, Nesreen Ahmed, Bruno Ribeiro(参考訳) リンク予測のための現在の最先端因果モデルでは、グラフ内のリンクの因果進化を管理する固有のノードファクター(ノードの誕生時に定義された固有の特性)のセットを仮定している。 しかし、いくつかの因果的タスクでは、リンク形成はパス依存であり、リンク介入の結果は既存のリンクに依存する。 例えば、オンライン小売店の顧客製品グラフでは、85インチのテレビ広告(処理)の効果は、既に85インチのテレビを持っているかどうかにかかっている可能性が高い。 残念ながら、これらのシナリオでは、既存の因果メソッドは非現実的です。 リンク間の機能的依存関係(パス依存)は特定できないか、あるいは非現実的な数の制御変数を必要とする。 この欠点を解消するために、リンク予測において経路依存性を扱うことができる最初の因果モデルを開発する。 これは因果モデルにおける不変性であり、満足すれば限られた介入データを用いて因果リンク予測クエリを識別することができる。 推定側では、グラフ内のノード対の対称性に基づく結合表現の一種である構造的ペアワイズ埋め込みが、既存のノード埋め込み手法、例えばgnnや行列因子化とは対照的に、低いバイアスを示し、タスクの因果構造を正しく表現していることを示す。 最後に, 因果関係予測タスクの3つのシナリオ(知識ベース補完, 共分散行列推定, 消費者製品レコメンデーション)における4つのデータセットの理論的結果を検証する。

Current state-of-the-art causal models for link prediction assume an underlying set of inherent node factors -- an innate characteristic defined at the node's birth -- that governs the causal evolution of links in the graph. In some causal tasks, however, link formation is path-dependent, i.e., the outcome of link interventions depends on existing links. For instance, in the customer-product graph of an online retailer, the effect of an 85-inch TV ad (treatment) likely depends on whether the costumer already has an 85-inch TV. Unfortunately, existing causal methods are impractical in these scenarios. The cascading functional dependencies between links (due to path dependence) are either unidentifiable or require an impractical number of control variables. In order to remedy this shortcoming, this work develops the first causal model capable of dealing with path dependencies in link prediction. It introduces the concept of causal lifting, an invariance in causal models that, when satisfied, allows the identification of causal link prediction queries using limited interventional data. On the estimation side, we show how structural pairwise embeddings -- a type of symmetry-based joint representation of node pairs in a graph -- exhibit lower bias and correctly represent the causal structure of the task, as opposed to existing node embedding methods, e.g., GNNs and matrix factorization. Finally, we validate our theoretical findings on four datasets under three different scenarios for causal link prediction tasks: knowledge base completion, covariance matrix estimation and consumer-product recommendations.
翻訳日:2023-02-03 13:15:38 公開日:2023-02-02
# 高能率音声認識のための複雑な動的ニューロンによるスパイキングトランスネットワークの改善

Complex Dynamic Neurons Improved Spiking Transformer Network for Efficient Automatic Speech Recognition ( http://arxiv.org/abs/2302.01194v1 )

ライセンス: Link先を確認
Minglun Han, Qingyu Wang, Tielin Zhang, Yi Wang, Duzhen Zhang, Bo Xu(参考訳) リークインテグレーテッド・アンド・ファイア(LIF)ニューロンを用いたスパイクニューラルネットワーク(SNN)は、自動音声認識(ASR)タスクで一般的に用いられている。 しかし、LIFニューロンはいまだに生物学的脳と比べて比較的単純である。 ニューロンの動態の異なる種類のニューロンについて、さらなる研究が必要である。 本稿では、スパイキング変換器から生成された逐次パターンを後処理し、複雑な動的ニューロンの改善されたスパイキング変換器ニューラルネットワーク(DyTr-SNN)を得るための4種類の神経力学を紹介する。 その結果,DyTr-SNNは音素誤り率の低下,計算コストの低下,ロバスト性の向上など,非トイ自動音声認識タスクをうまく処理できることがわかった。 これらの結果は、特にASRタスクにおいて、ニューロンとネットワークスケールにおけるSNNとニューラルダイナミクスのさらなる協調が、将来大きな意味を持つことを示唆している。

The spiking neural network (SNN) using leaky-integrated-and-fire (LIF) neurons has been commonly used in automatic speech recognition (ASR) tasks. However, the LIF neuron is still relatively simple compared to that in the biological brain. Further research on more types of neurons with different scales of neuronal dynamics is necessary. Here we introduce four types of neuronal dynamics to post-process the sequential patterns generated from the spiking transformer to get the complex dynamic neuron improved spiking transformer neural network (DyTr-SNN). We found that the DyTr-SNN could handle the non-toy automatic speech recognition task well, representing a lower phoneme error rate, lower computational cost, and higher robustness. These results indicate that the further cooperation of SNNs and neural dynamics at the neuron and network scales might have much in store for the future, especially on the ASR tasks.
翻訳日:2023-02-03 13:15:04 公開日:2023-02-02
# 自動運転のための幾何学的ディープラーニング - CommonRoad-Geometricでグラフニューラルネットワークのパワーを解き放つ

Geometric Deep Learning for Autonomous Driving: Unlocking the Power of Graph Neural Networks With CommonRoad-Geometric ( http://arxiv.org/abs/2302.01259v1 )

ライセンス: Link先を確認
Eivind Meyer, Maurice Brenner, Bowen Zhang, Max Schickert, Bilal Musani, and Matthias Althoff(参考訳) ヘテロジニアスグラフは、さまざまなトラフィック参加者と基盤となる道路インフラストラクチャ間の複雑なインタラクション効果をモデル化できるため、トラフィックに対して強力なデータ表現を提供する。 ディープラーニングフレームワークとしてグラフニューラルネットワーク(gnns)が最近登場し、グラフ構造を軌道予測などのさまざまな機械学習アプリケーションで効率的に活用できるようになった。 最初に提案したPythonフレームワークは、トラフィックシナリオから標準化されたグラフデータセットを抽出する、使いやすく、完全にカスタマイズ可能なデータ処理パイプラインを提供する。 GNNベースの自動運転研究のためのプラットフォームを提供することで、アプローチ間の互換性を改善し、研究者はデータセットキュレーションではなくモデル実装に集中することができる。

Heterogeneous graphs offer powerful data representations for traffic, given their ability to model the complex interaction effects among a varying number of traffic participants and the underlying road infrastructure. With the recent advent of graph neural networks (GNNs) as the accompanying deep learning framework, the graph structure can be efficiently leveraged for various machine learning applications such as trajectory prediction. As a first of its kind, our proposed Python framework offers an easy-to-use and fully customizable data processing pipeline to extract standardized graph datasets from traffic scenarios. Providing a platform for GNN-based autonomous driving research, it improves comparability between approaches and allows researchers to focus on model implementation instead of dataset curation.
翻訳日:2023-02-03 13:10:07 公開日:2023-02-02
# AdSformers:Etsy Adsにおける短期シーケンスと表現の多様性からのパーソナライズ

adSformers: Personalization from Short-Term Sequences and Diversity of Representations in Etsy Ads ( http://arxiv.org/abs/2302.01255v1 )

ライセンス: Link先を確認
Alaa Awad, Denisa Roberts, Eden Dolev, Andrea Heyman, Zahra Ebrahimzadeh, Zoe Weil, Marcin Mejran, Vaibhav Malpani, Mahir Yavuz(参考訳) 本稿では,Etsy Adsのパーソナライズへのアプローチとして,ユーザアクションの短期(1時間)シーケンスと多様な表現のエンコーディングと学習について述べる。 この目的のために,3成分adsformer diversizable personalization module (adpm)を導入し,このモジュールを用いて短期動的ユーザ表現を導出し,スポンサー付き検索 (ad) ランキングで使用されるクリックスルー率 (ctr) とクリック後変換率 (pccvr) モデルをパーソナライズする方法を説明する。 ADPMの最初のコンポーネントは、アクションのシーケンスから固有の構造を学ぶカスタムトランスフォーマーエンコーダである。 ADPMの第2のコンポーネントは、視覚的、マルチモーダル、およびテキストによる事前訓練された表現を通じて信号を豊かにする。 最後に、第3のADPMコンポーネントはフライ平均プール表現に"学習"を含む。 ADPMがパーソナライズしたCTRとPCCVRモデルは、AdSformer CTRとAdSformer PCCVRと呼ばれ、オフラインのPrecision-Recall Area Under the Curve (PR AUC)において、CTRとPCCVRの生産ベースラインを+6.65\%$と$+12.70\%$で上回っている。 この記事の執筆時点では、広告費の対価として$+5.34\%$などのa/bテストのオンライン化に続いて、私たちはetsy広告のトラフィックを$100\%に増やしている。

In this article, we present our approach to personalizing Etsy Ads through encoding and learning from short-term (one-hour) sequences of user actions and diverse representations. To this end we introduce a three-component adSformer diversifiable personalization module (ADPM) and illustrate how we use this module to derive a short-term dynamic user representation and personalize the Click-Through Rate (CTR) and Post-Click Conversion Rate (PCCVR) models used in sponsored search (ad) ranking. The first component of the ADPM is a custom transformer encoder that learns the inherent structure from the sequence of actions. ADPM's second component enriches the signal through visual, multimodal and textual pretrained representations. Lastly, the third ADPM component includes a "learned" on the fly average pooled representation. The ADPM-personalized CTR and PCCVR models, henceforth referred to as adSformer CTR and adSformer PCCVR, outperform the CTR and PCCVR production baselines by $+6.65\%$ and $+12.70\%$, respectively, in offline Precision-Recall Area Under the Curve (PR AUC). At the time of this writing, following the online gains in A/B tests, such as $+5.34\%$ in return on ad spend, a seller success metric, we are ramping up the adSformers to $100\%$ traffic in Etsy Ads.
翻訳日:2023-02-03 13:09:54 公開日:2023-02-02
# 速度制限下での高速量子コンピューティングのための並列運転

Parallel Driving for Fast Quantum Computing Under Speed Limits ( http://arxiv.org/abs/2302.01252v1 )

ライセンス: Link先を確認
Evan McKinney, Chao Zhou, Mingkang Xia, Michael Hatridge, Alex K. Jones(参考訳) 量子回路の忠実度を高めるには、エラーのデコヒーレンスを避けるための効率的な命令セットが必要である。 2量子ビット(2q)ハードウェア基底ゲートの選択は、量子変調器のネイティブハミルトニアン相互作用と応用制御ドライブに依存する。 本稿では,特定の変調器の最適基底ゲートを決定するドライブパラメータの最適な比率を選択するための協調設計手法を提案する。 これは、変調器駆動パラメータを考えると、ゲートの理論的計算能力とゲートの実際の速度制限を考慮する必要がある。 実用的な速度制限は、1つ以上のポンプを装着した場合の強い駆動に対するカプラーの許容性から生じ、いくつかの組み合わせによって他のものよりも全体的な速度制限が高くなる。 さらに、この2q基底ゲートは通常、キュービットに直接適用される1qゲートによってインターリーブされ、連続して複数回適用されるので、1qゲートの速度は量子回路の制限因子となる。 本稿では、変調器と量子ビットを同時に駆動し、2Qベースゲートのリッチな機能を実現する並列駆動方式を提案する。 これにより、いくつかの量子システムにおいてかなりのオーバーヘッドの源を緩和しながら、2qゲートの期間が短くなる。 このアプローチは、最も基本的な2Qゲートである$\sqrt{\textt{iSWAP}}$と比較して、回路長を17.84%削減し、ランダムな2Qゲートの不忠実度を10.5%削減することができる。

Increasing quantum circuit fidelity requires an efficient instruction set to avoid errors from decoherence. The choice of a two-qubit (2Q) hardware basis gate depends on a quantum modulator's native Hamiltonian interactions and applied control drives. In this paper, we propose a collaborative design approach to select the best ratio of drive parameters that determine the best basis gate for a particular modulator. This requires considering the theoretical computing power of the gate along with the practical speed limit of that gate, given the modulator drive parameters. The practical speed limit arises from the couplers' tolerance for strong driving when one or more pumps is applied, for which some combinations can result in higher overall speed limits than others. Moreover, as this 2Q basis gate is typically applied multiple times in succession, interleaved by 1Q gates applied directly to the qubits, the speed of the 1Q gates can become a limiting factor for the quantum circuit. We propose a parallel-drive approach that drives the modulator and qubits simultaneously, allowing a richer capability of the 2Q basis gate and in some cases for this 1Q drive time to be absorbed entirely into the 2Q operation. This allows increasingly short duration 2Q gates while mitigating a significant source of overhead in some quantum systems. On average, this approach can decrease circuit duration by 17.84% and decrease infidelity for random 2Q gates by 10.5% compared to the best basic 2Q gate, $\sqrt{\texttt{iSWAP}}$.
翻訳日:2023-02-03 13:09:15 公開日:2023-02-02
# 深層学習による壁面乱流の解明

Explaining wall-bounded turbulence through deep learning ( http://arxiv.org/abs/2302.01250v1 )

ライセンス: Link先を確認
Andres Cremades, Sergio Hoyas, Pedro Quintero, Martin Lellep, Moritz Linkmann, Ricardo Vinuesa(参考訳) 科学的、技術的に非常に重要であるにもかかわらず、壁面乱流は未解決の問題であり、新しい視点に取り組む必要がある。 主要な戦略の1つは、流れのコヒーレント構造間の相互作用を研究することである。 このような相互作用を,説明可能な深層学習法を用いて初めて検討した。 乱流流路内の瞬時速度場は畳み込みニューラルネットワークを介して時間内の速度場を予測するために用いられる。 予測フローはゲーム理論アルゴリズム (SHapley Additive exPlanations) を用いて, この予測における各構造の重要性を評価するために用いられる。 この研究は、文献における以前の観測結果と一致し、レイノルズ・ストレス構造の重要性を定量化し、これらの構造と流れのダイナミックスの間の因果関係を見つけることによってそれらを拡張した。 このプロセスは、ディープラーニングの説明可能性に基づいて、新しいタイプのフロー構造を客観的に定義することを含む、壁面境界乱流の多くの基本的な現象に光を当てる可能性を秘めている。

Despite its great scientific and technological importance, wall-bounded turbulence is an unresolved problem that requires new perspectives to be tackled. One of the key strategies has been to study interactions among the coherent structures in the flow. Such interactions are explored in this study for the first time using an explainable deep-learning method. The instantaneous velocity field in a turbulent channel is used to predict the velocity field in time through a convolutional neural network. The predicted flow is used to assess the importance of each structure for this prediction using a game-theoretic algorithm (SHapley Additive exPlanations). This work provides results in agreement with previous observations in the literature and extends them by quantifying the importance of the Reynolds-stress structures, finding a causal connection between these structures and the dynamics of the flow. The process, based on deep-learning explainability, has the potential to shed light on numerous fundamental phenomena of wall-bounded turbulence, including the objective definition of new types of flow structures.
翻訳日:2023-02-03 13:08:48 公開日:2023-02-02
# 生成モデルを用いたロバストマルコフ決定過程におけるモデル推定の回避

Avoiding Model Estimation in Robust Markov Decision Processes with a Generative Model ( http://arxiv.org/abs/2302.01248v1 )

ライセンス: Link先を確認
Wenhao Yang, Han Wang, Tadashi Kozuno, Scott M. Jordan, Zhihua Zhang(参考訳) ロバストマルコフ決定プロセス(MDP)は、環境の変化に敏感でない堅牢なポリシーを学ぶことで、より注目を集めている。 頑健なMDPのサンプル効率を分析する研究が増えている。 しかし、ほとんどの研究は、遷移確率を推定し、メモリ上の$$\mathcal{O}(|\mathcal{S}|^2|\mathcal{A}|)$記憶を必要とするモデルベースの状態において堅牢なMDPを研究する。 ロバストなMDPを解く一般的な方法は、それらを分布的にロバストな最適化(DRO)問題として定式化することである。 しかし、DRO問題を解くことは自明ではないので、先行研究は通常、DRO問題の最適解を得るために強いオラクルを仮定する。 オラクルの必要性を取り除くために、我々はまず元の頑健なMDPを別の形式に変換する。 さらに, 代替形式が頑健性の役割を保っていることを証明した。 この新しい定式化により、モデルフリーな方法でロバストなmdpを解決するためのサンプル効率のよいアルゴリズムを考案し、そこからオラクルを使わずに低メモリ空間$\mathcal{o}(|\mathcal{s}||\mathcal{a}|)$を得ることができる。 最後に, 数値実験により理論的知見を検証し, 頑健なMDPの代替形を解く効率を示す。

Robust Markov Decision Processes (MDPs) are getting more attention for learning a robust policy which is less sensitive to environment changes. There are an increasing number of works analyzing sample-efficiency of robust MDPs. However, most works study robust MDPs in a model-based regime, where the transition probability needs to be estimated and requires $\mathcal{O}(|\mathcal{S}|^2|\mathcal{A}|)$ storage in memory. A common way to solve robust MDPs is to formulate them as a distributionally robust optimization (DRO) problem. However, solving a DRO problem is non-trivial, so prior works typically assume a strong oracle to obtain the optimal solution of the DRO problem easily. To remove the need for an oracle, we first transform the original robust MDPs into an alternative form, as the alternative form allows us to use stochastic gradient methods to solve the robust MDPs. Moreover, we prove the alternative form still preserves the role of robustness. With this new formulation, we devise a sample-efficient algorithm to solve the robust MDPs in a model-free regime, from which we benefit lower memory space $\mathcal{O}(|\mathcal{S}||\mathcal{A}|)$ without using the oracle. Finally, we validate our theoretical findings via numerical experiments and show the efficiency to solve the alternative form of robust MDPs.
翻訳日:2023-02-03 13:08:31 公開日:2023-02-02
# モデルアンサンブルは必要か? リプシッツ正規化値関数を持つ単一モデルによるモデルベースRL

Is Model Ensemble Necessary? Model-based RL via a Single Model with Lipschitz Regularized Value Function ( http://arxiv.org/abs/2302.01244v1 )

ライセンス: Link先を確認
Ruijie Zheng, Xiyao Wang, Huazhe Xu, Furong Huang(参考訳) 確率力学モデルアンサンブルは, 従来のモデルに基づく強化学習法において, 漸近的性能とサンプル効率の両方において, 単一の力学モデルより優れる。 本稿では,リプシッツ連続性レンズによる確率力学モデルアンサンブルの実証的成功について,実用的かつ理論的に考察する。 値関数の場合、リプシッツ条件が強ければ強いほど、真のダイナミクスと学習されたダイナミクスによって引き起こされるベルマン作用素の間のギャップが小さくなるので、収束した値関数が最適値関数に近づくことができる。 したがって、確率力学モデルアンサンブルの重要な機能は、生成したサンプルを用いて値関数のリプシッツ条件を正則化することであると仮定する。 この仮説を検証するために, 逆雑音を計算し, 値ネットワークのスペクトルノルムを正則化し, 値関数のリプシッツ条件を直接正則化することにより, 2つの実践的なロバストなトレーニング機構を考案する。 実験の結果,1つのダイナミクスモデルを持つモデルベースのrlアルゴリズムは,確率的ダイナミクスモデルのアンサンブルよりも優れていることがわかった。 これらの知見は理論的な洞察を裏付けるだけでなく、計算効率の良いモデルベースRLアルゴリズムを開発するための実用的なソリューションを提供する。

Probabilistic dynamics model ensemble is widely used in existing model-based reinforcement learning methods as it outperforms a single dynamics model in both asymptotic performance and sample efficiency. In this paper, we provide both practical and theoretical insights on the empirical success of the probabilistic dynamics model ensemble through the lens of Lipschitz continuity. We find that, for a value function, the stronger the Lipschitz condition is, the smaller the gap between the true dynamics- and learned dynamics-induced Bellman operators is, thus enabling the converged value function to be closer to the optimal value function. Hence, we hypothesize that the key functionality of the probabilistic dynamics model ensemble is to regularize the Lipschitz condition of the value function using generated samples. To test this hypothesis, we devise two practical robust training mechanisms through computing the adversarial noise and regularizing the value network's spectral norm to directly regularize the Lipschitz condition of the value functions. Empirical results show that combined with our mechanisms, model-based RL algorithms with a single dynamics model outperform those with an ensemble of probabilistic dynamics models. These findings not only support the theoretical insight, but also provide a practical solution for developing computationally efficient model-based RL algorithms.
翻訳日:2023-02-03 13:08:02 公開日:2023-02-02
# ループにない人間:カリキュラム学習のための客観的サンプル難度測定

Human not in the loop: objective sample difficulty measures for Curriculum Learning ( http://arxiv.org/abs/2302.01243v1 )

ライセンス: Link先を確認
Zhengbo Zhou, Jun Luo, Gene Kitamura, Shandong Wu(参考訳) カリキュラム学習は、より簡単なサンプルから難しいサンプルまで、有意義な順序でモデルをトレーニングする学習方法である。 ここでの鍵は、サンプルの自動的および客観的な難易度尺度を考案することである。 医学領域では、従来の研究は、人間の専門家によるドメイン知識を適用し、医学画像の分類の難易度を定性的に評価し、追加の注記作業を必要とするカリキュラム学習を指導し、主観的な人間体験に依存し、バイアスをもたらす可能性がある。 本研究では,試料の客観的な難易度を計算し,X線画像からの肘骨折分類に与える影響を評価するために,勾配の分散(VoG)を用いた新しいカリキュラム学習手法を提案する。 具体的には,分類難易度の観点から各サンプルをランク付けするための指標としてvogを用い,高いvogスコアが分類難度を示す場合,カリキュラム学習プロセスを指導するために,提案手法を基礎(カリキュラム学習なし)と比較した。 実験の結果,二級骨骨折と多級骨骨折の分類に比較し,高い性能を示した。

Curriculum learning is a learning method that trains models in a meaningful order from easier to harder samples. A key here is to devise automatic and objective difficulty measures of samples. In the medical domain, previous work applied domain knowledge from human experts to qualitatively assess classification difficulty of medical images to guide curriculum learning, which requires extra annotation efforts, relies on subjective human experience, and may introduce bias. In this work, we propose a new automated curriculum learning technique using the variance of gradients (VoG) to compute an objective difficulty measure of samples and evaluated its effects on elbow fracture classification from X-ray images. Specifically, we used VoG as a metric to rank each sample in terms of the classification difficulty, where high VoG scores indicate more difficult cases for classification, to guide the curriculum training process We compared the proposed technique to a baseline (without curriculum learning), a previous method that used human annotations on classification difficulty, and anti-curriculum learning. Our experiment results showed comparable and higher performance for the binary and multi-class bone fracture classification tasks.
翻訳日:2023-02-03 13:07:41 公開日:2023-02-02
# ニューロシンボリック連続学習:知識,推論ショートカット,概念リハーサル

Neuro Symbolic Continual Learning: Knowledge, Reasoning Shortcuts and Concept Rehearsal ( http://arxiv.org/abs/2302.01242v1 )

ライセンス: Link先を確認
Emanuele Marconato, Gianpaolo Bontempo, Elisa Ficarra, Simone Calderara, Andrea Passerini, Stefano Teso(参考訳) そこで我々は,モデルが一連のニューロシンボリックなタスク,すなわち,サブシンボリックな入力を高レベルな概念にマッピングし,先行知識に一貫した推論を行うことで予測を計算しなければならない,ニューロシンボリック連続学習を導入する。 私たちの重要な観察は、ニューロシンボリックなタスクは、異なるものの、時間とともにセマンティクスが安定し続ける概念を共有することが多いことです。 既存の継続的な戦略は知識を完全に無視し、ストックニューロシンボリックアーキテクチャは破滅的な忘れ込みに悩まされる。 神経シンボリックアーキテクチャと継続的な戦略の組み合わせによる事前知識の活用は、破滅的な忘れることを避けるのに役立つだけでなく、推論の近道によって影響を受けるモデルをもたらすことも示している。 これらのことは、詳細な事前知識が前もって提供され、推論が正確で、連続的なパフォーマンスであっても、獲得した概念の意味を損なう。 これらの問題を克服するために,我々は,高品質な概念を習得し,時間とともに記憶する神経象徴的連続問題に適した,認知レベルcOntinual Learning戦略であるCOOLを紹介した。 3つの新しいベンチマーク実験では、他の戦略が失敗するニューロシンボリックな連続学習タスクにおいて、COOLが高いパフォーマンスを維持する方法が示されている。

We introduce Neuro-Symbolic Continual Learning, where a model has to solve a sequence of neuro-symbolic tasks, that is, it has to map sub-symbolic inputs to high-level concepts and compute predictions by reasoning consistently with prior knowledge. Our key observation is that neuro-symbolic tasks, although different, often share concepts whose semantics remains stable over time. Traditional approaches fall short: existing continual strategies ignore knowledge altogether, while stock neuro-symbolic architectures suffer from catastrophic forgetting. We show that leveraging prior knowledge by combining neuro-symbolic architectures with continual strategies does help avoid catastrophic forgetting, but also that doing so can yield models affected by reasoning shortcuts. These undermine the semantics of the acquired concepts, even when detailed prior knowledge is provided upfront and inference is exact, and in turn continual performance. To overcome these issues, we introduce COOL, a COncept-level cOntinual Learning strategy tailored for neuro-symbolic continual problems that acquires high-quality concepts and remembers them over time. Our experiments on three novel benchmarks highlights how COOL attains sustained high performance on neuro-symbolic continual learning tasks in which other strategies fail.
翻訳日:2023-02-03 13:07:18 公開日:2023-02-02
# ダイアグラム化:仮説の帰納的推論のための図式AI説明による合理化

Diagrammatization: Rationalizing with diagrammatic AI explanations for abductive reasoning on hypotheses ( http://arxiv.org/abs/2302.01241v1 )

ライセンス: Link先を確認
Brian Y. Lim, Joseph P. Cahaly, Chester Y. F. Sng, Adam Chew(参考訳) 説明可能なAI(XAI)のために多くの視覚化が開発されているが、ユーザーによるさらなる推論を必要とすることが多い。 我々は、XAIは、仮説の生成と評価を伝えるための図式推論とともに、誘惑的推論(最良の説明への推論)をサポートするべきであると論じる。 ピアーセアン図式推論と5段階の退化過程に着想を得て,ドメイン仮説に基づく図式的・帰納的説明を提供するダイアグラム化法を提案する。 DiagramNetを臨床応用し,心臓の聴力から診断を予測し,形状に基づく大腿骨の図で説明する。 モデリング研究において、ダイアグラムネットは忠実なマームラー形状の説明を提供するだけでなく、ベースラインモデルよりも優れた予測性能を持つことがわかった。 さらに,医学生との質的ユーザスタディにおける図解的説明の有用性を実証し,臨床関連,図解的説明が専門的サリエンシマップの説明よりも望ましいことを示す。 この研究は、ユーザ中心のXAIに対して、ドメイン駆動の帰納的説明を提供するための洞察に貢献する。

Many visualizations have been developed for explainable AI (XAI), but they often require further reasoning by users to interpret. We argue that XAI should support abductive reasoning - inference to the best explanation - with diagrammatic reasoning to convey hypothesis generation and evaluation. Inspired by Peircean diagrammatic reasoning and the 5-step abduction process, we propose Diagrammatization, an approach to provide diagrammatic, abductive explanations based on domain hypotheses. We implemented DiagramNet for a clinical application to predict diagnoses from heart auscultation, and explain with shape-based murmur diagrams. In modeling studies, we found that DiagramNet not only provides faithful murmur shape explanations, but also has better prediction performance than baseline models. We further demonstrate the usefulness of diagrammatic explanations in a qualitative user study with medical students, showing that clinically-relevant, diagrammatic explanations are preferred over technical saliency map explanations. This work contributes insights into providing domain-conventional abductive explanations for user-centric XAI.
翻訳日:2023-02-03 13:06:52 公開日:2023-02-02
# Wasserstein距離におけるロバスト推定

Robust Estimation under the Wasserstein Distance ( http://arxiv.org/abs/2302.01237v1 )

ライセンス: Link先を確認
Sloan Nietert, Rachel Cummings, and Ziv Goldfeld(参考訳) 最適輸送(OT)理論に根ざした確率分布間の一般的な相違尺度であるワッサーシュタイン計量の下でのロバスト分布推定の問題を考察する。 本研究では,入力分布から$\varepsilon$outlier massを除去できる新しいoutlier-robust wasserstein distance $\mathsf{w}_p^\varepsilon$を導入し,$\mathsf{w}_p^\varepsilon$以下の最小距離推定が最小の最適ロバストな推定リスクを達成することを示す。 解析は, 独立興味を持つ近似三角不等式を含む, 部分 ot に対するいくつかの新しい結果に根ざしている。 計算的トラクタビリティに対処するために、古典的カントロビッチ双対目的に単純なペナルティ項を与える$\mathsf{W}_p^\varepsilon$の双対定式を導出する。 したがって、$\mathsf{W}_p^\varepsilon$ は標準双対型OTソルバへの基本的な修正によって実装できる。 その結果,低次元部分空間に分布を投影するスライスotに拡張され,同質性と独立性テストへの応用が検討された。 汚染されたデータセットを用いた生成モデリングへのアプリケーションを通して、我々のフレームワークの長所を説明します。

We study the problem of robust distribution estimation under the Wasserstein metric, a popular discrepancy measure between probability distributions rooted in optimal transport (OT) theory. We introduce a new outlier-robust Wasserstein distance $\mathsf{W}_p^\varepsilon$ which allows for $\varepsilon$ outlier mass to be removed from its input distributions, and show that minimum distance estimation under $\mathsf{W}_p^\varepsilon$ achieves minimax optimal robust estimation risk. Our analysis is rooted in several new results for partial OT, including an approximate triangle inequality, which may be of independent interest. To address computational tractability, we derive a dual formulation for $\mathsf{W}_p^\varepsilon$ that adds a simple penalty term to the classic Kantorovich dual objective. As such, $\mathsf{W}_p^\varepsilon$ can be implemented via an elementary modification to standard, duality-based OT solvers. Our results are extended to sliced OT, where distributions are projected onto low-dimensional subspaces, and applications to homogeneity and independence testing are explored. We illustrate the virtues of our framework via applications to generative modeling with contaminated datasets.
翻訳日:2023-02-03 13:06:31 公開日:2023-02-02
# MARLIN:リアルネットワークにおける混雑制御のためのソフトアクタ・クリティカルベース強化学習

MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion Control in Real Networks ( http://arxiv.org/abs/2302.01301v1 )

ライセンス: Link先を確認
Raffaele Galliera, Alessandro Morelli, Roberto Fronteddu, Niranjan Suri(参考訳) 高速で効率的なトランスポートプロトコルは、ますます分散した世界の基礎である。 次世代のアプリケーションやサービスをサポートするための通信性能の向上と、システムやネットワーク技術の多様性の増大が相まって、特定の環境下でうまく機能する混雑制御(cc)アルゴリズムの設計が進められている。 幅広いシナリオに適応できる汎用CCアルゴリズムを設計するという課題は、まだオープンな研究課題である。 この課題に取り組むために,新しい強化学習(rl)手法を適用することを提案する。 我々の解であるMARLINは、ソフトアクター・クライブアルゴリズムを用いてエントロピーとリターンの両方を最大化し、学習プロセスを無限水平タスクとしてモデル化する。 我々は,RLをCCに適用する際に,研究者が遭遇した実ミスマッチを克服するために,様々な背景トラフィックパターンを持つ実ネットワーク上でMARLINを訓練した。 ファイル転送のタスクにおいて、我々のソリューションを評価し、TCP Cubicと比較した。 さらなる研究が必要であるが、MARLINはトレーニング設定とは大きく異なるタスクで、ハイパーパラメータチューニングの少ないTCPに匹敵する結果が得られることを示した。 したがって,本研究は,最大エントロピーRLフレームワークに基づくCCアルゴリズム構築に向けた有望な第一歩であると考えている。

Fast and efficient transport protocols are the foundation of an increasingly distributed world. The burden of continuously delivering improved communication performance to support next-generation applications and services, combined with the increasing heterogeneity of systems and network technologies, has promoted the design of Congestion Control (CC) algorithms that perform well under specific environments. The challenge of designing a generic CC algorithm that can adapt to a broad range of scenarios is still an open research question. To tackle this challenge, we propose to apply a novel Reinforcement Learning (RL) approach. Our solution, MARLIN, uses the Soft Actor-Critic algorithm to maximize both entropy and return and models the learning process as an infinite-horizon task. We trained MARLIN on a real network with varying background traffic patterns to overcome the sim-to-real mismatch that researchers have encountered when applying RL to CC. We evaluated our solution on the task of file transfer and compared it to TCP Cubic. While further research is required, results have shown that MARLIN can achieve comparable results to TCP with little hyperparameter tuning, in a task significantly different from its training setting. Therefore, we believe that our work represents a promising first step toward building CC algorithms based on the maximum entropy RL framework.
翻訳日:2023-02-03 12:59:40 公開日:2023-02-02
# ノイズリンクによる誤り補正量子ビットのフォールトトレラント接続

Fault-Tolerant Connection of Error-Corrected Qubits with Noisy Links ( http://arxiv.org/abs/2302.01296v1 )

ライセンス: Link先を確認
Joshua Ramette, Josiah Sinclair, Nikolas P. Breuckmann, and Vladan Vuleti\'c(参考訳) スケーラブルな量子コンピューティングへの最も有望な道の1つはモジュラーアプローチである。 接続インターフェースにかなりのノイズがある場合でも、異なる表面コードパッチをフォールトトレラントな方法で接続可能であることを示す。 界面とバルクにまたがる誤差の影響を解析的および数値的に定量化する。 提案手法はバルクに比べて14倍高いノイズを許容できるが、コードのしきい値とサブスレッショルドの振る舞いにはほとんど影響がなく、$\sim 1 \%$バルクエラーと$\sim 10 \%$インターフェースエラーでしきい値に達する。 これは、エラー訂正されたモジュラーデバイスのフォールトトレラントなスケーリングが、既存の技術を使って限界に達していることを意味する。

One of the most promising routes towards scalable quantum computing is a modular approach. We show that distinct surface code patches can be connected in a fault-tolerant manner even in the presence of substantial noise along their connecting interface. We quantify analytically and numerically the combined effect of errors across the interface and bulk. We show that the system can tolerate 14 times higher noise at the interface compared to the bulk, with only a small effect on the code's threshold and sub-threshold behavior, reaching threshold with $\sim 1 \%$ bulk errors and $\sim 10 \%$ interface errors. This implies that fault-tolerant scaling of error-corrected modular devices is within reach using existing technology.
翻訳日:2023-02-03 12:59:17 公開日:2023-02-02
# 家の中のディットー:対話的知覚による室内シーンの調音モデルの構築

Ditto in the House: Building Articulation Models of Indoor Scenes through Interactive Perception ( http://arxiv.org/abs/2302.01295v1 )

ライセンス: Link先を確認
Cheng-Chun Hsu and Zhenyu Jiang and Yuke Zhu(参考訳) 物理世界を仮想モデルに仮想化することは、現実世界におけるロボットナビゲーションと計画にとって重要な技術である。 本研究は,日常生活における関節物体の操作を促進するため,ロボットの意図的なインタラクションによる室内シーンの調音モデルの構築を考察する。 調音推論に関する先行研究は、主に限定されたカテゴリのサイロ化されたオブジェクトに焦点を当てている。 室内環境に拡張するためには、ロボットは大規模3D空間を効率的かつ効果的に探索し、明瞭な物体を特定し、関節を推測する必要がある。 我々はこの課題にインタラクティブな知覚アプローチを導入する。 提案手法はditto in the houseと名付けられ,アフォーマンス予測による関節物体の検出,これらの物体と相互作用して関節運動を生成し,各相互作用前後の視覚観察から関節特性を推定する。 両タスクを改善するために、アフォーアンス予測と調音推論を密結合する。 シミュレーションと実世界の両方において,本手法の有効性を示す。 コードと追加結果はhttps://ut-austin-rpl.github.io/houseditto/で入手できる。

Virtualizing the physical world into virtual models has been a critical technique for robot navigation and planning in the real world. To foster manipulation with articulated objects in everyday life, this work explores building articulation models of indoor scenes through a robot's purposeful interactions in these scenes. Prior work on articulation reasoning primarily focuses on siloed objects of limited categories. To extend to room-scale environments, the robot has to efficiently and effectively explore a large-scale 3D space, locate articulated objects, and infer their articulations. We introduce an interactive perception approach to this task. Our approach, named Ditto in the House, discovers possible articulated objects through affordance prediction, interacts with these objects to produce articulated motions, and infers the articulation properties from the visual observations before and after each interaction. It tightly couples affordance prediction and articulation inference to improve both tasks. We demonstrate the effectiveness of our approach in both simulation and real-world scenes. Code and additional results are available at https://ut-austin-rpl.github.io/HouseDitto/
翻訳日:2023-02-03 12:59:05 公開日:2023-02-02
# ラベルなし領域の連続学習のためのマルチスケール特徴アライメント

Multi-scale Feature Alignment for Continual Learning of Unlabeled Domains ( http://arxiv.org/abs/2302.01287v1 )

ライセンス: Link先を確認
Kevin Thandiackal, Luigi Piccinelli, Pushpak Pati, Orcun Goksel(参考訳) 教師なしドメイン適応(UDA)の方法は、ラベル付きデータなしで見えないドメイン上でのディープニューラルネットワークの性能を向上させるのに役立つ。 特に病理学などの医学分野において、詳細な注釈のある大規模なデータセットは乏しいため、これは重要である。 既存のUDA手法のほとんどはラベル付きソースから単一のラベル付きターゲットドメインへの適応に重点を置いているが、長いライフサイクルを持つ現実世界のアプリケーションの多くは複数のターゲットドメインを含んでいる。 したがって、複数のターゲットドメインに順次適応する能力は不可欠である。 例えば、データ保護規則によって、前述のドメインからのデータを保存することができない環境では、上記の問題は継続的な学習の問題となる。 そこで本研究では,複目的判別器を併用した生成的特徴駆動画像再生法を提案する。 組織型分類のための3つの病理組織学的データセットの配列からアプローチを広く評価し,その結果を得た。 高分解能組織画像を用いた無監督パッチベースセグメンテーションタスクにおいて,提案手法の構成要素について詳細なアブレーション実験を行い,その適用可能性を示した。

Methods for unsupervised domain adaptation (UDA) help to improve the performance of deep neural networks on unseen domains without any labeled data. Especially in medical disciplines such as histopathology, this is crucial since large datasets with detailed annotations are scarce. While the majority of existing UDA methods focus on the adaptation from a labeled source to a single unlabeled target domain, many real-world applications with a long life cycle involve more than one target domain. Thus, the ability to sequentially adapt to multiple target domains becomes essential. In settings where the data from previously seen domains cannot be stored, e.g., due to data protection regulations, the above becomes a challenging continual learning problem. To this end, we propose to use generative feature-driven image replay in conjunction with a dual-purpose discriminator that not only enables the generation of images with realistic features for replay, but also promotes feature alignment during domain adaptation. We evaluate our approach extensively on a sequence of three histopathological datasets for tissue-type classification, achieving state-of-the-art results. We present detailed ablation experiments studying our proposed method components and demonstrate a possible use-case of our continual UDA method for an unsupervised patch-based segmentation task given high-resolution tissue images.
翻訳日:2023-02-03 12:58:47 公開日:2023-02-02
# Navier-Stokes方程式の低次元パラメトリゼーションのための畳み込みオートエンコーダ、クラスタリングおよびPOD

Convolutional Autoencoders, Clustering and POD for Low-dimensional Parametrization of Navier-Stokes Equations ( http://arxiv.org/abs/2302.01278v1 )

ライセンス: Link先を確認
Yongho Kim, Jan Heiland(参考訳) 大規模力学系のシミュレーションは高価な計算を必要とする。 固有直交分解(POD)のような高次元状態の低次元パラメトリゼーションは、精度とモデルの複雑さの間に一定の妥協を与えることにより、負担を軽減する解決策となる。 しかし、本当に低次元のパラメトリゼーション(例えばコントローラ設計)の場合、PODのような線形手法は自然の限界に達し、非線形アプローチが選択の方法となる。 本研究では,非線形エンコーダとアフィン線形デコーダを組み合わせた畳み込みオートエンコーダ(CAE)を提案する。 提案手法は, 圧縮不能なNavier-Stokes方程式をモデルとした2つのシリンダーウェイクシナリオにおける標準POD手法と比較した。

Simulations of large-scale dynamical systems require expensive computations. Low-dimensional parametrization of high-dimensional states such as Proper Orthogonal Decomposition (POD) can be a solution to lessen the burdens by providing a certain compromise between accuracy and model complexity. However, for really low-dimensional parametrizations (for example for controller design) linear methods like the POD come to their natural limits so that nonlinear approaches will be the methods of choice. In this work we propose a convolutional autoencoder (CAE) consisting of a nonlinear encoder and an affine linear decoder and consider combinations with k-means clustering for improved encoding performance. The proposed set of methods is compared to the standard POD approach in two cylinder-wake scenarios modeled by the incompressible Navier-Stokes equations.
翻訳日:2023-02-03 12:58:11 公開日:2023-02-02
# ReLOAD:拘束型MDPにおける最終Iterate Convergenceのための最適漸進学習による強化学習

ReLOAD: Reinforcement Learning with Optimistic Ascent-Descent for Last-Iterate Convergence in Constrained MDPs ( http://arxiv.org/abs/2302.01275v1 )

ライセンス: Link先を確認
Ted Moskovitz, Brendan O'Donoghue, Vivek Veeriah, Sebastian Flennerhag, Satinder Singh, Tom Zahavy(参考訳) 近年,Reinforcement Learning (RL) が実世界の問題に適用され,成功を収めている。 このようなアプリケーションは、しばしばエージェントの振る舞いに制約を課す必要がある。 制約付きRL(CRL)の既存のアルゴリズムは勾配降下上昇に依存するが、このアプローチには注意が必要である。 これらのアルゴリズムは平均的に収束することが保証されているが、ラストイテレート収束を保証せず、すなわち、エージェントの現在のポリシーは最適解に収束しないかもしれない。 実際には、政策が制約を満たすことと報酬を最大化することとを交互に行うことがしばしば観察され、同時に両方の目的を達成することは滅多にない。 本稿では,最終項目収束を保証するCRL法であるReinforcement Learning with Optimistic Ascent-Descent (ReLOAD)を導入することでこの問題に対処する。 離散MDPや連続制御を含む多種多様なCRL問題に対して,その経験的効果を示す。 この過程で、CRL問題に関するベンチマークを確立する。

In recent years, Reinforcement Learning (RL) has been applied to real-world problems with increasing success. Such applications often require to put constraints on the agent's behavior. Existing algorithms for constrained RL (CRL) rely on gradient descent-ascent, but this approach comes with a caveat. While these algorithms are guaranteed to converge on average, they do not guarantee last-iterate convergence, i.e., the current policy of the agent may never converge to the optimal solution. In practice, it is often observed that the policy alternates between satisfying the constraints and maximizing the reward, rarely accomplishing both objectives simultaneously. Here, we address this problem by introducing Reinforcement Learning with Optimistic Ascent-Descent (ReLOAD), a principled CRL method with guaranteed last-iterate convergence. We demonstrate its empirical effectiveness on a wide variety of CRL problems including discrete MDPs and continuous control. In the process we establish a benchmark of challenging CRL problems.
翻訳日:2023-02-03 12:57:55 公開日:2023-02-02
# 量子状態における表面音響波ファノ干渉

Surface acoustic wave Fano interference in the quantum regime ( http://arxiv.org/abs/2302.01271v1 )

ライセンス: Link先を確認
J. M. Kitzman, J. R. Lane, C. Undershute, N. R. Beysengulov, C. A. Mikolas, K. W. Murch and J. Pollanen(参考訳) 表面またはバルクフォノンと超伝導量子ビットを統合する量子音響システムは、量子状態における音速干渉と散乱過程を研究するユニークな機会を提供する。 特に超伝導量子ビットと音波発振器の相互作用により、クビットは発振器の励起スペクトルと基礎となる干渉効果のセンサーとして機能する。 本稿では、超伝導量子ビットに結合したSAW共振器からなるシステムにおいて、共振トラップ型圧電面音響波(SAW)モードと広い面フォノンの干渉を明らかにする。 SAWデバイスにフォノンを投入することにより、クビットの結果として生じるアクスタークシフトを利用して、表面フォノンコヒーレント状態の平均励起数を周波数関数として抽出する。 この方法では、qubitはハイブリッドデバイスにおける表面フォノン環境の分光センサとして機能し、共鳴ソーモードにおけるフォノン間の相互作用と、表面ピエゾフォノンのファノ干渉の文脈でよく説明されているより広い表面フォノン背景を明らかにすることができる。

Quantum acoustic systems, which integrate surface or bulk phonons with superconducting qubits, offer a unique opportunity to investigate phononic interference and scattering processes in the quantum regime. In particular the interaction between a superconducting qubit and a phononic oscillator allows the qubit to operate as a sensor of the oscillator's excitation spectra and underlying interference effects. Here we present measurements revealing the interference of a resonantly trapped piezoelectric surface acoustic wave (SAW) mode and a broad continuum of surface phonons in a system consisting of a SAW resonator coupled to a superconducting qubit. By populating the SAW device with phonons we leverage the resulting ac Stark shift of the qubit to extract the mean excitation number of the surface phonon coherent state as a function of frequency. In this fashion, the qubit functions as a spectroscopic sensor of the surface phonon environment in the hybrid device and allows us to reveal the interaction between phonons in the resonant SAW mode and the broader surface phonon background, which is well-described within the context of Fano interference of surface piezo-phonons.
翻訳日:2023-02-03 12:57:39 公開日:2023-02-02
# 一般順序付け定理

General Ordering Theorem ( http://arxiv.org/abs/2302.01264v1 )

ライセンス: Link先を確認
Luca Ferialdi(参考訳) 順序演算子の問題は、その基礎以来量子力学を苦しめてきた。 いくつかの順序が考案されているが、ある順序から別の順序へ移動する体系的な手順がまだ欠けている。 異なる順序間の関係を確立することの重要性は、量子場理論の発展に重要な役割を果たしたウィックの定理(通常の順序に時間的順序を関連づける)によって証明される。 一般順序定理(General Ordering Theorem, GOT)は, 一般(演算的)可換関係を満たす演算子に作用する任意の順序関係を定式化したものである。 簡単な例で GOT の作用原理を公開し、2つの有名な代数的定理(マグナス展開とベーカー・カンベル・ハウスドルフの公式)を特殊例として回収することでその可能性を示す。 注目すべきことに、GOTはこれらの2つの定理の間の公式な関係を確立し、それらに対してコンパクトな表現を提供する。

The problem of ordering operators has afflicted quantum mechanics since its foundation. Several orderings have been devised, but a systematic procedure to move from one ordering to another is still missing. The importance of establishing relations among different orderings is demonstrated by Wick's theorem (which relates time ordering to normal ordering), which played a crucial role in the development of quantum field theory. We prove the General Ordering Theorem (GOT), which establishes a relation among any pair of orderings, that act on operators satisfying generic (i.e. operatorial) commutation relations. We expose the working principles of the GOT by simple examples, and we demonstrate its potential by recovering two famous algebraic theorems as special instances: the Magnus expansion and the Baker-Campbell-Hausdorff formula. Remarkably, the GOT establishes a formal relation between these two theorems, and it provides compact expressions for them, unlike the notoriously complicated ones currently known.
翻訳日:2023-02-03 12:57:20 公開日:2023-02-02
# 保存弱同値原理を持つ異なるタイプの変形ハイゼンベルク代数

Deformed Heisenberg algebras of different types with preserved weak equivalence principle ( http://arxiv.org/abs/2302.01262v1 )

ライセンス: Link先を確認
Kh. P. Gnatenko, V. M. Tkachuk(参考訳) 本稿では、座標とモーメントの演算子に対して変形した可換関係を持つ空間における弱同値原理の回復に関する結果について概観する。 空間量子化につながる変形代数の異なる種類は、正準型の非可換代数、リー型の代数、モータに依存する任意の変形関数を持つ非線形変形代数である。 重力場における粒子の運動と複合系の運動を調べ,弱同値原理の実装について検討した。 この原理は、変形代数のパラメータが質量に依存すると考えるとき、量子化された空間で保存される。 また, 質量に対する変形代数のパラメータ依存性は, 量子化空間における運動エネルギーの性質の保存と, マクロ物体の運動に対する空間量子化の有意な影響の解決に繋がることを示した(この問題はサッカー・ボール問題として知られている)。

In the paper a review of results for recovering of the weak equivalence principle in a space with deformed commutation relations for operators of coordinates and momenta is presented. Different types of deformed algebras leading to a space quantization are considered among them noncommutative algebra of canonical type, algebra of Lie type, nonlinear deformed algebra with arbitrary function of deformation depending on momenta. A motion of a particle and a composite system in gravitational field is examined and the implementation of the weak equivalence principle is studied. The principle is preserved in quantized space if we consider parameters of deformed algebras to be dependent on mass. It is also shown that dependencies of parameters of deformed algebras on mass lead to preserving of the properties of the kinetic energy in quantized spaces and solving of the problem of significant effect of space quantization on the motion of macroscopic bodies (the problem is known as the soccer-ball problem).
翻訳日:2023-02-03 12:57:03 公開日:2023-02-02
# グローバルクエンチ後の3部情報の普遍性:(一般化された)量子xyモデル

Universality in the tripartite information after global quenches: (generalised) quantum XY models ( http://arxiv.org/abs/2302.01322v1 )

ライセンス: Link先を確認
Vanja Mari\'c and Maurizio Fagotti(参考訳) 一様状態と二成分状態の両方の非相互作用スピン鎖のグローバルクエンチ後に出現する定常状態の3つの隣接サブシステムのうち、r\'enyi-$\alpha$三成分情報$i_3^{(\alpha)}$を考える。 i_3^{(\alpha)}$ が無限長の極限でも 0 に残らないような設定を特定し、場の理論記述を開発する。 計算を二重連結領域に対する分別定数行列を持つリーマン・ヒルベルト問題に写像する。 我々は、$\alpha=2$の明示的な解と$\alpha>2$の暗黙の解を見つける。 後者の場合、急速に収束する摂動理論を開発し、精度に優れた$i_3^{(\alpha)}$を近似する解析式を導出する。

We consider the R\'enyi-$\alpha$ tripartite information $I_3^{(\alpha)}$ of three adjacent subsystems in the stationary state emerging after global quenches in noninteracting spin chains from both homogeneous and bipartite states. We identify settings in which $I_3^{(\alpha)}$ remains nonzero also in the limit of infinite lengths and develop a field theory description. We map the calculation into a Riemann-Hilbert problem with a piecewise constant matrix for a doubly connected domain. We find an explicit solution for $\alpha=2$ and an implicit one for $\alpha>2$. In the latter case, we develop a rapidly convergent perturbation theory that we use to derive analytic formulae approximating $I_3^{(\alpha)}$ with outstanding accuracy.
翻訳日:2023-02-03 12:51:01 公開日:2023-02-02
# 投機サンプリングによる大規模言語モデルデコーディングの高速化

Accelerating Large Language Model Decoding with Speculative Sampling ( http://arxiv.org/abs/2302.01318v1 )

ライセンス: Link先を確認
Charlie Chen, Sebastian Borgeaud, Geoffrey Irving, Jean-Baptiste Lespiau, Laurent Sifre, John Jumper(参考訳) 本稿では,各トランスコールから複数のトークンを生成することで,トランスデコーディングを高速化するアルゴリズムである投機サンプリングを提案する。 提案アルゴリズムは,より高速で低出力なドラフトモデルによって生成される短い継続の並列スコアリングのレイテンシが,より大きなターゲットモデルから単一トークンをサンプリングするレイテンシと同等であることを示す。 これは、ハードウェア数値内のターゲットモデルの分布を保存する新しい修正された拒絶サンプリングスキームと組み合わせられる。 我々は、70億のパラメータ言語モデルであるChinchillaを用いて投機的サンプリングをベンチマークし、サンプルの品質を損なうことなく、分散セットアップで2-2.5倍のデコード速度を達成する。

We present speculative sampling, an algorithm for accelerating transformer decoding by enabling the generation of multiple tokens from each transformer call. Our algorithm relies on the observation that the latency of parallel scoring of short continuations, generated by a faster but less powerful draft model, is comparable to that of sampling a single token from the larger target model. This is combined with a novel modified rejection sampling scheme which preserves the distribution of the target model within hardware numerics. We benchmark speculative sampling with Chinchilla, a 70 billion parameter language model, achieving a 2-2.5x decoding speedup in a distributed setup, without compromising the sample quality or making modifications to the model itself.
翻訳日:2023-02-03 12:50:47 公開日:2023-02-02
# 拡散モデルはメンバーシップ推論攻撃に脆弱か?

Are Diffusion Models Vulnerable to Membership Inference Attacks? ( http://arxiv.org/abs/2302.01316v1 )

ライセンス: Link先を確認
Jinhao Duan, Fei Kong, Shiqi Wang, Xiaoshuang Shi, Kaidi Xu(参考訳) 拡散に基づく生成モデルは画像合成に大きな可能性を示しているが、それらが引き起こすセキュリティやプライバシのリスクについての研究は乏しい。 本稿では,共通するプライバシー問題であるメンバーシップ推論攻撃(mias)に対する拡散モデルの脆弱性について検討する。 以上の結果から,gansやvae用に設計された既存のmiasは,適用不能なシナリオ(gansの判別器が必要)や不適切な仮定(合成画像とメンバー画像の距離の近さなど)によって拡散モデルにほとんど影響しないことが示された。 このギャップに対処するため,ステップワイド・エラー比較メンバーシップ推論 (SecMI) を提案し,各段階におけるプロセス後続推定のマッチングを評価し,メンバーシップを推定するブラックボックスMIAを提案する。 SecMIは、通常、メンバーサンプルがホールドアウトサンプルよりも小さい推定誤差を持つMIAの一般的なオーバーフィッティング仮定に従う。 DDPMのような標準拡散モデルと、安定拡散のようなテキスト・画像拡散モデルの両方を考慮する。 実験結果から,提案手法は6つのデータセットにまたがる2つのシナリオに対して,高い信頼度で会員を正確に推定することを示した。

Diffusion-based generative models have shown great potential for image synthesis, but there is a lack of research on the security and privacy risks they may pose. In this paper, we investigate the vulnerability of diffusion models to Membership Inference Attacks (MIAs), a common privacy concern. Our results indicate that existing MIAs designed for GANs or VAE are largely ineffective on diffusion models, either due to inapplicable scenarios (e.g., requiring the discriminator of GANs) or inappropriate assumptions (e.g., closer distances between synthetic images and member images). To address this gap, we propose Step-wise Error Comparing Membership Inference (SecMI), a black-box MIA that infers memberships by assessing the matching of forward process posterior estimation at each timestep. SecMI follows the common overfitting assumption in MIA where member samples normally have smaller estimation errors, compared with hold-out samples. We consider both the standard diffusion models, e.g., DDPM, and the text-to-image diffusion models, e.g., Stable Diffusion. Experimental results demonstrate that our methods precisely infer the membership with high confidence on both of the two scenarios across six different datasets
翻訳日:2023-02-03 12:50:32 公開日:2023-02-02
# 知識グラフ補完のための二重置換等価性

Double Permutation Equivariance for Knowledge Graph Completion ( http://arxiv.org/abs/2302.01313v1 )

ライセンス: Link先を確認
Jianfei Gao, Yangze Zhou, Bruno Ribeiro(参考訳) この研究は知識グラフ(kgs)を、二重交換可能な有理グラフを表す新しいグラフのクラスとして形式化し、ノードとペアワイズ(joint 2-node)表現は、ノードidとエッジ(&node)属性(relation & node feature)の両方の置換に同値でなければならない。 二重置換同変 KG 表現は KG の新しい研究方向を開く。 この等分散は、ニューラルネットワークが複雑な論理推論タスクをkgsで実行できるようにする関係の構造的表現を課す。 最後に、そのような同変表現の一般的な青写真を導入し、簡単なGNNベースの二重置換同変ニューラルアーキテクチャを検証し、WN18RRv1とNELL995v1のインダクティブKG完了タスクの両方で100% Hits@10テスト精度を達成し、既存のメソッドが実行できない論理的推論タスクを、私たちの知る限りで正確に行うことができる。

This work provides a formalization of Knowledge Graphs (KGs) as a new class of graphs that we denote doubly exchangeable attributed graphs, where node and pairwise (joint 2-node) representations must be equivariant to permutations of both node ids and edge (& node) attributes (relations & node features). Double-permutation equivariant KG representations open a new research direction in KGs. We show that this equivariance imposes a structural representation of relations that allows neural networks to perform complex logical reasoning tasks in KGs. Finally, we introduce a general blueprint for such equivariant representations and test a simple GNN-based double-permutation equivariant neural architecture that achieve 100% Hits@10 test accuracy in both the WN18RRv1 and NELL995v1 inductive KG completion tasks, and can accurately perform logical reasoning tasks that no existing methods can perform, to the best of our knowledge.
翻訳日:2023-02-03 12:50:07 公開日:2023-02-02
# リッチアレタリックおよびてんかん不確実性モデリングのための正規化フローアンサンブル

Normalizing Flow Ensembles for Rich Aleatoric and Epistemic Uncertainty Modeling ( http://arxiv.org/abs/2302.01312v1 )

ライセンス: Link先を確認
Lucas Berry and David Meger(参考訳) そこで本研究では,複雑なアレゲータ分布を捉えるのに必要な柔軟性を維持しつつ,認識的不確実性を確実に推定する方法を示す。 そこで本研究では,アレエータ的不確かさのモデル化における最先端手法である正規化流れ(nf)のアンサンブルを提案する。 アンサンブルは固定されたドロップアウトマスクのセットで作られ、異なるNFモデルを作成するよりも安価である。 本研究では, NFsの特異構造, 基底分布, 平均不確かさをサンプルに頼らずに推定する方法を示し, ベースラインの包括的セットを提供し, 微分エントロピーの偏りのない推定を導出する。 これらの手法は,1次元正弦波データ,2次元風洞グリッドワールド(\it{Wet Chicken}$),$\it{Pendulum}$,$\it{Hopper}$など,様々な実験に応用された。 これらの実験では,能動的学習フレームワークを構築し,各モデルがアレタリックおよびてんかん不確実性を測定する能力を評価する。 以上の結果から,nfアンサンブルを用いて正確な認識の不確実性推定を保ちながら複雑なアレオータリックを捉えることの利点が示された。

In this work, we demonstrate how to reliably estimate epistemic uncertainty while maintaining the flexibility needed to capture complicated aleatoric distributions. To this end, we propose an ensemble of Normalizing Flows (NF), which are state-of-the-art in modeling aleatoric uncertainty. The ensembles are created via sets of fixed dropout masks, making them less expensive than creating separate NF models. We demonstrate how to leverage the unique structure of NFs, base distributions, to estimate aleatoric uncertainty without relying on samples, provide a comprehensive set of baselines, and derive unbiased estimates for differential entropy. The methods were applied to a variety of experiments, commonly used to benchmark aleatoric and epistemic uncertainty estimation: 1D sinusoidal data, 2D windy grid-world ($\it{Wet Chicken}$), $\it{Pendulum}$, and $\it{Hopper}$. In these experiments, we setup an active learning framework and evaluate each model's capability at measuring aleatoric and epistemic uncertainty. The results show the advantages of using NF ensembles in capturing complicated aleatoric while maintaining accurate epistemic uncertainty estimates.
翻訳日:2023-02-03 12:49:45 公開日:2023-02-02
# 待ち時間が異なる複数目的のベイズ最適化

Bayesian Optimization of Multiple Objectives with Different Latencies ( http://arxiv.org/abs/2302.01310v1 )

ライセンス: Link先を確認
Jack M. Buckingham, Sebastian Rojas Gonzalez and Juergen Branke(参考訳) 多目的ベイズ最適化は、できるだけ少数のサンプルを集めながら、高価な目標間の最適なトレードオフのパレートフロントを見つけることを目的としている。 いくつかのケースでは、目的を個別に評価することができ、異なるレイテンシや評価コストをそれぞれの目標に関連付けることができる。 これにより、より安価な目的をより頻繁に評価することで、paretoフロントをより早く学習する機会が得られる。 目的の異なる評価コストを考慮に入れたスキャラライズに基づく知識勾配獲得関数を提案する。 アルゴリズムの一貫性を証明し,両目的を常に評価するベンチマークアルゴリズムを著しく上回っていることを示す。

Multi-objective Bayesian optimization aims to find the Pareto front of optimal trade-offs between a set of expensive objectives while collecting as few samples as possible. In some cases, it is possible to evaluate the objectives separately, and a different latency or evaluation cost can be associated with each objective. This presents an opportunity to learn the Pareto front faster by evaluating the cheaper objectives more frequently. We propose a scalarization based knowledge gradient acquisition function which accounts for the different evaluation costs of the objectives. We prove consistency of the algorithm and show empirically that it significantly outperforms a benchmark algorithm which always evaluates both objectives.
翻訳日:2023-02-03 12:49:20 公開日:2023-02-02
# 量子ダイアモンド顕微鏡による多層集積回路の高分解能短絡欠陥定位

High-Resolution Short-Circuit Fault Localization in a Multi-Layer Integrated Circuit using a Quantum Diamond Microscope ( http://arxiv.org/abs/2302.01309v1 )

ライセンス: Link先を確認
P. Kehayias, J. Walraven, A. L. Rodarte, A. M. Mounce(参考訳) 集積回路(IC)の幾何学とパッケージングは、製造と設計の革新が進行中であるため、電気工学のコミュニティは、多層膜(複数の金属層を持つ)とマルチチップコンポーネントのトラブルシューティングの課題に対応するために、ますます強力な故障解析(FA)手法を必要としている。 本研究では、量子ダイヤモンド顕微鏡(QDM)を用いて、短絡断層から磁場を撮像する新しい電子FA法について検討する。 多層シリコンダイス中の短絡欠陥を検出して性能を定量化した後、不均一集積型(HI)ダイススタック内の欠陥をQDMがどのように検出するかを評価する。 この研究は、QDMベースの磁気イメージングを電子FAの競争技術として確立し、高空間分解能、高感度、堅牢な計測を提供する。 これらの利点は、多くの金属層、光学的不透明層、あるいは光学的散乱層を有するチップスタックICの奥深くにある欠陥を見つけるのに特に有用であると予想する。

As integrated circuit (IC) geometry and packaging become more sophisticated with ongoing fabrication and design innovations, the electrical engineering community needs increasingly-powerful failure analysis (FA) methods to meet the growing troubleshooting challenges of multi-layer (with multiple metal layers) and multi-chip components. In this work, we investigate a new electronics FA method using a quantum diamond microscope (QDM) to image the magnetic fields from short-circuit faults. After quantifying the performance by detecting short-circuit faults in a multi-layer silicon die, we assess how a QDM would detect faults in a heterogeneously integrated (HI) die stack. This work establishes QDM-based magnetic imaging as a competitive technique for electronics FA, offering high spatial resolution, high sensitivity, and robust instrumentation. We anticipate these advantages to be especially useful for finding faults deep within chip-stack ICs with many metal layers, optically-opaque layers, or optically-scattering layers.
翻訳日:2023-02-03 12:49:11 公開日:2023-02-02
# 知覚に関する言語は何か:大規模言語モデルから心理学的知識を蒸留する

What Language Reveals about Perception: Distilling Psychophysical Knowledge from Large Language Models ( http://arxiv.org/abs/2302.01308v1 )

ライセンス: Link先を確認
Raja Marjieh, Ilia Sucholutsky, Pol van Rijn, Nori Jacoby, Thomas L. Griffiths(参考訳) 言語から知覚世界が回復できる範囲を理解することは認知科学における根本的な問題である。 テキストから心理物理学情報を蒸留する手法としてこの問題を再考し,大言語モデル(LLM)と類似性判定に基づく古典的な心理物理学的手法を組み合わせることで,これを実現する方法を示す。 具体的には、最新のLCMであるGPT3の即時自動補完機能を用いて、刺激間の類似点を抽出し、その基礎となる心理的空間を明らかにするために多次元スケーリングを適用する。 提案手法を6つの知覚領域で検証し,誘因的判断が人間のデータと強く相関し,カラーホイールやピッチスパイラルなどのよく知られた心理物理構造を回復することを示す。 また、LLMと人間の表現の有意義な相違についても検討する。 我々の研究は、最先端のマシンモデルとよく知られた認知パラダイムを組み合わせることで、認識と言語研究の基本的な問題に新たな光を当てることができることを示す。

Understanding the extent to which the perceptual world can be recovered from language is a fundamental problem in cognitive science. We reformulate this problem as that of distilling psychophysical information from text and show how this can be done by combining large language models (LLMs) with a classic psychophysical method based on similarity judgments. Specifically, we use the prompt auto-completion functionality of GPT3, a state-of-the-art LLM, to elicit similarity scores between stimuli and then apply multidimensional scaling to uncover their underlying psychological space. We test our approach on six perceptual domains and show that the elicited judgments strongly correlate with human data and successfully recover well-known psychophysical structures such as the color wheel and pitch spiral. We also explore meaningful divergences between LLM and human representations. Our work showcases how combining state-of-the-art machine models with well-known cognitive paradigms can shed new light on fundamental questions in perception and language research.
翻訳日:2023-02-03 12:48:50 公開日:2023-02-02
# GA4QCO:量子回路最適化のための遺伝的アルゴリズム

GA4QCO: Genetic Algorithm for Quantum Circuit Optimization ( http://arxiv.org/abs/2302.01303v1 )

ライセンス: Link先を確認
Leo S\"unkel, Darya Martyniuk, Denny Mattern, Johannes Jung, Adrian Paschke(参考訳) 量子回路の設計は、例えば特定のパターンや規則に従うことによって、しばしば手作業で行われる。 このアプローチは、いくつかの問題に対してうまく機能するかもしれないが、退屈な作業であり、他の状況では、かなり困難である。 単純な分類問題のために回路のアーキテクチャを設計することは比較的簡単な作業であるが、より複雑な問題に対する回路の作成や、特定の既知の問題(例えば、バレンプラトー、トレーニング容易性など)に対する耐性は異なる問題である。 さらに、ほとんどのアルゴリズムでは、低深さの効率的な状態準備や回路が重要である。 回路設計のプロセスを自動化する試みでは、遺伝的アルゴリズムや強化学習など、長年にわたり異なるアプローチが提案されてきた。 本稿では,ユーザ定義特性を示す量子回路の自動探索に遺伝的アルゴリズムを適用したGA4QCOフレームワークを提案する。 このフレームワークでは、例えば、深さを最小に保ち、忠実度を最大化しながら、特定のターゲット状態を生成する回路など、どの種類の回路を作成すべきかを適合関数を通じて指定します。 私たちのフレームワークは、ユーザがカスタムデザインのフィットネス機能を簡単に統合できるように設計されています。 本稿では,提案手法の有効性を示すためのフレームワークと実行実験について述べる。

The design of quantum circuits is often still done manually, for instance by following certain patterns or rule of thumb. While this approach may work well for some problems, it can be a tedious task and present quite the challenge in other situations. Designing the architecture of a circuit for a simple classification problem may be relatively straightforward task, however, creating circuits for more complex problems or that are resilient to certain known problems (e.g. barren plateaus, trainability, etc.) is a different issue. Moreover, efficient state preparation or circuits with low depth are important for virtually most algorithms. In attempts to automate the process of designing circuits, different approaches have been suggested over the years, including genetic algorithms and reinforcement learning. We propose our GA4QCO framework that applies a genetic algorithm to automatically search for quantum circuits that exhibit user-defined properties. With our framework, the user specifies through a fitness function what type of circuit should be created, for instance circuits that prepare a specific target state while keeping depth at a minimum and maximizing fidelity. Our framework is designed in such a way that the user can easily integrate a custom designed fitness function. In this paper, we introduce our framework and run experiments to show the validity of the approach.
翻訳日:2023-02-03 12:48:34 公開日:2023-02-02
# ナノスケールデバイス確率を利用した二元スパイクネットワークのベイズ推定

Bayesian Inference on Binary Spiking Networks Leveraging Nanoscale Device Stochasticity ( http://arxiv.org/abs/2302.01302v1 )

ライセンス: Link先を確認
Prabodh Katti, Nicolas Skatchkovsky, Osvaldo Simeone, Bipin Rajendran, Bashir M. Al-Hashimi(参考訳) ベイジアンニューラルネットワーク(BNN)は、従来の頻繁なディープニューラルネットワークを悩ませる過信の問題を克服することができるため、信頼できるAIシステムにとって重要な実現手段であると考えられている。 しかしながら、従来のBNNのハードウェア実現はリソース集約であり、シナプスサンプリングのための乱数生成器の実装が必要である。 プログラミングや読み取り操作において固有の確率性のため、ナノスケールのメムリシティブデバイスは、追加のハードウェアリソースを必要とせずに直接サンプリングに利用することができる。 本稿では,BNNの2次シナプスを用いた新しい位相変化メモリ(PCM)によるハードウェア実装を提案する。 提案アーキテクチャは,PCMセルを重みの固有値を表すように構成・操作し,それぞれにサンプリングに必要なノイズを生成する,分離された重みとノイズプレーンから構成される。 実験的に観測されたpcmノイズ特性を用いて、例えば乳がんの分類問題において、コア領域トランジスタ数で9$\times$以上の節約が期待できる8ビット固定点(fxp8)実装のハードウェア精度と予測校正誤差を求める。

Bayesian Neural Networks (BNNs) can overcome the problem of overconfidence that plagues traditional frequentist deep neural networks, and are hence considered to be a key enabler for reliable AI systems. However, conventional hardware realizations of BNNs are resource intensive, requiring the implementation of random number generators for synaptic sampling. Owing to their inherent stochasticity during programming and read operations, nanoscale memristive devices can be directly leveraged for sampling, without the need for additional hardware resources. In this paper, we introduce a novel Phase Change Memory (PCM)-based hardware implementation for BNNs with binary synapses. The proposed architecture consists of separate weight and noise planes, in which PCM cells are configured and operated to represent the nominal values of weights and to generate the required noise for sampling, respectively. Using experimentally observed PCM noise characteristics, for the exemplary Breast Cancer Dataset classification problem, we obtain hardware accuracy and expected calibration error matching that of an 8-bit fixed-point (FxP8) implementation, with projected savings of over 9$\times$ in terms of core area transistor count.
翻訳日:2023-02-03 12:48:12 公開日:2023-02-02
# STEPS: 自己監督型夜間画像強調と深度推定

STEPS: Joint Self-supervised Nighttime Image Enhancement and Depth Estimation ( http://arxiv.org/abs/2302.01334v1 )

ライセンス: Link先を確認
Yupeng Zheng, Chengliang Zhong, Pengfei Li, Huan-ang Gao, Yuhang Zheng, Bu Jin, Ling Wang, Hao Zhao, Guyue Zhou, Qichao Zhang and Dongbin Zhao(参考訳) 自動運転車の3Dセンシング能力を促進できるため、自己監督型深度推定は近年多くの注目を集めている。 しかし、本質的には、夜間にほとんど持たない測光一貫性の仮定に依存している。 様々な夜間画像強調手法が提案されているが,運転シナリオにおける一般化性能は満足できない。 そこで本研究では,夜間画像エンハンサーと深度推定器を共同で学習する最初の手法を提案する。 提案手法は,新たに提案する不確定な画素マスキング戦略を用いて,二つの自己教師付きタスクを密に絡み合う。 この戦略は、夜間の映像が露出度の低い地域だけでなく、露出度の高い地域も苦しむという観測から生まれた。 照明マップ分布に橋形曲線をフィッティングすることにより、両領域を抑圧し、2つのタスクを自然にブリッジする。 提案手法をnuScenesとRobotCarの2つの確立したデータセット上でベンチマークし,両者の最先端性能を示す。 詳細なアブレーションも提案のメカニズムを明らかにしている。 最後に,既存のデータセットの細かな基底真理の問題を緩和するために,CARLAに基づく新たな写真リアルに強化された夜間データセットを提供する。 コミュニティに意味のある新しい課題をもたらします。 コード、データ、モデルはhttps://github.com/ucaszyp/STEPSで入手できる。

Self-supervised depth estimation draws a lot of attention recently as it can promote the 3D sensing capabilities of self-driving vehicles. However, it intrinsically relies upon the photometric consistency assumption, which hardly holds during nighttime. Although various supervised nighttime image enhancement methods have been proposed, their generalization performance in challenging driving scenarios is not satisfactory. To this end, we propose the first method that jointly learns a nighttime image enhancer and a depth estimator, without using ground truth for either task. Our method tightly entangles two self-supervised tasks using a newly proposed uncertain pixel masking strategy. This strategy originates from the observation that nighttime images not only suffer from underexposed regions but also from overexposed regions. By fitting a bridge-shaped curve to the illumination map distribution, both regions are suppressed and two tasks are bridged naturally. We benchmark the method on two established datasets: nuScenes and RobotCar and demonstrate state-of-the-art performance on both of them. Detailed ablations also reveal the mechanism of our proposal. Last but not least, to mitigate the problem of sparse ground truth of existing datasets, we provide a new photo-realistically enhanced nighttime dataset based upon CARLA. It brings meaningful new challenges to the community. Codes, data, and models are available at https://github.com/ucaszyp/STEPS.
翻訳日:2023-02-03 12:41:58 公開日:2023-02-02
# POMDPの学習における下位境界

Lower Bounds for Learning in Revealing POMDPs ( http://arxiv.org/abs/2302.01333v1 )

ライセンス: Link先を確認
Fan Chen, Huan Wang, Caiming Xiong, Song Mei, Yu Bai(参考訳) 本稿では, 強化学習(RL)の基本的限界を, 挑戦的な 'emph{partially observable} 設定で検討する。 部分的に観測可能なマルコフ決定過程(POMDP)での学習は、最悪の場合において指数関数的に多くのサンプルを必要とすることはよく確立されているが、最近の研究の急増は、多項式サンプルの複雑さが 'emph{revealing condition} の下で達成可能であることを示している。 しかし、POMDPを明らかにするための学習の基本的な限界は理解されておらず、既存の下限はかなり予備的であり、現在の最上限とはかなりの差がある。 我々は強力なPACを確立し,POMDPを明らかにする上での学習の限界を後悔する。 我々の下界は、すべての関連する問題パラメータを乗法的に多項式的にスケールし、現在の最上界とのギャップを著しく小さくし、将来の研究の出発点となる。 特に、POMDPを明示する \emph{multi-step} の場合、(1) 潜時状態空間依存が少なくとも$\Omega(S^{1.5})$であり、これは PAC サンプル複雑性において $\widetilde{\Theta}(S)$ scale for fully-observable MDPs; (2) 多項式サブ線形後悔は少なくとも$\Omega(T^{2/3})$であり、$\widetilde{O}(\sqrt{T})$ regret が達成可能であることを示唆する。 技術的には、我々のハードインスタンス構築は、RL文献に新しく、独立した関心を持つかもしれない \emph{distribution testing} のテクニックに適応する。

This paper studies the fundamental limits of reinforcement learning (RL) in the challenging \emph{partially observable} setting. While it is well-established that learning in Partially Observable Markov Decision Processes (POMDPs) requires exponentially many samples in the worst case, a surge of recent work shows that polynomial sample complexities are achievable under the \emph{revealing condition} -- A natural condition that requires the observables to reveal some information about the unobserved latent states. However, the fundamental limits for learning in revealing POMDPs are much less understood, with existing lower bounds being rather preliminary and having substantial gaps from the current best upper bounds. We establish strong PAC and regret lower bounds for learning in revealing POMDPs. Our lower bounds scale polynomially in all relevant problem parameters in a multiplicative fashion, and achieve significantly smaller gaps against the current best upper bounds, providing a solid starting point for future studies. In particular, for \emph{multi-step} revealing POMDPs, we show that (1) the latent state-space dependence is at least $\Omega(S^{1.5})$ in the PAC sample complexity, which is notably harder than the $\widetilde{\Theta}(S)$ scaling for fully-observable MDPs; (2) Any polynomial sublinear regret is at least $\Omega(T^{2/3})$, suggesting its fundamental difference from the \emph{single-step} case where $\widetilde{O}(\sqrt{T})$ regret is achievable. Technically, our hard instance construction adapts techniques in \emph{distribution testing}, which is new to the RL literature and may be of independent interest.
翻訳日:2023-02-03 12:41:35 公開日:2023-02-02
# 画像検索における不確実性定量化のためのベイズ計量学習

Bayesian Metric Learning for Uncertainty Quantification in Image Retrieval ( http://arxiv.org/abs/2302.01332v1 )

ライセンス: Link先を確認
Frederik Warburg, Marco Miani, Silas Brack, Soren Hauberg(参考訳) 計量学習のための最初のベイズエンコーダを提案する。 従来の研究では、ニューラル・アモーティゼーションに頼るのではなく、Laplace Approximationでネットワーク重みの分布を学習する。 まず、対照的な損失が有効なログポストであることを示す。 次に、正の確定ヘッシアンを保証する3つの方法を提案する。 最後に,一般化ガウスニュートン近似の新たな分解法を提案する。 実験の結果,laplacian metric learner (lam) は不確かさを推定し,分散のサンプルを確実に検出し,最先端の予測性能が得られることがわかった。

We propose the first Bayesian encoder for metric learning. Rather than relying on neural amortization as done in prior works, we learn a distribution over the network weights with the Laplace Approximation. We actualize this by first proving that the contrastive loss is a valid log-posterior. We then propose three methods that ensure a positive definite Hessian. Lastly, we present a novel decomposition of the Generalized Gauss-Newton approximation. Empirically, we show that our Laplacian Metric Learner (LAM) estimates well-calibrated uncertainties, reliably detects out-of-distribution examples, and yields state-of-the-art predictive performance.
翻訳日:2023-02-03 12:40:54 公開日:2023-02-02
# SceneDreamer:2D画像からの無拘束3Dシーン生成

SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections ( http://arxiv.org/abs/2302.01330v1 )

ライセンス: Link先を確認
Zhaoxi Chen, Guangcong Wang, Ziwei Liu(参考訳) 本研究では,無作為な雑音から大規模3次元景観を合成する無条件3次元シーン生成モデルであるscenedreamerを提案する。 フレームワークは3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。 SceneDreamerの中核は、原則化された学習パラダイムである 1)効率的かつ表現力のある3Dシーン表現 2)生成的シーンのパラメータ化,及び 3) 2次元画像からの知識を活用できる効果的なレンダラ。 筆者らのフレームワークは,高度場と意味場からなる単純なノイズから生成される効率的な鳥眼ビュー(BEV)表現から始まる。 高さ場は3次元シーンの表面標高を表し、セマンティックフィールドは詳細なシーンセマンティクスを提供する。 このBEVシーン表現は 1)2次複雑さを持つ3次元シーンを表す。 2)絡み合った幾何学,意味論,及び 3)効率的な訓練。 さらに,3次元位置が与えられた潜在空間とシーン意味をパラメータ化するための新しい生成型ニューラルハッシュグリッドを提案し,シーン間の一般化可能な特徴を符号化する。 最後に,2次元画像収集から学習したニューラルボリュームレンダラーを用いて,フォトリアリスティックな画像を生成する。 SceneDreamerの有効性と最先端の手法による鮮明で多種多様な3Dワールドの創出に対する優位性を示す。

In this work, we present SceneDreamer, an unconditional generative model for unbounded 3D scenes, which synthesizes large-scale 3D landscapes from random noises. Our framework is learned from in-the-wild 2D image collections only, without any 3D annotations. At the core of SceneDreamer is a principled learning paradigm comprising 1) an efficient yet expressive 3D scene representation, 2) a generative scene parameterization, and 3) an effective renderer that can leverage the knowledge from 2D images. Our framework starts from an efficient bird's-eye-view (BEV) representation generated from simplex noise, which consists of a height field and a semantic field. The height field represents the surface elevation of 3D scenes, while the semantic field provides detailed scene semantics. This BEV scene representation enables 1) representing a 3D scene with quadratic complexity, 2) disentangled geometry and semantics, and 3) efficient training. Furthermore, we propose a novel generative neural hash grid to parameterize the latent space given 3D positions and the scene semantics, which aims to encode generalizable features across scenes. Lastly, a neural volumetric renderer, learned from 2D image collections through adversarial training, is employed to produce photorealistic images. Extensive experiments demonstrate the effectiveness of SceneDreamer and superiority over state-of-the-art methods in generating vivid yet diverse unbounded 3D worlds.
翻訳日:2023-02-03 12:40:43 公開日:2023-02-02
# Dreamix:ビデオ拡散モデルは一般的なビデオエディタ

Dreamix: Video Diffusion Models are General Video Editors ( http://arxiv.org/abs/2302.01329v1 )

ライセンス: Link先を確認
Eyal Molad, Eliahu Horwitz, Dani Valevski, Alex Rav Acha, Yossi Matias, Yael Pritch, Yaniv Leviathan, Yedid Hoshen(参考訳) テキスト駆動画像とビデオ拡散モデルは、最近前例のない世代のリアリズムを達成した。 拡散モデルが画像編集にうまく適用されているが、ビデオ編集のための作品はほとんどない。 一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。 提案手法では,ビデオ拡散モデルを用いて,原ビデオからの低分解能時空間情報と合成した新たな高分解能情報とを合成し,導出テキストプロンプトと整合させる。 オリジナルビデオに忠実性を持たせるためには、その高解像度情報を保持する必要があるため、オリジナルビデオにモデルを微調整する予備段階を加え、忠実性を大幅に向上させる。 本研究では,時間的注意と時間的注意のマスキングを兼ね備えた新たな複合目標により,運動の編集性を向上させることを提案する。 画像アニメーションの新しいフレームワークについても紹介する。 まず、画像の複製や視線幾何学的投影といった単純な画像処理操作によって粗い映像に変換し、それから一般的なビデオエディタを使ってアニメーション化する。 さらなる応用として、被験者駆動ビデオ生成に本手法を用いることができる。 大規模定性的および数値的な実験は,本手法の顕著な編集能力を示し,ベースライン法と比較して優れた性能を示す。

Text-driven image and video diffusion models have recently achieved unprecedented generation realism. While diffusion models have been successfully applied for image editing, very few works have done so for video editing. We present the first diffusion-based method that is able to perform text-based motion and appearance editing of general videos. Our approach uses a video diffusion model to combine, at inference time, the low-resolution spatio-temporal information from the original video with new, high resolution information that it synthesized to align with the guiding text prompt. As obtaining high-fidelity to the original video requires retaining some of its high-resolution information, we add a preliminary stage of finetuning the model on the original video, significantly boosting fidelity. We propose to improve motion editability by a new, mixed objective that jointly finetunes with full temporal attention and with temporal attention masking. We further introduce a new framework for image animation. We first transform the image into a coarse video by simple image processing operations such as replication and perspective geometric projections, and then use our general video editor to animate it. As a further application, we can use our method for subject-driven video generation. Extensive qualitative and numerical experiments showcase the remarkable editing ability of our method and establish its superior performance compared to baseline methods.
翻訳日:2023-02-03 12:40:25 公開日:2023-02-02
# ic^3$:委員会合意による画像キャプション

$IC^3$: Image Captioning by Committee Consensus ( http://arxiv.org/abs/2302.01328v1 )

ライセンス: Link先を確認
David M. Chan, Austin Myers, Sudheendra Vijayanarasimhan, David A. Ross, John Canny(参考訳) もし人間に画像を記述するように頼んだら、1000種類の方法でそれを行うかもしれない。 伝統的に、画像キャプションモデルは画像キャプションの参照分布を近似するように訓練されるが、それによってキャプションはビューポイントに左右される。 このようなキャプションは、しばしば、可能な詳細のサブセットのみに焦点を当てるが、シーンで潜在的に有用な情報を無視している。 本研究では,複数の視点からハイレベルな詳細をキャプチャする単一キャプションを生成するために設計された,シンプルながら斬新な手法である「委員会合意による画像キャプチャー」(IC^3$)を紹介する。 特に、IC^3$が生成するキャプションは、その3分の2以上のベースラインSOTAモデルと同じくらい有効であり、IC^3$キャプションは、SOTA自動リコールシステムの性能を最大84%向上させることができる。 私たちのコードはhttps://github.com/DavidMChan/caption-by-committeeで公開されています。

If you ask a human to describe an image, they might do so in a thousand different ways. Traditionally, image captioning models are trained to approximate the reference distribution of image captions, however, doing so encourages captions that are viewpoint-impoverished. Such captions often focus on only a subset of the possible details, while ignoring potentially useful information in the scene. In this work, we introduce a simple, yet novel, method: "Image Captioning by Committee Consensus" ($IC^3$), designed to generate a single caption that captures high-level details from several viewpoints. Notably, humans rate captions produced by $IC^3$ at least as helpful as baseline SOTA models more than two thirds of the time, and $IC^3$ captions can improve the performance of SOTA automated recall systems by up to 84%, indicating significant material improvements over existing SOTA approaches for visual description. Our code is publicly available at https://github.com/DavidMChan/caption-by-committee
翻訳日:2023-02-03 12:40:03 公開日:2023-02-02
# デュアルパッチノルム

Dual PatchNorm ( http://arxiv.org/abs/2302.01327v1 )

ライセンス: Link先を確認
Manoj Kumar, Mostafa Dehghani, Neil Houlsby(参考訳) 本稿では,2つのレイヤ正規化レイヤ(LayerNorm)をVision Transformersのパッチ埋め込みレイヤの前後に提案する。 我々は、Transformerブロック自体における代替LayerNorm配置戦略の徹底的な探索の結果、Dual PatchNormが優れていることを示す。 我々の実験では、この自明な修正を取り入れることで、よく調整された視覚変換器よりも精度が向上し、決して傷つけないことが多い。

We propose Dual PatchNorm: two Layer Normalization layers (LayerNorms), before and after the patch embedding layer in Vision Transformers. We demonstrate that Dual PatchNorm outperforms the result of exhaustive search for alternative LayerNorm placement strategies in the Transformer block itself. In our experiments, incorporating this trivial modification, often leads to improved accuracy over well-tuned Vision Transformers and never hurts.
翻訳日:2023-02-03 12:39:42 公開日:2023-02-02
# Federated Analytics: 調査

Federated Analytics: A survey ( http://arxiv.org/abs/2302.01326v1 )

ライセンス: Link先を確認
Ahmed Roushdy Elkordy, Yahya H. Ezzeldin, Shanshan Han, Shantanu Sharma, Chaoyang He, Sharad Mehrotra and Salman Avestimehr(参考訳) フェデレーション分析(Federated Analytics, FA)は、複数のリモートパーティ(モバイルデバイスなど)やサイロ化された機関(病院、銀行など)にデータを共有せずにデータ分析を行うためのプライバシー保護フレームワークである。 本稿では,フェデレーション分析の実践事例に触発されて,フェデレーション分析に関する体系的な議論を続行する。 特に,フェデレーション分析の特徴と,フェデレーション学習との違いについて考察する。 また、さまざまなFAクエリを調査し、さまざまな既存のソリューションとさまざまなFAクエリの潜在的なユースケースアプリケーションについて議論する。

Federated analytics (FA) is a privacy-preserving framework for computing data analytics over multiple remote parties (e.g., mobile devices) or silo-ed institutional entities (e.g., hospitals, banks) without sharing the data among parties. Motivated by the practical use cases of federated analytics, we follow a systematic discussion on federated analytics in this article. In particular, we discuss the unique characteristics of federated analytics and how it differs from federated learning. We also explore a wide range of FA queries and discuss various existing solutions and potential use case applications for different FA queries.
翻訳日:2023-02-03 12:39:35 公開日:2023-02-02
# 任意の次元のヒルベルト空間における絡み合った量子状態と量子測定の証明

Certification of entangled quantum states and quantum measurements in Hilbert spaces of arbitrary dimension ( http://arxiv.org/abs/2302.01325v1 )

ライセンス: Link先を確認
Shubhayan Sarkar(参考訳) 20世紀初めの量子論の出現は、顕微鏡的な世界に対する我々の見解を変え、量子テレポーテーション、量子乱数生成、量子計算などの応用を、古典的システムでは実現できなかったいくつかの名前に導いた。 近年注目されている応用の1つは、複合量子システムのデバイス非依存(DI)認証である。 その背後にある基本的な考え方は、ある入力が出力を生成するブラックボックスとしてあるデバイスを扱うことであり、そのデバイスが生成した統計を研究すれば、それが期待通りに機能するかを検証することである。 これらの認証スキームの目新しさは、デバイスが量子理論を用いて記述されるなど、物理的に十分動機づけられた最小限の仮定の下で、デバイス(特定の同値まで)をほぼ完全に特徴づけることができるという事実にある。 これらの認証スキームで必要とされるリソースは、量子非局所性である。 この論文では、任意の次元の量子系から抽出できる最適な量ランダム性とともに、任意の次元のヒルベルト空間における量子状態と量子測定をデバイス独立に証明するスキームを構築する。

The emergence of quantum theory at the beginning of 20$-th$ century has changed our view of the microscopic world and has led to applications such as quantum teleportation, quantum random number generation and quantum computation to name a few, that could never have been realised using classical systems. One such application that has attracted considerable attention lately is device-independent (DI) certification of composite quantum systems. The basic idea behind it is to treat a given device as a black box that given some input generates an output, and then to verify whether it works as expected by only studying the statistics generated by this device. The novelty of these certification schemes lies in the fact that one can almost completely characterise the device (up to certain equivalences) under minimal physically well-motivated assumptions such as that the device is described using quantum theory. The resource required in most of these certification schemes is quantum non-locality. In this thesis, we construct schemes to device-independently certify quantum states and quantum measurements in Hilbert spaces of arbitrary dimension along with the optimal amount randomness that one can extract from any quantum system of arbitrary dimension.
翻訳日:2023-02-03 12:39:23 公開日:2023-02-02
# 非単調確率部分モジュラー最大化のための全帯域フィードバックによるランダム化グレディラーニング

Randomized Greedy Learning for Non-monotone Stochastic Submodular Maximization Under Full-bandit Feedback ( http://arxiv.org/abs/2302.01324v1 )

ライセンス: Link先を確認
Fares Fourati, Vaneet Aggarwal, Christopher John Quinn, Mohamed-Slim Alouini(参考訳) 本研究は,全帯域フィードバックと確率的報酬を伴う非拘束コンビネート型多腕バンディットの問題点について検討する。 先行研究は、部分モジュラーおよびモノトン報酬関数を仮定するのと同じ問題を研究する。 本研究では, 報酬関数が必ずしも単調ではない場合や, 期待値においてのみ部分モジュラリティが仮定される場合など, より一般的な問題について検討する。 我々は,ランダム化グリーディ学習(rgl)アルゴリズムを提案し,理論的に,horizon $t$ と arms $n$ に対する$\tilde{\mathcal{o}}(n t^{\frac{2}{3}}) の上限値である$\frac{1}{2}$-regretの上限値を達成することを証明した。 また、RGLは、サブモジュールおよび非サブモジュール設定において、他のフルバンド変異よりも経験的に優れていることを示す。

We investigate the problem of unconstrained combinatorial multi-armed bandits with full-bandit feedback and stochastic rewards for submodular maximization. Previous works investigate the same problem assuming a submodular and monotone reward function. In this work, we study a more general problem, i.e., when the reward function is not necessarily monotone, and the submodularity is assumed only in expectation. We propose Randomized Greedy Learning (RGL) algorithm and theoretically prove that it achieves a $\frac{1}{2}$-regret upper bound of $\tilde{\mathcal{O}}(n T^{\frac{2}{3}})$ for horizon $T$ and number of arms $n$. We also show in experiments that RGL empirically outperforms other full-bandit variants in submodular and non-submodular settings.
翻訳日:2023-02-03 12:39:05 公開日:2023-02-02